Está en la página 1de 26

CARACTERIZACIÓN DE UN

CONJUNTO DE DATOS
MSc. Ing. Juan Carlos Acosta Jiménez
Estadística Descriptiva
Caracterización de un conjunto de datos 2
Caracterización de un conjunto de datos 3

Medidas de tendencia central


• Promedio o media aritmética 𝒙
! : es la suma de todos los valores
observados en cada uno de los individuos u objetos de la muestra,
dividido por el numero total de observaciones.
∑$!"# 𝑥! 𝑥# + 𝑥% + 𝑥& + ⋯ + 𝑥$
𝑥̅ = =
𝑛 𝑛
Es la medida más común de tendencia central
Es una medida de fácil cálculo
Es afectada por valores extremos (outliers)
Caracterización de un conjunto de datos 4

• Mediana 𝑴𝒆 : es el valor central de los datos, es decir, el que


divide en dos partes iguales nuestras observaciones luego de ser
ordenadas de menor a mayor. No resulta afectada por valores
extremos.
Si 𝑛 es impar, entonces 𝑀" = 𝑥 !"#
$

# ! $# !
$ "#
Si 𝑛 es par, entonces 𝑀" = $
%

• Moda 𝑴𝒐 : Es el dato u observación de más alta frecuencia


Medidas de tendencia central 5

• Ejemplo 1: Un ascensor tiene capacidad para soportar un peso


máximo de 700 kilos. Al ser utilizado por 6 niños que pesan en
promedio 20 kilos y 8 adultos que pesan en promedio 72 kilos. ¿Está
sobrecargado el ascensor?, explique.
Solución:
𝑥% = 𝑝𝑒𝑠𝑜 𝑑𝑒 𝑒𝑙 𝑛𝑖ñ𝑜 𝑖
𝑦% = 𝑝𝑒𝑠𝑜 𝑑𝑒 𝑒𝑙 𝑎𝑑𝑢𝑙𝑡𝑜 𝑖
Por definición, tenemos:

∑,%*+ 𝑥% 𝑥+ + 𝑥- + 𝑥. + 𝑥/ + 𝑥0 + 𝑥,
𝑥̅&%ñ() = = = 20
6 6

∑6%*+ 𝑦% 𝑦+ + 𝑦- + 𝑦. + 𝑦/ + 𝑦0 + 𝑦, + 𝑦7 + 𝑦6
𝑦612345() = = = 72
8 8

El ascensor está sobrecargado si el peso total supera los 700 kilos, en este caso
tenemos:
, 6

𝑃𝑒𝑠𝑜 𝑡𝑜𝑡𝑎𝑙 = : 𝑥% + : 𝑦% = 6 20 + 8 72 = 120 + 576 = 696


%*+ %*+

Por tanto, el ascensor NO está sobrecargado.


Medidas de tendencia central 6

• Ejemplo 2: Una firma comercial tiene dos sucursales con un total de


220 empleados, con un promedio salarial de $1.200.000. Se sabe que
el 40% trabajan en la primera sucursal además, en la segunda de
ellas, el personal gana $180.000 menos que los de la primera. ¿Cuál
es el promedio salarial de cada una de las sucursales?
Solución:
𝑥% = 𝑠𝑎𝑙𝑎𝑟𝑖𝑜 𝑑𝑒𝑙 𝑒𝑚𝑝𝑙𝑒𝑎𝑑𝑜 𝑖
𝑛+ = 𝑐𝑎𝑛𝑡𝑖𝑑𝑎𝑑 𝑑𝑒 𝑒𝑚𝑝𝑙𝑒𝑎𝑑𝑜𝑠 𝑑𝑒 𝑙𝑎 𝑠𝑢𝑐𝑢𝑟𝑠𝑎𝑙 1 = 40% 𝑑𝑒 220 = 88
𝑛- = 𝑐𝑎𝑛𝑡𝑖𝑑𝑎𝑑 𝑑𝑒 𝑒𝑚𝑝𝑙𝑒𝑎𝑑𝑜𝑠 𝑑𝑒 𝑙𝑎 𝑠𝑢𝑐𝑢𝑟𝑠𝑎𝑙 2 = 132
𝑥+̅ = 𝑝𝑟𝑜𝑚𝑒𝑑𝑖𝑜 𝑠𝑎𝑙𝑎𝑟𝑖𝑎𝑙 𝑑𝑒 𝑙𝑎 𝑠𝑢𝑐𝑢𝑟𝑠𝑎𝑙 1
𝑥̅- = 𝑝𝑟𝑜𝑚𝑒𝑑𝑖𝑜 𝑠𝑎𝑙𝑎𝑟𝑖𝑎𝑙 𝑑𝑒 𝑙𝑎 𝑠𝑢𝑐𝑢𝑟𝑠𝑎𝑙 2

∑--8
%*+ 𝑥% 𝑥+ + 𝑥- + 𝑥. + ⋯ + 𝑥--8
𝑥̅5(514 = = = $1.200.000
220 220

𝑥̅- = 𝑥+̅ − 180.000

∑66
%*+ 𝑥% ∑--8
%*69 𝑥%
𝑥+̅ = 𝑥̅- =
88 132
7

Luego,
𝑥+ + 𝑥- + 𝑥. + ⋯ + 𝑥66 + 𝑥69 + 𝑥98 + 𝑥--8
= $1.200.000
220

88𝑥+̅ + 132𝑥̅-
= $1.200.000
220

88𝑥+̅ + 132𝑥̅- = 220($1.200.000)

88𝑥+̅ + 132(𝑥+̅ − $180.000) = 220($1.200.000)

88𝑥+̅ + 132𝑥+̅ − $23.760.000 = $264.000.000

220𝑥+̅ − $23.760.000 = $264.000.000

220𝑥+̅ = $287.760.000

$287.760.000
𝑥+̅ =
220

𝑥+̅ = $1.308.000

• Ejercicio: Un grupo de 200 estudiantes, cuya estatura media es de 160,96


centímetros se divide en dos grupos, uno con una estatura media de 163,4
centímetros y otro con una de 157,3 centímetros. ¿Cuántos estudiantes hay en
cada grupo?
Caracterización de un conjunto de datos 8

Medidas de variabilidad o dispersión


• Rango: También denominado recorrido, es la diferencia entre el
máximo y el mínimo valor de las observaciones. 𝑅 = 𝑥&'# − 𝑥&()

El rango ignora el modo en el se distribuyen los datos

El rango es sensible
a outliers.
Caracterización de un conjunto de datos 9

• Varianza y desviación estándar: Mide la dispersión con respecto a un


valor central, que en este caso es la media. Mientras mas grande sea
la desviación estándar mayor será la variabilidad de los datos con
respecto a la media.
∑$!"# 𝑥! −𝑥̅ % 𝑥# −𝑥̅ % + 𝑥% −𝑥̅ % + ⋯ + 𝑥$ −𝑥̅ %
𝑠= =
𝑛−1 𝑛−1
Donde 𝑠 % es la varianza.
10
∑%"#$ 𝑥" 11 + 12 + 13 + 16 + 16 + 17 + 18 + 21 124
𝑥!̅ = = = = 15.5
𝑛 8 8
∑%"#$ 𝑥" −𝑥!̅ &
𝑠! =
𝑛−1

11 − 15.5 & + 12 − 15.5 & + 13 − 15.5 & + 16 − 15.5 &+ 16 − 15.5 & + 17 − 15.5 & + 18 − 15.5 & + 21 − 15.5 &
=
8−1

−4.5 & + −3.5 & + −2.5 & + 0.5 & + 0.5 & + 1.5 & + 2.5 & + 5.5 &
=
7

20.25 + 12.25 + 6.25 + 0.25 + 0.25 + 2.25 + 6.25 + 30.25


=
7

78
=
7

= 11.1428571
= 3.33809184
= 3.338
Caracterización de un conjunto de datos 11

• Coeficiente de variación: Se utiliza para comparar la variabilidad de


conjuntos de datos que se miden sobre objetos o momentos
temporales diferentes.
𝑠
𝑐𝑣 = ∗ 100
𝑥̅
Caracterización de un conjunto de datos 12

¿Cuál de las dos presentaciones de pegante es menos dispersa?


Caracterización de un conjunto de datos 13

Ejemplo 1: En un área de servicios dentro de una empresa de manufactura


se realiza una encuesta para evaluar la calidad del servicio proporcionado
y el nivel de satisfacción de los clientes internos.
La encuesta consiste de 10 preguntas, y cada una de ellas evalúa
diferentes aspectos del servicio proporcionado. Las respuestas para cada
pregunta es un número entre 0 y 10. Para hacer un primer análisis de los
resultados obtenidos se suman los puntos obtenidos de las 10 preguntas
para cada cuestionario. A continuación se muestran los puntos obtenidos
en 50 cuestionarios.

78 78 82 85 81 86 80 73 84 78
68 84 75 78 76 76 82 85 91 80
70 87 77 82 84 48 49 39 39 43
35 42 34 44 49 34 30 43 31 34
41 42 45 42 35 38 39 42 43 29

Calcule las medidas de tendencia central y de dispersión a los datos


anteriores y de una primera opinión acerca de la calidad en el servicio.
Caracterización de un conjunto de datos 14

Ejemplo 2: Al analizar una muestra obtenida de un grupo de 12


trabajadores de cierta empresa se obtuvieron los siguientes resultados:

Peso Estatura Edad


(kilogramos) (metros) (años)
65 1,69 23
63 1,75 22
75 1,64 23
72 1,53 25
68 1,7 24
66 1,64 23
65 1,64 24
68 1,64 24
63 1,54 23
66 1,72 24
75 1,94 23
75 1,59 22

a) Determine las medidas de dispersión


b) ¿Cuál variable presenta mayor variabilidad? Explique.
Caracterización de un conjunto de datos 15

Ejercicio: En un estudio de calidad en una reconocida embotelladora,


se decidió examinar 3 líneas diferentes de gaseosas. Los resultados
obtenidos en una muestra aleatoria fueron:

¿Cuál de las tres presentaciones de gaseosas presenta mayor variabilidad?


Caracterización de un conjunto de datos 16

Ejemplo 3: De acuerdo con la información de la distribución de los costos e ingresos


de una cierta empresa en el transcurso de este año, responda:
Meses Enero Febrero Marzo Abril Mayo Junio Julio Agosto Septiembre
Costos
0,91 0,85 0,77 0,84 0,97 0,9 1,7 1,1 0,91
(millones)
Ingresos
1,4 1,27 1,08 1,3 1,42 1,32 1,72 1,05 1,1
(millones)

1) ¿Qué variable ha tenido menor dispersión en el transcurso del año?


a) Mes b) Costo c) Ingresos d) Utilidad

2) ¿Qué variable ha tenido menor consistencia en el transcurso del año?


a) Mes b) Costo c) Ingresos d) Utilidad

Recuerde definir utilidad = Ingresos - Costos

• Ejercicio: El gerente de operaciones de un servicio de paquetería desea adquirir una


nueva flota de autos. Cuando los paquetes se guardan con eficiencia en el interior
de los autos durante la preparación de las entregas, se deben considerar dos
restricciones principales: el peso (en libras) y el volumen (en pies cúbicos) de cada
paquete. Ahora, en una muestra de 200 paquetes, el peso promedio es 26 libras con
una desviación estándar de 3,9 libras. Además, el volumen promedio de cada
paquete es 8,8 pies cúbicos con una desviación estándar de 2,2 pies cúbicos. ¿Cuál
variable es más consistente?
Caracterización de un conjunto de datos 17

Medidas de posición relativa o colocación


• Cuantiles: son valores que dividen en partes iguales una determinada
cantidad de datos. Los mas importantes cuantiles resultan ser:
percentiles 𝑃7 , deciles 𝐷7 y los cuartiles 𝑄7 .

• Percentiles: toman valores del 1 al 99, el 𝑖% de la muestra son valores


menores que él y el 100 − 𝑖% restante son mayores.

Por ejemplo: 𝑃89 representa el 40-ésimo percentil y es el valor debajo


del cual se encuentran el 40% por ciento de las observaciones o
también se podría escribir que indica el valor encima del cual se
encuentran el 60% por ciento de las observaciones.
Caracterización de un conjunto de datos 18
Caracterización de un conjunto de datos 19

Otro ejemplo: 𝑃:; representa el 75-ésimo percentil y es el valor debajo del


cual se encuentran el 75% por ciento de las observaciones o también se
podría escribir que indica el valor encima del cual se encuentran el 25%
por ciento de las observaciones.

• Cuartiles: Existen tres cuartiles 𝑄# , 𝑄% y 𝑄& que dividen a un conjunto de


datos numéricos en 4 partes iguales.

• Deciles: existen nueve deciles 𝐷# ,𝐷% ,𝐷& , 𝐷8 , 𝐷; , 𝐷< , 𝐷: , 𝐷= , 𝐷> que dividen
a un conjunto de datos numéricos en 10 partes iguales.
Caracterización de un conjunto de datos 20

¿Cómo se determinan los percentiles?

1) Los datos 𝑥# , 𝑥% , … , 𝑥$ se deben ordenar de menor a mayor.


2) Buscamos el valor del índice 𝑖, el cual está dado por
𝒑 𝒏#𝟏
𝒊= + 𝟏 = 𝒌. 𝒅 = 𝒌 + 𝟎. 𝒅
𝟏𝟎𝟎
Donde,
𝑝 es el percentil buscado
𝑛 es el número de datos
𝑘 es el valor entero del índice
𝑑 es el valor decimal del índice
3) El P − 𝑝𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙 está dado por el valor de la expresión

𝒙 𝒌 + 𝒅 𝒙 𝒌'𝟏 − 𝒙 𝒌

donde 𝑥 7 es el valor del dato que está en la posición 𝑘.


Caracterización de un conjunto de datos 21

Ejemplo: Determine los percentiles 𝑃() , 𝑃)* , 𝑃*+ , 𝑃,+ , 𝑃-* , 𝑃.- , 𝑃/+ en el siguiente
conjuntos de datos e interprete.

2,3 3,4 6,4 3,8 4,2 1,5 1,9 3,2 1,9


4,7 3,2 2,1 2,0 3,0 3,6 3,6 4,2 2,4

Solución.
Para el percentil 𝑃+- tenemos.
1er paso.
Ordenamos los datos ascendentemente

𝒌 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
𝒙𝒌 1,5 1,9 1,9 2 2,1 2,3 2,4 3 3,2 3,2 3,4 3,6 3,6 3,8 4,2 4,2 4,7 6,4

2do paso.
Tenemos que 𝑝 = 12 y 𝑛 = 18, reemplazando obtenemos el valor del índice
𝑝 𝑛−1 12 18 − 1 204
𝑖= +1= +1= + 1 = 3.04 = 3 + 0.04
100 100 100

Donde 𝑘 = 3 y 𝑑 = 0.04
Caracterización de un conjunto de datos 22

3er paso. En Excel


El percentil 𝑃+- es igual a: 𝑃+- = 𝑥 M + 𝑑 𝑥 MN+ − 𝑥 M
= 𝑥 . +𝑑 𝑥 / − 𝑥 .
= 1.9 + 0.04 2 − 1.9
= 1.9 + 0.04 0.1
= 1.9 + 0.004
= 1.904

Por tanto, el 12% de los datos tiene valores menores o iguales a 1.904 (También
podemos concluir que el 88% de los datos tienen valores mayores o iguales a 1.904)

Análogamente, 𝑃-0 = 𝑄+ = 2.15


𝑃08 = 𝑄- = 𝐷0 = 𝑀O = 3.2
𝑃,8 = 𝐷, = 3.44
𝑃70 = 𝑄. = 3.75
𝑃67 = 4.2
𝑃98 = 𝐷9 = 4.35
Caracterización de un conjunto de datos 23

Para el percentil 𝑃-0 tenemos.


1er paso.
Ordenamos los datos ascendentemente

𝒌 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
𝒙𝒌 1,5 1,9 1,9 2 2,1 2,3 2,4 3 3,2 3,2 3,4 3,6 3,6 3,8 4,2 4,2 4,7 6,4

2do paso.
Tenemos que 𝑝 = 25 y 𝑛 = 18, reemplazando obtenemos el valor del índice
𝑝 𝑛−1 25 18 − 1 425
𝑖= +1= +1= + 1 = 5,25
100 100 100
Donde 𝑘 = 5 y 𝑑 = 0,25.
3er paso.
El percentil 𝑃-0 es igual a: 𝑃-0 = 𝑄+ = 𝑥 M + 𝑑 𝑥 MN+ − 𝑥 M
= 𝑥 0 +𝑑 𝑥 , − 𝑥 0
= 2,1 + 0,25 2,3 − 2,1
= 2,1 + 0,25 0,2
= 2,1 + 0,05 En excel,
= 2,15 =PERCENTIL(matriz;k)

Por tanto, el 25% de los datos tienen valores menores o iguales a 2,15, lo cual es
equivalente a decir, el 75% de los datos tienen valores mayores o iguales a 2,15.
Caracterización de un conjunto de datos 24

Medidas de forma o simetría


• Coeficiente de asimetría (sesgo): Nos permite identificar si los datos se
distribuyen en forma simétrica alrededor del punto central. Se define
matemáticamente así.
3 0
𝑛 𝑥1 − 𝑥̅
𝐴 = 𝑔0 = 8
(𝑛 − 1)(𝑛 − 2) 𝑠
12(

Si 𝐴 ≅ 0, se dice que la distribución de los datos es simétrica.


Si 𝐴 < 0, la distribución de los datos es asimétrica negativa (cola a la izq.)
Si 𝐴 > 0, la distribución de los datos es asimétrica positiva (cola a la der.)

Datos con sesgo negativo Datos insesgados Datos con sesgo positivo
(cola a la izquierda) (cola a la derecha)
Caracterización de un conjunto de datos 25

• Curtosis: Nos permite determinar el grado de concentración que


presentan los valores de la región central de la distribución. También
nos permite medir la homogeneidad de los datos.
3 4
𝑛(𝑛 + 1) 𝑥1 − 𝑥̅ 3 𝑛−1 )
𝐾 = 𝑔4 = 8 −
(𝑛 − 1)(𝑛 − 2)(𝑛 − 3) 𝑠 (𝑛 − 2)(𝑛 − 3)
12(

Si 𝐾 ≅ 0, se dice que la distribución de los datos es Mesocúrtica (normal)


Si 𝐾 < 0, la distribución de los datos es Platicúrtica
Si 𝐾 > 0, la distribución de los datos es Leptocúrtica
Caracterización de un conjunto de datos 26

• Ejemplo: Encuentre la curtosis y el coeficiente de asimetría para los


siguientes datos: 6, 8, 4, 2, 2, 3, 3, 3, 1, 1, 3, 3
Rta/ En Excel
𝑥̅ = 3.25
𝑠 = 2.00567377
𝐴 = 1.37406803
𝐾 = 2.03055316

También podría gustarte