Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Guía Aprendizaje 07C PDF
Guía Aprendizaje 07C PDF
SEMANA N° 07
ÍNDICE
Pág.
1. INTRODUCCIÓN ............................................................................................................................... 3
3. DESARROLLO ................................................................................................................................... 4
5. GLOSARIO ........................................................................................................................................37
6. Referencias .........................................................................................................................................38
1. INTRODUCCIÓN
En esta sesión veremos la importancia de saber cómo es que los datos se distribuyen con respecto a un valor
puntual como es el promedio. El promedio es un valor puntual pero no nos proporciona mayor información,
no sabemos hasta donde se da la representatividad para el conjunto de datos. o variabilidad que existe con
respecto al promedio, pero sin embargo es posible determinar si hay concentración de datos alrededor del
promedio. Martínez Bercandino ,(2012)
Dicho con palabras de Walpole et., alt, (2012): La variabilidad de una muestra desempeña un papel
importante en el análisis de datos. La variabilidad de procesos y productos es un hecho real en los
sistemas científicos y de ingeniería: el control o la reducción de la variabilidad de un proceso a menudo
es una fuente de mayores dificultades. Cada vez más ingenieros y administradores de procesos están
aprendiendo que la calidad del producto y, como resultado, las utilidades que se derivan de los
productos manufacturados es, con mucho, una función de la variabilidad del proceso.
Los estudiantes estarán en capacidad de: seleccionar, comprender y aplicar cada una de las medidas, en casos que lo
ameriten.
Manejar los conceptos, formulas, usos e importancia que cada una de estas medidas lo exige, no solo en clase, sino en
casos reales.
Comprender sus aplicaciones y agilizar sus cálculos.
Entender los conceptos, las ventajas y desventajas en su aplicación.
3. DESARROLLO
“Cuando loa distribución está constituida por un numero grande de intervalos o marca de clase, haciéndose
necesario calcula un promedio sobe una parte de ella, en estos casos, la distribución puede ser distribuida en
cuatro, en diez o en cien partes”. (Martínez Bercandino , 2012, pág. 144)
3.1.1. Percentiles
“El percentil p es un valor tal que por lo menos un valor “P” por ciento de las observaciones son menores o
iguales que este valor y por lo menos (100 - P) por ciento de las observaciones son mayores o iguales que este
valor”. (Anderson, et alt., pág. 86). A si mismo menciona (F. Triola, 2009, pág. 111), “Las puntuaciones z
son medidas de posición, en el sentido de que describen la localización de un valor (en términos de
desviaciones estándar) en relación con la media”. (F. Triola, 2009, pág. 111). En un conjunto de datos existen
99 percentiles, que se denotan P1, P2, P3, …, P99 ,los cuales separan los datos en 100 grupos, con
aproximadamente el 1% de los valores en cada grupo. Por ejemplo el percentil 98, es aquel valor que supera
al 98% de las observaciones y a la vez es superado por el 2%. O tambien podemos decir: P98 =98ª percentil,
deja el 98% de las observaciones menores o iguales a el y el 2% superiores a el.
Formula:
𝒌(𝒏)
𝒄𝒖𝒂𝒏𝒅𝒐 𝒆𝒍 𝒕𝒂𝒎𝒂ñ𝒐 𝒅𝒆 𝒎𝒖𝒆𝒔𝒕𝒂 𝒆𝒔 𝒑𝒂𝒓; 𝑷𝒌 =
𝟏𝟎𝟎
𝒌(𝒏 + 𝟏)
𝒄𝒖𝒂𝒏𝒅𝒐 𝒆𝒍 𝒕𝒂𝒎𝒂ñ𝒐 𝒅𝒆 𝒎𝒖𝒆𝒔𝒕𝒓𝒂 𝒆𝒔 𝒊𝒎𝒑𝒂𝒓; 𝑷𝒌 =
𝟏𝟎𝟎
Cálculo del percentil Pk
Paso 1. Ordenar los datos de menor a mayor (colocar los datos en orden ascendente).
Paso 2. Calcular el índice k, donde p es el percentil deseado y n es el número de observaciones.
Ejemplo 01. Con los siguientes datos: 16, 15, 12, 10, 8, 11, 26, 14, 11, 15
Se pide calcular el percentil 30 y 90.
Solución:
𝒌(𝒏)
𝒎𝒖𝒆𝒔𝒕𝒂 𝒆𝒔 𝒑𝒂𝒓; 𝑷𝒌 =
𝟏𝟎𝟎
Hallar el percentil 30
Paso 1. Ordenar los datos de menor a mayor (colocar los datos en orden ascendente).
8 10 11 11 12 14 15 15 16 26
𝒌(𝒏)
Paso 2. Calcular el percentil 𝑷𝒌 = 𝟏𝟎𝟎
𝟑𝟎∗(𝟏𝟎)
𝑷𝟑𝟎 = 𝟏𝟎𝟎
=𝟑
La fórmula de localización indica que el percentil se localiza entre el tercero lugar por lo tanto la respuesta es
11.
Interpretacion:
P30 = 11, el 30% de los datos tienen un valor menor o igual a 11.
Interpretacion:
P30 = 12, el 30% de los datos tienen un valor menor o igual a 11.
Hallar el percentil 90
Paso 1. Ordenar los datos de menor a mayor (colocar los datos en orden ascendente).
8 10 11 11 12 14 15 15 16 26
𝒌(𝒏)
Paso 2. Calcular el percentil 𝑷𝒌 = 𝟏𝟎𝟎
𝟗𝟎∗(𝟏𝟎)
𝑷𝟗𝟎 = 𝟏𝟎𝟎
=𝟗
La fórmula de localización indica que el percentil se localiza entre el noveno lugar por lo tanto la respuesta es
16. Interpretacion:
El 90% de los datos tienen un valor menor o igual a 25.
Ejemplo 02. Con los siguientes datos: 13, 14, 15, 15, 16, 16, 17, 21, 21, 21, 22, 22, 22
Solucion:
𝒌(𝒏 + 𝟏)
𝒎𝒖𝒆𝒔𝒕𝒓𝒂 𝒆𝒔 𝒊𝒎𝒑𝒂𝒓; 𝑷𝒌 =
𝟏𝟎𝟎
Ordenamos los datos de menor a mayor
Datos 13 14 15 15 16 16 17 21 21 21 22 22 22
Nº de orden 1 2 3 4 5 6 7 8 9 10 11 12 13
𝟑𝟎(𝟏𝟑 + 𝟏) 𝟏𝟒
𝑷𝟑𝟎 = = 𝟑𝟎 ∗ = 𝟒, 𝟐
𝟏𝟎𝟎 𝟏𝟎𝟎
Este resultado tenemos que el percentil se encuentra entre el cuarto y quinto lugar, y 0.2 representa la distancia
entre esos valores entonces interpolamos utilizando la siguiente formula;Pi = X i + d( Xi+1 – Xi),
Xi; la parte entera y la ubicación
D; la parte decimal
Xi+1 representa la ubicación siguiente.
Pi = Xi + d( Xi+1 – Xi) P30 = 4+ 0.2*(16-15) = 15.2
Interpretacion:
El 30% de los datos tienen un valor menor o igual a 15,2.
𝟗𝟎(𝟏𝟑 + 𝟏) 𝟏𝟒
𝑷𝟗𝟎 = = 𝟗𝟎 ∗ = 𝟏𝟐, 𝟔
𝟏𝟎𝟎 𝟏𝟎𝟎
Interpretacion:
El 90% de los datos tienen un valor menor o igual a 22.
Ejemplo 03.
Tabla 1.
Categoría
(especificaciones fi hi hi% Hi Hi%
de diseño)
0 7 0,1167 11,67 7 11,67
1 12 0,2000 20,00 19 31,67
2 13 0,2167 21,67 32 53,33
3 14 0,2333 23,33 46 76,67
4 6 0,1000 10,00 52 86,67
5 3 0,0500 5,00 55 91,67
6 3 0,0500 5,00 58 96,67
7 1 0,0167 1,67 59 98,33
8 1 0,0167 1,67 60 100,00
Total 60 1 100
Nota. Fuente: (Devore, 2008, p. 21) Probabilidad y Estadística para Ingenierías y Ciencias
Solucion:
Percentil 80
1º Determinanos la frecuencia acumulada (Hi)
2ºDeterminamos la posicion del percentil 80
𝒌(𝒏) 𝟖𝟎∗𝟔𝟎
Pk= 𝟏𝟎𝟎 = 𝟏𝟎𝟎
= 48 𝑜𝑏𝑡𝑒𝑛𝑒𝑚𝑜𝑠 𝑙𝑎 𝑝𝑜𝑠𝑖𝑐𝑖ó𝑛.
Percentil 75
1º Determinanos la frecuencia acumulada (Hi)
2º Determinamos la posicion del percentil 75
𝒌(𝒏) 𝟕𝟓∗𝟔𝟎
Pk= 𝟏𝟎𝟎 = 𝟏𝟎𝟎
= 45 𝑜𝑏𝑡𝑒𝑛𝑒𝑚𝑜𝑠 𝑙𝑎 𝑝𝑜𝑠𝑖𝑐𝑖ó𝑛.
Ejemplo 04.
De la tabla adjunta calcular percentil 25, 75 y 80
Tabla 2.
Solucion:
Hallar percentil 25
1º Determinamos la posicion del percentil 25
𝒌(𝒏) 𝟐𝟓∗𝟑𝟎
Pk= = = 7.5 ~8 𝑒𝑠𝑡á 𝑒𝑠 𝑙𝑎 𝑝𝑜𝑠𝑖𝑐𝑖ó𝑛.
𝟏𝟎𝟎 𝟏𝟎𝟎
Hallar percentil 75
1º Determinamos la posicion del percentil 75
𝒌(𝒏) 𝟕𝟓∗𝟑𝟎
Pk= 𝟏𝟎𝟎 = = 22.5 ~23 𝑒𝑠𝑡á 𝑒𝑠 𝑙𝑎 𝑝𝑜𝑠𝑖𝑐𝑖ó𝑛.
𝟏𝟎𝟎
Hallar percentil 80
1º Determinamos la posicion del percentil 80
𝒌(𝒏) 𝟖𝟎∗𝟑𝟎
Pk= = = 24 𝑒𝑠𝑡á 𝑒𝑠 𝑙𝑎 𝑝𝑜𝑠𝑖𝑐𝑖ó𝑛.
𝟏𝟎𝟎 𝟏𝟎𝟎
Li = 1,77 c= 0.07
SEMANA N° 07 – NOMBRE DEL CURSO
kn/100 = 24 Fi-1 = 23 (frecuencia anterior al valor) fi = 5
8
Escuela Profesional de Ingeniería Civil
Carrera Profesional de Ingeniería Civil
𝟐𝟒−𝟐𝟎
𝑷𝟖𝟎 = 𝟏, 𝟕𝟕 + 𝟎, 𝟎𝟕 [ ]= 1,83 metros.
𝟓
3.1.2. Deciles
Los deciles son valores que dividen a un conjunto de datos ordenados en forma ascendente o descendente en
10 partes iguales.
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
D1 D2 D3 D4 D5 D6 D7 D8 D9
Fig. 3.1.2.2
Datos no agrupados.
𝑖 ∗ (𝑛 + 1)
𝐷𝑘 = , 𝑐𝑢𝑎𝑛𝑑𝑜 "𝑛" 𝑒𝑠 𝑖𝑚𝑝𝑎𝑟 𝑑𝑜𝑛𝑑𝑒 𝑖 = 1,2,3, … ,9
10
𝑖 ∗ (𝑛)
𝐷𝑘 = , 𝑐𝑢𝑎𝑛𝑑𝑜 n 𝑒𝑠 𝑝𝑎𝑟 𝑑𝑜𝑛𝑑𝑒 𝑖 = 1,2,3, … ,9
10
Ejemplo 05. Con los siguientes datos: 10, 12, 16, 10, 4, 8, 12, 10, 8, 11, 8, 18, 11, 20, 21
Hallar el cuarto y séptimo decil.
Solución.
Ordenar los datos de menor a mayor
4 8 8 8 10 10 10 11 11 12 12 16 18 20 21
Tamaño de muestra: n = 15
4∗(15+1) 16
𝑐𝑢𝑎𝑟𝑡𝑜 𝑑𝑒𝑐𝑖𝑙: 𝐷4 = 10
= 4 ∗ 10 = 6,4 . El valor debe estar entre la sexta y séptima posición
Datos agrupados
Tabla 3.
Solución
𝑘∗𝑛 4∗30
1º se calcula 𝐷4 : 𝐷𝑘 = = = 12
10 10
3.1.3. Cuartiles
Los cuartiles son valores que dividen a un conjunto de datos ordenados ascendentes o descendentes en custro
partes iguales.
Q1 Q2 Q3
Fig. 3.1.2.2
Q1 = 1º cuartil, deja el 25% de las observaciones menores o iguales a él y el 75% superiores a él.
Q2 = 2º cuartil deja el 50% de las observaciones menores o iguales a él. El segundo cuartil coincide con la
mediana
Q3 = 3º cuartil, deja el 75% de las observaciones menores o iguales a él y el 25% superiores a él.
Datos no agrupados.
𝑖 ∗ (𝑛 + 1)
𝑄𝑘 = , 𝑐𝑢𝑎𝑛𝑑𝑜 "𝑛" 𝑒𝑠 𝑖𝑚𝑝𝑎𝑟 𝑑𝑜𝑛𝑑𝑒 𝑖 = 1,2,3
4
𝑖 ∗ (𝑛)
𝑄𝑘 = , 𝑐𝑢𝑎𝑛𝑑𝑜 n 𝑒𝑠 𝑝𝑎𝑟 𝑑𝑜𝑛𝑑𝑒 𝑖 = 1,2,3
4
Ejemplo 07. Con los siguientes datos: 10, 12, 16, 10, 4, 8, 12, 10, 8, 11, 8, 18, 11, 20, 21
Hallar el primer y tercer cuartil.
Solución.
Ordenar los datos de menor a mayor
4 8 8 8 10 10 10 11 11 12 12 16 18 20 21
1∗(15+1)
𝑝𝑟𝑖𝑚𝑒𝑟 𝑐𝑢𝑎𝑟𝑡𝑖𝑙: 𝑄1 = 4
= 4ª 𝑝𝑜𝑠𝑖𝑐𝑖ó𝑛. Contamos cuatro posiciones y observamos que el valor es 8.
Solución
𝑘∗𝑛 1∗30
1º se calcula 𝑄1 : 𝑄1 = 4
= 4
= 7,5~ 8 ª 𝑝𝑜𝑠𝑖𝑐𝑖ó𝑛
2º se idéntica la clase que contiene al decil, lo ubicamos en la frecuencia acumulada.
Se encuentra en la segunda clase o segunda fila de la tabla
Li = 1,56 n = 30 c = 0,07 fi = 7 Fi-1 = 4
8−4
3º se aplica la fórmula 𝑸𝟏 = 𝟏, 𝟓𝟔 + 𝟎, 𝟎𝟕 [ ] = 1,60 (𝑚)
7
Ejemplo 09.
continuación se presentan los tiempos de vida, en horas, de 50 lámparas incandescentes, con esmerilado
interno, de 40 watts y 110 voltios, los cuales se tomaron de pruebas forzadas de vida:
Solución:
Para poder encontrar los indicadores. Los datos los debe de ordenarse en una tabla de frecuencia.
Max 1340
min 702
R 638
K 6,64397835 7
C 91,1428571 92
Tabla 5.
Promedio
∑𝑛
𝑖=1 𝑓𝑖∗𝑥𝑖
𝑥̅ = 𝑛
= 1.024 horas aproximadamente
Mediana
n
2 Fi 1
Me Li A
fi
Me = 1001 horas aproximadamente
Moda
1
Mo Li A
1 2
Percentil
𝒌𝒏
− 𝑭𝒊−𝟏
𝑷𝟖𝟎 = 𝑳𝒊 + 𝒄 [ 𝟏𝟎𝟎 ]
𝑓𝑖
80*50/100 = 40
40−31
𝑷𝟖𝟎 = 𝟏, 𝟎𝟕𝟎 + 𝟗𝟐 [ 9
] = 1,162 horas aproximadamente
Cuartil
𝒌𝒏
−𝑭𝒊−𝟏
𝟒
𝑄𝟑 = 𝑳𝒊 + 𝒄 [ 𝑓𝑖
] = 1,136 horas aproximadamente
Decil
𝒌𝒏
−𝑭𝒊−𝟏
𝑫𝟕 = 𝑳𝒊 + 𝒄 [ 𝟏𝟎 𝑓𝑖
] = 1,111 horas aproximadamente
3.2.1. El rango
“El rango intercuartílico IQR (o rango intercuartil) es una estimación estadística de la dispersión de una
distribución de datos. Consiste en la diferencia entre el tercer y el primer cuartil. Mediante esta medida se
eliminan los valores extremadamente alejados. El rango intercuartílico es altamente recomendable cuando la
medida de tendencia central utilizada es la mediana (ya que este estadístico es insensible a posibles
irregularidades en los extremos)”. (Universo formulas, s.f.)
En una distribución, encontramos la mitad de los datos, el 50 %, ubicados dentro del rango intercuartílico.
Conforme aumente el IQR, indicará que la dispersión será mayor. Por lo tanto, en distribuciones con una
gran asimetría, (alejadas de la distribución normal o campana de Gauss) es más apropiado medir la tendencia
central y la dispersión mediante la mediana y el rango intercuartil respectivamente que con la media
aritmética y la desviación típica.
Con el IQR podremos elaborar los diagramas de caja, que es un instrumento muy visual para evaluar la
dispersión de una distribución.
IQR = Q3 –Q1
Ejemplo 11. Con los siguientes datos: 10, 12, 16, 10, 4, 8, 12, 10, 8, 11, 8, 18, 11, 20, 21
Hallar el primer y tercer cuartil.
1∗(15+1)
𝑝𝑟𝑖𝑚𝑒𝑟 𝑐𝑢𝑎𝑟𝑡𝑖𝑙: 𝑄1 = 4
= 4ª 𝑝𝑜𝑠𝑖𝑐𝑖ó𝑛. El valor es 8.
3∗(15+1)
𝑡𝑒𝑟𝑐𝑒𝑟 𝑐𝑢𝑎𝑟𝑡𝑖𝑙: 𝑄3 = 4
= 12ª 𝑝𝑜𝑠𝑖𝑐𝑖ó𝑛. El valor debe es 16.
IQR = 16 – 8 = 8
Interpretación: El 50% de los datos está dentro de este rango.
El 50% central de los datos se distribuye a una distancia de 8.
3.2.3. Varianza
La varianza es la distancia de las observaciones con respecto al promedio elevadas al cuadrado. También
muestra la variación de los datos alrededor del promedio. Se debe tener en cuenta que el cálculo de la varianza
hace que sus unidades también queden elevadas al cuadrado por ejemplo talla2, metros2, etc.
Si el conjunto de datos es una muestra entonces la varianza se denotará por s2 y si es de una población se
denotara por 𝜎 2 .
Si los datos no están agrupados en tabla de frecuencia entonces su cálculo se realizará utilizando las siguientes
formulas.
Si el conjunto de datos es una muestra entonces se debe utilizar:
∑𝑛
𝑖=1(𝑥𝑖 −𝑥̅ )
2 ∑𝑛 2
𝑖=1 𝑥𝑖 − 𝑛𝑥̅
𝑠2 = 𝑛−1
= 𝑛−1
,
Es la raíz cuadrada positiva de la varianza, esta medida está en las mismas unidades que los datos y de esta
manera la interpretación es más fácil la interpretación con respecto al promedio. Si el conjunto de datos es una
muestra, la desviación estándar se denotará por “S”
Si los datos no están agrupados en tabla de frecuencia entonces su cálculo se realizará utilizando las siguientes
formulas.
Si el conjunto de datos proviene de una muestra la desviación estándar se denota por:
𝑠 = √𝑠 2
Si el conjunto de datos es una población la desviación estándar se denota por:
𝜎 = √𝑠 2
Es la medida de dispersión que se define como el cociente entre la desviación estándar (𝜎) entre el promedio
multiplicado por 100. Sirve para ver si los datos están muy dispersos y para comparar grupos.
𝜎
𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑣𝑎𝑟𝑖𝑎𝑐𝑖𝑜𝑛 𝑝𝑎𝑟𝑎 𝑙𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛: 𝐶𝑉% = *100
𝑥̅
𝑠
𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑣𝑎𝑟𝑖𝑎𝑐𝑖𝑜𝑛 𝑝𝑎𝑟𝑎 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎: 𝐶𝑉% = 𝑥̅ *100
Ejemplo 12.
Se tiene los siguientes datos, que representan los pesos en kilogramos de un artículo:
5 6 8 5 6 3 2 4 5
Se pide calcular la varianza, desviación estándar y el coeficiente de variación.
Solución.
Primero calculamos el promedio 𝑥̅ = 4,889 en promedio los artículos pesan 4.889 kg aproximadamente.
Varianza
∑𝑛
𝑖=1(𝑥𝑖 −𝑥̅ )
2 (5−4,899) 2+(6−4,889) 2+(8−4,889) 2+⋯+(5−4,889) 2 24,889
𝑆2 = 𝑛−1
= 9−1
= 8
= 3.111 kg^2
Desviación estándar
𝑠 = √3.111 = 1,764 kg. La variabilidad con respecto del promedio es de 1,764 kg
Coeficiente de variación
1,764
𝐶𝑉% = 4,889*100 = 36,08
El peso promedio de los 9 artículos es de 4,89 kg, las diferencias cuadráticas de los pesos con respecto del
promedio es de 1,764 kg 2, la variabilidad de los pesos es de 1,764 kg. Y el coeficiente de variación de 36.7%
que es la desviación estándar con respecto del promedio. El alto valor del coeficiente de variabilidad nos indica
que existe una dispersión en los pesos.
2
∑𝑛𝑖=1 𝑓𝑖 (𝑥𝑖 − 𝑥̅ )2 ∑𝑛𝑖=1 𝑓𝑖 ∗ 𝑥𝑖2 − 𝑛𝑥̅ 2
𝑆 = =
𝑛−1 𝑛−1
Desviación estándar
𝑠 = √𝑠 2
Coeficiente den variación
𝑠
𝐶𝑉% = *100
𝑥̅
Ejemplo: de la tabla adjunta se pide calcular la: varianza, desviación estándar, coeficiente de variación
Tabla 6
18
Solución
Promedio
𝑥̅ = 1024
∑𝑛
𝑖=1 𝑓𝑖 (𝑥𝑖 −𝑥̅ )
2
Varianza; 𝑆 2 = 𝑛−1
∑𝑛𝑖=1 𝑓𝑖
(𝑥𝑖 − 𝑥̅)2 3(748 − 1.024)2 + 3(840 − 1.024)2 + 18(932 − 1.024)2 + ⋯ + 3(1300 − 1.024)2
𝑆2 = =
𝑛−1 50 − 1
33.223.755
= = 678.035,81 ℎ2
49
2
∑𝑛𝑖=1 𝑓𝑖 ∗ 𝑥𝑖2 − 𝑛𝑥̅ 2
𝑆 = 𝑞𝑢𝑒𝑑𝑎 𝑝𝑎𝑟𝑎 𝑒𝑙 𝑒𝑠𝑡𝑢𝑑𝑖𝑎𝑛𝑡𝑒 𝑐𝑜𝑚𝑝𝑟𝑢𝑒𝑏𝑒 𝑒𝑙 𝑟𝑒𝑠𝑢𝑙𝑡𝑎𝑑𝑜.
𝑛−1
Desviación estándar
𝑠 = √678.035,81 = 823,43 horas
Coeficiente de variación
823,43
𝐶𝑉% = ∗ 100 = 80,41
1.024
El tiempo de vida promedio de las 50 lámparas es de 1.024 horas aproximadamente, las diferencias cuadráticas
de las horas con respecto del promedio es de 678.035,81 ℎ2, la variabilidad de las horas con respecto del
promedio es de 823,43 horas. Y con un coeficiente de variación de 80.41%, este valor nos indica que existe
mucha dispersión en las horas de vida de las lámparas incandescentes.
“Son valores que representan o dan a conocer la manera en que los datos se hallan distribuidos en
relación a la media aritmética y toman como referente de comparación a la distribución normal o
campana de Gauss, en lo que hace relación al sesgo y a la curtosis. Adicionalmente se toma en
consideración al diagrama de caja y bigotes”. (Salazar P. & Del Castillo, 2018, pág. 78)
Se dice que una distribución es simétrica cuando las medidas de tendencia central coinciden. Se dice que es
simétrica a la derecha si las frecuencias absolutas o número de observaciones descienden más lentamente por
la derecha.
Es el grado de deformación de la curva representativa de una distribución de frecuencias con respecto a la
vertical que pasa por la abscisa de la media aritmética; se mide a través del Coeficiente de Asimetría.
Curva Unimodal
Mo < Me < X
Mo Me
Sesgo Negativo).
Curva Unimodal
Mo > Me > X
𝑋̅ Me Mo
Coeficiente de Asimetría.
Consideramos varias fórmulas para el cálculo de la medida de asimetría:
Coeficiente de Asimetría en base a Momentos.
1 ( xi - x ) f i
m 3
AS =
n s3
Primero y segundo coeficiente de asimetría de PEARSON
Denominado primer coeficiente de Parson. Este coeficiente tiene sentido cuando la moda es única
X Mo
AS1
S
Denominado segundo coeficiente de Pearson.
3( X Md )
AS 2
S
Coeficiente de Asimetría cuartílico o de ARTHUR BOWLEY
Q 3 2Q 2 Q1
AS
Q 3 Q1
Decisión:
As=0, entonces la distribución es simétrica.
As<0, entonces la distribución es asimétrica (-)
As>0, entonces la distribución es asimétrica (+)
D. Leptocúrtica
D. Mesocúrtica (Normal )
D. Platicúrtica
K= = 2 ; x : media
n s4 M2
Decisión:
K=3, Entonces la distribución posee una curva mesocúrtica (Normal).
K<3, Entonces la distribución posee una curva platicúrtica.
Decisión:
K=0.263, la distribución es mesocúrtica.
K<0.263, la distribución es platicúrtica.
K>0.263, la distribución es leptocúrtica.
Ejemplo. Calcular el grado de asimetría y kurtosis de la distribución del nivel de glucosa de los 60 varones
adultos evaluados. Los cálculos son organizados en la tabla, de modo que reemplazando datos en fórmula se
tiene:
Tabla 7
(x 1
i x) 3 f i
116.555,56
Coeficiente Asimetría = 3
= = 0.2799,
ns 60 * (19.076) 3
( x x)
1
i
4
fi
18.818.611,1111
Coeficiente Kurtosis = 4
= = 2.3686
n*s 60 * (19.076) 4
El valor del coeficiente de asimetría iguala 0.279 nos indica que la distribución del nivel de glucosa es
asimétrica positiva, es decir que existen valores que están muy por encima de los demás. El valor del
coeficiente de la kurtosis igual a 2,3656 nos indica que la distribución de los niveles de glucosa es menos
apuntalada que la distribución normal (platicurtica) o difiere ligeramente de la distribución normal.
Los gráficos de caja son importantes para el análisis de variables cuantitativas ya que en un solo momento nos
muestra información relevante. De acuerdo con (E. Walpole, et alt., 2012, pág. 46) sobre la utilidad de los
graficos de caja, nos hace mencion que estos graficos son utilies porque:
Reflejan propiedades de una muestra es la gráfica de caja y bigote, la cual encierra el rango intercuartil
de los datos en una caja que contiene la mediana representada. El rango intercuartil tiene como
extremos el percentil 75 (cuartil superior) y el percentil 25 (cuartil inferior). Además de la caja se
prolongan “bigotes”, que indican las observaciones alejadas en la muestra. Para muestras
razonablemente
grandes la presentación indica el centro de localización, la variabilidad y el grado de asimetría.
Además, una variación denominada gráfica de caja puede ofrecer al observador información respecto
de cuáles observaciones son valores extremos. Los valores extremos son observaciones que se
consideran inusualmente alejadas de la masa de datos. Existen muchas pruebas estadísticas diseñadas
para detectar este tipo de valores. Técnicamente se puede considerar que un valor extremo es una
observación que representa un “evento raro” (existe una probabilidad pequeña de obtener un valor que
esté lejos de la masa de datos). El concepto de valores extremos volverá a surgir en el capítulo 12 en
el contexto del análisis de regresión. La información visual en las gráficas de caja y bigote o en las de
caja no intenta ser
una prueba formal de valores extremos, más bien se considera una herramienta de diagnóstico. Aunque
la determinación de cuáles observaciones son valores extremos varía de acuerdo con el tipo de software
que se emplee, un procedimiento común para determinarlo consiste en utilizar un múltiplo del rango
intercuartil. Por ejemplo, si la distancia desde la caja excede 1.5 veces el rango intercuartil (en
cualquier dirección), la observación se podría considerar un valor extremo.
“La línea gruesa es la mediana, la parte inferior de la caja es el primer cuartil (Q1), esto es, el valor que
La mediana (corresponde al segundo cuartil Q2) permite dividir al conjunto de datos en dos partes de modo
tal que cada parte tendrá el 50% de los datos (luego de ordenar todo el conjunto de datos de menor a mayor).
El tercer cuartil (3st Qu.) separa al 75% de los datos una vez ordenados de menor a mayor”. (Anónimo, s.f.)
Valores Valores
atípicos Valores Valores
extremos
atípicos extremos
F1 f1 f2 F2
6 Construir una caja o rectángulo sobre la escala usando como límites los valores de Q1, Q2 y Q3. (el
ancho es discrecional)
Q1 Q2 Q3
Del ejemplo tiempos de vida, en horas, de 50 lámparas incandescentes, con esmerilado interno, de 40 watts y
110 voltios, los cuales se tomaron de pruebas forzadas de vida:
Elaborar el grafico de cajas y bigotes
5 Valores atípicos
En los datos ordenados de menor a mayor vemos.
6 Valores extremos
Datos menores que F1 menor que 233,75: no hay datos
Datos mayores que F2 mayor que 1.845,5: no hay datos
Q1 Q2 Q3
Min Max
702 924,50 1.009 1.155
1.340
Q1 = 921,17
Q2 = Md = 1.001
Q3 =1.136
IRQ = Q3 – Q1 = 1.136-921,17 = 214,83
Li Ls xi
f1 = Q1 – 1,5*RI = 921,17 – 1,5(214,83) = 598,93
702 794 748
Es el menor valor que se me permite tomar cualquier valor menor 794 886 840
se debe considerar atípico y lo vemos en la marca de clase que no 886 978 932
hay valores menores. 978 1070 1024
f2 = Q3 + 1,5*RI = 1.136+1,5(214,83) = 1,458.25 1070 1162 1116
Es el máximo valor que se me permite tomar cualquier valor mayor 1162 1254 1208
se debe considerar atípico y lo vemos en la marca de clase que no 1254 1346 1300
hay valores mayores.
Q1 Q2 Q3
Min 921,17 1.001 1.136 Max
702 1340
702 790 840 890 940 990 1.040 1.090 1.140 1.190 1.240 1.290 1.340
Con un solo grafico podemos obtener mucha información como; el 25% (Q1) que no supera las 921, 17 h.
Además, en el bigote derecho existe mayor dispersión con respecto a la mediana. El IRQ informa que el 50%
de lámparas tienen en promedio un tiempo de vida de 214,83 horas, además que las horas de supervivencia de
ese 50% están comprendidas entre 921,17 a 1.1136 h. Exactamente la mitad de las lámparas tienen una
Generar gráfico de caja con Excel para datos sin agrupar (el software solo da para datos no agrupado)
Ejercicio resuelto
Sean “X” una variable aleatoria cualquiera,
X= 6, 9, 9, 12, 12, 12, 15, 17
Se pide calcular; la asimetría y curtosis.
Solución.
Coeficiente de Asimetría.
En este caso se va calcular por todos los métodos
∑𝑛
𝑖=1 𝑋𝑖
Promedio. 𝑥̅ = 𝑛
= 11,5 Mo = 12 Md = 12
3( X Md ) 3 * (11,5 12)
AS2 AS 2 0,428
S 3,505
Coeficiente de Asimetría cuartílico o de ARTHUR BOWLEY
Q3 2Q2 Q1 12,75 2 * 12 9
AS 0,6
Q3 Q1 12,75 9
Vemos que se tiene diferentes resultados eso no debes prestar importancia
Criterio de decisión.
As = 0, entonces la distribución es simétrica.
As < 0, entonces la distribución es asimétrica (-)
Figura 1
Distribución de frecuencias
Nota. As<0, entonces la distribución es asimétrica (-), K > 0.263, distribución es leptocúrtica.
Fuente: datos ficticios
Ejemplo.
Calcular el coeficiente de asimetría en la siguiente distribución, utilizando el coeficiente de Pearson de primer
momento y la curtosis en función de momentos.
Tabla 9
Solución
Tabla 10
X Mo 3,733 2
AS1 1,06
S 1,639
As >0, entonces la distribución es asimétrica (+)
Figura 2
Distribución de frecuencias
Nota. K<2,63; la curva es achatada o platicurtica, As >0, entonces la distribución es asimétrica (+)
Fuente: datos ficticios
4. ACTIVIDADES Y EVALUACIÓN
Actividad grupal
28 42 64 32 68 25 34 40 51 62
36 56 76 40 70 28 38 46 58 64
Se pide:
a) Trabajando con los datos originales calcular la desviación estándar, mediana y el coeficiente de
variación.
b) Agrupar los datos en una tabla de frecuencias, teniendo en cuenta que la amplitud es constante (la
variable es continua) y k = 6, calcular el coeficiente de variación.
02 Suponga que se tiene otra distribución que presenta las siguientes medidas:
𝑥̅ = 38,5 y S2 = 36
Comparando con los resultados del ejercicio anterior (Nº 01), determinar:
a) ¿Cuál de las dos distribuciones presenta una menor variabilidad absoluta?
b) ¿Cuál de ellas presenta una mayor variabilidad relativa?
03 del ejercicio 01
a) Calcular el grado y la dirección de la asimetría con los datos de la tabla de frecuencias (usar el segundo
momento de Pearson)
b) Calcular el grado de apuntamiento en esa distribución, determinando si es normal, achatada o apuntada. (en
función de momentos)
̅ = 𝟒𝟏
𝑿
7 7 14 4 10 12 11 16 6 17
Se pide determinar:
a) ¿En cuál distribución se observa una mayor variabilidad absoluta?
b) ¿En cuál distribución se observa una menor variabilidad relativa?
c) ¿Si consideramos un valor de 18, en cuál de las distribuciones se tiene una mayor posición relativa?
06 Los salarios mensuales que paga una fábrica a los operarios que trabajan en dos turnos, tiene las
siguientes estadísticas:
a) Comparar los salarios en los dos turnos en cuanto a variabilidad absoluta y relativa.
b) Obtener el coeficiente de variación para el salario de los 100 operarios.
c) Cual será el coeficiente de variación para el año entrante si el gerente ofrece un aumento de
$22.000 para los del primer turno y un 7% para los del segundo turno. El coeficiente de variación a calcular,
se refiere al total de los 100 operarios.
07 Con los siguientes datos, correspondientes a una distribución de frecuencias, se pide calcular el grado
de simetría o asimetría, indicando hacia qué lado, lo mismo que el grado de apuntamiento. Además,
calcular
a) El coeficiente de variación
b) El puntaje típico
c) La desviación media y mediana
Li Ls fi
2,1 6 3
6 10 12
10 14 25
14 18 7
18 22 2
22 26 11
8 A los trabajadores de una empresa, el próximo año, el salario mensual les será aumentado en un 4,2%
más s/. 8.000. La empresa tiene 600 trabajadores y actualmente devengan un salario medio mensual de
s/. 810.000, con un coeficiente de variación de 0,36.
a) ¿Cuál será la varianza de los salarios el próximo año?
b) El próximo año, ¿cuál será el valor total de la nómina mensual?
9 Se midió el contenido de nicotina en una muestra aleatoria de 40 cigarrillos. Los datos se presentan en
la tabla. Elaborar un gráfico de cajas y bigotes.
∑(𝒙𝒊 − 𝒙
̅) = 𝟎
𝒊=𝟏
12 Los siguientes son datos históricos de los sueldos del personal (soles) en 30 empresas seleccionadas de
la capital de Perú a principios de década del 2010
13. Se está realizando un diseño experimental en 200 trabajadores de una institución no gubernamental,
cuya estatura media es de 160,96 centímetros, se parten en dos grupos, uno con una estura media de 163,4
centímetros y otro con 157,3 centímetros. ¿Cuántos trabajadores hay en cada grupo?
14. Se realiza una prueba a dos escuelas de un curso de álgebra Booleana, con un promedio general de
60,98. La sección I tiene una media de 57,30 y la sección II de 65,30. Si hay 27 estudiantes en la sección
I.¿Cuántos hay en la sección II?
15. En una competencia deportiva con 45 participantes, 31 compiten el primer día y los restantes al día
siguiente. Si en el primer día, los 31 obtienen un promedio de 48,4 puntos. ¿Cuál es el menor número de puntos
que deben obtener en promedio los restantes atletas, de modo que el puntaje medio de todo el equipo sea por
lo menos igual a 65,0?
16. 100 personas viajan en dos barcos. El primero lleva 40 personas y el segundo los restantes. Se sabe
que el peso medio de todas las personas es de 186,3 kg y que el de los del segundo barco es tres kg., menos
que el de las personas del primer avión ¿Cuál es el peso medio de las personas en cada avión?
17. En un examen tomado a tres grupos de estudiantes en un curso de estadística aplicada de 91 alumnos,
el puntaje medio general fue de 79,3. Los puntajes medios de las secciones 1 y 2 fueron 60,4 y 74,6
respectivamente. Se perdieron los archivos con las notas de la sección 3, pero los tutores recuerdan que las
secciones 1 y 2 tenían exactamente el mismo número de alumnos, mientras que el tutor de la sección 3, afirma
que su sección tenía 5 estudiantes menos que la uno ¿Cuál fue el promedio de la sección 3?
18. El promedio de los sueldos pagados en un mes a los empleados de una empresa de catering, ascendió
a S/. 920.000. La media aritmética de los salarios pagados a los hombres y a las mujeres, fueron
respectivamente S/. 970.000 y S/. 840.000. ¿Determinar el porcentaje de hombres y mujeres empleados en
dicha empresa?
5. GLOSARIO
Estadística: Teoría y aplicación de métodos para coleccionar datos, organizarlos, analizarlos y hacer
deducciones teniendo en mente siempre el error asociado a estas.
Estadística descriptiva: Describe el comportamiento (recolecta, organiza y analiza)
Estadística Inferencial: Estima conclusiones basadas en generalizaciones (hace deducciones y estima el error
asociado)
Dato: Observación de interés
Dato cuantitativo: Se puede medir
Dato cualitativo: Características de una cosa o persona
Población: Agrupación de todos los elementos que se están estudiando
Muestra: Parte representativa de la población
Rango: Diferencia entre el valor mayor y menor de un conjunto de datos
Amplitud del intervalo de clase:
Tamaño de la clase, es decir diferencia entre el límite superior y el límite inferior de una clase
Clase: Categoría para reunir datos sueltos
Datos agrupados: Datos organizados y reunidos en clase
Dominio: Posibles valores de la variable independiente
Histograma: Representación gráfica de la tabla de frecuencias
Media: Suma de los datos dividida entre el número de datos
Media Ponderada: Media de tendencia central que considera la importancia relativa de cada dato
Mediana: Es el valor central de un conjunto de datos ordenados
Moda: El dato que más se repite
Muestra representativa: Pequeña parte de la población que permite inferir conclusiones importantes acerca
de la misma
6. REFERENCIAS BIBLIOGRAFICAS
Anderson, D., Sweeney, D., & Willians, T. (s.f.). Estadística para la administración y economía. Cengage
Learning Editores, S.A. Obtenido de http://latinoamerica.cengage.com
Anónimo. (s.f.). Picando con R. Obtenido de R en Español:
https://picandoconr.wordpress.com/2016/02/27/diagrama-de-cajas/
E. Walpole, R., H. Myers, R., L. Myers, S., & Keying Ye. (2012). Probabilidad y Estadística para Ingeniería
y Ciencias. [versión PDF]. Pearson. Obtenido de
https://vereniciafunez94hotmail.files.wordpress.com/2014/08/8va-probabilidad-y-estadistica-para-
ingenier-walpole_8.pdf
F. Triola, M. (2009). Estadística. Pearson Education Inc. Obtenido de
https://www.academia.edu/31569533/Estad%C3%ADstica_de_Mario_F._Triola_D%C3%A9cima_E
dici%C3%B3n
Martínez Bercandino , C. (2012). Estadística y Muestreo. ECOE ediciones Ltda. Obtenido de
https://www.ecoeediciones.com/wp-content/uploads/2015/08/Estadistica-y-Muestreo-13ra-
Edici%C3%B3n.pdf
Salazar P., C., & Del Castillo, S. (2018). Fundamentos básicos de la estadística. [versión PDF].
Universo formulas. (s.f.). Obtenido de https://www.universoformulas.com/estadistica/descriptiva/rango-
intercuartilico/