Documentos de Académico
Documentos de Profesional
Documentos de Cultura
forma
Las medidas de resumen sirven para describir en forma resumida un conjunto de datos que
constituyen una muestra tomada de alguna población.
Moda
Cuartil
Decil
Desviación estándar
Coeficiente de variación
1.
Medidas de tendencia central
Son aquellas medidas que localizan el centro de una distribución, indicando el valor alrededor
del cual tienden a concentrarse o distribuirse las demás observaciones. El objetivo es conseguir
un valor que sea representativo del conjunto total de datos que se está analizando.
∑ xi
μ= i=1
N
Media muestral
n
∑ xi
x́= i=1
n
donde:
x i : dato
N : tamaño de la población
n : tamaño de la muestra
∑ xi f i
μ= i=1
N
Media muestral
k
∑ xi f i
x́= i=1
n
donde:
x i: valor de la variable
f i : frecuencia de cada clase
N : tamaño de la población
n : tamaño de la muestra
∑ x ´i f i
μ= i=1
N
Media muestral
k
∑ x ´i f i
x́= i=1
n
donde:
x ´i : marca de clase
f i : frecuencia de cada clase
N : tamaño de la población
n : tamaño de la muestra
Interpretación de la media
Características de la media
Ejemplo 1
Los siguientes datos corresponden al número de defectos por cada placa integrada, en una
muestra de 30 placas seleccionadas al azar de un proceso de producción.
4 2 4 2 1 3 3 1 3 3 4 1 1 4 1
5 5 5 3 1 3 1 4 1 1 2 4 1 4 1
Solución
La media del número de defectos de las 30 placas es de 2,6 defectos por placa.
Ejemplo 2
Los siguientes datos corresponden al espesor, en pulgadas, de una muestra aleatoria de
varillas de fierro corrugado.
1,73 1,73 1,84 1,71 1,61 1,50 1,78 1,50 1,90 1,81 1,72 1,84 1,75 1,69 1,63
1,51 1,77 1,81 1,77 1,80 1,68 1,56 1,71 1,78 1,49 1,57 1,71 1,82 1,66 1,69
Solución
Ejemplo 3
Solución
∑ xi f i
x́= i=1
n
El número de máquinas que se sobrecalientan está alrededor de 0,9 máquinas por día.
Mediana
Mediana(Me)
Si n es impar:
me=X n +1
[ ]
2
Si n es par:
X n +X n
me=
[] [ ]
2 2
+1
Interpretación de la mediana
Características de la mediana
Ejemplo 4
479 510 487 465 473 504 517 485 516 536 462 511
Solución
462 465 473 479 485 487 504 510 511 516 517 536
X n +X n
X 12
+X 12
me=
[ ] [ ]= [ ] [
2 2
+1
2 2
+1 ] = X [ ]+ X [ ] = 487+504 =495,5
6 7
2 2 2 2
El 50% de las baterías de litio tienen un tiempo de vida de hasta 495,5 días.
Ejemplo 5
487 489 498 571 571 560 530 509 495 461 500 530
Solución
461 487 489 495 498 500 509 530 560 571 571
Si n=11 es impar.
me=X n +1
=X 11+1
= X [ 6 ] =500
[ ] 2 [ ] 2
El 50% de las baterías de litio tienen un tiempo de vida de 500 días o menos.
Ejemplo 6
Los datos corresponden a una muestra de baterías cuyas lecturas de voltaje (en voltios) son:
9,99 10,00 10,00 10,26 25,00 9,84 9,96 9,98 10,05 10,12
Solución
9,84 9,96 9,98 9,99 10,00 10,00 10,05 10,12 10,26 25,00
X n +X n
X 10
+X 10
me=
[ ] [ ]= [ ] [
2 2
+1
2 2
+1 ] = X [ ]+ X [ ] = 10+10 =10
5 6
2 2 2 2
Interpretación de la moda
Es el valor más frecuente.
Características de la moda
Es la única medida de tendencia central que se obtiene para cualquier escala de medición.
El valor de la moda no se ve afectada por valores extremos.
La moda no siempre es un valor único. En una serie de datos se puede tener dos modas
(bimodal) o más de dos modas (multimodal).
En un conjunto de datos no necesariamente se va a encontrar moda.
Ejemplo 7
Los siguientes datos corresponden al número de piezas producidas (en cientos de piezas)
diariamente para una muestra aleatoria de 26 días.
4 2 4 2 2 3 3 1 3 3 4 1 1 5 5 5 3 1 3 2 4 2 1 5 2 3
Solución
En este caso, el resultado de la moda es igual a 3 piezas diariamente. Esto significa que la
cantidad de piezas producidas con mayor frecuencia equivale a 3 piezas diariamente.
Ejemplo 8
El tiempo, en minutos, que toma en producirse cada una de nueve piezas metálicas tomadas al
azar de la empresa Indus Metal se muestran a continuación:
Tiempo 47 42 27 39 57 37 33 37 42
Solución
Tiempo 47 42 27 39 57 37 33 37 42
Es un caso bimodal (dos modas). Los tiempos más frecuentes en producir una pieza metálica
son 37 y 42 minutos.
Ejemplo 9
A continuación, se muestra la distribución de trabajadores según número de piezas
producidas.
El número de piezas vendidas más frecuente por los trabajadores es de cuatro piezas.
Los cuantiles más importantes son los denominados cuartiles, deciles y percentiles.
Percentiles
Dividen el conjunto de datos en 100 partes porcentualmente iguales.
Cuartiles
Dividen el conjunto de datos en cuatro partes porcentualmente iguales.
Se les denota como Q1, Q2 y Q3 respectivamente. Su equivalente en percentiles es,
respectivamente, P25, P50, P75.
Deciles
Dividen el conjunto de datos en 10 partes porcentualmente iguales.
Se les denota como D1 , D2, D3, …, D9 respectivamente. Su equivalente en percentiles es,
respectivamente, P10, P20, ..., P90.
Ejemplo
Si queremos determinar el puntaje mínimo para estar en el quinto superior, debemos calcular
el percentil 80.
i= ( n+1
100 )
k=11,5=E , d
Si d=0 , entonces Pk = X [ E ]
Ejemplo 10
Se cuenta con los datos de los tiempos, en minutos, de ensamblaje de CPUs de 12
trabajadores. Calcule e interprete el percentil 45.
15 12 18 22 24 10 9 13 25 18 12 14
Solución
Primero, ordenemos los datos ordenados.
9 10 12 12 13 14 15 18 18 22 24 25
i= ( n+1
100 ) k=(
12+1
100 )
45=5,85=E , d
El 45% de los trabajadores ensamblan los CPUs en un tiempo máximo de 13,85 minutos.
Ejemplo 11
Exprese los siguientes valores como percentiles.
Q1 = P25
Q3 = P75
Q2=Me = P50
D3 = P30
D6 = P60
Medidas de dispersión o variabilidad
Las medidas de dispersión o variabilidad indican cuán alejados están los valores de una
variable del valor que los representa y por lo tanto permiten evaluar la confiabilidad de ese
valor central.
Cuando la medida de dispersión tiene un valor pequeño, los datos están concentrados
alrededor de la medida de tendencia central, en cambio si la medida de dispersión tiene un
valor grande, los datos no están concentrados alrededor de la medida de tendencia central.
Rango
El rango (alcance, amplitud o recorrido) de un conjunto de datos observados es la diferencia
entre dato mayor y el dato menor:
R=Xmax− Xmin
donde:
Ejemplo 12
2 1 2 4 1 3 2 3 2 0 5 1
Solución
El valor máximo es
Xmax =5
El valor mínimo es
Xmin=0
Luego el rango es R = 5 – 0 = 5. Esto indica que la amplitud del número de defectos en las
ternas es de 5.
Varianza
Es una medida del grado de dispersión o variación de los valores de una variable con respecto
a su media o promedio.
Poblacional
N
∑ ( xi −μ )2
σ 2= i=1
N
Muestral
n
∑ ( x i−x́ )2
s2= i=1
n−1
Poblacional
k
∑ f i ( x i−μ )2
σ 2= i=1
N
Muestral
k
∑ f i ( x i− x́ )2
s2= i=1
n−1
Desviación estándar
La desviación estándar es la raíz cuadrada positiva de la varianza, mide la cantidad típica en la
que los valores del conjunto de observaciones difieren de la media.
Poblacional
σ =√ σ 2
Muestral
s= √ s2
Característica de la varianza y la desviación estándar
La varianza y la desviación estándar son números reales no negativos.
Se pueden calcular para variables medidas en escala de intervalo o razón.
Se ven afectadas por valores extremos.
La varianza es expresada en unidades cuadráticas a las unidades de los datos, mientras que
la desviación estándar es expresada en la misma unidad de los datos.
Ejemplo 13
45 62 30 25 36 60 47 19 16 38 10 35 31 21 22 25
Solución
Varianza
n
∑ ( x i−x́ )2
s2= i=1 =224,3833
n−1
Desviación estándar
s= √224,3833=14,9794
Coeficiente de variación
El coeficiente de variación de un conjunto de datos observados expresa la desviación estándar
como un porcentaje de la media. A diferencia de otras medidas de dispersión, el coeficiente de
variación es una medida relativa.
Es útil al comparar la variabilidad de dos o más series de datos que se expresan en distintas o
iguales unidades.
Población
σ
CV = × 100 %
μ
Muestra
s
CV = ×100 %
x́
Ejemplo 14
Solución
Se usa como indicador el coeficiente de variación:
s1 1,10
CV 1= × 100 %= × 100 %=36,67 %
x́1 3
s2 1,66
CV 2= × 100 %= ×100 %=33,207 %
x́2 5
Ejemplo 15
La fábrica de colchones Rímac S.A. cuenta con dos plantas (A y B), el área de seguridad
industrial desea analizar la variabilidad del número de accidentes industriales en las plantas.
Para el estudio tomó como referencia una muestra aleatoria de 100 días laborables para cada
una de las plantas. La información se muestra a continuación:
¿En cuál de las dos plantas el número de accidentes presenta mayor homogeneidad? Justifique
su respuesta.
Solución
Se obtiene con las opciones de la calculadora:
s A =1,1282
s B=1,2422
El coeficiente de variación para la planta A es:
sA
CV A= × 100 %
x́ A
1,1282
¿ ×100 %=51,28 %
2,2
sB
CV B = ×100 %
x́ B
1,2422
¿ ×100 %=57,78 %
2,15
Se observa que en la planta A, el coeficiente de variación es menor, por lo tanto, en esta planta
existe mayor homogeneidad en el número de accidentes.
Rango intercuartil
Rangointercuartil=RIC=Q 3 −Q1=P75−P25
Diagrama de cajas
El diagrama de cajas o box plot es una gráfica que describe la distribución de un conjunto de
datos tomando como referencia los valores de los cuartiles como medida de posición y el valor
del rango intercuartil como medida de referencia de dispersión.
Valor atípico
Fuente: Variable 2
2. Trace un rectángulo con los extremos del percentil 25 y percentil 75, en cada categoría. En
la caja trace una recta horizontal en el lugar del percentil 50.
Distribución de unidades elementales según variable 1 por variable 2
Variable 1 (Cuantitativa)
Unidad de medición
3. Ubique los límites inferior y supeior mediante el rango intercuartil, el límite superior está a
1,5 RIC arriba del P75, mientras que, el límite inferior está a 1,5 RIC debajo del P25.
o Trace los bigotes desde los extremos de las cajas hasta los valores mínimo y máximo
dentro de los límites inferior y superior.
*
Variable 1 (Cuantitativa)
Unidad de medición
*
Categoría 1 Categoría 2 Categoría 3
Fuente: Variable 2
En el diagrama de cajas, también se puede poner las categorías en el eje vertical, con
lo que las cajas y los bigotes estarán de forma horizontal.
Categoría 1
*
Categoría 2
Variable 2
Categoría 3
Variable 1 (Cuantitativa)
Fuente: Unidad de medición
En la construcción del diagrama de cajas se pueden presentar dos casos, cuando el valor
mínimo o máximo son valores atípicos.
Si el valor mínimo es un valor atípico, entonces el bigote debe llegar hasta el dato siguiente al
valor mínimo, considerando a este valor como nuevo valor mínimo.
Por ejemplo, si el límite inferior Li=1,7 ; el percentil 25 P25=3,5 y los datos son:
Entonces:
3,5 Percentil 25
Bigote inferior
Si el valor máximo es un valor atípico, entonces el bigote debe llegar hasta el dato anterior al
valor máximo, considerando a este valor como nuevo valor máximo.
Por ejemplo, si el límite superior Ls =6,2 ,; el percentil 75 P75=3,8y los datos son:
Entonces:
*
Valor atípico 6,7
Límite superior = 6,2
Valor máximo dentro de los límites 5,8
Bigote superior
3,8 Percentil 75
Interpretación de un diagrama de cajas
Valor atípico *
P75 *
P50
Variable cuantitativa
Máximo
P25
Rango Asimetría
RIC
Asimetría en el
50% central
Valor atípico
*
Mínimo
Variable cualitativa
Fuente: ...
Tentel S.A. desea comparar el tiempo de conexión a Internet en los teléfonos celulares de sus
clientes de acuerdo con sus dos principales usos: Facebook y WhatsApp. Para llevar a cabo la
comparación se desea elaborar un diagrama de cajas. Complete la gráfica:
Distribución de clientes según tiempo en Internet por tipo de uso
140129
118
120
Tiempo en Internet (minutos)
100 90
80 68.25
63
57
60 54
40 33.25
24
15
20
0
Facebook WhatsApp
Tipo de uso de Internet
a. Complete la gráfica con el diagrama de cajas del tiempo de uso del WhatsApp. Utilice los
siguientes datos:
24 30 30 33 34 38 49 53
61 62 62 66 69 90 118 132
b. En el 50% central, la distribución del tiempo de uso del Facebook, indique el tipo de
asimetría.
c. En el 50% central, ¿qué tiempos de uso son más homogéneos?
d. ¿Los tiempos de uso del WhatsApp tiene valor atípico? Si fuera así, ¿cuál es el valor?
Solución
a. Complete la gráfica con el diagrama de cajas del tiempo de uso del WhatsApp.
Solución
Calculamos los percentiles 25, 50 y 75 con los datos de los tiempos de los clientes que usan
el WhatsApp.
k × ( n+1 ) 25 × ( 16+1 )
i= = =4,25
100 100
Pk = X [ E ] +0 , d ( X [ E +1] − X [ E] )
k × ( n+1 ) 50 × ( 16+1 )
i= = =8,5
100 100
24 30 30 33 34 38 49 53
61 62 62 66 69 90 118 132
k × ( n+1 ) 75 × ( 16+1 )
i= = =12,75
100 100
24 30 30 33 34 38 49 53
61 62 62 66 69 90 118 132
RIC=P75+ P 25=68,25−33,25=35
El límite inferior es:
24 30 30 33 34 38 49 53
61 62 62 66 69 90 118 132
El extremo del bigote superior = 118, pues el límite superior es 120,75 y, por tanto, el
máximo de los valores dentro los límites es 118. El valor 132 será un valor atípico.
24 30 30 33 34 38 49 53
61 62 62 66 69 90 118 132
100 90
80 68.25
63
57
60 54
40 33.25
24
15
20
0
Facebook WhatsApp
Tipo de uso de Internet
e. En el 50% central, la distribución del tiempo de uso del Facebook, indique el tipo de
asimetría.
f. En el 50% central, ¿qué tiempos de uso son más homogéneos?
g. ¿Los tiempos de uso del WhatsApp tiene valor atípico? Si fuera así, ¿cuál es el valor?
Solución
b. En el 50% central, la distribución del tiempo de uso del Facebook tiene asimetría positiva
c. En el 50% central, son más homogéneos con el uso del WhatsApp, pues su rango
intercuaril es 35 minuntos es menor que el rango intercuartil del uso de Facebook que es
de 36 minutos.
d. El valor 132 de los tiempos de uso del WhatsApp es un valor atípico, pues está fuera de los
límites.
Medidas de asimetría
Las medidas de asimetría permiten determinar la forma de una distribución para un conjunto
de datos.
Si los datos se distribuyen con igual frecuencia y alejados por debajo y por encima de la
media, se dice que la distribución es simétrica.
Si los datos que son menores a la media son más frecuentes que aquellos por encima de la
media o viceversa, se dice que la distribución es asimétrica.
Si la distribución es asimétrica positiva; existe mayor concentración de valores a la
izquierda de la media.
Si la distribución es asimétrica negativa; existe mayor concentración de valores a la
derecha de la media.
3 ( x́−me )
As=
s
Se tiene que:
Si un grupo de datos tiene un coeficiente de asimetría negativo, esto significa que hay una
concentración de datos en los valores altos.
Si un grupo de datos tiene un coeficiente de asimetría nulo, esto significa que hay una
concentración de datos alrededor de la media.
Si un grupo de datos tiene un coeficiente de asimetría positivo, esto significa que hay una
concentración de datos en los valores bajos.
Ejemplo 16
Se tomó una muestra aleatoria de seis piezas de engranaje de un almacén para ser utilizados
en maquinarias industriales y se calculó los siguientes estadísticos para la variable antigüedad
en años, los resultados fueron los siguientes:
14 15 16 16 20 21
Solución
x́=17
me=16
s=2,8284
3 ( x́−me )
As=
s
3 ( 17−16 )
As=
2,8284
As=1,0607
Ejemplo 17
Los siguientes datos corresponden a la distribución del número de piezas defectuosas
producidas en una muestra aleatoria de 30 días.
x́=4,5
me=5
s=1,0422
3 ( x́−me ) 3 ( 4,5−5 )
As= =
s 1,0422
As=−1,4393
Como el As<0, entonces existe asimetría negativa, por lo que la concentración del número de
piezas defectuosas se encuentra en los valores altos.
0.30 0.27
0.25 0.20
0.20
0.15 0.10
0.10
0.03
0.05
0.00
2.5 3 3.5 4 4.5 5 5.5 6 6.5 7 7.5