Está en la página 1de 29

Medidas de tendencia central, de posición, de variación, y de

forma
Las medidas de resumen sirven para describir en forma resumida un conjunto de datos que
constituyen una muestra tomada de alguna población.

Podemos distinguir cuatro grupos de medidas de resumen:

Medidas Medidas de tendencia Media


de central
resumen
Mediana

Moda

Medidas de posición o Percentil


cuantiles

Cuartil

Decil

Medidas de variacion o Rango


dispersión
Varianza

Desviación estándar

Coeficiente de variación

Medidas de asimetría Coeficiente de asimetría de


(medida de forma) pearson

1.
Medidas de tendencia central
Son aquellas medidas que localizan el centro de una distribución, indicando el valor alrededor
del cual tienden a concentrarse o distribuirse las demás observaciones. El objetivo es conseguir
un valor que sea representativo del conjunto total de datos que se está analizando.

Media aritmética o promedio


La media aritmética o promedio de un conjunto de valores de una variable es la suma de
dichos valores dividida entre el número de valores.

Cálculo de la media de datos no agrupados


Media poblacional
N

∑ xi
μ= i=1
N
Media muestral
n

∑ xi
x́= i=1
n

donde:
x i : dato
N : tamaño de la población
n : tamaño de la muestra

Cálculo de la media de datos agrupados de variable discreta (tabla de frecuencias)


Media poblacional
k

∑ xi f i
μ= i=1
N
Media muestral
k

∑ xi f i
x́= i=1
n
donde:
x i: valor de la variable
f i : frecuencia de cada clase
N : tamaño de la población
n : tamaño de la muestra

Cálculo de la media de datos agrupados de variable continua (tabla de frecuencias)


Media poblacional
k

∑ x ´i f i
μ= i=1
N
Media muestral
k

∑ x ´i f i
x́= i=1
n
donde:
x ´i : marca de clase
f i : frecuencia de cada clase
N : tamaño de la población
n : tamaño de la muestra
Interpretación de la media

Según el contexto se puede interpretar de la siguiente manera:


La variable X se aproxima a…………
La variable X está alrededor de………
La variable X tiende a………….

Características de la media

• Se calcula para un conjunto de datos medido en escala de intervalo o razón.


• El valor de la media es sensible a los valores extremos (mínimo y máximo), por lo que la
presencia de valores inusuales la distorsionan.
• La media tiene propiedades matemáticas valiosas para poder usarlas en otros cálculos.

Ejemplo 1

Los siguientes datos corresponden al número de defectos por cada placa integrada, en una
muestra de 30 placas seleccionadas al azar de un proceso de producción.

4 2 4 2 1 3 3 1 3 3 4 1 1 4 1
5 5 5 3 1 3 1 4 1 1 2 4 1 4 1

Calcule e interprete la media de la variable en estudio.

Solución

La media del número de defectos de las 30 placas es de 2,6 defectos por placa.

Esto significa que:


 El número de defectos por placa en el proceso productivo se aproxima a 2,6 defectos por
placa
 El número de defectos por placa en el proceso productivo está alrededor de 2,6 defectos
por placa
 El número de defectos por placa en el proceso productivo tiende a 2,6 defectos por placa.

Ejemplo 2
Los siguientes datos corresponden al espesor, en pulgadas, de una muestra aleatoria de
varillas de fierro corrugado.

1,73 1,73 1,84 1,71 1,61 1,50 1,78 1,50 1,90 1,81 1,72 1,84 1,75 1,69 1,63
1,51 1,77 1,81 1,77 1,80 1,68 1,56 1,71 1,78 1,49 1,57 1,71 1,82 1,66 1,69

Calcule e interprete el promedio de la variable en estudio.

Solución

El promedio del espesor de la muestra de varillas de fierro corrugado es 1,702 pulgadas. El


espesor de las varillas de fierro corrugado está alrededor de 1,702 pulgadas.

Ejemplo 3

A continuación, se muestra la distribución del número de máquinas que se sobrecalientan por


día en la planta REX S.A.

Distribución de máquinas según número de veces que se sobrecalientan


Número de máquinas que se
fi hi pi
sobrecalientan
0 13 0,434 43,4%
1 10 0,333 33,3%
2 4 0,133 13,3%
3 3 0,100 10,0%
Total 30 1 100%
Fuente: REX. S.A.

Calcule e interprete el valor del promedio.

Solución

Calculemos la media ponderada:

∑ xi f i
x́= i=1
n

0 ×13+1 ×10+2 × 4+3 × 3


x́= =0,9
30

El número de máquinas que se sobrecalientan está alrededor de 0,9 máquinas por día.
Mediana

La mediana es el valor que ocupa la posición central de un conjunto de n datos ordenados de


una variable en estudio.

El 50% de las unidades elementales El 50% de las unidades elementales


presentan valores en la variable de estudio presentan valores en la variable de estudio
iguales o menores a la mediana. mayores a la mediana.

Mediana(Me)

Si n es impar:

me=X n +1
[ ]
2

Si n es par:

X n +X n

me=
[] [ ]
2 2
+1

Interpretación de la mediana

El 50% de las unidades elementales tienen de la variable X menor o igual a la mediana.


El 50% de las unidades elementales tienen de la variable X hasta la mediana.
El 50% de las unidades elementales tienen de la variable X como máximo la mediana.

Características de la mediana

 Se calcula todo conjunto de datos medidos en escala de ordinal, intervalo o razón.


 El valor de la mediana depende del número de datos observados.
 La mediana es un estadístico robusto, es decir, no se ve afectada por valores extremos
(mínimo y máximo). Por eso se utiliza cuando hay datos inusuales o el polígono de
frecuencias no es simétrico.
 La mediana no tiene propiedades matemáticas valiosas para poder usarlas en otros
cálculos.

Ejemplo 4

A continuación, se muestra el tiempo de vida (en días) de 12 baterías de litio seleccionadas al


azar. Halle e interprete la mediana del tiempo de vida de las baterías.

479 510 487 465 473 504 517 485 516 536 462 511

Solución

Primero se ordena los datos de menor a mayor.

462 465 473 479 485 487 504 510 511 516 517 536

Como n=12 es par.

X n +X n
X 12
+X 12

me=
[ ] [ ]= [ ] [
2 2
+1
2 2
+1 ] = X [ ]+ X [ ] = 487+504 =495,5
6 7
2 2 2 2

El 50% de las baterías de litio tienen un tiempo de vida de hasta 495,5 días.

Ejemplo 5

A continuación, se muestra el tiempo de vida (en días) de 11 baterías de litio seleccionadas al


azar. Halle e interprete la mediana del tiempo de vida de las baterías.

487 489 498 571 571 560 530 509 495 461 500 530

Solución

Primero, se ordena los datos de menor a mayor.

461 487 489 495 498 500 509 530 560 571 571

Si n=11 es impar.

me=X n +1
=X 11+1
= X [ 6 ] =500
[ ] 2 [ ] 2

El 50% de las baterías de litio tienen un tiempo de vida de 500 días o menos.

Ejemplo 6

Los datos corresponden a una muestra de baterías cuyas lecturas de voltaje (en voltios) son:
9,99 10,00 10,00 10,26 25,00 9,84 9,96 9,98 10,05 10,12

Calcule e interprete el valor de la mediana.

Solución

Primero, se ordena los datos de menor a mayor.

9,84 9,96 9,98 9,99 10,00 10,00 10,05 10,12 10,26 25,00

Como n=10 es par.

X n +X n
X 10
+X 10

me=
[ ] [ ]= [ ] [
2 2
+1
2 2
+1 ] = X [ ]+ X [ ] = 10+10 =10
5 6
2 2 2 2

El 50% de las baterías tienen una lectura de como máximo de 10 voltios.


Moda
La moda es el valor que presenta la mayor frecuencia de un conjunto de datos observados de
una variable. Se denota por mo.

Interpretación de la moda
Es el valor más frecuente.

Características de la moda
 Es la única medida de tendencia central que se obtiene para cualquier escala de medición.
 El valor de la moda no se ve afectada por valores extremos.
 La moda no siempre es un valor único. En una serie de datos se puede tener dos modas
 (bimodal) o más de dos modas (multimodal).
 En un conjunto de datos no necesariamente se va a encontrar moda.

Ejemplo 7
Los siguientes datos corresponden al número de piezas producidas (en cientos de piezas)
diariamente para una muestra aleatoria de 26 días.

4 2 4 2 2 3 3 1 3 3 4 1 1 5 5 5 3 1 3 2 4 2 1 5 2 3

Calcule e interprete la moda de la variable en estudio.

Solución

En este caso, el resultado de la moda es igual a 3 piezas diariamente. Esto significa que la
cantidad de piezas producidas con mayor frecuencia equivale a 3 piezas diariamente.

Cantidad de piezas producidas Frecuencia absoluta fi


1 5
2 6
3 7
4 4
5 4
Total general 26
X

Ejemplo 8
El tiempo, en minutos, que toma en producirse cada una de nueve piezas metálicas tomadas al
azar de la empresa Indus Metal se muestran a continuación:

Tiempo 47 42 27 39 57 37 33 37 42

Calcule e interprete el valor de la moda.

Solución
Tiempo 47 42 27 39 57 37 33 37 42

Existen dos modas.


mo 1=37 y mo 2=42

Es un caso bimodal (dos modas). Los tiempos más frecuentes en producir una pieza metálica
son 37 y 42 minutos.

Ejemplo 9
A continuación, se muestra la distribución de trabajadores según número de piezas
producidas.

Número de piezas vendidas fi pi


2 6 20,00%
3 8 26,67%
4 12 40,00%
5 3 10,00%
6 1 3,33%
Total 30 100%
Fuente: Elaboración propia

El valor de la moda es mo = 4, pues su frecuencia es la mayor (12 ó 40%).

El número de piezas vendidas más frecuente por los trabajadores es de cuatro piezas.

Medidas de posición o cuantiles


Los cuantiles son los valores de la distribución que la dividen en partes iguales, es decir, en
intervalos que comprenden el mismo número de valores.

Los cuantiles más importantes son los denominados cuartiles, deciles y percentiles.

Percentiles
Dividen el conjunto de datos en 100 partes porcentualmente iguales.

El k% de las unidades elementales presentan El (100 – k)% de las unidades elementales


valores en la variable de estudio iguales o presentan valores en la variable de estudio
menores al percentil k, Pk mayores al percentil k, Pk
Pk

Cuartiles
 Dividen el conjunto de datos en cuatro partes porcentualmente iguales.
 Se les denota como Q1, Q2 y Q3 respectivamente. Su equivalente en percentiles es,
respectivamente, P25, P50, P75.

Deciles
 Dividen el conjunto de datos en 10 partes porcentualmente iguales.
 Se les denota como D1 , D2, D3, …, D9 respectivamente. Su equivalente en percentiles es,
respectivamente, P10, P20, ..., P90.

Ejemplo
Si queremos determinar el puntaje mínimo para estar en el quinto superior, debemos calcular
el percentil 80.

Menores notas mayores notas


El 80% de los El 20% de los
estudiantes tienen un estudiantes tienen
puntaje menor o igual un puntaje mayor al
al percentil 80. percentil 80.
Cálculo de un percentil

1. Primero, ordenamos los datos de manera ascendente.

2. Calculamos la posición i del percentil k .

i= ( n+1
100 )
k=11,5=E , d

3. Luego, calculamos el percentil k .

Si d=0 , entonces Pk = X [ E ]

Si d ≠ 0 , entonces P45 = X [ E ] +0 , d ( X [ E +1] −X [ E ] )

Ejemplo 10
Se cuenta con los datos de los tiempos, en minutos, de ensamblaje de CPUs de 12
trabajadores. Calcule e interprete el percentil 45.

15 12 18 22 24 10 9 13 25 18 12 14

Solución
Primero, ordenemos los datos ordenados.

9 10 12 12 13 14 15 18 18 22 24 25

Calculemos la posición i del percentil 45.

i= ( n+1
100 ) k=(
12+1
100 )
45=5,85=E , d

De donde E=5 y d=0,85.

Como d=0,85≠ 0 , entonces el cálculo del percentil 45 es:

P45= X [ 5 ] +0,85 ( X [ 6 ] −X [ 5 ] ) =13+0,85 ( 14−13 )=13,85

El 45% de los trabajadores ensamblan los CPUs en un tiempo máximo de 13,85 minutos.

Ejemplo 11
Exprese los siguientes valores como percentiles.

 Q1 = P25
 Q3 = P75
 Q2=Me = P50
 D3 = P30
 D6 = P60
Medidas de dispersión o variabilidad
Las medidas de dispersión o variabilidad indican cuán alejados están los valores de una
variable del valor que los representa y por lo tanto permiten evaluar la confiabilidad de ese
valor central.

Cuando la medida de dispersión tiene un valor pequeño, los datos están concentrados
alrededor de la medida de tendencia central, en cambio si la medida de dispersión tiene un
valor grande, los datos no están concentrados alrededor de la medida de tendencia central.

Rango
El rango (alcance, amplitud o recorrido) de un conjunto de datos observados es la diferencia
entre dato mayor y el dato menor:

R=Xmax− Xmin

donde:

Xmax : valor máximo observado de la variable


Xmin : valor mínimo observado de la variable

Ejemplo 12

El jefe de control de calidad de la empresa industrial de termas eléctricas Thermosol S.A.


selecciona una muestra al azar de 12 termas, y registra el número de defectos que presenta
cada terma. Calcule el rango.

2 1 2 4 1 3 2 3 2 0 5 1

Solución

El valor máximo es
Xmax =5
El valor mínimo es
Xmin=0

Luego el rango es R = 5 – 0 = 5. Esto indica que la amplitud del número de defectos en las
ternas es de 5.
Varianza
Es una medida del grado de dispersión o variación de los valores de una variable con respecto
a su media o promedio.

Varianza para datos no agrupados

Poblacional
N

∑ ( xi −μ )2
σ 2= i=1
N

Muestral
n

∑ ( x i−x́ )2
s2= i=1
n−1

Varianza para datos agrupados

Poblacional
k

∑ f i ( x i−μ )2
σ 2= i=1
N

Muestral
k

∑ f i ( x i− x́ )2
s2= i=1
n−1

Desviación estándar
La desviación estándar es la raíz cuadrada positiva de la varianza, mide la cantidad típica en la
que los valores del conjunto de observaciones difieren de la media.

Poblacional
σ =√ σ 2

Muestral
s= √ s2
Característica de la varianza y la desviación estándar
 La varianza y la desviación estándar son números reales no negativos.
 Se pueden calcular para variables medidas en escala de intervalo o razón.
 Se ven afectadas por valores extremos.
 La varianza es expresada en unidades cuadráticas a las unidades de los datos, mientras que
la desviación estándar es expresada en la misma unidad de los datos.

Ejemplo 13

A continuación, se presenta la cantidad de plomo en una muestra de agua potable, en


miligramos por litro. Halle la varianza y la desviación estándar.

45 62 30 25 36 60 47 19 16 38 10 35 31 21 22 25

Solución

Varianza
n

∑ ( x i−x́ )2
s2= i=1 =224,3833
n−1

Desviación estándar

s= √224,3833=14,9794

Coeficiente de variación
El coeficiente de variación de un conjunto de datos observados expresa la desviación estándar
como un porcentaje de la media. A diferencia de otras medidas de dispersión, el coeficiente de
variación es una medida relativa.

Es útil al comparar la variabilidad de dos o más series de datos que se expresan en distintas o
iguales unidades.

Se calcula preferentemente en variables medidas en escala de razón (algunos autores sugieren


que se debe evitar su calcular para variables medidas en escala de intervalo).

Población
σ
CV = × 100 %
μ

Muestra
s
CV = ×100 %

CV es menor o igual al 30%------Homogeneidad


CV mayor al 30%------ Heterogeneidad

Ejemplo 14

Los resultados presentados a continuación, representan resúmenes del número de mediciones


de resistencia de cierto artículo, realizados por dos grupos de técnicos:

Grupo 1: media = 3 y desviación estándar = 1,10

Grupo 2: media = 5 y desviación estándar = 1,66

¿En cuál de los grupos de técnicos el número de mediciones es más disperso?

Solución
Se usa como indicador el coeficiente de variación:

s1 1,10
CV 1= × 100 %= × 100 %=36,67 %
x́1 3

s2 1,66
CV 2= × 100 %= ×100 %=33,207 %
x́2 5

En el grupo 1, el número de mediciones es más disperso, puesto que su coeficiente de


variación es mayor.

Ejemplo 15

La fábrica de colchones Rímac S.A. cuenta con dos plantas (A y B), el área de seguridad
industrial desea analizar la variabilidad del número de accidentes industriales en las plantas.
Para el estudio tomó como referencia una muestra aleatoria de 100 días laborables para cada
una de las plantas. La información se muestra a continuación:

Distribución de días laborables según Distribución de días laborables según


número de accidentes en la planta A número de accidentes en la planta B
Número de accidentesXi Número de díasfi Número de accidentes Número de días
0 10 0 15
1 15 1 10
2 30 2 35
3 35 3 25
4 10 4 15
Total 100 Total 100
Fuente: Rímac S.A Fuente: Rímac S.A

¿En cuál de las dos plantas el número de accidentes presenta mayor homogeneidad? Justifique
su respuesta.

Solución
Se obtiene con las opciones de la calculadora:

La media y desviación estándar para la planta A es:

0 ×10+ 1× 15+ 2× 30+3 ×35+ 4 ×10


x́ A= =2,2
100

s A =1,1282

La media y desviación estándar para la planta B es:

0 × 15+1× 10+2× 35+3 ×25+ 4 ×15


x́ B = =2,15
100

s B=1,2422
El coeficiente de variación para la planta A es:

sA
CV A= × 100 %
x́ A

1,1282
¿ ×100 %=51,28 %
2,2

El coeficiente de variación para la planta B es:

sB
CV B = ×100 %
x́ B

1,2422
¿ ×100 %=57,78 %
2,15

Se observa que en la planta A, el coeficiente de variación es menor, por lo tanto, en esta planta
existe mayor homogeneidad en el número de accidentes.

Rango intercuartil

Es la diferencia entre el tercer y primer cuartil.

Cálculo del rango intercuartil: del 50% central

Rangointercuartil=RIC=Q 3 −Q1=P75−P25

Características del rango intercuartil

 Se puede calcular en variables medidas en escala de intervalo o razón.


 No se ve afectado por valores extremos.

Diagrama de cajas

El diagrama de cajas o box plot es una gráfica que describe la distribución de un conjunto de
datos tomando como referencia los valores de los cuartiles como medida de posición y el valor
del rango intercuartil como medida de referencia de dispersión.

Valor atípico

Es un dato inusualmente grande o pequeño con respecto a los otros datos.


Se considera valor atípico a cualquier punto mayor al límite superior (a la derecha) o menor al
límite inferior (o a la izquierda); es decir, que se encuentre fuera de los límites.
Un valor atípico aparece cuando:
 Hay un elemento extraño en la muestra.

 Hay un error de ingreso en los datos.

Edad de un perro, en años 1 1 3 30 6 8 12

 El registro es correcto pero es un caso poco común.

Pasos para trazar un diagrama de cajas


1. Dibuje el eje vertical, eje horizontal, título, rótulos de los ejes y fuente. La variable 1
(cuantitativa) se representa en el eje vertical y la variable 2 en el eje horizontal.

Distribución de unidades elementales según variable 1 por variable 2


Variable 1 (Cuantitativa)
Unidad de medición

Categoría 1 Categoría 2 Categoría 3

Fuente: Variable 2

2. Trace un rectángulo con los extremos del percentil 25 y percentil 75, en cada categoría. En
la caja trace una recta horizontal en el lugar del percentil 50.
Distribución de unidades elementales según variable 1 por variable 2

Variable 1 (Cuantitativa)
Unidad de medición

Categoría 1 Categoría 2 Categoría 3


Fuente: Variable 2

3. Ubique los límites inferior y supeior mediante el rango intercuartil, el límite superior está a
1,5 RIC arriba del P75, mientras que, el límite inferior está a 1,5 RIC debajo del P25.

o Trace los bigotes desde los extremos de las cajas hasta los valores mínimo y máximo
dentro de los límites inferior y superior.

o Marque con asteriscos (*) las localizaciones de los valores atípicos.

Distribución de unidades elementales según variable 1 por variable 2

*
Variable 1 (Cuantitativa)
Unidad de medición

*
Categoría 1 Categoría 2 Categoría 3
Fuente: Variable 2
En el diagrama de cajas, también se puede poner las categorías en el eje vertical, con
lo que las cajas y los bigotes estarán de forma horizontal.

Distribución de unidades elementales según variable 1


por variable 2

Categoría 1

*
Categoría 2
Variable 2
Categoría 3

Variable 1 (Cuantitativa)
Fuente: Unidad de medición
En la construcción del diagrama de cajas se pueden presentar dos casos, cuando el valor
mínimo o máximo son valores atípicos.

Caso 1: Cuando el valor mínimo es un valor atípico

Si el valor mínimo es un valor atípico, entonces el bigote debe llegar hasta el dato siguiente al
valor mínimo, considerando a este valor como nuevo valor mínimo.

Por ejemplo, si el límite inferior Li=1,7 ; el percentil 25 P25=3,5 y los datos son:

1,5 1,8 2,2 3,4 4,2 … … … 5,8 6,7

Entonces:

3,5 Percentil 25
Bigote inferior

Valor mínimo dentro de los límites 1,8


Límite inferior = 1,7
Valor atípico 1,5
*
Caso 2: Cuando el valor máximo es un valor atípico

Si el valor máximo es un valor atípico, entonces el bigote debe llegar hasta el dato anterior al
valor máximo, considerando a este valor como nuevo valor máximo.

Por ejemplo, si el límite superior Ls =6,2 ,; el percentil 75 P75=3,8y los datos son:

1,5 1,8 2,2 3,4 4,2 … … … 5,8 6,7

Entonces:

*
Valor atípico 6,7
Límite superior = 6,2
Valor máximo dentro de los límites 5,8

Bigote superior
3,8 Percentil 75
Interpretación de un diagrama de cajas

El diagrama de cajas permite:

 Comparar los cuartiles de dos o más conjuntos de datos.


 Comparar el rango de dos o más conjuntos de datos.
 Comparar el rango intercuartil de dos o más conjuntos de datos.
 Observar el tipo de distribución de los datos.
 Observar el tipo de distribución de los datos en el 50% central.
 Identificar la presencia de valores atípicos.
 Identificar los valores mínimos y máximos.

Distribución de elementos según variable cuantitativa por variable cualitativa

Valor atípico *
P75 *
P50
Variable cuantitativa

Máximo
P25
Rango Asimetría

RIC
Asimetría en el
50% central
Valor atípico
*
Mínimo

Categoría A Categoría B Categoría C

Variable cualitativa
Fuente: ...

Tentel S.A. desea comparar el tiempo de conexión a Internet en los teléfonos celulares de sus
clientes de acuerdo con sus dos principales usos: Facebook y WhatsApp. Para llevar a cabo la
comparación se desea elaborar un diagrama de cajas. Complete la gráfica:
Distribución de clientes según tiempo en Internet por tipo de uso
140129
118
120
Tiempo en Internet (minutos)

100 90

80 68.25
63
57
60 54

40 33.25
24
15
20

0
Facebook WhatsApp
Tipo de uso de Internet

a. Complete la gráfica con el diagrama de cajas del tiempo de uso del WhatsApp. Utilice los
siguientes datos:

24 30 30 33 34 38 49 53
61 62 62 66 69 90 118 132

b. En el 50% central, la distribución del tiempo de uso del Facebook, indique el tipo de
asimetría.
c. En el 50% central, ¿qué tiempos de uso son más homogéneos?
d. ¿Los tiempos de uso del WhatsApp tiene valor atípico? Si fuera así, ¿cuál es el valor?

Solución

a. Complete la gráfica con el diagrama de cajas del tiempo de uso del WhatsApp.

Solución
Calculamos los percentiles 25, 50 y 75 con los datos de los tiempos de los clientes que usan
el WhatsApp.

La posición del percentil 25 es:

k × ( n+1 ) 25 × ( 16+1 )
i= = =4,25
100 100

El cálculo del percentil 25 es:

Pk = X [ E ] +0 , d ( X [ E +1] − X [ E] )

P25=X [ 4 ] + 0,25 ( X [ 4 +1 ]− X [ 4 ] )=33+ 0,25 × ( 34−33 )=33,25


24 30 30 33 34 38 49 53
61 62 62 66 69 90 118 132

La posición del percentil 50 es:

k × ( n+1 ) 50 × ( 16+1 )
i= = =8,5
100 100

El cálculo del percentil 50 es:

P50=X [ 8 ] +0,5 ( X [ 8+1 ] −X [ 8 ] )=53+ 0,5×(61−53)=57

24 30 30 33 34 38 49 53
61 62 62 66 69 90 118 132

La posición del percentil 75 es:

k × ( n+1 ) 75 × ( 16+1 )
i= = =12,75
100 100

El cálculo del percentil 75 es:

P75=X [ 12] + 0,75 ( X [ 12+1 ] −X [ 12 ] ) =66+ 0,75× ( 69−66 )=68,25

24 30 30 33 34 38 49 53
61 62 62 66 69 90 118 132

El rango intercuartil es:

RIC=P75+ P 25=68,25−33,25=35
 
El límite inferior es:

L í miteinferior=P25−1,5 RIC=33 , 25−1 , 5 ×35=−19 ,25

El límite superior es:

L í mite superior=P75 +1,5 RIC=68 ,25+1 , 5 ×35=120 ,75


 
El extremo del bigote inferior = 24, pues el limite inferior es -19,25.

24 30 30 33 34 38 49 53
61 62 62 66 69 90 118 132
El extremo del bigote superior = 118, pues el límite superior es 120,75 y, por tanto, el
máximo de los valores dentro los límites es 118. El valor 132 será un valor atípico.

24 30 30 33 34 38 49 53
61 62 62 66 69 90 118 132

Luego, completamos el diagrama de cajas.

Distribución de clientes según tiempo en Internet por tipo de uso


140129
118
120
Tiempo en Internet (minutos)

100 90

80 68.25
63
57
60 54

40 33.25
24
15
20

0
Facebook WhatsApp
Tipo de uso de Internet

e. En el 50% central, la distribución del tiempo de uso del Facebook, indique el tipo de
asimetría.
f. En el 50% central, ¿qué tiempos de uso son más homogéneos?
g. ¿Los tiempos de uso del WhatsApp tiene valor atípico? Si fuera así, ¿cuál es el valor?

Solución
b. En el 50% central, la distribución del tiempo de uso del Facebook tiene asimetría positiva
c. En el 50% central, son más homogéneos con el uso del WhatsApp, pues su rango
intercuaril es 35 minuntos es menor que el rango intercuartil del uso de Facebook que es
de 36 minutos.
d. El valor 132 de los tiempos de uso del WhatsApp es un valor atípico, pues está fuera de los
límites.
Medidas de asimetría
Las medidas de asimetría permiten determinar la forma de una distribución para un conjunto
de datos.

 Si los datos se distribuyen con igual frecuencia y alejados por debajo y por encima de la
media, se dice que la distribución es simétrica.
 Si los datos que son menores a la media son más frecuentes que aquellos por encima de la
media o viceversa, se dice que la distribución es asimétrica.
 Si la distribución es asimétrica positiva; existe mayor concentración de valores a la
izquierda de la media.
 Si la distribución es asimétrica negativa; existe mayor concentración de valores a la
derecha de la media.

Coeficiente de asimetría de Pearson

El coeficiente de asimetría de Pearson se define como:

3 ( x́−me )
As=
s

Se tiene que:

Asimetría negativa Simetría As = 0 Asimetría positiva


As < 0 (cola izquierda) Me=Mo=promedio As> 0 (cola derecha)

 Si un grupo de datos tiene un coeficiente de asimetría negativo, esto significa que hay una
concentración de datos en los valores altos.
 Si un grupo de datos tiene un coeficiente de asimetría nulo, esto significa que hay una
concentración de datos alrededor de la media.
 Si un grupo de datos tiene un coeficiente de asimetría positivo, esto significa que hay una
concentración de datos en los valores bajos.
Ejemplo 16

Se tomó una muestra aleatoria de seis piezas de engranaje de un almacén para ser utilizados
en maquinarias industriales y se calculó los siguientes estadísticos para la variable antigüedad
en años, los resultados fueron los siguientes:

14 15 16 16 20 21

¿Qué tipo de asimetría presenta la variable antigüedad? ¿Qué significa?

Solución

Primero, calculemos la media y la desviación estándar muestral.

x́=17

me=16

s=2,8284

Luego, calculemos el coeficiente de asimetría.

3 ( x́−me )
As=
s

3 ( 17−16 )
As=
2,8284

As=1,0607

Como el As > 0, entonces existe asimetría positiva, por lo que la concentración de la


antigüedad de las piezas de engranaje se encuentra en los valores bajos.

Ejemplo 17
Los siguientes datos corresponden a la distribución del número de piezas defectuosas
producidas en una muestra aleatoria de 30 días.

Número de piezas defectuosas fi


3 6
4 8
5 12
6 3
7 1
Total 30
Fuente: Empresa A

Calcule e interprete el coeficiente de asimetría.


Solución

Primero, calculemos la media y la desviación estándar muestral.

x́=4,5

me=5

s=1,0422

Luego, calculemos el coeficiente de asimetría.

3 ( x́−me ) 3 ( 4,5−5 )
As= =
s 1,0422

As=−1,4393

Como el As<0, entonces existe asimetría negativa, por lo que la concentración del número de
piezas defectuosas se encuentra en los valores altos.

Distribución de días según número de piezas defectuosas


0.45 0.40
0.40
0.35
Frecuencia relativa

0.30 0.27
0.25 0.20
0.20
0.15 0.10
0.10
0.03
0.05
0.00
2.5 3 3.5 4 4.5 5 5.5 6 6.5 7 7.5

Número de piezas defectuosas

También podría gustarte