Está en la página 1de 60

1

Dr. Raphael Valencia Chacón


raphael@lamolina.edu.pe

2
Media o promedio
Medidas de Media ponderada
tendencia Mediana
central Moda
Percentiles

Rango
Medidas de Rango intercuartil
Variancia
variabilidad
Desviación estándar
Coeficiente de variabilidad

Medidas de Coeficiente de asimetría de


asimetría Pearson

Diagrama de
cajas 5
La media o promedio y la media ponderada

La mediana

La moda

Propiedades de transformación

Percentiles

Ejemplos, ejercicios resueltos y propuestos

6
Las medidas estadísticas pueden son calculadas con los
datos provenientes de una población (N: Tamaño de la
población) o muestra (n: Tamaño de la muestra) para
evaluar diferentes variables (cuantitativas y cualitativas),
cuya finalidad es resumir y representar el conjunto de
datos.
Observaciones:
1. Las medidas estadísticas asumen las mismas unidades de
medida de la variable en estudio.
2. Para las variables cuantitativas, se pueden calcular todas las
medidas estadísticas.
3. En el caso de las variables cualitativas, sólo es posible
calcular como medidas la moda y la proporción.
7
Medidas de Tendencia Central
Son medidas estadísticas que se localizarían en la parte central de
la distribución de los datos. Permiten resumir y representar en un
sólo valor el conjunto de datos. Las principales medidas de
tendencia central son:

•La media o promedio


•La media ponderada
•La mediana
•La moda
•Percentil

8
La media o promedio de un conjunto de observaciones es
igual a la suma de sus valores dividido entre el número
de observaciones
1 N
Media Poblacional: = 
N j =1
Xj

1 n
Media Muestral: X = Xj
n j =1
Ejemplo 1. Suponga que se tiene los datos de las ventas
semanales (en dólares) de una muestra de 8 vendedores. Calcule
la venta promedio semanal.
150 120 300 280 350 250 160 280
1 8 150 + 120 + 300 + 280 + 350 + 250 + 160 + 280 1,890
X =  xi = = = 236.3
8 i =1 8 8
Interpretación. La venta promedio semanal por vendedor fue de $ 236.3
9
1. La media está afectada por valores extremos (altos o
pequeños).
2. Localiza la parte central de un conjunto de
observaciones.
3. Para un conjunto de observaciones la media es única.
4. La suma de las desviaciones de las observaciones con
respecto al promedio es igual a cero.

( X )
n n

j − X = Xj −n X = n X − n X = 0
j =1 j =1

5. La suma de los cuadrados de las desviaciones de las


observaciones con respecto a la media es mínima.

( X )   ( X j − c ) , donde
n 2 n
2
j −X cR
j =1 j =1

10
La media ponderada se usa cuando se quiere que las
observaciones tengan un peso (wi).
k

w x
j =1
j j
w1 x1 + w2 x2 + ... + wk xk
xp = =
k
w1 + w2 + ... + wk
w
j =1
j

Ejemplo 2. Hallar el promedio ponderado semestral de un


estudiante con notas en los siguientes cursos:
Curso Créditos Nota
14 + 12 + 16
(wi) (Xi) x= = 14
Matemática 4 14 3
Redacción 3 12 4*14 + 3*12 + 4*16
xp = = 14.2
Estadística 4 16 4+3+ 4
11
k k
Caso 1. Cuando los datos se
encuentran en una tabla de frecuencias f
j =1
j xj f
j =1
j xj
correspondiente a una variable xp = k
=
f
cuantitativa discreta. La media se n
j
calcula por: j =1

n
Caso 2. Si x1 , x 2 ,..., x k son las
medias de k grupos y cada grupo tiene j xj
j =1
un tamaño n1 , n2 ,..., nk xp = k
respectivamente, entonces la media de
todos los datos n = n1 + n2 + ... + nk n j =1
j

se calcula por:

12
Ejemplo 3.
En la siguiente tabla se presenta el número de cursos
matriculados en el presente semestre para una muestra de 300
alumnos. Hallar el número promedio de cursos matriculados por
alumno.
Número de cursos Número de alumnos
Xi fi
2 20
3 40
4 100
5 80
6 60
k Total 300
f
j =1
j xj
20  2 + 40  3 + 100  4 + 80  5 + 60  6
xp = = = 4.4
n 300
Interpretación. El número promedio de cursos
matriculados por alumno en este semestre es de 4.4
13
La mediana es el valor que ocupa la posición central de un
conjunto de datos, previamente ordenados. La mediana se
calcula:
𝑿 𝒏 + 𝑿 𝒏+𝟏
𝟐 𝟐
𝑺𝒊, 𝒏 𝒆𝒔 𝒊𝒎𝒑𝒂𝒓: 𝒎𝒆 = 𝑿 𝒏+𝟏 𝑺𝒊, 𝒏 𝒆𝒔 𝒑𝒂𝒓: 𝒎𝒆 =
𝟐 𝟐

Ejemplo 4. Los siguientes datos corresponden a los pesos (en Kg.) de 10


personas: 50, 77, 53, 76, 63, 64, 75, 54, 52, 80. Calcule la mediana
Datos ordenados: 50, 52, 53, 54, 63, 64, 75, 76, 77, 80

X  10  + X  10
 

 +1 X ( 5) + X ( 6 ) 63 + 64
n = 10 par , me =  2  2 
= = = 63.5
2 2 2
Interpretación. Un 50% de personas pesan menos de 63.5 Kg.
y el otro 50% pesa más de 63.5 Kg. 14
1. La mediana divide a las n observaciones previamente
ordenadas, en dos partes iguales. El 50% con valores
menores a la mediana y el otro 50% con valores
mayores a la mediana.
2. La suma de las desviaciones absolutas de las
observaciones con respecto a la mediana es un valor
mínimo. n n

X
j =1
j − me   X j − c , donde
j =1
cR

3. La mediana no está afectada por valores extremos.

15
La moda de un conjunto de datos es el valor o atributo que
ocurre con mayor frecuencia.

mo = Mayor más frecuente

Propiedades:
1. Puede no existir o puede haber más de una moda en un
conjunto de datos.
2. No es afectada por valores extremos.
3. Se aplica tanto para información cualitativa como
cuantitativa.

16
Ejemplo 5.
Se tiene longitudes (en cm.) de una raza de peces de rio para
muestras en tres zonas (A, B y C). Calcule e interprete la moda
para cada muestra.
Muestra de la zona A Muestra de la zona B Muestra de la zona C
4.0 4.3 4.6 4.0 4.1 4.4 4.0 4.1 4.3
4.1 4.4 4.7 4.1 4.2 4.5 4.1 4.2 4.3
4.2 4.5 4.8 4.1 4.3 4.6 4.1 4.3 4.5
No hay moda mo= 4.1 mo1 = 4.1
mo2 = 4.3

Interpretación.
Zona A. No hay moda
Zona B. La longitud más frecuente de las truchas es 4.1 cm.
Zona C. Existen dos modas: 4.1 y 4.3

17
Ejercicio 1.
En un estudio del medio
ambiente para evaluar la
calidad de aire, se registró
la cantidad de microgramos
de partículas en suspensión
por mt2 de aire para
muestras evaluadas en dos
zonas.

Zona A 48 26 28 28 32 34 34 36 36 36 46 48 24
Zona B 25 25 25 32 36 38 40 35 35 45 48 52

Halle e interprete las medidas de tendencia central

18
Solución:
Zona A.
48 + 26 + ... + 24 456
El promedio: X = = = 35.1
13 13
La cantidad promedio de microgramos de partículas por mt2 fue 33.0 en
la zona A.
La mediana: Datos ordenados: 24,26,28,28,32,34,34,36,36,36,46,48,48
n = 13 impar, me = X n+1 = X7 = 34
2
El 50% de las muestras la cantidad de microgramos de partículas es menor a 34 y
el otro 50% mayor a 34 en la zona A.
La moda: m0 = 36
La cantidad microgramos de partículas más frecuente fue 36.0 en la zona A.

Zona B. 32 + 32 + ... + 52 436


El promedio: X = = = 36.3
12 12
La mediana: Datos ordenados: 25,25,25,32,35,35,36,38,40,45,48,52
X n + X 1+n X6 + X7 35 + 36
2 2
n = 12 par, me = = = = 35.5
2 2 2
La moda: m0 = 25
19
Ejercicio 2.
Los tiempos promedios de tardanza (minutos) de muestras de
40, 25 y 15 trabajadores de los turnos de día, tarde y noche
fueron 8.5, 12.0 y 15.5 respectivamente. Hallar el tiempo
promedio de tardanza de los trabajadores para los tres turnos.

Solución:
Calculando la media ponderada:

40𝑥8.5 + 25𝑥12.0 + 15𝑥15.5


𝑋𝑝 = = 10.9
40 + 25 + 15
Interpretación. El tiempo promedio de tardanza de los
trabajadores en los tres turnos fue de 10.9 minutos.

20
Para una nueva variable transformada: Y = a ± bX,
donde a y b son constantes reales. Entonces, sus
medidas estadísticas son calculadas:

Medida estadística Yi = a + bX i

Media o promedio Y = a + bX
Mediana meY = a + bme X
Moda moY = a + bmo X

21
Ejemplo 6.
Un ganadero, estima que la producción promedio de leche de sus
150 vacas de la raza Holstein es de 22.5 y las 220 vacas de la
raza Cebú de 20.8 litros por día. Si usando un nuevo nutriente,
espera un aumento del 12% en la raza Holstein pero un
disminución del 5% en la raza Cebú.
a. Halle la producción promedia de leche para cada raza con el
nuevo nutriente.
𝐑𝐚𝐳𝐚 𝐇𝐨𝐥𝐬𝐭𝐞𝐢𝐧: 𝐧𝟏 = 𝟏𝟓𝟎, 𝐗𝟏 = 𝟐𝟐. 𝟓 ⟹ 𝐘𝟏 = 𝟏. 𝟏𝟐𝐱𝐗𝟏 ⟹ 𝐘𝟏 = 𝟏. 𝟏𝟐𝐱𝐗𝟏 = 𝟏. 𝟏𝟐𝐱𝟐𝟐. 𝟓 = 𝟐𝟓. 𝟐
𝐑𝐚𝐳𝐚 𝐂𝐞𝐛ú: 𝐧𝟐 = 𝟐𝟐𝟎, 𝐗𝟐 = 𝟐𝟎. 𝟖 ⟹ 𝐘𝟐 = 𝟎. 𝟗𝟓𝐱𝐗𝟐 ⟹ 𝐘𝟐 = 𝟎. 𝟗𝟓𝐱𝐗𝟐 = 𝟎. 𝟗𝟓𝐱𝟐𝟎. 𝟖 = 𝟏𝟗. 𝟖
b. Halle y compare la producción promedia de leche que tendrá el
ganadero sin y con el nuevo nutriente para las dos razas.
𝟏𝟓𝟎𝐱𝟐𝟐. 𝟓 + 𝟐𝟐𝟎𝐱𝟐𝟎. 𝟖
𝐒𝐢𝐧 𝐧𝐮𝐭𝐫𝐢𝐞𝐧𝐭𝐞: 𝐗 = = 𝟐𝟏. 𝟓
𝟏𝟓𝟎 + 𝟐𝟐𝟎
𝟏𝟓𝟎𝐱𝟐𝟓. 𝟐 + 𝟐𝟐𝟎𝐱𝟏𝟗. 𝟖
𝐍𝐮𝐞𝐯𝐨 𝐧𝐮𝐭𝐫𝐢𝐞𝐧𝐭𝐞: 𝐘 = = 𝟐𝟐. 𝟎
𝟏𝟓𝟎 + 𝟐𝟐𝟎 22
El percentil Pq divide a un conjunto de datos previamente
ordenado en un q% menores que Pq y un (100 – q)% mayores
que Pq.
Para calcular el percentil Pq, se determina en primer lugar la
posición (Pos).
= E ( Entero )  Pq = x( E )
 n + 1 
Pos = qx 
 100  = E.d ( Decimal )  Pq = x( E ) + 0.d  (x( E +1) − x( E ) )

Cuartiles. Divide el conjunto de datos en cuatro partes iguales (25%


cada parte).
• Primer cuartil. Percentil 25: P25 = Q1
• Segundo cuartil. Percentil 50: P50 = Q2 = me
• Tercer cuartil. Percentil 75: P75 = Q3
23
Ejemplo 7.
Se cuenta con los datos de los tiempos (en minutos) de tardanza de los
trabajadores de una compañía de seguro. Halle e interprete el percentil
45.

15 12 18 22 24 10 9 13 25 18 6 14

Datos ordenados: 6, 9, 10, 12, 13, 14, 15, 18, 18, 22, 24, 25

 n +1  12 + 1 
q = 45 y n = 12, Pos = qx   = 45 x   = 5.85
 100   100 
 P45 = x(5 ) + 0.85  (x(6 ) − x(5 ) ) = 13 + 0.85  (14 − 13) = 13.85 min utos

Interpretación: El 45% de los trabajadores tienen un tiempo de tardanza


menor 13.85 minutos y el otro 55% más de 13.85 minutos

24
Ejercicio 3.
Los siguientes datos corresponden a los pesos, en Kg. de 10 personas:
50, 52, 53, 54, 63, 64, 75, 76, 77, 80

a. Calcule el peso máximo para que una persona sea considerada


dentro del 25% de menores pesos.
 10 + 1 
q = 25 y n = 10  Pos = 25 x   = 2.75
 100 
( )
P25 = x( 2) + 0.75  x(3) − x( 2) = 52 + 0.75  ( 53 − 52 ) = 52.75 Kg
El peso máximo debe ser igual a 52.75 Kgs. Para considera a una persona
dentro del 25% de menores pesos
b. Calcule el peso mínimo para que una persona sea considerada
dentro del 25% de mayores pesos.
 10 + 1 
q = 75 y n = 10  Pos = 75 x   = 8.25
 100 
( )
P75 = x(8) + 0.25  x(9) − x(8) = 76 + 0.25  ( 77 − 76 ) = 76.25 Kg
El peso mínimo debe ser igual a 76.25 Kgs. 25
Ejercicios propuestos.
1. Los siguientes datos corresponden al número árboles
infectados con el nemátodo del pino (Bursaphelebchus
Xylophilus) para una muestra de 40 parcelas de 64 mt2 cada
una.
0 2 3 5 6 6 8 9 12 12 14 18
0 2 4 5 6 6 8 10 12 14 16 18
1 2 4 5 6 6 8 10 12 14 16 18

a. Halle e interprete el percentil 35


b. ¿Cuál debe ser el valor mínimo del número de árboles infectados para
que una parcela sea considerada dentro del 16% de las de mayor
número?
c. ¿Cuál debe ser el valor máximo del número de árboles infectados para
que una parcela sea considerada dentro del 28 de las de menor
número?
d. ¿Para qué valores del número de árboles infectados se tendrá el 80%
central de parcelas?

26
2. Los siguientes datos corresponden a una muestra de 12
apicultores sobre su producción de miel anual (en kgrs) por
colmena.

250.5 320.0 345.5 260.4 358.2 268.5 380.1 410.2 430.4 480.3 410.3 420.1
a. Calcular e interpretar las medidas de tendencia central
b. Si se espera un incremento del 15.5% en la producción de miel en los
meses de verano y una disminución del 4.5% en invierno. Halle la
producción promedia de miel para dad estación y para las dos
estaciones juntas.

27
Rango y Rango intercuatil

Variancia y desviación estándar

Coeficiente de variabilidad

Transformación de variables

Ejemplos, ejercicios resueltos y propuestos

2
8
Son medidas de variabilidad permiten conocer el grado de
dispersión o variabilidad dentro de un conjunto de datos.
Se usan para comparar la variabilidad entre dos o más
conjuntos de datos. Cuando los datos presentan baja
variabilidad, se dice que son homogéneos y cuando
presentan alta variabilidad se dice que son heterogéneos.
Las principales medidas de variabilidad son las siguientes:

•La amplitud o rango


•El rango intercuartílico
•La variancia y la desviación estándar
•El coeficiente de variabilidad

2
9
Ejemplo 1.
Considerar los siguientes datos como las notas de la
primera práctica de una muestra de alumnos cada una de
las tres secciones de una asignatura:

Grupo Notas Media


A 14 14 14 14 14 14 14 14 14 14 14
B 14 13 15 14 12 15 16 13 12 16 14
C 19 8 19 11 16 18 6 13 10 20 14

Los grupos A, B y C tienen la misma media pero


diferente dispersión en torno a la media.
• Respecto a la variabilidad o dispersión: A < B < C
• Respecto a la homogeneidad : A > B > C
• Respecto a la confiabilidad de la media: A > B > C
3
0
El rango o amplitud de un conjunto de observaciones es
igual a la diferencia entre el valor máximo y el valor
mínimo.
R = Xmax – Xmin
Desventajas:
• Esta afectada por valores extremos
• No mide la variabilidad de los datos intermedios
Ejemplo 2.
Notas de PC1: 14,13,15,14,12,15,16,13,12,16,18,14,16
Hallar e interpretar el rango.
R = 18 – 12 = 6 puntos.
Interpretación. La amplitud de la nota de la primera
práctica fue de 6 puntos. 3
1
El rango intercuartílico, se calcula como la diferencia entre el
percentil 75 (P75 = Q3) y el percentil 25 (P25 = Q1).

RI = P75 - P25
El RI corresponde al rango del 50% central de los datos.

Ejemplo 3.
Notas de PC1: 12,12,13,13,14,14,14,15,15,16,16,16,18
Hallar e interpretar el rango intercuartílico.
Pos=3.5, P25=13+0.5x(13-13)=13
Pos=10.5, P75=16+0.5x(16-16)=16
RI = 16 – 13 = 3 puntos.
Interpretación. La amplitud del 50% central de las
notas de la primera práctica fue de 3 puntos. 3
2
La variancia es el promedio de la suma de cuadrados de
las desviaciones respecto a la media.
1 N 2 2
Poblacional:  = N  ( X j −  ) = N   X j − N  
2 1 N 2

j =1  j =1 
1  n 2 2
1 n
 ( )  X j − n X 
2

Muestral: S =
2
Xj −X =
n − 1 j =1 n − 1  j =1 

Desviación estándar muestral: S = S 2

Para una tabla de frecuencias:


k k
1 1
 ( f i X i − n X )
2
S =
2
fi ( X i − X ) =
2 2

n − 1 i =1 n − 1 i =1
donde k número de categorías
33
Ejemplo 4.
Halle la variancia y desviación estándar muestral de las
notas de la primera práctica para los 3 grupos.
Grupo Notas Media x
A 14 14 14 14 14 14 14 14 14 14 14 1960
B 14 13 15 14 12 15 16 13 12 16 14 1980
C 19 8 19 11 16 18 6 13 10 20 14 2192
1  10 2 2
S = 2
  xi − n x  =
n − 1  i=1
1
(
1960 − 10 x142 = 0) y SA = 0
 10 − 1
A

1  10 2 2
S =
2
  xi − n x  =
n − 1  i=1
1
( )
1980 − 10 x142 = 2.22 y S B = 2.22 = 1.49
 10 − 1
B

1  10 2 2
S =
2
  xi − n x  =
n − 1  i=1
1
( )
2192 − 10 x142 = 25.78 y SC = 25.78 = 5.08
 10 − 1
C

Las notas del grupo C son más variables que las del grupo B. Las
notas del grupo A es cero, son una constante. 34
El coeficiente de variabilidad es una medida de dispersión
relativa (no tiene unidades) y se define como la razón
entre la desviación estándar y la media aritmética de un
conjunto de observaciones.
 s
Poblacional: CV =  100 Muestral: cv =  100
 x
Ejemplo 5.
Halle el coeficiente de variabilidad de las notas de la
primera práctica para el grupo B.
SB 1.49
cvB = x100 = x100 = 10.6%
xB 14
Interpretación. La variabilidad de la primera práctica
del grupo B es 10.6%. 35
Ejemplo 6.
Los siguientes datos corresponden al tiempo (en minutos),
al cabo del cual se duermen las ratas después de haber
recibido un tipo de tranquilizante (A o B).
Tipo A Tipo B
n 18 ratas 20 ratas
x 9.94 min 15.2 min
s 2.81 min 2.84 min

¿Con qué tranquilizante el tiempo es más homogéneo?

2.81 2.84
cvA = 100% = 28.27 % cvB = 100% = 18.68 %
9.94 15.2
Por lo tanto, el tranquilizante B tiene tiempos más
homogéneas que el A.
36
Ejercicio 1.
Los siguientes datos
corresponden a las mediciones
de la emisión diaria (en
toneladas) de óxido de azufre
de una planta industrial.

15.8 26.4 17.3 11.2 23.9 24.5 13.9 9.4


22.7 18.5 15.2 11.0 7.7 20.0 16.2

Calcule e interprete las medidas de variabilidad (Rango, Rango


intercuartílico, Varianza, Desviación estándar y Coeficiente de
variación).

37
Solución.
Los siguientes datos corresponden a las mediciones de la
emisión diaria (en toneladas) de óxido de azufre de una
planta industrial.
15.8 26.4 17.3 11.2 23.9 24.5 13.9 9.4
22.7 18.5 15.2 11.0 7.7 20.0 16.2

❑Rango: r = Max-Min=26.4-7.7=18.7
Interpretación. La amplitud de la emisión de óxido de
azufre fue 18.7 Tn.

❑ Rango intercuartil: RI=P75–P25 = 22.7–11.2 = 11.5


P25: Pos=25x(15+1/100)=4, P25=11.2
P75: Pos=75x(15+1/100)=12, P75=22.7
Interpretación. La amplitud del 50% central de la
emisión de óxido de azufre fue 11.5 Tn.
38
Solución.
❑Variancia: X 2
i − nxX 2
S2 =
n−1
ΣXi=15.8+26.4+…+16.2 = 253.7, X = 16.91
ΣX2i=15.82+26.42+…+16.22 = 4755.67
S2 = (4755.67-15x16.912)/14 = 33.19
Interpretación. La variancia de la emisión de óxido de azufre fue
33.19 Tn2.
❑Desviación estándar: 𝐒 = 𝐒𝟐 = 𝟑𝟑. 𝟏𝟗 = 𝟓. 𝟕𝟔
Interpretación. La desviación estándar de la emisión de óxido
de azufre fue 5.76 Tn.
❑Coeficiente de variación.
𝐒 𝟓. 𝟕𝟔
𝐜𝐯 = 𝐱𝟏𝟎𝟎 = 𝐱𝟏𝟎𝟎 = 𝟑𝟒. 𝟏%
𝐗 𝟏𝟔. 𝟗𝟏
Interpretación. La variación de la emisión de óxido de azufre es
34.1%
39
Comparación de la variabilidad
Para comparar la variabilidad entre dos o más conjuntos
de datos, se debe considerar:
Unidades de Unidades de medidas iguales
medidas
Medias Medias
diferentes
similares diferentes
cv1 con cv2 S1 con S2 cv1 con cv2

Propiedades de transformación de datos


Sea la variable Y, entonces para
Medida Y = a  bX Y = bX Y =a X
S =
2
Y
b 2 S X2 2 2
b SX S X2
SY = bS X bS X SX
40
Ejemplo 7.
Se presentan las medidas estadísticas de las ventas
(soles) y tiempo extra (horas) de los vendedores de dos
zonas (A y B).
Desviación Coeficiente de
Promedio
estándar variabilidad
Zona Ventas Tiempo Ventas Tiempo Ventas Tiempo
A 236.3 3.5 82.6 1.5 35.0 42.9
B 450.5 3.6 98.5 2.8 21.9 77.7

a. ¿Las ventas de la zona A son menos variables que las de la zona B?.
Falso, cvA = 35.0% > cvB = 21.9% (Promedio diferentes)
b. El tiempo extra de la zona B muestra más variabilidad que la zona A.
Verdadero, SB = 2.8 > SA = 1.5 (Promedio similares)
c. Para la zona A, las ventas son menos variables que el tiempo extra.
Verdadero, cvVentas = 35.0% < cvTiempo = 42.9% (Variables diferentes)

41
Ejercicio 2
Los sueldos de 100 trabajadores de
una empresa de servicios de
limpieza tienen una media de $300
y una desviación estándar de $50.
Se proponen dos alternativas de
aumento:
Alternativa A: Aumentarles $75 a
cada uno;
Alternativa B: Aumentarles el 15%
del sueldo más $20 a cada uno.
¿Cuál de las alternativas será la
más conveniente para los siguientes
casos:?. Justifique su respuesta.
a. Si la empresa dispone sólo de $37000 para pagar el aumento
de sueldos.
b. Si la empresa quiere tener los aumentos de sueldos más
homogéneos.
42
Solución
a. Calculando el monto total requerido: X =
 X
 Total =  X = n  X
n
𝐀𝐥𝐭𝐞𝐫𝐧𝐚𝐭𝐢𝐯𝐚 𝐀: 𝐘𝐀 = 𝐗 + 𝟕𝟓 ⟹ 𝐘𝐀 = 𝟑𝟎𝟎 + 𝟕𝟓 = 𝟑𝟕𝟓 ⟹ 𝐓𝐨𝐭𝐚𝐥 = 𝐘𝐢 = 𝟏𝟎𝟎𝐱𝟑𝟕𝟓 = 𝟑𝟕𝟓𝟎𝟎

𝐀𝐥𝐭𝐞𝐫𝐧𝐚𝐭𝐢𝐯𝐚 𝐁: 𝐘𝐁 = 𝟏. 𝟏𝟓𝐗𝐘𝐁 = 𝟏. 𝟏𝟓𝐱𝟑𝟎𝟎 + 𝟐𝟎 = 𝟑𝟔𝟓 ⟹ 𝐓𝐨𝐭𝐚𝐥 = 𝐘𝐢 = 𝟏𝟎𝟎𝐱𝟑𝟔𝟓 = 𝟑𝟔𝟓𝟎𝟎

Entonces, puesto que solo se tienen $37000 disponibles, se


escoge la alternativa B que sólo se necesita $36500.

b. Calculando los coeficientes de variación


𝟓𝟎
𝐀𝐥𝐭𝐞𝐫𝐧𝐚𝐭𝐢𝐯𝐚 𝐀: 𝐘𝐀 = 𝐗 + 𝟕𝟓 ⟹ 𝐒𝐘 = 𝐒𝐗 = 𝟓𝟎 ⟹ 𝐜𝐯𝐘 = 𝐱𝟏𝟎𝟎 = 𝟏𝟑. 𝟑%
𝟑𝟕𝟓
𝟓𝟕. 𝟓
𝐀𝐥𝐭𝐞𝐫𝐧𝐚𝐭𝐢𝐯𝐚 𝐁: 𝐘𝐁 = 𝟏. 𝟏𝟓𝐗 + 𝟐𝟎 ⟹ 𝐒𝐘 = 𝟏. 𝟏𝟓𝐒𝐗 = 𝟓𝟕. 𝟓 ⟹ 𝐜𝐯𝐘 = 𝐱𝟏𝟎𝟎 = 𝟏𝟓. 𝟖%
𝟑𝟔𝟓
Entonces, se escoge la alternativa A, puesto que tienen menos
variabilidad
43
Tipos de distribución de un conjunto de datos

Coeficiente de asimetría de Pearson

Diagrama de cajas

Interpretación de un diagrama de cajas

Ejemplos, ejercicios resueltos y propuestos

4
4
Las medidas de asimetría permiten determinar la forma de la
distribución para un conjunto de datos en lo que se refiere a su
simetría o asimetría.
Distribución Simétrica. Un conjunto
de datos presenta una distribución
simétrica, si su curva muestra simetría
con respecto al centro de los datos.  = Me
Distribución asimétrica positiva.
Un conjunto de datos presenta una
distribución asimétrica positiva, si su
curva muestra una cola hacía la derecha.
  Me
Distribución asimétrica negativa
Un conjunto de datos presenta una
distribución asimétrica negativa, si su
curva muestra una cola hacía la
izquierda.   Me 4
5
Ejemplo 1
Suponga que se tienen los siguientes gráficos (polígonos
de frecuencia) que corresponden a la distribución de los
ingresos mensuales (miles S/.) de muestras al azar de los
clientes de tres sucursales (A, B y C) de una caja rural.
Sucursal A Sucursal B Sucursal C

X = me X  me X  me
Distribución Distribución Distribución
simétrica asimétrica positiva asimétrica negativa

Los ingresos mensuales de los clientes de la sucursal A, es


simétrica, los de la sucursal B una asimetría positiva y los de la
sucursal C una asimetría negativa. 4
6
Coeficiente de asimetría de Pearson
Es una medida para evaluar el grado de asimetría de un
conjunto de datos.

as =
(
3 X − me )
s
Interpretación:
❖ Si as = 0 Entonces la distribución es simétrica.
❖ Si as < 0 Entonces la distribución es asimétrica
negativa o a la izquierda.
❖ Si as > 0 Entonces la distribución es asimétrica
positiva o a la derecha.

Un mayor (menor) valor del coeficiente de asimetría de


Pearson indica un mayor (menor) grado de asimetría de la
distribución de los datos. 4
7
Ejemplo 2
Los siguientes datos corresponde a las longitudes de langostinos
(cm.) de río para muestras de 12, 15 y 14 seleccionados en tres
criaderos (A, B y C). Las medidas calculadas se presentan a
continuación:
Criadero Promedio Mediana Desviación estándar
A 5.8 4.5 2.8
B 4.6 5.4 1.8
C 5.6 5.5 224.8

𝟑𝐱(𝟓.𝟖 − 𝟒.𝟓) 𝟑𝐱(𝟒.𝟔 − 𝟓.𝟒) 𝟑𝐱(𝟓.𝟔 − 𝟓.𝟓)


𝐚𝐬𝐀 = = 𝟏.𝟑𝟗 𝐚𝐬𝐁 = = −𝟏.𝟑𝟑 𝐚𝐬𝐂 = = 𝟎.𝟎𝟎𝟏𝟑𝟑
𝟐.𝟖 𝟏.𝟖 𝟐𝟐𝟒.𝟖
Interpretación. La longitud de langostino en el criadero A
muestra una asimetría positiva, en el criadero B una asimetría
negativa y en el C una distribución simétrica
4
8
Ejercicio 1
Se ha realizado un estudio sobre
la utilización del agua en los
hogares en tres zonas rurales (A,
B y C) para lo cual se ha
registrado el número de litros de
agua consumidos por un día.

Zonas Número de litros de agua consumidos por día


A 150 135 120 110 160 180 155 165
B 135 110 105 125 750 140
C 100 110 115 280 130 140 175 120 130 145
Cálculo de medidas estadísticas:
Zona n Promedio Mediana Desv. Estándar
A 8 146.88 152.50 23.59
B 6 228.00 130.00 256.00
C 10 144.5 130.00 52.00
Calcule e interprete el coeficiente de asimetría de Pearson para el
número de litros de agua consumidas para cada zona. 49
Solución:
Se ha realizado un estudio sobre la utilización del agua en los
hogares en tres zonas rurales (A, B y C) para lo cual se ha
registrado el número de litros de agua consumidos por un día.
𝟑𝐱(𝟏𝟒𝟔. 𝟖𝟖 − 𝟏𝟓𝟐. 𝟓𝟎)
𝐙𝐨𝐧𝐚 𝐀: 𝐚𝐬𝐀 = = −𝟎. 𝟕𝟏𝟓
𝟐𝟑. 𝟓𝟗
𝟑𝐱(𝟐𝟐𝟖. 𝟎 − 𝟏𝟑𝟎. 𝟎)
𝐙𝐨𝐧𝐚 𝐁: 𝐚𝐬𝐁 = = 𝟏. 𝟏𝟒𝟖
𝟐𝟓𝟔. 𝟎
𝟑𝐱(𝟏𝟒𝟒. 𝟓 − 𝟏𝟑𝟎. 𝟎)
𝐙𝐨𝐧𝐚 𝐂: 𝐚𝐬𝐂 = = 𝟎. 𝟖𝟑𝟔
𝟓𝟐. 𝟎

Interpretación. El número de litros de agua consumidas


en los hogares en la zona A muestra una asimetría
negativa, mientras que las zonas B y C presentan una
asimetría positiva..

50
Coeficiente de asimetría de Fisher
Es una medida para evaluar el grado de asimetría de un
conjunto de datos.
𝑛 3
𝑖=1 𝑥𝑖 −𝑋
𝑎𝑠 =
𝑛𝑠 3

Los criterios para definir si es un conjunto de datos


simétricos ó asimétricos son los mismos que para el
coeficiente de asimetría de Pearson.

La diferencia de ambos coeficientes (Pearson y


Fisher),radica en que Pearson solo se puede utilizar en
distribuciones uniformes, unimodales y moderadamente
asimétricas y Fisher utiliza el tercer momento estándar.

5
1
El diagrama de cajas (Box plot) se construye calculando
los cuartiles (Q1=P25, Q2=P50 y Q3=P75) de un conjunto
de datos.

Es una técnica gráfica que permite determinar en un


conjunto de datos :
❖ La asimetría corresponde al 50% central de los datos.
❖ La variabilidad dentro del 50% central de los datos
❖ Los valores atípicos o extremos (outliers).

52
❑ La caja contiene
información del 50%
central de los datos ya que
la línea inferior de la caja
es el primer cuartil (Q1 =
P25), y la línea superior de
la caja es el tercer cuartil
(Q3 = P75).

❑ Los bigotes son las líneas


❑ La línea que divide a la caja que se extienden de la
es la mediana y su posición parte inferior y superior
dentro de ella nos brindará de la caja hasta la
información sobre la observación más alta o
asimetría de la distribución más baja dentro de los
del 50% central de datos. intervalos de seguridad.
53
Interpretación de un diagrama de cajas
1. Respecto a la asimetría del 50% central
❖Si Q2 está próximo a Q1; asimetría positiva o hacía la derecha.
❖Si Q2 está próximo a Q3; asimetría negativa o hacía la izquierda.
❖Si Q2 está en medio de Q1 y Q3;simetría.
2. Respecto a la variabilidad dentro del 50% central
La caja más alargada (mayor RI), presenta una mayor
variabilidad.
3. Respecto a la detección de datos atípicos u outliers
Observaciones fuera del intervalo de seguridad inferior
(ISI) o superior (ISS). Se representan con asteriscos (*).
ISI = Q1 – 1.5 (Q3 - Q1) = Q1 – 1.5 RI
ISS = Q3 + 1.5 (Q3 - Q1) = Q3 + 1.5 RI

•Si Xi < ISI, entonces Xi es un dato atípico pequeño.


•Si Xi > ISS, entonces Xi es un dato atípico alto.
54
Ejemplo 3.
Se tienen los pesos de 10 personas del aula A:
50, 52, 53, 54, 63, 64, 75, 76, 85, 120.
Con estos datos se obtienen:
P25=Q1=52.75, P50=Q2=me=63.5, P75=Q3=78.25
RI=Q3-Q1 =25.5

Se calculan los intervalos de seguridad inferior y superior:


ISI = P25 – 1.5 RI = 52.75 – 1.5 (25.5) = 14.5
ISS= P75 + 1.5 RI = 78.25 + 1.5 (25.5) = 116.5
•Si algún Xi < 14.5, entonces Xi es un dato atípico pequeño.
•Si algún Xi > 116.5, entonces Xi es un dato atípico alto.

Como el dato X10=120 > ISS=116.5, entonces es un dato


atípico
55
ISS=116.5

Q3=78.25
Q2=63.5
Q1=52.75

• El bigote superior llega hasta el máximo valor (descontando el


dato extremo 120), este valor será 85.
• El bigote inferior llega hasta el mínimo valor (como no hay dato
extremo), este valor será 50.
➢ Hay una asimetría positiva, Q2 se aproxima a Q3
➢ Hay un dato atípico alto (120).
56
Ejercicio 2.
La gerencia financiara de una empresa
que otorgar créditos a pequeños
productores ganaderos en la región de
Cajamarca, desea evaluar los
préstamos otorgados de dos zonas (A
y B) del último trimestre. Con esta
finalidad se toman muestras aleatorias
de 13 y 11 productores de las zonas A
y B respectivamente.
En el siguiente cuadro se presenta los montos de préstamo (miles
de $) y las medidas estadísticas.
Zonas 1 2 3 4 5 6 7 8 9 10 11 12 13
A 12 13 20 22 25 28 36 36 40 42 42 46 80
B 8 16 18 20 20 22 22 24 30 34 50
Estadísticos descriptivos: Zona A, Zona B
Variable N Media Desv.Est. Q1 Mediana Q3
Zona A 13 34.00 17.83 21.00 36.00 42.00
Zona B 11 24.00 10.99 18.00 22.00 30.00 57
a. Construya el diagrama de cajas
M o n to s d e p ré sta m o s (m ile s $)
Zona A: Q1=21.0, Q2=36.0, Q3=42.0
ISI=21.0-1.5x(42.0-21.0)=-10.5
80

70

60
ISS=42.0+1.5x(42.0-21.0)=73.5
50 Entonces: X13=80>73.5 es dato atípico
Dat os

40

30
Zona B: Q1=18.0, Q2=22.0, Q3=30.0
20 ISI=18.0-1.5x(30.0-18.0)=0.0
10
ISS=30.0+1.5x(30.0-18.0)=48.0
0
Zo na A Zo na B
Entonces: X11=50>48.0 es dato atípico

b. Realice la comparación de ambas zonas de la asimetría, la


variabilidad y la existencia de datos atípicos.
❑ Los montos de los préstamos de la zona A presenta una
Asimetría negativa (Q2 se aproxima a Q3) y en la zona B una
Asimetría positiva (Q2 se aproxima a Q1).
❑ Los montos de préstamo en la zona A son más variables que
los de la zona B (mayor RIA=21 > RIB=12).
❑ Se encontraron un monto atípico en la zona A (80) y en la zona
B (50). 58
Ejercicios propuestos
Se sabe que un determinado contaminante industrial vertido
sobre un ecosistema fluvial genera en las truchas anticuerpos. Se
cree que el número de anticuerpos por cada unidad de sangre,
puede ser distinta entre truchas hembras y machos, por lo que se
ha seleccionado de un criadero de truchas, ubicado cerca de una
industria que vierte el contaminante, una muestra de 70 truchas
de las cuales 40 son hembras y 30 machos. Los datos obtenidos
se resumen a continuación, según el grupo de hembras o
machos.
Truchas hembras Truchas machos
220 490 600 730
220 490 630 770 Mean SE Mean StDev Minimo
230 500 640 770 673.0 45.2 247.8 290.4
350 510 640 790
360 510 650 890 Q1 Median Q3 Maximo N
380 520 660 900 476.6 689.2 833.3 1200 30
420 520 670 980
430 540 680 1000
460 590 380 1000
480 600 730 1340
59
a. Complete el siguiente diagrama de cajas.

b. Realice la comparación para ambos sexos, acerca de la


variabilidad y asimetría para el 50% central y la existencia de
datos atípicos.
60

También podría gustarte