Documentos de Académico
Documentos de Profesional
Documentos de Cultura
2
Media o promedio
Medidas de Media ponderada
tendencia Mediana
central Moda
Percentiles
Rango
Medidas de Rango intercuartil
Variancia
variabilidad
Desviación estándar
Coeficiente de variabilidad
Diagrama de
cajas 5
La media o promedio y la media ponderada
La mediana
La moda
Propiedades de transformación
Percentiles
6
Las medidas estadísticas pueden son calculadas con los
datos provenientes de una población (N: Tamaño de la
población) o muestra (n: Tamaño de la muestra) para
evaluar diferentes variables (cuantitativas y cualitativas),
cuya finalidad es resumir y representar el conjunto de
datos.
Observaciones:
1. Las medidas estadísticas asumen las mismas unidades de
medida de la variable en estudio.
2. Para las variables cuantitativas, se pueden calcular todas las
medidas estadísticas.
3. En el caso de las variables cualitativas, sólo es posible
calcular como medidas la moda y la proporción.
7
Medidas de Tendencia Central
Son medidas estadísticas que se localizarían en la parte central de
la distribución de los datos. Permiten resumir y representar en un
sólo valor el conjunto de datos. Las principales medidas de
tendencia central son:
8
La media o promedio de un conjunto de observaciones es
igual a la suma de sus valores dividido entre el número
de observaciones
1 N
Media Poblacional: =
N j =1
Xj
1 n
Media Muestral: X = Xj
n j =1
Ejemplo 1. Suponga que se tiene los datos de las ventas
semanales (en dólares) de una muestra de 8 vendedores. Calcule
la venta promedio semanal.
150 120 300 280 350 250 160 280
1 8 150 + 120 + 300 + 280 + 350 + 250 + 160 + 280 1,890
X = xi = = = 236.3
8 i =1 8 8
Interpretación. La venta promedio semanal por vendedor fue de $ 236.3
9
1. La media está afectada por valores extremos (altos o
pequeños).
2. Localiza la parte central de un conjunto de
observaciones.
3. Para un conjunto de observaciones la media es única.
4. La suma de las desviaciones de las observaciones con
respecto al promedio es igual a cero.
( X )
n n
j − X = Xj −n X = n X − n X = 0
j =1 j =1
( X ) ( X j − c ) , donde
n 2 n
2
j −X cR
j =1 j =1
10
La media ponderada se usa cuando se quiere que las
observaciones tengan un peso (wi).
k
w x
j =1
j j
w1 x1 + w2 x2 + ... + wk xk
xp = =
k
w1 + w2 + ... + wk
w
j =1
j
n
Caso 2. Si x1 , x 2 ,..., x k son las
medias de k grupos y cada grupo tiene j xj
j =1
un tamaño n1 , n2 ,..., nk xp = k
respectivamente, entonces la media de
todos los datos n = n1 + n2 + ... + nk n j =1
j
se calcula por:
12
Ejemplo 3.
En la siguiente tabla se presenta el número de cursos
matriculados en el presente semestre para una muestra de 300
alumnos. Hallar el número promedio de cursos matriculados por
alumno.
Número de cursos Número de alumnos
Xi fi
2 20
3 40
4 100
5 80
6 60
k Total 300
f
j =1
j xj
20 2 + 40 3 + 100 4 + 80 5 + 60 6
xp = = = 4.4
n 300
Interpretación. El número promedio de cursos
matriculados por alumno en este semestre es de 4.4
13
La mediana es el valor que ocupa la posición central de un
conjunto de datos, previamente ordenados. La mediana se
calcula:
𝑿 𝒏 + 𝑿 𝒏+𝟏
𝟐 𝟐
𝑺𝒊, 𝒏 𝒆𝒔 𝒊𝒎𝒑𝒂𝒓: 𝒎𝒆 = 𝑿 𝒏+𝟏 𝑺𝒊, 𝒏 𝒆𝒔 𝒑𝒂𝒓: 𝒎𝒆 =
𝟐 𝟐
X 10 + X 10
+1 X ( 5) + X ( 6 ) 63 + 64
n = 10 par , me = 2 2
= = = 63.5
2 2 2
Interpretación. Un 50% de personas pesan menos de 63.5 Kg.
y el otro 50% pesa más de 63.5 Kg. 14
1. La mediana divide a las n observaciones previamente
ordenadas, en dos partes iguales. El 50% con valores
menores a la mediana y el otro 50% con valores
mayores a la mediana.
2. La suma de las desviaciones absolutas de las
observaciones con respecto a la mediana es un valor
mínimo. n n
X
j =1
j − me X j − c , donde
j =1
cR
15
La moda de un conjunto de datos es el valor o atributo que
ocurre con mayor frecuencia.
Propiedades:
1. Puede no existir o puede haber más de una moda en un
conjunto de datos.
2. No es afectada por valores extremos.
3. Se aplica tanto para información cualitativa como
cuantitativa.
16
Ejemplo 5.
Se tiene longitudes (en cm.) de una raza de peces de rio para
muestras en tres zonas (A, B y C). Calcule e interprete la moda
para cada muestra.
Muestra de la zona A Muestra de la zona B Muestra de la zona C
4.0 4.3 4.6 4.0 4.1 4.4 4.0 4.1 4.3
4.1 4.4 4.7 4.1 4.2 4.5 4.1 4.2 4.3
4.2 4.5 4.8 4.1 4.3 4.6 4.1 4.3 4.5
No hay moda mo= 4.1 mo1 = 4.1
mo2 = 4.3
Interpretación.
Zona A. No hay moda
Zona B. La longitud más frecuente de las truchas es 4.1 cm.
Zona C. Existen dos modas: 4.1 y 4.3
17
Ejercicio 1.
En un estudio del medio
ambiente para evaluar la
calidad de aire, se registró
la cantidad de microgramos
de partículas en suspensión
por mt2 de aire para
muestras evaluadas en dos
zonas.
Zona A 48 26 28 28 32 34 34 36 36 36 46 48 24
Zona B 25 25 25 32 36 38 40 35 35 45 48 52
18
Solución:
Zona A.
48 + 26 + ... + 24 456
El promedio: X = = = 35.1
13 13
La cantidad promedio de microgramos de partículas por mt2 fue 33.0 en
la zona A.
La mediana: Datos ordenados: 24,26,28,28,32,34,34,36,36,36,46,48,48
n = 13 impar, me = X n+1 = X7 = 34
2
El 50% de las muestras la cantidad de microgramos de partículas es menor a 34 y
el otro 50% mayor a 34 en la zona A.
La moda: m0 = 36
La cantidad microgramos de partículas más frecuente fue 36.0 en la zona A.
Solución:
Calculando la media ponderada:
20
Para una nueva variable transformada: Y = a ± bX,
donde a y b son constantes reales. Entonces, sus
medidas estadísticas son calculadas:
Medida estadística Yi = a + bX i
Media o promedio Y = a + bX
Mediana meY = a + bme X
Moda moY = a + bmo X
21
Ejemplo 6.
Un ganadero, estima que la producción promedio de leche de sus
150 vacas de la raza Holstein es de 22.5 y las 220 vacas de la
raza Cebú de 20.8 litros por día. Si usando un nuevo nutriente,
espera un aumento del 12% en la raza Holstein pero un
disminución del 5% en la raza Cebú.
a. Halle la producción promedia de leche para cada raza con el
nuevo nutriente.
𝐑𝐚𝐳𝐚 𝐇𝐨𝐥𝐬𝐭𝐞𝐢𝐧: 𝐧𝟏 = 𝟏𝟓𝟎, 𝐗𝟏 = 𝟐𝟐. 𝟓 ⟹ 𝐘𝟏 = 𝟏. 𝟏𝟐𝐱𝐗𝟏 ⟹ 𝐘𝟏 = 𝟏. 𝟏𝟐𝐱𝐗𝟏 = 𝟏. 𝟏𝟐𝐱𝟐𝟐. 𝟓 = 𝟐𝟓. 𝟐
𝐑𝐚𝐳𝐚 𝐂𝐞𝐛ú: 𝐧𝟐 = 𝟐𝟐𝟎, 𝐗𝟐 = 𝟐𝟎. 𝟖 ⟹ 𝐘𝟐 = 𝟎. 𝟗𝟓𝐱𝐗𝟐 ⟹ 𝐘𝟐 = 𝟎. 𝟗𝟓𝐱𝐗𝟐 = 𝟎. 𝟗𝟓𝐱𝟐𝟎. 𝟖 = 𝟏𝟗. 𝟖
b. Halle y compare la producción promedia de leche que tendrá el
ganadero sin y con el nuevo nutriente para las dos razas.
𝟏𝟓𝟎𝐱𝟐𝟐. 𝟓 + 𝟐𝟐𝟎𝐱𝟐𝟎. 𝟖
𝐒𝐢𝐧 𝐧𝐮𝐭𝐫𝐢𝐞𝐧𝐭𝐞: 𝐗 = = 𝟐𝟏. 𝟓
𝟏𝟓𝟎 + 𝟐𝟐𝟎
𝟏𝟓𝟎𝐱𝟐𝟓. 𝟐 + 𝟐𝟐𝟎𝐱𝟏𝟗. 𝟖
𝐍𝐮𝐞𝐯𝐨 𝐧𝐮𝐭𝐫𝐢𝐞𝐧𝐭𝐞: 𝐘 = = 𝟐𝟐. 𝟎
𝟏𝟓𝟎 + 𝟐𝟐𝟎 22
El percentil Pq divide a un conjunto de datos previamente
ordenado en un q% menores que Pq y un (100 – q)% mayores
que Pq.
Para calcular el percentil Pq, se determina en primer lugar la
posición (Pos).
= E ( Entero ) Pq = x( E )
n + 1
Pos = qx
100 = E.d ( Decimal ) Pq = x( E ) + 0.d (x( E +1) − x( E ) )
15 12 18 22 24 10 9 13 25 18 6 14
Datos ordenados: 6, 9, 10, 12, 13, 14, 15, 18, 18, 22, 24, 25
n +1 12 + 1
q = 45 y n = 12, Pos = qx = 45 x = 5.85
100 100
P45 = x(5 ) + 0.85 (x(6 ) − x(5 ) ) = 13 + 0.85 (14 − 13) = 13.85 min utos
24
Ejercicio 3.
Los siguientes datos corresponden a los pesos, en Kg. de 10 personas:
50, 52, 53, 54, 63, 64, 75, 76, 77, 80
26
2. Los siguientes datos corresponden a una muestra de 12
apicultores sobre su producción de miel anual (en kgrs) por
colmena.
250.5 320.0 345.5 260.4 358.2 268.5 380.1 410.2 430.4 480.3 410.3 420.1
a. Calcular e interpretar las medidas de tendencia central
b. Si se espera un incremento del 15.5% en la producción de miel en los
meses de verano y una disminución del 4.5% en invierno. Halle la
producción promedia de miel para dad estación y para las dos
estaciones juntas.
27
Rango y Rango intercuatil
Coeficiente de variabilidad
Transformación de variables
2
8
Son medidas de variabilidad permiten conocer el grado de
dispersión o variabilidad dentro de un conjunto de datos.
Se usan para comparar la variabilidad entre dos o más
conjuntos de datos. Cuando los datos presentan baja
variabilidad, se dice que son homogéneos y cuando
presentan alta variabilidad se dice que son heterogéneos.
Las principales medidas de variabilidad son las siguientes:
2
9
Ejemplo 1.
Considerar los siguientes datos como las notas de la
primera práctica de una muestra de alumnos cada una de
las tres secciones de una asignatura:
RI = P75 - P25
El RI corresponde al rango del 50% central de los datos.
Ejemplo 3.
Notas de PC1: 12,12,13,13,14,14,14,15,15,16,16,16,18
Hallar e interpretar el rango intercuartílico.
Pos=3.5, P25=13+0.5x(13-13)=13
Pos=10.5, P75=16+0.5x(16-16)=16
RI = 16 – 13 = 3 puntos.
Interpretación. La amplitud del 50% central de las
notas de la primera práctica fue de 3 puntos. 3
2
La variancia es el promedio de la suma de cuadrados de
las desviaciones respecto a la media.
1 N 2 2
Poblacional: = N ( X j − ) = N X j − N
2 1 N 2
j =1 j =1
1 n 2 2
1 n
( ) X j − n X
2
Muestral: S =
2
Xj −X =
n − 1 j =1 n − 1 j =1
n − 1 i =1 n − 1 i =1
donde k número de categorías
33
Ejemplo 4.
Halle la variancia y desviación estándar muestral de las
notas de la primera práctica para los 3 grupos.
Grupo Notas Media x
A 14 14 14 14 14 14 14 14 14 14 14 1960
B 14 13 15 14 12 15 16 13 12 16 14 1980
C 19 8 19 11 16 18 6 13 10 20 14 2192
1 10 2 2
S = 2
xi − n x =
n − 1 i=1
1
(
1960 − 10 x142 = 0) y SA = 0
10 − 1
A
1 10 2 2
S =
2
xi − n x =
n − 1 i=1
1
( )
1980 − 10 x142 = 2.22 y S B = 2.22 = 1.49
10 − 1
B
1 10 2 2
S =
2
xi − n x =
n − 1 i=1
1
( )
2192 − 10 x142 = 25.78 y SC = 25.78 = 5.08
10 − 1
C
Las notas del grupo C son más variables que las del grupo B. Las
notas del grupo A es cero, son una constante. 34
El coeficiente de variabilidad es una medida de dispersión
relativa (no tiene unidades) y se define como la razón
entre la desviación estándar y la media aritmética de un
conjunto de observaciones.
s
Poblacional: CV = 100 Muestral: cv = 100
x
Ejemplo 5.
Halle el coeficiente de variabilidad de las notas de la
primera práctica para el grupo B.
SB 1.49
cvB = x100 = x100 = 10.6%
xB 14
Interpretación. La variabilidad de la primera práctica
del grupo B es 10.6%. 35
Ejemplo 6.
Los siguientes datos corresponden al tiempo (en minutos),
al cabo del cual se duermen las ratas después de haber
recibido un tipo de tranquilizante (A o B).
Tipo A Tipo B
n 18 ratas 20 ratas
x 9.94 min 15.2 min
s 2.81 min 2.84 min
2.81 2.84
cvA = 100% = 28.27 % cvB = 100% = 18.68 %
9.94 15.2
Por lo tanto, el tranquilizante B tiene tiempos más
homogéneas que el A.
36
Ejercicio 1.
Los siguientes datos
corresponden a las mediciones
de la emisión diaria (en
toneladas) de óxido de azufre
de una planta industrial.
37
Solución.
Los siguientes datos corresponden a las mediciones de la
emisión diaria (en toneladas) de óxido de azufre de una
planta industrial.
15.8 26.4 17.3 11.2 23.9 24.5 13.9 9.4
22.7 18.5 15.2 11.0 7.7 20.0 16.2
❑Rango: r = Max-Min=26.4-7.7=18.7
Interpretación. La amplitud de la emisión de óxido de
azufre fue 18.7 Tn.
a. ¿Las ventas de la zona A son menos variables que las de la zona B?.
Falso, cvA = 35.0% > cvB = 21.9% (Promedio diferentes)
b. El tiempo extra de la zona B muestra más variabilidad que la zona A.
Verdadero, SB = 2.8 > SA = 1.5 (Promedio similares)
c. Para la zona A, las ventas son menos variables que el tiempo extra.
Verdadero, cvVentas = 35.0% < cvTiempo = 42.9% (Variables diferentes)
41
Ejercicio 2
Los sueldos de 100 trabajadores de
una empresa de servicios de
limpieza tienen una media de $300
y una desviación estándar de $50.
Se proponen dos alternativas de
aumento:
Alternativa A: Aumentarles $75 a
cada uno;
Alternativa B: Aumentarles el 15%
del sueldo más $20 a cada uno.
¿Cuál de las alternativas será la
más conveniente para los siguientes
casos:?. Justifique su respuesta.
a. Si la empresa dispone sólo de $37000 para pagar el aumento
de sueldos.
b. Si la empresa quiere tener los aumentos de sueldos más
homogéneos.
42
Solución
a. Calculando el monto total requerido: X =
X
Total = X = n X
n
𝐀𝐥𝐭𝐞𝐫𝐧𝐚𝐭𝐢𝐯𝐚 𝐀: 𝐘𝐀 = 𝐗 + 𝟕𝟓 ⟹ 𝐘𝐀 = 𝟑𝟎𝟎 + 𝟕𝟓 = 𝟑𝟕𝟓 ⟹ 𝐓𝐨𝐭𝐚𝐥 = 𝐘𝐢 = 𝟏𝟎𝟎𝐱𝟑𝟕𝟓 = 𝟑𝟕𝟓𝟎𝟎
Diagrama de cajas
4
4
Las medidas de asimetría permiten determinar la forma de la
distribución para un conjunto de datos en lo que se refiere a su
simetría o asimetría.
Distribución Simétrica. Un conjunto
de datos presenta una distribución
simétrica, si su curva muestra simetría
con respecto al centro de los datos. = Me
Distribución asimétrica positiva.
Un conjunto de datos presenta una
distribución asimétrica positiva, si su
curva muestra una cola hacía la derecha.
Me
Distribución asimétrica negativa
Un conjunto de datos presenta una
distribución asimétrica negativa, si su
curva muestra una cola hacía la
izquierda. Me 4
5
Ejemplo 1
Suponga que se tienen los siguientes gráficos (polígonos
de frecuencia) que corresponden a la distribución de los
ingresos mensuales (miles S/.) de muestras al azar de los
clientes de tres sucursales (A, B y C) de una caja rural.
Sucursal A Sucursal B Sucursal C
X = me X me X me
Distribución Distribución Distribución
simétrica asimétrica positiva asimétrica negativa
as =
(
3 X − me )
s
Interpretación:
❖ Si as = 0 Entonces la distribución es simétrica.
❖ Si as < 0 Entonces la distribución es asimétrica
negativa o a la izquierda.
❖ Si as > 0 Entonces la distribución es asimétrica
positiva o a la derecha.
50
Coeficiente de asimetría de Fisher
Es una medida para evaluar el grado de asimetría de un
conjunto de datos.
𝑛 3
𝑖=1 𝑥𝑖 −𝑋
𝑎𝑠 =
𝑛𝑠 3
5
1
El diagrama de cajas (Box plot) se construye calculando
los cuartiles (Q1=P25, Q2=P50 y Q3=P75) de un conjunto
de datos.
52
❑ La caja contiene
información del 50%
central de los datos ya que
la línea inferior de la caja
es el primer cuartil (Q1 =
P25), y la línea superior de
la caja es el tercer cuartil
(Q3 = P75).
Q3=78.25
Q2=63.5
Q1=52.75
70
60
ISS=42.0+1.5x(42.0-21.0)=73.5
50 Entonces: X13=80>73.5 es dato atípico
Dat os
40
30
Zona B: Q1=18.0, Q2=22.0, Q3=30.0
20 ISI=18.0-1.5x(30.0-18.0)=0.0
10
ISS=30.0+1.5x(30.0-18.0)=48.0
0
Zo na A Zo na B
Entonces: X11=50>48.0 es dato atípico