Documentos de Académico
Documentos de Profesional
Documentos de Cultura
MEDIDAS ESTADISTICAS
Tabla de contenido
MEDIDAS DE TENDENCIA CENTRAL .................................................................................... 2
MEDIA .................................................................................................................................. 2
MEDIANA .......................................................................................................................... 10
MODA .................................................................................................................................15
CUARTILES ...................................................................................................................... 16
DECILES ............................................................................................................................ 18
PERCENTILES ................................................................................................................. 20
VARIANZAR ...................................................................................................................... 26
MEDIA ARITMETICA
Ejemplo:
Sean los siguientes valores las calificaciones la asignatura de matemáticas de estudiantes
de primer año:
6 6 9 10 7 8 9.5 5 8 7.5
240
= =8
30
aritmético:
Li - Ls 𝑓𝑖 x x *fi
Li - Ls 𝒇𝒊
32 – 42 3 37 111
32 – 42 3 42 – 52 6 47 282
42 – 52 6 52 – 62 10 57 570
52 – 62 10 62 – 72 7 67 469
62 – 72 7 72 – 82 2 77 154
72 – 82 2
28 1.586
1586
𝑥̅ = 28
= 56.64
Ejemplo:
Suponga que los siguientes datos corresponden a las calificaciones de cinco
estudiantes, evaluados en una escala de 1 a 10: 2, 4, 6, 8, 10.
2 -4
4 -2
6 0
8 2
10 4
Suma 0
2 − 6 = −4
Grupos
Ejemplo:
Hay casos en que los valores de una variable no tienen la misma importancia o peso,
por lo cual, es necesario asignarles un determinado factor o ponderación, que se
simboliza por
Ejemplo.-
Un estudiante realiza 3 exámenes de complejidad creciente, obteniendo los
siguientes resultados: 5, 8 y 7. El primer examen lo hizo en ½ hora, el segundo
en 1 hora y el tercero en hora y media, por lo que se les atribuye una
ponderación de 1, 2 y 3 respectivamente. Se pide calcular la nota media.
MEDIA GEOMÉTRICA
Si algunos valores son muy grandes en magnitud y otros muy pequeños, la media
geométrica proporciona una mejor representación de los datos que un simple
promedio.
a) Datos no agrupados
Esta fórmula es complicada de usar cuando los valores son grandes. Por lo que es
necesario hacerle algunos arreglos
Matemáticos
Ejemplo:
b) Datos agrupados
Li - Ls 𝒇𝒊 𝒙𝒊 log 𝒙𝒊 𝑓𝑖 𝑙𝑜𝑔 𝒙𝒊
32 – 42 3 37 1,586 4,704
42 – 52 6 47 1,672 10,032
52 – 62 10 57 1,755 17,550
62 – 72 7 67 1,826 12,782
72 – 82 2 77 1,826 3,772
28
fi.log 𝒙𝒊 = 48,851
𝑙𝑜𝑔. 𝑋𝐺 = 1,744
𝑋𝐺 = 𝑎𝑛𝑡𝑖𝑙𝑜𝑔 1, 744
𝑋𝐺 = 55,46
MEDIA ARMÓNICA
Datos no agrupados
X G = Media Armónica
X i =Valores de la variable
n =Número de observaciones
𝑋𝐻 = 6,56
Datos Agrupados
fi = Frecuencia Absoluta
𝑛
𝑋𝐻 = 𝑓 MC = Marca de clase
∑ 𝑖
𝑀𝐶
n = Número de observaciones
Encontrar la media armónica de la siguiente tabla:
Li - Ls 𝑓𝑖 𝑀𝐶 𝑭𝒊
𝑴𝑪
32 – 42 3 37 0,081
42 – 52 6 47 0,128
52 – 62 10 57 0,175
62 – 72 7 67 0,104
72 – 82 2 77 0,025
𝑓𝑖
∑
𝑀𝐶
= 0,513
MEDIANA
Es el valor que divide en dos partes iguales una serie ordenada de datos; es decir,
es el valor central de la serie. Se puede utilizar la mediana como un valor
representativo de un conjunto de datos cuando no sea recomendable utilizar el
promedio aritmético. Se denota por
Consideramos una variable discreta X cuyas observaciones en una tabla
estadística han sido ordenadas de menor a mayor. Llamaremos mediana al
primer valor de la variable que deja por debajo de sí al 50 %de las
observaciones. En otras palabras es el valor que se encuentra exactamente en
el centro del conjunto de datos.
En el caso de una distribución con los valores agrupados por intervalos: habrá
de detectarse primero el "intervalo mediano” (aquel intervalo en el que se
produzca una acumulación de frecuencia de 𝑛⁄2). Después obtendremos el
valor "intrapolando" gráficamente, suponiendo que la distribución de
frecuencias dentro del intervalo es "uniforme":
Datos no agrupados:
1 2 2 3 5 6 8 9 9 10 10 10 13 15 17
1) Ordenar los datos. (Es decir, hacer del conjunto de datos una serie).
2) Hallar el lugar donde cae la mediana.
3) Hallar el valor de la mediana.
Ordenada la serie se busca el lugar. Para ello se aplica la fórmula:
2, 2, 3, 4, 4, 5, 5, 5, 6
“5” es el lugar donde cae la mediana. Hallar el valor, en este caso en que hay un
número impar de observaciones, es fácil: es la quinta observación (contando de
izquierda a derecha o de derecha a izquierda). Esa observación tiene el valor 4.
Por lo tanto, la mediana de esta serie es de 4 años de edad.
2, 2, 3, 4, 4, 5, 5, 5, 6, 8
2, 2, 3, 4, 4, 5, 5, 5, 24
Datos agrupados
Donde:
𝑀𝑒 = 𝑀𝑒𝑑𝑖𝑎𝑛𝑎
𝐿𝐼 = 𝐿í𝑚𝑖𝑡𝑒 inicial de la 𝑐𝑙𝑎𝑠𝑒 𝑑𝑜𝑛𝑑𝑒 𝑠𝑒 𝑒𝑛𝑐𝑢𝑒𝑛𝑡𝑟𝑎 𝑙𝑎 𝑚𝑒𝑑𝑖𝑎𝑛𝑎
𝑛 = 𝑁u𝑚𝑒𝑟𝑜 de observaciones
𝑓𝑎𝑖−1 = 𝐹𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 acumulada 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑝𝑟𝑒𝑐𝑒𝑑𝑒𝑛𝑡𝑒 𝑎𝑙 𝑑𝑒 𝑙𝑎 𝑚𝑒𝑑𝑖𝑎𝑛𝑎
𝑓𝑖 = 𝐹𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖a absoluta 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑑𝑒 𝑙𝑎 𝑚𝑒𝑑𝑖𝑎𝑛𝑎
𝐴𝐶 = 𝐴𝑛cho de la clase
Li - Ls MC f fa
Ejemplo:
40 – 50 45 5 5
50 – 60 55 10 15
60 – 70 65 21 36
70 - 80 75 11 47
80 - 90 85 5 52
90 - 100 95 3 55
100 – 115 3 58
130
𝑴𝒆 = 𝟔𝟔, 𝟔𝟕
𝑋𝑖 𝑓𝑖 𝑓𝑎
20 3 3
21 4 7 (Se encuentra en la 2da. categoría
22 3 10
23 1 11 𝐸𝑑𝑎𝑑 𝑀𝑒𝑑𝑖𝑎𝑛𝑎: 𝑀𝑒 = 21 𝑎ñ𝑜𝑠
24 1 12
Características de la Mediana.-
fa(-)
fa i
n
2
fa 1- i
Límites
Li Me Ls
MODA
Puntaje
190-220 13
220-250 17
250-280 6
280-310 6
310-340 8
Total 50
• Q1, primer cuartil, al menos el 25% de los datos son menores o iguales que él y al
menos el 75% de los datos son mayores o iguales que él.
• Q3, tercer cuartil, al menos el 75% de los datos son menores o iguales que él y al
menos el 25% de los datos son mayores o iguales que él.
Resumiendo:
Representación.-
0% 25 % 50 % 75 % 100 %
𝑄1 𝑄2 𝑄3
b) Datos tabulados
𝑖∗𝑛
− 𝑓𝑎𝑖−1
𝑄1 = 𝐿𝑖 + ( 4 ) ∗ 𝐴𝐶
𝑓𝑖
𝑓𝑎𝑖−1 = la frecuencia acumulada “menor que” de la clase anterior ala del cuartil i
Límites fi fa
65 - 75 4 4
75 - 85 11 15
85 - 95 20 35
95 - 105 9 44
105 - 115 6 50
Total 50
𝑖𝑛
Con la relación 4 determinamos en la columna de fa (-) en que clase está
contenido él.
Cuartil deseado, donde “i”, representa el cuartil.
PRIMER CUARTIL:
𝑖𝑛 1∗50
= = 12.5 lo que nos indica en el primer cuartil se encuentra en el
4 4
segundo intervalo
Límites fi fa
65 - 75 4 4
75 - 85 11 15
85 - 95 20 35
95 - 105 9 44
105 - 115 6 50 𝑄1
Total 50
Reemplazamos en la ecuación:
1 ∗ 50
−4
𝑄1 = 75 + ( 4 ) ∗ 10 = 82,73 𝑏𝑜𝑙𝑖𝑣𝑖𝑎𝑛𝑜𝑠
11
TERCER CUARTIL:
𝑖𝑛 3∗50
= = 37,5 lo que nos indica en el tercer cuartil se encuentra en el
4 4
cuarto intervalo o clase.
Límites fi fa
65 - 75 4 4
75 - 85 11 15
85 - 95 20 35
95 - 105 9 44 𝑄3
105 - 115 6 50
Total 50
Reemplazamos en la ecuación:
3 ∗ 50
− 35
𝑄1 = 95 + ( 4 ) ∗ 10 = 97,78 𝑏𝑜𝑙𝑖𝑣𝑖𝑎𝑛𝑜𝑠
9
D1 D2 D3 D4 D5 D6 D7 D8 D9
EJEMPLO:
Utilicemos la distribución de los ingresos por familia semanal en bolivianos
𝑖𝑛
Con la relación determinamos en la columna de fa (-) en que clase está contenido
10
el
𝑖𝑛 2∗50
10
= 10
= 10
2∗50
−4
Reemplazando la ecuación: 𝐷2 = 75 + ( 19
11
) ∗ 10 = 80.55 𝑏𝑜𝑙𝑖𝑣𝑖𝑎𝑛𝑜𝑠
PERCENTILES
Los Percentiles son 99 y dividen a la muestra en cien partes iguales. Los Percentiles
se pueden calcular del siguiente modo:
b) Datos tabulados
𝑖∗𝑛
− 𝑓𝑎𝑖−1
𝑝𝑖 = 𝐿𝑖 + ( 100 ) ∗ 𝐴𝐶
𝑓𝑖
𝑓𝑎𝑖−1 = la frecuencia acumulada “menor que” de la clase anterior ala del percentil i
𝑖𝑛
Con la relación determinamos en la columna de
100
fa (-) en que clase está contenido
𝒊𝒏 𝟒𝟑∗𝟓𝟎
= = 𝟐𝟏. 𝟓 Lo que nos indica que el percentil 43 se encuentra en el tercer
𝟏𝟎𝟎 𝟏𝟎𝟎
intervalo
𝑃43
Reemplazamos en la ecuación:
43∗50
100
−15
𝑃43 = 85 + ( ) ∗ 10 = 88.25 𝑏𝑜𝑙𝑖𝑣𝑖𝑎𝑛𝑜𝑠
20
MEDIDAS DE DISPERSIÓN
Las medidas de dispersión son un conjunto de variables que se utilizan en la estadística para
calcular de qué manera se comporta la distribución de los datos en las fórmulas de análisis y
sus grados de variabilidad en función de un valor de referencia.
Por lo tanto, las medidas de dispersión no sirven al propósito particular del análisis
estadístico, sino que sirven para producir ensayos y calibrar la implementación de un modelo
estadístico genérico para conocer hasta qué punto la relación entre los datos ingresados en él
pueden ser considerados confiables: la llamada dispersión estadística representa un grado de
distribución de datos que oscilan en referencia a un valor absoluto que se utiliza como la
media aritmética.
La variabilidad o dispersión de los datos se configura respecto a la distancia entre los valores
de una variable y la media establecida para dicha variable; si se reconoce una diferencia muy
alta entre la media y el valor medido, se puede decir que la variable dispone de un grado de
dispersión muy alto.
Los valores de una variable oscilarán siempre en función de la media absoluta para dicha
variable, pero también habrá una variabilidad asociada al dato individual que comportan. Por
lo tanto, las medidas de dispersión son fundamentales para describir el rendimiento real de
la variable dentro del análisis estadístico particular en que se aplica.
En otras palabras, el valor de la variable no es el único dato que esta comporta: se trata de la
relación directa de ese valor con la media, por un lado, y respecto al dato individual, por el
otro. De esta manera, tras conocer la dispersión real de los valores respecto a la media, el
resultado del procesamiento de los datos mejora significativamente en relación con la
posición individual de cada variable.
Las medidas de dispersión por lo general se clasifican en cuatro categorías, pero esto puede
variar según las necesidades particulares del investigador:
Rango de variación:
Se trata de un número que indica la distancia entre un valor máximo y uno mínimo. Dicho
valor se toma de una población estadística determinada y se calcula con base en diferentes
factores.
Ejemplo de rango 1
Esta es una lista del número de huracanes ocurridos en el Atlántico durante los últimos 14
años:
8; 9; 7; 8; 15; 9; 6; 5; 8; 4; 12; 7; 8; 2
Resistencia del concreto: Imagina que estás probando la resistencia a la compresión del
concreto en diferentes muestras extraídas de una construcción. El rango te indicaría cuánto
varía la resistencia entre las muestras. Si el rango es pequeño, significa que la resistencia es
uniforme; si es grande, podría haber inconsistencias en la calidad del concreto.
R = Valor máximo – valor mínimo = xmax − xmin = 336,69 - 319,56= 17,13 kg/cm2
En este caso, el rango nos dice que las compresiones variaron en 17,13 kg/cm2 durante ese
dia. Es una medida simple pero útil para comprender la dispersión de los datos. Si el rango
es pequeño, significa que los datos están más concentrados alrededor de un valor central; si
es grande, hay más variabilidad en los datos.
VARIANZA
Esta medida representa la variación que puede sufrir un conjunto de datos respecto a la media.
Esta medida se utiliza para comparar a cada uno de los datos con la media del conjunto, y se
calcula sumando las diferencias, elevadas al cuadrado, entre cada valor con la media y
dividiendo entre el número total de valores. La fórmula para calcularla es:
Sea:
El cálculo de la varianza requiere hallar la media. Tomando los datos del número de
huracanes, la media se calcula mediante:
La media seria =
(0,50+0,80+0,81+0,38+0,81)/5 =0,66
(0,50- 0,66)² +(0,80 0,66 )² +(0,81 0,66 )² +(0,38 0,66 )² +(0,81 0,66 )²
5-1
=0,04215
Interpretación: Una varianza grande significa que los datos están más dispersos alrededor
de la media, mientras que una varianza pequeña indica que los datos están más agrupados
cerca de la media.
DESVIACIÓN MEDIA. Es la media aritmética de los valores absolutos de las desviaciones, por lo
que se calcula tomando como positivas todas las desviaciones, sumándolas y dividiendo entre n.
Desviación estándar
La desviación o variación en estadísticas se refiere a la medida de la dispersión o diferencia entre los
valores individuales en un conjunto de datos, también la conocemos como desviación típica o
estándar.
Corresponde a una desviación que es “habitual” entre el valor y la media. Se trata de un evento más
probable y por lo tanto se emplea como tal en el cálculo de dispersión.
Coeficiente de variación
El coeficiente de variación o coeficiente de variación de Pearson es una medida estadística que
proporciona información sobre la dispersión relativa (libre de unidades de medida) de un conjunto de
datos, que se define como el cociente de la desviación estándar entre la media aritmética o en otras
palabras es la desviación estándar como porcentaje de la media aritmética
Esta medida de dispersión se expresa como un porcentaje que es el resultado de dividir la desviación
típica sobre la media del conjunto.
𝑐𝑣 ≤ 30% , los datos de la muestra son relativamente homogéneos. Por lo tanto, la media es
representativa
𝑐𝑣 ≤ 30% ≤ 70% , los datos de la muestra son heterogéneos. por lo tanto, la media no es representativa
𝑐𝑣 ≥ 70%, los datos de la muestra son muy variables o heterogéneos. Por lo tanto. La media no es
representativa
EJEMPLO:
Supongamos que un ingeniero civil está supervisando un proyecto de construcción de un puente. Uno
de los aspectos críticos del diseño del puente es la resistencia del material utilizado en la construcción,
como el concreto.
HISTOGRAMA
280 270.9465323 269.0042244 269.8358528
269.1704209
266.1596448
263.7687705
270 261.5324488 261.6015623
260 250.5368358 248.6816174
246.3792751
250
240
230
1 2 3 4 5 6 7 8 9 10 11
RESULTADO. -
El ingeniero puede utilizar esta información para evaluar la variabilidad en la resistencia del concreto
y tomar decisiones informadas sobre el diseño y la construcción del puente para garantizar su
seguridad y durabilidad.