Está en la página 1de 8

“ Análisis Estadístico ”

Ejemplos:
1. Se está analizando el bajo rendimiento académico de los estudiantes de una escuela, para lo cual se
obtuvieron los siguientes datos:
Tabla 1 Tabla 2
No. Materias No. Materia No. Alumnos
Reprobadas Alumnos en ETS
1 18 Español 14
2 21 Física 22
3 8 Inglés 14
4 3 Matemáticas 28
Química 18
Con base en ellos obtener:

De Tabla 1 De Tabla 2
a) Promedio de materias reprobadas por a) Promedio de alumnos que presentan ETS por
alumno materia
b) Desviación estándar b) Moda
c) 6° Decil c) Desviación estándar
d) Sesgo d) Curtosis
e) Polígono de Frecuencias e) Gráfica de Barras

Procedimiento:
Para poder hacer un análisis estadístico, lo primero es identificar el tipo de variable (Cualitativa o
Cuantitativa) y si los datos están agrupados (intervalos) o no, porque de eso dependen las fórmulas que se
usaran.
En los ejemplos que se verán (porque comúnmente así se manejan la mayoría de las tablas estadísticas) la
primera columna es la variable y la segunda es la frecuencia.
Tabla 1
La variable es número de materias reprobadas que es una variable cuantitativa (valores numéricos) y son
datos No agrupados (hay un sólo valor por renglón), por lo que se utilizaran las fórmulas de Variables
Cuantitativas para datos No agrupados.

x f
No. Mat. No. 𝒙∙𝒇 ̅
𝒙−𝒙 ̅̅̅𝟐
𝒇(𝒙 − 𝒙) fa ̅̅̅𝟑
𝒇(𝒙 − 𝒙)
Rep. Alum.
1 18 18 -0.92 15.2352 18 -14.0163
2 21 42 0.08 0.1344 39 0.0107 D6
3 8 24 1.08 9.3312 47 10.0776
4 3 12 2.08 12.9792 50 26.9967
 50 96 37.68 23.0688

Elaboró: Maestra Beatriz Vargas Rosales


a) Promedio de materias reprobadas por alumno
∑[𝑥∙𝑓]
La fórmula para la media o promedio es: 𝑥̅ = 𝑛
n es el número de datos y 𝑛 = ∑ 𝑓 = 50, para el numerador se deberá agregar la columna de x∙f y
en ella se multiplicará cada valor de x por su frecuencia, ejemplos; 4 ∙ 3 = 12, 3 ∙ 8 = 24, después se
suman () y el resultado se sustituye en la fórmula:
∑[𝑥 ∙ 𝑓] 96
𝑥̅ == = 1.92 ≈ 2 𝑚𝑎𝑡𝑒𝑟𝑖𝑎𝑠 𝑟𝑒𝑝𝑟𝑜𝑏𝑎𝑑𝑎𝑠
𝑛 50
Conclusión: En promedio los alumnos de esa escuela reprueban 2 materias.
b) Desviación Estándar
La fórmula para la desviación estándar de una muestra es: 𝑠 = √𝑠 2
∑[𝑓∙(𝑥−𝑥̅ )2 ]
La fórmula de la varianza es: 𝑠2 = (𝑛−1)
Por lo que se agregaran dos columnas a la tabla;
𝑥 − 𝑥̅ , al cada valor de la variable se le restará el promedio, ejemplos; 4 – 1.92 = 2.08, 1-1.92 = -0.92
𝑓(𝑥 − 𝑥) ̅̅̅2 , se multiplicará la frecuencia por el resultado de 𝑥 − 𝑥̅ elevado al cuadrado, ejemplos:
3 x (2.08)2 = 12.9792, 8 x (1.08)2 = 9.3312, y se suman los resultados, para sustituir en la fórmula.
∑[𝑓∙(𝑥−𝑥̅ )2 ] 37.68
𝑠2 = = (50−1) = 0.7689 𝑠 = √𝑠 2 = √0.7689 = 0.8769 𝑚𝑎𝑡. 𝑟𝑒𝑝.
(𝑛−1)

La desviación estándar indica que tan alejados están los datos de la media, por lo que para obtener
una conclusión es necesario calcular: 𝑥̅ ± 𝑠 = 1.92 ± 0.8769 = (1.04, 2.79) ≈ (1,3)
Conclusión: La mayoría de los alumnos reprueba entre 1 y 3 materias
Notas: Para los cálculos se usan los resultados en decimales, para la conclusión como la variable es discreta
y se maneja en números enteros (no puedes reprobar media (0.5) materia, o no repruebas (0) o la
repruebas (1)), es necesario aproximar los resultados a enteros, siguiendo la regla de ≤ 0.49 baja y ≥ 0.5
sube.
c) 6° Decil (D6)
El decil es una medida de posición, por lo que primero hay que ubicar en qué posición está la medida,
para eso se ocupa la frecuencia acumulada “fa”, hay que agregar esa columna a la tabla y se obtiene
sumando cada frecuencia con las anteriores, ejemplo: la primera fa es igual a la f dese renglón = 18
para la siguiente, se le suma la f del siguiente renglón fa = 18 + 21 = 39 y así sucesivamente
fa = 39 + 8 = 47, como comprobación debemos verificar que la última fa sea igual al número de datos,
en este caso se cumple, ya que la última fa = 50 = n
𝑛
𝑃𝑚 = (𝑑) 𝑝 Dónde: Pm = Posición de la medida
n = Número de datos
d= Número de partes en las que se divide el conjunto de datos
p = Número de parte que se está buscando
50
𝑃𝐷6 = (10) 6 = 30 Se divide entre 10 porque es Decil, y como se está buscando el sexto r = 6,
este valor se busca en la frecuencia acumulada y donde quepa
Elaboró: Maestra Beatriz Vargas Rosales
completamente, ese será el renglón dónde está el decil y por lo tanto, de ese
renglón se tomarán los datos.
𝐷6 = 2 𝑚𝑎𝑡𝑒𝑟𝑖𝑎𝑠 𝑟𝑒𝑝𝑟𝑜𝑏𝑎𝑑𝑎𝑠.
Conclusión: 6 de cada 10 alumnos (o el 60% de los alumnos) reprueba máximo 2 materias.
d) Sesgo
∑[𝑓∙(𝑥−𝑥̅ )3 ] 23.0688
𝑎= = (0.8769)3 ∙(50−1) = 0.6981
𝑠3 (𝑛−1)

Conclusión: a > 0 (+), entonces la curva de distribución de frecuencias está sesgada a la derecha
e) Polígono de frecuencias
Para elaborar el polígono de frecuencias en el eje horizontal se ponen los valores de la variable que se está
analizando y en el eje vertical va la frecuencia simple o absoluta, de tal manera que a cada valor de “ x “ se
le da la altura de su frecuencia “ f “ y se obtiene un punto, así se hace para cada valor de la variable y
después se unen todos los puntos con líneas rectas y así se obtiene el polígono de frecuencias (también
conocido como curva de distribución de frecuencias), cabe aclarar que para cerrar el polígono es necesario
agregar un valor de “ x “ (conservando la misma separación de los datos) al inicio y al final (en este caso 0
y 5) que obviamente tendrán una frecuencia de cero.

No. de Materias Reprobadas por Alumno


25

20
No. de Alumnos

15

10

0
0 1 2 3 4 5
No. de Materias Reprobadas

Conclusión: En la gráfica se observa que el número de materias más frecuentemente reprobado por los
alumnos es 2 y el menos frecuente es 4.

Elaboró: Maestra Beatriz Vargas Rosales


Tabla 2
Como se observa en la primera columna de la tabla, en este caso se tienen variables cualitativas (palabras,
categorías), por lo que se utilizarán las fórmulas para Variables Cualitativas.

“x“ “f“
Materia No. Alumnos ̅
𝒇−𝒙
en ETS ̅) 𝟐
(𝒇 − 𝒙 ̅) 𝟒
(𝒇 − 𝒙
Español 14 -5.2 27.04 731.1616
Física 22 2.8 7.84 61.4656
r=5 Inglés 14 -5.2 27.04 731.1616
Matemáticas 28 8.8 77.44 5996.9536 Mo
Química 18 -1.2 1.44 2.0736
 96 140.8 7522.816
a) Promedio de alumnos que presentan ETS por materia
∑ 𝑓 96
𝑥̅ = = = 19.2 ≈ 19 𝑎𝑙𝑢𝑚𝑛𝑜𝑠 𝑞𝑢𝑒 𝑝𝑟𝑒𝑠𝑒𝑛𝑡𝑎𝑛 𝐸𝑇𝑆
𝑟 5
Donde r es el número de categorías que se están analizando.
Conclusión: En promedio 19 alumnos presentan ETS de la misma materia.
b) Moda
Para variables cualitativas o Datos No Agrupados, la Moda es el dato más repetido, es decir el dato que
tiene la mayor frecuencia simple o absoluta, por lo que hay que ubicar en esa columna el mayor valor y de
ese renglón se tomarán los datos.
𝑀𝑜 = 𝑀𝑎𝑡𝑒𝑚á𝑡𝑖𝑐𝑎𝑠
Conclusión: La materia que más frecuentemente reprueban los alumnos es Matemáticas.
c) Desviación estándar

s = s 2 Para obtener la desviación se debe primero calcular la varianza y para esto hay que agregar dos
columnas a la tabla:
𝑓 − 𝑥̅ A la frecuencia simple o absoluta se le resta el valor de la media, ejemplos; 14 – 19.2 = -5.2,
22 -19.2 = 2.8
(𝑓 − ̅̅̅
𝑥)2 El resultado de la columna anterior, se eleva al cuadrado y los resultados se suman, ejemplos;
(-5.2)2 = 27.04, (2.8)2 = 7.84
̅̅̅2
∑(𝑓−𝑥) 140.8
𝑠2 = = (5−1) = 35.2 𝑠 = √𝑠 2 = √35.2 = 5.9329 𝑎𝑙𝑢𝑚𝑛𝑜𝑠 𝑞𝑢𝑒 𝑝𝑟𝑒𝑠𝑒𝑛𝑡𝑎𝑛 𝐸𝑇𝑆
(𝑟−1)

Para sacar la conclusión hay que calcular 𝑥̅ ± 𝑠 = 19.2 ± 5.9329 = (13.26, 25.13) ≈ (13, 25)
Conclusión: En la mayoría de las ocasiones, entre 13 y 25 alumnos presentan ETS de la misma materia.

Elaboró: Maestra Beatriz Vargas Rosales


d) Curtosis
Para calcularla se requiere la desviación estándar (ya se obtuvo en el inciso c) y agregar otra columna a la
tabla: (𝑓 − 𝑥̅ )4 el resultado de la columna 𝑓 − 𝑥̅ se eleva a la cuarta y los resultados se suman, ejemplos;
(-5.2)4 = 731.1616, (2.8)4 = 61.4656
∑(𝑓 − 𝑥̅ )4 7522.816
𝑔= 4 −3= − 3 = −1.4820
𝑠 ∙ (𝑟 − 1) (5.9329)4 ∙ (5 − 1)
Conclusión: g < 0 ( - ), la curva de distribución de frecuencias es Platocúrtica (curva baja).

e) Gráfica de Barras
Para elaborar la gráfica de barras, en el eje horizontal debe estar la variable analizada (en este caso las
categorías) y en el eje vertical va la frecuencia simple o absoluta, las barras deben estar separadas entre
sí (con la misma separación entre cada barra) y también las barras deben tener el mismo ancho, pero su
altura será la frecuencia simple o absoluta que le corresponde.

Alumnos que presentan ETS


30

25

20

15

10

0
Español Física Inglés Matemáticas Química

Conclusión: En la gráfica se puede apreciar que la materia que más frecuentemente presentan los alumnos
ETS es Matemáticas y las menos frecuentes son Español e Inglés.

Elaboró: Maestra Beatriz Vargas Rosales


2. Se está analizando la distancia que recorren los alumnos para llegar a su escuela, para lo cual se
obtuvieron los siguientes datos:
Distancia (km) No. Alumnos Con base en ellos obtener:
0.4 – 3.8 3 a) Distancia Promedio recorrida por los alumnos
3.9 – 7.3 5 b) Coeficiente de Variación
7.4 – 10.8 8 c) Desviación Cuartana
10.9 – 14.3 15 d) Curtosis
14.4 - 17.8 7 e) Histograma
17.9 – 21.3 2

Procedimiento:
En este caso se está analizando una variable cuantitativa (datos numéricos) con datos agrupados (es un
intervalo de valores).
Distancia f No. x fr
(km) Alum. (km) 𝒙∙𝒇 𝒙−𝒙 ̅ 𝒇(𝒙 − 𝒙) ̅̅̅𝟐
fa 𝒇(𝒙 − 𝒙)̅̅̅𝟒 %
0.4 – 3.8 3 2.1 6.3 -9.1 248.43 3 20572.4883 7.5
3.9 – 7.3 5 5.6 28 -5.6 156.8 8 4917.248 12.5
7.4 – 10.8 8 9.1 72.8 -2.1 35.28 16 155.5848 20 Q1
10.9 – 14.3 15 12.6 189 1.4 29.4 31 57.624 37.5 Q3
14.4 - 17.8 7 16.1 112.7 4.9 168.07 38 4035.3607 17.5
17.9 – 21.3 2 19.6 39.2 8.4 141.12 40 9957.4272 5
 40 448 779.1 39695.733 100

a) Promedio
[𝒙∙𝒇]
̅=∑
Aplicando las fórmulas de Variables Cuantitativas: 𝒙 𝑛 = ∑𝑓
𝒏
(𝑙𝑖 + 𝑙𝑠 )
y para datos agrupados 𝑥 = dónde: li = Límite inferior de la clase o intervalo
2
ls = Límite superior de la clase o intervalo
Hay que agregar la columna “x” en la tabla y calcularla, por ejemplo para el primer renglón sería
(0.4+3.8) 4.2 (3.9+7.3)
𝑥= 2
= 2
= 2.1 , en el segundo renglón 𝑥 = 2
= 5.6 y así sucesivamente.
Después se agrega la columna “𝑥 ∙ 𝑓” y como en el primer ejemplo, indica que hay que multiplicar el valor
de x por su frecuencia, ejemplos: 2.1 · 3 = 6.3, 5 · 5.6 = 28 y así sucesivamente hasta completar la columna,
se realiza la sumatoria () de la columna “ x ” y de la columna “ 𝑥 ∙ 𝑓 ” para sustituir los resultados en la
fórmula y obtener el promedio:
[𝒙 ∙ 𝒇] 𝟒𝟒𝟖
̅=∑
𝒙 = = 𝟏𝟏. 𝟐 𝒌𝒎
𝒏 𝟒𝟎
Conclusión: En promedio los estudiantes recorren 11.2 km para llegar a la escuela.
Nota: Cabe aclarar que aunque la variable que estamos analizando es discreta (distancia en km), en este
caso si se puede manejar con decimales, es decir, 0.2 km = 200 m es una distancia que si existe y se puede
medir, por lo que no es necesario aproximarlo a enteros, de hecho desde un principio nos dieron los datos
con decimales.

Elaboró: Maestra Beatriz Vargas Rosales


b) Coeficiente de Variación “ CV ”
Es una medida que permite saber que tan dispersos (alejados) están los datos y no tiene unidades aunque
generalmente se expresa en porcentaje. Su principal aplicación es comparar las dispersiones de dos
distribuciones distintas, siempre que sus medias sean positivas.
𝑠 ∑[𝑓∙(𝑥−𝑥̅ )2 ]
𝐶𝑉 = Por lo que para calcularlo es necesario primero obtener la varianza 𝑠 2 = y la
𝑥̅ (𝑛−1)
desviación estándar 𝑠 = √𝑠 2 , por lo que hay que agregar a la tabla las columnas:
𝑥 − 𝑥̅ Ejemplos; 2.1 – 11.2 = -9.1, 5.6 – 11.2 = 5.6, 16.1 – 11.2 = 4.9
𝑓 ∙ (𝑥 − 𝑥̅ )2 Ejemplos; 3 · (-9.1)2 = 3 · 82.81 = 248.43, 5 · (-5.6)2 = 156.8
Obteniendo la sumatoria de la columna 𝑓 ∙ (𝑥 − 𝑥̅ )2 y sustituyendo en la fórmula:
∑[𝑓∙(𝑥−𝑥̅ )2 ] 779.1
𝑠2 = = (40−1) = 19.9743 𝑠 = √𝑠 2 = √19.9743 = 4.46 𝑘𝑚
(𝑛−1)
𝑠 4.46
𝐶𝑉 = = 11.2 = 0.3990 = 39.90% Conclusión: La dispersión de la distancia recorrida por los
𝑥̅
alumnos para llegar a su escuela es del 39.90%.
c) Desviación Cuartana “ DQ ”
Indica que tan alejados están de la media o promedio, la mitad central de los datos.
𝐼𝑄𝑅
𝐷𝑄 = Dónde: IQR = Intervalo intercuartílico 𝐼𝑄𝑅 = 𝑄3 − 𝑄1
2
Q3 y Q1, son medidas de posición, por lo que como se vio en el primer ejemplo, hay que ubicar su posición
en la tabla por medio de la frecuencia acumulada y hay que agregar la columna fa a la tabla; sumando a
cada frecuencia el resultado de acumular (sumar) las frecuencias anteriores a ésta, ejemplos: Como no
hay nada antes, la primera fa = 3 + 0 = 3, para la segunda sería fa = 5 + 3 = 8, la tercera es fa = 8 + 8 = 16 y
así sucesivamente fa = 15 + 16 = 31, hasta completar la columna, verificando que la última fa = n, y en este
caso se cumple (40 = 40).
𝑛
Hay que calcular la posición de la medida 𝑃𝑚 = (𝑑) 𝑝
40 40
Q3 (3er Cuartil) 𝑃𝑄3 = ( 4 ) 3 = 30 Q1 (1er Cuartil) 𝑃𝑄1 = ( 4 ) 1 = 10
Nota: Los cuartiles dividen el listado en 4 partes por eso d = 4, y p es la parte que se está buscando.
Ya identificado el renglón de la medida, ya se puede calcular la medida de posición, aplicando la fórmula:
[𝑷𝒎 −𝑭𝒂 ]
𝑴𝒑 = 𝒍𝒊𝒓 + ∙𝒄 Dónde: lir = Límite inferior real (de ese renglón)
𝒇
Pm = Posición de la medida Fa = Frecuencia acumulada anterior
f = Frecuencia simple o absoluta (de ese renglón) c = Ancho de clase o intervalo
Los límites reales, son el valor que está exactamente a la mitad de los valores de los límites de 2 intervalos
consecutivos, ejemplos:
[7.3 + 7.4 ]
𝒍𝒊𝒓 = = 7.35
2

3.9 7.3 7.4 10.8 10.9 14.3


[10.8 + 10.9 ]
𝒍𝒊𝒓 = = 10.85
2

Elaboró: Maestra Beatriz Vargas Rosales


Para obtener el valor de c, hay que restar el límite inferior de 2 renglones consecutivos de la tabla y como
se puede observar, no importa el par de renglones que se elija, el valor de c es el mismo.
Para datos agrupados; 𝒄 = 𝒍𝒊𝟐 − 𝒍𝒊𝟏 Ejemplos: 𝑐 = 3.9 − 0.4 = 3.5 o 𝑐 = 7.4 − 3.9 = 3.5
[30 − 16 ] [10 − 8 ]
𝑸𝟑 = 10.85 + ∙ 3.5 = 14.1166 𝑘𝑚 𝑸𝟏 = 7.35 + ∙ 3.5 = 8.225 𝑘𝑚
15 8
𝐼𝑄𝑅 5.8916
𝑰𝑸𝑹 = 𝑄3 − 𝑄1 = 14.1166 − 8.225 = 5.8916 𝑘𝑚 𝑫𝑸 = = = 2.94 𝑘𝑚
2 2
Al igual que con la desviación estándar, para obtener la conclusión de la desviación cuartana, hay que
obtener la tolerancia 𝑥̅ ± 𝐷𝑄 = 11.2 ± 2.94 = ( 8.26, 14.14 ) 𝑘𝑚
Conclusión: La mitad de los estudiantes recorre entre 8.26 y 14.14 km para llegar a su escuela.
Nota: La desviación cuartana representa la mitad central de los datos porque:
3 1
𝑄3 𝑟𝑒𝑝𝑟𝑒𝑠𝑒𝑛𝑡𝑎 = 0.75 = 75 % y 𝑄1 𝑟𝑒𝑝𝑟𝑒𝑠𝑒𝑛𝑡𝑎 = 0.25 = 25 %,
4 4
entonces 𝑄3 − 𝑄1 𝑟𝑒𝑝𝑟𝑒𝑠𝑒𝑛𝑡𝑎 75 % − 25% = 50 %.
∑[𝑓∙(𝑥−𝑥̅ )4 ]
d) Curtosis “ g ” 𝑔= −3
𝑠4 ∙(𝑛−1)
Hay que agregar a la tabla la columna (𝑥 − 𝑥̅ )4 , en la que resultado de la columna 𝑥 − 𝑥̅ se elevará a la 4ª
potencia y se multiplicará por su potencia, ejemplo: 3 ∙ (−9.1)4 = 3 ∙ 6857.4961 = 20572.4883,
∑[𝑓 ∙ (𝑥 − 𝑥̅ )4 ] 39695.733
𝑔= − 3 = − 3 = 2.5504 − 3 = −0.4495
𝑠 4 ∙ (𝑛 − 1) (4.46)4 ∙ (40 − 1)
Conclusión: g < 0 ( - ), la curva de distribución de frecuencias es Platocúrtica (curva baja).
e) Histograma
Esta gráfica, solo puede usarse con variables cuantitativas y datos agrupados, ya que en el eje horizontal
se podrán los límites reales de los intervalos, por lo que las barras quedaran juntas ya que comparten
límites, y en el eje vertical puede ir; la frecuencia simple o absoluta “ f ”, la frecuencia relativa “ fr ”, la
frecuencia acumulada “ fa ” o la frecuencia relativa acumulada “ fra ”. Para este ejemplo lo haremos con
la frecuencia simple o absoluta ya que es la más comúnmente utilizada y la frecuencia relativa (%), se
pondrá dentro de las columnas.
𝑓
Se agregará la columna fr, la cual se llenará aplicando la fórmula 𝑓𝑟 = (𝑛) 100, para cada renglón,
3 5
ejemplos; 𝑓𝑟 = (40) 100 = 7.5, 𝑓𝑟 = (40) 100 = 12.5
Nota: Para comprobar, la suma de las frecuencias relativas debe ser 100%.
Histograma
(Número de
Alumnos) f
16
14
12
10
8 37.5 %
6
4 20 % 17.5 %
2 7.5 % 12.5 % 5%
x
0 2 4 6 8 10 12 14 16 18 20 22
0.35 3.85 7.35 10.85 14.35 17.85 21.35 (Distancia km)

c = 3.5 c = 3.5
Elaboró: Maestra Beatriz Vargas Rosales

También podría gustarte