Documentos de Académico
Documentos de Profesional
Documentos de Cultura
En este apartado se analizan las variables cualitativas a través de las tablas de frecuencias,
representaciones gráficas y medidas de tendencia central (moda)
Para iniciar el análisis de datos categóricos se presenta las causas de los accidentes de tránsito.
1/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
Solución.
¿Qué hacer con los datos brutos? Seguramente se ha entendido qué tipo de datos se han proporcionado
(cualitativos) y que significan cada uno de ellos, pero ahora seguramente surgirán preguntas como: ¿Ahora
qué hago con estos datos? ¿Cómo se ordenan? ¿Se podrá hacer algún tipo de análisis? ¿Qué conclusiones
voy a dar? ¿Qué esperarán que se muestre con estos datos? ¿Será realmente útil mostrar un gráfico,
mostrar una tabla o cifras puntuales?
Lo primero que se debe tener en cuenta es que todo lleva un orden y todo se hace por partes, no se debe
comenzar por el final, sino más bien dejar que las ideas fluyan y que eso permita ir descubriendo la riqueza
de los datos y todas las maravillas que se pueden hacer con ellos.
¿Cómo se organizan y se presentan los datos? Una vez que se han recolectado los datos necesarios, es
sumamente importante saberlos organizar o agrupar de alguna manera o mecanismo para poder
“manejarlos” de manera más eficiente y eficaz. La presentación de estos datos en tablas permite
apreciarlos con mejor claridad y explorar la información antes de analizarla.
Se debe resaltar que existen casos en donde es un poco estresante estar visualizando los datos con
nombres de categorías tan largas como es el caso planteado de los accidentes de tránsito. Muchas veces
se recurre a hacer una “codificación” tratando de reducir el tamaño de las respectivas categorías como se
muestra a continuación:
Código Categorías
Causa 1 Distracción del conductor
Causa 2 No guardar distancia reglamentaria
Causa 3 Invadir carril
Causa 4 Ebriedad
Causa 5 No respetar señal de prioridad
Causa 6 Velocidad excesiva
Una categoría, posiblemente se presenta en varias ocasiones dentro de los datos, a este número de veces
que aparece cada categoría se le llama Frecuencia de la categoría o frecuencia absoluta o simplemente
frecuencia.
Una vez que se han obtenido las frecuencia es importante conocer el peso que tiene cada una de las
categorías respecto al total de los datos, esto consiste en obtener el cociente entre la frecuencia absoluta
y el número de observaciones realizadas, a esto se le llama frecuencia relativa.
2/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
Las primeras tres causas de accidentes de tránsito son: Distracción del conductor, No guardar
distancia reglamentaria e invadir carril.
La causa menos registrada por accidentes en el período vacacional fue por ebriedad.
Los datos categóricos se representan en escala nominal (sexo, estado civil, distintas ramas de actividad
económica, profesión, ideología política, etc.) y datos en escala ordinal (nivel de estudios, estratificación
de familias por su capacidad de consumo, nivel de autoestima, etc.), cuando se puede establecer un
determinado orden o rango entre las observaciones.
Una descripción detallada sobre la elaboración de tablas de frecuencias se presenta en el apartado 2.2.
Un gráfico estadístico es una representación visual de una serie de datos y tiene las siguientes
características:
Gráfico de barras
Un gráfico de barras es una representación gráfica en un eje cartesiano, tal que en uno de los ejes se
representa las categorías y en el otro eje se representan las frecuencias de una variable categórica
(cualitativa).
3/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
La altura de las barras representa la magnitud de los valores asociados a cada categoría de datos. Por
ejemplo, las barras podrían representar:
En el apartado 2.1.1 se presentó el ejemplo de las causas principales de accidentes de tránsito del primer
día de vacación de semana santa 2017. A partir de la tabla de frecuencias correspondiente a esa situación
se elabora el gráfico de barras que se muestra a continuación.
En el eje horizontal se posicionan las distintas categorías de la variable cualitativa o categórica (en el
ejemplo, la causa del accidente) y en el eje vertical se presenta el valor o frecuencia de cada categoría en
una determinada escala (en el ejemplo, la cantidad de accidentes en unidades).
Las categorías que tienen frecuencia similar, están representadas por barras con altura similar. La
categoría con mayor frecuencia tiene una barra con la mayor altura.
10 9
8
8
6
4
2 1
0
Distracción del
Invadir carril
No guardar distancia
Ebriedad
No respetar señal de
Velocidad excesiva
conductor
reglamentaria
prioridad
A partir del gráfico se visualiza que la distracción del conductor es la principal causa de accidentes de
tránsito mientras que la ebriedad es la causa menos reportada.
• Vertical: las distintas categorías están situadas en el eje horizontal y las barras de frecuencias
crecen verticalmente.
• Horizontal: las categorías se sitúan en el eje vertical y las barras crecen horizontalmente. Suelen
usarse cuando hay muchas categorías o sus nombres son demasiado largos.
4/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
Ejemplo 2.2. Cantidad de casos de conjuntivitis bacteriana aguda reportadas por la Unidad de Vigilancia
Epidemiológica del Ministerio de Salud de El Salvador, para la semana 15 del año 2017, por departamento.
Elaborar un gráfico de barras en orientación horizontal, ordenado por magnitud de frecuencias (menor a
mayor)
Cabañas 12159
San Vicente 15576
Cuscatlán 15931
Morazán 17612
La Paz 21921
La Unión 19248
Chalatenango 23716
Ahuachapán 24961
Usulután 32984
Sonsonate 35653
Santa Ana 39404
San Miguel 42715
La Libertad 54723
San Salvador 187280
0 20000 40000 60000 80000 100000 120000 140000 160000 180000 200000
En el gráfico se observa que el departamento de San Salvador es el que reporta la mayor cantidad de casos
(presenta la barra más larga) y en el otro extremo se observa que los departamentos Cabañas, San Vicente
y Cuscatlán son los que reportan la menor cantidad de casos (presentan las barras más cortas).
En los ejemplos anteriores de gráficos de barras se han comparado las magnitudes (cantidad de accidentes,
casos de conjuntivitis bacteriana) asociadas a variables categóricas (causas de accidentes, departamentos),
sin embargo, hay situaciones donde se muestra el porcentaje que representa cada categoría, respecto al
total. Esta situación se ilustra con un pictograma.
Pictograma
Un pictograma es un gráfico que representa mediante figuras o símbolos las frecuencias de una variable
cualitativa (categórica).
5/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
Al igual que los gráficos de barras suelen usarse para comparar magnitudes o ver la evolución en el tiempo
de una categoría concreta. Las barras están constituidas por símbolos o figuras del mismo tamaño que
representan una cantidad específica (a mayor frecuencia, más acumulación de figuras).
Ejemplo 2.3. Elabore un pictograma que muestre los porcentajes de hogares de El Salvador que recibieron
remesas del exterior en el año 2013.
La Unión 47.8
Morazán 35.0
San Miguel 29.1
Usulután 31.6
San Vicente 27.6
Departamento
Cabañas 32.7
La Paz 20.3
Cuscatlán 16.9
San Salvador 13.5
La Libertad 17.9
Chalatenango 34.3
Sonsonate 14.4
Santa Ana 24.9
Ahuachapán 16.5
0.0 5.0 10.0 15.0 20.0 25.0 30.0 35.0 40.0 45.0 50.0
Porcentaje de hogares
En el pictograma se observa que las barras correspondientes al porcentaje medido para cada
departamento están construidas con un símbolo de billetes de dólar. Para construir la barra, se utiliza la
cantidad requerida de imágenes según sea su longitud.
La barra correspondiente al departamento de La Unión es la más larga y está compuesta de mayor cantidad
de símbolos, es decir La Unión presenta el mayor porcentaje de hogares que recibieron remesas durante
el 2013. La barra más corta le corresponde a San Salvador y por ello está compuesta de menor cantidad
de símbolos, es decir, San Salvador presenta el menor porcentaje de hogares que recibieron remesas
durante el 2013.
6/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Gráfico de sectores Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
Un gráfico de sectores es una representación circular de las frecuencias relativas de una variable cualitativa
(categórica) que permite su comparación de una manera sencilla y rápida.
Ejemplo 2.4. Suponga que el Ministerio de Turismo ha publicado una tabla con los conteos de visitantes a
4 centros turísticos durante las vacaciones de semana santa 2017 (datos hipotéticos). El gráfico de sectores
correspondiente quedaría como se muestra a continuación.
Se observa que la categoría que tiene la mayor cantidad de visitantes (Costa del Sol), tiene el sector más
grande en el gráfico. Observación similar se hace con la categoría que tiene la menor cantidad de visitantes
(Ichanmichen).
El círculo representa la totalidad que se quiere observar (en el ejemplo, total de visitantes) y cada porción,
llamadas sectores, representan la proporción de cada categoría de la variable (en el ejemplo, centro
turístico) respecto al total. Puede expresarse en valores absolutos o en porcentajes.
En la siguiente tabla se muestran los grados correspondientes a cada uno de los sectores del gráfico
anterior.
Centro turístico Cantidad de visitantes Ángulo del sector
Atecozol 980 69°
Costa del sol 2160 152°
Ichanmichen 530 37°
Lago de Ilopango 1430 101°
Total 5100 360°
7/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
Moda (Mo).
Categoría Frecuencia
Distracción del conductor 14
No guardar distancia reglamentaria 13
Invadir carril 12
Ebriedad 1
No respetar señal de prioridad 8
Velocidad excesiva 9
n = 57
Solución:
Se observa que la distracción del conductor aparece con mayor número de repeticiones respecto a los
demás. Esto quiere decir, que la moda (Mo) de los accidentes de tránsito es la distracción del conductor
(causa 1)
Moda: Es el valor de la variable que más veces se repite en una distribución de frecuencias, es decir, el
que tiene mayor frecuencia absoluta. Y se representa por:
Solución:
8/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
1) Suponga que se les pregunta a 50 alumnos del nivel básico sobre la asignatura que menos
problemas les ocasiona en el aprendizaje, obteniendo los siguientes resultados:
2) En una universidad se ha realizado una encuesta a 200 alumnos de ingeniería. El 32% afirman que
están muy contentos con la universidad, el 40% están contentos, el 23% no está contento y el
resto está muy descontento. Definir la variable en estudio y su tipo, luego construir la tabla de
frecuencias simples.
9/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
Hasta este punto se ha estudiado como construir una tabla de distribución de frecuencias de datos que
tienen naturaleza cualitativa o categórica. Sin embargo, se pueden construir tablas de distribución de
frecuencias cuando los datos son números. Este tipo de variables se denominan cuantitativas y se clasifican
en: Variables cuantitativas discretas y Variables cuantitativas continuas.
Un caso interesante de estudiar y que en El Salvador ha sido siempre un fenómeno geológico común y
sigue generando temor en la población por su difícil predicción de ocurrencia y por las consecuencias que
conlleva los sismos.
Ejemplo 2.7. (Sismos, marzo 2015) Según el Ministerio de Medio Ambiente y Recursos Naturales de El
Salvador (MARN) la cantidad de sismos registrados (locales y regionales) para el mes de marzo del año
2015 (sismos por día, del 1 al 31 de marzo):
1 4 4 8 7 8
4 4 5 8 8 3
3 0 5 2 12 6
3 5 11 6 3 2
6 9 4 12 6 2
0
A partir de la información anterior construir una tabla de frecuencias simple.
Solución.
Para la construcción de la tabla de frecuencias de datos discretos se comienza por identificar todos los
posibles valores que aparecen en los datos, ahora ya no son categorías sino valores o números, ya que se
10/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
está trabajando con una variable cuantitativa. A esta columna se le llama variable y generalmente se tiende
a representar con 𝑥 u otra letra. En el análisis de tablas de frecuencias de datos discretos cada valor se
repiten determinado número de veces y a ello se le llama frecuencia absoluta o simplemente frecuencia.
Muchas veces, a parte de las frecuencias relativas, se está interesado en conocer la cantidad de todos
aquellos casos o eventos que han ocurrido un número de veces menor o igual a un determinado valor de
referencia. Es aquí que se define la frecuencia absoluta acumulada que no es más que la suma acumulada
de las frecuencias absolutas de los valores menores o iguales al valor de referencia. Para conocer la
proporción de todos aquellos casos o eventos que han ocurrido un número de veces menor o igual a un
determinado valor de referencia se calcula la frecuencia relativa acumulada, que consiste en la suma
acumulada de las frecuencias relativas de los valores menores o iguales al valor de referencia.
De esta forma para la cantidad de sismos ocurridos en El Salvador en marzo de 2015 se tiene:
Ahora se generaliza la construcción de tablas de frecuencias, para ello, supóngase que se tiene una
muestra de tamaño n, donde la variable estadística X toma los valores distintos x1, x2, . . . , xn. Se debe
11/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
empezar por ordenar los diferentes valores que toma la variable estadística (en orden normalmente
creciente) y el total de veces que aparece cada valor.
En el caso de las variables discretas, generalmente, un mismo valor de la variable aparecerá repetido más
de una vez (es decir k < n). De forma que el siguiente paso es la construcción de una tabla en la que se
indiquen los valores posibles de la variable y su frecuencia de aparición (las veces que aparece el mismo
valor).
x1 n1 N1 n1 f1 n1 / n F1 N1 / n
x2 n2 N 2 n1 n2 f 2 n2 / n F2 N 2 / n
. . . . .
. . . . .
. . . . .
xk nk k
f k nk / n Fk N k / n 1
N k ni
i 1
Total k k
n
i 1
i n f
i 1
i 1
En la tabla de frecuencias simples, la primera columna representa los distintos valores de que toma la
variable y la segunda la frecuencia simple, es decir, el número de veces que se ha observado el
correspondiente valor; la tercera columna recoge la frecuencia acumulada (número de datos menores o
iguales que el valor correspondiente a dicha fila). Las frecuencias relativas se obtienen a partir de las
frecuencias absolutas, dividiendo por el tamaño de la muestra.
Ejemplo 2.8. Se tiene los datos recopilados acerca de la variable X: número de ausencias a clase que tienen
los estudiantes de una determina asignatura: 0, 1, 2, 2, 1, 3, 2, 1, 4, 2, 4, 3, 2, 0, 0, 2, 2, 3, 0, 3.
Solución.
12/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
a) Para responder el literal a) sobre el tipo de variable, se observa los diferentes valores que toma,
estos son: 0, 1, 2, 3 y 4, con esto valores es posible realizar operaciones aritméticas, por tanto, es
una variable cuantitativa discreta.
b) Al tratarse de una variable discreta (un conteo siempre tomará valores enteros) y con pocos
valores diferentes es recomendable construir una tabla de frecuencias simples. En este caso k = 5
(son cinco los valores distintos de X: 0, 1, 2, 3 y 4).
0 𝑛1 = 4 𝑁1 = 4 𝑓1 = 0.2 𝐹1 = 0.2
1 𝑛2 = 3 𝑁2 = 7 𝑓2 = 0.15 𝐹2 = 0.35
2 𝑛3 = 7 𝑁3 = 14 𝑓3 = 0.35 𝐹3 = 0.70
3 𝑛4 = 4 𝑁4 = 18 𝑓4 = 0.20 𝐹4 = 0.90
4 𝑛5 = 2 𝑁5 = 20 𝑓5 = 0.1 0 𝐹5 = 1
Total 20 1
Siempre que se construye una tabla de frecuencias es importante analizar los valores más sobresalientes,
por ejemplo, de la tabla anterior.
N2 = 7 indica que hay 7 estudiantes que tienen hasta (o como máximo) 1 ausencia.
Ejemplo 2.9. De los 335 trabajadores de una empresa, 65 han llegado 10 minutos antes de la hora de
entrada, 116 han llegado 5 minutos antes de la hora de entrada, 119 llegaron exactamente a la hora de
entrada, 16 llegaron 5 minutos tarde y el resto llegó 10 minutos tarde. Definir la variable en estudio y su
13/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
tipo, luego construir la tabla de frecuencias simples. ¿Considera que el gerente debe tomar alguna medida
general para que lleguen a su hora?
Solución.
Variable en estudio: Hora de llegada al trabajo.
¿Qué tipo de variable es esta?: Variable cuantitativa discreta.
10 19 335 0.056 1
Total 335 1
¿Considera que el gerente debe tomar alguna medida general para que lleguen a su hora? No. La mayoría
llega a su hora o antes, no hace falta tomar medidas generales pues los que llegan tarde sólo representa
el 12%. Si acaso habría que tomar alguna medida sería con el 12% de los que llegan tarde.
Cuando se tiene una situación donde la variable cuantitativa discreta toma demasiados valores distintos o
los valores de las variables son resultados de mediciones donde la naturaleza de los datos es continuo, se
debe construir tablas de frecuencias agrupadas. Es importante considerar que la agrupación de datos
siempre conlleva un grado de pérdida de información, pues ya no se cuenta con todos y cada uno de los
valores de la variable sino con los intervalos creados; no obstante, esta pérdida de información en general
no es significativa para el análisis global. En tal sentido, cuando en la muestra existen muchos valores
diferentes y mucha variabilidad se recomienda, aún a costa de perder información, agrupar los datos en
clases, en lo que se denomina distribución de frecuencias agrupada en intervalos y los valores de la variable
son tomados como las marcas de clases o puntos medios de los intervalos. El número de clases en que se
dividen los datos no debe ser excesivo, es recomendable trabajar un mínimo de 6 a un máximo de 15 clases
o intervalos.
14/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
que la nota promedio que obtuvieron los centros educativos del municipio de San Salvador (en adelante
se le llamará PAESITA 2012) fueron las siguientes.
4.6 5.3 4.5 4.3 4 4.2 4.8 4 6.1 4.8 6.9 4.2 4.7
5.5 5.9 4.4 5.6 3.6 4.4 4.3 3.7 7 4.8 7.3 3.7 4.3
4.3 7.2 4.1 4.3 3.5 4.2 6.4 4.1 5.3 4.4 4.8 5.1 5.3
4.4 6.2 4.2 5 4 5.7 4.4 5.5 4.3 4.1 7.6 3.8 4.7
4 4.8 4.3 4.6 4 6.1 4.6 5 4.1 4.7 4.8
Con la información anterior construir una tabla de frecuencias.
Solución:
Al ordenar las notas de menor a mayor se obtienen 28 datos diferentes y al hacer una tabla de distribución
de frecuencias simple con los datos anteriores quedarían 28 categorías, lo cual no es práctico para su
análisis. Para disminuir el número de categorías se agrupan los datos en intervalos y se ubica cada dato en
su intervalo correspondiente.
1- Encontrar la amplitud que tienen los datos, esto es, la diferencia entre el valor más grande con el valor
más pequeño:
Donde:
c: Número de clases a construir; log(n): logaritmo base 10 del número de datos de la muestra, al aplicar
esta regla a la situación planteada se tiene:
𝑐 = 1 + 3.322 log(63) = 6.98 ≈ 7
El número se redondea al entero más próximo (siempre se aproxima hacia delante) ya que son número de
clases las que se quieren definir.
3- Lo último que se debe definir es el ancho de clase o intervalo, es decir cuánto tendrá cada clase de
ancho.
𝐴 𝑇 4.1
𝑖𝑐 = = = 0.59 ≈ 0.6
𝑐 7
15/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
El método para ir construyendo las clases es a partir del valor más pequeño de los datos, en este caso 3.5
y sumarle el 𝑖 , con lo cual tendríamos la primer clase que será: 3.5 – < 4.1. Notar que el símbolo “<” indica
que no se tomará en cuenta el extremo derecho del intervalo.
Ahora que ya se tienen las clases o intervalos, se puede generar la “marca de clases”, esto es el punto
medio de cada intervalo. Así:
3.5 + 4.1
𝑀𝑎𝑟𝑐𝑎 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒 = = 3.8
2
Así sucesivamente para cada clase. Estas marcas de clase representan a los datos que están dentro de su
intervalo, por ejemplo, 3.8 representa a todos los datos que están entre 3.5 -< 4.1.
Al igual que en el caso de datos discretos, se calcula la frecuencia relativa, la frecuencia absoluta
acumulada y la frecuencia relativa acumulada, así:
Intervalo Marca de clase Frecuencia Frecuencia relativa F. Abs. Acum. F. rel. Acum.
3.5 - < 4.1 3.8 10 0.16 10 0.16
4.1 - < 4.7 4.4 24 0.38 34 0.54
4.7 - < 5.3 5.0 12 0.19 46 0.73
5.3 - < 5.9 5.6 7 0.11 53 0.84
5.9 - < 6.5 6.2 5 0.08 58 0.92
6.5 - < 7.1 6.8 2 0.03 60 0.95
7.1 - < 7.7 7.4 3 0.05 63 1
Total n = 63 Suma = 1
Los valores que toma la variable ahora son intervalos, lo cual significa que no necesariamente debe
tomar valores puntuales.
La mayoría de puntajes de la prueba de logros realizada osciló entre 4.1 y 4.7.
Más de la mitad de centros educativos evaluados, específicamente 34 obtuvo un puntaje menor a
4.7.
La máxima nota obtenida por un centro educativo en la prueba de logros está entre 7.1 y 7.7.
Ningún centro educativo obtuvo una nota menor a 3.5.
Solamente 5 centros educativos reportan una nota mayor a 6.5.
En forma general, si la variable es continua, se definen intervalos dentro de los cuales caerán cada uno de
los datos. ¡Nunca olvidar que un dato no puede pertenecer a más de una clase o intervalo!
16/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
∑ 𝑛𝑖 = 𝑛 ∑ 𝑓𝑖 = 1
𝑖=1 𝑖=1
Con el fin de prever dobles conteos, quien clasifica deberá especificar si los intervalos son abiertos a la
derecha o abiertos a la izquierda. Por lo que, en estas notas, cuando se trabaje con datos agrupados en
clase vamos a recurrir al siguiente convenio: intervalos abiertos en el límite superior y cerrados en el límite
inferior, así: [Li-1 ; Li ) que donde el valor que cierra una clase es el mismo que abre la siguiente.
Ejemplo 2.11. (Datos agrupados). Los siguientes valores corresponden al registro del consumo de vasos
de agua de 50 adultos durante una semana: 46, 39, 34, 33, 32, 36, 41, 26, 32, 36, 43, 28, 30, 27, 32, 42,
30, 31, 34, 41, 28, 30, 26, 21, 37, 39, 25, 33, 47, 28, 26, 23, 30, 43, 40, 36, 21, 38, 31, 38, 29, 30, 48, 47, 23,
31, 24, 38, 35, 36. Con la información anterior responder los siguientes literales
a) ¿Qué tipo de variable es ésta?
b) Construir una tabla de frecuencias de 6 clases.
Solución.
a) ¿Qué tipo de variable es ésta? Aunque los datos observados son todos enteros la variable es
continua, por su propia naturaleza (de hecho, un persona podría beber 24.75 vasos de agua o
cualquier otra fracción).
Definición del número de clases a usar: Para 50 observaciones podrían usarse 6, 7 u 8 clases, según decisión
de quien va a organizar los datos. Como se mencionó anteriormente se considerarán, en este caso k = 6.
Determinación del ancho de clases: c ≈ R/k = 27/6 = 4.5 ≈ 5 (El valor R/k = 4.5 se redondea a 5 porque no
tendría sentido en este caso hacer los intervalos de amplitud decimal, ya que complicaría, en vez de
facilitar la interpretación y el trabajo con la información; obsérvese que esta aproximación fue a un valor
superior al verdadero cociente, es decir, por exceso.)
17/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
Se podría partir del valor Xmin = 21, pero resulta más cómodo comenzar ligeramente por debajo de él, en
20, de manera que la primera clase sea desde 20 a 20 + c (ya se tiene c = 5), o sea, de 20 hasta menor que
25; la segunda de 25 hasta menor que 30 incluyendo el 25 (límite inferior), y así sucesivamente hasta la
sexta clase (k = 6), que sería desde 45 hasta menor que 50.
Para el promedio de los límites de clase se tiene que: Pmi = (Li + Li-1)/2. Así: Pm1 = (20 + 25)/2 = 45/2 = 22.5;
Pm2 = (25 + 30)/2 = 55/2 = 25.5 y así sucesivamente.
f3 = 0.30 indica que el 30% de los personas consumieron entre 30 y 35 vasos de agua, o que consumieron
32.5 vasos en promedio.
N4 = 40 indica que 40 personas consumieron menos de 40 vasos de agua (Las frecuencias acumuladas se
interpretan utilizando el límite superior del intervalo, nunca con la marca de clases.)
F5 = 0.92 indica que el 92% de los personas consumió menos de 45 vasos de agua.
18/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
3) Se quiere saber la cantidad de Población Económicamente Activa (PEA) en 50 familias de la zona rural, con
el propósito de determinar cuáles familias serán las beneficiarias de un programa de
ayuda social, se ha estimado que cada persona económicamente activa aporta a la familia un promedio
de $ 125 US. La PEA de las 50 familias es la siguiente: 2, 1, 2, 2, 1, 2, 4, 2, 1, 1, 2, 3, 2, 1, 1, 1, 3, 4, 2, 2, 2, 2,
1, 2, 1, 1, 1, 3, 2, 2, 3, 2, 3, 1, 2, 4, 2, 1, 4, 1, 1, 3, 4, 3, 2, 2, 2, 1, 3, 3. Con la información anterior responda
los siguientes literales:
a) Construir una tabla de frecuencias simples uasndo R
b) ¿Cuál es el rango de PEA en los 50 hogares?
c) ¿Qué porcentaje de familias tiene solo un miembro que pertenece a la PEA?
8) En un estudio reciente sobre 500 graduados de Estadística, el ingreso anual más alto que se
reporto fue de 27,500 dólares y el más bajo fue de 19,900 dólares. Usted desea crear la tabla de
frecuencias agrupadas para analizar y comparar estos datos con la oferta de trabajo que usted ha
recibido.
a) ¿Cuántas clases pondrá en su tabla de frecuencias?
b) ¿Cuál es el ancho del intervalo de clases?
c) ¿Cuáles son los límites y puntos medios de cada clase?
9) Realizada una encuesta en una región del país, se han agrupados los establecimientos hoteleros
por el número de cuartos, obteniéndose la siguiente distribución:
Cuartos N° de hoteles Cuartos N° de
hoteles
0 - < 100 25 400 - < 500 21
100 - < 200 37 500 - < 600 13
200 - < 300 12 600 - < 700 5
300 - < 400 22 700 - < 800 3
10) Los años de experiencia de los docentes de la Facultad de Ciencias Naturales y Matemática de la
Universidad de El Salvador (UES) son los siguientes (Actualizado en el año 2014):
2.9, 6.8, 6.8, 6.8, 7.3, 8.4, 9.0, 9.0, 11, 16.4, 18.5, 23.3, 26.3, 27.8, 28.2, 28.2, 28.2, 28.3, 32.2, 33.3,
33.8, 34, 34.6, 36.2, 36.3, 37.2, 38, 38.6, 39.2, 40.8, 42.7, 2.1, 3, 4, 4, 4.3, 5.6, 6.5, 8.5, 8.5, 9, 11,
12, 12.5, 12.5, 13.8, 18.3, 18.8, 21.3, 25.6, 26.2, 26.7, 27.8, 27.9, 28.9, 39, 39.2, 40.1, 45.8, 8.4, 9,
9, 9, 12.9, 12.9, 8.2, 18.4, 18.5, 19.2, 19.8, 21.3, 21.3, 25.2, 27.8, 27.8, 27.8, 27.8, 28.8, 28.9, 36,
36.8, 38.3, 43.8, 18.2, 7.5, 7.5, 8.1, 8.1, 8.1, 8.1, 8.5, 10.9, 10.9, 11.4, 11.4, 12.4, 12.5, 23.4, 5.5,
25.6, 26.6, 27.7, 28.5, 28.8, 28.9, 28.9, 28.9, 28.9, 29.9, 30.1, 34, 35, 35.6, 39.3.
19/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
a) Construir una tabla de frecuencias agrupadas (utilice Sturges) a mano y usando el programa R
b) ¿Qué porcentaje de docentes tiene experiencia inferior a 7.5 años?
c) ¿Qué porcentaje de docentes tiene experiencia mayor o igual a 29.5 años?
d) ¿Qué porcentaje de docentes tiene experiencia mayor o igual a 40.5 años?
11) Las edades de los empleados de una determinada empresa son las que aparecen en la siguiente
tabla:
Edad N° de empleados
Menos de 25 22
Menos de 35 70
Menos de 45 121
Menos de 55 157
Menos de 65 184
Sabiendo que el empleado más joven tiene 18 años, escríba la distribución de frecuencias para datos
agrupados (amplitud del intervalo definida según su conveniencia).
En el apartado 2.1.2 se presentaron los gráficos de barras, de sectores y pictograma para representar
variables cualitativas. Ahora se estudian dichos gráficos para variables cuantitativas discretas. Una gráfica
o diagrama es un dibujo complementario a una tabla o cuadro, que permite observar las tendencias de un
fenómeno en estudio y facilita el análisis estadístico de las variables allí relacionadas.
Componentes de un gráfico: Al igual que un cuadro o una tabla, debe constar de:
1. Título adecuado: El cual debe ser claro y conciso, que responda a las preguntas: ¿Qué relaciona?,
¿cuándo y dónde se hicieron las observaciones?
20/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
2. El cuerpo: o gráfico en sí, cuya elección debe considerar el o los tipos de variables a relacionar, el
público a quien va dirigido y el diseño artístico del gráfico.
3. Notas de pie de gráfico (cuando aplique): Donde se presentan aclaraciones respecto al gráfico, las
escalas de los ejes, o se otorgan los créditos a las fuentes respectivas.
A continuación se presentan los gráficos más comunes para el análisis de datos discretos.
Un gráfico de barras puede utilizarse para representar datos categóricos (apartado 2.1.2.) o datos discretos
siempre que la variable tome pocos valores distintos (en este documento se tomará en cuenta la siguiente
restricción: mínimo 6 y máximo 18). Recordar que la orientación del gráfico de barras puede ser:
• Vertical: los distintos valores están situadas en el eje horizontal y las barras de frecuencias crecen
verticalmente.
• Horizontal: los valores se sitúan en el eje vertical y las barras crecen horizontalmente. Suelen
usarse cuando hay muchas categorías o sus nombres son demasiado largos.
Los gráficos de barras también se utilizan para visualizar la evolución en el tiempo de la magnitud de una
variable concreta.
Ejemplo 2.12. Analizar la producción de café oro-uva en El Salvador durante el periodo de 2008 al 2016,
la cual se presenta en el siguiente gráfico de barras.
1985
2000 1624 1730
1500
1500
925 784 822
1000 700
500
0
2008 2009 2010 2011 2012 2013 2014 2015 2016
Fuente: Consejo Salvadoreño del Café. Departamento de Estudios Económicos y Estadísticas Cafetaleras.
En este gráfico puede darse cuenta del comportamiento que ha tenido la producción de café en El Salvador
en los últimos 9 años, el año de mayor producción fue el año 2010. A partir de ese año se observa una
disminución de la producción habiéndose estabilizado en los últimos 3 años del período.
21/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
Exportaciones e Importaciones
El Salvador 2009 - 2013
12,000 10,772
9,964 10,258
10,000
US$ Millones
7,325 8,416
8,000
6,000 5,308 5,339 5,491
3,866 4,499
4,000
2,000
0
2009 2010 2011 2012 2013
Exportaciones Importaciones
Fuente: El Salvador en cifras. Ministerio de Relaciones Exteriores El Salvador
Usualmente llamado gráfico de pastel, debido a su forma característica de una circunferencia dividida en
trozos, por medio de radios que dan la sensación de un pastel tajado en porciones. Se usa para representar
variables cualitativas en porcentajes o cifras absolutas, sin embargo, también se utiliza para variables
aleatorias discreta, cuando el número de valores diferentes es inferior a 6 y se quiere resaltar uno de ellos.
Para su construcción se procede de la siguiente forma: La circunferencia tiene en su interior 360 grados,
los cuales hacemos corresponder al total de la información, es decir al 100% (esto es n); luego, para
determinar el número de grados correspondiente a cada componente se multiplica el porcentaje
respectivo por 360 y se divide por 100, los cuales se miden con la ayuda de un transportador para formar
los casquetes de los diferentes valores.
22/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
3) La mayor área (o porción de la figura) representa la mayor frecuencia.
4) La figura completa equivale al 100% de los datos (360º).
Ejemplo 2.13. Se preguntó a 30 alumnos por el número de hermanos y los datos que se obtuvieron fueron
los siguientes: 0, 3, 3, 2, 2, 2, 3, 3, 4, 4, 4, 2, 1, 1, 1, 2, 4, 3, 3, 2, 2, 1, 0, 2, 2, 3, 3, 3, 3, 2. Representar esta
información en un gráfico de sectores.
Solución
La variable en análisis es el número de hermanos y su tipo es cuantitativa discreta, que toma valores de 0,
1, 2, 3, y 4 (5 valores diferentes), por tanto, cumple las características para representarla en un gráficos de
sectores.
Hermanos 3
33.3%
Hermanos 2
33.3%
Se observa que la mayoría de estudiantes tiene 2 o 3 hermanos (Aproximadamente el 33.3% cada uno),
tiene el sector más grande en el gráfico. Por el contrario los estudiantes que no tienen hermanos (hijo
único, aproximadamente el 6.7%) corresponde al sector más pequeño.
23/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
Usado básicamente para mostrar el comportamiento de una variable cuantitativa discreta a través del
tiempo. El gráfico de líneas consiste en segmentos rectilíneos unidos entre sí, los cuales resaltan las
variaciones de la variable por unidad de tiempo. Para su construcción ha de procederse de la siguiente
manera: en el eje de las ordenadas se marcan los puntos correspondientes a cada medición de la variable
en estudio. El eje de abscisas se divide en unidades de tiempo iguales (instante en que se mide cada valor
de la variable en estudio)
Ejemplo 2.14. En la siguiente tabla se muestra el índice de precios al consumidor (IPC) durante el período
de enero 2016 a marzo 2017 en El Salvador, con dicha información construir un gráfico de líneas.
IPC 2016 - 2017 Solución. En el eje horizontal se presentan los meses y en el eje vertical el índice
(Base diciembre 2009) de precios al consumidor (IPC) correspondiente a cada uno de los meses.
ene-16 110.67
feb-16 110.37
111.5 IPC, año base diciembre de 2009
mar-16 110.32
abr-16 110.05 111.0
may-16 110.13
jun-16 110.24 110.5
jul-16 110.12 110.0
ago-16 109.85
sep-16 109.51 109.5
oct-16 109.79 109.0
nov-16 109.78
dic-16 109.58 108.5
ene-17 110.39
feb-17 110.69
mar-17 110.92 Fuente: Estadísticas del Banco Central de Reserva de El Salvador
En el gráfico anterior se observa que el IPC tuvo una tendencia creciente en los meses de enero, febrero y
marzo de 2017. Es evidente que los gráficos de líneas se utilizan para presentar tendencias temporales y
pueden incluirse en un mismo gráfico los datos de varias variables para compararlas.
2.3.4. Histograma
Se usa para representar las frecuencias de una variable cuantitativa continua. En uno de los ejes se
posicionan las clases de la variable continua (los intervalos o las marcas de clase que son los puntos medios
de cada intervalo) y en el otro eje las frecuencias. No existe separación entre las barras.
Ejemplo 2.15. Considérese la situación planteada en el apartado 2.1.2 respecto a la PAESITA 2012.
24/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
Frecuencia
Intervalo Frecuencia Marca de clase F Abs. Acum. F Rel. Acum.
Relativa
3.5 - < 4.1 10 0.16 3.8 10 0.16
4.1 - < 4.7 24 0.38 4.4 34 0.54
4.7 - < 5.3 12 0.19 5.0 46 0.73
5.3 - < 5.9 7 0.11 5.6 53 0.84
5.9 - < 6.5 5 0.08 6.2 58 0.92
6.5 - < 7.1 2 0.03 6.8 60 0.95
7.1 - < 7.7 3 0.05 7.4 63 1
n = 63 Suma = 1
Solución.
20
15 10
12
10 7
5
5 2 3
0
3.5 - 4.1 4.1 - 4.7 4.7 - 5.3 5.3 - 5.9 5.9 - 6.5 6.5 - 7.1 7.1 - 7.7
Intervalos de notas
Polígono de frecuencias
Si se unen los puntos medios de las bases superiores de las barras del histograma se obtiene el
polígono de frecuencias.
25/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
20
15 12
10
10 7
5
5 2 3
0
.. 3.5 - 4.1 4.1 - 4.7 4.7 - 5.3 5.3 - 5.9 5.9 - 6.5 6.5 - 7.1 7.1 - 7.7 ..
EL pico más alto del polígono de frecuencias corresponde al punto medio del intervalo con
mayor frecuencia.
Una pirámide de población es un histograma bi-direccional que muestra la estructura demográfica de una
población, por sexo y edad, en un momento determinado. Por la naturaleza de los datos, es un gráfico que
corresponde a una variable de naturaleza continua.
En el eje vertical se posicionan los rangos de edades y en el horizontal los porcentajes de población
desagregadas por sexo de cada rango de edad.
En una de las direcciones se colocan las barras que representan la distribución (% sobre el total de
población) por edad de los varones y en la otra la distribución por edad de las mujeres.
Ejemplo 2.16. A partir de los datos de la siguiente tabla construir la pirámide de la población de El Salvador
2007.
Edad Hombre Mujer
0-4 283272 272621
5-9 349150 335577
10-14 359523 346824
15-19 298384 302181
20-24 228001 258541
25-29 206963 250927
30-34 178400 223849
35-39 156514 196633
40-44 132218 171413
45-49 109957 142165
26/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
A continuación de describen los pasos para crear una pirámides de población con Microsoft Excel
Suponga que se tienen los datos en una hoja de Excel en las siguientes columnas: A: Edad
quinquenal, B: Varones, C: Mujeres y D: total. Si los datos están en valores absolutos es necesario
calcular el porcentaje respecto al total de la población. A continuación es necesario pasar los
datos relativos a varones a valores negativos para que estos queden en el lado izquierdo de la
pirámide.
Seleccione los datos edad y porcentajes (columnas A, B y C) y pulse en el menú Insertar Gráfico.
27/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
A continuación se abrirá el asistente para gráficos. Elige el tipo de gráfico de barras y el subtipo
de barra agrupada. Finalmente escribe el título del gráfico.
Una vez creado el gráfico observe que el resultado no es muy bueno. Para resolverlo debe
modificar el eje vertical. Has doble clic sobre el eje vertical (edad) y se abrirá un menú emergente.
En la pestaña ETIQUETAS busca la opción: posición de etiqueta: selecciona abajo. Las edades se
mueven al lado izquierdo del gráfico.
A continuación realiza un doble clic sobre el eje horizontal y de nuevo se abrirá un menú
emergente. Seleccione la pestaña número y busca la opción: código de formato: escribe 0;0 y
pulsa agregar. Esto evitará que los valores correspondientes a los hombres queden negativos.
Ahora es momento de apilar las barras que conforman la pirámide. Para ellos haga un doble click
sobre una de las barras de varones o mujeres, da igual, y se abrirá un menú emergente. En la
pestaña opciones ponga el valor superposición a 100 y el ancho del rango a 0.
1) Suponga que se tiene el número de faltas que han cometido los equipos de la Liga Mayor de
fútbol de El Salvador en los últimos 20 partidos (Datos hipotéticos), las cuales se presentan
en la siguiente tabla:
N° de faltas 10 11 12 13 14 15 16 17 18
N° de equipos 4 7 6 5 4 5 3 4 2
2) Los resultados de las preferencias electorales de los salvadoreños de cara a las elecciones
presidenciales de 2014 (1526 encuestas válidas, voto simulado), según la encuesta de la UCA,
noviembre 2013, son los siguientes: FMLN: 43.7%, ARENA: 36.2%, UNIDAD: 13.9% y OTROS:
6.2%. Construir un gráfico apropiado para esta información.
3) Según el censo de población de El Salvador año 2007, la población desagregada por rango de
edades es la siguiente:
28/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
Se ha venido analizando en los temas anteriores, las diferentes estrategias para poder representar y
organizar la información a través de tablas de frecuencias y gráficas elementales. Sin embargo, el análisis
de información estadística no finaliza con la representación en tablas y gráficas, sino más bien, se requiere
que la información sea representada a través de un número o estadístico que describa el comportamiento
de lo observado.
Las medidas de tendencia central, llamadas así porque tienden a localizarse en el centro de la información,
son de gran importancia en el manejo de las técnicas estadísticas, sin embargo, su interpretación no debe
hacerse aisladamente de las medidas de dispersión, ya que la representatividad de ellas está asociada con
el grado de concentración de la información. El propósito principal de obtener las medidas de tendencia
central es:
I. Mostrar en qué lugar se ubica el elemento promedio o típico del grupo.
II. Sirve como un método para comparar o interpretar cualquier valor en relación con el puntaje
central o típico.
29/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
III. Sirve como un método para comparar el valor adquirido por una misma variable en dos diferentes
ocasiones.
IV. Sirve como un método para comparar los resultados medios obtenidos por dos o más grupos.
Cotidiana e inconscientemente se utiliza la media aritmética, por ejemplo, cuando decimos que un
determinado fumador consume una cajetilla de cigarrillos diario, no aseguramos que diariamente deba
consumir exactamente los 20 cigarrillos que contiene un paquete sino que es el resultado de la
observación, es decir, dicho sujeto puede consumir 18 un día; 19 otro; 20, 21, 22; pero según nuestro
criterio, el número de unidades estará alrededor de 20. Ahora, suponga que tres personas fuman 20
cigarrillos diariamente y una persona fuma 40 cigarrillos cada día, entonces decimos que en promedio
cada persona fuma 25 cigarrillos cada día, esta conclusión no es la más adecuada, pues de ninguna manera
queda representado el que fuma 40 cigarrillos
Bajo estas premisas, se dice que la media es altamente sensible a cualquier cambio en los valores de la
distribución. No es recomendable su uso cuando la variable está dada en forma de tasas o porcentajes.
La media es representativa del conjunto de datos si se quiere promediar cantidades homogéneas, que
presentan variaciones dentro de un margen razonable.
Ejemplo 2.17. Volvamos a los datos del número de sismos (Sismos, marzo 2015), estudiado en el apartado
2.2. Ahora, se presentan en la siguiente serie simple: 1, 4, 4, 8, 7, 8, 4, 4, 5, 8, 8, 3, 3, 0, 5, 2, 12, 6, 3, 5,
11, 6, 3, 2, 6, 9, 4, 12, 6, 2, 0. ¿Cuál es el promedio diario de sismos?
Solución:
Media Aritmética, es la suma de los valores de todas las observaciones divididas entre el número de
observaciones realizadas. Su fórmula es:
X 𝒏𝒊 𝒏𝒊 ∙ 𝒙𝒊 Solución:
Media Aritmética para una distribución de frecuencia simple, es la suma del producto de los valores de
todas las observaciones por la frecuencia absoluta, divididas entre el número de observaciones realizadas
o tamaño de la muestra. Su fórmula es:
Media aritmética: Datos agrupados en clases de una distribución frecuencia.
𝑥1 𝑛1 +𝑥2 𝑛2 +⋯+𝑥𝑘 𝑛𝑘 ∑𝑘
𝑖=1 𝑥𝑖 𝑛𝑖
𝑥̅ = los datos recolectados han
Cuando = sido organizados
donde en
n =una
número
tablade
deobservaciones o tamaño
frecuencias por de el
intervalos, la cálculo
muestra y
𝑛 𝑛
del
k =promedio o laobservaciones
número de media, es parecido al utilizado para tabla de frecuencias simples.
diferentes.
Ejemplo 2.19. (Datos agrupados) Retomando los datos de la prueba de aptitudes y aprendizaje 2012
(PAESITA 2012). ¿Cuál es la nota promedio de los centros educativos?
31/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
Solución:
Marca de clase Producto
Intervalo Frecuencia
𝑃𝑚𝑖 𝑛𝑖 ∙ 𝑃𝑚𝑖 1. Debe añadirse otra columna conteniendo
3.5 - < 4.1 10 3.8 38 el producto de la marca de clase y la
4.1 - < 4.7 24 4.4 105.6
frecuencia absoluta, es decir: 𝑛𝑖 𝑃𝑚𝑖 .
4.7 - < 5.3 12 5 60
2. La suma de los valores de la columna
5.3 - < 5.9 7 5.6 39.2
𝑛𝑖 𝑃𝑚𝑖 la cual es 309.6 y el total de datos es
5.9 - < 6.5 5 6.2 31
n = 63, luego la media aritmética, se obtiene:
6.5 - < 7.1 2 6.8 13.6 309.6
𝑥̅ = = 4.91
7.1 - < 7.7 3 7.4 22.2 63
Total n = 63 309.6En promedio cada sección de sexto grado
de los centros educativos del municipio de
San Salvador ha tenido una nota de 4.91 en la prueba de aptitudes y aprendizaje para el año 2012.
La media aritmética para datos agrupados, corresponde al cociente del total de la suma del producto de
la marca de clase de cada intervalo y la frecuencia absoluta con el número total de datos estudiados,
𝑃𝑚1 𝑛1 +𝑃𝑚2𝑛2 +⋯+𝑃𝑚𝑛 𝑛𝑛 ∑𝑛
𝑖=1 𝑃𝑚𝑖 𝑛𝑖
𝑥̅ = =
𝑛 𝑛
Características de la media:
La media aritmética viene expresada en las mismas unidades que la variable.
En su cálculo intervienen todos los valores de la distribución.
Es el centro de gravedad de toda la distribución, representando a todos los valores observados.
1) La suma de las diferencias de los datos con respecto a la media aritmética es igual cero.
2) La media aritmética de una constante es igual a la constante.
3) La media del producto de una constante por una variable, es igual a multiplicar la constante por la
media de la variable.
4) La media de una variable más (o menos) una constante será igual a la media de la variable, más (o
menos) la constante.
5) La media aritmética de una muestra dividida en submuestras, es igual, a la media ponderada de las
∑𝑘
𝑖=1 𝑥
̅𝑖𝑛𝑖
submuestras, tomando como ponderación los tamaños de las submuestras. Esto es, 𝑥̅ = 𝑛
donde 𝑛 = 𝑛1 + 𝑛2 + ⋯ + 𝑛𝑘
32/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
1) La suma de las diferencias de los datos con respecto a la media aritmética es igual cero.
Verificación.
3) La media del producto de una constante (k) por una variable, es igual a multiplicar la constante
por la media de la variable.
Verificación.
Suponga que se tiene el siguiente conjunto de datos: 𝑥1 , 𝑥2 , . . . , 𝑥𝑛 , por definición la media está
∑𝑛 𝑥
𝑥1 = 𝑖=1 𝑖
dada por: ̅̅̅
𝑛
Ahora, suponga que tenemos la misma serie de datos, pero multiplicado cada dato por k, esto
es: 𝑘𝑥1 , 𝑘𝑥2 , . . . , 𝑘𝑥𝑛 , por definición la media de este conjunto de datos está dada por: ̅̅̅
𝑥2 =
𝑛
∑𝑖=1 𝑘𝑥𝑖 𝑛
𝑘∑ 𝑥
= 𝑖=1 𝑖 = 𝑘𝑥 ̅̅̅1
𝑛 𝑛
Por tanto, se tiene que:
𝑥2 = 𝑘𝑥
̅̅̅ ̅̅̅1
5) La media aritmética de una muestra dividida en submuestras, es igual, a la media ponderada
de las submuestras, tomando como ponderación los tamaños de las submuestras. Esto es, 𝑥̅ =
∑𝑘
𝑖=1 𝑥
̅𝑖𝑛𝑖
𝑛
donde 𝑛 = 𝑛1 + 𝑛2 + ⋯ + 𝑛𝑘
Verificación.
33/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
Ejemplo 2.20. El grupo 01 de Matemática I, tuvo 38 alumnos y su nota promedio fue de 7.5;
además, el grupo 02 de la misma materia, tuvo 42 alumnos y su nota promedio fue de 6.9. Calcular
el valor promedio del total de alumnos (grupos 01 y 02).
Solución
∑𝑘𝑖=1 𝑛𝑖 𝑥̅𝑖
𝑥𝑇 =
̅̅̅
𝑛
En el ejemplo los datos que se tienen son los siguientes:
𝑛1 = 38; ̅̅̅
𝑥1 = 7.5 𝑦 𝑛2 = 42; ̅̅̅
𝑥2 = 6.9
La media geométrica se define como la raíz n-ésima de la multiplicación de los n valores de la variable. Se
utiliza cuando se quiere dar importancia a valores pequeños de la variable o cuando se desea obtener el
promedio de valores que están dados en progresión geométrica, porcentajes, tasas, índices, etc.
En el campo industrial y comercial se utiliza para obtener promedios sobre el crecimiento o decrecimiento
de una variable. Por ejemplo, un capital ahorrado a una tasa de interés compuesto, durante un periodo
de tiempo.
34/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
Al aplicar logaritmo natural en ambos lados de la igualdad y recordar que el exponente baja a multiplicar
el logaritmo, se tiene:
1
𝐿𝑛(𝑀𝑔) = 𝑛 𝐿𝑛 (𝑥1 𝑛1 . 𝑥2 𝑛2 … . 𝑥𝑘 𝑛𝑘 ) recordar que el logaritmo de un producto de términos es igual a la
suma de los logaritmos de los términos, así:
𝑘
1
𝐿𝑛(𝑀𝑔) = ∑ 𝑛𝑖 𝐿𝑛 (𝑥𝑖 )
𝑛
𝑖=1
𝑘
1
𝑀𝑔 = 𝑒𝑥𝑝 ( ∑ 𝑛𝑖 𝐿𝑛 (𝑥𝑖 ))
𝑛
𝑖=1
Las tasas de interés que pagan dos bancos y una caja de crédito por depósitos a plazo de un año (más de
$ 1,000) son 5%, 4% y 9%.
Solución.
Debido a que los datos están dados en porcentaje es recomendable utilizar la media geométrica en vez de
un simple promedio, así:
3 3
La media geométrica es: 𝑀𝑔 = √5𝑥4𝑥9 = √180 = 5.6
1
Observe que, si utilizamos la expresión 𝑀𝑔 = 𝑒𝑥𝑝 (𝑛 ∑𝑘𝑖=1 𝑛𝑖 𝐿𝑛 (𝑥𝑖 )) se tiene que calcular primeramente
los logaritmos de cada dato: ln(5)= 1.6; ln(4) = 1.4; ln(9)= 2.2, luego promediarlos, (1.6+1.4+2.2)/3 = 1.73,
finalmente obtener la exponencial exp(1.73) = 5.6, es evidente que se llega al mismo resultado.
Ahora, para fines comparativos se obtiene la media aritmética: (5+4+9)/3 = 6, siempre será un valor mayor
o igual que la media geométrica, ya que la Mg da una cifra de ganancia más conservadora porque no tiene
una ponderación alta para la tasa de 9%.
NOTA: Si un dato es cero (0), entonces la media geométrica es 0; por otra parte, si hubiera un número
negativo y una cantidad impar de ellos entonces la media geométrica sería o bien negativa, o bien
inexistente en los números reales, por lo tanto, la media geométrica se utiliza cuando todos los valores
son positivos.
35/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
𝑛 1
𝑀𝑔 = √𝑃𝑚1 𝑛1 . 𝑃𝑚2 𝑛2 … . 𝑃𝑚𝑘 𝑛𝑘 = (𝑃𝑚1 𝑛1 . 𝑃𝑚2 𝑛2 … . 𝑃𝑚𝑘 𝑛𝑘 )𝑛
Donde se ha sustituido el valor de 𝑥𝑖 por 𝑃𝑚𝑖 punto medio de la clase. La expresión anterior es equivalente
a:
𝑘
1
𝑀𝑔 = 𝑒𝑥𝑝 ( ∑ 𝑛𝑖 𝐿𝑛 (𝑃𝑚𝑖 ))
𝑛
𝑖=1
Ambas expresiones pueden ser utilizadas para obtener la media geométrica y se obtienen los mismos
resultados.
Ejemplo 2.22. Se tiene 4 granjas para crecer pollos, la granja 1 tiene 3 galeras, la granja 2 tiene 6 galeras,
la granja 3 tiene 7 galeras y la granja 4 tiene 9 galeras y la tasa de ocupación de las galeras varía con el
tiempo, así: en la granja 1 se encontró las siguientes tasas de ocupación: de 60% a menor que el 70%; la
granja 2 de 70% a menor que 80%; la granja 3 de 80% a menor que 90% y para la granja 4 de 90% a menor
que 100%. ¿Cuál es el valor medio geométrico de la tasa de ocupación?
Solución
36/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
La media armónica utiliza el inverso de los datos, en consecuencia resulta poco influida por la existencia
de valores grandes en el conjunto de datos, en cambio es sensible a valores pequeños (extremos).
Se inicia diciendo que el inverso de la media armónica es igual a la media aritmética del inverso de los
valores de la variable, esto es:
𝑛𝑖
∑𝑘
𝑖=1
1 𝑥𝑖 𝑛
= de la expresión anterior se tiene: 𝑀𝑎 = 𝑛𝑖 donde los 𝑛𝑖 representan el número de veces
𝑀𝑎 𝑛 ∑𝑘
𝑖=1𝑥𝑖
que se repite cada dato, en caso que los datos no se repitan 𝑛𝑖 = 1 y la expresión anterior será: 𝑀𝑎 =
𝑛
1
∑𝑘
𝑖=1 𝑥𝑖
Ejemplo 2.23. Se sabe que dos obreros A y B, se tardan 50 y 40 minutos respectivamente en reparar un
par de zapatos. ¿Cuál es el tiempo requerido para reparar un par de zapatos?
Solución.
𝑛 2
Se tienen dos datos, entonces 𝑀𝑎 = 1 sustituyendo los valores: 𝑀𝑎 = 1 1 = 44.44𝑚𝑖𝑛, es el
∑𝑘
𝑖=1 +
𝑥𝑖 50 40
tiempo requerido para reparar un par de zapatos.
Ejemplo 2.24. Supóngase que con un dólar se puede comprar 5 manzanas o 10 ciruelas o 4 aguacates,
¿Cuántas frutas se pueden comprar en promedio con un dólar?
Solución.
3
𝑀𝑎 = 1 1 1 = 5.56 con un dólar se puede adquirir en promedio 5.56 frutas.
+ +
5 10 4
El mayor uso de la media armónica es para calcular la velocidad promedio. Recuerde que:
dista n cia
Velocidad , suponga que se han recorrido k trayectos (distancias) a cierta velocidad cada
tiempo
trayecto, entonces la velocidad media vendrá dada por:
37/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑖𝑎 𝑡𝑜𝑡𝑎𝑙 𝑑
𝑉𝑚 = 𝑑𝑖 = 𝑑𝑖
∑𝑘
𝑖=1 ∑𝑘
𝑖=1
𝑣𝑖 𝑣𝑖
Ejemplo 2.25. Suponga que la distancia entre dos ciudades, A y B, es de 80 kilómetros y entre B y C de 120
kilómetros. Si un automovilista recorre de A a B a una velocidad de 100Km/h y de B a C a una velocidad de
80Km/h. ¿Cuál es la velocidad promedio?
Solución.
Se tiene los siguientes datos: distancia total = d= 200km; distancia de A a B = 80km y distancia de B a C =
120km, al sustituir estos valores en la fórmula se tiene:
𝑑 200
𝑉𝑚 = = = 86.956
𝑑 80 120
∑𝑘𝑖=1 𝑖 +
𝑣𝑖 100 80
La velocidad promedio en el recorrido total desde A a C es de 86.956km/h.
Si se tiene una tabla de frecuencias agrupadas en clase, la media armónica se calcula con la siguiente
fórmula:
𝑛
𝑀𝑎 = 𝑛𝑖
∑𝑘
𝑖=1 𝑃𝑚𝑖
Observe que sólo se ha sustituido el valor de 𝑥𝑖 por 𝑃𝑚𝑖 punto medio de la clase.
Ejemplo 2.26. A fin de ilustrar el cálculo de la medía armónica, se utilizan los datos del ejemplo de
ocupación de las granjas, los cuales se presentan en la siguiente tabla:
Tasa de ocupación Punto medio Frecuencia
60 - < 70 65 3
70 - < 80 75 6
80 - < 90 85 7
90 -< 100 95 9
Total 25
Solución
38/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
El valor medio armónico de la tasa de ocupación de las granjas es de 82.44%; es un poco menor que la
media geométrica que fue de 83.14%.
̅
NOTA: En general se verifica que: 𝑴𝒂 ≤ 𝑴𝒈 ≤ 𝒙
La mediana no se basa en la magnitud de los datos, como la media aritmética, sino en la posición central
que ocupa en el orden de su magnitud. La mediana de una distribución de frecuencia corresponde al valor,
supuesto los datos ordenados de menor a mayor, que deja a ambos lados el mismo número de
observaciones.
Partiendo de la información bruta, se ordenan los datos ascendente o descendentemente, por ejemplo,
ordenados los datos de forma ascendente: 𝑥(1) , 𝑥(2) , … , 𝑥(𝑛) , se define,
𝑥(𝑛+1) 𝑆𝑖 𝑛 𝑒𝑠 𝑖𝑚𝑝𝑎𝑟
2
𝑀𝑒𝑑𝑖𝑎𝑛𝑎 = 𝑀𝑑 =
𝑥(𝑛) + 𝑥(𝑛 +1)
2 2
𝑆𝑖 𝑛 𝑒𝑠 𝑝𝑎𝑟
{ 2
Datos simples
La mediana, en ocasiones se le llama media posicional, porque queda exactamente en la mitad de un
grupo de datos, luego de que los datos se han ordenado de forma ascendente. En este caso la mitad (50%)
de los datos estará por encima de la mediana y la otra mitad (50%) estará por debajo de ella.
a) Cuando el número de datos es impar: En este caso la mediana coincide con el dato central ordenados
de manera ascendente o descendente.
Ejemplo 2.27. Se consideran los salarios en dólares para 11 vendedores: $243, $320, $311, $254, $234,
$261, $239, $310, $218, $267, $287. Calcular la mediana de los salarios.
Solución:
1. Primero se ordenan los datos de menor a mayor: $218, $234, $239, $243, $254, $261, $267, $287,
$310, $311, $320.
39/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
𝑛+1 11+1 12
2
→ 2
= 2
= 6. La posición donde se encuentra la mediana es 6.
3. El valor de la mediana (está sombreado con escala gris en los datos ordenados) es:
Mediana = Md= $261
La mitad de los salarios de los vendedores están por debajo de $261 y la otra mitad son mayores que
$261.
b) Cuando el número de datos es par: La mediana será el valor medio de los dos valores centrales
ordenados de manera ascendente o descendente.
Ejemplo 2.28. Ahora, se considera los salarios en dólares para 12 vendedores; los cuales se han presentado
ordenados anteriormente $218, $234, $239, $243, $254, $261, $267, $287, $310, $311, $320 y $322:
Calcular la mediana de los salarios.
Solución:
Los datos ya están ordenados de forma ascendente, ahora, obtener la posición central, nuevamente se
n 1 12 1
utiliza la expresión: 6.5 , entonces la mediana corresponde al promedio de los dos
2 2
valores centrales, los que están en la posición 6 y 7, esto es:
$261 + $267
= $264
2
Este valor indica que la mitad de los salarios de los vendedores son menores que $264 mientras que la
otra mitad de salarios es mayor que $264.
Variable Frecuencia Frecuencia Ejemplo 2.6. Nuevamente, haciendo referencia a los datos del
(x) 𝑛𝑖 Acumulada, 𝑁𝑖 registro de sismos reportados en marzo 2015. Calcular la
0 2 2 mediana en el periodo reportado.
1 1 3
Solución:
2 3 6
3 4 10 1. Para obtener la posición central, se utiliza la
4 5 15 expresión:
5 3 18
n 1 31 1
6 4 22 16 ,
7 1 23 2 2
8 4 27
2. Identificar la primera frecuencia acumulada mayor o
9 1 28
igual a 16 (posición de la mediana), esta es 18.
11 1 29
12 2 31
n = 31
40/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
En el gráfico se observa dos triángulos semejantes, utilizando la relación entre ambos triángulos se tiene:
n n
2 − Ni−1 = ni
⟹ Md = Li−1 + (2
− Ni−1
) Ci
Md − Li−1 Li − Li−1 ni
donde
Li−1 : Límite inferior del intervalo donde se encuentra la mediana, el cual se determina observando la
n
primera frecuencia acumulada mayor o igual a .
2
41/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
Intervalo Frecuencia, ni Ni
Solución:
3.5 - < 4.1 10 10
4.1 - < 4.7 24 34 1. Total de datos (n=63)
4.7 - < 5.3 12 46 2. Calcular la posición de la mediana, utilizando la siguiente
5.3 - < 5.9 7 53 𝑛 63
expresión 2 ⟹ 2 = 31.5, independientemente si n es par o
5.9 - < 6.5 5 58 impar.
6.5 - < 7.1 2 60
7.1 - < 7.7 3 63
Total n = 63
3. Se ubica la posición de la mediana en la tabla de
frecuencias, para ello se observa la primera frecuencia acumulada que tenga un número mayor o
igual a la posición de la mediana (clase de la mediana).
4. La primera frecuencia acumulada (Ni ) mayo o igual que 31.5, se encuentra en la segunda clase,
que corresponde al intervalo 4.1 – < 4.7, que tienen Ni = 34.
n
− Ni−1
Md = Li−1 + (2 ) Ci
ni
A partir de los datos de la tabla de frecuencia se obtiene:
31.5−10 21.5
Md = 4.1 + ( ) 0.6 = 4.1 + ( 24 ) 0.6 = 4.1 + 0.54 = 4.64
24
Interpretación: La mitad de los resultados obtenidos en la PAESITA 2012 que representa a los estudiantes
de sexto grado de los Centros educativos del municipio de San Salvador están por debajo de 4.64 y la otra
mitad tiene notas arriba de 4.64.
Características de la mediana:
No se ve afectada por los valores extremos. Esta es la propiedad más importante que tiene.
42/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
Se puede utilizar cuando la distribución de frecuencias tiene clases abiertas, excepto, cuando
la posición de la mediana caiga en una de las clases abiertas.
La mediana: Es el valor intermedio cuando los valores de los datos se ordenan en forma ascendente.
Representa al valor que deja por debajo al 50% de los datos y por encima de él al otro 50% de los
datos. La mediana se simboliza con las letras: Md
3
4) La media aritmética de tres números es 7, su mediana es 6 y su media geométrica es 216 .
Calcular la media armónica de los tres números.
5) Se sabe que la media aritmética de dos números es 5 y la media geométrica es 4. ¿Cuál es la media
armónica?
6) Una persona viaja 4 días. Diariamente recorre 200 Km, pero maneja el primero y el último día a
50Km/h, el segundo a 55Km/h y el tercer día a 70Km/h. ¿Cuál es la velocidad media durante el
viaje?
43/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
9) Un fabricante dispone $600,000 anuales para la compra de materia prima. Durante tres años
invierte la misma cantidad de dinero ($600,000). Si el precio promedio por Kg ha aumentado en
los últimos tres años sucesivos de $2,200 a $2,800 y luego a $4,600, ¿Cuál es el precio promedio
que ha pagado el fabricante en los tres años?
10) El 1 de mayo de 2012 se ahorraron $ 50,000 en un banco al 7.6% de interés anual, capitalizados
semestralmente. Obtener la cantidad media de dinero en la cuenta, entre el 1 de mayo de 2012 y
el 31 de octubre de 2016, suponga que no se hicieron retiros durante el periodo.
11) En un examen 20 alumnos del curso A obtuvieron una media de 60 puntos y en el curso B los
alumnos obtuvieron una media de 80. Ante un reclamo se decide subir en 5% más 5 puntos
adicionales a todos los alumnos del curso A, en cambio como hubo muchas copias en el curso B se
decidió disminuir la quinta parte de la calificación. Después de los mencionados ajustes ¿Cuál es
el puntaje medio de los 50 alumnos?
12) Una asistente social desea saber cuál es el índice de natalidad en 2 ciudades (A y B) para ello
encuestó a 10 familias de cada ciudad obteniendo los siguientes resultados
A 0 6 1 2 3 1 4 3 6 4
B 3 4 1 4 2 3 1 5 4 3
13) El siguiente cuadro muestra la distribución de la renta anual (en miles de dólares) en que incurren
50 viviendas:
Marca de Clase 18.85 21.55 24.25 26.95 29.65 32.35 35.05
N° de Viviendas 3 2 7 7 11 11 9
A pesar de la gran importancia de las medidas de tendencia central y de la cantidad de información que
aportan individualmente, en muchas ocasiones esa información no es completa, o puede inducir a errores
en su interpretación. Por ejemplo, si hay 3 personas que trabajan en la construcción cuyos salarios son de
$235, $240 y $238, y dos ejecutivos de empresas con salarios de $5,200 y $5,250, se obtiene que el salario
promedio de las 5 personas es: $2,232.60, esta cifra sin más información llevaría a pensar que cada
44/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
individuo gana alrededor de $ 2,200, lo cual es totalmente falso, por lo que se hace necesario conocer
otras medidas, que indiquen la variabilidad de los datos.
Las medidas de dispersión más utilizadas son las que consideran las desviaciones promedio con respecto
a alguna medida de tendencia central, su información mide el grado de representatividad de las medidas
de tendencia central del conjunto de datos que provienen.
Solución:
Serie A: El dato mayor de la serie A es 𝑥(𝑛) = 17 y el dato menor es 𝑥(1) = 1, el rango o variabilidad
total de los datos es: 17 -1 = 16. Esto es que los datos tienen 16 unidades en las que se puede mover.
Serie B: El dato mayor de la serie B es 𝑥(𝑛) = 18 y el dato menor es 𝑥(1) = 2, el rango o variabilidad
total de los datos es: 18 -2 = 16.
Ambas series tienen rango 16, pero están desigualmente agrupadas, pues mientras la primera tiene una
mayor concentración en el centro, la segunda se distribuye uniformemente a lo largo de todo el recorrido.
El uso de esta medida de dispersión, es bastante limitada, pero es la primera aproximación para ver la
representatividad de las medidas de tendencia central. A mayor rango, menor representatividad de las
medidas de tendencia central.
Rango: Es la diferencia entre el mayor y el menor de los valores observados: 𝑅 = 𝑥(𝑛) − 𝑥(1)
45/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
La desviación media absoluta, mide la distancia absoluta promedio entre cada uno de los datos, y el
parámetro que caracteriza la información. Usualmente se considera la desviación media con respecto a la
media aritmética. Se define como la media aritmética de los valores absolutos de las diferencias de los
datos a la media, es decir:
𝑛
1
𝐷𝑥̅ 𝐴 = ∑|𝑥𝑖 − 𝑥̅ | 𝑛𝑖
𝑛
𝑖=1
La media aritmética es más representativa de los datos cuanto menor sea 𝐷𝑥̅ 𝐴, además tiene las mismas
unidades que la variable en estudio.
Ejemplo 2.31. Suponga que se tienen los salarios mensuales de 50 empleados de cierta empresa (Le
media es 𝑥̅ = 251.9), los cuales se representan en la siguiente tabla:
Solución
Se tiene que 14.48 dólares, es el error promedio que se comete al reemplazar los ingresos mensuales de
cada una de los 50 trabajadores por 251.9 dólares, o dicho de otra forma, la variabilidad de los salarios
respecto a la media es aproximadamente $14.48.
Las medidas de dispersión estudian la separación existente entre los diversos valores que toma la variable.
Se dividen en medidas de dispersión absoluta y relativa. Las absolutas suelen hacer referencia a un
46/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
promedio, y permiten estudiar su representatividad. Este tipo de medidas depende de las unidades, lo que
es un inconveniente para realizar comparaciones entre poblaciones. En este sentido, las medidas de
dispersión relativas no dependen de las unidades y permiten comparar variabilidad entre poblaciones.
Ejemplo 2.32. Con el fin de ilustrar el cálculo de la varianza se presenta la siguiente serie de datos no
agrupados 9, 3, 8, 8, 9, 8, 9, 18. Determinar la varianza y la desviación típica o estándar.
Solución:
4. Se divide el total de la suma de las desviaciones al cuadrado entre el total de datos menos 1 (n-
1). En algunos texto de estadística se divide por n, sin embargo, en este documento se utilizará
como denominador (n-1), ya que esta variante hace que la varianza sea insesgada (el estudios de
la propiedad de estimadores insesgados se presenta en la unidad 5 de inferencia estadística).
47/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
2
( 𝑥1 − 𝑥̅ )2 + (𝑥2 − 𝑥̅ )2 + ⋯ + (𝑥𝑛 − 𝑥̅ )2 ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑠 = =
𝑛−1 𝑛−1
La desviación típica o estándar es: 𝑠 = √𝑠 2
Solución.
a) Para obtener la desviación típica primeramente se calcula la media, tanto en 1) como en 2) ésta es:
𝑥̅ = 7, tanto en primer año como en segundo año.
Según lo presentado en la primera parte de esta actividad, la varianza para datos simples se calcula
(𝑥𝑖−𝑥̅ )2
utilizando la siguiente expresión: 𝑆 2 = ∑𝑛𝑖=1 𝑛−1
, sustituyendo los valores se tiene:
48/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
Una vez calculada la varianza de los literales a) y b) se obtiene la desviación típica (Primer año: 𝑆1 = 0.8
segundo año: 𝑆2 = 1.8),
En primer año las calificaciones son más homogéneas, esto es la mayoría de alumnos aprende un buen
porcentaje de lo que enseña el profesor.
En la asignatura de cálculo diferencia hay mayor variabilidad, esto significa que hay alumnos que aprenden
mucho y otros aprenden poco. El profesor debe hacer un esfuerzo para que todos los alumnos aprendan
por igual. También, algunos alumnos entienden más rápido que otros, por eso se sacan 10.
Ejemplo 2.34. Retomando el ejemplo del número sismos del mes de marzo de 2015 en El Salvador (Sismos,
marzo 2015). Determinar la varianza muestral y la desviación típica. Los datos se presentan en la tabla
siguiente
Variable Frecuencia 𝑛𝑖 ∗ 𝑥𝑖 (𝑥 − 𝑥̅ )2 (𝑥 − 𝑥̅ )2 𝑛𝑖
Solución:
0 2 0 26.97 53.95
1 1 1 17.59 17.59 Paso 1. Se obtiene la media o el promedio
2 3 6 10.20 30.60 de los datos.
3 4 12 4.81 19.25 161
𝑥̅ = = 5.19
4 5 20 1.42 7.12 31
5 3 15 0.04 0.11
Paso 2. Se agrega otra columna que
6 4 24 0.65 2.60
contendrá la diferencia de (𝑥 − 𝑥̅ )2
7 1 7 3.26 3.26
8 4 32 7.88 31.50 Paso 3. Se realizará el producto de la
9 1 9 14.49 14.49
diferencia al cuadrado por la frecuencia.
11 1 11 33.71 33.71 Paso 4. Sumar los valores de la última
12 2 24 46.33 92.66 columna de la tabla (306.84).
Total n = 31 161 167.35 306.84 Paso 5. Dividir el resultado del paso 4 entre
n-1 (31-1=30).
49/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
Interpretación: en promedio el número de sismos diarios se alejan de la media (de 5.19) en 3.2.
La varianza muestral para datos agrupados en tablas de frecuencias simples se representa por:
2
∑𝑘𝑖=1(𝑥𝑖 − 𝑥̅ )2 𝑛𝑖
𝑠 =
𝑛−1
La desviación típica o estándar es: 𝑠 = √𝑠 2
Cuando los datos han sido organizados en clases o intervalos, la varianza y desviación estándar se obtiene
de manera similar al proceso utilizado para tablas de frecuencias simples, sustituyendo el valor de la
variable (x) por el punto medio de la clase (Pm). A continuación se ilustra este proceso.
Ejemplo 2.35. Se retoman nuevamente los datos de la prueba de aptitudes y aprendizaje, PAESITA 2012.
Determinar la varianza y la desviación típica. Los datos se presentan en la siguiente tabla:
Solución.
Paso 1. Se obtiene la media o el promedio de los datos.
309.6
𝑥̅ = = 4.9
63
50/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
Paso 4. Se suman los valores de la última columna y se divide por n-1 (63-1=62), esto es equivalente a
realizar la siguiente operación:
∑11 2
𝑖=0(𝑃𝑚𝑖 −𝑥̅ ) 𝑛𝑖 56.1
𝑠2 = = = 0.9.
63−1 62
El resultado anterior es la varianza muestral. A continuación se obtiene la desviación típica:
𝑠 = √0.9 = 0.95
Interpretación. Los centros educativos tienen notas muy similares, ya que en promedio se alejan de la
media (de 4.9) en 0.9 unidades. En este ejemplo, la media es un buen estadístico para representar la
nota de todos los centros educativos que participaron en la PAESITA 2012.
NOTA: La varianza es el puente para llegar a la desviación típica y esta última es la que mide la variabilidad
de los datos.
Propiedades de la varianza.
2
∑𝑘𝑖=1(𝑥𝑖 − 𝑥̅ )2 𝑛𝑖 ∑𝑘𝑖=1(𝑥𝑖 )2 𝑛𝑖 − 𝑛(𝑥̅ )2
𝑠 = =
𝑛−1 𝑛−1
51/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
2. Si k es una constante, entonces la varianza de k es cero, esto es: 𝑠 2 = 0 ya que la media de una
constante es la misma constante.
2
∑𝑘𝑖=1((𝑥𝑖 ± 𝑘) − (𝑥̅ ± 𝑘))2 𝑛𝑖 ∑𝑘𝑖=1(𝑥𝑖 − 𝑥̅ )2 𝑛𝑖
𝑆𝑋±𝑘 = = = 𝑆2
𝑛−1 𝑛−1
Observe que al operar internamente de la varianza se elimina la constante k.
Las propiedades 3 y 4 se pueden resumir de la siguiente forma, la relación entre la varianza de una variable
X y la de una nueva variable definida como 𝑌 = 𝑎 + 𝑏𝑋 es: 𝑆𝑌2 = 𝑏2 𝑆𝑋2 , donde a y b son constantes
diferentes de cero. Por lo tanto, si a los datos de la distribución les sumamos una cantidad constante la
varianza no se modifica y si multiplicamos por una constante, la varianza queda multiplicada por el
cuadrado de esa constante.
Generalmente interesa establecer comparaciones de la dispersión, entre diferentes muestras que posean
distintas magnitudes o unidades de medida, en este caso, la desviación típica no debe ser utilizada para
hacer comparaciones. El coeficiente de variabilidad tiene en cuenta el valor de la media aritmética, para
establecer un número relativo, que hace comparable el grado de dispersión entre dos o más variables, y
se define como:
𝑠
𝐶𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑣𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 = 𝐶𝑉 = (100)
𝑥̅
Ejemplo 2.36. Una empresa que produce botellas, quiere investigar la variabilidad de la resistencia al
rompimiento de dos tipos de marca, para ello toma las siguientes muestras:
52/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
A partir de los datos determinar el tipo de botella que tiene menor variabilidad de la resistencia al
rompimiento.
Solución:
Muestra 1: Muestra 2
𝑥̅ = 248 𝑥̅ = 248
n =6 n =6
790 7510
𝑠=√ = 12.57 𝑠=√ = 38.76
5 5
Interpretación: La media es la misma en ambos tipos de botella, sin embargo, el coeficiente de variación
es menor en la muestra 1 (tipo de botella 1), por tanto, el tipo de botella 1 presenta menor variabilidad de
resistencia al rompimiento.
El CV expresa el número de veces que la desviación típica contiene a la media aritmética. Cuanto mayor
sea CV, menor es la representatividad de 𝑥̅ . Finalmente, el CV se utiliza para determinar el grado de
representatividad de la media de los datos, para ello, se considera los siguientes criterios:
Valor de CV Grado de representatividad de la media.
0 - < 10% Media altamente representativa
10% - < 20% Media bastante representativa
20% - < 30% Media tiene representatividad
30% - < 40% Media con representatividad dudosa
40% o más Media carente de representatividad
Ejemplo 2.37. Durante un cierto mes el precio de los frijoles por libra tuvo una media de 𝑥̅ = 1.55 y una
desviación estándar de 𝑆𝑋 = 0.25. Mientras que en ese mismo mes el precio del barril de petróleo tuvo
una media de 𝑦̅ = 98 y 𝑆𝑌 = 5. ¿En qué producto hubo mayor variabilidad en los precios?
Solución
53/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
0.25 5
𝐶𝑉𝑋 = 1.55 (100) = 20% y 𝐶𝑉𝑌 = 98 (100) = 5.1%
1) A continuación, se presentan los pesos de dos grupos de alumnos para los cuales se les pide
ordenar y calcular las medidas que considere conveniente:
Grupo A (en lbs): 175, 140, 160, 145, 170, 220, 190, 105, 150, 125, 168, 155, 156, 167, 160, 150,
158, 146, 135, 170, 150, 147, 130, 178, 148
Grupo B (en kgs): 79.8, 90.7, 81.6, 90.7, 72.6, 95.7, 65.3, 66.2, 73.9, 62.1, 72.6, 70.3, 80.7, 81.2,
81.6, 73, 72.6, 61.7, 72.6, 68, 72.6, 77.1, 95.3, 61.2, 71.7, 99.8, 68, 68, 49.9, 62.6, 79.4
A partir de la información anterior responder lo siguiente:
2) Retomando el ejercicio 11 del apartado 2.4.5. En un examen 20 alumnos del curso A obtuvieron
una media de 60 puntos y una desviación estándar de 20 puntos. En el curso B los alumnos
obtuvieron una media de 80 y una desviación estándar de 16. Ante un reclamo se decide subir en
5% más 5 puntos adicionales a todos los alumnos del curso A, en cambio como hubo muchas copias
en el curso B se decidió disminuir la quinta parte de la calificación. Después de los mencionados
ajustes
a) ¿Cuál es la desviación estándar del curso A?
b) ¿Cuál es la desviación estándar del curso B?
c) ¿En qué curso se encuentra la mayor variabilidad de las notas?
3) Una asistente social desea saber cuál es el índice de natalidad en 2 ciudades (A y B) para ello
encuestó a 10 familias de cada ciudad y les preguntó sobre el número de hijos, obteniendo los
siguientes resultados
A 0 6 1 2 3 1 4 3 6 4
B 3 4 1 4 2 3 1 5 4 3
54/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
4) El salario promedio anual en una ciudad es de 8,000 dólares con una varianza de 1,000 dólares
¿Cuáles serán la nueva media y la nueva varianza si se efectúan los siguientes cambios:
a) Se aumenta 810 dólares a todos
b) Se aumenta el 15 % de su salario a cada trabajador
c) Se duplican los salarios.
5) Una compañía requiere los servicios de un técnico especializado. De los expedientes presentados,
se han seleccionado 2 candidatos: A y B, los cuales reúnen los requisitos mínimos requeridos. Para
decidir cuál de los 2 se va a contratar, los miembros del Jurado deciden tomar 7 pruebas a cada
uno de ellos. Los resultados se dan a continuación:
Pruebas
1 2 3 4 5 6 7
Puntaje obtenido por A 57 55 54 52 62 55 59
Puntaje obtenido por B 80 40 62 72 46 80 40
a) Halle e interprete la media y mediana de los dos candidatos.
b) Estadísticamente ¿Cuál de los candidatos debe ser contratado? Fundamente su respuesta a
través de CV.
Una vez desarrollado el estudio de las distribuciones de frecuencias y representaciones gráficas de una
variable, se avanzó a resumir la información de las variables mediante las medidas de tendencia central y
de dispersión. Por otra parte, un elemento importante en el análisis de un conjunto de datos, es conocer
la ubicación de los datos dentro de un contexto de valores posible. Esta sección se ocupa de ciertos
parámetros posicionales muy útiles en la interpretación de los datos.
2.6.1 Cuartiles
Los cuartiles son los tres valores de la variable que dividen a un conjunto de datos ordenados en cuatro
partes iguales, los cuartiles se denotan usualmente por Q1, Q2, Q3. El segundo cuartil es precisamente la
mediana. El primer cuartil, es el valor en el cual o por debajo del cual queda un cuarto (25%) de todos los
valores de la sucesión (ordenada); el tercer cuartil, es el valor en el cual o por debajo del cual quedan las
tres cuartas partes (75%) de los datos.
Datos simples.
Al finalizar el año escolar el profesor de Matemática cuenta los días de inasistencia a clase de cada uno de
sus alumnos, obteniendo los siguientes datos: 4, 8, 5, 6, 4, 7, 2, 4, 7, 8, 9, 10, 11, 12, 13, 12, 11, 10, 12, 6,
7, 12, 9, 8, 9, 12, 11, 13, 14, 15, con dicha información quiere calcular los siguientes estadísticos:
55/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
a) ¿Cuál fue el número máximo de días que faltó a clases el 25% de los alumnos con menos inasistencias?
b) ¿Cuál fue el número máximo de días que faltó a clases el 50% de los alumnos con menos inasistencias?
c) ¿Cuál fue el número mínimo de días que faltó a clase el 25% de los alumnos con más inasistencias?
Solución:
Al analizar cada uno de los literales anteriores, se observa que se quiere dividir los datos en 4 grupos de
estudiantes, tal como se representan en el siguiente esquema:
Ahora, para responder cada uno de los literales se realizaran los siguientes pasos:
𝑘(𝑛+1)
3) Calcular la posición de cada uno de los cuartiles, para ello, se utiliza la siguiente expresión 4
,
𝑘 = 1, 2, 3
Si la posición del cuartil se encuentra en medio de dos valores concretos, el cuartil se obtiene
promediando dichos valores.
𝑘(𝑛+1)
a) Para responder el literal a) se requiere la posición del cuartil 1, esto es:
4
𝑘(𝑛+1) 1(30+1) 31
4
= 4
= 4
= 7.75
La posición del cuartil 1 es 7.75 y se ubica en la serie de datos ordenados, tal como se muestra a
continuación:
2, 4, 4, 4, 5, 6, 6 posición del cuartil uno 7, 7, 7, 8, 8, 8, 9, 9, 9, 10, 10, 11, 11, 11, 12, 12, 12, 12,
12, 13, 13, 14, 15.
6 + 7 13
𝑄1 = = = 6.5
2 2
56/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
El valor de 𝑸𝟏 = 𝟔. 𝟓 se interpreta como: El 25% de los alumnos faltó a clase 6.5 días o menos
durante todo el año.
b) Para responder el literal b) se requiere calcular el cuartil 2, para ello, lo primero es calcular la
𝑘(𝑛+1)
posición, utilizando la siguiente expresión: , sustituyendo los valores de k=2 y n=30 se
4
tiene:
𝑘(𝑛 + 1) 2(30 + 1) 62
= = = 15.5
4 4 4
La posición del cuartil 2 es 15.5 y se ubica en la serie de datos ordenados, tal como se muestra a
continuación:
2, 4, 4, 4, 5, 6, 6, 7, 7, 7, 8, 8, 8, 9, 9, posición del cuartil dos 9, 10, 10, 11, 11, 11, 12, 12, 12, 12,
12, 13, 13, 14, 15.
9+9 18
El cuartil 2, entonces será: 𝑄2 = 2
= 2
=9
El valor de 𝑸𝟐 = 𝟗 se interpreta como: El 50% de los alumnos faltó a clase 9 días o menos durante todo
el año o de forma equivalente, el número máximo de días que faltó a clases el 50% de los alumnos fue
9. Es de notar que el cuartil 2 deja un 50% de datos a la izquierda e igual porcentaje deja a la derecha.
c) Para responder el literal c) se requiere calcular el cuartil 3, para ello, lo primero es calcular la
𝑘(𝑛+1)
posición, utilizando la siguiente expresión: , sustituyendo los valores de k=3 y n=30 se
4
tiene:
𝑘(𝑛 + 1) 3(30 + 1) 93
= = = 23.25
4 4 4
12+12 24
El cuartil 3, entonces será: 𝑄3 = 2
= 2
= 12
El valor de 𝑸𝟑 = 𝟏𝟐 se interpreta como: El 75% de los alumnos faltó a clase 12 días o menos durante
todo el año o de forma equivalente, 12 fue el número mínimo de días que faltó a clases el 25% de los
alumnos con más inasistencia.
Ejemplo 2.39. (Tiempo en programar la cirugía) Suponga que las autoridades del Ministerio de Salud están
interesadas en conocer el tiempo que se tarda en programar la cirugía a los pacientes de cierto hospital
57/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
público, para ello, solicitan a la Unidad de Consulta Externa y al servicio de hospitalización la programación
de los pacientes que han llegado en los primeros 7 días de enero, quienes proporcionan los siguientes
datos:
a) ¿Cuántos días se tardó el hospital para realizar la cirugía al 25% de los pacientes?
b) ¿Cuántos días se tardó el hospital para realizar la cirugía al 50% de los pacientes?
c) ¿Cuántos días se tardó el hospital para realizar la cirugía al 75% de los pacientes?
Solución:
Cuando se tienen los datos agrupados en tabla de frecuencia simples, se utiliza un procedimiento análogo
al de datos simples, esto es realizar los siguientes pasos:
58/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
Se observa que se han creado dos columnas que son sumamente importante para responder las preguntas
planteadas.
3. Al igual que en datos simples, se calcula la posición de cada uno de los cuartiles, pero para datos
𝑘(𝑛)
agrupados se utilizará la siguiente expresión 4 , 𝑘 = 1, 2, 3.
4. Se ubica la posición de los cuartiles en la tabla de frecuencias, para ello se observa la primera
frecuencia acumulada que tenga un número mayor o igual a la posición del cuartil. En dicha
frecuencia se encuentra el cuartil buscado y si la posición del cuartil se encuentra entre los valores
de dos frecuencias acumuladas se promedia los dos datos, tal como se hizo para datos simples,
esta situación se presenta en el literal c) de este ejemplo.
a) Para responder el literal a) se requiere la posición del cuartil 1, la cual se obtiene utilizando la
𝑘(𝑛)
expresión : y sustituyendo los valores: k=1 y n=42 se tiene:
4
𝑘(𝑛) 1(42) 42
= = = 10.5
4 4 4
La posición del cuartil 1 es 10.5 y la primera frecuencia acumulada que supera este valor es 11, entonces
el cuartil 1 será:
𝑄1 = 229 días
El valor de 𝑸𝟏 = 𝟐𝟐𝟗 se interpreta como: El hospital se tarda 229 días para realizar la cirugía al 25% de
los pacientes o equivalentemente que el 25% de los pacientes tuvo que espera a lo sumo 229 días para
que le realizaran la cirugía desde la fecha de la consulta.
b) Para responder el literal b) se requiere la posición del cuartil 2, para ello se sustituyen los valores:
k=2 y n=42 en:
𝑘(𝑛) 2(42) 84
= = = 21
4 4 4
La posición del cuartil 2 es 21 y la primera frecuencia acumulada que supera este valor es 23,
entonces el cuartil 2 será:
𝑄2 = 269 días
El valor de 𝑸𝟐 = 𝟐𝟔𝟗 se interpreta como: El hospital se tarda 269 días para realizar la cirugía al
50% de los pacientes o equivalentemente que el 50% de los pacientes tuvo que espera a lo sumo
269 días para que le realizaran la cirugía desde la fecha de la consulta.
c) Para calcular la posición del cuartil 3, se sustituyen los valores: k=3 y n=42 en:
59/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
La posición del cuartil 3 es 31.5 y se ubica exactamente entre dos frecuencias acumuladas, tal como se
muestra en el siguiente parte de la tabla de frecuencias (color gris):
3 274 27 8 de octubre
6 de enero
4 278 31 12 de octubre
2 280 33 15 de octubre
7 de enero
3 283 36 18 de octubre
Por lo que, para obtener el cuartil 3 debe promediarse los dos valores, estos son:
278+280 558
𝑄3 = = = 279 días
2 2
El valor de 𝑸𝟑 = 𝟐𝟕𝟗 se interpreta como: El hospital se tarda 279 días para realizar la cirugía al 75% de
los pacientes o equivalentemente que 279 días es lo mínimo que debe esperar el 25% de los pacientes
que más se tardaron para que le realizaran la cirugía desde la fecha de la consulta.
Si los datos están agrupados en clases entonces el cálculo de los cuartiles no se hace de forma directa, se
utiliza interpolación, tal como se hizo con la mediana, la cual coincide con el cuartil 2, esto es:
2n 2n
4 − Ni−1 = ni
⟹ Md = Q2 = Li−1 + (4
− Ni−1
) Ci
Md − Li−1 Li − Li−1 ni
donde
Li−1 : Límite inferior del intervalo donde se encuentra el cuartil 2, el cual se determina observando la
2n
primera frecuencia acumulada mayor o igual a .
4
Ni−1 : Frecuencia acumulada anterior del intervalo donde se encuentra el cuartil.
Esta notación se utilizará en las siguientes medidas, evidentemente adaptando a cada situación.
60/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
Solución:
Para el cálculo de los cuartiles cuando se tiene datos en tabla de frecuencia agrupadas en clase, se utiliza
un procedimiento análogo al de datos en tablas de frecuencias simples, esto es:
a) Para responder el literal a) se requiere la posición del cuartil 1, para ello, se sustituyen los valores: k=1
y n=63 en:
𝑘(𝑛) 1(63) 63
4
= 4
= 4
= 15.75
La posición del cuartil 1 es 15.75 y la primera frecuencia acumulada que supera este valor es 34, entonces
el cuartil 1 se encuentra en el segundo intervalo y se obtiene utilizando la siguiente fórmula:
n
− Ni−1
Q1 = Li−1 + (4 ) Ci
ni
61/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
b) ¿Cuál fue la calificación máxima para el 50% de los centros educativos con menores calificaciones?
La primera frecuencia acumulada que supera la posición del cuartil 2 es 34, entonces el cuartil 2 se
encuentra en el segundo intervalo y se obtiene utilizando la siguiente fórmula:
2n
− Ni−1
Q2 = Li−1 + (4 ) Ci
ni
31.5−10 21.5
Q 2 = 4.1 + ( ) 0.6 = 4.1 + ( 24 ) 0.6 = 4.1 + 0.54 = 4.64
24
c) ¿Cuál fue la calificación mínima para el 25% de los centros educativos con mayores calificaciones?
La posición del cuartil 3 es 47.25 y la primera frecuencia acumulada que supera este valor es 53, entonces
el cuartil 3 se encuentra en el cuarto intervalo y se obtiene utilizando la siguiente fórmula:
62/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
3n
− Ni−1
Q 3 = Li−1 + (4 ) Ci
ni
47.25−47 0.25
Q 3 = 5.3 + ( 7
) 0.6 = 5.3 + ( 7
) 0.6 = 5.3 + 0.02 = 5.32
Los cuartiles son los tres valores de la variable que dividen a un conjunto de datos ordenados
en cuatro partes iguales.
Q1, Q2 y Q3 determinan los valores correspondientes al 25%, al 50% y al 75% de los datos. Q2
coincide con la mediana.
2.6.2. Deciles
Los deciles son los nueve valores de la variable que dividen a un conjunto de datos ordenados en diez
partes iguales.
Datos simples.
Ejemplo 2.41. (Inasistencia a clases) Retomando el ejemplo del apartado de los cuartiles sobre inasistencia
a clase, cuyos datos ordenados son: 2, 4, 4, 4, 5, 6, 6, 7, 7, 7, 8, 8, 8, 9, 9, 9, 10, 10, 11, 11, 11, 12, 12, 12,
12, 12, 13, 13, 14, 15. Calcular los siguientes estadísticos:
a) ¿Cuál fue el número máximo de días que faltó a clases el 20% de los alumnos con menos
inasistencias?
b) ¿Cuál fue el número mínimo de días que faltó a clase el 30% de los alumnos con más inasistencias?
c) ¿Cuál fue el número máximo de días que faltó a clases el 50% de los alumnos con menos
inasistencias?
63/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
Solución:
En este caso lo que se quiere es dividir los datos en 10 grupos de estudiantes, como se muestra en el
siguiente esquema:
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
D1 D2 D3 D4 D5 D6 D7 D8 D9
Decil 1 Decil 2 Decil 3 Decil 4 Decil 5 Decil 6 Decil 7 Decil 8 Decil 9
a) Para obtener la posición del decil 2, se sustituyen los valores de k=2 y n=30 en la siguiente
expresión:
𝑘(𝑛+1) 2(30+1) 62
10
= 10
= 10
= 6.2
La posición del decil 2 es 6.2 y se ubica en la serie de datos ordenados, tal como se indica:
2, 4, 4, 4, 5, 6, posición del decil dos 6, 7, 7, 7, 8, 8, 8, 9, 9, 9, 10, 10, 11, 11, 11, 12, 12, 12, 12, 12,
13, 13, 14, 15.
6+6
El decil 2, entonces será: 𝐷2 = 2
=6
El valor de 𝑫𝟐 = 𝟔 se interpreta como: El 20% de los alumnos faltó a clase 6 días o menos
durante todo el año.
b) Para responder el literal b) primero calcular la posición del decil 7, sustituyendo los valores de
k=7 y n=30, en:
11+12 23
El decil 7, entonces será: 𝐷7 = = = 11.5
2 2
El valor de 𝑫𝟕 = 𝟏𝟏. 𝟓 se interpreta como: El 70% de los alumnos faltó a clase 11.5 días o menos
durante todo el año o de forma equivalente, el número mínimo de días que faltó a clases el 25%
de los alumnos que más faltaron a clase fue 11.5.
64/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
c) Para calcular la posición del decil 5, se sustituyen los valores de k=5 y n=30, en:
La posición del decil 5 es 15.5 que es exactamente la misma posición del cuartil 2.
El valor de 𝑫𝟓 = 𝟗 se interpreta como: El 50% de los alumnos faltó a clase 9 días o menos durante
todo el año o de forma equivalente, el número máximo de días que faltó a clases el 50% de los
alumnos fue 9.
Ejemplo 2.42. Retomando el ejemplo 2.39 (Tiempo en programar la cirugía) que se refiere al tiempo que
se tarda en programar la cirugía a los pacientes de cierto hospital público, responder las preguntas:
a) ¿Cuántos días se tardó el hospital para realizar la cirugía al 20% de los pacientes?
b) ¿Cuántos días se tardó el hospital para realizar la cirugía al 50% de los pacientes?
c) ¿Cuántos días se tardó el hospital para realizar la cirugía al 80% de los pacientes?
Solución:
a) Para responder el literal a) se requiere la posición del decil 2, para ello, se sustituyen los valores:
k=2 y n=42 en la siguiente expresión:
𝑘(𝑛) 2(42) 84
10
= 10
= 10
= 8.4
65/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
La posición del decil 2 es 8.4 y la primera frecuencia acumulada que supera este valor es 11,
entonces el decirl 2 será:
𝐷2 = 229 días
El valor de 𝑫𝟐 = 𝟐𝟐𝟗 se interpreta como: El hospital se tarda 229 días para realizar la cirugía al 20% de
los pacientes o equivalentemente que el 20% de los pacientes tuvo que espera a lo sumo 229 días para
que le realizaran la cirugía desde la fecha de la consulta.
b) ¿Cuántos días se tardó el hospital para realizar la cirugía al 50% de los pacientes?
𝐷5 = 269 días = 𝑄2
El valor de 𝑫𝟓 = 𝟐𝟔𝟗 se interpreta como: El hospital se tarda 269 días para realizar la cirugía al 50% de
los pacientes o equivalentemente que el 50% de los pacientes tuvo que espera a lo sumo 269 días para
que le realizaran la cirugía desde la fecha de la consulta.
c) ¿Cuántos días se tardó el hospital para realizar la cirugía al 80% de los pacientes?
La posición del decil 8 es 33.6 y se ubica exactamente entre dos frecuencias acumuladas, tal como
se muestra en el siguiente parte de la tabla de frecuencias (color gris):
3 274 27 8 de octubre
6 de enero
4 278 31 12 de octubre
2 280 33 15 de octubre
7 de enero
3 283 36 18 de octubre
Por lo que, para obtener el decil 8 debe promediarse los dos valores, estos son:
280+283 563
𝐷8 = 2
= 2
= 281.5 días
66/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
El valor de 𝑫𝟖 = 𝟐𝟖𝟏. 𝟓 se interpreta como: El hospital se tarda 281.5 días para realizar la cirugía al 80%
de los pacientes o equivalentemente que 281.5 días es lo mínimo que debe esperar el 20% de los
pacientes que más se tardaron para que le realizaran la cirugía desde la fecha de la consulta.
Al igual que en el caso de los cuartiles se usa interpolación para deducir la expresión matemática que le
define. La fórmula para calcular los cuartiles para datos agrupados en clase es la siguiente:
𝑘𝑛
− 𝑁𝑖−1
𝐷𝑘 = 𝐿𝑖−1 + (10 ) 𝐶𝑖
𝑛𝑖
𝐿𝑖−1 : Límite inferior del intervalo donde se encuentra el decil buscado, el cual se determina observando
𝑘𝑛
en que clase se encuentra la posición .
10
𝑁𝑖−1 : Frecuencia acumulada anterior al intervalo donde se encuentra la posición del decil buscado.
𝑛𝑖 : Frecuencia absoluta del intervalo donde se encuentra la posición del decil buscado.
Retomando el ejemplo de los resultados de la PAESITA 2012 visto en el cálculo de los cuartiles, responder
las preguntas:
a) ¿Cuál fue la calificación máxima para el 20% de los centros educativos con menores calificaciones?
b) ¿Cuál fue la calificación mínima para el 20% de los centros educativos con mayores calificaciones?
Solución
Para el cálculo de los deciles cuando se tiene datos en tabla de frecuencia agrupadas en clase, se utiliza un
procedimiento análogo al de datos en tablas de frecuencias simples, esto es:
a) Para calcular la posición del decil 2, se sustituyen los valores: k=2 y n=63 en la siguiente expresión:
La posición del decil 2 es 12.6 y la primera frecuencia acumulada que supera este valor es 34, entonces
el decil 2 se encuentra en el segundo intervalo. A partir de los datos de la tabla de frecuencia se obtiene:
67/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
b) ¿Cuál fue la calificación mínima para el 20% de los centros educativos con mayores calificaciones?
La posición del decil 8 es 50.4 y la primera frecuencia acumulada que supera este valor es 53, entonces el
decil 8 se encuentra en el cuarto intervalo. A partir de los datos de la tabla de frecuencia se obtiene:
50.4−47 3.4
D8 = 5.3 + ( ) 0.6 = 5.3 + ( 7 ) 0.6 = 5.3 + 0.29 = 5.59
7
Los deciles son los nueve valores de la variable que dividen a un conjunto de datos ordenados
en diez partes iguales.
Existen otras medidas de posición que son útiles en el análisis estadístico y que se obtiene de forma
análoga a los cuartiles o deciles, por ejemplo los quintiles o percentiles.
68/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
2.6.3. Percentiles
El percentil indica, una vez ordenados los datos de menor a mayor, el valor de la variable por debajo del
cual se encuentra un porcentaje dado de observaciones en un grupo de observaciones. Por ejemplo, el
percentil 20 es el valor bajo el cual se encuentran el 20 por ciento de las observaciones.
Se representan con la letra P. Para el percentil i-ésimo, donde la i toma valores del 1 al 99. El i % de la
muestra son valores menores que él y el (100-i)% restante son mayores. Algunas igualdades que se dan
entre los percentiles, cuartiles y deciles son las siguientes:
La forma de obtener los percentiles es análogo al cálculo de cuartiles y deciles que se han presentado
anteriormente, con la diferencia que para calcular la posición de cada uno de los percentiles se utiliza la
𝑘(𝑛+1)
siguiente expresión 100 , 𝑘 = 1, 2, 3, . . . , 99 para datos simples. Si los datos se encuentran en una
tabla de frecuencia simple o agrupada en clase, la posición del percentil se obtendrá con la siguiente
𝑘(𝑛)
expresión: , 𝑘 = 1, 2, 3, . . . , 99.
100
A continuación se presenta un ejemplo que ilustra el procedimiento para calcular los percentiles para
datos agrupados en clase. Para datos simples o tablas de frecuencia simples, se deja de tarea al lector, a
fin de que practiquen su cálculo utilizando los primeros dos ejemplos desarrollados para cuartiles.
Obtener:
a) ¿Cuál es la estatura máxima para el 10% de los jugadores más pequeños?
b) ¿Cuál es la estatura máxima para el 20% de los jugadores más pequeños?
c) ¿Cuál es la estatura mínima para el 15% de los jugadores más altos?
d) ¿Cuántos jugadores se encuentran por encima del percentil 80?
69/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
Solución
Para calcular los percentiles para datos agrupados en clase se utiliza la siguiente fórmula:
kn
100 − Ni−1
Pk = Li−1 + ( ) Ci
ni
Para deducir la fórmula anterior, nuevamente se utiliza la semejanza de triángulos, de la misma forma que
se dedujo la fórmula para los cuartiles.
𝑘(𝑛)
Para calcular la posición del percentil 10, se utiliza la siguiente expresión:
100
La posición del percentil 10 es 6.5 y la primera frecuencia acumulada que supera este valor es 17,
entonces el percentil 10 se encuentra en el segundo intervalo y se obtiene utilizando la siguiente
fórmula:
10n
− Ni−1
P10 = Li−1 + (100 ) Ci
ni
6.5−5 1.5
P10 = 1.75 + ( ) 0.05 = 1.75 + ( 12 ) 0.05 = 1.75 + 0.00625 = 1.76
12
70/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
La posición del percentil 20 es 13 y la primera frecuencia acumulada que supera este valor es
17, entonces el percentil 20 se encuentra en el segundo intervalo y se obtiene utilizando la
siguiente fórmula:
20n
− Ni−1
P20 = Li−1 + (100 ) Ci
ni
13−5 8
P20 = 1.75 + ( ) 0.05 = 1.75 + (12) 0.05 = 1.75 + 0.033 = 1.78
12
𝑘(𝑛)
Para calcular la posición del percentil 85, se utiliza la siguiente expresión:
100
71/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
La posición del percentil 85 es 55.25 y la primera frecuencia acumulada que supera este valor
es 60, entonces el percentil 85 se encuentra en el quinto intervalo y se obtiene utilizando la
siguiente fórmula:
85n
− Ni−1
P85 = Li−1 + (100 ) Ci
ni
55.25−50 5.25
P85 = 1.9 + ( ) 0.05 = 1.9 + ( 10 ) 0.05 = 1.9 + 0.026 = 1.93
10
El valor de 𝑷𝟖𝟓 = 𝟏. 𝟗𝟑 se interpreta como: el 15% de los jugadores de baloncesto más altos,
tienen una estatura mayor o igual que 1.93 metros. Gráficamente el percentil 85 se presenta
a continuación:
Por encima del percentil 80, hay el 20% de los 65 jugadores que se han considerado en este
ejemplo, por tanto, para responder el literal d) se realiza el siguiente cálculo:
65(0.2)=13. También, es importante conocer la estatura mínima de estos 13 jugadores, para
ello debe calcularse el percentil 80.
Los percentiles son los noventa y nueve valores de la variable que dividen a un conjunto de
datos ordenados en cien partes iguales.
Por ejemplo P10, P30 y P75 determinan los valores correspondientes al 10%, al 30% y al 75% de
los datos.
La fórmula para calcular los percentiles para datos agrupados en clase es la siguiente:
72/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
kn
− Ni−1
Pk = Li−1 + (100 ) Ci donde k=1, 2, 3. . . , 99
ni
𝐿𝑖−1 : Límite inferior del intervalo donde se encuentra el percentil buscado, el cual se determina
𝑘𝑛
observando en que clase se encuentra la posición .
100
𝑁𝑖−1 : Frecuencia acumulada anterior al intervalo donde se encuentra la posición del percentil buscado.
𝑛𝑖 : Frecuencia absoluta del intervalo donde se encuentra la posición del percentil buscado.
NOTA: En este documento se ha tomado la siguiente convención para obtener la posición de los quintiles:
𝑘(𝑛+1)
Posición para datos simples: , donde j= 1,2 y 3 para cuartiles, j=1,2, …, 9 para deciles y j= 1,2,3, …,
𝑗
98, 99 para percentiles.
𝑘(𝑛)
Posición para datos agrupados en tablas de frecuencias: , donde j= 1,2 y 3 para cuartiles, j=1,2, …, 9
𝑗
para deciles y j= 1,2,3, …, 98, 99 para percentiles.
1) Retomando los datos del ejemplo de (Inasistencia a clases ) donde el profesor de Matemática
cuenta los días de inasistencia a clase de cada uno de sus alumnos, obteniendo los siguientes
datos: 4, 8, 5, 6, 4, 7, 2, 4, 7, 8, 9, 10, 11, 12, 13, 12, 11, 10, 12, 6, 7, 12, 9, 8, 9, 12, 11, 13, 14, 15,
con dicha información quiere calcular los siguientes estadísticos:
a) ¿Cuál fue el número máximo de días que faltó a clases el 35% de los alumnos con menos
inasistencias?
b) ¿Cuál fue el número máximo de días que faltó a clases el 80% de los alumnos con menos
inasistencias?
c) ¿Cuál fue el número mínimo de días que faltó a clase el 15% de los alumnos con más
inasistencias?
2) Las notas finales del curso de didáctica del número (datos hipotéticos) son las siguientes: 6.7,
8.2, 8.9, 7.9, 8.1, 7.6, 8.5, 7.3, 8.6, 8.8, 8.8, 7.7, 8.2, 7.7, 7.1, 9.0, 8.5, 9.3, 8.8, 8.1, 8.4, 6.9, 9.2,
8.2, 8.6, 7.0. Determinar e interpretar el percentil 90.
73/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
a) ¿Cuántos días se tardó el hospital para realizar la cirugía al 30% de los pacientes?
b) ¿Cuántos días se tardó el hospital para realizar la cirugía al 60% de los pacientes?
c) ¿Cuántos días se tardó el hospital para realizar la cirugía al 90% de los pacientes?
4) Suponga que se tiene las estaturas (cm) de los 40 estudiantes de nivel básico y se agrupan en la
siguiente tabla de frecuencias:
74/74