Está en la página 1de 74

Universidad de El Salvador

Facultad de Ciencias Naturales y Matemática, Licenciatura en


Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

Capítulo 2: Métodos Descriptivos

2.1. Análisis descriptivo de datos cualitativos: Tablas de frecuencias, gráficos y


medidas estadísticas.
Muchas veces, en el diario vivir se pasa desapercibido sobre el tipo de información que se manipula,
imparte o recibe, sin embargo, con estrategias adecuadas y con el conocimiento pertinente esta
información puede ser muy útil. El análisis de datos categóricos se ocupa del estudio de variables que no
son medibles (color, nacionalidad, enfermedades, sexo, afiliación política, miedo, hambre, etc.),
denominadas también atributos o caracteres cualitativos.

En este apartado se analizan las variables cualitativas a través de las tablas de frecuencias,
representaciones gráficas y medidas de tendencia central (moda)

2.1.1. Tablas de frecuencias para datos cualitativos o categóricos

Para iniciar el análisis de datos categóricos se presenta las causas de los accidentes de tránsito.

Ejemplo 2.1. El Viceministerio de Transporte a través de la División de Tránsito Terrestre de la Policía


Nacional Civil, ha reportado las causas principales que ocasionaron los accidentes de tránsito el primer día
de vacación de semana santa de 2017. A continuación, se muestran los casos:

Distracción del conductor Distracción del conductor Velocidad excesiva


No guardar distancia reglamentaria No guardar distancia reglamentaria Distracción del conductor
Velocidad excesiva Velocidad excesiva Invadir carril
No guardar distancia reglamentaria Distracción del conductor Velocidad excesiva
No respetar señal de prioridad No guardar distancia reglamentaria Invadir carril
No guardar distancia reglamentaria Velocidad excesiva Velocidad excesiva
No respetar señal de prioridad Invadir carril Ebriedad
No guardar distancia reglamentaria No respetar señal de prioridad No guardar distancia reglamentaria
No guardar distancia reglamentaria No respetar señal de prioridad Distracción del conductor
Invadir carril No guardar distancia reglamentaria No respetar señal de prioridad
Distracción del conductor Velocidad excesiva No guardar distancia reglamentaria
No respetar señal de prioridad Invadir carril No guardar distancia reglamentaria
Distracción del conductor Velocidad excesiva No respetar señal de prioridad
Distracción del conductor Distracción del conductor Distracción del conductor
No guardar distancia reglamentaria Invadir carril Distracción del conductor
No guardar distancia reglamentaria Velocidad excesiva Invadir carril
Distracción del conductor Invadir carril Invadir carril
No respetar señal de prioridad Invadir carril Distracción del conductor
Distracción del conductor Invadir carril Invadir carril

1/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

Se pide: describir el proceso de análisis de las causas de accidentes.

Solución.

¿Qué hacer con los datos brutos? Seguramente se ha entendido qué tipo de datos se han proporcionado
(cualitativos) y que significan cada uno de ellos, pero ahora seguramente surgirán preguntas como: ¿Ahora
qué hago con estos datos? ¿Cómo se ordenan? ¿Se podrá hacer algún tipo de análisis? ¿Qué conclusiones
voy a dar? ¿Qué esperarán que se muestre con estos datos? ¿Será realmente útil mostrar un gráfico,
mostrar una tabla o cifras puntuales?

Lo primero que se debe tener en cuenta es que todo lleva un orden y todo se hace por partes, no se debe
comenzar por el final, sino más bien dejar que las ideas fluyan y que eso permita ir descubriendo la riqueza
de los datos y todas las maravillas que se pueden hacer con ellos.

¿Cómo se organizan y se presentan los datos? Una vez que se han recolectado los datos necesarios, es
sumamente importante saberlos organizar o agrupar de alguna manera o mecanismo para poder
“manejarlos” de manera más eficiente y eficaz. La presentación de estos datos en tablas permite
apreciarlos con mejor claridad y explorar la información antes de analizarla.

Se debe resaltar que existen casos en donde es un poco estresante estar visualizando los datos con
nombres de categorías tan largas como es el caso planteado de los accidentes de tránsito. Muchas veces
se recurre a hacer una “codificación” tratando de reducir el tamaño de las respectivas categorías como se
muestra a continuación:

Código Categorías
Causa 1 Distracción del conductor
Causa 2 No guardar distancia reglamentaria
Causa 3 Invadir carril
Causa 4 Ebriedad
Causa 5 No respetar señal de prioridad
Causa 6 Velocidad excesiva

Para la construcción de la tabla de distribución de frecuencias de datos categóricos se comienza por


identificar todos los posibles nombres, códigos, identificadores o categorías que aparecen en los datos.

Una categoría, posiblemente se presenta en varias ocasiones dentro de los datos, a este número de veces
que aparece cada categoría se le llama Frecuencia de la categoría o frecuencia absoluta o simplemente
frecuencia.

Una vez que se han obtenido las frecuencia es importante conocer el peso que tiene cada una de las
categorías respecto al total de los datos, esto consiste en obtener el cociente entre la frecuencia absoluta
y el número de observaciones realizadas, a esto se le llama frecuencia relativa.

2/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

Tabla de frecuencias para datos categóricos


Categoría Frecuencia Frecuencia Relativa
Distracción del conductor 14 14/57 = 0.24
No guardar distancia reglamentaria 13 13/57 = 0.23
Invadir carril 12 12/57 = 0.21
Ebriedad 1 1/57 = 0.02
No respetar señal de prioridad 8 8/57 = 0.14
Velocidad excesiva 9 9/57 = 0.16
n = 57 Suma: 1
Interpretación: A partir de la tabla de distribución de frecuencias anterior se pueden observar ciertos
aspectos como:

 Las primeras tres causas de accidentes de tránsito son: Distracción del conductor, No guardar
distancia reglamentaria e invadir carril.
 La causa menos registrada por accidentes en el período vacacional fue por ebriedad.

Los datos categóricos se representan en escala nominal (sexo, estado civil, distintas ramas de actividad
económica, profesión, ideología política, etc.) y datos en escala ordinal (nivel de estudios, estratificación
de familias por su capacidad de consumo, nivel de autoestima, etc.), cuando se puede establecer un
determinado orden o rango entre las observaciones.

Una descripción detallada sobre la elaboración de tablas de frecuencias se presenta en el apartado 2.2.

2.1.2. Representaciones gráficas para datos cualitativos

Un gráfico estadístico es una representación visual de una serie de datos y tiene las siguientes
características:

• Capta la atención del lector.


• Presenta la información de forma sencilla, clara y precisa.
• No induce a error.
• Facilita la comparación de datos y destaca las tendencias y las diferencias.
• Ilustra el mensaje, tema o trama del texto al que acompaña.

Gráfico de barras
Un gráfico de barras es una representación gráfica en un eje cartesiano, tal que en uno de los ejes se
representa las categorías y en el otro eje se representan las frecuencias de una variable categórica
(cualitativa).

3/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

La altura de las barras representa la magnitud de los valores asociados a cada categoría de datos. Por
ejemplo, las barras podrían representar:

 Las ventas totales de cuatro tiendas durante un año.


 La medida de los diámetros de piezas producidas por cuatro máquinas diferentes en una fábrica
durante una semana.
 Los conteos de accidentes de tránsito durante un período del año.

En el apartado 2.1.1 se presentó el ejemplo de las causas principales de accidentes de tránsito del primer
día de vacación de semana santa 2017. A partir de la tabla de frecuencias correspondiente a esa situación
se elabora el gráfico de barras que se muestra a continuación.

En el eje horizontal se posicionan las distintas categorías de la variable cualitativa o categórica (en el
ejemplo, la causa del accidente) y en el eje vertical se presenta el valor o frecuencia de cada categoría en
una determinada escala (en el ejemplo, la cantidad de accidentes en unidades).

Las categorías que tienen frecuencia similar, están representadas por barras con altura similar. La
categoría con mayor frecuencia tiene una barra con la mayor altura.

Causas de accidentes de tránsito


16 14
14 13
12
12
Frecuencia

10 9
8
8
6
4
2 1
0
Distracción del

Invadir carril
No guardar distancia

Ebriedad

No respetar señal de

Velocidad excesiva
conductor

reglamentaria

prioridad

A partir del gráfico se visualiza que la distracción del conductor es la principal causa de accidentes de
tránsito mientras que la ebriedad es la causa menos reportada.

Por otra parte, la orientación del gráfico de barras puede ser:

• Vertical: las distintas categorías están situadas en el eje horizontal y las barras de frecuencias
crecen verticalmente.
• Horizontal: las categorías se sitúan en el eje vertical y las barras crecen horizontalmente. Suelen
usarse cuando hay muchas categorías o sus nombres son demasiado largos.

4/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

En un gráfico de barras orientado horizontalmente las categorías pueden ordenarse alfabéticamente


facilitando su búsqueda o por sus frecuencias facilitando la comparación de los datos.

Ejemplo 2.2. Cantidad de casos de conjuntivitis bacteriana aguda reportadas por la Unidad de Vigilancia
Epidemiológica del Ministerio de Salud de El Salvador, para la semana 15 del año 2017, por departamento.
Elaborar un gráfico de barras en orientación horizontal, ordenado por magnitud de frecuencias (menor a
mayor)

Casos de conjuntivitis aguda, Ministerio de Salud, semana 15, 2017

Cabañas 12159
San Vicente 15576
Cuscatlán 15931
Morazán 17612
La Paz 21921
La Unión 19248
Chalatenango 23716
Ahuachapán 24961
Usulután 32984
Sonsonate 35653
Santa Ana 39404
San Miguel 42715
La Libertad 54723
San Salvador 187280

0 20000 40000 60000 80000 100000 120000 140000 160000 180000 200000

Fuente: Unidad de Vigilancia Epidemiológica - Ministerio de Salud de El Salvador

En el gráfico se observa que el departamento de San Salvador es el que reporta la mayor cantidad de casos
(presenta la barra más larga) y en el otro extremo se observa que los departamentos Cabañas, San Vicente
y Cuscatlán son los que reportan la menor cantidad de casos (presentan las barras más cortas).

En los ejemplos anteriores de gráficos de barras se han comparado las magnitudes (cantidad de accidentes,
casos de conjuntivitis bacteriana) asociadas a variables categóricas (causas de accidentes, departamentos),
sin embargo, hay situaciones donde se muestra el porcentaje que representa cada categoría, respecto al
total. Esta situación se ilustra con un pictograma.

Pictograma
Un pictograma es un gráfico que representa mediante figuras o símbolos las frecuencias de una variable
cualitativa (categórica).

5/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

Al igual que los gráficos de barras suelen usarse para comparar magnitudes o ver la evolución en el tiempo
de una categoría concreta. Las barras están constituidas por símbolos o figuras del mismo tamaño que
representan una cantidad específica (a mayor frecuencia, más acumulación de figuras).

Ejemplo 2.3. Elabore un pictograma que muestre los porcentajes de hogares de El Salvador que recibieron
remesas del exterior en el año 2013.

Porcentaje de hogares receptores de remesas

La Unión 47.8
Morazán 35.0
San Miguel 29.1
Usulután 31.6
San Vicente 27.6
Departamento

Cabañas 32.7
La Paz 20.3
Cuscatlán 16.9
San Salvador 13.5
La Libertad 17.9
Chalatenango 34.3
Sonsonate 14.4
Santa Ana 24.9
Ahuachapán 16.5

0.0 5.0 10.0 15.0 20.0 25.0 30.0 35.0 40.0 45.0 50.0
Porcentaje de hogares

Fuente: Dirección General De Estadística y Censos. EHPM 2013

En el pictograma se observa que las barras correspondientes al porcentaje medido para cada
departamento están construidas con un símbolo de billetes de dólar. Para construir la barra, se utiliza la
cantidad requerida de imágenes según sea su longitud.

La barra correspondiente al departamento de La Unión es la más larga y está compuesta de mayor cantidad
de símbolos, es decir La Unión presenta el mayor porcentaje de hogares que recibieron remesas durante
el 2013. La barra más corta le corresponde a San Salvador y por ello está compuesta de menor cantidad
de símbolos, es decir, San Salvador presenta el menor porcentaje de hogares que recibieron remesas
durante el 2013.

6/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Gráfico de sectores Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

Un gráfico de sectores es una representación circular de las frecuencias relativas de una variable cualitativa
(categórica) que permite su comparación de una manera sencilla y rápida.

Ejemplo 2.4. Suponga que el Ministerio de Turismo ha publicado una tabla con los conteos de visitantes a
4 centros turísticos durante las vacaciones de semana santa 2017 (datos hipotéticos). El gráfico de sectores
correspondiente quedaría como se muestra a continuación.

Visitantes a centros turísticos


Atecozol
Lago de Ilopango 980
1430

Ichanmichen Costa del sol


530 2160

Se observa que la categoría que tiene la mayor cantidad de visitantes (Costa del Sol), tiene el sector más
grande en el gráfico. Observación similar se hace con la categoría que tiene la menor cantidad de visitantes
(Ichanmichen).

El círculo representa la totalidad que se quiere observar (en el ejemplo, total de visitantes) y cada porción,
llamadas sectores, representan la proporción de cada categoría de la variable (en el ejemplo, centro
turístico) respecto al total. Puede expresarse en valores absolutos o en porcentajes.

Obtención de los ángulos de cada sector:


Para elaborar un diagrama de sectores manualmente, se requiere calcular el ángulo que abarcará cada
uno de los sectores que representa las categorías de la variable. El cálculo del ángulo de cada sector se
Frecuencia del sector
hace a través de la fórmula siguiente: ángulo de sector = × 360
Suma total de frecuencias

En la siguiente tabla se muestran los grados correspondientes a cada uno de los sectores del gráfico
anterior.
Centro turístico Cantidad de visitantes Ángulo del sector
Atecozol 980 69°
Costa del sol 2160 152°
Ichanmichen 530 37°
Lago de Ilopango 1430 101°
Total 5100 360°

7/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

2.1.3. Medidas estadísticas para datos cualitativos.

Moda (Mo).

La moda es la medida de tendencia central más fácil de determinar. Corresponde a la categoría


o valor de la variable con la frecuencia mayor (la que aparece más a menudo). La moda es la
única medida de tendencia central que se puede usar para variables categóricas con escala
nominal.
Ejemplo 2.5. Retomando la información obtenida en la tabla de distribución de frecuencias de las causas
de accidentes de tránsito. Determinar la categoría que más se repite.

Categoría Frecuencia
Distracción del conductor 14
No guardar distancia reglamentaria 13
Invadir carril 12
Ebriedad 1
No respetar señal de prioridad 8
Velocidad excesiva 9
n = 57
Solución:

Se observa que la distracción del conductor aparece con mayor número de repeticiones respecto a los
demás. Esto quiere decir, que la moda (Mo) de los accidentes de tránsito es la distracción del conductor
(causa 1)

Moda: Es el valor de la variable que más veces se repite en una distribución de frecuencias, es decir, el
que tiene mayor frecuencia absoluta. Y se representa por:

Mo = mayor frecuencia o repeticiones de elementos

Ejemplo 2.6. En la carrera de enseñanza de la Matemática de la Universidad en Línea de la UES, se desea


investigar el estado civil de los estudiantes de Probabilidad y Estadística Matemática, y se hace la consulta
a 10 de ellos. Obteniendo los siguientes resultados: Soltero, Soltero Casado, Soltero, Divorciado, Casado,
Soltero, Acompañado, Viudo y Soltero. Determine la moda del estado civil de los 10 estudiantes.

Solución:

8/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

Existen cinco categorías de estado civil, tal como se muestra en la tabla:


Estado civil Frecuencia
Soltero 5 En la tabla de la izquierda se observa que el estado civil que aparece con
Acompañado 1 mayor frecuencia es Soltero. Por lo tanto: Mo = Soltero.
Casado 2
Divorciado 1 El valor de Mo se interpreta como: La mayoría de estudiantes de
Viudo 1 Probabilidad y Estadística Matemática son Solteros.

2.1.4. Actividad de autoevaluación

1) Suponga que se les pregunta a 50 alumnos del nivel básico sobre la asignatura que menos
problemas les ocasiona en el aprendizaje, obteniendo los siguientes resultados:

Ciencias Sociales, Matemática, Lenguaje y Literatura, Matemática, Matemática, Matemática,


Lenguaje y Literatura, Lenguaje y Literatura, Ciencias Sociales, Lenguaje y Literatura, Ciencias
Sociales, Ciencias Naturales, Lenguaje y Literatura, Ciencias Sociales, Lenguaje y Literatura,
Lenguaje y Literatura, Lenguaje y Literatura, Matemática, Ciencias Naturales, Ciencias Sociales,
Lenguaje y Literatura, Lenguaje y Literatura, Ciencias Sociales, Lenguaje y Literatura, Ciencias
Sociales, Lenguaje y Literatura, Ciencias Naturales, Lenguaje y Literatura, Ciencias Sociales,
Lenguaje y Literatura, Lenguaje y Literatura, Matemática, Lenguaje y Literatura, Ciencias
Naturales, Ciencias Naturales, Ciencias Sociales, Ciencias Naturales, Ciencias Sociales, Ciencias
Sociales, Ciencias Sociales, Ciencias Sociales, Ciencias Sociales, Ciencias Sociales, Ciencias Sociales,
Ciencias Sociales, Ciencias Naturales, Ciencias Sociales, Ciencias Naturales, Ciencias Sociales,
Ciencias Sociales.

a) Construir una tabla de frecuencias que resuma la información usando R


b) ¿Qué materia les gusta a los estudiantes?
c) ¿Qué materia les genera las mayores dificultades a los estudiantes?
d) A partir de la tabla de frecuencias elabore los gráficos de barra y de sectores usando R y el pictograma

2) En una universidad se ha realizado una encuesta a 200 alumnos de ingeniería. El 32% afirman que
están muy contentos con la universidad, el 40% están contentos, el 23% no está contento y el
resto está muy descontento. Definir la variable en estudio y su tipo, luego construir la tabla de
frecuencias simples.

3) Según la encuesta nacional de salud familiar (FESAL-2008) EL Salvador, C.A, se entrevistaron un


total de 21,595 mujeres en edades de 15 a 49, de las cuales 8,623 dijeron que las principales causas
por las que dejaron de estudiar son:
Causa N° de mujeres
Problemas económicos 2945
Problemas familiares 696
Tenía que trabajar 907
No le gustaba / le daba pena 1486

9/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

Logró su meta educativa 633


Salió embarazada 676
Se casó / se acompañó 791
Por bajo rendimiento 46
Muy lejos 244
Problemas de salud 199
Total 8,623
Fuente. Ministerio de Salud de El Salvador (FESAL 2008)
a) Con la información anterior elabore un gráfico de barras y un pictograma.
b) ¿Es correcto representar la información en un gráfico de sectores? ¿por qué?
c) Determine la moda de las causas por las que las mujeres dejaron de estudiar.

2.2. Tablas de frecuencias para datos cuantitativos

2.2.1. Análisis de datos discretos

Hasta este punto se ha estudiado como construir una tabla de distribución de frecuencias de datos que
tienen naturaleza cualitativa o categórica. Sin embargo, se pueden construir tablas de distribución de
frecuencias cuando los datos son números. Este tipo de variables se denominan cuantitativas y se clasifican
en: Variables cuantitativas discretas y Variables cuantitativas continuas.

Un caso interesante de estudiar y que en El Salvador ha sido siempre un fenómeno geológico común y
sigue generando temor en la población por su difícil predicción de ocurrencia y por las consecuencias que
conlleva los sismos.

Ejemplo 2.7. (Sismos, marzo 2015) Según el Ministerio de Medio Ambiente y Recursos Naturales de El
Salvador (MARN) la cantidad de sismos registrados (locales y regionales) para el mes de marzo del año
2015 (sismos por día, del 1 al 31 de marzo):

1 4 4 8 7 8
4 4 5 8 8 3
3 0 5 2 12 6
3 5 11 6 3 2
6 9 4 12 6 2
0
A partir de la información anterior construir una tabla de frecuencias simple.

Solución.

Para la construcción de la tabla de frecuencias de datos discretos se comienza por identificar todos los
posibles valores que aparecen en los datos, ahora ya no son categorías sino valores o números, ya que se

10/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

está trabajando con una variable cuantitativa. A esta columna se le llama variable y generalmente se tiende
a representar con 𝑥 u otra letra. En el análisis de tablas de frecuencias de datos discretos cada valor se
repiten determinado número de veces y a ello se le llama frecuencia absoluta o simplemente frecuencia.

Muchas veces, a parte de las frecuencias relativas, se está interesado en conocer la cantidad de todos
aquellos casos o eventos que han ocurrido un número de veces menor o igual a un determinado valor de
referencia. Es aquí que se define la frecuencia absoluta acumulada que no es más que la suma acumulada
de las frecuencias absolutas de los valores menores o iguales al valor de referencia. Para conocer la
proporción de todos aquellos casos o eventos que han ocurrido un número de veces menor o igual a un
determinado valor de referencia se calcula la frecuencia relativa acumulada, que consiste en la suma
acumulada de las frecuencias relativas de los valores menores o iguales al valor de referencia.

De esta forma para la cantidad de sismos ocurridos en El Salvador en marzo de 2015 se tiene:

Variable Frecuencia Frecuencia relativa F. Acum. Abs. F. rel. Abs.


0 2 2/31 = 0.065 2 0.065
1 1 1/31 = 0.032 3 0.097
2 3 3/31 = 0.097 6 0.194
3 4 4/31 = 0.129 10 0.323
4 5 5/31 = 0.161 15 0.484
5 3 3/31 = 0.097 18 0.581
6 4 4/31 = 0.129 22 0.71
7 1 1/31 = 0.032 23 0.742
8 4 4/31 = 0.129 27 0.871
9 1 1/31 = 0.032 28 0.903
11 1 1/31 = 0.032 29 0.935
12 2 2/31 = 0.065 31 1
n = 31 Suma: 1

Interpretación: de la tabla de distribución de datos discretos:


 El valor que toma la variable (N° de sismos) ahora si tiene un significado o valor cuantitativo y ya
no es solamente una codificación.
 El día que más sismos ocurrieron en marzo de 2015, registró un total de 12 sismos y ocurrió en
dos días.
 El día que menos sismos ocurrieron en marzo de 2015, registró un total de 0 sismos y ocurrió en 2
días.
 La cantidad de sismos diarios que más se repitió en el mes de marzo de 2015 es de 4.

Ahora se generaliza la construcción de tablas de frecuencias, para ello, supóngase que se tiene una
muestra de tamaño n, donde la variable estadística X toma los valores distintos x1, x2, . . . , xn. Se debe

11/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

empezar por ordenar los diferentes valores que toma la variable estadística (en orden normalmente
creciente) y el total de veces que aparece cada valor.
En el caso de las variables discretas, generalmente, un mismo valor de la variable aparecerá repetido más
de una vez (es decir k < n). De forma que el siguiente paso es la construcción de una tabla en la que se
indiquen los valores posibles de la variable y su frecuencia de aparición (las veces que aparece el mismo
valor).

A continuación se presenta el esquema de una tabla de frecuencias para variables discretas:

Datos Frecuencias Absolutas Frecuencias Relativas

Simples Acumuladas Simples Acumuladas

x1 n1 N1  n1 f1  n1 / n F1  N1 / n
x2 n2 N 2  n1  n2 f 2  n2 / n F2  N 2 / n
. . . . .
. . . . .
. . . . .
xk nk k
f k  nk / n Fk  N k / n  1
N k   ni
i 1

Total k k

n
i 1
i n f
i 1
i 1

En la tabla de frecuencias simples, la primera columna representa los distintos valores de que toma la
variable y la segunda la frecuencia simple, es decir, el número de veces que se ha observado el
correspondiente valor; la tercera columna recoge la frecuencia acumulada (número de datos menores o
iguales que el valor correspondiente a dicha fila). Las frecuencias relativas se obtienen a partir de las
frecuencias absolutas, dividiendo por el tamaño de la muestra.

Ejemplo 2.8. Se tiene los datos recopilados acerca de la variable X: número de ausencias a clase que tienen
los estudiantes de una determina asignatura: 0, 1, 2, 2, 1, 3, 2, 1, 4, 2, 4, 3, 2, 0, 0, 2, 2, 3, 0, 3.

a) ¿Qué tipo de variable es esta?


b) Construir una tabla o distribución de frecuencias simple.

Solución.

12/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

a) Para responder el literal a) sobre el tipo de variable, se observa los diferentes valores que toma,
estos son: 0, 1, 2, 3 y 4, con esto valores es posible realizar operaciones aritméticas, por tanto, es
una variable cuantitativa discreta.
b) Al tratarse de una variable discreta (un conteo siempre tomará valores enteros) y con pocos
valores diferentes es recomendable construir una tabla de frecuencias simples. En este caso k = 5
(son cinco los valores distintos de X: 0, 1, 2, 3 y 4).

Tabla de frecuencias simples:

Datos Frecuencias Absolutas Frecuencias Relativas

Simples Acumuladas Simples Acumuladas

0 𝑛1 = 4 𝑁1 = 4 𝑓1 = 0.2 𝐹1 = 0.2
1 𝑛2 = 3 𝑁2 = 7 𝑓2 = 0.15 𝐹2 = 0.35
2 𝑛3 = 7 𝑁3 = 14 𝑓3 = 0.35 𝐹3 = 0.70
3 𝑛4 = 4 𝑁4 = 18 𝑓4 = 0.20 𝐹4 = 0.90
4 𝑛5 = 2 𝑁5 = 20 𝑓5 = 0.1 0 𝐹5 = 1
Total 20 1

Siempre que se construye una tabla de frecuencias es importante analizar los valores más sobresalientes,
por ejemplo, de la tabla anterior.

n1 = 4 indica que hay 4 alumnos del grupo que no tienen ausencias.

n3 = 7 indica que hay 7 estudiantes del grupo que tienen 2 ausencias.

f4 = 0.20 indica que el 20% de los estudiantes tienen 3 ausencias.

f5= 0.10 indica que el 10% de los estudiantes tienen 4 ausencias.

N2 = 7 indica que hay 7 estudiantes que tienen hasta (o como máximo) 1 ausencia.

N4 = 18 indica que hay 18 estudiantes que tienen hasta 3 ausencias.

F2 = 0.35 indica que el 35% de los estudiantes tienen hasta 1 ausencia.

F3 = 0.70 indica que el 70% de los estudiantes tienen hasta 2 ausencias.

Ejemplo 2.9. De los 335 trabajadores de una empresa, 65 han llegado 10 minutos antes de la hora de
entrada, 116 han llegado 5 minutos antes de la hora de entrada, 119 llegaron exactamente a la hora de
entrada, 16 llegaron 5 minutos tarde y el resto llegó 10 minutos tarde. Definir la variable en estudio y su

13/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

tipo, luego construir la tabla de frecuencias simples. ¿Considera que el gerente debe tomar alguna medida
general para que lleguen a su hora?

Solución.
Variable en estudio: Hora de llegada al trabajo.
¿Qué tipo de variable es esta?: Variable cuantitativa discreta.

Datos Frecuencias Absolutas Frecuencias Relativas

Simples Acumuladas Simples Acumuladas

-10 65 65 0.194 0.194

-5 116 181 0.346 0.540

0 119 300 0.355 0.895

5 16 316 0.063 0.958

10 19 335 0.056 1

Total 335 1

¿Considera que el gerente debe tomar alguna medida general para que lleguen a su hora? No. La mayoría
llega a su hora o antes, no hace falta tomar medidas generales pues los que llegan tarde sólo representa
el 12%. Si acaso habría que tomar alguna medida sería con el 12% de los que llegan tarde.

2.2.2. Análisis de datos continuos

Cuando se tiene una situación donde la variable cuantitativa discreta toma demasiados valores distintos o
los valores de las variables son resultados de mediciones donde la naturaleza de los datos es continuo, se
debe construir tablas de frecuencias agrupadas. Es importante considerar que la agrupación de datos
siempre conlleva un grado de pérdida de información, pues ya no se cuenta con todos y cada uno de los
valores de la variable sino con los intervalos creados; no obstante, esta pérdida de información en general
no es significativa para el análisis global. En tal sentido, cuando en la muestra existen muchos valores
diferentes y mucha variabilidad se recomienda, aún a costa de perder información, agrupar los datos en
clases, en lo que se denomina distribución de frecuencias agrupada en intervalos y los valores de la variable
son tomados como las marcas de clases o puntos medios de los intervalos. El número de clases en que se
dividen los datos no debe ser excesivo, es recomendable trabajar un mínimo de 6 a un máximo de 15 clases
o intervalos.

Ejemplo 2.10. (Elaboración de tablas de frecuencias agrupadas). El Ministerio de Educación desarrolló en


el año 2012, la prueba de logros para nivel básica de los centros educativos. Hipotéticamente, suponga

14/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

que la nota promedio que obtuvieron los centros educativos del municipio de San Salvador (en adelante
se le llamará PAESITA 2012) fueron las siguientes.

4.6 5.3 4.5 4.3 4 4.2 4.8 4 6.1 4.8 6.9 4.2 4.7
5.5 5.9 4.4 5.6 3.6 4.4 4.3 3.7 7 4.8 7.3 3.7 4.3
4.3 7.2 4.1 4.3 3.5 4.2 6.4 4.1 5.3 4.4 4.8 5.1 5.3
4.4 6.2 4.2 5 4 5.7 4.4 5.5 4.3 4.1 7.6 3.8 4.7
4 4.8 4.3 4.6 4 6.1 4.6 5 4.1 4.7 4.8
Con la información anterior construir una tabla de frecuencias.

Solución:

Al ordenar las notas de menor a mayor se obtienen 28 datos diferentes y al hacer una tabla de distribución
de frecuencias simple con los datos anteriores quedarían 28 categorías, lo cual no es práctico para su
análisis. Para disminuir el número de categorías se agrupan los datos en intervalos y se ubica cada dato en
su intervalo correspondiente.

Para construir la tabla de frecuencia agrupada se sugiere los siguientes pasos:

1- Encontrar la amplitud que tienen los datos, esto es, la diferencia entre el valor más grande con el valor
más pequeño:

𝐴 𝑇 = 𝑥𝑚á𝑥 − 𝑥𝑚í𝑛 = 7.6 − 3.5 = 4.1


2- Determinar el número de intervalos o clase: usualmente el número de clases lo decide el investigador,
teniendo en cuenta que no debe ser mayor que 15, lo recomendable es que el número de clases debe
estar entre 8 y 12. Por otra parte, existen reglas empíricas, que permiten tener una idea del número
de clase, por ejemplo, la regla de Sturges, que se define como:
𝑐 = 1 + 3.322 log(𝑛)

Donde:
c: Número de clases a construir; log(n): logaritmo base 10 del número de datos de la muestra, al aplicar
esta regla a la situación planteada se tiene:
𝑐 = 1 + 3.322 log(63) = 6.98 ≈ 7

El número se redondea al entero más próximo (siempre se aproxima hacia delante) ya que son número de
clases las que se quieren definir.

3- Lo último que se debe definir es el ancho de clase o intervalo, es decir cuánto tendrá cada clase de
ancho.
𝐴 𝑇 4.1
𝑖𝑐 = = = 0.59 ≈ 0.6
𝑐 7

15/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

El método para ir construyendo las clases es a partir del valor más pequeño de los datos, en este caso 3.5
y sumarle el 𝑖 , con lo cual tendríamos la primer clase que será: 3.5 – < 4.1. Notar que el símbolo “<” indica
que no se tomará en cuenta el extremo derecho del intervalo.

Ahora que ya se tienen las clases o intervalos, se puede generar la “marca de clases”, esto es el punto
medio de cada intervalo. Así:
3.5 + 4.1
𝑀𝑎𝑟𝑐𝑎 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒 = = 3.8
2
Así sucesivamente para cada clase. Estas marcas de clase representan a los datos que están dentro de su
intervalo, por ejemplo, 3.8 representa a todos los datos que están entre 3.5 -< 4.1.

Al igual que en el caso de datos discretos, se calcula la frecuencia relativa, la frecuencia absoluta
acumulada y la frecuencia relativa acumulada, así:

Intervalo Marca de clase Frecuencia Frecuencia relativa F. Abs. Acum. F. rel. Acum.
3.5 - < 4.1 3.8 10 0.16 10 0.16
4.1 - < 4.7 4.4 24 0.38 34 0.54
4.7 - < 5.3 5.0 12 0.19 46 0.73
5.3 - < 5.9 5.6 7 0.11 53 0.84
5.9 - < 6.5 6.2 5 0.08 58 0.92
6.5 - < 7.1 6.8 2 0.03 60 0.95
7.1 - < 7.7 7.4 3 0.05 63 1
Total n = 63 Suma = 1

Interpretación. De la tabla de frecuencias presentada anteriormente se destaca:

 Los valores que toma la variable ahora son intervalos, lo cual significa que no necesariamente debe
tomar valores puntuales.
 La mayoría de puntajes de la prueba de logros realizada osciló entre 4.1 y 4.7.
 Más de la mitad de centros educativos evaluados, específicamente 34 obtuvo un puntaje menor a
4.7.
 La máxima nota obtenida por un centro educativo en la prueba de logros está entre 7.1 y 7.7.
 Ningún centro educativo obtuvo una nota menor a 3.5.
 Solamente 5 centros educativos reportan una nota mayor a 6.5.

En forma general, si la variable es continua, se definen intervalos dentro de los cuales caerán cada uno de
los datos. ¡Nunca olvidar que un dato no puede pertenecer a más de una clase o intervalo!

16/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

Tabla de frecuencia agrupas en clase.


Marca de Frecuencias absolutas Frecuencias relativas
Clases
clase Simples Acumuladas Simples Acumuladas
L0 - < L1 Pm1 n1 N1 = n1 f1 = n1/n F1 = f1
L1 - < L2 Pm2 n2 N2 = n1+n2 f2 = n2/n F2 = f1+f2
. . . . .
. . . . .
. . . . .
Lk-1 - < Lk Pmk nk Nk = n1+n2 +…+nk=n fk = nk/n Fk = f1+f2 +…+fk=1
𝑘 𝑘

∑ 𝑛𝑖 = 𝑛 ∑ 𝑓𝑖 = 1
𝑖=1 𝑖=1

Con el fin de prever dobles conteos, quien clasifica deberá especificar si los intervalos son abiertos a la
derecha o abiertos a la izquierda. Por lo que, en estas notas, cuando se trabaje con datos agrupados en
clase vamos a recurrir al siguiente convenio: intervalos abiertos en el límite superior y cerrados en el límite
inferior, así: [Li-1 ; Li ) que donde el valor que cierra una clase es el mismo que abre la siguiente.

Ejemplo 2.11. (Datos agrupados). Los siguientes valores corresponden al registro del consumo de vasos
de agua de 50 adultos durante una semana: 46, 39, 34, 33, 32, 36, 41, 26, 32, 36, 43, 28, 30, 27, 32, 42,
30, 31, 34, 41, 28, 30, 26, 21, 37, 39, 25, 33, 47, 28, 26, 23, 30, 43, 40, 36, 21, 38, 31, 38, 29, 30, 48, 47, 23,
31, 24, 38, 35, 36. Con la información anterior responder los siguientes literales
a) ¿Qué tipo de variable es ésta?
b) Construir una tabla de frecuencias de 6 clases.

Solución.

a) ¿Qué tipo de variable es ésta? Aunque los datos observados son todos enteros la variable es
continua, por su propia naturaleza (de hecho, un persona podría beber 24.75 vasos de agua o
cualquier otra fracción).

Ahora, construir la tabla de frecuencias:

Se tiene n = 50 personas (tamaño de la muestra).

Determinación del recorrido: R = Xmáx – Xmin = 48 - 21 = 27

Definición del número de clases a usar: Para 50 observaciones podrían usarse 6, 7 u 8 clases, según decisión
de quien va a organizar los datos. Como se mencionó anteriormente se considerarán, en este caso k = 6.

Determinación del ancho de clases: c ≈ R/k = 27/6 = 4.5 ≈ 5 (El valor R/k = 4.5 se redondea a 5 porque no
tendría sentido en este caso hacer los intervalos de amplitud decimal, ya que complicaría, en vez de
facilitar la interpretación y el trabajo con la información; obsérvese que esta aproximación fue a un valor
superior al verdadero cociente, es decir, por exceso.)

17/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

Creación de las clases:

Se podría partir del valor Xmin = 21, pero resulta más cómodo comenzar ligeramente por debajo de él, en
20, de manera que la primera clase sea desde 20 a 20 + c (ya se tiene c = 5), o sea, de 20 hasta menor que
25; la segunda de 25 hasta menor que 30 incluyendo el 25 (límite inferior), y así sucesivamente hasta la
sexta clase (k = 6), que sería desde 45 hasta menor que 50.

Determinación de las marcas de clases Xi o Pmi:

Para el promedio de los límites de clase se tiene que: Pmi = (Li + Li-1)/2. Así: Pm1 = (20 + 25)/2 = 45/2 = 22.5;
Pm2 = (25 + 30)/2 = 55/2 = 25.5 y así sucesivamente.

Distribución de frecuencias agrupadas en intervalos


Marca de Frecuencias absolutas Frecuencias relativas
Clases
clase Simples Acumuladas Simples Acumuladas
20 - < 25 22.5 5 5 0.10 0.10
25 - < 30 27.7 9 14 0.18 0.28
30 - < 35 32.5 15 29 0.30 0.58
35 - < 40 37.5 11 40 0.22 0.80
40 - <45 42.5 6 46 0.12 0.92
45 - < 50 47.5 4 50 0.08 1
n=50 1

Interpretación de las distintas frecuencias:


n2 = 9 indica que hay 9 personas que consumieron entre 25 y 30 vasos de agua, o que consumieron en
promedio 27.5 vasos (utilizando la marca de clases)

f3 = 0.30 indica que el 30% de los personas consumieron entre 30 y 35 vasos de agua, o que consumieron
32.5 vasos en promedio.

N4 = 40 indica que 40 personas consumieron menos de 40 vasos de agua (Las frecuencias acumuladas se
interpretan utilizando el límite superior del intervalo, nunca con la marca de clases.)

F5 = 0.92 indica que el 92% de los personas consumió menos de 45 vasos de agua.

2.2.3. Actividad de autoevaluación

1) ¿Qué es frecuencia absoluta?


2) En una distribución de frecuencias se pueden establecer conclusiones porcentuales, utilizando
solamente la frecuencia relativa? ¿Por qué?

18/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
3) Se quiere saber la cantidad de Población Económicamente Activa (PEA) en 50 familias de la zona rural, con
el propósito de determinar cuáles familias serán las beneficiarias de un programa de
ayuda social, se ha estimado que cada persona económicamente activa aporta a la familia un promedio
de $ 125 US. La PEA de las 50 familias es la siguiente: 2, 1, 2, 2, 1, 2, 4, 2, 1, 1, 2, 3, 2, 1, 1, 1, 3, 4, 2, 2, 2, 2,
1, 2, 1, 1, 1, 3, 2, 2, 3, 2, 3, 1, 2, 4, 2, 1, 4, 1, 1, 3, 4, 3, 2, 2, 2, 1, 3, 3. Con la información anterior responda
los siguientes literales:
a) Construir una tabla de frecuencias simples uasndo R
b) ¿Cuál es el rango de PEA en los 50 hogares?
c) ¿Qué porcentaje de familias tiene solo un miembro que pertenece a la PEA?

4) ¿Por qué se recurre al agrupamiento en distribuciones de frecuencias por intervalos?

5) ¿Cómo se determina el número de intervalos y la amplitud de ellos?


6) ¿Por qué se fija en 15 el número máximo de intervalos?
7) ¿Qué es una marca de clase y qué representa?

8) En un estudio reciente sobre 500 graduados de Estadística, el ingreso anual más alto que se
reporto fue de 27,500 dólares y el más bajo fue de 19,900 dólares. Usted desea crear la tabla de
frecuencias agrupadas para analizar y comparar estos datos con la oferta de trabajo que usted ha
recibido.
a) ¿Cuántas clases pondrá en su tabla de frecuencias?
b) ¿Cuál es el ancho del intervalo de clases?
c) ¿Cuáles son los límites y puntos medios de cada clase?
9) Realizada una encuesta en una región del país, se han agrupados los establecimientos hoteleros
por el número de cuartos, obteniéndose la siguiente distribución:
Cuartos N° de hoteles Cuartos N° de
hoteles
0 - < 100 25 400 - < 500 21
100 - < 200 37 500 - < 600 13
200 - < 300 12 600 - < 700 5
300 - < 400 22 700 - < 800 3

a) Determine el número de establecimientos hoteleros con más de 300 cuartos.


b) Determine el porcentaje de establecimientos que tienen más de 100 cuartos y menos de 400.
c) ¿Qué tipo de variable es ésta?
d) ¿Por qué, siendo ese el tipo de variable, la tabla de frecuencia es agrupada en clases?

10) Los años de experiencia de los docentes de la Facultad de Ciencias Naturales y Matemática de la
Universidad de El Salvador (UES) son los siguientes (Actualizado en el año 2014):
2.9, 6.8, 6.8, 6.8, 7.3, 8.4, 9.0, 9.0, 11, 16.4, 18.5, 23.3, 26.3, 27.8, 28.2, 28.2, 28.2, 28.3, 32.2, 33.3,
33.8, 34, 34.6, 36.2, 36.3, 37.2, 38, 38.6, 39.2, 40.8, 42.7, 2.1, 3, 4, 4, 4.3, 5.6, 6.5, 8.5, 8.5, 9, 11,
12, 12.5, 12.5, 13.8, 18.3, 18.8, 21.3, 25.6, 26.2, 26.7, 27.8, 27.9, 28.9, 39, 39.2, 40.1, 45.8, 8.4, 9,
9, 9, 12.9, 12.9, 8.2, 18.4, 18.5, 19.2, 19.8, 21.3, 21.3, 25.2, 27.8, 27.8, 27.8, 27.8, 28.8, 28.9, 36,
36.8, 38.3, 43.8, 18.2, 7.5, 7.5, 8.1, 8.1, 8.1, 8.1, 8.5, 10.9, 10.9, 11.4, 11.4, 12.4, 12.5, 23.4, 5.5,
25.6, 26.6, 27.7, 28.5, 28.8, 28.9, 28.9, 28.9, 28.9, 29.9, 30.1, 34, 35, 35.6, 39.3.

19/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

a) Construir una tabla de frecuencias agrupadas (utilice Sturges) a mano y usando el programa R
b) ¿Qué porcentaje de docentes tiene experiencia inferior a 7.5 años?
c) ¿Qué porcentaje de docentes tiene experiencia mayor o igual a 29.5 años?
d) ¿Qué porcentaje de docentes tiene experiencia mayor o igual a 40.5 años?

11) Las edades de los empleados de una determinada empresa son las que aparecen en la siguiente
tabla:
Edad N° de empleados
Menos de 25 22
Menos de 35 70
Menos de 45 121
Menos de 55 157
Menos de 65 184

Sabiendo que el empleado más joven tiene 18 años, escríba la distribución de frecuencias para datos
agrupados (amplitud del intervalo definida según su conveniencia).

12) En un examen de matemática aplicado a un grupo de alumnos se obtuvo las siguientes


calificaciones:
Notas Frecuencias
Menor que 2 6
Menor que 4 14
Menor que 6 21
Menor que 8 31
Menor que 10 40

a) Construir una tabla de frecuencias.


b) ¿Qué porcentaje de estudiantes aprobó el examen? (se aprueba con 6 o más)

2.3. Representaciones gráficas para datos cuantitativos

En el apartado 2.1.2 se presentaron los gráficos de barras, de sectores y pictograma para representar
variables cualitativas. Ahora se estudian dichos gráficos para variables cuantitativas discretas. Una gráfica
o diagrama es un dibujo complementario a una tabla o cuadro, que permite observar las tendencias de un
fenómeno en estudio y facilita el análisis estadístico de las variables allí relacionadas.

Componentes de un gráfico: Al igual que un cuadro o una tabla, debe constar de:

1. Título adecuado: El cual debe ser claro y conciso, que responda a las preguntas: ¿Qué relaciona?,
¿cuándo y dónde se hicieron las observaciones?

20/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

2. El cuerpo: o gráfico en sí, cuya elección debe considerar el o los tipos de variables a relacionar, el
público a quien va dirigido y el diseño artístico del gráfico.
3. Notas de pie de gráfico (cuando aplique): Donde se presentan aclaraciones respecto al gráfico, las
escalas de los ejes, o se otorgan los créditos a las fuentes respectivas.

A continuación se presentan los gráficos más comunes para el análisis de datos discretos.

2.3.1. Gráfico de barras

Un gráfico de barras puede utilizarse para representar datos categóricos (apartado 2.1.2.) o datos discretos
siempre que la variable tome pocos valores distintos (en este documento se tomará en cuenta la siguiente
restricción: mínimo 6 y máximo 18). Recordar que la orientación del gráfico de barras puede ser:

• Vertical: los distintos valores están situadas en el eje horizontal y las barras de frecuencias crecen
verticalmente.
• Horizontal: los valores se sitúan en el eje vertical y las barras crecen horizontalmente. Suelen
usarse cuando hay muchas categorías o sus nombres son demasiado largos.

Los gráficos de barras también se utilizan para visualizar la evolución en el tiempo de la magnitud de una
variable concreta.

Ejemplo 2.12. Analizar la producción de café oro-uva en El Salvador durante el periodo de 2008 al 2016,
la cual se presenta en el siguiente gráfico de barras.

Producción de café oro-uva en El Salvador


Años 2008 a 2016 (miles de quintales)
3000 2614
2500
Miles de quintales

1985
2000 1624 1730
1500
1500
925 784 822
1000 700
500
0
2008 2009 2010 2011 2012 2013 2014 2015 2016

Fuente: Consejo Salvadoreño del Café. Departamento de Estudios Económicos y Estadísticas Cafetaleras.

En este gráfico puede darse cuenta del comportamiento que ha tenido la producción de café en El Salvador
en los últimos 9 años, el año de mayor producción fue el año 2010. A partir de ese año se observa una
disminución de la producción habiéndose estabilizado en los últimos 3 años del período.

21/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

Tipos de gráficos de barras:


• Sencillo: Contiene una única serie de datos. Un ejemplo de este tipo de gráfico de barras se presentó
con el ejemplo anterior de la producción de café oro-uva en El Salvador.
• Agrupado: Contiene varias series de datos y cada una se representa por un tipo de barra de un
mismo color o textura. Las barras correspondientes a un mismo valor de la variable cuantitativa se
colocan una al lado de la otra (agrupadas).

Exportaciones e Importaciones
El Salvador 2009 - 2013
12,000 10,772
9,964 10,258
10,000
US$ Millones

7,325 8,416
8,000
6,000 5,308 5,339 5,491
3,866 4,499
4,000
2,000
0
2009 2010 2011 2012 2013

Exportaciones Importaciones
Fuente: El Salvador en cifras. Ministerio de Relaciones Exteriores El Salvador

En el gráfico de barras mostrado, se presentan las series de datos de importaciones y exportaciones


durante los años 2009 a 2013. Las barras de cada año se presentan agrupadas y se diferencian por el color.
Se observa del gráfico anterior que las importaciones han ido teniendo un crecimiento, más pronunciado
que las exportaciones dentro del periodo 2009-2013.

2.3.2. Gráfico de sectores circulares

Usualmente llamado gráfico de pastel, debido a su forma característica de una circunferencia dividida en
trozos, por medio de radios que dan la sensación de un pastel tajado en porciones. Se usa para representar
variables cualitativas en porcentajes o cifras absolutas, sin embargo, también se utiliza para variables
aleatorias discreta, cuando el número de valores diferentes es inferior a 6 y se quiere resaltar uno de ellos.
Para su construcción se procede de la siguiente forma: La circunferencia tiene en su interior 360 grados,
los cuales hacemos corresponder al total de la información, es decir al 100% (esto es n); luego, para
determinar el número de grados correspondiente a cada componente se multiplica el porcentaje
respectivo por 360 y se divide por 100, los cuales se miden con la ayuda de un transportador para formar
los casquetes de los diferentes valores.

Características de los gráficos de sectores:


1) No muestran frecuencias acumuladas.
2) Se prefiere para el tratamiento de datos cualitativos o variables discretas con pocos valores
diferentes.

22/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I
3) La mayor área (o porción de la figura) representa la mayor frecuencia.
4) La figura completa equivale al 100% de los datos (360º).

Ejemplo 2.13. Se preguntó a 30 alumnos por el número de hermanos y los datos que se obtuvieron fueron
los siguientes: 0, 3, 3, 2, 2, 2, 3, 3, 4, 4, 4, 2, 1, 1, 1, 2, 4, 3, 3, 2, 2, 1, 0, 2, 2, 3, 3, 3, 3, 2. Representar esta
información en un gráfico de sectores.

Solución

La variable en análisis es el número de hermanos y su tipo es cuantitativa discreta, que toma valores de 0,
1, 2, 3, y 4 (5 valores diferentes), por tanto, cumple las características para representarla en un gráficos de
sectores.

Número de hermanos por estudiante


Hermanos 4 Hermanos 0
13.3% 6.7%
Hermanos 1
13.3%

Hermanos 3
33.3%
Hermanos 2
33.3%

Se observa que la mayoría de estudiantes tiene 2 o 3 hermanos (Aproximadamente el 33.3% cada uno),
tiene el sector más grande en el gráfico. Por el contrario los estudiantes que no tienen hermanos (hijo
único, aproximadamente el 6.7%) corresponde al sector más pequeño.

El cálculo del ángulo de cada sector se hace a través de la fórmula siguiente:


Frecuencia del sector
Ángulo de sector = Suma total de frecuencias × 360

Utilizando la expresión anterior se completa el ángulo en la siguiente tabla.

N° de hermanos N° de estudiantes Ángulo del sector


0 2 24°
1 4 48°
2 10 120°
3 10 120°
4 4 48°
Total 30 360°

23/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

2.3.3. Gráfico de líneas

Usado básicamente para mostrar el comportamiento de una variable cuantitativa discreta a través del
tiempo. El gráfico de líneas consiste en segmentos rectilíneos unidos entre sí, los cuales resaltan las
variaciones de la variable por unidad de tiempo. Para su construcción ha de procederse de la siguiente
manera: en el eje de las ordenadas se marcan los puntos correspondientes a cada medición de la variable
en estudio. El eje de abscisas se divide en unidades de tiempo iguales (instante en que se mide cada valor
de la variable en estudio)

Ejemplo 2.14. En la siguiente tabla se muestra el índice de precios al consumidor (IPC) durante el período
de enero 2016 a marzo 2017 en El Salvador, con dicha información construir un gráfico de líneas.
IPC 2016 - 2017 Solución. En el eje horizontal se presentan los meses y en el eje vertical el índice
(Base diciembre 2009) de precios al consumidor (IPC) correspondiente a cada uno de los meses.
ene-16 110.67
feb-16 110.37
111.5 IPC, año base diciembre de 2009
mar-16 110.32
abr-16 110.05 111.0
may-16 110.13
jun-16 110.24 110.5
jul-16 110.12 110.0
ago-16 109.85
sep-16 109.51 109.5
oct-16 109.79 109.0
nov-16 109.78
dic-16 109.58 108.5
ene-17 110.39
feb-17 110.69
mar-17 110.92 Fuente: Estadísticas del Banco Central de Reserva de El Salvador

En el gráfico anterior se observa que el IPC tuvo una tendencia creciente en los meses de enero, febrero y
marzo de 2017. Es evidente que los gráficos de líneas se utilizan para presentar tendencias temporales y
pueden incluirse en un mismo gráfico los datos de varias variables para compararlas.

2.3.4. Histograma

Se usa para representar las frecuencias de una variable cuantitativa continua. En uno de los ejes se
posicionan las clases de la variable continua (los intervalos o las marcas de clase que son los puntos medios
de cada intervalo) y en el otro eje las frecuencias. No existe separación entre las barras.

Ejemplo 2.15. Considérese la situación planteada en el apartado 2.1.2 respecto a la PAESITA 2012.

24/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

Frecuencia
Intervalo Frecuencia Marca de clase F Abs. Acum. F Rel. Acum.
Relativa
3.5 - < 4.1 10 0.16 3.8 10 0.16
4.1 - < 4.7 24 0.38 4.4 34 0.54
4.7 - < 5.3 12 0.19 5.0 46 0.73
5.3 - < 5.9 7 0.11 5.6 53 0.84
5.9 - < 6.5 5 0.08 6.2 58 0.92
6.5 - < 7.1 2 0.03 6.8 60 0.95
7.1 - < 7.7 3 0.05 7.4 63 1
n = 63 Suma = 1

Con la información anterior, elabore un histograma.

Solución.

El Histograma correspondiente a los datos de esta tabla se presenta a continuación.

Resultados de Prueba de logros 2012


30
24
25
Frecuencias

20
15 10
12
10 7
5
5 2 3

0
3.5 - 4.1 4.1 - 4.7 4.7 - 5.3 5.3 - 5.9 5.9 - 6.5 6.5 - 7.1 7.1 - 7.7
Intervalos de notas

Algunas características que se observan en el histograma son:

 Las barras no tienen separación entre ellas.


 En el eje horizontal se presentan los intervalos de cada clase de notas de la PAESITA 2012.
 En el eje vertical se colocan los valores de las frecuencias correspondientes a cada intervalo de
clase.
 Las notas más frecuentes son las que corresponden al intervalo 4.1 –< 4.7

Polígono de frecuencias
Si se unen los puntos medios de las bases superiores de las barras del histograma se obtiene el
polígono de frecuencias.

25/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

Resultados de Prueba de logros 2012


30
24
25
Frecuencias

20
15 12
10
10 7
5
5 2 3

0
.. 3.5 - 4.1 4.1 - 4.7 4.7 - 5.3 5.3 - 5.9 5.9 - 6.5 6.5 - 7.1 7.1 - 7.7 ..

EL pico más alto del polígono de frecuencias corresponde al punto medio del intervalo con
mayor frecuencia.

2.3.5. Pirámides Poblacionales

Una pirámide de población es un histograma bi-direccional que muestra la estructura demográfica de una
población, por sexo y edad, en un momento determinado. Por la naturaleza de los datos, es un gráfico que
corresponde a una variable de naturaleza continua.

En el eje vertical se posicionan los rangos de edades y en el horizontal los porcentajes de población
desagregadas por sexo de cada rango de edad.

En una de las direcciones se colocan las barras que representan la distribución (% sobre el total de
población) por edad de los varones y en la otra la distribución por edad de las mujeres.

Ejemplo 2.16. A partir de los datos de la siguiente tabla construir la pirámide de la población de El Salvador
2007.
Edad Hombre Mujer
0-4 283272 272621
5-9 349150 335577
10-14 359523 346824
15-19 298384 302181
20-24 228001 258541
25-29 206963 250927
30-34 178400 223849
35-39 156514 196633
40-44 132218 171413
45-49 109957 142165

26/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

50-54 95275 120459


55-59 81718 101357
60-64 68207 83657
65-69 55781 69376
70-74 43449 54008
75-79 33658 42326
80-84 20401 26469
85 y más 18500 26359

Fuente: VI Censo de Población 2007. DIGESTYC El Salvador

Del gráfico mostrado se puede extraer las siguientes observaciones:

1. La base de la pirámide poblacional es relativamente ancha y comienza a estrecharse a partir del


rango de 15 a 19 años de edad, tanto en los hombres como en las mujeres. Esta tendencia a
estrecharse se mantiene en los rangos de edad siguientes.
2. En los hombres el mayor porcentaje de la población se encuentra en el rango de edad de 10 a 14
años, respecto de los demás rangos de edad. El mismo resultado se observa para la población de
mujeres. Esta característica de la pirámide poblacional coloca a El Salvador entre los países con
población joven.
3. En todos los rangos de edad el porcentaje de población de mujeres es muy similar al de hombres.

A continuación de describen los pasos para crear una pirámides de población con Microsoft Excel

a) Paso 1. Preparar los datos.

Suponga que se tienen los datos en una hoja de Excel en las siguientes columnas: A: Edad
quinquenal, B: Varones, C: Mujeres y D: total. Si los datos están en valores absolutos es necesario
calcular el porcentaje respecto al total de la población. A continuación es necesario pasar los
datos relativos a varones a valores negativos para que estos queden en el lado izquierdo de la
pirámide.

b) Paso 2. Insertar el gráfico

Seleccione los datos edad y porcentajes (columnas A, B y C) y pulse en el menú Insertar  Gráfico.

27/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

A continuación se abrirá el asistente para gráficos. Elige el tipo de gráfico de barras y el subtipo
de barra agrupada. Finalmente escribe el título del gráfico.

c) Paso 3. Modificando el eje vertical

Una vez creado el gráfico observe que el resultado no es muy bueno. Para resolverlo debe
modificar el eje vertical. Has doble clic sobre el eje vertical (edad) y se abrirá un menú emergente.
En la pestaña ETIQUETAS busca la opción: posición de etiqueta: selecciona abajo. Las edades se
mueven al lado izquierdo del gráfico.

d) Paso 4. Ajustando el eje horizontal

A continuación realiza un doble clic sobre el eje horizontal y de nuevo se abrirá un menú
emergente. Seleccione la pestaña número y busca la opción: código de formato: escribe 0;0 y
pulsa agregar. Esto evitará que los valores correspondientes a los hombres queden negativos.

e) Paso 5. Ajustando las barras

Ahora es momento de apilar las barras que conforman la pirámide. Para ellos haga un doble click
sobre una de las barras de varones o mujeres, da igual, y se abrirá un menú emergente. En la
pestaña opciones ponga el valor superposición a 100 y el ancho del rango a 0.

2.3.6. Actividad de autoevaluación

1) Suponga que se tiene el número de faltas que han cometido los equipos de la Liga Mayor de
fútbol de El Salvador en los últimos 20 partidos (Datos hipotéticos), las cuales se presentan
en la siguiente tabla:
N° de faltas 10 11 12 13 14 15 16 17 18
N° de equipos 4 7 6 5 4 5 3 4 2

Definir el tipo de variable y construir un gráfico apropiado para esta información.

2) Los resultados de las preferencias electorales de los salvadoreños de cara a las elecciones
presidenciales de 2014 (1526 encuestas válidas, voto simulado), según la encuesta de la UCA,
noviembre 2013, son los siguientes: FMLN: 43.7%, ARENA: 36.2%, UNIDAD: 13.9% y OTROS:
6.2%. Construir un gráfico apropiado para esta información.

3) Según el censo de población de El Salvador año 2007, la población desagregada por rango de
edades es la siguiente:

28/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

Rangos de edad Frecuencia a) Con la información de la tabla de la izquierda


elabore un histograma y un polígono de frecuencias.
0 - < 10 1,240,620
10 - < 20 1,306,912 b) ¿Es correcto representar la información
20 - < 30 944,432 proporcionada en un gráfico de barras? ¿Por qué?
30 - < 40 755,396
40 - < 50 555,753
c) ¿Es correcto representar la información
50 - < 60 398,809
proporcionada en un gráfico de sectores? ¿Por qué?
60 - < 70 277,021
70 - < 80 173,441
80 - < 90 76,375
90 - <100 15,354
Total 5,744,113

4) Según el Ministerio de Hacienda y el Banco Central de Reserva de El Salvador, la deuda pública


total, se representa en la siguiente tabla

2013 2014 2015 2016 Jul-2016(p) Jul-2017(p)


14888.18 15691.24 16586.42 17558.22 17175.38 17924.47
Fuente. Banco Central de Reserva de El Salvador (p: preliminar)

Definir el tipo de variable y construir un gráfico apropiado para esta información

5) Construir el histograma y poligono de frecuencias para el problema 10 de la página 19

2.4. Medidas de tendencia central para datos cuantitativos.

Se ha venido analizando en los temas anteriores, las diferentes estrategias para poder representar y
organizar la información a través de tablas de frecuencias y gráficas elementales. Sin embargo, el análisis
de información estadística no finaliza con la representación en tablas y gráficas, sino más bien, se requiere
que la información sea representada a través de un número o estadístico que describa el comportamiento
de lo observado.
Las medidas de tendencia central, llamadas así porque tienden a localizarse en el centro de la información,
son de gran importancia en el manejo de las técnicas estadísticas, sin embargo, su interpretación no debe
hacerse aisladamente de las medidas de dispersión, ya que la representatividad de ellas está asociada con
el grado de concentración de la información. El propósito principal de obtener las medidas de tendencia
central es:
I. Mostrar en qué lugar se ubica el elemento promedio o típico del grupo.
II. Sirve como un método para comparar o interpretar cualquier valor en relación con el puntaje
central o típico.

29/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

III. Sirve como un método para comparar el valor adquirido por una misma variable en dos diferentes
ocasiones.
IV. Sirve como un método para comparar los resultados medios obtenidos por dos o más grupos.

Entre los tipos de medidas de tendencia central más comunes se tienen:


 Media aritmética o media
 Media geométrica
 Media armónica
 Mediana

2.4.1. Media aritmética.

Cotidiana e inconscientemente se utiliza la media aritmética, por ejemplo, cuando decimos que un
determinado fumador consume una cajetilla de cigarrillos diario, no aseguramos que diariamente deba
consumir exactamente los 20 cigarrillos que contiene un paquete sino que es el resultado de la
observación, es decir, dicho sujeto puede consumir 18 un día; 19 otro; 20, 21, 22; pero según nuestro
criterio, el número de unidades estará alrededor de 20. Ahora, suponga que tres personas fuman 20
cigarrillos diariamente y una persona fuma 40 cigarrillos cada día, entonces decimos que en promedio
cada persona fuma 25 cigarrillos cada día, esta conclusión no es la más adecuada, pues de ninguna manera
queda representado el que fuma 40 cigarrillos

Bajo estas premisas, se dice que la media es altamente sensible a cualquier cambio en los valores de la
distribución. No es recomendable su uso cuando la variable está dada en forma de tasas o porcentajes.
La media es representativa del conjunto de datos si se quiere promediar cantidades homogéneas, que
presentan variaciones dentro de un margen razonable.

Datos numéricos no agrupados


La media aritmética normalmente se le denomina simplemente media o promedio, y es utilizada en la
mayoría de los casos, aunque a veces conduce a resultados que no revelan lo que se pretende representar.

Ejemplo 2.17. Volvamos a los datos del número de sismos (Sismos, marzo 2015), estudiado en el apartado
2.2. Ahora, se presentan en la siguiente serie simple: 1, 4, 4, 8, 7, 8, 4, 4, 5, 8, 8, 3, 3, 0, 5, 2, 12, 6, 3, 5,
11, 6, 3, 2, 6, 9, 4, 12, 6, 2, 0. ¿Cuál es el promedio diario de sismos?

Solución:

1+ 4+ 4+ 8+ 7+ .... + 12+6+2+0 161


x   5.19
31 31
El número de sismos del mes de marzo 2015, en promedio fue de 5.19 este número representa un valor
central del conjunto de datos

Media Aritmética, es la suma de los valores de todas las observaciones divididas entre el número de
observaciones realizadas. Su fórmula es:

𝑠𝑢𝑚𝑎 𝑑𝑒 𝑡𝑜𝑑𝑜𝑠 𝑙𝑜𝑠 𝑑𝑎𝑡𝑜𝑠 𝑥1 +𝑥2 +⋯+𝑥𝑛 ∑𝑛


𝑖=1 𝑥𝑖
30/74
𝑥̅ = = =
𝑁ú𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠 𝑛 𝑛
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

Media aritmética: Datos agrupados en frecuencia simples.


Ejemplo 2.18. Retomando el ejemplo de la cantidad de sismos diarios del mes de marzo de 2015 en El
Salvador. Se requiere calcular la media aritmética o promedio de sismos en el periodo reportado.

X 𝒏𝒊 𝒏𝒊 ∙ 𝒙𝒊 Solución:

0 2 0 1. Debe añadirse a la tabla original una columna encabezada


1 1 1 por 𝒏𝒊 ∙ 𝒙𝒊 en donde se anotarán los resultados
correspondientes a las multiplicaciones de cada valor nominal
2 3 6
𝑥𝑖 por su frecuencia 𝑛𝑖 respectiva.
3 4 12
4 5 20 2. La suma de los valores de la columna 𝒏𝒊 ∙ 𝒙𝒊 es 161 y el
5 3 15 total de datos es 31, de esta forma la media aritmética, se
6 4 24 obtiene:
161
7 1 7 𝑥̅ = = 5.19
31
8 4 32
Se observa que se obtiene el mismo resultado que en datos
9 1 9
simples, esto es, que el promedio de sismos diarios del mes de
11 1 11 marzo del 2015 fue 5.19.
12 2 24
Total n = 31 161

Media Aritmética para una distribución de frecuencia simple, es la suma del producto de los valores de
todas las observaciones por la frecuencia absoluta, divididas entre el número de observaciones realizadas
o tamaño de la muestra. Su fórmula es:
Media aritmética: Datos agrupados en clases de una distribución frecuencia.
𝑥1 𝑛1 +𝑥2 𝑛2 +⋯+𝑥𝑘 𝑛𝑘 ∑𝑘
𝑖=1 𝑥𝑖 𝑛𝑖
𝑥̅ = los datos recolectados han
Cuando = sido organizados
donde en
n =una
número
tablade
deobservaciones o tamaño
frecuencias por de el
intervalos, la cálculo
muestra y
𝑛 𝑛
del
k =promedio o laobservaciones
número de media, es parecido al utilizado para tabla de frecuencias simples.
diferentes.

Ejemplo 2.19. (Datos agrupados) Retomando los datos de la prueba de aptitudes y aprendizaje 2012
(PAESITA 2012). ¿Cuál es la nota promedio de los centros educativos?

31/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

Solución:
Marca de clase Producto
Intervalo Frecuencia
𝑃𝑚𝑖 𝑛𝑖 ∙ 𝑃𝑚𝑖 1. Debe añadirse otra columna conteniendo
3.5 - < 4.1 10 3.8 38 el producto de la marca de clase y la
4.1 - < 4.7 24 4.4 105.6
frecuencia absoluta, es decir: 𝑛𝑖 𝑃𝑚𝑖 .
4.7 - < 5.3 12 5 60
2. La suma de los valores de la columna
5.3 - < 5.9 7 5.6 39.2
𝑛𝑖 𝑃𝑚𝑖 la cual es 309.6 y el total de datos es
5.9 - < 6.5 5 6.2 31
n = 63, luego la media aritmética, se obtiene:
6.5 - < 7.1 2 6.8 13.6 309.6
𝑥̅ = = 4.91
7.1 - < 7.7 3 7.4 22.2 63
Total n = 63 309.6En promedio cada sección de sexto grado
de los centros educativos del municipio de
San Salvador ha tenido una nota de 4.91 en la prueba de aptitudes y aprendizaje para el año 2012.

La media aritmética para datos agrupados, corresponde al cociente del total de la suma del producto de
la marca de clase de cada intervalo y la frecuencia absoluta con el número total de datos estudiados,
𝑃𝑚1 𝑛1 +𝑃𝑚2𝑛2 +⋯+𝑃𝑚𝑛 𝑛𝑛 ∑𝑛
𝑖=1 𝑃𝑚𝑖 𝑛𝑖
𝑥̅ = =
𝑛 𝑛

𝑛: 𝑠𝑢𝑚𝑎 𝑑𝑒 𝑡𝑜𝑑𝑎𝑠 𝑙𝑎𝑠 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎𝑠 (𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠 𝑟𝑒𝑐𝑜𝑙𝑒𝑐𝑡𝑎𝑑𝑜𝑠).


𝑃𝑚𝑖 : 𝑚𝑎𝑟𝑐𝑎 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑖 y 𝑛𝑖 : 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑖

Características de la media:
 La media aritmética viene expresada en las mismas unidades que la variable.
 En su cálculo intervienen todos los valores de la distribución.
 Es el centro de gravedad de toda la distribución, representando a todos los valores observados.

Algunas propiedades de la media aritmética.

1) La suma de las diferencias de los datos con respecto a la media aritmética es igual cero.
2) La media aritmética de una constante es igual a la constante.
3) La media del producto de una constante por una variable, es igual a multiplicar la constante por la
media de la variable.
4) La media de una variable más (o menos) una constante será igual a la media de la variable, más (o
menos) la constante.
5) La media aritmética de una muestra dividida en submuestras, es igual, a la media ponderada de las
∑𝑘
𝑖=1 𝑥
̅𝑖𝑛𝑖
submuestras, tomando como ponderación los tamaños de las submuestras. Esto es, 𝑥̅ = 𝑛
donde 𝑛 = 𝑛1 + 𝑛2 + ⋯ + 𝑛𝑘

32/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

A continuación se verifican algunas de las propiedades descritas anteriormente:

1) La suma de las diferencias de los datos con respecto a la media aritmética es igual cero.

Verificación.

∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ ) = ∑𝑛𝑖=1 𝑥𝑖 − ∑𝑛𝑖=1 𝑥̅ = 𝑛𝑥̅ − 𝑛𝑥̅ = 0

3) La media del producto de una constante (k) por una variable, es igual a multiplicar la constante
por la media de la variable.

Verificación.

Suponga que se tiene el siguiente conjunto de datos: 𝑥1 , 𝑥2 , . . . , 𝑥𝑛 , por definición la media está
∑𝑛 𝑥
𝑥1 = 𝑖=1 𝑖
dada por: ̅̅̅
𝑛

Ahora, suponga que tenemos la misma serie de datos, pero multiplicado cada dato por k, esto
es: 𝑘𝑥1 , 𝑘𝑥2 , . . . , 𝑘𝑥𝑛 , por definición la media de este conjunto de datos está dada por: ̅̅̅
𝑥2 =
𝑛
∑𝑖=1 𝑘𝑥𝑖 𝑛
𝑘∑ 𝑥
= 𝑖=1 𝑖 = 𝑘𝑥 ̅̅̅1
𝑛 𝑛
Por tanto, se tiene que:
𝑥2 = 𝑘𝑥
̅̅̅ ̅̅̅1
5) La media aritmética de una muestra dividida en submuestras, es igual, a la media ponderada
de las submuestras, tomando como ponderación los tamaños de las submuestras. Esto es, 𝑥̅ =
∑𝑘
𝑖=1 𝑥
̅𝑖𝑛𝑖
𝑛
donde 𝑛 = 𝑛1 + 𝑛2 + ⋯ + 𝑛𝑘

Verificación.

Suponga que la variable X se ha observado en k muestras de tamaño 𝑛1 , 𝑛2 … , 𝑛𝑘 , como se


muestra a continuación:
Muestra 1: 𝑥11 , 𝑥12 … , 𝑥1𝑛1 con media ̅̅̅;
𝑥1 muestra 2: 𝑥21 , 𝑥22 … , 𝑥2𝑛2 con media ̅̅̅;
𝑥2 así
sucesivamente, la muestra k: 𝑥𝑘1 , 𝑥𝑘2 … , 𝑥𝑘𝑛𝑘 con media ̅̅̅
𝑥𝑘 . Además 𝑛 = 𝑛1 + 𝑛2 + ⋯ + 𝑛𝑘 .
Denotemos por ̅̅̅;
𝑥 𝑇 la media total, entonces:
𝑛 𝑛
1 𝑥 + ∑ 2 𝑥 +⋯+∑ 𝑘 𝑥𝑛
∑𝑖=1 1𝑖 𝑖=1 2𝑖 𝑖=1 𝑘𝑖 𝑛1 ̅̅
𝑥̅̅+𝑛
1 2𝑥
̅̅̅̅+…+𝑛
2 𝑘 ̅̅̅̅
𝑥𝑘 ∑𝑘
𝑖=1 𝑛𝑖 𝑥
̅𝑖
𝑥𝑇 =
̅̅̅ 𝑛
= 𝑛
= 𝑛

33/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

Ejemplo 2.20. El grupo 01 de Matemática I, tuvo 38 alumnos y su nota promedio fue de 7.5;
además, el grupo 02 de la misma materia, tuvo 42 alumnos y su nota promedio fue de 6.9. Calcular
el valor promedio del total de alumnos (grupos 01 y 02).
Solución

La fórmula del promedio total viene dada por:

∑𝑘𝑖=1 𝑛𝑖 𝑥̅𝑖
𝑥𝑇 =
̅̅̅
𝑛
En el ejemplo los datos que se tienen son los siguientes:
𝑛1 = 38; ̅̅̅
𝑥1 = 7.5 𝑦 𝑛2 = 42; ̅̅̅
𝑥2 = 6.9

Al sustituir estos valores en la fórmula se tiene:


38𝑥7.5 + 42𝑥6.9
𝑥𝑇 =
̅̅̅ = 7.2
80

La nota promedio del total de alumnos fue de: 7.2.

Finalmente, es de mencionar que en estadística es usual la transformación de variables utilizando las


propiedades 3 y 4 y esta transformación se conoce como cambio de escala y de origen.

2.4.2. Media geométrica (Mg)

La media geométrica se define como la raíz n-ésima de la multiplicación de los n valores de la variable. Se
utiliza cuando se quiere dar importancia a valores pequeños de la variable o cuando se desea obtener el
promedio de valores que están dados en progresión geométrica, porcentajes, tasas, índices, etc.

En el campo industrial y comercial se utiliza para obtener promedios sobre el crecimiento o decrecimiento
de una variable. Por ejemplo, un capital ahorrado a una tasa de interés compuesto, durante un periodo
de tiempo.

Media geométrica para datos simples o agrupados en tablas simples:

La media geométrica se calcula utilizando la siguiente fórmula: 𝑀𝑔 = 𝑛√𝑥1 𝑛1 . 𝑥2 𝑛2 … . 𝑥𝑘 𝑛𝑘 donde los


𝑛𝑖 representan el número de veces que se repite cada dato, en caso que los datos no se repitan 𝑛𝑖 = 1. La
fórmula de la media geométrica tal como se ha presentado tiene el inconveniente de que tanto el producto
de los 𝑥𝑖 como su raíz n-ésima, puede ser un valor demasiado alto que dificulte las operaciones. Para
1
obviar esta dificultad se transforma la ecuación anterior en: 𝑀𝑔 = 𝑒𝑥𝑝 (𝑛 ∑𝑘𝑖=1 𝑛𝑖 𝐿𝑛 (𝑥𝑖 )) Es obvio que
las dos ecuaciones son equivalentes, esta última ecuación es la más utilizada en el cálculo de la media
geométrica.

34/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

Para verificar la equivalencia de las 2 ecuaciones de la media geométrica observe que:


1
𝑀𝑔 = 𝑛√𝑥1 𝑛1 . 𝑥2 𝑛2 … . 𝑥𝑘 𝑛𝑘 = (𝑥1 𝑛1 . 𝑥2 𝑛2 … . 𝑥𝑘 𝑛𝑘 )𝑛

Al aplicar logaritmo natural en ambos lados de la igualdad y recordar que el exponente baja a multiplicar
el logaritmo, se tiene:
1
𝐿𝑛(𝑀𝑔) = 𝑛 𝐿𝑛 (𝑥1 𝑛1 . 𝑥2 𝑛2 … . 𝑥𝑘 𝑛𝑘 ) recordar que el logaritmo de un producto de términos es igual a la
suma de los logaritmos de los términos, así:
𝑘
1
𝐿𝑛(𝑀𝑔) = ∑ 𝑛𝑖 𝐿𝑛 (𝑥𝑖 )
𝑛
𝑖=1

Ahora, aplicando la función exponencial (inversa del logaritmo natural) se tiene:

𝑘
1
𝑀𝑔 = 𝑒𝑥𝑝 ( ∑ 𝑛𝑖 𝐿𝑛 (𝑥𝑖 ))
𝑛
𝑖=1

Ejemplo 2.21. (Media geométrica)

Las tasas de interés que pagan dos bancos y una caja de crédito por depósitos a plazo de un año (más de
$ 1,000) son 5%, 4% y 9%.

¿Cuál es la tasa de interés promedio de las 3 instituciones financieras?

Solución.

Debido a que los datos están dados en porcentaje es recomendable utilizar la media geométrica en vez de
un simple promedio, así:
3 3
La media geométrica es: 𝑀𝑔 = √5𝑥4𝑥9 = √180 = 5.6
1
Observe que, si utilizamos la expresión 𝑀𝑔 = 𝑒𝑥𝑝 (𝑛 ∑𝑘𝑖=1 𝑛𝑖 𝐿𝑛 (𝑥𝑖 )) se tiene que calcular primeramente
los logaritmos de cada dato: ln(5)= 1.6; ln(4) = 1.4; ln(9)= 2.2, luego promediarlos, (1.6+1.4+2.2)/3 = 1.73,
finalmente obtener la exponencial exp(1.73) = 5.6, es evidente que se llega al mismo resultado.

Ahora, para fines comparativos se obtiene la media aritmética: (5+4+9)/3 = 6, siempre será un valor mayor
o igual que la media geométrica, ya que la Mg da una cifra de ganancia más conservadora porque no tiene
una ponderación alta para la tasa de 9%.

NOTA: Si un dato es cero (0), entonces la media geométrica es 0; por otra parte, si hubiera un número
negativo y una cantidad impar de ellos entonces la media geométrica sería o bien negativa, o bien
inexistente en los números reales, por lo tanto, la media geométrica se utiliza cuando todos los valores
son positivos.

35/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

Media geométrica para datos agrupados en clases.


Si se tiene un conjunto de 𝑛 datos en una tabla de frecuencias agrupadas en clase, la media geométrica se
calcula con la siguiente fórmula:

𝑛 1
𝑀𝑔 = √𝑃𝑚1 𝑛1 . 𝑃𝑚2 𝑛2 … . 𝑃𝑚𝑘 𝑛𝑘 = (𝑃𝑚1 𝑛1 . 𝑃𝑚2 𝑛2 … . 𝑃𝑚𝑘 𝑛𝑘 )𝑛

Donde se ha sustituido el valor de 𝑥𝑖 por 𝑃𝑚𝑖 punto medio de la clase. La expresión anterior es equivalente
a:

𝑘
1
𝑀𝑔 = 𝑒𝑥𝑝 ( ∑ 𝑛𝑖 𝐿𝑛 (𝑃𝑚𝑖 ))
𝑛
𝑖=1

Ambas expresiones pueden ser utilizadas para obtener la media geométrica y se obtienen los mismos
resultados.

Ejemplo 2.22. Se tiene 4 granjas para crecer pollos, la granja 1 tiene 3 galeras, la granja 2 tiene 6 galeras,
la granja 3 tiene 7 galeras y la granja 4 tiene 9 galeras y la tasa de ocupación de las galeras varía con el
tiempo, así: en la granja 1 se encontró las siguientes tasas de ocupación: de 60% a menor que el 70%; la
granja 2 de 70% a menor que 80%; la granja 3 de 80% a menor que 90% y para la granja 4 de 90% a menor
que 100%. ¿Cuál es el valor medio geométrico de la tasa de ocupación?

Solución

Los datos pueden representarse en la siguiente tabla de frecuencias:

Porcentaje de ocupación Punto medio Frecuencia


60 - < 70 65 3
70 - < 80 75 6
80 - < 90 85 7
90 -< 100 95 9
Total 25

Con los datos de la tabla anterior es posible utilizar la siguiente fórmula:


1 1
𝑀𝑔 = 𝐸𝑥𝑝 (25 ∑4𝑖=1 𝑛𝑖 𝑃𝑚𝑖 ) = 𝐸𝑥𝑝 (25 (3 Ln 65 + 6 Ln 75 + 7 Ln 85 + 9 Ln 95))=83.14

El valor medio geométrico de la tasa de ocupación de las granjas es de 83.14%.

36/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

2.4.3. Media armónica (Ma)

La media armónica utiliza el inverso de los datos, en consecuencia resulta poco influida por la existencia
de valores grandes en el conjunto de datos, en cambio es sensible a valores pequeños (extremos).

Media armónica para datos simples o agrupados en tablas simples:

Se inicia diciendo que el inverso de la media armónica es igual a la media aritmética del inverso de los
valores de la variable, esto es:
𝑛𝑖
∑𝑘
𝑖=1
1 𝑥𝑖 𝑛
= de la expresión anterior se tiene: 𝑀𝑎 = 𝑛𝑖 donde los 𝑛𝑖 representan el número de veces
𝑀𝑎 𝑛 ∑𝑘
𝑖=1𝑥𝑖
que se repite cada dato, en caso que los datos no se repitan 𝑛𝑖 = 1 y la expresión anterior será: 𝑀𝑎 =
𝑛
1
∑𝑘
𝑖=1 𝑥𝑖

Ejemplo 2.23. Se sabe que dos obreros A y B, se tardan 50 y 40 minutos respectivamente en reparar un
par de zapatos. ¿Cuál es el tiempo requerido para reparar un par de zapatos?

Solución.

𝑛 2
Se tienen dos datos, entonces 𝑀𝑎 = 1 sustituyendo los valores: 𝑀𝑎 = 1 1 = 44.44𝑚𝑖𝑛, es el
∑𝑘
𝑖=1 +
𝑥𝑖 50 40
tiempo requerido para reparar un par de zapatos.

Ejemplo 2.24. Supóngase que con un dólar se puede comprar 5 manzanas o 10 ciruelas o 4 aguacates,
¿Cuántas frutas se pueden comprar en promedio con un dólar?

Solución.

La cantidad media de frutas que se puede adquirir con un dólar es:

3
𝑀𝑎 = 1 1 1 = 5.56 con un dólar se puede adquirir en promedio 5.56 frutas.
+ +
5 10 4

El mayor uso de la media armónica es para calcular la velocidad promedio. Recuerde que:

dista n cia
Velocidad  , suponga que se han recorrido k trayectos (distancias) a cierta velocidad cada
tiempo
trayecto, entonces la velocidad media vendrá dada por:

37/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑖𝑎 𝑡𝑜𝑡𝑎𝑙 𝑑
𝑉𝑚 = 𝑑𝑖 = 𝑑𝑖
∑𝑘
𝑖=1 ∑𝑘
𝑖=1
𝑣𝑖 𝑣𝑖

Ejemplo 2.25. Suponga que la distancia entre dos ciudades, A y B, es de 80 kilómetros y entre B y C de 120
kilómetros. Si un automovilista recorre de A a B a una velocidad de 100Km/h y de B a C a una velocidad de
80Km/h. ¿Cuál es la velocidad promedio?

Solución.

Se tiene los siguientes datos: distancia total = d= 200km; distancia de A a B = 80km y distancia de B a C =
120km, al sustituir estos valores en la fórmula se tiene:

𝑑 200
𝑉𝑚 = = = 86.956
𝑑 80 120
∑𝑘𝑖=1 𝑖 +
𝑣𝑖 100 80
La velocidad promedio en el recorrido total desde A a C es de 86.956km/h.

Media armónica para datos agrupados en clases:

Si se tiene una tabla de frecuencias agrupadas en clase, la media armónica se calcula con la siguiente
fórmula:
𝑛
𝑀𝑎 = 𝑛𝑖
∑𝑘
𝑖=1 𝑃𝑚𝑖

Observe que sólo se ha sustituido el valor de 𝑥𝑖 por 𝑃𝑚𝑖 punto medio de la clase.

Ejemplo 2.26. A fin de ilustrar el cálculo de la medía armónica, se utilizan los datos del ejemplo de
ocupación de las granjas, los cuales se presentan en la siguiente tabla:
Tasa de ocupación Punto medio Frecuencia
60 - < 70 65 3
70 - < 80 75 6
80 - < 90 85 7
90 -< 100 95 9
Total 25

¿Calcular la media armónica?

Solución

Podemos utilizar la siguiente fórmula:


𝑛
𝑀𝑎 = 𝑛𝑖
∑𝑘𝑖=1
𝑝𝑚𝑖

38/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

Al sustituir los valores de la tabla de frecuencias en la fórmula anterior se tiene;


25
𝑀𝑎 = = 82.44
3 6 7 9
+ +
65 75 85 95 +

El valor medio armónico de la tasa de ocupación de las granjas es de 82.44%; es un poco menor que la
media geométrica que fue de 83.14%.

̅
NOTA: En general se verifica que: 𝑴𝒂 ≤ 𝑴𝒈 ≤ 𝒙

2.4.4. Mediana (Md).

La mediana no se basa en la magnitud de los datos, como la media aritmética, sino en la posición central
que ocupa en el orden de su magnitud. La mediana de una distribución de frecuencia corresponde al valor,
supuesto los datos ordenados de menor a mayor, que deja a ambos lados el mismo número de
observaciones.

Partiendo de la información bruta, se ordenan los datos ascendente o descendentemente, por ejemplo,
ordenados los datos de forma ascendente: 𝑥(1) , 𝑥(2) , … , 𝑥(𝑛) , se define,
𝑥(𝑛+1) 𝑆𝑖 𝑛 𝑒𝑠 𝑖𝑚𝑝𝑎𝑟
2

𝑀𝑒𝑑𝑖𝑎𝑛𝑎 = 𝑀𝑑 =
𝑥(𝑛) + 𝑥(𝑛 +1)
2 2
𝑆𝑖 𝑛 𝑒𝑠 𝑝𝑎𝑟
{ 2
Datos simples
La mediana, en ocasiones se le llama media posicional, porque queda exactamente en la mitad de un
grupo de datos, luego de que los datos se han ordenado de forma ascendente. En este caso la mitad (50%)
de los datos estará por encima de la mediana y la otra mitad (50%) estará por debajo de ella.

a) Cuando el número de datos es impar: En este caso la mediana coincide con el dato central ordenados
de manera ascendente o descendente.

Ejemplo 2.27. Se consideran los salarios en dólares para 11 vendedores: $243, $320, $311, $254, $234,
$261, $239, $310, $218, $267, $287. Calcular la mediana de los salarios.
Solución:
1. Primero se ordenan los datos de menor a mayor: $218, $234, $239, $243, $254, $261, $267, $287,
$310, $311, $320.

2. Obtener la posición central donde se encuentra la mediana, se utiliza la siguiente expresión:

39/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

𝑛+1 11+1 12
2
→ 2
= 2
= 6. La posición donde se encuentra la mediana es 6.

3. El valor de la mediana (está sombreado con escala gris en los datos ordenados) es:
Mediana = Md= $261
La mitad de los salarios de los vendedores están por debajo de $261 y la otra mitad son mayores que
$261.

b) Cuando el número de datos es par: La mediana será el valor medio de los dos valores centrales
ordenados de manera ascendente o descendente.

Ejemplo 2.28. Ahora, se considera los salarios en dólares para 12 vendedores; los cuales se han presentado
ordenados anteriormente $218, $234, $239, $243, $254, $261, $267, $287, $310, $311, $320 y $322:
Calcular la mediana de los salarios.

Solución:
Los datos ya están ordenados de forma ascendente, ahora, obtener la posición central, nuevamente se
n  1 12  1
utiliza la expresión:   6.5 , entonces la mediana corresponde al promedio de los dos
2 2
valores centrales, los que están en la posición 6 y 7, esto es:

$261 + $267
= $264
2
Este valor indica que la mitad de los salarios de los vendedores son menores que $264 mientras que la
otra mitad de salarios es mayor que $264.

Mediana: Datos agrupados en frecuencia simples

Variable Frecuencia Frecuencia Ejemplo 2.6. Nuevamente, haciendo referencia a los datos del
(x) 𝑛𝑖 Acumulada, 𝑁𝑖 registro de sismos reportados en marzo 2015. Calcular la
0 2 2 mediana en el periodo reportado.
1 1 3
Solución:
2 3 6
3 4 10 1. Para obtener la posición central, se utiliza la
4 5 15 expresión:
5 3 18
n  1 31  1
6 4 22   16 ,
7 1 23 2 2
8 4 27
2. Identificar la primera frecuencia acumulada mayor o
9 1 28
igual a 16 (posición de la mediana), esta es 18.
11 1 29
12 2 31
n = 31

40/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

3. Localizada la frecuencia acumulada mayor o igual a la posición de la mediana, se determina el


valor de la variable, ya que dicho valor corresponde a la mediana, esto es: Md = 5.
Interpretación: el 50% de los sismos diarios ocurridos en marzo de 2015 están por debajo de 5, mientras
que el otro 50% están por arriba de 5 sismos diarios.

Mediana: Datos continuos


Si los datos están agrupados en clases, la mediana no se obtiene de forma directa, se utiliza interpolación,
tal como se muestra a continuación.

Deducción de la fórmula de la mediana para datos agrupados en clases


Suponer que la medina (𝑀𝑑) , se encuentra en la fila i-ésima de la tabla de frecuencias agrupadas,
cuyos datos se representan en la siguiente gráfica.

En el gráfico se observa dos triángulos semejantes, utilizando la relación entre ambos triángulos se tiene:
n n
2 − Ni−1 = ni
⟹ Md = Li−1 + (2
− Ni−1
) Ci
Md − Li−1 Li − Li−1 ni

donde

Li−1 : Límite inferior del intervalo donde se encuentra la mediana, el cual se determina observando la
n
primera frecuencia acumulada mayor o igual a .
2

Ni−1 : Frecuencia acumulada anterior del intervalo donde se encuentra la mediana.

ni: Frecuencia absoluta del intervalo donde se encuentra la mediana.

41/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

C : Ancho del intervalo i-ésimo.


Ejemplo 2.29. Se considera nuevamente los datos de la prueba de aptitudes y aprendizaje 2012 (PAESITA
2012). Obtener la mediana, para los datos en estudio.

Intervalo Frecuencia, ni Ni
Solución:
3.5 - < 4.1 10 10
4.1 - < 4.7 24 34 1. Total de datos (n=63)
4.7 - < 5.3 12 46 2. Calcular la posición de la mediana, utilizando la siguiente
5.3 - < 5.9 7 53 𝑛 63
expresión 2 ⟹ 2 = 31.5, independientemente si n es par o
5.9 - < 6.5 5 58 impar.
6.5 - < 7.1 2 60
7.1 - < 7.7 3 63
Total n = 63
3. Se ubica la posición de la mediana en la tabla de
frecuencias, para ello se observa la primera frecuencia acumulada que tenga un número mayor o
igual a la posición de la mediana (clase de la mediana).

4. La primera frecuencia acumulada (Ni ) mayo o igual que 31.5, se encuentra en la segunda clase,
que corresponde al intervalo 4.1 – < 4.7, que tienen Ni = 34.

5. Identificada la clase de la mediana se utiliza la siguiente ecuación:

n
− Ni−1
Md = Li−1 + (2 ) Ci
ni
A partir de los datos de la tabla de frecuencia se obtiene:

Li−1 = L1 = 4.1, Ni−1 = N1 = 10 , n2 = 24 y Ci = C2 = 0.6

Sustituyendo los datos anteriores en la fórmula de la mediana se tiene:

31.5−10 21.5
Md = 4.1 + ( ) 0.6 = 4.1 + ( 24 ) 0.6 = 4.1 + 0.54 = 4.64
24

Interpretación: La mitad de los resultados obtenidos en la PAESITA 2012 que representa a los estudiantes
de sexto grado de los Centros educativos del municipio de San Salvador están por debajo de 4.64 y la otra
mitad tiene notas arriba de 4.64.

Características de la mediana:
 No se ve afectada por los valores extremos. Esta es la propiedad más importante que tiene.

42/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

 Se puede utilizar cuando la distribución de frecuencias tiene clases abiertas, excepto, cuando
la posición de la mediana caiga en una de las clases abiertas.

La mediana: Es el valor intermedio cuando los valores de los datos se ordenan en forma ascendente.
Representa al valor que deja por debajo al 50% de los datos y por encima de él al otro 50% de los
datos. La mediana se simboliza con las letras: Md

2.4.5. Actividad de autoevaluación

1) Se muestran las calificaciones de matemática de las secciones A y B de sexto grado: 5, 7, 4, 3, 4,


10, 5, 6, 7, 4, 8, 6, 3, 8, 3, 5, 9, 10, 8, 6, 8, 6, 7, 6, 9, 6, 3, 7, 10, 7, 9, 2, 9, 3, 10, 5, 9, 5, 9, 2, 3 (datos
hipotéticos). A partir de la información responda las siguientes situaciones:
a) ¿Identifica algún valor que represente a todos los datos?
b) Encuentre el cociente de la sumatoria de los valores que toma la variable entre el total de
datos. ¿Cuál es el nombre de esta medida?
c) Ordene de menor a mayor cada uno de los datos, ¿cuál es el valor que se encuentra en la
posición central?
2) De un grupo de 100 obreros en una fábrica, 40 trabajan en el día y 60 en la noche. Se sabe que el
salario promedio anual de los 100 obreros es de $8,700 dólares y que los del turno de día reciben
en promedio $800 dólares menos que los trabajadores nocturnos. ¿Cuál es el salario promedio
anual en cada grupo?

3) En un supermercado trabajan 35 mujeres, con un salario promedio mensual de $650 dólares y 15


hombres, en promedio ganan un 12% más que las mujeres ¿Cuál es el salario promedio de los
empleados del supermercado?

3
4) La media aritmética de tres números es 7, su mediana es 6 y su media geométrica es 216 .
Calcular la media armónica de los tres números.

5) Se sabe que la media aritmética de dos números es 5 y la media geométrica es 4. ¿Cuál es la media
armónica?

6) Una persona viaja 4 días. Diariamente recorre 200 Km, pero maneja el primero y el último día a
50Km/h, el segundo a 55Km/h y el tercer día a 70Km/h. ¿Cuál es la velocidad media durante el
viaje?

7) Las ciudades A, B y C son equidistantes entre sí. Un automovilista viaja de A a B a 30 Km/h de B a


C a 40 Km/h y de C a A a 50 Km/h. Determine el promedio de velocidad para el viaje completo.

8) Se tienen tres ciudades A, B y C. La distancia que hay de B a C es el triple de la distancia de A a B;


y la distancia de C a A es el doble de la distancia de B a C. Un automovilista viaja de A a B a 70 Km/h
de B a C a 75 Km/h y de C a A 85 Km/h. Determine el promedio de velocidad para el viaje completo.

43/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

9) Un fabricante dispone $600,000 anuales para la compra de materia prima. Durante tres años
invierte la misma cantidad de dinero ($600,000). Si el precio promedio por Kg ha aumentado en
los últimos tres años sucesivos de $2,200 a $2,800 y luego a $4,600, ¿Cuál es el precio promedio
que ha pagado el fabricante en los tres años?

10) El 1 de mayo de 2012 se ahorraron $ 50,000 en un banco al 7.6% de interés anual, capitalizados
semestralmente. Obtener la cantidad media de dinero en la cuenta, entre el 1 de mayo de 2012 y
el 31 de octubre de 2016, suponga que no se hicieron retiros durante el periodo.

11) En un examen 20 alumnos del curso A obtuvieron una media de 60 puntos y en el curso B los
alumnos obtuvieron una media de 80. Ante un reclamo se decide subir en 5% más 5 puntos
adicionales a todos los alumnos del curso A, en cambio como hubo muchas copias en el curso B se
decidió disminuir la quinta parte de la calificación. Después de los mencionados ajustes ¿Cuál es
el puntaje medio de los 50 alumnos?

12) Una asistente social desea saber cuál es el índice de natalidad en 2 ciudades (A y B) para ello
encuestó a 10 familias de cada ciudad obteniendo los siguientes resultados

A 0 6 1 2 3 1 4 3 6 4
B 3 4 1 4 2 3 1 5 4 3

Determinar la media y mediana para cada ciudad e interprételos.

13) El siguiente cuadro muestra la distribución de la renta anual (en miles de dólares) en que incurren
50 viviendas:
Marca de Clase 18.85 21.55 24.25 26.95 29.65 32.35 35.05
N° de Viviendas 3 2 7 7 11 11 9

a) Halle e interprete la media y mediana.


b) Estime el porcentaje de viviendas con rentas superiores o iguales a 26,000 dólares pero
menores que 32,000 dólares.

2.5. Medidas de dispersión para datos cuantitativos

A pesar de la gran importancia de las medidas de tendencia central y de la cantidad de información que
aportan individualmente, en muchas ocasiones esa información no es completa, o puede inducir a errores
en su interpretación. Por ejemplo, si hay 3 personas que trabajan en la construcción cuyos salarios son de
$235, $240 y $238, y dos ejecutivos de empresas con salarios de $5,200 y $5,250, se obtiene que el salario
promedio de las 5 personas es: $2,232.60, esta cifra sin más información llevaría a pensar que cada

44/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

individuo gana alrededor de $ 2,200, lo cual es totalmente falso, por lo que se hace necesario conocer
otras medidas, que indiquen la variabilidad de los datos.
Las medidas de dispersión más utilizadas son las que consideran las desviaciones promedio con respecto
a alguna medida de tendencia central, su información mide el grado de representatividad de las medidas
de tendencia central del conjunto de datos que provienen.

Existen diversas medidas de dispersión, algunas de ellas son:


 Rango
 Desviación media absoluta
 Varianza y desviación estándar
 Coeficiente de variación

2.5.1. Rango, Amplitud total o recorrido

El rango representa el intervalo en que puede tomar valores la variable en estudio.


Ejemplo 2.30. Se presenta a continuación dos series de datos discretos donde se compara la cantidad de
niños reportados con lesiones en determinado centro educativo. Determinar la variabilidad total de cada
serie.
Serie A: 1, 5, 7, 7, 8, 9, 9, 10, 17

Serie B: 2, 4, 6, 8, 10, 12, 14, 16, 18

Solución:

Serie A: El dato mayor de la serie A es 𝑥(𝑛) = 17 y el dato menor es 𝑥(1) = 1, el rango o variabilidad
total de los datos es: 17 -1 = 16. Esto es que los datos tienen 16 unidades en las que se puede mover.

Serie B: El dato mayor de la serie B es 𝑥(𝑛) = 18 y el dato menor es 𝑥(1) = 2, el rango o variabilidad
total de los datos es: 18 -2 = 16.

Ambas series tienen rango 16, pero están desigualmente agrupadas, pues mientras la primera tiene una
mayor concentración en el centro, la segunda se distribuye uniformemente a lo largo de todo el recorrido.
El uso de esta medida de dispersión, es bastante limitada, pero es la primera aproximación para ver la
representatividad de las medidas de tendencia central. A mayor rango, menor representatividad de las
medidas de tendencia central.

Características del rango


 Es relativamente sencilla su obtención
 El significado de esta medida es fácil de comprender, ya que representa la variabilidad total
de los datos
 Se utiliza en variables numéricas.

Rango: Es la diferencia entre el mayor y el menor de los valores observados: 𝑅 = 𝑥(𝑛) − 𝑥(1)

Siendo 𝑥(𝑛) la observación mayor y 𝑥(1) la observación menor.

45/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

2.5.2. Desviación media absoluta

La desviación media absoluta, mide la distancia absoluta promedio entre cada uno de los datos, y el
parámetro que caracteriza la información. Usualmente se considera la desviación media con respecto a la
media aritmética. Se define como la media aritmética de los valores absolutos de las diferencias de los
datos a la media, es decir:
𝑛
1
𝐷𝑥̅ 𝐴 = ∑|𝑥𝑖 − 𝑥̅ | 𝑛𝑖
𝑛
𝑖=1

La media aritmética es más representativa de los datos cuanto menor sea 𝐷𝑥̅ 𝐴, además tiene las mismas
unidades que la variable en estudio.

Ejemplo 2.31. Suponga que se tienen los salarios mensuales de 50 empleados de cierta empresa (Le
media es 𝑥̅ = 251.9), los cuales se representan en la siguiente tabla:

Salario 𝑛𝑖 |𝑥𝑖 − 𝑥̅ | |𝑥𝑖 − 𝑥̅ |𝑛𝑖


200 1 |200 − 251.9| = 51.9 51.9
225 3 |225 − 251.9| = 26.9 80.7
230 3 |230 − 251.9| = 21.9 65.7
235 8 |235 − 251.9| = 16.9 135.2
250 15 |250 − 251.9| = 1.9 28.5
255 5 |255 − 251.9| = 3.9 15.5
275 15 |275 − 251.9| = 23.1 146.5
50 724

A partir de los datos de la tabla determinar la desviación media absoluta.

Solución

La expresión para determinar la desviación media absoluta es:


1 724
𝐷𝑥̅ 𝐴 = 𝑛 ∑𝑛𝑖=1|𝑥𝑖 − 𝑥̅ | 𝑛𝑖 sustituyendo los valores se tiene 𝐷𝑥̅ 𝐴 = 50
= 14.48

Se tiene que 14.48 dólares, es el error promedio que se comete al reemplazar los ingresos mensuales de
cada una de los 50 trabajadores por 251.9 dólares, o dicho de otra forma, la variabilidad de los salarios
respecto a la media es aproximadamente $14.48.

2.5.3. Varianza y desviación estándar muestral

Las medidas de dispersión estudian la separación existente entre los diversos valores que toma la variable.
Se dividen en medidas de dispersión absoluta y relativa. Las absolutas suelen hacer referencia a un

46/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

promedio, y permiten estudiar su representatividad. Este tipo de medidas depende de las unidades, lo que
es un inconveniente para realizar comparaciones entre poblaciones. En este sentido, las medidas de
dispersión relativas no dependen de las unidades y permiten comparar variabilidad entre poblaciones.

Varianza: Datos simples

Ejemplo 2.32. Con el fin de ilustrar el cálculo de la varianza se presenta la siguiente serie de datos no
agrupados 9, 3, 8, 8, 9, 8, 9, 18. Determinar la varianza y la desviación típica o estándar.

Solución:

 Para calcular la varianza se sugieren los siguientes pasos:


1. Primeramente se obtiene la media de la serie de datos.
9 + 3 + 8 + 8 + 9 + 8 + 9 + 18
𝑥̅ = =9
8
2. Se obtienen las desviaciones de los datos respecto a la media (𝑥𝑖 − 𝑥̅ ) y se elevan al cuadrado
(𝑥𝑖 − 𝑥̅ )2 , así:

(9 − 9)2 , (3 − 9)2 , (8 − 9)2 , (8 − 9)2 , (9 − 9)2 , (8 − 9)2 , (9 − 9)2 , (18 − 9)2

3. Se obtiene la suma de las desviaciones al cuadrado, tal como se muestra a continuación:


(9 − 9)2 + (3 − 9)2 + (8 − 9)2 + (8 − 9)2 + (9 − 9)2 + (8 − 9)2 + (9 − 9)2 + (18 − 9)2

4. Se divide el total de la suma de las desviaciones al cuadrado entre el total de datos menos 1 (n-
1). En algunos texto de estadística se divide por n, sin embargo, en este documento se utilizará
como denominador (n-1), ya que esta variante hace que la varianza sea insesgada (el estudios de
la propiedad de estimadores insesgados se presenta en la unidad 5 de inferencia estadística).

(9 − 9)2 + (3 − 9)2 + (8 − 9)2 + (8 − 9)2 + (9 − 9)2 + (8 − 9)2 + (9 − 9)2 + (18 − 9)2


= 17.14
8−1
Interpretación. Esto significa que el promedio de alejamiento al cuadrado de todos los valores respecto
de la media (de 9) es de 17.14.

No es recomendable utilizar la varianza para determinar la representatividad de la media sobre un


conjunto de datos, ya que las unidades de la varianza están elevadas al cuadrado (no en las unidades de
los datos), por lo que, se recomienda utilizar la desviación estándar que se obtiene como raíz cuadrada de
la varianza y representa la variabilidad de los datos respecto a la media.

 Determinar la desviación típica o estándar

Desviación típica = s = √17.14 = 4.14

Interpretación: en promedio los valores se alejan de la media en 4.14 unidades.

47/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

Para finalizar con este ejemplo observe lo siguiente:

 En el intervalo (𝑥̅ − 𝑠, 𝑥̅ + 𝑠 ) = (9 − 4.12, 9 + 4.12 ) = (4.48, 13.14) están el 75% de los


datos, esto es, únicamente no están dentro del intervalo los valores 3 y 18.

 En el intervalo (𝑥̅ − 2𝑠, 𝑥̅ + 2𝑠 ) = (9 − 2(4.12), 9 + 2(4.12) ) = (0.72, 17.28) están el


87.5% de los datos, esto es, únicamente no está dentro del intervalo el valor 18.

 En el intervalo (𝑥̅ − 3𝑠, 𝑥̅ + 3𝑠 ) = (9 − 3(4.12), 9 + 3(4.12) ) = (−3.42, 21.42) están el


100% de los datos.
En general, si los datos se distribuyen aproximadamente normal (hay una concentración alrededor de la
media) se tiene que:
 En el intervalo (𝑥̅ − 𝑠, 𝑥̅ + 𝑠 ) están aproximadamente el 68% de los datos;
 En el intervalo (𝑥̅ − 2𝑠, 𝑥̅ + 2𝑠 ) están aproximadamente el 95% de los datos;
 En el intervalo (𝑥̅ − 3𝑠, 𝑥̅ + 3𝑠) están aproximadamente el 99% de los datos
Si se cumplen las condiciones anteriores, se considera que la media es un buen representante de los datos.

La varianza muestral para datos simples se representa por:

2
( 𝑥1 − 𝑥̅ )2 + (𝑥2 − 𝑥̅ )2 + ⋯ + (𝑥𝑛 − 𝑥̅ )2 ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑠 = =
𝑛−1 𝑛−1
La desviación típica o estándar es: 𝑠 = √𝑠 2

Ejemplo 2.33. Serie de datos simples (datos hipotéticos).


1) Las calificaciones de matemática básica de los estudiantes de primer año de licenciatura son: 6, 6, 7,
7, 8, 8, 6, 7, 8, 6, 7, 8, 6, 7, 8, 6, 7, 8, 6, 7, 8, 6, 8, 7, 7.
2) Las calificaciones de cálculo diferencial para estudiantes de segundo año de licenciatura son: 4, 4, 5,
3, 6, 4, 7, 8, 8, 6, 7, 8, 6, 7, 8, 6, 10, 8, 6, 7, 8, 6, 7, 8, 6, 8, 7, 10, 9, 10, 10.
Con la información anterior responder:
a) Determinar la desviación típica para cada grupo de estudiantes.
b) En qué grupo de estudiantes la media es más representativa de los datos

Solución.

a) Para obtener la desviación típica primeramente se calcula la media, tanto en 1) como en 2) ésta es:
𝑥̅ = 7, tanto en primer año como en segundo año.

Según lo presentado en la primera parte de esta actividad, la varianza para datos simples se calcula
(𝑥𝑖−𝑥̅ )2
utilizando la siguiente expresión: 𝑆 2 = ∑𝑛𝑖=1 𝑛−1
, sustituyendo los valores se tiene:

48/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

Primer año: 𝑆12 = 0.66

Segundo año: 𝑆22 = 3.39

Una vez calculada la varianza de los literales a) y b) se obtiene la desviación típica (Primer año: 𝑆1 = 0.8
segundo año: 𝑆2 = 1.8),

b) Para determinar la representatividad de la media aritmética, se debe comparar las desviaciones


típicas, la situación que presente menor desviación típica, es donde su media es más representativa
de los datos. Para este ejemplo es: primer año: 𝑆1 = 0.8.

En primer año las calificaciones son más homogéneas, esto es la mayoría de alumnos aprende un buen
porcentaje de lo que enseña el profesor.

En la asignatura de cálculo diferencia hay mayor variabilidad, esto significa que hay alumnos que aprenden
mucho y otros aprenden poco. El profesor debe hacer un esfuerzo para que todos los alumnos aprendan
por igual. También, algunos alumnos entienden más rápido que otros, por eso se sacan 10.

Datos agrupados en frecuencias simples

Ejemplo 2.34. Retomando el ejemplo del número sismos del mes de marzo de 2015 en El Salvador (Sismos,
marzo 2015). Determinar la varianza muestral y la desviación típica. Los datos se presentan en la tabla
siguiente

Variable Frecuencia 𝑛𝑖 ∗ 𝑥𝑖 (𝑥 − 𝑥̅ )2 (𝑥 − 𝑥̅ )2 𝑛𝑖
Solución:
0 2 0 26.97 53.95
1 1 1 17.59 17.59 Paso 1. Se obtiene la media o el promedio
2 3 6 10.20 30.60 de los datos.
3 4 12 4.81 19.25 161
𝑥̅ = = 5.19
4 5 20 1.42 7.12 31
5 3 15 0.04 0.11
Paso 2. Se agrega otra columna que
6 4 24 0.65 2.60
contendrá la diferencia de (𝑥 − 𝑥̅ )2
7 1 7 3.26 3.26
8 4 32 7.88 31.50 Paso 3. Se realizará el producto de la
9 1 9 14.49 14.49
diferencia al cuadrado por la frecuencia.
11 1 11 33.71 33.71 Paso 4. Sumar los valores de la última
12 2 24 46.33 92.66 columna de la tabla (306.84).
Total n = 31 161 167.35 306.84 Paso 5. Dividir el resultado del paso 4 entre
n-1 (31-1=30).

49/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

Los pasos 4 y 5 se resumen en la siguiente expresión (varianza):


∑11 2
𝑖=0(𝑥𝑖 − 𝑥̅ ) 𝑛𝑖
2
306.84
𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 = 𝑠 = = = 10.23
31 − 1 30
Desviación típica: 𝑠 = √10.23 = 3.2

Interpretación: en promedio el número de sismos diarios se alejan de la media (de 5.19) en 3.2.

La varianza muestral para datos agrupados en tablas de frecuencias simples se representa por:

2
∑𝑘𝑖=1(𝑥𝑖 − 𝑥̅ )2 𝑛𝑖
𝑠 =
𝑛−1
La desviación típica o estándar es: 𝑠 = √𝑠 2

Datos agrupados continuos

Cuando los datos han sido organizados en clases o intervalos, la varianza y desviación estándar se obtiene
de manera similar al proceso utilizado para tablas de frecuencias simples, sustituyendo el valor de la
variable (x) por el punto medio de la clase (Pm). A continuación se ilustra este proceso.

Ejemplo 2.35. Se retoman nuevamente los datos de la prueba de aptitudes y aprendizaje, PAESITA 2012.
Determinar la varianza y la desviación típica. Los datos se presentan en la siguiente tabla:

Intervalo 𝒏𝒊 𝑷𝒎𝒊 𝒏𝒊 ∗ 𝑷𝒎𝒊 (𝑷𝒎𝒊 − 𝑥̅ )2 (𝑷𝒎𝒊 − 𝑥̅ )2 ∗ 𝒏𝒊

3.5 - < 4.1 10 3.8 38.0 1.2 12.4


4.1 - < 4.7 24 4.4 105.6 0.3 6.3
4.7 - < 5.3 12 5 60.0 0.0 0.1
5.3 - < 5.9 7 5.6 39.2 0.5 3.3
5.9 - < 6.5 5 6.2 31.0 1.7 8.3
6.5 - < 7.1 2 6.8 13.6 3.6 7.1

7.1 - < 7.7 3 7.4 22.2 6.2 18.5

Total n = 63 309.6 56.1

Solución.
Paso 1. Se obtiene la media o el promedio de los datos.
309.6
𝑥̅ = = 4.9
63

50/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

Paso 2. Se obtiene la diferencia de la marca de clase y la media, y se eleva al cuadrado.


Paso 3. Se realiza el producto de la diferencia de la marca de clase y la media, al cuadrado por la frecuencia
absoluta.

Paso 4. Se suman los valores de la última columna y se divide por n-1 (63-1=62), esto es equivalente a
realizar la siguiente operación:

∑11 2
𝑖=0(𝑃𝑚𝑖 −𝑥̅ ) 𝑛𝑖 56.1
𝑠2 = = = 0.9.
63−1 62
El resultado anterior es la varianza muestral. A continuación se obtiene la desviación típica:

𝑠 = √0.9 = 0.95
Interpretación. Los centros educativos tienen notas muy similares, ya que en promedio se alejan de la
media (de 4.9) en 0.9 unidades. En este ejemplo, la media es un buen estadístico para representar la
nota de todos los centros educativos que participaron en la PAESITA 2012.

La varianza muestral se representa por 𝑠 2 y se obtiene a través de la siguiente expresión:

( 𝑃𝑚1 − 𝑥̅ )2 𝑛1 + (𝑃𝑚2 − 𝑥̅ )2 𝑛2 + ⋯ + (𝑃𝑚𝑘 − 𝑥̅ )2 𝑛𝑘 ∑𝑘𝑖=1(𝑃𝑚𝑖 − 𝑥̅ )2 𝑛𝑖


𝑠2 = =
𝑛−1 𝑛−1

NOTA: La varianza es el puente para llegar a la desviación típica y esta última es la que mide la variabilidad
de los datos.

En algunos textos de estadística la varianza se obtiene utilizando la siguiente expresión: 𝑆 2 =


∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 /𝑛 sin embargo, en este documento se utilizará la expresión ∑𝑁 2
𝑖=1(𝑥𝑖 − 𝜇) /𝑁 para indicar
la varianza poblacional (N: tamaño de la población) y para obtener la varianza muestral se utilizará:
𝑛
2
(𝑥𝑖 − 𝑥̅ )2
𝑆 =∑
(𝑛 − 1)
𝑖=1
El objetivo de dividir por n-1, es que la varianza se vuelve un estadístico insesgado del parámetro que
estima, sobre este tema se discutirá ampliamente en la unidad 5 sobre inferencia estadística.

Propiedades de la varianza.

1. La varianza puede calcularse utilizando la siguiente expresión:

2
∑𝑘𝑖=1(𝑥𝑖 − 𝑥̅ )2 𝑛𝑖 ∑𝑘𝑖=1(𝑥𝑖 )2 𝑛𝑖 − 𝑛(𝑥̅ )2
𝑠 = =
𝑛−1 𝑛−1

51/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

2. Si k es una constante, entonces la varianza de k es cero, esto es: 𝑠 2 = 0 ya que la media de una
constante es la misma constante.

3. La varianza de una contante k multiplicada por la variable X, es la constante al cuadrado por la


varianza de la variable X, en símbolos:
2
2
∑𝑘𝑖=1(𝑘𝑥𝑖 − ̅̅̅
𝑘𝑥 ) 𝑛𝑖 𝑘 2 ∑𝑘𝑖=1(𝑥𝑖 − 𝑥̅ )2 𝑛𝑖
𝑆𝑘𝑋 = = = 𝑘 2𝑆 2
𝑛−1 𝑛−1
4. La varianza de una variable más (o menos) una constante es igual a la varianza de la variable, en
símbolos:

2
∑𝑘𝑖=1((𝑥𝑖 ± 𝑘) − (𝑥̅ ± 𝑘))2 𝑛𝑖 ∑𝑘𝑖=1(𝑥𝑖 − 𝑥̅ )2 𝑛𝑖
𝑆𝑋±𝑘 = = = 𝑆2
𝑛−1 𝑛−1
Observe que al operar internamente de la varianza se elimina la constante k.

Las propiedades 3 y 4 se pueden resumir de la siguiente forma, la relación entre la varianza de una variable
X y la de una nueva variable definida como 𝑌 = 𝑎 + 𝑏𝑋 es: 𝑆𝑌2 = 𝑏2 𝑆𝑋2 , donde a y b son constantes
diferentes de cero. Por lo tanto, si a los datos de la distribución les sumamos una cantidad constante la
varianza no se modifica y si multiplicamos por una constante, la varianza queda multiplicada por el
cuadrado de esa constante.

2.5.4. Coeficiente de Variación (CV)

Generalmente interesa establecer comparaciones de la dispersión, entre diferentes muestras que posean
distintas magnitudes o unidades de medida, en este caso, la desviación típica no debe ser utilizada para
hacer comparaciones. El coeficiente de variabilidad tiene en cuenta el valor de la media aritmética, para
establecer un número relativo, que hace comparable el grado de dispersión entre dos o más variables, y
se define como:

𝑠
𝐶𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑣𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 = 𝐶𝑉 = (100)
𝑥̅

Ejemplo 2.36. Una empresa que produce botellas, quiere investigar la variabilidad de la resistencia al
rompimiento de dos tipos de marca, para ello toma las siguientes muestras:

Muestra 1: 230 250 245 258 265 240


Muestra 2: 190 228 305 240 265 260

52/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

A partir de los datos determinar el tipo de botella que tiene menor variabilidad de la resistencia al
rompimiento.

Solución:

Primeramente, se determina la media y la desviación típica para ambos tipos de botellas.

Muestra 1: Muestra 2

𝑥̅ = 248 𝑥̅ = 248

∑6𝑖=1(𝑥𝑖 − 𝑥̅ )2 = 790 ∑6𝑖=1(𝑥𝑖 − 𝑥̅ )2 = 7510

n =6 n =6

790 7510
𝑠=√ = 12.57 𝑠=√ = 38.76
5 5

CV = (12.57/248)*100= 5.07% CV = (38.76/248)*100 = 15.63%

Interpretación: La media es la misma en ambos tipos de botella, sin embargo, el coeficiente de variación
es menor en la muestra 1 (tipo de botella 1), por tanto, el tipo de botella 1 presenta menor variabilidad de
resistencia al rompimiento.

El CV expresa el número de veces que la desviación típica contiene a la media aritmética. Cuanto mayor
sea CV, menor es la representatividad de 𝑥̅ . Finalmente, el CV se utiliza para determinar el grado de
representatividad de la media de los datos, para ello, se considera los siguientes criterios:
Valor de CV Grado de representatividad de la media.
0 - < 10% Media altamente representativa
10% - < 20% Media bastante representativa
20% - < 30% Media tiene representatividad
30% - < 40% Media con representatividad dudosa
40% o más Media carente de representatividad

Ejemplo 2.37. Durante un cierto mes el precio de los frijoles por libra tuvo una media de 𝑥̅ = 1.55 y una
desviación estándar de 𝑆𝑋 = 0.25. Mientras que en ese mismo mes el precio del barril de petróleo tuvo
una media de 𝑦̅ = 98 y 𝑆𝑌 = 5. ¿En qué producto hubo mayor variabilidad en los precios?

Solución

Para comparar la variabilidad de dos muestras se utiliza el CV, así:

53/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

0.25 5
𝐶𝑉𝑋 = 1.55 (100) = 20% y 𝐶𝑉𝑌 = 98 (100) = 5.1%

Por tanto, la mayor variabilidad de precios se obtuvo en los frijoles.

NOTA: El CV no depende de cambios de escala de la variable. Es decir, si 𝑌 = 𝑘𝑋 entonces


𝐶𝑉𝑋 = 𝐶𝑉𝑌 donde k es una constante diferente de cero.

2.5.5. Actividad de autoevaluación

1) A continuación, se presentan los pesos de dos grupos de alumnos para los cuales se les pide
ordenar y calcular las medidas que considere conveniente:
Grupo A (en lbs): 175, 140, 160, 145, 170, 220, 190, 105, 150, 125, 168, 155, 156, 167, 160, 150,
158, 146, 135, 170, 150, 147, 130, 178, 148
Grupo B (en kgs): 79.8, 90.7, 81.6, 90.7, 72.6, 95.7, 65.3, 66.2, 73.9, 62.1, 72.6, 70.3, 80.7, 81.2,
81.6, 73, 72.6, 61.7, 72.6, 68, 72.6, 77.1, 95.3, 61.2, 71.7, 99.8, 68, 68, 49.9, 62.6, 79.4
A partir de la información anterior responder lo siguiente:

a) ¿Cuál es el peso promedio de cada grupo de alumnos? Interprete dichos valores.


b) Determine la desviación estándar de cada grupo ¿Qué grupo presenta mayor variabilidad?
Justifique su respuesta
c) Determine el coeficiente de variación de cada grupo ¿Qué grupo presenta mayor variabilidad?
Justifique su respuesta

2) Retomando el ejercicio 11 del apartado 2.4.5. En un examen 20 alumnos del curso A obtuvieron
una media de 60 puntos y una desviación estándar de 20 puntos. En el curso B los alumnos
obtuvieron una media de 80 y una desviación estándar de 16. Ante un reclamo se decide subir en
5% más 5 puntos adicionales a todos los alumnos del curso A, en cambio como hubo muchas copias
en el curso B se decidió disminuir la quinta parte de la calificación. Después de los mencionados
ajustes
a) ¿Cuál es la desviación estándar del curso A?
b) ¿Cuál es la desviación estándar del curso B?
c) ¿En qué curso se encuentra la mayor variabilidad de las notas?

3) Una asistente social desea saber cuál es el índice de natalidad en 2 ciudades (A y B) para ello
encuestó a 10 familias de cada ciudad y les preguntó sobre el número de hijos, obteniendo los
siguientes resultados

A 0 6 1 2 3 1 4 3 6 4
B 3 4 1 4 2 3 1 5 4 3

En qué ciudad los resultados son más homogéneos.

54/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

4) El salario promedio anual en una ciudad es de 8,000 dólares con una varianza de 1,000 dólares
¿Cuáles serán la nueva media y la nueva varianza si se efectúan los siguientes cambios:
a) Se aumenta 810 dólares a todos
b) Se aumenta el 15 % de su salario a cada trabajador
c) Se duplican los salarios.

5) Una compañía requiere los servicios de un técnico especializado. De los expedientes presentados,
se han seleccionado 2 candidatos: A y B, los cuales reúnen los requisitos mínimos requeridos. Para
decidir cuál de los 2 se va a contratar, los miembros del Jurado deciden tomar 7 pruebas a cada
uno de ellos. Los resultados se dan a continuación:
Pruebas
1 2 3 4 5 6 7
Puntaje obtenido por A 57 55 54 52 62 55 59
Puntaje obtenido por B 80 40 62 72 46 80 40
a) Halle e interprete la media y mediana de los dos candidatos.
b) Estadísticamente ¿Cuál de los candidatos debe ser contratado? Fundamente su respuesta a
través de CV.

2.6. Medidas de posición para datos cuantitativos

Una vez desarrollado el estudio de las distribuciones de frecuencias y representaciones gráficas de una
variable, se avanzó a resumir la información de las variables mediante las medidas de tendencia central y
de dispersión. Por otra parte, un elemento importante en el análisis de un conjunto de datos, es conocer
la ubicación de los datos dentro de un contexto de valores posible. Esta sección se ocupa de ciertos
parámetros posicionales muy útiles en la interpretación de los datos.

2.6.1 Cuartiles

Los cuartiles son los tres valores de la variable que dividen a un conjunto de datos ordenados en cuatro
partes iguales, los cuartiles se denotan usualmente por Q1, Q2, Q3. El segundo cuartil es precisamente la
mediana. El primer cuartil, es el valor en el cual o por debajo del cual queda un cuarto (25%) de todos los
valores de la sucesión (ordenada); el tercer cuartil, es el valor en el cual o por debajo del cual quedan las
tres cuartas partes (75%) de los datos.

Datos simples.

Ejemplo 2.38. Inasistencia a clases

Al finalizar el año escolar el profesor de Matemática cuenta los días de inasistencia a clase de cada uno de
sus alumnos, obteniendo los siguientes datos: 4, 8, 5, 6, 4, 7, 2, 4, 7, 8, 9, 10, 11, 12, 13, 12, 11, 10, 12, 6,
7, 12, 9, 8, 9, 12, 11, 13, 14, 15, con dicha información quiere calcular los siguientes estadísticos:

55/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

a) ¿Cuál fue el número máximo de días que faltó a clases el 25% de los alumnos con menos inasistencias?
b) ¿Cuál fue el número máximo de días que faltó a clases el 50% de los alumnos con menos inasistencias?
c) ¿Cuál fue el número mínimo de días que faltó a clase el 25% de los alumnos con más inasistencias?

Solución:
Al analizar cada uno de los literales anteriores, se observa que se quiere dividir los datos en 4 grupos de
estudiantes, tal como se representan en el siguiente esquema:

Ahora, para responder cada uno de los literales se realizaran los siguientes pasos:

1) El total de alumnos es: n=30.


2) Ordenar los datos de menor a mayor, esto es:
2, 4, 4, 4, 5, 6, 6, 7, 7, 7, 8, 8, 8, 9, 9, 9, 10, 10, 11, 11, 11, 12, 12, 12, 12, 12, 13, 13, 14, 15.

𝑘(𝑛+1)
3) Calcular la posición de cada uno de los cuartiles, para ello, se utiliza la siguiente expresión 4
,
𝑘 = 1, 2, 3

Si la posición del cuartil se encuentra en medio de dos valores concretos, el cuartil se obtiene
promediando dichos valores.

𝑘(𝑛+1)
a) Para responder el literal a) se requiere la posición del cuartil 1, esto es:
4

Sustituyendo los valores: k=1 y n=30 se tiene:

𝑘(𝑛+1) 1(30+1) 31
4
= 4
= 4
= 7.75

La posición del cuartil 1 es 7.75 y se ubica en la serie de datos ordenados, tal como se muestra a
continuación:
2, 4, 4, 4, 5, 6, 6 posición del cuartil uno 7, 7, 7, 8, 8, 8, 9, 9, 9, 10, 10, 11, 11, 11, 12, 12, 12, 12,
12, 13, 13, 14, 15.

El cuartil 1, entonces será:

6 + 7 13
𝑄1 = = = 6.5
2 2

56/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

El valor de 𝑸𝟏 = 𝟔. 𝟓 se interpreta como: El 25% de los alumnos faltó a clase 6.5 días o menos
durante todo el año.

b) Para responder el literal b) se requiere calcular el cuartil 2, para ello, lo primero es calcular la
𝑘(𝑛+1)
posición, utilizando la siguiente expresión: , sustituyendo los valores de k=2 y n=30 se
4
tiene:

𝑘(𝑛 + 1) 2(30 + 1) 62
= = = 15.5
4 4 4

La posición del cuartil 2 es 15.5 y se ubica en la serie de datos ordenados, tal como se muestra a
continuación:
2, 4, 4, 4, 5, 6, 6, 7, 7, 7, 8, 8, 8, 9, 9, posición del cuartil dos 9, 10, 10, 11, 11, 11, 12, 12, 12, 12,
12, 13, 13, 14, 15.

9+9 18
El cuartil 2, entonces será: 𝑄2 = 2
= 2
=9

El valor de 𝑸𝟐 = 𝟗 se interpreta como: El 50% de los alumnos faltó a clase 9 días o menos durante todo
el año o de forma equivalente, el número máximo de días que faltó a clases el 50% de los alumnos fue
9. Es de notar que el cuartil 2 deja un 50% de datos a la izquierda e igual porcentaje deja a la derecha.

c) Para responder el literal c) se requiere calcular el cuartil 3, para ello, lo primero es calcular la
𝑘(𝑛+1)
posición, utilizando la siguiente expresión: , sustituyendo los valores de k=3 y n=30 se
4
tiene:

𝑘(𝑛 + 1) 3(30 + 1) 93
= = = 23.25
4 4 4

La posición del cuartil 3 es 22.5 y se ubica en la serie de datos ordenados así:


2, 4, 4, 4, 5, 6, 6, 7, 7, 7, 8, 8, 8, 9, 9, 9, 10, 10, 11, 11, 11, 12 12 posición del cuartil tres 12, 12, 12, 13,
13, 14, 15.

12+12 24
El cuartil 3, entonces será: 𝑄3 = 2
= 2
= 12

El valor de 𝑸𝟑 = 𝟏𝟐 se interpreta como: El 75% de los alumnos faltó a clase 12 días o menos durante
todo el año o de forma equivalente, 12 fue el número mínimo de días que faltó a clases el 25% de los
alumnos con más inasistencia.

Cuartiles: en tablas de frecuencias simples.

Ejemplo 2.39. (Tiempo en programar la cirugía) Suponga que las autoridades del Ministerio de Salud están
interesadas en conocer el tiempo que se tarda en programar la cirugía a los pacientes de cierto hospital

57/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

público, para ello, solicitan a la Unidad de Consulta Externa y al servicio de hospitalización la programación
de los pacientes que han llegado en los primeros 7 días de enero, quienes proporcionan los siguientes
datos:

Fecha de consulta N° de pacientes Programación de cirugía


2 de enero 6 2 el 8 y 4 el 10 de agosto
3 de enero 8 5 el 22 y 3 el 24 de agosto
4 de enero 6 3 el 26 y 3 el 28 de septiembre
5 de enero 4 3 el 2 y 1 el 4 de octubre
6 de enero 7 3 el 8 y 4 el 12 de octubre
7 de enero 5 2 el 13 y 3 el 18 de octubre
8 de enero 6 3 el 4 y 3 el 8 de noviembre

a) ¿Cuántos días se tardó el hospital para realizar la cirugía al 25% de los pacientes?
b) ¿Cuántos días se tardó el hospital para realizar la cirugía al 50% de los pacientes?
c) ¿Cuántos días se tardó el hospital para realizar la cirugía al 75% de los pacientes?

Solución:

Cuando se tienen los datos agrupados en tabla de frecuencia simples, se utiliza un procedimiento análogo
al de datos simples, esto es realizar los siguientes pasos:

1. El total de datos (pacientes) es: n = 42.


2. Ordenar los datos de menor a mayor, es equivalente a construir una tabla de frecuencias que
contenga el número de pacientes y número de días que se tardaron para realizar la cirugía, esto
es:

Fecha de N° de N° de días Frecuencia Programación de


consulta pacientes de espera Acumulada cirugía
2 217 2 8 de agosto
2 de enero
4 219 6 10 de agosto
5 229 11 22 de agosto
3 de enero
3 231 14 24 de agosto
3 264 17 26 de septiembre
4 de enero
3 266 20 28 de septiembre
3 269 23 2 de octubre
5 de enero
1 271 24 4 de octubre
3 274 27 8 de octubre
6 de enero
4 278 31 12 de octubre
2 280 33 15 de octubre
7 de enero
3 283 36 18 de octubre
3 299 39 4 de noviembre
8 de enero
3 303 42 8 de noviembre

58/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

Se observa que se han creado dos columnas que son sumamente importante para responder las preguntas
planteadas.

3. Al igual que en datos simples, se calcula la posición de cada uno de los cuartiles, pero para datos
𝑘(𝑛)
agrupados se utilizará la siguiente expresión 4 , 𝑘 = 1, 2, 3.
4. Se ubica la posición de los cuartiles en la tabla de frecuencias, para ello se observa la primera
frecuencia acumulada que tenga un número mayor o igual a la posición del cuartil. En dicha
frecuencia se encuentra el cuartil buscado y si la posición del cuartil se encuentra entre los valores
de dos frecuencias acumuladas se promedia los dos datos, tal como se hizo para datos simples,
esta situación se presenta en el literal c) de este ejemplo.

a) Para responder el literal a) se requiere la posición del cuartil 1, la cual se obtiene utilizando la
𝑘(𝑛)
expresión : y sustituyendo los valores: k=1 y n=42 se tiene:
4

𝑘(𝑛) 1(42) 42
= = = 10.5
4 4 4

La posición del cuartil 1 es 10.5 y la primera frecuencia acumulada que supera este valor es 11, entonces
el cuartil 1 será:

𝑄1 = 229 días

El valor de 𝑸𝟏 = 𝟐𝟐𝟗 se interpreta como: El hospital se tarda 229 días para realizar la cirugía al 25% de
los pacientes o equivalentemente que el 25% de los pacientes tuvo que espera a lo sumo 229 días para
que le realizaran la cirugía desde la fecha de la consulta.

b) Para responder el literal b) se requiere la posición del cuartil 2, para ello se sustituyen los valores:
k=2 y n=42 en:

𝑘(𝑛) 2(42) 84
= = = 21
4 4 4

La posición del cuartil 2 es 21 y la primera frecuencia acumulada que supera este valor es 23,
entonces el cuartil 2 será:

𝑄2 = 269 días

El valor de 𝑸𝟐 = 𝟐𝟔𝟗 se interpreta como: El hospital se tarda 269 días para realizar la cirugía al
50% de los pacientes o equivalentemente que el 50% de los pacientes tuvo que espera a lo sumo
269 días para que le realizaran la cirugía desde la fecha de la consulta.

c) Para calcular la posición del cuartil 3, se sustituyen los valores: k=3 y n=42 en:

59/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

𝑘(𝑛) 3(42) 126


= = = 31.5
4 4 4

La posición del cuartil 3 es 31.5 y se ubica exactamente entre dos frecuencias acumuladas, tal como se
muestra en el siguiente parte de la tabla de frecuencias (color gris):

3 274 27 8 de octubre
6 de enero
4 278 31 12 de octubre
2 280 33 15 de octubre
7 de enero
3 283 36 18 de octubre

Por lo que, para obtener el cuartil 3 debe promediarse los dos valores, estos son:

278+280 558
𝑄3 = = = 279 días
2 2

El valor de 𝑸𝟑 = 𝟐𝟕𝟗 se interpreta como: El hospital se tarda 279 días para realizar la cirugía al 75% de
los pacientes o equivalentemente que 279 días es lo mínimo que debe esperar el 25% de los pacientes
que más se tardaron para que le realizaran la cirugía desde la fecha de la consulta.

Cuartiles: tablas de frecuencias agrupadas en clases.

Si los datos están agrupados en clases entonces el cálculo de los cuartiles no se hace de forma directa, se
utiliza interpolación, tal como se hizo con la mediana, la cual coincide con el cuartil 2, esto es:

2n 2n
4 − Ni−1 = ni
⟹ Md = Q2 = Li−1 + (4
− Ni−1
) Ci
Md − Li−1 Li − Li−1 ni

donde

Li−1 : Límite inferior del intervalo donde se encuentra el cuartil 2, el cual se determina observando la
2n
primera frecuencia acumulada mayor o igual a .
4
Ni−1 : Frecuencia acumulada anterior del intervalo donde se encuentra el cuartil.

ni: Frecuencia absoluta del intervalo donde se encuentra el cuartil.

Ci: Ancho del intervalo i-ésimo.

Esta notación se utilizará en las siguientes medidas, evidentemente adaptando a cada situación.

60/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

Ejemplo 2.40. Notas de los estudiantes (PAESITA 2012)


Para el estudio de los cuartiles para datos agrupados se retoma el ejemplo de la PAESITA 2012, donde su
tabla de frecuencias agrupadas es la siguiente:

Intervalo Frecuencia (ni) Frecuencia acumulada (Ni )

3.5 - < 4.1 10 10


4.1 - < 4.7 24 34
4.7 - < 5.3 12 46
5.3 - < 5.9 7 53
5.9 - < 6.5 5 58
6.5 - < 7.1 2 60
7.1 - < 7.7 3 63
n = 63

A partir de los datos de la tabla de frecuencia obtener los siguientes estadísticos:


a) ¿Cuál fue la calificación máxima para el 25% de los centros educativos con menores calificaciones?
b) ¿Cuál fue la calificación máxima para el 50% de los centros educativos con menores calificaciones?
c) ¿Cuál fue la calificación mínima para el 25% de los centros educativos con mayores calificaciones?

Solución:

Para el cálculo de los cuartiles cuando se tiene datos en tabla de frecuencia agrupadas en clase, se utiliza
un procedimiento análogo al de datos en tablas de frecuencias simples, esto es:

a) Para responder el literal a) se requiere la posición del cuartil 1, para ello, se sustituyen los valores: k=1
y n=63 en:

𝑘(𝑛) 1(63) 63
4
= 4
= 4
= 15.75

La posición del cuartil 1 es 15.75 y la primera frecuencia acumulada que supera este valor es 34, entonces
el cuartil 1 se encuentra en el segundo intervalo y se obtiene utilizando la siguiente fórmula:

n
− Ni−1
Q1 = Li−1 + (4 ) Ci
ni

A partir de los datos de la tabla de frecuencia se obtiene:

Li−1 = L1 = 4.1, Ni−1 = N1 = 10 , n2 = 24 y Ci = C2 = 0.6

61/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

Sustituyendo los datos anteriores en la fórmula del cuartil 1 se tiene:


15.75−10 5.75
Q1 = 4.1 + ( ) 0.6 = 4.1 + ( 24 ) 0.6 = 4.1 + 0.14 = 4.24
24

El valor de 𝑸𝟏 = 𝟒. 𝟐𝟒 se interpreta como: el 25% de los centros educativos que participaron en la


prueba de logros con estudiantes de 6° grado del municipio de San Salvador en el año 2012, obtuvieron
notas menor o igual que 4.24.

b) ¿Cuál fue la calificación máxima para el 50% de los centros educativos con menores calificaciones?

𝑘(𝑛) 2(63) 126


La posición del cuartil 2, es: = = = 31.5
4 4 4

La primera frecuencia acumulada que supera la posición del cuartil 2 es 34, entonces el cuartil 2 se
encuentra en el segundo intervalo y se obtiene utilizando la siguiente fórmula:

2n
− Ni−1
Q2 = Li−1 + (4 ) Ci
ni

A partir de los datos de la tabla de frecuencia se obtiene:

Li−1 = L1 = 4.1, Ni−1 = N1 = 10 , n2 = 24 y Ci = C2 = 0.6

Sustituyendo los datos anteriores en la fórmula del cuartil 2 se tiene:

31.5−10 21.5
Q 2 = 4.1 + ( ) 0.6 = 4.1 + ( 24 ) 0.6 = 4.1 + 0.54 = 4.64
24

El valor de 𝑸𝟐 = 𝟒. 𝟔𝟒 se interpreta como: el 50% de los centros educativos que participaron en la


prueba de logros con estudiantes de 6° grado del municipio de San Salvador en el año 2012, obtuvieron
notas menores o iguales que 4.64.

c) ¿Cuál fue la calificación mínima para el 25% de los centros educativos con mayores calificaciones?

𝑘(𝑛) 3(63) 189


La posición del cuartil 3, es: = = = 47.25
4 4 4

La posición del cuartil 3 es 47.25 y la primera frecuencia acumulada que supera este valor es 53, entonces
el cuartil 3 se encuentra en el cuarto intervalo y se obtiene utilizando la siguiente fórmula:

62/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

3n
− Ni−1
Q 3 = Li−1 + (4 ) Ci
ni

A partir de los datos de la tabla de frecuencia se obtiene:

Li−1 = L3 = 5.3, Ni−1 = N3 = 46 , n4 = 7 y Ci = C4 = 0.6

Sustituyendo los datos anteriores en la fórmula del cuartil 3 se tiene:

47.25−47 0.25
Q 3 = 5.3 + ( 7
) 0.6 = 5.3 + ( 7
) 0.6 = 5.3 + 0.02 = 5.32

El valor de 𝑸𝟑 = 𝟓. 𝟑𝟐 se interpreta como: el 75% de los centros educativos que participaron en la


prueba de logros con estudiantes de 6° grado del municipio de San Salvador en el año 2012, obtuvieron
notas menores o iguales que 5.32, o que 5.32 fue la calificación mínima para el 25% de los Centros
educativos con mayores calificaciones.

Los cuartiles son los tres valores de la variable que dividen a un conjunto de datos ordenados
en cuatro partes iguales.

Q1, Q2 y Q3 determinan los valores correspondientes al 25%, al 50% y al 75% de los datos. Q2
coincide con la mediana.

2.6.2. Deciles

Los deciles son los nueve valores de la variable que dividen a un conjunto de datos ordenados en diez
partes iguales.

Datos simples.

Ejemplo 2.41. (Inasistencia a clases) Retomando el ejemplo del apartado de los cuartiles sobre inasistencia
a clase, cuyos datos ordenados son: 2, 4, 4, 4, 5, 6, 6, 7, 7, 7, 8, 8, 8, 9, 9, 9, 10, 10, 11, 11, 11, 12, 12, 12,
12, 12, 13, 13, 14, 15. Calcular los siguientes estadísticos:

a) ¿Cuál fue el número máximo de días que faltó a clases el 20% de los alumnos con menos
inasistencias?
b) ¿Cuál fue el número mínimo de días que faltó a clase el 30% de los alumnos con más inasistencias?
c) ¿Cuál fue el número máximo de días que faltó a clases el 50% de los alumnos con menos
inasistencias?

63/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

Solución:

En este caso lo que se quiere es dividir los datos en 10 grupos de estudiantes, como se muestra en el
siguiente esquema:

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

D1 D2 D3 D4 D5 D6 D7 D8 D9
Decil 1 Decil 2 Decil 3 Decil 4 Decil 5 Decil 6 Decil 7 Decil 8 Decil 9

a) Para obtener la posición del decil 2, se sustituyen los valores de k=2 y n=30 en la siguiente
expresión:

𝑘(𝑛+1) 2(30+1) 62
10
= 10
= 10
= 6.2

La posición del decil 2 es 6.2 y se ubica en la serie de datos ordenados, tal como se indica:

2, 4, 4, 4, 5, 6, posición del decil dos 6, 7, 7, 7, 8, 8, 8, 9, 9, 9, 10, 10, 11, 11, 11, 12, 12, 12, 12, 12,
13, 13, 14, 15.

6+6
El decil 2, entonces será: 𝐷2 = 2
=6

El valor de 𝑫𝟐 = 𝟔 se interpreta como: El 20% de los alumnos faltó a clase 6 días o menos
durante todo el año.

b) Para responder el literal b) primero calcular la posición del decil 7, sustituyendo los valores de
k=7 y n=30, en:

𝑘(𝑛 + 1) 7(30 + 1) 217


= = = 21.7
10 10 10

La posición del decil 7 es 21.7 y se ubica en la serie de datos ordenados así:


2, 4, 4, 4, 5, 6, 6, 7, 7, 7, 8, 8, 8, 9, 9, 9, 10, 10, 11, 11, 11, posición del decil siete, 12, 12 12, 12,
12, 13, 13, 14, 15.

11+12 23
El decil 7, entonces será: 𝐷7 = = = 11.5
2 2

El valor de 𝑫𝟕 = 𝟏𝟏. 𝟓 se interpreta como: El 70% de los alumnos faltó a clase 11.5 días o menos
durante todo el año o de forma equivalente, el número mínimo de días que faltó a clases el 25%
de los alumnos que más faltaron a clase fue 11.5.

64/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

c) Para calcular la posición del decil 5, se sustituyen los valores de k=5 y n=30, en:

𝑘(𝑛 + 1) 5(30 + 1) 155


= = = 15.5
10 10 10

La posición del decil 5 es 15.5 que es exactamente la misma posición del cuartil 2.

El decil 5, entonces será: 𝐷5 = 9 = 𝑄2

El valor de 𝑫𝟓 = 𝟗 se interpreta como: El 50% de los alumnos faltó a clase 9 días o menos durante
todo el año o de forma equivalente, el número máximo de días que faltó a clases el 50% de los
alumnos fue 9.

OJO: ¡El cuartil 2 es igual al decil 5!

Deciles: en tablas de frecuencias simples.

Ejemplo 2.42. Retomando el ejemplo 2.39 (Tiempo en programar la cirugía) que se refiere al tiempo que
se tarda en programar la cirugía a los pacientes de cierto hospital público, responder las preguntas:

a) ¿Cuántos días se tardó el hospital para realizar la cirugía al 20% de los pacientes?
b) ¿Cuántos días se tardó el hospital para realizar la cirugía al 50% de los pacientes?
c) ¿Cuántos días se tardó el hospital para realizar la cirugía al 80% de los pacientes?

Solución:

Se procede de manera análoga en el caso de los deciles para datos simples:

1) El total de datos (pacientes) es: n = 42.


2) Retomar la tabla de distribución de frecuencias construida para los cuartiles.
3) Calcular la posición de cada uno de los deciles tal como se hizo para datos simples.
4) Se ubica la posición de los deciles en la tabla de frecuencias, para ello se observa la primera
frecuencia acumulada que tenga un número mayor o igual a la posición del decil. En dicha
frecuencia se encuentra el decil buscado y si la posición del decil se encuentra entre los valores
de dos frecuencias acumuladas se promedia los dos datos, tal como se hizo para datos simples,
esta situación se presenta en el literal c) de este ejemplo.

a) Para responder el literal a) se requiere la posición del decil 2, para ello, se sustituyen los valores:
k=2 y n=42 en la siguiente expresión:

𝑘(𝑛) 2(42) 84
10
= 10
= 10
= 8.4

65/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

La posición del decil 2 es 8.4 y la primera frecuencia acumulada que supera este valor es 11,
entonces el decirl 2 será:
𝐷2 = 229 días

El valor de 𝑫𝟐 = 𝟐𝟐𝟗 se interpreta como: El hospital se tarda 229 días para realizar la cirugía al 20% de
los pacientes o equivalentemente que el 20% de los pacientes tuvo que espera a lo sumo 229 días para
que le realizaran la cirugía desde la fecha de la consulta.

b) ¿Cuántos días se tardó el hospital para realizar la cirugía al 50% de los pacientes?

Sustituyendo los valores: k=5 y n=42 se tiene:

𝑘(𝑛) 5(42) 210


= = = 21
10 10 10

La posición del decil 5 es 21 exactamente la misma del 𝑄2 , entonces el decil 5 será:

𝐷5 = 269 días = 𝑄2

El valor de 𝑫𝟓 = 𝟐𝟔𝟗 se interpreta como: El hospital se tarda 269 días para realizar la cirugía al 50% de
los pacientes o equivalentemente que el 50% de los pacientes tuvo que espera a lo sumo 269 días para
que le realizaran la cirugía desde la fecha de la consulta.

c) ¿Cuántos días se tardó el hospital para realizar la cirugía al 80% de los pacientes?

Sustituyendo los valores: k=8 y n=42 se tiene:

𝑘(𝑛) 8(42) 336


= = = 33.6
10 10 10

La posición del decil 8 es 33.6 y se ubica exactamente entre dos frecuencias acumuladas, tal como
se muestra en el siguiente parte de la tabla de frecuencias (color gris):

3 274 27 8 de octubre
6 de enero
4 278 31 12 de octubre
2 280 33 15 de octubre
7 de enero
3 283 36 18 de octubre

Por lo que, para obtener el decil 8 debe promediarse los dos valores, estos son:

280+283 563
𝐷8 = 2
= 2
= 281.5 días

66/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

El valor de 𝑫𝟖 = 𝟐𝟖𝟏. 𝟓 se interpreta como: El hospital se tarda 281.5 días para realizar la cirugía al 80%
de los pacientes o equivalentemente que 281.5 días es lo mínimo que debe esperar el 20% de los
pacientes que más se tardaron para que le realizaran la cirugía desde la fecha de la consulta.

Deciles: tablas de frecuencias agrupadas en clases.

Al igual que en el caso de los cuartiles se usa interpolación para deducir la expresión matemática que le
define. La fórmula para calcular los cuartiles para datos agrupados en clase es la siguiente:

𝑘𝑛
− 𝑁𝑖−1
𝐷𝑘 = 𝐿𝑖−1 + (10 ) 𝐶𝑖
𝑛𝑖

Donde k=1, 2, 3,…,9

𝐿𝑖−1 : Límite inferior del intervalo donde se encuentra el decil buscado, el cual se determina observando
𝑘𝑛
en que clase se encuentra la posición .
10

𝑁𝑖−1 : Frecuencia acumulada anterior al intervalo donde se encuentra la posición del decil buscado.

𝑛𝑖 : Frecuencia absoluta del intervalo donde se encuentra la posición del decil buscado.

𝐶𝑖 : Es el ancho del intervalo donde se encuentra la posición del decil buscado.

Ejemplo 2.43: Notas de los estudiantes (PAESITA 2012)

Retomando el ejemplo de los resultados de la PAESITA 2012 visto en el cálculo de los cuartiles, responder
las preguntas:

a) ¿Cuál fue la calificación máxima para el 20% de los centros educativos con menores calificaciones?
b) ¿Cuál fue la calificación mínima para el 20% de los centros educativos con mayores calificaciones?

Solución

Para el cálculo de los deciles cuando se tiene datos en tabla de frecuencia agrupadas en clase, se utiliza un
procedimiento análogo al de datos en tablas de frecuencias simples, esto es:

a) Para calcular la posición del decil 2, se sustituyen los valores: k=2 y n=63 en la siguiente expresión:

𝑘(𝑛) 2(63) 126


= = = 12.6
10 10 10

La posición del decil 2 es 12.6 y la primera frecuencia acumulada que supera este valor es 34, entonces
el decil 2 se encuentra en el segundo intervalo. A partir de los datos de la tabla de frecuencia se obtiene:

Li−1 = L1 = 4.1, Ni−1 = N1 = 10 , n2 = 24 y Ci = C2 = 0.6, k = 2

67/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

Sustituyendo los datos anteriores en la fórmula del decil 2 se tiene:


12.6−10 2.6
D2 = 4.1 + ( ) 0.6 = 4.1 + ( 24 ) 0.6 = 4.1 + 0.065 = 4.17
24

El valor de 𝑫𝟐 = 𝟒. 𝟏𝟕 se interpreta como: el 20% de los centros educativos que participaron en la


prueba de logros con estudiantes de 6° grado del municipio de San Salvador en el año 2012, obtuvieron
notas menor o igual que 4.17.

b) ¿Cuál fue la calificación mínima para el 20% de los centros educativos con mayores calificaciones?

Sustituyendo los valores: k=8 y n=63 se tiene:

𝑘(𝑛) 8(63) 504


= = = 50.4
10 10 10

La posición del decil 8 es 50.4 y la primera frecuencia acumulada que supera este valor es 53, entonces el
decil 8 se encuentra en el cuarto intervalo. A partir de los datos de la tabla de frecuencia se obtiene:

Li−1 = L3 = 5.3, Ni−1 = N3 = 46 , n4 = 7 y Ci = C4 = 0.6, 𝑘 = 8

Sustituyendo los datos anteriores en la fórmula del decil 8 se tiene:

50.4−47 3.4
D8 = 5.3 + ( ) 0.6 = 5.3 + ( 7 ) 0.6 = 5.3 + 0.29 = 5.59
7

El valor de 𝑫𝟖 = 𝟓. 𝟓𝟗 se interpreta como: el 80% de los centros educativos que participaron en la


prueba de logros con estudiantes de 6° grado del municipio de San Salvador en el año 2012, obtuvieron
notas menores o iguales que 5.59, o que 5.59 fue la calificación mínima para el 20% de los centros
educativos con mayores calificaciones.

Los deciles son los nueve valores de la variable que dividen a un conjunto de datos ordenados
en diez partes iguales.

D1, D2 , …, D9 determinan los valores correspondientes al dividir en porciones de 10%


respectivamente. D5 coincide con la mediana.

Existen otras medidas de posición que son útiles en el análisis estadístico y que se obtiene de forma
análoga a los cuartiles o deciles, por ejemplo los quintiles o percentiles.

68/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

2.6.3. Percentiles

El percentil indica, una vez ordenados los datos de menor a mayor, el valor de la variable por debajo del
cual se encuentra un porcentaje dado de observaciones en un grupo de observaciones. Por ejemplo, el
percentil 20 es el valor bajo el cual se encuentran el 20 por ciento de las observaciones.

Se representan con la letra P. Para el percentil i-ésimo, donde la i toma valores del 1 al 99. El i % de la
muestra son valores menores que él y el (100-i)% restante son mayores. Algunas igualdades que se dan
entre los percentiles, cuartiles y deciles son las siguientes:

𝑃10 = 𝐷1 , 𝑃25 = 𝑄1, 𝑃50 = 𝐷5 = 𝑄2 = 𝑀𝑒𝑑𝑖𝑎𝑛𝑎, 𝑃75 = 𝑄3.

La forma de obtener los percentiles es análogo al cálculo de cuartiles y deciles que se han presentado
anteriormente, con la diferencia que para calcular la posición de cada uno de los percentiles se utiliza la
𝑘(𝑛+1)
siguiente expresión 100 , 𝑘 = 1, 2, 3, . . . , 99 para datos simples. Si los datos se encuentran en una
tabla de frecuencia simple o agrupada en clase, la posición del percentil se obtendrá con la siguiente
𝑘(𝑛)
expresión: , 𝑘 = 1, 2, 3, . . . , 99.
100

A continuación se presenta un ejemplo que ilustra el procedimiento para calcular los percentiles para
datos agrupados en clase. Para datos simples o tablas de frecuencia simples, se deja de tarea al lector, a
fin de que practiquen su cálculo utilizando los primeros dos ejemplos desarrollados para cuartiles.

Ejemplo 2.44. La estatura (mts) de 65 jugadores de equipos de baloncesto de El Salvador se presenta en


la siguiente tabla de frecuencias:

Estatura Frecuencia (ni) Frecuencia acumulada (Ni )

1.70 - < 1.75 5 5


1.75 - < 1.80 12 17
1.80 - < 1.85 15 32
1.85 - < 1.90 18 50
1.90 - < 1.95 10 60
1.95 - < 2.0 3 63
2.0 - < 2.05 2 65
n = 65

Obtener:
a) ¿Cuál es la estatura máxima para el 10% de los jugadores más pequeños?
b) ¿Cuál es la estatura máxima para el 20% de los jugadores más pequeños?
c) ¿Cuál es la estatura mínima para el 15% de los jugadores más altos?
d) ¿Cuántos jugadores se encuentran por encima del percentil 80?

69/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

Solución

Para calcular los percentiles para datos agrupados en clase se utiliza la siguiente fórmula:

kn
100 − Ni−1
Pk = Li−1 + ( ) Ci
ni

Para deducir la fórmula anterior, nuevamente se utiliza la semejanza de triángulos, de la misma forma que
se dedujo la fórmula para los cuartiles.

a) ¿Cuál es la estatura máxima para el 10% de los jugadores más pequeños?

𝑘(𝑛)
Para calcular la posición del percentil 10, se utiliza la siguiente expresión:
100

Sustituyendo los valores: k=10 y n=65 se tiene:

𝑘(𝑛) 10(65) 650


= = = 6.5
100 100 100

La posición del percentil 10 es 6.5 y la primera frecuencia acumulada que supera este valor es 17,
entonces el percentil 10 se encuentra en el segundo intervalo y se obtiene utilizando la siguiente
fórmula:

10n
− Ni−1
P10 = Li−1 + (100 ) Ci
ni

A partir de los datos de la tabla de frecuencia se obtiene (medidas en metros):

Li−1 = L1 = 1.75, Ni−1 = N1 = 5 , n2 = 12 y Ci = C2 = 0.05

Sustituyendo los datos anteriores en la fórmula del percentil 10 se tiene:

6.5−5 1.5
P10 = 1.75 + ( ) 0.05 = 1.75 + ( 12 ) 0.05 = 1.75 + 0.00625 = 1.76
12

El valor de 𝑷𝟏𝟎 = 𝟏. 𝟕𝟔 se interpreta como: el 10% de los jugadores de baloncesto más


pequeños, tienen una estatura menor o igual que 1.76 metros.

b) ¿Cuál es la estatura máxima para el 20% de los jugadores más pequeños?


𝑘(𝑛)
Para calcular la posición del percentil 20, se utiliza la siguiente expresión:
100

70/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

Sustituyendo los valores: k=20 y n=65 se tiene:

𝑘(𝑛) 20(65) 1300


= = = 13
100 100 100

La posición del percentil 20 es 13 y la primera frecuencia acumulada que supera este valor es
17, entonces el percentil 20 se encuentra en el segundo intervalo y se obtiene utilizando la
siguiente fórmula:

20n
− Ni−1
P20 = Li−1 + (100 ) Ci
ni

A partir de los datos de la tabla de frecuencia se obtiene (medidas en metros):

Li−1 = L1 = 1.75, Ni−1 = N1 = 5 , n2 = 12 y Ci = C2 = 0.05

Sustituyendo los datos anteriores en la fórmula del percentil 20 se tiene:

13−5 8
P20 = 1.75 + ( ) 0.05 = 1.75 + (12) 0.05 = 1.75 + 0.033 = 1.78
12

El valor de 𝑷𝟐𝟎 = 𝟏. 𝟕𝟖 se interpreta como: el 20% de los jugadores de baloncesto más


pequeños, tienen una estatura menor o igual que 1.78 metros. Gráficamente los percentiles
10 y 20 se presentan a continuación

c) ¿Cuál es la estatura mínima para el 15% de los jugadores más altos?

𝑘(𝑛)
Para calcular la posición del percentil 85, se utiliza la siguiente expresión:
100

Sustituyendo los valores: k=85 y n=65 se tiene:

𝑘(𝑛) 85(65) 5525


= = = 55.25
100 100 100

71/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

La posición del percentil 85 es 55.25 y la primera frecuencia acumulada que supera este valor
es 60, entonces el percentil 85 se encuentra en el quinto intervalo y se obtiene utilizando la
siguiente fórmula:
85n
− Ni−1
P85 = Li−1 + (100 ) Ci
ni

A partir de los datos de la tabla de frecuencia se obtiene (medidas en metros):

Li−1 = L4 = 1.90, Ni−1 = N4 = 50 , n5 = 10 y Ci = C5 = 0.05

Sustituyendo los datos anteriores en la fórmula del percentil 85 se tiene:

55.25−50 5.25
P85 = 1.9 + ( ) 0.05 = 1.9 + ( 10 ) 0.05 = 1.9 + 0.026 = 1.93
10

El valor de 𝑷𝟖𝟓 = 𝟏. 𝟗𝟑 se interpreta como: el 15% de los jugadores de baloncesto más altos,
tienen una estatura mayor o igual que 1.93 metros. Gráficamente el percentil 85 se presenta
a continuación:

d) ¿Cuántos jugadores se encuentran por encima del percentil 80?

Por encima del percentil 80, hay el 20% de los 65 jugadores que se han considerado en este
ejemplo, por tanto, para responder el literal d) se realiza el siguiente cálculo:
65(0.2)=13. También, es importante conocer la estatura mínima de estos 13 jugadores, para
ello debe calcularse el percentil 80.

Los percentiles son los noventa y nueve valores de la variable que dividen a un conjunto de
datos ordenados en cien partes iguales.

Por ejemplo P10, P30 y P75 determinan los valores correspondientes al 10%, al 30% y al 75% de
los datos.

La fórmula para calcular los percentiles para datos agrupados en clase es la siguiente:

72/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

kn
− Ni−1
Pk = Li−1 + (100 ) Ci donde k=1, 2, 3. . . , 99
ni

𝐿𝑖−1 : Límite inferior del intervalo donde se encuentra el percentil buscado, el cual se determina
𝑘𝑛
observando en que clase se encuentra la posición .
100
𝑁𝑖−1 : Frecuencia acumulada anterior al intervalo donde se encuentra la posición del percentil buscado.

𝑛𝑖 : Frecuencia absoluta del intervalo donde se encuentra la posición del percentil buscado.

𝐶𝑖 : Es el ancho del intervalo donde se encuentra la posición del percentil buscado.

NOTA: En este documento se ha tomado la siguiente convención para obtener la posición de los quintiles:
𝑘(𝑛+1)
Posición para datos simples: , donde j= 1,2 y 3 para cuartiles, j=1,2, …, 9 para deciles y j= 1,2,3, …,
𝑗
98, 99 para percentiles.
𝑘(𝑛)
Posición para datos agrupados en tablas de frecuencias: , donde j= 1,2 y 3 para cuartiles, j=1,2, …, 9
𝑗
para deciles y j= 1,2,3, …, 98, 99 para percentiles.

2.6.4. Actividad de autoevaluación

1) Retomando los datos del ejemplo de (Inasistencia a clases ) donde el profesor de Matemática
cuenta los días de inasistencia a clase de cada uno de sus alumnos, obteniendo los siguientes
datos: 4, 8, 5, 6, 4, 7, 2, 4, 7, 8, 9, 10, 11, 12, 13, 12, 11, 10, 12, 6, 7, 12, 9, 8, 9, 12, 11, 13, 14, 15,
con dicha información quiere calcular los siguientes estadísticos:
a) ¿Cuál fue el número máximo de días que faltó a clases el 35% de los alumnos con menos
inasistencias?
b) ¿Cuál fue el número máximo de días que faltó a clases el 80% de los alumnos con menos
inasistencias?
c) ¿Cuál fue el número mínimo de días que faltó a clase el 15% de los alumnos con más
inasistencias?

2) Las notas finales del curso de didáctica del número (datos hipotéticos) son las siguientes: 6.7,
8.2, 8.9, 7.9, 8.1, 7.6, 8.5, 7.3, 8.6, 8.8, 8.8, 7.7, 8.2, 7.7, 7.1, 9.0, 8.5, 9.3, 8.8, 8.1, 8.4, 6.9, 9.2,
8.2, 8.6, 7.0. Determinar e interpretar el percentil 90.

3) Retomando la información del ejemplo 2.39 sobre (Tiempo en programar la cirugía).

73/74
Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática, Licenciatura en
Enseñanza de las Ciencias Naturales, Educación a distancia.
Asignatura: Estadística Aplicada a la Educación, Unidad I

Fecha de consulta N° de pacientes Programación de cirugía


2 de enero 6 2 el 8 y 4 el 10 de agosto
3 de enero 8 5 el 22 y 3 el 24 de agosto
4 de enero 6 3 el 26 y 3 el 28 de septiembre
5 de enero 4 3 el 2 y 1 el 4 de octubre
6 de enero 7 3 el 8 y 4 el 12 de octubre
7 de enero 5 2 el 13 y 3 el 18 de octubre
8 de enero 6 3 el 4 y 3 el 8 de noviembre

a) ¿Cuántos días se tardó el hospital para realizar la cirugía al 30% de los pacientes?
b) ¿Cuántos días se tardó el hospital para realizar la cirugía al 60% de los pacientes?
c) ¿Cuántos días se tardó el hospital para realizar la cirugía al 90% de los pacientes?

4) Suponga que se tiene las estaturas (cm) de los 40 estudiantes de nivel básico y se agrupan en la
siguiente tabla de frecuencias:

Frecuencia Marca de F acum. F. rel.


Intervalo Frecuencia relativa clase absoluta Absoluta
148.5 - < 153.5 2 2/40 = 0.05 151 2 0.05
153.5 - < 158.5 4 4/40 = 0.1 156 6 0.15
158.5 - < 163.5 11 11/40 = 0.275 161 17 0.425
163.5 - < 168.5 14 14/40 = 0.35 166 31 0.775
168.5 - < 173.5 5 5/40 = 0.125 171 36 0.9
173.5 - < 178.5 4 4/40 = 0.1 176 40 1
n = 40 Suma = 1

Con los datos de la tabla anterior:


a) Calcular e interpretar los valores de 𝑄1 , 𝐷5 𝑦 𝑃90 .
b) ¿Arriba de qué valor quedan las estaturas del 50% de los adolescentes estudiados?

74/74

También podría gustarte