Documentos de Académico
Documentos de Profesional
Documentos de Cultura
AGRUPADOS
Recuerda que cuando hablamos de datos agrupados nos referimos a que están
distribuidos en intervalos de clase. Veamos el siguiente ejemplo relativo a los puntajes
obtenidos por 45 alumnos en una prueba calificada en una escala de 1 a 50.
Si sólo conociéramos los datos a través de esta tabla, únicamente sabríamos que 10
alumnos sacaron calificaciones ente 11 y 20, sin tener mayor especificidad, esto es, sin
conocer si alguien obtuvo 17 o 18 puntos. De hecho, ésta es una de las desventajas de
agrupar los datos en intervalos de clase; sin embargo, existe un número que funge como
representante del intervalo, llamado marca de clase.
Como se ha dicho, la marca de clase es el valor representante del intervalo, por eso, en la
práctica, al ser un valor puntual se le representa con X, como si perteneciera a la variable
de estudio. De aquí en adelante también lo ocuparemos para simbolizar la marca de clase.
Por tanto, la marca de clase del intervalo 11 – 20 es:
Media
El procedimiento para calcular la media o promedio cuando los datos están agrupados es
el siguiente:
Ejemplo:
Retomemos el caso relativo a las calificaciones de 45 alumnos. Para facilitar la aplicación
de la fórmula anterior requerimos agregar dos columnas a la tabla de datos, las cuales
corresponden a X y fX; esto es, agregar las marcas de clase de cada intervalo, así como el
producto de cada una de ellas por su frecuencia, respectivamente. De esta manera,
estaríamos realizando los pasos 1 y 2 del procedimiento indicado.
Para el paso 3 se suman todos los valores de la cuarta columna, obteniendo con ello el
valor de ΣfX, que es 1,037.5. El paso 4 consiste sólo en dividir este último valor entre 45,
que es el número de alumnos. Así:
Interpretando el resultado, podemos decir que el promedio de las calificaciones obtenidas
por los alumnos en dicha prueba fue de 23, el cual está por debajo de la mitad de la
máxima calificación (50).
Mediana
El procedimiento para calcular la mediana cuando los datos están agrupados es el
siguiente:
1. Se identifica el intervalo que contiene el valor de la mediana, para ello debemos
conocer qué lugar ocupa ésta mediante la fórmula:
5. Se identifica el límite real inferior (L) del intervalo que contiene a la mediana.
1. Hallemos el lugar que ocupa la mediana para poder ubicar en qué intervalo cae.
Esto significa que la mediana la encontramos con el promedio de los datos vigésimo
segundo y vigésimo tercero (n es impar). La frecuencia acumulada del intervalo 11-20
es 19, por lo explicado anteriormente, tenemos que del décimo al decimonoveno dato
caen en tal intervalo, pero si pasamos a la frecuencia acumulada del siguiente intervalo,
21-30, encontramos que del vigésimo al trigésimo tercer dato caen en dicho intervalo.
Por lo tanto, la mediana, promedio de los datos vigésimo segundo y vigésimo tercero,
debe estar en el intervalo 21 y 30, lo cual nos da una idea aproximada y preliminar de
su valor, esto es, entre 21-30.
2. Para hallar la frecuencia acumulada fa del intervalo inmediato inferior al que contiene a
la mediana, nos ubicamos en el intervalo 11-20, ya que éste es el intervalo inmediato
inferior al que contiene a la mediana, por lo tanto, fa = 19.
4. La amplitud a del intervalo, que en este caso es la misma para todos, es de 10, que es la
diferencia entre los límites reales del intervalo que contiene a la mediana: 30.5-20.5.
5. El límite real inferior del intervalo que contiene a la mediana es L=20.5.
Moda
Para obtener este valor, cuando los datos se encuentran agrupados en intervalos, nos
fijamos en el que tenga la frecuencia más alta, de esta manera, la moda será la marca de
clase de ese intervalo.
En el caso que estamos tratando, el intervalo que presenta la frecuencia más alta es 21-
30, cuya frecuencia es 14; por tanto, Mo = 25.5 (ver columna para X en la tabla del
ejemplo que indica el procedimiento para obtener la media o promedio). Podemos
interpretar entonces que 25.5 fue la calificación más común, puesto que 31.1% de los
alumnos obtuvieron esa calificación, un poco menos de la tercera parte de ellos.
Recuerda que el valor de la moda es una marca de clase, no la frecuencia más alta, esta
última nos indica cuál es el intervalo cuya marca de clase representa al valor de la moda.
Sugerencia:
Cuando vayas a calcular las tres medidas de tendencia central en datos agrupados, agrega
a la tabla de datos las columnas correspondientes a límites reales de cada intervalo: fa
(frecuencia acumulada), X (marca de clase) y fX (producto de la frecuencia por la marca de
clase).
Se dice que presenta una asimetría positiva cuando la mayor parte de los datos se
concentran en los valores menores (hacia la izquierda) del eje horizontal. Por otro lado, si
tiene una asimetría negativa, la mayor parte de los datos se concentran en los valores
mayores (hacia la derecha) del mismo eje.
Como puedes observar en la figura 3.13, en una asimetría positiva la cima del histograma
(imaginándolo como una montaña) tiende “a cargarse” hacia la izquierda, es decir, hacia
los valores más cercanos al cero (hablando del eje horizontal). Por el contrario, en un
comportamiento de datos con asimetría negativa, la cima “se carga” hacia la derecha, esto
es, en donde están los valores que se alejan del cero. Recuerda: las barras más altas
indican que los respectivos valores se presentan con mayor frecuencia, por eso decimos
que en la zona donde está la cima es en la que se concentran la mayor parte de los datos.
Existe un número llamado coeficiente de asimetría, el cual es positivo justamente cuando
la forma del histograma presente una asimetría positiva; es negativo cuando la asimetría
es negativa, y es cero cuando la forma es simétrica. Dicho coeficiente se considera como
una medida de forma porque está asociado precisamente con características geométricas
del comportamiento de los datos, en este caso con la simetría.
Los tres valores de las medidas de tendencia central coinciden cuando la distribución de
datos es simétrica. Cuando los datos presentan una asimetría positiva (figura 3.13a), los
tres valores son distintos, siendo la moda generalmente menor que las otras dos. En la
asimetría negativa (figura 3.13c), los tres valores también son diferentes, pero en este
caso la moda tiende a ser mayor que las otras dos.
La medida apropiada
En los casos en que la forma del comportamiento de los datos es ligeramente asimétrica,
las tres medidas de tendencia central difieren muy poco entre sí, como es el caso de
nuestro ejemplo. En tal situación es recomendable elegir la media, ya que tiene
propiedades algebraicas que la hacen útil para otro tipo de cálculos. En una distribución
marcadamente asimétrica, como ya lo hemos señalado, la media resulta afectada por los
valores extremos; así, la mediana es la medida que mejor representa al grupo de datos
por ser poco sensible a los valores extremos. El carácter marcadamente asimétrico queda
de manifiesto cuando es significativa la diferencia entre la media y la mediana.
La moda es muy útil cuando se desea una estimación aproximada y rápida de la tendencia
central, o cuando sólo nos interesa el caso más notorio o común.
Algo muy importante que ayuda a entender mejor los fenómenos en estudio es la
graficación de los datos, con ésta se puede apreciar la forma de su comportamiento,
además, indicar de antemano algún criterio para elegir la medida apropiada.
Es difícil en un solo ejemplo mostrar todas las posibilidades que se te pueden presentar en
la realización de un análisis estadístico para elegir una medida de tendencia central. Lo
anterior es una cualidad que se desarrolla conforme se adquiere experiencia o práctica en
el análisis de datos, por lo tanto, se recomienda involucrarse mucho en la fenomenología
a analizar e intercambiar opiniones con los usuarios de la información que se analiza, lo
cual dará la pauta para determinar qué medida es la mejor.
I. Tomando como base los resultados de la encuesta que aplicaste en el Bloque 1 identifica
qué medidas de tendencia central son las apropiadas.
2. Llena la siguiente tabla con los valores correspondientes a lo que indican sus columnas.
3. Calcula e interpreta los valores de la media, mediana y moda para el siguiente caso:
En la ciudad de Toluca, se tomó al azar el registro de la temperatura durante 150 días de
la época primaveral; se obtuvieron los siguientes registros, los cuales fueron redondeados
al grado centígrado más cercano.