Documentos de Académico
Documentos de Profesional
Documentos de Cultura
descriptivas
En muchas ocasiones necesitamos disponer de una única medida o número
que resuma toda la información provista por un conjunto de datos. Este tipo
de medida se denomina medida de tendencia central o de posición, e indica
un valor de referencia que da una idea del valor “general” de la variable
analizada para todos los datos de interés. La manera en que se comprensa
esa idea de “general” dará lugar a la decisión sobre qué medida utilizar.
Antes de comenzar, definamos nuevamente los conceptos de población y
muestra:
La población es el colectivo completo al cual pertenece cada unidad de
estudio. Una muestra es un subconjunto de la población. En general estamos
interesados en las muestras probabilísticas o como las denominamos
habitualmente, representativas, que están seleccionadas de manera tal que
se conozca previamente la probabilidad de selección de cada individuo.
Media Aritmética
El concepto más difundido y de mayor aplicación es la medida denominada
media. La media (o promedio) informa sobre un valor tal que si todos los
individuos del conjunto fueran iguales (extrayendo lo que a algunos les sobra
respecto de esa medida de igualdad y agregando lo que les falta a los que se
encuentran por debajo de esa media).
Como la fórmula permite ver, se suman todos los valores registrados para
todos los integrantes de la población, y se divide en tantos casos como el
número que integran la población (N). En el caso de trabajar con datos
provenientes de una muestra, se procede de manera análoga, y se
considerará la siguiente fórmula de cálculo y notación para la media
muestral, donde n es el tamaño de la muestra:
1
El siguiente gráfico esquematiza el concepto de la media de un conjunto de
datos.
Figura 1: Concepto de promedio
Casa 1 2 -0,5
Casa 2 2,5 0
Casa 3 3 0,5
Suma: 0
2
De las características mencionadas de la media se desprende que es un buen
indicador de posición del conjunto de datos en la medida en que los
diferentes datos analizados sean bastante similares entre sí. Veremos más
adelante cómo evaluar si es cierto que los datos se parecen y es conveniente
usar la media.
Como alternativa (y en algunas circunstancias como complemente para una
mejor descripción de un conjunto de datos) al uso de la media, se usan otras
medidas de posición. Describiremos a continuación las siguientes medidas
de posición: la mediana, la moda y los cuantiles (percentiles, deciles,
quintiles, cuartiles, etc.).
Moda
La moda es uno de los indicadores más sencillos disponibles. Señala el valor
de la variable que se repite más veces. Para determinarla, sólo es necesario
contar con una tabla de frecuencias. Por ello, es la única medida de
tendencia central o posición que se puede calcular para variables medidas
en escala nominal. Veamos algunos ejemplos.
Sexo Frecuencia
Mujer 2
Varón 5
Total 7
Mediana
3
La mediana es la medida de posición que mejor refleja la información
sintética de un conjunto de datos, si no podemos utilizar la media. La
mediana nos indica cuál es el valor de la variable analizada que divide al
conjunto de datos (ordenado) en dos partes aproximadamente iguales. Una
definición más precisa indica que, la mediana es aquel valor de la variable
(observado o no) que deja por debajo de ella a no más de la mitad de las
observaciones y por encima de ella a no más de la mitad de las
observaciones.
Los siguientes ejemplos muestran cómo determinar el valor de la mediana
para diferentes conjuntos de datos.
En un conjunto pequeño de observaciones, lo que debemos hacer en primer
lugar es ordenarlos de menor a mayor:
Conjunto original: {2, 3, 5, 2, 6, 7, 5}
Serie ordenada: {2, 2, 3, 4, 5, 7, 7}
Vemos que el valor que cumple todas las condiciones mencionadas es el 4,
ya que no más de la mitad de los datos es menor que este valor, y no más de
la mitad es mayor a este valor.
Como regla general, cuando observamos los datos ordenados, la mediana
podrá calcularse en base a las siguientes fórmulas (se debe tener en cuenta
si tenemos un número par o impar de datos para ver cómo seleccionar este
valor que divide el conjunto de datos en dos partes de aproximadamente la
misma cantidad de observaciones). El ejemplo anterior era un caso de
número impar de observaciones
J 1 2 3 4 5 6 7 8 9 10
Xj 2 3 3,5 5 7 12 18 18 20 25
4
Puede observarse que la mediana es igual a 9,5. Este número cumple con las
propiedades que definen a la mediana. Es importante destacar que este
número no pertenece necesariamente al conjunto de datos original.
La mediana posee algunas propiedades interesantes, entre las que nos
interesa destacar que, a diferencia de la media, no es influida por valores
extremos, ya que se establece a partir de las posiciones en la serie ordenada.
Cuantiles
Las medidas denominadas en términos genéricos cuantiles, hacen referencia
a valores análogos a la mediana, pero que dividen al conjunto de datos
(siempre ordenado) en diferentes cantidades de secciones. En general, estos
valores tienen sentido cuando analizamos un número elevado de
observaciones. Así, por ejemplo, si dividen al conjunto de datos en cuatro
partes se denominan “cuartiles”. El siguiente esquema representa los
cuartiles. Como puede observarse, el primer cuartil es el valor de la variable
estudiada que supera al 25% de las observaciones y es superado por el 75%
de las observaciones, aproximadamente. El segundo cuartil (obviamente,
coincide con la Mediana), supera al 50% de las observaciones y es superado
por la mitad restante, y el tercer cuartil, supera al 75% de las observaciones,
en tanto es superado por el 25% de los valores (los más elevados).
Figura 2: Cuartiles
Con la misma idea, si consideramos los quintiles, tendremos los valores que
cortan a la distribución en 5 partes con la misma cantidad de datos. Si
consideramos los deciles, tendremos los valores que dividen a la distribución
5
en 10 partes, y así sucesivamente. Otra división de gran aplicación cuando el
número de observaciones es muy elevado es en 100 partes, y esos valores
que cortan cada sección se denominan percentiles.
Medidas de dispersión
Como mencionamos previamente, estas medidas se utilizan para indicar
dónde se ubican aproximadamente un conjunto de datos, con una medida
única que resuma a todo el conjunto. Para complementar esta información
es necesario contar con otro tipo de medidas o indicadores que informe si
los datos son parecidos entre sí o respecto de la medida de tendencia central
considerada. Este tipo de medida se denomina medida de dispersión, ya que
informan sobre las diferencias que presentan los valores observados
respecto de un de posición.
Una de las medias de dispersión básicas es la varianza. Este indicador se
calcula sumando los desvíos al cuadrado de cada observación con respecto
a la media. La siguiente fórmula corresponde a la varianza poblacional:
6
Alumno de la Nota obtenida Desvío respecto Desvío al
muestra en el examen a la media cuadrado
1 5 -1,875 3,516
2 7 0,125 0,016
3 8 1,125 1,266
4 6 -0,875 0,766
5 4 -2,875 8,266
6 9 2,125 4,516
7 10 3,125 9,766
8 6 -0,875 0,766
7
Este indicador es más fácil de emplear, ya que está expresado en las mismas
unidades que la media. Sin embargo, no permite la comparación de dos
poblaciones (o muestras)a fin de determinar en cuál de ellas los datos son
más homogéneos respecto de la media. Una medida conocida como
coeficiente de variación sí nos permite este tipo de comparación.