Está en la página 1de 8

Medidas estadísticas

descriptivas
En muchas ocasiones necesitamos disponer de una única medida o número
que resuma toda la información provista por un conjunto de datos. Este tipo
de medida se denomina medida de tendencia central o de posición, e indica
un valor de referencia que da una idea del valor “general” de la variable
analizada para todos los datos de interés. La manera en que se comprensa
esa idea de “general” dará lugar a la decisión sobre qué medida utilizar.
Antes de comenzar, definamos nuevamente los conceptos de población y
muestra:
La población es el colectivo completo al cual pertenece cada unidad de
estudio. Una muestra es un subconjunto de la población. En general estamos
interesados en las muestras probabilísticas o como las denominamos
habitualmente, representativas, que están seleccionadas de manera tal que
se conozca previamente la probabilidad de selección de cada individuo.

Media Aritmética
El concepto más difundido y de mayor aplicación es la medida denominada
media. La media (o promedio) informa sobre un valor tal que si todos los
individuos del conjunto fueran iguales (extrayendo lo que a algunos les sobra
respecto de esa medida de igualdad y agregando lo que les falta a los que se
encuentran por debajo de esa media).

Como la fórmula permite ver, se suman todos los valores registrados para
todos los integrantes de la población, y se divide en tantos casos como el
número que integran la población (N). En el caso de trabajar con datos
provenientes de una muestra, se procede de manera análoga, y se
considerará la siguiente fórmula de cálculo y notación para la media
muestral, donde n es el tamaño de la muestra:

1
El siguiente gráfico esquematiza el concepto de la media de un conjunto de
datos.
Figura 1: Concepto de promedio

Fuente: elaboración propia

La casa 2 coincide con el tamaño promedio del conjunto de tres casas


presentado. Como se puede observar, este tamaño es tal que si sumamos
los tamaños de las tres casas y dividimos por tres, resulta un valor tal que
indica el tamaño que tendrían si todas fueran iguales. Y justamente para
alcanzar este valor de igualdad, debemos agregar (o restar) al valor original
de las que no son iguales al promedio, lo que les falta (o les sobra de ese
valor). En relación con esta situación se deriva una propiedad muy
interesante de la media: la suma de los desvíos respecto de la media es igual
a cero. Veamos esta propiedad con nuestro ejemplo.

Tabla 1: Desvíos respecto de la media

Casa Altura Desvío respecto a la


media

Casa 1 2 -0,5

Casa 2 2,5 0

Casa 3 3 0,5

Suma: 0

Fuente: elaboración propia

2
De las características mencionadas de la media se desprende que es un buen
indicador de posición del conjunto de datos en la medida en que los
diferentes datos analizados sean bastante similares entre sí. Veremos más
adelante cómo evaluar si es cierto que los datos se parecen y es conveniente
usar la media.
Como alternativa (y en algunas circunstancias como complemente para una
mejor descripción de un conjunto de datos) al uso de la media, se usan otras
medidas de posición. Describiremos a continuación las siguientes medidas
de posición: la mediana, la moda y los cuantiles (percentiles, deciles,
quintiles, cuartiles, etc.).

Moda
La moda es uno de los indicadores más sencillos disponibles. Señala el valor
de la variable que se repite más veces. Para determinarla, sólo es necesario
contar con una tabla de frecuencias. Por ello, es la única medida de
tendencia central o posición que se puede calcular para variables medidas
en escala nominal. Veamos algunos ejemplos.

Tabla 2: Cantidad de alumnos por examen recuperatorio

Sexo Frecuencia

Mujer 2

Varón 5

Total 7

Fuente: elaboración propia

En la tabla anterior observamos que la categoría de la variable que presenta


mayor frecuencia es Varón, por lo tanto este valor será la moda. La moda es
aplicable a cualquier nivel de medición siempre que sea posible realizar una
tabla de frecuencias.

Mediana

3
La mediana es la medida de posición que mejor refleja la información
sintética de un conjunto de datos, si no podemos utilizar la media. La
mediana nos indica cuál es el valor de la variable analizada que divide al
conjunto de datos (ordenado) en dos partes aproximadamente iguales. Una
definición más precisa indica que, la mediana es aquel valor de la variable
(observado o no) que deja por debajo de ella a no más de la mitad de las
observaciones y por encima de ella a no más de la mitad de las
observaciones.
Los siguientes ejemplos muestran cómo determinar el valor de la mediana
para diferentes conjuntos de datos.
En un conjunto pequeño de observaciones, lo que debemos hacer en primer
lugar es ordenarlos de menor a mayor:
Conjunto original: {2, 3, 5, 2, 6, 7, 5}
Serie ordenada: {2, 2, 3, 4, 5, 7, 7}
Vemos que el valor que cumple todas las condiciones mencionadas es el 4,
ya que no más de la mitad de los datos es menor que este valor, y no más de
la mitad es mayor a este valor.
Como regla general, cuando observamos los datos ordenados, la mediana
podrá calcularse en base a las siguientes fórmulas (se debe tener en cuenta
si tenemos un número par o impar de datos para ver cómo seleccionar este
valor que divide el conjunto de datos en dos partes de aproximadamente la
misma cantidad de observaciones). El ejemplo anterior era un caso de
número impar de observaciones

Veamos el cálculo para el caso de un número par de observaciones. En este


caso es evidente que no podrá seleccionarse un número central indiscutido.
Por ello, se selecciona como indicativo de la mediana al promedio de los dos
números más próximos a la posición central de la serie ordenada de datos.

En la siguiente serie ordenada tenemos (la primera fija indica la posición en


la serie ordenada y la segunda el valor de la variable para esa posición).

J 1 2 3 4 5 6 7 8 9 10

Xj 2 3 3,5 5 7 12 18 18 20 25

Aplicando la fórmula tendremos:

4
Puede observarse que la mediana es igual a 9,5. Este número cumple con las
propiedades que definen a la mediana. Es importante destacar que este
número no pertenece necesariamente al conjunto de datos original.
La mediana posee algunas propiedades interesantes, entre las que nos
interesa destacar que, a diferencia de la media, no es influida por valores
extremos, ya que se establece a partir de las posiciones en la serie ordenada.

Cuantiles
Las medidas denominadas en términos genéricos cuantiles, hacen referencia
a valores análogos a la mediana, pero que dividen al conjunto de datos
(siempre ordenado) en diferentes cantidades de secciones. En general, estos
valores tienen sentido cuando analizamos un número elevado de
observaciones. Así, por ejemplo, si dividen al conjunto de datos en cuatro
partes se denominan “cuartiles”. El siguiente esquema representa los
cuartiles. Como puede observarse, el primer cuartil es el valor de la variable
estudiada que supera al 25% de las observaciones y es superado por el 75%
de las observaciones, aproximadamente. El segundo cuartil (obviamente,
coincide con la Mediana), supera al 50% de las observaciones y es superado
por la mitad restante, y el tercer cuartil, supera al 75% de las observaciones,
en tanto es superado por el 25% de los valores (los más elevados).

Figura 2: Cuartiles

Fuente: Elaboración propia

Con la misma idea, si consideramos los quintiles, tendremos los valores que
cortan a la distribución en 5 partes con la misma cantidad de datos. Si
consideramos los deciles, tendremos los valores que dividen a la distribución

5
en 10 partes, y así sucesivamente. Otra división de gran aplicación cuando el
número de observaciones es muy elevado es en 100 partes, y esos valores
que cortan cada sección se denominan percentiles.

Medidas de dispersión
Como mencionamos previamente, estas medidas se utilizan para indicar
dónde se ubican aproximadamente un conjunto de datos, con una medida
única que resuma a todo el conjunto. Para complementar esta información
es necesario contar con otro tipo de medidas o indicadores que informe si
los datos son parecidos entre sí o respecto de la medida de tendencia central
considerada. Este tipo de medida se denomina medida de dispersión, ya que
informan sobre las diferencias que presentan los valores observados
respecto de un de posición.
Una de las medias de dispersión básicas es la varianza. Este indicador se
calcula sumando los desvíos al cuadrado de cada observación con respecto
a la media. La siguiente fórmula corresponde a la varianza poblacional:

Para el cálculo de la varianza muestral se debe tener en cuenta que el


denominador debe corregirse a fin de disponer de un estimador insesgado
de la varianza poblacional. Tal ajuste se refleja en la siguiente fórmula:

Veamos cómo se calculan estos indicadores a través de un ejemplo. En el


siguiente caso, comentaremos la manera de calcular la varianza muestral,
para una muestra de 8 alumnos, a los cuales se los evaluó en un examen
genérico.

Tabla 3: Calificaciones de alumnos

6
Alumno de la Nota obtenida Desvío respecto Desvío al
muestra en el examen a la media cuadrado

1 5 -1,875 3,516

2 7 0,125 0,016

3 8 1,125 1,266

4 6 -0,875 0,766

5 4 -2,875 8,266

6 9 2,125 4,516

7 10 3,125 9,766

8 6 -0,875 0,766

Total 55 Total 28,875

Media: 6,875 Varianza: 4,125

Fuente: elaboración propia

Como se explicita en el ejemplo anterior, la unidad de medida de la varianza


es la misma que la de la variable original, pero elevada al cuadrado. Esto
implica una mayor dificultad para interpretar este parámetro. Por ello se
suele utilizar más la medida derivada de la varianza denominada desviación
estándar, que precisamente se obtiene tomando la raíz cuadrada de la
varianza.
Desviación estándar de la población:

Desviación estándar de la muestra:

7
Este indicador es más fácil de emplear, ya que está expresado en las mismas
unidades que la media. Sin embargo, no permite la comparación de dos
poblaciones (o muestras)a fin de determinar en cuál de ellas los datos son
más homogéneos respecto de la media. Una medida conocida como
coeficiente de variación sí nos permite este tipo de comparación.

También podría gustarte