Está en la página 1de 8

2.

Estadísticos Descriptivos

2.1. Medidas de Tendencia Central

Media Aritmética

La más importante de las medidas de tendencia central es la media, o valor promedio, de una
variable. La media proporciona una medida de localización central de los datos. Si los datos
son datos de una muestra, la media se denota ; si los datos son datos de una población, la
media se denota con la letra griega μ.
En las fórmulas estadísticas se acostumbra denotar el valor de la primera observación de la
variable x con x1, el valor de la segunda observación de la variable x con x2 y así con lo
siguiente.
En general, el valor de la i-ésima observación de la variable x se denota xi. La fórmula para la
media muestral cuando se tiene una muestra de n observaciones es la siguiente.

∑ 𝑥𝑖
𝑥=
𝑛

En la fórmula anterior el numerador es la suma de los valores de las n observaciones. Es decir,


∑ 𝑥𝑖 = 𝑥1 + 𝑥2 + ⋯ + 𝑥 𝑛

La letra griega ∑ es el símbolo de sumatoria (suma)

Para ilustrar el cálculo de la media muestral, considere los siguientes datos que representan
el tamaño de cinco grupos de una universidad.

46 54 42 46 32

Se emplea la notación 𝑥1, 𝑥2, 𝑥3, 𝑥4, 𝑥5 para representar el número de estudiantes en cada uno
de los cinco grupos.

𝑥1 = 46 𝑥2 = 54 𝑥3 = 42 𝑥4 = 46 𝑥5 = 32

Por tanto, para calcular la media muestral, escriba

∑ 𝑥𝑖 𝑥1 + 𝑥2 + 𝑥3 + 𝑥4 + 𝑥5 46 + 54 + 42 + 46 + 32
𝑥= = = = 44
𝑛 5 5

Para calcular la media de una población use la misma fórmula, pero con una notación
diferente para indicar que trabaja con toda la población. El número de observaciones en una
población se denota N y el símbolo para la media poblacional es μ.

∑ 𝑥𝑖
𝜇=
𝑁
Mediana

La mediana es otra medida de tendencia central. Es el valor de en medio en los datos


ordenados de menor a mayor (en forma ascendente). Cuando tiene un número impar de
observaciones, la mediana es el valor de en medio. Cuando la cantidad de observaciones es
par, no hay un número en medio. En este caso, se sigue una convención y la mediana es
definida como el promedio de las dos observaciones de en medio. Por conveniencia, la
definición de mediana se replantea así:

MEDIANA
Ordenar los datos de menor a mayor (en forma ascendente).
a. Si el número de observaciones es impar, la mediana es el valor de en medio.
b. Si el número de observaciones es par, la mediana es el promedio de las dos observaciones
de en medio.

Apliquemos esta definición para calcular la mediana del número de alumnos en un grupo a
partir de la muestra de los cinco grupos de universidad. Los datos en orden ascendente son

32 42 46 46 54

Como n = 5 es impar, la mediana es el valor de en medio. De manera que la mediana del


tamaño de los grupos es 46. Aun cuando en este conjunto de datos hay dos observaciones
cuyo valor es 46, al poner las observaciones en orden ascendente se toman en consideración
todas las observaciones.
Suponga que también desea calcular la mediana del salario inicial de los 12 recién egresados.
Primero ordena los datos de menor a mayor

3310 3355 3450 3480 3480 3490 3520 3540 3550 3650 3730 3925

Los dos valores de en


medio

Como n = 12 es par, se localizan los dos valores de en medio: 3490 y 3520. La mediana es el
promedio de estos dos valores.

3490 + 3520
𝑀𝑒𝑑𝑖𝑎𝑛𝑎 = = 3505
2

Moda

La tercera medida de tendencia central es la moda. La moda se define como sigue.


La moda es el valor de la variable que se presenta con mayor frecuencia.

Para ilustrar cómo identificar a la moda, considere la muestra del tamaño de los cinco grupos
de la universidad.

32 42 46 46 54

El único valor que se presenta más de una vez es el 46, por lo que es el valor con mayor
frecuencia, entonces es la moda.
Para ver otro ejemplo, considere la muestra de los sueldos iniciales de los recién egresados.

3310 3355 3450 3480 3480 3490 3520 3540 3550 3650 3730 3925

El único salario mensual inicial que se presenta más de una vez es $3480. Como este valor
tiene la frecuencia mayor, es la moda.

Hay situaciones en que la frecuencia mayor se presenta con dos o más valores distintos.
Cuando esto ocurre hay más de una moda. Si los datos contienen más de una moda se dice
que los datos son bimodales. Si contienen más de dos modas, son multimodales. En los casos
multimodales casi nunca se da la moda, porque dar tres o más modas no resulta de mucha
ayuda para describir la localización de los datos.

2.2. Medidas de Dispersión

Además de las medidas de tendencia central, es muy útil considerar las medidas de
variabilidad o de dispersión.

Rango
La medida de dispersión más sencilla es el rango.
Rango = Valor mayor - Valor menor

De regreso a los datos sobre sueldos iniciales de los recién egresados:

3310 3355 3450 3480 3480 3490 3520 3540 3550 3650 3730 3925

el mayor sueldo es 3925 y el menor 3310. El rango es:

3925 - 3310 = 615.

Varianza
La varianza es una medida de dispersión que utiliza todos los datos. La varianza está basada
en la diferencia entre el valor de cada observación (xi) y la media. A la diferencia entre cada
valor xi y la media se le llama desviación respecto de la media. Si se trata de una muestra, una
desviación respecto de la media se escribe (𝑥𝑖 − 𝑥), y si se trata de una población se escribe
(𝑥𝑖 − 𝜇). Para calcular la varianza, estas desviaciones respecto de la media se elevan al
cuadrado.
Si los datos son de una población, el promedio de estas desviaciones elevadas al cuadrado es
la varianza poblacional. La varianza poblacional se denota con la letra griega 𝜎2. En una
población en la que hay N observaciones y la media poblacional es μ, la varianza poblacional se
define como sigue.

∑(𝑥𝑖 − 𝜇)2
𝜎2 =
𝑁

En la mayor parte de las aplicaciones de la estadística, los datos a analizar provienen de una
muestra. Aunque en este texto no se detalla, es posible demostrar que la varianza muestral se
obtiene dividiendo la suma de los promedios al cuadrado para (n-1) en lugar de n. La varianza
muestral se simboliza con 𝑠2, y se la obtiene de la siguiente forma:
∑(𝑥𝑖 − 𝑥)2
𝑠2 = 𝑛−1

Para ilustrar el cálculo de la varianza muestral, se emplean los datos de los tamaños de cinco
grupos de una universidad

32 42 46 46 54

La suma de los cuadrados de las desviaciones respecto de la media es

∑(𝑥𝑖 − 𝑥)2 = (32 − 44)2 + (42 − 44)2 + (46 − 44)2 + (46 − 44)2 + (54 − 44)2 = 256

Por tanto, siendo n – 1 = 4, la varianza muestral es

∑(𝑥𝑖 − 𝑥)2 256


𝑠2 = = = 64
𝑛−1 4

Desviación estándar

La desviación estándar se define como la raíz cuadrada positiva de la varianza. Continuando


con la notación adoptada para la varianza muestral y para la varianza poblacional, se emplea s
para denotar la desviación estándar muestral y σ para denotar la desviación estándar
poblacional.
La desviación estándar se obtiene de la varianza como sigue.

𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 = 𝑠 = √𝑠2

𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟 𝑝𝑜𝑏𝑙𝑎𝑐𝑖𝑜𝑛𝑎𝑙 = 𝜎 = √𝜎2

Recuerde que la varianza muestral para los tamaños de cinco grupos de una universidad es
𝑠2 = 64. Por tanto, la desviación estándar muestral es

𝑠 = √64 = 8

¿Qué se gana con convertir la varianza en la correspondiente desviación estándar? Recuerde


que en la varianza las unidades están elevadas al cuadrado, por otro lado, la desviación
estándar se mide en las mismas unidades que los datos originales. Por esta razón es más fácil
comparar la desviación estándar con la media y con otros estadísticos que se miden en las
mismas unidades que los datos originales.
2.3. Medidas de Tendencia Central para Datos Agrupados

En la mayor parte de los casos, las medidas de tendencia central y dispersión se calculan
mediante los valores individuales de los datos. Sin embargo, otras veces sólo se tienen datos
agrupados o datos en una distribución por clases. A continuación, se aborda la forma de
obtener las medidas de tendencia central para datos agrupados.

Media para datos agrupados


Para calcular la media usando datos agrupados, considere la marca de clase 𝑀𝑖 de cada clase
como representativo de los elementos de esa clase. Si 𝑀𝑖 denota el punto medio de la clase i y
𝑓𝑖 denota la frecuencia de la clase i. Entonces la fórmula para la media es

𝑀𝑒𝑑𝑖𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 𝑝𝑎𝑟𝑎 𝑑𝑎𝑡𝑜𝑠 𝑎𝑔𝑟𝑢𝑝𝑎𝑑𝑜𝑠


∑(𝑓𝑖 ∙ 𝑀𝑖)
𝑥=
𝑛

𝑀𝑒𝑑𝑖𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖𝑜𝑛𝑎𝑙 𝑝𝑎𝑟𝑎 𝑑𝑎𝑡𝑜𝑠 𝑎𝑔𝑟𝑢𝑝𝑎𝑑𝑜𝑠


∑(𝑓𝑖 ∙ 𝑀𝑖)
𝜇=
𝑁
Mediana para datos agrupados

Primero se debe hallar la clase en la cual se encuentra la mediana. La clase mediana es la clase
𝑛
cuya FAA es mayor o igual a .
2

Una vez ubicada la clase mediana se calcula la mediana utilizando la siguiente fórmula:
𝑛
−𝐹
𝑀𝑒𝑑𝑖𝑎𝑛𝑎 = 𝐿𝑚𝑑 + [ 2 ]∙𝐶
𝑓𝑚𝑑

Donde

𝐿𝑚𝑑 𝑒𝑠 𝑒𝑙 𝑙í𝑚𝑖𝑡𝑒 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑚𝑒𝑑𝑖𝑎𝑛𝑎


𝐹 𝑒𝑠 𝑙𝑎 𝐹𝐴𝐴 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑞𝑢𝑒 𝑎𝑛𝑡𝑒𝑐𝑒𝑑𝑒 𝑎 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑚𝑒𝑑𝑖𝑎𝑛𝑎
𝑓𝑚𝑑 𝑒𝑠 𝑙𝑎 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑚𝑒𝑑𝑖𝑎𝑛𝑎
𝐶 𝑒𝑠 𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑜 𝑎𝑛𝑐ℎ𝑜 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑚𝑒𝑑𝑖𝑎𝑛𝑎

Moda para datos agrupados


Ya que por definición la moda es el valor de la variable que ocurre con mayor frecuencia en
primer lugar se debe identificar la clase que tiene la mayor frecuencia absoluta conocida como
la clase modal. Luego se utiliza la siguiente fórmula:
𝐷𝑎
𝑀𝑜𝑑𝑎 = 𝐿𝑚𝑜 + [ ]∙𝐶
𝐷𝑎 + 𝐷𝐵
Donde
𝐿𝑚𝑜 𝑒𝑠 𝑒𝑙 𝑙í𝑚𝑖𝑡𝑒 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑚𝑜𝑑𝑎𝑙
𝐷𝑎 𝑒𝑠 𝑙𝑎 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑐𝑖𝑎 𝑒𝑛𝑡𝑟𝑒 𝑙𝑎 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑚𝑜𝑑𝑎𝑙 𝑦 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑞𝑢𝑒 𝑙𝑒 𝑎𝑛𝑡𝑒𝑐𝑒𝑑𝑒
𝐷𝑏 𝑒𝑠 𝑙𝑎 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑐𝑖𝑎 𝑒𝑛𝑡𝑟𝑒 𝑙𝑎 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑚𝑜𝑑𝑎𝑙 𝑦 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑞𝑢𝑒 𝑙𝑒 𝑠𝑖𝑔𝑢𝑒
𝐶 𝑒𝑠 𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑜 𝑎𝑛𝑐ℎ𝑜 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑚𝑜𝑑𝑎𝑙

2.4. Medidas de Dispersión para Datos Agrupados

𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 𝑝𝑎𝑟𝑎 𝑑𝑎𝑡𝑜𝑠 𝑎𝑔𝑟𝑢𝑝𝑎𝑑𝑜𝑠


∑(𝑓𝑖 ∙ (𝑀𝑖 − 𝑥)2)
𝑠2 =
𝑛−1

𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖𝑜𝑛𝑎𝑙 𝑝𝑎𝑟𝑎 𝑑𝑎𝑡𝑜𝑠 𝑎𝑔𝑟𝑢𝑝𝑎𝑑𝑜𝑠


∑(𝑓𝑖 ∙ (𝑀𝑖 − 𝜇)2)
𝜎 =
2
𝑁

𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 𝑝𝑎𝑟𝑎 𝑑𝑎𝑡𝑜𝑠 𝑎𝑔𝑟𝑢𝑝𝑎𝑑𝑜𝑠


𝑠 = √ 𝑠2

𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟 𝑝𝑜𝑏𝑙𝑎𝑐𝑖𝑜𝑛𝑎𝑙 𝑝𝑎𝑟𝑎 𝑑𝑎𝑡𝑜𝑠 𝑎𝑔𝑟𝑢𝑝𝑎𝑑𝑜𝑠


𝜎 = √𝜎 2
Para ilustrar las medidas de tendencia central y dispersión para datos agrupados se expone el
siguiente ejemplo:

Ejemplo 2.4.1
La siguiente tabla se refiere al número de pasajeros que abordan al día una compañía de
transporte. Estos datos se los ha tomado durante 50 días. Se pide calcular las medidas de
tendencia central y de dispersión.

Pasajeros que abordan diariamente


Clase Límite inferior Límite superior fi Mi FAA
1º 50 59 3 54.5 3
2º 60 69 7 64.5 10
3º 70 79 18 74.5 28
4º 80 89 12 84.5 40
5º 90 99 8 94.5 48
6º 100 109 2 104.5 50
Solución:

En este caso en lugar de trabajar con la población asumiremos que estamos trabajando con
una muestra, entonces:

Población: todos los días del año en los cuales opera la compañía de transporte.

Muestra: fracción de los días del año de operación, es decir, una parte de la población

n = 50 (es decir que se toman como muestra 50 días de todos los días del año). Este valor, por
definición, se lo puede obtener de la suma de las frecuencias absolutas dadas en la tabla.

Variable: número de pasajeros que abordan diariamente para transportarse con esa compañía.

Media
∑(𝑓𝑖 ∙ 𝑀𝑖) 3 ∗ 54.5 + 7 ∗ 64.5 + 18 ∗ 74.5 + 12 ∗ 84.5 + 8 ∗ 94.5 + 2 ∗ 104.5
𝑥= =
𝑛 50

𝑥 = 78.7 𝑝𝑎𝑠𝑎𝑗𝑒𝑟𝑜𝑠

Mediana
𝑛
En primer lugar ubicamos la clase mediana calculando
2
𝑛 50
= = 25
2 2

De acuerdo a lo señalado, hay que buscar en la columna FAA un valor mayor o igual a 25, lo
cual nos ayuda a identificar la clase mediana. En este caso la clase que cumple con esta
condición es la 3º clase (o tercera fila de la tabla).

Luego utilizamos la fórmula proporcionada para calcular la mediana de datos agrupados

Como ya se conoce C se lo puede obtener restando dos límites inferiores o superiores


contiguos, por lo tanto: C = 10.
𝑛
−𝐹
𝑀𝑒𝑑𝑖𝑎𝑛𝑎 = 𝐿𝑚𝑑 + [2 ]∙𝐶
𝑓𝑚𝑑

50
− 10
𝑀𝑒𝑑𝑖𝑎𝑛𝑎 = 70 + [ 2 ] ∙ 10
18

𝑀𝑒𝑑𝑖𝑎𝑛𝑎 = 79.33 𝑝𝑎𝑠𝑎𝑗𝑒𝑟𝑜𝑠

Moda

Ubicamos la clase modal a través del mayor valor de fi como se lo ha señalado, y nos resulta
para este caso que la mayor frecuencia absoluta es 18, lo que nos dice que la clase modal es la
3º.

Luego utilizamos la fórmula correspondiente


𝐷𝑎
𝑀𝑜𝑑𝑎 = 𝐿𝑚𝑜 + [ ]∙𝐶
𝐷𝑎 + 𝐷𝐵
(18 − 7)
𝑀𝑜𝑑𝑎 = 70 + [ ] ∙ 10

(18 − 7) + (18 − 12)

𝑀𝑜𝑑𝑎 = 76.47 𝑝𝑎𝑠𝑎𝑗𝑒𝑟𝑜𝑠

Varianza

Utilizamos la fórmula para varianza muestral de datos agrupados


∑(𝑓𝑖 ∙ (𝑀𝑖 − 𝑥)2)
𝑠2 =
𝑛−1

Para agilitar los cálculos podemos utilizar el programa Excel, creando algunas columnas de
cálculos previos como se presenta en la tabla aumentada a continuación

Pasajeros que abordan diariamente


Límite Límite
Clase fi Mi FAA fi*Mi 𝑴𝒊 − 𝒙 (𝑴𝒊 − 𝒙)𝟐 𝒇𝒊(𝑴𝒊 − 𝒙)𝟐
inferior superior
1º 50 59 3 54.5 3 163.5 -24.2 585.64 1756.92
2º 60 69 7 64.5 10 451.5 -14.2 201.64 1411.48
3º 70 79 18 74.5 28 1341 -4.2 17.64 317.52
4º 80 89 12 84.5 40 1014 5.8 33.64 403.68
5º 90 99 8 94.5 48 756 15.8 249.64 1997.12
6º 100 109 2 104.5 50 209 25.8 665.64 1331.28
50 3935 7218

Entonces de acuerdo a los valores obtenidos tenemos


∑(𝑓𝑖 ∙ (𝑀𝑖 − 𝑥)2) 7218
𝑠2 = =
𝑛−1 50 − 1

𝑠2 = 147.31 𝑝𝑎𝑠𝑎𝑗𝑒𝑟𝑜𝑠2

Desviación estándar

𝑠 = √𝑠2 = √147.31

𝑠 = 12.14 𝑝𝑎𝑠𝑎𝑗𝑒𝑟𝑜𝑠

También podría gustarte