Medidas de Tendencia Central y Dispersión
Medidas de Tendencia Central y Dispersión
UNIDAD II
DESCRIPCIÓN DE DATOS
En esta unidad vamos a continuar con el desarrollo de métodos para describir un con-
junto de datos, mediante un único valor. A dicho valor se le denomina medida de ten-
dencia central.
Se llaman así a los valores típicos de una serie o de una variable en el sentido que ese
valor puede representar al conjunto de los valores considerados.
El concepto de promedio es el que nos resulta más familiar, sin embargo no existe
solamente una medida de tendencia central sino varias. Aquí consideraremos seis: la
media aritmética, la media ponderada, la mediana, la moda, la media geométrica y la
media armónica.
La media poblacional de datos sin procesar, datos que no han sido agrupados en
una distribución de frecuencias o en una representación de tallo y hoja, es la suma de
todos los valores de la población, dividida entre el número total de dichos datos. Para
calcular la media de una población se utiliza la siguiente fórmula:
∑ 𝑥𝑥
𝜇𝜇 =
𝑁𝑁
Donde:
Esta información es una población, porque se consideran TODAS las compañías au-
tomovilísticas que obtuvieron patentes de cada una de las 12 empresas. La cantidad
total de patentes de las 12 compañías es 2.340. Para evaluar la media aritmética, se
divide ese total entre 12. Por tanto, la media es 195, que se obtiene de 2.340/12.
¿Cómo se interpreta el valor 195? El número típico de patentes recibido por una em-
presa es 195. Puesto que se considera a todas las compañías que recibieron patentes,
este valor es un parámetro poblacional.
∑ 𝑥𝑥
𝑥𝑥 =
𝑛𝑛
Donde x simboliza la media muestral y se lee “equis barra”. La letra n designa al nú-
mero total de valores de la muestra.
Sin embargo, la media tiene varias desventajas. Como para su cálculo se utiliza el
valor de cada elemento de la población o muestra; si uno o dos de estos valores es
muy grande o muy pequeño, la media podría no ser un promedio adecuado para re-
presentar los datos. La media también resulta inadecuada si hay una clase de extre-
mos abiertos en el caso de datos agrupados en una distribución de frecuencias.
AUTOEVALUACIÓN
Para explicar el concepto vamos a suponer que en una empresa de elementos de pro-
tección se venden camisas de trabajo chicas, medianas y grandes y que sus precios
son los siguientes: $200, $250 y $300 respectivamente. De las últimas 10 camisas que
36
$200+$200+$200+$250+$250+$250+$250+$300+$300+$300 $2500
𝑥𝑥 = = = $250
10 10
Ejemplo: La constructora Carter para a sus empleados $65, $75 o bien $85 por hora.
Hay 26 empleados contratados por hora; 14 reciben la tarifa de $65, 10 la de $75 y 2
la de $85. ¿Cuál es la media de la tarifa por hora que se paga a los 26 trabajadores?
Para encontrar la media de las tarifas por hora, se multiplica cada una por el número
de empleados que ganan ese importe:
AUTOEVALUACIÓN
Hemos enunciado anteriormente que para datos que contienen uno o dos valores muy
grandes o muy pequeños, la media aritmética puede no ser representativa. El punto
central de tales datos puede describirse mejor utilizando una medida de tendencia
central, denominada mediana (Me) y que es un solo valor, no necesariamente perte-
neciente a la serie, calculado a partir del conjunto de datos que mide la observación
central de éstos, es decir, la mitad de los elementos están por arriba de este punto y la
otra mitad está por debajo.
Para series de datos no agrupados, puede que éstos resulten pares o impares. Si el
conjunto de datos contiene un número impar de elementos, el del medio del arreglo es
la mediana. Si hay un número par de observaciones, la mediana es el promedio de los
dos elementos de en medio.
Ejemplo: Supongamos que tenemos la siguiente serie de datos: 15, 17, 2, 11, 20, 25,
31, 28, 8, 4, 27, 23, 5. El número de elementos de esta serie es 13, por tanto estamos
en la situación de número impar de observaciones.
Primeramente debemos ordenar los datos. En este caso lo haremos de menor a ma-
yor, nos queda entonces: 2, 4, 5, 8, 11, 15, 17, 20, 23, 25, 27, 28, 31
Hemos mencionado que el valor mediano deja la mitad de los elementos por arriba de
este punto y la otra mitad por debajo. Vamos a calcular entonces la posición mediana
PMe donde N es el número de datos:
𝑁𝑁 + 1
𝑃𝑃𝑃𝑃𝑃𝑃 =
2
En nuestro ejemplo:
13 + 1
𝑃𝑃𝑃𝑃𝑃𝑃 = =7
2
Posición 1 2 3 4 5 6 7 8 9 10 11 12 13
Valor 2 4 5 8 11 15 17 20 23 25 27 28 31
Entonces: Me = 17
Como puede observarse hay seis valores por debajo del 17 y seis valores por encima.
.
Ejemplo: Supongamos que tenemos ahora la siguiente serie de datos: 15, 17, 2, 11,
20, 25, 31, 28, 8, 4, 2, 23, 5, 33. El número de elementos de esta serie es 14, por tanto
estamos en la situación de número par de observaciones.
Al igual que en el ejemplo anterior se deben primeramente ordenar los datos. Nos
queda entonces: 2, 4, 5, 8, 11, 15, 17, 20, 23, 25, 27, 28, 31, 33
𝑁𝑁 + 1
𝑃𝑃𝑃𝑃𝑃𝑃 =
2
Reemplazando:
14 + 1
𝑃𝑃𝑃𝑃𝑃𝑃 = = 7,5
2
Ahora la posición no es un número entero, por lo que será un valor entre la posición 7
y la 8, es decir, entre el valor 17 y el valor 20. Si bien puede ser cualquier valor com-
prendido entre los mencionados, por convención se toma como mediana al valor in-
termedio.
Posición 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Valor 2 4 5 8 11 15 17 20 23 25 27 28 31 33
O sea:
17 + 20
𝑀𝑀𝑀𝑀 = = 18,5
2
Obsérvese que:
300
250
200
FA=<
150
FA=>
100
50
0
4,75 6,25 7,75 9,25 10,75 12,25 13,75 15,25 16,75
El valor que toma en el eje horizontal la intersección de las mismas coincide con el
valor mediano.
MODA
Una revisión de las cantidades revela que el sueldo anual de $60.000 aparece con
mayor frecuencia que cualquier otra percepción. Por tanto, la moda es $60.000.
Cabe destacar que se puede determinar la moda para datos de cualquiera de los nive-
les: nominal, ordinal, de intervalo y de razón. La moda también tiene la ventaja de no
verse afectada por valores extremadamente altos o muy bajos. Al igual que la media-
na, puede utilizarse como medida de tendencia central en distribuciones con clases de
extremo abierto.
Sin embargo, la moda también presenta algunas desventajas, las que hacen que sea
utilizada con menor frecuencia que la media o la mediana. En muchos conjuntos de
datos no hay valor modal porque ningún valor aparece más de una vez; puesto que
cada valor es diferente se podría argumentar que cada valor es modal. Por el contra-
rio, en ciertos conjuntos de datos hay más de una moda con lo que pueden denomi-
narse bimodal, trimodal, etc., según sean los valores que se repitan; aunque sería
cuestionable utilizar los dos/tres valores de moda para representar la tendencia central
de ese conjunto de datos.
40
AUTOEVALUACIÓN
MEDIA GEOMÉTRICA
Lo anterior se puede verificar suponiendo que el ingreso mensual inicia el $3000 y que
recibió los dos aumentos:
Ejemplo: Las ganancias obtenidas por la constructora Atkins en cuatro proyectos re-
cientes fueron 3%, 2%, 4% y 6% ¿cuál es la media geométrica de la ganancia?
4 4
𝑀𝑀𝑀𝑀 = √3 ∗ 2 ∗ 4 ∗ 6 = √144 = 3,46
10 22
𝑀𝑀𝑀𝑀 = � − 1 = 1,271 − 1 = 0,271
2
El valor final es de 0,271 de modo que la tasa de aumento anual es del 27,1%.
AUTOEVALUACIÓN
Con frecuencia los datos relacionados con ingresos, edades y demás, se agrupan y
presentan en forma de una distribución de frecuencias. Generalmente, resulta imposi-
ble obtener los datos originales de modo que, si interesa un valor típico que represente
a los datos, es necesario estimarlo basándose en la distribución de frecuencias.
Media Aritmética
Para determinar la media aritmética de datos agrupados se considera que las obser-
vaciones en cada clase están representadas por el punto medio o marca de clase. La
media de una muestra de datos organizados en una distribución de frecuencias se
calcula de la siguiente manera:
∑(𝑓𝑓𝑥𝑥 ∗ )
𝑥𝑥 =
𝑛𝑛
Donde:
x es la media aritmética
x* es el valor central o punto medio de cada clase
f es la frecuencia de cada clase
n es el número de frecuencias
42
Ejemplo: Determinar la media aritmética del precio de venta de los vehículos resumi-
dos a continuación y expresados en miles de pesos.
* *
Precio de Ventas f x f*x
120 hasta 150 8 13,5 108,0
150 hasta 180 23 16,5 379,5
180 hasta 210 17 19,5 331,5
210 hasta 240 18 22,5 405,0
240 hasta 270 8 25,5 204,0
270 hasta 300 4 28,5 114,0
300 hasta 330 2 31,5 63,0
TOTAL 80 1605,0
Aplicando la fórmula para calcular la media aritmética para datos agrupados tenemos:
∑(𝑓𝑓𝑥𝑥 ∗ ) 1605
𝑥𝑥 = = = $20,1
𝑛𝑛 80
Por tanto se concluye que la media del precio de venta de los vehículos es aproxima-
damente $20.100.
La media de datos agrupados puede ser diferente de la media de los datos reales.
El hecho de agrupar los datos produce una pérdida de información.
Mediana
Recordemos que la mediana se define como el valor debajo del cual se encuentra la
mitad de los valores y arriba del cual se encuentra la otra mitad. Dado que agrupando
los datos parte de la información ya no es identificable, no es posible determinar la
mediana exacta; sin embargo, puede estimarse localizando la clase en la que se en-
cuentra la mediana y realizando interpolaciones dentro de esa clase para obtener di-
cho valor.
La razón de este enfoque es que se supone que los elementos de la clase en que se
encuentra la mediana están espaciados de manera uniforme en toda la clase.
𝑛𝑛
− 𝐹𝐹𝐹𝐹
𝑀𝑀𝑀𝑀 = 𝐿𝐿 + 2 ∗ 𝑖𝑖
𝑓𝑓
Donde:
L es el límite inferior de la clase que contiene a la mediana
n es el número total de frecuencias
f es la frecuencia de la clase que contiene a la mediana
FA es el número acumulado de frecuencias en todas las clases que preceden a
la clase que contiene a la mediana
i es la amplitud (o anchura) de la clase en que se encuentra la mediana
Precio de Ventas f FA
120 hasta 150 8 8
150 hasta 180 23 31
180 hasta 210 17 48
210 hasta 240 18 66
240 hasta 270 8 74
270 hasta 300 4 78
300 hasta 330 2 80
TOTAL 80
80
− 31
𝑀𝑀𝑀𝑀 = 180 + 2 ∗ 30
17
La mediana sólo se basa en las frecuencias y los límites de la clase que la contiene.
Las clases de extremo abierto que se presentan en los extremos rara vez se necesi-
tan; en consecuencia, se podrá determinar la mediana de una distribución de frecuen-
cias que tenga extremos abiertos.
Moda
Recordemos que la moda se define como el valor que más se repite. Para datos agru-
pados es posible aproximar la moda usando el punto medio o marca de clase de aque-
lla que contienen el mayor número de frecuencias de clase.
Se trata de una distribución simétrica en forma de campana, esto significa que la dis-
tribución tiene la misma forma en ambos lados del eje central. En una distribución si-
métrica, los valores modal, mediano y medio se localizan en el centro y siempre son
iguales. En el caso de estudio, la moda, mediana y media son 20 años.
AUTOEVALUACIÓN
MEDIDAS DE DISPERSIÓN
Un valor pequeño en una medida de dispersión indica que los datos se acumulan es-
trechamente, por ejemplo, alrededor de la media aritmética; en consecuencia, el valor
medio se considera representativo de los datos. Por el contrario, una medida de dis-
persión grande indicaría que la media no es confiable.
AMPLITUD/ALCANCE/RANGO
𝑅𝑅 = 𝑋𝑋𝑋𝑋á𝑥𝑥 − 𝑋𝑋𝑋𝑋í𝑛𝑛
46
Debemos tener en cuenta que las distribuciones de extremos abiertos no tienen rango.
Esta medida de dispersión considera todos los datos del conjunto observado y mide el
monto medio en que varían los valores de una población o muestra, con respecto a su
media.
∑ |𝑥𝑥−𝑥𝑥|
𝐷𝐷𝐷𝐷 =
𝑛𝑛
Donde
x es el valor de cada observación
x es la media aritmética de los valores
n es el número de observaciones en la muestra
La desviación media tiene dos ventajas: primero que utiliza en su cálculo todos los
valores en la muestra y segundo que es fácil de comprender, ya que representa el
promedio en que los valores se desvían con respecto a la media.
AUTOEVALUACIÓN
Varianza
Las fórmulas para calcular la varianza poblacional y la varianza muestral son un tanto
diferentes. Consideraremos primeramente a la varianza poblacional de datos no agru-
pados, para la cual se emplea la siguiente fórmula:
∑(𝑥𝑥 − 𝜇𝜇)2
𝜎𝜎 2 =
𝑁𝑁
Donde:
σ2 es el símbolo de la varianza poblacional (letra griega sigma minúscula)
se expresa normalmente como sigma cuadrada
x es el valor de una observación de la población
μ es la media aritmética de la población
N es el número total de observaciones en la población
Ejemplo: Las edades de los pacientes del pabellón de Hemodiálisis del Hospital Pro-
vincial son 38 - 26 - 13 - 41 y 22 años. ¿Cuál es la varianza de la población?
x-μ (x - μ)
2
Edad (x)
38 +10 100
26 -2 4
13 -15 225
41 +13 169
22 -6 36
140 0 534
Al igual que el alcance o rango y la desviación media, la varianza se utiliza para com-
parar la dispersión en dos o más conjuntos de observaciones.
∑(𝑥𝑥 − 𝑥𝑥)2
𝑠𝑠 2 =
𝑛𝑛 − 1
Donde
s2 es el símbolo para representar la varianza muestral
x es el valor de cada observación en la muestra
x es la media de la muestra
n es el número total de observaciones muestrales
Desvío Estándar
∑(𝑥𝑥 − 𝑥𝑥)2
𝑠𝑠 = �
𝑛𝑛 − 1
Recordemos que el rango se define como la diferencia entre el valor máximo y mínimo
de una población. Para calcular la amplitud de variación a partir de datos agrupados
en una distribución de frecuencias, se resta el límite inferior de la clase más baja, del
límite más alto de la clase más alta.
2 (∑ 𝑥𝑥)2
�∑ 𝑥𝑥 − 𝑛𝑛
𝑠𝑠 =
𝑛𝑛 − 1
Si los datos que interesan están agrupados, la desviación estándar muestral puede
aproximarse sustituyendo Σx2 por Σfx2 y Σx por Σfx, donde x es el punto medio de la
clase. Dicho esto, la fórmula para la desviación estándar muestral para datos agrupa-
dos se convierte en:
2 (∑ 𝑓𝑓𝑓𝑓)2
�∑ 𝑓𝑓𝑓𝑓 − 𝑛𝑛
𝑠𝑠 =
𝑛𝑛 − 1
49
AUTOEVALUACIÓN
Importaciones Nº de Proveedores
2 hasta 4 2
4 hasta 6 5
6 hasta 8 10
8 hasta 10 4
10 hasta 12 2
a. Calcular el alcance/rango.
b. Evaluar la desviación estándar muestral.
c. Determinar la varianza muestral.
Hemos visto que una desviación estándar pequeña para un conjunto de valores, indica
que los mismos se localizan cerca de la media. Por el contrario, una desviación con
valor grande indica que las observaciones están lejos de la media.
TEOREMA DE CHEBYSHEV
Por ejemplo, con base al teorema de Chebyshev, por lo menos 3 de cada 4 valores (o
el 75%) deben encontrarse entre la media más 2 desviaciones estándar y la media
menos 2 desviaciones estándar. Esta relación se aplica sin importar la forma de la
distribución que tengan esos datos. Asimismo, enuncia que por lo menos 8 de cada 9
valores (el 88,9%) estarán entre la media ±3 desviaciones estándar y que al menos 24
de 25 valores (el 96%) se encontrarán entre la media y ±5 desviaciones estándar. En
términos generales, el teorema de Chebyshev establece que:
Ejemplo: Se tiene un conjunto de datos cuya media aritmética es 51,54 y cuya des-
viación estándar se calculó en 7,51. Al menos ¿qué porcentaje de los valores se en-
cuentra entre ±3,5 desviaciones estándar?
50
1 1
1− = 1 − = 0,92
𝑘𝑘 2 3,52
Regla empírica
Ejemplo: Una muestra de las cantidades de dinero mensual que destina a sus alimen-
tos un ciudadano de tercera edad que vive solo sigue aproximadamente una distribu-
ción de frecuencias simétrica de tipo campana. La media muestral es de $1500 y la
desviación estándar es de $200. Utilizando la regla empírica indique:
1. Aproximadamente el 68% está entre $1300 y $1700 que se obtiene por x±1s =
$1500±$200
2. Aproximadamente el 95% está entre $1100 y $1900 que resulta de x±2s =
$1500±2($200)
3. Casi todos los casos (99,7%) están entre $900 y $2100 lo que se obtiene mediante
x±3s = $1500±3($200)
Dispersión Relativa
Resulta imposible una comparación directa de dos o más medidas de dispersión (por
ejemplo, la desviación estándar de una distribución de ingresos anuales y la desvia-
ción estándar de una distribución de inasistencias, ambas del mismo grupo de em-
pleados ¿se puede decir que la desviación estándar de $1200 de la distribución de
ingresos es mayor que la desviación estándar de 4,5 días en la distribución de faltas o
asistencias? Obviamente no, porque no podemos comparar directamente pesos con
días de inasistencia al trabajo.
Para poder realizar una comparación significativa se necesita convertir cada una de
esas medias a un valor relativo, es decir, a un porcentaje. Karl Pearson (1857 - 1936)
contribuyó de manera importante a la ciencia estadística y desarrolló una media relati-
va denominada coeficiente de variación (CV) que resulta muy útil cuando:
51
• distantes.
𝑠𝑠
𝐶𝐶𝐶𝐶 = ∗ 100
𝑥𝑥
Donde
s es la desviación estándar
x es la media muestral
al multiplicar por 100 se convierte la expresión decimal a porcentaje
Ejemplo: Un estudio sobre el monto de bonos y los años de servicio de varios em-
pleados, dio como resultado los siguientes datos estadísticos: media $2000 y desvia-
ción estándar $400. La media del número de años de servicio fue de 20 años y la des-
viación estándar de 2 años. Comparar las dispersiones relativas de las dos distribucio-
nes empleando el coeficiente de variación.
Al interpretar se puede ver que existe mayor dispersión relativa con respecto a la me-
dia en la distribución de los bonos pagados en comparación con la distribución de los
años de servicio.
ASIMETRÍA
En la bibliografía estadística hay varias fórmulas que se utilizan para calcular la asime-
tría; la más simple, desarrollada por Karl Pearson se basa en la diferencia entre la me-
dia y la mediana.
3(𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 − 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚)
𝐶𝐶𝐶𝐶 (𝑑𝑑𝑑𝑑 𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃) =
𝑠𝑠
De acuerdo con esta relación el coeficiente de asimetría puede variar desde -3 hasta
+3; con lo que un valor cercano a -3 indica una considerable asimetría negativa. Un
valor como por ejemplo 1,57 indicaría una asimetría positiva moderada. El valor cero
que se presenta cuando media y mediana tienen el mismo valor, indica que la distribu-
ción es simétrica.
1460 - 1471 - 1637 - 1721 - 1758 - 1787 - 1940 - 2038 - 2047 - 2054 - 2097 - 2205 -
2287 - 2311 - 2406
𝐶𝐶 25
𝐿𝐿𝑐𝑐 = (𝑛𝑛 + 1) = (15 + 1) = 4
100 100
Ahora bien, para calcular el Q3, n se mantendría fija en 15 y variaría C que tomaría el
valor 75 con lo que nos queda:
𝐶𝐶 75
𝐿𝐿𝑐𝑐 = (𝑛𝑛 + 1) = (15 + 1) = 12
100 100
Por tanto, los valores del primer y tercer cuartil se localizan en las posiciones 4 y 12,
que tienen los valores 1721 y 2205 respectivamente.
𝐶𝐶 25
𝐿𝐿𝑐𝑐 = (𝑛𝑛 + 1) = (20 + 1) = 5,25
100 100
𝐶𝐶 25
𝐿𝐿𝑐𝑐 = (𝑛𝑛 + 1) = (6 + 1) = 1,75
100 100
DIAGRAMA DE CAJA
• Q3: 22 min
• Valor máximo: 30 min
El primer paso para elaborar un diagrama de caja es establecer una escala adecuada
en el eje horizontal. Después se dibuja un rectángulo (o caja) que par de Q1 (15 min) y
termina en Q3 (22 min) Dentro de la caja se marca un segmento vertical para represen-
tar la mediana (18 min) Finalmente se trazan dos líneas horizontales, una desde la
caja hasta el valor mínimo (13 min) y otra hasta el valor máximo (30 min) Estas líneas
horizontales que sobresalen de la caja se llaman salientes de la caja o bigotes.
El diagrama de caja muestra que el 50% central de las entregas toma entre 15 y 22
minutos. La distancia o intervalo entre los extremos de la caja (7min) se denomina
amplitud o rango intercuartílico dicho valor es la distancia entre el Q1 y Q3.