Está en la página 1de 19

Índice

1. Medidas de Tendencia Central ........................................................................................ 1


1.1. Media aritmética .......................................................................................................... 2
1.2. Mediana ....................................................................................................................... 4
1.3. Moda ............................................................................................................................ 6
1.4. Comparación entre la media, la mediana y la moda .................................................... 7
2. Medidas de Dispersión .................................................................................................... 9
2.1. Rango ......................................................................................................................... 10
2.2. Varianza ..................................................................................................................... 11
2.3. Desviación estándar ................................................................................................... 13
2.4. Coeficiente de variación ............................................................................................ 16
3. Conclusiones ................................................................................................................. 17
Medidas de Tendencia Central y de Dispersión

Las medidas de tendencia central y de dispersión se utilizan para describir las

características de un conjunto de datos. El presente trabajo tiene como objetivo hacer una

revisión sobre las definiciones, propiedades e implicaciones en el uso de cada una de las

principales medidas de tendencia central y de dispersión.

1. Medidas de Tendencia Central

Un conjunto de datos puede representarse gráficamente mediante una curva que

describe la distribución de las observaciones que lo conforman. La tendencia central se

refiere al punto medio de una distribución. Las medidas de tendencia central permiten

identificar la posición en que se encuentra la mayor acumulación de datos. Las curvas que

representan los datos puntuales de un conjunto de datos pueden ser simétricas o sesgadas.

Las curvas simétricas, tienen una forma tal que una línea vertical que pase por el punto más

alto de la curva dividirá su área en dos partes iguales (ver Figura 1).

Figura 1. Distribución simétrica de datos.

1
Sin embargo, es muy común encontrar curvas sesgadas, debido a que los valores de

su distribución de frecuencias se concentran en el extremo inferior o en el superior de la

escala de medición del eje horizontal. Estos valores no están igualmente distribuidos. La

Figura 2 muestra un sesgo a la derecha, ya que va disminuyendo poco a poco hacia el

extremo derecho de la escala. Un sesgo hacia la izquierda mostraría un comportamiento

opuesto. Entre las medidas de tendencia central que se utilizan con mayor frecuencia están

la media aritmética, la mediana y la moda.

Figura 2. Distribución con sesgo a la derecha.

1.1. Media aritmética

La media aritmética, comúnmente conocida como promedio, es un concepto

familiar para la mayor parte de las personas, y tiene la ventaja de que su uso resulta

intuitivamente claro. El cálculo de este estadístico se realiza mediante la siguiente formula:

Σx
μ =
N

2
En donde  representa a la media poblacional; N es el número total de elementos de

la población y  es la sumatoria de todos los valores x. En términos generales, esta

ecuación puede interpretarse como la suma de cada una de las observaciones dividida entre

el número total de datos. El resultado de esta ecuación permite representar en un solo valor

información correspondiente a una población de datos. La notación utilizada es diferente

cuando se calcula la media para una muestra. En dicho caso, la media muestral se simboliza

con x , mientras que el número de elementos de la muestra es representado con n:

Σx
X =
n

Para explicar al cálculo de la media aritmética, supongamos el siguiente ejemplo. El

jefe del departamento de Recursos Humanos en una empresa, requiere obtener la media del

salario mensual de los empleados en nómina. Considérese los siguientes datos:

Tabla 1 1 2 3 4 5 6 Total
Salario ($) 10,000 20,000 25,000 30,000 35,000 50,000 170,000

Aplicando la fórmula planteada previamente, se divide la suma total de estos valores

y se divide entre el número de empleados, lo cual nos da un resultado de $28,333. Sin

embargo, supongamos que la Dirección pide que se considere también el sueldo de un

consultor que la empresa acaba de contratar para un proyecto de productividad. Los datos

para calcular la media son los siguientes:

Tabla 2 1 2 3 4 5 6 7 Total
Salario ($) 10,000 20,000 25,000 30,000 35,000 50,000 200,000 370,000

3
En este segundo caso, el promedio salarial de los empleados es de $52,857. Aunque

sólo se incluyó a un nuevo elemento, se observa una importante variación con respecto al

resultado anterior, debido al sesgo que se deriva de contemplar el sueldo de este último

empleado. Aunque la media aritmética ofrece importantes ventajas como medida de

tendencia central, su valor puede no ser representativo en aquellos casos en que se

presentan sesgos significativos en la distribución de los datos. Es necesario considerar que

el valor de la media resulta especialmente afectado cuando se tienen valores extremos, es

decir, cuando existen valores muy altos o muy bajos notoriamente distintos a la mayoría de

los datos. En estos casos la media no es representativa y debe contemplarse el uso de otro

tipo de medidas.

1.2. Mediana

La mediana es un valor calculado a partir del conjunto de datos que mide la

observación central de éstos. Esta sola observación es la más central o la que está más en

medio en el conjunto de números. La mitad de los elementos están por encima de este

punto y la otra mitad está por debajo. Para hallar la mediana de un conjunto de datos,

primero hay que organizarlos en orden descendente o ascendente. Si el conjunto de datos

contiene un número impar de elementos, el de en medio en el arreglo es la mediana. Si hay

un número par de observaciones, la mediana es el promedio de los dos elementos de en

medio.

Mediana = (n + 1)
2

4
Retomado el ejemplo que se presentó en el apartado anterior. En la Tabla 1 la

mediana tiene un valor de $27,500. Este valor es muy próximo a la media de $28,333 lo

cual nos permite suponer que la distribución es simétrica al no presentar sesgos

importantes. Sin embargo, en el ejemplo de la Tabla 2 la media toma un valor de $52,857 al

incluir el sueldo del nuevo empleado. Por su parte, la mediana presenta una mayor

estabilidad y toma un valor de $30,000. En este caso existe un sesgo importante en la

distribución, por lo que la mediana ofrece una mayor representatividad como medida de

tendencia central.

La mediana tiene varias ventajas con respecto a la media. La más importante, es que

los valores extremos no afectan a la mediana de manera tan grave como a la media. La

mediana es fácil de entender y se puede calcular a partir de cualquier tipo de datos. Es

también posible encontrar la mediana incluso cuando los datos son descripciones

cualitativas como color o nitidez, en lugar de números. Supóngase, por ejemplo, que se

tienen tres tirajes de una prensa de imprenta. Los resultados deben clasificarse de acuerdo

con la nitidez de la imagen. Podemos ordenar los resultados desde el mejor hasta el peor:

extremadamente nítida, muy nítida, nítida, ligeramente borrosa y muy borrosa. La mediana

de las cinco clasificaciones es la (5 + 1)/2, es decir la tercera (nítida). La mediana tiene

también algunas desventajas, especialmente debido a que se sacrifica cierta exactitud al

elegir un solo valor para representar una distribución. Por ejemplo, para los valores 2, 4, 5,

40, 100, 213 y 347, la mediana es 40, que no tiene relación aparente con ninguno de los

otros valores de la distribución. Además, los procedimientos estadísticos para el análisis de

datos que utilizan la mediana, son más complejos que aquellos que utilizan la media.

5
1.3. Moda

La moda es una medida de tendencia central diferente de la media, pero un tanto

parecida a la mediana, pues en realidad no se calcula mediante algún proceso aritmético

ordinario. La moda es el valor que más se repite en un conjunto de datos, por lo que existe

la posibilidad de que se presente más de una moda en la distribución (ver Figura 3). Como

en todos los demás aspectos de la vida, el azar puede desempeñar un papel importante en la

organización de datos. En ocasiones, el azar hace que un sólo elemento no representativo se

repita lo suficiente para ser el valor más frecuente del conjunto de datos.

Figura 3. Distribución con más de una moda.

20

18

16

14
Frecuencia

12

10

0
-3 -2 -1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

La notación más frecuente para la moda es Mo. Se dice que cuando un conjunto de

datos sólo tiene una moda la muestra es unimodal, cuando tiene dos modas bimodal, y se le

denomina multimodal cuando tiene múltiples modas. En caso de que ninguna observación

se repita se dice que la muestra es amodal.

La moda, al igual que la mediana, se puede utilizar como una posición central para

datos tanto cualitativos como cuantitativos. Si una prensa estampa cinco impresiones que se

clasifican como “muy nítida”, “nítida”, “nítida”, “nítida” y “borrosa”, entonces el valor

6
modal es “nítida”. También, al igual que la mediana, los valores extremos no afectan

indebidamente a la moda. Aun cuando los valores extremos sean muy altos o muy bajos, se

escoge el valor más frecuente del conjunto de datos como el valor modal. Es posible utilizar

la moda sin importar qué tan grandes o qué tan pequeños sean los valores del conjunto de

datos e independientemente de cuál sea su dispersión.

Sin embargo, a diferencia de la media o la mediana no es frecuente que la moda se

utilice como medida de tendencia central. Muchas veces, no existe un valor modal debido a

que el conjunto de datos no contiene valores que se presenten más de una vez. En otras

ocasiones, cada valor es la moda, pues cada uno de ellos se presenta el mismo número de

veces. Resulta claro que la moda es una medida inútil en tales casos. Otra desventaja

consiste en que cuando los conjuntos de datos contienen más de una moda, es difícil

interpretarlos y compararlos.

1.4. Comparación entre la media, la mediana y la moda

Cuando trabajamos problemas de estadística, debemos decidir qué medida de

tendencia central vamos a utilizar. Las distribuciones simétricas que sólo contienen una

moda, no presentan diferencias significativas para el valor de la media, la mediana y la

moda. En este tipo de casos, la media es la medida de tendencia central más conveniente y

con mayor potencial para derivar conclusiones estadísticas. Sin embargo, cuando la

población muestra un sesgo importante, ya sea negativo o positivo, la mediana suele ser la

mejor medida de posición, debido a que siempre está entre la moda y la media (ver Figura

4). Por otra parte, la mediana tiene la ventaja de que no se distorsiona significativamente

debido a la frecuencia de ocurrencia de un solo valor o la presencia de valores extremos.

7
Aunque no existen guías universales para la aplicación de las medidas de tendencia

central, es conveniente tener en cuenta las siguientes reglas: (1) la media se emplea para

datos numéricos y ofrece su mayor potencial descriptivo en distribuciones simétricas,

siendo sensible a los valores extremos; (2) la mediana se utiliza para datos ordinales o para

datos numéricos que presentan una distribución sesgada, ya que no es sensible a la

variación de los extremos; (3) en caso de que la media y la mediana sean iguales la

distribución será simétrica. En la medida en que se incrementa el diferencial entre ambos

valores, el sesgo en la distribución será más significativo; (4) en términos generales, si la

media tiene un valor menor a la mediana, la distribución tendrá un sesgo a la izquierda. Por

el contrario, si la media tiene un valor mayor que la mediana, la distribución estará sesgada

a la derecha. En caso de sesgos significativos, la mediana ofrecerá una mejor descripción de

los datos. Cada caso deberá considerarse de manera independiente, de acuerdo con las

líneas generales que se analizaron y teniendo en cuenta las situaciones prácticas en las que

cada una de ellas tiene más sentido.

Figura 4. Comparación entre las medidas de tendencia central.

Mediana
Moda Media
16

14

12
Frecuencia

10

0
-2 -1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

8
La media, la mediana y la moda sólo nos revelan una parte de la información que

necesitamos acerca de las características de los datos. Para aumentar nuestro entendimiento

del patrón de los datos, debemos medir también su dispersión, extensión o variabilidad.

2. Medidas de Dispersión

Las medidas de tendencia central son de un gran valor representativo para una masa

de observaciones. Pero el valor de esas medidas dependerá de cuan variable sea la masa de

información. Por eso se establecen medidas que tratan de explicar la dispersión de los

datos. La dispersión se refiere a la separación de los datos en una distribución, es decir, al

grado en que las observaciones se desvían de la medida de tendencia central. Una medida

de dispersión conveniente deberá tomar en consideración todos los datos de la serie

calculando cada dato por su distancia al centro de la distribución.

Figura 5. Dispersión de la curva.

La importancia de la dispersión radica en lo siguiente: (1) proporciona información

adicional que nos permite juzgar la confiabilidad de la medida de tendencia central. Si los

9
datos se encuentran muy dispersos, la posición central es menos representativa de los datos

como un todo (ver curva C en la Figura 5), que cuando éstos se agrupan más cerca

alrededor de la media (curva A de la misma Figura); (2) Dado que existen problemas

característicos para datos muy dispersos, se debe ser capaz de reconocer cuando se presenta

esa dispersión amplia para poder abordar esos problemas; (3) en ocasiones se desea

comparar las dispersiones de diferentes muestras. Si no se desea tener una amplia

dispersión de valores con respecto del centro de distribución, o esto presenta riesgos

inaceptables, es necesario poder reconocerla y evitar elegir distribuciones que tengan las

dispersiones más grandes. Las principales medidas de dispersión son el rango, la varianza y

la distribución estándar, las cuales permiten describir el comportamiento de una

distribución de datos.

2.1. Rango

El rango es la diferencia entre el más alto y el más pequeño de los valores

observados. El valor de este estadístico se determina mediante la siguiente ecuación:

R = Valor máximo – Valor mínimo

Es fácil entender y encontrar el rango, pero su utilidad como medida de dispersión

es limitada. El rango sólo toma en cuenta los valores más alto y más bajo de una

distribución y ninguna otra observación del conjunto de datos. Como resultado, ignora la

naturaleza de la variación entre todas las demás observaciones, y tiene una gran influencia

de los valores extremos. Además, dado a que sólo mide dos valores, el rango tiene muchas

10
posibilidades de cambiar drásticamente de una muestra a la siguiente en una población

dada, aunque los valores que caen entre el más alto y el más bajo sean bastante parecidos.

Debido a estas desventajas, generalmente se utilizan descripciones más completas

de la dispersión, las cuales manejan la desviación promedio respecto a alguna medida de

tendencia central. Las dos medidas más importantes para el estudio de la estadística son la

varianza y la desviación estándar. Ambas medidas ofrecen una distancia promedio de

cualquier observación del conjunto de datos respecto a la media de la distribución.

2.2. Varianza

La varianza es un estadístico sobre cómo se dispersan las observaciones de un

conjunto de datos. Esta medición parte del hecho de que se puede medir que tanto se

desvían de la media cada una de las observaciones. La intuición inicial sería obtener la

desviación de cada uno de los datos con respecto a la media y posteriormente obtener un

promedio de estas desviaciones, para de esta manera obtener una analogía de la media. Es

decir una desviación media, sin embargo, si sumamos todas las desviaciones el resultado

será siempre igual a cero. La alternativa que se utiliza es elevar al cuadrado cada una de las

desviaciones. La varianza ofrece una descripción más completa de la dispersión, manejando

la desviación promedio respecto a alguna medida de tendencia central. Es decir, esta

medida de dispersión ofrece una distancia promedio de cualquier observación del conjunto

de datos con respecto a la media de la distribución.

Cada población tiene una varianza, su símbolo es 𝜎 2 . Para calcular la varianza de

una población, la suma de los cuadrados de las distancias entre la media y cada elemento de

la población se divide entre el número total de observaciones en la población. Al elevar al

11
cuadrado cada distancia, logramos que todos los números sean positivos y, al mismo

tiempo, asignamos más peso a las desviaciones más grandes (desviación es la distancia

entre la media y un valor). La fórmula para calcular la varianza es la siguiente:

 (X i   )2
𝜎2 = i=1
N

En donde 𝜎 2 corresponde a la varianza de la población; xi es cada elemento u

observación;  representa la media de la población; N es el número total de elementos de la

población;  es la sumatoria de todos los valores (xi - )2. En caso de que se esté trabajando

con datos muestrales, el estadístico s2 corresponde a la varianza; x para representar la

media muestral y n se utiliza para hacer referencia al total de elementos en la muestra.

 (X i  X )2
𝑆2 = i=1
n-1

Nótese que a diferencia de la varianza poblacional, en el cálculo de la varianza

muestral no se utiliza el número total de observaciones, sino (n – 1). De acuerdo con los

especialistas en estadística, esto se debe a que si tomamos muchas muestras de una

población determinada y estimamos la varianza para cada una de éstas, el promedio de las

varianzas muestrales no tenderá a tomar el valor de la varianza de poblacional, a menos que

se considere (n – 1) como denominador al realizar los cálculos.

Una desventaja en el uso de la varianza, es que las unidades son el cuadrado de las

unidades de los datos. Estas unidades no son intuitivamente claras o fáciles de interpretar

(por ejemplo, dollares2, kilogramos2, litros2). Por esta razón, tenemos que hacer un cambio

significativo en la varianza para calcular una medida útil de la desviación, que sea menos

12
confusa. Esta medida se conoce como la desviación estándar, y se calcula obteniendo la raíz

cuadrada de la varianza.

2.3. Desviación estándar

La desviación estándar es la medida de dispersión más usada en estadística, tanto en

aspectos descriptivos como analíticos. Este estadístico se calcula simplemente obteniendo

la raíz cuadrada de la varianza. Como la varianza es el promedio de los cuadrados de las

distancias de las observaciones a la media, la desviación estándar es la raíz cuadrada del

promedio de los cuadrados de las distancias entre las observaciones y la media. Mientras

que la varianza se expresa con el cuadrado de las unidades utilizadas para medir los datos,

la desviación estándar está en las mismas unidades que las que se usaron para medir los

datos. Las fórmulas para la desviación estándar de una población y de una muestra son

respectivamente:

𝜎 = √𝜎 2 y 𝑠 = √𝑠 2

Es posible identificar conjuntos de datos que a pesar de ser muy distintos en

términos de valores absolutos, poseen la misma media. Una medida diferencial para

identificar esos conjuntos de datos es la concentración o dispersión alrededor de la media.

A mayor valor del coeficiente del desvío estándar, mayor dispersión de los datos con

respecto a su media. La desviación estándar es un valor que representa el promedio de todas

las diferencias individuales de las observaciones respecto a un punto de referencia común,

que es la media aritmética. Se entiende entonces que cuando este valor es más pequeño, las

diferencias de los valores respecto a la media, es decir, los desvíos, son menores y, por lo

tanto, el grupo de observaciones es más “homogéneo” que si el valor de la desviación

13
estándar fuera más grande. O sea que a menor dispersión mayor homogeneidad y a mayor

dispersión, menor homogeneidad.

La desviación estándar nos permite determinar, con un buen grado de precisión,

dónde están localizados los valores de una distribución de frecuencias con relación a la

media. Es posible medir con precisión el porcentaje de observaciones que caen dentro de un

rango específico de una curva simétrica con forma de campana (ver Figura 6). En estos

casos, podemos decir que:

1. Aproximadamente 68% de los valores de la población cae dentro de ±1 desviación

estándar a partir de la media;

2. Aproximadamente 95% de los valores estará dentro de ±2 desviaciones estándar a partir

de la media.

3. Aproximadamente 99% de los valores estará en el intervalo que va desde 3

desviaciones estándar a la izquierda de la media hasta 3 desviaciones estándar a la

derecha de la media.

Figura 6. Áreas de probabilidad asociadas con la desviación estándar

40%

30%
68.26%
20%
95.44%

10%
99.73%

0%
-4 -3 -2 -1 0 1 2 3 4
Número de desviaciones estándar desde la media

14
La desviación estándar es también útil para describir qué tan lejos las observaciones

individuales de una distribución de frecuencias se apartan de la media de la distribución. La

medida del resultado estándar de una población, nos permite conocer el número de

desviaciones estándar que una observación en particular ocupa por debajo o por encima de

la media. La fórmula para calcular esta medición es la siguiente:

Resultado estándar = ( x -  )

Para ejemplificar la importancia de la dispersión en el análisis de datos,

consideremos el siguiente ejemplo. Un negocio registra los siguientes ingresos diarios en

miles de pesos. Los datos se recabaron durante dos semanas correspondientes a épocas

distintas del año.

Tabla 3
No. 1ª semana 2ª semana
1 10 30
2 20 40
3 30 50
4 50 50
5 60 60
6 80 60
7 100 60
Total 350 350

La media y la mediana de ambas distribuciones coinciden (el valor de ambas es 50

en los dos casos), sin embargo, las conclusiones que se podrían derivar de una y otra

semana son muy distintas. Aparte de los valores de tendencia central, es importante contar

con medidas que indiquen la dispersión en la distribución de datos. En este caso, se puede

identificar que las ventas durante la semana 1 muestran mayor dispersión que durante la

semana 2. La siguiente tabla muestra los resultados:

15
Estadístico Semana 1 Semana 2
Rango 90 30
Varianza 1066.66 133.33
Desviación estándar 32.65 11.54

En caso de que sólo se analizaran las medidas de tendencia central, se podría

suponer que no existen diferencias significativas entre estas dos temporadas del año, pero al

analizar la dispersión, es posible identificar que el comportamiento de los ingresos diarios

es muy diferente.

2.4. Coeficiente de variación

Para comparar la dispersión de variables que aparecen en unidades diferentes

(metros, kilos, etc.) o que corresponden a poblaciones extremadamente desiguales, es

necesario disponer de una medida de variabilidad que no dependa de las unidades o del

tamaño de los datos. Este coeficiente únicamente sirve para comparar las dispersiones de

variables correspondientes a escalas de razón. Una manera de construir una medida de

variabilidad que cumpla los requisitos anteriores es el llamado coeficiente de variación.

Coeficiente de variación = 
(100)

Este coeficiente es una medida relativa de dispersión que nos permite hacer

comparaciones de diferentes grupos con diferentes unidades de medida o diferentes

magnitudes.

16
3. Conclusiones

Las medidas de tendencia central son útiles para tener una mejor descripción de

todos los valores que toma una variable determinada. Sin embargo, es importante verificar

las particularidades de cada caso, especialmente en lo referente al sesgo y la presencia de

valores extremos en la distribución de los datos, para seleccionar el estadístico que permita

derivar las mejores conclusiones del análisis. Por otra parte, a pesar de la gran importancia

de las medidas de tendencia central y de la cantidad de información que aportan

individualmente, es necesario señalar que en muchas ocasiones esa información, no sólo no

es completa, sino que puede inducir a errores en su interpretación. Por consiguiente, es

necesario medir la dispersión de los datos y tener en cuenta el efecto que esta dispersión

tiene en las situaciones prácticas del estudio.

17
BIBLIOGRAFIA

Levin, R. I. y Rubin, D. S. (2004). Estadística para Administración y Economía. México:

Pearson Educación.

Miller, I., Freund, J. E. y Johnson, R. A. (1992). Probabilidad y Estadística para

Ingenieros. México: Prentice Hall.

Montgomery, D. C. y Runger G. C. (1996). Probabilidad y Estadística Aplicadas a la

Ingeniería. México: McGraw-Hill.

18

También podría gustarte