Documentos de Académico
Documentos de Profesional
Documentos de Cultura
características de un conjunto de datos. El presente trabajo tiene como objetivo hacer una
revisión sobre las definiciones, propiedades e implicaciones en el uso de cada una de las
refiere al punto medio de una distribución. Las medidas de tendencia central permiten
identificar la posición en que se encuentra la mayor acumulación de datos. Las curvas que
representan los datos puntuales de un conjunto de datos pueden ser simétricas o sesgadas.
Las curvas simétricas, tienen una forma tal que una línea vertical que pase por el punto más
alto de la curva dividirá su área en dos partes iguales (ver Figura 1).
1
Sin embargo, es muy común encontrar curvas sesgadas, debido a que los valores de
escala de medición del eje horizontal. Estos valores no están igualmente distribuidos. La
opuesto. Entre las medidas de tendencia central que se utilizan con mayor frecuencia están
familiar para la mayor parte de las personas, y tiene la ventaja de que su uso resulta
Σx
μ =
N
2
En donde representa a la media poblacional; N es el número total de elementos de
ecuación puede interpretarse como la suma de cada una de las observaciones dividida entre
el número total de datos. El resultado de esta ecuación permite representar en un solo valor
cuando se calcula la media para una muestra. En dicho caso, la media muestral se simboliza
Σx
X =
n
jefe del departamento de Recursos Humanos en una empresa, requiere obtener la media del
Tabla 1 1 2 3 4 5 6 Total
Salario ($) 10,000 20,000 25,000 30,000 35,000 50,000 170,000
consultor que la empresa acaba de contratar para un proyecto de productividad. Los datos
Tabla 2 1 2 3 4 5 6 7 Total
Salario ($) 10,000 20,000 25,000 30,000 35,000 50,000 200,000 370,000
3
En este segundo caso, el promedio salarial de los empleados es de $52,857. Aunque
sólo se incluyó a un nuevo elemento, se observa una importante variación con respecto al
resultado anterior, debido al sesgo que se deriva de contemplar el sueldo de este último
decir, cuando existen valores muy altos o muy bajos notoriamente distintos a la mayoría de
los datos. En estos casos la media no es representativa y debe contemplarse el uso de otro
tipo de medidas.
1.2. Mediana
observación central de éstos. Esta sola observación es la más central o la que está más en
medio en el conjunto de números. La mitad de los elementos están por encima de este
punto y la otra mitad está por debajo. Para hallar la mediana de un conjunto de datos,
medio.
Mediana = (n + 1)
2
4
Retomado el ejemplo que se presentó en el apartado anterior. En la Tabla 1 la
mediana tiene un valor de $27,500. Este valor es muy próximo a la media de $28,333 lo
incluir el sueldo del nuevo empleado. Por su parte, la mediana presenta una mayor
distribución, por lo que la mediana ofrece una mayor representatividad como medida de
tendencia central.
La mediana tiene varias ventajas con respecto a la media. La más importante, es que
los valores extremos no afectan a la mediana de manera tan grave como a la media. La
también posible encontrar la mediana incluso cuando los datos son descripciones
cualitativas como color o nitidez, en lugar de números. Supóngase, por ejemplo, que se
tienen tres tirajes de una prensa de imprenta. Los resultados deben clasificarse de acuerdo
con la nitidez de la imagen. Podemos ordenar los resultados desde el mejor hasta el peor:
extremadamente nítida, muy nítida, nítida, ligeramente borrosa y muy borrosa. La mediana
elegir un solo valor para representar una distribución. Por ejemplo, para los valores 2, 4, 5,
40, 100, 213 y 347, la mediana es 40, que no tiene relación aparente con ninguno de los
datos que utilizan la mediana, son más complejos que aquellos que utilizan la media.
5
1.3. Moda
ordinario. La moda es el valor que más se repite en un conjunto de datos, por lo que existe
la posibilidad de que se presente más de una moda en la distribución (ver Figura 3). Como
en todos los demás aspectos de la vida, el azar puede desempeñar un papel importante en la
repita lo suficiente para ser el valor más frecuente del conjunto de datos.
20
18
16
14
Frecuencia
12
10
0
-3 -2 -1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
La notación más frecuente para la moda es Mo. Se dice que cuando un conjunto de
datos sólo tiene una moda la muestra es unimodal, cuando tiene dos modas bimodal, y se le
denomina multimodal cuando tiene múltiples modas. En caso de que ninguna observación
La moda, al igual que la mediana, se puede utilizar como una posición central para
datos tanto cualitativos como cuantitativos. Si una prensa estampa cinco impresiones que se
clasifican como “muy nítida”, “nítida”, “nítida”, “nítida” y “borrosa”, entonces el valor
6
modal es “nítida”. También, al igual que la mediana, los valores extremos no afectan
indebidamente a la moda. Aun cuando los valores extremos sean muy altos o muy bajos, se
escoge el valor más frecuente del conjunto de datos como el valor modal. Es posible utilizar
la moda sin importar qué tan grandes o qué tan pequeños sean los valores del conjunto de
utilice como medida de tendencia central. Muchas veces, no existe un valor modal debido a
que el conjunto de datos no contiene valores que se presenten más de una vez. En otras
ocasiones, cada valor es la moda, pues cada uno de ellos se presenta el mismo número de
veces. Resulta claro que la moda es una medida inútil en tales casos. Otra desventaja
consiste en que cuando los conjuntos de datos contienen más de una moda, es difícil
interpretarlos y compararlos.
tendencia central vamos a utilizar. Las distribuciones simétricas que sólo contienen una
moda. En este tipo de casos, la media es la medida de tendencia central más conveniente y
con mayor potencial para derivar conclusiones estadísticas. Sin embargo, cuando la
población muestra un sesgo importante, ya sea negativo o positivo, la mediana suele ser la
mejor medida de posición, debido a que siempre está entre la moda y la media (ver Figura
4). Por otra parte, la mediana tiene la ventaja de que no se distorsiona significativamente
7
Aunque no existen guías universales para la aplicación de las medidas de tendencia
central, es conveniente tener en cuenta las siguientes reglas: (1) la media se emplea para
siendo sensible a los valores extremos; (2) la mediana se utiliza para datos ordinales o para
variación de los extremos; (3) en caso de que la media y la mediana sean iguales la
media tiene un valor menor a la mediana, la distribución tendrá un sesgo a la izquierda. Por
el contrario, si la media tiene un valor mayor que la mediana, la distribución estará sesgada
los datos. Cada caso deberá considerarse de manera independiente, de acuerdo con las
líneas generales que se analizaron y teniendo en cuenta las situaciones prácticas en las que
Mediana
Moda Media
16
14
12
Frecuencia
10
0
-2 -1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
8
La media, la mediana y la moda sólo nos revelan una parte de la información que
necesitamos acerca de las características de los datos. Para aumentar nuestro entendimiento
del patrón de los datos, debemos medir también su dispersión, extensión o variabilidad.
2. Medidas de Dispersión
Las medidas de tendencia central son de un gran valor representativo para una masa
de observaciones. Pero el valor de esas medidas dependerá de cuan variable sea la masa de
información. Por eso se establecen medidas que tratan de explicar la dispersión de los
grado en que las observaciones se desvían de la medida de tendencia central. Una medida
adicional que nos permite juzgar la confiabilidad de la medida de tendencia central. Si los
9
datos se encuentran muy dispersos, la posición central es menos representativa de los datos
como un todo (ver curva C en la Figura 5), que cuando éstos se agrupan más cerca
alrededor de la media (curva A de la misma Figura); (2) Dado que existen problemas
característicos para datos muy dispersos, se debe ser capaz de reconocer cuando se presenta
esa dispersión amplia para poder abordar esos problemas; (3) en ocasiones se desea
dispersión de valores con respecto del centro de distribución, o esto presenta riesgos
inaceptables, es necesario poder reconocerla y evitar elegir distribuciones que tengan las
dispersiones más grandes. Las principales medidas de dispersión son el rango, la varianza y
distribución de datos.
2.1. Rango
es limitada. El rango sólo toma en cuenta los valores más alto y más bajo de una
distribución y ninguna otra observación del conjunto de datos. Como resultado, ignora la
naturaleza de la variación entre todas las demás observaciones, y tiene una gran influencia
de los valores extremos. Además, dado a que sólo mide dos valores, el rango tiene muchas
10
posibilidades de cambiar drásticamente de una muestra a la siguiente en una población
dada, aunque los valores que caen entre el más alto y el más bajo sean bastante parecidos.
tendencia central. Las dos medidas más importantes para el estudio de la estadística son la
2.2. Varianza
conjunto de datos. Esta medición parte del hecho de que se puede medir que tanto se
desvían de la media cada una de las observaciones. La intuición inicial sería obtener la
desviación de cada uno de los datos con respecto a la media y posteriormente obtener un
promedio de estas desviaciones, para de esta manera obtener una analogía de la media. Es
decir una desviación media, sin embargo, si sumamos todas las desviaciones el resultado
será siempre igual a cero. La alternativa que se utiliza es elevar al cuadrado cada una de las
medida de dispersión ofrece una distancia promedio de cualquier observación del conjunto
una población, la suma de los cuadrados de las distancias entre la media y cada elemento de
11
cuadrado cada distancia, logramos que todos los números sean positivos y, al mismo
tiempo, asignamos más peso a las desviaciones más grandes (desviación es la distancia
(X i )2
𝜎2 = i=1
N
población; es la sumatoria de todos los valores (xi - )2. En caso de que se esté trabajando
(X i X )2
𝑆2 = i=1
n-1
muestral no se utiliza el número total de observaciones, sino (n – 1). De acuerdo con los
población determinada y estimamos la varianza para cada una de éstas, el promedio de las
Una desventaja en el uso de la varianza, es que las unidades son el cuadrado de las
unidades de los datos. Estas unidades no son intuitivamente claras o fáciles de interpretar
(por ejemplo, dollares2, kilogramos2, litros2). Por esta razón, tenemos que hacer un cambio
significativo en la varianza para calcular una medida útil de la desviación, que sea menos
12
confusa. Esta medida se conoce como la desviación estándar, y se calcula obteniendo la raíz
cuadrada de la varianza.
promedio de los cuadrados de las distancias entre las observaciones y la media. Mientras
que la varianza se expresa con el cuadrado de las unidades utilizadas para medir los datos,
la desviación estándar está en las mismas unidades que las que se usaron para medir los
datos. Las fórmulas para la desviación estándar de una población y de una muestra son
respectivamente:
𝜎 = √𝜎 2 y 𝑠 = √𝑠 2
términos de valores absolutos, poseen la misma media. Una medida diferencial para
A mayor valor del coeficiente del desvío estándar, mayor dispersión de los datos con
que es la media aritmética. Se entiende entonces que cuando este valor es más pequeño, las
diferencias de los valores respecto a la media, es decir, los desvíos, son menores y, por lo
13
estándar fuera más grande. O sea que a menor dispersión mayor homogeneidad y a mayor
dónde están localizados los valores de una distribución de frecuencias con relación a la
media. Es posible medir con precisión el porcentaje de observaciones que caen dentro de un
rango específico de una curva simétrica con forma de campana (ver Figura 6). En estos
de la media.
derecha de la media.
40%
30%
68.26%
20%
95.44%
10%
99.73%
0%
-4 -3 -2 -1 0 1 2 3 4
Número de desviaciones estándar desde la media
14
La desviación estándar es también útil para describir qué tan lejos las observaciones
medida del resultado estándar de una población, nos permite conocer el número de
desviaciones estándar que una observación en particular ocupa por debajo o por encima de
Resultado estándar = ( x - )
miles de pesos. Los datos se recabaron durante dos semanas correspondientes a épocas
Tabla 3
No. 1ª semana 2ª semana
1 10 30
2 20 40
3 30 50
4 50 50
5 60 60
6 80 60
7 100 60
Total 350 350
en los dos casos), sin embargo, las conclusiones que se podrían derivar de una y otra
semana son muy distintas. Aparte de los valores de tendencia central, es importante contar
con medidas que indiquen la dispersión en la distribución de datos. En este caso, se puede
identificar que las ventas durante la semana 1 muestran mayor dispersión que durante la
15
Estadístico Semana 1 Semana 2
Rango 90 30
Varianza 1066.66 133.33
Desviación estándar 32.65 11.54
suponer que no existen diferencias significativas entre estas dos temporadas del año, pero al
es muy diferente.
necesario disponer de una medida de variabilidad que no dependa de las unidades o del
tamaño de los datos. Este coeficiente únicamente sirve para comparar las dispersiones de
Coeficiente de variación =
(100)
Este coeficiente es una medida relativa de dispersión que nos permite hacer
magnitudes.
16
3. Conclusiones
Las medidas de tendencia central son útiles para tener una mejor descripción de
todos los valores que toma una variable determinada. Sin embargo, es importante verificar
valores extremos en la distribución de los datos, para seleccionar el estadístico que permita
derivar las mejores conclusiones del análisis. Por otra parte, a pesar de la gran importancia
necesario medir la dispersión de los datos y tener en cuenta el efecto que esta dispersión
17
BIBLIOGRAFIA
Pearson Educación.
18