MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN PARA DATOS
AGRUPADOS
Realizar una búsqueda de información acerca de las fórmulas y procedimientos
para calcular las medidas de tendencia central y de dispersión en datos agrupados
en una tabla estadística.
Las medidas de tendencia central, son herramientas utilizadas para medir
estadísticas cuyo objetivo es resumir en un solo valor a un conjunto de valores, y
de esta manera representar un centro en al cual se deben encontrar ubicados en
conjunto los datos. Existe varias medidas de tendencia central, sin embargo, las
más utilizadas son: media, mediana y moda.
Fundamentalmente podemos encontrar cuatro tipos, los cuales describen de
manera puntual y cuantitativa la posición que dan los valores de las variables a
través o a lo largo del recorrido, y así demuestran el para qué sirven las medidas
de tendencia central, a continuación, te mencionamos las medidas más usadas.
Media, media aritmética, mediana y moda.
Media:
Es el valor promedio de un conjunto de datos numéricos, se calcula como la suma
del conjunto de valores, dividida entre el número total de valores, para lo cual tiene
su fórmula. Se consideran todas las puntuaciones, el numerador de la fórmula es
la cantidad total de todos sus valores dividida entre el número de sumadores.
Media aritmética:
Es el valor promedio, o medición de tendencia central, de uso más común, se
calcula sumando todas las observaciones de una serie de datos y luego dividiendo
el total, entre el número de elementos involucrados. Es decir, es lo que se
denominaría en matemáticas como promedio.
Mediana:
Es un dato estadístico de posición central, que parte la distribución en dos, esta
puede ser de manera creciente o decreciente, lo que significa, que coloca la
misma cantidad de valores en un lado y en el otro, por ejemplo; ¿Para qué sirven
las medidas de tendencia central? pues estas sirven para determina la mediana de
estos valores 5, 9, 4, 2, 7. Luego los ordenamos de manera creciente que serían
2, 4, 5, 7, 9, donde la mediana seria 5. Ya que los números son impares.
Moda:
Es el valor que más se repite en una muestra estadística o población, no tiene
fórmula en sí misma, lo que hay que realizar es la suma de las repeticiones, es
decir un recuento de las variables continuas, mismas que se expresan en
intervalos, mediante un intervalo modal, o de ser necesario se debe obtener el
valor concreto de la variable.
Una vez definido para qué sirven las medidas de tendencia central y cuáles de
estas son las principales, podemos decir que existen otros parámetros de
tendencia central menos usados.
Parámetros de tendencia central con menos uso, pero que vale la pena
mencionar, estas son:
Media ponderada, media geométrica y media armónica.
Aunque son poco usadas, igual son importantes cundo definimos el para qué
sirven las medidas de tendencia central, ya que nos permiten tener estadísticas
más exactas, pues no todas los valores y series estadísticos tienen la misma
importancia.
MEDIDAS DE DISPERSIÓN
Las medidas de dispersión miden el grado de dispersión de los valores de la
variable. Dicho en otros términos las medidas de dispersión pretenden evaluar en
qué medida los datos difieren entre sí. De esta forma, ambos tipos de medidas
usadas en conjunto permiten describir un conjunto de datos entregando
información acerca de su posición y su dispersión.
RANGO
Es la diferencia entre el valor máximo y el mínimo en nuestros datos, esta medida
de dispersión aunque es la más fácil de obtener, en lo general es muy poco usada.
Datos agrupados Hay dos formas para determinar el rango para datos agrupados:
1) Rango = punto medio de la clase más alta – punto medio de la más baja
2) Rango = límite superior de la clase más alta – límite inferior de la más baja
Fórmula:
R = X máximo – X mínimo
VARIANZA
Es una medida estadística que mide la dispersión de los valores respecto a un
valor central (media), es decir, es el cuadrado de las desviaciones:
Formula
DESVIACIÓN ESTÁNDAR
La desviación estándar o desviación típica (σ) es una medida de centralización o
dispersión para variables de razón (ratio o cociente) y de intervalo, de gran utilidad
en la estadística descriptiva.
Se define como la raíz cuadrada de la varianza. Junto con este valor, la desviación
típica es una medida (cuadrática) que informa de la media de distancias que
tienen los datos respecto de su media aritmética, expresada en las mismas
unidades que la variable.
Fórmula:
Coeficiente de variación: se describe como la medida relativa de la dispersión de
los datos, pues la podemos definir como una desviación estándar que se realiza
de una muestra, por ejemplo; un porcentaje de la media central.
Todas estas medidas se calculan no solo con los datos, sino que para obtener los
resultados se deben usar una serie de fórmulas específicas para cada una, y de
esta forma nos ayudan a saber el para qué sirven las medidas de tendencia
central.
Formula
EJEMPLO:
Calcule el tiempo promedio que tardaron 50 clientes en una caja bancaria, Por
ejemplo, suponiendo, que en la primera clase 2 clientes tardaron en la caja entre
141 y 157 segundos aproximadamente. No sabemos con exactitud cuánto tardó
cada uno de ellos, sólo sabemos que tardaron un tiempo comprendido entre éstos
dos límites.
Para ello debemos efectuar el cálculo de la media aritmética, supondremos que un
valor representativo de la clase es su marca de clase o punto medio, xi.
PROMEDIO (MEDIA)
Entonces dividimos el límite superior más el
límite inferior por cada clase
x 1=¿¿¿ ¿
Tiempo invertido en No. De Marca de clase
atender al cliente clientes f 1 x1
141-157 2 149
157-173 13 165
173-189 17 181
189-205 14 197
205-221 3 213
221-237 1 229
Los datos son aproximados, es decir, suponemos que tenemos 2 clientes que
tardaron 149 segundos en la caja, 13 que tardaron 165, 17 que tardaron 181
segundos, etc. Entonces la suma de todos los datos sería igual a sumar 2 veces 149
más 13 veces 165 más 17 veces 181 más 14 veces 197 más 3 veces
213 más 1 vez 229.
La suma total es igual a:
149 x 2+ 165 x 13 + 181 x 17+ 165 + 197 x 14+ 213 x 3+ 165 + 165 + 165 + 229 x 1
La suma total es la suma de los productos marca de clase por frecuencia para cada
clase, entonces podemos decir que la media será igual a la suma obtenida dividida
entre el número de datos, se sumaron 50 datos, y que 50 es la suma de la columna
de frecuencias, entonces:
9146
x́= =182.92 seg
50
Esto quiere decir que la media seria de 182.92 segundos de espera lo que
equivale a aproximadamente 3 minutos por cliente.
El cálculo anterior lo podemos observar obteniendo una columna adicional en
nuestra Tabla de distribución de frecuencias, la cuarta columna expresará los
productos para cada clase como se muestra en la tabla.
Tiempo invertido en No. De Marca de clase x1 f 1
atender al cliente clientes f1 x1
141-157 2 149 298
157-173 13 165 2145
173-189 17 181 3077
189-205 14 197 2758
205-221 3 213 639
221-237 1 229 229
Totales 50 9146
La suma de esta columna es de 9146, el cual vamos a dividir entre el número de
datos, este nos da el valor de la media.
9146
x́= =182.92 seg
50
Tiempo invertido No. De Marca de Frecuencia Frecuencia Frecuencia
en atender al clientes f 1 clase x 1 relativa f r acumulada relativa
cliente F1 acumulada
Fr 1
141-157 2 149 0.04 2 0.04
157-173 13 165 0.26‘ 15 0.30
173-189 17 181 0.34 32 0.64
189-205 14 197 0.28 46 0. 92
205-221 3 213 0.06 49 0.98
221-237 1 229 0.02 50 1.00
Totales 50 9146
A partir de los cálculos realizados podemos escribir la expresión para la media
calculada a partir de los datos agrupados en la Tabla de distribución de
frecuencias
MEDIANA
La mediana es el valor por abajo del cual se encuentran el 50% de los datos y por
arriba de él se encuentra también el otro 50% de los datos, entonces la mediana
se debe de encontrar en la clase en la que la frecuencia relativa acumulada en
una clase anterior sea menor de 0.5 (50%) y en ella la frecuencia relativa
acumulada sea 0.5 o más.
( 189−173 )( 0.5−0.3 )
Mediana=173+ =182.40
0.34
A esta clase se le llama clase mediana.
La clase mediana se encuentra en el tercer rango de 173 a 189, con 17 clientes
los cuales pasan uno respecto del otro con una diferencia de 34 segundos, la cual
se acumula hasta los 64 segundos, como se muestra en la siguiente tabla.
Entre mayor es el rango del tiempo invertido en atender al cliente mayor será la
acumulación de segundos la cual se muestra en la última columna, el cual puede
llegar a ser de aproximadamente 35 minutos o 2123 segundos.
Tiempo invertido No. De Marca de X1*f1 X1-x2 (
en atender al clientes f 1 clase x 1 x 1−x ¿ ¿2
cliente
141-157 2 149 298 -33.92 1150.57
157-173 13 165 2145‘ -17.92 321.13
173-189 17 181 3077 -1.92 3.69
189-205 14 197 2758 14.08 198.25
205-221 3 213 639 30.08 904.81
221-237 1 229 229 46.08 2123.37
Totales 50 9146
MODA
Si se necesita establecer un valor, la moda sería igual a la marca de clase de la
clase modal, en el ejemplo seria la tercera clase, es decir de 173 a menos de 189
segundos y la moda seria a 181 segundos.
MEDIDAS DE DISPERSIÓN
Es posible distinguir con este resumen una muestra de la otra. Es necesario,
entonces una medida de tendencia central y una de variabilidad.
Las medidas de variabilidad son el rango o amplitud, la varianza, la desviación
estándar y el coeficiente de variación.
La varianza no tiene significado. Se expresa en las unidades de los datos
elevadas al cuadrado. Sí estas estudiando el tiempo en el que son atendidos los
clientes en una caja bancaria, la varianza tiene como unidades clientes n2 , lo cual
no tiene ningún significado.
La desviación estándar tiene las mismas unidades que los datos y nos proporciona
la variabilidad promedio de los datos con respecto a su media.
Entonces, la varianza y la desviación estándar tienen las siguientes expresiones:
El coeficiente de variación es una medida de variabilidad relativa de una serie de
datos y se obtiene dividiendo la desviación estándar de los datos entre su media.
Debido a que la desviación estándar y la media tienen las mismas unidades, el
coeficiente de variación se expresa por lo general en proporción o en porcentaje y
por lo tanto, se utiliza para comparar la variabilidad de dos o más series de datos.
Tiempo invertido No. De
EJEMPLO: en atender al clientes f1
cliente
Las medidas de tendencia central se
141-157 2
pueden calcular a partir 157-173 13 de una tabla de
distribución de 173-189 17 frecuencias, siguiendo
189-205 14
el ejemplo anterior del 205-221 3 tiempo que esperaron
50 clientes en ser 221-237 1 atendidos en una caja
Total 50
bancaria, utilizaremos la tabla de frecuencias
acumuladas que nos indica el tiempo que tardaron los clientes en una caja
bancaria, a partir de ellos calcularemos la varianza y la desviación estándar.
Tiempo invertido No. De Marca de ( x 1* f 1)
en atender al clientes f1 clase x 1
cliente (Rango)
141-157 2 149 298
157-173 13 165 2145‘
173-189 17 181 3077
189-205 14 197 2758
205-221 3 213 639
221-237 1 229 229
Totales 50 9146
Se tiene que calcular la media como se calcularon anteriormente en las medidas
de tendencia central.
Tiempo invertido No. De Marca de ( x 1* f 1) ( x 1−x́ )
en atender al clientes f1 clase x 1 La
cliente (Rango)
media
141-157 2 149 298 -33.92
157-173 13 165 2145‘ -17.92
173-189 17 181 3077 -1.92
189-205 14 197 2758 14.08
205-221 3 213 639 30.08
221-237 1 229 229 46.08
Totales 50 9146
entonces es igual a:
9146
x́= =182.92 seg
50
Ahora calculemos de distancia de cada dato, con respecto a la media, suponemos
que los valores de los datos son las marcas de clase, anexamos una columna más
donde se registren estas distancias.
Añadimos una columna al final donde se anoten las distancias al cuadrado
Tiempo invertido No. De Marca de ( x 1* f 1) ( x 1−x ) ( x 1− x́)2
en atender al clientes f1 clase x 1
cliente (Rango)
141-157 2 149 298 -33.92 1150.57
157-173 13 165 2145‘ -17.92 321.13
173-189 17 181 3077 -1.92 3.69
189-205 14 197 2758 14.08 198.25
205-221 3 213 639 30.08 904.81
221-237 1 229 229 46.08 2123.37
Totales 50 9146
Tiempo invertido No. De Marca de ( x 1* f 1) ( x 1−x ) ( x 1−x)2 (
en atender al clientes f1 clase x 1 x 1−x ¿ ¿2 f 1
cliente (Rango)
141-157 2 149 298 -33.92 1150.57 2301.13
157-173 13 165 2145 -17.92 321.13 4174.64
173-189 17 181 3077 -1.92 3.69 66.36
189-205 14 197 2758 14.08 198.25 2775.45
205-221 3 213 639 30.08 904.81 2714.42
221-237 1 229 229 46.08 2123.37 2123.37
Totales 50 9146 14155.37
Finalmente, estas distancias cuadráticas corresponden a la distancia al cuadrado
de cada dato con respecto a su media, suponiendo que cada dato o marca de
clase se repite un número igual a su frecuencia, por lo que tenemos que obtener
en una columna los productos.
Finalmente calcularemos la varianza a partir de la tabla de frecuencia de datos
acumulados.
VARIANZA
Entonces calculemos la varian:
Sustituimos:
14155.37
s2= =288.89
49
DESVIACIÓN ESTÁNDAR
Sustituimos:
14155.37
S=
√ 49
=288.89=16.99
COEFICIENTE DE VARIACIÓN
Sustituimos:
16.99
c . v= ( )
288.89
100=5.88 %
En resumen, significa que el tiempo que un cliente pasa esperando en la fila para
ser atendido en una caja de banco varia aproximadamente de 4 minutos en cada
uno de los rangos, mientras que la desviación estándar indica que sería de 3
minutos, respecto a la media que es de 182.92 segundos.
El coeficiente de variación indica que habrá un 5.88% de diferencia entre una
cliente y otro al momento de ser atendido.