Está en la página 1de 19

4.

MEDIDAS DE TENDENCIA CENTRAL

Ejemplo. Calcular la media aritmética de la distribución de clases y frecuencias presen-


tada en la tabla 4 relativa al resultado del examen de admisión de 120 estudiantes.
Tabla 11: Distribución de clases y frecuencias de las calificaciones obtenidas por 120
alumnos en un examen de admisión

Puntajes (x) f Pm f Pm
28-32 10 30 300
33-37 15 35 525
38-42 20 40 800
43-47 35 45 1575
48-52 19 50 950
53-57 12 55 660
58-62 9 60 540
P
120 5350

Una vez calculados los puntos medios de clase, se efectúa el producto fPm (la fre-
cuencia por el punto medio de cada clase) y se suman los productos parciales, nos
da 5350, luego dividimos esta suma entre 120, y se obtiene:
P
f P m 5350
X= = = 44.58
N 120

4.1.2. Propiedades de la media aritmética

Se hace necesario conocer y manejar correctamente las propiedades que presenta la


Media aritmética, pues facilita la realización de ciertas operaciones, algunas de ellas
necesarias para el desarrollo de la teorı́a estadı́stica y otras, como simplificación de
cálculo.
Propiedad 1

La suma algebraica de las desviaciones de cada término de la serie, con res-


pecto a la media, es cero. Llamando por d, la desviación de cualquier término
con respecto a su media (d = Xi − X), esta propiedad puede establecerse ası́:
X
d = 0 ó bien
X
(Xi − X) = 0 (para datos sin agrupar)
X
(Xi − X)f = 0 (para datos agrupados)

Ejemplo. Considere la serie: 4, 5, 6, 7 y 8.


La media aritmética de esta serie de números es:
P
X 4 + 5 + 6 + 7 + 8 30
X= = = =6
N 5 5

20
4. MEDIDAS DE TENDENCIA CENTRAL

Ahora calcularemos las desviaciones de cada valor de la serie con respecto a la me-
dia. El calculo de las desviaciones se presenta en la tabla 12. Nótese que la suma de
las desviaciones es cero, tal cual lo enuncia la propiedad.

Tabla 12: Calculo de las desviaciones de los datos de la serie

Xi Xi − X
4 4-6=-2
5 -1
6 0
7 +1
8 +2
P
0

Propiedad 2

La suma del cuadrado de las desviaciones de cada término de la serie, con


respecto a la media es un mı́nimo. En otras palabras, la suma del cuadrado
de las desviaciones de cada término, con respecto a la media, es menor que
la suma del cuadrado de las desviaciones de cada término, con respecto a
cualquier otro valor diferente de la media. Formalmente, esta propiedad puede
establecerse ası́:
X X
(Xi − X)2 < (Xi − A)2

donde A es un valor distinto de X

Ejemplo. Retomaremos la serie de números del ejemplo anterior y se calculará la su-


matoria de los cuadrados de las desviaciones con respecto a la media (X = 6) y con
respecto a A = 4.

Tabla 13: Cuadrado de las desviaciones con respecto a la media

Xi Xi − X (Xi − X)2 Xi − 4 (Xi − 4)2


4 -2 4 0 0
5 -1 1 +1 1
6 0 0 +2 4
7 +1 1 +3 9
8 +2 4 +4 16
P
0 10 10 30

Se cumple la propiedad para cualquier valor que se le asigne a A (¡ Pruebe con otros
valores !)

21
4. MEDIDAS DE TENDENCIA CENTRAL

Propiedad 3

La media de una muestra es igual a la media ponderada de las medias, siendo


las ponderaciones los tamaños de dichas muestras, es decir:
P
n X + n2 X 2 + n3 X 3 + ... + nk X k ni X i
XT = 1 1 =
n1 + n2 + n3 + ... + nk N

Donde:
X T = media aritmética total.
ni = tamaño de la muestra i (i=1,2,...,k)
X i = media aritmética de la muestra i.
N = n1 + n2 + n3 + ... + nk

Ejemplo. En una escuela de San Salvador, hay tres secciones de noveno grado, se les
pasó un examen de matematica, con los siguientes resultados:

Tabla 14: Notas de tres secciones de noveno grado en un examen de matemática

Secciones ni Xi
A 25 68
B 30 70
C 45 60

Determinar la media aritmética total del rendimiento de los alumnos en dicho examen:

25x68 + 30x70 + 45x60 6500


XT = = = 65
25 + 30 + 45 100

Propiedad 4

La media aritmética de una constante, es igual a dicha constante, es decir:

M(k) = K
siendo K una constante

Propiedad 5

La media aritmética del producto de una constante por una variable es igual
al producto de la constante por la media de la variable, es decir:

M(Kx) = KM(x)

22
4. MEDIDAS DE TENDENCIA CENTRAL

Ejemplo. La media aritmética de 4, 5, 6, 7 y 8 es 6; multipliquemos hoy cada valor de


X por la constante K=2, los valores de X quedan ası́: 8, 10, 12, 14 y 16; luego la media
de estos valores es:

8 + 10 + 12 + 14 + 16
= 12
5
este valor puede observarse que es el producto de 2x6, es decir M(Kx) = KM(x)
Propiedad 6

Si a cada valor de la variable, se le agrega una constante, la media de la va-


riable resultante es igual a la media aritmética original más la constante; es
decir:

M(X + K) = M(X) + K

Ejemplo. La media aritmética de 4, 5, 6, 7 y 8 es 6; sumemos hoy a cada valor de X


una constante K=2; los nuevos valores que toma X son 6, 7, 8, 9, 10; luego la media de
estos valores es:

6 + 7 + 8 + 9 + 10
=8
5
este valor puede observarse que es la suma de 2 + 6 = 8, donde K=2 y 6 es la media
original; es decir, M(X + K) = M(X) + K

4.2. Mediana
Al calcular la media de un conjunto de datos que forman una muestra, los valores
extremos (valores muy grandes o muy pequeños en relación con los demás) pueden
influenciar fuertemente en el resultado, desvirtuando de este modo la utilidad de la
media aritmética como valor que caracteriza a los datos.
Considere los datos de la tabla 15 que muestran los salarios mensuales de 11 traba-
jadores de una finca en Santa Ana.

Tabla 15: Salarios mensuales de 11 empleados de una finca

Sueldos (Xi ) f f xi
100 4 400
120 5 600
2000 1 2000
3000 1 3000
P
11 6000

Según esta tabla, la media de los sueldos en la muestra es X = 6000


11 = 545.45 dólares;
sin embargo, 9 de las 11 personas tiene una remuneración menor o igual a 120. Ello

23
4. MEDIDAS DE TENDENCIA CENTRAL

indica que la media no representa bien a los 11 sueldos. Los valores extremos 2,000
y 3,000 han influido fuertemente en el resultado ( en estos casos se dice que la
distribución tiene un sesgo a la derecha).
Si una distribución de datos tiene un sesgo (valores muy grandes o muy pequeños
con respecto a los demás) es mejor utilizar una medida de tendencia central que no
sea sensible a los valores extremos. Una de estas medidas es la mediana.
Mediana
La mediana en un conjunto de datos es el valor que ocupa el lugar central, de
tal forma que aquel valor deja el 50 % de las observaciones por debajo de él y
el otro 50 % por encima de él. Para la ubicación de la posición de la mediana
se deben ordenar los datos de forma ascendente o descendente. La mediana
se denota por Me o bien por x̃.

El cálculo de la mediana para una serie simple (sin agrupar) dependerá de si el


número de datos n, es par o impar.
• Si n es impar, la mediana es el valor que ocupa la posición n+1
2 una vez que los
datos han sido ordenados (en orden creciente o decreciente), porque éste es el
valor central. Es decir: Me = x( n+1 )
2

• Si n es par, la mediana es la semisuma de los dos datos centrales los cuales


x( n ) +x( n +1)
n n 2 2
ocupan las posiciones 2 y 2 + 1. Es decir: Me = 2

Ejemplo. Encontrar la mediana de la siguiente serie: 6, 3, 4, 10, 9, 7, 8.


Lo primero que se debe hacer es ordenar la serie, ası́: 3, 4, 6, 7, 8, 9 , 10. Dado
que tenemos una cantidad impar de datos (n=7), la mediana se encuentra en
7+1
la posición n+1
2 = 2 = 4, es decir en la cuarta posición de la serie ordenada.
El número que se encuentra en la cuarta posición es el 7, por tanto Me = 7.

Ejemplo. Encontrar la mediana de la siguiente serie: 8, 16, 4, 2, 20, 3, 12, 20.


Nuevamente comenzamos ordenando la serie, ası́: 2, 3, 4, 8, 12, 16, 20, 20.
Dado que esta vez se tiene una cantidad par de datos (n=8), la mediana es
la semisuma de los dos términos centrales los cuales se encuentran en las
posiciones n2 = 82 = 4 y n2 + 1 = 82 + 1 = 5, es decir en la cuarta y quinta posición.
Los valores que se encuentran en esas posiciones son 8 y 12, por tanto:
8 + 12
Me = = 10
2

24
4. MEDIDAS DE TENDENCIA CENTRAL

4.2.1. Mediana para distribuciones de frecuencias

La mediana para una distribución de clases y frecuencias se puede encontrar por dos
métodos: por interpolación y por un método gráfico.
Método de interpolación
Parte del supuesto de que los datos son continuos y que los valores de la serie se
distribuyen regularmente dentro de los intervalos de clase.
Procedimiento para calcular la mediana por el método de interpolación

1. Calcular las frecuencias acumuladas.


2. Identificar la clase mediana. Esta se halla al efectuar el cociente n2 y lue-
go ubicar la primera clase en donde la frecuencia acumulada es igual o
superior a n2 .
3. Calcular la mediana usando la formula:
N
2 − f aa
Me = li + ( ) × ic
fm
Donde:
li = lı́mite inferior (real) de la clase mediana.
f aa = frecuencia acumulada anterior a la frecuencia de la clase mediana.
f m = frecuencia absoluta de la clase mediana.
ic = tamaño del intervalo de clase (ancho de clase)

Ejemplo. La siguiente distribución de frecuencias muestra el tiempo (en minutos) que


tardan 50 alumnos de la UDB para realizar el primer parcial de Estadı́stica Aplicada.
Calcular la mediana.
Tabla 16: Tiempo requerido por 50 estudiantes para resolver un examen parcial

Minutos f fa
[ 45 - 50 ] 2 2
( 50 - 55 ] 9 11
( 55 - 60 ] 12 23
( 60 - 65 ] 11 34
( 65 - 70 ] 9 43
( 70 - 75 ] 7 50
P
50

Para calcular la mediana, se utilizan los pasos descritos en el enunciado anterior,


esto es:
1. Las frecuencias acumuladas se presentan en la tercera columna de la tabla
anterior.
2. Ahora procedemos a identificar la clase mediana, para ello calculamos
n 50
2 = 2 = 25. Al analizar las frecuencias acumuladas, se encuentra que 25 se

25
4. MEDIDAS DE TENDENCIA CENTRAL

ubica en el 4° intervalo (no es posible ubicar el valor de 25 en el tercer inter-


valo, debido a que solo acumula 23 personas).
3. Los datos para el cálculo de la mediana serán:

li = 60; f aa = 23; f m = 11; ic = 65 − 60 = 5

Sustituyendo en la formula se tiene:

N
2 − f aa 25 − 23
Me = li + ( ) × ic = 60 + ( ) × 5 = 60 + 0.91 = 60.91minutos
fm 11

Ejemplo. Calcular la mediana de la distribución de clases y frecuencias presentada en


la tabla 4 relativa al resultado del examen de admisión de 120 estudiantes.

Tabla 17: Distribución de clases y frecuencias de las calificaciones obtenidas por 120
alumnos en un examen de admisión

Puntajes (x) f faa


28-32 10 10
33-37 15 25
38-42 20 45
43-47 35 80
48-52 19 99
53-57 12 111
58-62 9 120
P
120

Dado que ya tenemos las frecuencias acumuladas, procedemos a identificar la clase


mediana, para ello calculamos n2 = 120
2 = 60; por tanto la mediana se ubica en la
cuarta clase.
Adviértase que en este ejemplo estamos trabajando con lı́mites aparentes, por tan-
to la determinación del limite inferior (li) y del ancho de clase (ic ) tendrá unas
pequeñas pero importantes diferencias con respecto al ejemplo anterior.
Los datos para el cálculo de la mediana serán:

li = 42.5; f aa = 45; f m = 35; ic = (47 − 43) + 1 = 5

Sustituyendo en la formula se tiene:

N
2 − f aa 60 − 45
Me = li + ( ) × ic = 42.5 + ( ) × 5 = 42.5 + 2.14 = 44.64
fm 35

26
4. MEDIDAS DE TENDENCIA CENTRAL

¡ADVERTENCIA!
Cuando se está calculando la mediana y la moda de una distribución de clases y frecuencias
es sumamente fundamental tener claridad sobre si se está trabajando con lı́mites reales (como
en el primer ejemplo) o con limites aparentes (como en el segundo ejemplo).
La diferencia entre usar uno u otro tipo de limite radica en dos aspectos:
1. Lı́mite inferior (li)
En las formulas de mediana y moda, el lı́mite inferior (li) debe ser un lı́mite real.
Por ello, cuando se trabaja con limites aparentes es necesario convertirlo a lı́mite real
restandole 0.5 (es por eso que en el segundo ejemplo, el lı́mite inferior fue 42.5 y no
43).
2. Ancho de clase o intervalo de clase (ic )
- Cuando se trabaja con limites reales el intervalo de clase es la diferencia entre el limite
superior y el limite inferior de alguna de las clases, es decir ic = ls − li
- Cuando se trabaja con lı́mites aparentes, el cálculo del intervalo de clase es ası́:
ic = (ls − li) + 1
Un procedimiento para calcular el intervalo de clase que funciona para ambos tipos de
lı́mites es restar dos limites inferiores consecutivos (ó bien, dos intervalos superiores
consecutivos); asi, en el segundo ejemplo, el intervalo de clase pudo obtenerse como la
diferencia entre los lı́mites inferiores de la tercera y cuarta clase (43 − 38 = 5).

Método gráfico.
Para obtener un valor aproximado de la mediana por el método gráfico se procede
en la forma siguiente:
1. Se construye la ojiva de la distribución de frecuencias.
2. En el eje vertical se localiza el punto correspondiente al 50 % de la frecuencia
total, es decir el punto N2 en el eje Y.
3. Se traza una horizontal desde este punto de la ojiva, se baja una perpendicular
desde el punto en que esta horizontal corta a la ojiva hasta la escala X. La
intersección con el eje X constituye la mediana.

Figura 9: Determinación de la mediana por el método gráfico.

27
4. MEDIDAS DE TENDENCIA CENTRAL

4.3. Moda
En la vida cotidiana se escucha la expresión “está de moda” cuando algo se observa o
se presenta repetidamente. En estadı́stica, el concepto de la moda no se aleja de esta
apreciación y, efectivamente, se denomina moda de un conjunto de datos al valor
que más se presenta, es decir, el atributo o el valor de mayor frecuencia. La moda
se representa por Mo y puede ser aplicada a las variables cualitativas y cuantitativas
discretas o continuas.
Moda
Es el valor más frecuente en una serie de datos.

La moda de la serie: 100, 125, 130, 130, 130, 145, 150 es 130, ya que es el valor que
más veces se repite. Si en las series hay dos términos que se repiten igual número de
veces, decimos que la serie es bimodal; por ejemplo, si la serie fuera: 100, 125, 130,
130, 130, 145, 145, 145, 150; la moda la constituyen 130 y 145; es decir, la serie
tiene dos valores modales. Cuando una serie tiene tres o más valores que se repiten
igual número de veces, se dice que la serie es polimodal. Estas últimas series son
poco comunes, y cuando se presentan de deben a factores extraños introducidos en
la serie.

4.3.1. Moda para distribuciones de frecuencias

Método aproximado
La moda por este método, es el punto medio de la clase que contiene la mayor
frecuencia (clase modal). Este método solo es recomendable cuando la serie tiene
un gran número de términos y se emplea un intervalo de clase pequeño.

Ejemplo. Considere los datos de la tabla 16 que muestra el tiempo requerido (en
minutos) por 50 estudiantes para resolver un examen parcial. Calcule la moda
de esta distribución por el método aproximado.
La clase que tiene mayor frecuencia (clase modal) es la tercera (55-60) por
tanto, la moda de esta distribución es la marca de clase (punto medio) de este
intervalo.
55 + 60
Mo = = 57.5
2

Ejemplo. Considere los datos de la tabla 17 que muestra la distribución de los


puntajes de 120 alumnos. Calcule la moda de esta distribución por el método
aproximado.
La clase que tiene mayor frecuencia (35) es la cuarta (43-47), por tanto, la
moda de esta distribución es el punto medio de esta clase, es decir:
43 + 47
Mo = = 45
2

28
4. MEDIDAS DE TENDENCIA CENTRAL

Método de interpolación
Procedimiento para calcular la moda por el método de interpolación

1. Identificar la clase modal, que es la clase que tiene la mayor frecuencia.


2. Calcular la moda usando la formula:
∆1
Mo = li + ( ) × ic
∆1 + ∆2
Donde:
li = lı́mite inferior (real) de la clase modal.
∆1 = diferencia entre la frecuencia de la clase modal y la frecuencia de
la clase anterior a la modal (premodal).
∆2 = diferencia entre la frecuencia de la clase modal y la frecuencia de
la clase posterior a la modal (postmodal).
ic = tamaño del intervalo de clase (ancho de clase)

Ejemplo. Retomemos la distribución de frecuencias de la tabla 16 que muestra


el tiempo requerido (en minutos) por 50 estudiantes para resolver un examen
parcial. Calcular la moda empleando el método de interpolación.
Para esta distribución la clase modal es la tercera (55-60) dado que es la de
mayor frecuencia (12). Los valores para el calculo de la moda son:

li = 55, ∆1 = 12 − 9 = 3, ∆2 = 12 − 11 = 1, ic = 60 − 55 = 5
Por tanto la moda serı́a:
3
Mo = 55 + ( ) × 5 = 55 + 3.75 = 58.75minutos
3+1

Ejemplo. Considere los datos de la tabla 17 que muestra la distribución de los


puntajes de 120 alumnos. Calcule la moda de esta distribución por el método de
interpolación.
En este ejemplo la clase modal es la cuarta (43-47) dado que es la de mayor
frecuencia (35). Los valores para el calculo de la moda son:

li = 42.5, ∆1 = 35 − 20 = 15, ∆2 = 35 − 19 = 16, ic = (47 − 43) + 1 = 5

Sustituyendo tenemos:
15
Mo = 42.5 + ( ) × 5 = 42.5 + 2.42 = 44.92
15 + 16
Este valor se interpreta diciendo que el puntaje más frecuente fue 44.92 o
aproximadamente 45.

29
4. MEDIDAS DE TENDENCIA CENTRAL

4.4. Sesgo y relación entre media, mediana y moda


Una comparación de la media, la mediana y la moda puede revelar información
acerca de las caracterı́sticas de sesgo, que se define a continuación y se ilustra en la
figura 10.

Una distribución de datos está sesgada si no es simétrica y se extiende más


hacia un lado que hacia el otro. (Una distribución de datos es simétrica si la
mitad izquierda de su histograma es aproximadamente una imagen en espejo
de su mitad derecha).

1. Si la distribución está sesgada a la izquierda (sesgo negativo), entonces la me-


dia es menor que la mediana y esta a su vez es menor que la moda (figura
10-a). Esto es:

X < Me < Mo

2. Si la distribución de frecuencias es simétrica,entonces la media, la mediana y


la moda tienen el mismo valor (figura 10-b). Esto es:

X = Me = Mo

3. Si la distribución está sesgada a la derecha (sesgo positivo), entonces la moda


es menor que la mediana y esta a su vez es menor que la media (figura 10-c).
Esto es:

Mo < Me < X

4. Para distribuciones unimodales y moderadamente sesgadas, se tiene la siguien-


te relación empı́rica:

X − Mo  3(X − Me)

Figura 10: Sesgo y relación entre media, mediana y moda.

30
5. MEDIDAS DE VARIABILIDAD

4.5. Uso adecuado de la media, mediana y moda


La media, mediana y moda se consideran las medidas de tendencia central más
importantes por su sencillez y utilidad, pero ¿cuál de ellas es la mejor? Por desgracia,
no existe una respuesta única a esa pregunta, porque no hay criterios objetivos para
determinar la medida más representativa para todos los conjuntos de datos, sino que
debe hacerse un minucioso análisis de la serie de datos con la que se está trabajando.
Partiendo de la naturaleza de las series y la definición de estas medidas de tendencia
central diremos que:
a) Si la distribución es simétrica o aproximadamente simétrica (ligeramente sesga-
da), cualquiera de las medidas puede usarse o las tres, para un mejor análisis; sin
embargo, en situaciones de distribuciones tendiendo a la simetrı́a, es recomen-
dable utilizar la media aritmética, por ser la más consistente de las tres debido a
su mejor tratamiento algebraico.
b) Si en la serie estadı́stica existe un dato que se repite persistentemente, la moda
es la más representativa.
c) Si la distribución tiene marcada asimetrı́a (es decir, si está muy sesgada), enton-
ces la mediana es la medida de tendencia central más representativa.

5. Medidas de variabilidad
Además de las medidas de tendencia central que posibilitan la representación del
conjunto de datos por medio de un valor, es necesario conocer la variabilidad o la
dispersión que los datos pueden tener en relación a una medida central.
Una medida de variabilidad (también conocida como medida de dispersión) es un
número que indica el grado de separación de los datos con respecto a un valor
central. Si este valor es pequeño (respecto a la unidad de medida) entonces hay una
gran uniformidad entre los datos. Por el contrario, un gran valor nos indica poca
uniformidad. Cuando es cero quiere decir que todos los datos son iguales.
En los análisis estadı́sticos, las medidas de variabilidad más representativas son:
rango, desviación media, varianza, desviación estándar y coeficiente de variación.

5.1. Amplitud o rango


La medida de variabilidad más elemental es la amplitud (también conocida como
rango), que es la diferencia entre el valor máximo y el mı́nimo de los datos (distri-
bución). El hecho de que tome en cuenta sólo estos valores hace de la amplitud una
medida de variabilidad poco precisa.
Formalmente, la amplitud se define ası́:

A = Xmayor − Xmenor (5)

31
5. MEDIDAS DE VARIABILIDAD

Ası́, por ejemplo, para la serie de datos: 2, 3, 3, 5, 5, 8, 10, 12 se tiene Xmayor = 12 y


Xmenor = 2, por tanto la amplitud es A = 12 − 2 = 10.
Cuando se trata de datos agrupados, la amplitud se toma como la diferencia entre el
lı́mite superior del último intervalo y el inferior del primero. Tenemos ası́, que para
la distribución de frecuencias de la tabla 16 que muestra el tiempo requerido por 50
estudiantes para resolver un examen parcial, la amplitud está dada por
A = 75 − 45 = 30.
La amplitud, debido la forma matemática que la define, es bastante sensible a los
valores extremos que se puedan presentar en una serie de datos. Además, al no
tomar en cuenta ninguna medida de tendencia central, no informa nada acerca de
cómo se comportan los datos respecto del centro.

5.2. Desviación media


La desviación media se define como la media aritmética de los valores absolutos de
las desviaciones de cada termino de la serie, con respecto a la media.
P
Xi − X
DM = (6)
N
Hay que destacar la importancia de tomar valores absolutos de las desviaciones. Si
no se hiciese ası́ unas desviaciones se anuları́an con otras, alcanzando finalmente la
desviación media un valor de 0, debido a la propiedad de la media aritmética vista
en (4.1.2).

Ejemplo. Calcular la desviación media de la serie: 4, 5, 6, 7 y 8.


P
Xi |Xi − X| X i − X 6
DM = = = 1.2
4 |4 − 6| = 2 N 5
5 1 Este valor es el promedio de las desviacio-
6 0 nes
7 1
8 2
P
6

La desviación media para una distribución de frecuencias simple (sin clases) se cal-
cula de la siguiente manera:
P
f Xi − X
DM = (7)
N

32
5. MEDIDAS DE VARIABILIDAD

Ejemplo. Calcular la desviación media para la siguiente serie.

Calculamos primero la media, en seguida hallamos las


Xi f desviaciones, después multiplicamos estas desviaciones
30 1 por las respectivas frecuencias, luego sumamos estos pro-
40 3 ductos parciales y dividimos entre N.
50 8
60 4 Xi f f Xi |Xi − X| f |Xi − X|
70 2 30 1 30 21.67 21.67
40 3 120 11.67 35.01
50 8 400 1.67 13.36
60 4 240 8.33 33.32
70 2 140 18.33 36.66
P
18 930 140.02
P
f x 930
X= = = 51.67
N 18
P
f Xi − X 140.02
DM = = = 7.78
N 18

La desviación media para una distribución de clases y frecuencias se calcula de la


siguiente manera:

P
f P m − X
DM = (8)
N

Ejemplo. Calcular la desviación media de la distribución de la tabla 4 relativa a


los puntajes obtenidos por 120 estudiantes.
En la sección 4.1.1 se encontró que la media de esta distribución es de 44.58.
Puntajes (X) f Pm |P m − X| f |P m − X|
28-32 10 30 14.58 145.80
33-37 15 35 9.58 143.70
38-42 20 40 4.58 91.60
43-47 35 45 0.42 14.70
48-52 19 50 5.42 102.98
53-57 12 55 10.42 125.04
58-62 9 60 15.42 138.78
TOTAL 120 762.60
P
f P m − X 762.6
DM = = = 6.36
N 120

33
5. MEDIDAS DE VARIABILIDAD

5.3. Varianza
La varianza, denotada por σ 2 , es una medida que cuantifica el grado de disper-
sión o de variación de los valores de una serie de datos con respecto a su media
aritmética. Si los valores tienden a concentrarse alrededor de su media, la varianza
será pequeña. Si los valores tienden a distribuirse lejos de la media, la varianza será
grande.
La varianza se define como la media aritmética de los cuadrados de las diferen-
cias de los datos con respecto a su media aritmética.

(Xi − X)2
P
2
σ = (9)
N
La varianza es una medida de variabilidad importante que se utiliza en algunos
métodos estadı́sticos relevantes, como el análisis de varianza. Para nuestros propósi-
tos, la varianza tiene una gran desventaja: las unidades de la varianza son diferentes
de las unidades del conjunto original de datos. Por ejemplo, si estamos estudiando
los tiempos de espera en una ventanilla bancaria los datos originales están dados en
minutos, mientras que las unidades de varianza están dadas en minutos cuadrados
( min2 ). ¿Qué es un minuto cuadrado? Como la varianza utiliza unidades distintas
(unidades cuadradas), es sumamente difı́cil comprenderla si la relacionamos con el
conjunto original de datos. En consecuencia, en la mayorı́a de los análisis estadı́sticos
se emplea la varianza como una medida que permite comparar la dispersión entre
dos o más variables, identificando la de mayor varianza como aquella que posee
mayor dispersión o variabilidad. La importancia de la varianza está en que es una
medida transitoria para el cálculo de la desviación tı́pica o estándar de un conjunto
de datos.

5.3.1. Propiedades de la varianza

Propiedad 1

La varianza es siempre una cantidad no negativa: V (X) ≥ 0, cualquiera que


sea la distribución.

Propiedad 2

La varianza de una constante es cero (no hay dispersión).

V (K) = 0

Propiedad 3

Si a cada uno de los datos x1 , ..., xn se le suma una constante K, entonces la


varianza de los datos transformados x1 + K, ..., xn + K es igual a la varianza de
los datos originales.
V (X ± K) = V (X)

34
5. MEDIDAS DE VARIABILIDAD

Propiedad 4

Si cada uno de los datos x1 , ..., xn es multiplicado por una constante K, entonces
la varianza de los datos transformados Kx1 , ..., Kxn es igual a la varianza de los
datos originales por el cuadrado de la constante K.

V (KX) = K 2 V (X)

5.4. Desviación tı́pica o estándar


La desviación tı́pica o estándar, designada por σ , es la más importante de las medidas
de dispersión. Puede definirse como la raı́z cuadrada de la media aritmética del
cuadrado de las desviaciones de cada valor de la variable con respecto a la media.
La desviación tı́pica es la raı́z cuadrada positiva de la varianza.
rP
(Xi − X)2
σ= (10)
N
Una formula abreviada para encontrar esta medida es la siguiente:
rP
X2
σ= − (X)2 (11)
N
La desviación tı́pica tiene la ventaja de estar expresada en la misma unidad de me-
dida que la media, lo cual facilita la interpretación de la variabilidad de los datos.
Ası́,por ejemplo si la media está expresada en kilogramos, la desviación tı́pica estará
expresada en kilogramos.

Ejemplo. Calcular la desviación tı́pica y la varianza de la serie: 4, 5, 6, 7 y 8.


P
2 2 X 30
Xi Xi − X (Xi − X) X X= = =6
N 5
4 4-6=-2 4 16
5 -1 1 25 Aplicando la formula:
6 0 0 36 rP r
7 1 1 49 (Xi − X)2 10 √
σ= = = 2 = 1.41
8 2 4 64 N 5
30 10 190
También podı́amos haber ocupado la for-
mula abreviada, ası́:
rP r
X2 190 √ √
σ= − (X)2 = − (6)2 = 38 − 36 = 2 = 1.41
N 5
Dado que la desviación tı́pica es la raı́z cuadrada de la varianza, para calcular
la varianza a partir de la desviación tı́pica basta con elevar al cuadrado esta
última medida, asi:

σ 2 = ( 2)2 = 2

35
5. MEDIDAS DE VARIABILIDAD

5.4.1. Desviación tı́pica para una distribución de clases y frecuencias

Para calcular la desviación para una distribución de clases y frecuencias, ocuparemos


la siguiente formula:

rP
f (P m − X)2
σ= (12)
N

Donde (P m − X) es la desviación de cada punto medio de clase, con respecto a la


media de la distribución.

Ejemplo. Calcular la desviación tı́pica de la distribución de la tabla 4 relativa a


los puntajes obtenidos por 120 estudiantes.
En la sección 4.1.1 se encontró que la media de esta distribución es de 44.58.
Puntajes (X) f Pm Pm−X (P m − X)2 f (P m − X)2
28-32 10 30 -14.58 212.58 2125.8
33-37 15 35 -9.58 91.78 1376.7
38-42 20 40 -4.58 20.98 419.6
43-47 35 45 0.42 0.18 6.3
48-52 19 50 5.42 29.38 558.22
53-57 12 55 10.42 108.58 1302.96
58-62 9 60 15.42 237.78 2140.02
TOTAL 120 7929.6
Aplicando la formula se tiene:
rP r
f (P m − X)2 7929.6
σ= = = 8.13
N 120

5.4.2. Método abreviado para calcular la desviación tı́pica para una distribu-
ción de clases y frecuencias

Utilizaremos la siguiente formula:

rP
f P m2 2
σ= −X (13)
N

formula que es parecida a la que se utilizó para calcular la desviación tı́pica para una
serie simple, por el método abreviado.

36
5. MEDIDAS DE VARIABILIDAD

Ejemplo. Calcular la desviación tı́pica de la distribución de la tabla 4 relativa a


los puntajes obtenidos por 120 estudiantes.
La media aritmetica de esta distribución es de 44.58 (como se vio anterior-
mente).
Puntajes (X) f Pm P m2 f P m2
28-32 10 30 900 9,000
33-37 15 35 1,225 18,375
38-42 20 40 1,600 32,000
43-47 35 45 2,025 70,875
48-52 19 50 2,500 47,500
53-57 12 55 3,025 36,300
58-62 9 60 3,600 32,400
TOTAL 120 246,450
Aplicando la formula se tiene:
rP r
f P m2 2 246, 450
σ= −X = − (44.58)2 = 8.14
N 120
resultado muy similar al obtenido por el método largo (la pequeña diferencia
radica en que no se han ocupado todos los decimales de la media aritmética).

5.5. Coeficiente de variabilidad


Las medidas de variabilidad vistas anteriormente son números concretos, es decir
son expresadas en las unidades de las variables en estudio. Con ellas se puede cono-
cer la dispersión de los datos de una serie estadı́stica, pero no se puede comparar la
dispersión de dos o más variables dadas en diferente unidad de medida. Por ejemplo,
podemos conocer la desviación tı́pica, de las variables peso y estatura de un grupo
de personas, digamos 5.5 libras y 10 centı́metros, respectivamente. ¿Podrı́amos decir
cuál de las dos variables (peso o estatura), tiene menor variabilidad?
La medida de variabilidad, cualquiera que sea, significará menor dispersión cuanto
menor sea su valor; pero para el problema planteado anteriormente, donde las me-
didas de variabilidad están expresadas en diferentes unidades (libras y centı́metros),
¿se podrá tomar una decisión? Es claro que no podemos responder la pregunta. Se
necesita de una medida relativa para poder comparar el grado de variabilidad o
dispersión de dos o más variables.
Para resolver el problema de cómo establecer la diferencia en la variabilidad o dis-
persión de dos o más variables, utilizaremos el coeficiente de variabilidad, que es
una medida relativa (sin unidades de medida). Esta medida expresa el porcentaje
que representa la desviación con relación a la media aritmética y se calcula ası́:

σ
C.V = × 100 % (14)
X

37
REFERENCIAS REFERENCIAS

El coeficiente de variabilidad se emplea fundamentalmente para:


- Comparar la variabilidad entre dos grupos de datos referidos a distintos siste-
mas de unidades de medida. Por ejemplo, kilogramos y centı́metros.
- Comparar la variabilidad entre dos grupos de datos obtenidos por dos o más
personas distintas.
- Determinar la representatividad de la media aritmética de una serie de datos.
En la distribución que venimos analizando de la tabla 4, puntajes de 120 estudiantes,
los valores de la media y la desviación tı́pica son: 44.58 y 8.13 respectivamente;
entonces su coeficiente de variabilidad es:

σ 8.13
C.V = × 100 % = × 100 % = 18.24 %
X 44.58
La interpretación de este coeficiente es igual al de las otras medidas de dispersión.
El grado de representatividad de la media detectado por medio del coeficiente de
variabilidad, se presenta en la tabla 18.

Tabla 18: Grado de representatividad de la media aritmética para distintos coeficientes


de variabilidad

Valor de C.V Grado de representatividad de la media


De 0 a menos de 10 % Media altamente representativa
De 10 % a menos de 20 % Media bastante representativa
De 20 % a menos de 30 % Media tiene representatividad
De 30 % a menos de 40 % Media cuya representatividad es dudosa
De 40 % o más Media carente de representatividad

Referencias
[1] Gildaberto Bonilla. Estadı́stica. Elementos de estadı́stica descriptiva y probabili-
dad. UCA Editores, 2015.
[2] Lincoln L Chao and Jesús Marı́a Castaño. Estadı́stica para las ciencias adminis-
trativas, volume 3. McGraw-Hill, 1993.
[3] Manuel Córdova Zamora. Estadı́stica descriptiva e inferencial. Edit. Moshera
SRL. 5ª edición. Lima-Perú, 2003.
[4] Douglas A Marchal Lind, William G Wathen, Samuel A Douglas A Lind, Wi-
lliam G Marchal, and Samuel A Wathen. Estadı́stica aplicada a los negocios y la
economı́a. McGraw-Hill, 2012.
[5] Gabriel Jaime Posada Hernández. Elementos básicos de estadı́stica descriptiva
para el análisis de datos. Fundación Universitaria Luis Amigó, 2016.
[6] Mario F Triola. Probabilidad y estadı́stica. Pearson educación, 2004.

38

También podría gustarte