Está en la página 1de 26

Estadstica Descriptiva

Medidas de dispersin o de variabilidad



4.1 Introduccin

Los promedios tales como la media, mediana, moda y rango
medio localizan el centro de los datos, pero nada indican sobre
cmo ellos estn diseminados, es decir, su variabilidad.
Una medida de dispersin (o de variabilidad) describe
cmo se extienden las puntuaciones de una variable de tipo
intervalo o de razn a travs de su distribucin, permitiendo
descripciones precisas de la frecuencia de casos en cualquier
punto de la distribucin.
El estudio de la dispersin es como recorrer hacia atrs y
hacia delante a lo largo del eje x de un histograma observando
dnde se concentran los casos, permitiendo el planteamiento de
preguntas tales como la mayora de los casos cae alrededor de
la media o estn posicionados hacia algn lado? Cuntos casos
caen entre cualesquiera dos puntos?
Existen diversas medidas de dispersin, entre ellas:
Amplitud de la variacin
Desviacin media
Varianza
Desviacin estndar
Coeficiente de variacin.
Medidas de dispersin o de variabilidad Cuauhtmoc Lpez Martn


2
Ejemplo 4.1. Se hizo un estudio sobre el nmero de
solicitudes de servicio en diversas reas al interior de dos
universidades. Al trmino de la cuantificacin, se obtuvieron los
dos conjuntos de datos siguientes:
rea
Universidad A Universidad B

Control de titulaciones 480 400
Evaluacin discente 490 470
Evaluacin docente 500 500
Control financiero 510 530
Administracin Escolar 520 600

__
X
500 500
Se observa que la media de las solicitudes en ambas
universidades presentan el mismo valor, sin embargo, los datos
de la universidad B presentan mayor separacin (dispersin)
entre ellos que aquellos de la universidad A.
Entonces puede inferirse que un valor pequeo de una
medida de dispersin significa que los datos se encuentran
acumulados cercanamente a la medida de tendencia central, en
este caso, se dice que la medida de tendencia central es
representativa de los datos (caso de la universidad A), no as en
caso contrario (caso de la universidad B).



3

4.2 Amplitud de variacin o rango

Es la medida de dispersin ms simple y menos usada,
puesto que su nica ventaja es la sencillez de cmo se calcula.
Corresponde a la diferencia entre el valor ms grande y el
ms pequeo de un conjunto de datos.
Tiene como desventajas que slo intervienen dos elementos
del conjunto (nada sugiere sobre la forma de distribucin entre
ellas) y que al aumentar el nmero de observaciones, puede
esperarse que aumente la variabilidad.
Puesto que la amplitud no tiene en cuenta el tamao del
conjunto, no es una medida adecuada para comparar la
variabilidad de dos grupos de observaciones, a menos que stos
sean del mismo tamao, como en el siguiente ejemplo:
Ejemplo 4.2. Con base en el nmero de solicitudes del
ejemplo 4.1, se procede a calcular la amplitud de variacin de
ambas universidades:

Universidad Valor mayor Valor menor Amplitud de
la variacin

A 520 480
40
B 600 400
200
Como puede observarse, la dispersin es por mucho mayor
en el nmero solicitudes de la universidad B que en la A.

Medidas de dispersin o de variabilidad Cuauhtmoc Lpez Martn


4
4.3 Desviacin media

Es tambin denominada desviacin media absoluta, siendo
la media aritmtica de los valores absolutos de las desviaciones
con respecto a la media aritmtica
Tiene como ventaja que utiliza en su clculo a todos los
valores de la muestra (no como la amplitud de la variacin que
solo emplea los dos valores extremos)
Como desventaja tiene el uso de valores absolutos, que
algunas veces no es tan sencillo trabajar algebraicamente con
ellos. La desviacin media (DM) puede representarse mediante
la siguiente frmula:
n
X x
DM
n
i
i
=

=
1
__

Donde:
x
i
Cada uno de los i-simos valores
__
X Media aritmtica
n Nmero de observaciones
Valor absoluto
Ejemplo 4.3. Con base en el ejemplo 4.1, se procede a
calcular la desviacin media en ambas universidades:
rea Universidad A
i
X -
__
X
i
X -
__
X
Desviacin
media

Control de titulaciones 480 -20
20
Evaluacin discente 490 -10
10
Evaluacin docente 500 0
0
Control financiero 510 10
10
Administracin Escolar 520 20
20
12
5
60
= = DM
2500 60
__
X
500




5


rea Universidad B
i
X -
__
X
i
X -
__
X
Desviacin
media

Control de titulaciones 400 -100 100
Evaluacin discente 470 -30 30
Evaluacin docente 500 0 0
Control financiero 530 30 30
Administracin Escolar 600 100 100
52
5
260
= = DM

2500 260
__
X
500

Puede observarse que la media aritmtica de los valores
absolutos de las desviaciones con respecto a la media aritmtica
de cada conjunto de nmero de solicitudes es menor para la
universidad A (12) que para la (52).
La razn por la que no se consideran los signos de las
desviaciones respecto de la media se muestra en la suma de la
tercera columna de cada una de las dos tablas anteriores: puede
observarse que la suma es igual a cero, es decir, un valor
estadsticamente intil.
Medidas de dispersin o de variabilidad Cuauhtmoc Lpez Martn


6
4.4 Varianza

Es la media aritmtica de las desviaciones cuadrticas con
respecto de la media.
A diferencia de la desviacin media, al calcular la varianza no
se omiten los signos de las desviaciones y al elevar al cuadrado
las desviaciones con respecto a la media, elimina la posibilidad
de nmeros negativos.
Cuando sea necesario comparar las varianzas de dos
conjuntos se suele escribir como subndice el identificador de
cada conjunto.



7

4.4.1 Varianza poblacional

La varianza poblacional para datos no agrupados puede
calcularse con la siguiente frmula:


) (

2
1 2
N
x
N
i
i

=

=

Donde:

2
Varianza poblacional
x
i
Cada uno de los i-simos valores de la poblacin
Media aritmtica de la poblacin
N Nmero de observaciones (tamao) de la poblacin
Ejemplo 4.4. Se decidi cuantificar con base en nmero de
solicitudes, todas (nueve) las reas al interior de las dos
universidades mostradas en el ejemplo 4.1. Al trmino de la
cuantificacin, se obtuvieron sus dos conjuntos de datos con los
que se procede a calcular sus correspondientes varianzas:
rea Universidad A
xi - (xi - )
2
Varianza

Control de titulaciones
480 8,33 69,44
Evaluacin discente
490 18,33 336,11
Evaluacin docente
500 28,33 802,78
Control financiero
510 38,33 1469,44
Administracin Escolar
520 48,33 2336,11
Control de registro de
asistencia de empleados
450 -21,67 469,44
Administracin de
correspondencia interna
440 -31,67 1002,78
Expedicin de
credenciales
420 -51,67 2669,44
Promocin
435 -36,67 1344,44
6 . 1116
9
10500

2
= =
A

4245 0 10500

471.66
Medidas de dispersin o de variabilidad Cuauhtmoc Lpez Martn


8

rea Universidad B
Xi - (Xi - )
2
Varianza

Control de titulaciones
400 -16,67 277,78
Evaluacin discente
470 53,33 2844,44
Evaluacin docente
500 83,33 6944,44
Control financiero
530 113,33 12844,44
Administracin Escolar
600 183,33 33611,11
Control de registro de
asistencia de empleados
350 -66,67 4444,44
Administracin de
correspondencia interna
320 -96,67 9344,44
Expedicin de
credenciales
270 -146,67 21511,11
Promocin
310 -106,67 11377,78
6 . 11466
9
103200

2
= =
B

3750 0 103200

416.66




9

4.4.2 Varianza muestral

La frmula para la varianza muestral (S) difiere de aquella
poblacional () en el denominador, en el que se sustituye N
(tamao de la poblacin) por n-1, es decir, el tamao de la
muestra menos 1, quedando como sigue:

1
) (

2
__
1 2

=

=
n
X x
S
n
i
i

O bien, dado que:

) (
) (
2
1
1
2
1
__
2
n
x
x X x
n
i
i n
i
i
n
i
i


=
= =
=
Entonces:
1

) (

2
1
1
2
2

=
=
n
n
x
x
S
n
i
i n
i
i

Donde:
S
2
Varianza muestral
x
i
Cada uno de los i-simos valores de la muestra
__
X Media aritmtica de la muestra
n Nmero de observaciones (tamao) de la muestra

Ejemplo 4.5. Con base en los datos de las dos universidades
(A y B) del ejemplo 4.1, se procede a calcular su varianza:
Medidas de dispersin o de variabilidad Cuauhtmoc Lpez Martn


10

rea A
i
X -
__
X (
i
X -
__
X )
2

B
i
X -
__
X (
i
X -
__
X )
2


Control de titulaciones 480 -20 400 400 -100 10000
Evaluacin discente 490 -10 100 470 -30 900
Evaluacin docente 500 0 0 500 0 0
Control financiero 510 10 100 530 30 900
Administracin Escolar 520 20 400 600 100 10000

__
X
500 500

0 1000 0 21800

Sustituyendo:
Universidad A
250
4
1000

2
= =
A
S
Universidad B 5450
4
21800

2
= =
B
S



11

O bien:

rea Universidad A
2
i
X Universidad B
2
i
X

Control de titulaciones
480 230400 400 160000
Evaluacin discente
490 240100 470 220900
Evaluacin docente
500 250000 500 250000
Control financiero
510 260100 530 280900
Administracin Escolar
520 270400 600 360000

2500 1251000
2500 1271800

2
6250000
6250000

Sustituyendo:

Universidad A
250
4

5
6250000
1251000

2
=

=
A
S
Universidad B
5450
4

5
6250000
1271800

2
=

=
B
S

Como se observa, las unidades de la varianza se expresan al
cuadrado, por ejemplo, en la universidad A la varianza es de
alrededor de 1116 solicitudes de servicio al cuadrado, lo que
dificulta su comprensin; este resultado puede ser trasformado a
un valor de la misma unidad de medicin (a solicitudes de
servicio) al obtener su raz cuadrada (denominada desviacin
estndar).
Medidas de dispersin o de variabilidad Cuauhtmoc Lpez Martn


12
4.5 Desviacin estndar

Recibe su nombre dado que proporciona una unidad de
medida comn para comparar variables con unidades de medida
observadas muy diferentes.

4.5.1 Desviacin estndar poblacional

La desviacin estndar poblacional para datos no
agrupados puede calcularse con la siguiente frmula:


) (

2
1
N
x
N
i
i

=

=


Donde:
Desviacin estndar poblacional
x
i
Cada uno de los i-simos valores de la poblacin
Media aritmtica de la poblacin
N Nmero de observaciones (tamao) de la poblacin
Ejemplo 4.6. Con base en las varianzas calculadas en el
ejemplo 4.5, se procede a obtener su desviacin estndar:

Universidad A:
funcin de puntos 34 34.15 6 . 1116 = =
Universidad B:
funcin de puntos 107 107.08 6 . 11466 = =


13

4.5.2 Desviacin estndar muestral

La desviacin estndar muestral puede calcularse con la
siguiente frmula:


1
) (

2
__
1

=

=
n
X x
S
n
i
i


Donde:
S Desviacin estndar de la muestra
x
i
Cada uno de los i-simos valores de la muestra
__
X Media aritmtica de la muestra
n Nmero de observaciones (tamao) de la muestra

Ejemplo 4.7. Con base en las varianzas calculadas en el
ejemplo 4.5, se procede a obtener su desviacin estndar:

Universidad A:
servicio de s solicitude 16 15.81 250 = =
Universidad B:
servicio de s solicitude 107.08 6 . 11466 = =

Medidas de dispersin o de variabilidad Cuauhtmoc Lpez Martn


14
4.5.4 Regla emprica

A medida que la distribucin de un conjunto de datos se
parece ms a la curva con forma de campana (curva de
distribucin normal), la siguiente regla emprica se vuelve ms
exacta:
1. El intervalo contiene aproximadamente 68% de las
mediciones.
2. El intervalo 2 contiene casi el 95% de las mediciones.
3. El intervalo 3 contiene alrededor del 99% de las
mediciones.
Grficamente esta regla se muestra en la Figura 4.1.


Figura 4.1. Regla emprica


15

4.6 Relacin entre la desviacin estndar y la media

Las dos reglas generales siguientes se aplican a los tamaos
relativos de la media y de la desviacin estndar:
1. Si la desviacin estndar es ms grande que la media,
probablemente indica un sesgo.
2. Si la desviacin estndar no es de la mitad de tamao de
la media o menos, probablemente indica un sesgo.

Medidas de dispersin o de variabilidad Cuauhtmoc Lpez Martn


16
4.7 Puntuaciones estandarizadas

Con base en una medida de tendencia central y una medida
de dispersin, es posible expresar la distancia en desviaciones
estndar que se aleja determinado dato de la media del conjunto
de datos al que pertenece.
A esta medida se le denomina puntuacin estndar (o
puntuacin z).
Cuanto ms lejano de la media se encuentre el valor de un
dato, mayor ser su valor z.
El signo de la puntuacin z indica su direccin: positivo si est
por arriba de la media y negativo en caso de quedar bajo la
media.
El valor z puede calcularse con base en la siguiente frmula:

Poblacin Muestra
x
i
x


= z
i

x
i
S
X x
__
i
z

=

Donde:
z
i
Puntuacin estandarizada del dato i
x
i
Dato i del conjunto de datos
,
__
X Media del conjunto de datos
, S
x
Desviacin estndar del conjunto de datos


17

Ejemplo 4.9. Con base en los datos del ao 2005 sobre
costos de proyectos (en miles de pesos), se procede a calcular
los valores z de cada dato:

Proyecto
mensual
Costo
__
X x
i
(
__
X x
i
)/S
x

Enero 560 -10 -0,12
Febrero 475 -95 -1,12
Marzo 622 52 0,61
Abril 410 -160 -1,88
Mayo 672 102 1,20
Junio 555 -15 -0,18
Julio 589 19 0,22
Agosto 649 79 0,93
Septiembre 499 -71 -0,83
Octubre 529 -41 -0,48
Noviembre 575 5 0,06
Diciembre 705 135 1,59
__
X
570
S
x
85.08

De esta tabla puede observarse que, por ejemplo, el costo del
proyecto de abril se encuentra a una distancia de -1.88
desviaciones estndar de la media (570), mientras que el costo
del proyecto de noviembre est a solo 0.06 desviaciones
estndar de la media.
El puntaje z es asimismo utilizado para identificar valores
atpicos (tambin denominados aberrantes), mismas que se les
define como una medida extrema en un conjunto de datos, y que
podra ser un indicador de algn error, aunque de igual forma
podra ser la joya entre las piedras y no la piedra entre las joyas.
Para identificar una observacin atpica o aberrante existe la
regla siguiente:
El tamao e la muestra es mayor de 10, la distribucin de
frecuencia tiene forma de campana y el puntaje z para la medida
dista ms de tres desviaciones estndar de la media.
Medidas de dispersin o de variabilidad Cuauhtmoc Lpez Martn


18
4.9 Curtosis (o kurtosis)

El coeficiente de curtosis (k) refleja el grado de concentracin
que presentan los valores alrededor de la zona central de la
distribucin.
Se definen 3 tipos de distribuciones segn su grado de
curtosis:
Distribucin leptocrtica: Elevado grado de concentracin
alrededor de los valores centrales de la variable (Figura 4.2a).
Distribucin mesocrtica: Similar a la distribucin normal,
es decir, con grado de concentracin medio alrededor de los
valores centrales de la variable (Figura 4.2b).
Distribucin platicrtica: Presenta un reducido grado de
concentracin alrededor de los valores centrales de la variable
(Figura 4.2c).


(a) (b) (c)
Figura 4.2. Distribuciones con base en su curtosis


19

El coeficiente puede obtenerse con base en la siguiente frmula:
3 -
) (
k
4
4
1
__
s
n
X x
n
i
i
=

=
Donde:
__
X Media aritmtica
n Nmero de observaciones
S Desviacin estndar
La relacin del valor de k con los tipos de distribucin es la
siguiente:
k = 0, distribucin mesocrtica.
k > 0, distribucin leptocrtica.
k < 0, distribucin platicrtica.
Medidas de dispersin o de variabilidad Cuauhtmoc Lpez Martn


20
4.10 Dispersin de dos variables

Muchas veces resulta relevante conocer la relacin
cuantitativa existente entre dos variables, misma que puede estar
entre una positiva fuerte (figura 4.3a), negativa fuerte (figura 4.3b)
o sin relacin lineal (figura 4.3c).
Existen dos medidas tiles para describir el grado de
asociacin de las dos variables: covarianza y correlacin.

0
50
100
150
200
0 20 40 60 80 100

Figura 4.3a. Relacin lineal positiva fuerte

0
50
100
150
200
0 50 100 150 200

Figura 4.3b. Relacin lineal negativa fuerte

0
50
100
150
200
0 50 100 150 200

Figura 4.3c. Relacin lineal ausente


21

4.11 Correlacin

Una medida de asociacin independiente de las unidades de
medicin es la correlacin que tiene las siguientes propiedades:
1. Es independiente de las unidades de medida utilizadas en
las variables. Toma valores exclusivamente entre -1 a +1.
2. Valores positivos del coeficiente indican que las variables
tienden a crecer simultneamente, mientras que valores
negativos indican que una aumenta mientras la otra disminuye.
Cuando r = 1 o r = -1 se trata en ambos casos de una
correlacin perfecta. Si r = 1, entonces las dos variables
(dependiente e independiente) estn perfectamente relacionadas
en un sentido lineal positivo; por el contrario si r = -1, entonces
las dos variables estn perfectamente relacionadas en un sentido
lineal negativo.
Si no hay relacin alguna entre la dos variables, la r sera
igual a cero. Entonces si la r est cercana a cero (0.05 -0.05),
indicara que la relacin es muy dbil, mientras que valores de r
cercanos a -1 o 1 (0.97 -0.97) indicara que la relacin es
fuerte. De modo que la magnitud de r no depende de la direccin
(sea r positiva o negativa).
Si la correlacin es dbil, habr una dispersin considerable
alrededor de la recta trazada a travs del centro de los datos. Por
lo contrario, hay muy poca dispersin alrededor de la recta
cuando hay una fuerte relacin entre las variables.
En la Figura 4.4 se muestra la magnitud y direccin del
coeficiente de correlacin.
Correlacin
negativa
perfecta
Ninguna
correlacin
Correlacin
positiva
perfecta
Medidas de dispersin o de variabilidad Cuauhtmoc Lpez Martn


22
Correlacin
negativa
fuerte
Correlacin
negativa
moderada
Correlacin
negativa
dbil
Correlacin
positiva
dbil
Correlacin
positiva
moderada
Correlacin
positiva
fuerte

-1 -0.5 0 0.5 1
Correlacin negativa Correlacin positiva
Figura 4.4 Descripcin del intervalo de la correlacin
El coeficiente de correlacin, entendido como la medida de la
magnitud de la relacin lineal entre dos variables puede ser
determinado haciendo uso de la siguiente frmula:
(
(

|
|

\
|
= |
|

\
|
=
(
(

|
|

\
|
= |
|

\
|
=
(
(

|
|

\
|
= |
|

\
|
=

=
=



2 2
1
2
1 1
2
1
1
1
)
1
(
i
n
i
y
i
n
i
y
n
i
x
i
n
i
x n
i
n
i
y
i
n
i
i
n
i
y
i
x n
n
x
r

Donde:
n nmero de pares de observaciones
x es la variable independiente
y es la variable dependiente
Ejemplo 4.15. Con base en los siguientes datos que
relacionan costos de proyecto con su duracin en meses se
procede a calcular el coeficiente de correlacin:

Costo (xi)
Duracin
(yi)
(xi) (yi)
X
2
y
2

5823 110 640530 33907329 12100
6578 130 855140 43270084 16900
4975 95 472625 24750625 9025
5797 115 666655 33605209 13225
6277 122 765794 39400729 14884
4892 90 440280 23931664 8100
4985 89 443665 24850225 7921
7215 141 1017315 52056225 19881
6293 115 723695 39601849 13225
6826 130 887380 46594276 16900

59661 1137 6913079 361968215 132161

2
3559434921 1292769



23

Sustituyendo:

[ ] ( )( ) [ ]
( ) ( ) [ ] ( ) ( ) [ ] 1292769 132161 10 3559434921 361968215 10
1137 59661 6913079 10

= r

9833 . 0 = r

De acuerdo a la figura 4.2, existe una correlacin positiva
fuerte entre ambas variables.
Medidas de dispersin o de variabilidad Cuauhtmoc Lpez Martn


24
4.11.3 Diagrama de dispersin

Mediante un diagrama de este tipo (como se observ en las
figuras 4.2a a 4.2c) puede observarse de manera cualitativa la
relacin entre dos variables. Generalmente en el eje y se coloca
la variable a predecir (variable dependiente), mientras que en el
eje x la variable predirctora (variable independiente).
Ejemplo 4.16. Con base en los datos usados en el ejemplo
previo se genera su diagrama de dispersin:

0
2000
4000
6000
8000
0 50 100 150
Duracin (meses)
C
o
s
t
o


Visualmente puede comprobarse que existe una relacin
directamente proporcional fuerte.


25

4.12. Seleccin de una medida de dispersin

La eleccin puede basarse en los siguientes aspectos:
1. Las tres medidas de dispersin que se usan en la prctica
son la amplitud, la desviacin estndar y el coeficiente de
variacin.
2. La amplitud se usa por ser fcil de calcular. Por estar
basada slo en dos valores, es la medida ms sensible a
observaciones extremas.
3. La desviacin estndar tiene ventajas y desventajas de la
media aritmtica. Es indispensable en estadstica
inductiva.
4. Por ser independiente de las unidades de medicin, el
coeficiente de variacin es la medida apropiada para
comparar la variabilidad de dos conjuntos de datos.
Medidas de dispersin o de variabilidad Cuauhtmoc Lpez Martn


26
Bibliografa


Anderson Dacid R., Sweeney Dennis J., Williams Thomas A.
Estadstica para Administracin y Economa. Sptima Edicin.
Thomson. 1999
Downie N.M., Heat R.W. Mtodos Estadsticos Aplicados.
Ediciones Castillo. Madrid, Espaa. 1983
Infante Gil Said, Zrate de Lara Guillermo P. Mtodos
Estadsticos. Un enfoque multidisciplinario. Trillas. 2003
Johnson Richard A. Probabilidad y Estadstica para Ingenieros
de Miller y Freund. Prentice Hall. 1997
Lind Douglas A., Mason Robert D., Marchal William G.
Estadstica para Administracin y Economa. Mc Graw Hill.
Tercera Edicin. 2001
Mason Robert D., Lind Douglas A., Marchal William G..
Estadstica para administracin y economa. Dcima Edicin.
Alfaomega 2001
Mendenhall William, Beaver Robert J., Beaver Barbara M.
Introduccin a la probabilidad y estadstica. Thomson. 2002
Ritchey Ferris J. Estadstica para las Ciencias Sociales. El
potencial de la imaginacin estadstica. Mc graw Hill. 2001
Weiers Ronald M. Introduccin a la Estadstica para los
Negocios. Quinta Edicin. Thomson. 2006
Weimer Richard C. Estadstica. CECSA. 2002

También podría gustarte