Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estudios realizados:
Ingeniero Industrial. UCAB Caracas 1968
Mster en Estadstica Matemtica CIENES , Universidad de Chile 1972
Cursos de Especializacin en Estadstica No Paramtrica Universidad de Michigan
1982
Doctorado en Gestin Tecnolgica: Universidad Politcnica de Madrid 2006 al
Presente
MEDIDAS DE DISPERSION
Las medidas que hasta ahora conocemos, medias, moda, percentiles, etc., tienen
todas ellas la propiedad de ubicarse siempre entre los dos valores extremos de los
datos, mnimo y mximo, pues indican posicin, bien sea central, o bien sea
extrema como por ejemplo el percentil 5 , o el percentil 95.
Las medidas que van a ser estudiadas en este captulo no gozan de esta
propiedad, y persiguen como objetivo describir la homogeneidad o heterogeneidad
de los datos.
Las medidas de tendencia central son insuficientes para describir el
comportamiento de los datos, pues no proporcionan informacin acerca de cuan
cerca o cuan lejos se encuentran estos datos, con relacin a ese valor central.
As por ejemplo el tro de datos {8 , 9 , 10 } y { 1 , 10 , 16 } tienen ambos media 9;
pero resulta obvio, que en el primero de ellos existe una menor desviacin con
respecto a este valor central, que en el segundo.
Medir la variabilidad resulta muy importante en diversas situaciones prcticas,
pues a travs de su medicin se podrn comparar conjuntos de datos, y
establecer cuando existe una mayor concentracin de ellos en la regin central.
As por ejemplo, en estudios sociales las medidas de dispersin proporcionan la
informacin requerida para analizar como es la distribucin de los ingresos dentro
de la sociedad; en los estudios de calidad industrial, estas mismas medidas de
dispersin se utilizan para medir la precisin de las mquinas utilizadas en el
proceso de produccin.
Antes de comenzar a analizar las medidas de dispersin, se recomienda revisar
las propiedades de la media aritmtica. (Vase Medidas de Tendencia Central.
Arvelo)
La varianza de un conjunto de datos cuantitativos { x1, x2 ,x3 , ......, xn} sin agrupar,
se define como la media aritmtica del cuadrado de sus desvos.
i=n
(xi X) 2
S2 = i=1
n
La expresin anterior es una definicin, y por lo tanto debe ser aceptada como tal,
sin demostracin.
Sin embargo, debido a que la varianza es la ms importante de las medidas de
dispersin, es importante hacer las siguientes aclaratorias:
1) La varianza es una medida de dispersin que representa exclusivamente lo
que establece la definicin: Media aritmtica del cuadrado de los desvos.
Cuanto ms desviado est un dato de X , mayor ser su cuadrado , y en
consecuencia mayor ser varianza.
La varianza no puede ser interpretada como algo diferente a lo que la definicin
misma establece.
2) La varianza viene expresada en unidades de los datos al cuadrado, y as por
ejemplo, si los datos estn en centmetros, la varianza est en centmetros
cuadrados.
Esto ocasiona que el orden de magnitud de la varianza sea completamente
diferente al de los datos originales, y que adems no sean comparables con ellos
pues vienen expresados en unidades diferentes.
Por estos dos motivos, en muchas oportunidades interesa regresar a las unidades
originales, y all es cuando aparece el concepto de Desviacin Tpica, que se
define simplemente como la raz cuadrada de la varianza.
i n
( xi X) 2
i 1
S
n
La desviacin tpica o estndar , viene en las mismas unidades de los datos, y
constituye junto con la varianza las ms importantes medidas de dispersin.
3) Otro comentario importante con relacin a la varianza, es el que se refiere a su
denominador, si es n o n-1, pues a lo largo de toda la bibliografa estadstica,
existe una gran confusin con relacin a este punto.
Cuando una medida se calcula tomando en consideracin a toda una poblacin
recibe el nombre de Parmetro Poblacional ; mientras que cuando de calcula
sobre una muestra se llama Estadgrafo , Estadstico Muestral , o simplemente
estadstico.
La nomenclatura ms utilizada en Inferencia Estadstica consiste en designar a
los parmetros poblacionales con letras griegas, y a los estadsticos con letras
latinas.
As por ejemplo , si se tienen N datos cuantitativos que constituyen una
poblacin y sobre ellos se quiere calcular su media, la misma vendra
i N
xi
representada por : i 1
, y se llamara Media Poblacional
N
Medidas de Dispersin 4
Angel Francisco Arvelo L.
Propiedades de la Varianza
Propiedad N1: S2 0.
Resulta obvio que por ser la varianza la media de cuadrados de los desvos, sea
siempre una cantidad positiva, pues los cuadrados siempre lo son.
Es importante destacar que el caso S2 = 0 implica que todos los datos son iguales,
es decir que no existe variabilidad, y recprocamente cuando todos los datos son
iguales entonces S2 = 0.
Esta propiedad es comn para todas las medidas de dispersin, es decir:
Medida de Dispersin = 0 x1= x2 = x3 = ...... = xn
Propiedad N2: Cuando los datos son sometidos a una transformacin lineal
Y = a + b X , entonces S2Y = b2 S2X .
1
Es un estimador Insesgado. Vanse textos de Inferencia Estadstica .
Medidas de Dispersin 5
Angel Francisco Arvelo L.
Demostracin : Supongamos que se tiene un conjunto de datos { x1, x2 ,x3 , ......, xn}
y se le somete a la transformacin Y = a + b X , dando lugar a unos nuevos datos
{ y1, y2 ,y3 , ......, yn} .
i n
Por definicin : S 2Y i 1
(yi Y) 2
;
RSy i a bxi ; por la transformacin
i n
n TY a bX ; por propiedad N 5 de la media
i n
2
(a bxi a bX) b 2 ( x X) 2
Por lo tanto: S2Y i 1
= i1 = b2 S2X .
n n
Como corolario de esta propiedad N 2 se deducen las siguientes:
2.a) Si se le suma a cada dato una constante, la varianza no se altera.
Es el caso : b = 1.
2.b) Si cada dato es multiplicado por una constante, la varianza queda multiplicada
por el cuadrado de dicha constante. Es el caso a = 0.
2.c) Si se somete a los datos a una transformacin lineal, la desviacin tpica que
multiplicada por la pendiente de la transformacin: Sy = b Sx .
Esta propiedad es general, y una vez demostrada veremos que es mucha utilidad
prctica, especialmente cuando se aplica en ciertos casos particulares como por
ejemplo, en la curva normal.
Medidas de Dispersin 7
Angel Francisco Arvelo L.
i n
La suma ( xi X ) 2 puede ser descompuesta en dos partes, sobre los datos que
i 1
pertenecen al conjunto C , y sobre los que no pertenecen a l.
i n
Por tanto : ( xi X)2 = ( xi X) 2 ( xi X) 2
i 1 xi C xi C
i n
Como: ( xi X) 2
0 n S 2
= ( xi X)2 ( xi X) 2
xi C i 1 xi C
Existen (n - m) datos { xi } no pertenecientes al conjunto C , y para ellos se
2 2 2
verifica: xi C xi - X (xi - X ) ( xi X) 2 (n - m)
xi C
2 2 2 S2 n m
Por lo tanto : n S ( xi X) (n - m) 2
=1p
xi C n
S2
y en conclusin: p 1- 2
tal como se quera demostrar.
i k F i k I 2
(L*i ) 2 fi GG L*i fi JJ
S2 = i 1 i 1
i k
GG i k
JJ
i 1
fi
H i 1
fi
K
Ejemplo 3 Calcular la varianza y la desviacin tpica de la siguiente distribucin
de frecuencias.
Intervalo 0 a 10 10 a 20 20 a 30 30 a 40 40 a 50 50 a 60 60 a 70
frecuencia 8 34 76 60 31 28 13
Solucin : Hay que organizar los clculos en la siguiente tabla :
H K
2
S = = 214,78 S = 214,78 = 14,66
250 250
Mtodo abreviado para el clculo de la varianza en tablas de frecuencia para
datos agrupados de igual amplitud
Los clculos requeridos en el Ejemplo 7.3 pueden resultar complicados si no se
tiene una buena calculadora.
Un procedimiento abreviado para efectuar los clculos consiste en definir unas
marcas de clase artificiales designadas por Ui* .
Al intervalo de mayor frecuencia o clase modal se le da una marca de clase
*
artificial Um = 0 , a los anteriores marcas de clases artificiales -1 , -2 , etc., y a los
posteriores +1 , +2 , +3 , etc.
Con este artificio , la tabla queda :
i 1
fi
H i 1
fi
K 2
Finalmente : S2 c 2 SU2 , donde c = Amplitud = 10 S 2 = (10) 2,1478 =214,78
que coincide con el resultado anterior.
Justificacin del mtodo abreviado : Se ha definido una funcin lineal de los datos,
que los transforma en unos datos artificiales ms sencillos de trabajar.
X L*m
Esta transformacin es de la forma : U ; donde tericamente L*m pudiera
c
ser cualquier origen , pero que por conveniencia se toma la marca de clase del
intervalo de mayor frecuencia, pues as la mayor frecuencia queda multiplicada por
cero simplificando an ms los clculos.
Por efecto de la transformacin, las marcas de clase anteriores se convierten en
-1, -2 , (siempre que la amplitud c sea igual para todos los intervalos) , y las
marcas de clase posteriores se convierten en +1 , +2 , etc.
La expresin para calcular SU2 es la correspondiente al clculo de la varianza por
momentos para los datos artificiales U.
La relacin entre los datos originales X y los artificiales U es lineal pues :
X L*m c U Por la propiedad N 2 de la varianza : S2X c 2 SU2 , lo que
constituye la justificacin del mtodo abreviado de clculo.
La suma algebraica de los desvos resulta ser cero, tal como debe ocurrir siempre,
y para calcular la desviacin media se promedian los desvos absolutos:
2 10 6 8 10
D.M 7,20
5
Este resultado significa que en promedio, la duracin de las cuas se alejan en
forma absoluta de su media 36 segundos, en 7,20 segundos .
La desviacin media absoluta tiene las siguientes propiedades:
2
Para una demostracin de esta propiedad, vase la obra de este mismo autor: Capacidad de los
Procesos Industriales , U.C.A.B 1998 .
Medidas de Dispersin 12
Angel Francisco Arvelo L.
2.963,18
D.M= = 11,85
250
4
S = 14,66 Por la propiedad N3: D.M ( 14,86 ) = 11,89
5
3 La media de las desviaciones absolutas respecto de la
mediana: La media de las desviaciones absolutas puede ser calculada tambin
respecto de la mediana , dando lugar as a otra medida de dispersin, conocida
tambin Desviacin Media respecto de la Mediana, y que se define de la
siguiente manera:
I n
xi Mediana
i 1
D.MMed
n
Como una de las propiedades de la Mediana, estable que la suma de las
desviaciones absolutas es mnima, cuando estas se calculan respecto de la ella,
entonces se puede garantizar que : D.MMed D.M
I k
L*i Mediana fi
i 1
Para datos agrupados : D.MMed i k
fi
I=1
3
Para una mayor informacin sobre estas grficas, vase la misma referencia citada en la nota 2.
Medidas de Dispersin 13
Angel Francisco Arvelo L.
Todas estas medidas de dispersin al igual que las anteriores son absolutas, pues
no toman en cuenta el orden de magnitud de los datos, y vienen en sus mismas
unidades, a excepcin de la varianza que viene en unidades al cuadrado.
del orden de millones. Resulta obvio que en el primer caso existe una variabilidad
mucho mayor que en el segundo, a pesar de que el valor absoluto de la desviacin
tpica sea el mismo.
Otro problema que tienen las medidas absolutas de dispersin es el de las
unidades, pues esto impide hacer comparaciones entre conjuntos de datos que
tengan diferente naturaleza.
As por ejemplo, si se quisiera saber cual variable tiene un comportamiento ms
homogneo, el peso o la estatura de un conjunto de personas, no es posible
comparar las desviaciones tpicas entre esas ellas, por venir expresadas en
diferentes unidades.
Para solucionar este par de inconvenientes que presentan las medidas absolutas
de dispersin, se utiliza al coeficiente de variacin o dispersin relativa, definido
S
por : C. V = 100%
X
3) El C.V no se altera cuando los datos son multiplicados por una constante, pues
en virtud de las propiedades de X y de S ambos quedan multiplicados por esa
constante, sin alterar al cociente.
Esta propiedad trae como consecuencia que el C.V sea invariante frente a
cambios de unidades, como por ejemplo, pasar de libras a kilogramos o de pies a
centmetros, etc.
kgs.; y para la estatura una media de 165 cms., con una desviacin tpica de 11,30
cms. Cul de las dos variables tiene un comportamiento ms homogneo?.
9,20
Solucin: Para el peso: C.V = 100% = 13,43 %
68,50
1130
,
Para la estatura : C.V = 100% = 6,85 %
165
Se concluye que la estatura tiene un comportamiento ms homogneo.
.
Una de las limitaciones que tiene el coeficiente de variacin, es que slo puede
ser utilizado cuando los datos corresponden a mediciones sobre una escala de
razn, y por lo tanto existe el cero absoluto.
Cuando existen datos positivos y negativos, la media puede resultar igual a cero ,
negativa o muy prxima a cero, en cuyo caso este coeficiente de variacin carece
de sentido como medida de dispersin.
EJERCICIOS RESUELTOS
2 41 82 164
3 12 36 108
Sumatorias 300 119 477
477 FG 119 IJ 2
SU2
300
2 2
H 300 K = 1,4327
2
c= Amplitud Real = 0,50 S = c SU2 = (0,50) 0,1,4327 = 0,3582
1033
Para calcular el coeficiente de variacin, se necesita: X = = 3,4433
300
119
Por el mtodo abreviado: U = 0,3967
300
X = L*m + c U X = 3,245 + (0,50) 0,3967 = 3,4433
S 0,5985
y por lo tanto : C.V = 100% = 100% = 17,38 %.
X 3,4433
148,8626
Por lo tanto D.M = = 0,4962
300
Si se quisiera obtener un clculo rpido pero aproximado, se pudiera aplicar la
propiedad para distribuciones acampanadas como esta, segn la cual:
4 4
D.M S= (0,5985) = 0,4788
5 5
Para las restantes medidas de dispersin se necesitan los cuartiles, y los
percentiles 10 y 90, a partir de las frecuencias acumuladas:
Dimetro < 2,495 < 2,995 < 3,495 < 3,995 4,495 4,995
Frecuencia 17 68 161 247 288 300
300
68
3
300 161 b g
Q1 = 2,995 + 4 0,50 = 3,0326 ; Q3 = 3,495 + 4 0,50 = 3,8671
93 86
1
2
300 68 b g
Q2 =Med= 2,995 + 0,50 =3,4359
93
Medidas de Dispersin 17
Angel Francisco Arvelo L.
10
100
b g
300 17
P10 =2,495 + 0,50 = 2,6225
51
90
b g
300 247
P90 =3,995 + 100 0,50 = 4,2755
41
Para calcular la desviacin media absoluta, respecto de la mediana, hay que
organizar los clculos en una tabla similar a la de la D.M , pero calculando los
desvos absolutos respecto de la mediana.
L*i =Marca de clase fi= Frecuencia L*i Med L*i Med fi
2,245 17 1,1909 20,2453
2,745 51 0,6909 35,2359
3,245 93 0,1909 17,7537
3,745 86 0,3091 26,5826
4,245 41 0,8091 33,1731
4,745 12 1,3091 15,7092
Sumatorias 300 148,6998
148,6998
D.M Med = = 0,4957
300
El rango intercuartlico: Rq = Q3 - Q1 = 3,8671 - 3,0326 = 0,8345
El rango percentlico: Rp = P90 - P10 = 4,2755 - 2,6225 = 1,6530
Estos rangos representan la amplitud de los intervalos 50% central, y 80% central
respectivamente.
100 F IJ
El % por debajo de 2,8448 : p =1 G17
300 H
2,8448 2,495
0,5 K
51 = 17,56%
175
,
C.V = 100% = 59,75 % ; R=70=7
2,93
Xi= Valor del dato fi= Frecuencia Xi X Xi X fi
0 8 2,93 23,44
1 14 1,93 27,02
2 25 0,93 23,25
3 13 0,07 0,91
4 20 1,07 21,40
5 12 2,07 24,84
6 6 3,07 18,42
7 2 4,07 8,14
Sumatorias 100 147,42
147,42
D.M =
= 1,4742
100
Para hallar la mediana, y dems cuartiles hay que proceder segn lo explicado en
el Ejemplo 6.13 donde se obtuvo Q1 = 2 , y siguiendo la misma metodologa
Q2 = Med = 3 , Q3 = 4
Xi= Valor del dato fi= Frecuencia X i Med X i Med fi
0 8 3 24
1 14 2 28
2 25 1 25
3 13 0 0
4 20 1 20
5 12 2 24
6 6 3 18
7 2 4 8
Sumatorias 100 147
Medidas de Dispersin 19
Angel Francisco Arvelo L.
147
D.M Med = = 1,47 ; Rq = Q3 Q1 = 4 - 2 = 2
100
En cuanto al porcentaje de datos comprendidos en el intervalo X S, tenemos que
ste es : 2,93 1,75 = [ 1,18 ; 4,68 ] , y en l caen todos los valores
comprendidos entre 2 y 4 ambos inclusive, que representan el 58 % de los datos.
Preguntas de Revisin
1) Si se tienen dos conjuntos de datos expresados en las mismas unidades,
puede decirse que el que tenga mayor varianza presenta una mayor dispersin?.
13) Suponga que sobre un conjunto de datos { x1, x2 ,x3 , ......, xn} con media X , y
x X
desviacin tpica S, se define la transformacin: zi = i dando lugar a otro
S
conjunto de datos { z1, z2 ,z3 , ......, zn} llamados datos tipificados.
Cul es la media y la varianza de los datos tipificados?.
15) Si { x1, x2 ,x3 , ......, xn} es una muestra que tiene media muestral X , y proviene
de una poblacin con media poblacional . Cual de las siguientes dos
i n i n
2
expresiones es menor: ( xi ) ( xi X) 2 ? . Justifique su respuesta.
i 1 i 1
Problemas Propuestos
I. Nivel Elemental
7.12) Una empresa tiene dos agencias , una en Caracas y otra en el interior .
El sueldo de los empleados de esa empresa en cada una de esas dos agencias es
como sigue:
Caracas : Media = Bs. 150.000 Desviacin Tpica = Bs. 25.000
Interior : Media = Bs. 120.000 Desviacin Tpica = Bs. 16.000
En cual de las dos agencias, los sueldos son ms homogneos? .
Solucin : En la del interior.
7.18) Durante un periodo de 150 horas, se observ el nmero de clientes por hora
que acuden a un comercio, encontrando:
Clientes 0 1 2 3 4 5 6 7 8
frecuencia 5 19 29 30 22 16 14 9 6
a) Determine la desviacin tpica y la media de las desviaciones absolutas.
b) El porcentaje de veces en que la observacin cae en el intervalo X 2S .
Solucn: a) 2,02 y 1,68. b) 96 % .
7.23) El sueldo promedio del personal de una empresa es de $1.200 con una
desviacin tpica de $250.
El personal va a ser beneficiado con un bono fijo y un aumento porcentual , y segn
el orden en que se apliquen estos beneficios, el futuro sueldo promedio puede ser
de $ 1.810 si aplica primero el incremento porcentual y luego el bono, o de $ 1.885
si se aplica primero el bono y luego el incremento porcentual.
a) Determine el monto del bono fijo y del aumento porcentual.
b) Analice cual de estas modalidades proporciona una mayor homogeneidad en los
sueldos del personal.
Solucin : $ 250 de bono con 30% de incremento porcentual , o $ 360 de bono con
20,8333 % de incremento porcentual .
7.26) Los salarios en una empresa tienen una desviacin tpica de 1.200.
Si todos los salarios son incrementados en 2.000, el coeficiente de variacin
disminuye en 2%. Calcule el salario medio despus del aumento. Solucin: 12.000
7.27) En el almacn de una empresa existen diversas cajas, que pueden ser
clasificadas as: pequeas cuyo peso es menos de 150 kilos, regulares con un peso
desde 150 hasta 250 kilos, grandes con un peso desde 250 kilos hasta 500 kilos, y
extra grandes desde 500 kilos en adelante.
Si el peso medio de las cajas es de 200 kilos, con una desviacin tpica de 20 kilos.
Cul es el porcentaje mnimo de las cajas de tamao regular dentro del almacn? .
Solucin : 84 % por lo menos.
Medidas de Dispersin 23
Angel Francisco Arvelo L.
7.32) Suponga que se tienen dos conjuntos de datos disjuntos , con igual media X ,
pero de diferentes tamaos n1 y n2 , y con diferentes coeficientes de variacin CV1
y CV2 respectivamente .
Al unir estos dos conjuntos, qu tipo de media entre sus coeficientes de variacin
debe utilizarse, para obtener el coeficiente de variacin de la unin?.
n1 C. V12 n 2 C. V22
Solucin: C.V = = Media cuadrtica ponderada entre sus
n1 n 2
coeficientes de variacin.
i n1
1 Conjunto: n1= 75 ; X 12i = 67688,75 ; C.V1 = 5%
i 1
i n2
2 Conjunto: n2 = 80 ; X 22i = 46540,80 ; C.V2 = 10%
i 1
Calcule el coeficiente de variacin de su unin.
Solucin: 13,43%
7.35) En una plantel se administr un examen sobre 100 puntos, y los alumnos
concurrieron en dos turnos: maana y tarde.
Para el turno de la maana se obtuvo una media de 52,00 puntos ,y para el turno
de la tarde donde presentaron 330 alumnos, se obtuvo una media de 46,00 puntos.
La media de todo el grupo result ser de 48,04 puntos.
Tanto para el turno de la maana como para el de la tarde, se obtuvo la misma
desviacin tpica; pero la desviacin tpica de todo el grupo result ser 30% mayor
que la de la maana (o de la tarde) .
En base a esta informacin, obtenga el coeficiente de variacin para cada uno de
los turnos, y el de todo el grupo.
Solucin: Maana : 6,58 % . Tarde: 7,43 % . General : 9,25 % .