Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1. CONCEPTO Y CARACTERÍSTICAS.
Para comprender cuál es la utilidad de las Medidas de Dispersión volveremos a los ejem-
plos de las edades de 6 de los compradores de autos de tres concesionarias diferentes de la ciu-
dad, obteniéndose la siguiente información:
1 2 3
Elemento Edad Elemento Edad Elemento Edad
x1 46 x1 49 x1 42
x2 26 x2 34 x2 42
x3 52 x3 52 x3 42
x4 46 x4 32 x4 46
x5 44 x5 45 x5 44
x6 38 x6 40 x6 36
En el ejemplo, una simple observación permite verificar que si bien las medias aritméti-
cas de las tres concesionarias son idénticas, provienen de conjuntos de datos completamente di-
ferentes.
A B
C
Esto significa:
que las medidas de posición por sí solas no son suficientes para determinar las
características de un conjunto de datos.
que se requiere de una medida adicional que permita calcular el alejamiento de los
valores de la variable respecto de algún valor de referencia.
Así surge la necesidad de calcular las medidas de dispersión para ampliar adecuadamen-
te la información referida al conjunto de datos bajo estudio.
Estadística I 61
Esta medida nos muestra que la diferencia de edad entre el comprador más viejo y el más
joven es de 30 años en la concesionaria 1, 20 años en la concesionaria 2 y 10 años en la conce-
sionaria 3.
El Rango es muy sencillo de calcular, lo cual constituye una ventaja, pero a su vez tiene
desventajas que lo hacen desaconsejable como medida de dispersión:
Para calcularlo no se toma como referencia ningún valor considerado central.
No es factible su cálculo en una distribución de frecuencias.
Es inadecuado como medida de dispersión si uno o ambos valores son observaciones
extremas
El Rango semi-intercuartílico (Rq), es una medida que se calcula utilizando dos de los
tres cuartilos conocidos, Q1 y Q3, a través de la siguiente fórmula:
Q Q
3 1
Rq
2
cuyo resultado mide la distancia promediada entre dos medidas de posición particulares. Un ma-
yor o menor valor de Rq indica una mayor o menor distancia entre los dos cuartilos. Se puede
decir que es la media de la extensión del 50 % central de los datos. Un mayor o menor valor del
Estadística I 62
Q Q 46 38
3 1
Rq 4 años
2 2
Esto nos indica que la diferencia de edades promedio del 50 % central de los comprado-
res es de 4 años.
Q Q 104 78,26
3 1
Rq 12,87 mil $
2 2
Lo que nos muestra que la diferencia de precios promedio del 50 % central de los autos
vendidos es de $ 12,87 mil.
Ventajas
Puede ser calculada en cualquier distribución de frecuencias
Al no depender de los puntos medios (los xi no aparecen en su fórmula) puede calcu-
larse en los casos de distribuciones de frecuencias con intervalos abiertos.
Evita el problema de los valores extremos de los datos
Es fácil de calcular
Desventajas
Continúa siendo una medida que no toma como referencia un valor central
Sólo mide la media de la distancia entre Q1 y Q3 y no la forma en que están distribui-
dos los datos
3. DESVÍO MEDIO.
Una de las posibilidades más interesantes para medir la dispersión surge cuando se piensa
en qué se podrían aprovechar los desvíos de cada una de las variables respecto de la media
aritmética para construir una medida, en especial porque los desvíos constituyen una manera
natural de medir el alejamiento de los valores de la variable respecto de un valor central. Sin em-
bargo, la segunda propiedad de la media aritmética dice que la suma de los desvíos sea nula,
esto es, x x 0 , lo cual prácticamente inhibe al desvío como herramienta apropiada para
i
medir la dispersión a menos que se encuentre una forma apropiada de evitar esa nulidad. El
Desvío Medio aparece como una de esas alternativas y su fórmula es:
Estadística I 63
DM
x i x
n
en la cual se observa que con el procedimiento de cálculo aplicado (sumar el valor absoluto de
los desvíos) se evita que el resultado final se anule y se obtiene esta nueva medida.
Edad
xi x
xi
26 16
38 4
44 2 DM
x i x
40
6,67 años
n 6
46 4
46 4
52 10
40
DM
f i xi x
n
Precios fi xi xi x f i xi x
(miles de $)
60 - 71,999 8 66 26,75 210,00
72 - 83,999 23 78 14,75 327,75
84 - 95,999 17 90 2,75 38,25
DM
f i xi x
1.152
14,4 miles $
96 - 107,999 18 102 9,25 175,50 n 80
108 - 119,999 8 114 21,25 174,00
120 - 131,999 4 126 33,25 135,00
132 - 143,999 2 138 45,25 91,50
80 1.152,00
Ventaja:
toma como referencia un valor central, en este caso la media aritmética
Desventaja:
las barras de valor absoluto incorporadas en la fórmula complican su manejo algebrai-
co.
Estadística I 64
El Desvío Medio (DM) considera al desvío como base para sus cálculos, pero cuenta con
la desventaja de poseer barras de valor absoluto que dificultan notoriamente el trabajo algebrai-
co. Para corregir esta situación existe otra alternativa que también aprovecha los desvíos para
construir una medida pero que evita la utilización de las barras de valor absoluto.
2
Recordando la tercera propiedad de la media aritmética xi x , se construye la
cuarta medida de dispersión, denominada Varianza, cuya fórmula para datos no agrupados es
S
xi x
2
2
x n
2
S
xi x 2 fi ,
x n
Puede verse claramente que si bien los desvíos continúan siendo los elementos básicos
para el cálculo de la medida de dispersión, se ha utilizado el artificio de elevarlos al cuadrado,
por lo que todos se convierten en positivos y su suma ya no se anula.
26 -16 256
38 -4 16 2
S
xi x
2
408
68 años2
44 2 4
x n 6
46 4 16
46 4 16
52 10 100
0 408
Con los cálculos de las varianzas se verifican que da un resultado excesivo respecto de las
anteriores medidas de dispersión, y eso se debe a que el artificio de elevar al cuadrado los desv-
íos modifica su escala de trabajo.
Para datos no agrupados, tomando como ejemplo los precios de los autos vendidos (Mi
Estadística I 65
Precios
(miles de $)
fi xi xi x x x
i
2
x x
i
2
fi
60 - 71,999 8 66 -26,75 689,0625 5.512,5000
72 - 83,999 23 78 -14,75 203,0625 4.670,4375
S 2
2
x i x fi
84 - 95,999 17 90 -2,75 5,0625 86,0625 x n
96 - 107,999 18 102 9,25 95,0625 1.711,1250 24.507
108 - 119,999 8 114 21,25 473,0625 3.784,5000 306,34 miles $ 2
80
120 - 131,999 4 126 33,25 1.139,0625 4.556,2500
132 - 143,999 2 138 45,25 2.093,0625 4.186,1250
80 24.507,0000
Las medidas que hemos calculado hasta ahora arrojan resultados expresados en la misma
unidad de medida que los datos originales. Para la varianza los resultados son el cuadrado de las
unidades de los datos, estas unidades no son intuitivamente claras ni fáciles de interpretar, por
eso tenemos que hacer un cambio para calcular una medida de dispersión útil y que no acarree
problemas con las unidades de medida. Esta medida es el desvío estándar, que es la raíz cuadrada
de la varianza y está expresada en la misma unidad de medida que los datos originales.
S S2
x x
i
2
x x n
xi x xi x
2 2
f fi
2 i
Sx S
x
f i n
S S 2 68 8,25 años
x x
El desvío estándar nos indica que la variación alrededor de la edad promedio, de 42 años
es de 8,25 años en más y en menos (33,75 y 50,25 años).
En el ejemplo de los precios de los autos vendidos por la concesionaria el desvío estándar
es:
El desvío estándar nos indica que la variación alrededor del precio promedio, de $ 92,25
mil es de $ 17,50 mil en más y en menos (74,75 y 109,75 mil $).
Un símbolo general para indicar a la varianza es la letra V. De modo que, por ejemplo, el
símbolo V(x) indica la varianza de la variable xi. Asimismo, los símbolos para la varianza po-
blacional y muestral varían entre sí del mismo modo que varían los símbolos para las medias. En
este caso los símbolos Sx2 y Sx se reservan para la varianza y el desvío estándar muestrales,
mientras que para los símbolos poblacionales se utiliza la letra griega sigma, que señalan, respec-
tivamente, a la varianza (x2) y al desvío estándar (x).
Las fórmulas que vimos se llaman fórmulas definicionales, pero no siempre son prácti-
cas. La fórmula de trabajo se obtiene mediante un conjunto de procesos algebraicos y permite
encontrar un procedimiento diferente, y en algunos casos más conveniente, para calcular la va-
rianza. Se parte de la fórmula inicial y se desarrolla el cuadrado del binomio que se encuentra
entre paréntesis, con el siguiente resultado:
S 2
x i x x
2 2
i 2 xi x x 2 x 2
i 2 x xi x
2
x
n n n
2 2 2 2 2
x i
2x
x
nx
i x i
2x x x
2
x i 2
2x x
2
x i
x
2
n n n n n n
2 xi2 f i 2
S x
x
fi
PROPIEDADES DE LA VARIANZA
La varianza es una medida de dispersión muy utilizada. Cuenta con algunas propiedades impor-
tantes:
Estadística I 67
a a
2
2 0
S a 0
n n
3º La variancia es una medida mínima si se la compara con cualquier otra similar que se
calcule tomando como referencia alguna medida de posición diferente de la media
aritmética. Esta propiedad no requeriría demostración alguna en tanto se tenga presente la
tercera propiedad de la media aritmética, que demostró que la sumatoria de los desvíos al
cuadrado entre los valores de la variable y la media aritmética es un mínimo, lo cual equivale
a decir que si los desvíos se calcularan respecto de cualquier otro valor que no fuera la media
aritmética, la sumatoria de ellos al cuadrado daría un resultado mayor.
a Si a todos los valores de una variable les sumamos (o restamos) un valor constante y
arbitrario A, obtenemos una nueva variable cuya varianza será igual a la de la va-
riable original.
Concesionaria 1 (A = 10)
Edad
xi
d i xi A di d d i d
2
46
26
56
36
4
-16
16
256 S2
d d
i
2
408
68 años2
52 62 10 100 d n 6
46 56 4 16
44 54 2 4
38 48 -4 16
312 408
Para demostrar esta propiedad, sea xi una variable que tiene una media x y una
varianza Sx2, y sea A un valor arbitrario. Construimos la variable di xi A , y recordan-
do que, se obtiene
Estadística I 68
S2 S x2
d n n n n
b Si a todos los valores de una variable los multiplicamos (o dividimos) por un valor
constante y arbitrario c, obtenemos una nueva variable cuya variancia será igual a la
de la variable original multiplicada o dividida por c al cuadrado.
Concesionaria 1 (c = 1,5)
Edad
xi
d i xi c di d d i d
2
46
26
69
39
6
-24
36
576 S2
d d
i
2
918
153
52 78 15 225 d n 6
46 69 6 36 años2
44 66 3 9
38 57 -6 36
378 918
Para demostrar esta propiedad, sea xi una variable que tiene una media x y una va-
riancia Sx2, y sea c un valor arbitrario. Construimos la variable di c xi (en este caso re-
solvemos la propiedad sólo aplicando el caso del producto, pero resulta sencillo ver que
la demostración es equivalente si aplicáramos el caso del cociente), y recordando que
d c x , se obtiene
S2
di d 2 cxi c x2 c 2 x x i
2
c 2 xi x
2
c 2 S x2
d n n n n
c Una transformación algebraica que combina los casos anteriores, parte de una variable xi
que tiene una media x y una variancia Sx2, y de dos valores arbitrarios, A y c. Se cons-
x A x A
truye una variable u i , y recordando que u .
i c c
Concesionaria 1 (A = 10 y c = 1,5)
Edad
ui
xi A
ui u u u
i
2
xi c
46
26
24,00
10,67
2,67
-10,67
7,11
113,78 S
ui u
2
2 181,33 30,22
52 28,00 6,67 44,44
u n 6
46 24,00 2,67 7,11 años2
44 22,67 1,33 1,78
38 18,67 -2,67 7,11
128 181,33
Demostración
2
S
di d
2
1 xi A x A
2
1 xi A x A
2
1
2 S2
2 x x x
n n c c n c c2
u i
c2
i Caso de la suma: Supongamos la existencia de dos variables, xi e yi, ambas con sus
medias ( x e y ) y sus variancias (Sx2 y Sy2) conocidas, y construyamos con ellas la
variable suma di xi yi . Recordando que d x y , se busca calcular la varianza de
di.
2
S
d d
i
2
x y x y
i i
2
x x y y
i i
2
d n n n
x
2 2
i x y i y 2 xi x yi y
n
x x y y 2 x xy y
i
2
i
2
i i
x y y x S
2 2
i x i i x yi y 2
2 x S y2 2S xy
n n n
V x V y 2 Cov x, y
Cov x, y S
xi x yi y
xy n
Estadística I 70
La covarianza mide la relación promedio existente entre dos variables xi e yi, a través
de la suma de los productos de los desvíos de ambas variables entre sí y es una con-
secuencia de la demostración de la varianzia de la suma de dos variables.
2
S
di d 2 xi yi x y 2 xi x yi y2
d n n n
x
2 2
i x yi y 2 xi x yi y
n
x x y y 2 x xy y
i
2
i
2
i i
x y y x S
2 2
i x i i x yi y 2
2 x S y2 2S xy
n n n
V x V y 2 Cov x, y
n 1s 2z n 2s 22
s2
n1 n 2
Nótese que es una media aritmética ponderada de las varianzas. El resultado admite generali-
zaciones a más conjuntos.
La varianza (o el desvío estándar) es una medida de dispersión que indica de qué modo
se alejan, en promedio, los valores de una variable respecto de una medida de tendencia central
convencional, en este caso la media aritmética. Sirve para medir el alejamiento interno prome-
Estadística I 71
dio de los valores de una variable respecto de su propia medida de tendencia central. En ese sen-
tido, resulta ser una medida de dispersión absoluta.
Dispersión absoluta
Medida de tendencia central
Cuando utilizamos como medida de dispersión absoluta el desvío estándar y como medi-
da de tendencia central la media aritmética obtenemos el Coeficiente de Variación (CV) cuya
expresión matemática es
S
x
CV 100 (que se expresa en forma porcentual)
x x
Esta medida se encuentra desprovista de unidades porque relaciona el desvío estándar con la me-
dia aritmética y ambas tienen la misma unidad de medida, que, de esa forma, se simplifica. Re-
sulta sencillo verificar que el Coeficiente de Variación es una medida de la dispersión de un con-
junto de datos expresada como porcentaje de su media aritmética.
Es muy útil para comparar distribuciones en las que las muestras son de tamaño diferente.
8,25 6,53
CV 100 19,64% CV 100 14,85%
1 42 5 44
Los resultados obtenidos permiten señalar que si bien la variable Concesionaria 1 tiene
menor dispersión absoluta que la Concesionaria 5, (porque el desvío estándar es menor), tiene
mayor dispersión relativa (porque CV1 es mayor que CV5).
17,50
CV 100 18,97%
x 92,25
La forma es una de las características que define al conjunto de datos. Las medidas de
tendencia central y de posición: media aritmética, mediana y modo, tienen entre sí una relación
sumamente interesante, que depende de la forma que adopta el histograma correspondiente.
SIMÉTRICO
En este caso se ve claramente que coinciden las tres medidas. Si la simetría es perfecta,
las medidas de tendencia central y de posición coinciden.
Pero si el gráfico del histograma condujera a un polígono de frecuencias que diera lugar a
una forma asimétrica, se vería que las tres medidas no coinciden entre sí y que su ubicación de-
penderá de la forma final de la curva, es decir, dependerá de si el valor correspondiente al Modo
está ubicado más hacia la derecha o más hacia la izquierda.
Estadística I 73
Sobre la base de esta situación, el matemático inglés Pearson enunció la siguiente fórmu-
la empírica que relaciona las tres medidas, considerándose a ésta una fórmula empírica porque
no tiene demostración teórica:
x Mo 3 x Me
A partir de la relación de Pearson, es posible construir una forma de evaluar el grado de
asimetría de una distribución por medio de una de las siguientes medidas:
As1
x Mo
, o bien As
3 x Me
Sx 2 S
x
Los diferentes resultados de las medidas de asimetría conducen al siguiente análisis:
particular de las medidas As1 y As2 es negativo y por consiguiente se dice que la asi-
metría es hacia la izquierda o negativa.
Si, en cambio, la media aritmética es mayor que la mediana o que el modo, el resulta-
do particular de As1 y As2 será positivo, y diremos que la distribución tiene una asi-
metría hacia la derecha o positiva.
Concesionaria 1 2 3
x 42 42 42
Me 45 42,5 42
Mo 46 no existe 42
Sx 8,25 7,37 3,06
As1 -0,4848 -,- 0
As2 -1,0909 -0,2035 0
x Mo 92,25 80,57
As 0,6673
1 S 17,50
x
As
3 x Me 392,25 90,35
0,3257
2 S 17,50
x
Asq
Q3 Q2 Q2 Q1 Q3 Q1 2Q2
Q3 Q1 Q3 Q
1
Las diferentes medidas tienen, cada una, un conjunto de virtudes y de defectos que pue-
den ser tomados en cuenta para determinar cuándo resulta conveniente utilizar alguna desechan-
do las restantes:
al Modo.
b Si la distribución de frecuencias es notoriamente asimétrica, es más apropiado utili-
zar o la Mediana o el Modo, ya que ambas no se encuentran afectadas por valores ex-
tremos del conjunto de datos como sí lo está la media aritmética.
Si bien no pueden establecerse en forma dogmática límites para las medidas de asimetría,
una manera de orientar a quienes trabajan en el tema, es mediante las siguientes sugerencias:
4
x x
iS
k R4
x
n
a) Leptocúrtica: k > 3
b) Platicúrtica: k < 3
c) Mesocúrtica: k = 3
Rq
k
P90 P10
7. MOMENTOS
Los momentos son cálculos que se realizan con los valores de una variable y que
Estadística I 76
Si se observa con detenimiento las fórmulas de los momentos, se podrá verificar que exis-
ten relaciones entre ellos. Por ejemplo
8. VARIABLE ESTANDARIZADA
xi x
por lo que finalmente zi (tradicionalmente se reserva el símbolo zi para la variable es-
Sx
tandarizada).
Mide la desviación de la media en unidades de desvío estándar, sus cantidades son adi-
mensionales, nos ofrece información de la posición relativa de cualquier observación dentro de
una distribución de frecuencias y es muy útil para comparar con otras distribuciones de frecuen-
cias.
La variable estandarizada es adecuada para identificar valores atípicos. Como regla gene-
ral, la variable estandarizada es atípica si es menor a – 3.
Como esta última expresión es igual a cero (por la segunda propiedad de la media aritmé-
tica), resulta ser z 0 .
2
1 2 1 x x
S z2 zi z i 0
n n S x
1 1 2 1 2
2
Sx n
xi x
Sx2
Sx 1
La transformación se califica como muy particular porque sin importar cuánto valen tanto
los valores de la variable xi como su media aritmética y su desvío estándar, la media y la va-
riancia de zi serán siempre iguales a cero y a uno, respectivamente.
PREGUNTAS TEORICAS
A) En una serie de valores diferentes que tienen signo negativo ¿Cómo es la varianza?
a) mayor que cero
b) menor que cero
c) igual a cero
C) Observe las varianzas siguientes e indique cómo son entre sí en términos generales