Unidad 4 - Medidas de Dispersión

Estadística I 60
UNIDAD IV: MEDIDAS DE DISPERSIÓN Y OTRAS MEDIDAS RESUMEN
1. CONCEPTO Y CARACTERÍSTICAS.
Las características que describen un conjunto de datos son:

 Posición
 Dispersión
 Forma
Para comprender cuál es la utilidad de las Medidas de Dispersión volveremos a los ejem-
plos de las edades de 6 de los compradores de autos de tres concesionarias diferentes de la ciu-
dad, obteniéndose la siguiente información:
1 2 3
Elemento Edad Elemento Edad Elemento Edad
x1 46 x1 49 x1 42
x2 26 x2 34 x2 42
x3 52 x3 52 x3 42
x4 46 x4 32 x4 46
x5 44 x5 45 x5 44
x6 38 x6 40 x6 36
En el ejemplo, una simple observación permite verificar que si bien las medias aritméti-
cas de las tres concesionarias son idénticas, provienen de conjuntos de datos completamente di-
ferentes.
Como vemos los conjuntos de datos pueden tener:

 Diferentes medidas de tendencia central y diferentes medidas de dispersión
 Iguales medidas de tendencia central y diferentes medidas de dispersión
A B
C
Esto significa:
 que las medidas de posición por sí solas no son suficientes para determinar las
características de un conjunto de datos.
 que se requiere de una medida adicional que permita calcular el alejamiento de los
valores de la variable respecto de algún valor de referencia.
Así surge la necesidad de calcular las medidas de dispersión para ampliar adecuadamen-
te la información referida al conjunto de datos bajo estudio.
Estadística I 61
La dispersión es la cantidad de variación, desperdigamiento o diseminación en los datos.

Puede medirse en términos de la diferencia entre dos valores seleccionados de la variable. Es el
grado en que los datos tienden a extenderse alrededor de un valor medio.
Existen varias Medidas de dispersión. Ellas son:

 Rango
 Rango semi -intercuartílico
 Desvío medio
 Varianza
 Desvío estándar
2. RANGO. RANGO SEMI-INTERCUARTÍLICO.
El Rango fue presentado originalmente en el tema Distribución de Frecuencias y se defi-

nió como la diferencia entre los valores extremos del conjunto de datos luego de ordenados es-
tos. Es decir que R  x M  xm .
Es la diferencia entre el mayor y el menor valor de un conjunto ordenado de datos.
El Rango de las edades en las tres concesionarias es:
R1 = 56 - 26 = 30 años R2 = 52 - 32 = 20 años R3 = 46 - 36 = 10 años
Esta medida nos muestra que la diferencia de edad entre el comprador más viejo y el más
joven es de 30 años en la concesionaria 1, 20 años en la concesionaria 2 y 10 años en la conce-
sionaria 3.
El Rango de los precios de los automóviles, ya calculado para construir la distribución de

frecuencias es de 81,52 mil $.
El Rango es muy sencillo de calcular, lo cual constituye una ventaja, pero a su vez tiene
desventajas que lo hacen desaconsejable como medida de dispersión:
 Para calcularlo no se toma como referencia ningún valor considerado central.
 No es factible su cálculo en una distribución de frecuencias.
 Es inadecuado como medida de dispersión si uno o ambos valores son observaciones
extremas
El Rango semi-intercuartílico (Rq), es una medida que se calcula utilizando dos de los
tres cuartilos conocidos, Q1 y Q3, a través de la siguiente fórmula:
Q Q
3 1
Rq 
2
cuyo resultado mide la distancia promediada entre dos medidas de posición particulares. Un ma-
yor o menor valor de Rq indica una mayor o menor distancia entre los dos cuartilos. Se puede
decir que es la media de la extensión del 50 % central de los datos. Un mayor o menor valor del
Estadística I 62
rango semi - intercuartílico indica una mayor o menor dispersión.
En la Concesionaria 1 el rango semi – intercuartílico de la edad de los compradores es:
Q Q 46  38
3 1
Rq    4 años
2 2
Esto nos indica que la diferencia de edades promedio del 50 % central de los comprado-
res es de 4 años.
El Rango semi-intercuartílico de los precios de los automóviles, es:
Q Q 104  78,26
3 1
Rq    12,87 mil $
2 2
Lo que nos muestra que la diferencia de precios promedio del 50 % central de los autos
vendidos es de $ 12,87 mil.
El Rango semi-intercuartílico resuelve alguna dificultad que tenía el Rango R, y mantiene

vigente otras.
Ventajas
 Puede ser calculada en cualquier distribución de frecuencias
 Al no depender de los puntos medios (los xi no aparecen en su fórmula) puede calcu-
larse en los casos de distribuciones de frecuencias con intervalos abiertos.
 Evita el problema de los valores extremos de los datos
 Es fácil de calcular
Desventajas
 Continúa siendo una medida que no toma como referencia un valor central
 Sólo mide la media de la distancia entre Q1 y Q3 y no la forma en que están distribui-
dos los datos
3. DESVÍO MEDIO.
Una de las posibilidades más interesantes para medir la dispersión surge cuando se piensa
en qué se podrían aprovechar los desvíos de cada una de las variables respecto de la media
aritmética para construir una medida, en especial porque los desvíos constituyen una manera
natural de medir el alejamiento de los valores de la variable respecto de un valor central. Sin em-
bargo, la segunda propiedad de la media aritmética dice que la suma de los desvíos sea nula,
esto es,  x  x  0 , lo cual prácticamente inhibe al desvío como herramienta apropiada para
i
medir la dispersión a menos que se encuentre una forma apropiada de evitar esa nulidad. El
Desvío Medio aparece como una de esas alternativas y su fórmula es:
Estadística I 63
DM 
x i x
n
en la cual se observa que con el procedimiento de cálculo aplicado (sumar el valor absoluto de
los desvíos) se evita que el resultado final se anule y se obtiene esta nueva medida.
Edad
xi  x
xi
26 16
38 4
44 2 DM 
x i x

40
 6,67 años
n 6
46 4
46 4
52 10
40
Para datos agrupados, la formula es la siguiente:
DM 
f i xi  x
n
En el caso de los precios de los autos
Precios fi xi xi  x f i xi  x
(miles de $)
60 - 71,999 8 66 26,75 210,00
72 - 83,999 23 78 14,75 327,75
84 - 95,999 17 90 2,75 38,25
DM 
f i xi  x

1.152
 14,4 miles $
96 - 107,999 18 102 9,25 175,50 n 80
108 - 119,999 8 114 21,25 174,00
120 - 131,999 4 126 33,25 135,00
132 - 143,999 2 138 45,25 91,50
80 1.152,00
Ventaja:
 toma como referencia un valor central, en este caso la media aritmética
Desventaja:
 las barras de valor absoluto incorporadas en la fórmula complican su manejo algebrai-
co.
Estadística I 64
4. VARIANZA Y DESVÍO ESTÁNDAR. CÁLCULO A PARTIR DE DATOS

AGRUPADOS Y NO AGRUPADOS. PROPIEDADES.
El Desvío Medio (DM) considera al desvío como base para sus cálculos, pero cuenta con
la desventaja de poseer barras de valor absoluto que dificultan notoriamente el trabajo algebrai-
co. Para corregir esta situación existe otra alternativa que también aprovecha los desvíos para
construir una medida pero que evita la utilización de las barras de valor absoluto.
 2
Recordando la tercera propiedad de la media aritmética    xi  x  , se construye la
 
cuarta medida de dispersión, denominada Varianza, cuya fórmula para datos no agrupados es
S 
 xi  x
2
 2
x n
y para datos agrupados:
2
S 
 xi  x  2 fi ,
x n
Puede verse claramente que si bien los desvíos continúan siendo los elementos básicos
para el cálculo de la medida de dispersión, se ha utilizado el artificio de elevarlos al cuadrado,
por lo que todos se convierten en positivos y su suma ya no se anula.
Por consiguiente, la varianza (y el desvío estándar) mide como se alejan, en prome-

dio, los valores de la variable respecto de su propia media aritmética.
El cálculo de la varianza para las edades de los compradores de la Concesionaria 1 es el
siguiente:
Edad
xi
xi  x  
xi  x
2
26 -16 256
38 -4 16 2
S 
 xi  x
2

408 
 68 años2
44 2 4
x n 6
46 4 16
46 4 16
52 10 100
0 408
Con los cálculos de las varianzas se verifican que da un resultado excesivo respecto de las
anteriores medidas de dispersión, y eso se debe a que el artificio de elevar al cuadrado los desv-
íos modifica su escala de trabajo.
Para datos no agrupados, tomando como ejemplo los precios de los autos vendidos (Mi
Estadística I 65
les de $), los cálculos serían:
Precios
(miles de $)
fi xi xi  x x  x 
i
2
x  x 
i
2
fi
60 - 71,999 8 66 -26,75 689,0625 5.512,5000
72 - 83,999 23 78 -14,75 203,0625 4.670,4375
S  2
2

 x i  x fi


84 - 95,999 17 90 -2,75 5,0625 86,0625 x n
96 - 107,999 18 102 9,25 95,0625 1.711,1250 24.507
108 - 119,999 8 114 21,25 473,0625 3.784,5000   306,34 miles $ 2
80
120 - 131,999 4 126 33,25 1.139,0625 4.556,2500
132 - 143,999 2 138 45,25 2.093,0625 4.186,1250
80 24.507,0000
Las medidas que hemos calculado hasta ahora arrojan resultados expresados en la misma
unidad de medida que los datos originales. Para la varianza los resultados son el cuadrado de las
unidades de los datos, estas unidades no son intuitivamente claras ni fáciles de interpretar, por
eso tenemos que hacer un cambio para calcular una medida de dispersión útil y que no acarree
problemas con las unidades de medida. Esta medida es el desvío estándar, que es la raíz cuadrada
de la varianza y está expresada en la misma unidad de medida que los datos originales.
El Desvío o desviación estándar (o típica) (Sx) para datos no agrupados:
S  S2 
 x x
i
 2
x x n
y para datos agrupados:
 xi  x   xi  x 
2 2
f fi
2 i
Sx  S  
x
f i n
En el ejemplo de las edades de los compradores de la concesionaria 1 el desvío estándar

es:
S  S 2  68  8,25 años
x x
El desvío estándar nos indica que la variación alrededor de la edad promedio, de 42 años
es de 8,25 años en más y en menos (33,75 y 50,25 años).
En la concesionaria 2 el desvío estándar es de 7,37 años y en la concesionaria 3 de 3,06

años. Esto nos muestra lo que ya habíamos observado, que las edades de los compradores de la
Estadística I 66
concesionaria 3 son menos dispersas.
En el ejemplo de los precios de los autos vendidos por la concesionaria el desvío estándar
es:
S  S2  306,34  17,50 mil $

x x
El desvío estándar nos indica que la variación alrededor del precio promedio, de $ 92,25
mil es de $ 17,50 mil en más y en menos (74,75 y 109,75 mil $).
Un símbolo general para indicar a la varianza es la letra V. De modo que, por ejemplo, el
símbolo V(x) indica la varianza de la variable xi. Asimismo, los símbolos para la varianza po-
blacional y muestral varían entre sí del mismo modo que varían los símbolos para las medias. En
este caso los símbolos Sx2 y Sx se reservan para la varianza y el desvío estándar muestrales,
mientras que para los símbolos poblacionales se utiliza la letra griega sigma, que señalan, respec-
tivamente, a la varianza (x2) y al desvío estándar (x).
Las fórmulas que vimos se llaman fórmulas definicionales, pero no siempre son prácti-
cas. La fórmula de trabajo se obtiene mediante un conjunto de procesos algebraicos y permite
encontrar un procedimiento diferente, y en algunos casos más conveniente, para calcular la va-
rianza. Se parte de la fórmula inicial y se desarrolla el cuadrado del binomio que se encuentra
entre paréntesis, con el siguiente resultado:
S 2

 x i x    x
2 2
i  2 xi x  x 2  x 2
i  2 x  xi   x
2

x
n n n
2 2 2 2 2

x i
 2x
x
nx
i x i
 2x x  x
2

x i 2
 2x  x
2

x i
x
2
n n n n n n
La fórmula anterior es para datos no agrupados, para datos agrupados:
2  xi2 f i 2
S  x
x
 fi
PROPIEDADES DE LA VARIANZA
La varianza es una medida de dispersión muy utilizada. Cuenta con algunas propiedades impor-
tantes:
Estadística I 67
1º La variancia de un conjunto definido de datos es un valor constante mayor o igual a

cero. Esta propiedad, por un lado, tiene similar connotación y objetivo que la primera pro-
piedad de la media aritmética, y por el otro, es fácilmente comprensible si se observa la
fórmula de la variancia que está compuesta por la sumatoria de valores elevados al cuadrado.
2º La variancia de una constante es igual a cero. Esta propiedad se demuestra de la siguiente

manera: sea una constante a cuya media a  a. Si se desea calcular la variancia de a, se apli-
ca la fórmula correspondiente:
 a  a 
2
2 0
S a   0
n n
3º La variancia es una medida mínima si se la compara con cualquier otra similar que se
calcule tomando como referencia alguna medida de posición diferente de la media
aritmética. Esta propiedad no requeriría demostración alguna en tanto se tenga presente la
tercera propiedad de la media aritmética, que demostró que la sumatoria de los desvíos al
cuadrado entre los valores de la variable y la media aritmética es un mínimo, lo cual equivale
a decir que si los desvíos se calcularan respecto de cualquier otro valor que no fuera la media
aritmética, la sumatoria de ellos al cuadrado daría un resultado mayor.
4º Variancia de variables transformadas algebraicamente:
a Si a todos los valores de una variable les sumamos (o restamos) un valor constante y
arbitrario A, obtenemos una nueva variable cuya varianza será igual a la de la va-
riable original.
En el caso de la Concesionaria 1, la varianza de la edad media de los compradores

es de 68 años2. Para verificar esta propiedad tomemos un valor de A = 10, para construir
la nueva variable, que si se verifica esta propiedad la varianza de la nueva variable deber-
ía ser de 153 años2 ( S d2  S 2x )
Concesionaria 1 (A = 10)
Edad
xi
d i  xi  A di  d d i d 
2
46
26
56
36
4
-16
16
256 S2 
 d d
i
2

408 
 68 años2

52 62 10 100 d n 6
46 56 4 16
44 54 2 4
38 48 -4 16
312 408
Para demostrar esta propiedad, sea xi una variable que tiene una media x y una
varianza Sx2, y sea A un valor arbitrario. Construimos la variable di  xi  A , y recordan-
do que, se obtiene
Estadística I 68
 di  d    xi  A x  A   xi  A  x  A   xi  x 

2 2 2 2
S2   S x2
d n n n n
b Si a todos los valores de una variable los multiplicamos (o dividimos) por un valor
constante y arbitrario c, obtenemos una nueva variable cuya variancia será igual a la
de la variable original multiplicada o dividida por c al cuadrado.

es de 68 años2. Para verificar esta propiedad tomemos un valor de c = 1,5, para construir
la nueva variable, que si se verifica esta propiedad la varianza de la nueva variable deber-
ía ser de 153 años2 ( S d2  c 2 S x2 )
Concesionaria 1 (c = 1,5)
Edad
xi
d i  xi c di  d d i d 
2
46
26
69
39
6
-24
36
576 S2 
 
d d
i
2


918
 153
52 78 15 225 d n 6
46 69 6 36 años2
44 66 3 9
38 57 -6 36
378 918
Para demostrar esta propiedad, sea xi una variable que tiene una media x y una va-
riancia Sx2, y sea c un valor arbitrario. Construimos la variable di  c xi (en este caso re-
solvemos la propiedad sólo aplicando el caso del producto, pero resulta sencillo ver que
la demostración es equivalente si aplicáramos el caso del cociente), y recordando que
d  c x , se obtiene
S2 

 di  d 2   cxi  c x2   c 2 x  x i
2
c 2  xi  x 
2
 c 2 S x2
d n n n n
c Una transformación algebraica que combina los casos anteriores, parte de una variable xi
que tiene una media x y una variancia Sx2, y de dos valores arbitrarios, A y c. Se cons-
x A x A
truye una variable u  i , y recordando que u  .
i c c

es de 68 años2. Para verificar esta propiedad tomemos un valor de A = 10 y c = 1,5, para
construir la nueva variable, que si se verifica esta propiedad la varianza de la nueva va-
S2
riable debería ser de 30,22 años2 ( S u2  2x )
c
Estadística I 69
Concesionaria 1 (A = 10 y c = 1,5)
Edad
ui 
xi  A
ui  u u  u 
i
2
xi c
46
26
24,00
10,67
2,67
-10,67
7,11
113,78 S 
 ui  u
2
 2  181,33  30,22
52 28,00 6,67 44,44
u n 6
46 24,00 2,67 7,11 años2
44 22,67 1,33 1,78
38 18,67 -2,67 7,11
128 181,33
Demostración
2
S 

 di  d
2

1  xi  A   x  A 
     
2
1  xi  A  x  A
2
1
2 S2
 2  x x  x 
  
n n  c   c  n c c2
u i
  c2
d Varianza de la suma o de la diferencia de dos variables:
i Caso de la suma: Supongamos la existencia de dos variables, xi e yi, ambas con sus
medias ( x e y ) y sus variancias (Sx2 y Sy2) conocidas, y construyamos con ellas la
variable suma di  xi  yi . Recordando que d  x  y , se busca calcular la varianza de
di.
2
S 
 d d
i
2
 

 x  y  x y
i i

2

 x x  y y
i i
  
2

  
d n n n
 x       
2 2
i  x  y i  y  2 xi  x yi  y

n

 x  x   y  y   2 x  xy  y  
i
2
i
2
i i
 x    y  y   x   S
2 2
i x i i  x yi  y 2
2 x  S y2  2S xy 
n n n
 V  x   V  y   2 Cov x, y 
Como resultado de esta última demostración se verifica que la variancia de la

suma de dos variables es igual a la suma de sus varianzas más dos veces Cov(x,y),
símbolo de la covarianza entre x e y (también simbolizado con Sxy). Luego
Cov  x, y   S 

 xi  x yi  y  
xy n
Estadística I 70
La covarianza mide la relación promedio existente entre dos variables xi e yi, a través
de la suma de los productos de los desvíos de ambas variables entre sí y es una con-
secuencia de la demostración de la varianzia de la suma de dos variables.
ii Caso de la diferencia: Partiendo de la existencia de dos variables xi e yi, cuyas me-

dias y varianzas son conocidas, se construye la variable diferencia di  xi  yi . Si
ahora se calcula la variancia de di
2
S 
 di  d 2   xi  yi  x  y 2   xi  x yi  y2 
d n n n
 x       
2 2
i  x  yi  y  2 xi  x yi  y

n

 x  x   y  y   2 x  xy  y  
i
2
i
2
i i
 x    y  y   x   S
2 2
i x i i  x yi  y 2
2 x  S y2  2S xy 
n n n
 V  x   V  y   2 Cov x, y 
con lo cual se verifica que la variancia de la diferencia de dos variables es la suma de

sus varianzas (como en el caso de la varianza de la suma de dos variables) menos dos
veces la covarianza entre las variables.
5º Media aritmética de varianzas. Supongamos que dos conjuntos de n1 y n2 números (o dos

distribuciones de frecuencias con frecuencias totales n1 y n2 tienen varianzas dadas por s12 y
s22, respectivamente y tienen la misma media. Entonces la varianza combinada de ambos
conjuntos (o ambas distribuciones de frecuencias) vendrá dada por
n 1s 2z  n 2s 22
s2 
n1  n 2
Nótese que es una media aritmética ponderada de las varianzas. El resultado admite generali-
zaciones a más conjuntos.
5. DISPERSIÓN ABSOLUTA Y RELATIVA: COEFICIENTE DE VARIACIÓN.
La varianza (o el desvío estándar) es una medida de dispersión que indica de qué modo
se alejan, en promedio, los valores de una variable respecto de una medida de tendencia central
convencional, en este caso la media aritmética. Sirve para medir el alejamiento interno prome-
Estadística I 71
dio de los valores de una variable respecto de su propia medida de tendencia central. En ese sen-
tido, resulta ser una medida de dispersión absoluta.
Pero si deseamos comparar las dispersiones de dos (o más) distribuciones, la varianza y el

desvío estándar no resultan ser medidas apropiadas.
Por consiguiente, para efectuar comparaciones respecto de la dispersión de varias distri-

buciones de frecuencias, aparece como necesaria la propuesta de calcular una medida de disper-
sión relativa.
Dispersión absoluta
Medida de tendencia central
Cuando utilizamos como medida de dispersión absoluta el desvío estándar y como medi-
da de tendencia central la media aritmética obtenemos el Coeficiente de Variación (CV) cuya
expresión matemática es
S
x
CV  100 (que se expresa en forma porcentual)
x x
Esta medida se encuentra desprovista de unidades porque relaciona el desvío estándar con la me-
dia aritmética y ambas tienen la misma unidad de medida, que, de esa forma, se simplifica. Re-
sulta sencillo verificar que el Coeficiente de Variación es una medida de la dispersión de un con-
junto de datos expresada como porcentaje de su media aritmética.
Es muy útil para comparar distribuciones en las que las muestras son de tamaño diferente.
En el siguiente ejemplo se podrá verificar este hecho particular:

 En la Concesionaria 1 la edad de los compradores es: 46, 26, 52, 46, 44 y 38,
con una edad promedio de 42 años y un desvío estándar de 8,25 años.
 Si tomamos una muestra de seis compradores en la Concesionaria 5, con los
siguientes resultados: 46, 30, 50, 46, 44 y 48. Con una edad promedio de 44 años y un
desvío estándar de 6,53 años
Con esos datos se calculan ambos coeficientes de variación:
8,25 6,53
CV  100  19,64% CV  100  14,85%
1 42 5 44
Los resultados obtenidos permiten señalar que si bien la variable Concesionaria 1 tiene
menor dispersión absoluta que la Concesionaria 5, (porque el desvío estándar es menor), tiene
mayor dispersión relativa (porque CV1 es mayor que CV5).
En el caso de la distribución de frecuencias relativa de los precios de los autos vendidos,

el Coeficiente de variación se calcula aplicando los resultados obtenidos para el desvío estándar
y la media aritmética:
Estadística I 72
17,50
CV  100  18,97%
x 92,25
6. FORMA. ASIMETRÍA. RELACIÓN EMPÍRICA DE PEARSON ENTRE LAS

MEDIDAS DE POSICIÓN. CURTOSIS
La forma es una de las características que define al conjunto de datos. Las medidas de
tendencia central y de posición: media aritmética, mediana y modo, tienen entre sí una relación
sumamente interesante, que depende de la forma que adopta el histograma correspondiente.
La asimetría es el grado de desviación que posee una distribución hacia la derecha o

hacia la izquierda, lo que puede verificarse visualmente mediante una observación del histo-
grama o del polígono de frecuencias.
En el caso de una distribución de frecuencias con histograma absolutamente simétrico, el

polígono de frecuencias puede imaginarse, en un caso límite, como una curva continua que tiene
la forma que se muestra en el gráfico que se presenta más abajo.
SIMÉTRICO
En este caso se ve claramente que coinciden las tres medidas. Si la simetría es perfecta,
las medidas de tendencia central y de posición coinciden.
Pero si el gráfico del histograma condujera a un polígono de frecuencias que diera lugar a
una forma asimétrica, se vería que las tres medidas no coinciden entre sí y que su ubicación de-
penderá de la forma final de la curva, es decir, dependerá de si el valor correspondiente al Modo
está ubicado más hacia la derecha o más hacia la izquierda.
Estadística I 73
ASIMETRÍA HACIA LA IZQUIERDA ASIMETRÍA HACIA LA DERECHA
En las dos alternativas de asimetría, hacia la izquierda y hacia la derecha, se verifica

que:
 Las tres medidas no coinciden.
 El Modo está ubicado en el punto del eje de las abscisas que corresponde a la al-
tura máxima en la gráfica.
 La Mediana está ubicada de tal modo que la superficie interior que queda a un la-
do de ella (sombreada) es igual a la superficie que queda al otro lado (en blanco).
Conclusión:
a. Si existe simetría perfecta, x  Me  Mo
b. Si existe asimetría hacia la izquierda, x < Me < Mo
c. Si existe asimetría hacia la derecha, x > Me > Mo
Sobre la base de esta situación, el matemático inglés Pearson enunció la siguiente fórmu-
la empírica que relaciona las tres medidas, considerándose a ésta una fórmula empírica porque
no tiene demostración teórica:

x  Mo  3 x  Me 
A partir de la relación de Pearson, es posible construir una forma de evaluar el grado de
asimetría de una distribución por medio de una de las siguientes medidas:
As1 
x  Mo
, o bien As 

3 x  Me 
Sx 2 S
x
Los diferentes resultados de las medidas de asimetría conducen al siguiente análisis:
 Si en una distribución de frecuencias en particular las medidas coinciden, los valores

que corresponden a As1 y As2 son iguales a cero por lo que el grado de asimetría de
esa distribución es nulo y, por ende, la distribución es perfectamente simétrica.
 En una distribución diferente, si la media aritmética fuera menor que la mediana o
que el modo, tendríamos una asimetría hacia la izquierda. En ese caso el resultado
Estadística I 74
particular de las medidas As1 y As2 es negativo y por consiguiente se dice que la asi-
metría es hacia la izquierda o negativa.
 Si, en cambio, la media aritmética es mayor que la mediana o que el modo, el resulta-
do particular de As1 y As2 será positivo, y diremos que la distribución tiene una asi-
metría hacia la derecha o positiva.
En el ejemplo de las tres edades de los compradores de las tres concesionarias:
Concesionaria 1 2 3
x 42 42 42
Me 45 42,5 42
Mo 46 no existe 42
Sx 8,25 7,37 3,06
As1 -0,4848 -,- 0
As2 -1,0909 -0,2035 0
La edad de los compradores de la concesionaria 1 tiene asimetría negativa, lo mismo su-

cede con la concesionaria 2. En este caso, no se puede calcular As1 porque no existe el modo. La
edad de los compradores de la concesionaria 3 es simétrica.
En el caso de la distribución de frecuencias de los precios de los autos:
x  Mo 92,25  80,57
As    0,6673
1 S 17,50
x
As 
 

3 x  Me 392,25  90,35
 0,3257
2 S 17,50
x
La distribución de los precios de los autos de la concesionaria tienen asimetría positiva,

los coeficientes calculados no coinciden, esto es así porque se trata de una relación empírica.
En caso de no poder obtenerse los valores de la media aritmética o de la varianza (cuando

las distribuciones de frecuencias tienen algún intervalo abierto), las medidas de asimetría anterio-
res, no pueden calcularse. Aparece entonces la necesidad de construir una fórmula para medir la
asimetría con aquellas medidas que pueden ser obtenidas en distribuciones de frecuencias con
esas características. Es el caso de la medida de asimetría a partir de los cuartiles:
Asq 
Q3  Q2   Q2  Q1   Q3  Q1  2Q2
Q3  Q1 Q3  Q
1
Las diferentes medidas tienen, cada una, un conjunto de virtudes y de defectos que pue-
den ser tomados en cuenta para determinar cuándo resulta conveniente utilizar alguna desechan-
do las restantes:
a Si la distribución de frecuencias es simétrica o bastante simétrica, resulta conve-

niente utilizar la media aritmética por las propiedades que posee frente a la Mediana y
Estadística I 75
al Modo.
b Si la distribución de frecuencias es notoriamente asimétrica, es más apropiado utili-
zar o la Mediana o el Modo, ya que ambas no se encuentran afectadas por valores ex-
tremos del conjunto de datos como sí lo está la media aritmética.
Si bien no pueden establecerse en forma dogmática límites para las medidas de asimetría,
una manera de orientar a quienes trabajan en el tema, es mediante las siguientes sugerencias:
 si  0,20  As  0,20 conviene utilizar la media aritmética.

 si As | 0,20 | no conviene utilizar la media aritmética.
La Curtosis es el grado de apuntamiento de una distribución, normalmente se toma en re-

lación a la distribución normal.
a) Leptocúrtica: distribución que presenta un apuntamiento relativo alto

b) Platicúrtica: distribución achatada
c) Mesocúrtica: distribución normal
a) Leptocúrtica b) Platicúrtica c) Mesocúrtica
Una medida de la curtosis empleada es:
4
x x
  iS 
k  R4  
x 
n
a) Leptocúrtica: k > 3
b) Platicúrtica: k < 3
c) Mesocúrtica: k = 3
Otra medida de curtosis está basada en los cuartiles y percentiles:
Rq
k
P90  P10
7. MOMENTOS
Los momentos son cálculos que se realizan con los valores de una variable y que
Estadística I 76
conducen a resultados específicos y particulares para cada conjunto de valores.
Se reconoce la existencia de tres tipos diferentes de momentos:

xir
a) los momentos ordinarios de orden r, de la forma r  
n
r
b) los momentos centrados de orden r, de la forma r    x  x

 i 
, denominados así
n
porque al efectuarse la diferencia entre todos los valores de la variable y su media
aritmética se produce una transformación de los valores de tal naturaleza que su nueva
media resulta igual a cero.
r
 x x
 i 
 S  
c) los momentos reducidos de orden r de la forma Rr   x  , denominados
n
así porque al dividirse todos los valores de la variable por el desvío estándar se produ-
ce una reducción en su unidad de medida.
Si se observa con detenimiento las fórmulas de los momentos, se podrá verificar que exis-
ten relaciones entre ellos. Por ejemplo
 Respecto de los momentos ordinarios:

 xi0
 el de orden cero   1
0 n
 xi1 
 el de primer orden, 1    es la media aritmética x

 n 
 
 Respecto de los momentos centrados:

 1 
 el de orden uno es igual a


cero  1   xi  x
  

0

n 
 
 el de orden dos es la variancia y (de acuerdo con la demostración efectuada a

través de la fórmula de trabajo) es igual al momento ordinario de orden dos me-
nos el momento ordinario de orden uno al cuadrado, es decir que
 xi  x 
2 2
 xi2   xi 
2
S 
x       2
2 1
n n  n 
 
8. VARIABLE ESTANDARIZADA
La variable estandarizada es una variable que se obtiene a partir de una transfor-

x A
mación algebraica muy particular, ya que adopta la forma ui  i donde A  x y c  S x ,
c
Estadística I 77
xi  x
por lo que finalmente zi  (tradicionalmente se reserva el símbolo zi para la variable es-
Sx
tandarizada).
Mide la desviación de la media en unidades de desvío estándar, sus cantidades son adi-
mensionales, nos ofrece información de la posición relativa de cualquier observación dentro de
una distribución de frecuencias y es muy útil para comparar con otras distribuciones de frecuen-
cias.
La variable estandarizada es adecuada para identificar valores atípicos. Como regla gene-
ral, la variable estandarizada es atípica si es menor a – 3.
Para obtener la media de zi hacemos

 xi  x 
 zi    S x  1 1
z
n n

n Sx
  xi  x .
Como esta última expresión es igual a cero (por la segunda propiedad de la media aritmé-
tica), resulta ser z  0 .
Para calcular la varianza de zi, se procede del siguiente modo:
2

1 2 1 x  x  
S z2    zi  z    i   0 
n n  S x  
1 1  2 1 2
 2
Sx n
  xi  x 
 
Sx2
Sx  1
La transformación se califica como muy particular porque sin importar cuánto valen tanto
los valores de la variable xi como su media aritmética y su desvío estándar, la media y la va-
riancia de zi serán siempre iguales a cero y a uno, respectivamente.
PREGUNTAS TEORICAS
A) En una serie de valores diferentes que tienen signo negativo ¿Cómo es la varianza?
a) mayor que cero
b) menor que cero
c) igual a cero
B) Un aumento en el coeficiente de variación, ¿a qué puede deberse?

a) a un aumento en el valor de la varianza
b) a un aumento en el valor de la media aritmética
c) a una disminución en el valor de la varianza
Estadística I 78
C) Observe las varianzas siguientes e indique cómo son entre sí en términos generales
V1  1   xi  x V2  1  xi  Mo

2 2
n n
a) V1 > V2
b) V1 < V2
c) V1 = V2

Unidad 4 - Medidas de Dispersión

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Unidad 4 - Medidas de Dispersión

Cargado por

Copyright:

Formatos disponibles

Estadística I 60

UNIDAD IV: MEDIDAS DE DISPERSIÓN Y OTRAS MEDIDAS RESUMEN

Las características que describen un conjunto de datos son:

Como vemos los conjuntos de datos pueden tener:

La dispersión es la cantidad de variación, desperdigamiento o diseminación en los datos.

Existen varias Medidas de dispersión. Ellas son:

2. RANGO. RANGO SEMI-INTERCUARTÍLICO.

El Rango fue presentado originalmente en el tema Distribución de Frecuencias y se defi-

Es la diferencia entre el mayor y el menor valor de un conjunto ordenado de datos.

El Rango de las edades en las tres concesionarias es:

R1 = 56 - 26 = 30 años R2 = 52 - 32 = 20 años R3 = 46 - 36 = 10 años

El Rango de los precios de los automóviles, ya calculado para construir la distribución de

rango semi - intercuartílico indica una mayor o menor dispersión.

En la Concesionaria 1 el rango semi – intercuartílico de la edad de los compradores es:

El Rango semi-intercuartílico de los precios de los automóviles, es:

El Rango semi-intercuartílico resuelve alguna dificultad que tenía el Rango R, y mantiene

Para datos agrupados, la formula es la siguiente:

En el caso de los precios de los autos

4. VARIANZA Y DESVÍO ESTÁNDAR. CÁLCULO A PARTIR DE DATOS

y para datos agrupados:

Por consiguiente, la varianza (y el desvío estándar) mide como se alejan, en prome-

les de $), los cálculos serían:

El Desvío o desviación estándar (o típica) (Sx) para datos no agrupados:

y para datos agrupados:

En el ejemplo de las edades de los compradores de la concesionaria 1 el desvío estándar

En la concesionaria 2 el desvío estándar es de 7,37 años y en la concesionaria 3 de 3,06

concesionaria 3 son menos dispersas.

S  S2  306,34  17,50 mil $

La fórmula anterior es para datos no agrupados, para datos agrupados:

1º La variancia de un conjunto definido de datos es un valor constante mayor o igual a

2º La variancia de una constante es igual a cero. Esta propiedad se demuestra de la siguiente

4º Variancia de variables transformadas algebraicamente:

En el caso de la Concesionaria 1, la varianza de la edad media de los compradores

 di  d    xi  A x  A   xi  A  x  A   xi  x 

En el caso de la Concesionaria 1, la varianza de la edad media de los compradores

En el caso de la Concesionaria 1, la varianza de la edad media de los compradores

d Varianza de la suma o de la diferencia de dos variables:

Como resultado de esta última demostración se verifica que la variancia de la

ii Caso de la diferencia: Partiendo de la existencia de dos variables xi e yi, cuyas me-

con lo cual se verifica que la variancia de la diferencia de dos variables es la suma de

5º Media aritmética de varianzas. Supongamos que dos conjuntos de n1 y n2 números (o dos

5. DISPERSIÓN ABSOLUTA Y RELATIVA: COEFICIENTE DE VARIACIÓN.

Pero si deseamos comparar las dispersiones de dos (o más) distribuciones, la varianza y el

Por consiguiente, para efectuar comparaciones respecto de la dispersión de varias distri-

En el siguiente ejemplo se podrá verificar este hecho particular:

Con esos datos se calculan ambos coeficientes de variación:

En el caso de la distribución de frecuencias relativa de los precios de los autos vendidos,

6. FORMA. ASIMETRÍA. RELACIÓN EMPÍRICA DE PEARSON ENTRE LAS

La asimetría es el grado de desviación que posee una distribución hacia la derecha o

En el caso de una distribución de frecuencias con histograma absolutamente simétrico, el

ASIMETRÍA HACIA LA IZQUIERDA ASIMETRÍA HACIA LA DERECHA

En las dos alternativas de asimetría, hacia la izquierda y hacia la derecha, se verifica

 Si en una distribución de frecuencias en particular las medidas coinciden, los valores

En el ejemplo de las tres edades de los compradores de las tres concesionarias:

La edad de los compradores de la concesionaria 1 tiene asimetría negativa, lo mismo su-

En el caso de la distribución de frecuencias de los precios de los autos:

La distribución de los precios de los autos de la concesionaria tienen asimetría positiva,

En caso de no poder obtenerse los valores de la media aritmética o de la varianza (cuando

a Si la distribución de frecuencias es simétrica o bastante simétrica, resulta conve-

 si  0,20  As  0,20 conviene utilizar la media aritmética.

La Curtosis es el grado de apuntamiento de una distribución, normalmente se toma en re-

a) Leptocúrtica: distribución que presenta un apuntamiento relativo alto

a) Leptocúrtica b) Platicúrtica c) Mesocúrtica