Está en la página 1de 18

Introducción a la Estadística 60

UNIDAD IV: MEDIDAS DE DISPERSIÓN Y OTRAS MEDIDAS RESUMEN

1. CONCEPTO Y CARACTERÍSTICAS.

Las características que describen un conjunto de datos son:


 Posición
 Dispersión
 Forma

Como vemos los conjuntos de datos pueden tener:


 Diferentes medidas de tendencia central y diferentes medidas de dispersión
 Iguales medidas de tendencia central y diferentes medidas de dispersión

Esto significa:
 que las medidas de posición por sí solas no son suficientes para determinar las
características de un conjunto de datos.
 que se requiere de una medida adicional que permita calcular el alejamiento de los
valores de la variable respecto de algún valor de referencia.
Para comprender cuál es la utilidad de las Medidas de Dispersión volveremos a los ejem-
plos de las edades de 6 los compradores de autos de tres concesionarias diferentes de la ciudad,
obteniéndose la siguiente información:

1 2 3
Elemento Edad Elemento Edad Elemento Edad
𝑥 46 𝑥 49 𝑥 42
𝑥 26 𝑥 34 𝑥 42
𝑥 52 𝑥 52 𝑥 42
𝑥 46 𝑥 32 𝑥 46
𝑥 44 𝑥 45 𝑥 44
𝑥 38 𝑥 40 𝑥 36

En el ejemplo, una simple observación permite verificar que, si bien las medias aritméti-
cas de las tres concesionarias son idénticas, provienen de conjuntos de datos completamente di-
ferentes: 1 = 42; 2 = 42 y 3 = 42
Introducción a la Estadística 61

Así surge la necesidad de calcular las medidas de dispersión para ampliar adecuadamen-
te la información referida al conjunto de datos bajo estudio.

La dispersión es la cantidad de variación, desperdigamiento o diseminación en los datos.


Puede medirse en términos de la diferencia entre dos valores seleccionados de la variable.
Es el grado en que los datos tienden a extenderse alrededor de un valor medio.

Existen varias medidas de dispersión. Ellas son:


 Rango
 Rango semi -intercuartílico
 Desvío medio
 Varianza
 Desvío estándar

2. RANGO. RANGO SEMI-INTERCUARTÍLICO.

El Rango fue presentado originalmente en el tema Distribución de Frecuencias y se defi-


nió como la diferencia entre los valores extremos del conjunto de datos luego de ordenados es-
tos. Es decir que 𝑅 = 𝑥 − 𝑥

Es la diferencia entre el mayor y el menor valor de un conjunto ordenado de datos.

El Rango de las edades en las tres concesionarias es:

R1 = 56 - 26 = 30 años R2 = 52 - 32 = 20 años R3 = 46 - 36 = 10 años

Esta medida nos muestra que la diferencia de edad entre el comprador más viejo y el más
joven es de 30 años en la concesionaria 1, 20 años en la concesionaria 2 y 10 años en la conce-
sionaria 3.

El Rango de los precios de los automóviles, ya calculado para construir la distribución de


frecuencias es de 81,52 mil $.

El Rango es muy sencillo de calcular, lo cual constituye una ventaja, pero a su vez tiene
desventajas que lo hacen desaconsejable como medida de dispersión:
 Para calcularlo no se toma como referencia ningún valor considerado central.
 No es factible su cálculo en una distribución de frecuencias.
 Es inadecuado como medida de dispersión si uno o ambos valores son observaciones
extremas.

El Rango semi-intercuartílico (𝑹𝒒 ), es una medida que se calcula utilizando dos de los
tres cuartiles conocidos, Q1 y Q3, a través de la siguiente fórmula:

𝑄 −𝑄
𝑅 =
2

cuyo resultado mide la distancia promediada entre dos medidas de posición particulares. Un ma-
Introducción a la Estadística 62

yor o menor valor de 𝑅 indica una mayor o menor distancia entre los dos cuartilos. Se puede
decir que es la media de la extensión del 50 % central de los datos. Un mayor o menor valor del
rango semi - intercuartílico indica una mayor o menor dispersión.

En la Concesionaria 1 el rango semi – intercuartílico de la edad de los compradores es:

𝑄 −𝑄 46 − 38
𝑅 = = = 4 𝑎ñ𝑜𝑠
2 2

Esto nos indica que la diferencia de edades promedio del 50 % central de los comprado-
res es de 4 años.

El Rango semi-intercuartílico de los precios de los automóviles, es:

𝑄 −𝑄 104 − 78,26
𝑅 = = = 12,87 𝑚𝑖𝑙 $
2 2

Lo que nos muestra que la diferencia de precios promedio del 50 % central de los autos
vendidos es de $ 12,87 mil.

El Rango semi-intercuartílico resuelve alguna dificultad que tenía el Rango R, y mantiene


vigente otras.

Ventajas
 Puede ser calculada en cualquier distribución de frecuencias.
 Al no depender de los puntos medios (los xi no aparecen en su fórmula) puede calcu-
larse en los casos de distribuciones de frecuencias con intervalos abiertos.
 Evita el problema de los valores extremos de los datos.
 Es fácil de calcular.

Desventajas
 Continúa siendo una medida que no toma como referencia un valor central
 Sólo mide la media de la distancia entre Q1 y Q3 y no la forma en que están distribui-
dos los datos.

3. DESVÍO MEDIO.

Una de las posibilidades más interesantes para medir la dispersión surge cuando se piensa
en que se podrían aprovechar los desvíos de cada uno de los valores de la variable respecto de la
media aritmética para construir una medida, en especial porque los desvíos constituyen una ma-
nera natural de medir el alejamiento de los valores de la variable respecto de un valor central. Sin
embargo, la segunda propiedad de la media aritmética dice que la suma de los desvíos se anula,
esto es,∑(𝑥 − 𝑥̅ ) = 0, lo cual prácticamente inhibe al desvío como herramienta apropiada para
medir la dispersión a menos que se encuentre una forma apropiada de evitar esa nulidad. El Des-
vío Medio aparece como una de esas alternativas y su fórmula es:
Introducción a la Estadística 63

∑|𝑥 − 𝑥̅ |
𝐷𝑀 =
𝑛

en la cual se observa que con el procedimiento de cálculo aplicado (sumar el valor absoluto de
los desvíos) se evita que el resultado final se anule y se obtiene esta nueva medida.

Edad
|𝑥 − 𝑥̅ |
xi
26 16
38 4 ∑|𝑥 − 𝑥̅ | 40
𝐷𝑀 = = = 6,67 𝑎ñ𝑜𝑠
44 2 𝑛 6
46 4
46 4
52 10
40

Para datos agrupados, la fórmula es la siguiente:

∑ 𝑓 |𝑥 − 𝑥̅ |
𝐷𝑀 =
𝑛

En el caso de los precios de los autos

Precios |𝑥 − 𝑥̅ |
𝑓 𝑥 𝑓 |𝑥 − 𝑥̅ |
(miles de $)
60 - 71,999 8 66 26,25 210
72 - 83,999 23 78 14,25 327,75
DM 
 f i xi  x  1.152  14,4 mil $
84 - 95,999 17 90 2,25 38,25 n 80
96 - 107,999 18 102 9,75 175,5
108 - 119,999 8 114 21,75 174
120 - 131,999 4 126 33,75 135
132 - 143,999 2 138 45,75 91,5
80 1.152,00

Ventaja:
 toma como referencia un valor central, en este caso la media aritmética

Desventaja:
 las barras de valor absoluto incorporadas en la fórmula complican su manejo algebrai-
co.
Introducción a la Estadística 64

4. VARIANZA Y DESVÍO ESTÁNDAR. CÁLCULO A PARTIR DE DATOS


AGRUPADOS Y NO AGRUPADOS. PROPIEDADES.

El Desvío Medio considera al desvío como base para sus cálculos, pero cuenta con la
desventaja de poseer barras de valor absoluto que dificultan notoriamente el trabajo algebraico.
Para corregir esta situación existe otra alternativa que también aprovecha los desvíos para cons-
truir una medida pero que evita la utilización de las barras de valor absoluto.

Recordando la tercera propiedad de la media aritmética(∑(𝑥 − 𝑥̅ ) ), se construye la


cuarta medida de dispersión, denominada Varianza, cuya fórmula para datos no agrupados es

∑(𝑥 − 𝑥̅ )
𝑆 =
𝑛

y para datos agrupados:

∑(𝑥 − 𝑥̅ ) 𝑓
𝑆 =
𝑛

Puede verse claramente que si bien los desvíos continúan siendo los elementos básicos
para el cálculo de la medida de dispersión, se ha utilizado el artificio de elevarlos al cuadrado,
por lo que todos se convierten en positivos y su suma ya no se anula.

Por consiguiente, la varianza (y el desvío estándar) mide como se alejan, en prome-


dio, los valores de la variable respecto de su propia media aritmética.

El cálculo de la varianza para las edades de los compradores de la Concesionaria 1 es el


siguiente:

Edad
(𝑥 − 𝑥̅ ) (𝑥 − 𝑥̅ )
xi
26 -16 256 ∑(𝑥 − 𝑥̅ ) 408
-4 16 𝑆 = = = 68 𝑎ñ𝑜𝑠
38 𝑛 6
44 2 4
46 4 16
46 4 16
52 10 100
0 408

Con los cálculos de las varianzas se verifican que da un resultado excesivo respecto de las
anteriores medidas de dispersión, y eso se debe a que el artificio de elevar al cuadrado los des-
víos modifica su escala de trabajo.
Introducción a la Estadística 65

Para datos agrupados, tomando como ejemplo los precios de los autos vendidos y recor-
dando que el precio medio es de 92,25 mil pesos, los cálculos serían:

Precios
𝑓 𝑥 𝑥 − 𝑥̅ (𝑥 − 𝑥̅ ) (𝑥 − 𝑥̅ ) 𝑓
(miles de $)
60 - 71,999 8 66 -26,25 689,06 5.512,50
72 - 83,999 23 78 -14,25 203,06 4.670,44
2
S 
 
2
 x i  x fi

84 - 95,999 17 90 -2,25 5,06 86,06 x n
96 - 107,999 18 102 9,75 95,06 1.711,13 24.507
108 - 119,999 8 114 21,75 473,06 3.784,50   306,34 mil $ 2
80
120 - 131,999 4 126 33,75 1.139,06 4.556,25
132 - 143,999 2 138 45,75 2.093,06 4.186,13
80 24.507,00

Las medidas que hemos calculado hasta ahora arrojan resultados expresados en la misma
unidad de medida que los datos originales. Para la varianza los resultados están expresados en las
unidades de medida de la variable al cuadrado, estas unidades no son intuitivamente claras ni
fáciles de interpretar, por eso tenemos que hacer un cambio para calcular una medida de disper-
sión útil y que no acarree problemas con las unidades de medida. Esta medida es el desvío están-
dar, que es la raíz cuadrada de la varianza y está expresada en la misma unidad de medida que
los datos originales.

El Desvío o desviación estándar (o típica) (𝑺𝒙 ) para datos no agrupados:

∑(𝑥 − 𝑥̅ )
𝑆 = 𝑆 =
𝑛

y para datos agrupados:

∑(𝑥 − 𝑥̅ ) 𝑓 ∑(𝑥 − 𝑥̅ ) 𝑓
𝑆 = 𝑆 = =
∑𝑓 𝑛

En el ejemplo de las edades de los compradores de la concesionaria 1 el desvío estándar


es:

𝑆 = 𝑆 = √68 = 8,25 𝑎ñ𝑜𝑠

El desvío estándar nos indica que la variación alrededor de la edad promedio, de 42 años
es de 8,25 años en más y en menos (33,75 y 50,25 años).

En la concesionaria 2 el desvío estándar es de 7,37 años y en la concesionaria 3 de 3,06


Introducción a la Estadística 66

años. Esto nos muestra lo que ya habíamos observado, que las edades de los compradores de la
concesionaria 3 son menos dispersas.

En el ejemplo de los precios de los autos vendidos por la concesionaria el desvío estándar
es:

𝑆 = 𝑆 = 306,34 = 17,50 𝑚𝑖𝑙 $

El desvío estándar nos indica que la variación alrededor del precio promedio (92,25 mil
$) es de 17,50 mil$ en más y en menos (entre 74,75 y 109,75 mil $).

Un símbolo general para indicar a la varianza es la letra V. De modo que, por ejemplo, el
símbolo 𝑉(𝑥 )indica la varianza de la variable 𝒙𝒊 . Asimismo, los símbolos para la varianza
poblacional y muestral varían entre sí del mismo modo que varían los símbolos para las medidas
de posición. En este caso los símbolos 𝑆 y 𝑆 se reservan para la varianza y el desvío estándar
muestrales, mientras que para los símbolos poblacionales se utiliza la letra griega sigma, que
señalan, respectivamente, a la varianza (𝜎 ) y al desvío estándar (𝜎 ).

Las fórmulas que vimos se llaman fórmulas definicionales, pero no siempre son prácti-
cas. La fórmula de trabajo se obtiene mediante un conjunto de procesos algebraicos y permite
encontrar un procedimiento diferente, y en algunos casos más conveniente, para calcular la va-
rianza. Se parte de la fórmula inicial y se desarrolla el cuadrado del binomio que se encuentra
entre paréntesis, con el siguiente resultado:

∑(𝑥 − 𝑥̅ ) ∑(𝑥 − 2𝑥 𝑥̅ + 2𝑥̅ ) ∑𝑥 − 2𝑥̅ ∑𝑥 + ∑ 𝑥̅ ∑𝑥 ∑𝑥 𝑛𝑥̅


𝑆 = = = = − 2𝑥̅ +
𝑛 𝑛 𝑛 𝑛 𝑛 𝑛
∑𝑥 ∑𝑥 ∑𝑥
= − 2𝑥̅ 𝑥̅ + 𝑥̅ = − 2𝑥̅ + 𝑥̅ = − 𝑥̅
𝑛 𝑛 𝑛

La fórmula anterior es para datos no agrupados, para datos agrupados:


𝑆 = − 𝑥̅

PROPIEDADES DE LA VARIANZA
La varianza es una medida de dispersión muy utilizada. Cuenta con algunas propiedades impor-
tantes:
1º La varianza de un conjunto definido de datos es un valor constante mayor o igual a ce-
ro. Esta propiedad, por un lado, tiene similar connotación y objetivo que la primera propie-
dad de la media aritmética, y por el otro, es fácilmente comprensible si se observa la fórmula
de la varianza que está compuesta por la sumatoria de valores elevados al cuadrado.

2º La varianza de una constante es igual a cero. Esta propiedad se demuestra de la siguiente


manera: sea una constante 𝑎 cuya media 𝑎 = 𝑎 Si se desea calcular la varianza de 𝑎, se aplica
Introducción a la Estadística 67

la fórmula correspondiente:

∑(𝑎 − 𝑎) 0
𝑆 = = =0
𝑛 𝑛

3º La varianza es una medida mínima si se la compara con cualquier otra similar que se
calcule tomando como referencia alguna medida de posición diferente de la media
aritmética. Esta propiedad no requeriría demostración alguna en tanto se tenga presente la
tercera propiedad de la media aritmética, que demostró que la sumatoria de los desvíos al
cuadrado entre los valores de la variable y la media aritmética es un mínimo, lo cual equivale
a decir que si los desvíos se calcularan respecto de cualquier otro valor que no fuera la media
aritmética, la sumatoria de ellos al cuadrado daría un resultado mayor.

4º Varianza de variables transformadas algebraicamente:

a Si a todos los valores de una variable les sumamos (o restamos) un valor constante y
arbitrario A, obtenemos una nueva variable cuya varianza será igual a la de la va-
riable original.

En el caso de la Concesionaria 1, la varianza de la edad media de los compradores


es de 68 años2. Para verificar esta propiedad tomemos un valor de A = 10, para construir
la nueva variable, que si se verifica esta propiedad la varianza de la nueva variable debe-
ría ser de 68 años2 (𝑆 = 𝑆 )

Concesionaria 1 (𝐴 = 10)

𝐸𝑑𝑎𝑑
𝑑 =𝑥 +𝐴 𝑑 − 𝑑̅ 𝑑 − 𝑑̅
𝑥

46 56 4 16 2
S 

 d d
i
2  408  68 años 2
26 36 -16 256 d n 6
52 62 10 100
46 56 4 16
44 54 2 4
38 48 -4 16
312 408

Para demostrar esta propiedad, sea xi una variable que tiene una media 𝑥̅ y una va-
rianza 𝑆 , y sea 𝐴 un valor arbitrario. Construimos la variable𝑑 = 𝑥 ± 𝐴, y recordando
que, se obtiene

∑ 𝑑 − 𝑑̅ ∑[(𝑥 ± 𝐴) − (𝑥̅ ± 𝐴)] ∑(𝑥 ± 𝐴 − 𝑥̅ ± 𝐴) ∑(𝑥 − 𝑥̅ )


𝑆 = = = = =𝑆
𝑛 𝑛 𝑛 𝑛
Introducción a la Estadística 68

b Si todos los valores de una variable son multiplicados (o divididos) por un valor cons-
tante y arbitrario 𝒄, obtenemos una nueva variable cuya varianza será igual a la de la
variable original multiplicada o dividida por 𝒄 al cuadrado.

En el caso de la Concesionaria 1, la varianza de la edad media de los compradores


es de 68 años2. Para verificar esta propiedad tomemos un valor de 𝑐 = 1,5, para construir
la nueva variable, que si se verifica esta propiedad la varianza de la nueva variable debe-
ría ser de 153 años2 (𝑆 = 𝑐 𝑆 )

Concesionaria 1 (c = 1,5)
𝐸𝑑𝑎𝑑
𝑥 𝑑 =𝑥𝑐 𝑑 − 𝑑̅ 𝑑 − 𝑑̅

46
26
69
39
6
-24
36
576 2
S  i

 d d 2  918  153 años 2
52 78 15 225 d n 6
46 69 6 36
44 66 3 9
38 57 -6 36
378 918

Para demostrar esta propiedad, sea 𝑥 una variable que tiene una media 𝑥̅ y una va-
rianza 𝑆 , y sea 𝑐 un valor arbitrario. Construimos la variable 𝑑 = 𝑐𝑥 (en este caso re-
solvemos la propiedad sólo aplicando el caso del producto, pero resulta sencillo ver que
la demostración es equivalente si aplicáramos el caso del cociente), y recordando que
𝑑̅ = 𝑐 𝑥, se obtiene

∑ 𝑑 − 𝑑̅ ∑(𝑐𝑥 − 𝑐 𝑥̅ ) ∑𝑐 (𝑥 − 𝑥̅ ) ∑(𝑥 − 𝑥̅ )
𝑆 = = = =𝑐 =𝑐 𝑆
𝑛 𝑛 𝑛 𝑛

c Una transformación algebraica que combina los casos anteriores, parte de una variable xi
que tiene una media 𝑥̅ y una varianza 𝑆 , y de dos valores arbitrarios, 𝐴 y 𝑐. Se construye
x A xA
una variable d  i , y recordando que d  .
i c c

En el caso de la Concesionaria 1, la varianza de la edad media de los compradores


es de 68 años2. Para verificar esta propiedad tomemos un valor de A = 10 y c = 1,5, para
construir la nueva variable, que si se verifica esta propiedad la varianza de la nueva va-
S2
riable debería ser de 30,22 años2 Sd2  2x .
c
Introducción a la Estadística 69

Concesionaria 1 (A = 10 y c = 1,5)
𝐸𝑑𝑎𝑑 𝑥 −𝐴
𝑢 = 𝑢 − 𝑢 (𝑢 − 𝑢 )
𝑥 𝑐
46 24,00 2,67 7,11
26 10,67 -10,67 113,78
52
46
28,00
24,00
6,67
2,67
44,44
7,11 2
S 

 di  d 2  181,33  30,22 años 2

44 22,67 1,33 1,78


d n 6
38 18,67 -2,67 7,11
181,33
128

Demostración:

Sd2 

 di  d 2  1   x i
 A   x  A 

2
 
1  x i  A  x  A 
2
1 x x
 2 i
 2  S2x
n    
n c   c  c2 n c n c2

d Varianza de la suma o de la diferencia de dos variables:

i Caso de la suma: Supongamos la existencia de dos variables, 𝑥 e 𝑦 , ambas con sus


medias (𝑥̅ e 𝑦) y sus varianzas (𝑆 y 𝑆 ) conocidas, y construyamos con ellas la va-
riable suma 𝑑 = 𝑥 + 𝑦 . Recordando que 𝑑̅ = 𝑥 + 𝑦, se busca calcular la varianza de
𝑑.
∑ 𝑑 − 𝑑̅ ∑[(𝑥 + 𝑦 ) − (𝑥̅ + 𝑦)] ∑[(𝑥 − 𝑥̅ ) + (𝑦 − 𝑦)]
𝑆 = = =
𝑛 𝑛 𝑛
∑[(𝑥 − 𝑥̅ ) + (𝑦 − 𝑦) + 2(𝑥 − 𝑥̅ )(𝑦 − 𝑦)]
=
𝑛
∑(𝑥 − 𝑥̅ ) + ∑(𝑦 − 𝑦) + 2∑(𝑥 − 𝑥̅ )(𝑦 − 𝑦)
=
𝑛
∑(𝑥 − 𝑥̅ ) ∑(𝑦 − 𝑦) 2∑(𝑥 − 𝑥̅ )(𝑦 − 𝑦)
= + +
𝑛 𝑛 𝑛
= 𝑉(𝑥) + 𝑉(𝑦) + 2𝐶𝑜𝑣(𝑥, 𝑦) == 𝑆 + 𝑆 + 2𝑆

Como resultado de esta última demostración se verifica que la varianza de la


suma de dos variables es igual a la suma de sus varianzas más dos veces
𝑪𝒐𝒗(𝒙, 𝒚) símbolo de la covarianza entre x e y (también simbolizado con 𝑺𝒙𝒚 ).
Luego:

∑(𝑥 − 𝑥̅ )(𝑦 − 𝑦)
𝐶𝑜𝑣(𝑥, 𝑦) = 𝑆 =
𝑛

La covarianza mide la relación promedio existente entre dos variables 𝒙𝒊 e 𝒚𝒊 , a tra-


vés de la suma de los productos de los desvíos de ambas variables entre sí y es una
consecuencia de la demostración de la varianza de la suma de dos variables.

ii Caso de la diferencia: Partiendo de la existencia de dos variables 𝑥 e 𝑦 , cuyas me-


Introducción a la Estadística 70

dias y varianzas son conocidas, se construye la variable diferencia 𝑑 = 𝑥 − 𝑦 . Si aho-


ra se calcula la varianza de 𝑑 :

∑ 𝑑 − 𝑑̅ ∑[(𝑥 − 𝑦 ) − (𝑥̅ − 𝑦)] ∑[(𝑥 − 𝑥̅ ) − (𝑦 − 𝑦 )]


𝑆 = = =
𝑛 𝑛 𝑛
∑[(𝑥 − 𝑥̅ ) + (𝑦 − 𝑦) − (𝑥 − 𝑥̅ )(𝑦 − 𝑦)]
=
𝑛
∑(𝑥 − 𝑥̅ ) + ∑(𝑦 − 𝑦) − 2∑(𝑥 − 𝑥̅ )(𝑦 − 𝑦)
=
𝑛
∑(𝑥 − 𝑥̅ ) ∑(𝑦 − 𝑦) 2∑(𝑥 − 𝑥̅ )(𝑦 − 𝑦)
= + − = 𝑉(𝑥) + 𝑉(𝑦) − 2𝐶𝑜𝑣(𝑥, 𝑦)
𝑛 𝑛 𝑛
= 𝑆 + 𝑆 − 2𝑆

con lo cual se verifica que la varianza de la diferencia de dos variables es la suma de


sus varianzas (como en el caso de la varianza de la suma de dos variables) menos dos
veces la covarianza entre las variables.

5. DISPERSIÓN ABSOLUTA Y RELATIVA: COEFICIENTE DE VARIACIÓN.

La varianza (o el desvío estándar) es una medida de dispersión que indica de qué modo se
alejan, en promedio, los valores de una variable respecto de una medida de tendencia central
convencional, en este caso la media aritmética. Sirve para medir el alejamiento interno prome-
dio de los valores de una variable respecto de su propia medida de tendencia central. En ese sen-
tido, resulta ser una medida de dispersión absoluta.

Pero si deseamos comparar las dispersiones de dos (o más) distribuciones, la varianza y el


desvío estándar no resultan ser medidas apropiadas.

Por consiguiente, para efectuar comparaciones respecto de la dispersión de varias distri-


buciones de frecuencias, aparece como necesario la propuesta de calcular una medida de dis-
persión relativa.

Dispersión absoluta
Medida de tendencia central

Cuando utilizamos como medida de dispersión absoluta el desvío estándar y como medi-
da de tendencia central la media aritmética obtenemos el Coeficiente de Variación (CV) cuya
expresión matemática es

𝑆
𝐶𝑉 = ∗ 100 (𝑆𝑒 𝑒𝑥𝑝𝑟𝑒𝑠𝑎 𝑒𝑛 𝑓𝑜𝑟𝑚𝑎 𝑝𝑜𝑟𝑐𝑒𝑛𝑡𝑢𝑎𝑙)
𝑥̅
medida ésta que se encuentra desprovista de unidades porque relaciona el desvío estándar con la
media aritmética y ambas tienen la misma unidad de medida, que, de esa forma, se simplifica.
Resulta sencillo verificar que el Coeficiente de Variación es una medida de la dispersión de un
conjunto de datos expresada como porcentaje de su media aritmética.

Es muy útil para comparar distribuciones en las que las muestras son de tamaño diferente.
Introducción a la Estadística 71

En el siguiente ejemplo se podrá verificar este hecho particular:


 En la Concesionaria 1 la edad de los compradores es: 46, 26, 52, 46, 44 y 38,
con una edad promedio de 42 años y un desvío estándar de 8,25 años.
 Si tomamos una muestra de seis compradores en la Concesionaria 5, con los
siguientes resultados: 46, 30, 57, 54, 44 y 48. Con una edad promedio de 46,5 años y un
desvío estándar de 8,64 años

Con esos datos se calculan ambos coeficientes de variación:

8,25 8,64
CV1  100  19,64% CV5  100  18,58%
42 46,5

Los resultados obtenidos permiten señalar que, si bien la variable Concesionaria 1 tiene
menor dispersión absoluta que la Concesionaria 5, (porque el desvío estándar es menor), tiene
mayor dispersión relativa (porque CV1 es mayor que CV5).

En el caso de la distribución de frecuencias de los precios de los autos vendidos, el Coefi-


ciente de variación se calcula aplicando los resultados obtenidos para el desvío estándar y la me-
dia aritmética:

17,50
𝐶𝑉 = ∗ 100 = 18,97%
92,25

6. FORMA. ASIMETRÍA. RELACIÓN EMPÍRICA DE PEARSON ENTRE LAS


MEDIDAS DE POSICIÓN. CURTOSIS

La forma es una de las características que define al conjunto de datos. Las medidas de
tendencia central y de posición: media aritmética, mediana y modo, tienen entre sí una relación
sumamente interesante, que depende de la forma que adopta el histograma correspondiente.

La asimetría es el grado de desviación que posee una distribución hacia la derecha o


hacia la izquierda, lo que puede verificarse visualmente mediante una observación del histo-
grama o del polígono de frecuencias.

En el caso de una distribución de frecuencias con histograma absolutamente simétrico, el


polígono de frecuencias puede imaginarse, en un caso límite, como una curva continua que tiene
la forma que se muestra en el gráfico que se presenta más abajo.
Introducción a la Estadística 72

En este caso se ve claramente que coinciden las tres medidas. Si la simetría es perfecta,
las medidas de tendencia central y de posición coinciden.

Pero si el gráfico del histograma condujera a un polígono de frecuencias que diera lugar a
una forma asimétrica, se vería que las tres medidas no coinciden entre sí y que su ubicación de-
penderá de la forma final de la curva, es decir, dependerá de si el valor correspondiente al Modo
está ubicado más hacia la derecha o más hacia la izquierda.

Distribución asimétrica hacia la izquierda

Distribución asimétrica hacia la derecha

En las dos alternativas de asimetría, hacia la izquierda y hacia la derecha, se verifica


que:
 Las tres medidas no coinciden.
Introducción a la Estadística 73

 El Modo está ubicado en el punto del eje de las abscisas que corresponde a la al-
tura máxima en la gráfica.
 La Mediana está ubicada de tal modo que la superficie interior que queda a un la-
do de ella (sombreada) es igual a la superficie que queda al otro lado (en blanco).
Conclusión:
a. Si existe simetría perfecta, 𝑥̅ = 𝑀𝑒 = 𝑀𝑜
b. Si existe asimetría hacia la izquierda, 𝑥̅ < 𝑀𝑒 < 𝑀𝑜
c. Si existe asimetría hacia la derecha, 𝑥̅ > 𝑀𝑒 > 𝑀𝑜

Sobre la base de esta situación, el matemático inglés Pearson enunció la siguiente fórmu-
la empírica que relaciona las tres medidas, considerándose a ésta una fórmula empírica porque
no tiene demostración teórica:
𝑥̅ − 𝑀𝑜 = 3(𝑥̅ − 𝑀𝑒)

A partir de la relación de Pearson, es posible construir una forma de evaluar el grado de


asimetría de una distribución por medio de una de las siguientes medidas:

As1 
x  Mo
o bien, As 

3 x  Me 
Sx 2 S
x
Los diferentes resultados de las medidas de asimetría conducen al siguiente análisis:

 Si en una distribución de frecuencias en particular las medidas coinciden, los valores


que corresponden a As1 y As2 son iguales a cero por lo que el grado de asimetría de
esa distribución es nulo y, por ende, la distribución es perfectamente simétrica.
 En una distribución diferente, si la media aritmética fuera menor que la mediana o
que el modo, tendríamos una asimetría hacia la izquierda. En ese caso el resultado
particular de las medidas 𝐴𝑠 y 𝐴𝑠 es negativo y por consiguiente se dice que la asi-
metría es hacia la izquierda o negativa.
 Si, en cambio, la media aritmética es mayor que la mediana o que el modo, el resulta-
do particular de 𝐴𝑠 y 𝐴𝑠 será positivo, y diremos que la distribución tiene una asi-
metría hacia la derecha o positiva.

En caso de no poder obtenerse los valores de la media aritmética o de la varianza (cuando


las distribuciones de frecuencias tienen algún intervalo abierto), las medidas de asimetría anterio-
res, no pueden calcularse. Aparece entonces la necesidad de construir una fórmula para medir la
asimetría con aquellas medidas que pueden ser obtenidas en distribuciones de frecuencias con
esas características. Es el caso de la medida de asimetría a partir de los cuartiles:

(𝑄 − 𝑄 ) − (𝑄 − 𝑄 ) 𝑄 + 𝑄 − 2𝑄
𝐴𝑠 = =
𝑄 −𝑄 𝑄 −𝑄
Las diferentes medidas tienen, cada una, un conjunto de virtudes y de defectos que pue-
den ser tomados en cuenta para determinar cuándo resulta conveniente utilizar alguna desechan-
do las restantes:

a Si la distribución de frecuencias es simétrica o bastante simétrica, resulta conve-


Introducción a la Estadística 74

niente utilizar la media aritmética por las propiedades que posee frente a la Mediana y
al Modo.
b Si la distribución de frecuencias es notoriamente asimétrica, es más apropiado utili-
zar o la Mediana o el Modo, ya que ambas no se encuentran afectadas por valores ex-
tremos del conjunto de datos como sí lo está la media aritmética.

Si bien no pueden establecerse en forma dogmática límites para las medidas de asimetría,
una manera de orientar a quienes trabajan en el tema, es mediante las siguientes sugerencias:

 si −0,20 ≤ 𝐴𝑠 ≤ +0,20 conviene utilizar la media aritmética.


 si 𝐴𝑠 ≥ |0,20| no conviene utilizar la media aritmética.

La Curtosis es el grado de apuntamiento de una distribución, normalmente se toma en re-


lación a la distribución normal.

a) Leptocúrtica: distribución que presenta un apuntamiento relativo alto


b) Platicúrtica: distribución achatada
c) Mesocúrtica: distribución normal estándar (media igual a cero y varianza igual a 1)

Una medida de la curtosis empleada es:


̅

𝑘=𝑅 =
𝑛

a) Leptocúrtica: 𝑘 > 3
b) Platicúrtica: 𝑘 < 3
c) Mesocúrtica: 𝑘 = 3

Otra medida de curtosis está basada en los cuartiles y percentiles:

𝑅
𝑘=
𝑃 −𝑃

7. MOMENTOS
Introducción a la Estadística 75

Los momentos son cálculos que se realizan con los valores de una variable y que
conducen a resultados específicos y particulares para cada conjunto de valores.

Se reconoce la existencia de tres tipos diferentes de momentos:

a) los momentos ordinarios de orden r, de la forma: r  


xir
n

r   
r
 x  x
i 
b) los momentos centrados de orden r, de la forma: , denominados así
n
porque al efectuarse la diferencia entre todos los valores de la variable y su media
aritmética se produce una transformación de los valores de tal naturaleza que su nueva
media resulta igual a cero.
r
x x
 i
 S 


c) los momentos reducidos de orden r de la forma: Rr   x  , denominados
n
así porque al dividirse todos los valores de la variable por el desvío estándar se produ-
ce una reducción en su unidad de medida.

Si se observa con detenimiento las fórmulas de los momentos, se podrá verificar que exis-
ten relaciones entre ellos. Por ejemplo

 Respecto de los momentos ordinarios:


 xi0
 el de orden cero   1
0 n

1
x
 el de primer orden,   i
es la media aritmética 𝒙
1 n

 Respecto de los momentos centrados:

 el de orden uno es igual a cero  


 x  x   0
i
1

n 1

 el de orden dos es la varianza y (de acuerdo con la demostración efectuada a tra-


vés de la fórmula de trabajo)es igual al momento ordinario de orden dos menos
el momento ordinario de orden uno al cuadrado, es decir que

𝟐
∑(𝒙𝒊 − 𝒙)𝟐 ∑𝒙𝟐𝒊 ∑𝒙𝒊
𝑺𝟐𝒙 = = − = 𝜶𝟐 − 𝜶𝟐𝟏
𝒏 𝒏 𝒏

8. VARIABLE ESTANDARIZADA
Introducción a la Estadística 76

La variable estandarizada es una variable que se obtiene a partir de una transfor-


x A
mación algebraica muy particular, ya que adopta la forma d i  i donde A  x y c  Sx ,
c
x x
por lo que finalmente zi  i (tradicionalmente se reserva el símbolo zi para la variable es-
Sx
tandarizada).

Mide la desviación de la media en unidades de desvío estándar, sus cantidades son a di-
mensionales, nos ofrece información de la posición relativa de cualquier observación dentro de
una distribución de frecuencias y es muy útil para comparar con otras distribuciones de frecuen-
cias.

La variable estandarizada es adecuada para identificar valores atípicos. Como regla gene-
ral, la variable estandarizada es atípica si es menor a – 3 o mayor a 3.

Para obtener la media de 𝑧 hacemos

x x

 i 
 S 
z
z

n
i

n nS i

 x   1 1  x x 0
x

Como esta última expresión es igual a cero (por la segunda propiedad de la media aritmé-
tica), resulta ser z  0 .
Para calcular la varianza de 𝑧 , se procede del siguiente modo:

1 1 𝑥 − 𝑥̅ 1 1 1
𝑆 = (𝑧 − 𝑧̅) = −0 = ∑(𝑥 − 𝑥̅ ) = 𝑆 = 1
𝑛 𝑛 𝑆 𝑆 𝑛 𝑆

La transformación se califica como muy particular porque sin importar cuánto valen tanto
los valores de la variable xi como su media aritmética y su desvío estándar, la media y la va-
rianza de 𝒛𝒊 serán siempre iguales a cero y a uno, respectivamente.

PREGUNTAS TEÓRICAS SOBRE MEDIDAS DE DISPERSIÓN:


Introducción a la Estadística 77

A) En una serie de valores diferentes que tienen signo negativo ¿Cómo es la varianza?
a) mayor que cero
b) menor que cero
c) igual a cero

B) Un aumento en el coeficiente de variación, ¿a qué puede deberse?


a) a un aumento en el valor de la varianza
b) a un aumento en el valor de la media aritmética
c) a una disminución en el valor de la varianza

C) Observe las varianzas siguientes e indique cómo son entre sí en términos generales

𝟏 𝟏
𝑽𝟏 = ∑(𝒙𝒊 − 𝒙)𝟐 𝑽𝟐 = ∑(𝒙𝒊 − 𝑴𝒐)𝟐
𝒏 𝒏
a) V1>V2
b) V1< V2
c) V1= V2

También podría gustarte