Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1. CONCEPTO Y CARACTERÍSTICAS.
Esto significa:
que las medidas de posición por sí solas no son suficientes para determinar las
características de un conjunto de datos.
que se requiere de una medida adicional que permita calcular el alejamiento de los
valores de la variable respecto de algún valor de referencia.
Para comprender cuál es la utilidad de las Medidas de Dispersión volveremos a los ejem-
plos de las edades de 6 los compradores de autos de tres concesionarias diferentes de la ciudad,
obteniéndose la siguiente información:
1 2 3
Elemento Edad Elemento Edad Elemento Edad
𝑥 46 𝑥 49 𝑥 42
𝑥 26 𝑥 34 𝑥 42
𝑥 52 𝑥 52 𝑥 42
𝑥 46 𝑥 32 𝑥 46
𝑥 44 𝑥 45 𝑥 44
𝑥 38 𝑥 40 𝑥 36
En el ejemplo, una simple observación permite verificar que, si bien las medias aritméti-
cas de las tres concesionarias son idénticas, provienen de conjuntos de datos completamente di-
ferentes: 1 = 42; 2 = 42 y 3 = 42
Introducción a la Estadística 61
Así surge la necesidad de calcular las medidas de dispersión para ampliar adecuadamen-
te la información referida al conjunto de datos bajo estudio.
Esta medida nos muestra que la diferencia de edad entre el comprador más viejo y el más
joven es de 30 años en la concesionaria 1, 20 años en la concesionaria 2 y 10 años en la conce-
sionaria 3.
El Rango es muy sencillo de calcular, lo cual constituye una ventaja, pero a su vez tiene
desventajas que lo hacen desaconsejable como medida de dispersión:
Para calcularlo no se toma como referencia ningún valor considerado central.
No es factible su cálculo en una distribución de frecuencias.
Es inadecuado como medida de dispersión si uno o ambos valores son observaciones
extremas.
El Rango semi-intercuartílico (𝑹𝒒 ), es una medida que se calcula utilizando dos de los
tres cuartiles conocidos, Q1 y Q3, a través de la siguiente fórmula:
𝑄 −𝑄
𝑅 =
2
cuyo resultado mide la distancia promediada entre dos medidas de posición particulares. Un ma-
Introducción a la Estadística 62
yor o menor valor de 𝑅 indica una mayor o menor distancia entre los dos cuartilos. Se puede
decir que es la media de la extensión del 50 % central de los datos. Un mayor o menor valor del
rango semi - intercuartílico indica una mayor o menor dispersión.
𝑄 −𝑄 46 − 38
𝑅 = = = 4 𝑎ñ𝑜𝑠
2 2
Esto nos indica que la diferencia de edades promedio del 50 % central de los comprado-
res es de 4 años.
𝑄 −𝑄 104 − 78,26
𝑅 = = = 12,87 𝑚𝑖𝑙 $
2 2
Lo que nos muestra que la diferencia de precios promedio del 50 % central de los autos
vendidos es de $ 12,87 mil.
Ventajas
Puede ser calculada en cualquier distribución de frecuencias.
Al no depender de los puntos medios (los xi no aparecen en su fórmula) puede calcu-
larse en los casos de distribuciones de frecuencias con intervalos abiertos.
Evita el problema de los valores extremos de los datos.
Es fácil de calcular.
Desventajas
Continúa siendo una medida que no toma como referencia un valor central
Sólo mide la media de la distancia entre Q1 y Q3 y no la forma en que están distribui-
dos los datos.
3. DESVÍO MEDIO.
Una de las posibilidades más interesantes para medir la dispersión surge cuando se piensa
en que se podrían aprovechar los desvíos de cada uno de los valores de la variable respecto de la
media aritmética para construir una medida, en especial porque los desvíos constituyen una ma-
nera natural de medir el alejamiento de los valores de la variable respecto de un valor central. Sin
embargo, la segunda propiedad de la media aritmética dice que la suma de los desvíos se anula,
esto es,∑(𝑥 − 𝑥̅ ) = 0, lo cual prácticamente inhibe al desvío como herramienta apropiada para
medir la dispersión a menos que se encuentre una forma apropiada de evitar esa nulidad. El Des-
vío Medio aparece como una de esas alternativas y su fórmula es:
Introducción a la Estadística 63
∑|𝑥 − 𝑥̅ |
𝐷𝑀 =
𝑛
en la cual se observa que con el procedimiento de cálculo aplicado (sumar el valor absoluto de
los desvíos) se evita que el resultado final se anule y se obtiene esta nueva medida.
Edad
|𝑥 − 𝑥̅ |
xi
26 16
38 4 ∑|𝑥 − 𝑥̅ | 40
𝐷𝑀 = = = 6,67 𝑎ñ𝑜𝑠
44 2 𝑛 6
46 4
46 4
52 10
40
∑ 𝑓 |𝑥 − 𝑥̅ |
𝐷𝑀 =
𝑛
Precios |𝑥 − 𝑥̅ |
𝑓 𝑥 𝑓 |𝑥 − 𝑥̅ |
(miles de $)
60 - 71,999 8 66 26,25 210
72 - 83,999 23 78 14,25 327,75
DM
f i xi x 1.152 14,4 mil $
84 - 95,999 17 90 2,25 38,25 n 80
96 - 107,999 18 102 9,75 175,5
108 - 119,999 8 114 21,75 174
120 - 131,999 4 126 33,75 135
132 - 143,999 2 138 45,75 91,5
80 1.152,00
Ventaja:
toma como referencia un valor central, en este caso la media aritmética
Desventaja:
las barras de valor absoluto incorporadas en la fórmula complican su manejo algebrai-
co.
Introducción a la Estadística 64
El Desvío Medio considera al desvío como base para sus cálculos, pero cuenta con la
desventaja de poseer barras de valor absoluto que dificultan notoriamente el trabajo algebraico.
Para corregir esta situación existe otra alternativa que también aprovecha los desvíos para cons-
truir una medida pero que evita la utilización de las barras de valor absoluto.
∑(𝑥 − 𝑥̅ )
𝑆 =
𝑛
∑(𝑥 − 𝑥̅ ) 𝑓
𝑆 =
𝑛
Puede verse claramente que si bien los desvíos continúan siendo los elementos básicos
para el cálculo de la medida de dispersión, se ha utilizado el artificio de elevarlos al cuadrado,
por lo que todos se convierten en positivos y su suma ya no se anula.
Edad
(𝑥 − 𝑥̅ ) (𝑥 − 𝑥̅ )
xi
26 -16 256 ∑(𝑥 − 𝑥̅ ) 408
-4 16 𝑆 = = = 68 𝑎ñ𝑜𝑠
38 𝑛 6
44 2 4
46 4 16
46 4 16
52 10 100
0 408
Con los cálculos de las varianzas se verifican que da un resultado excesivo respecto de las
anteriores medidas de dispersión, y eso se debe a que el artificio de elevar al cuadrado los des-
víos modifica su escala de trabajo.
Introducción a la Estadística 65
Para datos agrupados, tomando como ejemplo los precios de los autos vendidos y recor-
dando que el precio medio es de 92,25 mil pesos, los cálculos serían:
Precios
𝑓 𝑥 𝑥 − 𝑥̅ (𝑥 − 𝑥̅ ) (𝑥 − 𝑥̅ ) 𝑓
(miles de $)
60 - 71,999 8 66 -26,25 689,06 5.512,50
72 - 83,999 23 78 -14,25 203,06 4.670,44
2
S
2
x i x fi
84 - 95,999 17 90 -2,25 5,06 86,06 x n
96 - 107,999 18 102 9,75 95,06 1.711,13 24.507
108 - 119,999 8 114 21,75 473,06 3.784,50 306,34 mil $ 2
80
120 - 131,999 4 126 33,75 1.139,06 4.556,25
132 - 143,999 2 138 45,75 2.093,06 4.186,13
80 24.507,00
Las medidas que hemos calculado hasta ahora arrojan resultados expresados en la misma
unidad de medida que los datos originales. Para la varianza los resultados están expresados en las
unidades de medida de la variable al cuadrado, estas unidades no son intuitivamente claras ni
fáciles de interpretar, por eso tenemos que hacer un cambio para calcular una medida de disper-
sión útil y que no acarree problemas con las unidades de medida. Esta medida es el desvío están-
dar, que es la raíz cuadrada de la varianza y está expresada en la misma unidad de medida que
los datos originales.
∑(𝑥 − 𝑥̅ )
𝑆 = 𝑆 =
𝑛
∑(𝑥 − 𝑥̅ ) 𝑓 ∑(𝑥 − 𝑥̅ ) 𝑓
𝑆 = 𝑆 = =
∑𝑓 𝑛
El desvío estándar nos indica que la variación alrededor de la edad promedio, de 42 años
es de 8,25 años en más y en menos (33,75 y 50,25 años).
años. Esto nos muestra lo que ya habíamos observado, que las edades de los compradores de la
concesionaria 3 son menos dispersas.
En el ejemplo de los precios de los autos vendidos por la concesionaria el desvío estándar
es:
El desvío estándar nos indica que la variación alrededor del precio promedio (92,25 mil
$) es de 17,50 mil$ en más y en menos (entre 74,75 y 109,75 mil $).
Un símbolo general para indicar a la varianza es la letra V. De modo que, por ejemplo, el
símbolo 𝑉(𝑥 )indica la varianza de la variable 𝒙𝒊 . Asimismo, los símbolos para la varianza
poblacional y muestral varían entre sí del mismo modo que varían los símbolos para las medidas
de posición. En este caso los símbolos 𝑆 y 𝑆 se reservan para la varianza y el desvío estándar
muestrales, mientras que para los símbolos poblacionales se utiliza la letra griega sigma, que
señalan, respectivamente, a la varianza (𝜎 ) y al desvío estándar (𝜎 ).
Las fórmulas que vimos se llaman fórmulas definicionales, pero no siempre son prácti-
cas. La fórmula de trabajo se obtiene mediante un conjunto de procesos algebraicos y permite
encontrar un procedimiento diferente, y en algunos casos más conveniente, para calcular la va-
rianza. Se parte de la fórmula inicial y se desarrolla el cuadrado del binomio que se encuentra
entre paréntesis, con el siguiente resultado:
∑
𝑆 = − 𝑥̅
∑
PROPIEDADES DE LA VARIANZA
La varianza es una medida de dispersión muy utilizada. Cuenta con algunas propiedades impor-
tantes:
1º La varianza de un conjunto definido de datos es un valor constante mayor o igual a ce-
ro. Esta propiedad, por un lado, tiene similar connotación y objetivo que la primera propie-
dad de la media aritmética, y por el otro, es fácilmente comprensible si se observa la fórmula
de la varianza que está compuesta por la sumatoria de valores elevados al cuadrado.
la fórmula correspondiente:
∑(𝑎 − 𝑎) 0
𝑆 = = =0
𝑛 𝑛
3º La varianza es una medida mínima si se la compara con cualquier otra similar que se
calcule tomando como referencia alguna medida de posición diferente de la media
aritmética. Esta propiedad no requeriría demostración alguna en tanto se tenga presente la
tercera propiedad de la media aritmética, que demostró que la sumatoria de los desvíos al
cuadrado entre los valores de la variable y la media aritmética es un mínimo, lo cual equivale
a decir que si los desvíos se calcularan respecto de cualquier otro valor que no fuera la media
aritmética, la sumatoria de ellos al cuadrado daría un resultado mayor.
a Si a todos los valores de una variable les sumamos (o restamos) un valor constante y
arbitrario A, obtenemos una nueva variable cuya varianza será igual a la de la va-
riable original.
Concesionaria 1 (𝐴 = 10)
𝐸𝑑𝑎𝑑
𝑑 =𝑥 +𝐴 𝑑 − 𝑑̅ 𝑑 − 𝑑̅
𝑥
46 56 4 16 2
S
d d
i
2 408 68 años 2
26 36 -16 256 d n 6
52 62 10 100
46 56 4 16
44 54 2 4
38 48 -4 16
312 408
Para demostrar esta propiedad, sea xi una variable que tiene una media 𝑥̅ y una va-
rianza 𝑆 , y sea 𝐴 un valor arbitrario. Construimos la variable𝑑 = 𝑥 ± 𝐴, y recordando
que, se obtiene
b Si todos los valores de una variable son multiplicados (o divididos) por un valor cons-
tante y arbitrario 𝒄, obtenemos una nueva variable cuya varianza será igual a la de la
variable original multiplicada o dividida por 𝒄 al cuadrado.
Concesionaria 1 (c = 1,5)
𝐸𝑑𝑎𝑑
𝑥 𝑑 =𝑥𝑐 𝑑 − 𝑑̅ 𝑑 − 𝑑̅
46
26
69
39
6
-24
36
576 2
S i
d d 2 918 153 años 2
52 78 15 225 d n 6
46 69 6 36
44 66 3 9
38 57 -6 36
378 918
Para demostrar esta propiedad, sea 𝑥 una variable que tiene una media 𝑥̅ y una va-
rianza 𝑆 , y sea 𝑐 un valor arbitrario. Construimos la variable 𝑑 = 𝑐𝑥 (en este caso re-
solvemos la propiedad sólo aplicando el caso del producto, pero resulta sencillo ver que
la demostración es equivalente si aplicáramos el caso del cociente), y recordando que
𝑑̅ = 𝑐 𝑥, se obtiene
∑ 𝑑 − 𝑑̅ ∑(𝑐𝑥 − 𝑐 𝑥̅ ) ∑𝑐 (𝑥 − 𝑥̅ ) ∑(𝑥 − 𝑥̅ )
𝑆 = = = =𝑐 =𝑐 𝑆
𝑛 𝑛 𝑛 𝑛
c Una transformación algebraica que combina los casos anteriores, parte de una variable xi
que tiene una media 𝑥̅ y una varianza 𝑆 , y de dos valores arbitrarios, 𝐴 y 𝑐. Se construye
x A xA
una variable d i , y recordando que d .
i c c
Concesionaria 1 (A = 10 y c = 1,5)
𝐸𝑑𝑎𝑑 𝑥 −𝐴
𝑢 = 𝑢 − 𝑢 (𝑢 − 𝑢 )
𝑥 𝑐
46 24,00 2,67 7,11
26 10,67 -10,67 113,78
52
46
28,00
24,00
6,67
2,67
44,44
7,11 2
S
di d 2 181,33 30,22 años 2
Demostración:
Sd2
di d 2 1 x i
A x A
2
1 x i A x A
2
1 x x
2 i
2 S2x
n
n c c c2 n c n c2
∑(𝑥 − 𝑥̅ )(𝑦 − 𝑦)
𝐶𝑜𝑣(𝑥, 𝑦) = 𝑆 =
𝑛
La varianza (o el desvío estándar) es una medida de dispersión que indica de qué modo se
alejan, en promedio, los valores de una variable respecto de una medida de tendencia central
convencional, en este caso la media aritmética. Sirve para medir el alejamiento interno prome-
dio de los valores de una variable respecto de su propia medida de tendencia central. En ese sen-
tido, resulta ser una medida de dispersión absoluta.
Dispersión absoluta
Medida de tendencia central
Cuando utilizamos como medida de dispersión absoluta el desvío estándar y como medi-
da de tendencia central la media aritmética obtenemos el Coeficiente de Variación (CV) cuya
expresión matemática es
𝑆
𝐶𝑉 = ∗ 100 (𝑆𝑒 𝑒𝑥𝑝𝑟𝑒𝑠𝑎 𝑒𝑛 𝑓𝑜𝑟𝑚𝑎 𝑝𝑜𝑟𝑐𝑒𝑛𝑡𝑢𝑎𝑙)
𝑥̅
medida ésta que se encuentra desprovista de unidades porque relaciona el desvío estándar con la
media aritmética y ambas tienen la misma unidad de medida, que, de esa forma, se simplifica.
Resulta sencillo verificar que el Coeficiente de Variación es una medida de la dispersión de un
conjunto de datos expresada como porcentaje de su media aritmética.
Es muy útil para comparar distribuciones en las que las muestras son de tamaño diferente.
Introducción a la Estadística 71
8,25 8,64
CV1 100 19,64% CV5 100 18,58%
42 46,5
Los resultados obtenidos permiten señalar que, si bien la variable Concesionaria 1 tiene
menor dispersión absoluta que la Concesionaria 5, (porque el desvío estándar es menor), tiene
mayor dispersión relativa (porque CV1 es mayor que CV5).
17,50
𝐶𝑉 = ∗ 100 = 18,97%
92,25
La forma es una de las características que define al conjunto de datos. Las medidas de
tendencia central y de posición: media aritmética, mediana y modo, tienen entre sí una relación
sumamente interesante, que depende de la forma que adopta el histograma correspondiente.
En este caso se ve claramente que coinciden las tres medidas. Si la simetría es perfecta,
las medidas de tendencia central y de posición coinciden.
Pero si el gráfico del histograma condujera a un polígono de frecuencias que diera lugar a
una forma asimétrica, se vería que las tres medidas no coinciden entre sí y que su ubicación de-
penderá de la forma final de la curva, es decir, dependerá de si el valor correspondiente al Modo
está ubicado más hacia la derecha o más hacia la izquierda.
El Modo está ubicado en el punto del eje de las abscisas que corresponde a la al-
tura máxima en la gráfica.
La Mediana está ubicada de tal modo que la superficie interior que queda a un la-
do de ella (sombreada) es igual a la superficie que queda al otro lado (en blanco).
Conclusión:
a. Si existe simetría perfecta, 𝑥̅ = 𝑀𝑒 = 𝑀𝑜
b. Si existe asimetría hacia la izquierda, 𝑥̅ < 𝑀𝑒 < 𝑀𝑜
c. Si existe asimetría hacia la derecha, 𝑥̅ > 𝑀𝑒 > 𝑀𝑜
Sobre la base de esta situación, el matemático inglés Pearson enunció la siguiente fórmu-
la empírica que relaciona las tres medidas, considerándose a ésta una fórmula empírica porque
no tiene demostración teórica:
𝑥̅ − 𝑀𝑜 = 3(𝑥̅ − 𝑀𝑒)
As1
x Mo
o bien, As
3 x Me
Sx 2 S
x
Los diferentes resultados de las medidas de asimetría conducen al siguiente análisis:
(𝑄 − 𝑄 ) − (𝑄 − 𝑄 ) 𝑄 + 𝑄 − 2𝑄
𝐴𝑠 = =
𝑄 −𝑄 𝑄 −𝑄
Las diferentes medidas tienen, cada una, un conjunto de virtudes y de defectos que pue-
den ser tomados en cuenta para determinar cuándo resulta conveniente utilizar alguna desechan-
do las restantes:
niente utilizar la media aritmética por las propiedades que posee frente a la Mediana y
al Modo.
b Si la distribución de frecuencias es notoriamente asimétrica, es más apropiado utili-
zar o la Mediana o el Modo, ya que ambas no se encuentran afectadas por valores ex-
tremos del conjunto de datos como sí lo está la media aritmética.
Si bien no pueden establecerse en forma dogmática límites para las medidas de asimetría,
una manera de orientar a quienes trabajan en el tema, es mediante las siguientes sugerencias:
a) Leptocúrtica: 𝑘 > 3
b) Platicúrtica: 𝑘 < 3
c) Mesocúrtica: 𝑘 = 3
𝑅
𝑘=
𝑃 −𝑃
7. MOMENTOS
Introducción a la Estadística 75
Los momentos son cálculos que se realizan con los valores de una variable y que
conducen a resultados específicos y particulares para cada conjunto de valores.
r
r
x x
i
b) los momentos centrados de orden r, de la forma: , denominados así
n
porque al efectuarse la diferencia entre todos los valores de la variable y su media
aritmética se produce una transformación de los valores de tal naturaleza que su nueva
media resulta igual a cero.
r
x x
i
S
c) los momentos reducidos de orden r de la forma: Rr x , denominados
n
así porque al dividirse todos los valores de la variable por el desvío estándar se produ-
ce una reducción en su unidad de medida.
Si se observa con detenimiento las fórmulas de los momentos, se podrá verificar que exis-
ten relaciones entre ellos. Por ejemplo
1
x
el de primer orden, i
es la media aritmética 𝒙
1 n
n 1
𝟐
∑(𝒙𝒊 − 𝒙)𝟐 ∑𝒙𝟐𝒊 ∑𝒙𝒊
𝑺𝟐𝒙 = = − = 𝜶𝟐 − 𝜶𝟐𝟏
𝒏 𝒏 𝒏
8. VARIABLE ESTANDARIZADA
Introducción a la Estadística 76
Mide la desviación de la media en unidades de desvío estándar, sus cantidades son a di-
mensionales, nos ofrece información de la posición relativa de cualquier observación dentro de
una distribución de frecuencias y es muy útil para comparar con otras distribuciones de frecuen-
cias.
La variable estandarizada es adecuada para identificar valores atípicos. Como regla gene-
ral, la variable estandarizada es atípica si es menor a – 3 o mayor a 3.
x x
i
S
z
z
n
i
n nS i
x 1 1 x x 0
x
Como esta última expresión es igual a cero (por la segunda propiedad de la media aritmé-
tica), resulta ser z 0 .
Para calcular la varianza de 𝑧 , se procede del siguiente modo:
1 1 𝑥 − 𝑥̅ 1 1 1
𝑆 = (𝑧 − 𝑧̅) = −0 = ∑(𝑥 − 𝑥̅ ) = 𝑆 = 1
𝑛 𝑛 𝑆 𝑆 𝑛 𝑆
La transformación se califica como muy particular porque sin importar cuánto valen tanto
los valores de la variable xi como su media aritmética y su desvío estándar, la media y la va-
rianza de 𝒛𝒊 serán siempre iguales a cero y a uno, respectivamente.
A) En una serie de valores diferentes que tienen signo negativo ¿Cómo es la varianza?
a) mayor que cero
b) menor que cero
c) igual a cero
C) Observe las varianzas siguientes e indique cómo son entre sí en términos generales
𝟏 𝟏
𝑽𝟏 = ∑(𝒙𝒊 − 𝒙)𝟐 𝑽𝟐 = ∑(𝒙𝒊 − 𝑴𝒐)𝟐
𝒏 𝒏
a) V1>V2
b) V1< V2
c) V1= V2