Está en la página 1de 30

Medidas de dispersión

Universidad Nacional “Santiago Antúnez de


Mayolo”

Escuela de Ingeniería Civil


Estadística general

Lic. Edgar R. Rugel Barreto


Escuela de Ingeniería Civil
Estadística general Agenda

 Introducción
 Medidas de dispersión
 Rango
 Rango intercuartil y rango semiintercuartil
 Varianza y desviación estándar (propiedades)
 Coeficiente de variación
 Uso de las medidas de dispersión
 Índices de asimetría
 Curtosis
 Box Plot
Introducción
Escuela de Ingeniería Civil
Estadística general Introducción

 El reporte de las medidas de tendencia central da sólo información parcial sobre un


conjunto o distribución de datos. Diferentes muestras o poblaciones pueden tener
medidas idénticas de centro y aún diferir entre si en otras importantes maneras.
 Los conjuntos de datos pueden tener el mismo centro pero con aspectos diferentes por
la forma en que los números se dispersan desde el centro.
Escuela de Ingeniería Civil
Estadística general Introducción

• Medida del grado


Centro de los
1 de dispersión o ഥ
datos 𝒙
variabilidad
• Medida del grado
2
de asimetría
3 • Curtosis
Medidas de dispersión
Escuela de Ingeniería Civil
Estadística general Medidas de dispersión

Grado de
Números miden separación de Valor central
los datos 𝑥ҧ

σ
Escuela de Ingeniería Civil
Estadística general Medidas de dispersión

1. El Rango (R)
 Fácilmente calculable
 Es muy inestable
R = Xmax – Xmin  Depende únicamente de
los valores extremos

Ejemplo:

Calcular el rango de las siguientes series:


Serie 1: 1 5 7 7 8 9 9 10 17
Serie 2: 2 4 6 8 10 12 14 16 18
Escuela de Ingeniería Civil
Estadística general Medidas de dispersión

2. Rango intercuartil y rango


semiintercuartil
 El RI incluye al 25% más alto y 25%
mas bajo
 Agrupa al 50% de datos al centro
RI = Q3 – Q1
 No se afecta por valores extremos
 Si el RI=min, entonces describe una
alta uniformidad en los datos
Q3

Me Q2 RI NOTA: el RI se aplica a variables medidas


en escala por lo menos ordinal
Q1
Escuela de Ingeniería Civil
Estadística general Medidas de dispersión

2.1 Rango semiintercuartil (RSI)

RSI = RI / 2

Si la distribución es asimétrica, el intervalo: mediana ± RSI


contendrá aproximadamente al 50% de los datos.
Si la distribución es muy asimétrica, el RI o RSI son preferibles a
la desviación estándar como medida de dispersión
Escuela de Ingeniería Civil
Estadística general Medidas de dispersión

3. Varianza
Variable cuantitativa

Grado de dispersión o de
Medida cuantifica
variación de valores 𝑥ҧ
20 20

18 18

16 16

14 14

12

10
σ 12

10
σ
σ
8

6
σ 8

4 4

2 2

0 0
0 20 40 60 80 100 0 20 40 60 80 100
Escuela de Ingeniería Civil
Estadística general Medidas de dispersión

Varianza: la varianza se define como la media aritmética de los cuadrados de las diferencias
de los datos respecto a la media aritmética.
La varianza es una unidad de medida de dispersión en unidades de medición al cuadrado.

Población 𝜎2
Muestra 𝑠2
Desviación estándar: es la raíz cuadrada de la varianza.
Población
𝜎2
Muestra
𝑠2
Escuela de Ingeniería Civil
Estadística general Medidas de dispersión

Cálculo de la varianza

 Varianza de datos no tabulados


Población

𝑁 2 σ 𝑁 2
σ 𝑖=1 𝑋𝑖 − 𝜇 𝑖=1 𝑥𝑖
2
𝜎 = 𝜎2 = − 𝜇𝑥2
𝑁 𝑁

Muestra

σ𝑛𝑖=1𝑥 − 𝑥ҧ 2 σ𝑛𝑖=1 𝑥𝑖 2
σ𝑖=1 𝑥𝑖2 −
𝑠2 = 𝑠2 = 𝑛
𝑛−1 𝑛−1
Escuela de Ingeniería Civil
Estadística general Medidas de dispersión

Calculo de la varianza

 Varianza de datos tabulados para variable discreta


Población

𝑁 2
2
σ 𝑖=1 𝑓𝑖 𝑋𝑖 − 𝜇
𝜎 =
𝑁

Muestra

𝑛 2 (σ 𝑥𝑖 𝑓𝑖 )2
σ 𝑖=1 𝑓𝑖 𝑥𝑖 − 𝑥ҧ
2
𝑠 = σ𝑛𝑖=1 𝑥𝑖 2 𝑓𝑖

𝑛−1 𝑠2 = 𝑛
𝑛−1
Escuela de Ingeniería Civil
Estadística general Medidas de dispersión

Calculo de la varianza

 Varianza de datos tabulados por intervalo


Población

𝑁 2
2
σ 𝑖=1 𝑓𝑖 𝑚𝑖 − 𝜇
𝜎 =
𝑁

Muestra

𝑛 2 (σ 𝑥𝑖 𝑚𝑖 )2
σ 𝑖=1 𝑓𝑖 𝑚𝑖 − 𝑥ҧ
2
𝑠 = σ𝑛𝑖=1 𝑚𝑖 2 𝑓𝑖

𝑛−1 𝑠2 = 𝑛
𝑛−1
Escuela de Ingeniería Civil
Estadística general Medidas de dispersión

Calculo de la varianza

 Varianza con frecuencias relativas

𝜎 2 = ෍ ℎ𝑖 𝑚𝑖2 − 𝜇2

NOTA: se comprueba que:

𝑛−1 2
𝜎2 = 𝑠
𝑛
Escuela de Ingeniería Civil
Estadística general
Coeficiente de variación

4. Coeficiente de variación

Medida de Libre de unidades de medida


dispersión relativa

 Compara la variabilidad de 2 o mas


𝑆
series de datos que tengan medias
𝐶𝑉 = ò 𝑒𝑛 % iguales o diferentes o que tengan
𝑋ത
unidades de medida iguales o
diferentes
Escuela de Ingeniería Civil Usos de las medidas de dispersión
Estadística general

Varianza Unidades cuadráticas

Desviación Mismas unidades de los datos

C.V. Números abstractos

1. Si se tienen 2 series de datos, es más dispersa la serie que tiene mayor variabilidad.
Asimismo, si es que existe marcada asimetría, es preferible comparar con el RI.
2. Si se tienen 2 series de datos, es más dispersa la serie que tiene mayor coeficiente
de variación (CV)

Valores estandarizados: comparar valores observados 𝑋 − 𝑋ത


Z=
𝑆
Escuela de Ingeniería Civil
Estadística general Propiedades de la varianza

1. La varianza es un numero real no negativo y viene expresado en unidades cuadráticas y la desviación


𝑛
estándar
viene expresada en las mismas unidades de los datos.
෍ 𝑥𝑖2 = 𝑛(𝜎𝑥2 + 𝑥ҧ 2 )
2. Dadas la media 𝑥ҧ y la varianza 𝜎𝑥2 de n datos de una variable X, la suma total de los 𝑖=1
cuadrados de los valores es igual 𝑛 𝜎𝑋2 + 𝑥ҧ 2 . Para datos no tabulados se tiene por ejemplo

3. Si cada uno de los n valores xi es transformado en 𝒚𝒊 = 𝒂𝒙𝒊 + 𝒃,

𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑙𝑎 𝑣𝑎𝑟𝑖𝑛𝑧𝑎, 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑑𝑒 𝑙𝑜𝑠 𝑛 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑦𝑖 𝑒𝑠: 𝝈𝟐𝒀 = 𝒂𝟐 𝝈𝟐𝒙

4. La varianza y la desviación estándar pueden ser calculador también en distribución de frecuencias de intervalos de
amplitudes diferentes, siempre que puedan determinarse las marcas de las clases. Por otra parte, dependen de todos
los datos y son sensibles a la variación de cada uno de estos. Basta que uno de los datos varíe, para que varíen
aquellas

5. Dadas k series de datos con tamaños, medias y varianzas respectivas


𝑛1, 𝑥ҧ1 , 𝑠12 … . 𝑛2 𝑥ҧ2 , 𝑠22 , … . , 𝑛𝑘, 𝑥ҧ𝑘 , 𝑠𝑘2 , entonces la varianza 𝑆𝑇2 , 𝑑𝑒 𝑙𝑜𝑠 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑛1 + 𝑛2 + ⋯ + 𝑛𝑘 = 𝑛 𝑑𝑎𝑡𝑜𝑠 𝑒𝑠:
σ𝑘𝑖=1 𝑛𝑖 𝑠𝑖2 σ𝑘𝑖=1 𝑛𝑖 𝑥ҧ𝑖 − 𝑥ҧ 2
𝑆𝑇2 = +
𝑛 𝑛
Escuela de Ingeniería Civil
Estadística general Desigualdad de Chebysev

Cualquiera sea la forma de distribución de frecuencias (simétrica o asimétrica) el intervalo


1
𝑥ҧ − 𝑘𝑠𝑥 ; 𝑥ҧ + 𝑘𝑠𝑥 ; 𝑘 > 1 𝑐𝑜𝑛𝑡𝑖𝑒𝑛𝑒 𝑝𝑜𝑟 𝑙𝑜 𝑚𝑒𝑛𝑜𝑠 1 − 2 𝑒𝑛 % 𝑑𝑒 𝑙𝑜𝑠 𝑑𝑎𝑡𝑜𝑠.
𝑘
1
El porcentaje de datos que se hallan fuera del intervalo es menor que el %
𝑘2

Ejemplo:
En el proceso de medición de tiempos de riego de los
paltos. Se realizaron mediciones a 240 parcelas y se
obtuvo un promedio de riego de 26 minutos y un
coeficiente de variación igual a 0,3.

a) Qué porcentaje de parcelas son regadas por lo menos


entre un tiempo de 13,3 minutos y 38,7 minutos.
Índices de asimetría
Escuela de Ingeniería Civil
Estadística general Índices de Asimetría

𝑥ҧ − 𝑀𝑜
Índice de Asimetría de Pearson 𝐴𝑠 =
𝑠

3(𝑥ҧ − 𝑀𝑒 )
𝐴𝑠 =
Interpretación 𝑠

𝑨𝒔 > 𝟎 𝑨𝒔 = 𝟎 𝑨𝒔 < 𝟎
Escuela de Ingeniería Civil
Estadística general Índices de Asimetría (otros índices)

Índice de Asimetría de Pearson Utilizando momentos Donde:


𝑛
𝑛𝑀3
𝐴𝑠 = 𝑀3 = ෍ 𝑋𝑖 − 𝑥ҧ 3
(𝑛 − 1)(𝑛 − 2)𝑠 3 𝑖=1

Para datos tabulados en k intervalos

Índice de Asimetría de Fisher


Donde:
(𝑀3 /𝑛) 𝑛
𝐴𝑠 = 3
𝑠3 𝑀3 = ෍ 𝑓𝑖 𝑚𝑖 − 𝑥ҧ
𝑖=1
Curtosis
Escuela de Ingeniería Civil
Estadística general Curtosis

La curtosis es la propiedad de una distribución de frecuencias por la cual se compara la


dispersión de los datos observados cercanos al valor central con la dispersión de los
datos cercanos a ambos extremos de la distribución.
La curtosis se mide en comparación a la curva simétrica normal o mesocúrtica.

A:____________

B:____________

C:____________
Escuela de Ingeniería Civil Curtosis
Estadística general

Curtosis basado en percentiles 𝑃75 − 𝑃25


𝐾= − 0,5
𝑃90 − 𝑃10
Interpretación: si la distribución es normal, K tiende a
0. Si K tiende a 0,5, es leptocúrtica, y si tiende a -0,5,
es platicúrtica

Curtosis basado en momentos


Donde:
𝑛 𝑛 + 1 𝑀4 − 3𝑀2 𝑀2 (𝑛 − 1) 𝑛
𝐾= − 0,5
(𝑛 − 1)(𝑛 − 2)(𝑛 − 3)𝑠4 𝑀𝑗 = ෍ 𝑋𝑖 − 𝑥ҧ 𝑗

𝑖=1

Para datos tabulados en k intervalos 𝑛

(𝑀4 /𝑛) 𝑀4 = ෍ 𝑓𝑖 𝑚𝑖 − 𝑥ҧ 4
𝐾= 4
−3 𝑖=1
𝑠
Escuela de Ingeniería Civil Diagrama de cajas
Estadística general

Es una grafica útil para reflejar las propiedades de los datos, se basa en la mediana ( o en la media), los cuartiles y valores
extremos. La caja representa el rango intercuartil que encierra el 50% de los valores y tiene a la mediana (Me) dibujada
dentro. El rango intercuartil tiene como extremos el percentil 75 (cuartil superior) y el percentil 25 (cuartil inferior).
Además de la caja se incluye la extensión de los datos mediante segmentos que se extienden de la caja hacia el valor
máximo (U) y hacia el valor mínimo (L) de los datos

Del gráfico se obtiene información de:


 La centralización (observando la ubicación
de la Me)
 La dispersión o variabilidad (mediante el RI)
 La asimetría
 Las colas
Escuela de Ingeniería Civil Diagrama de cajas
Estadística general

Los datos atípicos o raros llamados


“outliers” son aquellos que se
ubican fuera del intervalo:
[ P25-1,5RI ; P75+1,5RI ]
El extremo inferior L o LAL es el
dato mínimo no outlier y el extremo
superior U o UAL es el dato máximo
no outlier.
Escuela de Ingeniería Civil Diagrama de cajas
Estadística general
Escuela de Ingeniería Civil Diagrama de cajas
Estadística general

También podría gustarte