Está en la página 1de 39

Clase 5: Análisis Exploratorio

Estadísticos de dispersión y de forma

Cristian E García
cristian.garcia.bermudez@correounivalle.edu.co

Facultad de Ingeniería

Universidad del Valle

Marzo 2023
Outline
1. Indicadores estadísticos de dispersión y
forma

2. Estadísticos basados en la dispersión y


forma

3. Ejemplos

4. Ejercicio en Clase
Indicadores de dispersión

El nivel de representatividad de los indicadores de tendencia central dependen del grado de


homogeneidad o de dispersión de los datos observados, lo que hace necesario algunos
indicadores de dispersión.

Indicadores de dispersión

Ejemplo: En dos o cinas de un banco A y B, la distribución de los tiempos que tardan en gestionar una
hipoteca es distinta. Para observar esto se observa una muestra del tiempo que tardan en hacer dicha
gestión (en meses):

BancoA 5 1 1 1 7 4 2

BancoB 4 4 4 4 4 5 3

El banco A tarda en promedio 3 meses, mientras que el banco B, se tarda en promedio 4 meses. ¿Es
preferible el banco A, en cuanto al tiempo de gestión de una hipoteca?

fi
Rango

Uno de estos indicadores puede ser el rango:


r = max(x) − min(x)

Sencillo de calcular y de muy fácil interpretación

La gran desventaja es que es muy sensible a valores extremos


Desviación media
Otra manera de estimar la dispersión de los valores de la muestra es comparar cada uno de
éstos con el valor de una medida de centralización. Una de las medidas de dispersión más usada
es la desviación media.

Es un indicador de dispersión que corresponde a la distancia promedio de los datos a la


mediana.
k
∑i=1 | xi − Me | ni
DMe =
N
Desviación media
Otra manera de estimar la dispersión de los valores de la muestra es comparar cada uno de
éstos con el valor de una medida de centralización. Una de las medidas de dispersión más usada
es la desviación media.

Es un indicador de dispersión que corresponde a la distancia promedio de los datos a la


mediana.
k
∑i=1 | xi − Me | ni
DMe =
N

Para datos agrupados entonces,


k
∑i=1 | x′i − Me | ni
DMe =
n
k


= | x′i − Me | fi
i=1

Varianza y Desviación estándar
La varianza es la medida de dispersión más usada en estadística y está de nida:

Para datos no agrupados:

n 2
2
(xi − X̄)

S =

i=1
n

fi
Varianza y Desviación estándar
La varianza es la medida de dispersión más usada en estadística y está de nida:

Para datos no agrupados:

n 2
2
(xi − X̄)

S =

i=1
n
Para datos agrupados:

n
2 1 2
n∑
S = ni(x′i − X̄)
i=1
n

2

= fi(x′i − X̄)
i=1


fi
Varianza y Desviación estándar
La varianza es la medida de dispersión más usada en estadística y está de nida:

Para datos no agrupados:

n 2
2
(xi − X̄)

S =

i=1
n
Para datos agrupados:

n
2 1 2
n∑
S = ni(x′i − X̄)
i=1
n

2

= fi(x′i − X̄)
i=1

Una desventaja de la varianza es que sus unidades no coinciden con las unidades de la variable

de estudio. Para remediar esta desventaja, se utiliza su raíz cuadrada (desviación estándar)


fi
Varianza y Desviación estándar
Durante el mes de julio, en una ciudad se han registrado las siguientes temperaturas máximas:

32, 31, 28, 29, 36, 32,

27, 28, 29, 30, 32, 31

29, 30, 30

¿Cuál es la desviación estándar de la temperatura máxima?

Varianza y Desviación estándar


Durante el mes de julio, en una ciudad se han registrado las siguientes temperaturas máximas:

32, 31, 28, 29, 36, 32,

27, 28, 29, 30, 32, 31

29, 30, 30

¿Cuál es la desviación estándar de la temperatura máxima?

S = 2.218966
Varianza y Desviación estándar
Una compañía constructora resuelve estudiar la resistencia a la compresión de una mezcla
de concreto, con el objetivo de hacer control de calidad. Para ello tomaron 50 cilindros de
2
prueba de acuerdo con las normas establecidas. Los resultados en kg/cm de presión
obtenidos al cabo de 28 días de curado se encuentran a continuación:

Intervalo x′i ni Ni Fi
[191 - 215] 203 6 0,12 6 0,12
¿Cuál es la varianza y la
(215 - 239] 227 11 0,22 17 0,34
desviación estándar del
(239 - 263] 251 14 0,28 31 0,62
conjunto de datos?
(263 - 287] 275 11 0,22 42 0,84
(287 - 311] 299 5 0,10 47 0,94
(311 - 335] 323 3 0,06 50 1
Total 50 1

f
Varianza y Desviación estándar
Una compañía constructora resuelve estudiar la resistencia a la compresión de una mezcla
de concreto, con el objetivo de hacer control de calidad. Para ello tomaron 50 cilindros de
2
prueba de acuerdo con las normas establecidas. Los resultados en kg/cm de presión
obtenidos al cabo de 28 días de curado se encuentran a continuación:

Intervalo x′i ni Ni Fi En promedio las


[191 - 215] 203 6 0,12 6 0,12 resistencias de los
(215 - 239] 227 11 0,22 17 0,34 cilindros de prueba se
(239 - 263] 251 14 0,28 31 0,62 encuentran alejadas de
2
(263 - 287] 275 11 0,22 42 0,84 la media 32.55kg/cm
(287 - 311] 299 5 0,10 47 0,94
(311 - 335] 323 3 0,06 50 1
Total 50 1

f
Propiedades de la varianza

Propiedad 1: Forma alternativa de calcular la varianza

2
2 1 2 2
n∑
S = xi − (X̄)

i=1

Propiedad 2: La varianza es siempre NO negativa

2
S ≥ 0

Propiedad 3: La varianza de una constante es cero

2
si xi = k ∀x ⇒ S = 0
Propiedades de la varianza

Propiedad 4: Si yi = kxi donde k es una constante, entonces

2 2 2
Sy = k Sx

Propiedad 5: Si yi = k + xi donde k es una constante, entonces

2 2
Sy = Sx

Coeficiente de variación

Por la estructura de la varianza se sabe que cuando aumenta la dispersión el valor de la


varianza aumenta, al igual que la desviación estándar.

Pero, qué se respondería a la pregunta:

¿Una desviación estándar de $100.000 me indica que hay poca o mucha dispersión?

Depende de las magnitudes de los datos

Coeficiente de variación
El coe ciente de variación (CV) es un indicador de dispersión que involucra la magnitud (media
aritmética) de los datos que se estudian:

S
CV = * 100

Se usa para comparar la variabilidad relativa de una característica en poblaciones que tienen
diferente media.

No hay un valor de nido que permita valorar el CV como grande o pequeño (Depende del
contexto del problema)

fi
fi
Coeficiente de variación
El coe ciente de variación (CV) es un indicador de dispersión que involucra la magnitud (media
aritmética) de los datos que se estudian:

S
CV = * 100

Se usa para comparar la variabilidad relativa de una característica en poblaciones que tienen
diferente media.

No hay un valor de nido que permita valorar el CV como grande o pequeño (Depende del
contexto del problema)

Algunas normas sobre materiales exigen no sólo un promedio de resistencia por encima de un
nivel mínimo, sino también control sobre la variabilidad expresado en forma de coe ciente de
variación

fi
fi
fi
Indicadores de dispersión
Durante el mes de julio, en una ciudad se han registrado las siguientes temperaturas máximas:

32, 31, 28, 29, 36, 32,

27, 28, 29, 30, 32, 31

29, 30, 30

Si en el mes de Agosto se obtuvo en promedio una temperatura máxima de 32.3


2
grados centígrados y una varianza de 9 grados centígrados . ¿En qué mes fueron
más homogéneas las temperaturas máximas?

Asimetría
La Curva (a) está sesgada a la derecha o positivamente sesgada debido a que va
disminuyendo poco a poco hacia el extremo derecho de la escala.

La Curva (b). Las curvas simétricas tienen una forma tal que una línea vertical que pase por
el punto más alto de la curva dividirá su área en dos partes iguales. Cada parte es una
imagen de espejo de la otra.

La Curva (c) está sesgada a la izquierda o negativamente sesgada debido a que va


disminuyendo poco a poco hacia el extremo izquierdo de la escala.

(a) (b) (c)


Coeficiente de Asimetría
Esta medida permite identi car si los datos se distribuyen de forma uniforme alrededor de X̄ .
La asimetría presenta tres estados diferentes presentados en el siguiente grá co:

Asimetría positiva: mayoría de datos menores que X̄

Asimetría negativa: mayoría de datos mayores que X̄

Simetría: misma cantidad de datos a la derecha y a la izquierda de X̄

fi
fi
Coeficiente de Asimetría
Cuando los datos están igualmente repartidos a cada lado de la media se dice que la
distribución es simétrica. El coe ciente de asimetría indica si la distribución es simétrica y, en
caso de no serlo, el tamaño y la tendencia de su asimetría.

El coe ciente de asimetría, se representa de la siguiente forma:

2 3
∑i=1 (xi − X̄)
CA =

nS 3
Si:

CA = 0 la distribución es simétrica

CA > 0 la distribución es asimétrica a la derecha o positiva

CA < 0 la distribución es asimétrica a la izquierda o negativa

fi
fi
Curtosis
Cuando se mide la curtosis de una distribución, se está midiendo qué tan puntiaguda es dicha
distribución.

Leptocúrtica: Los datos se distribuyen de forma que tienen un gran pico en el histograma
alrededor del valor central.

Mesocúrtica: En el caso intermedio entre Leptocúrtica y Platicúrtica. El agrupamiento de los


datos corresponderá al de una distribución llamada Normal, o en forma de campana de Gauss.

Platicúrtica: El histograma puede ser muy aplanado.


(a) (b) (c)
Curtosis

El coe ciente de Curtosis se de ne como,

2 4
∑i=1 (xi − X̄)
Cr =

nS 4

Si Cr > 0 Distribución de los datos Leptocúrtica

Si Cr = 0 Distribución mesocúrtica

Si Cr < 0 Distribución platicúrtica

fi
fi
Medidas de Posición

Medidas de posición: Un método consiste en determinar la ubicación de los valores que


dividen un conjunto de observaciones en partes iguales. Estas medidas incluyen los cuartiles,
deciles y percentiles.

Localización de un percentil. Datos no agrupados:

P
Lp = (n + 1)

100

dónde p: es el percentil de interés.

Cuártales de una distribución


Son tres valores Q1, Q2, Q3 que dividen la muestra ordenada en cuatro partes que contienen
aproximadamente el mismo número de datos. Es decir que el 25% de los datos son menores
que Q1, el 50% de los datos son menores que Q2 (es igual a la mediana) y el 75% de los datos
son menores que Q3.

Cuártales de una distribución


Son tres valores Q1, Q2, Q3 que dividen la muestra ordenada en cuatro partes que contienen
aproximadamente el mismo número de datos. Es decir que el 25% de los datos son menores
que Q1, el 50% de los datos son menores que Q2 (es igual a la mediana) y el 75% de los datos
son menores que Q3.

Para calcular Q1 se identi ca primero el intervalo donde se acumula más del 25 % y se aplica la
siguiente formula:

0,25 − F(Li−1)
Q1 = Li−1 + Ci
f
fi
Cuártales de una distribución
Son tres valores Q1, Q2, Q3 que dividen la muestra ordenada en cuatro partes que contienen
aproximadamente el mismo número de datos. Es decir que el 25% de los datos son menores
que Q1, el 50% de los datos son menores que Q2 (es igual a la mediana) y el 75% de los datos
son menores que Q3.

Para calcular Q1 se identi ca primero el intervalo donde se acumula más del 25 % y se aplica la
siguiente formula:

0,25 − F(Li−1)
Q1 = Li−1 + Ci
f

Q3 se calcula de la misma forma pero ubicándose donde se acumula más del 75%.

fi
Cuártales de una distribución

A la distancia entre Q1 y Q3 (donde se acumula un 50 % de los datos) se llama rango


intercuartílico (RIC).

Cuártales de la distribución
Una compañía constructora resuelve estudiar la resistencia a la compresión de una mezcla
de concreto, con el objetivo de hacer control de calidad. Para ello tomaron 50 cilindros de
2
prueba de acuerdo con las normas establecidas. Los resultados en kg/cm de presión
obtenidos al cabo de 28 días de curado se encuentran a continuación:

Intervalo x′i ni Ni Fi
[191 - 215] 203 6 0,12 6 0,12 ¿Cuales son los
(215 - 239] 227 11 0,22 17 0,34 cuartiles del conjunto de
(239 - 263] 251 14 0,28 31 0,62 datos?
(263 - 287] 275 11 0,22 42 0,84
(287 - 311] 299 5 0,10 47 0,94
(311 - 335] 323 3 0,06 50 1
Total 50 1

f
Diagrama de cajas y alambres
Este diagrama constituye una síntesis muy buena de la distribución de frecuencias y su
sencillez la hace más útil, sobre todo en situaciones donde se hace necesario comparar dos
o más distribuciones.

Para su calculo se utilizan:



Para la caja: Q1, Q2, Q3.

Cerco superior Q3 + 1.5RIC


Cerco inferior Q1 − 1.5RIC

Diagrama de cajas y alambres
Este diagrama constituye una síntesis muy buena de la distribución de frecuencias y su
sencillez la hace más útil, sobre todo en situaciones donde se hace necesario comparar dos
o más distribuciones.

Los alambres se grá can con el


data más próximo al cercos sin
superarlos

En caso de que algún dato se


encuentra fuera de los cercos se
grá can como puntos y se
consideran atípicos
fi
fi
Diagrama de cajas y alambres
Un diagrama de cajas y alambres es útil para los siguientes propósitos:

1. Para identi car la localización de los datos alrededor de la mediana.

2. Para hacerse una buena idea de la dispersión de los datos, basándose en la longitud
de la caja. Además se aprecia el rango de los datos.

3. Permite observar el grado de asimetría de una distribución, comparando las


proporciones de la caja que queda a los lados de la mediana.

4. Útil para identi car posibles valores atípicos (fuera de los cercos) 



fi
fi
Ejemplo
Permite observar el grado de asimetría de una distribución, comparando las
proporciones de la caja que queda a los lados de la mediana.
Ejemplo
En el siguiente grá co se observa el comportamiento de los niveles de monóxido de
carbono (CO) durante un día ordinario (lunes a viernes).
fi
Ejemplo
En un experimento se observó la longitud de los dientes de conejillos de indias para dos
tipos de administración (zumo de naranja o acído ascórbico) y tres niveles de dosis de
vitamina C (0.5,1 y 2mg).
Ejercicio
Tabla de frecuencias para el ingreso mensual de los estudiantes del instituto encuestados:

Calcule las medidas de dispersión y posición para los datos que


previamente se agrupó en una tabla de frecuencias

Ejercicio
Diagrama de cajas y alambres del ingreso mensual de los estudiantes (miles de pesos)

Interprete el boxplot

También podría gustarte