Está en la página 1de 34

Medidas de la forma de la distribución,

de la posición relativa y la detección de


observaciones atípicas
Clase 4
Forma de la distribución

• Es útil para medir la de manera objetiva el


SESGO y así saber que tan sesgados están los
datos en una variable, su fórmula es:
Formas de distribución
Formas de distribución

Para saber el sesgo con ayuda de la media y


la mediana se debe considerar que:
• En una distribución simétrica, la media y
la mediana son iguales.
• Con un sesgo a la derecha, la media es
mayor que la mediana.
• En un histograma con sesgo a la izquierda,
la media es menor que la mediana.
Puntos Z
• Se utiliza para conocer la ubicación relativa de los valores de
un conjunto de datos.
• Indica que tan lejos de la media se encuentra un
determinado valor. (También se le llama valor estandarizado)
• Se trata del número de desviaciones estándar a las que Xi se
encuentra de la media.
• Si Zi = -0.5, quiere decir que Zi está a media desviación
estándar por debajo de la media. Si Zi es 0, quiere decir que
el valor de esa observación es igual a la de la media.

𝑋𝑖 − 𝑋ത
𝑍𝑖 =
𝑆
Punto Z

• Ejemplo. (Se sabe que la desviación estándar


de la muestra (s) es 8

Número de Desviación
estudiantes respecto de Puntos Z
en un grupo la media 𝑥𝑖 − 𝑥ҧ
(𝑥𝑖 ) 𝑥𝑖 − 𝑥ҧ 𝑠
46 2 2/8= 0.25
54 10 10/8= 1.25
42 -2 -2/8= -0.25
46 2 2/8= 0.25
32 -12 -12/8= -1.50
Teorema de Chebyshev
• Establece qué proporción de los
valores de un conjunto debe
estar dentro de un número de
desviaciones estándar de la Por lo menos (1 – 1/z2) de los
valores que se tienen en los
media. datos, deben encontrarse
dentro de z desviaciones
estándar de la media, donde z
es cualquier valor mayor que 1
Teorema de Chebyshev

• De acuerdo con el teorema, si Z = 2, 3 y 4:


• Por lo menos el 75% de los datos deben estar
dentro de Z=2 desviaciones estándar de la
media.
• Por lo menos el 89% de los datos deben estar
dentro de z=3 desviaciones estándar de la
media
• Por lo menos el 94% de los datos deben estar
dentro de z=4 desviaciones estándar de la
media.
Teorema de Chebyshev
• Ejemplo ejemplo:
• Se sabe que la ciudad de
Cuernavaca está
compuesta por 100 AGEBs,
la densidad poblacional
media es de 70 hab/Ha y
la desviación estándar es
de 5.
• ¿Se puede saber cuántas
AGEBs tienen una
densidad de entre 58 y 82
Hab./HA?
Teorema de Chebyshev
• Para resolverlo se deben
obtener los puntos z de 58 y 82:
58−70
𝑧58 = = −2.4
5

82−70
𝑧82 = = +2.4
5
Se aplica el teorema: Se puede concluir que
1 el 82.6% de las AGEBs
1 − 2.42 =0.826 tienen una densidad
de entre 58 y 62
Hab/HA
Regla empírica
Se utiliza para determinar el porcentaje de los
valores de los datos que deben encontrarse
dentro de un número determinado de
desviaciones estándar de la media si la
distribución de los datos presenta forma de
campana:
Regla empírica
1. Cerca del 68% de los
valores están a no mas
de una desviación
estándar de la media
2. Aproximadamente el
68%
95% de los valores de
los datos están a no
más de 2 desviaciones 95%
estándar de la media
3. Casi todos los valores 99.7%
están a no más de tres
desviaciones estándar Z= -3 -2 -1 0 +1 +2 +3
de la media.
Regla empírica
EJEMPLO
Según datos del censo de INEGI, existen en promedio 160 personas
mayores de 60 años por AGEB en la ciudad de Cuernavaca, si
sabemos que la desviación estándar en el área de estudio es de 2.5
personas, utilizando la regla empírica, se pude saber que:
1. Aproximadamente el 68% de los AGEBs en el área de estudio
tendrán entre 157.5 y 162.5 personas mayores de 60 años. (están
a no mas de una desviación estándar de la media)
2. Cerca del 95% de los AGEBs tienen entre 155 y 165 personas
mayores de 60 años (están a no más de dos desviaciones
estándar de la media)
3. Casi todos los AGEBs tienen entre 152.5 y 167.5 personas
mayores de 60 años. (están a no más de 3 desviaciones estándar
de a media)
Detección de observaciones
atípicas

• Es común que en un conjunto de observaciones


(sobre todo cuando son grandes) se
encuentren valores mucho más altos o mucho
más bajos que los demás.
• Esos datos pueden generarse por errores de
captura o problemas en el levantamiento.
• Puede también tratarse de un valor inusual, si
se verifica que no es un error, debe
conservarse.
Detección de observaciones
atípicas

• Para detectarlas, es útil conocer el punto z,


pues cualquier dato donde z sea menor que -3
o mayor que +3, puede considarse atípico.

Z= -3 -2 -1 0 +1 +2 +3
Análisis exploratorio de datos
Análisis exploratorio de datos
Resumen de cinco números

En este resúmen, son empleados los cinco


números siguients:
1. El valor menor
2. El primer cuartil
3. La mediana
4. El tercer cuartil
5. El valor mayor
Análisis exploratorio de datos
Diagrama de caja
• Es un resumen gráfico basado en los datos del
resúmen de cinco números.
• Además debe conocerse el RIC (Rango
Intercuartílico)
Medidas de asociación entre dos
variables
Medidas de asociación entre dos
variables
Covarianza
Medidas de asociación entre dos
variables
Covarianza
• Ayuda a mostrar la variabilidad de los datos en
dos variables relacionadas
• EJEMPLO:
Manzana
Distancia del centro (m) Viviendas sin drenaje (%)
1 2000 50
2 5000 57
3 1000 41
4 3000 54
5 4000 54
6 1000 38
7 5000 63
8 3000 48
9 4000 59
10 2000 46
Medidas de asociación entre dos
variables
Covarianza
• Al graficar se obtiene la siguiente gráfica de
puntos
Viviendas sin drenaje con relación a su distancia del centro de la ciudad
65

60
Viviendas sin Drenaje (%)

55

50

45

40

35
0 1000 2000 3000 4000 5000 6000
Distancia del centro (metros)
Medidas de asociación entre dos
variables
Covarianza
• Para medir la fuerza de la relación lineal entre
la distancia que tienen las manzanas respecto
al centro y el porcentaje de viviendas sin
drenaje.
• Se emplea la fórmula para concer la
covarianza:
Medidas de asociación entre dos
variables
Covarianza
xi yi
Manzana Distancia del Viviendas sin
centro (m) drenaje (%)
ҧ
𝑥=3000 ത
𝑦=51 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത
1 2000 50 -1000 -1 1000
2 5000 57 2000 6 12000
3 1000 41 -2000 -10 20000
4 3000 54 0 3 0
5 4000 54 1000 3 3000
6 1000 38 -2000 -13 26000
7 5000 63 2000 12 24000
8 3000 48 0 -3 0
9 4000 59 1000 8 8000
10 2000 46 -1000 -5 5000
Totales 30000 510 0 0 99000

99000
𝑠𝑥𝑦 = = 11000
10 − 1
¿Cómo se interpreta el valor de
la covarianza?
𝑥=3000
ҧ
Viviendas sin drenaje con relación a su distancia del centro de la ciudad
65

60

II I
Viviendas sin Drenaje (%)

55

50
𝑦=51

45

III IV
40

35
0 1000 2000 3000 4000 5000 6000
Distancia del centro (metros)
¿Cómo se interpreta el valor de
la covarianza?

• Si la covarianza es un número positivo, se


habla de una relación lineal positiva x y
• Si la covarianza es un número negativo, la
relación lineal x y es negativa
• Si la covarianza resulta en un número cercano
a cero, se puede concluir que no hay relación
lineal x y
Coeficiente de correlación
Momento de Pearson

• También mide la correlación que existe entre


dos variables
• Evita que el valor de la covarianza se vea
afectado por la unidad de medida que se
utilice.
• Se obtiene dividiendo la covarianza entre el
producto de la desviación estándar de x por la
desviación estándar de y
𝑠𝑥𝑦
𝑟𝑥𝑦 =
𝑠𝑥 𝑠𝑦
Coeficiente de correlación
Momento de Pearson
Ejemplo
Manzana Distancia del Viviendas sin
centro (m) drenaje (%)
1 2000 50 -1000 1000000 -1 1 1000
2 5000 57 2000 4000000 6 36 12000
3 1000 41 -2000 4000000 -10 100 20000
4 3000 54 0 0 3 9 0
5 4000 54 1000 1000000 3 9 3000
6 1000 38 -2000 4000000 -13 169 26000
7 5000 63 2000 4000000 12 144 24000
8 3000 48 0 0 -3 9 0
9 4000 59 1000 1000000 8 64 8000
10 2000 46 -1000 1000000 -5 25 5000
Totales 0 20,000,000 0 566 99000
Coeficiente de correlación
Momento de Pearson
20000000 Si en lugar de metros,
𝑠𝑥 = = 𝟏𝟒𝟗𝟎. 𝟕𝟏 hubiéramos hecho el
9
cálculo en kilómetros,
sxy hubiese sido de 11,
566
𝑠𝑦 = = 𝟕. 𝟗𝟑 pero rxy no varía
9

Como Sxy = 11000, el coeficiente de correlación es:

𝑠𝑥𝑦 11000
𝑟𝑥𝑦 = = = +0.93
𝑠𝑥 𝑠𝑦 (1490.71)(7.93)
Interpretación del coeficiente
de correlación

• Si el coeficiente arroja +1, se considera una correlación lineal


positiva perfecta
• Si el coeficiente da -1, se está frente a auna correlación lineal
negativa perfecta

En el ejemplo, como rxy = +0.93, se puede considerar que existe


una fuerte relación lineal positiva y con ello se concluye que un
aumento en la distancia respecto del centro en la localización
de un predio, se asocia con un incremento en el procentaje de
viviendas sin acceso a drenaje.
Estadística descriptiva para
MINITAB

1. Abrir archivo Salarios.MTW


2. Elegir Basic Statistics y luego Display Basic
Statistics, ingresar variable C2 y click en OK
3. Seleccionar menú Graph
4. Elegir Boxplot, seleccionar Simple y Click en
OK,
5. Elegir variable C2 y click e OK
Sesgo con MINITAB

• Abrir archivo Salarios.MTW


• Seleccionar menú Stat y elegir Basic Statistics
y luego Display Basic Statistics
• En el cuadro, elegir Statistics y luego Skewness
• Click en OK
Covarianza y Correlación con
MINITAB

• Abrir archivo Drenaje.MTW


• Seleccionar menú Stat – Basic Statistics y
elegir Covariance
• En el cuadro de diálogo ingresar C2 C3 en el en
Variable y click en OK
• Para correlación, elegir Correlation en lugar
de Covariance.

También podría gustarte