Está en la página 1de 51

CURSO DE

GEOESTDISTICA
I. Relación lineal y no lineal
Grafico X/Y
Gráfico de dispersión conjunta de dos variables
(X e Y).
Variable Y

Variable X
Relación entre variables
cuantitativas

Dos variables están relacionadas cuando varían


conjuntamente. Es decir:

Al variar la variable X, varía la variable Y


Relación entre variables
cuantitativas en grafico X/Y
Gráfico de dispersión conjunta de dos variables
(X e Y).
Variable Y

Variable X
Relación entre variables
cuantitativas en grafico X/Y
Relación entre variables
cuantitativas en grafico X/Y

20
0

0 20 40 60
15
o10. horas de trabajo, empleo principal
escolaridad

10
5
0

0 20 40 60 80 100
edad
Relación lineal entre variables

Efecto de una variable en otra es constante


II. Covarianza y Correlación
Varianza y Covarianza
Varianza: Medida de dispersión de una variable.
σ𝑁 ҧ 2
𝑖=1(𝑥𝑖 − 𝑥)
σ𝑛𝑖=1(𝑥𝑖 − 𝑥)ҧ 2
𝑉𝑎𝑟(𝑥) = 𝑉𝑎𝑟(𝑥) =
𝑁 𝑛−1

Covarianza: Medida de dispersión conjunta de dos


variables.
σ𝑁 σ𝑛𝑖=1 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത
𝑖=1 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦

𝐶𝑜𝑣 𝑥, 𝑦 =
𝐶𝑜𝑣 𝑥, 𝑦 = 𝑛−1
𝑁

Parámetro Estimadores
Covarianza
σ𝑛𝑖=1 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦
𝐶𝑜𝑣 𝑥, 𝑦 =
𝑛−1

𝑦ത 𝑦ത 𝑦ത

𝑥ҧ 𝑥ҧ 𝑥ҧ

Problema: Depende de nivel medida de la


variable, por tanto no es fácil de interpretar
Correlación de Pearson
Medida de relación lineal entre dos variables
cuantitativas.
𝐶𝑜𝑣(𝑋,𝑌)
𝑟=
𝑉𝑎𝑟 𝑋 𝑉𝑎𝑟(𝑌)

r=1→ Correlación negativa perfecta


r=0→Nula correlación*
r=1→Correlación positiva perfecta
Correlación de Pearson
r=-1 Correlación negativa perfecta
r ∈ [−0,7; −1) Correlación negativa de alta intensidad
r ∈ [−0,3; −0.7) Correlación negativa de mediana intensidad
r ∈ [−0,1; −0.3) Correlación negativa de baja intensidad
r ∈ (0; −0.1) Correlación negativa de muy baja intensidad
r=0 Nula correlación*
r ∈ (0; 0.1) Correlación positiva de muy baja intensidad
r ∈ [0,1; 0.3) Correlación positiva de baja intensidad
r ∈ [0,3; 0.7) Correlación positiva de mediana intensidad
r ∈ [0,7; 1) Correlación positiva de alta intensidad
r=1 Correlación positiva perfecta
Si trabajamos con muestras:
Test de hipótesis: H0→r=0, H1→r≠0
Correlación de Pearson
r=1 700
r=0,78
700
600
600

Sueldo
500
Sueldo

500
400
400
300
300
200
200
100
100
0
0
3 6 9 12 15 18 21 24 27 30
1 2 3 4 5 6 7 8 9 10

Escolaridad Experiencia laboral

r=0,02
15
10
5
Y

0
-5 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

-10
-15
X
Correlación de Pearson
Correlación de Pearson con
variable de control
Analizar si correlación entre dos variables se explica por
una tercera.
PROCEDIMIENTO:
– Estimar correlación y test de hipótesis asociado para
cada categoría de la tercera variable.
CONCLUSION
– Correlación robusta: hay correlación en todas las
categorías de la tercera variable.
– Correlación espuria: no hay correlación en ninguna
de las categorías de la tercera variable.
– Correlación condicionada: hay asociación en
alguna(s) de las categorías de la tercera variable.
Correlaciones espurias

http://www.tylervigen.com/spurious-correlations
https://twitter.com/clarroulet/status/730931861384507392
Correlación de Pearson con
variable de control
Ejemplo: Datos CASEN 2013

Correlación Valor P Test de


ingresos hipótesis
escolaridad
Toda la muestra 0,2744 0.000
Hombres 0,2935 0.000
Mujeres 0,2564 0.000
Correlación de Pearson con
variable de control
Ejemplo: Datos CASEN 2013

Correlación edad Valor P Test de


escolaridad hipótesis
Toda la muestra -0.4431 0.000
Hombres -0.3985 0.000
Mujeres -0.4801 0.000
III. Regresión lineal Simple
Regresión Lineal Simple (RLS)
Técnica de análisis estadístico utilizada para estimar el
efectos de una variable (independientes
/predictores) en otra variable cuantitativa
(dependiente/ predicha/ respuesta).

(Permite probar la hipótesis de que el efecto de la variable


independiente en la dependiente es distinta de 0.)

Técnica de análisis estadístico utilizada para predecir


una variable dependiente, a partir de otra
independiente.
Objetivos de investigación
• Determinar como incide A (independiente) en B
(dependiente).

• Predecir B (dependiente) a partir de A


(independiente).
El modelo: la recta
X→Y
Y

X
El modelo: la recta
Y=a+Xb
Intercepto pendiente

Eje y

y2
b
y1
a

x1 x2 Eje x
El modelo: la recta
Y=a+Xb
1200 Intercepto pendiente
Ingresos (Miles de pesos)

1000

800

600

400

200

0
0 2 4 6 8 10 12 14 16 18 20 22 24
Años de Escolaridad
Al aumentar en 1 los años de escolaridad, aumenta en b el ingreso
El modelo: la recta
Constante
Coeficiente del
Modelo: Indica el
efecto de X en Y
Y =a+ X b +e

Variable
Dependiente Variable Error: Variables no
Independiente observadas que
influyen en Y
El modelo: la recta
Constante
Coeficiente del
Modelo: Indica el
efecto de X en Y
Y =a+ X b +e

Variable
Dependiente Variable Error: Variables no
CUANTITATIVA Independiente observadas que
CUANTITATIVA influyen en Y
O
DUMMY
Estimación del modelo
Estimador
de la Estimador del
Constante Coeficiente del
Modelo: Indica el
𝑌෠ = 𝛼ො + X 𝛽መ efecto de X en Y

Variable
Dependiente Variable
Predicha Independiente
Estimación del modelo
Estimación del modelo:
Residuo
Estimación del modelo:
Residuo
Variable
dependiente

Variable
𝜀Ƹ = 𝑌 − 𝑌෠ dependiente
predicha

Residuo
Estimación del modelo
1200
Ingresos (Miles de pesos)

1000

800

600

400

200

0
0 5 10 15 20 25
Años de Escolaridad
Estimación del modelo
1200
Ingresos (Miles de pesos)

1000

800

600

400

200

0
0 5 10 15 20 25
Años de Escolaridad
Estimación del modelo
1200
Ingresos (Miles de pesos)

1000

800

600

400

200

0
0 5 10 15 20 25
Años de Escolaridad
Estimación del modelo
1200
Ingresos (Miles de pesos)

1000

800

600

400

200

0
0 5 10 15 20 25
Años de Escolaridad
Mínimos cuadrados ordinarios (MCO)

Siendo 𝜀ෝ𝑖 el residuo para el individuo I, buscamos la


መ que minimice:
recta (𝛼ො y 𝛽)

෍ 𝜀ෝ𝑖 2
𝑖=1
Supuestos del modelo
1. Relación lineal entre las variables

2. Errores independientes con E(e)=0

3. Homocedasticidad de los errores: Varianza de los


errores es constante

4. Ausencia de outliers

5. Independencia de X y errores
IV. Regresión Lineal Múltiple
Regresión Lineal Múltiple (RLM)
Técnica de análisis estadístico utilizada para estimar el
efectos de varias variables (independientes
/predictores) en una variable cuantitativa
(dependiente/ predicha/ respuesta).

(Permite probar la hipótesis de que el efecto de las variables


independientes en la dependiente son distintas de 0.)

Técnica de análisis estadístico utilizada para predecir


una variable dependiente, a partir de otras
independientes.
Objetivos de investigación
• Determinar como incide A, B, C,…
(independiente) en Y (dependiente).

• Predecir Y (dependiente) a partir de A, B, C, …


(independiente).
El modelo
El modelo: Variables

Y = a+ X1 b1+…+ Xk bk +e
Variable
Dependiente
CUANTITATIVA Variables independiente
CUANTITATIVAS
O DUMMY
El modelo: parámetros

Y = a+ X1 b1+…+ Xk bk +e
Constante

Efecto de X en Y
(controlando por las demás X)
Estimación del modelo
Estimador Estimador del Coeficiente
de la del Modelo: Indica el
Constante efecto de X en Y

Y = a+ X1 b1+…+ Xk bk

Variable
Dependiente Variables
Predicha Independientes
Estimación del modelo:
Residuo
Variable
dependiente

Variable
𝜀Ƹ = 𝑌 − 𝑌෠ dependiente
predicha

Residuo
Mínimos cuadrados ordinarios (MCO)

Siendo 𝜀ෝ𝑖 el residuo para el individuo I, buscamos la


ො ෢
recta (𝛼, ෢𝑘 ) que minimice:
𝛽1 , … , 𝛽

෍ 𝜀ෝ𝑖 2
𝑖=1
Supuestos del modelo
1. Relación lineal entre las variables
2. Errores independientes con E(e)=0
3. Homocedasticidad de los errores: Varianza de los
errores es constante
4. Ausencia de outliers
5. Independencia de X y errores
6. Ausencia de multicolinealidad: Variables
independientes deben ser independientes entre
sí.
Ajuste del modelo: Coeficiente de
determinación (R2)
• Suma total de cuadrados:
ഥ)𝟐 = 𝑺𝑺𝑬 + 𝑺𝑺𝑹
𝑺𝑺𝑻 = ෍(𝒚𝒊 − 𝒚
𝒊
• Suma de cuadrados explicada:
𝑺𝑺𝑬 = ෍(ෝ ഥ )𝟐
𝒚𝒊 − 𝒚 𝑆𝑆𝐸
𝑅2 =
𝒊 𝑆𝑆𝑇
• Suma de cuadrados residual:
Interpretación: El modelo
ෝ 𝒊 )𝟐
𝑺𝑺𝑹 = ෍(𝒚𝒊 − 𝒚 explica el R2*100% de la
𝒊 varianza de la variable
dependiente
ANOVA y Estadístico F
• Media cuadrática:
– Residual (MSR)=SCR/n-(k+1)→n-(k+1) gl
– Explicada (MSE): SCE/[(k +1) – 1]→k gl
• Estadístico

• H0:
• F>F crítico se rechaza H0; P<a se rechaza H0
Interpretación de coeficientes
Y=a + 𝑿𝟏 𝜷𝟏 +…+ 𝑿𝒌 𝜷𝒌 + e
Al aumentar en uno 𝑿𝒌 , mantendiendo las demás
variables constantes, Y aumenta en 𝜷𝒌 unidades.

Para cada 𝜷𝒌 , se hace un Test T, que pone a prueba las


hipótesis:
• 𝑯𝟎 : 𝜷𝒌 =0
• 𝑯𝟏 : 𝜷𝒌 ≠0
Si Valor P<a: se rechaza 𝑯𝟎
Interpretación de coeficientes
Y=a + 𝑿𝟏 𝜷𝟏 +…+ 𝑿𝒌 𝜷𝒌 + e
Al aumentar en uno 𝑿𝒌 , mantendiendo las demás
variables constantes, Y aumenta en 𝜷𝒌 unidades.

Para cada 𝜷𝒌 , se hace un Test T, que pone a prueba las


hipótesis:
• 𝑯𝟎 : 𝜷𝒌 =0
• 𝑯𝟏 : 𝜷𝒌 ≠0
Si Valor P<a: se rechaza 𝑯𝟎

También podría gustarte