Documentos de Académico
Documentos de Profesional
Documentos de Cultura
GEOESTDISTICA
I. Relación lineal y no lineal
Grafico X/Y
Gráfico de dispersión conjunta de dos variables
(X e Y).
Variable Y
Variable X
Relación entre variables
cuantitativas
Variable X
Relación entre variables
cuantitativas en grafico X/Y
Relación entre variables
cuantitativas en grafico X/Y
20
0
0 20 40 60
15
o10. horas de trabajo, empleo principal
escolaridad
10
5
0
0 20 40 60 80 100
edad
Relación lineal entre variables
Parámetro Estimadores
Covarianza
σ𝑛𝑖=1 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦
𝐶𝑜𝑣 𝑥, 𝑦 =
𝑛−1
𝑦ത 𝑦ത 𝑦ത
𝑥ҧ 𝑥ҧ 𝑥ҧ
Sueldo
500
Sueldo
500
400
400
300
300
200
200
100
100
0
0
3 6 9 12 15 18 21 24 27 30
1 2 3 4 5 6 7 8 9 10
r=0,02
15
10
5
Y
0
-5 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
-10
-15
X
Correlación de Pearson
Correlación de Pearson con
variable de control
Analizar si correlación entre dos variables se explica por
una tercera.
PROCEDIMIENTO:
– Estimar correlación y test de hipótesis asociado para
cada categoría de la tercera variable.
CONCLUSION
– Correlación robusta: hay correlación en todas las
categorías de la tercera variable.
– Correlación espuria: no hay correlación en ninguna
de las categorías de la tercera variable.
– Correlación condicionada: hay asociación en
alguna(s) de las categorías de la tercera variable.
Correlaciones espurias
http://www.tylervigen.com/spurious-correlations
https://twitter.com/clarroulet/status/730931861384507392
Correlación de Pearson con
variable de control
Ejemplo: Datos CASEN 2013
X
El modelo: la recta
Y=a+Xb
Intercepto pendiente
Eje y
y2
b
y1
a
x1 x2 Eje x
El modelo: la recta
Y=a+Xb
1200 Intercepto pendiente
Ingresos (Miles de pesos)
1000
800
600
400
200
0
0 2 4 6 8 10 12 14 16 18 20 22 24
Años de Escolaridad
Al aumentar en 1 los años de escolaridad, aumenta en b el ingreso
El modelo: la recta
Constante
Coeficiente del
Modelo: Indica el
efecto de X en Y
Y =a+ X b +e
Variable
Dependiente Variable Error: Variables no
Independiente observadas que
influyen en Y
El modelo: la recta
Constante
Coeficiente del
Modelo: Indica el
efecto de X en Y
Y =a+ X b +e
Variable
Dependiente Variable Error: Variables no
CUANTITATIVA Independiente observadas que
CUANTITATIVA influyen en Y
O
DUMMY
Estimación del modelo
Estimador
de la Estimador del
Constante Coeficiente del
Modelo: Indica el
𝑌 = 𝛼ො + X 𝛽መ efecto de X en Y
Variable
Dependiente Variable
Predicha Independiente
Estimación del modelo
Estimación del modelo:
Residuo
Estimación del modelo:
Residuo
Variable
dependiente
Variable
𝜀Ƹ = 𝑌 − 𝑌 dependiente
predicha
Residuo
Estimación del modelo
1200
Ingresos (Miles de pesos)
1000
800
600
400
200
0
0 5 10 15 20 25
Años de Escolaridad
Estimación del modelo
1200
Ingresos (Miles de pesos)
1000
800
600
400
200
0
0 5 10 15 20 25
Años de Escolaridad
Estimación del modelo
1200
Ingresos (Miles de pesos)
1000
800
600
400
200
0
0 5 10 15 20 25
Años de Escolaridad
Estimación del modelo
1200
Ingresos (Miles de pesos)
1000
800
600
400
200
0
0 5 10 15 20 25
Años de Escolaridad
Mínimos cuadrados ordinarios (MCO)
𝜀ෝ𝑖 2
𝑖=1
Supuestos del modelo
1. Relación lineal entre las variables
4. Ausencia de outliers
5. Independencia de X y errores
IV. Regresión Lineal Múltiple
Regresión Lineal Múltiple (RLM)
Técnica de análisis estadístico utilizada para estimar el
efectos de varias variables (independientes
/predictores) en una variable cuantitativa
(dependiente/ predicha/ respuesta).
Y = a+ X1 b1+…+ Xk bk +e
Variable
Dependiente
CUANTITATIVA Variables independiente
CUANTITATIVAS
O DUMMY
El modelo: parámetros
Y = a+ X1 b1+…+ Xk bk +e
Constante
Efecto de X en Y
(controlando por las demás X)
Estimación del modelo
Estimador Estimador del Coeficiente
de la del Modelo: Indica el
Constante efecto de X en Y
Y = a+ X1 b1+…+ Xk bk
Variable
Dependiente Variables
Predicha Independientes
Estimación del modelo:
Residuo
Variable
dependiente
Variable
𝜀Ƹ = 𝑌 − 𝑌 dependiente
predicha
Residuo
Mínimos cuadrados ordinarios (MCO)
𝜀ෝ𝑖 2
𝑖=1
Supuestos del modelo
1. Relación lineal entre las variables
2. Errores independientes con E(e)=0
3. Homocedasticidad de los errores: Varianza de los
errores es constante
4. Ausencia de outliers
5. Independencia de X y errores
6. Ausencia de multicolinealidad: Variables
independientes deben ser independientes entre
sí.
Ajuste del modelo: Coeficiente de
determinación (R2)
• Suma total de cuadrados:
ഥ)𝟐 = 𝑺𝑺𝑬 + 𝑺𝑺𝑹
𝑺𝑺𝑻 = (𝒚𝒊 − 𝒚
𝒊
• Suma de cuadrados explicada:
𝑺𝑺𝑬 = (ෝ ഥ )𝟐
𝒚𝒊 − 𝒚 𝑆𝑆𝐸
𝑅2 =
𝒊 𝑆𝑆𝑇
• Suma de cuadrados residual:
Interpretación: El modelo
ෝ 𝒊 )𝟐
𝑺𝑺𝑹 = (𝒚𝒊 − 𝒚 explica el R2*100% de la
𝒊 varianza de la variable
dependiente
ANOVA y Estadístico F
• Media cuadrática:
– Residual (MSR)=SCR/n-(k+1)→n-(k+1) gl
– Explicada (MSE): SCE/[(k +1) – 1]→k gl
• Estadístico
• H0:
• F>F crítico se rechaza H0; P<a se rechaza H0
Interpretación de coeficientes
Y=a + 𝑿𝟏 𝜷𝟏 +…+ 𝑿𝒌 𝜷𝒌 + e
Al aumentar en uno 𝑿𝒌 , mantendiendo las demás
variables constantes, Y aumenta en 𝜷𝒌 unidades.