S12s.1 TEMA XII

CURSO DE
GEOESTDISTICA
I. Relación lineal y no lineal
Grafico X/Y
Gráfico de dispersión conjunta de dos variables
(X e Y).
Variable Y
Variable X
Relación entre variables
cuantitativas
Dos variables están relacionadas cuando varían

conjuntamente. Es decir:
Al variar la variable X, varía la variable Y

cuantitativas en grafico X/Y
Gráfico de dispersión conjunta de dos variables
(X e Y).
Variable Y
Variable X
20
0
0 20 40 60
15
o10. horas de trabajo, empleo principal
escolaridad
10
5
0
0 20 40 60 80 100
edad
Relación lineal entre variables
Efecto de una variable en otra es constante

II. Covarianza y Correlación
Varianza y Covarianza
Varianza: Medida de dispersión de una variable.
σ𝑁 ҧ 2
𝑖=1(𝑥𝑖 − 𝑥)
σ𝑛𝑖=1(𝑥𝑖 − 𝑥)ҧ 2
𝑉𝑎𝑟(𝑥) = 𝑉𝑎𝑟(𝑥) =
𝑁 𝑛−1
Covarianza: Medida de dispersión conjunta de dos

variables.
σ𝑁 σ𝑛𝑖=1 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത
𝑖=1 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦
ത
𝐶𝑜𝑣 𝑥, 𝑦 =
𝐶𝑜𝑣 𝑥, 𝑦 = 𝑛−1
𝑁
Parámetro Estimadores
Covarianza
σ𝑛𝑖=1 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦
𝐶𝑜𝑣 𝑥, 𝑦 =
𝑛−1
𝑦ത 𝑦ത 𝑦ത
𝑥ҧ 𝑥ҧ 𝑥ҧ
Problema: Depende de nivel medida de la

variable, por tanto no es fácil de interpretar
Correlación de Pearson
Medida de relación lineal entre dos variables
cuantitativas.
𝐶𝑜𝑣(𝑋,𝑌)
𝑟=
𝑉𝑎𝑟 𝑋 𝑉𝑎𝑟(𝑌)
r=1→ Correlación negativa perfecta

r=0→Nula correlación*
r=1→Correlación positiva perfecta
r=-1 Correlación negativa perfecta
r ∈ [−0,7; −1) Correlación negativa de alta intensidad
r ∈ [−0,3; −0.7) Correlación negativa de mediana intensidad
r ∈ [−0,1; −0.3) Correlación negativa de baja intensidad
r ∈ (0; −0.1) Correlación negativa de muy baja intensidad
r=0 Nula correlación*
r ∈ (0; 0.1) Correlación positiva de muy baja intensidad
r ∈ [0,1; 0.3) Correlación positiva de baja intensidad
r ∈ [0,3; 0.7) Correlación positiva de mediana intensidad
r ∈ [0,7; 1) Correlación positiva de alta intensidad
r=1 Correlación positiva perfecta
Si trabajamos con muestras:
Test de hipótesis: H0→r=0, H1→r≠0
r=1 700
r=0,78
700
600
600
Sueldo
500
Sueldo
500
400
400
300
300
200
200
100
100
0
0
3 6 9 12 15 18 21 24 27 30
1 2 3 4 5 6 7 8 9 10
Escolaridad Experiencia laboral
r=0,02
15
10
5
Y
0
-5 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
-10
-15
X
Correlación de Pearson con
variable de control
Analizar si correlación entre dos variables se explica por
una tercera.
PROCEDIMIENTO:
– Estimar correlación y test de hipótesis asociado para
cada categoría de la tercera variable.
CONCLUSION
– Correlación robusta: hay correlación en todas las
categorías de la tercera variable.
– Correlación espuria: no hay correlación en ninguna
de las categorías de la tercera variable.
– Correlación condicionada: hay asociación en
alguna(s) de las categorías de la tercera variable.
Correlaciones espurias
http://www.tylervigen.com/spurious-correlations
https://twitter.com/clarroulet/status/730931861384507392
variable de control
Ejemplo: Datos CASEN 2013
Correlación Valor P Test de

ingresos hipótesis
escolaridad
Toda la muestra 0,2744 0.000
Hombres 0,2935 0.000
Mujeres 0,2564 0.000
variable de control
Ejemplo: Datos CASEN 2013
Correlación edad Valor P Test de

escolaridad hipótesis
Toda la muestra -0.4431 0.000
Hombres -0.3985 0.000
Mujeres -0.4801 0.000
III. Regresión lineal Simple
Regresión Lineal Simple (RLS)
Técnica de análisis estadístico utilizada para estimar el
efectos de una variable (independientes
/predictores) en otra variable cuantitativa
(dependiente/ predicha/ respuesta).
(Permite probar la hipótesis de que el efecto de la variable

independiente en la dependiente es distinta de 0.)
Técnica de análisis estadístico utilizada para predecir

una variable dependiente, a partir de otra
independiente.
Objetivos de investigación
• Determinar como incide A (independiente) en B
(dependiente).
• Predecir B (dependiente) a partir de A

(independiente).
El modelo: la recta
X→Y
Y
X
El modelo: la recta
Y=a+Xb
Intercepto pendiente
Eje y
y2
b
y1
a
x1 x2 Eje x
El modelo: la recta
Y=a+Xb
1200 Intercepto pendiente
Ingresos (Miles de pesos)
1000
800
600
400
200
0
0 2 4 6 8 10 12 14 16 18 20 22 24
Años de Escolaridad
Al aumentar en 1 los años de escolaridad, aumenta en b el ingreso
El modelo: la recta
Constante
Coeficiente del
Modelo: Indica el
efecto de X en Y
Y =a+ X b +e
Variable
Dependiente Variable Error: Variables no
Independiente observadas que
influyen en Y
El modelo: la recta
Constante
Coeficiente del
Modelo: Indica el
efecto de X en Y
Y =a+ X b +e
Variable
Dependiente Variable Error: Variables no
CUANTITATIVA Independiente observadas que
CUANTITATIVA influyen en Y
O
DUMMY
Estimación del modelo
Estimador
de la Estimador del
Constante Coeficiente del
Modelo: Indica el
𝑌෠ = 𝛼ො + X 𝛽መ efecto de X en Y
Variable
Dependiente Variable
Predicha Independiente
Estimación del modelo:
Residuo
Residuo
Variable
dependiente
Variable
𝜀Ƹ = 𝑌 − 𝑌෠ dependiente
predicha
Residuo
1200
1000
800
600
400
200
0
0 5 10 15 20 25
1200
1000
800
600
400
200
0
0 5 10 15 20 25
1200
1000
800
600
400
200
0
0 5 10 15 20 25
1200
1000
800
600
400
200
0
0 5 10 15 20 25
Mínimos cuadrados ordinarios (MCO)
Siendo 𝜀ෝ𝑖 el residuo para el individuo I, buscamos la

መ que minimice:
recta (𝛼ො y 𝛽)
෍ 𝜀ෝ𝑖 2
𝑖=1
Supuestos del modelo
1. Relación lineal entre las variables
2. Errores independientes con E(e)=0
3. Homocedasticidad de los errores: Varianza de los

errores es constante
4. Ausencia de outliers
5. Independencia de X y errores
IV. Regresión Lineal Múltiple
Regresión Lineal Múltiple (RLM)
Técnica de análisis estadístico utilizada para estimar el
efectos de varias variables (independientes
/predictores) en una variable cuantitativa
(dependiente/ predicha/ respuesta).
(Permite probar la hipótesis de que el efecto de las variables

independientes en la dependiente son distintas de 0.)
Técnica de análisis estadístico utilizada para predecir

una variable dependiente, a partir de otras
independientes.
Objetivos de investigación
• Determinar como incide A, B, C,…
(independiente) en Y (dependiente).
• Predecir Y (dependiente) a partir de A, B, C, …

(independiente).
El modelo
El modelo: Variables
Y = a+ X1 b1+…+ Xk bk +e
Variable
Dependiente
CUANTITATIVA Variables independiente
CUANTITATIVAS
O DUMMY
El modelo: parámetros
Y = a+ X1 b1+…+ Xk bk +e
Constante
Efecto de X en Y
(controlando por las demás X)
Estimador Estimador del Coeficiente
de la del Modelo: Indica el
Constante efecto de X en Y
Y = a+ X1 b1+…+ Xk bk
Variable
Dependiente Variables
Predicha Independientes
Residuo
Variable
dependiente
Variable
𝜀Ƹ = 𝑌 − 𝑌෠ dependiente
predicha
Residuo
Mínimos cuadrados ordinarios (MCO)
Siendo 𝜀ෝ𝑖 el residuo para el individuo I, buscamos la

ො ෢
recta (𝛼, ෢𝑘 ) que minimice:
𝛽1 , … , 𝛽
෍ 𝜀ෝ𝑖 2
𝑖=1
Supuestos del modelo
1. Relación lineal entre las variables
2. Errores independientes con E(e)=0
3. Homocedasticidad de los errores: Varianza de los
errores es constante
4. Ausencia de outliers
5. Independencia de X y errores
6. Ausencia de multicolinealidad: Variables
independientes deben ser independientes entre
sí.
Ajuste del modelo: Coeficiente de
determinación (R2)
• Suma total de cuadrados:
ഥ)𝟐 = 𝑺𝑺𝑬 + 𝑺𝑺𝑹
𝑺𝑺𝑻 = ෍(𝒚𝒊 − 𝒚
𝒊
• Suma de cuadrados explicada:
𝑺𝑺𝑬 = ෍(ෝ ഥ )𝟐
𝒚𝒊 − 𝒚 𝑆𝑆𝐸
𝑅2 =
𝒊 𝑆𝑆𝑇
• Suma de cuadrados residual:
Interpretación: El modelo
ෝ 𝒊 )𝟐
𝑺𝑺𝑹 = ෍(𝒚𝒊 − 𝒚 explica el R2*100% de la
𝒊 varianza de la variable
dependiente
ANOVA y Estadístico F
• Media cuadrática:
– Residual (MSR)=SCR/n-(k+1)→n-(k+1) gl
– Explicada (MSE): SCE/[(k +1) – 1]→k gl
• Estadístico
• H0:
• F>F crítico se rechaza H0; P<a se rechaza H0
Interpretación de coeficientes
Y=a + 𝑿𝟏 𝜷𝟏 +…+ 𝑿𝒌 𝜷𝒌 + e
Al aumentar en uno 𝑿𝒌 , mantendiendo las demás
variables constantes, Y aumenta en 𝜷𝒌 unidades.
Para cada 𝜷𝒌 , se hace un Test T, que pone a prueba las

hipótesis:
• 𝑯𝟎 : 𝜷𝒌 =0
• 𝑯𝟏 : 𝜷𝒌 ≠0
Si Valor P<a: se rechaza 𝑯𝟎
Interpretación de coeficientes
Y=a + 𝑿𝟏 𝜷𝟏 +…+ 𝑿𝒌 𝜷𝒌 + e
Al aumentar en uno 𝑿𝒌 , mantendiendo las demás
variables constantes, Y aumenta en 𝜷𝒌 unidades.
Para cada 𝜷𝒌 , se hace un Test T, que pone a prueba las

hipótesis:
• 𝑯𝟎 : 𝜷𝒌 =0
• 𝑯𝟏 : 𝜷𝒌 ≠0
Si Valor P<a: se rechaza 𝑯𝟎

S12s.1 TEMA XII

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

S12s.1 TEMA XII

Cargado por

Copyright:

Formatos disponibles

CURSO DE

Dos variables están relacionadas cuando varían

Al variar la variable X, varía la variable Y

Efecto de una variable en otra es constante

Covarianza: Medida de dispersión conjunta de dos

Problema: Depende de nivel medida de la

r=1→ Correlación negativa perfecta

Escolaridad Experiencia laboral

Correlación Valor P Test de

Correlación edad Valor P Test de

(Permite probar la hipótesis de que el efecto de la variable

Técnica de análisis estadístico utilizada para predecir

• Predecir B (dependiente) a partir de A

Siendo 𝜀ෝ𝑖 el residuo para el individuo I, buscamos la

2. Errores independientes con E(e)=0

3. Homocedasticidad de los errores: Varianza de los

(Permite probar la hipótesis de que el efecto de las variables

Técnica de análisis estadístico utilizada para predecir

• Predecir Y (dependiente) a partir de A, B, C, …

Siendo 𝜀ෝ𝑖 el residuo para el individuo I, buscamos la

Para cada 𝜷𝒌 , se hace un Test T, que pone a prueba las

Para cada 𝜷𝒌 , se hace un Test T, que pone a prueba las

También podría gustarte