Está en la página 1de 5

Tarea 3

Grupo 4

17 de Octubre de 2018

Análisis de Datos Políticos Profesora: Carmen Le Foulon


Miércoles 17 de Octubre

3) Usando los datos de “base_tarea3.cvs”, y suponiendo que el modelo poblacional


corresponde a 𝑁𝑁1=𝑁0+𝑁1𝑁𝑁𝑁_𝑁𝑁𝑁𝑁+𝑁𝑁, donde NC corresponde al nivel de
contaminación de una zona geográfica, y per_urb corresponde al porcentaje de esa
zona que corresponde a areas urbanas.
a. Estimen los parámetros mediante programa elegido y reporten la tabla con los
resultados. (4 p)
Para estimar los parámetros del modelo de regresión múltiple, usarémos el software R
como se sigue:
Cargamos los paquetes necesarios
library(tidyverse)
library(stargazer)
library(broom)

Luego abrimos la base creando un objeto


datos <- read.csv("base_tarea3.csv")

Ahora estamos listo para crear el modelo de la siguiente forma


modelo_1 <-lm(NC ~ per_urb, data = datos)

summary(modelo_1)

Para visualizar los datos creamos la siguiente tabla con ‘stargazer’

Tabla 1: Modelo OLS sobre niveles de contaminación en una zona geográfica


porcentaje de la zona Contaminada de áreas urbanas
Modelo 1

Porcentaje de áreas urbanas 93.060**


(40.610)

Intercepto 517.596***
(24.574)

Observations 50
R2 0.099
Adjusted R2 0.080
Residual Std. Error 55.702 (df = 48)
F Statistic 5.251** (df = 1; 48)

*
Note: p<0.1; **p<0.05; ***p<0.01
Fuente: Elaboración Propia en base a datos base tarea3

b. Interprete el intercepto del modelo (3p)


Respecto al intercepto, según la tabla 1, podemos observar que posee un valor de
517,60 en el modelo, lo que significa que cuando la variable independiente tiene valor
0, la variable dependiente toma el valor de 517,60. En otras palabras, cuando el
porcentaje de areas urbanas en la zona es 0, el nivel de contaminación es 517,60 siendo
este el punto de inicio de la curva de regresión.
c. Interprete el valor del coeficiente de X. (4p)
Acorde a los resultados mostrados en la Tabla 1 el coeficiente de x es 93.06, en razón
de la variable dependiente. Lo anterior nos indica que por cada unidad de análisis que
se aumenta de la variable independiente, el valor de y en promedio aumenta en 93.06
puntos.
d. Realice un test de significancia estadística del 𝑁1 (6pcómo se calcula el indicador
de bondad de ajuste del modelo, calcúlelo – para ello debe obtener los valores y
mostrar su cálculo. Interprételo. (6p)

Paso 1: Supuestos
Bajo los supuestos del modelo clásico de regresión de Gauss Markov debemos tenemos
los siguientes supuestos para un estimador insesgado, asumiendo la normalidad del
error:
𝛽^𝑗 ∼ 𝑁(𝛽𝑗 , 𝑉𝑎𝑟(𝛽^𝑗 ))

Por tanto,

𝛽^𝑗 − 𝛽𝑗
∼ 𝑁(0,1)
𝑑𝑒𝑠𝑣(𝛽^ )
𝑗

Además, como no conocemos la varianza debemos estimarla


𝑁𝐶𝑅
𝜎2 =
𝑁 − (𝑘 + 1)
entonces la distribución es

𝛽^𝑗 − 𝛽𝑗
∼ 𝑡 − 𝑆𝑡𝑢𝑑𝑒𝑛𝑡( 𝑛 − 𝑘 − 1)
𝑠𝑒(𝛽^ )
𝑗

1) Linealidad en los parámetros


dado que el modelo poblacional es $NC_1= {_0} + {_1{per_urb}} +u $
2) Rango completo, o variabilidad en X
como la variable independiente no es constante se explica por la variabilidad de x
3) Independencia condicional / Media condicional = 0: 𝐸(𝜇|𝑋) = 0
En otras palabras, se espera que el error 𝜇 sea 0
4) Muestreo aleatorio
Del modelo se desprende que hay un muestreo aleatorio con 50 observaciones
5) Homocedasticidad.
Eficiencia refiere a la menor varianza del estimador.
𝑉𝑎𝑟(𝜇|𝑋) = 𝜎
6) Error se distribuye normal: 𝜇 ∼ 𝑁(0, 𝜎 2 )

Paso 2: definir hipótesis


𝑆𝑒𝑎 𝐻0: 𝛽𝑝𝑒𝑟_𝑢𝑟𝑏 = 0

𝑆𝑒𝑎 𝐻𝑎: 𝛽𝑝𝑒𝑟_𝑢𝑟𝑏 ≠ 0


Paso 4: test estadístico
^
𝛽 − 𝛽𝑝𝑒𝑟_𝑢𝑟𝑏
𝑝𝑒𝑟_𝑢𝑟𝑏
∼ 𝑡 − 𝑆𝑡𝑢𝑑𝑒𝑛𝑡( 50 − 1 − 1)
^
𝑠𝑒(𝛽 )
𝑝𝑒𝑟_𝑢𝑟𝑏

93,06 − 0
= 2.291554
40,61

Paso 4: Valor p
Valor p: 𝑃𝑟𝑜𝑏(𝑡 > |2,291554|)
𝑡 ∼ 𝑡 − 𝑆𝑡𝑢𝑑𝑒𝑛𝑡(50 − 2), por lo que 𝑃𝑟𝑜𝑏(𝑡 > |2,291554|) = 0,02636

Concluir
El valor p obtenido es estadísticamente significativo bajo un nivel de confianza del 95%,
por lo que es posible rechazar H0.

Calculemos la Bondad de Ajuste


Recordamos que 𝑅 2 es igual a 1- SRC/STC.
Generamos los valores predichos y residuos
datos$predichos<- predict(modelo_1)
datos$residuos<- residuals(modelo_1)

datos$residuos

Calculamos la Suma de Residuos Cuadrados


src1<- (datos$residuos)^2
src<-sum (src1)

La suma total de cuadrados es el valor de cada 𝑌𝑖 menos Y promedio, al cuadrado


También sabemos que esto es la varianza de Y.
stc:
ybarra<-mean(datos$NC)
auxvarianza<- (datos$NC-ybarra)^2
stc<- sum(auxvarianza)

Entonces, 𝑅 2 es
r2<- 1-(src/stc)
r2

## [1] 0.09861192
sum(datos$residuos)

## [1] 1.421085e-14

Muestro que la correlación de X con los residuos es 0 por definición


cor(datos$per_urb, datos$residuos)

## [1] -1.443453e-17

También podría gustarte