Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Taller - 2 - Sol
Taller - 2 - Sol
1
de texto de estadística, incluso el que estamos siguiendo en clase, les puede mostrar que
una esta variable aleatoria 𝑖.𝑖.𝑑 se distribuye Bernoulli, tal que:
𝐸[𝑋] ≡ 𝜇𝑝mujeres votantes = 𝑝mujeres votantes = 0.5
𝑉 (𝑋) ≡ 𝜎𝑝2mujeres votantes = 𝑝mujeres votantes (1 − 𝑝mujeres votantes ) = 0.52 = 0.25,
por lo tanto el estadístico de muestra toma el valor:
0.55 − 0.5 0.05 0.5 √
𝑡muestra = = 0.5 = 0.5 = 10 ≈ 3.16
0.25 √ √
√ 1000 10 10 10
donde la variable 𝑏𝑤𝑔ℎ𝑡 representa el peso al nacer del infante en “onzas” y 𝜇fumadoras
𝑏𝑤𝑔ℎ𝑡 =
no fumadoras
𝐸[𝑏𝑤𝑔ℎ𝑡|Fumadora = 1] y 𝜇𝑏𝑤𝑔ℎ𝑡 = 𝐸[𝑏𝑤𝑔ℎ𝑡|Fumadora = 0] representan el valor medio
del peso del infante al nacer, condicionado a si su madre fue fumadora o no fumadora durante
el embarazo. Para poder realizar la prueba de hipótesis, es necesario crear la variable auxiliar
Fumadora, la cual no hace parte de la base original de datos. Para ello:
• Tome como referencia la variable packs, que representa el número de paquetes de cigar-
rillo que en promedio fumaba la madre diariamente mientras estuvo en embarazo.
2
• Cree la siguiente variable indicadora o dummy:
1 Si packs > 0
Fumadora = {
0 Si packs = 0
Una vez creada esta variable auxiliar, utilizando R realice la prueba “manualmente”, no uti-
lizando la función de R. Ayuda: Recuerde que está comparando las medias de dos poblaciones.
Para obtener los correspondientes tamaños de muestra 𝑁fumadoras y 𝑁no fumadoras , y para hacer
los cálculos de los promedios y las varianzas muestrales, debe “extraer” dos submuestras de
la base de datos, definidas por la variable indicadora creada anteriormente.
Comente acerca del resultado de la prueba realizada.
[6]: library(wooldridge)
# Creamos la variable dummy fumadora tomando como referencia la
# variable "packs"
bwght$fumadora <- ifelse(bwght$packs > 0, 1, 0)
sprintf("La diferencia entre el promedio muestral del peso al nacer de hijos de␣
↪fumadoras y no-fumadoras es %1.2f onzas", bwght_bar_fum-bwght_bar_nofum)
3
’El tamano de muestra de la muestra de hijos de fumadoras es 212’
’El tamano de muestra de la muestra de hijos de no-fumadoras es 1176’
’El promedio muestral del peso al nacer de hijos de fumadoras es 111.15 onzas’
’El promedio muestral del peso al nacer de hijos de no-fumadoras es 120.06 onzas’
’La diferencia entre el promedio muestral del peso al nacer de hijos de fumadoras y no-fumadoras
es -8.91 onzas’
’La varianza del peso al nacer de hijos de fumadoras es 367.93’
’La varianza del peso al nacer de hijos de no-fumadoras es 410.81’
Ya tenemos todos los elementos para calcular el estadístico
bwghtfumadoras − bwghtno-fumadoras − 0
𝑡muestra =
2
𝜎̂ bwght|fumadoras 2
𝜎̂ bwght|no-fumadoras
√ 𝑁fumadoras + 𝑁no-fumadoras
#3. Decisión
if (valor_p <= signif) {
sprintf("Existe evidencia estadistica para rechazar la hipotesis de igualdad␣
↪de medias del peso al nacer entre hijos de fumadoras y no fumadoras ya que␣
} else {
sprintf("Existe evidencia estadistica para no rechazar la hipotesis de␣
↪igualdad de medias del peso al nacer entre hijos de fumadoras y no fumadoras␣
4
’Existe evidencia estadistica para rechazar la hipotesis de igualdad de medias del peso al nacer
entre hijos de fumadoras y no fumadoras ya que el valor-p es menor que el nivel de significancia’
3. Asuma que se tiene el siguiente modelo poblacional:
bwght𝑖 = 𝛽0 + 𝛽1 Fumadora𝑖 + 𝑢𝑖
𝛽0 = 𝐸[bwght|𝐹 𝑢𝑚𝑎𝑑𝑜𝑟𝑎 = 0]
entonces 𝛽0̂ = 120.06 (ver código y resultado abajo) representa la estimacion del
valor medio del peso al nacer de un infante cuya madre es no fumadora, es decir,
a partir de la muestra disponible, se estima que el valor medio del peso de
un infante cuya madre no fue fumadora es aproximadamente 120 onzas.
Notese que el valor estimado de 𝛽0̂ es igual al valor estimado del promedio
muestral 𝜇no ̂ fumadoras calculado en el punto 2. de este taller.
bwght
entonces 𝛽1̂ = −8.91 se puede leer como la estimación de la diferencia del valor medio
del peso al nacer entre hijos de madres que fueron fumadoras e hijos de madres que
no fueron fumadoras, es decir, a partir de la muestra disponible, se estima que
la diferencia del valor medio del peso al nacer entre hijos de madres
que fueron fumadoras e hijos de madres que no fueron fumadoras es
aproximadamente −8.9 onzas. Notese que el valor estimado de 𝛽1̂ es igual
a la diferencia de promedios muestrales 𝜇fumadoras
̂
bwght − 𝜇no
̂ fumadoras calculada
bwght
en el punto 2 de este taller.
3. Cálcule “manualmente” en R el valor de la medida de bondad de ajuste 𝑅2 . Comente
acerca de su valor y lo que significa para el modelo de regresión estimado.
R:
• El resultado del cálculo fue 𝑅2 = 0.025 (ver código y resultado abajo). Como
medida de bondad de ajuste el coeficiente 𝑅2 representa la proporción de la varianza
de la variable dependiente explicada por el modelo de regresión. En este caso dicha
proporción es aproximadamente el 2.5%.
4. Bajo el supuesto del numeral anterior, cálcule “manualmente” utilizando R, los valores
de las varianza y el error estándar de 𝛽0̂ y 𝛽1̂ bajo Homocedasticidad. Adicionalmente,
5
bajo el supuesto de muestra grande, lleve a cabo las pruebas de hipótesis de significancia
de los parámetros:
𝐻0 ∶ 𝛽 𝑘 = 0
𝐻1 ∶ 𝛽𝑘 ≠ 0,
para 𝑘 = {0, 1}. Comente en particular como la prueba de significancia del parámetro 𝛽1
puede compararse con la prueba de diferencia de medias realizada en el númeral anterior.
R:
• Dado que 𝛽1 representa la diferencia del valor medio del peso al nacer entre hijos
de madres que fueron fumadoras e hijos de madres que no fueron fumadoras en la
población, la prueba de significancia sobre 𝛽1 es equivalente a la hipótesis
de igualdad de medias del punto 2.
• Notese que (bajo el supuesto de homocedasticidad) al rechazar la hipotesis de
no significancia de 𝛽1 (ver código y resultados abajo), llegamos al mismo re-
sultado de rechazar la igualdad del valor medio del peso al nacer entre in-
fantes cuyas madres fueron fumadoras, e infantes cuyas madres no fueron
fumadoras.
5. Compruebe sus resultados utilizando la función lm() en R. Presente una tabla que re-
suma sus resultados bajo el supuesto de Homocedasticidad y, por otro lado, cálculando
la varianza muestral del estimador utilizando la corrección de White. En qué cambia la
prueba de hipotesis de significancia realizada en el numeral anterior? (Ayuda: utilice la
librería stargazer y la función con el mismo nombre para presentar los dos grupos de
resultados.)
R:
• Los valores entre paréntesis abajo de las estimaciones de los coeficientes de regresión
en la tabla de resumen (ver código y resultados abajo), confirman los valores que
calculamos anteriormente de forma “manual” bajo el supuesto de homocedasticidad:
• Como puede observarse en la tabla resumen (abajo), los errores estándar asociados
a los estimadores de los coeficientes bajo el supuesto de heterocedasticidad, no son
muy diferentes a aquellos calculados bajo el supuesto de homocedasticidad:
6
beta_1_hat_reg1 <- cov(bwght$fumadora,bwght$bwght)/var(bwght$fumadora)
’El valor estimado de beta_0 en el modelo de regresion peso al nacer ~ madre fumadora es 120.06’
’El valor estimado de beta_1 en el modelo de regresion peso al nacer ~ madre fumadora es -8.91’
[9]: # 3. Cálculo del coeficiente R2
# Podemos calcular nuestra primera versión del R2:
# Calculamos el R2 como:
R2_reg1 <- var(bwght$bwghthat_reg1)/var(bwght$bwght)
sprintf("El valor del coeficiente R2 de la regresion peso al nacer ~ madre␣
↪fumadora es %1.3f", R2_reg1)
’El valor del coeficiente R2 de la regresion peso al nacer ~ madre fumadora es 0.025’
[10]: # 4. Prueba de significancia (bajo homocedasticidad)
N <- nrow(bwght)
bwght$residuals_reg1 <- bwght$bwght - bwght$bwghthat_reg1
# "beta_0_hat":
vb0_hom_reg1 <- ( mean(bwght$fumadora^2) * ( (1/(N-2)) *␣
↪sum(bwght$residuals_reg1^2) ) ) / sum( (bwght$fumadora - fumbar)^2 )
↪SE_b0_hom_reg1)
7
# "beta_1_hat"
vb1_hom_reg1 <- ( (1/(N-2)) * sum(bwght$residuals_reg1^2) ) / sum(␣
↪(bwght$fumadora - fumbar)^2 )
↪SE_b1_hom_reg1)
# Estadísticos de prueba
t_muestra_b0_reg1 <- beta_0_hat_reg1 / SE_b0_hom_reg1
t_muestra_b1_reg1 <- beta_1_hat_reg1 / SE_b1_hom_reg1
sprintf("El valor del estadistico de prueba t (bajo homocedasticidad) para el␣
↪parametro beta_0 es %1.2f", t_muestra_b0_reg1)
# Decisión
if (abs(t_muestra_b0_reg1) > abs(t_crit)) {
sprintf("Dado que el valor absoluto de t_muestra es mayor que el valor␣
↪absoluto de t_critico, existe evidencia estadistica para rechazar la␣
} else {
sprintf("Dado que el valor absoluto de t_muestra es menor o igual que el␣
↪valor absoluto de t_critico, existe evidencia estadística para no rechazar␣
} else {
sprintf("Dado que el valor absoluto de t_muestra es menor o igual que el␣
↪valor absoluto de t_critico, existe evidencia estadistica para no rechazar␣
’El valor del error estandar (bajo homocedasticidad) del estimador de beta_0 en la regresion peso
al nacer ~ madre fumadora es 0.586’
8
’El valor del error estandar (bajo homocedasticidad) del estimador de beta_1 en la regresion peso
al nacer ~ madre fumadora es 1.500’
’El valor del estadistico de prueba t (bajo homocedasticidad) para el parametro beta_0 es 204.77’
’El valor del estadistico de prueba t (bajo homocedasticidad) para el parametro beta_1 es -5.94’
’El valor critico de t_z con nivel de significancia 5 por ciento es igual a -1.96’
’Dado que el valor absoluto de t_muestra es mayor que el valor absoluto de t_critico, existe
evidencia estadistica para rechazar la hipotesis beta_0 = 0’
’Dado que el valor absoluto de t_muestra es mayor que el valor absoluto de t_critico, existe
evidencia estadistica para rechazar la hipotesis beta_1 = 0’
[11]: # 5. Comprobación con función lm()
library(stargazer)
library(sandwich)
library(AER)
↪SE_b0_het_reg1)
sprintf("El valor del error estandar (bajo heterocedasticidad) del estimador de␣
↪beta_1 en la regresion peso al nacer ~ madre fumadora es %1.3f",␣
↪SE_b1_het_reg1)
# Decisión
if (abs(t_muestra_b0_reg1_het) > abs(t_crit)) {
9
sprintf("Dado que el valor absoluto de t_muestra es mayor que el valor␣
↪absoluto de t_critico, existe evidencia estadistica para rechazar la␣
↪hipotesis beta_0 = 0")
} else {
sprintf("Dado que el valor absoluto de t_muestra es menor o igual que el␣
↪valor absoluto de t_critico, existe evidencia estadística para no rechazar␣
} else {
sprintf("Dado que el valor absoluto de t_muestra es menor o igual que el␣
↪valor absoluto de t_critico, existe evidencia estadistica para no rechazar␣
as.Date, as.Date.numeric
10
========================================================
Dependent variable:
------------------------------------
bwght
OLS coefficient
test
(1) (2)
--------------------------------------------------------
fumadora -8.915*** -8.915***
(1.500) (1.442)
--------------------------------------------------------
Observations 1,388
R2 0.025
Adjusted R2 0.024
Residual Std. Error 20.107 (df = 1386)
F Statistic 35.311*** (df = 1; 1386)
========================================================
Note: *p<0.1; **p<0.05; ***p<0.01
’El valor del error estandar (bajo heterocedasticidad) del estimador de beta_0 en la regresion peso
al nacer ~ madre fumadora es 0.591’
’El valor del error estandar (bajo heterocedasticidad) del estimador de beta_1 en la regresion peso
al nacer ~ madre fumadora es 1.442’
’El valor del estadistico de prueba t (bajo heterocedasticidad) para el parametro beta_0 es 203.08’
’El valor del estadistico de prueba t (bajo heterocedasticidad) para el parametro beta_1 es -6.18’
’Dado que el valor absoluto de t_muestra es mayor que el valor absoluto de t_critico, existe
evidencia estadistica para rechazar la hipotesis beta_0 = 0’
’Dado que el valor absoluto de t_muestra es mayor que el valor absoluto de t_critico, existe
evidencia estadistica para rechazar la hipotesis beta_1 = 0’
4. Utilizando la de nuevo la base datos bwght, asuma ahora que nuestra población son los infantes
con madres “blancas” que tienen más de 12 años de educación. Asuma adicionalmente que el
modelo poblacional es:
bwght𝑖 = 𝛽0 + 𝛽1 packs𝑖 + 𝑢𝑖
1. Utilizando R, haga un gráfico de dispersión que muestre la relación de dependencia
establecida por el modelo poblacional. Comente que podría concluirse de la intensidad
y dirección de esta relación de dependencia.
2. Utilizando la función lm() de R determine el valor de la estimación de los coeficientes
de regresión a partir del estimador MCO. Grafique la linea de regresión al interior del
11
gráfico de dispersión graficado anteriormente. Comente acerca de:
• La interpretación del valor estimado de los coeficientes de regresión.
R:
– Interpretación de 𝛽0̂ : Dado que (bajo 𝐸[𝑢𝑖 |packs] = 0) 𝛽0 =
𝐸[bwght𝑖 |packs𝑖 = 0] entonces se estima que el valor medio del peso al nacer
del infante es aproximadamente igual a 122.2 onzas si su madre no fumó nigun
paquete de cigarrillos durante el embarazo.
𝑑 𝐸[bwght𝑖 |packs𝑖 ]
– Interpretación de 𝛽1̂ : Dado que (bajo 𝐸[𝑢𝑖 |packs] = 0) 𝛽1 = 𝑑 packs𝑖
entonces se estima que el valor medio del peso al nacer del infante se reduce
en aproximadamente 8.74 onzas por cada paquete adicional que la madre fume
durante el periodo de embarazo.
• El comportamiento de los “residuos” estimados del modelo de regresión. Al mirar la
gráfica, puede decir algo de la naturaleza de la varianza del término de error. Qué
implicaría esto para el cálculo de los errores estándar de los estimadores MCO?
R: Alrededor del valor 0 paquetes de cigarrillo parece haber mucha variabilidad
del residuo estimado de la regresión, mientras que para valores positivos del
número de paquetes de cigarrillo la variabilidad es notablemente menor. En gen-
eral no parece haber evidencia de que la varianza de los errores sea homocedástica,
por lo que debería ser necesario calcular la varianza de muestral de los
residuos a partir de la correción de White.
3. Utilizando R, y de acuerdo a sus conclusiones respecto a la naturaleza de la varianza
del término de error, realice la prueba de significancia sobre el valor del parámetro 𝛽1 y
construya su intervalo de confianza con el 95% de confianza.
R: (ver código en R y cálculos abajo)
• Utilizando la corrección de White para estimar los errores estándar muestrales
de los estimadores, se llega a la conclusión de que existe evidencia para rechazar
𝐻0 ∶ 𝛽1 = 0, es decir, la evidencia muestral da bases para creer que el efecto de
que la madre fume cigarrillos en el periodo de embarazo es estadísticamente sigini-
ficativo y negativo como lo muestra a continuación el intervalo de confianza (Notese
que hubieramos llegado a una conclusión muy diferente si hubieramos estimado los
errores estándar bajo el supuesto de homocedasticidad!).
• Intervalo de confianza (95%) de 𝛽1 :
# 1. Gráfico de dispersión
library(ggplot2)
ggplot(muestra_reg2, aes(packs,bwght)) +
12
geom_point() +
theme_minimal() +
labs(x = 'Paquetes de cigarrillos fumados diariamente (embarazo)', y = 'Peso␣
↪del infante al nacer') + theme(plot.title = element_text(hjust = 0.5, size =␣
13
geom_point() +
geom_smooth(method = "lm", se = FALSE, color = "red") +
theme_minimal() +
labs(x = 'Paquetes de cigarrillos fumados diariamente (embarazo)', y = 'Peso␣
↪del infante al nacer') + theme(plot.title = element_text(hjust = 0.5, size =␣
Call:
lm(formula = bwght ~ packs, data = muestra_reg2)
Coefficients:
(Intercept) packs
122.190 -8.744
14
[15]: # 3. Prueba de hipótesis e intervalo de confianza
# Corrección de White (heterocedasticidad)
vcov_reg2 <- vcovHC(reg2, type = "HC1")
reg2_het <- coeftest(reg2, vcov. = vcov_reg2)
stargazer(reg2, reg2_het, type = 'text')
15
# Decisión
if (abs(t_muestra_b1_reg2_het) > abs(t_crit)) {
sprintf("Dado que el valor absoluto de t_muestra es mayor que el valor␣
↪absoluto de t_critico, existe evidencia estadistica para rechazar la␣
} else {
sprintf("Dado que el valor absoluto de t_muestra es menor o igual que el␣
↪valor absoluto de t_critico, existe evidencia estadistica para no rechazar␣
IC_beta_1_reg2
===================================================
Dependent variable:
-------------------------------
bwght
OLS coefficient
test
(1) (2)
---------------------------------------------------
packs -8.744 -8.744**
(5.337) (3.506)
---------------------------------------------------
Observations 505
R2 0.005
Adjusted R2 0.003
Residual Std. Error 20.263 (df = 503)
F Statistic 2.684 (df = 1; 503)
===================================================
Note: *p<0.1; **p<0.05; ***p<0.01
’El valor del estadistico de prueba t (bajo heterocedasticidad) para el parametro beta_1 es -2.49’
’Dado que el valor absoluto de t_muestra es mayor que el valor absoluto de t_critico, existe
evidencia estadistica para rechazar la hipotesis beta_1 = 0’
packs -15.6163299173705 packs -1.87111157861064
16