Está en la página 1de 16

Taller_2

April 30, 2022

• Puede presentarse en grupos de mínimo 2 y máximo 3 personas. Se espera que la


entrega se haga subiendo un archivo en el notebook de la clase en la correspondiente página de
Teams de la clase. Junto con este archivo se debe adjuntar un archivo script de R comentado
y con el código que fundamenta los resultados en el archivo principal del taller.
• Fecha de entrega: Jueves 28 de abril
1. Dentro de una población determinada, 50% de los posibles votantes son mujeres. Una encuesta
que utiliza un muestreo aleatorio simple de 1000 lineas telefónicas encuentra que el 55% son
mujeres. Existe evidencia para creer que la encuesta está sesgada? Explique. (Ayuda: piense
en como se llevaría a cabo la prueba de hipótesis del valor medio de la proporción de votantes
mujeres).
R:
• Primero debe entenderse que cuando se pregunta si la encuesta está sesgada, es por
que se cree que la diferencia entre el valor promedio muestral (55%) y el valor medio
verdadero (50%) no es explicada únicamente por la incertidumbre muestral. Esto puede
ser porque, por ejemplo, no hubo un muestreo aleatorio correcto para elegir la muestra.
• Para determinar si la conjetura anterior es correcta, se debe llevar a cabo la prueba de
hipótesis de valor medio sobre la proporción de mujeres votantes 𝑝mujeres votantes :

𝐻0 ∶ 𝑝mujeres votantes = 0.5


𝐻1 ∶ 𝑝mujeres votantes ≠ 0.5.

Si se rechaza la hipótesis nula, entonces la muestra no considera como estadísticamente


posible el valor verdadero (50%), el cuál es conocido desde el comienzo, y por tanto
podríamos decir que efectivamente la encuesta está sesgada.
• Sabemos que dicha prueba dependerá de la estadística de prueba:

̂mujeres votantes − 0.5


𝑝muestra 0.55 − 0.5
𝑡muestra = =
𝜎2 mujeres 𝜎2 mujeres
√ 𝑝 votantes
√ 𝑝 votantes
𝑁 1000

Hasta aquí, podría decirse que el enunciado de la pregunta no da información completa


acerca de la error estándar necesario para calcular el estadístico de prueba y si paráron
aquí obtendrían el 80% de la pregunta.
• Sin embargo, acá debieron preguntarse si hay alguna forma de conocer la distribución
de una variable aleatoria 𝑋 que es una proporción. Efectivamente, cualquier libro

1
de texto de estadística, incluso el que estamos siguiendo en clase, les puede mostrar que
una esta variable aleatoria 𝑖.𝑖.𝑑 se distribuye Bernoulli, tal que:
𝐸[𝑋] ≡ 𝜇𝑝mujeres votantes = 𝑝mujeres votantes = 0.5
𝑉 (𝑋) ≡ 𝜎𝑝2mujeres votantes = 𝑝mujeres votantes (1 − 𝑝mujeres votantes ) = 0.52 = 0.25,
por lo tanto el estadístico de muestra toma el valor:
0.55 − 0.5 0.05 0.5 √
𝑡muestra = = 0.5 = 0.5 = 10 ≈ 3.16
0.25 √ √
√ 1000 10 10 10

• Elijamos entonces un nivel de significancia: 𝛼 = 0.05


– Si calculamos el valor crítico (ver cálculo abajo), entonces 3.16 = |𝑡muestra | > |𝑡 𝛼2 | ≈
1.96 y por lo tanto podemos rechazar 𝐻0 .
– Si por otro lado calculamos el 𝑣𝑎𝑙𝑜𝑟 − 𝑝 asociado al 𝑡muestra , entonces 𝑣𝑎𝑙𝑜𝑟 − 𝑝 =
𝑃 𝑟|𝐻0 (|𝑡𝑧 | > |𝑡muestra |) = 0.002 < 0.05 = 𝛼 y por lo tanto podemos rechazar 𝐻0 .
• Como es posible rechazar 𝐻0 la evidencia muestral muestra que es posible rechazar
que el verdadero valor de la proporción de mujeres votantes sea igual al 50% y que la
diferencia entre la proporción calculada con la muestra y la proporción verdadera no es
únicamente explicada por la incertidumbre muestral. Por lo tanto existe evidencia
para soportar la conjetura de que la encuesta está sesgada!!
[1]: # Calculos necesarios para llevar a cabo la prueba de hipotesis basada
# en H_0: la proporción de mujeres votantes es igual al 50%
# Utilizando el t_critico
abs_t_critico_0 <- abs(qnorm(0.025))
sprintf("El valor critico es |t_{alpha/2}| = %1.3f", abs_t_critico_0)
# Utilizando el valor-p
valor_p_0 <- 2*(1-pnorm(abs(3.16)))
sprintf("El valor-p asociado al t_muestra es igual a %1.3f", valor_p_0)

’El valor critico es |t_{alpha/2}| = 1.960’


’El valor-p asociado al t_muestra es igual a 0.002’
2. Utilizando la base de datos bwght parte de la librería de R wooldridge, lleve a cabo la prueba
de hipótesis
𝐻0 ∶ 𝜇fumadoras
𝑏𝑤𝑔ℎ𝑡 = 𝜇no fumadoras
𝑏𝑤𝑔ℎ𝑡
𝐻0 ∶ 𝜇fumadoras
𝑏𝑤𝑔ℎ𝑡 ≠ 𝜇no fumadoras
𝑏𝑤𝑔ℎ𝑡 ,

donde la variable 𝑏𝑤𝑔ℎ𝑡 representa el peso al nacer del infante en “onzas” y 𝜇fumadoras
𝑏𝑤𝑔ℎ𝑡 =
no fumadoras
𝐸[𝑏𝑤𝑔ℎ𝑡|Fumadora = 1] y 𝜇𝑏𝑤𝑔ℎ𝑡 = 𝐸[𝑏𝑤𝑔ℎ𝑡|Fumadora = 0] representan el valor medio
del peso del infante al nacer, condicionado a si su madre fue fumadora o no fumadora durante
el embarazo. Para poder realizar la prueba de hipótesis, es necesario crear la variable auxiliar
Fumadora, la cual no hace parte de la base original de datos. Para ello:
• Tome como referencia la variable packs, que representa el número de paquetes de cigar-
rillo que en promedio fumaba la madre diariamente mientras estuvo en embarazo.

2
• Cree la siguiente variable indicadora o dummy:

1 Si packs > 0
Fumadora = {
0 Si packs = 0

Una vez creada esta variable auxiliar, utilizando R realice la prueba “manualmente”, no uti-
lizando la función de R. Ayuda: Recuerde que está comparando las medias de dos poblaciones.
Para obtener los correspondientes tamaños de muestra 𝑁fumadoras y 𝑁no fumadoras , y para hacer
los cálculos de los promedios y las varianzas muestrales, debe “extraer” dos submuestras de
la base de datos, definidas por la variable indicadora creada anteriormente.
Comente acerca del resultado de la prueba realizada.
[6]: library(wooldridge)
# Creamos la variable dummy fumadora tomando como referencia la
# variable "packs"
bwght$fumadora <- ifelse(bwght$packs > 0, 1, 0)

# Ahora vamos a crear las dos muestras tomando como referencia la


# nueva variable "fumadora"
fumadoras <- subset(bwght, fumadora == 1)
no_fumadoras <- subset(bwght, fumadora == 0)

# Vamos a extraer los tamaños de muestra de cada submuestra


N_fum <- nrow(fumadoras)
sprintf("El tamano de muestra de la muestra de hijos de fumadoras es %1.0f",␣
↪N_fum)

N_nofum <- nrow(no_fumadoras)


sprintf("El tamano de muestra de la muestra de hijos de no-fumadoras es %1.0f",␣
↪N_nofum)

# Ahora extraemos los promedios y los errores estándar


# muestrales de la variable "bwght" para cada submuestra
bwght_bar_fum <- mean(fumadoras$bwght)
sprintf("El promedio muestral del peso al nacer de hijos de fumadoras es %1.2f␣
↪onzas", bwght_bar_fum)

bwght_bar_nofum <- mean(no_fumadoras$bwght)


sprintf("El promedio muestral del peso al nacer de hijos de no-fumadoras es %1.
↪2f onzas", bwght_bar_nofum)

sprintf("La diferencia entre el promedio muestral del peso al nacer de hijos de␣
↪fumadoras y no-fumadoras es %1.2f onzas", bwght_bar_fum-bwght_bar_nofum)

V_bwght_fum <- var(fumadoras$bwght)


sprintf("La varianza del peso al nacer de hijos de fumadoras es %1.2f",␣
↪V_bwght_fum)

V_bwght_nofum <- var(no_fumadoras$bwght)


sprintf("La varianza del peso al nacer de hijos de no-fumadoras es %1.2f",␣
↪V_bwght_nofum)

3
’El tamano de muestra de la muestra de hijos de fumadoras es 212’
’El tamano de muestra de la muestra de hijos de no-fumadoras es 1176’
’El promedio muestral del peso al nacer de hijos de fumadoras es 111.15 onzas’
’El promedio muestral del peso al nacer de hijos de no-fumadoras es 120.06 onzas’
’La diferencia entre el promedio muestral del peso al nacer de hijos de fumadoras y no-fumadoras
es -8.91 onzas’
’La varianza del peso al nacer de hijos de fumadoras es 367.93’
’La varianza del peso al nacer de hijos de no-fumadoras es 410.81’
Ya tenemos todos los elementos para calcular el estadístico

bwghtfumadoras − bwghtno-fumadoras − 0
𝑡muestra =
2
𝜎̂ bwght|fumadoras 2
𝜎̂ bwght|no-fumadoras
√ 𝑁fumadoras + 𝑁no-fumadoras

[7]: # CÁLCULO DEL ESTADÍSTICO DE PRUEBA


t_muestra <- (bwght_bar_fum - bwght_bar_nofum) / sqrt( (V_bwght_fum / N_fum ) +␣
↪(V_bwght_nofum / N_nofum) )

sprintf("El valor del estadistico de prueba es %1.2f", t_muestra)

# PRUEBA DE DIFERENCIA DE MEDIAS BASADA EN EL "Valor-p" DEL


# ESTADÍSTICO DE PRUEBA

# 1. Definimos un nivel de significancia


signif <- 0.05

#2. Determinamos el "Valor-p" asociado al estadístico de


# prueba calculado
valor_p <- 2*(1 - pnorm(abs(t_muestra)))
sprintf("El valor-p asociado al estadistico de muestra es %1.4f", valor_p)

#3. Decisión
if (valor_p <= signif) {
sprintf("Existe evidencia estadistica para rechazar la hipotesis de igualdad␣
↪de medias del peso al nacer entre hijos de fumadoras y no fumadoras ya que␣

↪el valor-p es menor que el nivel de significancia")

} else {
sprintf("Existe evidencia estadistica para no rechazar la hipotesis de␣
↪igualdad de medias del peso al nacer entre hijos de fumadoras y no fumadoras␣

↪ya que el valor-p es mayor o igual que el nivel de significancia")

’El valor del estadistico de prueba es -6.17’


’El valor-p asociado al estadistico de muestra es 0.0000’

4
’Existe evidencia estadistica para rechazar la hipotesis de igualdad de medias del peso al nacer
entre hijos de fumadoras y no fumadoras ya que el valor-p es menor que el nivel de significancia’
3. Asuma que se tiene el siguiente modelo poblacional:

bwght𝑖 = 𝛽0 + 𝛽1 Fumadora𝑖 + 𝑢𝑖

Utilizando la base de datos usada en el númeral anterior:


1. Bajo el criterio de mínimos cuadrados ordinarios, halle “manualmente” utilizando R las
estimaciones de 𝛽0̂ y 𝛽1̂ .
2. Asuma que 𝐸[𝑢𝑖 |𝐹 𝑢𝑚𝑎𝑑𝑜𝑟𝑎] = 0. De una interpretación a los valores estimados de 𝛽0̂ y
𝛽1̂ .
R:
• Dado que bajo 𝐸[𝑢𝑖 |𝐹 𝑢𝑚𝑎𝑑𝑜𝑟𝑎] = 0 se tiene:

𝛽0 = 𝐸[bwght|𝐹 𝑢𝑚𝑎𝑑𝑜𝑟𝑎 = 0]

entonces 𝛽0̂ = 120.06 (ver código y resultado abajo) representa la estimacion del
valor medio del peso al nacer de un infante cuya madre es no fumadora, es decir,
a partir de la muestra disponible, se estima que el valor medio del peso de
un infante cuya madre no fue fumadora es aproximadamente 120 onzas.
Notese que el valor estimado de 𝛽0̂ es igual al valor estimado del promedio
muestral 𝜇no ̂ fumadoras calculado en el punto 2. de este taller.
bwght

• Asi mismo se tiene que:

𝛽1 = 𝐸[bwght|𝐹 𝑢𝑚𝑎𝑑𝑜𝑟𝑎 = 1] − 𝐸[bwght|𝐹 𝑢𝑚𝑎𝑑𝑜𝑟𝑎 = 0]

entonces 𝛽1̂ = −8.91 se puede leer como la estimación de la diferencia del valor medio
del peso al nacer entre hijos de madres que fueron fumadoras e hijos de madres que
no fueron fumadoras, es decir, a partir de la muestra disponible, se estima que
la diferencia del valor medio del peso al nacer entre hijos de madres
que fueron fumadoras e hijos de madres que no fueron fumadoras es
aproximadamente −8.9 onzas. Notese que el valor estimado de 𝛽1̂ es igual
a la diferencia de promedios muestrales 𝜇fumadoras
̂
bwght − 𝜇no
̂ fumadoras calculada
bwght
en el punto 2 de este taller.
3. Cálcule “manualmente” en R el valor de la medida de bondad de ajuste 𝑅2 . Comente
acerca de su valor y lo que significa para el modelo de regresión estimado.
R:
• El resultado del cálculo fue 𝑅2 = 0.025 (ver código y resultado abajo). Como
medida de bondad de ajuste el coeficiente 𝑅2 representa la proporción de la varianza
de la variable dependiente explicada por el modelo de regresión. En este caso dicha
proporción es aproximadamente el 2.5%.
4. Bajo el supuesto del numeral anterior, cálcule “manualmente” utilizando R, los valores
de las varianza y el error estándar de 𝛽0̂ y 𝛽1̂ bajo Homocedasticidad. Adicionalmente,

5
bajo el supuesto de muestra grande, lleve a cabo las pruebas de hipótesis de significancia
de los parámetros:

𝐻0 ∶ 𝛽 𝑘 = 0
𝐻1 ∶ 𝛽𝑘 ≠ 0,

para 𝑘 = {0, 1}. Comente en particular como la prueba de significancia del parámetro 𝛽1
puede compararse con la prueba de diferencia de medias realizada en el númeral anterior.
R:
• Dado que 𝛽1 representa la diferencia del valor medio del peso al nacer entre hijos
de madres que fueron fumadoras e hijos de madres que no fueron fumadoras en la
población, la prueba de significancia sobre 𝛽1 es equivalente a la hipótesis
de igualdad de medias del punto 2.
• Notese que (bajo el supuesto de homocedasticidad) al rechazar la hipotesis de
no significancia de 𝛽1 (ver código y resultados abajo), llegamos al mismo re-
sultado de rechazar la igualdad del valor medio del peso al nacer entre in-
fantes cuyas madres fueron fumadoras, e infantes cuyas madres no fueron
fumadoras.
5. Compruebe sus resultados utilizando la función lm() en R. Presente una tabla que re-
suma sus resultados bajo el supuesto de Homocedasticidad y, por otro lado, cálculando
la varianza muestral del estimador utilizando la corrección de White. En qué cambia la
prueba de hipotesis de significancia realizada en el numeral anterior? (Ayuda: utilice la
librería stargazer y la función con el mismo nombre para presentar los dos grupos de
resultados.)
R:
• Los valores entre paréntesis abajo de las estimaciones de los coeficientes de regresión
en la tabla de resumen (ver código y resultados abajo), confirman los valores que
calculamos anteriormente de forma “manual” bajo el supuesto de homocedasticidad:

𝑆𝐸(𝛽0̂ )Hom = 0.586


𝑆𝐸(𝛽1̂ )Hom = 1.5

• Como puede observarse en la tabla resumen (abajo), los errores estándar asociados
a los estimadores de los coeficientes bajo el supuesto de heterocedasticidad, no son
muy diferentes a aquellos calculados bajo el supuesto de homocedasticidad:

𝑆𝐸(𝛽0̂ )Het = 0.591


𝑆𝐸(𝛽1̂ )Het = 1.442

De allí que los resultados de la prueba de hipótesis no cambian.


[8]: # 1. Estimaciones de "beta_0_hat" y "beta_1_hat" bajo el
# criterio MCO

# 1.1 Estimación de "beta_1_hat"

6
beta_1_hat_reg1 <- cov(bwght$fumadora,bwght$bwght)/var(bwght$fumadora)

# 1.2 Estimación de "beta_0_hat"


# Necesitamos los promedios muestrales de la variable
# dependiente y de la variable regresora
bwghtbar <- mean(bwght$bwght)
fumbar <- mean(bwght$fumadora)

beta_0_hat_reg1 <- bwghtbar - beta_1_hat_reg1*fumbar

sprintf("El valor estimado de beta_0 en el modelo de regresion peso al nacer ~␣


↪madre fumadora es %1.2f", beta_0_hat_reg1)

sprintf("El valor estimado de beta_1 en el modelo de regresion peso al nacer ~␣


↪madre fumadora es %1.2f", beta_1_hat_reg1)

’El valor estimado de beta_0 en el modelo de regresion peso al nacer ~ madre fumadora es 120.06’
’El valor estimado de beta_1 en el modelo de regresion peso al nacer ~ madre fumadora es -8.91’
[9]: # 3. Cálculo del coeficiente R2
# Podemos calcular nuestra primera versión del R2:

# 3.1 Necesitamos el pronóstico de la variable dependiente


bwght$bwghthat_reg1 <- beta_0_hat_reg1 + beta_1_hat_reg1 * bwght$fumadora

# Calculamos el R2 como:
R2_reg1 <- var(bwght$bwghthat_reg1)/var(bwght$bwght)
sprintf("El valor del coeficiente R2 de la regresion peso al nacer ~ madre␣
↪fumadora es %1.3f", R2_reg1)

’El valor del coeficiente R2 de la regresion peso al nacer ~ madre fumadora es 0.025’
[10]: # 4. Prueba de significancia (bajo homocedasticidad)

#4.1 Varianzas y errores estándar de los estimadores bajo "Homocedasticidad"

N <- nrow(bwght)
bwght$residuals_reg1 <- bwght$bwght - bwght$bwghthat_reg1

# "beta_0_hat":
vb0_hom_reg1 <- ( mean(bwght$fumadora^2) * ( (1/(N-2)) *␣
↪sum(bwght$residuals_reg1^2) ) ) / sum( (bwght$fumadora - fumbar)^2 )

SE_b0_hom_reg1 <- sqrt(vb0_hom_reg1)


sprintf("El valor del error estandar (bajo homocedasticidad) del estimador de␣
↪beta_0 en la regresion peso al nacer ~ madre fumadora es %1.3f",␣

↪SE_b0_hom_reg1)

7
# "beta_1_hat"
vb1_hom_reg1 <- ( (1/(N-2)) * sum(bwght$residuals_reg1^2) ) / sum(␣
↪(bwght$fumadora - fumbar)^2 )

SE_b1_hom_reg1 <- sqrt(vb1_hom_reg1)


sprintf("El valor del error estandar (bajo homocedasticidad) del estimador de␣
↪beta_1 en la regresion peso al nacer ~ madre fumadora es %1.3f",␣

↪SE_b1_hom_reg1)

# 4.2 PRUEBAS DE HIPÓTESIS (SIGNIFICANCIA)

# Estadísticos de prueba
t_muestra_b0_reg1 <- beta_0_hat_reg1 / SE_b0_hom_reg1
t_muestra_b1_reg1 <- beta_1_hat_reg1 / SE_b1_hom_reg1
sprintf("El valor del estadistico de prueba t (bajo homocedasticidad) para el␣
↪parametro beta_0 es %1.2f", t_muestra_b0_reg1)

sprintf("El valor del estadistico de prueba t (bajo homocedasticidad) para el␣


↪parametro beta_1 es %1.2f", t_muestra_b1_reg1)

# Valor crítico de t_z con nivel de significancia "signif"


t_crit <- qnorm(signif/2)
sprintf("El valor critico de t_z con nivel de significancia %1.0f por ciento ␣
↪es igual a %1.2f", signif*100, t_crit)

# Decisión
if (abs(t_muestra_b0_reg1) > abs(t_crit)) {
sprintf("Dado que el valor absoluto de t_muestra es mayor que el valor␣
↪absoluto de t_critico, existe evidencia estadistica para rechazar la␣

↪hipotesis beta_0 = 0")

} else {
sprintf("Dado que el valor absoluto de t_muestra es menor o igual que el␣
↪valor absoluto de t_critico, existe evidencia estadística para no rechazar␣

↪la hipotesis beta_0 = 0")

if (abs(t_muestra_b1_reg1) > abs(t_crit)) {


sprintf("Dado que el valor absoluto de t_muestra es mayor que el valor␣
↪absoluto de t_critico, existe evidencia estadistica para rechazar la␣

↪hipotesis beta_1 = 0")

} else {
sprintf("Dado que el valor absoluto de t_muestra es menor o igual que el␣
↪valor absoluto de t_critico, existe evidencia estadistica para no rechazar␣

↪la hipotesis beta_1 = 0")

’El valor del error estandar (bajo homocedasticidad) del estimador de beta_0 en la regresion peso
al nacer ~ madre fumadora es 0.586’

8
’El valor del error estandar (bajo homocedasticidad) del estimador de beta_1 en la regresion peso
al nacer ~ madre fumadora es 1.500’
’El valor del estadistico de prueba t (bajo homocedasticidad) para el parametro beta_0 es 204.77’
’El valor del estadistico de prueba t (bajo homocedasticidad) para el parametro beta_1 es -5.94’
’El valor critico de t_z con nivel de significancia 5 por ciento es igual a -1.96’
’Dado que el valor absoluto de t_muestra es mayor que el valor absoluto de t_critico, existe
evidencia estadistica para rechazar la hipotesis beta_0 = 0’
’Dado que el valor absoluto de t_muestra es mayor que el valor absoluto de t_critico, existe
evidencia estadistica para rechazar la hipotesis beta_1 = 0’
[11]: # 5. Comprobación con función lm()

library(stargazer)
library(sandwich)
library(AER)

# Regresion bajo homocedasticidad


reg1 <- lm(bwght~fumadora, data = bwght)

# Corrección de White (heterocedasticidad)


vcov_reg1 <- vcovHC(reg1, type = "HC1")
reg1_het <- coeftest(reg1, vcov. = vcov_reg1)
stargazer(reg1, reg1_het, type = 'text')

SE_b0_het_reg1 <- sqrt(vcov_reg1[1,1])


SE_b1_het_reg1 <- sqrt(vcov_reg1[2,2])
sprintf("El valor del error estandar (bajo heterocedasticidad) del estimador de␣
↪beta_0 en la regresion peso al nacer ~ madre fumadora es %1.3f",␣

↪SE_b0_het_reg1)

sprintf("El valor del error estandar (bajo heterocedasticidad) del estimador de␣
↪beta_1 en la regresion peso al nacer ~ madre fumadora es %1.3f",␣

↪SE_b1_het_reg1)

# Prueba de hipótesis (Heterocedasticidad)


# Estadísticos de prueba
t_muestra_b0_reg1_het <- beta_0_hat_reg1 / SE_b0_het_reg1
t_muestra_b1_reg1_het <- beta_1_hat_reg1 / SE_b1_het_reg1
sprintf("El valor del estadistico de prueba t (bajo heterocedasticidad) para el␣
↪parametro beta_0 es %1.2f", t_muestra_b0_reg1_het)

sprintf("El valor del estadistico de prueba t (bajo heterocedasticidad) para el␣


↪parametro beta_1 es %1.2f", t_muestra_b1_reg1_het)

# Decisión
if (abs(t_muestra_b0_reg1_het) > abs(t_crit)) {

9
sprintf("Dado que el valor absoluto de t_muestra es mayor que el valor␣
↪absoluto de t_critico, existe evidencia estadistica para rechazar la␣
↪hipotesis beta_0 = 0")

} else {
sprintf("Dado que el valor absoluto de t_muestra es menor o igual que el␣
↪valor absoluto de t_critico, existe evidencia estadística para no rechazar␣

↪la hipotesis beta_0 = 0")

if (abs(t_muestra_b1_reg1_het) > abs(t_crit)) {


sprintf("Dado que el valor absoluto de t_muestra es mayor que el valor␣
↪absoluto de t_critico, existe evidencia estadistica para rechazar la␣

↪hipotesis beta_1 = 0")

} else {
sprintf("Dado que el valor absoluto de t_muestra es menor o igual que el␣
↪valor absoluto de t_critico, existe evidencia estadistica para no rechazar␣

↪la hipotesis beta_1 = 0")

Please cite as:

Hlavac, Marek (2018). stargazer: Well-Formatted Regression and Summary


Statistics Tables.

R package version 5.2.2. https://CRAN.R-project.org/package=stargazer

Loading required package: car

Loading required package: carData

Loading required package: lmtest

Loading required package: zoo

Attaching package: 'zoo'

The following objects are masked from 'package:base':

as.Date, as.Date.numeric

Loading required package: survival

10
========================================================
Dependent variable:
------------------------------------
bwght
OLS coefficient
test
(1) (2)
--------------------------------------------------------
fumadora -8.915*** -8.915***
(1.500) (1.442)

Constant 120.061*** 120.061***


(0.586) (0.591)

--------------------------------------------------------
Observations 1,388
R2 0.025
Adjusted R2 0.024
Residual Std. Error 20.107 (df = 1386)
F Statistic 35.311*** (df = 1; 1386)
========================================================
Note: *p<0.1; **p<0.05; ***p<0.01
’El valor del error estandar (bajo heterocedasticidad) del estimador de beta_0 en la regresion peso
al nacer ~ madre fumadora es 0.591’
’El valor del error estandar (bajo heterocedasticidad) del estimador de beta_1 en la regresion peso
al nacer ~ madre fumadora es 1.442’
’El valor del estadistico de prueba t (bajo heterocedasticidad) para el parametro beta_0 es 203.08’
’El valor del estadistico de prueba t (bajo heterocedasticidad) para el parametro beta_1 es -6.18’
’Dado que el valor absoluto de t_muestra es mayor que el valor absoluto de t_critico, existe
evidencia estadistica para rechazar la hipotesis beta_0 = 0’
’Dado que el valor absoluto de t_muestra es mayor que el valor absoluto de t_critico, existe
evidencia estadistica para rechazar la hipotesis beta_1 = 0’
4. Utilizando la de nuevo la base datos bwght, asuma ahora que nuestra población son los infantes
con madres “blancas” que tienen más de 12 años de educación. Asuma adicionalmente que el
modelo poblacional es:
bwght𝑖 = 𝛽0 + 𝛽1 packs𝑖 + 𝑢𝑖
1. Utilizando R, haga un gráfico de dispersión que muestre la relación de dependencia
establecida por el modelo poblacional. Comente que podría concluirse de la intensidad
y dirección de esta relación de dependencia.
2. Utilizando la función lm() de R determine el valor de la estimación de los coeficientes
de regresión a partir del estimador MCO. Grafique la linea de regresión al interior del

11
gráfico de dispersión graficado anteriormente. Comente acerca de:
• La interpretación del valor estimado de los coeficientes de regresión.
R:
– Interpretación de 𝛽0̂ : Dado que (bajo 𝐸[𝑢𝑖 |packs] = 0) 𝛽0 =
𝐸[bwght𝑖 |packs𝑖 = 0] entonces se estima que el valor medio del peso al nacer
del infante es aproximadamente igual a 122.2 onzas si su madre no fumó nigun
paquete de cigarrillos durante el embarazo.
𝑑 𝐸[bwght𝑖 |packs𝑖 ]
– Interpretación de 𝛽1̂ : Dado que (bajo 𝐸[𝑢𝑖 |packs] = 0) 𝛽1 = 𝑑 packs𝑖
entonces se estima que el valor medio del peso al nacer del infante se reduce
en aproximadamente 8.74 onzas por cada paquete adicional que la madre fume
durante el periodo de embarazo.
• El comportamiento de los “residuos” estimados del modelo de regresión. Al mirar la
gráfica, puede decir algo de la naturaleza de la varianza del término de error. Qué
implicaría esto para el cálculo de los errores estándar de los estimadores MCO?
R: Alrededor del valor 0 paquetes de cigarrillo parece haber mucha variabilidad
del residuo estimado de la regresión, mientras que para valores positivos del
número de paquetes de cigarrillo la variabilidad es notablemente menor. En gen-
eral no parece haber evidencia de que la varianza de los errores sea homocedástica,
por lo que debería ser necesario calcular la varianza de muestral de los
residuos a partir de la correción de White.
3. Utilizando R, y de acuerdo a sus conclusiones respecto a la naturaleza de la varianza
del término de error, realice la prueba de significancia sobre el valor del parámetro 𝛽1 y
construya su intervalo de confianza con el 95% de confianza.
R: (ver código en R y cálculos abajo)
• Utilizando la corrección de White para estimar los errores estándar muestrales
de los estimadores, se llega a la conclusión de que existe evidencia para rechazar
𝐻0 ∶ 𝛽1 = 0, es decir, la evidencia muestral da bases para creer que el efecto de
que la madre fume cigarrillos en el periodo de embarazo es estadísticamente sigini-
ficativo y negativo como lo muestra a continuación el intervalo de confianza (Notese
que hubieramos llegado a una conclusión muy diferente si hubieramos estimado los
errores estándar bajo el supuesto de homocedasticidad!).
• Intervalo de confianza (95%) de 𝛽1 :

𝐼𝐶(𝛽1 )95% = [−15.62, −1.87]

[12]: # Definimos la muestra de nuestra población

muestra_reg2 <- subset(bwght, white == 1 & motheduc > 12)

# 1. Gráfico de dispersión
library(ggplot2)
ggplot(muestra_reg2, aes(packs,bwght)) +

12
geom_point() +
theme_minimal() +
labs(x = 'Paquetes de cigarrillos fumados diariamente (embarazo)', y = 'Peso␣
↪del infante al nacer') + theme(plot.title = element_text(hjust = 0.5, size =␣

↪14, face = 'bold'))

[13]: # 2. Estimación de los coeficientes de regresión

reg2 <- lm(bwght~packs, data = muestra_reg2)


reg2

# Gráfica de dispersión con linea de regresión


ggplot(muestra_reg2, aes(packs,bwght)) +

13
geom_point() +
geom_smooth(method = "lm", se = FALSE, color = "red") +
theme_minimal() +
labs(x = 'Paquetes de cigarrillos fumados diariamente (embarazo)', y = 'Peso␣
↪del infante al nacer') + theme(plot.title = element_text(hjust = 0.5, size =␣

↪14, face = 'bold'))

Call:
lm(formula = bwght ~ packs, data = muestra_reg2)

Coefficients:
(Intercept) packs
122.190 -8.744

`geom_smooth()` using formula 'y ~ x'

14
[15]: # 3. Prueba de hipótesis e intervalo de confianza
# Corrección de White (heterocedasticidad)
vcov_reg2 <- vcovHC(reg2, type = "HC1")
reg2_het <- coeftest(reg2, vcov. = vcov_reg2)
stargazer(reg2, reg2_het, type = 'text')

SE_b1_het_reg2 <- sqrt(vcov_reg2[2,2])

# Cálculo de estadístico de muestra


t_muestra_b1_reg2_het <- reg2$coefficients[2] / SE_b1_het_reg2
sprintf("El valor del estadistico de prueba t (bajo heterocedasticidad) para el␣
↪parametro beta_1 es %1.2f", t_muestra_b1_reg2_het)

15
# Decisión
if (abs(t_muestra_b1_reg2_het) > abs(t_crit)) {
sprintf("Dado que el valor absoluto de t_muestra es mayor que el valor␣
↪absoluto de t_critico, existe evidencia estadistica para rechazar la␣

↪hipotesis beta_1 = 0")

} else {
sprintf("Dado que el valor absoluto de t_muestra es menor o igual que el␣
↪valor absoluto de t_critico, existe evidencia estadistica para no rechazar␣

↪la hipotesis beta_1 = 0")

# Intervalo de confianza de beta_1 (95%)


IC_beta_1_reg2 <- c(reg2$coefficients[2] - abs(t_crit) * SE_b1_het_reg2,␣
↪reg2$coefficients[2] + abs(t_crit) * SE_b1_het_reg2)

IC_beta_1_reg2

===================================================
Dependent variable:
-------------------------------
bwght
OLS coefficient
test
(1) (2)
---------------------------------------------------
packs -8.744 -8.744**
(5.337) (3.506)

Constant 122.190*** 122.190***


(0.925) (0.936)

---------------------------------------------------
Observations 505
R2 0.005
Adjusted R2 0.003
Residual Std. Error 20.263 (df = 503)
F Statistic 2.684 (df = 1; 503)
===================================================
Note: *p<0.1; **p<0.05; ***p<0.01
’El valor del estadistico de prueba t (bajo heterocedasticidad) para el parametro beta_1 es -2.49’
’Dado que el valor absoluto de t_muestra es mayor que el valor absoluto de t_critico, existe
evidencia estadistica para rechazar la hipotesis beta_1 = 0’
packs -15.6163299173705 packs -1.87111157861064

16

También podría gustarte