Está en la página 1de 37

Regresión bivariada:

los supuestos
Análisis de Datos Políticos
Sesión 21
27 de octubre, 2020
Profesora Catherine Reyes-Housholder
Lectura
Hoy: terminar “Cómo evaluar”

K&W Capítulo 8.5


Una gracia del uso de herramientas de
regresión es que tienen supuestos MUY
explícitos. ¿Por qué importan los
supuestos?
Muchas veces cuando vamos
argumentando de manera informal
sobre la política, nuestros argumentos
tienden a dejar implícitos supuestos. Al
aclarar los supuestos de nuestros
argumentos, se mejoran los debates en
la esfera pública.
Conceptos
¿Cómo evaluar?

• Pruebas de hipótesis de dos colas


• Proporción-T (Ratio-T)
• Hipótesis direccional / hipótesis de una cola
Los supuestos

• Supuestos
• Distribución normal de los residuales
• Sesgado vs. no-sesgado
• Homoskedasticidad vs. heteroskedasticidad
• Autocorrelación
(Repaso) estimaciones de los parámetros
En la unidad 2, vimos 2 maneras de poner a prueba hipótesis: a través de la
construcción de intervalos de confianza, y a través de pruebas de significancia
(valores-p).

En el contexto de la regresión, el software calcula intervalos de confianza y también


valores-p.

Entonces vamos a prestar atención a cómo se estiman los parámetros 𝛽! y 𝛼# .


(Repaso) estimaciones de los parámetros
Fórmula para los errores estándares de 𝛽H Fórmula para los errores estándares de 𝛼> .

Después, usamos estos errores estándares 𝛽! ± 𝑡 ×𝑠𝑒 𝛽!


para calcular las estimaciones de beta y
alpha, con referencia a la tabla-T 𝛼# ± 𝑡 ×𝑠𝑒 𝛼#
𝛽! = 𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒, 𝑜 𝑒𝑙 𝑒𝑓𝑒𝑐𝑡𝑜 𝒆𝒔𝒕𝒊𝒎𝒂𝒅𝒐 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑋 𝑠𝑜𝑏𝑟𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑌
𝛼> = 𝑙𝑒𝑡𝑟𝑎 𝑔𝑟𝑖𝑒𝑔𝑎 𝑞𝑢𝑒 𝑠𝑒 𝑟𝑒𝑓𝑖𝑒𝑟𝑒 𝑎𝑙 𝑖𝑛𝑡𝑒𝑟𝑐𝑒𝑝𝑡𝑜 𝒆𝒔𝒕𝒊𝒎𝒂𝒅𝒐
𝑡 = 𝑒𝑠𝑡𝑎𝑑í𝑠𝑡𝑖𝑐𝑎 − 𝑡 , 𝑝𝑎𝑟𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖𝑜𝑛𝑒𝑠 𝑡 𝑒𝑛 𝑣𝑒𝑧 𝑑𝑒 𝑛𝑜𝑟𝑚𝑎𝑙
𝑠𝑒 = 𝑒𝑟𝑟𝑜𝑟 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟
(Repaso) estimaciones de los parámetros
𝑌! = 𝛼> + 𝛽! 𝑋! + 𝑢> !

La línea de la regresión bivariada con respecto al impacto del


crecimiento PIB en la votación para el partido incumbente:
𝑌! = 51.45 + 0.62𝑋! + 𝑢> !

Valores-t Errores Intervalos de


𝛼> = 51.45
para cada estándares confianza de 95%
𝛽H = 0.62 cola en la calculados
columna de previamente
0.025:
2.032.
(Repaso) estimaciones de los parámetros
Code de Stata para hacer una regresión

# de n

Valor de R2

Raíz del error


cuadrático medio

Parámetro de
beta=g
(crecimiento)

Parámetro de
alpha=_cons Coeficientes Errores T-ratios, o
Valores-p Intervalos de
estimados de estándares valores
de los confianza para
los parámetros de los críticos
parámetros los parámetros
parámetros para los
parámetros
Intervalos de confianza para estimaciones de
los parámetros
Para poner a prueba hipótesis con las estimaciones de los coeficientes
de la regresión OLS involucra expresar una hipótesis nula y una
hipótesis alternativa. Después se evalúa la evidencia en contra la
hipótesis nula, resumida en el valor-p, para decidir si o no si hay que
rechazar la hipótesis nula.
Podemos poner a prueba hipótesis sobre el alpha o el beta, pero en
realidad, lo más relevante es testear hipótesis sobre el beta, cómo (-, +,
nada) y cuánto X influye Y (estimaciones de beta).
Normalmente la hipótesis nula para 𝛽! es que no hay un efecto, o que
beta 𝛽! es 0. La lógica de esta prueba de hipótesis corresponde con la
misma lógica de las pruebas de hipótesis bivariadas (unidad 2).
Intervalos de confianza para estimaciones de
los parámetros
¿Cuál es esta lógica?
Vamos a observar un parámetro del pendiente de una muestra (𝛽) ! ,
que constituye una estimación del pendiente poblacional (𝛽).
(Fíjense en la notación con y sin gorro).
ACUÉRDENSE: 𝛽 representación la relación VERDADERA entre X y Y.
Nuestras hipótesis se expresan o hacen referencia a las poblaciones no-
observadas.
Con el valor de este parámetro estimado, el intervalo de confianza, y el
tamaño de nuestra muestra, podemos evaluar cuánto probable es
observar este pendiente (𝛽) si la verdadera pendiente/beta/relación
entre las variables de la poblacional no-observada es igual a cero.
Pruebas de hipótesis de dos colas
Estas pruebas de hipótesis pueden ser de dos colas o de una cola. El
software tienden a siempre usar pruebas de dos colas, y en la práctica,
normalmente no hay ningún problema con eso.
Por eso vamos a explorar solamente pruebas de dos colas cuando la
hipótesis nula es 𝛽=0.
Pruebas de hipótesis de dos colas

La notación de K&W para hipótesis alternativa


es H1, pero A&F tienden a usar una notación
de HA.
Se refiere a LA MISMA COSA.
Pruebas de hipótesis de dos colas
Para poner a prueba estas hipótesis, tenemos que calcular el estadístico-t, ratio-t,
o valor crítico en referencia a la distribución-t de probabilidad en donde beta es
igual a cero.
Entonces, 𝛽* = 0
Habíamos ya estimado que 𝛽" = 0.62

Beta estimada

Beta bajo la hipótesis nula

36-2=grados El valor
N-k=grados de de libertad crítico, o
libertad estadístico
de prueba
Pruebas de hipótesis de dos colas
Con esta ratio-t (valor
crítico) de 4.03, volvamos a
la tabla de probabilidades
para una distribución-t.
Tenemos 34 grados de
libertad (df=n-k).
Llegamos a un valor-p que
se aproxima a 0.001.
Por ende, podemos rechazar
nuestra hipótesis nula.
Pruebas de hipótesis de dos colas
¿Se acuerdan de la tabla-t
de valores críticos para
una distribución t de
probabilidades
cumulativas?
Vimos esto en la unidad 2
en el texto de A&F.
Pruebas de hipótesis de dos colas
Con esta ratio-t (valor
crítico) de 4.03, volvamos a
esta tabla de probabilidades
para una distribución-t, tal
como aparece en el texto de
K&W
Tenemos 34 grados de
libertad (df=n-k y n=36 y
tenemos 2 parámetros
Llegamos a un valor-p que
se aproxima a 0.001.
Por ende, podemos rechazar
nuestra hipótesis nula.
Valor
Df=34 crítico
> 3.3
Resumen:Intervalos de confianza y pruebas de
2 colas
• Podemos usar intervalos de confianza o pruebas de hipótesis de dos
colas para hacer inferencias sobre los parámetros del modelo de
regresión poblacional con una análisis de datos de nuestro modelo de
regresión muestral.
• Estos dos métodos de hacer inferencias son relacionados
matemáticamente: cada uno depende de la tabla-t.
• Si un intervalo de confianza de 95% no incluye un valor particular,
entonces la hipótesis nula que el parámetro poblacional iguala a este
valor (para una prueba de 2 colas) tendrá un valor-p menor de 0.05.
Resumen:Intervalos de confianza y pruebas
de 2 colas
• Dado al hecho de que el intervalo de confianza de 95% para el
parámetro de 𝛽 no incluye 0, el valor-p para esta prueba de hipótesis
𝛽 =0 es menor que 0.05.
• Dado al hecho de que el intervalo de confianza de 95% para el
parámetro de 𝛼 (constante o intercepto-y) no incluye 0, el valor-p
para esta prueba de hipótesis 𝛼=0 es menor que 0.05.
• Dado al hecho de que el intervalo de confianza de 95% para el
parámetro de 𝛼 (constante o intercepto-y) SÍ incluye 50, el valor-p
para esta prueba de hipótesis alpha=50 es menor que 0.05.
*Hay que saber cómo interpretar los resultados
Code de Stata para hacer una regresión

# de n

Valor de R2

Raíz del error


cuadrático medio

Parámetro de
beta=g
(crecimiento)

Parámetro de
alpha=_cons Coeficientes Errores T-ratios, o
Valores-p Intervalos de
estimados de estándares valores
de los confianza para
los parámetros de los críticos
parámetros los parámetros
parámetros para los
parámetros
PAUSA MUSICAL

https://open.spotify.com/playlist/6ASzrKjIwpPyW87kW7knyr
?si=8gvJDy1UTW-0Ac3RKEFVlw
“Regression” de Masayoshi Yamazaki
¡Volvamos en 10 minutos!
Los supuestos de la regresión
• Todos los modelos de regresión tienen supuestos. Vamos a elaborar sobre
cuáles son los supuestos principales clásicos de la regresión bivariada OLS.
Todas estas también se aplica a la regresión multivariada, con algunos
comentarios menores adicionales.
• ¡Van a ver que podría ser muy difícil cumplir con estos supuestos!
• No se desesperen. En la realidad, casi nunca cumplimos con todos los
supuestos porque la realidad política es sumamente compleja. Pero
tenemos que aprender sobre estos supuestos para entender cuándo
estaríamos violándolos, y así podemos ajustar nuestros modelos para
mejor cumplir con los supuestos.
• Por eso en la ciencia política tendemos a recurrir a modelos más
sofisticados para cumplir mejor con los modelos. Es extremadamente difícil
cumplir con los supuestos solamente modelos más básicos de la regresión.
• Sin embargo, hay que siempre partir con modelos básicos.
Los supuestos de la regresión
• Vamos a dividir los supuestos entre los supuestos que se refieren al
componente estocástico (el término de error), y los supuestos que se
refieren a la especificación del modelo.

𝑌! = 𝛼 + 𝛽𝑋! + 𝑢!

Los componentes sistemáticos: 𝛼 + 𝛽𝑋!


El componente estocástico:𝑢!
• El componente estocástico no debería ”contener” elementos
sistemáticos, solamente elementos estocásticos.
Advertencia: conceptos abstractos
• La siguiente presentación de los supuestos tendrá varios términos
nuevos y abstractos. En la sesión 22, vamos a analisar los supuestos
de manera un poco más concreta, a través de gráficos y análisis de los
residuos.
Los supuestos: el componente estocástico
• El supuesto más importante de los modelos de regresión se refiere a
la distribución del término de error, especificamente al término de
error poblacional: 𝑢
• Debemos asumir que los residuos poblacionales están distribuidos
de manera normal, en forma campana, con una media de 0 y una
varianza igual a sigma-cuadrado 𝜎 " .
• Este supuesto puede considerar como el más importante porque en
realidad contiene varios sub-supuestos.

𝑢! ~ 𝑁 0, 𝜎 "
𝑢! = 𝑒𝑙 𝑡é𝑟𝑚𝑖𝑛𝑜 𝑒𝑟𝑟𝑜𝑟, 𝑐𝑜𝑚𝑝𝑜𝑛𝑒𝑛𝑡𝑒 𝑒𝑠𝑡𝑜𝑐á𝑠𝑡𝑖𝑐𝑜, 𝑜 𝑟𝑒𝑠𝑖𝑑𝑢𝑎𝑙𝑒𝑠
≅ 𝑒𝑠𝑡á 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑖𝑑𝑜 𝑐𝑜𝑚𝑜 (𝑙𝑎 𝑚𝑒𝑑𝑖𝑎, 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎)
𝜎 " = 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎
Los supuestos: el componente estocástico
Acuérdense de la diferencia entre el 𝑌! = 𝛼 + 𝛽𝑋! + 𝑢!
modelo población de regresión y el modelo
muestral de regresión. 𝑌! = 𝛼- + 𝛽. 𝑋! + 𝑢- !
El supuesto que el término de error tiene
una distribución normal nos permitirá usar 𝑢! ~ 𝑁 0, 𝜎 "
la tabla-t para hacer inferencias
probabilistas sobre el modelo poblacional
de regresión (lo que no observamos) a
partir de nuestra modelo muestral de
regresión (lo que observamos con nuestros
datos.)
Los supuestos: el componente estocástico
𝐸 𝑢! = 0
𝐸 = 𝑣𝑎𝑙𝑜𝑟 𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜
𝑢! = 𝑒𝑙 𝑡é𝑟𝑚𝑖𝑛𝑜 𝑒𝑟𝑟𝑜𝑟, 𝑐𝑜𝑚𝑝𝑜𝑛𝑒𝑛𝑡𝑒 𝑒𝑠𝑡𝑜𝑐á𝑠𝑡𝑖𝑐𝑜, 𝑜 𝑟𝑒𝑠𝑖𝑑𝑢𝑎𝑙𝑒𝑠

• Esta ecuación significa que el valor esperado, o la media del término


de error, debe ser 0.
• Este supuesto significa que estamos asumiendo que no hay sesgo en
nuestras estimaciones.
• Si no fuese 0, estaríamos esperando que nuestro modelo de regresión
tenga un sesgo.
• Acuérdense que el componente estocástico solamente debería
componerse de “cosas” estocásticos – NADA sistemático debería
entrar al componente estocástico. Si hay algo sistemático en el
término de error, vamos a estar violando supuestos de la regresión.
Los supuestos: el componente estocástico
• En seguida, asumimos que el término de error tiene una varianza
igual a sigma-cuadrado: 𝜎 " .
• Este tercer supuesto significa que la varianza del término de error se
mantiene constante u igual: homoscedasticidad. Homo=igual/similar
• Cuando la varianza del término de error NO se mantiene constante o
cuando hay varianza en la varianza, eso se llaman
heteroscedasticidad. Hetero=diferente
• No queremos heteroscedasticidad. Buscamos homoscedasticidad.
Los supuestos: el componente estocástico
• Homoscedasticidad significa que nuestro modelo se ajusta
igualmente bien a todos los casos, o todas las observaciones.
• Tomando el ejemplo del impacto del crecimiento PIB en la votción del
partido incumbente, significa que puede explicar tan bien la elección
de 2012 en los EEUU como la elección de 2016.
Los supuestos: el componente estocástico
• Cuando hay heteroscedasticidad, significa que nuestro modelo NO se
ajuste igualmente bien a los casos. Signifca que puede explicar mejor
algunos casos que otros.
• Por ejemplo, puede explicar mejor las elecciones presidenciales
estadounidense de 2012 vs. las elecciones de 2016.
Los supuestos: el componente estocástico
• Además, asumimos que no hay autocorrelación. Autocorrelación
ocurre cuando el componente estocástico para dos casos o más están
relacionados de manera sistemática.
• Este supuesto se refiere también a la independencia entre las
observaciones. Si las observaciones están relacionadas entre ellas,
nuestro componente estocástico contiene algo sistemático.
• Esto es un PROBLEMA.
Los supuestos: el componente estocástico

Se expresa formalmente el supuesto de ausencia de autocorrelación así:

𝑐𝑜𝑣#!,#" = 0 ∀ 𝑖 ≠ 𝑗
𝑐𝑜𝑣W! ,W" = 𝑐𝑜𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑒𝑛𝑡𝑟𝑒 𝑙𝑜𝑠 𝑟𝑒𝑠𝑖𝑑𝑢𝑎𝑙𝑒𝑠 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑖 𝑦 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑗
∀ = 𝑝𝑎𝑟𝑎 𝑐𝑎𝑑𝑎, 𝑝𝑎𝑟𝑎 𝑡𝑜𝑑𝑜
Los supuestos: el componente estocástico
𝑐𝑜𝑣!!,!" = 0 ∀ 𝑖 ≠ 𝑗
• Significa que la co-varianza entre el error poblacional ui y uj es igual para
todos i que no son iguales a j (para dos casos únicos).
• El tipo de autocorrelación más frecuente ocurre con datos de serie de
tiempo. Por ejemplo, una base de datos con niveles de aprobación
presidenciales mensuales.
• El nivel de aprobación de Piñera en noviembre 2019 probablemente está
relacionado con su nivel de aprobación en diciembre 2019, en gran parte
debido al hecho de que estábamos en pleno estallido social.
• Pero estas relaciones entre niveles de aprobación presidencial a lo largo del
tiempo casi SIEMPRE ocurre (no solamente se debe al estallido social). ¿Por
qué? Porque los factores que los ciudadanos usan para evaluar a sus
presidentes tienden a ser factores de largo y mediano plazo (identificación
partidaria, desempeño macroeconómico, etc.), además de factores de
corto plazo.
Los supuestos: el componente estocástico
𝑐𝑜𝑣!!,!" = 0 ∀ 𝑖 ≠ 𝑗

• Por eso, modelos de aprobación


presidencial deben tomar en cuenta
que valores en t1 pueden estar
relacionados a valores en t2.
• En modelos de regresión bivariadas, es
difícil tomar en cuenta estas
posibilidades de corregir para este tipo
de autocorrelación.
• Sin embargo, hay muchas maneras de
ajustar el modelo de regresión para
evitar violar este supuesto.
Los supuestos: el componente estocástico
• Otro supuesto que es:
los valores de nuestra variable independiente X son medidos sin error.
• Este supuesto se relaciona con las sesiones 4 y 5 de este curso sobre la
medición de conceptos políticos. En esas sesiones exploramos cómo
medir conceptos políticos, como por ejemplo la democracia o
desempeño electoral.
• Vimos que si medimos “mal” nuestros conceptos, pueden tener algo de
sesgo. Mediciones de X con error, pueden traer sesgo.
• Por ejemplo, el PIB per capita entre 1876-2016 podría tener un sesgo en
el sentido de que no incluye actividades illegales.
Los supuestos: el componente estocástico
• El supuesto: los valores de nuestra variable independiente X son
medidos sin error.
• Este supuesto también está relacionado al componente estocástico, o
el término de error.
• Si el X está medida con error, o con sesgo, este sesgo puede ser
sistemático y habría que modelar este sesgo sistemático.
• La regresión asume que no hay este sesgo en la medición de X,
porque si hay sesgo, terminaría en el componente estocástico, y el
componente estocástico debería contener “cosas” realmente
estocásticas, no “cosas” sistemáticos como el sesgo en la medición de
la variable X.
Los supuestos: el componente estocástico
Hasta ahora hemos visto los siguientes supuestos.
Cada uno está relacionado al componente
estocástico. 𝑢! ~ 𝑁 0, 𝜎 "
La distribución del componente estocástico (ver
expresión formal).
1. 𝑢# tiene una distribución normal. 𝐸 𝑢# = 0
2. No hay sesgo en los valores esperados
3. La varianza del componente estocástico es
constante. 𝑐𝑜𝑣!!,!" = 0 ∀ 𝑖 ≠ 𝑗
4. No hay autocorrelación.
5. Los valores de X están medidos sin error
sistemático.
Conclusiones

• La regresión lineal tiene supuestos que son diferentes, y


eventualmente más complejos que los supuestos que vimos con las
pruebas de hipótesis en la Unidad 2.
• Hay que entender cuáles son estos supuestos para poder evaluar
cuánto bien el modelo está cumpliendo estos supuestos.
Próxima Sesión 22: La Regresión Bivariada
• Terminar con los supuestos
• Usar gráficos para analizar cuánto se cumplen con los supuestos

También podría gustarte