Documentos de Académico
Documentos de Profesional
Documentos de Cultura
los supuestos
Análisis de Datos Políticos
Sesión 21
27 de octubre, 2020
Profesora Catherine Reyes-Housholder
Lectura
Hoy: terminar “Cómo evaluar”
• Supuestos
• Distribución normal de los residuales
• Sesgado vs. no-sesgado
• Homoskedasticidad vs. heteroskedasticidad
• Autocorrelación
(Repaso) estimaciones de los parámetros
En la unidad 2, vimos 2 maneras de poner a prueba hipótesis: a través de la
construcción de intervalos de confianza, y a través de pruebas de significancia
(valores-p).
# de n
Valor de R2
Parámetro de
beta=g
(crecimiento)
Parámetro de
alpha=_cons Coeficientes Errores T-ratios, o
Valores-p Intervalos de
estimados de estándares valores
de los confianza para
los parámetros de los críticos
parámetros los parámetros
parámetros para los
parámetros
Intervalos de confianza para estimaciones de
los parámetros
Para poner a prueba hipótesis con las estimaciones de los coeficientes
de la regresión OLS involucra expresar una hipótesis nula y una
hipótesis alternativa. Después se evalúa la evidencia en contra la
hipótesis nula, resumida en el valor-p, para decidir si o no si hay que
rechazar la hipótesis nula.
Podemos poner a prueba hipótesis sobre el alpha o el beta, pero en
realidad, lo más relevante es testear hipótesis sobre el beta, cómo (-, +,
nada) y cuánto X influye Y (estimaciones de beta).
Normalmente la hipótesis nula para 𝛽! es que no hay un efecto, o que
beta 𝛽! es 0. La lógica de esta prueba de hipótesis corresponde con la
misma lógica de las pruebas de hipótesis bivariadas (unidad 2).
Intervalos de confianza para estimaciones de
los parámetros
¿Cuál es esta lógica?
Vamos a observar un parámetro del pendiente de una muestra (𝛽) ! ,
que constituye una estimación del pendiente poblacional (𝛽).
(Fíjense en la notación con y sin gorro).
ACUÉRDENSE: 𝛽 representación la relación VERDADERA entre X y Y.
Nuestras hipótesis se expresan o hacen referencia a las poblaciones no-
observadas.
Con el valor de este parámetro estimado, el intervalo de confianza, y el
tamaño de nuestra muestra, podemos evaluar cuánto probable es
observar este pendiente (𝛽) si la verdadera pendiente/beta/relación
entre las variables de la poblacional no-observada es igual a cero.
Pruebas de hipótesis de dos colas
Estas pruebas de hipótesis pueden ser de dos colas o de una cola. El
software tienden a siempre usar pruebas de dos colas, y en la práctica,
normalmente no hay ningún problema con eso.
Por eso vamos a explorar solamente pruebas de dos colas cuando la
hipótesis nula es 𝛽=0.
Pruebas de hipótesis de dos colas
Beta estimada
36-2=grados El valor
N-k=grados de de libertad crítico, o
libertad estadístico
de prueba
Pruebas de hipótesis de dos colas
Con esta ratio-t (valor
crítico) de 4.03, volvamos a
la tabla de probabilidades
para una distribución-t.
Tenemos 34 grados de
libertad (df=n-k).
Llegamos a un valor-p que
se aproxima a 0.001.
Por ende, podemos rechazar
nuestra hipótesis nula.
Pruebas de hipótesis de dos colas
¿Se acuerdan de la tabla-t
de valores críticos para
una distribución t de
probabilidades
cumulativas?
Vimos esto en la unidad 2
en el texto de A&F.
Pruebas de hipótesis de dos colas
Con esta ratio-t (valor
crítico) de 4.03, volvamos a
esta tabla de probabilidades
para una distribución-t, tal
como aparece en el texto de
K&W
Tenemos 34 grados de
libertad (df=n-k y n=36 y
tenemos 2 parámetros
Llegamos a un valor-p que
se aproxima a 0.001.
Por ende, podemos rechazar
nuestra hipótesis nula.
Valor
Df=34 crítico
> 3.3
Resumen:Intervalos de confianza y pruebas de
2 colas
• Podemos usar intervalos de confianza o pruebas de hipótesis de dos
colas para hacer inferencias sobre los parámetros del modelo de
regresión poblacional con una análisis de datos de nuestro modelo de
regresión muestral.
• Estos dos métodos de hacer inferencias son relacionados
matemáticamente: cada uno depende de la tabla-t.
• Si un intervalo de confianza de 95% no incluye un valor particular,
entonces la hipótesis nula que el parámetro poblacional iguala a este
valor (para una prueba de 2 colas) tendrá un valor-p menor de 0.05.
Resumen:Intervalos de confianza y pruebas
de 2 colas
• Dado al hecho de que el intervalo de confianza de 95% para el
parámetro de 𝛽 no incluye 0, el valor-p para esta prueba de hipótesis
𝛽 =0 es menor que 0.05.
• Dado al hecho de que el intervalo de confianza de 95% para el
parámetro de 𝛼 (constante o intercepto-y) no incluye 0, el valor-p
para esta prueba de hipótesis 𝛼=0 es menor que 0.05.
• Dado al hecho de que el intervalo de confianza de 95% para el
parámetro de 𝛼 (constante o intercepto-y) SÍ incluye 50, el valor-p
para esta prueba de hipótesis alpha=50 es menor que 0.05.
*Hay que saber cómo interpretar los resultados
Code de Stata para hacer una regresión
# de n
Valor de R2
Parámetro de
beta=g
(crecimiento)
Parámetro de
alpha=_cons Coeficientes Errores T-ratios, o
Valores-p Intervalos de
estimados de estándares valores
de los confianza para
los parámetros de los críticos
parámetros los parámetros
parámetros para los
parámetros
PAUSA MUSICAL
https://open.spotify.com/playlist/6ASzrKjIwpPyW87kW7knyr
?si=8gvJDy1UTW-0Ac3RKEFVlw
“Regression” de Masayoshi Yamazaki
¡Volvamos en 10 minutos!
Los supuestos de la regresión
• Todos los modelos de regresión tienen supuestos. Vamos a elaborar sobre
cuáles son los supuestos principales clásicos de la regresión bivariada OLS.
Todas estas también se aplica a la regresión multivariada, con algunos
comentarios menores adicionales.
• ¡Van a ver que podría ser muy difícil cumplir con estos supuestos!
• No se desesperen. En la realidad, casi nunca cumplimos con todos los
supuestos porque la realidad política es sumamente compleja. Pero
tenemos que aprender sobre estos supuestos para entender cuándo
estaríamos violándolos, y así podemos ajustar nuestros modelos para
mejor cumplir con los supuestos.
• Por eso en la ciencia política tendemos a recurrir a modelos más
sofisticados para cumplir mejor con los modelos. Es extremadamente difícil
cumplir con los supuestos solamente modelos más básicos de la regresión.
• Sin embargo, hay que siempre partir con modelos básicos.
Los supuestos de la regresión
• Vamos a dividir los supuestos entre los supuestos que se refieren al
componente estocástico (el término de error), y los supuestos que se
refieren a la especificación del modelo.
𝑌! = 𝛼 + 𝛽𝑋! + 𝑢!
𝑢! ~ 𝑁 0, 𝜎 "
𝑢! = 𝑒𝑙 𝑡é𝑟𝑚𝑖𝑛𝑜 𝑒𝑟𝑟𝑜𝑟, 𝑐𝑜𝑚𝑝𝑜𝑛𝑒𝑛𝑡𝑒 𝑒𝑠𝑡𝑜𝑐á𝑠𝑡𝑖𝑐𝑜, 𝑜 𝑟𝑒𝑠𝑖𝑑𝑢𝑎𝑙𝑒𝑠
≅ 𝑒𝑠𝑡á 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑖𝑑𝑜 𝑐𝑜𝑚𝑜 (𝑙𝑎 𝑚𝑒𝑑𝑖𝑎, 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎)
𝜎 " = 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎
Los supuestos: el componente estocástico
Acuérdense de la diferencia entre el 𝑌! = 𝛼 + 𝛽𝑋! + 𝑢!
modelo población de regresión y el modelo
muestral de regresión. 𝑌! = 𝛼- + 𝛽. 𝑋! + 𝑢- !
El supuesto que el término de error tiene
una distribución normal nos permitirá usar 𝑢! ~ 𝑁 0, 𝜎 "
la tabla-t para hacer inferencias
probabilistas sobre el modelo poblacional
de regresión (lo que no observamos) a
partir de nuestra modelo muestral de
regresión (lo que observamos con nuestros
datos.)
Los supuestos: el componente estocástico
𝐸 𝑢! = 0
𝐸 = 𝑣𝑎𝑙𝑜𝑟 𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜
𝑢! = 𝑒𝑙 𝑡é𝑟𝑚𝑖𝑛𝑜 𝑒𝑟𝑟𝑜𝑟, 𝑐𝑜𝑚𝑝𝑜𝑛𝑒𝑛𝑡𝑒 𝑒𝑠𝑡𝑜𝑐á𝑠𝑡𝑖𝑐𝑜, 𝑜 𝑟𝑒𝑠𝑖𝑑𝑢𝑎𝑙𝑒𝑠
𝑐𝑜𝑣#!,#" = 0 ∀ 𝑖 ≠ 𝑗
𝑐𝑜𝑣W! ,W" = 𝑐𝑜𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑒𝑛𝑡𝑟𝑒 𝑙𝑜𝑠 𝑟𝑒𝑠𝑖𝑑𝑢𝑎𝑙𝑒𝑠 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑖 𝑦 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑗
∀ = 𝑝𝑎𝑟𝑎 𝑐𝑎𝑑𝑎, 𝑝𝑎𝑟𝑎 𝑡𝑜𝑑𝑜
Los supuestos: el componente estocástico
𝑐𝑜𝑣!!,!" = 0 ∀ 𝑖 ≠ 𝑗
• Significa que la co-varianza entre el error poblacional ui y uj es igual para
todos i que no son iguales a j (para dos casos únicos).
• El tipo de autocorrelación más frecuente ocurre con datos de serie de
tiempo. Por ejemplo, una base de datos con niveles de aprobación
presidenciales mensuales.
• El nivel de aprobación de Piñera en noviembre 2019 probablemente está
relacionado con su nivel de aprobación en diciembre 2019, en gran parte
debido al hecho de que estábamos en pleno estallido social.
• Pero estas relaciones entre niveles de aprobación presidencial a lo largo del
tiempo casi SIEMPRE ocurre (no solamente se debe al estallido social). ¿Por
qué? Porque los factores que los ciudadanos usan para evaluar a sus
presidentes tienden a ser factores de largo y mediano plazo (identificación
partidaria, desempeño macroeconómico, etc.), además de factores de
corto plazo.
Los supuestos: el componente estocástico
𝑐𝑜𝑣!!,!" = 0 ∀ 𝑖 ≠ 𝑗