Está en la página 1de 44

Análisis de datos políticos

Miércoles 14 de noviembre

1
Predicción y
error estándar de la predicción

2
Predicción y
error estándar de la predicción
• Sabemos calcular el valor predicho de y.
• Simplemente reemplazamos por los valores:

E(y|x1=c1,…xk=ck) = q0 = b0+b1c1+ …+ bkck

• Pero, ¿cómo calculamos los errores del valor


predicho?

3
Predicción y
error estándar de la predicción
• El valor predicho nos da una estimación de la
esperanza y, es decir, el valor promedio de y
en el grupo de la población que tiene las
mismas características.

• Dada la variabilidad muestral – y la


variabilidad de nuestros estimadores –
debemos tomar en cuenta esta incertidumbre.

4
Predicción y
error estándar de la predicción
• Si construimos un IC en base a esa
incertidumbre, estamos construyendo un IC
para el valor promedio de y.

• Pero… ¿si queremos la predicción para un caso


en particular?

• DEBEMOS CONSIDERAR TAMBIÉN EL ERROR


NO OBSERVADO
5
Predicción y
error estándar de la predicción
• Dos fuentes de variabilidad:
– Variabilidad muestral (variabilidad de los
estimadores): error estándar de la estimación
(esperanza/promedio de Y dado el valor de los x)

– Variabilidad por el error no observado

6
Error estándar de la estimación
• E(y|x1=c1,…xk=ck) = q0 = b0+b1c1+ …+ bkck

• q0 es una combinación lineal de b , por lo que podriamos


generar su error estándar….!

• Complejo, podemos obtenerlo de los resultados de la


regresión si reescribimos: b0 = q0 – b1c1 – … – bkck

• Lo substituimos para obtener: y = q0 + b1 (x1 - c1) + … + bk


(xk - ck) + u

• Luego, corriendo la regresión y estimando yi en (xij - cij), el


intercepto da el valor estimado y su error estándar.

7
Error estándar de una estimación

• Pero el error estándar del valor esperado (en


promedio), no es lo mismo que error estándar para y.

• También debemos considerar (incorporar) la varianza
del error no observada:

      ˆ 
1
2
se eˆ  se yˆ
0 0 2 2

8
Intervalo de la predicción

0 0
𝑦 ± 𝑡.025 𝑠𝑒(𝑒 )

      ˆ 
1
2
se eˆ  se yˆ
0 0 2 2

9
Ejemplo
(Wooldridge, 6.5)

10
Ejemplo
(Wooldridge, 6.5)
¿Cuál es el valor predicho para sat=1,200;
hsperc=30, hsize=5?

Reemplazamos los valores:

2.70 = 1.493 + 0.00149 ∗ 1,200 −


0.01383 ∗ 30 − 0.06088 ∗ 5 + 0.00546 ∗ 25

11
Intervalo de predicción
• Error estándar de la estimación:
Estimamos una regresión con nuevas
variables independientes:

12
Intervalo de predicción
• Error estándar de la estimación:
Estimamos una regresión con nuevas
variables independientes:

13
Intervalo de predicción
• Error estándar de la estimación: 0.02
• Variabilidad del error:

Error estándar de la predicción:

𝑉 𝑒 0 = 𝑉 𝑦 0 + 𝜎 2 = 0.022 + 0.562
𝑉 𝑒 0 = .314
𝑠𝑒 𝑒 0 = 0.314 = 0.56036
14
Intervalo de predicción

𝐼𝐶95% =
(2.70 − 1.96 ∗ 0.56036; 2.70 + 1.96 ∗ 0.56036)
𝐼𝐶95% =(1.60; 4.00)

• En este caso, casi toda la variabilidad viene


de la varianza del error no observado
𝑉 𝑒 0 = 𝑉 𝑦 0 + 𝜎 2 = 0.022 + 0.562

15
Forma Funcional
• Asumimos que el modelo está bien
especificado: 𝐸 𝜇 𝑥 = 0

• Pero: si la relación entre la variable


dependiente y las explicativas no está
correctamente capturada, tenemos problemas
con la forma funcional.
Forma funcional
• Una regresión lineal puede incorporar
relaciones no lineales.
• Se puede usar logaritmos en las variables
explicativas o la explicada o ambas.
• Se pueden usar interacciones entre los x’s.
• Pero…. ¿cómo sabemos si nuestro modelo
tiene la forma funcional correcta?
Forma funcional
• Primero: use la teoría como guía

• Piense en la interpretación de sus resultados


• Según la teoría, ¿es más razonable que x afecte a
y en términos porcentuales (log) o absolutos?
• Según la teoría, espera que el efecto marginal de
x1 sea constante para todos los valores de x1, o
que dependa del valor x1 de (forma cuadrática),
o bien del valor de x2 (interacciones).
Forma funcional
• Hemos visto tests de restricciones de exclusión
para evaluar si términos cuadráticos o
interacciones pertenecen al modelo.
• Pero puede ser tedioso agregar y testear las
posibles combinaciones, además que podríamos
encontrar que se debe incluir un término
cuadrático cuando en realidad usar log habría
sido mejor.
• Un test sobre la forma funcional es el test de
Ramsey sobre error de especificación (RESET).
RESET de Ramsey
(REgression Specification Error Test
• Un test simple para evaluarlo es RESET
• Usa algo similar al test alternativo de White.

Si modelo original 𝑦 = 𝛽0 + 𝛽1 𝑥1 + . . + 𝛽𝑘 𝑥𝑘 + 𝜇 está bien


especificado, no se debiera mejorar el ajuste si se incorporan
funciones de las variables explicativas.

• Como pueden ser muchas variables explicativas, probar las


diferentes formas funcionales más interacciones resulta
complejo, por lo que una versión más simple es incluir una
función del valor estimado de la variable dependiente ya
que 𝑦 es una función de las variables independientes.
RESET
• Por lo tanto, estima:
y = b0 + b1x1 + … + bkxk + d1ŷ2 + d2ŷ3
+error
• H0: d1 = 0, d2 = 0
– Test F : 𝐹 ~ 𝐹(2,𝑛−(𝑘+2)−1)
– Test LM: LM~χ22

• Nos indica si algo anda mal con nuestro modelo,


pero no entrega luces sobre cuál es el problema.
Otros tests: Davidson-MacKinnon
• Comparar modelos no anidados
– Anidado: uno modelo está “dentro” del otro, es
decir, es un caso especial del otro.

• Dos posibles especificaciones:


M1: 𝑦 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝜇

M2: 𝑦 = 𝛽0 + 𝛽1 ln x1 + 𝛽2 ln 𝑥2 + 𝜇
Otros tests: Davidson-MacKinnon
• Si M1 estuviera bien especificado, entonces los valores ajustados de
M2 no debieran aportar información – es decir, no debieran ser
estadísticamente significativos.
– Por lo tanto se estima:
𝑦 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝛿𝑚2 𝑦𝑚2 + 𝑒𝑟𝑟𝑜𝑟

– Test de hipótesis: 𝐻𝑜 : 𝛿𝑚2 = 0

• También podemos pensarlo al revés, si M2 es correcto, entonces los


valores ajustados de M1 no debieran ayudar a explicar y.
• Por lo tanto se estima:

𝑦 = 𝛽0 + 𝛽1 l𝑛 (𝑥1 ) + 𝛽2 ln (𝑥2 ) + 𝛿𝑚1 𝑦𝑚1 + 𝑒𝑟𝑟𝑜𝑟

– Test de hipótesis: 𝐻𝑜 : 𝛿𝑚1 = 0


Otros tests: Davidson-MacKinnon
• Pero… ambos modelos pueden ser
rechazados, o bien ninguno…

• Además, podemos rechazar un modelo, pero


eso no implica que el modelo no rechazado
sea el correcto…
Test Multiplicador de Lagrange
aplicado a evaluar agregar variables
• Suponga que tiene una hipótesis que se debiera
incluir una variable explicativa al cuadrado y al
cubo.
• Test ML:
– Estimar modelo restringido (excluyendo las variables
que piensa agregar), por ejemplo:
𝑦 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝜇
– Regresión auxiliar sobre los residuos del modelo:
𝜇 = 𝛿0 + 𝛿1 𝑥12 + 𝛿2 𝑥13 + 𝜀

– LM: 𝑛𝑅𝜇2 ~ 𝜒 2 (𝑛𝑟𝑜 𝑟𝑒𝑠𝑡𝑟𝑖𝑐𝑐𝑖𝑜𝑛𝑒𝑠)


Evaluación gráfica
de problemas de especificación
• No linealidad: si 𝐸(𝑌|𝑥1 , 𝑥2 , … 𝑥𝑘 ) no está
bien reflejada por la regresión, entonces
supuesto de 𝐸(𝜇) ya no es válido.
– Vimos tests de especificación (e.g. Ramsey RESET)
– También podemos evaluar gráficamente para
detectar el problema.

– En la próxima clase veremos evaluaciones gráficas


y retomaremos este punto.
Variables proxy
Variable proxy
• ¿Qué sucede si el modelo está mal
especificado porque no hay datos disponibles
sobre una variable importante x?

• Es posible evitar el problema de sesgo por


variable omitida usando una variable proxy.
Variables proxy
• Una variable proxy es una variable observable que está
relacionada a una variable no observable.
• Por ejemplo, el verdadero modelo es:
𝑦 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝛽3 𝑥3 + 𝜇

• Pero 𝑥3 no es observable, usamos una proxy 𝑜3 :


𝑥3 = 𝛿0 + 𝛿1 𝑜3 + 𝜈3

¿Qué se debe cumplir para obtener estimadores consistentes


para 𝛽1 y 𝛽2 si estimamos sobre 𝑥1 , 𝑥2 y 𝑜3 (en vez de no
observable 𝑥3 )?
Variables proxy
Para obtener estimadores consistentes necesitamos
que:
𝐸 𝑥3 𝑥1 , 𝑥2 , 𝑜3 = 𝐸 𝑥3 𝑜3 = 𝛿0 + 𝛿1 𝑜3

Para ello se debe cumplir que:


• 𝜇 no está correlacionado con 𝑥1 , 𝑥2 y 𝑥3
• 𝑣3 no está correlacionado con 𝑥1 , 𝑥2 , 𝑜3
Variables proxy
• Con esos supuestos, estamos estimando en
realidad:
𝑦 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝛽3 𝛿0 + 𝛿1 𝑜3 + 𝜈3 + 𝜇

• Reordenando:
𝑦 = (𝛽0 +𝛽3 𝛿0 ) + 𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝛽3 𝛿1 𝑜3 + 𝛽3 𝜈3 + 𝜇

𝑦 = 𝛼0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝛼3 𝑜3 + 𝜀

Es decir, redefinimos el intercepto, el coeficiente y el término


del error:
Donde: 𝛼0 = 𝛽0 + 𝛽3 𝛿0 , 𝛼3 =𝛽3 𝛿1 , y 𝜀 = 𝛽3 𝜈3 + 𝜇
Variable proxy
• ¿Pero y si no se cumplen los supuestos?
• Podemos tener estimadores sesgados.

• Por ejemplo, se cumplen todos, excepto:


𝑥3 = 𝛿0 + 𝛿1 𝑥1 + 𝛿2 𝑥2 + 𝛿3 𝑜3 + 𝜈3
– Nuestros estimadores no son consistentes (ni
insesgados):
𝑝𝑙𝑖𝑚 𝛽1 = 𝛽1 + 𝛽3 𝛿1 ≠ 𝛽1
𝑝𝑙𝑖𝑚 𝛽2 = 𝛽2 + 𝛽3 𝛿2 ≠ 𝛽2
– Pero el sesgo puede ser menor que el sesgo de
variable omitida.
– Depende de los signos de 𝛽3 𝑦 𝛿𝑗
Variable proxy
• ¿Pero y si no se cumplen los supuestos?
• Podemos tener estimadores sesgados.

• Por ejemplo:
– Todos, excepto que:
𝑥3 = 𝛿0 + 𝛿1 𝑥1 + 𝛿2 𝑥2 + 𝛿3 𝑜3 + 𝜈3
Entonces:
𝑦 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝛽3 (𝛿0 + 𝛿1 𝑥1 + 𝛿2 𝑥2 + 𝛿3 𝑜3 + 𝜈3 ) + 𝜇

𝑦 = (𝛽0 +𝛽3 𝛿0 ) + 𝛽1 + 𝛽3 𝛿1 𝑥1 + (𝛽2 +𝛽3 𝛿2 )𝑥2 + 𝛽3 𝛿3 𝑜3 + 𝛽3 𝜈3 + 𝜇

Entonces: Si estimamos el modelo anterior:


𝑦 = 𝛼0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝛼3 𝑜3 + 𝜀
Nuestros estimadores no son consistentes (ni insesgados):
𝑝𝑙𝑖𝑚 𝛽1 = 𝛽1 + 𝛽3 𝛿1 ≠ 𝛽1
𝑝𝑙𝑖𝑚 𝛽2 = 𝛽2 + 𝛽3 𝛿2 ≠ 𝛽2
Errores de medición
• Conceptualmente diferente (siguiendo a
Wooldridge):
– Proxy: variable que se asocie/correlacione con
variable no observable
– Error de medición: variable tiene un significado
bien definido y cuantificable, sin embargo, nuestra
medición contiene errores.

– Además, en general, la variable proxy no es la


variable explicativa principal o de interés.
Errores de medición
en la variable dependiente
• Modelo cumple los supuestos clásicos
𝑛𝑦 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝜇

• Pero observamos 𝑦 , donde el error de medición se


define como:
𝜖0 = 𝑦 − 𝑛𝑦
• Por lo tanto, estimamos:
𝑦 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝜇 + 𝜖0

¿Qué se debe cumplir para obtener estimadores consistentes


para 𝛽1 y 𝛽2 al estimar 𝑦?
Errores de medición en la variable dependiente
• Dado que el modelo original cumple con los
supuestos: 𝜇 tiene media cero y no está
correlacionado con las variables explicativas.

• Si 𝜖0 no está correlacionado con 𝑥1 , 𝑥2 ni 𝜇 ∶


– Estimadores insesgados.
– Pero varianzas mayores:
𝑉 𝜇 + 𝜖0 = 𝜎𝜇2 + 𝜎𝜖20 > 𝜎𝜇2

• Si, 𝐸(𝜖0 ) ≠ 0 , entonces b0 estará sesgado.


Error de medición
en las variables explicativas
• Modelo satisface supuestos clásicos
𝑦 = 𝛽0 + 𝛽1 𝑛𝑥1 + 𝜇

• No observamos 𝑛𝑥1 , pero si 𝑥1


• Error de medición: 𝑒1 = 𝑥1 − 𝑛𝑥1

Por lo tanto, estimamos en realidad:

y = b0 + b1x1 + (u – b1e1)
Errores de medición en la variable explicativa

• Estimamos
y = b0 + b1x1 + (u – b1e1)
• Asumimos:
– 𝐸(𝑒1 ) = 0
– 𝜇 no está correlacionado con 𝑥1 , por lo que
𝐸(𝑦|𝑛𝑥1, 𝑥1 ) =𝐸(𝑦|𝑛𝑥1 )

• ¿Qué se debe cumplir para obtener estimadores


consistentes para 𝛽1 al estimar 𝑦?
Errores de medición en la variable explicativa
• Supuesto A: 𝐶𝑜𝑣 𝑥1 , 𝑒1 = 0
– Entonces:
𝑦 = 𝛽0 + 𝛽1 𝑥1 − 𝑒1 + 𝜇

𝑦 = 𝛽0 + 𝛽1 𝑥1 + (𝜇 − 𝛽1 𝑒1 )

– Estimadores insesgados y consistentes:


– Varianza mayor que si no hubiera error de medición:

𝑉 𝜇 + 𝛽1 𝑒1 = 𝜎𝜇2 + 𝛽12 𝜎𝑒21 > 𝜎𝜇2


Errores de medición en la variable dependiente
• Supuesto B: 𝐶𝑜𝑣 𝑛𝑥1 , 𝑒1 = 0
– Implica 𝐶𝑜𝑣 𝑥1 , 𝑒1 = 𝜎𝑒21

Demostración:
𝐶𝑜𝑣 𝑥1 , 𝑒1 = 𝐸 𝑥1 𝑒1 − 𝐸 𝑥1 𝐸(𝑒1 ) = 𝐸 𝑥1 𝑒1
= 𝐸 (𝑛𝑥1 + 𝑒1 )𝑒1 = 𝐸 𝑛𝑥1 𝑒1 + 𝐸 𝑒1 𝑒1
= 0 + 𝜎𝑒21 = 𝜎𝑒21

𝑦 = 𝛽0 + 𝛽1 𝑒𝑥1 − 𝑒1 + 𝜇
𝑦 = 𝛽0 + 𝛽1 𝑒𝑥1 + 𝜇 − 𝛽1 𝑒1
– De nuestros supuestos:𝐶𝑜𝑣 𝜇 − 𝛽1 𝑒1 , x1 = −𝛽1 𝜎𝑒21
– Estimadores sesgados
Errores de medición en la variable dependiente
• La variable explicativa incluida en la regresión está
correlacionada con el error de la regresión, por lo
que:
𝐶𝑜𝑣(𝑥1 ,𝜇−𝛽1 𝑒1 )
𝑝𝑙𝑖𝑚(𝛽1 ) = 𝛽1 +
𝑉(𝑥1 )

2
Donde 𝑉 𝑥1 = 𝑉 𝑛𝑥1 + 𝑒1 = 𝜎𝑛𝑥1
+ 𝜎𝑒21 + 2𝐶𝑜𝑣 𝑛𝑥1 , 𝑒1 = 𝜎𝑛𝑥
2
1
+ 𝜎𝑒21

𝛽1 𝜎𝑒21 𝜎𝑒21
𝑝𝑙𝑖𝑚(𝛽1 ) = 𝛽1 − 2 +𝜎 2 = 𝛽1 1 − 2 +𝜎 2
𝜎𝑛𝑥1 𝑒1 𝜎𝑛𝑥 1 𝑒1

2
𝜎𝑥𝑛 1
= 𝛽1 2 +𝜎 2
𝜎𝑛𝑥1 𝑒1

Por lo tanto: 𝑝𝑙𝑖𝑚(𝛽1 ) < 𝛽1


Errores de medición en la variable independiente
• ¿Si hay más variables?
𝑦 = 𝛽0 + 𝛽1 𝑛𝑥1 + 𝛽2 𝑥2 + 𝛽3 𝑥3 + 𝜇
• 𝑦 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝛽3 𝑥3 + 𝜇 − 𝛽1 𝑒1

• El cálculo se complejiza un poco, pero se sigue


obteniendo un sesgo de atenuación.
Datos faltantes
• Si para alguna observación no hay datos sobre
una de las variables del modelo, esa observación
no se puede utilizar.
• Si los datos faltantes son aleatorios, uar una
muestra restringida no genera problemas.

• Pero si los datos faltantes no son aleatorios, es


decir existe un patrón sistemático, entonces si
surgen problemas.

• Existe toda una área de la estadística que evalúa y


propone métodos para lidiar con este problema.
Muestras no aleatorias
• Suponga que Ud sólo observa Y para ciertos valores, o
para ciertos individuos:
– Sólo observa el resultado de un programa entre aquellos
que asisten al programa.
– Sólo observa las características de quienes van a la
reelección.
• Como vimos, se produce un sesgo de selección.
• Existen – además de la visto antes – métodos
estadísticos que buscan lidiar por este problema.
• Una estrategia es la corrección de Heckman, en que se
estima el estar o no en el grupo tratado, y eso se
incorpora en la estimación.

También podría gustarte