Está en la página 1de 26

Econometría 1

Supuestos del Modelo de Regresión Lineal


Clásico

Profesor: Luis García


PUCP
El Análisis de Regresión
 El Análisis de Regresión
• Consiste en usar técnicas estadísticas para estudiar la relación
entre una variable 𝑌 (llamada variable dependiente) y otra o
más variables 𝑋 (llamadas variables independientes).
• Ejemplo: Lluvias y cosecha
El sentido causal va de izquierda a derecha, la lluvia afecta a la cosecha, o sea la variable dependiente es afectada por la
variable independiente, más no lo contrario, los cambios en la cosecha no afectarán a las lluvias.

V. Independiente V. Dependiente

2
El Análisis de Regresión
• El objetivo del análisis de regresión es explicar y pronosticar
el comportamiento de la variable dependiente a través del
comportamiento de la o las variables independientes.

• ¿Es la lluvia un buen predictor del volumen de las cosechas?

• ¿Si el próximo año esperamos 10𝑐𝑚/𝑚2 de lluvia, cuánto será


la cosecha?

• ¿Hay más predictores que deberíamos incluir?

3
El Análisis de Regresión
• La regresión y correlación  están relacionadas pero son
distintos.

• La correlación solo analiza el sentido y la fuerza de


asociación entre dos variables, que son tratadas en forma
simétrica.
...En cambio.....

• El análisis de regresión asume una relación de dependencia


entre variables. Por ello, las variables son tratadas en forma
asimétrica: una depende de la otra.

4
El Análisis de Regresión
• El análisis de regresión es útil en econometría cuando queda
claramente definido el sentido de la relación causal: “qué
causa a qué”.

• Si no hay verdaderas relaciones causales, el análisis de


regresión solo muestra asociación entre variables  Problema
de la regresión espuria.

5
El Análisis de Regresión
• Ejemplo: Número de ahogados y ventas de helados
• Esta variables pueden presentar cierta asociación, pero no
existe una relación causal entre ellas.
Si observo datos de estas dos variables, quizás podría encontrar cierta asociación entre esas
dos variables.

• Usualmente ocurren cuando las variables son causadas por una


tercera variable.
En este caso, no tienen relación entre ambas, pero si ambas se relacionan con la
temperatura. La temperatura eleva la venta de helados y la temperatura lleva a ir a la
playa más seguido y haya ahogados.
Venta de Helados
Temperatura

Ahogados

6
Otros ejemplos de regresión espuria
http://www.tylervigen.com/spurious-correlations
Ejemplo de relación espuria: Gasto en ciencia y tecnología de los EE.UU vs la cantidad de
suicidos por arma, estrangulación o sofocación

7
EJEMPLO: Total de ventas de los arcades vs la cantidad de grados de doctor en los
EE.UU. Pero en ninguno de los ejemplos, hay relación causal. no existe relación causal
entre estas variables.

8
El Modelo de Regresión Lineal Clásico con Dos
Variables
• La idea es explicar a la endógena 𝑌 mediante un solo regresor
𝑋.
Parte explicada por X F. Regresión
Lluvia, por ejemplo.
Comportamiento de Y
Cosecha, supongamos. Perturbación
Parte no explicada por X
Puede ser fertilizantes, o error
técnicas de sembrado, etc

• Llamemos a la parte explicada como “Función de Regresión


Poblacional (FRP)”.
• La parte no explicada es la “perturbación” o “error” 𝑢𝑖 .

• En ecuaciones: 𝑌𝑖 = 𝐹𝑅𝑃𝑖 + 𝑢𝑖
El volumen de Aquella parte Y aquella
cosechas se explicada por la parte que no
descomponen en: variable X es explicada 9
por X
Supuestos del MRLC con 2 variables
• Empezaremos definiendo y explicando los supuestos.

• Supuesto 1: La relación entre X e Y es una relación lineal en sus


parámetros beta 1 y beta 2.
La endógena 𝑌 = 𝛽 + 𝛽 𝑋 + 𝑢 𝑖 = 1, … , 𝑛
𝑖 1 2 𝑖 𝑖

FRP o “regresión”
La Función de regresión poblacional es
una función lineal de los X y los betas.
• En otras palabras, la 𝐹𝑅𝑃𝑖 es lineal en los parámetros 𝛽1 y 𝛽2 .
• 𝛽1 es el intercepto
• 𝛽2 es la pendiente

10
Supuestos del MRLC con 2 variables
• ¿Qué significa lineal en parámetros? Los “betas” aparecen
como términos independientes o como coeficientes. Ejemplos:
• 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 2 + 𝑢𝑖
𝛽
• 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 3 + 𝑢𝑖
1 Yi se relaciona con la inversa de Xi, obviamente esa inversa
• 𝑌𝑖 = 𝛽1 + 𝛽2 + 𝑢𝑖 es no lineal en la variable, sin embargo, satisface el
𝑋𝑖 supuesto de linealidad en los parámetros. Porque beta 1 y
beta 2 aparecen en forma lineal.
• 𝑌𝑖 = 𝑒 𝛽1 𝑋𝑖 𝛽2 𝑒 𝑢𝑖

• En el cuarto caso, si bien no es lineal en parámetros, puede


linealizarse tomando logaritmos.
• ln 𝑌𝑖 = 𝛽1 + 𝛽2 ln 𝑋𝑖 + 𝑢𝑖

11
Supuestos del MRLC con 2 variables
• La relación entre 𝑋 e 𝑌 puede verse mediante un diagrama de
dispersión La relación entre Y *
En este caso, ese pata tiene X decimos que es
lineal, entonces
trazamos una línea
recta que es la FRP.
Esa línea poblacional
sirve como una
especie de guía
teórica de cómo es la
relación entre da
educación y los
salarios.

𝑢1 𝐹𝑅𝑃𝑖 = 𝛽1 + 𝛽2 𝑋𝑖
𝑢2
Nota: Esa función de regresión
poblacional depende de estos
parámetros beta 1 y beta 2. Cabe aclarar
que estos parámetros son
PARÁMETROS POBLACIONALE, por lo
tanto, no son parámetros visibles por el
investigador. El investigador solo puede
observar esos puntos negros.

12
Supuestos del MRLC con 2 variables
• Supuesto 2: La esperanza condicional de 𝑢𝑖 dado 𝑋𝑖 es igual a
cero
𝐸 𝑢𝑖 |𝑋𝑖 = 0 𝑖 = 1, … , 𝑛

Este supuesto es de suma importancia en el análisis de regresión.

Para entenderlo, veámoslo gráficamente.

13
Supuestos del MRLC con 2 variables
• El supuesto, 𝐸 𝑢𝑖 |𝑋𝑖 = 0 dice que no importa qué valor tome Esto es otra característica

X, la esperanza de 𝑢𝑖 será cero condicionado a ese X.


que nos mostraría, porque
como vemos a diferentes
valores de Xi, el valor
Dado que tomaremos personas con esperado o esperanza de
Ui no cambia, siempre va a
educación primaria (6 años), vemos ser cero., por lo tanto X no
que hay personas por encima y por influye en U, o sea las dos
variables no van a estar
debajo esos dos puntos, pero en relacionadas.
promedio se espera que el valor
esperado de esos dos errores será 0. 𝐸 𝑢𝑖 |𝑋𝑖 = 0
Es decir que estemos cerca de la FRP 𝐸[𝑢𝑖 |𝑋𝑖 = 11] dice que 𝑋𝑖 y 𝑢𝑖
𝐸[𝑢𝑖 |𝑋𝑖 = 6]
FRP no están
relacionados

𝐸 𝑢𝑖 𝑋𝑖 = 0
equivale a decir que
los puntos se
encuentran
alrededor de la
𝑋𝑖 = 6 𝑋𝑖 = 11 recta, a lo largo de
ella.
14
Supuestos del MRLC con 2 variables
• Veamos ahora a la esperanza condicional, 𝐸 𝑌𝑖 𝑋𝑖 .
• En el ejemplo, es el salario promedio para cada nivel Es decir, el valor
esperado del salario dado
que observo un nivel X de
educativo. educación.

• El supuesto 2 implica que Es decir, que la esperanza de Y dado X, es igual a la FRP


O sea que si tengo un X igual
a 5, corresponde a su altura

𝐸 𝑌𝑖 𝑋𝑖 = 𝛽1 + 𝛽2 𝑋𝑖
tal cuál, que es la Función de
regresión Poblacional Teórica,

FRP

15
Supuestos del MRLC con 2 variables
Porque
es
constant

• Para probar esto, calculemos 𝐸 𝑌𝑖 𝑋𝑖


e

𝐸 𝑌𝑖 𝑋𝑖 = 𝐸 𝛽1 + 𝛽2 𝑋𝑖 + 𝑢𝑖 𝑋𝑖
La esperanza se aplica a cada uno de estos sumandos Porque Porque la
es condicional de
constante X contra X es
Por el supuesto 1, esta esperanza es igual a 0. la misma
variable

= 𝛽1 + 𝛽2 𝑋𝑖 + 𝐸 𝑢𝑖 𝑋𝑖
=0
Por lo tanto, se comprueba que esa esperanza es igual a FRP

= 𝛽1 + 𝛽2 𝑋𝑖

16
Supuestos del MRLC con 2 variables
• Otras implicaciones del supuesto 2:

a) La media incondicional del término de error es cero


𝐸 𝑢𝑖 = 0

b) 𝐸 𝑋𝑖 𝑢𝑖 = 0, es decir 𝑋𝑖 y 𝑢𝑖 son “ortogonales” en el sentido


estadístico.

c) 𝐶𝑜𝑣 𝑋𝑖 , 𝑢𝑖 = 0. El regresor no está correlacionado con


Esto lo vimos cuando dije
el término de error. que a cualquier valor de
X no varía la esperanza
de U.

17
Supuestos del MRLC con 2 variables
• Demostración de (a): Dada la ley de las expectativas totales,
𝐸 𝐸 𝑎 𝑏 = 𝐸[𝑎], entonces
𝐸 𝑢𝑖 = 𝐸 𝐸 𝑢𝑖 𝑋𝑖

=𝐸 0 =0

• Demostración de (b): Usando la misma ley,


𝐸 𝑋𝑖 𝑢𝑖 = 𝐸 𝐸 𝑋𝑖 𝑢𝑖 𝑋𝑖
Sale porque al ser dado Xi,
es un número fijo
constante, por eso lo saco
= 𝐸 𝑋𝑖 𝐸 𝑢𝑖 𝑋𝑖 = 𝐸 𝑋𝑖 . 0 = 0

Es cero por condición

18
Supuestos del MRLC con 2 variables
• Demostración de (c) :
𝐶𝑜𝑣 𝑋𝑖 , 𝑢𝑖 = 𝐸 𝑋𝑖 − 𝐸 𝑋𝑖 𝑢𝑖 − 𝐸 𝑢𝑖 Aquí multiplico todos los
términos .

= 𝐸 𝑋𝑖 𝑢𝑖 − 𝐸 𝑋𝑖 𝑢𝑖 − 𝑋𝑖 𝐸 𝑢𝑖 + 𝐸 𝑋𝑖 𝐸 𝑢𝑖
Es constante, porque ya es una media, si le saco
E otra vez es el mismo valor constante o sea E[X]

= 𝐸 𝑋𝑖 𝑢𝑖 − 𝐸 𝑋𝑖 𝐸 𝑢𝑖 − 𝐸 𝑋𝑖 𝐸 𝑢𝑖 + 𝐸 𝑋𝑖 𝐸[𝑢𝑖 ]
= 𝐸 𝑋𝑖 𝑢𝑖 − 𝐸 𝑋𝑖 𝐸 𝑢𝑖
Se van son iguales.

• Por las propiedades anteriores 𝐸 𝑋𝑖 𝑢𝑖 = 0 y 𝐸 𝑢𝑖 = 0.


Luego esta covarianza es cero.

19
Supuestos del MRLC con 2 variables
Antes hablamos de la
relación de los errores con
los valores aleatorios de
Xi, sin embargo, en este
• Supuesto 3: Las perturbaciones son “esféricas”. supuesto 3 vamos a
hablar de las varianzas y
covarianzas.
Los individuos tienen la misma variabilidad en sus perturbaciones, para todo i siempre será sigma al cuadrado. Eso se llama

𝑉𝑎𝑟 𝑢𝑖 𝑋𝑖 = 𝜎 2 ∀𝑖 = 1, … , 𝑛 “Homocedasticidad”

𝐶𝑜𝑣 𝑢𝑖 , 𝑢𝑗 𝑋𝑖 , 𝑋𝑗 = 0 ∀𝑖 ≠ 𝑗 “No autocorrelación”


Quiere decir que si estos dos Ui y Uj su covarianza es cero, no hay ningún tipo de covarianza entre errores de diferentes individuos

Homocedasticidad significa que la varianza de 𝑢𝑖 es constante,


dado cada 𝑋𝑖 .

20
Supuestos del MRLC con 2 variables
Densidad

Remuneraciones
𝑌 La amplitud de la campana es la varianza o
dispersión y como vemos es constante
alrededor de la reta.

5
𝐸 𝑌𝑖 |𝑋𝑖 = 𝛽1 + 𝛽2 𝑋𝑖
10
15

𝑋 Años de educación
La dispersión de las remuneraciones es constante a lo largo de la recta
de regresión.

21
Supuestos del MRLC con 2 variables

Y Y

X X
Pero, en cambio aquí la dispersión va aumentando conforme
aumente los X
Si mis datos son homocedásticos eso quiere decir que mis
observaciones que son los puntitos se encuentren
salpicados a lo largo de la recta, pero con la misma
dispersión
Homocedástico Heterocedástico

22
Supuestos del MRLC con 2 variables
• No autocorrelación en series de tiempo: el error en un Esto ya lo hemos hablado,
periodo no se relaciona con el error de otros periodos solo que lo diferenciaremos
aquí con la definición de
corte transversal que aún no
hemos definido.

• No autocorrelación en corte transversal: Recordar que la


perturbación 𝑢𝑖 incluye a variables no observables tales
como las habilidades, preferencias, actitudes, costumbres, etc.
En ese sentido en corte transversal, decir que la covarianza en Ui y Uj es igual a 0 significa que

• 𝐶𝑜𝑣 𝑢𝑖 , 𝑢𝑗 𝑋𝑖 , 𝑋𝑗 = 0 significa que el error de un individuo 𝑖


no se relaciona con el de otro individuo 𝑗 (no tienen
preferencias comunes, ni costumbres comunes, etc.)

23
Supuestos del MRLC con 2 variables
• Supuesto 4: La variable aleatoria 𝑋 se encuentra “fija” en
muestras repetidas.
• La muestra de datos es una muestra aleatoria obtenida de la
población.
• Normalmente, los valores de X e Y deberían cambiar si se
toman diferentes muestras.
• Ejem: Muestras de 3 individuos, X=Educación, Y=Salario

Muestra 1 Muestra 2 Muestra 3


X Y X Y X Y
7 540 4 295 8 990 ….

11 790 16 1450 13 1180


9 613 6 560 5 640
24
Supuestos del MRLC con 2 variables
• Si asumimos muestras repetidas, la columna X sería igual en
todas las tablas. Así le quitamos la aleatoriedad a esta variable X solo a X no a Y.

• Es un supuesto poco realista pero nos facilita los cálculos


matemáticos pues podemos prescindir de las esperanzas
condicionales. Es un supuesto innecesario solo se usa para facilitar cálculos como simplificar los
supuestos anteriores a estos de aquí.

• Supuesto 2 (a): 𝐸 𝑢𝑖 = 0
• Supuesto 3 (a): 𝑉𝑎𝑟 𝑢𝑖 = 𝜎 2 𝐶𝑜𝑣(𝑢𝑖 , 𝑢𝑗 ) = 0

25
MODELO DE REGRESIÓN LINEAL CLÁSICO CON 2 VARIABLES

Supuestos del MRLC con 2 variables


• Supuesto 5: Los errores siguen una distribución normal.

• Considerando a los supuestos 2 y 3, este supuesto dice que


cada 𝑢𝑖 es independiente e identicamente distribuido de los
demás errores, como una normal
𝑢𝑖 ~𝑁(0, 𝜎 2 ) ∀𝑖

• En la siguiente sesión veremos la estimación del modelo por


mínimos cuadrados ordinarios.

26

También podría gustarte