Está en la página 1de 45

Introduccin a la

econometra

Regresin simple
INTRODUCCIN
La Econometra tiene por objeto el anlisis de datos econmicos
combinando teora econmica y tcnicas estadsticas
Se usa tambin en Ciencias Sociales (Sociologa, Poltica, etc)
Ofrecemos una introduccin a algunos de los mtodos comunes en
Econometra. Con ellos podemos contestar preguntas como,
La reduccin el ratio alumno/profesor mejora la calidad de la educacin?
Cmo afectan los impuestos a la reduccin del hbito del tabaco?
Cul ser la cifra de inflacin el prximo mes?
El principal instrumento del anlisis economtrico es el mtodo de
estimacin de mnimos cuadrados ordinarios
2
1
Y
MODELO DE REGRESIN SIMPLE
Supongamos que una variable Y es una funcin lineal de otra variable X, con parmetros |
1

and |
2
desconocidos y que deseamos estimar.
X Y
2 1
| | + =
|
1

X X
1
X
2
X
3
X
4

Supongamos que tenemos una muestra de 4 observaciones para los valores de X e Y.
2
X Y
2 1
| | + =
|
1

Y
X X
1
X
2
X
3
X
4

MODELO DE REGRESIN SIMPLE
Si la relacin fuera exacta, todas las observaciones estaran en una lnea recta, y no habra
ninguna dificultad para obtener estimaciones exactas de |
1
y |
2

Q
1

Q
2

Q
3

Q
4

MODELO DE REGRESIN SIMPLE
3
X Y
2 1
| | + =
|
1

Y
X X
1
X
2
X
3
X
4

De hecho en este caso bastara con disponer de dos observaciones para obtener la recta
verdadera.
Q
1

Q
4

MODELO DE REGRESIN SIMPLE
3
X Y
2 1
| | + =
|
1

Y
X X
1
X
4

P
4

En la prctica las relaciones econmicas no son exactas y los valores observados de Y son
diferentes de los que corresponderan de acuerdo con una relacin lineal exacta
P
3

P
2

P
1

Q
1

Q
2

Q
3

Q
4

MODELO DE REGRESIN SIMPLE
4
X Y
2 1
| | + =
|
1

Y
X X
1
X
2
X
3
X
4

P
4

Para tener en cuenta estas divergencias, escribimos el modelo como Y = |
1
+ |
2
X + u,
donde u es una variable aleatoria (perturbacin aleatoria).
P
3

P
2

P
1

Q
1

Q
2

Q
3

Q
4

MODELO DE REGRESIN SIMPLE
5
X Y
2 1
| | + =
|
1

Y
X X
1
X
2
X
3
X
4

P
4

Cada valor deY tiene por tanto dos componentes: uno no aleatorio, |
1
+ |
2
X, y otro
aleatorio, u. La primera observacin ha sido descompuesta en estos dos componentes.
P
3

P
2

P
1

Q
1

Q
2

Q
3

Q
4

u
1

MODELO DE REGRESIN SIMPLE
6
X Y
2 1
| | + =
|
1

Y
1 2 1
X | | +
X X
1
X
2
X
3
X
4

P
4

En la prctica solo vemos los puntos P.
P
3

P
2

P
1

MODELO DE REGRESIN SIMPLE
7
Y
X X
1
X
2
X
3
X
4

P
4

Podemos usar los puntos P para dibujar una lnea que ser una aproximacin a la lnea
Y = |
1
+ |
2
X. Si escribimos esta lnea comoY = b
1
+ b
2
X, b
1
es un estimador de|
1
y b
2
es un
estimador de |
2
.
P
3

P
2

P
1

^
MODELO DE REGRESIN SIMPLE
8
X b b Y
2 1

+ =
b
1

Y
X X
1
X
2
X
3
X
4

P
4

Esta lnea se denomina modelo ajustado y los valores de Y pronosticados (por el modelo
ajustado) son los valores ajustados de Y. stos estn representados por los puntos R.
P
3

P
2

P
1

R
1

R
2

R
3

R
4

MODELO DE REGRESIN SIMPLE
9
X b b Y
2 1

+ =
b
1

Y

(v. ajustado)
Y (valor observado)
Y
X X
1
X
2
X
3
X
4

P
4

X X
1
X
2
X
3
X
4

Los valores ajustados tampoco coinciden con los observados. Las discrepancias entre los
valores observados y ajustados de Y se denominan residuos.
P
3

P
2

P
1

R
1

R
2

R
3

R
4

(residuo)
d
1

d
2

d
3

d
4

MODELO DE REGRESIN SIMPLE
10
X b b Y
2 1

+ =
b
1

Y

(v. ajustado)
Y (v. observado)
e Y Y =

Y
P
4

Observar que los valores de los residuos no son los mismos que los del trmino de
perturbacin. El grfico muestra ahora la verdadera relacin desconocida junto con la lnea
ajustada.
P
3

P
2

P
1

R
1

R
2

R
3

R
4

b
1

MODELO DE REGRESIN SIMPLE
11
X b b Y
2 1

+ =
X Y
2 1
| | + =
|
1

Y

(ajustado)
Y (observado)
Y
X X
1
X
2
X
3
X
4

P
4

El trmino de perturbacin de cada observacin es responsable de la divergencia entre la
observacin de Y y el componente no aleatorio de la verdadera relacin.
P
3

P
2

P
1

MODELO DE REGRESIN SIMPLE
12
Q
2

Q
1

Q
3

Q
4

X b b Y
2 1

+ =
X Y
2 1
| | + =
|
1

b
1

Y

(ajustado)
Y (observado)
Y
X X
1
X
2
X
3
X
4

P
4

Los residuos miden la discrepancia entre los valores observados y los ajustados.
P
3

P
2

P
1

R
1

R
2

R
3

R
4

MODELO DE REGRESIN SIMPLE
13
X b b Y
2 1

+ =
X Y
2 1
| | + =
|
1

b
1

Y

(ajustado)
Y (observado)
Y
X X
1
X
2
X
3
X
4

P
4

Si el ajuste es bueno, los residuos y las perturbaciones sern similares, pero son
conceptualmente distintos.
P
3

P
2

P
1

R
1

R
2

R
3

R
4

MODELO DE REGRESIN SIMPLE
14
X b b Y
2 1

+ =
X Y
2 1
| | + =
|
1

b
1

Y

(ajustado)
Y (observado)
Y
X X
1
X
2
X
3
X
4

P
4

En el anlisis usaremos ambas lneas. Cada una permite una descomposicin de los
valores de Y. Se ilustra la de la cuarta observacin.
MODELO DE REGRESIN SIMPLE
15
Q
4

u
4

X b b Y
2 1

+ =
X Y
2 1
| | + =
|
1

b
1

Y

(ajustado)
Y (observado)
Y
4 2 1
X | | +
X X
1
X
2
X
3
X
4

P
4

Usando la relacin terica, Y puede descomponerse en su componente no estocstico
dado por |
1
+ |
2
X y en su componente estocstico u.
MODELO DE REGRESIN SIMPLE
16
Q
4

u
4

X b b Y
2 1

+ =
X Y
2 1
| | + =
|
1

b
1

Y

(ajustado)
Y (observado)
Y
4 2 1
X | | +
X X
1
X
2
X
3
X
4

P
4

Esta es una descomposicin terica porque no conocemos los valores de |
1
o |
2
, o los
valores del trmino de perturbacin.
MODELO DE REGRESIN SIMPLE
17
Q
4

u
4

X b b Y
2 1

+ =
X Y
2 1
| | + =
|
1

b
1

Y

(ajustado)
Y (observado)
Y
4 2 1
X | | +
X X
1
X
2
X
3
X
4

P
4

La otra descomposicin se refiere a la lnea ajustada. Para cada observacin el valor
observado de Y es igual al valor ajustado ms el residuo. Es una descomposicin operativa
que usaremos con propsitos prcticos.
MODELO DE REGRESIN SIMPLE
18
d
4

R
4

X b b Y
2 1

+ =
X Y
2 1
| | + =
|
1

b
1

Y

Y (observado)
(ajustado)
Y
4 2 1
X b b +
X X
1
X
2
X
3
X
4

P
4

Hay pues dos lneas diferentes: la lnea de regresin poblacional (desconocida) y la lnea de
regresin muestral (estimada a partir de los datos)
MODELO DE REGRESIN SIMPLE
18
R
4

Reg muestral
Reg poblacional
|
1

b
1

Y

Y (observado)
(ajustado)
Y
X X
1
X
2
X
3
X
4

MODELO DE REGRESIN SIMPLE
Cmo obtener la estimacin? Criterio MCO:
2 2 2
1
1
...
n
i n
i
RSS d d d
=
= = + +

Minimizar la suma cuadrtica residual (RSS), donde,


Para comenzar, obtendremos la lnea ajustada minimizando la suma cuadrtica de los
residuos, lo que se conoce como criterio de mnimos cuadrados.
19
MODELO DE REGRESIN SIMPLE
Por qu no minimizar simplemente la suma de los residuos y no la suma de sus
cuadrados?
Criterio de Mnimos Cuadrados:
Porqu no minimizar
1
1
... ?
n
i n
i
d d d
=
= + +

20
Minimizar RSS, donde
2 2 2
1
1
...
n
i n
i
RSS d d d
=
= = + +

P
4

La respuesta es que podra obtenerse un ajuste aparentemente perfecto trazando una lnea
horizontal a la altura de la media de Y. La suma de los residuos sera cero.
P
3

P
2

P
1

MODELO DE REGRESIN SIMPLE
Y
21
X X
1
X
2
X
3
X
4

Y
P
4

Hay que evitar que los residuos negativos cancelen los positivos y una forma de hacerlo es
usar los cuadrados de los residuos.
P
3

P
2

P
1

MODELO DE REGRESIN SIMPLE
22
X X
1
X
2
X
3
X
4

Y
Y
P
4

Hay otras formas, pero el criterio MCO tiene el atractivo de que los estimadores obtenidos
tienen buenas propiedades estadsticas si se cumplen ciertas hiptesis de partida.
P
3

P
2

P
1

MODELO DE REGRESIN SIMPLE
23
X X
1
X
2
X
3
X
4

Y
Y
P
4

A continuacin mostraremos cmo se usa el criterio MCO para obtener la lnea de regresin
ajustada.
P
3

P
2

P
1

MODELO DE REGRESIN SIMPLE
24
X X
1
X
2
X
3
X
4

Y
Y
DERIVACIN DE LOS COEFICIENTES DE REGRESIN
En general, siendo el modelo Y
i
= |
1
+|
2
X
i
+u
i

2 2
1 2
1 1
( )
n n
i i i
i i
RSS d Y b b X
= =
= =

La estimacin MCO consiste en minimizar la Suma Cuadrtica Residual, RSS, definida
como se muestra
DERIVACIN DE LOS COEFICIENTES DE REGRESIN
Aplicamos a RSS la primera condicin de mnimo, es decir calcularemos las derivadas
parciales de RSS respecto de b
1
y b
2
, e igualaremos a cero
2
1 2
1
1 1
2
1 2
1
2 2
( )
0
( )
0
n
i i
i
n
i i
i
Y b b X
RSS
b b
Y b b X
RSS
b b
=
=
(
c
(
c

= =
c c
(
c
(
c

= =
c c

DERIVACIN DE LOS COEFICIENTES DE REGRESIN


Aplicando las reglas de la derivacin se obtiene el llamado sistema de ecuaciones
normales
2
1 2 1 2
1
1
2
1 2 1 2
1
2
2 ( )( 1) 0
2 ( )( ) 0
n
i
n
i
RSS
Y b b X Y Nb b X
b
RSS
Y b b X X YX b X b X
b
=
=
c
= = = +
c
c
= = = +
c


DERIVACIN DE LOS COEFICIENTES DE REGRESIN
A partir de una muestra concreta pueden obtenerse medias y sumatorios y resolver el
sistema
2
1 2 1 2
1
1
2
1 2 1 2
1
2
2 ( )( 1) 0
2 ( )( ) 0
n
i
n
i
RSS
Y b b X Y Nb b X
b
RSS
Y b b X X YX b X b X
b
=
=
c
= = = +
c
c
= = = +
c


DERIVACIN DE LOS COEFICIENTES DE REGRESIN
Tambin podemos despejar directamente b
1
y b
2
para obtener
1 2 1 2
1
1
1
1 1
1 2 2
2
1
2
1
2 ( )( 1) 0
2 ( )( ) 0
n
i
n n
n
i i
n
i
i
RSS
Y b b X b Y b X
b
YX b X
RSS
Y b b X X b
b
X
=
= =
=
=
c
= = =
c

c
= = =
c

DERIVACIN DE LOS COEFICIENTES DE REGRESIN


2
2
2
1 1
1
2
2
2
1
cov( , )
var( )
n n
i i
n
i
n
i
X YX
b X Y X
N N
YX
Y X
Y X
N
b
X X
X
N
= =
=
=
| |
=
|
\ .

= =

Adicionalmente es fcil probar que el estimador de |


2
es igual al cociente
entre la covarianza y la varianza de la variable explicativa
DERIVACIN DE LOS COEFICIENTES DE REGRESIN
X X
n
X
1

Y
b
1

1 2 1 1

X b b Y + =
1
Y
b
2

n
Y
n n
X b b Y
2 1

+ =
Resumiendo: bajo la hiptesis de que el verdadero modelo es Y =|
1
+|
2
X , hemos ajustado
una lnea recta a partir de una muestra de datos.
39
DERIVACIN DE LOS COEFICIENTES DE REGRESIN
X X
n
X
1

Y
b
1

1 2 1 1

X b b Y + =
1
Y
b
2

n
Y
n n
X b b Y
2 1

+ =
Hemos elegido los parmetros de la lnea ajustada de forma que minimicen la suma
cuadrtica residual, derivando de esta forma las expresiones que permiten calcular b
1
y b
2
.
40
DERIVACIN DE LOS COEFICIENTES DE REGRESIN
X X
n
X
1

Y
b
1

1 2 1 1

X b b Y + =
1
Y
b
2

n
Y
n n
X b b Y
2 1

+ =
X b Y b
2 1
=
Hemos elegido los parmetros de la lnea ajustada de forma que minimicen la suma
cuadrtica residual, derivando de esta forma las expresiones que permiten calcular b
1
y b
2
.
40
( )( )
( )


=
2 2
X X
Y Y X X
b
i
i i
DERIVACIN DE LOS COEFICIENTES DE REGRESIN
X X
n
X
1

Y
b
1

1 2 1 1

X b b Y + =
1
Y
b
2

n
Y
n n
X b b Y
2 1

+ =
X b Y b
2 1
=
Hemos elegido los parmetros de la lnea ajustada de forma que minimicen la suma
cuadrtica residual, derivando de esta forma las expresiones que permiten calcular b
1
y b
2
.
40
2
cov(Y,X)
b =
var(X)
EJEMPLO
Supongamos que el salario hora de los trabajadores se
relaciona con los aos de estudio segn,
S
i
= |
1
+|
2
E
i
+c
donde S
i
es el salario hora del individuo i y E
i
son los aos
de estudio de dicho individuo.
Tenemos una muestra de 526 individuos con sus respectivos
datos de salario/hora y aos de educacin.
La representacin grfica muestra en efecto una relacin
positiva entre ambas:

Dto. Economa Aplicada Cuantitativa I 45
EJEMPLO
0
5
10
15
20
25
30
0 4 8 12 16 20
EDUC
S
A
L
/
H
O
R
A
Dto. Economa Aplicada Cuantitativa I 46
EJEMPLO
Con los datos de la muestra es inmediato calcular las medias,
cov(Y,X) y var(X):
cov(Y,X) = 4.1429
var(X) = 7.6529
X = 12.5627, Y = 5.8961
Entonces b
2
= 0.54136 y b
1
= 5.8961 0.54136*12.5627
Y la estimacin,

i
= 0.9+0.54X
i



Dto. Economa Aplicada Cuantitativa I 47
_ _
EJEMPLO
-5
0
5
10
15
20
25
30
0 2 4 6 8 10 12 14 16 18 20
Y=-0.90+0.54X
Dto. Economa Aplicada Cuantitativa I 48
Cmo debemos interpretar los resultados? En primer lugar hay que prestar
atencin a las unidades en las que estn medidas las variables. En nuestro
caso Y es el salario en /hora y X los aos totales de educacin
EJEMPLO
-5
0
5
10
15
20
25
30
0 2 4 6 8 10 12 14 16 18 20
Y=-0.90+0.54X
Dto. Economa Aplicada Cuantitativa I 49
Por tanto el coeficiente de pendiente (el coeficiente de X) nos indica que el
salario hora se incrementa en 0.54 por cada ao de educacin adicional.
Como la relacin es lineal, este incremento es constante
EJEMPLO
-5
0
5
10
15
20
25
30
0 2 4 6 8 10 12 14 16 18 20
Y=-0.90+0.54X
Dto. Economa Aplicada Cuantitativa I 50
Respecto al trmino independiente, la ecuacin estimada nos dice que una
persona sin estudios tendra un salario negativo! lo que carece de sentido
EJEMPLO
Si, como es corriente, expresamos los datos del
salario en logs, los datos intermedios,




Calcular la regresin y comprobar que un ao ms de
educacin supone un incremento de un 8.27% en el
salario/hora

log(Y) X
log(Y) 0.281996 0.633235
X 7.652908
Medias 1.623268 12.56274