Está en la página 1de 26

PREDICCIÓN

Yt = β 1 + β 2 X t + ut
Yˆt = b1 + b2 X t

Realizaremos una introducción al tema de la predicción utilizando un modelo de regresión.


El análisis se limita al modelo de regresión simple y suponemos que hemos estimado la
ecuación con una muestra de 1....T observaciones (el periodo muestral).

1
PREDICCIÓN

Yt = β 1 + β 2 X t + ut
Yˆt = b1 + b2 X t

YˆT + p = b1 + b2 X T + p

Supongamos que sabemos que el valor de la variable X en algún momento futuro del
tiempo T+p será xT+p. Entonces el valor predicho para Y en ese momento lo podemos
encontrar insertando XT+p en la ecuación de regresión.

Seamos realistas, no podemos conocer el valor futuro de X, aunque lo podríamos predecir.


En ese caso, lo que podemos decir es que la ecuación nos da el valor predicho de Y,
condicionado a que X sea igual a XT+p.
2
PREDICCIÓN

Yt = β 1 + β 2 X t + ut
Yˆt = b1 + b2 X t

YˆT + p = b1 + b2 X T + p
fT + p = YT + p − YˆT + p

La diferencia entre el valor real y el predicho es el error de predicción, fT+p.

3
PREDICCIÓN

Yt = β 1 + β 2 X t + ut
Yˆt = b1 + b2 X t

YˆT + p = b1 + b2 X T + p
fT + p = YT + p − YˆT + p

E ( fT + p ) = E (YT + p ) − E (YˆT + p )
= E ( β 1 + β 2 X T + p + uT + p ) − E (b1 + b2 X T + p )
= β 1 + β 2 X T + p + E ( uT + p ) − E (b1 ) − X T + p E (b2 )
= β1 + β 2 X T + p + 0 − β1 − X T + p β 2 = 0

Si el modelo está correctamente especificado y si se cumplen las condiciones Gauss-


Markov, el valor esperado del error de predicción es 0. Lo demostramos.
4
PREDICCIÓN

Yt = β 1 + β 2 X t + ut
Yˆt = b1 + b2 X t

YˆT + p = b1 + b2 X T + p
fT + p = YT + p − YˆT + p

E ( fT + p ) = E (YT + p ) − E (YˆT + p )
= E ( β 1 + β 2 X T + p + uT + p ) − E (b1 + b2 X T + p )
= β 1 + β 2 X T + p + E ( uT + p ) − E (b1 ) − X T + p E (b2 )
= β1 + β 2 X T + p + 0 − β1 − X T + p β 2 = 0

Sustituimos el valor de YT+p por la expresión del modelo y el valor predicho por la ecuación
de regresión ajustada.
5
PREDICCIÓN

Yt = β 1 + β 2 X t + ut
Yˆt = b1 + b2 X t

YˆT + p = b1 + b2 X T + p
fT + p = YT + p − YˆT + p

E ( fT + p ) = E (YT + p ) − E (YˆT + p )
= E ( β 1 + β 2 X T + p + uT + p ) − E (b1 + b2 X T + p )
= β 1 + β 2 X T + p + E ( uT + p ) − E (b1 ) − X T + p E (b2 )
= β1 + β 2 X T + p + 0 − β1 − X T + p β 2 = 0
Los primeros dos términos son constantes porque β1 y β2 son constantes y estamos
tratando XT+p como dada. Esta última consideración nos permite sacar XT+p fuera de la
esperanza del último término.
6
PREDICCIÓN

Yt = β 1 + β 2 X t + ut
Yˆt = b1 + b2 X t

YˆT + p = b1 + b2 X T + p
fT + p = YT + p − YˆT + p

E ( fT + p ) = E (YT + p ) − E (YˆT + p )
= E ( β 1 + β 2 X T + p + uT + p ) − E (b1 + b2 X T + p )
= β 1 + β 2 X T + p + E ( uT + p ) − E (b1 ) − X T + p E (b2 )
= β1 + β 2 X T + p + 0 − β1 − X T + p β 2 = 0
Bajo las condiciones de Gauss-Markov el tercer término es 0 y los valores esperados de b1
y b2 son iguales a sus valores verdaderos. De modo que la expresión es igual a 0.

7
PREDICCIÓN

Yt = β 1 + β 2 X t + ut
Yˆt = b1 + b2 X t

YˆT + p = b1 + b2 X T + p
fT + p = YT + p − YˆT + p

 1 ( X T + p − X )2  2
σ 2f = 1 + + σ u
 n nVar( X ) 
T+ p

La varianza poblacional del error de predicción está dada por la expresión anterior.
Nótese que depende de la diferencia entre el valor de la media muestral de X y el valor para
el cual predecimos. La varianza es mayor cuanto más nos alejemos de la media muestral.
8
PREDICCIÓN

Yt = β 1 + β 2 X t + ut
Yˆt = b1 + b2 X t

YˆT + p = b1 + b2 X T + p
fT + p = YT + p − YˆT + p

 1 ( X T + p − X )2  2
σ 2f = 1 + + σ u
 n nVar( X ) 
T+ p

El error estándar del error de predicción se determina sustituyendo la varianza poblacional


de u por la estimación obtenida en el modelo y tomando raíz cuadrada.

9
PREDICCIÓN

Yt

Intervalo de
confianza para YT+p
YˆT + p = b1 + b2 X T + p
YT+p

X XT+p Xt

 1 ( X T + p − X )2  2
σ 2f = 1 + + σ u
 n nVar( X ) 
T+ p

YˆT + p − t crit × s.e. < YT + p < YˆT + p + t crit × s.e.


Ahora podemos construir intervalos de confianza para el valor predicho.

10
PREDICCIÓN

Yt Límite superior

Intervalo de
confianza para YT+p
YˆT + p = b1 + b2 X T + p
YT+p

Límite inferior

X XT+p Xt

 1 ( X T + p − X )2  2
σ 2f = 1 + + σ u
 n nVar( X ) 
T+ p

YˆT + p − t crit × s.e. < YT + p < YˆT + p + t crit × s.e.


El intervalo de confianza se ha dibujado como una función de XT+p. Como vimos a partir de
la expresión matemática, es más ancho cuanto mayor es la distancia de XT+p respecto a la
media muestral. 11
PREDICCIÓN

============================================================
Dependent Variable: LGHOUS
Method: Least Squares
Sample: 1959 1999
Included observations: 41
============================================================
Variable Coefficient Std. Error t-Statistic Prob.
============================================================
C -0.298460 0.194922 -1.531173 0.1340
LGDPI 1.036576 0.006497 159.5366 0.0000
LGPRHOUS -0.423765 0.045451 -9.323628 0.0000
============================================================
R-squared 0.998595 Mean dependent var 6.301605
Adjusted R-squared 0.998521 S.D. dependent var 0.414822
S.E. of regression 0.015955 Akaike info criter-5.367763
Sum squared resid 0.009673 Schwarz criterion -5.242380
Log likelihood 113.0392 F-statistic 13500.87
Durbin-Watson stat 0.745307 Prob(F-statistic) 0.000000
============================================================
Estos son los resultados de la regresión logarítmica del gasto en vivienda sobre la renta y
los precios relativos, utilizando datos de 1959-1999, que es el periodo muestral. Vamos a
evaluar hasta qué punto este modelo permite predecir bien los valores de LGHOUS
correspondientes a los años 2000-2003. 12
PREDICCIÓN

Valor real y predicho del gasto en vivienda, 2000–2003


logaritmo equivalente absoluto
^ ^
Año LGHOUS LGHOUS error HOUS HOUS error
2000 6.9559 6.9142 -0.0416 1049.3 1006.5 -42.8
2001 6.9684 6.9410 -0.0275 1062.6 1033.8 -28.8
2002 6.9902 6.9679 -0.0223 1085.9 1062.0 -23.9
2003 7.0115 6.9811 -0.0304 1109.3 1076.1 -33.2

YˆT + p − t crit × s.e. < YT + p < YˆT + p + t crit × s.e.

6.9559 – 2.024 x 0.0172 < Y < 6.9559 + 2.024 x 0.0172


6.9211 < Y < 6.9907
La tabla muestra los valores predichos, condicionados a los valores actuales de LGDPI y
LGPRHOUS para 2000-2003.

13
PREDICCIÓN

Valor real y predicho del gasto en vivienda, 2000–2003


logaritmo equivalente absoluto
^ ^
Año LGHOUS LGHOUS error HOUS HOUS error
2000 6.9559 6.9142 -0.0416 1049.3 1006.5 -42.8
2001 6.9684 6.9410 -0.0275 1062.6 1033.8 -28.8
2002 6.9902 6.9679 -0.0223 1085.9 1062.0 -23.9
2003 7.0115 6.9811 -0.0304 1109.3 1076.1 -33.2

YˆT + p − t crit × s.e. < YT + p < YˆT + p + t crit × s.e.

6.9559 – 2.024 x 0.0172 < Y < 6.9559 + 2.024 x 0.0172


6.9211 < Y < 6.9907

En este ejemplo, el error más grande se produjo en el año 2000. Revisaremos si el valor
real se encuentra en el intervalo de confianza del 95%.
14
PREDICCIÓN

Valor real y predicho del gasto en vivienda, 2000–2003


logaritmo equivalente absoluto
^ ^
Año LGHOUS LGHOUS error HOUS HOUS error
2000 6.9559 6.9142 -0.0416 1049.3 1006.5 -42.8
2001 6.9684 6.9410 -0.0275 1062.6 1033.8 -28.8
2002 6.9902 6.9679 -0.0223 1085.9 1062.0 -23.9
2003 7.0115 6.9811 -0.0304 1109.3 1076.1 -33.2

YˆT + p − t crit × s.e. < YT + p < YˆT + p + t crit × s.e.

6.9559 – 2.024 x 0.0172 < Y < 6.9559 + 2.024 x 0.0172


6.9211 < Y < 6.9907
El valor estimado es 6.9559, el valor crítico de t al 5% con 38 grados de libertad es 2.024, y
el error estándar es 0.0172. Por tanto, el valor real no pertenece al intervalo de confianza.

15
PREDICCIÓN

Valor real y predicho del gasto en vivienda, 2000–2003


logaritmo equivalente absoluto
^ ^
Año LGHOUS LGHOUS error HOUS HOUS error
2000 6.9559 6.9142 -0.0416 1049.3 1006.5 -42.8
2001 6.9684 6.9410 -0.0275 1062.6 1033.8 -28.8
2002 6.9902 6.9679 -0.0223 1085.9 1062.0 -23.9
2003 7.0115 6.9811 -0.0304 1109.3 1076.1 -33.2

YˆT + p − t crit × s.e. < YT + p < YˆT + p + t crit × s.e.

6.9559 – 2.024 x 0.0172 < Y < 6.9559 + 2.024 x 0.0172


6.9211 < Y < 6.9907

El modelo es demasiado simple al no considerar ninguna dinámica temporal. Como


veremos más adelante, un modelo con la variable dependiente retardada es mucho más
apropiado. 16
PREDICCIÓN

Valor real y predicho del gasto en vivienda, 2000–2003


logaritmo equivalente absoluto
^ ^
Año LGHOUS LGHOUS error HOUS HOUS error
2000 6.9559 6.9142 -0.0416 1049.3 1006.5 -42.8
2001 6.9684 6.9410 -0.0275 1062.6 1033.8 -28.8
2002 6.9902 6.9679 -0.0223 1085.9 1062.0 -23.9
2003 7.0115 6.9811 -0.0304 1109.3 1076.1 -33.2

YˆT + p − t crit × s.e. < YT + p < YˆT + p + t crit × s.e.

6.9559 – 2.024 x 0.0172 < Y < 6.9559 + 2.024 x 0.0172


6.9211 < Y < 6.9907
Cómo podemos calcular los errores estándar de predicción? Podemos definir una variable
dummy D2000 igual a 1 en 2000 y a 0 en los años restantes. Análogamente, podemos definir
las variables D2001, D2002, y D2003 para los otros años en el periodo de predicción.
17
PREDICCIÓN

Valor real y predicho del gasto en vivienda, 2000–2003


logaritmo equivalente absoluto
^ ^
Año LGHOUS LGHOUS error HOUS HOUS error
2000 6.9559 6.9142 -0.0416 1049.3 1006.5 -42.8
2001 6.9684 6.9410 -0.0275 1062.6 1033.8 -28.8
2002 6.9902 6.9679 -0.0223 1085.9 1062.0 -23.9
2003 7.0115 6.9811 -0.0304 1109.3 1076.1 -33.2

YˆT + p − t crit × s.e. < YT + p < YˆT + p + t crit × s.e.

6.9559 – 2.024 x 0.0172 < Y < 6.9559 + 2.024 x 0.0172


6.9211 < Y < 6.9907

Si añadimos las variables dummy al modelo, obtenemos el resultado que se muestra a


continuación.
18
PREDICCIÓN
============================================================
Dependent Variable: LGHOUS
Method: Least Squares
Sample: 1959 2003
Included observations: 45
============================================================
Variable Coefficient Std. Error t-Statistic Prob.
============================================================
C -0.298460 0.194922 -1.531173 0.1340
LGDPI 1.036576 0.006497 159.5366 0.0000
LGPRHOUS -0.423765 0.045451 -9.323628 0.0000
D2000 -0.041629 0.017210 -2.418867 0.0205
D2001 -0.027473 0.017436 -1.575655 0.1234
D2002 -0.022256 0.017788 -1.251167 0.2185
D2003 -0.030428 0.017893 -1.700556 0.0972
============================================================
R-squared 0.998852 Mean dependent var 6.359334
Adjusted R-squared 0.998670 S.D. dependent var 0.437527
S.E. of regression 0.015955 Akaike info criter-5.296084
Sum squared resid 0.009673 Schwarz criterion -5.015048
Log likelihood 126.1619 F-statistic 5508.485
Durbin-Watson stat 0.802456 Prob(F-statistic) 0.000000
============================================================
19
PREDICCIÓN
============================================================
Dependent Variable: LGHOUS
Method: Least Squares
Sample: 1959 2003
Included observations: 45
============================================================
Variable Coefficient Std. Error t-Statistic Prob.
============================================================
C -0.298460 0.194922 -1.531173 0.1340
LGDPI 1.036576 0.006497 159.5366 0.0000
LGPRHOUS -0.423765 0.045451 -9.323628 0.0000
D2000 -0.041629 0.017210 -2.418867 0.0205
D2001 -0.027473 0.017436 -1.575655 0.1234
D2002 -0.022256 0.017788 -1.251167 0.2185
D2003 -0.030428 0.017893 -1.700556 0.0972
============================================================
R-squared 0.998852 Mean dependent var 6.359334
Adjusted R-squared 0.998670 S.D. dependent var 0.437527
S.E. of regression 0.015955 Akaike info criter-5.296084
Sum squared resid 0.009673 Schwarz criterion -5.015048

Las estimaciones del término constante y de los coeficientes de LGDPI y LGPRHOUS


optimizan el ajuste durante el periodo muestral, mientras que los coeficientes de las
variables artificiales se han elegido para obtener un ajuste perfecto para los años 2000-
2003. 20
PREDICCIÓN
============================================================
Sample: 1959 1999
============================================================
Variable Coefficient Std. Error t-Statistic Prob.
============================================================
C -0.298460 0.194922 -1.531173 0.1340
LGDPI 1.036576 0.006497 159.5366 0.0000
LGPRHOUS -0.423765 0.045451 -9.323628 0.0000
============================================================
============================================================
Sample: 1959 2003
============================================================
Variable Coefficient Std. Error t-Statistic Prob.
============================================================
C -0.298460 0.194922 -1.531173 0.1340
LGDPI 1.036576 0.006497 159.5366 0.0000
LGPRHOUS -0.423765 0.045451 -9.323628 0.0000
D2000 -0.041629 0.017210 -2.418867 0.0205
D2001 -0.027473 0.017436 -1.575655 0.1234
D2002 -0.022256 0.017788 -1.251167 0.2185
D2003 -0.030428 0.017893 -1.700556 0.0972
============================================================
Las estimaciones de la constante y de los coeficientes de LGDPI y LGPRHOUS que
optimizan el ajuste para 1959-1999 son los mismos que los obtenidos cuando la regresión
se limitó al periodo muestral. 21
PREDICCIÓN
============================================================
Sample: 1959 1999
============================================================
Variable Coefficient Std. Error t-Statistic Prob.
============================================================
C -0.298460 0.194922 -1.531173 0.1340
LGDPI 1.036576 0.006497 159.5366 0.0000
LGPRHOUS -0.423765 0.045451 -9.323628 0.0000
============================================================
============================================================
Sample: 1959 2003
============================================================
Variable Coefficient Std. Error t-Statistic Prob.
============================================================
C -0.298460 0.194922 -1.531173 0.1340
LGDPI 1.036576 0.006497 159.5366 0.0000
LGPRHOUS -0.423765 0.045451 -9.323628 0.0000
D2000 -0.041629 0.017210 -2.418867 0.0205
D2001 -0.027473 0.017436 -1.575655 0.1234
D2002 -0.022256 0.017788 -1.251167 0.2185
D2003 -0.030428 0.017893 -1.700556 0.0972
============================================================
Las variables dummy correspondientes a 2000-2003 garantizan un ajuste perfecto para
esos años.
22
PREDICCIÓN
============================================================
Dependent Variable: LGHOUS
Sample: 1959 1999
============================================================
Sum squared resid 0.009673
============================================================

============================================================
Dependent Variable: LGHOUS
Sample: 1959 2003
============================================================
Sum squared resid 0.009673
============================================================

Podemos contrastar esto mirando la suma de residuos al cuadrado. Es la misma que la


correspondiente a la regresión original.

23
PREDICCIÓN
============================================================
Sample: 1959 1999
============================================================
Variable Coefficient Std. Error t-Statistic Prob.
============================================================
C -0.298460 0.194922 -1.531173 0.1340
LGDPI 1.036576 0.006497 159.5366 0.0000
LGPRHOUS -0.423765 0.045451 -9.323628 0.0000
============================================================
Yˆ2000 1959
============================================================
Sample:
= −02003
.2985 + 1.0366 LGDPI − 0.4238 LGPRHOUS
============================================================
Variable Coefficient Std. Error t-Statistic Prob.
============================================================
C -0.298460 0.194922 -1.531173 0.1340
LGDPI 1.036576 0.006497 159.5366 0.0000
LGPRHOUS -0.423765 0.045451 -9.323628 0.0000
D2000 -0.041629 0.017210 -2.418867 0.0205
D2001 -0.027473 0.017436 -1.575655 0.1234
=
Y2000D2002
D2003
− 0 . 2985 +
-0.022256
1 . 0366
-0.030428

0.017788 -1.251167
LGDPI 0 . 4238
0.017893 -1.700556
− 0.0416
0.2185
LGPRHOUS
0.0972
============================================================
El hecho de que los valores predichos para los años 2000-2003 sean idénticos a los valores
reales significa que los coeficientes de D2000-D2003 deben ser iguales a los errores de
predicción para los años 2000-2003. 24
PREDICCIÓN
============================================================
Sample: 1959 1999
============================================================
Variable Coefficient Std. Error t-Statistic Prob.
============================================================
C -0.298460 0.194922 -1.531173 0.1340
LGDPI 1.036576 0.006497 159.5366 0.0000
LGPRHOUS -0.423765 0.045451 -9.323628 0.0000
============================================================
Yˆ2000 1959
============================================================
Sample:
= −02003
.2985 + 1.0366 LGDPI − 0.4238 LGPRHOUS
============================================================
Variable Coefficient Std. Error t-Statistic Prob.
============================================================
C -0.298460 0.194922 -1.531173 0.1340
LGDPI 1.036576 0.006497 159.5366 0.0000
LGPRHOUS -0.423765 0.045451 -9.323628 0.0000
D2000 -0.041629 0.017210 -2.418867 0.0205
D2001 -0.027473 0.017436 -1.575655 0.1234
=
Y2000D2002
D2003
− 0 . 2985 +
-0.022256
1 . 0366
-0.030428

0.017788 -1.251167
LGDPI 0 . 4238
0.017893 -1.700556
− 0.0416
0.2185
LGPRHOUS
0.0972
============================================================
A su vez, esto implica que el error estándar del coeficiente de D2000 es el error estándar del
error de predicción para ese año.
25
PREDICCIÓN

Valor real y predicho del gasto en vivienda, 2000–2003


logaritmo equivalente absoluto
^ ^
Año LGHOUS LGHOUS error HOUS HOUS error
2000 6.9559 6.9142 -0.0416 1049.3 1006.5 -42.8
2001 6.9684 6.9410 -0.0275 1062.6 1033.8 -28.8
2002 6.9902 6.9679 -0.0223 1085.9 1062.0 -23.9
2003 7.0115 6.9811 -0.0304 1109.3 1076.1 -33.2

YˆT + p − t crit × s.e. < YT + p < YˆT + p + t crit × s.e.

6.9559 – 2.024 x 0.0172 < Y < 6.9559 + 2.024 x 0.0172


6.9211 < Y < 6.9907

Así es como obtuvimos el error estándar 0.0172 usado en el intervalo de confianza.

26

También podría gustarte