Está en la página 1de 89

CURSO DE ECONOMETRIA BSICA

D. Francisco Parra Rodrguez. Jefe de Servicio de Estadsticas Econmicas y Sociodemograficas. Instituto Cantabro de Estadstica. ICANE,

NDICE Tema 1. Regresin y correlacin lineal simple Tema 2. Regresin y correlacin lineal mltiple Tema 3. Nmeros ndices Tema 4. Series Temporales Tema 5. Utilidades estadsticas de la hoja de clculo EXCEL.

1. MODELO DE REGRESIN LINEAL


1.1.- El Mtodo de los Mnimos Cuadrados Ordinarios.
La regresin lineal es una de las tcnicas ms utilizadas en el trabajo economtrico. Mediante dicha tcnica tratamos de determinar relaciones de dependencia de tipo lineal entre una variable dependiente o endgena, Y, respecto de una o varias variables explicativas o endgenas, X. En este epgrafe comenzaremos el estudio del caso de una nica ecuacin de tipo lineal con una variable dependiente y una independiente, dejando para el prximo epgrafe la generalizacin del modelo al caso de multiples variables exgenas. Se trata de estudiar una ecuacin o un modelo del siguiente tipo:
Yt = a + bX t + et

Nuestra labor consiste en estimar los parmetros a y b de la ecuacin anterior a partir de los datos muestrales de los que disponemos. Para ello utilizaremos el mtodo de los Mnimos Cuadrados Ordinarios (MCO), pero antes de ver en que consiste este mtodo debemos hacer ciertas hiptesis sobre el comportamiento de las variables que integran el modelo. A la variable et la denominamos trmino de perturbacin o error, y es una variable que recoge todos aquellos factores que pueden influir a la hora de explicar el comportamiento de la variable Y y que, sin embargo, no estn reflejados en la variable explicativa X. Estos factores deben ser poco importantes, es decir, no puede existir ninguna variable explicativa relevante omitida en el modelo de regresin. De ser as, estaramos incurriendo en lo que se conoce como un error de especificacin del modelo. El trmino de perturbacin tambin recoge los posibles errores de medida de la variable dependiente, Y. De lo anterior se desprende que, a la hora de estimar los parmetros del modelo, resultar de vital importancia que dicho trmino de error no ejerza ninguna influencia determinante en la explicacin del comportamiento de la variable dependiente. Por ello, cuando se aplica el mtodo de mnimos cuadrados ordinarios, se realizan las siguientes hiptesis de comportamiento sobre el trmino de error: 1. La esperanza matemtica de et es cero, tal que E(et) = 0. Es decir, el comportamiento del trmino de error no presenta un sesgo sistemtico en ninguna direccin determinada. Por ejemplo, si estamos realizando un experimento en el cual tenemos que medir la longitud de un determinado objeto, a veces al medir dicha longitud cometeremos un error de medida por exceso y otras por defecto, pero en media los errores estarn compensados. 2. La covarianza entre ei y ej es nula para i j tal que E(eiej) = 0. Ello quiere decir que el error cometido en un momento determinado, i, no debe estar correlacionado con el error cometido en otro momento del tiempo, j, o dicho de otro modo, los errores no ejercen influencia unos sobre otros. En caso de existir correlacin, nos encontraramos ante el problema de la autocorrelacin en los residuos, el cual impide realizar una estimacin por mnimos cuadrados vlida.

3. La matriz de varianzas y covarianzas del trmino de error debe ser escalar tal que Var(ei) = 2I, i=1,,n, donde I es la matriz unidad. Dado que siempre que medimos una variable, se produce un cierto error, resulta deseable que los errores que cometamos en momentos diferentes del tiempo sean similares en cuanta. Esta condicin es lo que se conoce como supuesto de homocedasticidad que, en caso de no verificarse, impedira un uso legtimo de la estimacin lineal por mnimos cuadrados. Estas hiptesis implican que los errores siguen una distribucin Normal de media cero y varianza constante por lo que, dado su carcter aleatorio, hace que los errores sean por naturaleza impredecibles. Asimismo, las variables incluidas en el modelo deben verificar que: 1. El comportamiento de la variable independiente Y se ajusta al modelo lineal durante todo el periodo muestral, es decir, no se produce un cambio importante en la estructura de comportamiento de Y a lo largo de la muestra considerada. 2. Las variables explicativas, Xi, son no estocsticas, es decir, son consideradas fijas en muestreos repetidos. 3. El nmero de variables explicativas, k, siempre debe ser menor que el tamao muestral, n. Es decir, siempre debemos disponer de ms observaciones que parmetros haya en el modelo. Veamos a continuacin, suponiendo que se verifican los supuestos anteriores, como se realiza la estimacin de los parmetros a y b. Grficamente, el resultado que obtendremos al estimar dichos parmetros ser una recta que se ajuste lo mximo posible a la nube de puntos definida por todos los pares de valores muestrales (Xi,Yi), tal y como se puede apreciar en el grfico 1.1.

Grfico 1.1. Nube de puntos o grfico de dispersin con variables relacionadas linealmente

El trmino de error, ei, puede ser entendido, a la vista del grfico anterior, como la distancia que existe entre el valor observado, Yi, y el correspondiente valor estimado, que sera la imagen de Xi en el eje de ordenadas. El objetivo de la estimacin por Mnimos Cuadrados

Ordinarios es, precisamente, minimizar el sumatorio de todas esas distancias al cuadrado; es decir1:
n n n

Min

e = (Y
2 i i =1 i =1

Yi ) 2 =

(Y
i =1

a bX i ) 2

Derivando esta expresin respecto a los coeficientes a y b e igualando a cero obtenemos el siguientes sistema de ecuaciones:

i =1 n i =1

Yi = na + b
n

X
i =1 i

Y = a + bX
n

Y X
i

=a

X
i =1

+b

X
i =1

2 i

donde n representa el tamao muestral y X e Y representan las medias de dichas variables. Resolviendo dicho sistema de ecuaciones obtenemos la solucin para los parmetros a y b:
n

b=

( X
i =1 n i =1

X )(Yi Y )
i

( X

X )2

a = Y bX

Ejemplo 1.1.

Supongamos que el director de una empresa piensa que la demanda de un producto que l comercializa depende nicamente del precio de venta al pblico. Para estudiar la demanda de este producto pretende estimar el siguiente modelo:
Yt = a + bX t + et

donde Yt es la cantidad vendida anualmente del bien Y en el ao t, y Xt es el precio medio al cual se vendi el bien Y durante el ao t. Se dispone de los siguientes datos muestrales:

Los parmetros y variables que llevan encima un smbolo de acento circunflejo (^) indican que son estimadas por lo que no se corresponden con el valor real de la variable sino que con el calculado por nosotros.

Ao

Yt

Xt

1988 1989 1990 1991 1992 1993 1994 1995 1996 1997

10 12 13 14 15 17 20 21 22 20

19 18 16 15 15 14 14 13 12 13

A partir de estos datos iniciales podemos calcular la siguiente tabla: Yt Xt

(Yi Y )
-6,4 -4,4 -3,4 -2,4 -1,4 0,6 3,6 4,6 5,6 3,6 0

(Xi X )
4,1 3,1 1,1 0,1 0,1 -0,9 -0,9 -1,9 -2,9 -1,9 0 0

(Yi Y ) (Xi X )
-26,24 -13,64 -3,74 -0,24 -0,14 -0,54 -3,24 -8,74 -16,24 -6,84 -79,6

( X i X )2 16,81 9,61 1,21 0,01 0,01 0,81 0,81 3,61 8,41 3,61 44,9

(Yi Y ) 2 40,96 19,36 11,56 5,76 1,96 0,36 12,96 21,16 31,36 12,96 158,4

10 12 13 14 15 17 20 21 22 20 Total 164

19 18 16 15 15 14 14 13 12 13 149

Media 16,4 14,9 0

Aplicando las formulas vistas anteriormente:

b=

( X
i =1 n i =1

X )(Yi Y ) =
i

( X

X )2

79.6 = 1.7728 44.9

a = Y bX = 16.4 ( 1.772814.9) = 42.82

de donde la ecuacin de la recta estimada ser Yt = 42.82 1.7728 X t + et

Finalmente, sustituyendo en la expresin anterior los valores de Xt, podemos obtener los valores de Y y el valor de los trminos de error, ei:
i

Yi 9.13140312 10.9042316 14.4498886 16.2227171 16.2227171 17.9955457 17.9955457 19.7683742 21.5412027 19.7683742

ei = Yi Yi 0.86859688 1.09576837 -1.44988864 -2.22271715 -1.22271715 -0.99554566 2.00445434 1.23162584 0.45879733 0.23162584

1.2. Bondad de Ajuste


Como ya hemos comentado anteriormente, el modelo de regresin lineal se plantea para explicar el comportamiento de la variable dependiente Y. Por ello, en dicho estudio ser interesante analizar la variacin que experimenta esta variable y, dentro de esta variacin, estudiar qu parte est siendo explicada por el modelo de regresin y qu parte es debida a los errores o residuos. Para ello, a partir de los trminos de error, se puede obtener la expresin:
Y ' Y = Y ' Y + e' e

En el caso de que exista trmino independiente en el modelo, la descomposicin anterior quedara como:
SCT = SCE + SCR

donde: SCT: es la Suma de Cuadrados Totales y representa una medida de la variacin de la variable dependiente. SCE es la Suma de Cuadrados Explicados por el modelo de regresin. SCR es la Suma de Cuadrados de los Errores

Cada una de estas sumas viene dada por las siguientes expresiones:
n

SCT = Y ' Y nY 2 =

Y
i =1

nY 2

SCE = ' X ' Y nY 2

SCR = ei2 = Y ' Y ' X ' Y = SCT SCE


i =1

A partir de las expresiones anteriores es posible obtener una medida estadstica acerca de la bondad de ajuste del modelo mediante lo que se conoce como coeficiente de determinacin (R2), que se define como:

R2 = 1

SCR , 0 R2 1 SCT

y en el caso particular de modelo con trmino independiente, como:

R2 =

SCE , 0 R2 1 SCT

Mediante este coeficiente es posible seleccionar el mejor modelo de entre varios que tengan el mismo nmero de variables exgenas, ya que la capacidad explicativa de un modelo es mayor cuanto ms elevado sea el valor que tome este coeficiente. Sin embargo, hay que tener cierto cuidado a la hora de trabajar con modelos que presenten un R2 muy cercano a 1 pues, aunque podra parecer que estamos ante el modelo perfecto, en realidad estara encubriendo ciertos problemas de ndole estadstica como la multicolinealidad que veremos ms adelante. Por otra parte, el valor del coeficiente de determinacin aumenta con el nmero de variables exgenas del modelo por lo que, si los modelos que se comparan tienen distinto nmero de variables exgenas, no puede establecerse comparacin entre sus R2. En este caso debe emplearse el coeficiente de determinacin corregido R 2 , el cual depura el incremento que experimenta el coeficiente de determinacin cuando el nmero de variables exgenas es mayor. La expresin analtica de la versin corregida es:

R2 = 1

SCR n k n 1 = 1 1 R2 SCT n 1 nk

cuyo valor tambin oscila entre 0 y 1

1.3. Inferencia acerca de los Estimadores


Hasta el momento hemos visto como la estimacin por Mnimos Cuadrados Ordinarios permite obtener estimaciones puntuales de los parmetros del modelo. La inferencia acerca de los mismos permite completar dicha estimacin puntual, mediante la estimacin por intervalos y los contrastes de hiptesis. Los primeros posibilitan la obtencin de un intervalo dentro del cual, con un determinado nivel de confianza, oscilar el verdadero valor de un parmetro, mientras que los segundos nos permitirn extraer consecuencias del modelo, averiguando si existe o no, evidencia acerca de una serie de conjeturas que pueden plantearse sobre sus parmetros. Dado que la inferencia estadstica ya fue estudiada en el tema 6 del Master, nos limitamos simplemente a recordar la expresin analtica de la estimacin por intervalos y las reglas a seguir para realizar un contraste de hiptesis.
Intervalos De Confianza a) Intervalo de confianza para el parmetro i Su clculo se realiza mediante la siguiente expresin:

IC i : ( i S i t n k )
donde S i es la desviacin tpica estimada para el coeficiente i , que se obtiene de la matriz de varianzas y covarianzas de los estimadores expresada como:

2 1 = 2 1 ... K 1

1 2 2 2
...

K 2

... 1 K 2 ... 2 K ... ... 2 ... K

cuyos estimadores sern: 2 S S ... S 1 1 2 1 K 2 2 S S ... S 2 2 K S = 2 1 ... ... ... ... 2 S S ... S K K 2 K 1

2 obtenidos a partir de la expresin S = S e ( X ' X ) , donde S e2 =

e
i =1

2 i

varianza del trmino de error y ( X ' X ) regresores utilizados (ver Tema 2).

nk

es la estimacin de la

la inversa de la matriz de productos cruzados de los

b) Intervalo de confianza para la varianza del trmino de error La expresin del intervalo de confianza para la varianza del trmino de error es:
S 2 ( n k ) S 2 ( n k ) SCR SCR e e 2 ; IC : ; 2 2 e 2 2 1 1 2 2 2 2

donde representa el nivel de significacin del contraste y generalmente se utiliza un 5% de significacin.


Contrastes de Hiptesis a) Contraste individual sobre un parmetro

Formulacin de la hiptesis:

H0 : j = * j H1 : j * j

Estadstico experimental: Estadstico terico: Regla de decisin:

t exp =

j * j S
j

ttco = t n k ( / 2 )

Si

texp > ttco se rechaza la hiptesis nula

b) Contraste de significacin individual

Formulacin de la hiptesis:

H0 : j = 0 H1 : j 0
j S
j

Estadstico experimental: Estadstico terico: Regla de decisin:

t exp =

t tco = t n k ( / 2)
Si texp > ttco se rechaza la hiptesis nula

c) Contrastes para un conjunto de hiptesis lineales

Formulacin de la hiptesis:

H 0 : R = r

H 0 : r111 + r12 2 + ... + r1k K = r1

o alternativamente:

r211 + r22 2 + ... + r2 k K = r2 ............. rq11 + rq 2 2 + ... + rqk K = rq

(R r ) [R( X ' X ) R'] (R r )


1 1

Estadstico experimental:

Fexp =

SCR

nk

donde q representa el nmero de ecuaciones de la hiptesis nula Estadstico terico: Regla de decisin:
Ftco = F (q, n k , )

Si Fexp > Ftco se rechaza la hiptesis nula

d) Contraste de significacin global

Formulacin de la hiptesis:

H 0 : 2 = 3 = ... = K = 0

Estadstico experimental:

Fexp

R2 k 1 k 1 = = SCR 1 R2 nk nk SCE

Estadstico terico: Regla de decisin: Si

Ftco = F (k 1, n k , )

Fexp > Ftco

se rechaza la hiptesis nula

1.4. Prediccin en el Modelo de Regresin


Una vez estimado y validado el modelo, una de sus aplicaciones ms importantes consiste en poder realizar predicciones acerca del valor que tomara la variable endgena en el futuro o para una unidad extramuestral. Esta prediccin se puede realizar tanto para un valor individual como para un valor medio, o esperado, de la variable endgena, siendo posible efectuar una prediccin puntual o por intervalos. Su clculo se realiza mediante las expresiones que figuran a continuacin: a) Prediccin individual: se trata de hallar el valor estimado para la variable Y un periodo hacia delante. En este caso basta con sustituir el valor de las variables exgenas en el modelo en el siguiente periodo y calcular el nuevo valor de Y. b) Intervalo de prediccin. Para hallar un intervalo de prediccin debe utilizarse la siguiente expresin:
IC : Yt +1 t n k S 1 + X t' +1 ( X ' X ) X t +1
1

; Yt +1 + t n k S

1 + X t' +1 ( X ' X ) X t +1
1

c) Intervalos de prediccin para un valor medio o esperado. La expresin a utilizar en este caso ser:
IC E (Yt +1 ) : Yt +1 t n k S X t' +1 ( X ' X ) X t +1
1

; Yt +1 + t n k S

X t' +1 ( X ' X ) X t +1
1

1.5. Violacin de los Supuestos del Modelo Lineal de Regresin


Como veamos en anteriores epgrafes, el modelo de regresin lineal requiere que se cumplan las siguientes hiptesis sobre los trminos de error:

Media cero : E(ei) = 0 i=1,,n Varianza constante : Var(ei) = 2I i=1,,n Residuos incorrelacionados : Cov(ei,ej) = 0

El incumplimiento de alguna de dichas hiptesis, implica la no aleatoriedad de los residuos y, por tanto, la existencia de alguna estructura o relacin de dependencia en los residuos que puede ser estimada, debiendo ser considerada en la especificacin inicial del modelo. Los principales problemas asociados al incumplimiento de las hiptesis de normalidad de los residuos son, por un lado, la heteroscedasticidad, cuando la varianza de los mismos no es constante, y la autocorrelacin o existencia de correlacin entre los diferentes residuos, lo que violara el supuesto de trminos de error incorrelacionados. Si se construye una grfica de los resultados de una estimacin mnimo cuadrtica (en abcisas) frente al valor absoluto de los residuos (en ordenadas), cuando stos ltimos presentan una distribucin Normal de media cero y varianza constante, N (0, 2), el resultado obtenido (grfico 6.2.) muestra que el tamao del error es independiente del tamao de la variable estimada, ya que errores con valor elevado se corresponden con valores bajos y altos de la variable dependiente estimada; sin embargo, una distribucin de residuos con problemas de heteroscedasticidad da lugar a una figura como la que puede observarse en el grfico 6.3., en donde se manifiesta una clara relacin de dependencia entre la variable estimada y el tamao del

error. En este caso los errores de mayor tamao se corresponden con los valores ms altos de la variable estimada.

R e s id u o s a le a to rio s d e m e d ia c e ro y v a ria n z a c o n s ta n te
V a ri a b le e s ti m a d a 3500 3000 2500 2000 1500 1000 500 0 0 200 400 600 800 R e si d u o s v a lo r a b so l u to (e )
Grfico 1.2. Residuos Homocedsticos

R e s id u o s c o n h e te ro c e d a s tic id a d
3500 V a ria b le e s tim a d a 3000 2500 2000 1500 1000 500 0 0 200 400 600 800 1000 R e s id u o s va lo r a b s o lu to (e )
Grfico 1.3. Residuos Heteroscedsticos

La representacin grfica de los errores en forma de serie temporal, es decir, poniendo en el eje de abcisas los errores y en ordenadas el periodo temporal en que estn datados, permite apreciar la ausencia o presencia de correlacin ya que a los residuos no correlacionados (grfico 6.4.) le corresponde una representacin grfica en la que no se aprecia pauta temporal alguna, sucedindose de forma impredecible o aleatoria, mientras que en los residuos con problemas de autocorrelacin, la pauta temporal es evidente, evidencindose que cada residuo puede ser predicho en funcin de la sucesin de los errores correspondientes a periodos temporales pasados (grfico 6.5.)

Residuos aleatorios con media cero y varianza constante


1000 500 0 1940 -500 -1000
Grfico 1.4. Residuos sin Autocorrelacin

1950

1960

1970

1980

1990

2000

2010

Residuos con problema de autocorrelacin


1000 500 0 1940 -500 -1000
Grfico 1.5. Residuos con Autocorrelacin

1950

1960

1970

1980

1990

2000

2010

Estos problemas asociados a los errores pueden detectarse con test estadsticos diseados para ello. A continuacin se describen dichos test y la forma en que debe procederse para estimar modelos en donde la estimacin mnimo-cuadrtica presenta problemas de este tipo asociados a los residuos.
Heteroscedasticidad Decimos que el trmino de error de una estimacin mnimo-cuadrtica presenta heteroscedasticidad cuando la varianza del mismo es diferente para las distintas observaciones que integran la muestra, lo que implica que la variabilidad de los errores mnimo-cuadrticos obtenidos estn relacionados de alguna manera con los datos utilizados en el modelo, ya sea por estar relacionados con la escala temporal de los datos recogidos o por presentar alguna relacin de dependencia con alguna de las variables exgenas utilizadas. Las consecuencias para la estimacin mnimo-cuadrtica son que los estimadores de los coeficientes seguirn siendo insesgados y lineales pero ya no sern de mnima varianza o eficientes.

La deteccin de la heteroscedasticidad se realiza a travs de diversos contrastes paramtricos, entre los que cabe destacar el contraste de Bartlett (Mood, 1950), el constraste de GoldfeldQuandt (1965) y el contraste de White (1980), los cuales pasamos a ver a continuacin.
Test de Bartlett El test de Bartlett se basa en de que la suposicin de que las n observaciones de los datos de la variable a estimar por el modelo pueden agruparse en G grupos (g=1, 2, ..., G), cada uno de los cuales se caracteriza por tener un distinto tipo de observaciones asociadas a la variable explicativa, de tal manera que n1 sera el nmero de observaciones correspondientes al primer grupo, n2 el nmero de observaciones asociadas al segundo grupo y, en general, nG es el nmero de observaciones asociadas al grupo g-simo. A cada grupo le corresponde un valor medio de la variable dependiente y una varianza para este valor medio.

El test contrasta si dicha varianza es igual o no entre los distintos grupos que se han construido para la variable dependiente, admitindose la hiptesis de existencia de heteroscedasticidad si la varianza es significativamente diferente entre los grupos formados.

Los pasos a seguir en la prctica para realizar el test de Bartlett son los siguientes:
2 1. Se estima la varianza ( sg ) de cada grupo de observaciones, g=1, 2, ..., G mediante la

siguiente expresin:

2 sg =

( y
g =1

ng

yg )2

ng

2. Se calcula el estadstico S:
G ng 2 G 2 n log s n log s g g =1 n g g =1 g S= G 1 1 1 1+ 3(G 1) g =1 ng n

Bajo el supuesto de homocedasticidad, S se distribuye como una chi-cuadrado (2) con G1 grados de libertad. Por lo tanto, se rechazar la hiptesis de igual varianza en todos los grupos si S es mayor que el valor crtico de la distribucin chi-cuadrado al nivel de significacin estadstica fijado.

Contraste de Goldfeld-Quant El contraste de Goldfeld-Quant se utiliza para contrastar la homocedasticidad cuando la forma de la heteroscedasticidad no es conocida, aunque se intuye que la varianza guarda una relacin montona creciente o decreciente respecto a alguna variable exgena (que denominaremos variable z). La operativa de este test es la siguiente:

1. Ordenar todas las observaciones de las variables del modelo, de menor a mayor, en funcin de la variable z. 2. Eliminar c observaciones centrales de la ordenacin anterior, de tal forma que queden dos submuestras de (n-c)/2 observaciones cada una. Al seleccionar c, debe hacerse de tal forma que (n-c)/2 sea sustancialmente mayor que el nmero de parmetros del modelo. 3. Estimar dos veces el modelo original mediante Mnimos Cuadrados Ordinarios, utilizando en cada estimacin una de las submuestras. 4. Denominando SR1 y SR2 a las sumas de los cuadrados de los residuos de ambas submuestras (de manera que el subndice 1 corresponda a la submuestra con la menor suma) se define el estadstico F:

F=

SR1 SR2

La idea que subyace bajo este contraste es la siguiente: si existe heteroscedasticidad entonces, con la ordenacin de la muestra, la varianza del trmino de error ser mayor hacia el final de la muestra que al principio de la misma. Como el cuadrado de los residuos est asociado con la varianza de los mismos, entonces SR2 debera ser sensiblemente mayor que SR1. Por ello, se rechazara la hiptesis nula de

homocedasticidad siempre que el valor del estadstico F excede el valor en tablas de la distribucin F(n-c-2k)/2, (n-c-2k)/2, aceptndose la existencia de heteroscedasticidad en caso contrario.

Contraste de White El contraste de White se desarroll tambin para evitar la necesidad de considerar una forma especfica para la heteroscedasticidad. El contraste se basa en que, bajo la hiptesis nula de homocedasticidad, la matriz de varianzas y covarianzas de los estimadores MCO de es:

2 ( X ' X ) 1
Por el contrario, si existe heteroscedasticidad, la matriz de varianzas y covarianzas viene dada por: 2 2 ( X ' X ) 1 X ' X ( X ' X ) 1 , = diag ( 12 , 2 ,..., n ) Por tanto, si tomamos la diferencia entre ambas queda: ( X ' X ) 1 X ' X ( X ' X ) 1 2 ( X ' X ) 1 Por ello, basta con contrastar la hiptesis nula de que todas estas diferencias son iguales a cero, lo que equivale a contrastar que no hay heteroscedasticidad. Los pasos a seguir para realizar el contraste de White son los siguientes: 1. Estimar el modelo original y obtener la serie de residuos estimados 2. Realizar una regresin del cuadrado de la serie de residuos obtenidos en el paso anterior sobre una constante, las variables exgenas del modelo original, sus cuadrados y los productos cruzados de segundo orden (los productos resultantes de multiplicar cada variable exgena por cada una de las restantes hasta completar . Es decir, se trata de estimar por MCO la relacin:
2 2 et2 = +1X1 +...+k Xk +1X1 +...+k Xk +1X1X2 +...+k X1Xk +1X2 X3 +...+k X2 Xk +...+ 1Xk1Xk

3. Al aumentar el tamao muestral, el producto nR2 (donde n es el nmero de observaciones y R2 es el coeficiente de determinacin de la ltima regresin) sigue una distribucin Chi-cuadrado con p 1 grados de libertad, donde p es el nmero de variables exgenas utilizadas en la segunda regresin. Se aceptar la hiptesis de existencia de heteroscedasticidad cuando el valor del estadstico supere el valor crtico de la distribucin Chi-cuadrado al nivel de significacin estadstica fijado.

Correccin de la heteroscedasticidad Los problemas de heteroscedasticidad se resuelven utilizando una tcnica de estimacin lineal que recibe el nombre de Mnimos Cuadrados Generalizados (MCG). El uso de Mnimos Cuadrados Generalizados equivale a redefinir las variables utilizadas en el modelo original de regresin tal que todas ellas quedan divididas por la desviacin tpica de los residuos:

Yi * =

Yi

,X* = ji

X ji

, j = 2,..., k , ei* =

ei

Posteriormente se realiza la regresin mnimo cuadrtica con el modelo transformado:

Y * i = 1 + 2 X *2i + 3 X *3i +... + k X *ki + e *i La transformacin descrita del modelo original requiere del conocimiento previo de una estimacin de la varianza de los residuos. Si no se dispone de una estimacin previa de dicha varianza, sta puede estimarse mediante la siguiente expresin:

2 MCG =

e
i =1

2 t

T k

Autocorrelacin

Decimos que existe autocorrelacin cuando el trmino de error de un modelo economtrico est correlacionado consigo mismo a travs del tiempo tal que E(ei, ej) 0. Ello no significa que la correlacin entre los errores se d en todos los periodos sino que puede darse tan slo entre algunos de ellos. En presencia de autocorrelacin, los estimadores mnimo-cuadrticos siguen siendo insesgados pero no poseen mnima varianza, debindose utilizar en su lugar el mtodo de Mnimos Cuadrados Generalizados. La existencia de autocorrelacin en los residuos es fcilmente identificable obteniendo las funciones de autocorrelacin (acf) y autocorrelacin parcial (acp) de los errores mnimocuadrticos obtenidos en la estimacin. Si dichas funciones corresponden a un ruido blanco, se constatar la ausencia de correlacin entre los residuos. Sin embargo, el mero examen visual de las funciones anteriores puede resultar confuso y poco objetivo, por lo que en la prctica economtrica se utilizan diversos contrastes para la autocorrelacin, siendo el ms utilizado el de Durbin-Watson (1950), que pasamos a ver seguidamente.

Contraste de Durbin-Watson Si se sospecha que el trmino de error del modelo economtrico tiene una estructura como la siguiente:
et = et 1 + u t

entonces el contraste de Durbin-Watson permite contrastar la hiptesis nula de ausencia de autocorrelacin. Dicho contraste se basa en el clculo del estadstico d, utilizando para ello los errores mnimo-cuadrticos resultantes de la estimacin: (e e
i i =2 n i 1 ) 2

d=

e
i =1

2 i

El valor del estadstico d oscila entre 0 y 4, siendo los valores cercanos a 2 los ndicativos de ausencia de autocorrelacin de primer orden. La interpretacin exacta del test resulta compleja, ya que los valores crticos apropiados para contrastar la hiptesis nula de no autocorrelacin requieren del conocimiento de la distribucin de probabilidad bajo el supuesto de cumplimiento de dicha hiptesis nula, y dicha distribucin depende a su vez de los valores de las variables explicativas, por lo que habra que calcularla en cada aplicacin. Para facilitar la interpretacin del test Durbin y Watson derivaron dos distribuciones: di y ds, que no dependen de las variables

explicativas y entre las cuales se encuentra la verdadera distribucin de d, de forma que a partir de un determinado nivel de significacin, se adopta la siguiente regla de decisin:

Si d di rechazamos la hiptesis nula de no autocorrelacin frente a la hiptesis alternativa de autocorrelacin positiva. Si d 4 di rechazamos la hiptesis nula de no autocorrelacin frente a la hiptesis alternativa de autocorrelacin negativa. Si ds d 4- ds aceptamos la hiptesis nula de no autocorrelacin.

En la siguiente pgina presentamos la tabla con la distribucin desarrollada por Durbin y Watson para los valores de di y ds

Ejemplo 1.2.
En el siguiente ejercicio planteamos una regresin lineal entre el consumo de energa elctrica en Espaa y el PIB a precios de mercado valorado en moneda constante (millones de euros).

Consumo de Energa Elctrica (miles de TEP) 1987 9427 1988 9876 1989 10410 1990 10974 1991 11372 1992 11488 1993 11569 1994 11999 1995 12462 1996 12827 1997 13331 1998 14290 1999 15364 2000 16309 2001 17282 2002 17756 Fuente: INE y OCDE

PIB (millones de euros) 355312 373412 391443 406252 416582 420462 416126 426041 437787 448457 466513 486785 507346 528714 543746 554852

Con los datos de la tabla anterior la estimacin MCO entre el consumo de energa elctrica y el PIB sera la siguiente:

Yt=-6234.4+0.043Xt+t
Siendo Yt el consumo de energa elctrica y Xt el PIB en moneda constante. Los resultados de la estimacin se presentan a continuacin:
Estadsticas de la regresin

Coeficiente de correlacin mltiple Coeficiente de determinacin R2 R2 ajustado Error tpico Observaciones Coeficientes -6234.453 0.043 Error tpico 451.562 0.001

0.99619699 0.99240844 0.99186619 233.805853 16 Probabilidad 0.000 0.000

Intercepcin PIB-$

Estadstico t -13.806 42.780

Como vemos las estadsticas de la regresin realizada son buenas, se obtiene un R2 muy elevado, y los parmetros son estadsticamente significativos, ya que el valor terico de la tStudent es 2.51 al 95% de probabilidad. No obstante, la representacin grfica de los errores apunta a la posibilidad de un problema de autocorrelacin entre los residuos:

Grafico de los residuos


600,0 500,0 400,0 300,0 200,0 100,0 0,0 1986 -100,0 -200,0 -300,0 -400,0 1988 1990 1992 1994 1996 1998 2000 2002 2004

Para verificarlo calculamos el estadstico t de Durbin-Watson:


Y* 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 8933 9705 10475 11107 11548 11714 11529 11952 12453 12909 et 494.2 170.5 -65.2 -133.3 -176.3 -225.9 40.2 46.9 8.5 -81.9 et2 354817.8 373241.5 391508.2 406385.3 416758.3 420687.9 416085.8 425994.1 437778.5 448538.9 et-et-1 -323.6 -235.7 -68.2 -43.0 -49.6 266.1 6.8 -38.4 -90.5 (et-et-1)2 104742.4 55551.6 4645.2 1845.5 2462.8 70804.9 45.6 1474.9 8185.4

1997 1998 1999 2000 2001 2002 Total

13680 14545 15423 16335 16977 17451

-348.7 -255.1 -58.8 -25.9 305.4 305.3 0.0

466861.7 487040.1 507404.8 528739.9 543440.6 554546.7 7179830.0

-266.8 93.6 196.3 32.9 331.3 -0.1 -188.8

71161.5 8769.2 38536.6 1079.7 109776.4 0.0 479081.7

d=

(e
i =2

i n

ei 1 ) 2
2 i

e
i =1

479,081.7 = 0.0667 7,179,830.0

Los valores tericos del estadstico para n=16 observaciones y k=1 variables explicativas, son dD=0.98 y dU=1.24. Dado 0.0667 < 0.98 no podemos rechazar la hiptesis de la existencia de autocorrelacin positiva.

2. Regresin Lineal Mltiple


2.1.- Introduccin.
Pasamos a continuacin a generalizar el modelo anterior al caso de un modelo con varias variables exgenas, de tal forma que se trata de determinar la relacin que existe entre la variable endgena Y y variables exgenas, X1 ,X2,, Xk. Dicho modelo se puede formular matricialmente de la siguiente manera:
Y = X + e = 1 X 1t + 2 X 2 t + ... + k X kt + et , i=1,2, , n

donde: Y1 Y Y = 2 es el vector de observaciones de la variable endgena ... Y n X11 X12 ... X1k X 21 X 22 ... X 2k X = = [X1 X2 ... Xk ] es la matriz de observaciones de las variables ... ... ... ... X n1 X n2 ... X nk exgenas 1 = 2 es el vector de coeficientes que pretendemos estimar ... K e1 e e = 2 es el vector de trminos de error ... e n Si en la expresin anterior se considerara que existe trmino independiente, , la matriz X quedara como:

1 X 12 1 X 22 X = ... ... 1 X n2

... X 1k ... X 2 k = [ X2 1 ... ... ... X nk

X 3 ...

Xk ]

y el modelo quedara as:


Yi = + 1 X i1 + 2 X i 2 + ... + k X ik + ui

i=1,2,..., n

Suponiendo que se verifican las hiptesis que veamos antes, el problema a resolver nuevamente es la minimizacin de la suma de los cuadrados de los trminos de error tal que:
Min

e = (Y
2 i i =1 i =1

Yi ) 2 =

(Y
i =1

X i ) 2

Desarrollando dicho cuadrado y derivando respecto a cada i obtenemos el siguiente sistema de ecuaciones expresado en notacin matricial:
X ' X = X ' Y

en donde basta con despejar premultiplicando ambos miembros por la inversa de la matriz ( X ' X ) para obtener la estimacin de los parmetros del modelo tal que: = ( X ' X ) 1 X ' Y donde: n 2 X i1 i =1 n X ' X = X i 2 X i1 i =1 ..... n X ik X i1 i =1

i =1 n i =1 n

X i1 X i 2
2 i2

... ... ...

X X
i =1

.....
ik

X i2

...

X i1 X ik i =1 n X i 2 X ik i =1 ..... n 2 X ik i =1
n

n X i1Y i i =1 n X i 2Yi X `Y = i =1 .... n X ik Y i i =1

Si en el modelo existiera trmino independiente, , las matrices anteriores seran: n n X ' X = X i1 i =1 ..... n X ik i =1 i =1 n X i1 X ik i =1 ..... n 2 X ik i =1
n

i =1 n i =1 n

X i1
2 i1

... ... ...


X i2

X ik

X X
i =1

.....
ik

...

n Yi i =1 n X i1Yi X `Y = i =1 .... n X ik Yi i =1

El resultado de multiplicar dichas matrices conduce a la obtencin de la estimacin de los parmetros i del modelo:
n 2 X i1 i =1 n = ( X ' X ) 1 X ' Y = X i 2 X i1 i =1 ..... n X ik X i1 i =1

X X
i =1 n i =1 n

i1 X i 2 2 i2

... ... ...

.....
ik

X
i =1

X i2

...

n X i1 X ik X i1Yi i =1 i =1 n n 1 X i 2 X ik X i 2Yi = 2 i =1 i =1 ... .... ..... n n k 2 X ik X ik Yi i =1 i =1


n

Cada uno de los coeficientes estimados, i , son una estimacin insesgada del verdadero parmetro del modelo y representa la variacin que experimenta la variable dependiente Y cuando una variable independiente Xi vara en una unidad y todas las dems permanecen constantes (supuesto ceteris paribus). Dichos coeficientes poseen propiedades estadsticas muy interesantes ya que, si se verifican los supuestos antes comentados, son insesgados, eficientes y ptimos.

Ejemplo 2.1.

El director de una agencia de viajes quiere estudiar el sector turstico en Espaa. Para ello dispone de informacin relativa al grado de ocupacin hotelera (Y), nmero medio de turistas (X1), medido en miles de turistas, y estancia media (X2), medida en das. Los datos disponibles son de corte transversal y pertenecen a cada una de las 17 Comunidades Autnomas. El modelo terico a estimar con la informacin disponible es el siguiente: Yi = 1 X1i + 2 X2i + ei del que se conocen los siguientes resultados:
( X ' X )1 = 4.25 0.030 0.009 ( X 'Y ) = 9.58 335.41

Vamos a estimar el modelo propuesto por Mnimos Cuadrados Ordinarios. Para ello, basta con multiplicar las matrices tal que:
= ( X ' X ) 1 X ' Y = 4.25 0.030 9.58 50.77 = 0.009 335.41 3.30

Por lo que el modelo queda como sigue: Yi = 50.77 X1i + 3.30 X2i donde 1 = 50.77 indica el efecto, sobre el grado de ocupacin hotelera, de las variaciones unitarias del nmero medio de turistas y = 3.30 mide la variacin que se producira en el
2

grado de ocupacin hotelera si la estancia media aumentara en una unidad.

2.2. Deficiencias Muestrales: Multicolinealidad y Errores de Medida


Multicolinealidad El fenmeno de la multicolinealidad aparece cuando las variables exgenas de un modelo economtrico estn correlacionadas entre s, lo que tiene consecuencias negativas para la estimacin por Mnimos Cuadrados Ordinarios pues, en ese caso, en la expresin:

= ( X ' X ) 1 X ' Y

la matriz ( X ' X ) no ser invertible por lo que resultar imposible hallar la estimacin de los parmetros del modelo y la varianza de los mismos. Esto es lo que se conoce por el nombre de multicolinealidad exacta. Sin embargo, en la prctica no nos encontraremos con un caso tan extremo como el que acabamos de exponer, sino que generalmente nos encontraremos ante multicolinealidad aproximada, siendo una de las columnas de la matriz ( X ' X ) , aproximadamente, una combinacin lineal del resto por lo que ser una matriz aproximadamente singular. Al no ser el determinante de ( X ' X ) igual a cero, existir inversa y podrn estimarse los parmetros pero con las siguientes consecuencias: Por un lado, pequeas variaciones muestrales producidas al incorporar o sustraer un nmero reducido de observaciones muestrales podran generar importantes cambios en los parmetros estimados.
2 Por otro lado, la matriz de covarianzas del estimador MCO, S = S e ( X ' X ) , al 1

ser un mltiplo de ( X ' X ) 1 , ser muy grande por ser el determinante de ( X ' X ) muy pequeo por lo que la estimacin realizada ser muy poco precisa al ser la desviacin tpica de cada parmetro muy elevada.

Las soluciones propuestas para resolver el problema de la multicolinealidad son variados, si bien en general resultan poco satisfactorios: Una posibilidad, sugerida por Johnston (1984) consiste en excluir aquella variable exgena que puede estar muy correlacionada con el resto y posteriormente estimar el coeficiente asociado a dicha variable mediante otro procedimiento para incluirlo en el modelo. Tambin se ha sugerido la posibilidad de reformular el modelo, convirtindolo en un modelo de varias ecuaciones .

Errores de medida Cuando hablamos de errores en las variables nos referimos a los errores de medicin de las mismas. Como el alumno ya debera conocer, al medir las relaciones existentes en Economa recurrimos a variables obtenidas, la mayora de las veces por medio de estimaciones muestrales, esto es, a travs de un muestreo representativo de las unidades que las generan (consumo interior de un pas, produccin, etc.) o derivadas de stas (Producto Interior Bruto, etc.). Estas estimaciones de las variables macroeconmicas van asociadas a un error de muestreo. Las variables cuantificadas a travs de muestreos representativos, no slo se dan al trabajar con macromagnitudes, encontrndoselas tambin el investigador en todas las disciplinas (Marketing, Contabilidad, etc.) Es importante, por tanto, que al efectuar cualquier tipo de investigacin y anlisis, se conozca la fuente y origen de los datos, as como sus caractersticas bsicas (error de muestreo, nivel de

confianza, tipo de muestreo, tamaos muestrales, universo de referencia, influencia o sesgo de la no respuesta, etc.). El hecho de que los errores en las variables a medir existan, ha producido una controversia a lo largo del tiempo entre los econmetras, existiendo partidarios de su tratamiento as como partidarios de no tenerlos en cuenta. A estos errores se les propuso como los causantes de las discrepancias en los valores observados y la regresin, fundamentndose en la diferencia existente entre las variables tericas y las variables empricas. La aceptacin de la existencia de errores en la medicin de las variables produce un problema de aceptacin de inconsistencia en las estimaciones mnimo cuadrticas debido a que, evidentemente, si una variable esta medida con error ste se reflejar en la perturbacin aleatoria, producindose una correlacin entre ambos componentes de la ecuacin. En estos casos se utiliza la definicin de variable latente, como la variable real, que no siempre coincidir con la variable emprica u observada. La variable latente se describe como la variable observada ms el trmino de error. Llevado el problema a un modelo concreto, se puede observar como sustituyendo las variables a analizar (siempre se supone que se desea trabajar con variables reales latentes) por las variables observadas ms el error de medida, se llega al problema descrito. Este problema difiere en su magnitud segn si el error se da en las variables explicativas o en las variables endgenas. As, si slo existen errores en la variable endgena, los estimadores mnimo cuadrticos sern insesgados y consistentes, pero presentarn un problema de eficiencia (se incrementa la varianza del error). Si, por el contrario, los errores de medicin se encuentran en las variables explicativas del modelo, los estimadores mnimo cuadrticos sern sesgados e inconsistentes. Otro hecho a tener en cuenta es que habitualmente no se conoce el valor real de la variable, no conocindose, por tanto, el error cometido en su medicin (estimacin), debiendo el investigador trabajar con la variable observada, lo que conduce a la necesidad de trabajar con estimadores consistentes. Actualmente existe una lnea de investigacin en la cual se trabaja con errores en las variables, conocida como el anlisis de ecuaciones estructurales los cuales, partiendo del hecho de que no se miden perfectamente las variables latentes mediante la informacin disponible, incorporan dentro de su implementacin los errores de medida. Dentro de esta lnea de investigacin cabe destacar los siguientes mtodos:
Mtodo de Agrupacin de las Observaciones, que consiste en la divisin de los valores muestrales en grupos o submuestras a partir de los cuales, una vez ordenados de menor a mayor los valores de la variable explicativa, se calculan las medias aritmticas, obtenindose de esta manera tanto la pendiente como el trmino independiente. Los estimadores as obtenidos son consistentes, pero no eficientes. Mtodo de Variables Instrumentales (VI), consiste en encontrar un instrumento o variable que, no estando incluida en el modelo, est incorrelacionada con el trmino de error y correlacionada con la variable explicativa para la que acta de instrumento y que posee errores de medida. El estimador obtenido de esta manera ser un estimador consistente, si bien el mtodo plantea ciertas dificultades, ya que es difcil encontrar en la prctica instrumentos de una variable medida con error que no estn correlacionados con el trmino de error.

Mtodo de la Regresin Ponderada, en la que se da una ponderacin igual a los errores de X y de Y. Posteriormente, y una vez fijada la relacin entre las varianzas de los errores, se procede a estimar X en funcin de Y, y de Y en funcin de X, debiendo encontrarse la regresin verdadera entre ambas estimaciones.

2.3. Modelo con variables cuantitativas y cualitativas como regresores.


En un modelo economtrico, se entiende por variable al concepto econmico que queremos analizar. Normalmente utilizaremos variables cuantitativas, es decir, aquellas cuyos valores vienen expresados de forma numrica. Sin embargo, tambin existe la posibilidad de incluir en el modelo economtrico informacin cualitativa, siempre que la informacin cualitativa pueda expresarse de forma cuantitativa. Dentro de este tipo de variables se distinguen:: Variables proxies: son variables aproximadas a la variables objeto de anlisis. Por ejemplo, si quiero utilizar una variable que mida el nivel cultural de un pas (variable cualitativa) puedo utilizar como variable proxy el nmero de bibliotecas existentes en un pas, que si bien no recoge el concepto exacto que yo quiero medir, si se aproxima al mismo. Variables ficticias o dummy: estas variables toman nicamente (en principio) dos valores arbitrarios segn se de o no cierta cualidad en un fenmeno. Habitualmente a la variable ficticia se le asigna el valor 1 si ocurre un determinado fenmeno y 0 en caso contrario. Estas variables, a su vez, pueden ser de dos tipos: Ficticia de intervalo: Por ejemplo si estoy analizando la variable exportaciones en Espaa desde 1970 hasta el ao 2000, hay un hecho importante que es la entrada de Espaa en la Unin Econmica que debo recoger a travs de la utilizacin de la variable ficticia. Ficticia de escaln: Por ejemplo si est analizando el crecimiento econmico de un pas en el que en un ao determinado hubo un acontecimiento meteorolgico que tuvo una repercusin negativa sobre la economa, al tratarse ste un dato casual (y no equilibrado con el resto de valores que toma la serie) debo introducir en el modelo este tipo de informacin para que la tenga en cuenta en la estimacin y cometa un menor error.

Variables definidas por su pertenencia o no a un grupo: si yo tengo una variable cualitativa que me define la pertenencia o no de un pas a un grupo (por ejemplo renta alta, media y baja) podr introducir esta variable cualitativa en el modelo codificndola, es decir expresando sus valores en nmeros de tal forma que puedo asociar cada nivel de renta con un valor nmero arbitrario (por ejemplo 1: renta baja; 2: renta media; y 3: renta alta).Se entiende por datos, los diferentes valores que toma una variable. Los datos pueden corresponder a los valores de una variable en el tiempo (serie temporal), o avalores para diferentes sujetos en un momento dado (datos de corte transversal).

A continuacin vamos a plantear el ejercicio de la inclusin de una variables cualitativa dicotmicas dummy en un modelo de regresin lineal. Supongamos que tenemos el siguiente modelo:

Yt=1+2Xt+t (1) siendo i=1,.,T1, T1+1T En el periodo T1 sabemos de la existencia de un suceso extraordinario que afecta a la evolucin de la variable dependiente, y queremos lgicamente saber el efecto que causa dicho suceso extraordinario sobre la ecuacin a estimar. Por ello habremos de definir las siguientes variables dummy:

1 si t T1 D1t = 0 si t > T1

0 si t T1 D 2 t = (1 D 2 t ) = 1 si t > T1

La estructura de ambas variables sera la siguiente: 0 1 . . . . 0 1 D1 = D 2 = 0 1 . . . . 1 0 D1 tienen tantos 1 como observaciones hay hasta T1 y D2 tiene tantos 1 como observaciones hay entre T1 y T. Analizar el efecto del suceso extraordinario sobre la regresin, puede realizarse de forma separada para cada periodo de 1 a T1 y T1 a T o conjuntamente para todo el periodo, bien sobre el termino constante B1 o sobre la pendiente B2. Para el anlisis del trmino constante tendremos que plantear los siguientes modelos de regresin: Yt=1+1D1t+2Xt+t (2) Yt=1+2D2t+2Xt+t (3) Yt=1D1t+2D2t +2Xt+t (4) En este caso : Si se utiliza la especificacin del modelo (2) el anlisis de la invariabilidad de 1 exige contrastar la hiptesis nula H0: 1=0 Si se utiliza la especificacin del modelo (3) el anlisis de la invariabilidad de 1 exige contrastar la hiptesis nula H0: 2=0 Si se utiliza la especificacin del modelo (2) el anlisis de la invariabilidad de 1 exige contrastar la hiptesis nula H0: 1=2

Si queremos analizar la pendiente del modelo, plantearemos las siguientes ecuaciones de regresin: Para el anlisis del trmino constante tendremos que plantear los siguientes modelos de regresin:

Yt=1+2Xt+1(D1t Xt)+t (5) Yt=1+2Xt+2(D2t Xt)+t (6) Yt=1+1(D1t Xt)+ +2(D2t Xt)+t (7)

En cuyo caso: Si se utiliza la especificacin del modelo (5) el anlisis de la invariabilidad de 2 exige contrastar la hiptesis nula H0: 1=0 Si se utiliza la especificacin del modelo (6) el anlisis de la invariabilidad de 2 exige contrastar la hiptesis nula H0: 2=0 Si se utiliza la especificacin del modelo (7) el anlisis de la invariabilidad de 2 exige contrastar la hiptesis nula H0: 1=2

Las variables dummy tambin pueden ser utilizadas para modelizar variables definidas por su pertenencia o no a un grupo. Supongamos ahora que estamos modelizando la relacin que existe entre la renta disponible y las primas de seguro contratadas por un grupo N de individuos, a partir de datos del importe de las primas de seguro contratadas por cada individuo Yi, y la renta o los ingresos que declara cada uno de ellos Ri: Yi=1+2Ri+t (8), siendo i=1..N De este grupo de individuos conocemos algunas otras caractersticas que pueden ser transcendentes a la hora de nuestro anlisis, por ejemplo el nivel de estudios. En concreto disponemos de informacin sobre el nivel de estudios que han completado: sin estudios, primarios, secundarios o universitarios. Utilizando dicha informacin creamos las siguientes variables dummy:
1 si i no tiene estudios universitarios 1 si i tiene estudios universitarios D1t = D 2 t = (1 D 2 t ) = 0 si i tiene estudios universitarios 0 si i no tiene estudios universitarios

Si por ejemplo la muestra de individuos que tenemos es de 10 (N=10), de los cuales tres de ello tienen estudios universitarios, las variables dummy tendran la siguiente estructura:
0 1 1 0 1 0 0 1 D1 = 0 D 2 = 1 1 0 1 0 1 0 0 1

Al igual que en el ejemplo anterior el investigador puede estar interesado en analizar el efecto que tiene el nivel de formacin en el gasto en primas de seguros de los diferentes individuos. Al igual que en el ejemplo anterior podemos contrastar el efecto que tiene el nivel de estudios en el

termino independiente (), o en el coeficiente () que relaciona el nivel de renta con el importe pagado en primas. El planteamiento del problema para el anlisis del trmino constante sera entonces: Yi=1+1D1i+2Ri+i (9) Yi=1+2D2i+2Ri+i (10) Yi=1D1i+2D2i +2Ri+i (11) En este caso: Si se utiliza la especificacin del modelo (9) el anlisis de la invariabilidad de 1 exige contrastar la hiptesis nula H0: 1=0 Si se utiliza la especificacin del modelo (10) el anlisis de la invariabilidad de 1 exige contrastar la hiptesis nula H0: 2=0 Si se utiliza la especificacin del modelo (11) el anlisis de la invariabilidad de 1 exige contrastar la hiptesis nula H0: 1=2

Para el anlisis de la pendiente tendremos que plantear los siguientes modelos de regresin: Yi=1+2Ri+1(D1i Ri)+i (12) Yi=1+2Ri+2(D2i Ri)+i (13) Yi=1+1(D1i Ri)+ +2(D2i Ri)+i (14) En cuyo caso: Si se utiliza la especificacin del modelo (12) el anlisis de la invariabilidad de 2 exige contrastar la hiptesis nula H0: 1=0 Si se utiliza la especificacin del modelo (13) el anlisis de la invariabilidad de 2 exige contrastar la hiptesis nula H0: 2=0 Si se utiliza la especificacin del modelo (14) el anlisis de la invariabilidad de 2 exige contrastar la hiptesis nula H0: 1=2

2.4. El empleo de variables cualitativas para el tratamiento de la estacionalidad


En Economa se suele trabajar con datos anuales, pero en muchos casos y derivado del carcter predictivo del modelo o bien de la objetiva utilizacin del mismo, se hace necesario trabajar con series de datos diarias, mensuales o trimestrales, y muchas series en economa generalmente adolecen del carcter estacional de las mismas (consumos bajos en los meses de verano, consumos tursticos altos en este periodo, disminucin de las ventas en domingos y lunes, etc.) Las variables dummy pueden utilizarse para recoger el efecto de la estacionalidad en el modelo economtrico que estimamos. Las variables dummy para ajuste estacional son variables artificiales que asumen valores discretos, generalmente de 0 y 1. Estas fueron originalmente aplicadas por Lovell a inicios de los aos 60 y sirven para "explicar" la estacionalidad en las series de tiempo, la cual, como se sealo en el apartado 8.3, es un patrn de comportamiento regular de una serie a lo largo de

cada ao, que puede obedecer a factores tales como costumbres, das festivos decretados, vacaciones de verano, poca de navidad y otros factores similares que ocasionan incrementos o disminuciones en las magnitudes de ciertas variables, como por ejemplo la produccin, las ventas, etc. Si se trabaja con datos trimestrales, cabra pensar en utilizar una variables artificial para cada trimestre, que definidas como: q1, q2, q3 y q4; su representacin matricial para dos aos cualesquiera sera:

1 0 0 0 X = 1 0 0 0 .

0 1 0 0 0 1 0 0 .

0 0 1 0 0 0 1 0 .

0 0 0 1 0 0 0 1 .

1 1 1 1 1 1 1 1 1

x1 x2 x3 x4 x5 x6 x7 x8 .

No obstante hay que tener presente que las columnas correspondientes a las variables estacionales daran lugar a una combinacin lineal exacta con la constante, lo cual producira que el determinante de la matriz X'X fuera igual a cero y, por tanto, singular (no invertible), lo que impide estimar los coeficientes del modelo de regresin. Para evitar este inconveniente se utilizan nicamente tres de las cuatro variables dummy y por supuesto la constante. As, si se excluye la variable q4 en la matriz X, el efecto estadstico de la variable omitida estara implcitamente recogido con la columna de la constante. En definitiva, la matriz de variables exgenas estara determinada por las tres dummy: q1, q2, q3 y la constante, y las variables exgenas cuantitativas con lo cual la matriz sera:

1 0 0 0 X = 1 0 0 0 .

0 1 0 0 0 1 0 0 .

0 0 1 0 0 0 1 0 .

1 1 1 1 1 1 1 1 1

x1 x2 x3 x4 x5 x6 x7 x8 .

Otra forma muy utilizada consiste en expresar las variables artificiales estacionales como desviaciones con respecto a la que corresponde al cuarto trimestre. Estas nuevas variables, que podran denominarse S1, S2 y S3, corresponderan a las siguientes diferencias vectoriales:
S1 = q1 - q4 S2 = q2 - q4

S3 = q3 - q4

Una vez efectuadas las operaciones anteriores e incorporado el vector de la constante, la nueva matriz X queda definida de la siguiente manera:

1 0 0 1 0 1 0 1 0 0 1 1 1 1 1 1 X =1 0 0 1 0 1 0 1 0 0 1 1 1 1 1 1 . . . 1

x1 x2 x3 x4 x5 x6 x7 x8 .

Como se observa en la matriz anterior, los vectores de las variables dummy estacionales han sido definidos de forma tal que su suma sea cero en cada ao, por lo que este sistema permite que el efecto estacional se anule en el ao y que se obvie el problema de singularidad de la matriz. A manera de ejemplo, considrese un modelo de regresin con cifras trimestrales, en donde la variable Y depende de la variable X y en el que se incorporan tres variables dummy trimestrales (Si, para todo i = 1, 2, 3) y un trmino de error (). Este modelo estara representado de la siguiente manera: Y = 0 + 1X + 1S1 + 2S2 + 3S3 + La estimacin se llevara a cabo con las tres variables dummy trimestrales S1, S2 y S3. Los coeficientes de las tres variables dummy identifican las diferencias con respecto al cuarto trimestre. Es importante mencionar que en el caso de variables con periodicidad mensual, se crearan nicamente once variables estacionales, en forma equivalente a lo explicado en esta seccin. Sin embargo, en este caso se presenta el inconveniente de que se requiere gran cantidad de observaciones. No obstante hay que tener presente que el uso de las variables estacionales presenta problemas cuando la estacionalidad de la serie Y es mvil, es decir, cuando vara ao con ao. En este caso, es difcil que modelos de este tipo capturen de una forma adecuada la estacionalidad de la variable dependiente.

Ejemplo 2.2.
Se disponen de datos trimestrales correspondientes a los ejercicios 1996-2003, relativos al consumo de electricidad en GWh en Espaa (Yt) y al PIB a precios de mercado en millones de euros constantes de 1995.
Ao Q 1996 1 2 Demanda de Electricidad (GWh) 40919 37275 PIB (millones de euros) 109275 111875

3 38070 4 39981 1997 1 40246 2 39070 3 40464 4 42602 1998 1 43263 2 41535 3 43273 4 45010 1999 1 46551 2 43735 3 45908 4 48160 2000 1 49922 2 46861 3 48208 4 50020 2001 1 52029 2 49314 3 50887 4 53405 2002 1 53928 2 51523 3 51950 4 53762 2003 1 57156 2 53231 3 56516 4 56990 Fuente: Ministerio de Economa

111211 116096 113396 115566 115744 121807 118399 120735 121472 126179 122424 126471 126474 131977 129443 133021 130743 135507 134079 135900 134475 139292 136892 138746 137060 142154 140080 141861 140207 146163

En la figura 2.1 se aprecia el carcter estacional de la demanda de energa elctrica:

Consumo de Electricidad (GWh) 60.000 55.000 50.000 45.000 40.000 35.000 30.000
1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4

1996

1997

1998

1999

2000

2001

2002

2003

Fig. 2.1. Consumo Trimestral de Electricidad

Los trimestres de mayor consumo son los terceros y cuartos (otoo e invierno) y los de menor, el segundo y tercero (primavera y verano). Para evitar la multicolinealidad estimamos con las cualitativas de los tres primeros trimestres: Yt = -24,705.2+3,087.2Q1t-996.1Q2t +1,066.2Q3t +0.55Xt+et con los siguientes resultados:
Estadsticas de la regresin Coeficiente de correlacin mltiple Coeficiente de determinacin R2 R2 ajustado Error tpico Observaciones Coeficientes -24705.2227 0.55474441 3087.18799 -996.097068 1066.19716 Error tpico 1999.20037 0.01492667 439.461556 432.19015 434.284718

0.99084217 0.98176821 0.97906721 854.455831 32 Estadstico t -12.3575521 37.1646554 7.024933 -2.30476578 2.45506488

Intercepcin PIB Q1 Q2 Q3

Para considerar la hiptesis H0: i=0, hay que tener presente que el valor terico de la t-Student correspondiente a una distribucin con (32-5) grados de libertad es 1.69 para =0.05/2 (95% de confianza). Se comprueba, por tanto, que todos los coeficientes son significativamente distintos de cero.

2.5. El modelo probabilstico lineal


El modelo de probabilidad lineal se caracteriza por tener la variable endgena y dicotmica o binaria, es decir toma el valor y=1 si un determinado suceso ocurre y el valor y=0 en caso contrario. Estos modelos son gran utilizacin en anlisis estadstico en las ciencias sociales, pero encuentran una difcil aplicacin en el anlisis estadstico en economa debido a las dificultades de interpretacin econmica de los resultados que ofrecen este tipo de investigaciones. A este respecto, hay que considerar que estos modelos lo que realmente investigan es la probabilidad de que se de una opcin (determinada por la variable endgena) o no se de (valores y=1 o y=0).

A pesar del carcter dicotmico de la variable endgena, el modelo de probabilidad lineal se especifica de la forma habitual, teniendo presente que las variables exgenas no son dicotmicas sino continuas: Yi=1+2Xi+i (1) siendo i=1,N De acuerdo con la expresin (1) el hecho de que la variable endgena tome valores discretos (1 0), el trmino de perturbacin i, nicamente puede tomar dos valores: Si Yi=0 i = -1- 2Xi con probabilidad p. Si Yi=1 i = 1-1- 2Xi con probabilidad (1-p).

Dado que la esperanza del trmino de error ha de ser nula E(i)=0, entonces se demuestra que p= 1-1-2Xi y (1-p) = 1+2Xi , lo que permite evaluar la probabilidad de que la variable endgena tome el valor correspondiente: Prob (Yi=0) = Prob (i = -1- 2Xi ) = p = 1-1- 2Xi. Prob (Yi=1) = Prob (i = 1-1- 2Xi ) = (1-p) = 1+ 2Xi .

A su vez la varianza del trmino de perturbacin, se calculara a partir de p: Var(i)= (1-1-2Xi )( 1+2Xi)=p*(1-p) Una problemtica inherente a los estimadores MCO de estos modelos, son los siguientes: La perturbacin aleatoria (i) no sigue una distribucin normal. Es sencillo observar este hecho ya que el carcter binario (1 o 0) de la variable endgena afecta a la distribucin de la perturbacin, teniendo esta una distribucin Binomial. Este problema

se aminora cuando se utilizan tamaos de muestra (N) grandes en donde la distribucin Binomial es susceptible de aproximarse a un Normal.

La perturbacin aleatoria no tiene una varianza constante (es heteroscedstica), lo cual supone una falta de eficiencia. Para solucionarlo habra que realizar transformaciones que nos diesen una perturbacin homocedstica, esta transformacin consiste en multiplicar todas las variables por una cierta cantidad que elimine el problema de la heteroscedasticidad. Dicha cantidad puede ser:

) ) ( 1 + 2 X i )(1 1 2 X i )
siendo los estimaciones MCO del modelo. El mayor problema que plantean estos modelos es no obstante que las predicciones realizadas sobre la variable endgena no siempre se encuentran en el intervalo [0,1], ya que pueden ser mayores que cero y menores que 1. Este problema tiene dos soluciones, una es tomar como valor 0 todas las estimaciones de la variable endgena con valores negativos, y 1 cuando estas resulten mayores que 1. La segunda, solucin es utilizar funciones de distribucin que estn acotadas entre cero y uno. Segn sea esta distribucin tendremos las distintas versiones de los modelos con variable dependiente dicotmica. Las ms utilizadas son los modelos Probit y Logit.

3. NUMEROS INDICES
3.1.- Introduccin
El nmero ndice es un valor expresado como porcentaje de una cifra que se toma como unidad base. Por ejemplo, cuando decimos que el ndice de precios de consumo (base media de 1992=100) correspondiente al mes de diciembre de 1997 es 122,9, estamos sealando que los precios en diciembre de 1997 eran un 22,9 ms elevados que los que estaban en vigor a lo largo de 1992. Los nmeros ndices no tienen unidades y pueden referirse tanto a precios (ndice de precios de consumo, ndice de precios percibidos por los agricultores, ndice de precios industriales) como a cantidades (ndice de produccin industrial).
El nmero ndice es un recurso estadstico para medir diferencias entre grupos de datos. Un nmero ndice se puede construir de muchas formas distintas. La forma de cada ndice en particular depender del uso que se le quiera dar.

Los nmeros ndices se elaboran tanto con precios (p) como con cantidades (q). El ao en que se inicia el clculo de un nmero ndice se denomina ao base y se nombran por p0 o q0 segn tratemos de precios o de cantidades, a los precios o las cantidades de los aos sucesivos los indicamos por pt o qt . Si trabajamos con diferentes tipos de mercancas utilizamos los subndices (i) para referirnos a un tipo de mercanca, de modo que utilizamos los smbolos pit o qit para sealar el precio o la cantidad de la mercanca i en el perodo t. Si hubiese N mercancas el valor total de la cesta de productos durante el periodo t se expresa : Valor total durante el periodo t =

p
i =1

it

qit

Los nmeros ndices se clasifican en ponderados y no ponderados, los nmeros ndices no ponderados son los ms sencillos de calcular, pero deben de utilizarse con especial cuidado. Los nmeros ndices ponderados requieren que definamos previamente a su construccin los criterios de ponderacin o de peso. Una vez definida una ponderacin debe de respetarse en los sucesivos perodos. En este apartado estudiaremos los ndices ponderados que son de aplicacin comn. A la hora de elaborar un nmero ndice hay que tener presente una serie de propiedades que el ndice debe de cumplir. Dichas propiedades son: a) Existencia: Todo nmero ndice ha de tener un valor finito distinto de cero. b) Identidad: Si se hacen coincidir el perodo base y el perodo actual el valor del ndice tiene que ser igual a la unidad (o 100 si se elabora en porcentajes). c) Inversin: El valor del ndice ha de ser invertible al intercambiar los perodos entre s. Es decir : I to =

1 el ndice del ao o calculado con la base del ao t, ha de ser igual al inverso del t Io

ndice del ao t calculado en base del ao o.

d) Proporcionalidad: Si en el perodo actual todas las magnitudes experimentan una variacin proporcional, el nmero ndice tiene que experimentar tambin dicha variacin. e) Homogeneidad: Un nmero ndice no puede estar afectado por los cambios que se realicen en las unidades de medida.

3.2.- ndices simples y complejos


Considerado un perodo determinado (por ejemplo, enero de 1990) como perodo base del ndice, se elabora el ndice simple a partir de la razn de precios (precios relativos) o cantidades (cantidades relativas) respecto al valor de aqullos en el perodo base multiplicados por 100:

Iit =

xit 100 xio

En el siguiente perodo el ndice simple sera

Ii ( t + 1) =

xi ( t +1) xio

100

Al comparar los nmeros ndice Iit e Ii(t+1) se ve el incremento del precio de dicho producto en cuestin. Los ndices simples pueden agregarse de diferentes formas, a dichas agregaciones se les conoce como ndices complejos. Si suponemos que tenemos N diferentes productos, obtendramos operando los siguientes ndices complejos:
a) ndice media aritmtica de ndices simples cuando operamos del siguiente modo :

Ii I1 + I 2 +...+ I N I= = i=1 N N
b) ndice media geomtrica de ndices simples cuando operamos del siguiente modo :

I = N I1 . I 2 .... I N = N I i
i=1

c) ndice media armnica de ndices simples cuando operamos del siguiente modo :

I=

N N = N 1 1 1 1 + +...+ I I1 I 2 IN i=1 i

d) ndice media agregativa de ndices simples cuando operamos del siguiente modo :

x + x 2t + ... + x Nt = I = it x1o + x 2o + ... + x No

x x
i =1 i =1 N

it

io

3.3.- ndices ponderados.


Una ponderacin wi es un valor de referencia para cada producto que determina su importancia relativa en el ndice total. Al ser el ponderador un valor relativo lo normal es que se presente calculado en tanto por uno, por ciento por mil, expresando as el porcentaje que representa dicho producto en la cesta de productos que cubre el ndice:

Wi =

pi 0qi 0

p q
i0

i0

Una vez obtenidos los ponderadores (wi) se calculan el ndice media aritmtica ponderada de ndices simples cuando operamos del siguiente modo :

I w + I w +...+ I N wN I= 1 1 2 2 = w1 + w2 +...+ wN

I .w
i i =1 N

w
i =1

Ejemplo 3.1.

En la tabla 8.1 aparece la informacin que disponemos sobre una cesta de productos:
Productos M1 M2 M3 M4 2000 2001 2002 Precio venta Unidades Precio venta Unidades Precio venta Unidades 1 3000 1,2 4000 1,4 5500 1,5 4000 1,5 3000 1,6 4500 2 2500 2 2500 2,4 2000 4 2000 4,5 1500 4,5 2000

Calculamos los ndices simples de precios para los productos de la cesta:


Productos M1 M2 M3 M4 2000 100 100 100 100 2001 120,00 100,00 100,00 112,50 2002 140,00 106,67 120,00 112,50

Los ndices simples para la cesta de productos sern:


Indices simples Media aritmtica 2000 100 2001 108,13 2002 119,79

Media geomtrica Media armnica Media agregativa

100 100 100

107,79 107,46 108,13

119,16 118,55 119,79

El ponderador sera tanto por uno el valor del producto, es decir el precio por la cantidad vendida, en el total vendido:
2000 0,13636364 0,27272727 0,22727273 0,36363636 2001 0,2280285 0,21377672 0,23752969 0,32066508 2002 0,26829268 0,25087108 0,16724739 0,31358885

M1 M2 M3 M4

Y el ndice media aritmetica ponderado resultarn ser los siguientes:


Indice ponderado Media aritmtica 2000 100 2001 108,57 2002 119,67

3.4.- ndices de precios.


Los ndices de precios se elaboran usualmente utilizando ndices complejos ponderados siendo los ms utilizados los denominados ndices de Laspeyres, Paasche y Fisher. a) ndice de Laspeyres El ndice de Laspeyres es una media aritmtica ponderada de ndices simples, cuyo criterio de ponderacin es wi=pio.qio. La frmula que define el ndice de Laspeyres es la siguiente:

Lp =

I i wi
i=1 N

I
i=1

p p
i=1 i=1 N

it

qio qio

io

Se suele utilizar este ndice a la hora de elaborar los ndices de precios por cuestiones prcticas ya que nicamente requiere investigar en el ao base el valor de los ponderadores, que es la parte mas costosa de la elaboracin del ndice, (tngase en cuenta que en el IPC se realiza una encuesta de presupuestos familiares en los aos base que requiere una muestra de 20.000 hogares). Una vez determinados los ponderadores el ndice de Laspeyres nicamente requiere que se investigue en los sucesivos perodos la evolucin de los precios. b) ndice de Paasche Tambin es una media aritmtica ponderada de los ndices simples, pero utilizando como coeficiente ponderador wi=pio.qit; por tanto su definicin queda como:

Pp =

I w p
i i i=1 N

it

qit qit

I
i=1

p
i=1

i=1 N

io

La diferencia entre el ndice Paasche y el ndice Laspeyres es que exige calcular las ponderaciones para cada periodo corriente t, haciendo su clculo estadstico ms laborioso, y presentando el inconveniente de que slo permite comparar la evolucin del precio de cada ao con el ao base, dado que las ponderaciones varan de perodo en perodo. Ambas razones han determinado que este ndice sea ms inusual que el anterior. c) ndice de Fisher. El ndice de Fisher es la media geomtrica de los ndices de Laspeyres y Paasche, es decir :

Ep = Lp. Pp
Como los ndices de precios de consideran un ao determinado para calcular el ponderador bien sea a partir de q0 .p0 , o de qt .p0, utilizan la denominacin de ao base para referirse al ao 0 a partir del que se calcula el ponderador wi.

3.5.- Enlaces y cambios de base.


Uno de los problemas que tienen los ndices ponderados como el ndice de Laspeyres es que pierden representatividad a medida que los datos se alejan del periodo base. Tngase presente que, por ejemplo, el IPC que el INE calcul en 1991 utiliz los ponderadores obtenidos en la Encuesta de Presupuestos Familiares de 1983 que, a su vez, reflejaba la estructura media de consumo de los espaoles en aquel ao. El tiempo transcurrido entre 1983 y 1991 era lo suficientemente dilatado para que se hubieran producido cambios en los hbitos de consumo y en consecuencia el INE procedi a elaborar una nueva Encuesta de Presupuesto Familiares (la de 1992), cuya estructura de consumo cesta de compra es la que actualmente se utiliza como base para obtener el IPC. La decisin que tom el INE de realizar un nuevo IPC con la estructura de consumo resultante de la Encuesta de Presupuestos Familiares de 1992 es lo que provoca el Cambio de Base del IPC. Al ser los ponderadores distintos los utilizados entre 1983 y 1991 y los actuales, los ndices de precios son esencialmente distintos, y por lo tanto no se pueden comparar a priori entre s. El procedimiento a travs del cual hacemos comparables nmeros ndices obtenidos con bases distintas es lo que se denomina Enlace. El enlace de ndices se basa en la propiedad de inversin de los nmeros ndices. Supongamos que queremos efectuar un cambio de base desde un ndice construido con base 1983, a otro en base 1982. Sea It83 el ndice construido en base 1983 e It92 el ndice construido con la base1992, entonces:
t I 92 =

92 t t I 83 . I 92 I 83 = 92 92 I 83 I 83 92 I 92

En el caso del IPC espaol el INE publica el valor del cociente

92 I 83 que denomina 92 I 92

coeficiente legal de enlace. El valor del coeficiente legal de enlace el la serie del IPC base 92 y el construido con la base 1983 en el ndice general de Espaa es 0,545261 y en el ndice general de Castilla y Len es 0,559529. Cuando se dispone de los coeficientes legales de enlace, como ocurre en el caso del IPC, la operativa aritmtica se simplifica bastante, ya que enlazar la serie con base de 1983 a la serie de base 1992 nicamente requiere el que multipliquemos la primera por el coeficiente legal de enlace (en caso contrario habra que dividir). El enlace del IPC base del IPC 2001, es similar aunque hay que tener presente que entre este IPC y los anteriores hay una novedades metodolgicas que no se resuelven aplicando los coeficientes legales de enlace, este es el caso de la introduccin de las rebajas en el calculo del IPC. El coeficiente de enlace legal se obtiene como cociente entre el ndice de diciembre de 2001, en base 2001 y, el ndice para el mismo perodo en base 1992. Las series enlazadas se calculan multiplicando cada uno de los ndices en base 1992 por este coeficiente. Con estas series se pueden obtener las tasas de variacin mensual publicadas, pero no sucede lo mismo con las tasas de variacin anual del ao 2002, ya que por ellas se utilizan los ndices del ao 2001, en base 2001. Los coeficientes de enlace se han obtenido de forma independiente para cada una de las series de ndices que tienen continuidad en la nueva base, lo cual implica que cualquier ndice agregado de una serie enlazada no es el resultado de la media ponderada de los ndices elementales que lo componen. Por ltimo, es preciso puntualizar que, si bien el nuevo Sistema tiene como base la media de los ndices del ao 2001 en base 2001 igual a 100, los ndices que se publicaron en ese ao eran ndices calculados en base 1992 y, por tanto, las series enlazadas pueden no tener media 100 en el ao 2001.
Ejemplo 3.2

A continuacin vamos ha realizar un ejercicio de enlace de diferentes bases del ndice de precios percibidos por los agricultores. En la Tabla n 8.2 tenemos una tabla con las series 1985-1990 del ndice de Precios Percibidos por la Agricultores en Castilla y Len, base 1985; y la serie 1990-1995 de dicho ndice en base 1990. El enlace de la serie 1985-1990 a la base 1990 se realiza conforme a la regla antes expuesta:

1985 1986 1987

Tabla n8.2 Indice de precios percibidos por los agricultores de Castilla y Len Base 1985 Base 1990 Base 1985 Base 1990 100 100 94,04 109,83 109,83 103,28 102,29 102,29 96,19

1988 1989 1990 1991 1992 1993 1994 1995

103,26 111,05 106,34

100 99,84 95,85 99,84 110,18 113,36

103,26 111,05 106,34 106,17 101,93 106,17 117,17 120,55

97,10 104,43 100,00 99,84 95,85 99,84 110,18 113,36

3.6.- Deflactacin de series econmicas.


La utilidad ms importante que tienen los ndices de precios, a parte de describir el comportamiento de los precios durante un perodo concreto, es la de deflactar series cronolgicas o temporales valoradas en pesetas. Deflactar es eliminar el componente de subida de precios que es inherente a toda serie temporal que viene referida a un valor monetario (ventas de una empresa, los depsitos y crditos bancarios, el PIB, etc...). Las ventas de una empresa, por ejemplo, se incrementan de un ao a otro ( de un mes a otro), bien por haber aumentado el nmero de pedidos que realizan los clientes o bien por que la empresa o el mercado haya decidido una subida en los precios de los artculos pedidos. Si nosotros valoramos el nmero de pedidos del ao actual utilizando los precios vigentes el ejercicio pasado dispondramos de un elemento comparativo con respecto al ejercicio anterior que nos sealara de manera inequvoca si nuestro volumen de negocio se ha incrementado con independencia de lo ocurrido con los precios En consecuencia, cuando obtenemos el valor de la serie utilizando como referencia para su valoracin el precio que rige en un perodo determinado (un ao en concreto), realizamos una valoracin a precios constantes en tanto que dicha serie valorada a los precios vigentes en cada perodo nos da su valor a precios corrientes. En la prctica, para pasar de una serie en pesetas corrientes a pesetas constantes se realiza dividiendo la primera por un ndice de precios adecuado. Este procedimiento recibe el nombre de deflactacin y al ndice de precios elegido se le denomina deflactor. No obstante, hay que sealar que, cuando utilizamos como deflactor un ndice de Laspeyres:

vt pit . qit pit. qit = = pio. qio pit . qio lp pit. qio pio . qio
No pasamos exactamente valores corrientes a constante, cosa que si ocurre con el Indice de Paasche cuando es utilizado como del

vt pit . qit = = pio. qio pit . qit lp pio . qit


En el grfico siguiente se ha deflactado la serie de Efectos de comercio devueltos por impagados en Castilla y Len durante 1991 a 1993 utilizando el ndice General de Precios al Consumo de Castilla y Len de 1991 a 1993 en base 1993: Grfico n 3.2

10.000 9.500 9.000 8.500 8.000 7.500 7.000 6.500 6.000 1991

EFECTOS DE COMERCIO DEVUELTOS POR IMPAGOS EN CASTILLA Y LEN (mill. de pts)

Pesetas corrientes Pesetas constantes de 1992

1992

3.7 Principales ndices de precios espaoles.


A continuacin exponemos las principales carctersticas de los ndices de precios espaoles: ndice de Precios al Consumo (IPC) El IPC es una medida estadstica de la evolucin del conjunto de precios de los bienes y servicios que consume la poblacin residente en viviendas familiares en Espaa. El consumo se define en el IPC a travs de todos los gastos que los hogares dedican al consumo; se excluyen, por tanto, las inversiones que realizan los hogares. Adems, slo se tienen en cuenta los gastos reales que realiza la poblacin, lo que implica la exclusin de cualquier operacin de gasto imputada (autoconsumo, autosuministro, alquiler imputado, salario en especie o consumos subvencionados, como los sanitarios o educacionales). La cesta de la compra para elaborar el IPC se obtena de una encuesta de gastos de consumo de los hogares. Tradicionalmente, el IPC cambiaba de base cada ocho o nueve aos; esto era as porque la fuente utilizada para la elaboracin de las ponderaciones y de la cesta de la compra era la Encuesta Bsica de Presupuestos Familiares (EBPF), cuya periodicidad marcaba la de los cambios de base del IPC. De hecho hasta 1997 convivan dos encuestas de presupuestos familiares: una continua, con periodicidad trimestral, y una bsica, que se realizaba cada ocho o nueve aos. A partir de ese ao ambas encuestas fueron sustituidas por una sola, cuya periodicidad es trimestral y la informacin que proporciona est ms cercana a la encuesta bsica, en cuanto al nivel de desagregacin. Esta nueva encuesta, denominada Encuesta Continua de Presupuestos Familiares (ECPF), proporciona la informacin necesaria para realizar un cambio de sistema del IPC, la actualizacin de las ponderaciones as como la renovacin de la composicin de la cesta de la

1993

compra. Pero, adems, posibilita la actualizacin permanente de dichas ponderaciones as como la revisin de la cesta de la compra. Para calcular el IPC en las bases anteriores al 2001 correspondiente al perodo t se utiliza el ndice de Laspeyres. La ponderacin de un artculo (wi=pio.qio) representa la proporcin del gasto efectuado en ese artculo respecto al gasto total efectuado por los hogares. La estructura de ponderaciones permaneca fija durante el perodo de vigencia del Sistema de ndices de Precios de Consumo. La nueva frmula de clculo del IPC Base 2001 se denomina Laspeyres encadenado, el perodo de referencia de los precios vara cada ao. Durante el ao 2002 coincide con el ao base y para aos posteriores al 2002 ser el mes de diciembre del ao inmediatamente anterior al considerado. El principal inconveniente de estos ndices es la falta de aditividad, no permite obtener el indice medio a partir de la suma ponderada de los indices que lo componen. El ndice general no se puede obtener como media ponderada de los doce grupos. El nmero total de artculos que componen la cesta de la compra del IPC base 2001 es 484. La estructura funcional del IPC consta de 12 grupos, 37 subgrupos, 80 clases y 117 subclases. Tambin, a diferencia de las bases anteriores, los precios medios utilizados en el clculo del ndice se obtienen a partir de medias geomtricas. La entrada en vigor del Sistema 2001 supuso tambin una ruptura en las series de ndices debido a la inclusin de los precios rebajados. Esta ruptura afecta al clculo de las tasas de variacin cuando los ndices de los perodos de tiempo seleccionados estn medidos en bases diferentes; cuando esto ocurre, la frmula general para calcular las tasas de variacin debe ser modificada. El IPC que elabora el INE se armoniza a escala europea en el IPCA, este es un indicador estadstico cuyo objetivo es proporcionar una medida comn de la inflacin que permita realizar comparaciones internacionales y examinar, as, el cumplimiento que en esta materia exige el Tratado de Maastricht para la entrada en la Unin Monetaria Europea. La base legal del proceso de armonizacin del IPC es el Reglamento del Consejo n 2494/95 de 23 de octubre de 1995 que establece las directrices para la obtencin de ndices comparables, as como un calendario de obligado cumplimiento para todos los pases de la Unin Europea. La principal diferencia entre el IPC y el IPCA es que este excluye los Servicios mdicos y la Enseanza reglada. Diferencias menores se dan en la ponderacin de los Seguros, para los que slo se consideran los gastos ligados a las primas netas, los Automviles, de los cuales se elimina los gastos correspondientes a ventas entre consumidores, o los Medicamentos y productos farmacuticos, que slo incluyen los no subvencionados. El IPCA est formado por doce grandes grupos. Para definir estos grupos se ha utilizado la COICOP. ndice de Precios Industriales (IPRI) El IPRI es un indicador coyuntural que mide la evolucin mensual de los precios de los productos industriales fabricados y vendidos en el mercado interior, en el primer paso de su comercializacin, es decir, mide la produccin a precios de venta a salida de fbrica obtenidos por los establecimientos industriales en las transacciones que estos efectan, excluyendo los gastos de transporte y comercializacin y el IVA facturado.

Se elabora a partir de una encuesta de periodicidad mensual, que investiga ms de 8.000 establecimientos industriales. La cobertura del ndice se extiende a todos los sectores industriales excluida la construccin. El IPRI investiga los precios de las ramas de actividad industriaes al nivel de 4 dgitos de la CNAE (subgrupos). Cada una de estas ramas de actividad aparece representada por una cesta de productos. Estos productos, a su vez, se desagregan en variedades (desagregacin de productos con caractersticas fsicas suficientemente homogneas) y subvariedades (modelos concretos de una variedad que fabrica un establecimiento determinado). En total se seleccionan 1.500 variedades y alrededor de 26.000 datos elementales o datos primarios de precios.

Se calcula como un ndice de Laspeyres, que se pondera de acuerdo a la importancia de las ramas de actividad y de los productos en 2000, segn la informacin que suministra la Encuesta Industrial, de la siguiente forma: Al nivel de rama de actividad (divisin, agrupacin, grupo y subgrupo de la CNAE) segn el valor de la cifra de negocios. Al nivel de productos, segn el valor de la produccin.

En el nuevo sistema del ndice de precios industriales ofrecer informacin para las distintas Comunidades Autnomas. ndice de Coste de la Construccin.
El ndice de Coste de la Construccin ndice de Consumos intermedios de la construccin se elabora a partir de datos procedentes de la Encuesta de la Estructura de la Construccin, y del IPRI.

El ndice de Coste de la Construccin tiene como base el ao 1990. Es un ndice de Laspeyres que aplica la estructura de ponderaciones de materiales y consumos diversos" obtenida a partir de la Encuesta de Estructura de la Construccin a la evolucin de los precios industriales del IPRI, base 1990. El ndice de Coste a la Construccin se desagrega en tres ndices de precios de los consumos de construccin segn la tipologa de las obras. ndices de precios percibidos por el agricultor. El Ministerio de Agricultura y Pesca elabora desde 1953 la estadstica ndice de Precios Percibidos por el agricultor, que con periodicidad mensual suministra informacin sobre los precios medios nacionales de los productos agrarios, e ndices de precios agregados para la totalidad de los productos agrarios y para los grupos ms significativos. Los ndices de precios agregados son ndices de Laspeyres que necesitan de ponderadores referidos a un ao base para formar los nmeros ndices compuestos de diferentes especificaciones de productos. La base actual con la que se elabora el ndice es la de 1990, otros cambios de base tuvieron lugar en 1965, 1976 y 1985. La metodologa de elaboracin del ndice de precios percibidos por el agricultor se apoya en un anlisis de la estructura productiva y comercial de la produccin agraria en el ao base, que da lugar a una definicin de las especificaciones de productos a considerar, la distribucin geogrfica (reas territoriales) y frecuencia mensual de las tomas de datos necesarios. Ello origina una estructura de ponderaciones para cada rea geogrfica que se utiliza para la elaboracin de los precios mensuales, y una ponderacin para cada especificacin que se utiliza para elaborar los ndices agregados. En definitiva, para cada ao base se confecciona una matriz en donde figuran las cantidades comercializadas en el perodo base en cada rea territorial (provincia) y mes, que tiene en cuenta la estacionalidad de la produccin y la diversidad agronmica de las reas. De dicha matriz se obtiene el calendario de precios que es investigado mes a mes por las unidades provinciales.

El precio percibido se define como el precio de mercado, sin incluir gastos de transporte, adecuacin del producto, impuestos indirectos o tasas. En conjunto se investigan 5555 precios en el conjunto de las reas, lo que da lugar a XX especificaciones de productos. ndices de precios hoteleros. El Indice de Precios Hoteleros (IPH) es una medida estadstica de la evolucin mensual del conjunto de las principales tarifas de precios que los empresarios aplican a sus clientes. Para su obtencin se utiliza la Encuesta de Ocupacin en Alojamientos Tursticos: Establecimientos Hoteleros (EOH) con la informacin que se obtiene, mensualmente, de unos 8.500 establecimientos a los que se les enva un cuestionario. A partir de esta encuesta se obtiene informacin sobre la ocupacin hotelera (viajeros entrados, pernoctaciones, grado de ocupacin etc.), su estructura (plazas, personal, etc.) y dems variables de inters, con una amplia desagregacin geogrfica y por categoras de los establecimientos. En el cuestionario, se les pide, entre otras variables, los precios aplicados a distintos tipos de clientes por una habitacin doble con bao. Esos precios se desglosan en las siguientes tarifas: Tarifa normal. Tarifa fin de semana. Tarifa especial a tour-operador. Tarifa especial a empresas. Tarifa especial a grupos. El ndice de precios se calcula a partir de:
5

I sT = 100 I tsT wt
t =1

donde y , I tsT =

M tST M 0 B0 y wt = 5 t t M t0 M t0 Bt0
t =1

que representa el porcentaje de ingresos percibidos por los hoteleros por las habitaciones ocupadas en una tarifa concreta sobre los ingresos obtenidos por el total de tarifas; y siendo, MtsT: precio de la habitacin doble con bao (sin incluir IVA ni desayuno) en la tarifa t, en el mes s del ao T. Bt0: nmero total de habitaciones ocupadas a las que se les aplic la tarifa t en el ao base. Mt0: precio medio, en el ao base 2001, de la habitacin doble con bao (sin incluir IVA ni desayuno) en la tarifa t. En la encuesta se solicita a los hoteleros que indiquen el porcentaje de aplicacin de cada una de las tarifas sobre el total de habitaciones ocupadas. De ah se extrae la informacin para calcular el total de habitaciones ocupadas en cada tarifa para todos los meses del ao base. La suma de esa variable a lo largo de los doce meses del ao 2001 (Bt0) es la que se utiliza en el clculo de las ponderaciones (Wt). Las ponderaciones se calculan a nivel de provincia, categora del establecimiento y tarifa, y posteriormente se agregan por tarifas, categoras o comunidades autnomas segn el ndice agregado que se quiera obtener. Dichas ponderaciones permanecen fijas hasta que se actualiza la base, lo cual est previsto realizar anualmente A diferencia del ndice de Precios de Consumo, el IPH es un indicador desde la ptica de la oferta, ya que mide la evolucin de los precios que efectivamente perciben los hoteleros en aplicacin de las distintas tarifas por las que facturan. Por tanto, no mide la evolucin de los precios que pagan los hogares ni la tarifa oficial que aplican los hoteleros, sino el

comportamiento de los precios facturados por los hoteleros a distinto tipo de clientes (hogares, empresas, agencias de viaje y tour-operadores). Se calculan y difunden ndices para las diecisiete comunidades autnomas, Ceuta y Melilla; adems, tambin se publican ndices para las distintas tarifas a nivel nacional.

ndices de costes laborales. El Indice de Costes Laborales es una operacin estadstica continua, de carcter coyuntural y periodicidad trimestral, que tiene por objetivos proporcionar informacin sobre: - El Coste Laboral medio por trabajador y mes. - El Coste Laboral medio por hora efectiva de trabajo. - El tiempo trabajado y no trabajado. Se obtienen resultados nacionales y por comunidades autnomas. La encuesta se extiende al conjunto de la industria, la construccin y los servicios, en concreto se investigan a aquellas cuentas de cotizacin con actividades econmicas comprendidas en las secciones de la C a la K y de la M a la O de la Clasificacin Nacional de Actividades Econmicas 1993 (CNAE-93). En total se investigan 54 divisiones de la CNAE-93. Quedan excluidas, la Administracin Pblica, Defensa y Seguridad Social Obligatoria (Seccin L de la CNAE-93), el servicio domstico (Seccin P) y los organismos extraterritoriales (Seccin Q). Los trabajadores objeto de encuesta son todos los trabajadores asociados a la cuenta de cotizacin por los que haya existido obligacin de cotizar durante al menos un da en el mes de referencia. A efectos del clculo del coste laboral por trabajador, aquellos que han estado de alta en la cuenta de cotizacin durante un periodo de tiempo inferior al mes se contabilizan como la parte proporcional al tiempo que han estado de alta en dicha cuenta. Para los resultados obtenidos de coste salarial y jornada laboral, los trabajadores se clasifican segn su tipo de jornada en trabajadores a tiempo completo y a tiempo parcial. Se consideran trabajadores a tiempo completo aquellos que realizan la jornada habitual de la empresa en la actividad de que se trate. Son trabajadores a tiempo parcial, y as debe quedar reflejado en su contrato, aquellos que realicen una jornada inferior a la jornada considerada como habitual de la empresa en la actividad de que se trate o, en caso de no existir sta, inferior a la mxima legal establecida. En la encuesta se define como el coste total en que incurre el empleador por la utilizacin de factor trabajo. Incluye el Coste Salarial ms los Otros Costes. El coste salarial comprende todas las remuneraciones, tanto en metlico como en especie, realizadas a los trabajadores por la prestacin profesional de sus servicios laborales por cuenta ajena, ya retribuyan el trabajo efectivo, cualquiera que sea la forma de remuneracin, o los periodos de descanso computables como de trabajo. El Coste Salarial incluye por tanto el salario base, complementos salariales, pagos por horas extraordinarias, pagos extraordinarios y pagos atrasados. Los Otros Costes incluyen las Percepciones no Salariales (las retribuciones percibidas por el trabajador no por el desarrollo de su actividad laboral sino como compensacin de gastos ocasionados por la ejecucin del trabajo o para cubrir necesidades o situaciones de inactividad no imputables al trabajador) y las Cotizaciones Obligatorias a la Seguridad Social. La Jornada Laboral se define como el nmero de horas que cada trabajador dedica a desempear su actividad laboral. Se distinguen los siguientes conceptos:

Horas pactadas: Son las horas legalmente establecidas por acuerdo verbal, contrato individual o convenio colectivo entre el trabajador y la empresa. Horas efectivas: Son las horas realmente trabajadas tanto en periodos normales de trabajo como en jornada extraordinaria, incluyendo las horas perdidas en lugar de trabajo, que tienen la consideracin de tiempo efectivo en virtud de la normativa vigente.Se obtienen como la suma de las horas pactadas ms las horas extras y/o complementarias menos las horas no trabajadas excepto las horas perdidas en el lugar de trabajo. Horas no trabajadas: Son las horas no trabajadas durante la jornada laboral por cualquier motivo (vacaciones y fiestas, incapacidad temporal, maternidad, adopcin y motivos personales, descansos como compensacin por horas extraordinarias, horas de representacin sindical, cumplimiento de un deber inexcusable, asistencia a exmenes y visitas mdicas, das u horas no trabajadas por razones tcnicas, organizativas o de produccin, horas perdidas en el lugar de trabajo, conflictividad laboral, absentismo, guarda legal, cierre patronal, ).

En la Encuesta de Coste Laboral se calculan ndices simples de variacin de los Costes Laborales medios. Para ello, se toma como perodo base el ao 2000, de forma que los Indices de Costes de 2000 se hacen 100. Un ndice cualquiera se calcula mediante la frmula:

It =

Ct Co

Donde C0 es el coste medio en el perodo base 2000 y Ct es el coste medio en el trimestre actual.

4.

SERIES TEMPORALES

4.1. Introduccin a las series temporales


El presente epgrafe pretende ser una breve introduccin al estudio de las series temporales, las cuales poseen una gran importancia en el campo de la Economa dada la abundancia de este tipo de observaciones; de hecho, las series temporales constituyen la mayor parte del material estadstico con el que trabajan los economistas. Pero, qu es una serie temporal? Por definicin, una serie temporal es una sucesin de observaciones de una variable realizadas a intervalos regulares de tiempo. Segn realicemos la medida de la variable considerada podemos distinguir distintos tipos de series temporales: Discretas o Continuas, en base al intervalo de tiempo considerado para su medicin. Flujo o Stock. En Economa, se dice que una serie de datos es de tipo flujo si est referida a un perodo determinado de tiempo (un da, un mes, un ao, etc.). Por su parte, se dice que una serie de datos es de tipo stock si est referida a una fecha determinada (por ejemplo, el 31 de Diciembre de cada ao). Un ejemplo de datos de tipo flujo seran las ventas de una empresa ya que stas tendrn un valor distinto si se obtiene el dato al cabo de una semana, un mes un ao; por su parte, la cotizacin de cierre de las acciones de esa misma empresa sera una variable de tipo stock, ya que slo puede ser registrado a una fecha y hora determinadas. Obsrvese que existen relacin entre ambos tipos de variables, pues la cotizacin al cierre de las acciones no es ms que el precio de cierre del da anterior ms, o menos, el flujo de precios de la sesin considerada. Dependiendo de la unidad de medida, podemos encontrar series temporales en pesetas o en diversas magnitudes fsicas (kilogramos, litros, millas, etc.) En base a la periodicidad de los datos, podemos distinguir series temporales de datos diarios, semanales, mensuales, trimestrales, anuales, etc.

Antes de profundizar en el anlisis de las series temporales es necesario sealar que, para llevarlo a cabo, hay que tener en cuenta los siguientes supuestos: Se considera que existe una cierta estabilidad en la estructura del fenmeno estudiado. Para que se cumpla este supuesto ser necesario estudiar perodos lo ms homogneos posibles. Los datos deben ser homogneos en el tiempo, o, lo que es lo mismo, se debe mantener la definicin y la medicin de la magnitud objeto de estudio. Este supuesto no se da en muchas de las series econmicas, ya que es frecuente que las estadsticas se perfeccionen con el paso del tiempo, producindose saltos en la serie debidos a un cambio en la medicin de la magnitud estudiada. Un caso particularmente frecuente es el cambio de base en los ndices de precios, de produccin, etc. Tales cambios de base implican cambios en los productos y las ponderaciones que entran en la elaboracin del ndice que repercuten considerablemente en la comparabilidad de la serie en el tiempo.

El objetivo fundamental del estudio de las series temporales es el conocimiento del comportamiento de una variable a travs del tiempo para, a partir de dicho conocimiento, y bajo el supuesto de que no van a producirse cambios estructurales, poder realizar predicciones, es decir, determinar qu valor tomar la variable objeto de estudio en uno o ms perodos de tiempo situados en el futuro, mediante la aplicacin de un determinado modelo calculado previamente. Dado que en la mayor parte de los problemas econmicos, los agentes se enfrentan a una toma de decisiones bajo un contexto de incertidumbre, la prediccin de una variable reviste una importancia notoria pues supone, para el agente que la realiza, una reduccin de la incertidumbre y, por ende, una mejora de sus resultados. Las tcnicas de prediccin basadas en series temporales se pueden agrupar en dos grandes bloques: Mtodos cualitativos, en los que el pasado no proporciona una informacin directa sobre el fenmeno considerado, como ocurre con la aparicin de nuevos productos en el mercado. As, por ejemplo, si se pretende efectuar un estudio del comportamiento de una accin en Bolsa, y la sociedad acaba de salir a cotizar al mercado, no se puede acudir a la informacin del pasado ya que sta no existe. Mtodos cuantitativos, en los que se extrae toda la informacin posible contenida en los datos y, en base al patrn de conducta seguida en el pasado, realizar predicciones sobre el futuro.

Indudablemente, la calidad de las previsiones realizadas dependern, en buena medida, del proceso generador de la serie: as, si la variable observada sigue algn tipo de esquema o patrn de comportamiento ms o menos fijo (serie determinista) seguramente obtengamos predicciones ms o menos fiables, con un grado de error bajo. Por el contrario, si la serie no sigue ningn patrn de comportamiento especfico (serie aleatoria), seguramente nuestras predicciones carecern de validez por completo. Generalmente, en el caso de las series econmicas no existen variables deterministas o aleatorias puras, sino que contienen ambos tipos de elementos. El objeto de los mtodos de previsin cuantitativos es conocer los componentes subyacentes de una serie y su forma de integracin, con objeto de realizar de su evolucin futura. Dentro de los mtodos de prediccin cuantitativos, se pueden distinguir dos grandes enfoques alternativos: Por un lado, el anlisis univariante de series temporales mediante el cual se intenta realizar previsiones de valores futuros de una variable, utilizando como informacin la contenida en los valores pasados de la propia serie temporal. Dentro de esta metodologa se incluyen los mtodos de descomposicin y la familia de modelos ARIMA univariantes que veremos ms adelante. El otro gran bloque dentro de los mtodos cuantitativos estara integrado por el anlisis multivariante o de tipo causal, denominado as porque en la explicacin de la variable o variables objeto de estudio intervienen otras adicionales de ella o ellas mismas.

En el tratamiento de series temporales que vamos a abordar, nicamente se considerar la informacin presente y pasada de la variable investigada. Si la variable investigada es Y y se dispone de los valores que toma dicha variable desde el momento 1 hasta T, el conjunto de informacin disponible vendr dado por:

Y1, Y2, Y3, , YT-1, YT

Dada esa informacin, la prediccin de la variable Y para el perodo T+1 la podemos expresar como:

YT +1 / T
Con esta notacin queremos indicar que la prediccin para el periodo T+1 se hace condicionada a la informacin disponible en el momento T. El acento circunflejo sobre la Y nos indica que esa prediccin se ha obtenido a partir de un modelo estimado. Conviene tambin hacer notar que T+1 significa que se est haciendo la prediccin para un perodo hacia delante, es decir, con la informacin disponible en t hacemos una prediccin para el perodo siguiente. Anlogamente, la prediccin para el perodo T+2 y para el perodo T+m, con la informacin disponible en T, vendr dada, respectivamente, por:

YT + 2 / T ; YT + m / T
que sern predicciones de 2 y m perodos hacia adelante. Si, genricamente, para el perodo t se efecta una prediccin con la informacin disponible en

t1, y a la que designamos por Yt / t 1 , para el perodo t podemos hacer una comparacin de este valor con el que realmente observemos (Yt). La diferencia entre ambos valores ser el error de prediccin de un perodo hacia adelante y vendr dado por:
et / t 1 = Yt Yt / t 1

Cuando un fenmeno es determinista y se conoce la ley que lo determina, las predicciones son exactas, verificndose que et / t 1 = 0 . Por el contrario, si el fenmeno es poco sistemtico o el modelo es inadecuado, entonces los errores de prediccin que se vayan obteniendo sern grandes. Para cuantificar globalmente los errores de prediccin se utilizan los siguientes estadsticos: la Raz del Error Cuadrtico Medio (RECM) y el Error Absoluto Medio (EAM). En el caso de que se disponga de T observaciones y se hayan hecho predicciones a partir de la observacin 2, las frmulas para la obtencin de la raz del Error Cuadrtico Medio y el Error Absoluto Medio son las siguientes:

RECM =

e
t =2 T

2 t / t 1

T 1

(Y Y
t t =2

t / t 1 )

T 1

EAM =

e
t =2

t / t 1

T 1

Y Y
t t =2

t / t 1

T 1

De forma anloga se pueden aplicar la RECM y el EAM en predicciones de 2, 3, , m perodos hacia adelante. En el anlisis de series temporales se aplican, en general, mtodos alternativos a unos mismos datos, seleccionando aquel modelo o aquel mtodo que, en la prediccin de perodos presentes y pasados, arroja errores de prediccin menores, es decir, arroja una RECM o un EAM menor.

4.2. Componentes de una Serie Temporal


Tradicionalmente, en los mtodos de descomposicin de series temporales, se parte de la idea de que la serie temporal se puede descomponer en todos o algunos de los siguientes componentes: Tendencia (T), que representa la evolucin de la serie en el largo plazo Fluctuacin cclica (C), que refleja las fluctuaciones de carcter peridico, pero no necesariamente regular, a medio plazo en torno a la tendencia. Este componente es frecuente hallarlo en las series econmicas, y se debe a los cambios en la actividad econmica. Para la obtencin de la tendencia es necesario disponer de una serie larga y de un nmero de ciclos completo, para que sta no se vea influida por la fase del ciclo en que finaliza la serie, por lo que, a veces, resulta difcil separar ambos componentes. En estos casos resulta til englobar ambos componentes en uno solo, denominado ciclotendencia o tendencia generalizada. Variacin Estacional (S): recoge aquellos comportamientos de tipo regular y repetitivo que se dan a lo largo de un perodo de tiempo, generalmente igual o inferior a un ao, y que son producidos por factores tales como las variaciones climatolgicas, las vacaciones, las fiestas, etc. Movimientos Irregulares (I), que pueden ser aleatorios, la cual recoge los pequeos efectos accidentales, o errticos, como resultado de hechos no previsibles, pero identificables a posteriori (huelgas, catstrofes, etc.)

En este punto, cabe sealar que en una serie concreta no tienen por qu darse los cuatro componentes. As, por ejemplo, una serie con periodicidad anual carece de estacionalidad. La asociacin de estos cuatro componentes en una serie temporal, Y, puede responder a distintos esquemas; as, puede ser de tipo aditivo: Y=T+C+S+I Tambin puede tener una forma multiplicativa:

Y=TCSI O bien ser una combinacin de ambos, por ejemplo: Y=TCS+I Una forma sencilla para ver como estn asociadas las componentes de una serie temporal es representar grficamente la serie que estamos analizando. Si al realizar la representacin grfica se observa que las fluctuaciones son ms o menos regulares a lo largo de la serie, sin verse afectadas por la tendencia (vase Fig. 9.1), se puede emplear el esquema aditivo.

Figura 9.1. Esquema aditivo

Si, por el contrario, se observa que la magnitud de las fluctuaciones vara con la tendencia, siendo ms altas cuando sta es creciente y ms bajas cuando es decreciente (vase Fig. 9.2), se debe adoptar entonces el esquema multiplicativo.

Figura 9.2. Esquema multiplicativo.

4.3. Anlisis de la tendencia


Como decamos en el apartado anterior, la tendencia es el componente de la serie temporal que representa la evolucin a largo plazo de la serie. La tendencia se asocia al movimiento uniforme o regular observado en la serie durante un perodo de tiempo extenso. La tendencia es la informacin ms relevante de la serie temporal ya que nos informa de si dentro de cinco, diez o quince aos tendr un nivel mayor, menor o similar al que la serie tiene hoy da. El anlisis de la tendencia se realiza fundamentalmente con dos objetivos: por un lado, para conocer cules son las pautas de comportamiento a lo largo del tiempo, de la variable objeto de estudio, y por otro, para predecir sus valores futuros. Las tendencias suelen representarse mediante funciones de tiempo continuas y diferenciables. Las funciones de tendencia ms utilizadas son: 1. 2. 3. 4. 5. 6. 7. Lineal. Polinmica. Exponencial. Modelo autorregresivo Funcin Curva de Gompertz Modelo logartmico recproco

Si una serie temporal Xt se ajusta a una tendencia lineal, la funcin de tiempo que se plantea es la siguiente: Xt =+t t= 1, 2, , n Una tendencia polinmica de grado p se ajustar a una funcin del siguiente tipo: f(t) = +1 + 2t2 + +ptp Si la tendencia sigue una ley exponencial, entonces la funcin de ajuste ser: f(t) = aert donde a y r son constantes. Un modelo autorregresivo ajusta la tendencia de la forma siguiente: Xt =0+1xt-1 + ut siendo >0

La curva logstica se representa mediante la funcin:

T (t ) =

T 1 be rt

donde t, b y r son constantes positivas. La curva de Gompertz responde a la siguiente ecuacin: f (t) = Tbe-rt donde T, r, b son parmetros positivos.

Finalmente, el modelo logartmico recproco, viene definido por la relacin: f(t) = a + b 1/t B<0

Para calcular las funciones de tendencia, lo habitual es linealizar las formas de las funciones no lineales y proceder a su estimacin como si fuera una funcin de tendencia lineal. Una vez establecido un modelo terico para la tendencia, se debe proceder a la determinacin o clculo de los parmetros que desconocemos mediante diversos procedimientos estadsticos, que pasamos a describir a continuacin.

Mtodo de los semipromedios El mtodo de los semipromedios es la forma ms rpida de estimar una lnea de tendencia recta. El mtodo requiere dividir la serie de datos en dos mitades y calcular el promedio de cada mitad que se centra en el punto medio. La recta que una ambas medias (o semipromedios) ser la lnea de tendencia estimada. Ejemplo 9.1.

Utilizando la serie cronolgica de ventas de gasolina en Castilla y Len sobre la que vamos a realizar un ajuste de una tendencia basada en el mtodo de semipromedios:
Tabla 4.1. EVOLUCIN DE LAS VENTAS DE GASOLINA EN CASTILLA Y LEON. AOS 1985-1994. (Miles de Tm.).

AOS 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994

Tm. 441.300 441.200 466.700 496.700 527.809 536.445 548.302 599.525 613.849 610.370

Fuente: Coyuntura Econmica de Castilla y Len

Dividimos la serie en dos mitades, cada una de cinco aos, y calculamos los promedios de cada mitad. Los promedios los centramos en las observaciones centrales, las correspondientes a 1987 y 1992:

Promedio centrado en 1987 =

441.300 + 441.200 + 466.700 + 496.700 + 527.809 = 474.742 5 536.445 + 548.302 + 599.525 + 613.849 + 610.370 = 581.698 5

Promedio centrado en 1992 =

La ecuacin de la lnea de tendencia ser:


Yt* = a + bt

donde Yt* es el valor de la tendencia estimada de las ventas de gasolina. El valor de a se obtiene al hacer t=0, y se hace corresponder con el valor del primer promedio:

a = Y0* = 474.472
El coeficiente de la pendiente de la recta b representara el incremento anual de la tendencia, y se calcula a partir de los dos promedios:

b=

581698 474.742 . = 21391 . 5

Ntese que al ser cinco los aos que hay de diferencia entre 1992 y 1987, aos en los que hemos centrado los promedios, el denominador que utilizamos para calcular el incremento anual es igual a 5. La ecuacin Yt*=474.742+21391t nos sirve para obtener la tendencia una vez conocidos los valores t o del regresor, que ha de tener necesariamente valor cero en 1987. Los valores de Xt se elaboran a partir de una sucesin de puntuaciones consecutivas que van desde un mnimo de -2 de 1985 hasta un mximo de 7 en 1994:
Tm. Semipromedio t Tendencia 1985 441300 -2 431959 1986 441200 -1 453351 1987 466700 474742 0 474742 1988 496700 1 496133 1989 527809 2 517524 1990 536445 3 538916 1991 548302 4 560307 1992 599525 581698 5 581698 1993 613849 6 603089 1994 610370 7 624481 Tabla 8.2.1. Tendencia de la evolucin de las ventas de gasolina en Castilla y Len. Aos 1985-1994. (miles de tm.).Mtodo de semipromedios.

Representamos en el grfico 4.2 la tendencia:

Tendencia de las ventas de gasolina


650.000

600.000

550.000

500.000

Tm. Tendencia

450.000

400.000 1985

1986

1987

1988

1989

1990

1991

1992

1993

1994

Grfico 4.2.

Mtodo de mnimos cuadrados

El mtodo de mnimos cuadrados es el que ms se utiliza para ajustar tendencias. Este mtodo da los mismos resultados que el mtodo anterior cuando es utilizado para obtener tendencias lineales. Si realizamos sencillas transformaciones aritmticas de los datos puede tambin ser utilizado para representar funciones de tendencias no lineales.

Estimar una tendencia lineal por el mtodo de MCO equivale a estimar la siguiente funcin:
Yt* = a + bt

utilizando como variable explicativa un vector de nmeros secuenciales {1,2,3,,n} representativos del periodo. Si se quiere obtener una tendencia exponencial, debemos linealizar la funcin lo que requiere su transformacin en logaritmos:
Y = bert

entonces:
ln Yt = ln b + rt

Una vez estimada la tendencia lineal por mnimos cuadrados, calculamos la exponencial del logaritmo para devolver la tendencia a la escala de los datos originales.

Ejemplo 4.2

Veamos un ejemplo: consideremos la siguiente tabla en la que se muestra la evolucin de las ventas de gasolina en Castilla y Len. Con dichos datos vamos a estimar una tendencia exponencial mediante el mtodo de mnimos cuadrados.
Logaritmo X Tendencia Tendencia (Y) logartmica 1985 441300 13.00 1 12.98 435719 1986 441200 13.00 2 13.03 454039 1987 466700 13.05 3 13.07 473130 1988 496700 13.12 4 13.11 493024 1989 527809 13.18 5 13.15 513754 1990 536445 13.19 6 13.19 535355 1991 548302 13.21 7 13.23 557865 1992 599525 13.30 8 13.27 581322 1993 613849 13.33 9 13.31 605764 1994 610370 13.32 10 13.36 631235 Tabla 8.2.2. Tendencia de la evolucin de las ventas de gasolina en Castilla y Len. Aos 1985-1994. (miles de tm.).Mtodo de mnimos cuadrados. Tm.(Y)

Veamos la representacin de dichos datos en el grfico 4.3.; en l comprobamos cmo se ajusta a los datos de venta de gasolina en Castilla y Len:
Tendencia de las ventas de gasolina
650.000

600.000

550.000

500.000

Tm. Tendencia T.Exponencial

450.000

400.000 1985

1986

1987

1988

1989

1990

1991

1992

1993

1994

Grfico 4.3.

Para analizar la calidad del ajuste realizado hay que considerar los estadsticos de la regresin mnimo cuadrada2 :
Estadsticas de la regresin Coeficiente de correlacin mltiple Coeficiente de determinacin R2 R2 ajustado Error tpico Observaciones

0,984248834 0,968745767 0,964838988 0,023756892 10

El coeficiente R2 es una medida de que la magnitud de los errores con respecto al tamao de la variable Y; errores muy pequeos en relacin al tamao de Y determinan que el coeficiente R2 se aproxime a 1; por el contrario errores muy altos en relacin al tamao de la variable Y, darn lugar a valores de R2 ms alejados de 1 y ms cercanos a cero. En el ejercicio que hemos realizado la magnitud del coeficiente de determinacin (R2=0,9687) sera indicativo de un aceptable ajuste. Otros estadsticos que debemos considerar son los que hace referencia al grado de significacin de los coeficientes b y m:
Coeficientes Intercepcin Variable X 1 12.9435651 0.04118681 Error tpico 0.016229 0.0026155 Estadstico t 797.55546 15.746915 Probabilidad 6.8409E-21 2.6424E-07 Inferior 95% Superior 95% Inferior 95,0% Superior 95,0% 12.9061409 0.03515534 12.98098942 0.047218276 12.90614087 0.03515534 12.98098942 0.047218276

La intercepcin en el origen es el coeficiente a, y la Variable X 1 es el coeficiente b. La tabla da el abanico de valores ms probables para ambos coeficientes al nivel de confianza del 95%, estos valores son los que figuran en las casillas Inferior y Superior. En el caso del coeficiente a, el ajuste mnimo-cuadrado da como resultado que lo ms probable es que se encuentre entre el intervalo que va desde el valor 12,91 hasta el 12,98, siendo su valor medio 12,94; en tanto que el coeficiente b estar en el intervalo que va desde 0,035 hasta 0,047, resultando ser su valor medio 0,041. Como entre estos intervalos no figura el valor cero, sealamos que los coeficientes estimados son estadsticamente significativos. En el ejemplo la funcin lineal estimada sera:
Yt* = 12,94 + 0,041t

que en forma exponencial quedara:


Yt = 242801,6.e0,041t
Medias mviles

En el anlisis de series temporales, el mtodo de medias mviles tiene diversas aplicaciones: as, este mtodo puede sernos til si queremos calcular la tendencia de una serie temporal sin tener que ajustarnos a una funcin previa, ofreciendo as una visin suavizada o alisada de una serie, ya que promediando varios valores se elimina parte de los movimientos irregulares de la

El captulo 8.4 dedicado a la regresin minimo-cuadrada estudia los fundamentos de dicha tcnica y los estadsticos que se mencionan.

serie; tambin puede servirnos para realizar predicciones cuando la tendencia de la serie tiene una media constante. Veamos qu es una media mvil: se trata, sencillamente de una media aritmtica que se caracteriza porque toma un valor para cada momento del tiempo y porque en su clculo no entran todas las observaciones de la muestra disponible. Entre los distintos tipos de medias mviles que se pueden construir nos vamos a referir a dos tipos: medias mviles centradas y medias mviles asimtricas. El primer tipo se utiliza para la representacin de la tendencia, mientras que el segundo lo aplicaremos para la prediccin en modelos con media constante. Las medias mviles centradas se caracterizan porque el nmero de observaciones que entran en su clculo es impar, asignndose cada media mvil a la observacin central. As, una media mvil centrada en t de longitud 2n + 1 viene dada por la siguiente expresin:

MM ( 2n + 1) t =

n Y +Y + ... + Yt + ... + Yt + n 1 + Yt + n 1 nYt +i = t n t n+1 2n + 1 2n + 1 i =

Como puede observarse, el subndice asignado a la media mvil, t, es el mismo que el de la observacin central, Yt. Obsrvese tambin que, por construccin, no se pueden calcular las medias mviles correspondientes a las n primeras y a las n ltimas observaciones. Por su parte, en el caso de las medias mviles asimtricas se asigna cada media mvil al perodo correspondiente a la observacin ms adelantada de todas las que intervienen en su clculo. As la media mvil asimtrica de n puntos asociada a la observacin t tendr la siguiente expresin:

MMA( n ) t =

Y +Y + ... + Yt 1 + Yt 1 t +Yt +i = t n+1 t n+2 n n i =t n 1

Este tipo de medias mviles se emplea en la prediccin de series cuya tendencia muestra una media constante en el tiempo, utilizndose la siguiente ecuacin:

MMA( n ) T +1 =

Y Y 1 T +1 +Yt = MMA(n )T + Tn+1 T nn+1 n i =T n 2

Es decir, para predecir el valor de la serie en el perodo siguiente se suma a la media mvil, la media aritmtica de los n ltimos perodos, siendo n la longitud de la media mvil. La utilizacin de medias mviles implica la eleccin arbitraria de su longitud u orden, es decir, del nmero de observaciones que intervienen en el clculo de cada media mvil. Cuanto mayor sea la longitud, mejor se eliminarn las irregularidades de la serie, ya que al intervenir ms observaciones en su clculo se compensarn las fluctuaciones de este tipo, pero por el contrario, el coste informativo ser mayor. Por el contrario, cuando la longitud es pequea, la media mvil refleja con mayor rapidez los cambios que puedan producirse en la evolucin de la serie. Es conveniente, pues, sopesar estos factores al decidir la longitud de la media mvil.

Ejemplo 4.3 Veamos a continuacin un ejemplo, continuando con la serie de ventas de gasolina, optamos por calcular una media mvil trienal que ofrece los siguientes resultados:
Tm. Media mvil trienal

1985 441300 1986 441200 449733 1987 466700 468200 1988 496700 497070 1989 527809 520318 1990 536445 537519 1991 548302 561424 1992 599525 587225 1993 613849 607915 1994 610370 Tabla 9.3. Tendencia de la evolucin de las ventas de gasolina en Castilla y Len. Aos 1985-1994. (miles de tm.).Media mvil trienal

El valor de la media mvil trienal asignado a 1986 se calcula as:

449733 =
468200 =

441300 + 441200 + 466700 3

A su vez, el valor de la media mvil trienal asignado a 1987 se calcula as:

441200 + 466700 + 496700 3

Tendencia en medias mviles trienales de las ventas de gasolina


650.000 600.000 550.000 500.000 450.000 400.000 1985 Tm. Media movil trienal

1986

1987

1988

1989

1990

1991

1992

1993

1994

Grfico 4.4.

Como se aprecia en el grfico 9.3., el inconveniente que tiene la media mvil es que perdemos informacin de la tendencia en los ejercicios inicial y final. En este sentido, volvemos a resaltar que las medias mviles, comparadas con mtodos basados en ajustes aritmticos, tienen un coste informativo.
Alisado Exponencial Simple

El mtodo del alisado exponencial simple consiste, al igual que en el caso de las medias mviles, en una transformacin de la variable original. Si una variable Y es sometida a un proceso de alisado exponencial simple se obtiene como resultado la variable alisada St. Tericamente, la variable alisada St se obtendra segn la expresin:
St = (1 w) Yt + (1 w) wYt-1+ (1-w) w2 Yt-2 + (1 w) w3 Yt-3 + (1)

donde w es un parmetro que toma valores comprendidos entre 0 y 1, y los puntos suspensivos indican que el nmero de trminos de la variable alisada puede ser infinito. La expresin anterior en realidad no es ms que una media aritmtica ponderada3 de infinitos valores de Y. Se denomina alisada ya que suaviza o alisa las oscilaciones que tiene la serie, al obtenerse como una media ponderada de distintos valores. Por otra parte, el calificativo de exponencial se debe a que la ponderacin o peso de las observaciones decrece exponencialmente a medida que nos alejamos del momento actual t. Esto quiere decir que las observaciones que estn alejadas tienen muy poca incidencia en el valor que toma St. Finalmente, el calificativo de simple se aplica para distinguirla de otros casos en que, como veremos ms adelante, una variable se somete a una doble operacin de alisado. Una vez que se han visto estos aspectos conceptuales, vamos a proceder a la obtencin operativa de la variable alisada, ya que la expresin no es directamente aplicable, por contener infinitos trminos. Retardando un perodo en la expresin anterior se tiene que:
St-1 = (1 w) Yt-1 + (1 w) wYt-2 + (1-w) w2 Yt-3 + (2)

Multiplicando ambos miembros por w se obtiene:


wSt-1 = (1 w) wYt-1 + (1 w) w2 Yt-2 + (1 w) w3 Yt-3 + (3)

Restando (3) de (1) miembro a miembro y ordenando los trminos se tiene que:
St = (1 - w) Yt + wSt-1

O tambin:
St = Yt + (1 - ) St-1

donde = 1 w. Ahora ya slo nos falta calcular los valores de y S0, parmetros a partir de los cuales resulta sencillo hallar los valores de la variable alisada de forma manera recursiva, tal que:
S1 = Y1 + (1 - ) S0 S2 = Y2 + (1 - ) S1 S3 = Y3 + (1 - ) S2 Al asignar un valor a hay que tener en cuenta que un valor pequeo de significa que estamos dando mucho peso a las observaciones pasadas a travs del trmino St-1. Por el contrario, cuando es grande se da ms importancia a la observacin actual de la variable Y. En general, parece que un valor de igual a 0.2 es apropiado en la mayor parte de los casos. Alternativamente, se

Para que pueda aceptarse que es una media aritmtica ponderada debe verificarse que las ponderaciones, sumen 1. La demostracin, que excede las pretensiones de este texto, se basa en el clculo de la suma de infinitos trminos de una progresin geomtrica convergente.

puede seleccionar aquel valor de para el que se obtenga una Raz del Error Cuadrtico Medio menor en la prediccin del perodo muestral. Respecto a la asignacin de valor a S0 se suelen hacer estos supuestos: cuando la serie tiene muchas oscilaciones se toma S = Y1; por el contrario, cuando la serie tiene una cierta estabilidad se hace S0 = Y .

Alisado Exponencial Doble

Una variante ms avanzada del mtodo anterior es el Alisado Exponencial Doble, tambin conocido como mtodo de Brown. Bsicamente, lo que se hace mediante este mtodo es someter a la variable a una doble operacin de alisado: en la primera operacin se alisa directamente la variable objeto de estudio, mientras que en la segunda operacin se procede a alisar la variable alisada previamente obtenida. As pues, las frmulas del Alisado Exponencial Doble son las siguientes: Primer alisado: St = Yt + (1) St-1 Segundo alisado: St = St + (1) St-1 Obsrvese que en los dos alisados se utiliza el mismo coeficiente . A partir de las dos variables alisadas se estiman los coeficientes de la recta para utilizarlos en la prediccin. Las frmulas que permiten pasar de los coeficientes de alisado a los coeficientes de la recta son las siguientes:

b0t = 2 S t' S t'' b1t =

( S t' S t'' )

Finalmente, si con la informacin disponible en t, deseamos realizar una prediccin de la variable para el momento t+m, aplicaremos la siguiente frmula:

Yt + m = b0t + b1t m
Asimismo, al igual que en el caso del Alisado Exponencial Simple, para poder obtener St' y St es necesario conocer los valores iniciales, que en este caso seran dos, S0 y S0. Para determinarlos se utilizan las siguientes relaciones que permiten obtener b0t y b1t, aunque en sentido inverso. Realizando un ajuste de la recta por mnimos cuadrados con toda la informacin disponible se

obtendrn las estimaciones b0t y b1t .

Haciendo que:

b00 = b0t y b10 = b1t


y tomando t = 0, se obtiene:
' S 0 = b00 b10

1 1

' S 0' = b00 2b10

A partir de estos valores se inicia la recursin ya sealada. En lo que respecta al valor de , es vlido lo que se dijo en el caso del Alisado Exponencial Simple, siendo aconsejable tomar = 0.2 o, alternativamente, seleccionar aquel valor de que haga mnima la Raz del Error Cuadrtico Medio cuando realicemos predicciones.

4.4. Anlisis de la estacionalidad


En este apartado pasamos a examinar el anlisis de la estacionalidad de las series temporales, entendindose por tal, aquellos ciclos regulares cuya duracin es inferior al ao. Las variaciones o ciclos estacionales son muy frecuentes en las series temporales, sea cual sea su naturaleza, y pueden presentar un esquema horario, diario, semanal, mensual, trimestral o incluso semestral, no siendo necesario que tengan alguna relacin con las estaciones del ao. Lo verdaderamente importante de los ciclos estacionales es su temporalidad o repeticin regular. Algunos ejemplos de ciclos estacionales seran: El aumento de viajeros en los autobuses urbanos en determinadas horas del da. Las ventas diarias de un supermercado que suelen presentar entre semana un esquema bastante regular. El movimiento de viajeros en los establecimientos hoteleros que se concentra en determinados meses del ao. El consumo de energa elctrica que suele ser mayor los meses de invierno.

El motivo principal que induce a estudiar los ciclos estacionales es que, de no tenerse en cuenta estas variaciones, se obtienen bastantes distorsiones a la hora de analizar la evolucin de las series, actuando muchas veces el factor estacional como una mscara que impide captar adecuadamente la evolucin del fenmeno objeto de estudio. Un ejemplo de estas distorsiones ocurre, por ejemplo, cuando se compara el consumo de electricidad en el primer y segundo trimestre del ao, ya que el ciclo estacional al delimitar un aumento del consumo en los meses de invierno, impide una interpretacin correcta sobre el uso subyacente de la energa de dicho perodo. Por ello, ser conveniente eliminar el influjo de los ciclos estacionales en la serie, a fin de poder realizar comparaciones entre dos estaciones sucesivas y predecir correctamente el comportamiento futuro de la variable.

Para ello, existen diferentes procedimientos: utilizacin de filtros lineales, X11-ARIMA, SEATS (Signal Extraction in ARIMA Time Series), etc., cuya solucin requiere de un clculo matemtico relativamente complejo; aqu nicamente estudiaremos los procedimientos de desestacionalizacin ms sencillos: el mtodo de porcentaje promedio y el mtodo del porcentaje promedio mvil. Asimismo, cabe sealar que, con carcter previo a la desestacionalizacin, a menudo hay que realizar una serie de ajustes en la serie temporal para tener en cuenta hechos o eventos que pueden afectar al ciclo estacional que tratamos de analizar. Estos eventos que suelen ser festividades, interrupciones del trabajo debido a huelgas, paros, regulaciones de empleo, etc., no siempre son eliminados por los promedios dentro del mes o trimestre en que se producen, de ah que sea necesario corregir previamente los datos iniciales. Una forma de compensar estas variaciones es multiplicar la serie de datos orignales por la siguiente razn:
Nmero de das efectivos de un mes en un promedio de aos ( en un calendario laboral) Nmero de das efectivos del mes dado

en la que la definicin de los das efectivos depender de la serie cronolgica que nos interesa y de los motivos por los que realizamos el ajuste. Finalmente, para saber si una serie temporal presenta variaciones estacionales de relevancia, se suele hacer un anlisis de la varianza del componente estacional-irregular de la serie, utilizando como factor de variacin la referencia temporal de la serie (semanal, mensual, trimestral, etc.). Dicho anlisis proporciona como estadstico la F de Snedecor, cuyo valor comparado con el que figura en las tablas del Anexo, nos permite determinar si tiene significacin el factor temporal para explicar la varianza de la serie; de admitirse dicha posibilidad, quedara demostrado que los movimientos estacionales de la serie son lo suficientemente determinantes como para proceder a su desestacionalizacin posterior.

Ejemplo 4.5

Veamos a continuacin un ejemplo: vamos a realizar un test de presencia de estacionalidad a la serie mensual de ventas de gasolina en Castilla y Len durante el perodo 1985-1994.
VENTAS DE GASOLINA EN CASTILLA Y LEN Aos Meses 1985 1986 1987 1988 1989 1 26000 29100 28400 31000 35689 2 24800 24200 27600 32400 32566 3 29400 34900 33700 38700 45225 4 35400 33400 40600 39700 35800 5 31900 35200 34300 36500 44900 6 31000 34700 39100 39900 42808 7 56500 47300 50100 49700 54817 8 74400 56900 60700 66100 67900 9 35700 40200 40800 45300 46800 10 34400 36700 38700 40200 40485 11 28900 30300 33600 36100 36760 12 32900 38300 39100 41100 44059 TOTAL 441300 441200 466700 496700 527809

1990 37229 35146 40100 46117 42894 42972 54729 67200 46200 43940 39572 40346 536445

1991 32745 28720 42681 44134 43489 42395 57811 70278 50466 46597 40813 48174 548302

1992 37621 37208 43175 49106 46905 47682 62712 77667 53616 49400 43204 51229 599525

1993 35299 39508 45681 55183 46689 50162 66180 75607 53087 49777 44232 52444 613849

1994 40157 39203 51174 48357 47538 52353 58967 74335 52880 49722 42519 53165 610370

Tabla 4.5. Ventas de Gasolina en Castilla y Len

Para ello, obtenemos la componente estacional-irregular de la serie como diferencia entre la serie original y una tendencia que calculamos mediante una media mvil centrada de 12 trminos.
VENTAS DE GASOLINA EN CASTILLA Y LEN. COMPONENTE ESTACIONAL-IRREGULAR Aos Meses 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1 0 -7992 -9617 -9067 -7695 -7370 -11358 -10774 -15852 -10918 2 0 -11433 -10733 -8117 -10968 -9395 -15639 -11802 -11472 -11766 3 0 -1108 -4683 -2192 1566 -4391 -2034 -6098 -5255 223 4 0 -2800 2050 -1317 -7883 1338 -802 -401 4216 -2590 5 0 -1117 -4525 -4725 1163 -2119 -1551 -2800 -4364 -3266 6 -5775 -2067 208 -1492 -1176 -1732 -3297 -2279 -992 1489 7 19467 10592 10992 7918 10705 10399 11713 12945 14621 0 8 37417 19908 21192 24304 23573 23405 23472 27708 24074 0 9 -1742 3308 875 2960 2900 2190 3619 3449 1096 0 10 -2875 -792 -1150 -1815 -4275 96 -665 -1274 -1645 0 11 -8650 -7117 -6433 -6615 -7833 -4322 -6733 -7451 -7261 0 12 -4958 517 -1000 -1857 -548 -3500 188 366 768 0

Tabla 4.6. Ventas de Gasolina en Castilla y Len. Componente Estacional-Irregular

Para realizar un test de presencia de estacionalidad utilizamos la tcnica de Anlisis de Varianza de un factor, utilizando como factor la agrupacin por meses de los datos de ventas de gasolina. El anlisis de varianza ofrece en este caso los siguientes resultados:
Anlisis de la varianza de la serie de ventas de gasolina en CYL Origen de las Suma de Grados de Promedio de variaciones cuadrados libertad cuadrados F Entre grupos Dentro de los grupos Total 7788660568 367867165 8156527733 11 84 95 Valor crtico para F 1.90453875

Probabilidad

708060052 161.680764 1.2494E-51 4379371.01

Como se puede apreciar, el valor de la F es lo suficientemente grande para admitir la hiptesis H 0 de que el factor temporal mensual explica una parte de la varianza que tiene toda la serie. Como vemos en dicha salida tambin aparece el valor crtico de la F por debajo del cual rechazamos la hiptesis H0 .
Mtodo del porcentaje promedio

El mtodo del porcentaje promedio es un procedimiento rpido y simple para elaborar un ndice estacional. El primer paso consiste en expresar la informacin de cada mes (o trimestre) como un promedio para el ao; en un segundo paso se obtienen porcentajes de los promedios anuales; y, finalmente, en un tercer paso, dichos porcentajes se promedian en cada mes, obtenindose como resultado el ndice estacional.

Ejemplo 4.6.

Para ilustrar el mtodo del porcentaje promedio utilizamos el anterior ejemplo de las ventas mensuales de gasolina en Castilla y Len para el perodo 1985-1994. En primer lugar obtenemos el promedio mensual de las ventas anuales:

Meses 1 2 3 4 5 6 7 8 9 10 11 12 TOTAL MEDIA

Aos 1985 26000 24800 29400 35400 31900 31000 56500 74400 35700 34400 28900 32900 441300 36775

1986 29100 24200 34900 33400 35200 34700 47300 56900 40200 36700 30300 38300 441200 36767

1987 28400 27600 33700 40600 34300 39100 50100 60700 40800 38700 33600 39100 466700 38892

1988 31000 32400 38700 39700 36500 39900 49700 66100 45300 40200 36100 41100 496700 41392

1989 35689 32566 45225 35800 44900 42808 54817 67900 46800 40485 36760 44059 527809 43984

1990 37229 35146 40100 46117 42894 42972 54729 67200 46200 43940 39572 40346 536445 44704

1991 32745 28720 42681 44134 43489 42395 57811 70278 50466 46597 40813 48174 548302 45692

1992 37621 37208 43175 49106 46905 47682 62712 77667 53616 49400 43204 51229 599525 49960

1993 35299 39508 45681 55183 46689 50162 66180 75607 53087 49777 44232 52444 613849 51154

1994 40157 39203 51174 48357 47538 52353 58967 74335 52880 49722 42519 53165 610370 50864

Tabla 4.7.

Despus calculamos en cada ao el porcentaje del promedio, que es la relacin que se da entre las ventas de cada mes y su promedio anual.

Meses 1 2 3 4 5 6 7 8 9 10 11 12

Aos 1985 70.70% 67.44% 79.95% 96.26% 86.74% 84.30% 153.64% 202.31% 97.08% 93.54% 78.59% 89.46%

1986 79.15% 65.82% 94.92% 90.84% 95.74% 94.38% 128.65% 154.76% 109.34% 99.82% 82.41% 104.17%

1987 73.02% 70.97% 86.65% 104.39% 88.19% 100.54% 128.82% 156.07% 104.91% 99.51% 86.39% 100.54%

1988 74.89% 78.28% 93.50% 95.91% 88.18% 96.40% 120.07% 159.69% 109.44% 97.12% 87.22% 99.30%

1989 81.14% 74.04% 102.82% 81.39% 102.08% 97.33% 124.63% 154.37% 106.40% 92.04% 83.58% 100.17%

1990 83.28% 78.62% 89.70% 103.16% 95.95% 96.13% 122.43% 150.32% 103.35% 98.29% 88.52% 90.25%

1991 71.66% 62.86% 93.41% 96.59% 95.18% 92.78% 126.52% 153.81% 110.45% 101.98% 89.32% 105.43%

1992 75.30% 74.47% 86.42% 98.29% 93.88% 95.44% 125.52% 155.46% 107.32% 98.88% 86.48% 102.54%

1993 69.01% 77.23% 89.30% 107.88% 91.27% 98.06% 129.37% 147.80% 103.78% 97.31% 86.47% 102.52%

1994 78.95% 77.07% 100.61% 95.07% 93.46% 102.93% 115.93% 146.14% 103.96% 97.75% 83.59% 104.52%

Tabla 4.8.

El ndice estacional sera el promedio para cada mes de los diez datos anuales:
Aos ndice Meses 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 estacional 1 2 3 4 5 6 7 8 9 10 11 12 71% 67% 80% 96% 87% 84% 154% 202% 97% 94% 79% 89% 79% 66% 95% 91% 96% 94% 129% 155% 109% 100% 82% 104% 73% 71% 87% 104% 88% 101% 129% 156% 105% 100% 86% 101% 75% 78% 93% 96% 88% 96% 120% 160% 109% 97% 87% 99% 81% 74% 103% 81% 102% 97% 125% 154% 106% 92% 84% 100% 83% 79% 90% 103% 96% 96% 122% 150% 103% 98% 89% 90% 72% 63% 93% 97% 95% 93% 127% 154% 110% 102% 89% 105% 75% 74% 86% 98% 94% 95% 126% 155% 107% 99% 86% 103% 69% 77% 89% 108% 91% 98% 129% 148% 104% 97% 86% 103% 79% 77% 101% 95% 93% 103% 116% 146% 104% 98% 84% 105% 76% 73% 92% 97% 93% 96% 128% 158% 106% 98% 85% 100% 1200%

Tabla 4.9.

El ndice nos seala que en el perodo estudiado las ventas de enero han estado un 75.71% por debajo de las ventas mensuales promedio de cada ao, y que en el mes de agosto el nivel de ventas fue un 158.07% superior al nivel de venta mensuales promedio anual. Dado que el valor medio mensual del ndice ha de ser igual a 100, la suma de los 12 datos de que consta el ndice mensual debe ser igual a 1200. Para obtener una serie de las ventas ajustadas estacionalmente, esto es, descontando el efecto que provoca el ciclo estacional, se dividira las ventas de cada mes por el correspondiente ndice estacional y se multiplicara por 100:
Aos 1985 34341 34122 32051 36503 34276 32350 44293 47066 33806 35237 33898 32936

Meses 1 2 3 4 5 6 7 8 9 10 11 12

1986 38436 33297 38047 34440 37822 36211 37081 35996 38067 37593 35540 38342

1987 37511 37975 36739 41865 36854 40803 39276 38400 38636 39642 39411 39143

1988 40945 44579 42190 40937 39218 41637 38963 41816 42897 41178 42343 41145

1989 47139 44807 49303 36915 48244 44672 42974 42954 44317 41470 43117 44107

1990 49173 48357 43716 47554 46089 44843 42905 42512 43749 45009 46415 40390

1991 43250 39516 46530 45509 46728 44241 45321 44459 47789 47731 47871 48227

1992 49690 51194 47069 50636 50398 49758 49163 49133 50772 50602 50675 51285

1993 46624 54359 49801 56902 50166 52346 51882 47830 50271 50988 51881 52502

1994 53040 53939 55789 49863 51078 54633 46227 47025 50075 50932 49872 53223

Tabla 4.10.

Mtodo del porcentaje del promedio mvil

El mtodo del porcentaje del promedio mvil es uno de los mtodos ms usados para la medicin de la variacin estacional. Su clculo es tambin bastante sencillo: en primer lugar se

obtiene un promedio mvil de 12 meses de la serie de datos originales (o de 4 trimestres si se utilizan los datos trimestrales) tal que:

MM ( L) t +0.5 =

t +i ( L / 2 ) +1

Y
L

L/2

, t=

L L L , + 1,..., N 2 2 2

Luego se recurre a un promedio mvil de 2 meses para centrar convenientemente el promedio anterior, al que se le denomina promedio mvil centrado de doce meses; es decir:
MM ( L x 2) t = MM ( L) t 0.5 + MM ( L) t +0.5 L L L , t = + 1, + 2,..., N 2 2 2 2

Finalmente se obtiene el ndice dividiendo los datos originales por el promedio mvil centrado, MM(L x 2)t:
EI t = Yt MM ( L x 2) t

es decir, una estimacin conjunta del componente estacional y del componente irregular. A los valores obtenidos mediante la expresin anterior se los denomina ndices brutos de variacin estacional. Si disponemos de informacin para K aos completos, el nmero total de observaciones es N y la longitud del perodo estacional es L, se verificar que KL = N. Bajo estos supuestos, para cada estacin se dispone de K1 ndices brutos de variacin estacional, ya que se pierden L/2 datos al principio y L/2 datos al final, es decir, se pierde un dato en cada estacin.

Para cada estacin se puede calcular una media de todos los ndices brutos disponibles. As, para la estacin h, la media se obtendr sumando todos los ndices brutos de variacin estacional correspondientes a esa estacin y dividiendo por K1, que es el nmero de datos disponibles en cada caso; es decir:
* Eh =

EI

K 1

, h = 1,2,..., L

Al haber realizado un promedio de K1 datos, el componente irregular queda eliminado si K es suficientemente grande. En todo caso, al promediar siempre se atenuar el efecto del componente irregular. Por ello, el resultado obtenido es un ndice de variacin estacional en el que se supone que el componente irregular ha desaparecido completamente. Sin embargo, estos ndices no van a ser los definitivos, ya que se trata de ndices no normalizados. Si existe estacionalidad, sta no debe afectar al nivel de la serie, por lo que es razonable exigir a los coeficientes de estacionalidad el requisito de que su media sea 1, , alternativamente, que su suma sea L. Cuando los ndices de estacionalidad cumplen este requisito se dice que estn normalizados. Los ndices de variacin estacional normalizados se pueden calcular fcilmente aplicando una proporcin. As, si utilizamos el smbolo E h para designar el ndice de variacin estacional de la estacin h, su expresin vendr dada por

* Eh = Eh

E
h =1

* h

Finalmente, la serie desestacionalizada se obtendr dividiendo cada valor de la serie original por el ndice de variacin estacional correspondiente. As, en el caso de que el perodo t pertenezca a la estacin h, entonces el valor de la serie desestacionalizada, al que designaremos por Dt, vendr dado por:
Dt = Yt E

Ejemplo 4.7.

Veamos a continuacin un ejemplo, utilizando de nuevo la serie de ventas de gasolina de Castilla y Len para obtener dicho ndice estacional.
Aos 1985 Meses 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 Ventas 26000 24800 29400 35400 31900 31000 56500 74400 35700 34400 28900 32900 29100 24200 34900 33400 35200 Media mvil 12 meses

1986

36775 37033 36983 37442 37275 37550 37858 37092 35633 36008 36200 36317

Tabla 4.10.

El primer promedio mvil se centra en el 6 mes (Junio), lo que implica dejar sin valores seis meses al final de la serie. El segundo promedio, que es una media mvil de dos meses, se realiza para centrar convenientemente el promedio mvil anterior, el primer valor que aparece es el valor promedio de 36775 y 37033, y se centra en el 7 mes (Julio), quedando as ambos extremos de la serie resultante con seis meses de ausencia de datos:
Aos 1985 Meses 1 2 Ventas 26000 24800 Media mvil 12 meses Promedio mvil centrado

1986

3 4 5 6 7 8 9 10 11 12 1 2 3 4 5

29400 35400 31900 31000 56500 74400 35700 34400 28900 32900 29100 24200 34900 33400 35200

36775 37033 36983 37442 37275 37550 37858 37092 35633 36008 36200 36317

36904 37008 37213 37358 37413 37704 37475 36363 35821 36104 36258

Tabla 4.11. Finalmente se calcula el ndice dividiendo los datos originales por el promedio mvil centrado y multiplicando por cien:
Aos Meses Ventas Media mvil 12 meses Promedio ndice mvil centrado estacional

1985

1986

1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5

26000 24800 29400 35400 31900 31000 56500 74400 35700 34400 28900 32900 29100 24200 34900 33400 35200

36775 37033 36983 37442 37275 37550 37858 37092 35633 36008 36200 36317

36904 37008 37213 37358 37413 37704 37475 36363 35821 36104 36258

153.10% 201.04% 95.94% 92.08% 77.25% 87.26% 77.65% 66.55% 97.43% 92.51% 97.08%

Tabla 4.12

La serie desestacionalizada de las ventas de gasolina en Castilla y Len sera el promedio mvil centrado de 12 meses:

Desestacionalizacin de las ventas de gasolina por media mvil de 12 meses.


80000 70000 60000 50000 40000 30000 20000 10000 0 86 Ene. 90 Ene. Jun. Sep. Ago. Jun. Sep. May. Nov. Nov. Ago. Feb. May Feb. Abr. Mar. Abr. Mar. Jul. Dic. Jul. Oct. Dic. Oct. Ventas Media movil 12 meses

Grfico 4.5.

Prediccin con estacionalidad estable

Los coeficientes de estacionalidad calculados en el epgrafe anterior pueden ser utilizados para realizar predicciones de la variable. Para ello, vamos a considerar el supuesto de que disponemos de una muestra de tamao T y deseamos realizar predicciones para los L perodos siguientes (por ejemplo, si los datos son trimestrales y la muestra comprende aos completos, se tratara de predecir los valores que toma la variable en los trimestres del primer ao postmuestral). Bajo el supuesto de estacionalidad estable, el predictor vendr dado por la siguiente expresin:
Yt +h / T = TT +h E h , h = 1, 2, , L donde TT +h es la prediccin obtenida de la tendencia mediante el ajuste de una funcin a los datos desestacionalizados.

Desestacionalizacin con Estacionalidad Cambiante Hasta ahora hemos considerado el supuesto de que los coeficientes de estacionalidad eran estables, es decir, que se repetan ao tras ao. Sin embargo, en muchas ocasiones este supuesto no es realista, pudiendo ocurrir que estos coeficientes estn afectados por una tendencia.

Bajo el supuesto de estacionalidad cambiante, las fases para la aplicacin del mtodo de la razn a la media mvil son las siguientes: 1. 2. 3. 4. Obtencin de unas medias mviles de orden estacional. Obtencin de unas medias mviles centradas. Obtencin de los ndices brutos de variacin estacional. Obtencin de los ndices de variacin estacional sin normalizar.

Las tres primeras fases son las mismas que se aplicaban bajo el supuesto de estacionalidad estable. Una vez obtenidos los ndices brutos de variacin estacional, se debe proceder a la representacin de este indicador para cada estacin por separado. A la vista de esta representacin se tomar la decisin de cul es la funcin matemtica adecuada para representar la tendencia de la estacionalidad. Recurdese que los ndices brutos de variacin estacional son una estimacin conjunta del componente estacional y del componente irregular. Por ello, al realizar el ajuste de modelos que recojan la tendencia de la estacionalidad, lo que estamos haciendo en realidad es separar estos dos componentes. As, adoptando el supuesto de que estn integrados de forma aditiva, se tendr la siguiente descomposicin:
EI t = E t* + I t , h = 1, 2, , L

donde Et* son los valores estimados al ajustar una funcin del tiempo en la que la variable dependiente es EI. En la mayor parte de las ocasiones es adecuado el ajuste de una recta para tal finalidad. Si ste es el caso resulta:
E t* = a h 0 + a h1r , h = 1, 2, , L

donde r es el ao en que se encuentra el perodo t. Teniendo en cuenta que al calcular los ndices brutos de variacin estacional se pierden L/2 datos al principio y L/2 al final y suponiendo que se dispone de informacin sobre K aos completos, entonces r variar, segn los casos, entre 2 y K o entre 1 y K1. Despus de realizado el ajuste se proceder a la prediccin de los coeficientes de estacionalidad de cada uno de los aos que integran la muestra. De esta forma se obtienen unos ndices de variacin estacional sin normalizar, aunque distintos para cada ao. Seguidamente, la obtencin de los ndices de variacin estacional normalizados se realizar haciendo una ligera modificacin en la frmula ya estudiada. Concretamente, la frmula a aplicar ser la siguiente:
E t = E t*

E
m

* m

, m = 1, 2, , r

Como puede verse en la frmula anterior, la normalizacin se realiza ao a ao. Por ello, el factor de normalizacin es igual a L dividido por la suma de los ndices de variacin estacional correspondientes al mismo ao (r) en que se encuentra el perodo t.

Finalmente, la serie desestacionalizada, al igual que antes, se obtiene dividiendo la serie original por el ndice de variacin estacional correspondiente, es decir,
Dt = Yt E

Obsrvese que, bajo el supuesto de estacionalidad cambiante, a cada dato de la variable le corresponde un ndice de variacin estacional distinto, a diferencia de lo que ocurra bajo el supuesto de estacionalidad constante, donde el ndice de variacin estacional permaneca fijo dentro de cada estacin.

Desestacionalizacin y Prediccin con Estacionalidad Cambiante

Bajo el supuesto de estacionalidad cambiante, el predictor vendr dado por la siguiente expresin:
Yt + h / T = TT + h E h , h = 1, 2, , L donde TT +h es la prediccin obtenida de la tendencia mediante el ajuste de una funcin a los datos desestacionalizados y E es la prediccin de la estacionalidad para el perodo T+h, obtenida a partir de un ajuste y su posterior normalizacin.

5. Utilidades estadsticas de la hoja de clculo EXCEL.

5.1. La macro herramientas para anlisis para el tratamiento estadstico


Los principales desarrollos estadsticos que contiene la hoja de clculo de Excel 5.0 se encuentra en el mdulo de Herramientas para anlisis. Las posibilidades de este mdulo son muy amplias. Se accede a ste desde el men Herramientas, apartado Anlisis de datos. En caso de no encontrar esta opcin activada en nuestro ordenador entonces tendremos que cargar la macro Herramientas para anlisis desde el apartado Complementos, tal como se muestra en la figura siguiente.

Una vez cargada la macro las posibilidades de efectuar anlisis y operaciones estadsticas son numerosas. Muchas de estas posibilidades que se irn desarrollando a lo largo del curso.

A continuacin ofrecemos una breve descripcin de los componentes de la macro Anlisis de Datos, esta es la que aparece en la opcin ayuda que incorpora la hoja de clculo EXCEL:
a) Anlisis de varianza de un factor

Realiza un anlisis simple de varianza para comprobar la hiptesis segn la cual dos o ms muestras son iguales (extradas de poblaciones con la misma media). Esta tcnica profundiza en las pruebas para dos medias, por ejemplo, la prueba t.
b)Anlisis de varianza de dos factores con varias muestras de grupo

Realiza una extensin del anlisis de varianza de un factor con ms de una muestra por cada grupo de datos.

c) Anlisis de varianza de dos factores con una sola muestra por grupo

Realiza un anlisis de dos factores con una sola muestra por grupo que comprueba la hiptesis segn la cual las medias de dos o ms muestras son iguales (extradas de poblaciones con la misma media). Esta tcnica profundiza en las pruebas para dos medidas como, por ejemplo, la prueba t.
d) Coeficiente de correlacin

Mide la relacin entre dos conjuntos de datos que han sido calculados en escala para ser independientes de la unidad de medida. El clculo de la correlacin de poblacin devuelve la covarianza de dos conjuntos de datos dividida por el producto de sus desviaciones estndar. Podr utilizar la herramienta Coeficiente de correlacin para determinar si dos conjuntos de datos varan conjuntamente, es decir, si los valores altos de un conjunto estn asociados con los valores altos del otro (correlacin positiva), si los valores bajos de un conjunto estn asociados con los valores bajos del otro (correlacin negativa) o si los valores de ambos conjuntos no estn relacionados (correlacin tiende a cero).
Covarianza

Devuelve el promedio del producto de desviaciones de puntos de datos partiendo de las medias respectivas. La covarianza es una medida de la relacin entre dos rangos de datos. Podr utilizar la herramienta Covarianza para determinar si dos rangos de datos varan conjuntamente, es decir, si los valores altos de un conjunto estn asociados con los valores altos del otro (correlacin positiva), si los valores bajos de un conjunto estn asociados con los valores bajos del otro (correlacin negativa) o si los valores de ambos conjuntos no estn relacionados (correlacin tiende a cero).
Estadstica descriptiva

Genera un informe de estadsticas de una sola variable para datos del rango de entrada, y proporciona informacin acerca de la tendencia central y dispersin de los datos.
Suavizacin exponencial

Predice un valor basndose en el pronstico correspondiente al perodo anterior, ajustado al error de dicho pronstico. Utiliza la constante de suavizacin a, cuya magnitud determina la exactitud con la que los pronsticos responden a errores del pronstico anterior.
Prueba F para varianzas de dos muestras

Realiza una prueba F de dos muestras para comparar las varianzas de dos poblaciones. Por ejemplo, puede utilizar una prueba F para determinar si los tiempos de una carrera de atletismo difieren en la varianza de las muestras de dos corredores.
Anlisis de Fourier

Resuelve problemas de sistemas de lneas y analiza datos peridicos, transformndolos mediante el mtodo Fast Fourier Transform (FFT). Esta herramienta tambin realiza transformaciones inversas, en las que el inverso de los datos transformados devuelve los datos originales.

Histograma

Calcula las frecuencias individuales y acumulativas de rangos de celdas de datos y de clases de datos. Genera datos acerca del nmero de apariciones de un valor en un conjunto de datos. Por ejemplo, en una clase con 20 alumnos se desea obtener la distribucin de calificaciones mediante una categora de puntuacin por letras. Una tabla de histograma presentar los lmites de las calificaciones por letras as como el nmero de calificaciones que hay entre el lmite ms bajo y el actual. La calificacin ms frecuente es la moda de los datos. . Media mvil Proyecta valores en el perodo pronosticado, basndose en el valor promedio de la variable calculada durante un nmero especfico de perodos anteriores. Una media mvil proporciona informacin de tendencias que quedara enmascarada por una simple media de todos los datos histricos. Utilice esta herramienta para pronosticar ventas, inventarios u otras tendencias.
Generacin de nmeros aleatorios

Llena un rango con nmeros aleatorios independientes extrados de uno de varias distribuciones. Podr utilizar esta herramienta para caracterizar a los sujetos de una poblacin con una distribucin de probabilidades. Por ejemplo, puede utilizar una distribucin normal para caracterizar la poblacin de estatura de las personas, o utilizar una distribucin de Bernoulli con dos resultados posibles para caracterizar la poblacin de resultados cuando se lanza una moneda al aire.
Jerarqua y percentil

Crea una tabla que contiene los rangos ordinales y porcentuales de cada valor de un conjunto de datos. Podr utilizar este procedimiento para analizar la importancia relativa de los valores en un conjunto de datos.
Regresin

Realiza un anlisis de regresin lineal utilizando el mtodo de mnimos cuadrados para ajustar una lnea a un conjunto de observaciones. Podr utilizar esta herramienta para analizar la forma en que una sola variable dependiente se ve afectada por los valores de una o ms variables independientes, por ejemplo, varios factores inciden en el rendimiento de un atleta, entre ellos la edad, la altura y el peso. Basndose en un conjunto de datos acerca del rendimiento, la regresin determina la parte de cada uno de los factores en las medidas de rendimiento. Los resultados de la regresin podrn utilizarse entonces para predecir el rendimiento de un atleta nuevo no sometido a prueba.
Muestra

Crea una muestra de la poblacin tomando los datos del rango de entrada como poblacin. Es posible utilizar una muestra en lugar de toda la poblacin cuando sta sea

demasiado grande para procesarla o para presentarla grficamente. Adems, si cree que los datos de entrada son peridicos, puede crear una muestra que contenga slo los valores de una parte determinada de un ciclo. Por ejemplo, si el rango de entrada contiene cifras de ventas trimestrales, la muestra realizada con una tasa peridica de 4 permitir colocar los valores del mismo trimestre en la tabla de resultados.
Prueba t para medias de dos muestras emparejadas

Realiza una prueba t de Student en dos muestras emparejadas para determinar si las medias de una muestra son distintas. En este tipo de prueba no se supone que las varianzas de ambas poblaciones sean iguales. Puede utilizar la prueba emparejada cuando exista un par de observaciones de las muestras, por ejemplo, cuando un grupo de muestra se somete dos veces a prueba, antes y despus de un experimento.
Prueba t para dos muestras suponiendo varianzas iguales

Realiza una prueba t de Student en dos muestras. En este tipo de prueba se supone que las varianzas de ambos rangos son iguales, y se conoce con el nombre de prueba t homoscedstica. Se emplea para determinar si las medias de dos muestras son iguales.
Prueba t para dos muestras suponiendo varianzas desiguales

Realiza una prueba t de Student en dos muestras. En este tipo de prueba se supone que las varianzas de ambos rangos son desiguales, y se conoce con el nombre de prueba t heteroscedstica. Utilcela para determinar si las medias de dos muestras son iguales y a partir de qu momento se diferencian los grupos sometidos a estudio. Utilice una prueba emparejada cuando exista un grupo antes del tratamiento y despus de l.
Prueba z para medias de dos muestras

Realiza una prueba z en las medias de dos muestras con varianzas conocidas. Esta herramienta se emplea para comprobar las hiptesis acerca de la diferencia existente entre las medias de dos poblaciones, por ejemplo, puede utilizarla para estudiar las diferencias en el rendimiento de dos modelos de vehculos.

5.2. Estimacin de un Modelo de Regresin Lineal con Excel


A continuacin, vamos a estimar los parmetros de un determinado modelo por Mnimos Cuadrados Ordinarios utilizando Microsoft Excel, programa que simplifica notablemente los clculos a realizar cuando disponemos de muchas observaciones y/o variables exgenas. Supongamos que la cantidad demandada de manzanas viene determinada en funcin de su precio, y queremos cuantificar dicha relacin. Partimos de la siguiente tabla de datos: Cantidad (Kg.) Precio (u.m. / Kg.) 2.456 2.325 82 92

2.250 2.200 2.100 2.082 2.045 2.024

94 99 106 108 112 115

Si realizamos un diagrama de dispersin mediante la opcin Grfico dentro del men Insertar de Excel obtendremos un grfico como el 8.4.2. en el que puede comprobarse la relacin que aparentemente existe entre cantidades demandadas de manzanas y su precio.
Curva de Demanda
130 125 120 115 110 105 100 95 90 85 80 2.000 2.100 2.200 2.300 2.400 2.500

Grfico 10.1. Relacin entre la demanda de manzanas y su precio

Pasamos a continuacin a estimar la recta de regresin por Mnimos Cuadrados Ordinarios. Para ello, el alumno debe verificar que tiene instalada la opcin Herramientas para el Anlisis dentro la opcin Complementos del men Herramientas, tal y como puede observarse en la siguiente figura:

En caso de no tener dicha opcin instalada en nuestro ordenador, deberemos marcar las casillas que se ven en la figura, insertando seguidamente el CD-Rom de Microsoft Office para proceder a su instalacin. Una vez instaladas estas opciones, dispondremos de una nueva opcin en el men Herramientas llamada Anlisis de Datos. Si pinchamos en ella, nos aparecer una ventana similar a la siguiente, en la que seleccionaremos la opcin Regresin:

Al seleccionar dicha opcin nos aparecer un cuadro de dilogo como el siguiente:

En este cuadro de dilogo podemos seleccionar el rango de nuestra hoja de clculo que contiene los datos referidos a la variable endgena (Rango Y de entrada) y a las variables exgenas (Rango X). Asimismo, se incluyen otras opciones sumamente tiles tales como eliminar el trmino independiente del modelo (Constante igual a cero), determinar el nivel de confianza al cual se realizarn los tests de significacin de los parmetros, la posibilidad de obtener una tabla con los trminos de error del modelo (Residuos) y su grfico (Grafico de Residuales), etc. Una vez introducidos los rangos de las variables y seleccionado las opciones que deseemos (no debemos olvidar indicar en qu Hoja, Rango o Libro deseamos que nos aparezcan los resultados), pulsamos en Aceptar y nos aparecer una ventana similar a sta:

La estimacin de los parmetros del modelo aparecen en la columna Coeficientes, junto con su Desviacin Tpica o Error Tpico y el estadstico t de significatividad individual (obsrvese que al trmino independiente del modelo, Excel lo denomina Intercepcin). A la vista de los resultados, el modelo estimado tiene la siguiente forma:
Cantidad = 3534.27 13.36 Precio (48.1) (-18.46)

donde entre parntesis se muestra el estadstico t experimental asociado a cada parmetro, siendo ambas claramente superiores a 2.365 (valor en tablas de una t de Student con n k = 7 grados de libertad al 95% de confianza. Para el anlisis de la bondad de ajuste del modelo, Excel ofrece los siguientes resultados: a) Por un lado, si marcamos la casilla Curva de Regresin Ajustada obtenemos un grfico con los valores originales y estimados de la variable endgena, lo que nos permitir realizar un primer acercamiento visual al grado de ajuste de la recta (vase grafico 8.4.3.)

Precio Curva de regresin ajustada


2.500 2.400 Cantidad 2.300 2.200 2.100 2.000 1.900 80 85 90 95 100 Precio 105 110 115 120 Cantidad Pronstico Cantidad

Grfico 5.1. Recta de regresin entre la demanda de manzanas y su precio

b) Por otro lado, Excel muestra en la parte superior de los resultados el valor del coeficiente de determinacin que, en nuestro caso, es del 98%, lo que nos indica un grado de ajuste muy bueno. Para evaluar la significatividad estadstica de los parmetros estimados, adems de los estadsticos t asociados a cada parmetro estimado y los respectivos intervalos de confianza para cada uno de ellos, Excel nos muestra tambin el estadstico F que aparece en la tabla Anlisis de Varianza, mediante el que se realiza un contraste de significacin global de los parmetros estimados. En los resultados obtenidos, el estadstico F tomo un valor 340.8 asociado a un pvalue de 0.0000016, valor que es claramente inferior a 0.05, por lo que se rechaza la hiptesis nula, lo que nos permite afirmar que todos los parmetros del modelo son globalmente significativos, es decir, todos son significativamente distintos de cero. En este punto, cabe sealar que si estimamos un modelo con varias variables exgenas y nos encontramos con que alguno de los parmetros del modelo es estadsticamente igual a cero, deberamos eliminar

dicha variable del modelo al no haberse encontrado una relacin de causalidad con la variable endgena.

Respecto al anlisis de los errores o residuos del modelo, Excel ofrece el Cuadro de Valores Ajustados (Pronstico Cantidad), los Residuos del modelo y los Residuos Estndares (es decir, tipificados). Segn la teora que hemos estudiado hasta ahora, los residuos estndares deben seguir una distribucin Normal de media 0 y desviacin estndar 1; por tanto, aquellos residuos cuyo valor absoluto supere 1.96 se correspondern con valores atpicos, tambin denominados outliers en la literatura estadstica. En nuestro ejemplo, afortunadamente, no se observa ningn outlier como puede apreciarse en la siguiente tabla de Anlisis de Residuos:
Anlisis de los residuos Observacin 1 2 3 4 5 6 7 8 Pronstico Cantidad 2439,03 2305,46 2278,75 2211,96 2118,47 2091,75 2038,33 1998,26 Residuos 16,97 19,54 -28,75 -11,96 -18,47 -9,75 6,67 25,74 Residuos estndares 0,79 0,91 -1,33 -0,56 -0,86 -0,45 0,31 1,20

El grfico de los residuos tambin constituye una herramienta de anlisis importante, ya que nos permite evaluar la aleatoriedad de los mismos. En nuestro ejemplo, se observa una ligera falta de aleatoriedad, derivada de que los cuatro ltimos residuos presentan una marcada racha creciente.
Precio Grfico de los residuales
40 30 20 Residuos 10 0 -10 -20 -30 -40 80 85 90 95 100 Precio 105 110 115 120

Grfico 5.2. Grfico de residuos del modelo de demanda de manzanas frente al precio