Documentos de Académico
Documentos de Profesional
Documentos de Cultura
CAPÍTULO 3
TENDENCIAS
En una serie de tiempo general, la función media es una función de tiempo totalmente arbitraria. En
una serie temporal estacionaria, la función media debe ser constante en el tiempo. Con frecuencia
necesitamos tomar el término medio y considerar funciones medias que son funciones de tiempo
relativamente simples (pero no constantes). Estas tendencias se consideran en este capítulo.
Las "tendencias" pueden ser bastante esquivas. La misma serie de tiempo puede ser vista de manera
muy diferente por diferentes analistas. Se podría considerar que la caminata aleatoria simulada que se
muestra en la Figura 2.1 muestra una tendencia ascendente general. Sin embargo, sabemos que el
proceso de paseo aleatorio tiene media cero para todo el tiempo. La tendencia percibida es solo un
artefacto de la fuerte correlación positiva entre los valores de la serie en puntos de tiempo cercanos y
la variación creciente en el proceso a medida que pasa el tiempo. Una segunda y tercera simulación
de exactamente el mismo proceso bien podrían mostrar "tendencias" completamente diferentes. Le
pedimos que produzca algunas simulaciones adicionales en los ejercicios. Algunos autores han descrito
tales tendencias como tendencias estocásticas (ver Box, Jenkins y Reinsel, 1994), aunque no existe
una definición generalmente aceptada de tendencia estocástica.
La serie de temperatura mensual promedio trazada en el Anexo 1.7 en la página 6 muestra una
tendencia cíclica o estacional, pero aquí la razón de la tendencia es clara: la inclinación cambiante del
hemisferio norte hacia el sol. En este caso, un modelo posible podría ser Yt = ÿt + Xt , donde ÿt es una
función determinista que es periódica con período 12; eso es ÿt , debe satisfacer
Podríamos suponer que Xt , la variación no observada alrededor de ÿt , tiene media cero para todo t ,
de modo que ÿt es la función media para la serie observada Yt . Podríamos describir este modelo con
una tendencia determinista en oposición a la tendencia estocástica considerada anteriormente. En
otras situaciones, podríamos suponer una tendencia determinista que es lineal en el tiempo (es decir,
ÿt = ÿ0 + ÿ1t) o quizás una tendencia cuadrática en el tiempo, ÿt = ÿ0 + ÿ1t + ÿ2t 2. Tenga en cuenta
que una implicación del modelo Yt = ÿt + Xt con E(Xt ) = 0 para todo t es que la tendencia determinista
ÿt se aplica para todo el tiempo. Por lo tanto, si ÿt = ÿ0 + ÿ1t, estamos asumiendo que la misma
tendencia de tiempo lineal se aplica para siempre. Por lo tanto, deberíamos tener buenas razones para
asumir tal modelo, no solo porque la serie parece algo lineal durante el período de tiempo observado.
27
Machine Translated by Google
28 Tendencias
Primero consideramos la situación simple donde se supone una función de media constante. Nuestro
El modelo se puede escribir entonces como
Yt ÿ Xt += (3.2.1)
donde E(Xt ) = 0 para todo t. Deseamos estimar ÿ con nuestra serie de tiempo observada Y1, Y2,…,
Sí. La estimación más común de ÿ es la media muestral o el promedio definido como
_1 --
norte
Y (3.2.2)
=ÿ norte
Yt
t1 =
n 1– ÿ1 k
ÿ – -----
ÿ0
----
Var Y_ ( ) = ÿ ÿ ÿ ÿk norte
norte
kn – 1 +=
(3.2.3)
n 1–
= ÿ0
12 1 --– ÿ ÿ ÿ ----k
norte
+ÿ ÿ ÿk
norte
k1 =
Observe que el primer factor, ÿ0/n, es la varianza del proceso (población) dividida por el tamaño de la
muestra, un concepto con el que estamos familiarizados en contextos de muestreo aleatorio más simples. Si
la serie {Xt } de la Ecuación (3.2.1) es solo ruido blanco, entonces ÿk = 0 para k > 0 y se reduce Var Y( )
simplemente a ÿ0/n.
En el modelo de promedio móvil (estacionario) Yt = et ÿ ½et ÿ 1, encontramos que ÿ1 = ÿ0.4
y ÿk = 0 para k > 1. En este caso, tenemos
ÿ0
---- ÿ ÿ --–1ÿ
Var Y_ ( ) 1 21 += ( ) –0.4 ÿ
norte norte
n 1–
–= ÿ0
---- 1 0.8 ÿ ÿ -----------
norte ÿÿ norte
Para valores de n que generalmente ocurren en series de tiempo (n > 50, digamos), el factor (n ÿ 1)/n
estará cerca de 1, por lo que tenemos
Machine Translated by Google
Var Y_ ( ) ÿ0.2ÿ0
----
norte
ÿ ÿ< ÿk (3.2.4)
k0 =
ÿ
ÿ0
---- ÿk
Var Y_ ( ) ÿ ÿ k –= ÿ
para grandes n (3.2.5)
norte
Como ejemplo, supongamos que ÿk = ÿ|k| para todo k, donde ÿ es un número estrictamente entre ÿ1
y +1. Sumando una serie geométrica se obtiene
ÿ0
ÿ
( 1 + ÿ) ----
----------------
Var Y_ ( ) (3.2.6)
(1–ÿ) norte
Para un proceso no estacionario (pero con una media constante), la precisión de la media muestral
como estimación de ÿ puede ser notablemente diferente. Como ejemplo útil, suponga que en la Ecuación
(3.2.1) {Xt } es un proceso de caminata aleatoria como se describe en el Capítulo 2. Entonces, directamente
de la Ecuación (2.2.8) tenemos
norte
1
Var Y_ ( ) = -----Var ÿ yo
n2 yo 1=
norte i
1
= -----Var ÿ ÿ ej
n2 yo 1= j 1=
Machine Translated by Google
30 Tendencias
1
= + +3e3
++ … nen ) n2
(----Var e1 2e2
2 norte
ÿe
------ k2
=ÿ
n2 k1 =
de modo que
= ( ) norte 1+
----------------
Var Y_ () ÿe 2( ) 2n 1+ (3.2.7)
6n
Observe que en este caso especial la varianza de nuestra estimación de la media en realidad
aumenta a medida que aumenta el tamaño de la muestra n . Claramente esto es inaceptable, y tenemos que
considerar otras técnicas de estimación para series no estacionarias.
El método estadístico clásico de análisis de regresión se puede usar fácilmente para estimar
los parámetros de los modelos de tendencia media no constante comunes. Consideraremos los más
útiles: lineales, cuadráticas, medias estacionales y tendencias de coseno.
ÿt ÿ0 ÿ1 += t (3.3.1)
, )=ÿ 2
Q (ÿ0 ÿ1 – ( ÿ1 ) [+] t
Yt ÿ0
t1 =
^ ÿ ( Yt Y
) – t t_ ( ) –
t1 =
ÿ1 = -------------------------------------------------------------
norte
2 (3.3.2)
ÿ ( t) t_
–
t1 =
^ _ ^ _
ÿ 0 –= Y ÿ 1t
_
donde =t (n + 1)/2 es el promedio de 1, 2,…, n. Estas fórmulas se pueden simplificar un poco, y se
conocen varias versiones de las fórmulas. Sin embargo, suponemos que
Machine Translated by Google
Ejemplo
Considere el proceso de caminata aleatoria que se mostró en la figura 2.1. Supongamos que
(erróneamente) tratamos esto como una tendencia de tiempo lineal y estimamos la pendiente y el intercepto por
regresión de mínimos cuadrados. Usando software estadístico obtenemos la Figura 3.1.
Figura 3.1 Estimaciones de regresión de mínimos cuadrados para la tendencia de tiempo lineal
> datos(rwalk)
> modelo1=lm(rcaminar~tiempo(rcaminar))
> resumen(modelo1)
^ ^
Así que aquí la pendiente y el intercepto estimados sonÿ =1 0.1341 y = ÿ1.008,
ÿ respectivamente 0
tivamente. La Figura 3.2 muestra la caminata aleatoria con la línea de tendencia de regresión de mínimos cuadrados
superpuesto Interpretaremos más de la salida de la regresión más adelante en la Sección 3.5 sobre
página 40 y veo que ajustar una línea a estos datos no es apropiado.
8 •
••
•
• •
6 •
•• •• • •
• ••
4 • •• •
•
• •
y ••• • •
••• •• •
2 • ••
• • •
• •
• •• • •
0 • • •
• • •
•• • ••
ÿ2 •
•
0 10 20 30 40 50 60
Tiempo
32 Tendencias
Considere ahora modelar y estimar tendencias estacionales, como para el promedio mensual
datos de temperatura en la Figura 1.7. Aquí suponemos que la serie observada se puede representar como
Yt ÿt Xt +=
donde E(Xt ) = 0 para todo t.
La suposición más general para ÿt con datos estacionales mensuales es que hay 12
constantes (parámetros), ÿ1, ÿ2,…, y ÿ12, dando la temperatura promedio esperada para
cada uno de los 12 meses. Podemos escribir
ÿ
ÿ
Como ejemplo de este modelo, considere los datos de temperatura mensual promedio que se muestran
en la Figura 1.7 en la página 6. Para ajustar dicho modelo, necesitamos configurar variables indicadoras
(a veces llamadas variables ficticias) que indican el mes al que pertenece cada uno de los datos.
pertenecen los puntos. El procedimiento para hacer esto dependerá de la estadística particular
software que utiliza. También debemos tener en cuenta que el modelo, tal como se establece, no contiene un
término de intercepción, y el software necesitará saber esto también. Alternativamente, podríamos usar
La figura 3.3 muestra los resultados de ajustar el modelo de medias estacionales a los datos de temperatura. Aquí los
se relacionan con probar las hipótesis nulas de que los ÿ son cero, no es una hipótesis interesante
en este caso.
La figura 3.4 muestra cómo cambian los resultados cuando ajustamos un modelo con una intersección
término. El software omite el coeficiente de enero en este caso. Ahora el coeficiente de febrero se interpreta
como la diferencia entre las temperaturas medias de febrero y enero, el coeficiente de marzo es la
diferencia entre las temperaturas medias de marzo y enero.
temperaturas, y así sucesivamente. Una vez más, los valores t y Pr(>|t|) (valores p) están probando
hipótesis de poco interés en este caso. Observe que el coeficiente de intersección más el
El coeficiente de febrero aquí es igual al coeficiente de febrero que se muestra en el Anexo 3.3.
34 Tendencias
dónde
2
ÿ = ÿ12 + ÿ2 , ÿ = atán( ÿ2– ÿ1 ) ÿ (3.3.6)
y por el contrario,
ÿt ÿ0= ÿ1
+ cos( ) 2ÿft ÿ2 + sen( ) 2ÿft (3.3.8)
Aquí, el término constante, ÿ0, puede considerarse significativamente como un coseno con frecuencia
cero.
En cualquier ejemplo práctico, debemos tener cuidado con la forma en que medimos el tiempo, ya que nuestra elección
de la medición del tiempo afectará los valores de las frecuencias de interés. Por ejemplo, si
tenemos datos mensuales pero usamos 1, 2, 3,... como nuestra escala de tiempo, entonces 1/12 sería la más
frecuencia interesante, con un período correspondiente de 12 meses. Sin embargo, si medimos el tiempo
seguro por año y año fraccionario, digamos 1980 para enero, 1980.08333 para febrero de
1980, y así sucesivamente, entonces una frecuencia de 1 corresponde a una periodicidad anual o de 12
meses.
La figura 3.5 es un ejemplo de cómo ajustar una curva de coseno a la frecuencia fundamental para
la serie de temperatura media mensual.
Machine Translated by Google
En esta salida, el tiempo se mide en años, con 1964 como valor inicial y una frecuencia de
1 por año. En el Anexo 3.6 se muestra un gráfico de los valores de la serie temporal junto con la
curva coseno ajustada. La tendencia se ajusta bastante bien a los datos, con la excepción de la
mayoría de los valores de enero, donde las observaciones son más bajas de lo que predeciría el
modelo.
• • • •• •• • •• •
•• •• ••
••
•
• •• •• • • •• • • • •
•
•• •• • • • •• ••
•
•• • • •
•
• • • • • • • •• •
• • • • • • •
• • • • • •
temperatura
La
• • • •
• • • •• • •
• • • •
•• •• • • •
• • • •
70
60
50
40
30
20
10 • • • • • ••
•• • • • • • • •• •
• • • • • • • ••
•• • • ••
• • • • •
• •
• •
•
1964 1966 1968 1970 1972 1974 1976
Tiempo
36 Tendencias
ing más parámetros al modelo. De hecho, se puede demostrar que cualquier tendencia periódica con
el período 12 puede expresarse exactamente por la suma de seis pares de funciones coseno-seno.
Estas ideas se discuten en detalle en el análisis de Fourier o análisis espectral. perseguimos
estas ideas más adelante en los capítulos 13 y 14.
^ 1 N 1–
---
ÿj
= ÿ norte Yj + 12i
yo 0=
^
Ya que ÿ es un promedio pero usaYsolo cada 12^observaciones, Ecuación
(3.2.3) se puedej Var ÿ
modificar fácilmente para dar . Sustituimos
j ( ) n por N (años) y ÿk por
ÿ12k para obtener
^ N 1–
= ÿ0
---- 12 1 ÿ ÿ ---–k ÿ
Var ÿj ( ) para j = 1, 2, ..., 12 (3.4.1)
norte
+ÿ ÿ ÿ12knorte
k1 =
^
Varaÿÿ0/N,
Notamos que si {Xt } es ruido blanco, entonces se reduce j ( ) como se esperaba. Fur Var
^ ÿ
Además , si varios ÿk son distintos de cero pero ÿ12k = 0, entonces todavía . En
j () ÿ0 = ÿ norte
tenemos cualquier caso, solo las autocorrelaciones estacionales, ÿ12, ÿ24, ÿ36 ,..., entran en la Ecuación
(3.4.1). Dado que N rara vez será muy grande (excepto quizás para datos trimestrales), las aproximaciones
como las que se muestran en la Ecuación (3.2.5) por lo general no serán útiles.
Pasamos ahora a las tendencias del coseno expresadas como en la Ecuación (3.3.8). Para cualquier
frecuencia de la forma f = m/ n, donde m es un^ número ^entero que satisface 1 ÿ m < n/2, se dispone de
expresiones explícitas para las estimaciones yÿ 1 ÿ 2 , las amplitudes del coseno y del seno:
^ 2 norte ^ 2 norte
-- ÿ ÿ 2ÿmt -- ÿ ÿ 2ÿmt
ÿ1 porque , ÿ2 pecado (3.4.2)
=ÿ norte ------------ ÿ ÿ Yt
norte
=ÿ norte ------------ ÿ ÿ Yt
norte
t1 = t1 =
(Estas son efectivamente las correlaciones entre la serie de tiempo {Yt } y el coseno y
ondas sinusoidales con frecuencia m/ n.)
Debido a que estas son funciones lineales de {Yt }, podemos evaluar sus varianzas usando
Ecuación (2.2.6). Encontramos
Machine Translated by Google
^ s 1– 2ÿmt
2ÿ0 4 norte
ÿ ÿ ÿporque
2ÿms ÿ
=
Var ÿ 1 ( ) -------- 1 --+
norte norte
ÿ ÿ porque
------------ ÿ ÿ
norte ------------- ÿ ÿÿs t –
norte
(3.4.3)
s 2 = t1 =
norte
sum en la Ecuación (3.4.3), en general, no se reduce más. Una expresión similar vale
^
para Var ÿ 2 ( ) si reemplazamos los cosenos por senos.
Si {Xt } es ruido blanco, obtenemos solo 2ÿ0/n. Si ÿ1 ÿ 0, ÿk = 0 para k > 1, y m/n = 1/12,
entonces la varianza se reduce a
^
2ÿ0 4ÿ1 n 1– ÿ ÿt
ÿ ÿ ÿt 1+ ÿ
=
Var ÿ 1 ( ) -------- 1 --------+
norte
coscos
----ÿ ÿ6
norte
ÿ --------------
6 ÿÿ
(3.4.4)
t1 =
Para ilustrar el efecto de los términos del coseno, hemos calculado algunos valores representativos
ue:
^
norte
Var( ) ÿ 1
25 ÿ 2ÿ0
ÿ(1 +
norte
1.71ÿ1 ) -------- ÿ ÿ
50 ÿ 2ÿ0
ÿ(1 +
1.75ÿ1 ) -------- ÿ ÿ
norte
500 ÿ 2ÿ0
ÿ()1 + -------- ÿ ÿ
1.73ÿ1
norte
ÿ 2ÿ0
ÿ ÿ 1 2ÿ1 + porque ÿ ÿÿ ÿ = ÿ 2ÿ0
ÿ(1 +
ÿ
-------- -- 6ÿ ÿÿ 1.732ÿ1 ) -------- ÿ ÿ (3.4.5)
norte ÿ ÿ ÿ norte
En algunas circunstancias, las medias estacionales y las tendencias del coseno podrían considerarse como
modelos que compiten por una tendencia cíclica. Si el modelo del coseno simple es un modelo adecuado,
¿Cuánto perdemos si usamos el modelo de medias estacionales menos parsimonioso? A
abordar este problema, primero debemos considerar cómo comparar los modelos. Los parámetros en sí mismos no son
directamente comparables, pero podemos comparar las estimaciones de los
tendencia en puntos de tiempo comparables.
Considere las dos estimaciones de la tendencia en enero; es decir, ÿ1. con estacional
significa que esta estimación es solo el promedio de enero, que tiene una varianza dada por la ecuación
(3.4.1). Con el modelo de tendencia del coseno, la estimación correspondiente es
Machine Translated by Google
38 Tendencias
^ ^ ^
= + ÿ0 ÿ ÿ 2ÿ + pecado ÿ ÿ 2ÿ
ÿ^ 1 ÿ 1
porque ÿ2
------
ÿ 12ÿ ------
ÿ 12ÿ
Para calcular la
^ varianza
^ de esta
^ estimación, necesitamos un hecho más: con este modelo, la
estima 0 , ÿ 1, y no están
ÿ 2 correlacionados.† Esto se deduce de la relación de ortogonalidad ÿ
relaciones de los cosenos y senos involucrados. Ver Bloomfield (1976) o Fuller (1996) para
más detalles. Para el modelo del coseno, entonces, tenemos
^ ^ 2 ^ 2
= +ÿ ÿ ÿ 2ÿ + Var ÿ 2 ( ) ÿ ÿ 2ÿ
Var ÿ^( ) Var
1 ÿ 0 ( ) Var 1() porque pecado (3.4.6)
------
ÿ 12ÿ ------
ÿ 12ÿ
Para nuestra primera comparación, suponga que el componente estocástico es ruido blanco. Después
la varianza de nuestra estimación en el modelo de medias estacionales es solo ÿ0/N. por el coseno
modelo, usamos la Ecuación (3.4.6), y la Ecuación (3.4.4) y su equivalente en seno, para obtener
2 2ÿ
ÿ----
ÿ0 ÿ ÿÿ ÿÿ
ÿ
Var ÿ^( ) 1 = porque + 2 pecado
ÿ12+ÿ -- ÿÿ 6 -- ÿÿ 6
ÿ
norte
ÿ0
= ----
3
norte
( ya
) cosÿ
que2 + ( ) senÿ 2 1= . Por lo tanto, la relación de la desviación estándar en el coseno
modelo a que en el modelo de medias estacionales es
3ÿ0 ÿ norte 3N
--------------- ------=
norte
ÿ0 ÿ norte
En particular, para la serie de temperatura mensual, tenemos n = 144 y N = 12; Por lo tanto, la
la proporción es
3 12 ( )
------------- 0.5 =
144
Así, en el modelo coseno, estimamos el efecto enero con una desviación estándar que
es solo la mitad de lo que sería si lo estimásemos con un modelo de medias estacionales: una ganancia sustancial.
(Por supuesto, esto supone que la tendencia del coseno más el modelo de ruido blanco es el
modelo correcto.)
Supongamos ahora que el componente estocástico es tal que ÿ1 ÿ 0 pero ÿk = 0 para k > 1.
Con un modelo de medias estacionales, la varianza del efecto enero estimado será
sin cambios (ver Ecuación (3.4.1) en la página 36). Para el modelo de tendencia del coseno, si tenemos un
tamaño ^de muestra razonablemente grande, podemos usar la Ecuación
^ (3.4.5), una expresión idéntica para
( Var ÿ ) 2 , y Ecuación (3.2.3) en la página 28 para Var ÿ ( ) 0 para obtener
† Esto supone que 1/12 es una "frecuencia de Fourier"; es decir, es de la forma m/ n. De lo contrario,
estas estimaciones son sólo aproximadamente no correlacionadas.
Machine Translated by Google
=
ÿ ÿ0
+ 21 2ÿ1
+ + porque ÿ ÿÿ 2ÿ
ÿ
Var ÿ^( ) 1 ÿ ---- 1 2ÿ1
norte ÿ ÿ 12------
ÿ ÿ
ÿ ÿ0 ÿ ÿÿ ÿ ÿ --
= ++ porque
ÿ ---- 3 2ÿ1
norte
12ÿ ÿÿ6
ÿ
0.814ÿ0 ( ) ÿ norte
------------------------------ 0.814N
= -----------------
norte
ÿ0 ÿ norte
0.814 12 ( )
------------------------ 0,26 =
144
norte
^ ÿ
( t ) –t_Yt
= t1 =
------------------------------
ÿ1 (3.4.7)
norte
2
ÿ
( t) t_
–
t1 =
Dado que la estimación es una combinación lineal de valores de Y, se puede avanzar un poco en
evaluando su varianza. Tenemos
^ 12ÿ0 24 norte
s 1–
= ----------------------
Var ÿ 1 ( ) ----------------------------1
+ n n2 ( ) 1–
ÿ ÿ t t_
– s) t_ ( ( )ÿ – st- _
(3.4.8)
norte n2 ( ) 1– s 2= t1 =
norte
2
donde hemos usado eral ( t t_
– ÿ) = n(n2 ÿ 1)/12. De nuevo la doble suma no en gen
t1 =
reduce.
Para ilustrar el efecto de la Ecuación (3.4.8), considere nuevamente el caso donde ÿ1 ÿ 0 pero
ÿk = 0 para k > 1. Luego, después de alguna manipulación algebraica, involucrando nuevamente la suma de
enteros consecutivos y sus cuadrados, la ecuación (3.4.8) se puede reducir a
^ 12ÿ0
= ÿÿ3
Var ÿ 1 ( ) ---------------------- +1 2ÿ1 1 --– ÿ n ÿ
n2 ( ) 1– norte
^
12ÿ0 1 2ÿ1 ( ) +
= ----------------------------------
Var ÿ 1 ( ) (3.4.9)
n n2 ( ) 1–
Machine Translated by Google
40 Tendencias
^
Si ÿ1 = ÿ0.4, entonces 1 + 2ÿ1 = 0.2, y luego la varianza de es solo el 20% 1de
_ lo que sería si {Xt } fuera
ruido blanco. Por supuesto, si ÿ1 > 0, entonces la varianza sería mayor que en el caso del ruido blanco.
Pasamos ahora a comparar las estimaciones de mínimos cuadrados con las llamadas mejores
estimaciones lineales insesgadas (BLUE) o las estimaciones de mínimos cuadrados generalizados
(GLS). Si el componente estocástico {Xt } no es ruido blanco, se pueden realizar estimaciones de los
parámetros desconocidos en la función de tendencia; son funciones lineales de los datos, no están
sesgadas y tienen las variaciones más pequeñas entre todas esas estimaciones, las llamadas estimaciones
BLUE o GLS. Estas estimaciones y sus varianzas se pueden expresar de manera bastante explícita
mediante el uso de ciertas matrices y sus inversas. (Los detalles se pueden encontrar en Draper y Smith
(1981).) Sin embargo, construir estas estimaciones requiere un conocimiento completo de la función de
covarianza del componente estocástico, una función que se desconoce en prácticamente todas las
aplicaciones reales. Es posible estimar de forma iterativa la función de covarianza para {Xt } en función de
una estimación preliminar de la tendencia. Luego, la tendencia se estima nuevamente utilizando la función
de covarianza estimada para {Xt } y, por lo tanto, se itera a un AZUL aproximado para la tendencia. Sin
embargo, este método no se seguirá aquí.
Afortunadamente, existen algunos resultados basados en muestras de gran tamaño que respaldan
el uso de estimaciones de mínimos cuadrados más simples para los tipos de tendencias que hemos
considerado. En particular, tenemos el siguiente resultado (ver Fuller (1996), pp. 476–480, para más
detalles): Suponemos que la tendencia es un polinomio en el tiempo, un polinomio trigonométrico, medias
estacionales o una combinación lineal de estos. Entonces, para un componente estocástico estacionario
muy general {Xt }, las estimaciones de mínimos cuadrados para la tendencia tienen la misma varianza que
las mejores estimaciones lineales no sesgadas para tamaños de muestra grandes.
Aunque las estimaciones de mínimos cuadrados simples pueden ser asintóticamente eficientes, no
se sigue que las desviaciones estándar estimadas de los coeficientes impresas por todas las rutinas de
regresión sean correctas. Desarrollaremos este punto en el siguiente apartado. También advertimos al
lector que el resultado anterior está restringido a ciertos tipos de tendencias y, en general, no puede
extenderse a la regresión en variables predictoras arbitrarias, como otras series de tiempo. Por ejemplo,
Fuller (1996, pp. 518–522) muestra que si Yt = ÿZt + Xt , donde {Xt } tiene una estructura estocástica
simple pero {Zt } también es una serie estacionaria, entonces la estimación de mínimos cuadrados de ÿ
puede ser muy ineficiente y sesgado incluso para muestras grandes.
Ya hemos señalado que las rutinas de regresión estándar calculan estimaciones de mínimos cuadrados
de los coeficientes de regresión desconocidos: las betas. Como tal, las estimaciones son razonables bajo
suposiciones mínimas sobre el componente estocástico {Xt }. Sin embargo, algunas de las propiedades
de la salida de la regresión dependen en gran medida de la suposición de regresión habitual de que {Xt }
es ruido blanco, y algunas dependen de la suposición adicional de que {Xt } tiene una distribución
aproximadamente normal. Comenzamos con los elementos que menos dependen de los supuestos.
1
-----------
norte
2
s =
np – t 1=
ÿ ( Yt ÿ^
)-
t (3.5.1)
Figura 3.7 Resultado de la regresión para el ajuste de tendencia lineal de la caminata aleatoria
> modelo1=lm(rcaminar~tiempo(rcaminar))
> resumen(modelo1)
De acuerdo con la Figura 3.7, alrededor del 81% de la variación en la serie de caminata aleatoria es
explicada por la tendencia temporal lineal. El valor R-cuadrado ajustado es un pequeño ajuste
a R2 que produce una estimación aproximadamente imparcial basada en el número de parámetros
estimado en la tendencia. Es útil para comparar modelos con diferentes números de
parámetros Se pueden encontrar varias fórmulas para calcular R2 en cualquier libro sobre regresión,
como Draper y Smith (1981). Las desviaciones estándar de los coeficientes
etiquetado estándar El error en la salida debe interpretarse con cuidado. son apropiados
solo cuando el componente estocástico es ruido blanco, la suposición de regresión habitual.
Machine Translated by Google
42 Tendencias
Por ejemplo, en la Figura 3.7 el valor 1.137 se obtiene de la raíz cuadrada del valor dado por la Ecuación
(3.4.8) cuando ÿk = 0 para k > 0 y con ÿ0 estimado por s 2, es decir, dentro del redondeo,
0.008475 12 1.137 ( )2
= ----------------------------
60 602 ( ) 1–
El punto importante es que estas desviaciones estándar asumen un componente estocástico de ruido
blanco que rara vez será cierto para las series de tiempo.
Los valores t o razones t que se muestran en la Figura 3.7 son solo los coeficientes de regresión
estimados, cada uno dividido por sus respectivos errores estándar. Si el componente estocástico es un
ruido blanco normalmente distribuido, estas relaciones proporcionan estadísticas de prueba apropiadas
para verificar la importancia de los coeficientes de regresión. En cada caso, la hipótesis nula es que el
correspondiente coeficiente de regresión desconocido es cero. Los niveles de significación y los valores
p se determinan a partir de la distribución t con n ÿ p grados de libertad.
Con los residuales o los residuales estandarizados en la mano, el siguiente paso es examinar varias
gráficas de residuales. Primero observamos la gráfica de los residuales a lo largo del tiempo. Si los datos son
posiblemente estacionales, debemos usar símbolos de trazado como lo hicimos en la Figura 1.9 en la página
7, para que los residuales asociados con la misma temporada puedan identificarse fácilmente.
Usaremos la serie de temperatura promedio mensual que ajustamos con medias estacionales
como nuestro primer ejemplo para ilustrar algunas de las ideas del análisis residual. La Figura 1.7 en la
página 6 muestra la gráfica de la serie de tiempo de esa serie. La figura 3.8 muestra una gráfica de
series de tiempo para los residuos estandarizados de los datos de temperatura mensuales ajustados por
medios estacionales. Si el componente estocástico es ruido blanco y la tendencia se modela
adecuadamente, esperaríamos que tal gráfico sugiera una dispersión rectangular sin tendencias
perceptibles en absoluto. No hay desviaciones sorprendentes de la aleatoriedad aparentes en esta pantalla.
Machine Translated by Google
La figura 3.9 repite la gráfica de series de tiempo pero ahora con símbolos de gráficas estacionales.
Nuevamente, no hay patrones aparentes relacionados con los diferentes meses del año.
Tiempo
> plot(y=restudiante(modelo3),x=como.vector(tiempo(tempdub)),
xlab='Tiempo',ylab='Residuos estandarizados',type='o')
2 j
D METRO
1 j O j
F METRO
METRO j F O
A F METRO
SD METRO
j METRO
norte
norte
METRO
A Aj D
j j
METRO
DJ A A A
0 A D AO
Aj F D A como O A S j S j norte
METRO
j
j j S JJ
norte
j
j norte
Aj j
S F j
norte
S
METRO
F EN
F
A FA j
COMO
AO j HIJO METRO
JJ A F
A F
j O
METRO
METRO
O METRO A A
estandarizados
Residuos DJ
norte
A METRO
D
OD
METRO
S
METRO
D A norte
METRO
j JF M.J. S
METRO
norte
ÿ1
ÿ2 METRO
j j O A
j F D
METRO j METRO
Tiempo
pch=as.vector(temporada(tempdub)))
Machine Translated by Google
44 Tendencias
Figura 3.10 Residuales estandarizados versus valores ajustados para el modelo de medias
estacionales de temperatura
10
METRO
j
5 D METRO
j O j
j F METRO
O METRO
j D norte
METRO
S
F A METRO
METRO
D norte
A
METRO
A
j D A
A jj
METRO
0 D A O
O S A
jjj A
METRO
j F D norte
A
A S
S A
jj
norte
D
norte
norte
A METRO
S jj
F norte
norte O
O S
S
j F O S A
F norte
A
A j A
A j
F j
METRO
METRO
METRO A O A j
j norte
A O METRO
estandarizados
Residuos
j D
D METRO
METRO
METRO
S
ÿ5 F D
METRO
norte O METRO
S j A j
norte METRO
j A O METRO
j
j F D
j METRO
METRO
20 30 40 50 60 70
> plot(y=restudiante(modelo3),x=como.vector(ajustado(modelo3)),
xlab='Valores de tendencia ajustados',
> ylab='Residuos Estandarizados',type='n')
> puntos(y=restudiante(modelo3),x=como.vector(ajustado(modelo3)),
pch=as.vector(temporada(tempdub)))
La no normalidad bruta se puede evaluar trazando un histograma de los residuos o residuos estandarizados.
La figura 3.11 muestra un histograma de frecuencias de la frecuencia estandarizada
residuos del modelo de medias estacionales para la serie de temperatura. La trama es un tanto simétrica y se
reduce tanto en el extremo superior como en el inferior como lo hace una distribución normal.
Machine Translated by Google
Frecuencia
35
30
25
20
15
10
5
0
ÿ3 ÿ2 ÿ1 0 1 2 3
Residuos estandarizados
La normalidad se puede verificar con más cuidado trazando los llamados puntajes normales
o gráfico cuantil-cuantil (QQ). Este gráfico muestra los cuantiles de los datos frente a los cuantiles
teóricos de una distribución normal. Con datos normalmente distribuidos, el gráfico QQ se ve
aproximadamente como una línea recta. La figura 3.12 muestra la gráfica de puntajes normales
QQ para los residuos estandarizados del modelo de medias estacionales para la serie de temperatura.
El patrón de línea recta aquí apoya la suposición de un componente estocástico normalmente
distribuido en este modelo.
•
• ••
••••
•••••••••••••••
cuantiles
Muestra
de
••••••••••••
•••
ÿ1
ÿ2
3
12
0
• ••••••
••
••• ••••
•••• •
•••••••••••••••••••
••
•••
•
••
•••
• • • • •
• ••
ÿ2 ÿ1 0 1 2
Cuantiles teóricos
46 Tendencias
norte
_ _
ÿ ( Yt Y
) – Yt (k – ) -Y
tk 1+=
= ------------------------------------------------- --------------
_ para k = 1, 2, ... (3.6.2)
rk norte
2
ÿ ( Yt
) –Y
t1 =
_
Y y también hemos dividido por el
Note que usamos la “gran media”, , en todos los lugares
"gran suma de cuadrados" en lugar del producto de las dos desviaciones estándar separadas
utilizado en el coeficiente de correlación ordinario. También notamos que el denominador es una suma
de n términos al cuadrado mientras que el numerador contiene solo n ÿ k productos cruzados. para una variedad
Por varias razones, esta se ha convertido en la definición estándar para la función de autocorrelación muestral.
Una gráfica de rk contra el desfase k a menudo se denomina correlograma.
† Royston, P. (1982) “An Extension of Shapiro and Wilk's W Test for Normality to Large
Muestras. Estadística aplicada, 31, 115–124.
‡ Código R: corre(restudiante(modelo3))
Machine Translated by Google
0.15
0.05
FCA
ÿ0.05
ÿ0,15
2 4 6 8 10 12 14 dieciséis 18 20
Retraso
Como segundo ejemplo, considere los residuos estandarizados del ajuste de una línea recta
a la serie de tiempo de paseo aleatorio. Recuerde el Anexo 3.2 en la página 31, que muestra los datos y
línea ajustada. En la Figura 3.14 se muestra una gráfica de series de tiempo de los residuos estandarizados.
Machine Translated by Google
48 Tendencias
Figura 3.14 Residuales del ajuste de línea recta del paseo aleatorio
• •
• •• • • •
••
••
12
0
••
••• • •• • •
• •
• • • •• •• • •• • •• •
• • • •
ÿ2 • • •• • • • • •• •
• ••
estandarizados
Residuos • • •
•
0 10 20 30 40 50 60
Tiempo
> trazar(y=restudiante(modelo1),x=como.vector(tiempo(rcaminar)),
ylab='Residuos estandarizados',xlab='Tiempo',type='o')
En este gráfico, los residuos "se juntan" demasiado para el ruido blanco: el gráfico es demasiado
suave. Además, parece haber más variación en el último tercio de la serie que
en los primeros dos tercios. La figura 3.15 muestra un efecto similar con residuos más grandes asociados
con valores ajustados más grandes.
Figura 3.15 Residuales versus valores ajustados del ajuste de línea recta
2
• •
1 • •• •
•
• • ••
• ••
•
•••
0 •
• • •
•• • • •
• • •• • • •
• •
• •• •
ÿ1
• • • •
•
estandarizados
Residuos • •• • • • •
• •
ÿ2
• ••
•
•
•
0246
0.6
0.4
0.2
FCA
ÿ0,2
ÿ0,4
0,0
2 4 6 8 10 12 14 dieciséis
Retraso
> acf(restudiante(modelo1))
Finalmente, volvemos a la precipitación anual en Los Ángeles que se muestra en la Figura 1.1 en
página 2. No encontramos evidencia de dependencia en esa serie, pero ahora buscamos evidencia contra
la normalidad. La figura 3.17 muestra el gráfico cuantil-cuantil normal para ese
serie. Vemos una considerable curvatura en la trama. Una línea que pasa por la primera y
los terceros cuartiles normales ayudan a señalar la desviación de una línea recta en la gráfica.
Machine Translated by Google
50 Tendencias
40
•
30 ••
••
•
•••••
•••
••••••••••••••••
•••••• •• •• ••
20
cuantiles
Muestra
de
•• ••
••
••••
••••••
•• •••••••
•••
10
•
••••••••••••
•• •• ••
• ••••••••••••••••
•
ÿ2 ÿ1 0 1 2
Cuantiles teóricos
3.7 Resumen
Este capítulo se ocupa de describir, modelar y estimar tendencias deterministas en series de tiempo. La
“tendencia” determinista más simple es una función de media constante.
Se proporcionaron métodos para estimar una media constante pero, lo que es más importante, se consideró la
evaluación de la precisión de las estimaciones en diversas condiciones. Luego se aplicaron métodos de regresión
para estimar tendencias lineales o cuadráticas en el tiempo. Luego vinieron los métodos para modelar tendencias
cíclicas o estacionales, y se investigó la confiabilidad y eficiencia de todos estos métodos de regresión. La
sección final comenzó nuestro estudio de análisis residual para investigar la calidad del modelo ajustado. Esta
sección también presentó la importante función de autocorrelación muestral, que revisaremos a lo largo del resto
del libro.
EJERCICIOS
3.1 Verifique la Ecuación (3.3.2) en la página 30, para las estimaciones de mínimos cuadrados de ÿ0 y de ÿ1
cuando se considera el modelo Yt = ÿ0 + ÿ1t + Xt .
Var Y_
3.2 Suponga que Yt = ÿ + et ÿ etÿ1. Encontrar . Tenga ()
en cuenta cualquier resultado inusual. En particular,
compare su respuesta con lo que se habría obtenido si Yt = ÿ + et . (Sugerencia: puede evitar la
Ecuación (3.2.3) en la página 28 haciendo primero alguna simplificación algebraica en
–
ÿ t1 =
norte
( ) .) et et 1–