Está en la página 1de 24

Machine Translated by Google

CAPÍTULO 3
TENDENCIAS

En una serie de tiempo general, la función media es una función de tiempo totalmente arbitraria. En
una serie temporal estacionaria, la función media debe ser constante en el tiempo. Con frecuencia
necesitamos tomar el término medio y considerar funciones medias que son funciones de tiempo
relativamente simples (pero no constantes). Estas tendencias se consideran en este capítulo.

3.1 Tendencias deterministas versus estocásticas

Las "tendencias" pueden ser bastante esquivas. La misma serie de tiempo puede ser vista de manera
muy diferente por diferentes analistas. Se podría considerar que la caminata aleatoria simulada que se
muestra en la Figura 2.1 muestra una tendencia ascendente general. Sin embargo, sabemos que el
proceso de paseo aleatorio tiene media cero para todo el tiempo. La tendencia percibida es solo un
artefacto de la fuerte correlación positiva entre los valores de la serie en puntos de tiempo cercanos y
la variación creciente en el proceso a medida que pasa el tiempo. Una segunda y tercera simulación
de exactamente el mismo proceso bien podrían mostrar "tendencias" completamente diferentes. Le
pedimos que produzca algunas simulaciones adicionales en los ejercicios. Algunos autores han descrito
tales tendencias como tendencias estocásticas (ver Box, Jenkins y Reinsel, 1994), aunque no existe
una definición generalmente aceptada de tendencia estocástica.
La serie de temperatura mensual promedio trazada en el Anexo 1.7 en la página 6 muestra una
tendencia cíclica o estacional, pero aquí la razón de la tendencia es clara: la inclinación cambiante del
hemisferio norte hacia el sol. En este caso, un modelo posible podría ser Yt = ÿt + Xt , donde ÿt es una
función determinista que es periódica con período 12; eso es ÿt , debe satisfacer

ÿt ÿt= – 12 para todos

Podríamos suponer que Xt , la variación no observada alrededor de ÿt , tiene media cero para todo t ,
de modo que ÿt es la función media para la serie observada Yt . Podríamos describir este modelo con
una tendencia determinista en oposición a la tendencia estocástica considerada anteriormente. En
otras situaciones, podríamos suponer una tendencia determinista que es lineal en el tiempo (es decir,
ÿt = ÿ0 + ÿ1t) o quizás una tendencia cuadrática en el tiempo, ÿt = ÿ0 + ÿ1t + ÿ2t 2. Tenga en cuenta
que una implicación del modelo Yt = ÿt + Xt con E(Xt ) = 0 para todo t es que la tendencia determinista
ÿt se aplica para todo el tiempo. Por lo tanto, si ÿt = ÿ0 + ÿ1t, estamos asumiendo que la misma
tendencia de tiempo lineal se aplica para siempre. Por lo tanto, deberíamos tener buenas razones para
asumir tal modelo, no solo porque la serie parece algo lineal durante el período de tiempo observado.

27
Machine Translated by Google

28 Tendencias

En este capítulo, consideramos métodos para modelar tendencias deterministas. estocástico


las tendencias se discutirán en el Capítulo 5, y los modelos estacionales estocásticos se discutirán
en el capítulo 10. Muchos autores usan la palabra tendencia solo para una función media que cambia
lentamente, como una tendencia temporal lineal, y usan el término componente estacional para una función
media que varía cíclicamente. No nos parece útil hacer tales distinciones aquí.

3.2 Estimación de una media constante

Primero consideramos la situación simple donde se supone una función de media constante. Nuestro
El modelo se puede escribir entonces como

Yt ÿ Xt += (3.2.1)

donde E(Xt ) = 0 para todo t. Deseamos estimar ÿ con nuestra serie de tiempo observada Y1, Y2,…,
Sí. La estimación más común de ÿ es la media muestral o el promedio definido como

_1 --
norte

Y (3.2.2)
=ÿ norte
Yt
t1 =

_ los supuestos mínimos de la Ecuación (3.2.1), vemos que E( ) = ÿ; por lo tanto, Y


Bajo hay una
Y
estimación no sesgada de ÿ. Para investigar la precisión de como una estimación deY
ÿ, necesitamos hacer más suposiciones con respecto a Xt .
Suponga que {Yt }, (o, de manera equivalente, {Xt } de la Ecuación (3.2.1)) es un tiempo estacionario
serie con función de autocorrelación ÿk. Entonces, por el Ejercicio 2.17, tenemos

n 1– ÿ1 k
ÿ – -----
ÿ0
----
Var Y_ ( ) = ÿ ÿ ÿ ÿk norte
norte
kn – 1 +=

(3.2.3)
n 1–
= ÿ0
12 1 --– ÿ ÿ ÿ ----k
norte
+ÿ ÿ ÿk
norte

k1 =

Observe que el primer factor, ÿ0/n, es la varianza del proceso (población) dividida por el tamaño de la
muestra, un concepto con el que estamos familiarizados en contextos de muestreo aleatorio más simples. Si
la serie {Xt } de la Ecuación (3.2.1) es solo ruido blanco, entonces ÿk = 0 para k > 0 y se reduce Var Y( )
simplemente a ÿ0/n.
En el modelo de promedio móvil (estacionario) Yt = et ÿ ½et ÿ 1, encontramos que ÿ1 = ÿ0.4
y ÿk = 0 para k > 1. En este caso, tenemos

ÿ0
---- ÿ ÿ --–1ÿ
Var Y_ ( ) 1 21 += ( ) –0.4 ÿ
norte norte

n 1–
–= ÿ0
---- 1 0.8 ÿ ÿ -----------
norte ÿÿ norte

Para valores de n que generalmente ocurren en series de tiempo (n > 50, digamos), el factor (n ÿ 1)/n
estará cerca de 1, por lo que tenemos
Machine Translated by Google

3.2 Estimación de una media constante 29

Var Y_ ( ) ÿ0.2ÿ0
----
norte

Vemos que la correlación negativa en el desfase 1 ha mejorado la estimación de la media en comparación


con la estimación obtenida en la situación de ruido blanco (muestra aleatoria).
Debido a que la serie tiende a oscilar de un lado a otro a lo largo de la media, la media muestral obtenida
es más precisa.
Por otro lado, si ÿk ÿ 0 para todo k ÿ 1, vemos en la Ecuación (3.2.3) que Var Y( ) será mayor que ÿ0/
n. Aquí las correlaciones positivas hacen que la estimación de la media sea más difícil que en el caso del
ruido blanco. En general, algunas correlaciones serán positivas y otras negativas, y se debe usar la
Ecuación (3.2.3) para evaluar el efecto total.
Para muchos procesos estacionarios, la función de autocorrelación decae lo suficientemente rápido
con retrasos crecientes que
ÿ

ÿ ÿ< ÿk (3.2.4)
k0 =

(La onda coseno aleatoria del Capítulo 2 es una excepción).


Bajo el supuesto (3.2.4) y dado un tamaño de muestra grande n, la siguiente aproximación útil se
deriva de la Ecuación (3.2.3) (Véase Anderson, 1971, p. 459, por ejemplo)

ÿ
ÿ0
---- ÿk
Var Y_ ( ) ÿ ÿ k –= ÿ
para grandes n (3.2.5)
norte

Observe que en esta aproximación la varianza es inversamente proporcional al tamaño de la muestra n.

Como ejemplo, supongamos que ÿk = ÿ|k| para todo k, donde ÿ es un número estrictamente entre ÿ1
y +1. Sumando una serie geométrica se obtiene

ÿ0
ÿ
( 1 + ÿ) ----
----------------
Var Y_ ( ) (3.2.6)
(1–ÿ) norte

Para un proceso no estacionario (pero con una media constante), la precisión de la media muestral
como estimación de ÿ puede ser notablemente diferente. Como ejemplo útil, suponga que en la Ecuación
(3.2.1) {Xt } es un proceso de caminata aleatoria como se describe en el Capítulo 2. Entonces, directamente
de la Ecuación (2.2.8) tenemos

norte

1
Var Y_ ( ) = -----Var ÿ yo
n2 yo 1=

norte i
1
= -----Var ÿ ÿ ej
n2 yo 1= j 1=
Machine Translated by Google

30 Tendencias

1
= + +3e3
++ … nen ) n2
(----Var e1 2e2

2 norte

ÿe
------ k2
=ÿ
n2 k1 =

de modo que

= ( ) norte 1+
----------------
Var Y_ () ÿe 2( ) 2n 1+ (3.2.7)
6n

Observe que en este caso especial la varianza de nuestra estimación de la media en realidad
aumenta a medida que aumenta el tamaño de la muestra n . Claramente esto es inaceptable, y tenemos que
considerar otras técnicas de estimación para series no estacionarias.

3.3 Métodos de regresión

El método estadístico clásico de análisis de regresión se puede usar fácilmente para estimar
los parámetros de los modelos de tendencia media no constante comunes. Consideraremos los más
útiles: lineales, cuadráticas, medias estacionales y tendencias de coseno.

Tendencias lineales y cuadráticas en el tiempo

Considere la tendencia temporal determinista expresada como

ÿt ÿ0 ÿ1 += t (3.3.1)

donde la pendiente y el intercepto, ÿ1 y ÿ0 respectivamente, son parámetros desconocidos. los


El método clásico de mínimos cuadrados (o regresión) es elegir como estimaciones de los valores de
ÿ1 y ÿ0 que minimicen
norte

, )=ÿ 2
Q (ÿ0 ÿ1 – ( ÿ1 ) [+] t
Yt ÿ0
t1 =

La solución se puede obtener de varias maneras, por ejemplo, calculando el parcial


derivadas con respecto a ambos ÿ, igualando los resultados a cero, y resolviendo
^ el
^
encontramos eso
ecuaciones lineales resultantes para las ÿ. Denotando las soluciones por yÿ 0ÿ 1,
norte _

^ ÿ ( Yt Y
) – t t_ ( ) –
t1 =
ÿ1 = -------------------------------------------------------------
norte

2 (3.3.2)
ÿ ( t) t_

t1 =
^ _ ^ _
ÿ 0 –= Y ÿ 1t
_
donde =t (n + 1)/2 es el promedio de 1, 2,…, n. Estas fórmulas se pueden simplificar un poco, y se
conocen varias versiones de las fórmulas. Sin embargo, suponemos que
Machine Translated by Google

3.3 Métodos de regresión 31

los cálculos se realizarán


^ mediante
^ software estadístico y no buscaremos otros
Expresiones para y ÿaquí.
01
ÿ

Ejemplo

Considere el proceso de caminata aleatoria que se mostró en la figura 2.1. Supongamos que
(erróneamente) tratamos esto como una tendencia de tiempo lineal y estimamos la pendiente y el intercepto por
regresión de mínimos cuadrados. Usando software estadístico obtenemos la Figura 3.1.

Figura 3.1 Estimaciones de regresión de mínimos cuadrados para la tendencia de tiempo lineal

Estimación estándar Error valor t Pr(>|t|)

Interceptar ÿ1.008 0.2972 ÿ3.39 0.00126

Tiempo 0.1341 0.00848 15.82 < 0.0001

> datos(rwalk)
> modelo1=lm(rcaminar~tiempo(rcaminar))
> resumen(modelo1)
^ ^
Así que aquí la pendiente y el intercepto estimados sonÿ =1 0.1341 y = ÿ1.008,
ÿ respectivamente 0
tivamente. La Figura 3.2 muestra la caminata aleatoria con la línea de tendencia de regresión de mínimos cuadrados
superpuesto Interpretaremos más de la salida de la regresión más adelante en la Sección 3.5 sobre
página 40 y veo que ajustar una línea a estos datos no es apropiado.

Figura 3.2 Paseo aleatorio con tendencia de tiempo lineal

8 •
••

• •
6 •
•• •• • •
• ••
4 • •• •

• •
y ••• • •
••• •• •
2 • ••
• • •
• •
• •• • •
0 • • •
• • •
•• • ••
ÿ2 •

0 10 20 30 40 50 60

Tiempo

> win.graph (ancho = 4.875, alto = 2.5, tamaño de punto = 8)


> dibujar(rwalk,tipo='o',ylab='y')
> abline(modelo1) # añade la línea de mínimos cuadrados ajustada del modelo1
Machine Translated by Google

32 Tendencias

Tendencias cíclicas o estacionales

Considere ahora modelar y estimar tendencias estacionales, como para el promedio mensual

datos de temperatura en la Figura 1.7. Aquí suponemos que la serie observada se puede representar como

Yt ÿt Xt +=
donde E(Xt ) = 0 para todo t.

La suposición más general para ÿt con datos estacionales mensuales es que hay 12
constantes (parámetros), ÿ1, ÿ2,…, y ÿ12, dando la temperatura promedio esperada para
cada uno de los 12 meses. Podemos escribir

ÿ
ÿ

ÿ1 ÿ para t = 1, 13, 25, ...

ÿ2 para t = 2, 14, 26, ...


= (3.3.3)
ÿt ÿ
.
.
ÿ
.
ÿ

ÿ12 para t = 12, 24, 36, ...


ÿ

Esto a veces se denomina modelo de medias estacionales .

Como ejemplo de este modelo, considere los datos de temperatura mensual promedio que se muestran

en la Figura 1.7 en la página 6. Para ajustar dicho modelo, necesitamos configurar variables indicadoras

(a veces llamadas variables ficticias) que indican el mes al que pertenece cada uno de los datos.

pertenecen los puntos. El procedimiento para hacer esto dependerá de la estadística particular

software que utiliza. También debemos tener en cuenta que el modelo, tal como se establece, no contiene un

término de intercepción, y el software necesitará saber esto también. Alternativamente, podríamos usar

un intercepto y dejar fuera cualquiera de los ÿ en la Ecuación (3.3.3).

La figura 3.3 muestra los resultados de ajustar el modelo de medias estacionales a los datos de temperatura. Aquí los

valores t y Pr(>|t|)-valores informados son de poco interés ya que

se relacionan con probar las hipótesis nulas de que los ÿ son cero, no es una hipótesis interesante
en este caso.

Figura 3.3 Resultados de regresión para el modelo de medias estacionales

Estimación estándar Error valor t Pr(>|t|)

enero 16.608 0.987 16.8 < 0.0001

Febrero 20.650 0.987 20,9 < 0.0001

Marzo 32.475 0.987 32,9 < 0.0001

Abril 46.525 0.987 47.1 < 0.0001

Mayo 58.092 0.987 58,9 < 0.0001

Junio 67.500 0.987 68.4 < 0.0001

Julio 71.717 0.987 72.7 < 0.0001


Machine Translated by Google

3.3 Métodos de regresión 33

Estimación estándar Error valor t Pr(>|t|)

Agosto 69.333 0.987 70.2 < 0.0001

Septiembre 61.025 0.987 61.8 < 0.0001

Octubre 50.975 0.987 51.6 < 0.0001

Noviembre 36.650 0.987 37.1 < 0.0001

Diciembre 23.642 0.987 24.0 < 0.0001

> datos (tempdub)


> mes.=temporada(tempdub) # período agregado para mejorar la visualización de la tabla
> modelo2=lm(tempdub~month.-1) # -1 elimina el término de intercepción > resumen(modelo2)

La figura 3.4 muestra cómo cambian los resultados cuando ajustamos un modelo con una intersección
término. El software omite el coeficiente de enero en este caso. Ahora el coeficiente de febrero se interpreta
como la diferencia entre las temperaturas medias de febrero y enero, el coeficiente de marzo es la
diferencia entre las temperaturas medias de marzo y enero.
temperaturas, y así sucesivamente. Una vez más, los valores t y Pr(>|t|) (valores p) están probando
hipótesis de poco interés en este caso. Observe que el coeficiente de intersección más el
El coeficiente de febrero aquí es igual al coeficiente de febrero que se muestra en el Anexo 3.3.

Figura 3.4 Resultados del modelo de medias estacionales con un intercepto

Estimación estándar Error valor t Pr(>|t|)

Interceptar 16.608 0.987 16.83 < 0.0001

Febrero 4.042 1.396 2.90 0.00443

Marzo 15.867 1.396 11.37 < 0.0001

Abril 29.917 1.396 21.43 < 0.0001

Mayo 41.483 1.396 29.72 < 0.0001

Junio 50.892 1.396 36.46 < 0.0001

Julio 55.108 1.396 39.48 < 0.0001

Agosto 52.725 1.396 37.78 < 0.0001

Septiembre 44.417 1.396 31.82 < 0.0001

Octubre 34.367 1.396 24.62 < 0.0001

Noviembre 20.042 1.396 14.36 < 0.0001

Diciembre 7.033 1.396 5.04 < 0.0001

> model3=lm(tempdub~month.) # Enero se elimina automáticamente


> resumen(modelo3)
Machine Translated by Google

34 Tendencias

Tendencias del coseno

El modelo de medias estacionales para datos mensuales consta de 12 parámetros independientes y


no tiene en cuenta en absoluto la forma de la tendencia estacional. Por ejemplo, el hecho
que las medias de marzo y abril son bastante similares (y diferentes de las de junio y julio)
medio) no se refleja en el modelo. En algunos casos, las tendencias estacionales se pueden modelar
económicamente con curvas de coseno que incorporan el cambio suave esperado de una
período de tiempo al siguiente, conservando la estacionalidad.
Considere la curva coseno con ecuación

ÿt = ÿcos( 2ÿft + ÿ ) (3.3.4)

Llamamos ÿ (> 0) a la amplitud, f a la frecuencia y ÿ a la fase de la curva. Como t varía,


la curva oscila entre un máximo de ÿ y un mínimo de ÿÿ. Dado que la curva
se repite exactamente cada 1/f unidades de tiempo, 1/f se denomina periodo de la onda coseno. Como
Como se señaló en el Capítulo 2, ÿ sirve para establecer el origen arbitrario en el eje del tiempo. para mensual
datos con tiempo indexado como 1, 2,…, la frecuencia más importante es f = 1/12, porque tal
una onda coseno se repetirá cada 12 meses. Decimos que el período es 12.
La ecuación (3.3.4) es inconveniente para la estimación porque los parámetros ÿ y ÿ no
no introduzca la expresión linealmente. Afortunadamente, se dispone de una identidad trigonométrica que
reparametriza (3.3.4) más convenientemente, a saber

ÿcos( ) 2ÿft = (3.3.5)


cos(+) ÿ2ÿft
ÿ1 ÿ2 + sen( ) 2ÿft

dónde
2
ÿ = ÿ12 + ÿ2 , ÿ = atán( ÿ2– ÿ1 ) ÿ (3.3.6)

y por el contrario,

ÿ1 = ÿ ÿ cos( ), ÿ2 = ÿ ÿ sen( ) (3.3.7)

Para estimar los parámetros ÿ1 y ÿ2 con técnicas de regresión, simplemente usamos


cos(2ÿft) y sin(2ÿft) como regresores o variables predictoras.
El modelo más simple para la tendencia se expresaría como

ÿt ÿ0= ÿ1
+ cos( ) 2ÿft ÿ2 + sen( ) 2ÿft (3.3.8)

Aquí, el término constante, ÿ0, puede considerarse significativamente como un coseno con frecuencia
cero.
En cualquier ejemplo práctico, debemos tener cuidado con la forma en que medimos el tiempo, ya que nuestra elección
de la medición del tiempo afectará los valores de las frecuencias de interés. Por ejemplo, si
tenemos datos mensuales pero usamos 1, 2, 3,... como nuestra escala de tiempo, entonces 1/12 sería la más
frecuencia interesante, con un período correspondiente de 12 meses. Sin embargo, si medimos el tiempo
seguro por año y año fraccionario, digamos 1980 para enero, 1980.08333 para febrero de
1980, y así sucesivamente, entonces una frecuencia de 1 corresponde a una periodicidad anual o de 12
meses.
La figura 3.5 es un ejemplo de cómo ajustar una curva de coseno a la frecuencia fundamental para
la serie de temperatura media mensual.
Machine Translated by Google

3.3 Métodos de regresión 35

Figura 3.5 Modelo de tendencia del coseno para series de temperatura

Coeficiente Estimación estándar Error valor t Pr(>|t|)

Interceptar 46.2660 0.3088 149.82 < 0.0001

cos(2ÿt) ÿ26,7079 0.4367 ÿ61,15 < 0.0001

pecado(2ÿt) ÿ2.1697 0.4367 ÿ4,97 <0.0001

> har.=armónico(tempdub,1) >


modelo4=lm(tempdub~har.) >
resumen(modelo4)

En esta salida, el tiempo se mide en años, con 1964 como valor inicial y una frecuencia de
1 por año. En el Anexo 3.6 se muestra un gráfico de los valores de la serie temporal junto con la
curva coseno ajustada. La tendencia se ajusta bastante bien a los datos, con la excepción de la
mayoría de los valores de enero, donde las observaciones son más bajas de lo que predeciría el
modelo.

Figura 3.6 Tendencia del coseno para la serie de temperatura

• • • •• •• • •• •
•• •• ••
••

• •• •• • • •• • • • •

•• •• • • • •• ••

•• • • •

• • • • • • • •• •
• • • • • • •
• • • • • •
temperatura
La

• • • •
• • • •• • •
• • • •
•• •• • • •
• • • •
70
60
50
40
30
20
10 • • • • • ••
•• • • • • • • •• •
• • • • • • • ••
•• • • ••
• • • • •
• •
• •

1964 1966 1968 1970 1972 1974 1976

Tiempo

> win.graph(ancho=4.875, alto=2.5, tamaño de punto=8) >


plot(ts(ajustado(modelo4),frecuencia=12,inicio=c(1964,1)),
ylab='Temperatura',tipo='l',
> ylim=rango(c(ajustado(modelo4),tempdub))); puntos (tempdub)> # ylim asegura que el rango del
eje y se ajuste a los datos sin procesar y los valores ajustados

Con frecuencia se utilizarán funciones de coseno adicionales en otras frecuencias para


modelar tendencias cíclicas. Para series mensuales, las frecuencias armónicas más altas, como
2/12 y 3/12, son especialmente pertinentes y algunas veces mejorarán el ajuste a expensas de agregar
Machine Translated by Google

36 Tendencias

ing más parámetros al modelo. De hecho, se puede demostrar que cualquier tendencia periódica con
el período 12 puede expresarse exactamente por la suma de seis pares de funciones coseno-seno.
Estas ideas se discuten en detalle en el análisis de Fourier o análisis espectral. perseguimos
estas ideas más adelante en los capítulos 13 y 14.

3.4 Confiabilidad y eficiencia de las estimaciones de regresión

Suponemos que la serie se representa como Yt = ÿt + Xt , donde ÿt es una tendencia determinista


del tipo considerado anteriormente y {Xt } es un proceso estacionario de media cero con funciones de
autocovarianza y autocorrelación ÿk y ÿk, respectivamente. La regresión ordinaria estima parámetros en un
modelo lineal según el criterio de mínimos cuadrados independientemente
de si estamos ajustando tendencias de tiempo lineales, medias estacionales, curvas de coseno o lo que sea.
Primero consideramos el caso más fácil: las medias estacionales. Como se mencionó anteriormente, el
las estimaciones de mínimos cuadrados de las medias estacionales son solo promedios estacionales; así, si tenemos
N años (completos) de datos mensuales, podemos escribir la estimación de la media para el j-ésimo
temporada como

^ 1 N 1–
---
ÿj
= ÿ norte Yj + 12i
yo 0=
^
Ya que ÿ es un promedio pero usaYsolo cada 12^observaciones, Ecuación
(3.2.3) se puedej Var ÿ
modificar fácilmente para dar . Sustituimos
j ( ) n por N (años) y ÿk por
ÿ12k para obtener

^ N 1–
= ÿ0
---- 12 1 ÿ ÿ ---–k ÿ
Var ÿj ( ) para j = 1, 2, ..., 12 (3.4.1)
norte
+ÿ ÿ ÿ12knorte
k1 =
^
Varaÿÿ0/N,
Notamos que si {Xt } es ruido blanco, entonces se reduce j ( ) como se esperaba. Fur Var
^ ÿ
Además , si varios ÿk son distintos de cero pero ÿ12k = 0, entonces todavía . En
j () ÿ0 = ÿ norte
tenemos cualquier caso, solo las autocorrelaciones estacionales, ÿ12, ÿ24, ÿ36 ,..., entran en la Ecuación
(3.4.1). Dado que N rara vez será muy grande (excepto quizás para datos trimestrales), las aproximaciones
como las que se muestran en la Ecuación (3.2.5) por lo general no serán útiles.
Pasamos ahora a las tendencias del coseno expresadas como en la Ecuación (3.3.8). Para cualquier
frecuencia de la forma f = m/ n, donde m es un^ número ^entero que satisface 1 ÿ m < n/2, se dispone de
expresiones explícitas para las estimaciones yÿ 1 ÿ 2 , las amplitudes del coseno y del seno:

^ 2 norte ^ 2 norte

-- ÿ ÿ 2ÿmt -- ÿ ÿ 2ÿmt
ÿ1 porque , ÿ2 pecado (3.4.2)
=ÿ norte ------------ ÿ ÿ Yt
norte
=ÿ norte ------------ ÿ ÿ Yt
norte

t1 = t1 =

(Estas son efectivamente las correlaciones entre la serie de tiempo {Yt } y el coseno y
ondas sinusoidales con frecuencia m/ n.)
Debido a que estas son funciones lineales de {Yt }, podemos evaluar sus varianzas usando
Ecuación (2.2.6). Encontramos
Machine Translated by Google

3.4 Confiabilidad y eficiencia de las estimaciones de regresión 37

^ s 1– 2ÿmt
2ÿ0 4 norte

ÿ ÿ ÿporque
2ÿms ÿ
=
Var ÿ 1 ( ) -------- 1 --+
norte norte
ÿ ÿ porque
------------ ÿ ÿ
norte ------------- ÿ ÿÿs t –
norte
(3.4.3)
s 2 = t1 =
norte

donde hemos utilizado el hecho de que


ÿ [
t1 =
porque( )] =
2ÿmt
nortenÿ
ÿ 22 . Sin embargo, el doble

sum en la Ecuación (3.4.3), en general, no se reduce más. Una expresión similar vale
^
para Var ÿ 2 ( ) si reemplazamos los cosenos por senos.

Si {Xt } es ruido blanco, obtenemos solo 2ÿ0/n. Si ÿ1 ÿ 0, ÿk = 0 para k > 1, y m/n = 1/12,
entonces la varianza se reduce a

^
2ÿ0 4ÿ1 n 1– ÿ ÿt
ÿ ÿ ÿt 1+ ÿ
=
Var ÿ 1 ( ) -------- 1 --------+
norte
coscos
----ÿ ÿ6
norte
ÿ --------------
6 ÿÿ
(3.4.4)
t1 =

Para ilustrar el efecto de los términos del coseno, hemos calculado algunos valores representativos
ue:
^
norte
Var( ) ÿ 1

25 ÿ 2ÿ0
ÿ(1 +
norte
1.71ÿ1 ) -------- ÿ ÿ

50 ÿ 2ÿ0
ÿ(1 +
1.75ÿ1 ) -------- ÿ ÿ
norte

500 ÿ 2ÿ0
ÿ()1 + -------- ÿ ÿ
1.73ÿ1
norte

ÿ 2ÿ0
ÿ ÿ 1 2ÿ1 + porque ÿ ÿÿ ÿ = ÿ 2ÿ0
ÿ(1 +
ÿ
-------- -- 6ÿ ÿÿ 1.732ÿ1 ) -------- ÿ ÿ (3.4.5)
norte ÿ ÿ ÿ norte

Si ÿ1 = ÿ0.4, entonces el multiplicador de muestra grande en la Ecuación (3.4.5) es 1+1.732(ÿ0.4) =


0,307 y la varianza se reduce en aproximadamente un 70 % en comparación con el ruido blanco
caso.

En algunas circunstancias, las medias estacionales y las tendencias del coseno podrían considerarse como
modelos que compiten por una tendencia cíclica. Si el modelo del coseno simple es un modelo adecuado,
¿Cuánto perdemos si usamos el modelo de medias estacionales menos parsimonioso? A
abordar este problema, primero debemos considerar cómo comparar los modelos. Los parámetros en sí mismos no son
directamente comparables, pero podemos comparar las estimaciones de los
tendencia en puntos de tiempo comparables.
Considere las dos estimaciones de la tendencia en enero; es decir, ÿ1. con estacional
significa que esta estimación es solo el promedio de enero, que tiene una varianza dada por la ecuación
(3.4.1). Con el modelo de tendencia del coseno, la estimación correspondiente es
Machine Translated by Google

38 Tendencias

^ ^ ^
= + ÿ0 ÿ ÿ 2ÿ + pecado ÿ ÿ 2ÿ
ÿ^ 1 ÿ 1
porque ÿ2
------
ÿ 12ÿ ------
ÿ 12ÿ

Para calcular la
^ varianza
^ de esta
^ estimación, necesitamos un hecho más: con este modelo, la
estima 0 , ÿ 1, y no están
ÿ 2 correlacionados.† Esto se deduce de la relación de ortogonalidad ÿ
relaciones de los cosenos y senos involucrados. Ver Bloomfield (1976) o Fuller (1996) para
más detalles. Para el modelo del coseno, entonces, tenemos

^ ^ 2 ^ 2
= +ÿ ÿ ÿ 2ÿ + Var ÿ 2 ( ) ÿ ÿ 2ÿ
Var ÿ^( ) Var
1 ÿ 0 ( ) Var 1() porque pecado (3.4.6)
------
ÿ 12ÿ ------
ÿ 12ÿ

Para nuestra primera comparación, suponga que el componente estocástico es ruido blanco. Después
la varianza de nuestra estimación en el modelo de medias estacionales es solo ÿ0/N. por el coseno
modelo, usamos la Ecuación (3.4.6), y la Ecuación (3.4.4) y su equivalente en seno, para obtener

2 2ÿ
ÿ----
ÿ0 ÿ ÿÿ ÿÿ
ÿ
Var ÿ^( ) 1 = porque + 2 pecado
ÿ12+ÿ -- ÿÿ 6 -- ÿÿ 6
ÿ
norte

ÿ0
= ----
3
norte

( ya
) cosÿ
que2 + ( ) senÿ 2 1= . Por lo tanto, la relación de la desviación estándar en el coseno
modelo a que en el modelo de medias estacionales es

3ÿ0 ÿ norte 3N
--------------- ------=
norte
ÿ0 ÿ norte

En particular, para la serie de temperatura mensual, tenemos n = 144 y N = 12; Por lo tanto, la
la proporción es

3 12 ( )
------------- 0.5 =
144

Así, en el modelo coseno, estimamos el efecto enero con una desviación estándar que
es solo la mitad de lo que sería si lo estimásemos con un modelo de medias estacionales: una ganancia sustancial.
(Por supuesto, esto supone que la tendencia del coseno más el modelo de ruido blanco es el
modelo correcto.)
Supongamos ahora que el componente estocástico es tal que ÿ1 ÿ 0 pero ÿk = 0 para k > 1.
Con un modelo de medias estacionales, la varianza del efecto enero estimado será
sin cambios (ver Ecuación (3.4.1) en la página 36). Para el modelo de tendencia del coseno, si tenemos un
tamaño ^de muestra razonablemente grande, podemos usar la Ecuación
^ (3.4.5), una expresión idéntica para
( Var ÿ ) 2 , y Ecuación (3.2.3) en la página 28 para Var ÿ ( ) 0 para obtener

† Esto supone que 1/12 es una "frecuencia de Fourier"; es decir, es de la forma m/ n. De lo contrario,
estas estimaciones son sólo aproximadamente no correlacionadas.
Machine Translated by Google

3.4 Confiabilidad y eficiencia de las estimaciones de regresión 39

=
ÿ ÿ0
+ 21 2ÿ1
+ + porque ÿ ÿÿ 2ÿ
ÿ
Var ÿ^( ) 1 ÿ ---- 1 2ÿ1
norte ÿ ÿ 12------
ÿ ÿ

ÿ ÿ0 ÿ ÿÿ ÿ ÿ --
= ++ porque
ÿ ---- 3 2ÿ1
norte
12ÿ ÿÿ6
ÿ

Si ÿ1 = ÿ0.4, entonces tenemos 0.814ÿ0/n, y la razón de la desviación estándar en el coseno


caso a la desviación estándar en el caso de las medias estacionales es

0.814ÿ0 ( ) ÿ norte
------------------------------ 0.814N
= -----------------
norte
ÿ0 ÿ norte

Si tomamos n = 144 y N = 12, la razón es

0.814 12 ( )
------------------------ 0,26 =
144

una reducción muy sustancial de hecho!


Pasamos ahora a las tendencias
^ temporales lineales. Para estas tendencias, una fórmula alternativa a Equa
ÿ 1 conveniente. Se puede demostrar que los mínimos cuadrados
ción (3.3.2) en la página 30 para es más
la estimación de la pendiente puede escribirse

norte

^ ÿ
( t ) –t_Yt
= t1 =
------------------------------
ÿ1 (3.4.7)
norte

2
ÿ
( t) t_

t1 =

Dado que la estimación es una combinación lineal de valores de Y, se puede avanzar un poco en
evaluando su varianza. Tenemos

^ 12ÿ0 24 norte
s 1–
= ----------------------
Var ÿ 1 ( ) ----------------------------1
+ n n2 ( ) 1–
ÿ ÿ t t_
– s) t_ ( ( )ÿ – st- _
(3.4.8)
norte n2 ( ) 1– s 2= t1 =

norte

2
donde hemos usado eral ( t t_
– ÿ) = n(n2 ÿ 1)/12. De nuevo la doble suma no en gen
t1 =
reduce.

Para ilustrar el efecto de la Ecuación (3.4.8), considere nuevamente el caso donde ÿ1 ÿ 0 pero
ÿk = 0 para k > 1. Luego, después de alguna manipulación algebraica, involucrando nuevamente la suma de
enteros consecutivos y sus cuadrados, la ecuación (3.4.8) se puede reducir a
^ 12ÿ0
= ÿÿ3
Var ÿ 1 ( ) ---------------------- +1 2ÿ1 1 --– ÿ n ÿ
n2 ( ) 1– norte

Para n grande, podemos despreciar el término 3/n y usar

^
12ÿ0 1 2ÿ1 ( ) +
= ----------------------------------
Var ÿ 1 ( ) (3.4.9)
n n2 ( ) 1–
Machine Translated by Google

40 Tendencias

^
Si ÿ1 = ÿ0.4, entonces 1 + 2ÿ1 = 0.2, y luego la varianza de es solo el 20% 1de
_ lo que sería si {Xt } fuera

ruido blanco. Por supuesto, si ÿ1 > 0, entonces la varianza sería mayor que en el caso del ruido blanco.

Pasamos ahora a comparar las estimaciones de mínimos cuadrados con las llamadas mejores
estimaciones lineales insesgadas (BLUE) o las estimaciones de mínimos cuadrados generalizados
(GLS). Si el componente estocástico {Xt } no es ruido blanco, se pueden realizar estimaciones de los
parámetros desconocidos en la función de tendencia; son funciones lineales de los datos, no están
sesgadas y tienen las variaciones más pequeñas entre todas esas estimaciones, las llamadas estimaciones
BLUE o GLS. Estas estimaciones y sus varianzas se pueden expresar de manera bastante explícita
mediante el uso de ciertas matrices y sus inversas. (Los detalles se pueden encontrar en Draper y Smith
(1981).) Sin embargo, construir estas estimaciones requiere un conocimiento completo de la función de
covarianza del componente estocástico, una función que se desconoce en prácticamente todas las
aplicaciones reales. Es posible estimar de forma iterativa la función de covarianza para {Xt } en función de
una estimación preliminar de la tendencia. Luego, la tendencia se estima nuevamente utilizando la función
de covarianza estimada para {Xt } y, por lo tanto, se itera a un AZUL aproximado para la tendencia. Sin
embargo, este método no se seguirá aquí.
Afortunadamente, existen algunos resultados basados en muestras de gran tamaño que respaldan
el uso de estimaciones de mínimos cuadrados más simples para los tipos de tendencias que hemos
considerado. En particular, tenemos el siguiente resultado (ver Fuller (1996), pp. 476–480, para más
detalles): Suponemos que la tendencia es un polinomio en el tiempo, un polinomio trigonométrico, medias
estacionales o una combinación lineal de estos. Entonces, para un componente estocástico estacionario
muy general {Xt }, las estimaciones de mínimos cuadrados para la tendencia tienen la misma varianza que
las mejores estimaciones lineales no sesgadas para tamaños de muestra grandes.
Aunque las estimaciones de mínimos cuadrados simples pueden ser asintóticamente eficientes, no
se sigue que las desviaciones estándar estimadas de los coeficientes impresas por todas las rutinas de
regresión sean correctas. Desarrollaremos este punto en el siguiente apartado. También advertimos al
lector que el resultado anterior está restringido a ciertos tipos de tendencias y, en general, no puede
extenderse a la regresión en variables predictoras arbitrarias, como otras series de tiempo. Por ejemplo,
Fuller (1996, pp. 518–522) muestra que si Yt = ÿZt + Xt , donde {Xt } tiene una estructura estocástica
simple pero {Zt } también es una serie estacionaria, entonces la estimación de mínimos cuadrados de ÿ
puede ser muy ineficiente y sesgado incluso para muestras grandes.

3.5 Interpretación de la salida de la regresión

Ya hemos señalado que las rutinas de regresión estándar calculan estimaciones de mínimos cuadrados
de los coeficientes de regresión desconocidos: las betas. Como tal, las estimaciones son razonables bajo
suposiciones mínimas sobre el componente estocástico {Xt }. Sin embargo, algunas de las propiedades
de la salida de la regresión dependen en gran medida de la suposición de regresión habitual de que {Xt }
es ruido blanco, y algunas dependen de la suposición adicional de que {Xt } tiene una distribución
aproximadamente normal. Comenzamos con los elementos que menos dependen de los supuestos.

Considere el resultado de la regresión que se muestra en la Figura 3.7. Escribiremosÿ^para


t la
Porÿtejemplo,
tendencia estimada independientemente de la forma paramétrica asumida para . para la
tendencia de tiempo lineal, tenemos ÿt = ÿ0 + ÿ1t. Para cada t, el componente estocástico no observado
Machine Translated by Google

3.5 Interpretación de la salida de la regresión 41

Xt se puede estimar (predecir) mediante Yt ÿ ÿ^ . Si el proceso {Xt } tiene varianza constante,


t
entonces podemos estimar la desviación estándar de Xt , es decir, por el stan residual ÿ0
desviación dardo

1
-----------
norte

2
s =
np – t 1=
ÿ ( Yt ÿ^
)-
t (3.5.1)

donde p es el número de parámetros estimados en ÿt y n ÿ p son los denominados grados de


libertad para s. El valor de s da una medida absoluta de la bondad del ajuste de la tendencia estimada:
cuanto menor sea el valor de s, mejor será el ajuste. Sin embargo, un valor de s de, digamos,
60.74 es algo difícil de interpretar.
Una medida sin unidades de la bondad de ajuste de la tendencia es el valor de R2 , también llamado

el coeficiente de determinación o múltiplo R-cuadrado. Una interpretación de R2 es que


es el cuadrado del coeficiente de correlación muestral entre la serie observada y la
tendencia estimada. También es la fracción de la variación en la serie que se explica por
la tendencia estimada. La figura 3.7 es un resultado de regresión más completo cuando se ajusta el
línea recta a los datos de la caminata aleatoria. Esto amplía lo que vimos en el Anexo 3.1 en la página
31

Figura 3.7 Resultado de la regresión para el ajuste de tendencia lineal de la caminata aleatoria

Estimar estándar Error valor t Pr(>|t|)

Interceptar ÿ1.007888 0.297245 ÿ3.39 0.00126

Tiempo 0.134087 0.008475 15.82 < 0.0001

Error estándar residual 1.137 con 58 grados de libertad

Múltiple R-Cuadrado 0.812

R-cuadrado ajustado 0.809

estadística F 250.3 con 1 y 58 gl; valor p < 0,0001

> modelo1=lm(rcaminar~tiempo(rcaminar))
> resumen(modelo1)

De acuerdo con la Figura 3.7, alrededor del 81% de la variación en la serie de caminata aleatoria es
explicada por la tendencia temporal lineal. El valor R-cuadrado ajustado es un pequeño ajuste
a R2 que produce una estimación aproximadamente imparcial basada en el número de parámetros
estimado en la tendencia. Es útil para comparar modelos con diferentes números de
parámetros Se pueden encontrar varias fórmulas para calcular R2 en cualquier libro sobre regresión,
como Draper y Smith (1981). Las desviaciones estándar de los coeficientes
etiquetado estándar El error en la salida debe interpretarse con cuidado. son apropiados
solo cuando el componente estocástico es ruido blanco, la suposición de regresión habitual.
Machine Translated by Google

42 Tendencias

Por ejemplo, en la Figura 3.7 el valor 1.137 se obtiene de la raíz cuadrada del valor dado por la Ecuación
(3.4.8) cuando ÿk = 0 para k > 0 y con ÿ0 estimado por s 2, es decir, dentro del redondeo,

0.008475 12 1.137 ( )2
= ----------------------------
60 602 ( ) 1–

El punto importante es que estas desviaciones estándar asumen un componente estocástico de ruido
blanco que rara vez será cierto para las series de tiempo.
Los valores t o razones t que se muestran en la Figura 3.7 son solo los coeficientes de regresión
estimados, cada uno dividido por sus respectivos errores estándar. Si el componente estocástico es un
ruido blanco normalmente distribuido, estas relaciones proporcionan estadísticas de prueba apropiadas
para verificar la importancia de los coeficientes de regresión. En cada caso, la hipótesis nula es que el
correspondiente coeficiente de regresión desconocido es cero. Los niveles de significación y los valores
p se determinan a partir de la distribución t con n ÿ p grados de libertad.

3.6 Análisis residual


Como ya hemos señalado, el componente estocástico no observado {Xt } se puede estimar, o predecir,
mediante el residuo
^
Xt –= (3.6.1)
_ Yt ÿ^ t

Predicho es realmente un mejor término. Reservamos el término estimación para la conjetura de un


parámetro desconocido
^ y el término predictor para una estimación de una variable aleatoria no
observada. Llamamos al es
residual correspondiente
aproximadamente
razonablemente a laentonces
comocorrecto, t-ésima
el verdadero observación.
componente
los residuos Si el modelo
estocástico,
deberían de tendencia
y comportarse
se pueden X
evaluar
t
varias suposiciones sobre el componente estocástico observando los residuos. Si el componente
estocástico es ruido blanco, entonces los residuos deberían comportarse aproximadamente como
variables aleatorias independientes (normales) con media cero y desviación estándar s. Dado que un
ajuste de mínimos cuadrados de cualquier tendencia que contenga un término constante produce
automáticamente residuales con media cero, podríamos considerar estandarizar los residuales como .
Sin embargo, la^ mayoría del software de estadísticas producirá residuos estandarizados ÿ s utilizando
un error estándar
X más complicado
específico queen
seelajusta.
denominador que tiene en cuenta el modelo de regresión
t

Con los residuales o los residuales estandarizados en la mano, el siguiente paso es examinar varias
gráficas de residuales. Primero observamos la gráfica de los residuales a lo largo del tiempo. Si los datos son
posiblemente estacionales, debemos usar símbolos de trazado como lo hicimos en la Figura 1.9 en la página
7, para que los residuales asociados con la misma temporada puedan identificarse fácilmente.
Usaremos la serie de temperatura promedio mensual que ajustamos con medias estacionales
como nuestro primer ejemplo para ilustrar algunas de las ideas del análisis residual. La Figura 1.7 en la
página 6 muestra la gráfica de la serie de tiempo de esa serie. La figura 3.8 muestra una gráfica de
series de tiempo para los residuos estandarizados de los datos de temperatura mensuales ajustados por
medios estacionales. Si el componente estocástico es ruido blanco y la tendencia se modela
adecuadamente, esperaríamos que tal gráfico sugiera una dispersión rectangular sin tendencias
perceptibles en absoluto. No hay desviaciones sorprendentes de la aleatoriedad aparentes en esta pantalla.
Machine Translated by Google

3.6 Análisis residual 43

La figura 3.9 repite la gráfica de series de tiempo pero ahora con símbolos de gráficas estacionales.
Nuevamente, no hay patrones aparentes relacionados con los diferentes meses del año.

Figura 3.8 Residuos versus tiempo para medias estacionales de temperatura


3

2 • •

• • •
1 •• • • • •
• • • • • • • • •
• • •
• • • •• • • • •• •
0 • • • • •• • ••
•• ••• • • • ••


• • •• •• • • •• • •
• • •• •• •• •
•• • • • ••
• •
• ••
•• • • • • • •
• • • • • •
••
• •

• • •••
• • • •
estandarizados
Residuos • • • •• • •• • •• • •
• •
ÿ1
ÿ2 • • • • •
• • •
• • •

0 20 40 60 80 100 120 140

Tiempo

> plot(y=restudiante(modelo3),x=como.vector(tiempo(tempdub)),
xlab='Tiempo',ylab='Residuos estandarizados',type='o')

Figura 3.9 Residuales versus tiempo con símbolos de representación estacional


3
METRO

2 j
D METRO

1 j O j
F METRO
METRO j F O
A F METRO
SD METRO
j METRO
norte

norte
METRO
A Aj D
j j
METRO
DJ A A A
0 A D AO
Aj F D A como O A S j S j norte
METRO

j
j j S JJ
norte
j
j norte

Aj j
S F j
norte
S
METRO

j O S DAKOTA DEL NORTE

F EN
F
A FA j
COMO
AO j HIJO METRO

JJ A F
A F
j O
METRO
METRO

O METRO A A
estandarizados
Residuos DJ
norte
A METRO

D
OD
METRO

S
METRO

D A norte
METRO

j JF M.J. S
METRO
norte

ÿ1
ÿ2 METRO
j j O A
j F D

METRO j METRO

0 20 40 60 80 100 120 140

Tiempo

> plot(y=restudiante(modelo3),x=como.vector(tiempo(tempdub)),xlab='Tiempo', > ylab='Residuos


Estandarizados',tipo='l') > puntos(y=restudiante(modelo3) ),x=como.vector(tiempo(tempdub)),

pch=as.vector(temporada(tempdub)))
Machine Translated by Google

44 Tendencias

A continuación, analizamos los residuos estandarizados frente a la estimación de tendencia correspondiente,


o valor ajustado, como en la Figura 3.10. Una vez más estamos buscando patrones. Son pequeños
residuales asociados con valores de tendencia ajustados pequeños y residuos grandes con valores de tendencia ajustados grandes
valores de tendencia? ¿Hay menos variación para los residuales asociados con ciertos tamaños ajustados?
valores de tendencia o más variación con otros valores de tendencia ajustados? hay algo mas
variación para los residuos de marzo y menos para noviembre, pero la figura 3.10 ciertamente no
no indica ningún patrón dramático que nos haga dudar de los medios estacionales
modelo.

Figura 3.10 Residuales estandarizados versus valores ajustados para el modelo de medias

estacionales de temperatura
10

METRO

j
5 D METRO

j O j
j F METRO
O METRO

j D norte
METRO
S
F A METRO
METRO

D norte
A
METRO
A
j D A
A jj
METRO
0 D A O
O S A
jjj A
METRO

j F D norte
A
A S
S A
jj
norte

D
norte
norte
A METRO

S jj
F norte
norte O
O S
S
j F O S A
F norte
A
A j A
A j
F j
METRO

METRO
METRO A O A j
j norte
A O METRO
estandarizados
Residuos
j D
D METRO
METRO
METRO

S
ÿ5 F D
METRO
norte O METRO

S j A j
norte METRO

j A O METRO
j
j F D

j METRO
METRO

20 30 40 50 60 70

Valores de tendencia ajustados

> plot(y=restudiante(modelo3),x=como.vector(ajustado(modelo3)),
xlab='Valores de tendencia ajustados',
> ylab='Residuos Estandarizados',type='n')
> puntos(y=restudiante(modelo3),x=como.vector(ajustado(modelo3)),
pch=as.vector(temporada(tempdub)))

La no normalidad bruta se puede evaluar trazando un histograma de los residuos o residuos estandarizados.
La figura 3.11 muestra un histograma de frecuencias de la frecuencia estandarizada
residuos del modelo de medias estacionales para la serie de temperatura. La trama es un tanto simétrica y se
reduce tanto en el extremo superior como en el inferior como lo hace una distribución normal.
Machine Translated by Google

3.6 Análisis residual 45

Figura 3.11 Histograma de residuos estandarizados del modelo de medias


estacionales

Frecuencia

35
30
25
20
15
10
5
0

ÿ3 ÿ2 ÿ1 0 1 2 3

Residuos estandarizados

> hist(restudiante(modelo3),xlab='Residuales Estandarizados')

La normalidad se puede verificar con más cuidado trazando los llamados puntajes normales
o gráfico cuantil-cuantil (QQ). Este gráfico muestra los cuantiles de los datos frente a los cuantiles
teóricos de una distribución normal. Con datos normalmente distribuidos, el gráfico QQ se ve
aproximadamente como una línea recta. La figura 3.12 muestra la gráfica de puntajes normales
QQ para los residuos estandarizados del modelo de medias estacionales para la serie de temperatura.
El patrón de línea recta aquí apoya la suposición de un componente estocástico normalmente
distribuido en este modelo.

Figura 3.12 Gráfica QQ: modelo de residuos estandarizados de medias estacionales


• ••
••••
•••••••••••••••
cuantiles
Muestra
de

••••••••••••

•••
ÿ1
ÿ2
3
12
0

• ••••••
••
••• ••••
•••• •
•••••••••••••••••••
••
•••

••
•••
• • • • •

• ••

ÿ2 ÿ1 0 1 2

Cuantiles teóricos

> win.graph(ancho=2.5,alto=2.5,tamaño=8) > qqnorm(restudiante(modelo3))


Machine Translated by Google

46 Tendencias

Una excelente prueba de normalidad se conoce como la prueba de Shapiro-Wilk.† Esencialmente


calcula la correlación entre los residuos y los cuantiles normales correspondientes.
Cuanto menor sea esta correlación, más evidencia tenemos en contra de la normalidad. aplicando eso
La prueba de estos residuos da un estadístico de prueba de W = 0,9929 con un valor p de 0,6954. Nosotros
no puede rechazar la hipótesis nula de que el componente estocástico de este modelo es normalmente
repartido.
La independencia en el componente estocástico se puede probar de varias maneras. las carreras
La prueba examina los residuos en secuencia para buscar patrones, patrones que darían
pruebas contra la independencia. Se cuentan las carreras por encima o por debajo de su mediana. un pequeño
número de corridas indicaría que los residuales vecinos son positivamente dependientes y
tienden a "permanecer juntos" con el tiempo. Por otro lado, demasiadas carreras indicarían que
los residuos oscilan de un lado a otro a lo largo de su mediana. Entonces residuos vecinos
son negativamente dependientes. De modo que o muy pocas o demasiadas carreras nos llevan a rechazar
la independencia. La realización de una prueba de rachas‡ en estos residuales produce los siguientes valores:
corridas observadas = 65, corridas esperadas = 72.875, lo que lleva a un valor p de 0.216 y nosotros
no puede rechazar la independencia del componente estocástico en este modelo de medias estacionales.

La función de autocorrelación de muestra

Otra herramienta de diagnóstico muy importante para examinar la dependencia es la función de


autocorrelación de muestras. Considere cualquier secuencia de datos Y1, Y2,…, Yn, ya sean residuos,
residuos estandarizados, datos originales o alguna transformación de datos. Asumiendo tentativamente la
estacionariedad, nos gustaría estimar la función de autocorrelación ÿk para una variedad de
rezagos k = 1, 2,…. La manera obvia de hacer esto es calcular la correlación de la muestra
entre los pares k unidades separados en el tiempo. Es decir, entre (Y1, Y1 + k), (Y2, Y2 + k),
(Y3, Y3 + k),..., y (Yn ÿ k, Yn). Sin embargo, modificamos esto ligeramente, teniendo en cuenta
que estamos suponiendo estacionariedad, lo que implica una media común y una varianza para el
serie. Con esto en mente, definimos la función de autocorrelación muestral, rk, en el desfase k como

norte
_ _
ÿ ( Yt Y
) – Yt (k – ) -Y
tk 1+=
= ------------------------------------------------- --------------
_ para k = 1, 2, ... (3.6.2)
rk norte

2
ÿ ( Yt
) –Y
t1 =
_
Y y también hemos dividido por el
Note que usamos la “gran media”, , en todos los lugares
"gran suma de cuadrados" en lugar del producto de las dos desviaciones estándar separadas
utilizado en el coeficiente de correlación ordinario. También notamos que el denominador es una suma
de n términos al cuadrado mientras que el numerador contiene solo n ÿ k productos cruzados. para una variedad
Por varias razones, esta se ha convertido en la definición estándar para la función de autocorrelación muestral.
Una gráfica de rk contra el desfase k a menudo se denomina correlograma.

† Royston, P. (1982) “An Extension of Shapiro and Wilk's W Test for Normality to Large
Muestras. Estadística aplicada, 31, 115–124.
‡ Código R: corre(restudiante(modelo3))
Machine Translated by Google

3.6 Análisis residual 47

En nuestro contexto actual, nos interesa descubrir la posible dependencia en el


componente estocástico; por lo tanto, la función de autocorrelación muestral para los residuos
estandarizados es de interés. La Figura 3.13 muestra la autocorrelación de la muestra para el
residuos estandarizados del modelo de medias estacionales de la serie de temperatura. Todos los
valores están dentro de las líneas discontinuas horizontales, que se colocan en cero más y menos dos
errores estándar aproximados de las autocorrelaciones de la muestra, a saber, 2 ÿ± n . Los valores
de rk son, por supuesto, estimaciones de ÿk. Como tales, tienen sus propias distribuciones de muestreo,
errores estándar y otras propiedades. Por ahora usaremos rk como una herramienta descriptiva y
diferir la discusión de esos temas hasta los capítulos 6 y 8. De acuerdo con la figura 3.13, para k
= 1, 2,..., 21, ninguna de las hipótesis ÿk = 0 puede ser rechazada a los niveles de significancia usuales,
y es razonable inferir que la componente estocástica de la serie es blanca
ruido.

Figura 3.13 Ejemplo de autocorrelación de residuos del modelo de medias estacionales

0.15

0.05

FCA

ÿ0.05

ÿ0,15

2 4 6 8 10 12 14 dieciséis 18 20

Retraso

> win.graph(ancho=4.875,alto=3,tamaño en puntos=8)


> acf(restudiante(modelo3))

Como segundo ejemplo, considere los residuos estandarizados del ajuste de una línea recta
a la serie de tiempo de paseo aleatorio. Recuerde el Anexo 3.2 en la página 31, que muestra los datos y
línea ajustada. En la Figura 3.14 se muestra una gráfica de series de tiempo de los residuos estandarizados.
Machine Translated by Google

48 Tendencias

Figura 3.14 Residuales del ajuste de línea recta del paseo aleatorio

• •
• •• • • •
••
••
12
0
••
••• • •• • •
• •
• • • •• •• • •• • •• •
• • • •
ÿ2 • • •• • • • • •• •
• ••
estandarizados
Residuos • • •

0 10 20 30 40 50 60

Tiempo

> trazar(y=restudiante(modelo1),x=como.vector(tiempo(rcaminar)),
ylab='Residuos estandarizados',xlab='Tiempo',type='o')

En este gráfico, los residuos "se juntan" demasiado para el ruido blanco: el gráfico es demasiado
suave. Además, parece haber más variación en el último tercio de la serie que
en los primeros dos tercios. La figura 3.15 muestra un efecto similar con residuos más grandes asociados
con valores ajustados más grandes.

Figura 3.15 Residuales versus valores ajustados del ajuste de línea recta
2
• •
1 • •• •

• • ••
• ••

•••
0 •
• • •
•• • • •
• • •• • • •
• •
• •• •
ÿ1
• • • •

estandarizados
Residuos • •• • • • •
• •
ÿ2
• ••


0246

Valores de línea de tendencia ajustados

> win.graph(ancho=4.875, alto=3,tamaño en puntos=8)


> plot(y=restudiante(modelo1),x=ajustado(modelo1),
ylab='Residuos estandarizados',xlab='Valores de línea de tendencia ajustados', type='p')
Machine Translated by Google

3.6 Análisis residual 49

La función de autocorrelación muestral de los residuos estandarizados, que se muestra en el Anexo


3.16, confirma la suavidad de la gráfica de series de tiempo que observamos en la figura 3.14.
Las autocorrelaciones de retraso 1 y retraso 2 superan dos errores estándar por encima de cero y el retraso 5
y retraso 6 autocorrelaciones más de dos errores estándar por debajo de cero. esto no es lo que
que esperamos de un proceso de ruido blanco.

Figura 3.16 Ejemplo de autocorrelación de residuos del modelo de línea recta

0.6

0.4

0.2

FCA

ÿ0,2
ÿ0,4
0,0

2 4 6 8 10 12 14 dieciséis

Retraso

> acf(restudiante(modelo1))

Finalmente, volvemos a la precipitación anual en Los Ángeles que se muestra en la Figura 1.1 en
página 2. No encontramos evidencia de dependencia en esa serie, pero ahora buscamos evidencia contra
la normalidad. La figura 3.17 muestra el gráfico cuantil-cuantil normal para ese
serie. Vemos una considerable curvatura en la trama. Una línea que pasa por la primera y
los terceros cuartiles normales ayudan a señalar la desviación de una línea recta en la gráfica.
Machine Translated by Google

50 Tendencias

Figura 3.17 Gráfica cuantil-cuantil de la serie de lluvia anual de Los Ángeles

40

30 ••
••

•••••
•••
••••••••••••••••
•••••• •• •• ••
20

cuantiles
Muestra
de
•• ••
••
••••
••••••
•• •••••••
•••
10

••••••••••••
•• •• ••
• ••••••••••••••••


ÿ2 ÿ1 0 1 2

Cuantiles teóricos

> win.graph(ancho=2.5,alto=2.5,tamaño=8) > qqnorm(larain);


qqline(larain)

3.7 Resumen
Este capítulo se ocupa de describir, modelar y estimar tendencias deterministas en series de tiempo. La
“tendencia” determinista más simple es una función de media constante.
Se proporcionaron métodos para estimar una media constante pero, lo que es más importante, se consideró la
evaluación de la precisión de las estimaciones en diversas condiciones. Luego se aplicaron métodos de regresión
para estimar tendencias lineales o cuadráticas en el tiempo. Luego vinieron los métodos para modelar tendencias
cíclicas o estacionales, y se investigó la confiabilidad y eficiencia de todos estos métodos de regresión. La
sección final comenzó nuestro estudio de análisis residual para investigar la calidad del modelo ajustado. Esta
sección también presentó la importante función de autocorrelación muestral, que revisaremos a lo largo del resto
del libro.

EJERCICIOS

3.1 Verifique la Ecuación (3.3.2) en la página 30, para las estimaciones de mínimos cuadrados de ÿ0 y de ÿ1
cuando se considera el modelo Yt = ÿ0 + ÿ1t + Xt .
Var Y_
3.2 Suponga que Yt = ÿ + et ÿ etÿ1. Encontrar . Tenga ()
en cuenta cualquier resultado inusual. En particular,
compare su respuesta con lo que se habría obtenido si Yt = ÿ + et . (Sugerencia: puede evitar la
Ecuación (3.2.3) en la página 28 haciendo primero alguna simplificación algebraica en

ÿ t1 =
norte

( ) .) et et 1–

También podría gustarte