Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Series de Tiempo - Métodos Descriptivos
Series de Tiempo - Métodos Descriptivos
4/25/2007
Resumen
El procedimiento de Métodos Descriptivos crea varias tablas y gráficas para datos de
series de tiempo. Una serie de tiempo consiste en un conjunto datos numéricos
secuenciales tomados en intervalos de tiempo igualmente espaciados, usualmente sobre
un período de tiempo o espacio. El procedimiento grafica los datos y muestra las
autocorrelaciones, autocorrelaciones parciales y el periodograma de la muestra. Se
realizan pruebas para determinar si las observaciones podrían ser muestras de un proceso
aleatorio o “ruido blanco”. Si se aporta una segunda serie de tiempo, también se calculan
y se muestran las correlaciones cruzadas entre las dos series.
Datos Muestrales:
El archivo golden gate.sf6 contiene volúmenes del tráfico mensual del puente Golden
Gate en San Francisco para un período de n = 168 meses desde enero de 1968 hasta
diciembre de 1981. La tabla de abajo muestra una lista parcial de los datos de ese
archivo:
Month Traffic
1/68 73.637
2/68 77.136
3/68 81.481
4/68 84.127
5/68 84.562
6/68 91.959
7/68 94.174
8/68 96.087
9/68 88.952
10/68 83.479
11/68 80.814
12/68 77.466
1/69 75.225
… …
Los datos fueron obtenidos de una publicación del Puente Golden Gate.
Captura de Datos
El cuadro de diálogo de captura de datos requiere el nombre de la columna que contiene
los datos de series de tiempo:
Nota: una cantidad limitada de datos faltantes está permitida, siempre que no haya
demasiados valores faltantes juntos. Los valores faltantes son reemplazados por valores
interpolados de acuerdo con el método señalado en la sección Cálculos.
Tabla de Datos
La Tabla de Datos despliega la captura de datos:
Opciones de Análisis
Opciones de Análisis permite que los datos sean transformados antes de que sean
graficados o analizados:
y t′ = y t − y t −1 (1)
y t′ = ( y t − y t −1 ) − ( y t −1 − y t −2 ) (2)
y t′ = y t − y t − s 3)
y t′ = ( y t − y t − s ) − ( y t − s − y t − 2 s ) (4)
• Inflación: ajusta los datos por la inflación usando la tasa de inflación especificada
λ. Aplicada al inicio del período, el ajuste es:
yt
y t′ = (5)
(1 + λ )(t −t +1)
0
yt
y t′ = (6)
(1 + λ ) ( t −t0 + 0.5)
113
103
Traffic
93
83
73
1/68 1/71 1/74 1/77 1/80 1/83
Opciones de Cuadro
113
103
Traffic
93
83
73
1/68 1/71 1/74 1/77 1/80 1/83
Opciones de Cuadro
Autocorrelaciones
Una herramienta importante en la modelación de datos de series de tiempo es la función
de autocorrelación. La autocorrelación en el rezago k mide la fuerza de la correlación
entre las observaciones durante k períodos de tiempo. La autocorrelación muestral del
rezago k se calcula de la siguiente manera:
n−k
∑ (y t − y )( y t + k − y )
rk = t =1
n
(7)
∑ (y − y)
2
t
t =1
El error estándar para rk es calculado con el supuesto de que las autocorrelaciones han
“desaparecido” por el rezago k y son iguales a 0 en todos los rezagos mayores o iguales a
k. El error estándar se calcula de la siguiente manera:
1⎧ k −1
⎫
se[rk ] = ⎨
n⎩
1 + 2 ∑
i =1
rk2 ⎬
⎭
(8)
Este error estándar se usa para calcular 100(1-α)% límites de probabilidad alrededor de
cero, usando un valor crítico de la distribución normal estándar:
0 ± zα / 2 se[rk ] (9)
Si α = 0.05, las autocorrelaciones muestrales que caen fuera de esos límites son
estadísticamente significativamente diferente de 0 en un nivel de significancia de 5%. El
StatAdvisor señala ese tipo de autocorrelaciones con rojo.
Para los datos del tráfico, note que hay valores significativos para los 3 primeros rezagos
y también en la vecindad de s = 12 y 2s = 24. Los valores significativos en los primeros
©2006 por StatPoint, Inc. Series de Tiempo – Métodos Descriptivos -
8
STATGRAPHICS – Rev. 4/25/2007
Cuadro de Opciones
Función de Autocorrelación
La gráfica de Función de Autocorrelation muestra las autocorrelacionadas muestrales y
los límites de probabilidad:
0.6
Autocorrelaciones
0.2
-0.2
-0.6
-1
0 5 10 15 20 25
retraso
Las barras que se extienden más allá de los límites superior e inferior corresponden a
autocorrelaciones estadísticamente significativas.
Autocorrelaciones Parciales
Otra importante herramienta en la modelación de datos de series de tiempo es la función
de autcorrelación parcial. Las autocorrelaciones parciales son usadas para ayudar a
identificar el orden adecuado del modelo autorregresivo para usar en la descripción de la
serie de tiempo observada. La autocorrelación parcial φˆkk del rezago muestral k se
calcula como se describe en la sección de Cálculos. El cuadro de Autocorrelaciones
Parciales muestra las autocorrelaciones parciales muestrales junto con errores estándar
de rezagos grandes y límites de probabilidad:
1
se[φˆkk ] = (10)
n
Este error estándar se usa para calcular 100(1-α)% límites de probabilidad alrededor de
cero, usando un valor crítico de la distribución normal estándar:
0 ± zα / 2 se[φˆkk ] (11)
Para los datos del tráfico, note que existen valores significativos a lo largo de los
primeros 13 rezagos. Esto implica que se necesitaría un modelo autorregresivo más
complicado para describir los datos observados, lo cual no sería sorprendente dada su
naturaleza (tendencia) no estacionaria.
Cuadro de Opciones
1
Autocorrelaciones Parciales
0.6
0.2
-0.2
-0.6
-1
0 5 10 15 20 25
retraso
Las barras que se extienden más allá de los límites superior o inferior corresponden a
autocorrelaciones parciales significativas.
Periodograma
Las autocorrelaciones y autocorrelaciones parciales describen el comportamiento de los
datos en el dominio del tiempo, por ejemplo, al estimar estadísticos basados en un espacio
del tiempo entre observaciones. También es útil examinar los datos en el dominio de la
frecuencia al considerar qué tanta variabilidad existe en diferentes frecuencias. Se ha
demostrado que cualquier serie de tiempo discreta puede ser representada como la suma
de un conjunto de senos y cosenos en un conjunto de frecuencias llamadas frecuencias de
Fourier. Un típico componente tiene la forma:
i
fi = (13)
n
I ( fi ) =
n 2
2
(
ai + bi2 ) (14)
El cual se mide de acuerdo con una escala tal que la suma de las ordenadas del
periodograma a través de todas las frecuencias de Fourier excepto para i = 0, arroja la
suma de las desviaciones cuadradas de la serie de tiempo alrededor de su media, por
n
Suma Periodograma
i Frecuencia Periodo Ordenada Acumulada Integrado
0 0.0 1.57558E-23 1.57558E-23 1.66608E-27
1 0.00595238 168.0 1387.62 1387.62 0.146731
2 0.0119048 84.0 866.251 2253.87 0.238332
3 0.0178571 56.0 465.451 2719.32 0.28755
4 0.0238095 42.0 90.789 2810.11 0.297151
5 0.0297619 33.6 447.388 3257.5 0.344459
6 0.0357143 28.0 68.8937 3326.39 0.351744
7 0.0416667 24.0 60.3328 3386.72 0.358124
8 0.047619 21.0 28.0432 3414.77 0.361089
9 0.0535714 18.6667 36.3759 3451.14 0.364936
10 0.0595238 16.8 61.0357 3512.18 0.37139
11 0.0654762 15.2727 40.4935 3552.67 0.375672
12 0.0714286 14.0 24.073 3576.74 0.378217
13 0.077381 12.9231 1.28899 3578.03 0.378354
14 0.0833333 12.0 4968.08 8546.11 0.903696
15 0.089285157 1511.2 30.471915 8576.58 0.906918
… … … … … …
La tabla incluye:
• Periodo: el periodo asociado por la frecuencia de Fourier dado por 1/ fi. Este es el
número de observaciones en un ciclo completo en esa frecuencia.
Por ejemplo, la frecuencia 14a de Fourier corresponde a una oscilación con un periodo de
12 meses. Hay una ordenada muy grande en esa frecuencia porque los datos tienden a
subir y caer sobre una base anual. Si se fuera a ajustar un modelo de regresión en esa
frecuencia, tomaría la forma:
©2006 por StatPoint, Inc. Series de Tiempo – Métodos Descriptivos -
13
STATGRAPHICS – Rev. 4/25/2007
⎛ 2πt ⎞ ⎛ 2πt ⎞
Yt = c + a cos⎜ ⎟ + b sin ⎜ ⎟ + et (15)
⎝ 12 ⎠ ⎝ 12 ⎠
⎛ 2πt ⎞ ⎛ 2πt ⎞
Yˆt = 93.9783 − 4.94209 cos⎜ ⎟ + 5.89233 sin ⎜ ⎟ (16)
⎝ 12 ⎠ ⎝ 12 ⎠
113 Variables
Regression
Traffic
103
93
83
73
1/68 1/71 1/74 1/77 1/80 1/83
Month
Note qué tanto de la variabilidad ha sido explicada por aquel simple componente.
Cuadro de Opciones
Gráfica de Periodograma
La Gráfica de Periodograma muestra las ordenadas del periodograma:
4
Ordenada
0
0 0.1 0.2 0.3 0.4 0.5
frecuencia
Note un pico enorme en la frecuencia 1/12 meses. Dos pequeñas elevaciones pueden ser
observadas en el primer y segundo armónicos (2/12 y 3/12) porque la oscilación
estacional no es puramente senoidal. Existe también alguna potencia en las frecuencias
muy pequeñas, causado por las tendencias y cambios repentinos en la serie de tiempo del
tráfico.
Cuadro de Opciones
• Menguar: porcentaje de los datos en cada final de la serie de tiempo en los cuales un
ajustador de datos será aplicado antes de que el periodograma sea calculado.
Periodograma Integrado
El Periodograma Integrado muestra las sumas acumuladas de las ordenadas del
periodograma divididas entre la suma de las ordenadas de todas las frecuencias de
Fourier:
0.8
Ordenada
0.6
0.4
0.2
0
0 0.1 0.2 0.3 0.4 0.5
frecuencia
Se incluye una línea diagonal sobre la gráfica junto con bandas de Kolmogorov de 95% y
99%. Si la serie de tiempo es puramente aleatoria, el periodograma integrado debería caer
dentro de esas bandas el 95% y 99% del tiempo. Para los datos del tráfico, es seguro
concluir que los datos no forman una serie de tiempo aleatoria.
2. Corridas arriba y abajo: calcula el número de veces que la serie sube y baja. Éste
número se compara con el valor esperado para una serie de tiempo aleatoria. Una
serie con fuerte oscilación, tal como los datos del tráfico, es muy probable de
mostrar significativamente menos corridas que las esperadas. Pequeños P-values
indican que la serie de tiempo no es puramente aleatoria.
k
Q = n∑ ri 2 (17)
i =1
Nuevamente, no hay alguna duda de que la serie de tráfico contiene una estructura no
aleatoria significativa.
Cuadro de Opciones
Correlaciones Cruzadas
El cuadro de Correlaciones Cruzadas muestra correlaciones cruzadas entre la serie de
tiempo principal y la segunda serie especificada usando las Opciones de Cuadro. Las
correlaciones cruzadas entre una serie de tiempo Y en el tiempo t y una segunda serie de
tiempo X en el tiempo t-k se denota como cxy(k). Un uso típico de las correlaciones
cruzadas es en la identificación de “indicadores principales” o en una relación insumo-
producto. Por ejemplo, Box, Jenkins y Reinsel (1994) presentan datos de insumo y
producto de un horno de gas en intervalos de 9 segundos los cuales se encuentran en el
archivo furnace.sf6. Los datos consisten en:
Algunas correlaciones negativas grandes son notables, con un pico en k = 5. Esto sugiere
que los incrementos en el insumo tasa de gas usado causan decrementos en el % de Co2
en la tasa de gas obtenido con un pico alrededor de 45 segundos después.
Cuadro de Opciones
1
Correlaciones Cruzadas
0.6
0.2
-0.2
-0.6
-1
-25 -15 -5 5 15 25
retraso
Guardar Resultados
Los siguientes resultados pueden ser guardados en la hoja de base de datos:
Cálculos
Datos Faltantes
Un limitado número de datos faltantes está permitido, mientras no haya muchos valores
faltantes que se encuentren cerca. Antes que los datos sean analizados, los valores
faltantes son reemplazados por valores interpolados, los cuales son determinados de
acuerdo con la siguiente regla:
− 3 y t − 2 s + 12 y t − s + 12 y t + s − 3 y t + 2 s
yt = (18)
18
3. Si yt+2s falta pero los otros tres no, entonces el valor de reemplazo para yt es:
− yt −2 s + 3 yt − s + yt + s
yt = (19)
3
4. Si yt+s está faltando pero los otros tres no, entonces el valor de reemplazo para yt
es:
− 3 yt −2 s + 8 yt −s + yt + s
yt = (20)
6
5. Si yt+s está faltando pero los otros tres no, entonces el valor de reemplazo para yt
es:
y + 8 yt + s − 3 yt +2 s
yt = t −2 s (21)
6
6. Si yt-2s está faltando pero los otros tres no, entonces el valor de reemplazo para yt
es:
y + 3 yt + s − yt + s
yt = t −s (22)
3
7. Si yt+s y yt+2s están faltando pero los otros dos no, entonces el valor de reemplazo
para yt es:
yt = − yt −2 s + 2 yt − s (23)
8. Si yt-s y yt+2s están faltando pero los otros dos no, entonces el valor de reemplazo
para yt es:
yt −2 s + 2 yt + s
yt = (24)
3
9. Si yt-s y yt+s están faltando pero los otros dos no, entonces el valor de reemplazo
para yt es:
yt −2 s + yt +2 s
yt = (25)
2
10. Si yt-2s y yt+2s están faltando pero los otros dos no, entonces el valor de reemplazo
para yt es:
yt −s + yt + s
yt = (26)
2
11. Si yt-2s y yt+s están faltando pero los otros dos no, entonces el valor de reemplazo
para yt es:
2 y t − s + y t + 2s
yt = (27)
3
12. Si yt-2s y yt-s están faltando pero los otros dos no, entonces el valor de reemplazo
para yt es:
yt = 2 yt + s − yt + 2 s (28)
Si más de 2 de las cuatro observaciones están faltando, un mensaje de error será mostrado
y el análisis no será realizado.
Los valores interpolados están diseñados para reproducir perfectamente una tendencia
cuadrática (si solamente una de las observaciones falta) o una tendencia lineal (si faltan
dos observaciones), siempre que no haya ruido presente.
Autocorrelaciones Parciales
⎧r1 k =1
⎪ k −1
⎪⎪ rk − ∑ φˆk −1, j rk − j
φˆkk = ⎨ j =1 para k > 1 (29)
⎪ k −1
⎪ 1 − ∑ φˆk −1, j r j
⎪⎩ j =1
donde
Pruebas de Corridas
Refiérase a la documentación para el procedimiento Cuadros de Rachas o Corridas.
Correlaciones Cruzadas
c xy (k )
rxy (k ) = (31)
sx s y
donde
1 n−k
c xy (k ) = ∑ (xt − x )( yt + k − y ) para k = 0, 1, 2, …
n t =1
(32)
1 n+ k
c xy (k ) = ∑ ( yt − y )(xt −k − x ) para k = 0, -1, -2, …
n t =1
(33)
∑x t
x= t =1
(34)
n
n
∑y t
y= t =1
(35)
n
s x = c xx (0) (36)
s y = c yy (0) (37)