Documentos de Académico
Documentos de Profesional
Documentos de Cultura
9/14/2006
Pronósticos
Resumen
El procedimiento Pronósticos esta diseñado para pronosticar valores futuros de datos de
series de tiempo. Una serie de tiempo consiste de un conjunto secuencial de datos
numéricos tomados en intervalos de tiempo equiespaciados, usualmente sobre un periodo
de tiempo o espacio. Los modelos disponibles para pronosticar valores futuros incluyen:
medias móviles, caminata aleatoria, varios tipos de suavizadores exponenciales, modelos
de tendencias, y modelos paramétricos ARIMA. Estadísticas son calculadas para
comparar el ajuste de hasta 5 modelos al mismo tiempo.
Este procedimiento esta diseñado para usuarios que desean seleccionar su propio modelo.
El procedimiento Pronósticos Automáticos ajusta varios modelos y automáticamente
selecciona el mejor modelo de acuerdo a un criterio especificado por bondad-del-ajuste.
El archivo golden gate.sf6 contiene volúmenes mensuales de trafico del Golden Gate
Bridge en San Francisco para un periodo de n = 168 meses desde Enero, 1968 hasta
Diciembre, 1981. La tabla de abajo muestra una lista parcial de los datos de este archivo:
Month Trafiic
(Mes) (Trafico)
1/68 73.637
2/68 77.136
3/68 81.481
4/68 84.127
5/68 84.562
6/68 91.959
7/68 94.174
8/68 96.087
9/68 88.952
10/68 83.479
11/68 80.814
12/68 77.466
1/69 75.225
… …
Los datos fueron obtenidos de una publicación del Golden Gate Bridge.
Como un ejercicio, los datos de los últimos dos años (1980 y 1981) no serán usados para
estimar el modelo de pronóstico, pero serán utilizados para validación estadística.
Entrada de Datos
La caja de dialogo para la entrada de datos solicita el nombre de la columna que
contienen los datos de la serie de tiempo:
• Ajuste de los Días: Una variable numérica con n observaciones es utilizada para
normalizar las observaciones originales, por ejemplo el número de días trabajados en
un mes. Las observaciones en la columna Datos pueden ser divididos por estos
valores antes de dibujar un grafico o calcular un análisis. Debe haber suficientes
entradas en esta columna para cubrir tanto los datos observados como el número de
periodos en los cuales se solicitan los pronósticos.
En el ejemplo actual, los datos de trafico son mensuales empezando en Enero, 1968, y se
tiene una estacionalidad de s = 12. Un m = 24 observaciones al final de la serie de tiempo
con propósitos de retención para la validación, mientras los pronósticos pueden generarse
de los siguientes 36 meses.
• Modelo: El modelo para el cual las otras configuraciones sobre la caja de dialogo
aplican. Hasta cinco modelos de pronósticos pueden ser considerados al mismo
tiempo, etiquetados A, B, C, D, y E.
• Inflación: Ajusta los datos con una inflación usando la razón de inflación
especificada λ antes de ajustar el modelo. Si se aplica al principio del periodo, el
ajuste es
yt
y t′ = (1)
(1 + λ )(t −t +1)
0
yt
yt′ = (2)
(1 + λ ) (t −t0 +0.5)
Nota: Las transformaciones son aplicadas a los datos antes de que el modelo de
pronósticos sea estimado. Si más de una transformación es requerida, serán aplicadas
en el siguiente orden:
Después de que los pronósticos son generados, las transformaciones inversas pueden
aplicarse a los pronósticos en orden inverso.
Pronostico Hacia Atrás: Sirve para pronosticar valores antes del tiempo t = 1. Estos
valores son usados para generar los valores iniciales los cuales son necesarios para
generar pronósticos de valores pequeños de t. Para mas detalles, ver Box, Jenkins y
Reinsel (1994).
Modelos de Pronósticos
Cada uno de los modelos de pronósticos toma una aproximación diferente para
pronosticar valores futuros. En la discusión de abajo, la siguiente notación será usada:
et = Yt - Ft-1(1) (3)
Dado que m observaciones del final de la serie han sido usadas para propósitos de
validación, dos estadísticas importantes de validación son:
RMSE = Raíz del cuadrado medio error sobre el periodo de validación, dado por
∑e 2
n +i
RMSE = i =1
(4)
m
∑e n +i / Yt +i
MAPE = 100 i =1
% (5)
m
Este modelo es frecuentemente usado para datos que no tienen una media fija y para los
cuales la historia del modelo es irrelevante dado la posición actual. La serie de tiempo es
igualmente parecida hacia delante que hacia atrás en cualquier punto del tiempo.
Ft (k ) = Yt + kΔˆ (7)
Para los datos del ejemplo, el modelo aleatorio de walk podría ser usado incluyendo la
constante y la serie de tiempo es primeramente ajustada periódicamente. Los resultados
son mostrados enseguida:
113
93
73
1/68 1/72 1/76 1/80 1/84 1/88
La tabla muestra:
Observe que los límites de predicción anchos, son típicos de un modelo aleatorio walk.
Modelos de Tendencia
La Media, Tendencia Lineal, Tendencia Cuadrática, Tendencia Exponencial, y Modelos
S-Curva todos estiman varios tipos de modelos de regresión a los datos, usando tiempo
como la variable independiente. Los modelos son ajustados por mínimos cuadrados,
resultando estimadores de hasta 3 coeficientes a, b, y c. Los pronósticos de los modelos
son como sigue:
(
Tendencia Exponencial: Ft (k ) = exp aˆ + bˆ(t + k ) ) (11)
Puesto que ponderan todos los datos igualmente, los modelos de regresión no son
frecuentemente los mejores métodos para pronosticar series de tiempo.
Para los datos del ejemplo, el mejor modelo de tendencia ajustado es la Tendencia
Cuadrática, estimada después de ajustar la estacionalidad.
93
83
73
1/68 1/72 1/76 1/80 1/84 1/88
Medias Móviles
El modelo de Medias Móviles usa el promedio de las más recientes c observaciones para
pronosticar los valores futuros. Los pronósticos son dados por:
c −1
∑Y t −i
Ft (k ) = i =0
para toda k ≥ 1 (13)
c
Tal modelo puede modelar series que se mueven hacia arriba y abajo, pero tienden
retrasar atrás de la serie actual.
93
83
73
1/68 1/72 1/76 1/80 1/84 1/88
Suavizamiento Exponencial
Los modelos Suavizamiento Exponencial Simple, Suavizamiento Exponencial Lineal de
Brown, y Suavizamiento Exponencial Cuadrático estiman tendencias similares a los
modelos de Tendencias Media, Lineal, y Cuadrática, respectivamente. Sin embargo,
estos lo hacen ponderando las observaciones recientes más pesadamente que las que están
más allá en el pasado.
Para generar los pronósticos, hasta tres pasos de un suavizamiento exponencial son
hechos:
Los valores iniciales en el tiempo t = 0 son determinados por pronósticos hacia atrás (a
menos de que se suprima usando el botón Estimación en la caja de dialogo Opciones del
Análisis), lo cual primero suaviza la serie hacia atrás y después usa el pronostico hacia
atrás para inicializar el suavizamiento hacia adelante. Los pronósticos son generados de
α
Suavizamiento Lineal: Ft (k ) = 2 S t′ − S t′′ + k (S t′ − S t′′) (18)
1−α
Suavizamiento Cuadrático:
α
3S t′ − 3S t′′ + S t′′ + k ((6 − 5α ) S t′ − (10 − 8α ) S t′′ + (4 − 3α ) S t′′′)
2(1 − α ) 2
Ft(k)= (19)
α2
+k 2
(S t′ − 2S t′′ + S t′′′)
2(1 − α ) 2
60
40
20
0
1/68 1/72 1/76 1/80 1/84 1/88
2. Los modelos que son buenos para pronósticos en corto plazo no pueden
pronosticar bien los valores futuros muy lejanos.
Tt = β (S t − S t −1 ) + (1 − β )Tt −1 (21)
Ft (k ) = S t + kTt (22)
113
93
73
1/68 1/72 1/76 1/80 1/84 1/88
Yt
It = γ + (1 − γ ) I t − s (23)
St
Yt
St = α + (1 − α )(S t −1 + Tt −1 ) (24)
I t −s
Tt = β (S t − S t −1 ) + (1 − β )Tt −1 (25)
Ft (k ) = (S t + kTt )I t − s + m (26)
113
93
73
1/68 1/72 1/76 1/80 1/84 1/88
Su desarrollo con los datos del tráfico no es muy bueno como los otros métodos. También
los estimadores son mas difíciles de estimar numéricamente y pueden variar bastante
dependiendo de los valores iniciales del procedimiento de búsqueda.
Modelos ARIMA
La opción final de los modelos de pronósticos, los modelos ARIMA, son los mas
generales e incluyen muchos de los otros modelos como casos particulares. Los modelos
ARIMA (es un acrónimo de “AutoRegressive, Integrated, Moving Average”), expresan la
observación en el tiempo t como una función lineal de las observaciones previas, un
termino del error actual, y una combinación lineal de los términos del error previo.
La forma general del modelo es mas fácilmente expresada en términos del operador de
rezago B, el cual opera en el índice del tiempo de un dato tal como BjYt = Yt-j. Usando este
operador, el modelo toma la forma
(1 − B − B 2
)( )
− ... − B p 1 − B s − B 2 s − ... − B Ps (1 − B ) d (1 − B s ) D Z t
( )(
= 1 − B − B 2 − ... − B q 1 − B s − B 2 s − ... − B Qs a t ) (27)
donde
Z t = Yt − μ (28)
Mientras que el modelo general luce formidable, los modelos mas comúnmente usados
son casos relativamente simples especiales. Estos incluyen:
Yt = μ + φ1 (Yt −1 − μ ) + a t (29)
Yt = μ + a t − θ 1 a t −1 (31)
Yt = μ + a t − θ 1 a t −1 − θ 2 a t − 2 (32)
Yt = μ + φ1 (Yt −1 − μ ) + a t − θ 1 a t −1 (33)
Yt − Yt −1 = a t − θ 1 a t −1 (34)
Yt = Yt − s + Yt −1 − Yt − s −1 + a t − θ 1 a t −1 −Θ 1 a t − s + θ 1 Θ 1 a t − s −1 (36)
103
93
83
73
1/68 1/72 1/76 1/80 1/84 1/88
Intuitivamente, el modelo expresa la diferencia del trafico en este mes comparado con el
mismo mes del ultimo año como si fuera igual a la diferencia observada en el ultimo mes,
mas una combinación de ruido observada del ultimo mes, del ultimo año y hace 13
meses.
La referencia clásica para construir modelos ARIMA es Box, Jenkins y Reinsel (1994).
Pronósticos - Traffic
Datos/Variable: Traffic (Golden Gate Bridge Traffic Volume)
Resumen de Pronósticos
Diferenciación no estacional de orden: 1
Diferenciación estacional de orden: 1
Modelo de pronóstico seleccionado: ARIMA(0,1,1)x(0,1,1)12
Número de pronósticos generados: 36
Número de periodos retenidos para validación: 24
Periodo de Periodo de
Estadístico Estimación Validación
RMSE 2.1868 1.46574
MAE 1.38616 1.23025
MAPE 1.52679 1.26567
ME -0.0410165 -0.000900154
MPE -0.080606 -0.0111287
• Resumen de los Datos: La sección superior resume los datos de entrada y el tamaño
de la estacionalidad s, si la hay.
• Resumen del Pronóstico: Indica cualquier transformación que fue hecha a los datos,
como tan bien el tipo de modelo que fue ajustado. El numero de periodos m que
fueron usados para propósitos de validación también son mostrados.
• Tabla de Estadísticas: Muestra las estadísticas calculadas del error un paso adelante
durante los periodos de estimación y validación. Además la raíz del cuadrado medio
del error (RMSE) y el porcentaje de la media de error absoluto (MAPE) descrito
anteriormente, el programa también despliega la medio del error absoluto (MAE), la
media del error (ME), y el porcentaje medio del error (MPE). Idealmente, RMSE,
MAE, y MAPE deben ser pequeños, ya que miden la variabilidad de los errores del
pronóstico. ME y MPE deben acercarse a 0 si el pronostico no esta sesgado.
• Resumen del Modelo ARIMA – Despliega estadísticas para los coeficientes del
modelo ARIMA estimado. Una tabla similar será desplegada cuando los modelos de
tendencias son ajustados usando regresión de mínimos cuadrados. Es de interés:
103
93
83
73
1/68 1/72 1/76 1/80 1/84 1/88
El grafico muestra:
1. Los datos observados Yt, incluyendo algunos remplazaos para datos perdidos,
mostrados como puntos símbolos.
2. El pronostico un paso adelante Ft(1), grafica una línea sólida a través de los
puntos. Esta es creada usando el modelo estimado, pronosticando cada periodo de
tiempo t+1 usando solo la información disponible hasta el tiempo t. Los errores
del pronostico un paso adelante et son observables como la distancia vertical entre
las observaciones y la línea sólida.
3. Los pronósticos para valores futuros Fn+m(k) hechos en el tiempo t = n+m, para el
ultimo tiempo en el cual los datos son disponibles. Estos son mostrados por la
extensión de la línea de pronósticos sólida más allá de la última observación.
Fn + m (k ) ± zα / 2 Vˆ (k ) (37)
El patrón pronosticado para el tráfico del Puente Golden Gate tiene una tendencia
ascendente con una fuerte oscilación estacional. Aunque los límites de pronósticos
pueden parecer bastante amplios, se debe permitir la posibilidad de eventos dramáticos
tales como los que fueron observados un par de veces en el pasado.
Tabla de Pronósticos
La Tabla de Pronósticos despliega los pronósticos para el histórico y el futuro. Una
porción de la salida se muestra abajo:
• Datos: Los valores observados Yt, incluyendo reemplazos por valores perdidos.
Por ejemplo, el tráfico pronosticado en el puente Golden Gate en junio de 1982, fue
hecho al final de 1981, con 104.8. El límite al 95% es de 96.5 hasta 113.2.
104
94
84
74
12/81 12/82 12/83 12/84 12/85
Es similar al Gráfico Secuencial del Tiempo, excepto que proporciona una vista más
cercana sobre los pronósticos.
Comparación de Modelos
El panel Comparación de Modelos despliega estadísticas que comparan cada uno de los
modelos seleccionados en la caja de dialogo Opciones del Análisis.
Comparación de Modelos
Variable de datos: Traffic
Número de observaciones = 168
Indice Inicial = 1/68
Intervalo de Muestra = 1.0 mes(es)
Longitud de la estacionalidad = 12
Número de periodos retenidos para validación: 24
Modelos
(A) ARIMA(0,1,1)x(0,1,1)12
(B) Suavización exp. de Winter con alfa = 0.5167, beta = 0.0209, gama = 0.4997
Periodo de Estimación
Modelo RMSE MAE MAPE ME MPE
(A) 2.1868 1.38616 1.52679 -0.0410165 -0.080606
(B) 2.40367 1.55478 1.70574 -0.272691 -0.312487
Periodo de Validación
Modelo RMSE MAE MAPE ME MPE
(A) 1.46574 1.23025 1.26567 -0.000900154 -0.0111287
(B) 1.81155 1.56671 1.57305 -0.0889473 -0.0567873
Clave:
RMSE = Root Mean Squared Error (Raíz del Cuadrado Medio del Error)
RUNS = Prueba corridas excesivas arriba y abajo
RUNM = Prueba corridas excesivas arriba y abajo de la mediana
AUTO = Prueba de Box-Pierce para autocorrelación excesiva
MEDIA = Test for difference in mean 1st half to 2nd half
VAR = Prueba para diferencia en varianza entre la 1ª mitad y la 2ª mitad
OK = no significativo (p >= 0.05)
* = marginalmente significativo (0.01 < p <= 0.05)
** = significativo (0.001 < p <= 0.01)
*** = altamente significativo (p <= 0.001)
Los mejores modelos tienen RMSE, MAE y MAPE más pequeños, los cuales miden la
varianza de los errores del pronóstico. ME y MPE son medidas del sesgo y deberán ser
cercanos a 0.
Para el periodo de estimación solamente, varias pruebas son aplicadas a los errores de
pronósticos para determinar si el modelo toma en cuenta toda la estructura en los datos.
Estas pruebas son diseñadas para determinar si los residuos forman una serie aleatoria
(“ruido blanco”) y son descritas en la documentación Métodos Descriptivos de Series
Tiempo – Estas incluyen:
Ambos modelos estimados a los datos del tráfico pasan todas las pruebas excepto la que
compara las dos varianzas. La última prueba es altamente significativa. Esto se observara
cuando los residuos sean examinados, esta falla es debido a la presencia de tres grandes
residuos durante la segunda mitad del periodo de estimación.
Gráficos de Residuos
El Gráfico de Residuos despliega el error un paso adelante et de varias maneras. Por
defecto la grafica muestra los residuos en orden secuencial:
0
Residuo
-4
-8
-12
1/68 1/71 1/74 1/77 1/80 1/83
Observe que los tres más grandes picos ocurren entre marzo y abril de 1974 y mayo de
1979. El tráfico en esos meses cambia mucho de lo normal.
80
50
20
5
1
0.1
-12 -8 -4 0 4 8
Residuo
Si los residuos vienen de una distribución normal, deberían caer cerca de la línea recta.
La grafica anterior muestra alguna curvatura en las colas, más 3 datos atípicos.
Auto-correlaciones de Residuos
Es usual también examinar las auto-correlaciones de los residuos. La auto-correlación de
los residuos en un retraso k mide la fuerza de la correlación entre residuos de k periodos
distantes. La auto-correlación de los residuos un retraso k es calculada de
n−k
∑ (e t − e )(et + k − e )
rk = t =1
n
(38)
∑ (e − e)
2
t
t =1
0.6
Autocorrelaciones
0.2
-0.2
-0.6
-1
0 5 10 15 20 25
retraso
Las barras que se extienden más allá de los límites corresponden a auto-correlaciones
estadísticamente significativas.
Para los datos del trafico, la única estimación que esta cercana a un limite de probabilidad
es la estimación con k = 2. De hecho, una leve reducción leve de RMSE durante el
periodo de estimación puede realizarse incrementando el orden con el termino no
estacional MA de 1 a 2. Sin embargo, la realización del modelo durante el periodo de
validación es peor que con el modelo actual, se seleccionara el modelo más simple.
0.6
0.2
-0.2
-0.6
-1
0 5 10 15 20 25
retraso
Todos las auto-correlaciones deberán estar dentro de estos límites, como en la grafica
anterior.
La tabla incluye:
• Periodo: El periodo asociado con la frecuencia de Fourier , dado por 1/ fi. Esto es el
número de observaciones en un ciclo completo de esta frecuencia.
• Remover media: Activar para restar la media de la serie de tiempo antes de calcular
el períodograma.
Períodograma de Residuos
El Períodograma de Residuos grafica las ordenadas del períodogramas de los residuos:
30
Ordenada
20
10
0
0 0.1 0.2 0.3 0.4 0.5
frecuencia
Si los residuos son aleatorios, no deberá haber picos notables. Permitiendo algún sesgo
natural en la distribución de las ordenadas, la grafica anterior no muestra grandes picos.
• Remover media: Activar para restar la media de la serie de tiempo antes de calcular
el períodograma.
0.8
Ordenada
0.6
0.4
0.2
0
0 0.1 0.2 0.3 0.4 0.5
frecuencia
Una línea diagonal será incluida en el grafico, junto con límites de Kolmogorov-Smirnov
al 95% y 99%. Si los residuos son aleatorios, el períodograma integrado debería caer
entre de estos límites al 95% y 99%. Para los datos del tráfico, los residuos parecen ser
ruido blanco.
Pruebas de Aleatoriedad
El panel Pruebas de Aleatoriedad muestra resultados de pruebas para corridas
adicionales para determinar si los residuales son o no puramente aleatorios:
1. Corridas por encima y por debajo de la mediana: Cuenta el número de veces que
la serie va por arriba y por debajo de su mediana. Este número es comparado con
el valor esperado para una serie aleatoria. Los valores P pequeños (menores que
0.05 si opera a un nivel de confianza del 95%) indican que los residuos no son
puramente aleatorios.
2. Corridas arriba y abajo: Cuenta el número de veces que la serie sube o baja. Este
número es comparado con el valor esperado para una serie aleatoria. Los valores
P pequeños indican que los residuos no son puramente aleatorios.
k
Q = n∑ ri 2 (39)
i =1
Ya que los valores P para las tres pruebas están por encima de 0.05, no hay razón para
dudar que los residuos sean ruido blanco.
Retraso Retraso
-8 -0.0530088
-7 0.00912287
-6 0.0463566
-5 0.127723
-4 0.13986
-3 0.163528
-2 0.206428
-1 0.174213
0 0.09082
1 -0.0977499
2 -0.364327
3 -0.515241
4 -0.417341
5 -0.237661
6 -0.0153997
7 0.0512618
8 0.0298728
• Segunda Serie de Tiempo: Las observaciones para la serie X. Observe el uso del
operador DIFF para calcular la primera diferencia de la columna de Entrada.
0.2
-0.2
-0.6
-1
-25 -15 -5 5 15 25
retraso
Observe los picos más grandes de correlaciones negativas en el retraso 3. Esto implica
que los cambos los cambios en la razón del gas a la entrada están correlacionados con los
residuos del modelo ajustado a la salida y podrían ser utilizados para mejorar el
pronóstico.
Grabar Resultados
Los siguientes resultados pueden ser guardados en una hoja de datos:
2. Datos Ajustados – La serie de tiempo para los datos después de cualquier ajuste
hecho.
3. Pronósticos – Los valores de pronósticos dentro y más allá del periodo muestral.
Cálculos
∑e
i =1
2
n +i
RMSE = (40)
m
∑e n+i / Yt +i
MAPE = 100 i =1
% (41)
m
∑e n +i
MAE = i =1
(42)
m
∑e n +i
ME = i =1
(43)
m
m
en +i
∑Y
i =1
MPE = 100 n +i
% (44)
m
Vˆ (k ) = kσˆ a (45)
Modelo de Medias
⎛ 1⎞
Vˆ (k ) = σˆ a ⎜1 + ⎟ (46)
⎝ n⎠
⎛ 1⎞
Vˆ (k ) = σˆ a ⎜1 + ⎟ (47)
⎝ c⎠
(
Vˆ (k ) = σˆ a 1 + (k − 1)α 2 ) (48)
⎛ k (k − 1)(2k − 1)λ12 ⎞
Vˆ (k ) = σˆ a ⎜⎜1 + (k − 1)λ0 + + λ0 λ1 k (k − 1) ⎟⎟
2
(49)
⎝ 6 ⎠
donde λ0 = α (2-α) y λ1 = α2
⎛ k (k − 1)(2k − 1)λ12 ⎞
Vˆ (k ) = σˆ a ⎜⎜1 + (k − 1)λ0 + + λ0 λ1 k (k − 1) ⎟⎟
2
(50)
⎝ 6 ⎠
donde λ0 = α y λ1 = αβ
Modelos de Tendencias
Los limites de pronostico son calculados con formulas de regresión para predecir una
nueva observación en el tiempo t = n + m + k, incluidas el uso de la distribución t de
Student con el numero apropiado de grados de libertad.
Modelos ARIMA
Los cálculos que siguen los métodos de Box, Jenkins y Reinsel (1994), los cuales
involucran encontrar la función Ψ para expresar las observaciones en el tiempo t en
términos de errores actuales y previos.