Está en la página 1de 13

19.

- (Selección de modelos para datos CM1) Reconsiderar el problema ARM


del ejemplo 8.6, pero ahora considera un modelo de series de tiempo con dos
meses anteriores de datos como predictores.

(a) Use un paquete informático para la regresión lineal múltiple para ajustar el
modelo

a los datos CM1.

(b) Interprete el valor de R2 para este modelo, y comparar con los resultados
del Ejemplo 8.6.

(c) Haz un diagrama para los residuales de este modelo, similar a la Figura
8.18 en el texto. ¿Aparecen los residuos para formar una secuencia de ruido no
correlacionado estacionaria?

d) Iterar la ecuación del modelo de la parte (a) y estimar el índice CM1 en mayo
de 1990. Utilice la desviación estándar reportado para dar un intervalo de
predicción de 95%. Comparar con los resultados del Ejemplo 8.6. Es mucho
mejor este nuevo modelo?
SERIES DE TIEMPO

Una serie temporal es un proceso estocástico que varía con el tiempo, por lo
general observada a intervalos fijos. La temperatura diaria y precipitaciones, los
niveles mensuales de desempleo, y los ingresos anuales son algunos ejemplos
típicos de series de tiempo. La herramienta básica para la serie de tiempo de
modelado es la regresión lineal, introducido en la Sección 8.3. Por esa razón,
esta sección puede ser considerado como un seguimiento a la Sección 8.3, que
introduce algunas aplicaciones y métodos adicionales. De hecho, el ejemplo
consideramos siguiente es una extensión del problema ARM de esa sección.
En esta sección se requiere una aplicación numérica de regresión múltiple; es
decir, la regresión lineal con más de un predictor. Este está disponible en un
paquete estadístico (por ejemplo, Minitab, SAS, SPSS) o una hoja de cálculo
(por ejemplo, Excel). Dado que no es razonable realizar estos problemas a
mano, no se le dará un completo conjunto de fórmulas de cálculo

Ejemplo 8.5. Hipotecas de tasa ajustable en viviendas particulares se basan


habitualmente en uno de los varios índices de mercado tabulados por el banco
federal de préstamos hipotecarios. Hipoteca del autor se ajusta anualmente
sobre la base de la de un año Constant Maturity (CM1) Índice del Tesoro
estadounidense para mayo de cada año. Los datos históricos correspondientes
al período de tres años que comenzará el 06 1986 se muestran en la Tabla 8.1
(Fuente: Junta de Gobernadores de la Reserva Federal). Utilice esta
información para proyectar el valor estimado de este índice en mayo de
1990, la fecha del próximo ajuste.

Ejemplo 8.6. Reconsiderar el problema ARM del Ejemplo 8.5 pero ahora
considerar la relación entre el índice de hipotecas en diferentes momentos.
Responde a la misma pregunta de antes: Estimar el valor del índice CM1 en
mayo de 1990 utilizando los datos proporcionados en los valores del índice
CM1 desde junio 1986 hasta junio 1989.

Vamos a utilizar el método de cinco pasos. Paso 1 es la misma que antes,


excepto que ahora también quiere tener en cuenta la dependencia entre el
índice de CM1 en diferentes momentos. Estamos tratando de estimar la
evolución futura de una variable que muestra una tendencia a crecer con
el tiempo, junto con algo de fluctuación aleatoria. Sea X (t) denota el de un
año Constant Maturity (CM1) Índice del Tesoro de EE.UU. en el momento t
meses después de mayo de 1986. Una gráfica de x (t) para t = 1; :::; 37 se
muestra en la Figura 8.10. Queremos estimar X (48). Vamos a suponer que X(t)
depende del tiempo t, los valores anteriores Xt-1, Xt-2; ::: y un elemento
aleatorio. Entonces queremos predecir el EX48 media junto con una estimación
adecuada de incertidumbre.
Paso 2 es para seleccionar el método de modelización. Vamos a modelar este
problema como una serie de tiempo y adaptarse a un modelo autorregresivo.

Una serie de tiempo es una secuencia de variables aleatorias {Xt} que varía en
el tiempo t = 0, 1, 2; ::: de acuerdo con algún patrón aleatorio. La clave para el
modelado de series de tiempo es reconocer el patrón. Un supuesto típico es
que el patrón implica una tendencia añadido a una serie de tiempo
estacionaria. La tendencia es una función no aleatoria que varía con el tiempo,
y representa el valor medio de la serie. Una vez que se elimina la tendencia,
nos quedamos con una serie de tiempo de media cero, y queremos modelar su
estructura de dependencia. El caso más simple es donde

la serie de tiempo restante se compone de variables aleatorias independientes.


Sin embargo, es típico encontrar dependencia entre estas variables. La
dependencia se mide en términos de la covarianza. Para dos variables
aleatorias X1 y X2, la covarianza

dónde , el valor esperado o media. La covarianza mide la


relación lineal entre las dos variables. Si X1 y X2 son independientes,
entonces la covarianza Cov (X1; X2) = 0. Una covarianza positiva indica que
un valor más alto que el promedio de X1 es probable que se encuentre en
compañía de un valor más alto que el promedio de X2. Del mismo modo, un
valor bajo de X1 normalmente se encuentra a lo largo con un bajo valor de X2.
Por ejemplo, si X1 es el ingreso de un individuo y X2 es su impuesto sobre la
renta, entonces Cov (X1, X2) sería positivo. Usted no puede deducir el
impuesto sobre la renta sabiendo sólo el ingreso, pero es una buena
apuesta que alguien con una renta alta paga más impuestos, y alguien
con una renta baja paga menos. Matemáticamente, (X1? 1) es la desviación
de los ingresos de la media, y lo mismo para (X2-? 2). Los promedios de
covarianza El producto de estas. Si uno tiende a ser positivo cuando el otro es
positivo, y negativo cuando el otro es negativo, entonces la covarianza es
positiva, lo que indica una relación positiva. Para otro ejemplo, la mediana X1
precio de una casa en un pueblo se correlacionó negativamente con el
porcentaje de familias X2 ser dueños de su propia casa. Aquí? 1 es el precio
promedio de una casa en todos los pueblos, y? 2 es el porcentaje medio de
familias propietarias de su propia casa, a lo largo de todos los pueblos. ??
Cuando X1- 1 es positivo, entonces X2 - 2 es probable que sea negativo, y
viceversa, por lo que su promedio Cov (X1, X2) será negativo, lo que indica una
relación negativa entre estas dos variables. También tomamos nota de que la
correlación sólo captura una relación lineal. Consideremos el caso donde
X1 es la presión de aire en un neumático de automóvil y X2 es la vida de la
banda. Si X1 es cerca de la media? 1, la presión de aire recomendada,
entonces X2 será el más alto. Si X1 es o bien más pequeña o más grande que
su media, entonces X2 disminuirá. La covarianza no capta este tipo de
dependencia. Por último, observamos que la covarianza es también una
generalización de la varianza, en el sentido de que Var (X) = Cov (X, X).

Un primo cercano de la covarianza es la correlación

que es una versión adimensional de la covarianza. Aquí (sigma)2i = Var (Xi) es


la varianza, de modo que (sigma)i es la desviación estándar de la variable
aleatoria Xi. Dado que tanto u(i) y (sigma)i tienen las mismas unidades que Xi,
las unidades se anulan, dejando una medida adimensional de la dependencia.
De nuevo, si X1 y X2 son independientes, entonces corr (X1, X2) = 0, y
decimos que X1 y X2 están correlacionados. También puede demostrarse
que los satisface de correlación -1≤ro ≤1 en todos los casos, los casos
extremos ro= ± 1 correspondiente al caso de la dependencia perfecto donde X2
es una función lineal de X1. Si ro > 0, decimos que X1 y X2 están
correlacionados positivamente, y si ro<0, nos dicen que tienen una correlación
negativa.

La correlación es una medida útil de la dependencia en una serie de tiempo. En


ese contexto que llamamos ro(t; h) = Corr (Xt; Xt + h) la función de
autocorrelación de las series temporales. Se mide la dependencia de serie
entre la serie de veces en diferentes momentos. La serie de tiempo se llama
estacionario (o, a veces débilmente estacionario) si la media E (Xt) y la función
de autocorrelación (h; t)? Son constantes en el tiempo. En el análisis de series
de tiempo, a menudo es necesario sin tendencia serie para conseguir algo que
es estacionaria. En el Ejemplo 8.5 sin tendencia que la CM1 serie Xt veces
mediante el uso de regresión para identificar una tendencia lineal + bt, dejando
una media cero (centrada) de error término "t que modela como independientes
e idénticamente distribuidos. En el contexto de análisis de series temporales,
esto se denomina ruido aleatorio. es la serie de veces más simple centrada.
Más en general, se podría esperar que la serie centrada es al menos
estacionario, con una estructura de correlación que sigue siendo la misma con
el tiempo. Hay varias pruebas para estacionariedad, pero la más sencilla
es sólo para trazar los errores "t en el tiempo para ver si se parecen
seguir un patrón consistente (al azar). Una indicación típica de no
estacionariedad sería un ensanchamiento o estrechamiento de la
distribución de la "t en el tiempo. Esto se llama heterocedasticidad, que sólo
significa que la varianza cambia. Una vez que estamos satisfechos de que una
serie de tiempo centrada es estacionaria, intentamos modelar su estructura de
covarianza. El modelo útil más simple para esto se llama un proceso
autorregresivo
donde por conveniencia, también hemos incluido la tendencia. El parámetro p
se denomina el orden del proceso autorregresivo, a veces abreviado como
AR(p). En el contexto de la regresión lineal, podemos ajustar los parámetros de
un proceso autorregresivo mediante la regresión de las observaciones Xt
contra múltiples predictores. El primero es el tiempo t, como en la Sección 8.3.
Los predictores restantes son las observaciones anteriores Xt-1; :::; Xt-p. Ahora
el truco es elegir un valor razonable para el parámetro p, y hay dos formas
principales de hacer esto. Una forma es mirar el valor R2, que mide la
cantidad de la variabilidad en Xt es capturado por los predictores. Desde
cualquier dato adicional le dará por lo menos un poco mejor predicción, la
adición de un predictor siempre hará aumento R2. Sin embargo, un
aumento muy pequeño no vale la pena la molestia de llevar a otro
predictor, por lo que uno simplemente puede añadir predictores Xt-1, Xt-2,
y así sucesivamente, uno por uno, hasta que la mejora adicional en R2 es
mínimo. Algunos paquetes también se emite un valor de R2 ajustado que
incluye una penalización por un mayor número de predictores. Si está
disponible, se puede simplemente añadir predictores hasta que el R2
ajustado empieza a disminuir (o más en general, consideran varios
modelos y escoger el más grande con el R2 ajustado). Estos paquetes
también enumeran típicamente las sumas secuenciales de plazas que pueden
ser interpretadas como una extensión de la estadística R2. Recordemos que
para una (una predictor) modelo de regresión lineal simple, la fórmula (8.39)
para R2 es la suma de los cuadrados de las regresiones (-Y yi) dividido por la
suma de los cuadrados de las variaciones totales (Yi - Y). Las sumas de
cuadrados secuenciales son sólo los componentes individuales de la suma de
los cuadrados de las regresiones, un predictor a la vez, para medir la variación
adicional capturada por cada predictor adicional. En cuanto a las sumas de
cuadrados secuenciales es otra manera de medir el valor adicional de otro
predictor, esencialmente equivalente a mirar el cambio en el valor R2.
Información adicional se encuentra en los valores de p para cada uno de
los coeficientes de regresión estimada a; b, y ci. El p-valor indica la
probabilidad de que el valor del parámetro podría haber ocurrido por
casualidad, a pesar de que el predictor no tiene cabida en el modelo (o
equivalentemente, que pertenece en el modelo con un coeficiente de cero). Por
lo tanto, un pequeño valor de p (por ejemplo, p <0:05) indica una fuerte
evidencia de que el predictor pertenece en el modelo. Sin embargo, esto es
menos importante que el indicador R2, ya que un predictor puede ser
estadísticamente significativamente relacionada con la variable dependiente Xt
estamos tratando de predecir, y aún agregar una pequeña cantidad de
información. Por lo tanto, nosotros no podríamos considerar útil incorporar.
Este es el principio de parsimonia: Hacer que el modelo lo más simple posible,
sin sacrificar la capacidad de predecir.
El segundo método para el modelado autorregresivo es considerar los
residuos del modelo de series de tiempo, que son simplemente nuestras
estimaciones del término de error (epsilon)t. Una vez que hemos
determinado nuestras estimaciones de los parámetros a, b, y ci de la
regresión, podemos utilizar la fórmula

para estimar los errores. Dado que nuestro objetivo es incluir suficientes
predictores en el modelo para capturar la estructura de dependencia, nos
gustaría que la secuencia Q resultado es una secuencia de ruido no
correlacionado. Podemos comprobar esto mediante el cálculo de la función de
autocorrelación de los residuales. La mayoría de los paquetes estadísticos se
calculará automáticamente los residuos y su función de autocorrelación, así
como los valores de p o barras de error para la función de autocorrelación? (H).
Las barras de error indican los valores probables de? (H) en el caso de una
secuencia de ruido, y los valores fuera de estos bares (también indican con un
p-valor bajo, por lo general menos de 0,05) indican una correlación
estadísticamente significativa. Dado que la función de autocorrelación asume
un proceso estacionario, también es aconsejable comprobar esto utilizando
representaciones gráficas de los residuales.

Paso 3 es formular el modelo. Vamos a modelar el índice CM1 Xt en el tiempo t


meses después de mayo de 1986 como una serie autorregresivo tiempo con
una tendencia lineal. Por lo tanto, estamos asumiendo que la ecuación. (8.45)
se cumple para algunas constantes a, b, c1;: ::; . cp y alguna secuencia de
ruido "t Con el fin de elegir un valor adecuado para el parámetro p, vamos a
considerar una secuencia de modelos cada vez más complejo p = 0, 1, 2; :::
hasta lograr un resultado satisfactorio, se indica mediante un modelo con
(esperemos) un pequeño número de predictores que parece tener una
secuencia de ruido no correlacionado de residuos. Entonces podemos proceder
a estimar (pronóstico) el valor Xt del índice CM1 en el mes t = 48, que es mayo
de 1990, junto con límites de error correspondientes.
Figura 8.14: Gráfico de CM1 residuos E (t) frente al tiempo para el modelo de
regresión simple de la ecuación (8.30).

Xt valor del índice CM1 en el mes t = 48, que es mayo de 1990, junto con los
límites de error correspondientes.

El paso 4 es para resolver el problema. Vamos a utilizar el paquete


estadístico Minitab que cuenta con cómodas instalaciones para la
regresión múltiple, análisis de series de tiempo, y la pantalla gráfica.
Comenzamos por examinar con más detalle los resultados de la modelación en
el Ejemplo 8.5. Allí, nos ajustamos un modelo de regresión lineal simple de la
forma Xt = a + bt +(epsilon)t. Los resultados se resumen en la Figura 8.11. La
línea de regresión de mejor ajuste está dado por a = b = 05:45 y 0: 097, lo que
indica una tendencia al alza en el índice CM1. La estadística s = 0:. 48
estimaciones de la desviación estándar de los errores (epsilon)t, y el estadístico
R2 indica que la tendencia predice el 83% de las variaciones en el índice de
CM1 Xt El p-valores para a y b se dan como 0.000, indicando una fuerte
evidencia estadística de que estos parámetros son diferentes de cero. Nuestro
posterior análisis y predicciones se basaron en el modelo de regresión simple,
que supone que los errores (epsilon)t forman una secuencia de ruido,
independiente e idénticamente distribuidas. Vamos a probar ahora esta
hipótesis utilizando pantallas gráficas y la función de correlación.

Los residuos o errores estimados se calculan como se describe en la Sección


8.3, utilizando los valores estimados de A y B y la ecuación (epsilon)t = XT-
(a+bt). Los valores pronosticados yt = a + bt se representan en la figura 8.12,
junto con los datos originales. Los residuos son simplemente las desviaciones
verticales (yt – ^yt) de los valores de datos de la línea de regresión, donde yt =
Xt es la observación t-ésima del índice de CM1. Por ejemplo, el segundo valor
de datos es y2 = 06:27 y la fittedvalue es ^y2 = 5: 45 + 0: 097 (2) = 5:64, por lo
que el residual es y2- ^y2 = 0:63, lo que indica el segundo punto de datos en la
Figura 8.12 es 0.63 unidades por encima de la línea de regresión.

La figura 8.14 muestra una gráfica de los residuos. Ellos fueron computados en
Minitab haciendo clic en el botón de almacenamiento en la ventana de
regresión y marcando la casilla etiquetada Residuales. El gráfico también se
preparó de Minitab utilizando el comando Graph> Diagrama de dispersión. Los
datos aparecen estacionario en el sentido de que la difusión de los
valores no parece aumentar o disminuir con t. Sin embargo, parece que
puede haber cierta dependencia de serie, sobre todo para t≥20 donde
parece que hay una tendencia al alza. Esto podría indicar muchas cosas,
incluyendo no estacionariedad, un cambio en la estructura de
dependencia de la serie, o alguna correlación.
Para investigar más a fondo, se calcula la función de autocorrelación de los
residuales. La figura 8.15 muestra los resultados de este cálculo con el
comando Stat Minitab> Series de Tiempo> Autocorrelación aplicados a los
residuos almacenados como parte del cálculo de regresión. Las barras
verticales indican la función de correlación (ro)(h) = corr ((epsilon)t;(epsilon) t +
h) como una función del desfase temporal h = 1; 2; 3;::?: Y la curva de puntos
representa las barras de error del 95% . La función de autocorrelación
representa aquí es, por supuesto, una estimación estadística del modelo
de autocorrelación, y las barras de error muestran el rango de variación
normal para esta estimación estadística para una secuencia de ruido no
correlacionado. Por lo tanto, un valor fuera de las barras indica una fuerte
evidencia estadística para una autocorrelación distinto de cero. En la figura
8.15, el primer valor (ro)(1) está bien fuera de las barras de error. Esta es una
indicación de correlación serial en los residuos (epsilon)t de nuestra regresión
simple, la evidencia que se necesita un modelo más complejo para obtener un
correlacionadas (blanco) secuencia de ruido simple. Este tipo de fuerte
correlación positiva puede causar un patrón que se parece a una tendencia,
como se ve en la Figura 8.14, ya que un valor positivo grande de (epsilon)t
hace que sea más probable que el siguiente valor es grande, y así
sucesivamente.

Ahora procedemos a considerar un modelo más complicado veces


autorregresivos serie (8.45) para las series temporales de datos de índice CM1.
Nuestro objetivo es encontrar una serie de predictores p en términos de la
historia pasada del proceso que está en algún sentido óptima. Comenzamos
repitiendo el procedimiento de regresión con p = 1 predictor adicional Xt-1. En
primer lugar, preparamos otra columna de datos Xt-1; es decir, el índice de
CM1 desplaza hacia abajo por un solo lugar. Utilice una simple copia y pegar o
el comando de Minitab Stat> Time Series> Lag. Es necesario dejar fuera el
último valor de índice en la columna de la CM1 desfase de un Xt-1, ya que el
paquete estadístico requiere predictores para tener la misma longitud de datos
como los datos predichos (y, por supuesto, la primera entrada está en blanco o
falta, en este Minitab se denota por un * en esa celda de datos). Los detalles
varían con diferentes paquetes, pero los pasos son similares. Ahora repetimos
el comando de regresión y almacenar los residuos.

Figura 8.16 muestra las porciones de la salida de la computadora de


Minitab. La ecuación de regresión es Xt = 1:60 + 0: 033t + 0: 698Xt-1,
donde Xt es el índice de CM1 t meses después de mayo de 1986. Esto
indica una tendencia al alza junto con algo de la dependencia de serie
entre el índice de CM1 en meses posteriores. El estadístico R2 = 94: 1%
indica que la combinación de la tendencia y el índice CM1 desde el mes
pasado predice el 94,1% de las variaciones en el índice de CM1 este mes.
Esto es una mejora significativa sobre el valor R2 = 83: 0% para el modelo
de regresión lineal simple del Ejemplo 8.5.
Figura 8.15: Función de Autocorrelación de residuos CM1 (epsilon)t frente
retraso para el modelo de regresión simple de la ecuación (8.30).

El ajustado R2= 93: 8% aquí es también superior a la cifra del 82,6% del
ejemplo 8.5, evidencia adicional de que el modelo autorregresivo es superior.
El análisis de las estadísticas de la varianza dar más detalles sobre el cálculo
de R2. Recordando la fórmula (8.39), vemos que R2 es el cociente de dos
sumas de cuadrados. La suma de cuadrados regresiones Σi (^yi-y^(-))^2 = 44:
676 y la suma de los cuadrados de la variación total es Σi (yi-y^(-))^2 = 47: 460.
La relación de estos dos es R2 = 44: 676/47: 460 = 0: 941. Las sumas
secuenciales de tabla de cuadrados indica que 40.924 y 44.676 de la suma
residual de cuadrados proviene de la primera predictor t, y un adicional de 3:
752 proviene de la adición de un segundo predictor Xt-1. Si hubiéramos
enumerado los dos predictores en el orden inverso, entonces estas dos cifras
se cambian, ya que los dos predictores ty Xt-1 no son completamente
independientes, pero ellos todavía añadir a 44.767. También observamos que
el valor de p para la constante a = 1: 5987 es 0.008, el valor de p para el
coeficiente b = 0: 03.299 del predictor t es 0.007, y el valor de p para el
coeficiente c1 = 0: 6977 de Xt-1 es 0.000. Esta es una evidencia adicional de
que todos estos coeficientes son estadísticamente significativamente diferente
de cero y deben ser incluidos en el modelo.

La figura 8.17 muestra el modelo ajustado 1:60 + 0: 033t + 0: 698Xt-1


representa junto con los datos Xt para comprobar la calidad del ajuste. Parece
que el ajuste es mejor que la línea de regresión simple; comparar la figura 8.12.
Ahora una predicción de X48 se puede lograr iterando la ecuación Xt = 1:60 +
0: 033t + 0: 698Xt-1
.

Figura 8.16: modelo autorregresivo para el problema de ARM utilizando el


paquete estadístico Minitab.

a partir de t = 37 (por ejemplo, usar una calculadora de mano o una hoja de


cálculo). este rendimientos

por lo que podemos predecir que el valor del índice de CM1 para mayo 1990
será de 10,28. Usando el modelo de Xt = 1:60 + 0: 033t + 0: 698Xt-1 +
(epsilon)t junto con el hecho de que la desviación estándar estimada de
(epsilon)t es 0: 290471, predecimos (con 95% de certeza) de que el valor de la
índice de CM1 en mayo 1990 será de entre 10: 28 ± 2 (0.29), o en otras
palabras, entre 9,7 y 10,9. Esta es una estimación más precisa que el Ejemplo
8.5 debido a que el modelo de regresión se ajusta más estrechamente, dando
una desviación de error estándar más pequeño. Gráficamente, la desviación
estándar es simplemente la variación vertical típica de los puntos de
datos de la línea de predicción, por lo que un ajuste más cerca da una
menor desviación estándar. Sin embargo, el resultado final es el mismo que
antes: Tasa de interés ARM del autor es probable que aumente de nuevo en
1990. De hecho, este modelo mejorado da una estimación ligeramente más
alto para el índice CM1 mayo de 1990.

Figura 8.17: Gráfico del índice de CM1 en función del tiempo t que muestra el
modelo autorregresivo equipada de la ecuación (8.45) con p = 1.
Figura 8.18: Gráfico de residuales CM1 (epsilon)t en función del tiempo para el
modelo autorregresivo de la ecuación (8.45) con p = 1.

Siguiente examinamos los residuos del modelo para determinar si se asemejan


a un (blanco) secuencia de ruido no correlacionado. Figura 8.18 muestra una
gráfica de los residuos de este AR (1) modelo en función del tiempo. Esta
parcela es más satisfactoria que la figura 8.14, sin evidencia significativa de
correlación serial. También podemos examinar la función de autocorrelación de
estos residuos como lo hicimos antes, y esta trama (no se muestra) indica que
no hay correlación serial, ya que todas las autocorrelaciones están dentro de
los márgenes de error. Por lo tanto, es razonable concluir que el (1) modelo
AR (8,45) con p = 1 capta casi toda la dependencia en la serie temporal
CM1. Para validar esta conclusión, también podemos considerar un
modelo de regresión más con tres predictores: t, Xt-1, y Xt-2. Dejamos los
detalles para un ejercicio (véase el ejercicio 8.19).

Finalmente, llegamos al Paso 5. Ejemplo 8.6 se puede considerar como parte


del análisis de robustez del Ejemplo 8.5. No habíamos previsto que el valor del
índice de CM1 en mayo 1990 sería de 10,1 acerca de 1,1 puntos más que el
valor del índice de mayo de 1989 de 8.98. El modelo más sofisticado
considerado aquí da una estimación refinada de 10.2, un poco más alto.
Recordamos también que en el ejemplo 8.5 hemos producido un intervalo de
predicción de (9.1,11.1) con 95% de confianza. El modelo refinado produce un
intervalo significativamente más estricto de (9.7,10.9). Poniendo todo esto
junto, esperamos que el índice CM1 para mayo 1990 es probable que sea un
poco más de un punto superior a la de mayo de 1989, el valor, y estamos
razonablemente seguros de que va a subir por lo menos 3/4 de un por ciento.

El análisis de sensibilidad podría incluir muchos factores. Por ejemplo, dos de


las observaciones en t = 16; 37 fueron marcados por Minitab para grandes
residuos (ambos eran más de 2,2 desviaciones estándar de la media). Por lo
tanto, podríamos repetir el análisis con estos valores borrados, para ver si esto
hace alguna diferencia significativa. Podríamos considerar una función de
tendencia diferente como a + bt + ct ^ 2 (ver Exercise16) o en b (véase el
ejercicio 18 donde aplicamos esta tendencia a los datos de tiempo de
respuesta para el problema de ubicación de la instalación). También podríamos
añadir más predictores XT-2; XT-3; ::: y comprobar para ver si esto hace una
gran diferencia (véase el ejercicio 8.19). Las posibilidades son literalmente
infinitas, y por lo tanto, algún juicio se llama para. Aquí es donde el principio de
parsimonia viene en. Nuestra meta es obtener una estimación razonable del
índice CM1 de mayo de 1990, sobre la base de los datos disponibles.
Perfeccionar el modelo de regresión simple del ejemplo 8.5 para la AR (1)
modelo del ejemplo 8.6 fue probablemente vale la pena, no tanto por la mejora
de la estimación puntual de 9.2 en lugar de 9.1, sino más bien para el intervalo
de predicción significativamente más fuerte. Si sólo nos importaba la
estimación puntual, regresión lineal simple es entonces probablemente lo
suficientemente bueno. Si vale la pena continuar en esta línea, para considerar
más modelos alternativos con más predictores y / o funciones de tendencia
más complicados, no está tan claro. En el mundo real, el análisis de
sensibilidad puede continuar siempre y cuando el tiempo y los fondos lo
permiten, pero en algún momento el modelador inteligente declarar la victoria y
pasar a un nuevo reto.

Muchas de las preguntas de robustez interesantes son importantes en el


análisis de series de tiempo del mundo real. Una cuestión es la tendencia.
Mientras que utilizamos una tendencia lineal, otras opciones, como una orden
de polinomio mayor (véase el ejercicio 16) o una tendencia no lineal (véase el
ejercicio 18) también puede ser considerado. La adición de más parámetros
siempre mejorar el ajuste, por lo que se requiere atención. Examinando el valor
ajustado R2 es una manera de evitar el exceso de parametrización. A menudo,
la elección de la función de tendencia dependerá de las aplicaciones. Por
ejemplo, para los datos de ingresos o de población, se podría esperar en lugar
de exponencial crecimiento lineal. Otra cuestión importante es cambiar el punto
de análisis: ¿La estructura de correlación o tendencia subyacente función del
cambio de series de tiempo en algún momento durante el período de
recolección de datos? Por ejemplo, esta es una parte importante del debate
sobre el calentamiento global. Series de tiempo es un campo cada vez mayor
tanto en las aplicaciones y la teoría. Un buen lugar para comenzar a aprender
más sobre la teoría subyacente es Brockwell y Davis (1991).

También podría gustarte