Está en la página 1de 28

Introducción

El análisis de series de tiempo busca modelar el mecanismo que da lugar a la serie observada, con
el fin de pronosticar los valores de su comportamiento futuro, a partir de los cuales es posible llevar
a cabo una planeación y tomar decisiones o simplemente se desee conocer su comportamiento. Una
característica algo única de las series de tiempo y sus modelos es que por lo general no se puede
suponer que las observaciones surgen independientemente de una población común (o de
poblaciones con diferentes medias).

Marco teórico

A continuación, se presentan conceptos y definiciones referentes al análisis de Modelos de ARIMA


en series de tiempo, así como también dos ejemplos desarrollados en el software estadístico R.

1. Conceptos previos

1.1 Proceso estocástico

Un proceso estocástico es una familia de variables aleatorias X(w; t), , donde w pertenece al
espacio muestral y t a un conjunto de índice (X).

Para w fijo, X(w; t), como función de t, es una realización del proceso estocástico. Así una serie de
tiempo es una realización de un proceso estocástico.

Para un conjunto finito de variable aleatoria {𝑋𝑡1 , 𝑋𝑡2 , … , 𝑋𝑡𝑛 } de un proceso estocástico {𝑋𝑡 : 𝑡 =
0, ±1, ±1, … }, se define la función de distribución n-dimensional como:

𝐹(𝑧𝑡1 , 𝑧𝑡2 , … , 𝑧𝑡𝑛 ) = 𝑝{𝑤: 𝑧(𝑤, 𝑡1 ), 𝑧(𝑤, 𝑡2 ), … , 𝑧(𝑤, 𝑡𝑛 ) ≤ 𝑧𝑡𝑛 }

1.2 Estacionariedad

Un proceso estocástico es estacionario en sentido estricto si los vectores {𝑋𝑡1 , 𝑋𝑡2 , … , 𝑋𝑡𝑛 } y
{𝑋𝑡1+𝑠 , 𝑋𝑡2+𝑠 , … , 𝑋𝑡𝑛 +𝑠 } tienen la misma función de distribución de probabilidad, independientemente
de s, para cualquier n dado. Esta definición de estacionariedad implica que las características del
proceso estocástico no sufren alteración en tiempos históricamente diferentes, condición quizá
demasiado fuerte para imponer en la práctica.

Un proceso es estacionario en sentido amplio (o estacionario de segundo orden, o de covarianza


estacionaria, o débilmente estacionario) cuando se verifica que 𝜇𝑡 = 𝜇 < ∞ , 𝛾(𝑡, 𝑡 + 𝑘) = 𝛾𝑘 < ∞ es
decir, la media del proceso es constante (no depende del tiempo) y la autocovarianza es solo función
del lapso temporal considerado, y no del tiempo histórico. Los momentos de orden superior pueden
variar con el tiempo.

En el caso de procesos con función de distribución de probabilidad normal, la estacionariedad en


sentido amplio implica la estacionariedad en sentido estricto.

1.3 Función de Autocorrelación

En procesos estacionarios, la función de autocorrelación es:

𝛾𝑘 𝐶𝑜𝑣(𝑋𝑡 , 𝑋𝑡+𝑘 )
ℎ𝑘 = =
𝛾0 𝑉𝑎𝑟(𝑋𝑡 )

Para procesos reales se verifica además que 𝛾0 > 0,ℎ𝑘 = ℎ−𝑘 ,ℎ0 = 1 𝑦 |ℎ𝑘 | ≤ 1.
A la representación gráfica del proceso con ℎ𝑘 en ordenadas y k en abscisas se le denomina
correlograma.

La función de autocorrelación de las senes estacionarias disminuye sensiblemente a medida que


aumenta el desfase temporal k. Esta característica no suele suceder en las series no estacionarias.

1.3.1 Función de autocorrelación estimada (ACF)

La función de autocorrelación ℎ𝑘 se estima mediante la función de autocorrelación muestral,

∑(𝑋𝑡 − 𝑋̅)(𝑋𝑡−𝑘 − 𝑋̅)


𝑟𝑘 =
∑(𝑋𝑡 − 𝑋̅)2

Se denomina correlograma muestral a la representación gráfica de ‘k’ instrumento de gran interés


práctico del análisis de senes temporales.

Para obtener correlogramas debe partirse en la práctica de muestras de tamaño suficientemente


grande (al menos 50 observaciones).

1.3.2 Función de autocorrelación parcial estimada (PACF)

Un concepto muy útil en el análisis de series temporales es la función de autocorrelación parcial.

El primer término de la función de autocorrelación parcial se denota por 𝜙11 , puede estimarse
transformando la serie 𝑋𝑡 en desviaciones respecto a su media muestral 𝑍𝑡 = 𝑋𝑡 − 𝑋̅ a continuación
estimando una regresión de 𝑍𝑡 sobre 𝑍𝑡−1 .

Nótese que para el modelo de regresión 𝑍𝑡 = 𝜙11 𝑍𝑡−1 + 𝜇𝑡 , la pendiente estimada de esta regresión
es 𝜙11 .

 El primer valor de la función de autocorrelación parcial 𝜙11 es igual al primer valor de la


función de autocorrelación, propiedad de las funciones de autocorrelación de todo proceso
estocástico estacionario.

 El segundo valor de la función de autocorrelación parcial 𝜙22 se estima mediante una


regresión de sobre 𝑍𝑡−1 y 𝑍𝑡−2 . El modelo de regresión:

𝑍𝑡 = 𝜙21 𝑍𝑡−1 + 𝜙22 𝑍𝑡−2 + 𝜇𝑡 .

De esta manera la función de autocorrelación parcial puede estimarse mediante una serie de
regresiones, cada una de las cuales contiene como variable explicativa un retardo más que la
anterior, y en cada caso se eligen los coeficientes estimados en los retardos más altos
(𝜙11 , 𝜙22 , 𝜙33 , … ) que son asilos valores estimados de la función de autocorrelación parcial.

Otra manera de obtener la función de autocorrelación parcial estimada es mediante fórmulas


recursivas, utilizando la función de autocorrelación previamente estimada y utilizando las ecuaciones
de Yule-Walker. A veces se suele denominar correlograma a la representación gráfica de las
funciones de autocorrelación y autocorrelación parcial.

1.4 Ruido blanco

Un proceso {𝑋𝑡 } puramente aleatorio, es llamado Ruido blanco y se define por las condiciones:

𝜇 = 𝐸(𝑋𝑡 ) = 0, 𝛾02 = 𝑉𝑎𝑟(𝑋𝑡 ), 𝛾𝑘 = 𝐶𝑜𝑣(𝑋𝑡 , 𝑋𝑡+𝑘 ) 𝑝𝑎𝑟𝑎 𝑘 = 0, ±1, ±2, …


1.5 Modelos Autorregresivos AR(p)

Un modelo autorregresivo AR describe una clase particular de proceso {𝑋𝑡 } en que las observaciones
en un momento dado son predecibles a partir de las observaciones previas del proceso más un
término de error. El caso más simple es el ARIMA(1,0,0) o AR(1) o de primer orden, cuya expresión
matemática es

𝑋𝑡 = 𝜙1 𝑋𝑡−1 + 𝑎𝑡
El proceso autorregresivo de orden p, representado por AR(p), (ARIMA(p,0,0)) se expresa
matematicamente:

(1 − 𝜙1 𝐵 − 𝜙2 𝐵2 − ⋯ − 𝜙𝑝 𝐵𝑝 )𝑋𝑡 = 𝑎𝑡 , 𝑐𝑜𝑛 𝐵𝑘 (𝑋𝑡 ) = 𝑋𝑡−𝑘

Donde 𝐵: es el operador de rezago o retraso, 𝑎𝑡 : error aleatorio (conocido como ruido blanco) tal que
𝑎𝑡 ∼ 𝑁(0, 𝜎^2).

 Un proceso autorregresivo AR(p) es estacionario si las raíces del polinomio en 𝐵 dado


por (1 − 𝜙1 𝐵 − 𝜙2 𝐵2 − ⋯ − 𝜙𝑝 𝐵𝑝 ) caen fuera del circulo unitario.
 Un proceso autorregresivo siempre es invertible

1.6 Modelo de Medias Móviles Ma(q)

Un modelo de medias móviles MA describe una serie temporal estacionaria. En este modelo el
valor actual puede predecirse a partir de la componente aleatoria de este momento y, en menor
medida, de los impulsos aleatorios anteriores. El modelo ARIMA(0,0,1), también denotado por
MA(1), viene dado por la expresión
𝑋𝑡 = 𝑎𝑡 − 𝜃1 𝑎𝑡−1

El proceso de medias móviles de orden q, representado por Ma(q) (ARIMA(0,0,q)), viene dado
por la expresión:
𝑋𝑡 = 𝑎𝑡 − 𝜃1 𝑎𝑡−1 − 𝜃2 𝑎𝑡−2 − ⋯ − 𝜃𝑞 𝑎𝑡−𝑞

que mediante el operador de rezagos, se escribe:

𝑋𝑡 = 𝑎𝑡 − 𝜃1 𝑎𝑡−1 − 𝜃2 𝑎𝑡−2 − ⋯ − 𝜃𝑞 𝑎𝑡−𝑞

 Un proceso de medias móviles es siempre estacionario.


 si las raíces del polinomio en 𝐵 dado por (1 − 𝜃1 𝐵 − 𝜃2 𝐵2 − ⋯ − 𝜃𝑞 𝐵𝑞 ) caen fuera del
circulo unitario.

1.7 Modelos ARMA (p, q)

Una extensión natural de los modelos AR(p) y MA(q) es un tipo de modelos que incluyen tanto
términos autorregresivos como de medias móviles y se definen como ARIMA(p, 0, q). Se
representan por la ecuación:

𝑋𝑡 = 𝜙1 𝑋𝑡−1 +𝜙2 𝑋𝑡−2 + ⋯ + 𝜙𝑝 𝑋𝑡−𝑝 + 𝑎𝑡 − 𝜃1 𝑎𝑡−1 − 𝜃2 𝑎𝑡−2 − ⋯ − 𝜃𝑞 𝑎𝑡−𝑞

lo que equivale a

𝑋𝑡 − 𝜙1 𝑋𝑡−1 − 𝜙2 𝑋𝑡−2 − ⋯ − 𝑋𝑡−𝑝 = 𝑎𝑡 − 𝜃1 𝑎𝑡−1 − 𝜃2 𝑎𝑡−2 − ⋯ − 𝜃𝑞 𝑎𝑡−𝑞

Es decir,
(1 − 𝜙1 𝐵 − 𝜙2 𝐵2 − ⋯ − 𝜙𝑝 𝐵𝑝 )𝑋𝑡 = 𝑎𝑡 (1 − 𝜃1 𝐵 − 𝜃2 𝐵2 − ⋯ − 𝜃𝑞 𝐵𝑞 )

El proceso ARMA(p, q) es estacionario si lo es su componente autorregresiva, y es invertible si lo


es su componente de medias móviles.

2 Modelo 𝐀𝐑𝐈𝐌𝐀(𝐩, 𝐝, 𝐪)(𝐏, 𝐃, 𝐐)𝐒

El modelo ARIMA permite describir un valor como una función lineal de datos anteriores y errores
debidos al azar, además, puede incluir un componente cíclico o estacional, es decir contiene todos
los elementos necesarios para describir el fenómeno. El nombre ARIMA (AutoRegresive Integrated
Moving Average), proviene de sus tres componentes AR (Autoregresivo), l(lntegrado) y MA (Medias
Móviles).

Desarrollados por Box y Jenkins estos modelos estadísticos para series temporales tienen en cuenta
la dependencia existente entre los datos, lo que quiere decir que cada observación en un momento
dado es modelada en función de los valores anteriores. Los análisis se basan en un modelo explícito
y se recomiendan como mínimo 50 observaciones en la serie temporal.

2.1 Modelos 𝐀𝐑𝐈𝐌𝐀(𝐩, 𝐝, 𝐪)

Un modelo ARIMA(0, d, 0) es una serie temporal que se convierte en ruido blanco (proceso
puramente aleatorio) después de ser diferenciada d veces.

EI modelo (0, d, 0) se expresa mediante:

(1 − 𝐵)𝑑 𝑋𝑡 = 𝑎𝑡

El modelo general ARIMA(p, d, q) denominado proceso autorregresivo integrado de medias móviles


de orden p, d, q, toma la expresión:

(1 − 𝜙1 𝐵 − 𝜙2 𝐵2 − ⋯ − 𝜙𝑝 𝐵𝑝 )(1 − 𝐵)𝑑 𝑋𝑡 = 𝑎𝑡 (1 − 𝜃1 𝐵 − 𝜃2 𝐵2 − ⋯ − 𝜃𝑞 𝐵𝑞 )

Un modelo ARIMA(p, d, q) permite describir una serie de observaciones después de que hayan sido
diferenciadas d veces, a fin de extraer las posibles fuentes de no estacionariedad. Esta fórmula se
puede aplicar a cualquier modelo. Si hay alguna componente p, d, q, igual a cero, se elimina el
término correspondiente de la fórmula general. Los modelos cíclicos o estacionales son aquellos que
se caracterizan por oscilaciones cíclicas, también denominadas variaciones estacionales. Las
variaciones cíclicas a veces se superponen a una tendencia secular.

Las series con tendencia secular y variaciones cíclicas pueden representarse mediante los modelos
ARIMA(p, d, q)(P, D, Q). El primer paréntesis (p, d, q) se refiere a la tendencia secular o parte regular
de la serie y el segundo paréntesis (P, D, Q) se refiere a las variaciones estacionales, o parte cíclica
de la serie temporal.
En este sentido, se adjuntan algunas expresiones del modelo:

 𝐴𝑅𝐼𝑀𝐴(0,1,1)(0,0,1)12 : (1 − 𝐵)𝑋𝑡 = (1 − 𝜃1 𝐵12 )(1 − 𝛿12 𝐵12 )


 𝐴𝑅𝐼𝑀𝐴(0,1,1)(0,1,1)12 : (1 − 𝐵)(1 − 𝐵)12 𝑋𝑡 = (1 − 𝜃1 𝐵12 )(1 − 𝛿12 𝐵12 )
 𝐴𝑅𝐼𝑀𝐴(2,1,0)(1,0,0)12 : (1 − 𝜙1 𝐵 − 𝜙2 𝐵12 )(1 − Ω1 𝐵12 )(1 − 𝐵)𝑋𝑡 = 𝑎𝑡 )
 𝐴𝑅𝐼𝑀𝐴(1,1,1)(2,1,1)12 : (1 − 𝜙1 𝐵)(1 − Ω1 𝐵12 − Ω2 𝐵24 )(1 − 𝐵12 )(1 − 𝐵)𝑋𝑡 = (1 − 𝜃1 𝐵)(1 −
𝛿12 𝐵12 )𝑎𝑡

2.2 La metodología descrita por Box y Jenkins consiste en las siguientes etapas:

2.2.1 Etapa 1. Identificar el posible modelo ARIMA


EI resumen de los pasos de identificación de un modelo de series temporales:

1) Decidir qué transformaciones aplicar para conseguir que la serie observada en una serie
estacionaria. Decidir si 𝑋 necesita ser transformada para eliminar Ia no estacionariedad en media p
en Ia no estacionariedad en varianza (heterocedasticidad). Puede ser conveniente utilizar logaritmos
de Ia serie o aplicar Ia transformación de Box-Cox.

 Transformación Logarítmica

En general, se denomina proceso homogéneo de orden h, o integrado de orden h, denotado por I(h),
a un proceso no estacionario que se convierte en estacionario después de h operaciones de
diferencias y no antes.

Si X muestra una tendencia exponencial, puede eliminarse Ia tendencia hallando primero el logaritmo
de Ia serie, y luego Ia diferencia primera de Ia nueva serie así calculada. La serie Zt =
Ln Xt — Ln Xt−1 puede tener Ia tendencia eliminada.

 Transformación de Box-Cox.

La transformación de Box-Cox es una familia de transformaciones dependiente del parámetro 𝐼1 , que


incluye como casos particulares Ia transformación logarítmica, Ia raíz cuadrada y Ia inversa.

La eliminación de las variaciones estacionales, para inducir la estocionariedad, suele hacerse casi
siempre, mediante Ia diferenciación estacional.

Si los datos son mensuales, Ia diferenciación estacional de Ia serie temporal X consiste en calcular
Zt = Xt − Xt−12 . Con datos trimestrales se calcula Zt = Xt − Xt−4 . Si después de efectuar esta
transformación Ia serie sigue presentando evidencias de variaciones estacionales, es posible aplicar
de nuevo el procedimiento, es decir, calcular las diferencias de segundo orden, y así sucesivamente.

2) Determinación del grado d de diferenciación adecuado.

En general, Ia falta de estacionariedad se manifiesta en que los coeficientes de Ia función de


autocorrelación estimada tienden a decrecer muy lentamente.

La pregunta es, ¿cuán lentamente ha de ser el decrecimiento de los coeficientes de Ia función de


autocorrelación parcial (ACFP) para que el proceso sea estacionario?.

En general, solo ocasionalmente los datos económicos del correlograma dejarán de decrecer tras
las primeras diferencias, y en este caso serían necesarias segundas diferencias. Una diferenciación
superflua solo sirve para alterar el esquema de autocorrelación evidente en una serie estacionaria y
complicarlo innecesariamente.

3) Decidir los valores de (p, q), y si existe una componente estacional, decidir los órdenes de los
operadores estacionales (P, Q). Para este apartado se utilizan las funciones de autocorrelación
(ACF) y autocorrelación parcial (PACF) según la siguiente tabla:
Tabla 1. Decisión de los valores para parámetros.

2.2.2 Etapa 2. Estimación: los parámetros AR y MA del modelo se estiman por máxima verosimilitud
y se obtienen sus errores estándar y los residuos del modelo.

Los parámetros se suelen obtener de manera que Ia suma cuadrática de los errores sea Ia menor
posible. Representando el proceso ARIMA(p, d, q) de Ia forma 𝜙(𝐵)𝑋𝑡 = 𝜃(𝐵)𝑎𝑡 , los errores del
modelo pueden expresarse de Ia forma 𝑎𝑡 = 𝜃 −1 (𝐵)𝜙(𝐵)𝑋𝑡 .

EI objetivo es encontrar el vector de parámetros 𝜙 = (𝜙1 , … , 𝜙𝑝 ) y 𝜃 = (𝜃1 , … , 𝜃𝑝 ) que minimice Ia


suma de cuadrados de los errores ∑𝑡 𝑎𝑡2 = 𝑆(𝜙, 𝜃).

La estimación es complicada ya que Ia ecuación es no lineal en los parámetros. Se debe recurrir a


un método iterativo de estimación no lineal (Marquardt). Para comenzar el algoritmo se necesitan
estimaciones preliminares de los parámetros, que se obtienen mediante el método de los momentos.

2.2.3 Etapa 3. Diagnóstico: se comprueba que los residuos no tengan una estructura de dependencia
y siguen un proceso de ruido blanco. Si los residuos muestran estructura se modifica el modelo para
incorporarla y se repiten las etapas anteriores hasta obtener un modelo adecuado.

Box y Jenkins sugirieron un número considerable de tests para verificar si el modelo elegido se ajusta
correctamente al conjunto de datos dado. Uno de ellos, conocido como sobre parametrización,
consiste en ajustar un modelo de orden superior al elegido y comprobar si los parámetros son
significativamente distintos de cero.

 De otro lado, si el modelo se aproxima satisfactoriamente a Ia serie observada, los residuos


deben tender a comportarse como ruido blanco, lo que se comprobaría mediante las
funciones de autocorrelación de los residuos (ACE, PACF). Dichas funciones de
autocorrelación deben de ser nulas en todo su recorrido, excepto en el cero.

 Si el modelo no se aproxima satisfactoriamente a Ia serie observada, los residuos se


comportarían como un ruido autocorrelado. Por ello, deben emplearse contrastes como el
de Durbin-Watson (para Ia autocorrelación de primer orden) o el de Wallis (para Ia de cuarto
orden).

Un diagnóstico completo surge de Ia inspección del gráfico de los residuos. Si los residuos provienen
de un proceso de ruido blanco, deben de ser incorrelacionados entre sí, lo que les hará alternar en
signo, sin ningún criterio obvio. Por el contrario, rachas de residuos consecutivos de un mismo signo
son, en general, un indicativo de mala especificación del modelo, bien por ser una indicación de
autocorrelación de los residuos o por indicar no estacionariedad en los mismos. Si el gráfico (t, a)
tiene una tendencia conocida, puede haber heterocedasticidad de los residuos.
2.2.4 Etapa 4. Predicción: una vez que se ha obtenido un modelo adecuado se realizan predicciones
con el mismo.

Los modelos ARIMA proporcionan, además de una predicción puntual, Ia distribución de probabilidad
completa para los futuros valores de Ia serie.

Considerando como predicción óptima Ia que tiene un error cuadrático medio de predicción mínimo,
se trata de elegir una predicción a horizonte I, Zt (l), tal que 𝐸[𝑒𝑡2 (𝐼)] = 𝐸[𝑋𝑡+1 − 𝑍𝑡 (𝐼)]2 fuese mínimo.

En general, se demuestra que dicha predicción viene dada por Ia esperanza condicionada de 𝑋𝑡+1 :

Zt (I) = E[Xt+1 |𝑋𝑡 , Xt−1 , … , X1 ]

EI cálculo real de Ia predicción Zt (l), puede hacerse de forma recursiva utilizando el modelo ARIMA
estimado, de forma que si el modelo se expresa como:

𝑑𝑡 = ϕ1 𝑑𝑡+1 + ϕ2 𝑑𝑡−2 + ⋯ + 𝜙𝑝 𝑑𝑡−𝑝 + 𝑎𝑡 − 𝜃1 𝑎𝑡−1 − 𝜃2 𝑎𝑡−2 − ⋯ − 𝜃𝑞 𝑎𝑡−𝑞

donde dt ≡ diferencia de orden d de X (supuesto X no estacionaria y convertible en estacionaria


mediante un proceso de d diferenciaciones consecutivas).

Para calcular Ia predicción Zt (l), se comienza calculando Ia estimación de dt (1) como Ia esperanza
condicionada de de_1, y posteriormente se calcula Ia estimación de dt (2), y así sucesivamente hasta
calcular Ia estimación de dt (𝐼). Una vez que la serie d ha sido predicha, se pude obtener una
predicción de Xt sumando d d-veces. Para calcular la predicción Zt (I) se utiliza Ia fórmula:

Zt (I) = ϕI 𝑑𝑡 + ϕ𝐼+1 𝑑𝑡+1 + ϕI+2 𝑑𝑡−2 + ⋯ = 𝑍𝑡+𝐼

En la siguiente figura se resume la metodología propuesta por Box y Jenkins para realizar un ajuste
de modelo ARIMA.
2.3 Resumen de procedimientos para el análisis de datos

1. Recogida de datos: Es conveniente disponer de 50 o más datos, y en el caso de series


mensuales, trabajar entre seis y diez años completos.
2. Representación gráfica: Es de gran utilidad disponer de un gráfico de la serie para decidir
sobre la estacionariedad. En ocasiones, se utilizan medias y desviaciones típicas por
subperiodo para juzgar sobre la estacionariedad de la serie.
3. Transformación previa de la serie: Cuando la serie no es estacionaria en varianza se
requiere una transformación logarítmica. No obstante, la transformación logarítmica es
muy frecuente incluso en series con dispersión relativamente constante en el tiempo. Una
práctica habitual es ensayar con la serie original y en logaritmos y comprobar resultados.
4. Eliminación de la tendencia: La observación del gráfico de la serie indica la existencia o
no de tendencia. Una tendencia lineal será corregida tomando primeras diferencias, que
será el caso más frecuente. Una tendencia no lineal suele llevar en la práctica al uso de
dos diferencias como mucho.
5. Identificación del modelo: Consiste en determinar el tipo de modelo más adecuado, esto
es, el orden de los procesos autorregresivos y de medias móviles de las componentes
regular y estacional. Técnicamente esta decisión se toma en base a las funciones de
autocorrelación (FAC) y autocorrelación parcial (FAC parcial), tanto en la parte regular
como estacional. En caso de duda pueden seleccionarse varios modelos alternativos que
serán estimados y contrastados posteriormente, para definir finalmente el modelo
adoptado.
6. Estimación de los coeficientes del modelo: Decidido el modelo, se procede a la
estimación de sus parámetros, dado que se trata de un procedimiento iterativo de cálculo,
pueden sugerirse valores iniciales.
7. Contraste de validez del modelo: Se utilizan distintos procedimientos para valorar el
modelo o modelos inicialmente seleccionados: contraste de significación de parámetros,
covarianzas entre estimadores, coeficiente de correlación, suma de cuadrados de
errores, etc.
8. Análisis detallado de los errores: Se tendrán en cuenta las diferencias históricas entre
valores reales y estimados por el modelo para su valoración final. Hay que verificar un
comportamiento no sistemático de los mismos, así como analizar la posible existencia de
errores especialmente significativos.
9. Selección del modelo: En base a los resultados de pasos anteriores, se decide sobre el
modelo adoptado.
10. Predicción: El modelo seleccionado se utilizará como fórmula inicial de predicción.
Ejemplo (Caudales del río El Tala periodo 1937-1960)

El río Tala es una de las principales fuentes de provisión de agua para el consumo humano en la
República de Argentina, tanto por su aporte superficial como por las reservas subterráneas.

A continuación, se realiza el análisis de la serie temporal de los caudales del Río Tala entre 1936 y
1960. La base de datos contiene los registros de los caudales por mes (en 𝑚3 /𝑠), durante el periodo
de años antes mencionado.

El objetivo de analizar la serie temporal de los caudales del Río Tala entre 1936 y 1960, es definir
un modelo que permita describir los procesos aleatorios que generan las observaciones, predecir
valores futuros de la variable.

1. Ingreso de Datos

Inicialmente se ingresaron los datos de las mediciones de los caudales en un vector llamado datos<-
c(0.15, 0.4, 0.26, 0.24, 0.24,...); la función str() de R, nos indica que tipo de vector contiene los datos,
su longitud y visualizar sus primeros elementos.

str(datos)

## num [1:288] 0.15 0.4 0.26 0.24 0.24 0.19 0.17 0.16 0.16 0.14 ...

Luego, definiendo los datos como una serie de tiempo:

library(stats)
caudal<-ts(datos,freq=12,start=c(1937,1))
str(caudal)

## Time-Series [1:288] from 1937 to 1961: 0.15 0.4 0.26 0.24 0.24 0.19 0.17 0.16 0.16 0.14 ...

Se obtiene la siguiente base de datos:

Caudal

## Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dic

## 1937 0.150 0.400 0.260 0.240 0.240 0.190 0.170 0.160 0.160 0.140 0.260 0.230
## 1938 0.480 0.840 0.630 0.360 0.240 0.220 0.200 0.180 0.150 0.140 0.180 0.730
## 1939 1.620 0.460 0.620 0.470 0.290 0.230 0.190 0.180 0.170 0.140 0.160 0.330
## 1940 0.800 1.180 0.440 0.350 0.260 0.220 0.200 0.180 0.170 0.170 0.190 0.420
## 1941 1.510 1.040 0.660 0.420 0.350 0.290 0.270 0.240 0.160 0.200 0.290 0.530
## 1942 1.700 1.580 1.090 0.370 0.300 0.270 0.200 0.200 0.200 0.200 0.150 0.160
## 1943 0.640 0.540 0.430 0.360 0.280 0.200 0.200 0.200 0.200 0.120 0.270 0.300
## 1944 1.520 3.090 3.430 1.600 0.580 0.410 0.360 0.380 0.160 0.140 0.130 0.580
## 1945 1.000 1.220 1.220 0.740 0.550 0.430 0.380 0.330 0.250 0.220 0.310 0.840
## 1946 0.730 0.520 0.890 0.380 0.350 0.290 0.250 0.220 0.250 0.240 0.280 0.540
## 1947 0.160 0.640 0.480 0.280 0.180 0.170 0.150 0.140 0.180 0.160 0.200 0.190
## 1948 0.430 0.660 0.660 0.320 0.260 0.200 0.190 0.160 0.170 0.160 0.750 0.320
## 1949 1.170 0.820 0.560 0.330 0.300 0.190 0.180 0.160 0.140 0.150 0.120 0.440
## 1950 0.310 0.650 0.410 0.210 0.160 0.160 0.150 0.140 0.170 0.210 0.150 0.510
## 1951 0.860 1.870 0.360 0.360 0.280 0.190 0.160 0.160 0.130 0.130 0.130 0.110
## 1952 2.000 1.880 0.680 0.370 0.230 0.200 0.180 0.170 0.140 0.160 0.200 0.250
## 1953 1.210 2.430 0.830 0.400 0.320 0.280 0.230 0.190 0.150 0.187 0.450 0.880
## 1954 0.380 2.620 0.920 0.480 0.340 0.270 0.240 0.210 0.160 0.160 0.140 1.070
## 1955 0.310 0.800 0.460 0.250 0.200 0.180 0.180 0.170 0.180 0.150 0.240 0.180
## 1956 0.320 0.550 0.440 0.250 0.180 0.170 0.150 0.130 0.150 0.150 1.350 0.320
## 1957 0.700 0.810 1.010 0.530 0.380 0.360 0.290 0.240 0.120 0.570 0.440 0.620
## 1958 0.730 0.590 0.320 0.320 0.270 0.320 0.210 0.190 0.210 0.160 0.170 0.200
## 1959 0.390 0.560 1.150 0.380 0.290 0.230 0.220 0.200 0.170 0.200 0.290 0.380
## 1960 0.320 0.320 0.320 0.310 0.240 0.210 0.190 0.160 0.180 0.170 0.120 0.220

Identificación del Modelo

El primer paso en la identificación del modelo es determinar si la serie es estacionaria, es decir, si la


serie de tiempo parece variar alrededor de un nivel fijo; para esto es útil observar una gráfica de la
serie junto con la función de autocorrelación de la muestra.

2.1 Gráfico de la Serie

Mediante la figura 1, se pude observar el comportamiento de la serie a través del tiempo, a fin de
decidir la estacionariedad de la serie.

plot.ts(caudal, xlab="Tiempo",ylab="Caudal")

Figura 1: Caudales del rio tala, periodo 1937-1960


En figura 1, se observa gran variabilidad, con valores muy altos en algunos meses, lo que nos lleva
a realizar una trasformación de los valores con el fin de controlar dicha variabilidad. Además se
visualiza el fuerte efecto estacional en cada uno de los 24 años de la serie, con mayor frecuencia en
los meses de febrero-marzo de cada año y depresiones en los meses siguientes.
Un análisis adicional de la figura 1, nos hace pensar en la existencia de datos atípicos o solo se
traten de valores extremos.

2.2 Transformación

La transformación de la variable original es imprescindible en caso de que la varianza no sea


constante. Dado que nuestra serie no es estacionaria en varianza se requiere una transformación
logarítmica. En efecto,

lcaudal <- log(caudal)


plot.ts(lcaudal, xlab="Tiempo",ylab="Log-caudal")
Figura 2: Logaritmo natural de caudales del rio tala, periodo 1937-1960
La figura 2, muestra la disminución de la variabilidad de los datos. También indica que no se tiene
tendencia alguna.

2.3 Análisis de la Autocorrelación

lcaudal<-ts(log(datos))
acf(lcaudal,60,main="",xlab="N° de retardos")

Figura 3: Función de Autocorrelación Simple


Si la serie presentara tendencia creciente o decreciente, el gráfico mostraría un decrecimiento lento
hacia 0. Sin embargo en este caso, se observa un comportamiento sinusoidal, además que los
retardos de múltiplos de 12 (12, 24, 36, etc) presentan estructura positiva con decrecimiento hacia
0; lo que indica que existe la estacionalidad de periodo 12 que mostraba el gráfico de la serie original.
Dado que la serie no presenta tendencia, no será necesario diferenciarla y el parámetro 𝑑 será igual
a 0.

Confirmaremos lo dicho anteriormente con la prueba de Dickey - Fuller.

2.4 Prueba de Dickey – Fuller

library(fUnitRoots)

1. Planteamiento de Hipótesis

𝐻0 : La serie transformada es no estacionaria: Tiene raíz unitaria


𝐻1 : La serie transformada es estacionaria: No Tiene raíz unitaria
2. Nivel de Significancia: 𝛼 = 0.05
3. Estadístico de Prueba
adfTest(lcaudal,lags=0,type=c("c"))

## Title:
## Augmented Dickey-Fuller Test
##
## Test Results:
## PARAMETER:
## Lag Order: 0
## STATISTIC:
## Dickey-Fuller: -7.7746
## P VALUE:
## 0.01

4. Decisión Dado que el valor del estadístico es -7.7746, con un valor p menor a 0.05, se rechaza
la hipótesis nula.

5. Conclusión La serie transformada es estacionaria.

3. Identificación del modelo

Sabiendo que la serie observada tiene estacionalidad de período 12, se tiene que el modelo que se
ajustaría a la serie es de la forma

𝐴𝑅𝐼𝑀𝐴(𝑝, 𝑑, 𝑞)(𝑃, 𝐷, 𝑄)12

Considere ahora las funciones de autocorrelación simple (ACF) y parcial (PACF) sobre los 16
primeros retardos después de tomar una diferenciación estacional (𝐷 = 1) que se presentan en las
figura 4 y 5, respectivamente. Los paramétros 𝑝 y 𝑞, son estimados a partir de dichas funciones. En
efecto,

acf(diff(lcaudal,12),16,main="",xlab="N° de retardos")

Figura 4: ACF de la serie transformada de caudales diferenciada estacionalmente sobre los 16 primeros
retardos.

pacf(diff(lcaudal,12),16,main="",xlab="N° de retardos")
Figura 5: PACF de la serie transformada de caudales diferenciada estacionalmente sobre los 16 primeros
retardos.

Como los dos primeros coeficientes de la PACF son no nulos y el resto tienden a cero, y en tanto los
coeficientes en la ACF decrecen con el retardo en forma sinusoidal, el modelo será autoregresivo
𝐴𝑅(𝑝), de orden 𝑝 = 2 y 𝑞 = 0.

Para obtener los valores de 𝑃 y 𝑄, se realiza un análisis similar, pero solamente con cinco retardos,
como se muestra en los figura 6 y 7.

acf(diff(lcaudal,12),5,main="",xlab="N° de retardos")

Figura 6: ACF de la serie transformada de caudales diferenciada estacionalmente sobre los 5 primeros
retardos

pacf(diff(lcaudal,12),5,main="",xlab="N° de retardos")
Figura 7: PACF de la serie transformada de caudales diferenciada estacionalmente sobre los 5 primeros
retardos.
Se observa en el ACF dos valores no significativos, lo que indica que 𝑃 = 2 y 𝑄 = 0.
De esta manara el modelo obtenido será entonces

𝐴𝑅𝐼𝑀𝐴(2,0,0)(2,1,0)12
4. Estimación del Modelo

Una vez seleccionado el modelo tentativo, se deben estimar los parámetros para estos modelos.

4.1 Ajuste del modelo tentativo


ajuste=arima(lcaudal,order = c(2, 0, 0), seasonal = list(order = c(2, 1, 0), period = 12))
ajuste

## Call:
## arima(x = lcaudal, order = c(2, 0, 0), seasonal = list(order = c(2, 1, 0), period = 12))
##
## Coefficients:
## ar1 ar2 sar1 sar2
## 0.3155 0.2304 -0.4481 -0.3682
## s.e. 0.0601 0.0602 0.0572 0.0581
##
## sigma^2 estimated as 0.2143: log likelihood = -181.62, aic = 373.24

library("lmtest")

coeftest(ajuste)

##
## z test of coefficients:
##
## Estimate Std. Error z value Pr(>|z|)
## ar1 0.315506 0.060053 5.2538 1.490e-07 ***
## ar2 0.230393 0.060179 3.8285 0.0001289 ***
## sar1 -0.448062 0.057193 -7.8341 4.720e-15 ***
## sar2 -0.368189 0.058109 -6.3362 2.355e-10 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Luego, con un nivel de significancia 𝛼 = 0.05 se rechaza la hipótesis de nulidad de los parámetros
del modelo, dado que sus respectivos p valores son menores que 𝛼.
4.2 Ajuste recomendado por el programa

Si utilizamos la función auto.arima (), el programa nos recomienda un nuevo modelo.


library(forecast)
ajuste2=auto.arima(lcaudal)
ajuste2

## Series: lcaudal
## ARIMA(3,0,1) with non-zero mean
##
## Coefficients:
## ar1 ar2 ar3 ma1 mean
## 1.1865 -0.2563 -0.2408 -0.5655 -1.1578
## s.e. 0.0948 0.1114 0.0629 0.0841 0.0411
##
## sigma^2 estimated as 0.2502: log likelihood=-207.12
## AIC=426.24 AICc=426.54 BIC=448.22

El programa sugiere el modelo 𝐴𝑅𝐼𝑀𝐴(3,0,1). Los resultados respecto los valores de AIC y 𝜎 2 , al
compara los dos modelos son mejores para el primer ajuste, por lo que decidimos elegir el modelo
ajustado inicialmente.

5. Validación del Modelo


5.1. Estacionariedad de los residuales

La figura 8, muestra una posible estacionariedad entre los residuales del modelo. Esto lo
confirmaremos con un correlograma.
plot.ts(ajuste$residuals, xlab="Tiempo",ylab="Residuales")

Figura 8: Residuales del modelo

5.2 Autocorrelación de los residuales


par(mfrow=c(1,2))
acf(ajuste$residuals, xlab="Tiempo",ylab="ACF")
pacf(ajuste$residuals, xlab="Tiempo",ylab="PACF")
Figura 9: Autocorrelaciones de los Residuales del modelo
Los correlogramas en las figuras 9, muestran que no existe autocorrelación significativa en los
residuales.

5.3 Normalidad de los residuales

Aplicamos a los residuos un gráfico Q-Q es una herramienta eficaz para evaluar la normalidad,
visualmente.

qqnorm(ajuste$residuals);qqline(ajuste$residuals)

Figura 10: Gráfico Q-Q para evaluar normalidad de los residuos.


Muchos de los puntos no parecen seguir la línea recta bastante de cerca, desviándose en los
extremos. Este gráfico nos llevaría a rechazar la normalidad de los términos de error en este modelo.
Para verificar lo antes dicho procedemos a realizar la prueba de Kolmogorov- Smirnov a un nivel de
significancia 5 %

library(fBasics)
ksnormTest(ajuste$residuals)

## Title:
## One-sample Kolmogorov-Smirnov test
##
## Test Results:
## STATISTIC:
## D: 0.2282
## P VALUE:
## Alternative Two-Sided: 1.886e-13
## Alternative Less: 3.567e-13
## Alternative Greater: 9.431e-14

De lo anterior se tiene que el valor del estadístico de prueba es 0.2282, con un p valor menor que
0.05, lo que lleva al rechazo de la hipótesis de normalidad de los residuos.

6. Predicciones

Podemos hacer predicciones con este modelo utilizando la función forecast()


library(forcats)
forecast(ajuste,5)

## Point Forecast Lo 80 Hi 80 Lo 95 Hi 95
## 289 -1.261943 -1.855191 -0.6686958 -2.169237 -0.3546495
## 290 -1.164556 -1.786630 -0.5424814 -2.115936 -0.2131752
## 291 -1.232186 -1.884327 -0.5800442 -2.229550 -0.2348214
## 292 -1.272715 -1.933236 -0.6121942 -2.282895 -0.2625355
## 293 -1.454397 -2.119529 -0.7892644 -2.471629 -0.4371647

plot(forecast(ajuste))

Figura 11: Predicciones para la seria transformada.


En la figura 11, se puede observar valores predichos para la serie transformada, junto con sus
intervalos de confianza al 80 y 95%. Cabe notar que para volver a la serie de los datos del caudal en
(𝑚3 /𝑠) debe aplicarse la función inversa del Logaritmo Natural, con la cual se ajustó el modelo.

Datos atípicos

Como se señaló al principio se sospecha de la existencia de valores atípicos y extremos, siendo


estos quizás la causa de la no estacionalidad en la varianza como también la causa que no se cumpla
la normalidad e los residuales. La función tso() de R, nos permite identificar valores atípicos y
proporciona un modelo para la serie. En efecto,
library(tsoutliers)
outlier<- tso(lcaudal)
outlier
## Series: lcaudal
## Regression with ARIMA(3,0,0) errors
##
## Coefficients:
## ar1 ar2 ar3 intercept TC24 AO25 TC49 AO73
## 1.0857 -0.3391 -0.1202 -1.3302 1.2070 1.0948 1.0798 0.7486
## s.e.0.0663 0.1030 0.0702 0.0500 0.2913 0.2116 0.2857 0.2048

## TC85 TC96 AO111 AO121 AO143 AO155 AO167 AO170


## 1.1513 1.1245 0.7592 -1.4237 1.3605 -0.7770 -0.7519 1.1450
## s.e. 0.2902 0.2838 0.2045 0.2050 0.2131 0.2086 0.2064 0.2047

## TC181 TC193 AO194 TC206 AO216 AO239 TC250 AO267


## 2.3804 1.2836 0.8287 2.3104 1.7409 1.9187 1.600 0.8099
## s.e. 0.2870 0.2919 0.2112 0.2933 0.2123 0.2062 0.288 0.2044
##
## sigma^2 estimated as 0.1051: log likelihood=-72.38
## AIC=194.77 AICc=199.73 BIC=286.34
##
## Outliers:
## type ind time coefhat tstat
## 1 TC 24 24 1.2070 4.143
## 2 AO 25 25 1.0948 5.174
## 3 TC 49 49 1.0798 3.780
## 4 AO 73 73 0.7486 3.656
## 5 TC 85 85 1.1513 3.967
## 6 TC 96 96 1.1245 3.962
## 7 AO 111 111 0.7592 3.712
## 8 AO 121 121 -1.4237 -6.944
## 9 AO 143 143 1.3605 6.383
## 10 AO 155 155 -0.7770 -3.724
## 11 AO 167 167 -0.7519 -3.644
## 12 AO 170 170 1.1450 5.595
## 13 TC 181 181 2.3804 8.293
## 14 TC 193 193 1.2836 4.398
## 15 AO 194 194 0.8287 3.924
## 16 TC 206 206 2.3104 7.878
## 17 AO 216 216 1.7409 8.201
## 18 AO 239 239 1.9187 9.305
## 19 TC 250 250 1.6000 5.555
## 20 AO 267 267 0.8099 3.962

El resultado anterior muestran las existencia de datos atípicos de tipo AO: atípico aditivo (valor
inesperadamente alto o bajo que se produce para una única observación. Las siguientes
observaciones no se ven afectadas) y TC: atípico de cambio transitorio (causa que las observaciones
que aparecen después de él se desplacen a un nuevo nivel pero su efecto se reduce
exponencialmente).

Al considerar el efecto que causa cada valor atípico, un modelo para la serie en términos de la serie
de datos sin atípicos y dichos efectos es: 𝐴𝑅𝐼𝑀𝐴(3,0,0). Note que el valor del AIC para este tercer
modelo ajustado es el menor en comparación de los dos anteriores, es decir este seria el mejor
modelo para nuestros datos.

plot(outlier)
Figura 13: Efecto de valores atípicos y sus estimaciones
En la figura 12, se observan las estimaciones para los valores atípicos así como también el efecto
de cada valor atípico hallado. Es de resaltar que el anterior fue un análisis exploratorio para datos
atípicos.
Ejemplo 2 (Demanda mensual de contenedores de plástico, desde enero de 2002 hasta abril
de 2010)

A continuación, se encuentra una base de datos llamada farma, la cual presenta cien datos relativos
a la demanda mensual de contenedores de plástico que utilizan las compañías farmacéuticas desde
enero de 2002 hasta abril de 2010.

El objetivo es ajustar un modelo que permita predecir el número de contenedores que serán
demandados en los próximos diez primeros meses con vistas a la producción.

1. Ingreso de Datos

Se realizó el ingreso de los datos en el programa estadístico R, mediante un vector llamado datos <-
c(5000,4965,4496,4491,4566,...); la función str() de R, nos indica que tipo de vector contiene los
datos, su longitud y visualizar sus primeros elementos.
str(datos)

## num [1:100] 5000 4965 4496 4491 4566 ...

Luego, definiendo los datos como una serie de tiempo:

library(stats)
plastico<- ts(datos,freq=12,start=c(2002,1))
str(plastico)

## Time-Series [1:100] from 2002 to 2010: 5000 4965 4496 4491 4566 ...

plastico

## Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
## 2002 5000 4965 4496 4491 4566 4585 4724 4951 4917 4888 5087 5082
## 2003 5039 5054 4940 4871 4901 4864 4750 4856 4959 5004 5415 5550
## 2004 5657 6010 6109 6052 6391 6798 6740 6778 7005 7045 7279 7367
## 2005 6934 6506 6374 6066 6102 6204 6138 5938 5781 5813 5811 5818
## 2006 5982 6132 6111 5948 6056 6342 6626 6591 6302 6132 5837 5572
## 2007 5744 6005 6239 6523 6652 6585 6622 6754 6712 6675 6882 7011
## 2008 7140 7197 7411 7233 6958 6960 6927 6814 6757 6757 6765 6870
## 2009 6954 6551 6022 5974 6052 6033 6030 5944 5543 5416 5571 5571
## 2010 5627 5679 5455 5443

2. Identificación del Modelo

Inicialmente se grafica la serie junto con la función de autocorrelación de la muestra, para determinar
si esta es estacionaria o no.

2.1 Gráfico de la Serie


plot.ts(plastico, xlab="Tiempo",ylab="Plastico")
Figura 1: Demanda mensual de contenedores de plástico, periodo 2002-2010
En la figura 1, se observa que la serie de tiempo no parece variar alrededor de un nivel fijo, lo que
indica que la estructura de la serie es no estacional.

2.2 Análisis de la Autocorrelación

plastic<-ts(datos)
acf(plastic, 60,main="",xlab="N°e retardos")

Figura 2: Función de Autocorrelación Simple


En la figura 2, se observa que los coeficientes de la función de autocorrelación ACF no decaen
rápidamente, indicando falta de estacionariedad en media.
Lo antes dicho se puede verificar utilizando la prueba de Dickey-Fuller.

2.3 Prueba de Dickey - Fuller

Planteamiento de Hipótesis

𝐻0 : La serie es no estacionaria: Tiene raíz unitaria


𝐻1 : La serie es estacionaria: No Tiene raíz unitaria
Nivel de Significancia: 𝛼 = 0.05
Estadístico de Prueba
library(fUnitRoots)

## Loading required package: timeDate

## Loading required package: timeSeries


## Loading required package: fBasics

adfTest(plastico,lags=0,type=c("c"))

##
## Title:
## Augmented Dickey-Fuller Test
##
## Test Results:
## PARAMETER:
## Lag Order: 0
## STATISTIC:
## Dickey-Fuller: -1.4429
## P VALUE:
## 0.5211

Decisión Dado que el valor del estadístico es -1.4429, tiene un valor p mayor a 0.05, no se rechaza
la hipótesis nula.

Conclusión La serie original no es estacionaria. En consecuencia, se diferencia la serie original.

3. Transformación

Para hacer que la seria se vuelva estacionaria en media, se realiza la diferencia estacionaria, es
decir se toma 𝑑 = 1.
dplastico<-diff(plastico)
plot.ts(dplastico, xlab="Tiempo",ylab="Plastico")

Figura 3: Demanda mensual de contenedores de plástico, diferenciada estacionalmente


La figura 3, muestra una mejora en la estacionalidad de la serie. Para verificar esto a continuación
se realiza la prueba de Dickey-Fuller.

Planteamiento de Hipótesis
𝐻0 : La serie diferenciada es no estacionaria: Tiene raíz unitaria
𝐻1 : La serie diferenciada es estacionaria: No Tiene raíz unitaria
Nivel de Significancia: 𝛼 = 0.05
Estadístico de prueba
adfTest(dplastico,lags=0,type=c("c"))

##
## Title:
## Augmented Dickey-Fuller Test
##
## Test Results:
## PARAMETER:
## Lag Order: 0
## STATISTIC:
## Dickey-Fuller: -6.3745
## P VALUE:
## 0.01

Decisión Dado que el valor del estadístico es -1.4429, tiene un valor p menor que el nivel de
significancia 𝛼 = 0.05, se rechaza la hipótesis nula.

Conclusión La serie diferenciada es estacionaria.

3. Identificación del modelo

Para identificar un modelo tentativo nos basamos en las funciones de ACF y PACF. Tal que,
dplastic<-ts(diff(datos))
par(mfrow=c(1,2))
acf(dplastic, main="",xlab="N° de recuentos")
pacf(dplastic, main="",xlab="N° de recuentos")

Figura 4: funciones de autocorrelación simple y parcial de la serie Demanda mensual de contenedores de


plástico, diferenciada estacionalmente sobre los 16 primeros retardos.
Los retardos de la función de autocorrelación ACF decaen tan rápidamente que sólo el primero es
significativo, con lo que no existen problemas de estacionariedad en la serie diferenciada. En
concreto, la serie diferenciada es 𝐼(0) y Ia serie original es 𝐼(1).

Respecto a la identificación de la parte de la media móvil de la serie, solo el primer retardo de la ACF
es significativo y el decrecimiento de los retardos de la ACFP es muy rápido. En consecuencia, la
parte de media móvil se modela como un proceso 𝑀𝐴(1).

Para la identificación de la parte autorregresiva se observa que aunque hay tres retardos de la ACF
estimada ninguno de ellos es claramente significativo, decreciendo rápido los coeficientes
significativos de la ACF. La parte autorregresiva se modela como un proceso 𝐴𝑅(0).

Considerando las dos funciones de autocorrelación en conjunto, se observa que sus retardos no se
anulan demasiado bruscamente. Por tanto, es una estructura 𝐴𝑅𝑀𝐴(0,1) para la serie diferenciada,
concluyendo que la serie original se ajusta a un modelo 𝐴𝑅𝐼𝑀𝐴(0,1,1).

4. Estimación del Modelo

Una vez seleccionado el modelo tentativo, se deben estimar los parámetros para estos modelos.

4.1 Ajuste del modelo tentativo


ajuste=arima(plastico,order = c(0, 1 ,1))
ajuste

##
## Call:
## arima(x = plastico, order = c(0, 1, 1))
##
## Coefficients:
## ma1
## 0.7407
## s.e. 0.0677
##
## sigma^2 estimated as 24500: log likelihood = -641.14, aic = 1286.28

library("lmtest")

coeftest(ajuste)

##
## z test of coefficients:
##
## Estimate Std. Error z value Pr(>|z|)
## ma1 0.740747 0.067699 10.942 < 2.2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Luego, con un nivel de significancia 𝛼 = 0.05 se rechaza la hipótesis de nulidad del parámetro del
modelo, dado que su respectivo p valor es menor que 𝛼.

4.2 Ajuste recomendado por el programa

Mediante la función forecast() del paquete llamado igual, el programa R nos sugiere un modelo.
library(forecast)
ajuste2=auto.arima(plastico)
ajuste2

## Series: plastico
## ARIMA(0,1,1)
##
## Coefficients:
## ma1
## 0.7407
## s.e. 0.0677
##
## sigma^2 estimated as 24750: log likelihood=-641.14
## AIC=1286.28 AICc=1286.41 BIC=1291.47

Siendo que el modelo tentativo coincide con el modelo sugerido, procedemos a aceptar este como
el mejor modelo.

5. Validación de supuestos para los residuos del Modelo


5.1. Estacionariedad de los residuales
par(mfrow=c(1,2))
acf(ajuste$residuals,main="", xlab="Tiempo", ylab="ACF")
pacf(ajuste$residuals,main="", xlab="Tiempo",ylab="PACF")

Figura 5: Autocorrelaciones de los Residuales del modelo


Los correlogramas en las figuras 5, muestran que no existe autocorrelación significativa en los
residuales.

5.3 Normalidad de los residuales

Aplicamos a los residuos un gráfico Q-Q es una herramienta eficaz para evaluar la normalidad,
visualmente.

qqnorm(ajuste$residuals);qqline(ajuste$residuals)
Figura 6: Gráfico Q-Q para evaluar normalidad de los residuos.
Muchos de los puntos parecen seguir la línea recta bastante de cerca, desviándose en el extremo
inferior. Este gráfico nos llevaría a no rechazar la normalidad de los términos de error en este modelo.
Para verificar lo antes dicho procedemos a realizar la prueba de Shapiro-Wilk a un nivel de
significación 5 %
shapiro.test(ajuste$residuals)

##
## Shapiro-Wilk normality test
##
## data: ajuste$residuals
## W = 0.97913, p-value = 0.1137

De lo anterior se tiene que el valor del estadístico de prueba es 0.97913, con un p valor mayor que
0.05, no se rechazó de la hipótesis de normalidad de los residuos.

6. Predicciones

Para llevar a cabo la realización del objetivo, se realizan predicciones utilizando la función forecast(),
para los 10 meses seguidos de la ficha final registrada.
library(forcats)
forecast(ajuste,10)

## Point Forecast Lo 80 Hi 80 Lo 95 Hi 95
## May 2010 5550.425 5349.832 5751.018 5243.644 5857.205
## Jun 2010 5550.425 5147.727 5953.122 4934.552 6166.298
## Jul 2010 5550.425 5017.421 6083.429 4735.265 6365.584
## Aug 2010 5550.425 4913.227 6187.623 4575.914 6524.935
## Sep 2010 5550.425 4823.824 6277.026 4439.184 6661.665
## Oct 2010 5550.425 4744.275 6356.574 4317.525 6783.324
## Nov 2010 5550.425 4671.900 6428.949 4206.838 6894.012
## Dec 2010 5550.425 4605.050 6495.799 4104.599 6996.250
## Jan 2011 5550.425 4542.625 6558.225 4009.128 7091.722
## Feb 2011 5550.425 4483.847 6617.003 3919.234 7181.615

De lo anterior, se tiene que la demanda mensual de contenedores de plástico que utilizan las
compañías farmacéuticas predicha para los meses de mayo a febrero de 2010, es de 5550.425
(constante).

plot(forecast(ajuste))
Figura 7: Predicciones para la seria transformada.
En la figura 7, se puede observar valores predichos para la serie transformada, junto con sus
intervalos de confianza al 80 y 95%.

Referencias:

[1] Verón, Juan Antonio, Herrera, Carlos Gabriel y Rodríguez, Norma Leonor. Análisis de Serie de
Tiempo de Caudales del Río El Tala Periodo 1937-1960. Universidad de Catamarca, Argentina.
[2] Santiago de la Fuente Fernández. Series Temporales: Modelo ARIMA. Universidad Autónoma de
Madrid.
[3] Victor Chung (2016). Modelo ARIMA. (https://rpubs.com/vchung/arima_ejemplo)

[4] Angelo Santana & Carmen Nieves Hernández, Objetos en R: Series temporales, Departamento
de Matemáticas, ULPGC.
(http://www.dma.ulpgc.es/profesores/personal/stat/cursoR4ULPGC/14-
seriesTemporales.html#modelos_arima)

[5] William W. S. Wei (2006). Time Series Analysis: Univariate and Multivariate Methods (2 da ed.).
Pearson.