Está en la página 1de 196

Modles de prvision

Sries temporelles
Arthur Charpentier

UQAM, ACT6420, Hiver 2011

15 mai 2012

charpentier.arthur@uqam.ca, url : http://freakonometrics.blog.free.fr/

Contents
1 Introduction gnrale et notations
1.1 Approches temps/frquences : un peu dhistoire . . . . . . . . . . . . . .
1.1.1 Analyse harmonique . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.2 Modles autoregressifs et moyennes mobiles . . . . . . . . . . . .
1.1.3 Lapproche temporelle : concept de corrlation srielle . . . . . .
1.1.4 Lquivalence entre les deux approches temps/frquence . . . . . .
1.2 Les dveloppements rcents . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.1 Les modles ARM A, ARIM A et SARIM A : modles linaires .
1.2.2 Modles ARCH - volatilit stochastique . . . . . . . . . . . . . .
1.2.3 Les processus mmoire longue . . . . . . . . . . . . . . . . . . .
1.2.4 Les processus multivaris . . . . . . . . . . . . . . . . . . . . . . .
1.2.5 Exemple : histoire de la prvision des modles conomiques
(macroconomiques) . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.6 Remarque sur les donnes hautes frquences . . . . . . . . . . . .
1.3 Thorie des processus temps discret . . . . . . . . . . . . . . . . . . . .
1.3.1 Stationnarit des processus . . . . . . . . . . . . . . . . . . . . . .
1.3.2 Proprit de Markov en temps discret . . . . . . . . . . . . . . . .
1.4 Objectifs de ltudes des sries temporelles . . . . . . . . . . . . . . . . .
1.4.1 Description et modlisation . . . . . . . . . . . . . . . . . . . . .
1.4.2 Prvision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.4.3 Filtrage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5 Conseils bibliographiques (en franais, et en anglais) . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.

7
7
8
9
10
11
11
11
13
13
14

.
.
.
.
.
.
.
.
.
.

15
16
17
17
18
19
19
20
20
20

2 Proprits des processus univaris en temps discret


2.1 Rappels sur les martingales temps discret . . . . . .
2.2 Rappels sur les Chanes de Markov . . . . . . . . . .
2.3 Notions de stationnairit . . . . . . . . . . . . . . .
2.4 Fonction dautocovariance et densit spectrale . . . .
2.4.1 Autocovariance et autocorrlation . . . . . . .
2.4.2 Densit spectrale ? ? ? . . . . . . . . . . . . .
2.4.3 Estimation de la fonction dautocorrlation . .
2.4.4 Estimation de la densit spectrale ? ? ? . . . .
2.5 Lien entre temps continu et temps discret ? ? ? . . . .

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

22
22
23
23
26
26
27
28
30
31

3 Dsaisonnalisation par regression linaire


3.1 Prsentation des donnes . . . . . . . . . . . . .
3.2 Le modle linaire . . . . . . . . . . . . . . . . .
3.2.1 Hypothses sur les erreurs . . . . . . . .
3.2.2 Composante saisonnire du modles . . .
3.2.3 Composante tendancielle . . . . . . . . .
3.2.4 Modle trimestriel de Buys-Ballot (1847)

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

37
37
38
38
38
38
39

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

3.3

3.4

3.5
3.6
3.7

Estimateur des moindres carrs ordinaires (mco) . . . . . . . . . . . .


3.3.1 Solutions gnrales . . . . . . . . . . . . . . . . . . . . . . . .
3.3.2 Cas particulier : le modle trimestriel de Buys-Ballot . . . . .
3.3.3 Gnralisation des formules de Buys-Ballot (tendance linaire)
Application au trafic voyageur . . . . . . . . . . . . . . . . . . . . . .
3.4.1 Srie agrge par trimestre . . . . . . . . . . . . . . . . . . . .
3.4.2 Analyse sur donnes mensuelles . . . . . . . . . . . . . . . . .
Proprits statistiques des estimateurs . . . . . . . . . . . . . . . . .
Application au traffic sur lautoroute A7 . . . . . . . . . . . . . . . .
Prvision un horizon h . . . . . . . . . . . . . . . . . . . . . . . . .

4 Dsaisonnalisation par moyennes mobiles


4.1 Gnralits sur les moyennes mobiles . . . . . . . . . . . . . .
4.1.1 Notion doprateur retard L . . . . . . . . . . . . . . .
4.1.2 Les moyennes mobiles . . . . . . . . . . . . . . . . . .
4.1.3 Lespace des oprateurs moyenne-mobile . . . . . . . .
4.2 Vecteurs propres associs une moyenne mobile . . . . . . . .
4.2.1 Les sries absorbes : = 0 . . . . . . . . . . . . . . .
4.2.2 Absorbtion de la composante saisonnire . . . . . . . .
4.2.3 Les sries invariantes : = 1 . . . . . . . . . . . . . . .
4.2.4 Transformation de suites gomtriques (rt ) . . . . . . .
4.2.5 Moyenne mobile diffrence p = (I L)p . . . . . . . .
4.2.6 Moyenne mobile diffrence saisonnire p,s = (I Ls )p
4.2.7 Moyenne mobile impaire . . . . . . . . . . . . . . . . .
4.2.8 Moyenne mobile paire . . . . . . . . . . . . . . . . . .
4.3 Notions de bruit blanc . . . . . . . . . . . . . . . . . . . . .
4.3.1 Transformation dun bruit blanc . . . . . . . . . . . . .
4.4 Les procdures X11 et X12 ? ? ? . . . . . . . . . . . . . . . .
4.4.1 Un algorithme simple de dsaisonnalisation . . . . . . .
4.4.2 Lalgorithme de base de la mthode X11 . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

5 La prvision par lissage exponentiel


5.1 Principe du lissage exponentiel simple . . . . . . . . . . . . . . .
5.1.1 Mthode adaptative de mise jour (ordre 1) . . . . . . .
5.1.2 Choix de la constante de lissage . . . . . . . . . . . . . .
5.1.3 Lien entre robustesse de la prvision et choix de . . . .
5.1.4 Exemple dapplication . . . . . . . . . . . . . . . . . . .
5.2 Principe de lissage exponentiel double . . . . . . . . . . . . . . .
5.2.1 Mthode adaptative de mise jour (ordre 1) . . . . . . .
5.2.2 Application de la mthode de lissage exponentiel double
5.3 Application au traffic sur lautoroute A7 . . . . . . . . . . . . .
5.4 Lissage exponentiel multiple, ou gnralis . . . . . . . . . . . .
5.4.1 Mthode adaptative de mise jour (ordre 1) . . . . . . .
3

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

41
41
42
42
43
43
47
48
49
50

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

52
52
52
53
57
57
58
58
59
59
60
61
62
62
63
63
64
64
64

.
.
.
.
.
.
.
.
.
.
.

67
67
67
68
69
70
72
73
73
75
77
79

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

5.5

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

79
79
80
81
81
82
83
83

6 Introduction aux modles linaires ARIM A


6.1 A quoi ressemblent les processus (S)ARIMA ? . . . . . . . . . . . . .
6.2 Rappels sur les espaces L2 . . . . . . . . . . . . . . . . . . . . . . . .
6.2.1 Proprits topologiques . . . . . . . . . . . . . . . . . . . . . .
6.2.2 Rappel sur les vecteurs et processus gaussiens . . . . . . . . .
6.2.3 Rgression affine dans L2 . . . . . . . . . . . . . . . . . . . . .
6.2.4 La notion dinnovation . . . . . . . . . . . . . . . . . . . . . .
6.3 Polynmes doprateurs retard L et avance F . . . . . . . . . . . . .
6.3.1 Rappels sur les oprateurs retards . . . . . . . . . . . . . . . .
6.3.2 Inversibilit des polynmes P (L) ? ? ? . . . . . . . . . . . . .
6.4 Fonction et matrices autocorrlations . . . . . . . . . . . . . . . . . .
6.4.1 Autocovariance et autocorrlation . . . . . . . . . . . . . . . .
6.4.2 Autocorrlations partielles . . . . . . . . . . . . . . . . . . . .
6.4.3 Densit spectrale ? ? ? . . . . . . . . . . . . . . . . . . . . . .
6.4.4 Autocorrlations inverses ? ? ? . . . . . . . . . . . . . . . . . .
6.4.5 Complment : autocorrlogrammes de fonctions dterministes
6.5 Les processus autorgressifs : AR (p) . . . . . . . . . . . . . . . . . .
6.5.1 Rcriture de la forme AR (p) . . . . . . . . . . . . . . . . . .
6.5.2 Proprits des autocorrlations - les quations de Yule-Walker
6.5.3 Le processus AR (1) . . . . . . . . . . . . . . . . . . . . . . .
6.5.4 Le processus AR (2) . . . . . . . . . . . . . . . . . . . . . . .
6.6 Les processus moyenne-mobile : M A (q) . . . . . . . . . . . . . . . .
6.6.1 Proprits des autocorrlations . . . . . . . . . . . . . . . . .
6.6.2 Le processus M A (1) . . . . . . . . . . . . . . . . . . . . . . .
6.6.3 Le processus M A (2) . . . . . . . . . . . . . . . . . . . . . . .
6.7 Les processus ARM A (p, q) . . . . . . . . . . . . . . . . . . . . . . . .
6.7.1 Proprits des autocorrlations . . . . . . . . . . . . . . . . .
6.7.2 Densit spectrale des processus ARM A (p, q) . . . . . . . . . .
6.7.3 Les processus ARM A (1, 1) . . . . . . . . . . . . . . . . . . .
6.8 Introduction aux modles linaires non-stationnaires . . . . . . . . . .
6.9 Les processus ARIM A (p, d, q) . . . . . . . . . . . . . . . . . . . . . .
6.9.1 Processus ARIM A et formes AR ou M A . . . . . . . . . . . .
6.10 Les modles SARIM A . . . . . . . . . . . . . . . . . . . . . . . . . .
6.11 Thorme de Wold . . . . . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

84
84
84
84
85
85
87
89
89
89
92
92
93
96
99
100
101
102
104
106
111
113
114
116
118
119
120
121
121
122
124
125
126
129

5.6

Les mthodes de Holt-Winters (1960) . . .


5.5.1 Mthode non saisonnire . . . . . .
5.5.2 La mthode saisonnire additive . .
Exemple de mise en pratique des mthodes
5.6.1 Prsentation des donnes . . . . . .
5.6.2 Lissage linaire . . . . . . . . . .
5.6.3 Lissage exponentiel simple . . . . .
5.6.4 Lissage exponentiel double . . . . .

. . . . . .
. . . . . .
. . . . . .
de lissage
. . . . . .
. . . . . .
. . . . . .
. . . . . .

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

6.12 Thorie spectrale et processus ARIM A ? ? ? . . . . . . .


6.12.1 Thorie spectrale et notion de filtre . . . . . . . .
6.12.2 Le spectre dun processus ARM A . . . . . . . . .
6.12.3 Estimation de la densit spectrale dun processus

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

7 Estimation des modles ARIM A : Box-Jenkins


7.1 Estimation du paramtre dintgration d . . . . . . . . . . . . . . . . . .
7.1.1 Approche empirique par lautocorrlogramme . . . . . . . . . . .
7.1.2 Tests de racine unit . . . . . . . . . . . . . . . . . . . . . . . . .
7.1.3 Tests de racines unitaires saisonnires . . . . . . . . . . . . . . . .
7.1.4 Complment sur la notion de sur-diffrentiation . . . . . . . . . .
7.2 Estimation des ordres p et q dun modle ARM A (p, q) . . . . . . . . . .
7.2.1 Problmes dunicit de la reprsentation ARM A . . . . . . . . . .
7.2.2 Comportement asymptotique des moments empiriques . . . . . .
7.2.3 Mthode pratique destimation des ordres p et q . . . . . . . . . .
7.2.4 Cas dun processus M A (q) . . . . . . . . . . . . . . . . . . . . . .
7.2.5 Cas dun processus ARM A (p, q) . . . . . . . . . . . . . . . . . .
7.2.6 Proprit des estimateurs . . . . . . . . . . . . . . . . . . . . . .
7.3 Test de bruit blanc et de stationnarit . . . . . . . . . . . . . . . . . . .
7.3.1 Analyse des fonctions dautocorrlation . . . . . . . . . . . . . . .
7.3.2 Statistique de Box-Pierce, ou test de portmanteau . . . . . . . .
7.3.3 Complments : les tests de normalit . . . . . . . . . . . . . . . .
7.3.4 Complment : Test de rupture et de changement de tendance . .
7.4 Estimation des paramtres dun modle ARM A (p, q) . . . . . . . . . . .
7.4.1 Attention la constante . . . . . . . . . . . . . . . . . . . . . . .
7.4.2 Estimation pour les modles AR (p) par la m thode des moindres
carrs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.4.3 Vraissemblance dun processus ARM A (p, q) . . . . . . . . . . . .
7.4.4 Rsolution du programme doptimisation . . . . . . . . . . . . . .
7.4.5 Comparaison des diffrentes mthodes dinfrence . . . . . . . . .
7.4.6 Tests statistiques de validation du modle . . . . . . . . . . . . .
7.5 Choix dun modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.5.1 Critre de pouvoir prdicitf . . . . . . . . . . . . . . . . . . . . .
7.5.2 Critre dinformation . . . . . . . . . . . . . . . . . . . . . . . . .
7.6 Application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.6.1 Identification du modle : recherche des paramtres d, p et q . . .
7.6.2 Estimation du modle ARIM A . . . . . . . . . . . . . . . . . . .
7.6.3 Vrification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.

130
131
132
133

137
. 137
. 137
. 137
. 142
. 144
. 144
. 144
. 146
. 147
. 148
. 148
. 152
. 152
. 152
. 153
. 155
. 156
. 161
. 161
.
.
.
.
.
.
.
.
.
.
.
.

164
165
167
172
173
174
174
174
175
175
176
176

8 Prvisions laide des modles ARIM A : Box-Jenkins


177
8.1 Prvisions laide dun modle AR (p) . . . . . . . . . . . . . . . . . . . . 177
8.2 Prvisions laide dun modle M A (q) . . . . . . . . . . . . . . . . . . . . 178
8.2.1 Utilisation de lcriture AR () du processus M A (q) . . . . . . . . 178
5

8.3

8.4

8.5
8.6

8.7

8.2.2 Utilisation de la formule de mise jour des rsultats . . . . .


Prvisions laide dun modle ARM A (p, q) . . . . . . . . . . . . . .
8.3.1 Utilisation de la forme AR () pu processus ARM A (p, q) . .
8.3.2 Utilisation de la forme M A () pu processus ARM A (p, q) et
formules de mise jour . . . . . . . . . . . . . . . . . . . . . .
Prvisions dans le cas dun processus ARIM A (p, d, q) . . . . . . . . .
8.4.1 Utilisation de lapproximation AR . . . . . . . . . . . . . . . .
8.4.2 Utilisation de lapproximation M A . . . . . . . . . . . . . . .
Intervalle de confiance de la prvision . . . . . . . . . . . . . . . . . .
Prvision pour certains processus AR et M A . . . . . . . . . . . . . .
8.6.1 Prvision pour un processus AR (1) . . . . . . . . . . . . . . .
8.6.2 Prvision pour un processus M A (1) . . . . . . . . . . . . . .
8.6.3 Prvision pour un processus ARIM A (1, 1, 0) . . . . . . . . .
Application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.7.1 Example de prvision : cas dcole . . . . . . . . . . . . . . .
8.7.2 Exemple dapplication : cas pratique . . . . . . . . . . . . . .

. .
. .
. .
des
. .
. .
. .
. .
. .
. .
. .
. .
. .
. .
. .
. .

9 Mise en oeuvre de la mthode de Box & Jenkins


9.1 Application de la srie des taux dintrt 3 mois . . . . . . . . . . . .
9.1.1 Modlisation de la srie . . . . . . . . . . . . . . . . . . . . . . .
9.1.2 Estimation des paramtres dune modlisation ARIM A (1, 1, 1)
9.1.3 Estimation des paramtres dune modlisation ARIM A (2, 1, 2)
9.1.4 Estimation des paramtres dune modlisation ARIM A (4, 1, 4)
9.1.5 Estimation des paramtres dune modlisation ARIM A (8, 1, 2)
9.1.6 Estimation des paramtres dune modlisation ARIM A (8, 1, 4)
9.1.7 Choix du modle . . . . . . . . . . . . . . . . . . . . . . . . . .
9.2 Modlisation du taux de croissance du P IB amricain . . . . . . . . .

.
.
.
.
.
.
.
.
.

. 179
. 179
. 179
.
.
.
.
.
.
.
.
.
.
.
.

180
180
181
182
182
183
183
184
186
187
187
189

190
. 190
. 191
. 192
. 193
. 193
. 194
. 194
. 194
. 195

Remarque 1. Ces notes de cours sont bases sur de vieilles notes de cours datant de
2005, utilises lUniversit Paris 9 Dauphine. Les notes taient alors bases sur des
codes SAS, mais elles sont ajourdhui en R.

Introduction gnrale et notations

Ltude des sries temporelles, ou sries chronologiques, correspond lanalyse statistique


dobservations rgulirement espaces dans le temps. Elles ont t utilises en astronomie
(on the periodicity of sunspots, 1906), en mtorologie (time-series regression of sea
level on weather , 1968), en thorie du signal (Noise in FM receivers, 1963), en biologie (the autocorrelation curves of schizophrenic brain waves and the power spectrum,
1960), en conomie (time-series analysis of imports, exports and other economic variables, 1971)...etc.

1.1

Approches temps/frquences : un peu dhistoire

De faon gnrale, quand on parle de sries stationnaires, on a en tte une reprsentation


de la forme Xt , o t Z, reprsentant les observations (potentielles) du processus, dont on
peut dfinir un ensemble dautocovariance (t, s) = E ([Xt ] [Xs ]) qui ne dpend
que la distance entre t et s, (t, s) = (t + h, s + h) pour tout h Z (notion faible de
stationnarit). On demande gnralement cette autocovariance (t, s) de tendre vers
0 quand la diffrence entre t et s tend vers linfini : la covariance entre des lments trs
loigns dans la srie tend vers 0.
Cette approche, base sur lutilisation des corrlations, correspond lanalyse de type
temporelle : elle consiste tudier les corrlations croises de fonctions de la srie (Xt ).
Ces mthodes sont gnralement paramtriques de type moyenne-mobiles (moving average
M A) ou autorgressives (AR) - voire les deux (ARM A). Toutes ces mthodes consistants
estimer des paramtres peuvent gnralement tre vus comme des gnralisations de la
rgression linaire.
Lautre approche galement utilise est celle base sur ltude des frquences. Cette
vision est une gnralisation des mthodes utilises en analyse de Fourier. Lide est
ici dapproximer une fonction analytique par une somme pondre de fonctions sinus ou
cosinus.
Historiquement, ce sont les astonomes qui les premiers ont travaill sur des sries
chronologiques. La reproduction ci-dessous est tir dun manuscrit du X e sicle, reprsentant linclinaison des orbites des plantes en fonction du temps. Cest en particulier grce
ce genre de donnes que Kepler a pu noncer ses lois sur le mouvement des plantes.

Ces visualisations graphiques ont permis, grce aux diffrents outils mathmatiques
mis en place au XV III e et XIX e sicles, de mettre en place les premires techniques
dtude des sries chronologiques2 , parmi lesquelles, lanalyse harmonique.
1.1.1

Analyse harmonique

Les astronomes ont t les premiers utiliser lanalyse de Fourier pour des sries
chronologiques. Leur but tait de dtecter des saisonalits caches au sein de leurs donnes. Ainsi, Lagrange a utilis ces mthodes pour dtecter de la priodicit cache en
1772 et en 1778. Un demi-sicle plus tard, en 1847, Buys et Ballot, dans Les changements priodiques de tempratures ont propos des mthodes pour tudier la priodicit
de donnes astronomiques. Toutefois, il a fallu attendre 1889 pour que Sir Arthur Shuster
introduise le priodogramme, qui constitue la base des mthodes spectrales danalyse de
sries chronologiques.
Lide est la suivante : on recherche un modle sous-jacent de la forme
X
X
Yt =
j cos [j t j ] + t =
[j cos (j t) + j sin (j t)] + t ,
o (t ) est une suite de variables alatoires indpendantes identiquement distribues, qui
correspondront un bruit
q blanc (cette notion serait longuement dveloppe par la suite).
Le facteur j (ou j2 + j2 ) correspond lamplitude de la j-me composante priodique, et indique le poids de cette composante au sein de la somme.

2
En fait, comme le note Bernstein dans Against the Gods (the remarkable story of risk), les grecs ou
les hbreux ont observs des phnomnes cycliques (par exemple), mais ils nont jamais pens faire de
la prvision. Il a fallu attendre la Renaissance pour que lavenir ne soit plus quune question de chance
ou un fruit du hasard.Y compris au XV IIIme sicle, prvoir des phnomne futurs pouvait faire croire
une tentative de rivaliser avec les dieux : Halley remarqua que la mme comte fut aperue en 1531,
en 1607 et en 1682 (cette comte avait t observe dailleurs depuis 240 avant J.C.), et il prvoit quon
la reverra en 1758 (ce fut effectivement le cas, au grand moi de toute lEurope, puisque tous les 76 ans,
la comte, dite de Halley, arrive en vue de la terre).

A partir dun chantillon Y0 , ..., YT 1 , et en considrant les frquences j = 2j/T , le


priodogramme est dfini par

2 X
2  T

2 X
I (j ) =
Yt cos (j ) +
a2 (j ) + b2 (j ) .
Yt sin (j )
=
T
2
Il est alors possible de montrer que 2I (j ) /T est un estimateur consistant de 2j (au
sens o cet estimateur converge en probabilit quand le nombre dobservations augmente).
Cette convergence t longuement tudie par Yule en 1927.
En 1924, Whittaker et Robinson ont utilis cette thorie sur la brillance de ltoile TUrsa Major, observe sur 600 jours, et ont montr que la brillance pouvait tre modlise
(presque parfaitement) laide de 2 fonctions harmoniques, de priodes respectives 24 et
29 jours.
Si cette thorie a donn de trs bons rsultats en astronomie, son application en
conomie a conduit des rsultats nettement moins concluants. En 1921 et 1922, Beveridge a utilis cette thorie sur le prix du bl (wheat prices and rainfall in western
europe). La srie prsentait tellement de pics quau moins 20 priodicits taient possibles... et plus encore si lon commenait prendre en compte de facteurs conomiques ou
mtorologiques.
Si les phnomnes astronomiques permettent dutiliser cette thorie, cest parce que
des cycles parfaitement rguliers sont observs. Toutefois, cette mthode sest rvle plus
complique mettre en oeuvre en sciences humaines.
1.1.2

Modles autoregressifs et moyennes mobiles

Deux articles en 1927 ont ouvert une autre voie : larticle de Yule (on the method of
investigating periodicities in disturbated series with sepcial reference to Wolfers sunspot
numbers) et celui de Slutsky (the summation of random causes as the source of cyclical
processes).
Yule a introduit dans la littrature les modles autorgressifs, en considrant des modles de la forme
Yt = Yt1 + Yt2 .
Etant donnes deux valeurs initiales, cette suite prsente un comportement saisonnier,
fonction des paramtres et . Yule remarque quen fait, le comportement dpend des
racines (complexes) de lquation z 2 z = 0, et plus particulirement de leur
position par rapport au disque unit. Si leur module est infrieur 1, alors on observe un
comportement sinusodal amorti. En fait, la forme gnrale des solutions sera
Yt = At cos (t ) , lorsque 0 < < 1.
Le modle autorgressif propos par Yule est le suivant
Yt = 1 Yt1 + 2 Yt2 + t ,

(1)

o (t ) correspond un bruit blanc : un bruit blanc correspond un processus indpendant (ou, plus faiblement, non corrl avec son pass). Nanmoins, des hypothses plus
fortes doivent parfois tre faites : on veut que ce bruit soit galement indpendant du
pass de la variable Yt , i.e. t indpendant de Yth pour tout h 1, et on parle alors
dinnovation du processus (Yt ) .
Remarque 2. Le terme bruit blanc vient de la thorie du signal. Comme pour la lumire
blanche (qui est un mlange de toutes les couleurs), le bruit blanc est compos de toutes
les frquences, o la densit spectrale de puissance est la mme pour toutes les frquences.
Ce bruit ressemble un souffle.
Slutsky a introduit les moyennes mobiles la mme anne que Yule a introduit les
processus autorgressifs... mais son article, crit en 1927 en russe na t traduit quen
1937 en anglais. Pour cela, il a utilis des nombres gnrs par la lotterie officielle, et a
russit gnrer une srie dcrivant le cycle conomique en Angleterre, de 1855 1877.
La forme gnrale tait la suivante,
Yt = 0 t + 1 t1 + ... + q tq ,

(2)

o (t ) est un bruit blanc, correspondant ces nombres gnrs par la lotterie officielle :
on obtient des variables indpendantes entre elles (cf tables de nombres alatoires), mais
surtout indpendantes du cycle conomique. Cette criture a suggr dlargir la relation
(1) sous une forme proche de (2), savoir
0 Yt + 1 Yt1 + ... + p Ytp = t .
Les processus introduits par Yule deviendront les processus AR (p) et ceux introduits par
Slutsky les processus M A (q). Lanalogie entre les deux processus sera mme pousse
plus loin lorsquil sera montr que les processus AR (p) et M A (q) sont respectivement
des processus M A () et AR (), sous certaines conditions.
1.1.3

Lapproche temporelle : concept de corrlation srielle

Si lapproche spectrale repose sur lutilisation du spectre (ou du priodogramme),


lapproche temporelle repose sur lautocorrlogramme, ou plus gnralement sur
lutilisation de la corrlation srielle. Poynting est le premier a introduire cette ide,
en 1884, en tudiant la relation entre le mouvement du prix du bl, et les importations
de coton et de soie. Le coefficient de corrlation srielle a t dfinit par Hooker en 1901,
dans une tude sur le taux de mariage en Angleterre, et lindice du commerce. Etant donnes deux sries temporelles, (Xt ) et (Yt ), la covariance srielle est dfinie par ck (X, Y ) =
cov (Xt , Yt+k ) et la corrlation srielle sera alors rk (X, Y ) = ck (X, Y ) /c0 (X, Y ).
Le coefficient dautocorrlation est alors obtenu en considrant k = corr (Xt , Xt+k ) =
rk (X, X). Les annes 30 ont alors vu lclosion des rsultats de base dans le domaine
des sries chronologiques, sous limpulsion de Khintchine, Cramer, Wold, Kolmogorov,
Wiener...etc. Ces auteurs ont dvelopp une thorie des sries temporelles, en considrant
quune srie chronologique est une ralisation dun processus alatoire.
10

1.1.4

Lquivalence entre les deux approches temps/frquence

Dans un premier temps, lanalyse harmonique a t gnralise pour passer dune somme
de Fourier une intgrale de Fourier
Z
Yt =
[cos (t) dA () + sin (t) dB ()] .
0

Cette simple ide de lissage du priodogramme a permis de contourner les problmes


quavait pu observer Beveridge lorsquil cherchait des priodicits caches dans des disciplines autres que lastronomie.
La synthse entre ces deux branches (la premire travaillant en temps, avec des autocorrlations, et la seconde travaillant sur le spectre de la srie) a t faite dans les
annes 30, en parallle aux Etats-Unis par Norbert Wiener (generalised harmonic analysis, 1930) et en Union Sovitique par Khintchine (korrelationstheorie der stationaren
stochastichen prozesse, 1934). Leur rsultat est de mettre en avant une relation bijective
entre la fonction dautocovariance dun processus stationnaire, et sa densit spectrale :
Z
+
1 X
(h) cos (h) ou (h) =
cos (h) g () d, o (h) = cov (Xt , Xth ) .
g () =
2 h=
0
Et si lanalogie entre autocorrlogramme et densit spectrale existe dun point de vue
thorique, il est possible de mettre en avant le mme genre de relation entre les autocorrlations empiriques et le priodogramme empirique.

1.2

Les dveloppements rcents

Ltude des sries temporelles semble avoir atteint sa maturit au cours des annes 70 o
des dveloppements significatifs sont apparus. En 1965, Cooley et Tukey ont beaucoup
aid ltude spectrale des sries grce leur article an algorithm for the machine calculation of complex Fourier series, introduisant la Fast Fourier Transform (FFT ). Cet
algorithme a permis de calculer rapidement des priodogrammes. A la mme poque,
en 1970, Box et Jenkins ont publi leur ouvrage Time series analysis, forecasting and
control , montrant que ltude des sries temporelles laide de processus de type ARM A
(obtenus en associant les critures (1) et (2) des processus AR et M A) pouvait sappliquer
de nombreux domaines, et pouvait tre facilement implmente informatiquement3 .
1.2.1

Les modles ARM A, ARIM A et SARIM A : modles linaires

Les modles ARM A sont un mlange des modles (1) et (2) proposs par Yule et Slutsky.
Un processus (Xt ) est un processus ARM A (p, q) sil existe un bruit blanc (t ) (cest
3

Sur les mthodes de prvision en conomie, il peut tre intressant de se reporter The past, present
and future of macroeconomic forecasting de Francis Diebold (1997).

11

dire un processus stationnaire tel que t et tk soient indpendants, pour tout k, pour
tout t) tel que
Xt = 1 Xt1 + ... + p Xtp + t + 1 t1 + ... + q tq , pour tout t.
Sous certaines conditions, ces processus sont stationnaires. Comme nous le verrons par
la suite, ces processus peuvent scrire sous la forme
(L) Xt = (L) t , o (L) = I 1 L ... p Lp et (L) = I + 1 L + ... + q Lq ,
L reprsentant loprateur retard, au sens o LXt = Xt1 , et avec la convention Lp =
L Lp1 , soit Lp Xt = Xtp : la srie (Yt ) telle que Yt = Lp Xt est alors la srie (Xt )
retarde de p priodes.
Paralllement, on dira quun processus non-stationnaire est intgr dordre 1, si en le
diffrenciant une fois, on obtient un processus stationnaire : (Xt ) (non-stationnaire) sera
dit intgr dordre 1 si le processus (Yt ) dfinit Yt = Xt = Xt Xt1 = (1 L) Xt
est stationnaire. On dira, par extension, que (Xt ) est intgr dordre d si (Xt ) est
non-stationnaire, ..., (Yt ) o Yt = (1 L)d1 Xt , est non-stationnaire, et (Zt ) o Zt =
(1 L)d Xt , est stationnaire. On appelera alors processus ARIM A (p, d, q) un processus
(Xt ) pouvant se mettre sous la forme
(L) Xt = (L) (1 L)d Xt = (L) t , o (t ) est un bruit blanc.
Pour les donnes relles, on notera que d = 1, 2 ou 3 (au maximum). Cela signifie que
(Yt ) dfinit comme diffrence dordre d du processus (Xt ), soit Yt = (1 L)d Xt , suit un
processus ARM A (p, q) 4 .
On parlera dailleurs de prsence de racine unit : 1 est alors racine du polynme
autorgressif (z). Par gnralisation, on peut considrer le cas o exp (2i/s) est racine
du polynme autorgressif : cest dire que (L) = (1 Ls ) (L). On dira alors que
lon est prsence dune racine unit saisonnire, qui engendreront les modles SARIM A.
Les modles intgrs sont trs prsents dans les sries conomiques, par exemple
les sries dindices boursiers, dindice de production, dindice de prix.... Les modles
SARIM A sont galement trs prsents ds lors que les sries sont trs saisonnires (avec
une forte pridicit trimestrielle, annuelle...etc).
Remarque 3. Parmi les transformations usuelles des variables, la transformation par
(1 L) est parmi les plus utilises : on ne considre alors plus la srie brute (Xt ) mais la
variation (brute) Yt = Xt Xt1 . Dans le cas o Xt est un prix (par exemple un indice
boursier, CAC40 ou SP 500), on considre galement souvent la variable obtenue comme
diffrence des logarithmes des prix Zt = log Xt log Xt1 , qui est alors le rendement ou
le taux de croissance (return ).
4

Ceci nest quune notation : comme nous le verrons par la suite, les processus ARIM A sont un peu
plus compliqus que les processus ARM A puisquil faut prendre en compte des conditions initiales : (Yt )
ne suit quasymptotiquement un processus ARM A (p, q).

12

1.2.2

Modles ARCH - volatilit stochastique

Dans les annes 80, des dveloppements ont t apports dans ltude de la non-linarit
de certaines sries, et sur leur modlisation. En 1982, Engle a introduit la classe des
modles ARCH (autorgressifs conditionnellement htroscdastiques5 ). Ces modles ont
t introduits pour palier une observation empirique qui ntait pas prise en compte par
les modles : la volatilit conditionelle dune srie (Yt ) na aucune raison dtre constante.
Dans les modles AR (1), la variance conditionnelle de Xt sachant Xt1 est constante :
V (Xt |Xt1 ) = 2 o V (t ) = 2 (notion dhomoscdasticit). Engle a cherch un modle
dans lequel la variance conditionnelle
de Xt sachant Xt1 dpendrait de Xt1 , et plus

2
particulirement, V (Xt |Xt1 ) = + Xt1
2 . Pour cela, il a considr les modles de
la forme
p
2
.
Xt = t ht , o ht = 0 + 1 Xt1
Cette classe de modle, appele ARCH (1) a t gnralise sous la forme ARCH (p),
p
2
2
Xt = t ht , o ht = 0 + 1 Xt1
+ ... + p Xtp
.
Cette forme pour ht a permis lanalogie entre les modles AR et les modles ARCH. De
plus, cette classe de modles ARCH a t gnralise de la mme faon que les ARM A
gnralisent les AR, en considrant des fonctions ht de la forme
ht = 0 +

p
X

2
i Xti

i=1

q
X

j tj ,

j=1

gnrant ainsi les modles GARCH.


1.2.3

Les processus mmoire longue

Dautres avances ont t faites sur la mmoire longue de certaines sries. Les processus stationnaires de type AR ont un autocorrlogramme qui converge vers 0 de faon
exponentielle ( (h) = h ). Les processus mmoire longue seront caractriss par une
dcroissance de leur autocorrlogramme suivant une fonction puissance ( (h) = h ).
Plusieurs classes de processus appartiennent cette srie,
(i) les processus self-similaires, introduits par Kolmogorov en 1958 et dvelopps par
Mandelbrot (1965) : ces processus sont caractriss par lexistence dune constante H
(dite de self-similarit) telle que, pour tout constante c, la distribution de Yct soit gale
celle de cH Yt . On retrouve dans cette classe les processus de Levy.
(ii) les processus F ARM A, gnralisation des modles ARIM A dcrits par Box et
Jenkins. Ces modles ARIM A taient obtenus en considrant que les diffrences premires
5

Pour rappel,
un modle conomtrique est dit homoscdatique si la variance des erreurs (cen
tres) E 2t est constante - quelque soit la priode dtude. Dans le cas contraire,
on parlera


dhtroscdasticit. Les modles sont ici conditionnellement htroscdatistique car E 2t |t1 dpend
de t.

13

d Xt (o Xt = Xt Xt1 , 2 Xt = (Xt )...etc) suivent un processus ARM A (p, q).


On parle alors de processus ARM A intgr. Les processus F ARIM A ont t obtenus
en considrant, formellement, les cas o d nest pas entier, compris entre 1/2 et 1/2.
Cette gnralisation, propose par Granger en 1980, repose sur la manipulation des sries
doprateurs retard (L), et sur le dveloppement en srie entire de (1 L)d .
(iii) laggrgation de processus AR (1) a galement t propose par Granger en 1980
et cette classe de processus a t tudie par Gourieroux et Gonalves en 1988. On
considre des processus vrifiant, pour tout t 0,
Xi,t = i Xi,t1 + Ci t + i,t pour i = 1, 2, ...
1.2.4

Les processus multivaris

Enfin, dautres dveloppements ont t fait dans ltude des processus multivaris. Si lon
se place uniquement en dimension 2, on comprend que la gnralisation des processus
univaris une dimension suprieur est relativement complique.
(i) les modles V AR - vecteurs autorgressifs - sont une gnralisation des modles
AR en dimension n. Si lon considre par exemple un couple Z t de deux variables (Xt , Yt )
que lon souhaite expliquer par leur pass, on obtient un modle de la forme

 

 

Xt
1 1
Xt1
t
=
+
, soit Z t = A1 Z t1 + Ut ,
Yt
1 1
Yt1
t
o la matrice At est compose des coefficients autoregressifs usuels (1 et 1 ) mais aussi
des notions relatives la notion de causalit, Xt dpendant de Yt1 , et Yt dpendant de
Xt1 .
(ii) la cointgration est une notion relative au comportement des plusieurs variables
intgres, et la relation qui les unit long terme : on considre (Xt ) et (Yt ) nonstationnaires, et intgres dordre d, satisfaisant une relation du type
Xt = + Yt + t .
Plus formellement, si le vecteur (Z t ) est intgr dordre d, on dira que les sries
Zt1 , Zt2 , ..., Ztn sont cointgres si et seulement sil existe une relation linaire non-nulle
des composantes qui soient intgres dordre strictement infrieur d
(iii) le modle filtre de Kalman. Ce modle est un cas particulier dune classe plus
large de modles, les modles espace dtats, de la forme

Z t+1 = At Z t + t
Y t = Ct Z t + t ,
o (Y t ) est le vecteur que lon tudie, (Z t ) est un vecteur alatoire (=tat) inconnu, At
et Ct sont des matrices dterministes, et (t , t ) est un bruit blanc normal. Lide est
destimer rcursivement Z t en fonction de Y 0 , ..., Y t .

14

1.2.5

Exemple : histoire de la prvision des modles conomiques (macroconomiques)

La thorie conomique inspire de Keynes reposait sur lutilisation de prvisions conditionnelles : sous certaines hypothses, les prvisions dune ou plusieurs variables taient
faites conditionellement des comportements, au sein de modles structurels. Plus particulirement, ds 1936, Keynes proposait par exemple de lier la consommation Ct au revenu
disponible Rt , sous la forme Ct = Rt + : une prvision de Rt permettait de prvoir
Ct . Brown avait propos un modle lgrement diffrent ds 1952, en intgrant le fait
que les individus ont des habitudes de consommation, entrainant une inertie importante :
Ct = Rt + + Ct1 . Ces prvisions structurelles ont toutefois cess de faire rfrence
partir des annes 70.
Les prvisions non-structurelles ont alors pu prendre en compte les diffrents cycles
observs en conomie (1977 : Business cycle modeling without pretending to have too
much a priori theory de Sargent et Sims) : des prvisions de sries conomiques peuvent
se faire sans ncessairement avoir de modle structurel derrire. Les modles utiliss sont
toutefois relativement anciens puisquils sont inspirs des modles de Slutsky et Yule,
tous deux datant de 1927, bass sur la notion de modle autorgressif. La publication de
louvrage de Box et Jenkins en 1970 permettra une avance rapide avec lutilisation des
modles ARM A.
Toutefois, le lacune de la thorie de Box et Jenkins est quelle ne prend pas en compte
des effets croiss de dpendance entre variables. Pour effectuer de la prvision dun ensemble de variables, a priori lies, il convient deffectuer une prvision globale : la thorie
des modles V AR (modles autorgressifs vectoriels) a t introduite en conomie sous
limpulsion de Sims en 1980, qui a travaill sur des systmes dquations o toutes les variables sont alors endognes (contrairement aux quations structurelles de Keynes). Cette
thorie avait toutefois t tudie ds les annes 70 par Granger par exemple, qui avait
travaill sur la notion simple de causalit entre variables.
Toutefois, la prsence dun certain nombre de variables non-stationnaires a pos un
certain nombre de problmes : Granger a alors introduit la notion de cointgration en 1981
: cette notion dit que deux variables X et Y peuvent suivre une tendance stochastique,
mais la diffrence (ou le spread ) X Y peut tre stationnaire. Cette notion sera lorigine
des modles tendance commune, permettant de travailler sur des systmes dquations
o certaines variables sont cointgres. En particulier, ds 1978, Hall se posait la question
de savoir si la consommation par habitant ntait pas une martingale, ce qui conduirait
crire Ct = Ct1 + t o t est un ala. Nelson et Plosser ont dailleurs not, en 1982
quun grand nombre de sries macroconomiques taient caractrises par la prsence
dune racine unitaire (cest dire une criture de la forme Ct = Ct1 + Xt ). Et cest
finallement en 1987 que Campbell a propos un modle V AR sur la consommation C et
le revenu R, puis un modle V AR intgrant dans chaque quation un modle correction
derreur.
Une autre piste qui a t explore la mme poque est celle des modles non-linaires.
Cette voie a t ouverte ds 1982 par Engle, qui introduisi de la dynamique dans la

15

volatilit, laide des modles ARCH. Ces modles ont t trs utiliss en finance, mais
aussi pour des modles dinflation.
Parmi des amliorations apportes dans les annes 90, on peut noter les modles avec
cycles, avec rupture de tendance, changement de rgime...etc. La thorie des modles
changement de rgime repose sur lide que derrire les variables observes existent des
variables caches, non observes.
Pour rsumer lhistoire des applications conomiques des sries temporelles, on peut
retenir le schma suivant
- annes 20 : macroconomie descriptive : description des cycles (courts = Slutsky,
longs = Kondratieff )
- annes 50 : dbut de la thorie des sries temporelles, avec comme objectif principal,
la prvision
- annes 60 : application en macroconomie, avec des modles structurels : une
vingtaine de variables, et 200 observations (maximum)
- annes 70 : thorie de Box et Jenkins, sappuyant sur un logiciel (modle linaire)
: on considre les variables une une, sur 200 observations (dbut, la mme poque, de
la thorie des panels en microconomie : 3000 individus suivis sur 3 ou 4 priodes)
- annes 80 : en marcronomie, modles multivaris (causalit, cointgration,
codpendance). Dbut de lutilisation des modles de sries temporelles sur donnes financires : beaucoup de variables, 2000 observations. Dbut des modles temps continu.
- annes 90 : donnes hautes frquences sur les marchs financiers (de 4000 plus
de 2000000 observations).
Des complments peuvent se trouver dans larticle de Chris Chatfield (1997) intitul
Forecasting in the 1990s.
Remarque 4. Les modles que nous allons tudier dans ce cours sont bass sont bass sur
ltude de processus (Xt ) o les variables observes sur supposes valeurs relles
: X1 , X2 , ..., Xt , .... R. On observera ainsi des prix, des variations de prix, des taux, des
montants...etc. Des nombres de voyageurs seront, a la rigueur, considrs comme une
variable relle, mais deux cas seront exclus de notre tude, a priori :
les processus de comptage (ex : nombre daccident pour un conducteur lanne t)
les processus valeurs dans un espace dtat fini
1.2.6

Remarque sur les donnes hautes frquences

Remarque 5. Les modles que nous allons tudier dans ce cours sont bass sont bass
sur ltude de processus (Xt ), observs des dates rgulires : X1 , X2 , ..., Xt , .... Il peut
sagir, par exemple, de la version discrre dun processus en temps continu : on observe
Xt1 , Xt2 , ..., Xtn , ... o les dates ti sont telles que ti ti1 soit constante pour tout i.
Dans le cas des donnes hautes frquences, lanalyse est relativement diffrente,
puisque laspect temporel doit tre pris en compte. Par exemple, pour tudier la liquidit des marchs financiers, on considre les triplets de variables suivants : (Ti , Vi , Pi ),
16

o Ti est la date de la ime transaction, Vi le volume chang lors de la transaction, et Pi


le prix de cette transaction. Cette tude permet de changer lchelle des temps : on ne
considre plus le temps calendaire mais le temps des transactions.
La notion de base pour tudier ce genre de donnes est la thorie des modles de
dures. On considre (Ti ), la suite des dates de transaction, et i la date coule entre la
ime et la i 1me transaction : i = Ti Ti1 .
Toutefois, dans ce cours, nous ne traiterons pas de ces aspects, mais nous considrerons
plutt des agrgations, ou des observations ponctuelles : Pt sera le prix observ la date
t (par exemple tous les jours, ou toutes les heures) et Vt le volume total chang pendant
la priode (en une journe, ou une heure). Toutefois, il est noter que mme dans ce cas,
o les volumes de donnes sont trs importants, ltude peut savrer plus complexe que
dans le cas o lon considre des sries conomiques observes 200 dates, en particulier
cause de la prsence de multiples cycles (un cycle dune journe sera observe sur des
donnes horaires par exemple, puis des cycles mensuels, ou trimestriels (publication de
comptes), ou encore annuels...).

1.3

Thorie des processus temps discret

Deux types de processus sont utiliss dans la thorie des sries stationnaires
(i) les processus stationnaires
(ii) les processus markoviens
1.3.1

Stationnarit des processus

La stationnarit joue un rle central dans la thorie des processus, car elle remplace
(de faon naturelle) lhypothse dobservation i.i.d. en statistique. Deux notions sont
gnralement considres. La premire notion de stationnarit peut se dfinir de faon
forte par une stabilit en loi du processus : quels que soient n, t1 , ..., tn et h, on a lgalit
entre les lois jointes
L (Yt1 , ..., Ytn ) = L (Yt1 +h , ..., Ytn +h )
Cette dfinition toutefois peut tre affaiblie : le processus est dit stationnaire au second
ordre si
- la moyenne du processus est constante : E (Yt ) = m pour tout t Z
- les autocovariances ne dpendent que de la diffrence entre les observations :
cov (Xt , Xs ) = (|t s|)
Cette dernire proprit implique en particulier que la variance de Yt est constante :
V (Yt ) = 2 .
Remarque 6. Si lon considre les lois marginales ( t fix) du processus, la stationnarit
(forte) signifie une stabilit de la loi marginale : la loi de Yt et la loi de Ys sont identiques
pour t 6= s. La stationnarit du second ordre correspond uniquement une stabilit des
deux premiers moments : E (Yt ) = E (Ys ) et V (Yt ) = V (Ys ) pour t 6= s. Dans ce cas,
rien nempche davoir des skewness et des kurtosis variables en fonction du temps.
17

Remarque 7. Si lon considre la dpendance temporelle, la stationnarit du second ordre


suppose uniquement une stabilit de la corrlation (moment dordre 2) : cov (Xt , Xt+h ) =
cov (Xs , Xs+h ). La stationnarit au sens fort est beaucoup plus forte que cette condition
sur le moment dordre 2, puisquelle suppose une stabilit de toutes les lois jointes6 : en
particulier, cette condition implique lgalit en loi des couples (Xt , Xt+h ) et (Xs , Xs+h ).
La notion de stationnarit au second ordre, qui sera utilise dans la premire partie
de ce cours, suppose uniquement une stabilit des deux premiers moments :
- la stationnarit au second ordre nempche pas une variation des moments dordres
plus levs (asymtrie de la loi ou paisseur des queue fonctions du temps),
- la stabilit de la structure de dpendence entre Xt et Xt+h se rsume une stabilit
du coefficient de corrlation (ou de covariance).
Lexemple le plus simple de processus stationnaire est le bruit blanc. Toutefois, de la
mme faon quil est possible de dfinir deux notions de stationnarit, il existe deux sorte
de bruit blanc. Le processus (t ) est un bruit blanc faible sil existe 2 telle que

E (t ) = 0 pour tout t
V (t ) = E (2t ) = 2 pour tout t

cov (t , th ) = E (t th ) = 0 pour tout t, et pour tout h 6= 0.


Aucune hypothse dindpendance nest faite dans cette dfinition. Les variables aux diffrentes dates sont uniquement non corrles (ce qui fera une diffrence importante, comme
nous le verrons dans la partie sur les modles ARCH). Cette hypothse dindpendance
permet toutefois de dfinir un bruit blanc fort, i.e.

E (t ) = 0 et V (t ) = E (2t ) = 2 (finie) pour tout t


L (t ) = L (th ) pour tout t, h

t et th sont indpendantes pour tout t, et pour tout h 6= 0.


On peut simuler un bruit blanc gaussien en utilisant
> epsilon=rnrom(100)

1.3.2

Proprit de Markov en temps discret

La thorie sur les chanes de Markov (en temps discret) est galement un lment important.
6

Rappel : soient X1 et X2 de mme loi, Y1 et Y2 de mme loi, tels que cov (X1 , Y1 ) = cov (X2 , Y2 ),
alors on na pas galit des
 lois jointes2 : L (X1 , Y1 ) 6= L (X2 , Y2 ). En particulier, si X et Y suivent des
2
lois normales N X , X
et N Y , Y avec corr (X, Y ) = , alors on na pas ncessairement



 

2
X
X
X
X Y
N
,
Y
Y
X Y
Y2
Un vecteur gaussien nest pas uniquement un vecteur dont les lois marginales sont uniformes (cf cours
de probabilit).

18

Cette proprit correspond lide que lon souhaite rsumer linformation contenue
dans les variables passes du processus par un nombre fini de variables (les variables
dtat). Dans le cas le plus simple, on souhaite que les variables dtat soient des valeurs
retardes du processus : toute linformation est contenue dans les k valeurs les plus
rcentes
L (Xt |Xt1 , Xt2 , Xt3 , ...) = L (Xt |Xt1 , ..., Xtk ) ,
qui peut se rcrire, lordre 1,
d

(Xt |Xt1 , Xt2 , Xt3 , ...) = (Xt |Xt1 ) .


Il est possible de montrer que cette relation est quivalente
Xt = g (Xt1 , t ) , o (t ) est un bruit blanc.
Toutefois, cette thorie, visant chercher une fonction f telle que Xt = f (Xt1 , t )
peut tre difficile implmenter. En conomtrie, on cherche une relation du type
Y = g (X1 , ..., Xn , ), permant dexpliquer une variable Y laide de variables exognes
X1 , .., Xn . Cette fonction g tant a priori difficile exhiber, la mthode la plus simple est
de considrer le cas linaire. De la mme faon, la thorie des modles ARIM A vise
expliquer Xt en fonction de son pass (et ventuellement dun bruit), de manire linaire.
Remarque 8. Nous ne nous intresserons, dans ce cours, que dans le cas o lespace
dtat E est R, cest dire que nous ne traiterons pas le cas des chanes de Markov (o
Xt prend ces valeurs dans un espace dtat fini ou dnombrable)
E = {i1 , ..., in , ...}
E=R

t discret
t continu
Chanes de Markov
Processus de Poisson
Sries Temporelles Calcul Stochastique (Brownien)

Les chanes de Markov correspondent par exemple au cas o Xt est valeurs dans un ensemble fini ({i1 , ..., in , ...}) o dnombrable (N) : par exemple les variables dichotomiques,
o Xt vaut soit 0, soit 1.. Le calcul stochastique correspond au mouvement brownien, et
aux processus de diffusion obtenus partir du mouvement brownien. Le cas o le temps est
continu et o les variables sont valeurs dans N (par exemple) correspond aux processus
de comptage, aux processus de Poisson, la thorie des files dattente...etc.

1.4
1.4.1

Objectifs de ltudes des sries temporelles


Description et modlisation

Le but est ici de dterminer les diffrentes composantes dune srie (Xt ), en particulier,
obtenir la srie corrige des variations saisonnires (mthodes de dsaisonnalisation). Pour
les sries stationnaires, on peut aussi chercher modliser la srie laide dun modle
ARM A, par exemple dans le but de faire de la prvision.
19

1.4.2

Prvision

Sur la base dobservation X1 , ..., XT le but est de faire une prvision, la date T , de la
bT (h). Une premire mthode est le lissage exponentiel, bas
ralisation en T + h, note X
bT (1) = Xt + (1 ) X
bT 1 (h), o , compris
sur une formule de rcurrence de la forme X
entre 0 et 1, est gnralement choisi de faon minimiser la somme des carrs des erreurs
de prvision.
Dans le cas des modles ARM A, de nombreuses relations existent afin de faire de
la prvision, avec un intervalle de confiance. Nous verrons comment ces intervalles de
confiance sont modifis si une modlisation ARCH est retenue, ou du type mmoire
longue.
1.4.3

Filtrage

Le lissage consiste transformer une srie de faon dtecter (pour liminer ou au


contraire conserver ) certaines caractrisques (composante saisonnire, points abrants...).
Cette mthode permet galement de dtecter des ruptures au sein dune srie.

1.5

Conseils bibliographiques (en franais, et en anglais)

Les principaux ouvrages servant de rfrence ce cours sont les suivants,


DROESBEKE,J.J., FICHET,B. & TASSI,P. (1995). Sries chronologiques - thorie
et pratique des modles ARIMA, Economica
GOURIEROUX,C. & MONFORT,A. (1995) Sries temporelles et modles dynamiques, Economica
Des complments dinformations sur diffrents points abords peuvent tre trouvs
galement dans
BOURBONNAIS,R. & TERRAZA,M. (1998). Analyse des sries temporelles en
conomie, PUF
BOX,G. & JENKINS,G.. (1970). Time Series analysis : forecasting and control ,
Holden-Day
BROCKWELL, P.J. (1987) Time series : theory and methods Springer-Verlag
COUTROT, B & DROESBEKE,J.J. (1995) Les Mthodes de prvision Presses
Universitaires de France (Que sais-je ? 2157)
DACUNHA-CASTELLE,D. & DUFLO,M. (1985). Probabilits et Statistiques Tome 2 : Problmes temps mobile Masson
HAMILTON,J. (1994). Time series analysis, Princeton University Press
20

HARVEY,A.C. (1993) Time Series Models Cambridge: MIT Press


HYLLEBERG S. (1992), Modeling Seasonality Oxford University Press
LUTKEPOHL,H. (1991). Introduction to multiple time series analysis SpringerVerlag
MELARD, G. (1990) Mthodes de prvision court terme. Ellipses
NERLOVE M, GRETHER D.M, CARVALHO J.L. (1995). Analysis of Economic
Time Series Academic Press.
PINDYCK,R.S & RUBINFELD,L.D. (1984) Econometric models and economic
forecasts McGraw-Hill

21

Proprits des processus univaris en temps discret

La pratique de lanalyse des sries temporelles vise modliser une srie dobservations
x1 , ..., xn par un processus alatoire temps discret, cest dire une suite (Xn ) de variables
alatoires dfinies sur un espace de probabilit (, A, P), tel que lon puisse penser que
la srie observe soit une ralisation du processus. En dautres termes, x1 , ..., xn doit tre
obtenu comme tirage alatoire de X1 , ..., Xn suivant la probabilit P, cest dire que se
ralise un vnement tel que xi = Xi () pour i = 1, ..., n. Le but est alors, tant donne
une trajectoire x1 , ..., xn de reconstruire la dynamique du modle sous-jacent, cest dire
de comprendre la liaison entre Xi et son pass Xi1 , Xi2 , ..., X1 .

2.1

Rappels sur les martingales temps discret

Un processus ( temps discret) sur un espace (, A, P) est une suite de variables alatoires
(Xt , t N), valeurs dans un espace mesur (E, E) (dans le cas qui nous intresse, E =
R). On peut considrer le processus comme la variable alatoire X (t, ), dfini sur lespace
produit N muni de la tribu produit.
Dfinition 9. Une filtration {Ft , t N} est la donne dune suite croissante (au sens de
linclusion) de sous-tribus de A. On posera F = sup {Ft , t N} : il sagit de la plus
petit tribu qui contienne toutes les Ft .
La filtration la plus usuelle est obtenue de la faon suivante : on observe une suite (Xt )
de variables alatoires, et on considre Ft = (X0 , ..., Xt ), qui est la plus petite tribu qui
rende mesurable les variables
(X0 , ..., Xn ). On appellera filtration naturelle cette filtration,

X
et on la notera Ft .
On dira que (Xt ) est adapte la filtration (Ft ) si pour tout t, Xt est Ft -mesurable.
La filtration naturelle est la plus petite filtration par rapport laquelle le processus soit
X
adapt. On dira que le processus (Xt ) est prvisible si pour tout t 1, Xt est Ft1
mesurable.
Dfinition 10. Le processus {Xt , t N} muni de la filtration {Ft , t N} tel que pour
tout t, Xt soit intgrable. On dira que (Xt ) est une martingale si et seulement si, pour
tout t, E (Xt+1 |Ft ) = Xt presque srement.
Remarque 11. Si pour tout t, E (Xt+1 |Ft ) Xt presque srement, on dira que (Xt ) est
une sous-martingale, et si pour tout t, E (Xt+1 |Ft ) Xt presque srement, on dira que
(Xt ) est une sur-martingale.
Si (Xt ) est une (Ft )-martingale, alors pour tout h 0, E (Xt+h |Ft ) = Xt . De
plus, si la martingale est de carr intgrable, les accroissements sont orthogonaux : si
Xt = Xt Xt1 , pour s 6= t, E (Xt Xs ) = 0. Une des consquences est que, pour tout
h0
h
X

2
2
E [Xt+h Xt ] =
E Xt+i
.
i=1

22

2.2

Rappels sur les Chanes de Markov

Dfinition 12. Le processus {Xt , t N} est une chane de Markov dordre 1 si et seulement si, pour tout t,
L (Xt |Xt1 , Xt2 , Xt3 , ...) = L (Xt |Xt1 ) .
Autrement dit, compte tenu de la trajectoire (XT 1 = xT 1 , XT 2 = xT 2 , ...) dun
processus (Xt ), la loi de XT linstant T est entirement dtermine par le fait que la
valeur en T 1 soit xT 1 .
Thorme 13. Le processus {Xt , t N} est une chane de Markov dordre 1 si et seulement sil existe une fonction g (.) mesurable et un processus t tel que Xt = g (Xt1 , t ) avec (t ) une suite de variables alatoires, indpendantes et de mme loi.
Lorsque lapplication g ne dpend par de t, la chane de Markov est dite homogne.
Exemple 14. Les processus AR (1) : Xt = + Xt1 + t , o (t ) est un bruit blanc
independant du pass du processus, sont markoviens.
Exemple 15. En particulier, les processus de la forme Xt = Xt1 + t correspond une
marche alatoire :
- si X0 Z et P (t = 1) = P (t = +1) = 1/2, on obtient la marche alatoire
symtrique sur Z (jeu du pile ou face),
- si t suit une loi normale centre, on obtient une discrtisation du mouvement brownien, ou un processus ARIMA(0,1,0) comme nous lappelerons ici.
On notera que si lon a parl de chane dordre 1, cest quil doit tre possible
dintroduire une chane dordre suprieur,
Dfinition 16. Le processus {Xt , t N} est une chane de Markov dordre p si et seulement si, pour tout t,
L (Xt |Xt1 , Xt2 , Xt3 , ...) = L (Xt |Xt1 , ..., Xtp ) .

2.3

Notions de stationnairit

Dfinition 17. Un processus (Xt ) est stationnaire au second ordre si


(i) pour tout t, E (Xt2 ) < +,
(ii) pour tout t, E (Xt ) = , constante indpendante de t,
(iii) pour tout t et pour tout h, cov (Xt , Xt+h ) = E ([Xt ] [Xt+h ]) = (h),
indpendante de t.
Dfinition 18. La fonction (.) sera appele fonction dautocovariance
On peut montrer aisment que (.) est une fonction paire, au sens o (h) = (h)
pour tout h
23

Remarque 19. Une des consquences est que variance V (Xt ) est constante, indpendante
de t, V (Xt ) = (0) .
Proposition 20. Si (Xt , t Z) est un processus
stationnaire, et si (ai , i Z) est une
P
suite de rels absolument convergente, i.e. iZ |ai | < +, alors, le processus (Yt ) dfini
par
X
Yt =
ai Xti , pour tout t Z,
iZ

est un processus stationnaire.


Corollaire 21. En particulier, si (ai , i Z) est une suite de rels finie, la suite Yt est
stationnaire. Par exemple, si a0 = a1 = 1/2, et ai = 0 pour i
/ {0, 1} :
Yt =

1
(Xt + Xt1 ) ,
2

est stationnaire ds lors que (Xt ) est stationnaire. De mme pour Yt = Xt Xt1 .
Dfinition 22. Un processus (Xt ) est stationnaire au sens fort si pour tous t1 , ..., tn et h
on a lgalit en loi
L
(Xt1 , ..., Xtn ) = (Xt1 +h , ..., Xtn +h ) .
Remarque 23. Cette notion revient dire que la loi temporelle est invariante en temps.
Cette stationnarit est beaucoup plus forte que la stationnarit du second ordre, puisquon
ne recherche pas la stabilit de la loi, mais seulement la stabilit des deux premiers moments.
Dfinition 24. On appelle bruit blanc (parfois appel bruit blanc faible) un processus (t )
stationnaire dont les autocovariance sont toutes nulles : (h) = 0 pour h 6= 0.
Remarque 25. Nous avons vu dans la partie prcdante que (Xt ) est une martingale
si et seulement si, pour tout t, E (Xt+1 |Xt , Xt1 , ....) = Xt pour tout t, ou, de faon
quivalente, cela signifie que Xt+1 = Xt + t avec E (t+1 |t , t1 , ....) = 0 pour tout t.
Cette notion est plus contraignante que celle de marche alatoire : en effet, la proprit
de martingale implique lindpendance des accroissements (t ) alors que la dfinition de
la marche alatoire nimplique que la nullit des corrlations des accroissements.
Dfinition 26. Un processus stationnaire (Xt ) sera dit ergodique si pour tout p N , et
pour tout fonction borlienne de Rp valeurs dans R, on a
N
1 X
f (Xi+1 , Xi+2 , ..., Xi+p ) E (f (X1 , X2 ..., Xp )) , quand N ,
N i=1

qui peut tre vu simplement comme une gnralisation de la loi de grand nombre.

24

La notion de stationnarit (faible, ou au second ordre) se dfinie par une invariance


des moments dordre 1 et 2 au cours du temps. Par opposition, on dira quune srie est
non-stationnaire si elle nest pas stationnaire. On peut noter que la classe des processus
non-stationnaire est alors relativement vaste, et surtout htrogne : il existe diffrentes
sources de non-stationnarit, et chaque origine de non-stationnarit est associe une
mthode propre de stationnarisation. Nelson et Plosser ont retenu, en 1982, deux classes
de processus non-stationnaires : les processus T S (trend stationary) et les processus DS
(difference stationary) Les premiers correspondent une non-stationnarit de type dterministe, alors que les seconds correspondent une non-stationnarit de type stochastique.
Dfinition 27. (Xt ) est un processus non-stationnaire TS sil peut scrire sous la forme
Xt = f (t) + Zt o f (t) est une fonction (dterministe) du temps, et (Zt ) est un processus
stationnaire.
Lexemple le plus simple est celui de la tendance linaire bruite : Xt = + t + t .
Ce processus est en effet non-stationnaire puisque son esprance vaut + t la date t,
et donc, dpend de t. Une des proprits importantes de ce type de processus est quil
ny a pas persistance des chocs : linfluence dun choc subit un instant aura tendance
sestomper au cours du temps, et la variable rejoint alors sa dynamique de long-terme,
dtermine par f (t).
Dfinition 28. (Xt ) est un processus non-stationnaire DS - ou intgr dordre d, not
I (d) - si le processus obtenu aprs d diffrenciation est stationnaire : Zt = d Xt =
(1 L)d Xt est stationnaire
Comme nous le verrons par la suite, le fait quil faille diffrencier d fois, cest dire
multplier par (1 L)d , polynme de loprateur retard L, revient chercher la prsence de
racines unit : si le processus (L) Xt est stationnaire, si 1 est une racine du polynme
, alors (Xt ) sera non-stationnaire. Cest pour cela que la plupart des tests de nonstationnarit sont des tests de dtection de racine unit.
Pour obtenir les racines dun polynme, on peut utiliser la commande suivante, par
exemple pour (L) = (1 + 0.7L 0.5L2 ) ou (L) = (1 + 0.7L 0.2L2 ),
> library(polynom)
> Mod(polyroot(c(1,.7,-.5)))
[1] 0.8779734 2.2779734
> Mod(polyroot(c(1,.7,-.2)))
[1] 1.089454 4.589454

Il est aussi possible de visualiser les racines units dans C, par exemple pour (L) =
(1 + 0.5L 0.4L2 0.3L4 ) ou (L) = (1 + 0.5L 0.4L2 + 0.3L4 ),
>
>
>
>
>

PM=c(1,.5,-.4,0,-.3)
plot(Re(polyroot(PM)),Im(polyroot(PM)),pch=19,col="blue",xlim=c(-2,2),ylim=c(-2,2))
u=seq(-1,1,by=.01)
lines(u,sqrt(1-u^2),col="red")
lines(u,-sqrt(1-u^2),col="red")

25

>
>
>
>

abline(h=0,col="grey")
abline(v=0,col="grey")
PM=c(1,.5,-.4,0,.3)
plot(Re(polyroot(PM)),Im(polyroot(PM)),pch=19,col="purple",xlim=c(-2,2),ylim=c(-2,2))

2.4
2.4.1

Fonction dautocovariance et densit spectrale


Autocovariance et autocorrlation

Dfinition 29. Pour une srie stationnaire (Xt ) , on dfinit la fonction dautocovariance,
pour tout t, par
h 7 X (h) = cov (Xt , Xth ) = E (Xt Xth ) E (Xt ) .E (Xth ) .
Dfinition 30. Pour une srie stationnaire (Xt ) , on dfinit la fonction dautocorrlation,
pour tout t, par
cov (Xt , Xth )
X (h)
p
.
h 7 X (h) = corr (Xt , Xth ) = p
=
X (0)
V (Xt ) V (Xth )
Cette fonction X (.) est valeurs dans [1, +1], et X (0) = 1.
Dfinition 31. Un processus (t ) sera appel bruit blanc (faible) sil est stationnaire,
centr et non-autocorrl :
E (t ) = 0, V (t ) = 2 et (h) = 0 pour h 6= 0.
On parlera de bruit blanc fort sil est indpendant et identiquement distribu (i.i.d.)
: la notion dindpendance est plus forte que la nullit des autocorrlations, et le fait que
le processus soit identiquement distribu est plus fort que la stabilit des deux premiers
moments.
Exemple 32. Processus M A (1) : Xt = t + t1 o (t ) est un bruit blanc centr de
variance 2 ,

(0) = [1 + 2 ] 2

(1) = 2
, soit (1) =
et (h) = 0 pour |h| 2.

1 + 2
(h) = 0 si |h| 2
26

2.4.2

Densit spectrale ? ? ?

Lide ici est que les coefficients dautocovariance dune srie stationnaire correspondent
aux coefficients de Fourier dune mesure positive, appele mesure spectrale du processus.
Il est possible de montrer que cette mesure spectrale admet une densit, dite spectrale,
par rapport la mesure de Lebesgue sur [, ], que nous noterons fX . Dans le cas
o la srie des autocovariance est absolument convergente, la densit spectrale est alors
dfinie comme la transforme de Fourier des coefficients dautocovariance (dans le cas o
la somme des |X (h)| tend vers linfini, la somme est prendre au sens de L2 ) : comme
lont montr Cramr, Kolmogorov, ou encore Wiener, on les rsultats suivants,
(i) la suite des fonctions dautocovariance X (h) dun processus stationnaire peut tre
crit sous la forme
Z +
exp (ih) dFX () ,
X (h) =

o FX () /X (0) est une fonction de rpartition,


R +
(ii) tout processus stationnaire peut se mettre sous la forme Xt = exp (it) dz ()
o z () est une fonction alatoire, complexe, accroissements non corrls. Cette
reprsentation est appele reprsentation de Cramr.
Dfinition 33. Soit (Xt ) un processus stationnaire de fonction dautocovariance X (.),
la densit spectrale de (Xt ) scrit
1 X
X (h) exp (ih) .
fX () =
2 hZ
Proposition 34. Rciproquement, si fX (.) est la densit spectrale de (Xt ) alors
Z +
X (h) =
fX () exp (ih) d.

Exemple 35. Un bruit blanc (t ) est caractris par



(0) = V (t ) = 2
(h) = 0, pour h 6= 0,
Alors sa densit spectrale est donne par
2
(= constante).
2
Proposition 36. Si la densit spectrale dune srie (Zt ) est constante, alors (Zt ) est un
bruit blanc.
f () =

Proof. En effet
Z

Z (h) =

fZ () exp (ih) d = K

27

exp (ih) d
{z
}

=0 sauf si h=0

Cette nullit de la fonction dautocorrlation est donc une charactristique du bruit


blanc.
Proposition 37. Si Xt est une moyenne mobile,
X

Xt =
ak tk , o (t ) est un bruit blanc BB 0, 2 ,
kZ

avec

|aj | < +. Si on considre Yt =

j Xtj alors, on a la relation suivante



2
X



fY () = fX () .
j eij .


jZ

jZ

Exemple 38. Yt = Xt Xt1 o || < 1, alors fY () = fX () |1 + ei | .


2.4.3

Estimation de la fonction dautocorrlation

Considrons un ensemble dobservations X1 , ..., XT .


La moyenne empirique est donne par
T
1X
Xt .
XT =
T t=1

La fonction dautocovariance empirique est donne par


T h

bT (h) =



1 X
Xt X T Xth X T ,
T h t=1

et la fonction dautocorrlation empirique est donne par


bT (h) =

bT (h)
.

bT (0)

Si ces estimateurs sont biaiss ( distance finie), ils sont malgr tout asymptotiquement
sans biais.
Proposition 39. Les moments empiriques convergent vers les moments thoriques :
X T m,
bT (h) (h) et bT (h) (h) quand T .
En fait, comme nous le verrons par la suite, nous avons mme normalit asymptotique
des moments empiriques.
Remarque 40. Bien que ces fonctions soient dfinies pour tout h tel que T < h < T , la
fonction dautocovariance empirique fournit un estimateur trs pauvre de (h) pour des
valeurs h proches de n. A titre indicatif, Box et Jenkins recommandent de nutiliser ces
quantits que si T > 50 et h T /4. In pratice, to obtain usefull estimate of the autocorrelation function, we need at least 50 obsevations, and the estimated autocorrelations
rk could be calculated for k = 1, ..., K where K was not larger than, say, T /4.
28

Afin, par exemple, de faire de la selection de modles, il est important de pouvoir dire
si les autocovariances empiriques sont significativement non nulles. Il est alors possible
dutiliser le rsultat suivant
Proposition
41. Si (Xt ) est un processus linaire, au sens o il satisfait Xt =
P
2 2
4
jZ j tj o (t ) est une suite de variables i.i.d. centres, telle que E (t ) = E (t ) <
+, o les j dfinissent une srie absolument convergente, et o est une constante
positive, alors, on a la formule dite de Bartlett,
lim T cov (b
T (h) ,
bT (k)) = (h) (k) +

+
X

(i) (i + k h) + (i + k) (i h) .

i=

Proof. Brockwell et Davis (1991) page 226.


Ce thorme nest, en thorie, valable que pour un bruit blanc fort. On peut galement
montrer que ces autocorrlation vrifient une proprit encore plus forte,
Proposition
42. Si (Xt ) est un processus linaire, au sens o il satisfait Xt =
P
2 2
4
jZ j tj o (t ) est une suite de variables i.i.d. centres, telle que E (t ) = E (t ) <
+, et t N (0, 2 ), et o les j dfinissent une srie absolument convergente, et o
est une constante positive, alors, on a, pour tout p 0,

bT (0)
(0)

.

..
n
N .. , V ,
.

bT (p)
(p)
o V est la matrice de variance-covariance dfinie par
"
#
+
X
V = (h) (k) +
(i) (i + k h) + (i + k) (i h)
i=

.
h,k=0,...,p

Proof. Brockwell et Davis (1991) page 227.


> X=rnorm(100)
> as.vector(acf(X))
Autocorrelations of series X, by lag
0
1
2
3
4
5
6
7
8
9
1.000 -0.089 0.063 0.054 0.016 0.169 0.008 0.166 -0.179 0.244
> plot(acf(X))

29

2.4.4

Estimation de la densit spectrale ? ? ?

Le priodogramme est observations est dfini comme le module au carr de la transform


de Fourier discrte des observations, i.e.

2
T

1 X
1 X

IT (x) =
Xt exp (itx) =

bT (h) exp (ix) .




2T
2
t=1

hZ

Le plus souvent, on estime le priodogramme aux frquences de Fourier, i.e. xk = 2k/T


pour k = 1, ..., T , not IT,k . Sous des hypothses de rgularit de la densit spectrale, le
priodogramme est un estimateur asymptotiquement sans biais de la densit spectrale.
Mais il nest pas consistant (on ne peut estimer que les T premier (h) intervenant dans
la dfinition du priodogramme partir de T observations).
Exemple 43. Dans le cas dun processus i.i.d. gaussien, valu aux frquences de Fourierde ]0, [ forme une suite de variables indpendantes, et identiquement distribues, suivant une loi du 2 , centr, deux degrs de libert.
Exemple 44. Pour les processus dit mmoire longue, la densit spectrale sexprime
sous la forme
f (x) = |1 exp (ix)|2d f (x) ,
o f est une fonction positive. Les valeurs du priodogramme sont asymptotiquement
biaises, et asymptotiquement corrles. Le fait que cette fonction ait un ple (ici en 0)
est dailleurs une caractrisation de la mmoire longue.
Cette densit spectrale permet dobtenir un grand nombre de rsultat. Par exemple,
il est possible destimer directement la variance du processus dinnovation7 , en utilisant
la formule dite de Kolmogorov,

 Z 2
1
2
log fX (x) dx .
= 2 exp
2 0
7

Cette notion sera dfinie en dtails par la suite.

30

Un estimateur de cette variance est alors


T
1X

b =
log IT,k .
T t=1
2

Dans le cas des processus mmoire longue, la densit spectrale est de la forme fX (x)
Cx2d . Un estimateur non paramtrique de d peut tre obtenu en rgressant localement le
log-priodogramme dans un voisinage de la frquence nulle. On appelle alors estimateur
GPH
!1 m
mT
mT
T
X
X
2 X
2
b
log IT,j ,
d=
LT,k
LT,n . log LT,k o LT,k = 2 log |xk | +
mT j=1
k=1
k=0
et o mT est une suite dentiers positifs telle que mT 0 = et mT /T 0 quand
T .
> spec.pgram(X)

2.5

Lien entre temps continu et temps discret ? ? ?

Dfinition 45. Un mouvement brownien Wt est un processus stochastique, dfinit pour


t R+ , tel que W0 = 0 et tel que, quelles que soient les dates t1 < t2 < ... < tk , les
variations du processus Wt2 Wt1 , Wt3 Wt2 , ..., Wtk Wtk1 sont indpendantes, avec
E Wti Wtj = 0 et V Wti Wtj = 2 (ti tj ). De plus, les variations du processus
entre deux dates ti et tj (telles que ti < tj ) sont normalement distribues Wti Wtj
N (0, 2 (ti tj )).
Dans le cas o 2 = 1, on parlera de mouvement brownien standard. De plus, Wt
est continu en t, sans tre drivable : bien que le processus soit continu, les variations
ne sont pas bornes. Pour visualiser un mouvement browien il suffit de considrer une
31

marche alatoire continue : on considre une marche alatoire discrte (Xt = Xt1 + t
o t N (0, 1)), pour laquelle on diminue les intervalles temporels entre deux dates
conscutives,
Proposition 46. Soit X1 , X2 , ..., XT un chantillon i.i.d., centr, de variance 2 . Soit [.]
la partie entire au sens o [x] x < [x] + 1 et [x] Z, alors pour tout 0 < r < 1,
[rT ]


1 X
L
p
Xt N 0, 2
[rT ] t=1
(r)

Ce rsultat est parfois appel Thorme Centrale Limite Fonctionnel . Notons X T


la variable construite partir des [rT ] premires observations par
(r)
XT

[rT ]
1X
=
Xt ,
T t=1

du rsultat prcdant, il en dcoule que



 (r2 )
(r1 )

(r)
T XT XT
T XT L
L
N (0, r) ou encore
N (0, r2 r1 ) ,

(.)
pour r1 < r2 . Ceci permet de montrer que la suite des T .X T / est asymptotiquement
distribue comme un mouvement brownien, au sens o

(.)
T XT L
W.

Ce type de rsultat est alors trs utile pour obtenir des rsultats analytiques sur les
processus intgrs.
Considrons par exemple, une marche alatoire dfinie par Xt = Xt1 + t o t est
un bruit blanc de variance 2 , soit Xt = 1 + 2 + ... + t pour tout t, avec la convention
(r)
X0 = 0. Notons X T la variable construite partir des [rT ] premires observations par
(r)
XT

[rT ]
1X
1
i1
i
==
Xt = (1 + 2 + ... + i ) , o
r< ,
T t=1
T
T
T

on a alors
Z
T

(r)

X T dr = T 3/2

T
X

xt1 ,

t=1

(.)

et daprs le thorme central limite fonctionnel, T .X T W. . On obtient alors le


rsultat suivant
Z 1
T
X
T
3/2
T
Xt1
Ws ds.
0

t=1

32

De faon analogue, on peut montrer que


T

T
X

2 T

(Xt1 )

(Ws )2 ds.

t=1

Ces rsultats seront utiliss en particulier pour la dtermination des proprits asymptotiques des estimateurs obtenus partir de sries intgres.
La construction de lintgrale stochastique sobtient dailleurs comme passage la
limite sur des processus temps discret8 . Considrons un dcoupage en T subdivisions
de lintervalle de temps [0, 1] : soit st = t/T pour t = 0, 1, ..., T . Considrons ici (Xst ),
not (Yt ), un processus dfini pour t = 0, 1, ..., T . On appelera variation quadratique de
la srie chronologique (Y ) la srie chronologique dfinie par
< Y >t =

t
X

[Yj Yj1 ]2 pour t = 0, 1, ..., T

j=1

La variation quadratique du mouvement bronwien standard (Wt ) est obtenu comme passage la limite
t
X
< W >t = lim
[Wj Wj1 ]2 = t
T

j=1

De la mme faon, lintgrale stochastique se dfinit en temps discret par


Z

Xs dWs =

Zt =
0

t
X

Xi [Wj Wj1 ]

i=1

o (Xs ) est un processus discret : Xs = Xi pour (i 1) /T s < i/T , puis par passage
la limite, stend aux processus en temps continu.
Aussi, tous les modles financiers en temps continu ont un analogue en temps discret.
Mais si les modles en temps continu sont autant utiliss, cest principalement parce que
le calcul stochastique et la formule dIto permet danalyser les problmes de faon lgante
et relativement rapide.
Un processus suivant lquation stochastique
Z t
Z t
dYt = f (t, Yt ) dt + g (t, Yt ) dWt ou Yt = Y0 +
f (s, Ys ) ds +
g (s, Ys ) dWs
0
8

De faon plus simple, lintgrale dune fonction alatoire par rapport une mesure dterministe de
dfinie dj comme une limite : soit At un processus en temps continu, et considrons un dcoupage en
T subdivisions de lintervalle de temps [0, 1] : soit s = s/T pour s = 0, 1, ..., T . Considrons ici Xs ,
not Ys , le processus dfini pour s = 0, 1, ..., T , par Ys = At I (T t s < T (t + 1)), alors
Z
0

s
1X
As ds = lim
Ys
T T
j=1

33

peut tre assimil un processus en temps discret vrifiant lquation (approximation


dEuler )
Yt+1 Yt = f (t, Yt ) + g (t, Yt ) [Wt+1 Wt ] = f (t, Yt ) + g (t, Yt ) t
o (t ) est un bruit blanc gaussien, de variance 1.
Remarque 47. Rciproquement, en reprenant un exemple de Nelson (1990), un modle
temps discret de type GARCH (1, 1) M (multivari), dfini par

Yt = Yt1 + f (t2 ) + t t
2
= + t2 ( + t )
t+1
o (t ) est un bruit blanc gaussien, est lanalogue en temps discret de lquation de diffusion

dYt = f (t2 ) dt + t dWt1
dt2 = ( t2 ) dt + t2 dWt2
o (Wt1 ) et (Wt2 ) sont deux mouvements browniens centrs, rduits et indpendants.

34

La dcomposition tendance-cycle
Lanalyse des sries temporelles (conomiques par exemple) repose le plus souvent sur
une dcomposition tendance-cycle de la srie. Toutefois, cette dcomposition, si elle est
trs utilise en pratique, ne repose pas sur une construction thorique unique. Il est alors
souvent admis que la tendance correspond lquilibre de long terme, alors que le cycle
correspond la dynamique de court terme. Mais cette distinction ne suffit pas pour
identifier clairement les deux composantes, et des hypothses supplmentaires sont alors
ncessaires.
Deux approches sont alors gnrallement utilises : la premire consiste utiliser une
thorie conomique (cest dire un modle structurel dont les composantes auront des
interprtations conomiques), alors que la seconde tend utiliser des outils statistiques
neutres. Nous allons nous intresser ici cette seconde approche. Nanmoins, nous
pouvons ds prsent noter que cette neutralit est difficile mettre en oeuvre : il existe
une infinit de faon de construire la tendance moyenne, par exemple. Il existe alors de
nombreuses mthodes pour valuer la croissance tendancielle.
Nous allons nous concentrer ici sur des dcompositions additives de la forme (Xt ) =
(Tt )+(Ct ). Un modle multiplicatif peut en effet se ramener un modle additif en passant
au logarithme. Les mthodes traditionelles reposent sur deux techniques : lestimation
dune tendance dterministe et le lissage. Des mthodes plus rcentes se basent sur la
notion de tendance stochastique, avec en particulier la mthode de Beveridge et Nelson,
et les modles composantes inobservables.
Parmi les mthodes de lissage, lapproche la plus simple consiste utiliser des moyennes
mobiles on utilise alors une moyenne (pondre) de la srie (Xt ) dont la dure correspond
au cycle, qui conserve la tendance et limine le cycle. La moyenne symtrique arithmtique
est lexemple le plus simple : on considre alors la srie (Yt ) dfinie par
Yt = M (Xt ) =

1
(Xtm + Xtm+1 + ... + Yt1 + Yt + Yt+1 + ... + Yt+m )
2m + 1

(3)

Ce type de filre, comme nous le verrons par la suite, conserve les tendances linaires, et
filtre (ou annule) les sries priodiques de priode 2m + 1. Toutefois, deux problmes
apparaissent dans lutilisation des filtres moyennes-mobiles
- les points extrmes de la srie ne peuvent tre traits de la mme faon que les autres
points (effet de bord )
- les sries lisses sont souvent autocorrles, non pas cause de la structure de la
srie initiale, mais il sagit dune consquence du processus de lissage (effet Slutsky-Yule).
Dautre mthodes de lissage existent, par exemple en utilisant la mthode P AT (phase
average trend ) ou le filtre de Hodrick-Prescott (1980).
Lestimation dun trend dterministe repose sur lutilisation de fonctions simples, par
exemple linaires,
Xt = Tt + Ct = a + bt + Ct
(4)
Ces modles apparaissent parfois dans la littrature sous le terme T S (trend stationary), et
le cycle (suppos stationnaire) apparat alors comme lcart la tendance. Cette tendance
35

est alors estime par rgression. Cette mthode sera celle developpe dans la premire
partie, mme si elle a t fortement critique : la croissance long terme est alors fixe
de faon mcanique. Des modles avec rupture de tendance ont ainsi t introduits.
> autoroute=read.table(
+ "http://freakonometrics.blog.free.fr/public/data/autoroute.csv",
+ header=TRUE,sep=";")
> a7=autoroute$a007
> X=ts(a7,start = c(1989, 9), frequency = 12)
> plot(decompose(X))

Il convient toutefois de noter que cette dcomposition tendance-cycle ne sont pas adaptes pour les sries non-stationnaires, et il convient dintgrer une composante stochastique
dans la tendance. Le modle de Beveridge et Nelson propose dexprimer les composantes
laide dune reprsentation ARIM A de la srie. Les modles composantes inobservables
repose surlutilisation de modles espace-tat (e.g. filtre de Kalman). Ces deux mthodes
sont prsentes dans larticle de Doz, Rabault et Sobczack Dcomposition tendance-cycle
: estimations par des mthodes statistiques univaries (1995).

36

Dsaisonnalisation par regression linaire

3.1

Prsentation des donnes

Nous considrons ici une srie chronologique, mensuelle, comportant une forte saisonalit,
le trafic voyageur de la SNCF en France ( Gouriroux & Monfort (1995)),

1963
1964
1965
1966
1967
1968
1969
1970
1971
1972
1973
1974
1975
1976
1977
1978
1979
1980
>
+
+
>
+
>

JAN F EB M AR
1750 1560 1820
1710 1600 1800
1670 1640 1770
1810 1640 1860
1850 1590 1880
1834 1792 1860
1798 1850 1981
1854 1823 2005
2008 1835 2120
2084 2034 2152
2081 2112 2279
2223 2248 2421
2481 2428 2596
2667 2668 2804
2706 2586 2796
2820 2857 3306
3313 2644 2872
2848 2913 3248

AP R M AY
2090 1910
2120 2100
2190 2020
1990 2110
2210 2110
2138 2115
2085 2120
2418 2219
2304 2264
2522 2318
2661 2281
2710 2505
2923 2795
2806 2976
2978 3053
3333 3141
3267 3391
3250 3375

JU N
2410
2460
2610
2500
2480
2485
2491
2722
2175
2684
2929
3021
3287
3430
3463
3512
3682
3640

JU L
3140
3200
3190
3030
2880
2581
2834
2912
2928
2971
3089
3327
3598
3705
3649
3744
3937
3771

AU G
2850
2960
2860
2900
2670
2639
2725
2771
2738
2759
2803
3044
3118
3053
3095
3179
3284
3259

sncf=read.table(
"http://freakonometrics.blog.free.fr/public/data/sncf.csv",
header=TRUE,sep=";")
SNCF=ts(as.vector(t(as.matrix(sncf[,2:13]))),
,start = c(1963, 1), frequency = 12)
plot(SNCF,lwd=2,col="purple")

37

SEP OCT N OV
2090 1850 1630
2190 1870 1770
2140 1870 1760
2160 1940 1750
2100 1920 1670
2038 1936 1784
1932 2085 1856
2153 2136 1910
2178 2137 2009
2267 2152 1978
2296 2210 2135
2607 2525 2160
2875 2754 2588
2764 2802 2707
2839 2966 2863
2984 2950 2896
2849 3085 3043
3206 3269 3181

DEC
2420
2270
2360
2330
2520
2391
2553
2537
2546
2723
2862
2876
3266
3307
3375
3611
3541
4008

3.2

Le modle linaire

La srie Xt est la somme de 2 composantes dterministes : une tendance Zt , dune saisonnalit St et dune composante alatoire t
Xt = Zt + St + t .
On suppose que Zt et St sont des combinaisons linaires de fonctions connues dans le
temps, Zti et Stj , i.e.

Zt = Zt1 1 + Zt2 2 + ... + Ztm m
St = St1 1 + St2 2 + ... + Stn n .
Le but est destimer les 1 , ..., m et 1 , ..., n partir des T observations.
Xt =

m
X

Zti i

i=1

3.2.1

n
X

Stj j + t pour t = 1, ..., T.

j=1

Hypothses sur les erreurs

On supposera lhypothse suivante vrifie, savoir que les erreurs sont centres : E (t ) =
0, de mme variance V (t ) = 2 et non-corrles cov (t , th ) = 0 pour tout h > 0.
3.2.2

Composante saisonnire du modles

La forme de St dpend du type de donnes, et de la forme de la saisonnalit. On considrera ici des fonctions Sti indicatrices,


0 si t = mois i
0 si t = 0 [modulo i]
i
i
St =
ou St =
1 si t 6= mois i
1 si t 6= 0 [modulo i] .
Exemple 48. Pour des donnes trimestrielles, on a St = St1 1 + St2 2 + St3 3 + St4 4 o
Stj est la fonction indicatrice du trimestre j.
3.2.3

Composante tendancielle

Cette composante a gnralement une forme simple, refltant la croissance moyenne.


Exemple 49. Pour une tendance linaire, Zt = 1 + 2 t on pose Zt1 = 1 et Zt2 = t.
Plusieurs types de composantes tendancielles existent :
(i) linaire : Zt = 0 + 1 t,
(ii) exponentielle : Zt = t , ou Zt = (1 + r)t ou encore Zt = exp (rt) ,
(iii) quadratique Zt = 0 + 1 t + 2 t2 ,
(iv) de Gompertz Zt = exp ( t + ) ,
1
(v) logistique Zt = [ t ] .

38

Le cas (i) se traite par rgression simple (cf partie suivante), le cas (ii) se ramne au
cas (i) par transformation logarithmique, et le cas (iii) se traite par rgression multiple.
Il est galement possible dutiliser des modles avec des ruptures :

0 + 1 t pour t t0
Zt =
0 + 1 t pour t > t0 .
Cette tendance est une des composante les plus complique modliser car il nexiste
pas vraiment de mthode
3.2.4

Modle trimestriel de Buys-Ballot (1847)

La dsaisonnalisation par rgression linaire, dans le cas o la tendance est suppose


linaire, et les donnes sont trimestrielles, quivaut tester le modle linaire
Xt = a + t + 1 St1 + 2 St2 + 3 St3 + 4 St4 + t ,
| {z } |
{z
}
Zt

St

o Zt est la tendance (linaire) et o St est la composante saisonnire. Supposons que les


donnes commencent au 1er trimestre. Le modle scrit alors, pour lexemple du traffic
SNCF


5130
1
1
1
0
0
0
6410
1
2
0
1
0
0


8080
1
3
0
0
1
0


5900
1
4
0
0
0
1


5110
1
5
1
0
0
0


6680
1
6
0
1
0
0
=

+
+
+
+
+

+
8350
1
7
0 2 0 3 1 4 0


5910
1
8
0
0
0
1


5080
1
9
1
0
0
0


..
..
..
..
..
..
..
.
.
.
.
.
.
.
1
2
3
Xt
1
t
St
St
St
St4
qui peut se rcrire, de


5130
1
6410 1


8080 1


5900 1


5110 1


6680 1

=
8350 1


5910 1


5080 1


.. ..
. .
Xt
1

faon matricielle,
1
2
3
4
5
6
7
8
9
..
.

1
0
0
0
1
0
0
0
1
..
.

0
1
0
0
0
1
0
0
0
..
.

0
0
1
0
0
0
1
0
0
..
.

0
0
0
1
0
0
0
1
0
..
.

t St1 St2 St3 St4

39

1
2
3
4

1
2
3
4
5
6
7
8
9
..
.
t

soit X = Y +

1
2
3
4
5
6
7
8
9
..
.
t

Lcriture de lestimateur des moindres carrs ordinaires scrit b = (Y 0 Y )1 Y 0 X. Toutefos, cette criture nest possible que si Y 0 Y est inversible, ce qui nest pas le cas ici car la
premire colonne (correspondant la constante) est gale la somme des 4 dernires (les
composantes trimestrielles). Deux mthodes sont alors possibles pour faire malgr tout
lidentification du modle.
ne pas tenir compte de la constante, et identifier le modle
Xt = t + 1 St1 + 2 St2 + 3 St3 + 4 St4 + t ,
rajouter une contrainte, et identifier le modle

Xt = + t + 1 St1 + 2 St2 + 3 St3 + 4 St4 + t
sous contrainte 1 + 2 + 3 + 4 = 0,

(5)

(6)

Cette dernire contrainte est arbitraire, mais correspond une interprtation bien prcise. Considrons la srie reprsente ci dessous, avec une saisonnalit dordre 4 (donnes
trimestrielles)
> SNCFQ= ts(apply(matrix(as.numeric(SNCF),3,length(SNCF)/3),2,sum),
+ start = c(1963, 1), frequency = 4)
> plot(SNCFQ,col="red")
> SNCFQ
Qtr1 Qtr2 Qtr3 Qtr4
1963 5130 6410 8080 5900
1964 5110 6680 8350 5910
1965 5080 6820 8190 5990
1966 5310 6600 8090 6020

... etc. Le graphique des donnes trimestrielles est le suivant

40

3.3

Estimateur des moindres carrs ordinaires (mco)

3.3.1

Solutions gnrales

On considre un modle de la forme


Xt =

m
X

Zti i

i=1

n
X

Stj j + t pour t = 1, ..., T.

j=1

La mthode des mco consiste choisir les i et j de faon minimiser le carr des erreurs
(
)


X
2
bi ,
bj
= arg min

t=1

= arg min

"
X

Xt

t=1

m
X

Zti i +

i=1

n
X

Stj j

#2

j=1

Notations : = (1 , ..., m )0 , = (1 , ..., n )0 ,

|
|
|
|
 
 
Z = Z 1 ... Z m = Zti i=1,...,n et S = S 1 ... S n = Stj j=1,...,n
t=1,...,T
t=1,...,T
|
|
|
|
Le modle scrit

 

X = Z + S + = [Z|S]
+ = Y b + ,


0
b
et bb = ,
b vrifie alors lquation
0

Y Y bb = Y X soit [Z S]
et donc



=

Z 0Z Z 0S
S 0Z S 0S

Z0
S0


bb =

1 

Z 0X
S 0X

Z0
S0


X,


,

ce qui donne les coefficients


(

1  0

b = Z 0 Z Z 0 S (S 0 S)1 S 0 Z
Z X Z 0 S (S 0 S)1 S 0 X

1  0


b = S 0 S S 0 Z (Z 0 Z)1 Z 0 S
S X S 0 Z (Z 0 Z)1 Z 0 X .
Remarque 50. Sil ny a pas deffet saisonnier, X = Z + , et on retrouve le modle
linaire usuel, avec pour estimateur mco b = [Z 0 Z]1 Z 0 X.

41

3.3.2

Cas particulier : le modle trimestriel de Buys-Ballot

Pour le modle
Xt = 1 + 2 t + St1 1 + St2 2 + St3 3 + St4 4 + t ,
il est possible dexpliciter les diffrents coefficients. Lquation
(
i2
P
P h
min, Tt=1 Xt 1 2 t 4j=1 Stj j
sous contrainte () 1 + 2 + 3 + 4 = 0,
peut se rcrire

"
#2

T
4

X
X
1 = [1 + 2 + 3 + 4 ] /4
j
min
Xt 2 t
St j
o
j = j 1 ,
, t=1
j=1

En notant N le nombre dannes entires (N = T /4), on pose


x
en : moyenne des Xt relatives lanne n
xj : moyenne des Xt relatives au trimestre j
x : moyenne de toutes les observations Xt
On a alors les estimateurs suivant
PN
ne
xn N (N2+1) x
b2 = 3 n=1
N (N 2 1)
bj = xj [j + 2 (N 1)] b2 pour j = 1, 2, 3, 4
do finallement

3.3.3

i
h
b1 = b1 + b2 + b3 + b4 /4

bj = bj b1

(7)
(8)

(9)

Gnralisation des formules de Buys-Ballot (tendance linaire)

Les relations obtenues dans le cas prcdant peuvent en fait tre gnralises dans le cas
dune priodicit m, et en notant (de la mme faon que prcdemment) N le nombre
dannes entures. L modle scrit alors
Xt = 1 + 2 t + St1 1 + St2 2 + St3 3 + ... + Stm m + t .
Lquation
(

i2
P h
P
j
min, Tt=1 Xt 1 2 t m
S

j=1 t j
sous contrainte () 1 + 2 + 3 + ... + m = 0,

admet alors pour solution, en notant


12
b2 =
m

PN

ne
xn N (N2+1) x
N (N 2 1)

n=1

42

Nm + 1
b1 = x b2
2


m+1
b

bj = x
ej x 2 j
2

3.4
3.4.1

Application au trafic voyageur


Srie agrge par trimestre

Considrons la srie du trafiic SNCF agrge par trimestre, reprsente ci-dessous, avec
en ligne les annes, et en colonne les trimestres,
n\j
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
xj

1
2
3
4
5130 6410 8080 5900
5110 6680 8350 5910
5080 6820 8190 5990
5310 6600 8090 6020
5320 6800 7650 6110
5486 6738 7258 6111
5629 6696 7491 6494
5682 7359 7836 6583
5963 6743 7844 6692
6270 7524 7997 6853
6472 7871 8188 7207
6892 8236 8978 7561
7505 9005 9591 8608
8139 9212 9522 8816
8088 9494 9583 9204
8983 9986 9907 9457
8829 10340 10070 9669
9009 10265 10236 10458
6605 7932 8603 7425

x
en
6380
6513
6520
6505
6470
6398
6578
6865
6811
7161
7435
7917
8677
8922
9092
9583
9727
9992
7641

Considrons alors un modle de la forme suivante, avec une saisonnalit en 4 composantes (les donnes tant trimestrielles : chaque composante correspondant un
trimestre), et une tendance suppose linaire (Zt = 1 + 2 t),
Xt = 1 + 2 t + St1 1 + St2 2 + St3 3 + St4 4 + t ,
Compte tenu de la sur-identification de ce modle, on rajoute la contrainte que la somme
des j soit nulle (cest dire que la composante saionnire soit centre : E (St ) = 0). On
peut alors faire lestimation de la faon suivante :
(i) on estime le modle (5), cest dire sans contrainte, et sans constante 1
(ii) et on se ramne au modle (6) en utilisant les relations.
43

Pour ltape (i) deux mthodes analogues sont possibles : soit en utilisant les expressions des estimateurs, soit en effectuant la rgression sous EViews
Calcul direct des estimateurs

1963
1964
1965
1966
1967
1968
1969
1970
1971
1972
1973
1974
1975
1976
1977
1978
1979
1980

n\j
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
xj

5
5
5
5
5
5
5
5
5
6
6
6
7
8
8
8
8
9
6

T1
T2
T3
T4
130 6 410 8 080 5 900
110 6 680 8 350 5 910
080 6 820 8 190 5 990
310 6 600 8 090 6 020
320 6 800 7 650 6 110
486 6 738 7 258 6 111
629 6 696 7 491 6 494
682 7 359 7 836 6 583
963 6 743 7 844 6 692
270 7 524 7 997 6 853
472 7 871 8 188 7 207
892 8 236 8 978 7 561
505 9 005 9 591 8 608
139 9 212 9 522 8 816
088 9 494 9 583 9 204
983 9 986 9 907 9 457
829 10 340 10 070 9 669
009 10 265 10 236 10 458
605 7 932 8 603 7 425

x
en
6 380,00
6 512,50
6 520,00
6 505,00
6 470,00
6 398,25
6 577,50
6 865,00
6 810,50
7 161,00
7 434,50
7 916,75
8 677,25
8 922,25
9 092,25
9 583,25
9 727,00
9 992,00
7641, 39

nx
en
6 380,00
13 025,00
19 560,00
26 020,00
32 350,00
38 389,50
46 042,50
54 920,00
61 294,50
71 610,00
81 779,50
95 001,00
112 804,25
124 911,50
136 383,75
153 332,00
165 359,00
179 856,00

Pour chacune des annes et chacun des trimestre, il est possible de calculer des moyennes
: aussi, la moyenne pour 1963 tait de 6380, et de 7435 pour 1973, et de faon analogue,
la moyenne pour le premier trimestre est de 6605, et de 8603 pour le troisime. La
moyenne totale est alors de 7641, pour ces 72 observations. Aussi, N = 18 (on a 18
annes dobservations), et la pente de la droite de la tendance est donne par

b2 =

3
N (N 2 1)

"

N
X
n=1

ne
xn

N (N + 1)
3
x =
[1 419 019-1 306 678] 57.97
2
18 (182 1)

en utilisant les moyennes par trimestre, et par anne, donnes dans le tableau ci-dessus,
et

b1 = 6605 35 57.97 4577

b
= 7932 36 57.97 5845
bj = xj [j + 2 (N 1)] b2 et donc b2

3 = 8603 37 57.97 6459

b
4 = 7425 38 57.97 5222

44

do finallement
h
i
(
b
b
b
b
b
1 = 1 + 2 + 3 + 4 /4 5526

bj = bj b1

b1 = 4577 5526 949

b
2 = 5845 5526 +320
soit

b3 = 6459 5526 +933

b
4 = 5222 5526 304

Aussi, le modle scrit


bt = 5526 + 58t 949S 1 + 320S 2 + 933S 3 304S 4 .
X
t
t
t
t
La rgression se fait sur le modle non-contraint, en ne prenant pas en compte la
constante,
>
>
>
>

T = seq(from=1963,to=1980.75,by=.25)
Q = rep(1:4,18)
reg=lm(SNCFQ~0+T+as.factor(Q))
summary(reg)

Call:
lm(formula = SNCFQ ~ 0 + T + as.factor(Q))
Residuals:
Min
1Q
-1073.2 -425.5

Median
-106.8

3Q
404.4

Max
1485.6

Coefficients:
Estimate Std. Error t value Pr(>|t|)
T
231.87
12.55
18.47
<2e-16 ***
as.factor(Q)1 -450526.26
24752.39 -18.20
<2e-16 ***
as.factor(Q)2 -449257.44
24755.53 -18.15
<2e-16 ***
as.factor(Q)3 -448644.19
24758.67 -18.12
<2e-16 ***
as.factor(Q)4 -449880.94
24761.81 -18.17
<2e-16 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 552.7 on 67 degrees of freedom
Multiple R-squared: 0.9953,
Adjusted R-squared: 0.995
F-statistic: 2846 on 5 and 67 DF, p-value: < 2.2e-16
> plot(T,residuals(reg),type="l")

45

Lerreur de modlisation (les rsidus) est, en moyenne, beaucoup trop importante au


dbut, ainsi quau milieu (dbut des annees 70), mais lerreur se faisant ici dans lautre
sens (sur-estimation versus sous-estimation). Le caractre non-i.i.d. des rsidus pouvait
tre devine la lecture des sorties de la rgression, grce au test de Durbin Watson, qui
valide le caractre AR (1) des rsidus.
La srie ajuste (ci-dessous gauche) correspond la srie
b t = X t t =
X

m
X

Zti i

i=1

n
X

Stj j ,

j=1

 
bt en pointills. Cette srie pourra tre prolonge afin
avec (Zt ) en trait plein, et X
de faire de la prvision. La srie corrige des corrections saisonnires (CVS -ci-dessous
droite) correspond la srie
Ybt = Xt Sbt =

m
X

Zti i + t .

i=1

P
Remarque 51. La composante saisonnire St correspond nj=1 Stj j , telle quelle apparat dans le modle contraint. Elle vrifie alors E (St ) = 0. Cette proprit nest pas
vrifie dans le modle sans constante.

46

3.4.2

Analyse sur donnes mensuelles

La mthode dcrite ci-dessus donne les rsultats suivants


1963
1964
1965
1966
1967
1968
1969
1970
1971
1972
1973
1974
1975
1976
1977
1978
1979
1980
xj

JAN F EB M AR
1750 1560 1820
1710 1600 1800
1670 1640 1770
1810 1640 1860
1850 1590 1880
1834 1792 1860
1798 1850 1981
1854 1823 2005
2008 1835 2120
2084 2034 2152
2081 2112 2279
2223 2248 2421
2481 2428 2596
2667 2668 2804
2706 2586 2796
2820 2857 3306
3313 2644 2872
2848 2913 3248
2195 2101 2309

AP R M AY
2090 1910
2120 2100
2190 2020
1990 2110
2210 2110
2138 2115
2085 2120
2418 2219
2304 2264
2522 2318
2661 2281
2710 2505
2923 2795
2806 2976
2978 3053
3333 3141
3267 3391
3250 3375
2555 2489

JU N
2410
2460
2610
2500
2480
2485
2491
2722
2175
2684
2929
3021
3287
3430
3463
3512
3682
3640
2888

JU L
3140
3200
3190
3030
2880
2581
2834
2912
2928
2971
3089
3327
3598
3705
3649
3744
3937
3771
3249

AU G
2850
2960
2860
2900
2670
2639
2725
2771
2738
2759
2803
3044
3118
3053
3095
3179
3284
3259
2928

SEP OCT N OV
2090 1850 1630
2190 1870 1770
2140 1870 1760
2160 1940 1750
2100 1920 1670
2038 1936 1784
1932 2085 1856
2153 2136 1910
2178 2137 2009
2267 2152 1978
2296 2210 2135
2607 2525 2160
2875 2754 2588
2764 2802 2707
2839 2966 2863
2984 2950 2896
2849 3085 3043
3206 3269 3181
2426 2359 2205

qui donne les coefficients suivants


b2
b1
b2
b3
b4
b5
b6
b7
b8
b9
b10 b11 b12
9.82 1038 943 1156 1380 1293 1667 1938 1517 1135 1123 975 1618
Ce qui donne la srie ajuste ( gauche) et la srie corrige des variations
saisonnires ( droite)
>
>
>
>

T = seq(from=1963,to=1980+11/12,by=1/12)
M = as.factor(rep(1:12,18))
reg=lm(SNCF~0+T+M)
summary(reg)

Call:
lm(formula = SNCF ~ 0 + T + M)
Residuals:
Min
1Q
-674.19 -154.53

Median
-12.16

3Q
125.74

Max
611.51

Coefficients:
Estimate Std. Error t value Pr(>|t|)

47

DEC
2420
2270
2360
2330
2520
2391
2553
2537
2546
2723
2862
2876
3266
3307
3375
3611
3541
4008
2861

x
en
2127
2171
2173
2168
2157
2133
2192
2288
2270
2387
2478
2639
2892
2974
3031
3194
3242
3331
2547

T
77.29
M1 -150182.38
M2 -150282.54
M3 -150080.65
M4 -149841.26
M5 -149913.92
M6 -149521.58
M7 -149166.64
M8 -149494.13
M9 -150002.74
M10 -150076.46
M11 -150236.62
M12 -149587.17
--Signif. codes:

2.68
5283.13
5283.35
5283.58
5283.80
5284.02
5284.25
5284.47
5284.69
5284.92
5285.14
5285.36
5285.59

28.84
-28.43
-28.45
-28.41
-28.36
-28.37
-28.30
-28.23
-28.29
-28.38
-28.40
-28.43
-28.30

<2e-16
<2e-16
<2e-16
<2e-16
<2e-16
<2e-16
<2e-16
<2e-16
<2e-16
<2e-16
<2e-16
<2e-16
<2e-16

***
***
***
***
***
***
***
***
***
***
***
***
***

0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error: 204.3 on 203 degrees of freedom


Multiple R-squared: 0.9942,
Adjusted R-squared: 0.9939
F-statistic: 2693 on 13 and 203 DF, p-value: < 2.2e-16

3.5

Proprits statistiques des estimateurs

Sous lhypothse E (t ) = 0 les estimateurs mco sont sans biais :


 
E bi = i et E (b
j ) = j .
La variance des estimateurs peut tre estime par
"
#
 
T
1
0
0
X
b
1
ZZ ZS

2
= s2
,
o
s
=
b2 ,
Vb
S 0Z S 0S

b
T n m t=1 t
ce qui permet dobtenir des intervalles de confiance sur les estimateurs.

48

3.6

Application au traffic sur lautoroute A7

Sur les donnes de traffic sur lautoroute A7, on obtient la dcomposition suivante
>
+
+
>
>
>
>
>
>
>
>
>

autoroute=read.table(
"http://freakonometrics.blog.free.fr/public/data/autoroute.csv",
header=TRUE,sep=";")
a7=autoroute$a007
X=ts(a7,start = c(1989, 9), frequency = 12)
T=time(X)
S=cycle(X)
B=data.frame(x=as.vector(X),T=as.vector(T),S=as.vector(S))
regT=lm(x~T,data=B)
plot(X)
abline(regT,col="red",lwd=2)
summary(regT)

Call:
lm(formula = x ~ T, data = B)
Residuals:
Min
1Q Median
-20161 -10568 -2615

3Q
4390

Max
35017

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -2872401.7 1545258.4 -1.859
0.0666 .
T
1460.7
775.3
1.884
0.0631 .
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 14610 on 83 degrees of freedom
Multiple R-squared: 0.04101,
Adjusted R-squared: 0.02946
F-statistic: 3.55 on 1 and 83 DF, p-value: 0.06306

49

>
>
>
>

B$res1=X-X1
regS=lm(res1~0+as.factor(S),data=B)
B$X2=predict(regS)
plot(B$S,B$res1,xlab="saisonnalit")

3.7

Prvision un horizon h

Soit h 1. On suppose que le modle reste valide en T + h cest dire que


XT +h =

m
X

ZTi +h i

i=1

n
X

STj +h j + T +h ,

j=1

avec E (T +h ) = 0, V (T +h ) = 2 et cov (t , T +h ) = 0 pour t = 1, ..., T . La variable XT +h


peut tre approche par
bT (h) =
X

m
X

ZTi +h bi

i=1

n
X

STj +h
bj .

j=1

Cette prvision est la meilleur (au sens de lerreur quadratique moyenne) prvision,
linaire en X1 , ..., XT et sans biais. Un intervalle de confiance de cette prvision est de la
forme
h
p
p i
bT (h) 1/2 ebh ; X
bT (h) + 1/2 ebh ,
X
50

o 1/2 est le quantile dordre de la loi de Student T m n degrs de libert, et


o
!
h
m
n
i2 
X
X
j
b X
bT (h) XT +h
ebh = E
= Vb
ZTi +h bi +
ST +h
bj T +h
i=1

" #
h
i   b  b

+ s2 .
= b0 |b
0 Vb

51

j=1

Dsaisonnalisation par moyennes mobiles

On considre une srie temporelle (Xt ) admettant une dcomposition


Xt = Zt + St + t pour t = 1, ..., T
Le but est de trouver une transformation du processus Xt qui annule la composante
saisonnire St : on cherche un filtre tel que Yt = (Xt ) = Zt + t .
Lutilisation des moyennes mobiles est relativement ancienne puisquelle remonte
Poynting (1884) puis Hooker (1901) qui, les premiers, ont tent doter (et de distinguer )
la tendance et la composante cyclique pour des sries de prix en considrant des moyennes
glissantes. En 1930, Macauley a introduit une mthode pour dsaisonnaliser les sries au
sein de la Rserve Fdrale amricaine, base sur lutilisation de moyennes mobiles centres
dordre 12, pour obtenir une estimation de la tendance. Dans les annes 50, le bureau du
Census aux Etats Unis a commenc developper des modles bass sur lutilisation de
moyennes mobiles, modles qui ont abouti la mthode X11 en 1965.
Cette mthode a pu tre dveloppe grce aux dveloppements informatiques importants qui ont eu lieu cette poque. Une des implications est que des dcisions, faisant
habituellement appel au jugement de lutilisateur, ont pu tre en grande partie automatises. De plus, linformatique a facilit lutilisation de rgressions visant corriger les
effets de jours ouvrables (nombre de jours travaills dans le mois).
En 1975, suite au dveloppement des modles ARIM A (conscutif la publication des
travaux de Box et Jenkins dans les annes 70), le modle X11 a pu voluer vers le modle
dit X11-ARIMA.
La mthode de Buys-Ballot, bas sur une regression globale du modle a t prsent
dans la partie prcdante. Nous allons prsenter dans cette partie les mthodes bases
sur des rgressions locales. Les rgressions locales consistent ajuster des polynmes, en
gnral par les moindres carrs, sur des intervalles glissants (se dcallant chaque fois
dun point). Au centre de cette intervalle, la donne lisse est la valeur, cette date, du
polynme ajust. Ces rgressions locales reviennent appliquer des moyennes mobiles.

4.1
4.1.1

Gnralits sur les moyennes mobiles


Notion doprateur retard L

Dfinition 52. On appelera oprateur retard L (=lag, ou B =backward) loprateur


linaire dfini par
L : Xt 7 L (Xt ) = LXt = Xt1 ,
et oprateur avance F (=forward)
F : Xt 7 F (Xt ) = F Xt = Xt+1 ,
Remarque 53. L F = F L = I (oprateur identit) et on notera par la suite F = L1
et L = F 1 .
52

(i) Il est possible de composer les oprateurs : L2 = L L, et plus gnrallement,


Lp = L
... L} o p N
| L {z
p fois

avec la convention L0 = I. On notera que Lp (Xt ) = Xtp .


(ii) Soit A le polynme, A (z) = a0 +a1 z +a2 z 2 +...+ap z p . On notera A (L) loprateur
2

A (L) = a0 I + a1 L + a2 L + ... + ap L =

p
X

ak Lk .

k=0

Soit (Xt ) une srie temporelle. La srie (Yt ) dfinie par Yt = A (L) Xt vrifie
Yt = A (L) Xt =

p
X

ak Xtk .

k=0

Par passage la limite, on peut aussi dfinir des sries formelles


A (z) =

ak z k et A (L) =

ak Lk .

k=0

k=0

Proposition 54. Pour toutes moyennes mobiles A et B, alors

A (L) + B (L) = (A + B) (L)


R, A (L) = (A) (L)

A (L) B (L) = (AB) (L) = B (L) A (L) .


La moyenne mobile C = AB = BA vrifie alors
!
!
!

i
X
X
X
X
k
k
i
ak L
bk L =
ci L
o ci =
ak bik .
k=0

4.1.2

i=0

k=0

k=0

Les moyennes mobiles

Dfinition 55. Une moyenne mobile est un oprateur linaire, combinaison linaire
doprateurs retard
m2
X
M=
i Li , o m1 , m2 N,
i=m1

qui peut scrire


m1

M =L

mX
1 +m2

im1 L

m1

=L

i=0

mX
1 +m2

im1 F i = Lm1 (F ) ,

(10)

i=0

o (.) est un polynme appel polynme caractristique de M , de degr m1 + m2 , et


m1 + m2 + 1 sera appel ordre de M (correspondant au nombre (thorique) de terme de
M ).
53

Dfinition 56. Si m1 = m2 = m, la moyenne mobile sera dite centre. De plus, si M


est centre, et que pour tout i, i = i alors la moyenne mobile est dite symtrique.
Exemple 57. La moyenne mobile M1 (Xt ) = (Xt + Xt1 ) /2, soit M1 = (L + I) /2 =
L [I + F ] /2 est de degr 1, dordre 2 et nest pas centre (ni symtrique).
Exemple 58. La moyenne mobile M2 (Xt ) = (Xt+1 + 2Xt + Xt1 ) /4, soit M2 =
(L1 + 2I + L) /4 = L [I + 2F + F 2 ] /4 est de degr 2, dordre 3, est centre et symtrique.
On peut dj noter, pour les moyennes centres symtriques, sont ncessairement
dordre impair (pour tre centres). Pour m impair, on considrera les moyennes mobiles
dordre m = 2p + 1 dfinie par
1
[Xtp + Xtp+1 + ... + Xt1 + Xt + Xt+1 + ... + Xt+p1 + Xt+p ] .
m
Exemple 59. La moyenne mobile dordre 3 - Cette moyenne mobile a pour coefficients
1/3, 1/3, 1/3,
1
M3 (Xt ) = [Xt1 + Xt + Xt+1 ] .
3
Exemple 60. La moyenne mobile dordre 9 - Cette moyenne mobile a pour coefficients
1/9, 1/9, ..., 1/9,
Mm (Xt ) =

1
[Xt4 + Xt3 + ... + Xt + ... + Xt+4 ] .
9
De manire gnrale, le filtre
M9 (Xt ) =

M2p+1 (Xt ) =

1
[Xtp + Xtp+1 + ... + Xt1 + Xt + Xt+1 + ... + Xt+p1 + Xt+p ] .
2p + 1

scrit, pour p = 3
> library(ts)
> Y=filter(X,filter=rep(1/(2*p+1),2*p+1))

Par exemple, sur la srie a7


>
+
+
>
>
>
>
>
>
>
>
>
>
>
>

autoroute=read.table(
"http://freakonometrics.blog.free.fr/public/data/autoroute.csv",
header=TRUE,sep=";")
a7=autoroute$a007
X=ts(a7,start = c(1989, 9), frequency = 12)
plot(X)
p=3
Y=filter(X,filter=rep(1/p,p))
lines(Y,col="red",lwd=2)
p=6
Y=filter(X,filter=rep(1/p,p))
lines(Y,col="blue",lwd=2)
p=12
Y=filter(X,filter=rep(1/p,p))
lines(Y,col="green",lwd=2)

54

Toutefois, il est possible de construire des moyennes mobiles centres et symtriques


dordre pair, de faon artificielle. Pour cela, pour m = 2p on considrera les moyennes
mobiles dfinies par

1 
Xtp+1/2 + ... + Xt1/2 + Xt+1/2 + ... + Xt+p1/2 ,
m
o Xt1/2 est obtenue comme valeur intermdiaire entre Xt1 et Xt . Cette moyenne
mobile peut donc se rcrire


1
1
1
1 1
(Xtp + Xtp+1 ) + ... + (Xt1 + Xt ) + (Xt + Xt+1 ) + ... + (Xt+p1 + Xt+p )
Mm (Xt ) =
m 2
2
2
2


1 1
1
=
Xtp + Xtp+1 + ... + Xt1 + Xt + Xt+1 + ... + Xt+p1 + Xt+p .
m 2
2
Mm (Xt ) =

Cette moyenne mobile dordre pair est en fait une moyenne mobile dordre impair, que
lon notera M2p , dfinie par
1
[Xtp + 2Xtp+1 + ... + 2Xt1 + 2Xt + 2Xt+1 + ... + 2Xt+p1 + Xt+p ] .
2m
Exemple 61. La moyenne mobile 2 4 - Cette moyenne mobile permet permet destimer
des tendances dans le cas de donnes trimestrielles, elle est dordre 5 et de coefficients
1/8, 1/4, 1/4, 1/4, 1/8
M2p (Xt ) =

1
[Xt2 + 2Xt1 + 2Xt + 2Xt+1 + Xt+2 ] .
8
Comme nous le verrons par la suite, elle limine les saisonnalits trimestrielles des sries
trimestrielles, elle conserve les tendances linaires, et elle rduit de 75% la variance dun
bruit blanc.
M24 (Xt ) =

Exemple 62. La moyenne mobile 212 - Cette moyenne mobile permet permet destimer
des tendances dans le cas de donnes mensuelles, elle est dordre 13 et de coefficients
1/24, 1/12, 1/12, ..., 1/12, 1/24
M24 (Xt ) =

1
[Xt6 + 2Xt5 + 2Xt4 + ... + 2Xt+5 + Xt+6 ] .
24
55

Comme nous le verrons par la suite, elle limine les saisonnalits annuelles des sries
mensuelles, elle conserve les tendances linaires, et elle rduit de plus de 90% la variance
dun bruit blanc.
L encore, sur la srie a7
>
+
+
>
>
>
>
>
>
>
>
>
>
>
>

autoroute=read.table(
"http://freakonometrics.blog.free.fr/public/data/autoroute.csv",
header=TRUE,sep=";")
a7=autoroute$a007
X=ts(a7,start = c(1989, 9), frequency = 12)
plot(X)
p=3
Y=filter(X,filter=c(1/(2*p),rep(1/p,p-1),1/(2*p)))
lines(Y,col="red",lwd=2)
p=6
Y=filter(X,filter=c(1/(2*p),rep(1/p,p-1),1/(2*p)))
lines(Y,col="blue",lwd=2)
p=12
Y=filter(X,filter=c(1/(2*p),rep(1/p,p-1),1/(2*p)))
lines(Y,col="green",lwd=2)

Exemple 63. La moyenne mobile 3 3 - Cette moyenne mobile est dordre 5 et de


coefficients 1/9, 2/9, 3/9, 2/9, 1/9
M33 (Xt ) =

1
[Xt2 + 2Xt1 + 3Xt + 2Xt+1 + Xt+2 ] .
9

Exemple 64. La moyenne mobile 3 9 - Cette moyenne mobile est dordre 11 et de


coefficients 1/27, 2/27, 3/27, 3/27, ..., 3/27, 2/27, 1/27
M39 (Xt ) =

1
[Xt5 + 2Xt4 + 3Xt3 + 3Xt2 + 3Xt1 + ... + 3Xt+4 + 2Xt+4 + Xt+5 ] .
27

Ces deux moyennes mobiles conservent les droites, et rduisent respectivement de 75% et
de 90% la variance dun bruit blanc.
56

Exemple 65. Les moyennes mobiles dHenderson - Ces moyennes mobiles sont utilises dans la mthode X11 pour extraire la tendance dune estimation de la srie corrige
des variations saisonnires
P 3 2 (partie (4.4.2)). Ces moyennes reposent sur lutilisation de
loprateur H = [ i ] o est loprateur diffrence premire (Xt = Xt Xt1 ).
Cette quantit est nulle dans le cas o les i se retrouvent sur une parabole : H mesure la
distance entre la forme parabolique et la forme de la fonction dfinissant les i . Hendersen a cherch les moyennes mobiles centres, dordre impair, conservant les polynmes de
degr 2, et minimisant la fonction H :
min

X

2

sous constraintes

+p
X
i=p

i = 1,

+p
X

ii = 0 et

i=p

+p
X

i2 i = 0,

i=p

ce qui donne les expressions explicites de i , en posant n = p + 2






315 (n 1)2 i2 [n2 i2 ] (n + 1)2 i2 [3n2 16 11i2 ]
.
i =
8n (n2 1) (4n2 1) (4n2 9) (4n2 25)
Cette relation permet dobtenir un certain nombre de moyennes mobiles
5 termes : M5 (Xt ) =
7 termes : M7 (Xt ) =
4.1.3

1
[21Xt2 + 84Xt1 + 160Xt + 84Xt+1 21Xt+2 ] ,
286

1
[42Xt3 + 42Xt2 + 210Xt1 + 295Xt + 210Xt+1 + 42Xt+2 42Xt+3 ] .
715

Lespace des oprateurs moyenne-mobile

Dfinition 66. Soient M1 et M2 deux moyennes mobiles. Le produit de M1 et M2 est


obtenu par composition des moyennes mobiles
M1 M2 (Xt ) = M1 M2 (Xt ) .
Proposition 67. Ce produit est commutatif et associatif
M1 M2 = M2 M1 et M1 (M2 M3 ) = (M1 M2 ) M3 .
De plus, le produit est distributif par rapport laddition.
Proposition 68. Lensemble des moyennes mobiles constitue un espace vectoriel.
Proposition 69. La compose de deux moyennes mobiles symtriques est symtrique.

4.2

Vecteurs propres associs une moyenne mobile

Dfinition 70. Soit M une moyenne mobile. Sil existe et (Xt ) non nul tels que
M (Xt ) = Xt , (Xt ) sera vecteur propre associ la valeur propre .
57

4.2.1

Les sries absorbes : = 0

Dfinition 71. Une suite (Xt ) est dite absorbe par M si et seulement si M (Xt ) = 0
pour tout t.
Exemple 72. Soit M la moyenne mobile dfinie par M (Xt ) = Xt + Xt1 + Xt2 . La
srie chronologique dfinie rcursivement par Yt = [Yt1 + Yt2 ] est absorbe par M .
Proposition 73. Les vecteurs propres associs la valeur propre = 0 forment un
espace vectoriel de dimension m1 + m2 , dont une base est constitue des Ztk = (k rt ) pour
k = 0, 1, ..., p 1, o r est racine non nulle du polynme .
Exemple 74. Dans lexemple (72), on peut chercher construire une base de la forme
Zt = rt , qui devra satisfaire
rt + rt1 + rt2 = 0 pour tout t
cest dire r2 + r + 1 = 0. Aussi, r est une racine du polynme caractristique de M si
et seulement si





2i
2i
1 i 3
soient r1 = exp
et r2 = exp
r=
2
3
3
Aussi, les suites absorbes sont ncessairement de la forme
Xt = r1t + r2t , pour tout t.
Or

r1t = cos (2t/3) + i sin (2t/3)


r2t = cos (2t/3) i sin (2t/3) .
Et donc, lespace vectoriel des suites absorbes par M admet pour base relle
 o
n  
, sin 2t
,
B = cos 2t
3
3
ce qui correspond des sries chronologiques de la forme
 
 
Xt = cos 2t
+ sin 2t
pour tout t.
3
3
4.2.2

Absorbtion de la composante saisonnire

Thorme 75. Une moyenne mobile M absorbe la composante saisonnire de priode T


si et seulement si son polynme caractristique est divisible par 1 + z + ... + z T 1 .
Proof. Par dfinition de la priodicit des composantes saisonnires, si T est la priode,
les St sont les suites solutions de
St+1 + ... + St+T = 0 pour tout t Z
Lespace vectoriel des solutions est engendr par les suites (rt ) o r satisfait


2
T 1
1 + r + r + ... + r
= 0, cest dire r = exp 2ik
o k = 1, ..., T 1
T

58

4.2.3

Les sries invariantes : = 1

Dfinition 76. Une suite (Xt ) est dite invariante par M si et seulement si M (Xt ) = 0
pour tout t
Une suite (Xt ) est dite invariante par M si elle est absorbe par (M I) .
Proposition 77. (i) Les suites constantes sont invariantes par M si et seulement si la
somme de ses coefficients vaut 1,
(ii) Les polynmes de degr k sont invariantes par M si et seulement si 1 est racine
dordre au moins k + 1 de = (z) z m1 ,, o M = Lm1 (F ) ,
(iii) Si M est symtrique et conserve les constantes, alors M conserve les polynmes
de degr 1.
Proof. En reprenant (10) , on peut crire
M=

m2
X

i Li = Lm1 (F ) .

i=m1

(i) Si xt = k 6= 0 pour tout t, alors M xt = xt (suite invariante) se rcrit


m2
X

ii k = k,

i=m1

avec k non nul, donc la somme des coefficients vaut 1.


(iii) Soit Xt la suite telle que Xt = t. Alors
M Xt = m1 (t m1 ) + ... + m1 (t + m1 ) = t (m1 + ... + m1 ) + m1 (m1 + m1 )
+ (m1 1) (m1 +1 + m1 1 ) + ... + 1. (1 + 1 ) + 0.0 ,
soit M Xt = t.1 + 0 = t = Xt par symtrie (k = k ).
Les proprits (i) et (iii) montrent dans quel cas la tendance de la srie reste invariante
: ces sries peuvent servir enlever la composante saisonnire, pour rcuprer la tendance
linaire.
4.2.4

Transformation de suites gomtriques (rt )

Proposition 78. Soit M = Lm1 (F ) une moyenne mobile de polynme caractristique


. Alors toute suite (rt ) est vecteur propre de M associ la valeur propre = rm1 (r) .
Proof. De (10) , on peut crire
M r

m2
X
i=m1

i r

t+i

=r

tm1

m2
X

i ri+m1 = rt rm1 (r) ,

i=m1

et donc M (rt ) = rm1 (r) rt pour tout t, ce qui correspond la dfinition dlments
propres.
59

Suites gometriques relles Si r est rel alors lapplication dune moyenne mobile
la suite gomtrique (rt ) revient faire une homothtie de rapport rm1 (r).
Suites gomtriques complexes Si r = ei alors appliquer M revient multiplier
rt par le nombre complexe rm1 (r) = () ei() ,
 t
r = t eit
M rt = t eit () ei() = [ () t ] ei[t+()] ,
ce qui correspond un effet dchelle (le module faisant intervenir le coefficient ())
comme dans le cas rel, mais aussi un effet de phase puisque largument se voit ajouter
un lment ().
Exemple 79. Une suite de la forme t sin t sera transforme par M
[ () t ] sin [t + ()], xxx

en

Proposition 80. Si M est symtrique, alors leffet de phase sur la suite gomtrique
(eit ) est soit = 0 soit = .
P
ik
est
Proof. Ce rsultat se montre en explicitant M (eit ) et en notant que m
k=m |j| e
rel. Si ce rel est positif, alors = 0 et sil est ngatif = .
Remarque 81. Ce rsultat ne marche que pour la suite gomtrique (eit ) et devient faux
pour 6= 1, mme pour une moyenne mobile symtrique.
4.2.5

Moyenne mobile diffrence p = (I L)p

Considrons comme moyenne mobile loprateur diffrence p = (I L)p pour p > 0.


Cette moyenne mobile transforme un polynme de degr k p en une constante.
En effet,

appliquer 1 revient abaisser le degr du polynme de 1, car 1 tk = tk (t 1)k ,
polynme de degr k 1, et recursivement, appliquer p = p1 revient abaisser le degr
du polynme de p.
Une telle moyenne mobile permet dliminer une tendance qui serait un plynome de
bas degr. Nous allons tudier ici son effet sur une suite de la forme (eit ).
Cas p = 1




(I L) eit = eit ei(t1) = eit 1 ei = ei .2 sin .ei[]/2


2
soit () = 1 () = 2 sin (/2) et () = 1 () = [ ] /2.
Cas p 1

p 
X
j
p = (I L) =
(1)j Lj
p
p

j=0

60

donc
p e

it


p 
h ip
X
p

j
(1)j eij = eit 1 ei = eit .2p sin
=
eip[]/2
p
2
j=0

soit () = p () = [2 sin (/2)]p et () = p () = p [ ] /2 o [0, ]


Exemple 82. Considrons la srie de cycle /3
Xt
1 Xt
2 Xt
3 Xt
4 Xt
5 Xt

2
1 1 2 1
1
2
1 1 2 1
1
1 1 2 1
1
2
1 1 2 1
1
2
1 2 1
1
2
1 1 2 1
1
2
1
2 1
1
2
1 1 2 1
1
2
1 1
1
1
2
1 1 2 1
1
2
1 1 2
1
2
1 1 2 1
1
2
1 1 2 1

Comme on peut le noter, suite ne change pas damplitude, elle est juste dphase.
Exemple 83. Considrons la srie de cycle /2
Xt
1 Xt
2 Xt
3 Xt
4 Xt
5 Xt

1
0 1
0
1
0 1
0
1
0 1
0
1 1 1
1
1 1 1
1
1 1 1
1
0 2
0
2
0 2
0
2
0 2
0
2
2 2
2
2 2 2
2
2 2 2
2
2
4
0
4
0 4
0
4
0 4
0
4
0
4
4
4 4 4
4
4 4 4
4
4 4

On retrouve l aussi un dphage, avec un coefficient damplitude qui augmente avec p.


On peut ainsi noter que 4 Xt correspond 4 fois la srie initiale Xt , avec un dphasage
puisque les valeurs positives deviennent ngatives, et inversement.
4.2.6

Moyenne mobile diffrence saisonnire p,s = (I Ls )p

Cette moyenne mobile permet dabsorber les composantes saisonnires de priode s.





p,s eit = eit 1 eisp ,
alors

p,s () = 2p [sin s/2]p


p,s () = p [ s] /2.

En considrant des donnes mensuelles, et une composante saisonnire annuelle (priode


12) et s = 12, alors p,12 (2/12) = 0. On retrouve ainsi le fait que cette moyenne mobile
p,12 limine une composante saisonnire de priode 12. Toutefois, les saisonnalits de
priodes 8 mois, ou 24 mois sont amplifies.

61

4.2.7

Moyenne mobile impaire

Une moyenne mobile dordre impair peut scrire


M=

q
X

j Lj o q N\{0} et j =

j=q

1
.
2q + 1

On peut montrer que



sin [(q + 1/2) ]
M eit = eit
,
(2q + 1) sin [/2]
(dmonstration en exercice) do


sin [(q + 1/2) ]

.
() =
(2q + 1) sin [/2]
La moyenne mobile tant symtrique, le dphasage est 0 ou (selon les valeurs de ).
4.2.8

Moyenne mobile paire

Une moyenne mobile dite dordre impair peut scrire


M=

q
X

j L


o q N\{0} et j =

j=q

1/2q pour |j| =


6 q
1/4q sinon.

On peut montrer que


 

sin [q]
M eit = eit
cotan
,
2q
2
(dmonstration en exercice) do

 
sin [q]
.

() =
cotan
2q
2
Pour des donnes mensuelles, par example, on prend q = 6, et

 
sin [6]

,
() =
cotan
12
2
qui sannule en /6, 2/6, 3/6, 4/6, 5/6... correspondant des priodes 12, 6, ....
Remarque 84. La moyenne mobile dordre pair avec q = 6 absorbe les composantes
saisonnires priodiques de priodes 12 (et les harmoniques), tout en conservant les basses
frquences (correspondant la tendance). Cette moyenne mobile est appele M212 dans
la partie (4.4.2) sur la mthode X11.

62

4.3

Notions de bruit blanc

De la mme faon que pour la notion de stabilit, il existe deux faon de dfinir le bruit
blanc,
Dfinition 85. On appelera bruit blanc faible toute suite (t , t Z) telle que E (t ) = 0
et V (t ) = 2 pour tout t Z et tel que
(h) = cov (t , th ) = 0 pour h 6= 0.
Dfinition 86. On appelera bruit blanc fort toute suite (t , t Z) telle que (t ) soit
i.i.d.
Remarque 87. On notera par la suite (t ) BB (0, 2 ) pour bruit blanc faible.
4.3.1

Transformation dun bruit blanc

Proposition 88. Soit M la moyenne mobile dfinie par (10) et (t ) BB (0, 2 ) pour
t Z. Le processus Xt = M (t ) est stationnaire, centr (E (Xt ) = 0), tel que
 
m2
X
X
1
h
2
o M (z) =
i z i pour z 6= 0.
X (h) z = M (z) M
z
i=m
h
1

Proof. Le caractre centr dcoule de lcriture


Xt =

m2
X

j t+j , o (t ) est centr.

j=m1

Il est possible de prolonger cette somme sur Z en posant j = 0 pour j < m1 ou j > m2 .
Aussi
+
+
+
X
X
X
2
k t+h+k =
j k t+j t+h+k ,
Xt Xt+h =
j t+j
j=

k=

et donc
E (Xt Xt+h ) =

j,k=

+
X

j k =

+
X

j j h.

j=

k+h=j

Ainsi E (Xt Xt+h ) = cov (t , t+h ) qui ne dpend que de h.


On peut alors crire
X

X (h) z h = 2

+ X
+
X

j jh z h = 2

h= j=

+
X
j=

j z

+ X
+
X

j jh z j z hj

h= j=
+
X

jh z

h=

en effectuant le changement dindice i = j h.


63

hj

+
X
j=

j z

+
X
i=

1
,
zi

A retenir 89. Le but des moyennes mobiles est


(i) dabsorber les composantes saisonnires en laissant invariantes les tendances,
(ii) de rduire la variance des perturbations.
Dfinition 90. Lindice de rduction de la moyenne mobile M est donn par
E (M Xt2 ) X 2
=
=
j .
E (Xt2 )
j
Exemple 91. Dans le cas dune moyenne mobile dfinie par M (Xt ) = [Xt + Xt1 ] /2,
alors = 1/2.

4.4
4.4.1

Les procdures X11 et X12 ? ? ?


Un algorithme simple de dsaisonnalisation

Considrons une srie mensuelle Xt compose dune tendance Zt , dun cycle saisonnier
St , et dune perturbation t , de faon additive Xt = Zt + St + t .Lalgorithme suivant, en
4 tapes, permet de dsaisonnaliser la srie Xt
(1)
(1) Estimation de la tendance par moyenne mobile Zt = M (Xt ) ,o la moyenne
mobile M est choisie de faon reproduire au mieux la tendance, tout en liminant la
composante saisonnire, et en rduisant la perturbation au maximum
(2) Estimation de la composante saisonnire et de la perturbation t = St + t :
(1)
(1)
t = Xt Zt ,


(1)
(1)
(3) Estimation de la composante saisonnire par moyenne mobile St = M 0 t
et
(1)

(1)

(1)

t = t St . Il sagit ici de lisser les valeurs de la composante t de chaque mois


pour extraire lvolution du coefficient saisonnier du mois concern. La moyenne mobile
M 0 utilise ici devra reproduire la composante saisonnire de chaque mois en rduisant
au maximum la composante irrgulire. Une contrainte de normalisation des coefficients
devra tre impose (somme nulle).


bt = Zt(1) + (1)
(4) Estimation de la srie corrige des variations saisonnires X
=
t
(1)

Xt S t .
La difficult ici est donc de bien choisir les deux moyennes mobiles utiliser M et M 0 .
4.4.2

Lalgorithme de base de la mthode X11

Cette mthode propose deux moyennes mobiles dans le cas de donnes mensuelles.
Lalgorithme devient
(1) Estimation de la tendance-par moyenne mobile 2 12
(1)

Zt

= M212 (Xt ) ,

Cette moyenne mobile est paire, avec q = 6.


Aussi, les 13 coefficients sont
1/24, 1/12, 1/12, ..., 1/12, 1/24. Cette moyenne mobile conserve les tendances linaires,
limine les saisonnalits dordre 12 et minimise la variance de la perturbation.
64

(2) Estimation de la composante saisonnire et de la perturbation t = St + t


(1)

(1)

t = Xt Zt ,
(3) Estimation de la composante saisonnire par moyenne mobile 3 3 sur chaque
mois


(1)
(1)
(1)
(1)
(1)
St = M33 t
et t = t St .
La moyenne mobile utilise ici est une moyenne mobile sur 5 termes, dite 3 3, dont
les coefficients sont 1/9, 2/9, 3/9, 2/9, 1/9, qui conserve les composantes linaires. Les
coefficients sont alors normaliss de telle sorte que leur somme, sur toute une priode de
12 mois, soit nulle.


(1)
(1)
(1)
Sbt = St M212 St
,
(4) Estimation de la srie corrige des variations saisonnires
bt(1) = Xt Sbt(1) .
X
Cette premire estimation de la srie corrige des variations saisonnires doit, par construction, contenir moins de saisonnalit.
(5) Estimation de la tendance par moyenne mobile de Henderson sur 13 termes
 
(2)
bt .
Zt = M13 X
Si les moyennes mobiles dHenderson nont pas de proprits spciales quant
llimination de la saisonnalit, mais elles lissent relativement bien, tout en conservant
(localement) les polynmes dordre 2.
(6) Estimation de la composante saisonnire et de la perturbation t
(2)

(2)

t = Xt Zt ,
(7) Estimation de la composante saisonnire par moyenne mobile 3 5 sur chaque
mois


(2)
(2)
(2)
(2)
(2)
St = M35 t
et t = t St .
La moyenne mobile utilise ici est une moyenne mobile sur 7 termes, dite 3 5, dont
les coefficients sont 1/15, 2/15, 3/15, 3/15, 3/15, 2/15, 1/15, qui conserve les composantes
linaires. Les coefficients sont alors normaliss de telle sorte que leur somme, sur toute
une priode de 12 mois, soit nulle.


(2)
(2)
(2)
b
St = St M212 St
,
(8) Estimation de la srie corrige des variations saisonnires
bt(2) = Xt Sbt(2) .
X
65

Remarque 92. Cette mthode permet de reprer les points abrants dune srie.
Comme lont montr Gouriroux et Monfort (1990), cet algorithme peut se rsumer
lapplication dun unique moyenne mobile qui peut tre explicite matriciellement. Les 8
points de lalgorithme scrivent
(1)

(1) Zt = M212 (Xt )


(1)
(1)
(2) t = Xt Z
 t = (I M212 ) (Xt )
(1)

(3) St
(4)
(5)
(6)
(7)
(8)

(1)

= M33 t

= M(3) (I M212 ) (Xt )





(1)
(1)
(1)
Sbt = St M212 St
= M(3) (I M212 )2 (Xt )

bt(1) = Xt Sbt(1) = I M(3) (I M212 )2 (Xt )
X
 

(2)
bt = M13 I M(3) (I M212 )2 (Xt )
Zt = M13 X

(2)
(2)
t = Xt Zt = I I M(3) (I M212 )2 (Xt )

(2)
(2)
(2)
= (I M212 ) M(5) I M(3) (I M212 )2 (Xt )
Sbt = St M212 St

bt(2) = Xt Sbt(2) = I (I M212 ) M(5) I M(3) (I M212 )2 (Xt )
X

o M(3) est la moyenne mobile dfinie sur 49 mois, dont les coefficients sont
{1/9, 0, 0, ..., 0, 2/9, 0, ...., 0, 3/9}
et M(5) est la moyenne mobile dfinie sur 73 mois, dont les coefficients sont
{1/27, 0, 0, ..., 0, 2/27, 0, ...., 0, 3/27, 0, 0, ..., 0, 3/27}
La moyenne mobile ainsi dfinie est dordre 169, cest dire quen toute rigueur, il
faudrait 84 observations, soit 7 ans de part et dautre pour pouvoir estimer ce filtre.
Remarque 93. Un algorithme similaire existe pour des donnes trimestrielles, qui peut
l aussi scrire sous la forme dune seule moyenne mobile, portant sur 28 trimestres de
part et dautre (7 ans l aussi).

66

La prvision par lissage exponentiel

Les mthodes de lissages consistent extrapoler une srie en vue de faire de la prvision. Or comme on le voit sur lexemple ci-dessous, une extrapolation simple (linaire en
loccurence) dpend fortement du type de rsultats que lon cherche avoir : prvision
court, moyen, ou long terme Ces trois mthodes diffrent suivant le poids que lon accorde
aux observations passes.

5.1

Principe du lissage exponentiel simple

On dispose de N observations X1 , ..., XN . On souhaite prvoir, la date T = 1, ..., N , la


valeur un horizon 1, ou un horizon quelconque h.
bT (h) fournie par la mthode de lissage exponentiel simple,
Dfinition 94. La prvision X
avec la constante de lissage , 0 < < 1 est
bT (h) = (1 )
X

T 1
X

j XT j

j=0

On donne un poids dautant moins important que les observations sont loins (dans le
pass), avec une dcroissance exponentielle :
- proche de 1 : prise en compte de tout le pass
- proche de 0 : prise en compte davantage des valeurs rcentes (plus sensible aux
fluctuations)
bT (h) ne dpend pas de h, dont X
bT (h) = X
bT .
Remarque 95. Si ne dpend pas de h, X
bT est la prvision faite en T de la valeur en T + 1. Nous appelerons cette
Cette valeur X
b
srie XT (srie lisse la date t) ou FT +1 (valeur prdite pour la date T + 1).
Remarque 96. Pour certains logiciels permettant de faire du lissage exponentiel, la constante de lissage nest pas mais = 1 .
5.1.1

Mthode adaptative de mise jour (ordre 1)

Proposition 97. Mthode adaptative de mise jour (ordre 1)




b
b
b
XT = XT 1 + [1 ] XT XT 1

(11)

bT 1 = XT + [1 ] X
bT 1
= [1 ] XT + X
Cette relation scrit galement
FT +1 = XT + (1 ) FT
bT peut tre vu comme une rgression sur une constante, avec des
Proposition 98. X
pondrations exponentielles
67

Proof. Le programme de minimisation


(T 1
)
X
min
j (Xtj c)2
c

(12)

j=0

admet pour solution


T 1
1 X j
XT j
b
c=
1 T j=0

(13)

bT = b
et pour T assez grand X
c.
5.1.2

Choix de la constante de lissage

Au del des mthodes qualitative de rigidit ou de souplesse du modle aux fluctuations


conjoncturelles, il est possible dutiliser des mthodes de type minimisation de la somme
des carrs des erreurs de prvison :

"
#2
T
t1
X

X
j
b
= arg min
Xt+1 (1 )
Xtj
t=1

j=0

Numiquement, il est possible de calculer cette quantit en utilisant


>
+
+
+
+
+
+
+
+
+
>

V=function(a){
T=length(X)
L=erreur=rep(NA,T)
erreur[1]=0
L[1]=X[1]
for(t in 2:T){
L[t]=a*X[t]+(1-a)*L[t-1]
erreur[t]=X[t]-L[t-1] }
return(sum(erreur^2))
}
optimize(V,c(0,.5))$minimum

Par exemple, sur la srie Nile on aurait


> optimize(V,c(0,.5))$minimum
[1] 0.246581
> A=seq(0,1,by=.02)
> Ax=Vectorize(V)(A)
> plot(A,Ax,ylim=c(min(Ax),min(Ax)*1.05))

68

> hw=HoltWinters(X,beta=FALSE,gamma=FALSE,l.start=X[1])
> hw
Holt-Winters exponential smoothing without trend an seasonal comp.
Call:
HoltWinters(x = X, beta = FALSE, gamma = FALSE, l.start = X[1])
Smoothing parameters:
alpha: 0.2465579
beta : FALSE
gamma: FALSE
Coefficients:
[,1]
a 805.0389
> plot(hw)
> points(2:(length(X)+1),Vectorize(Lissage)(.2465),col="blue")

5.1.3

Lien entre robustesse de la prvision et choix de

Il nexiste pas de relation a priori entre lerreur de prvision et le paramtre .


Exemple 99. Soit (Xt ) un processus AR (1) de corrlation , de variance 1, Xt = Xt1 +
t . Lerreur de prvision horizon h est
h
T 1
i2 
X
bT (h)
bT (h) = (1 )
(, , h) = E XT +h X
avec X
j XT j
j=0

On peut montrer que


2 (1 ) h h
2
(, , h) =
+
1+
(1 + ) (1 )

Lerreur de prvision varie de la faon suivante en fonction de


xx
pour < 1/3, lerreur de prvision dcroit avec , et pour > 1/3, lerreur crot avec
.
69

5.1.4

Exemple dapplication

Considrons ici une srie de ventes dune entreprise, sur 18 mois


C.A. 98
C.A. 99

JAN F EB M AR AP R M AY
1293 1209 1205 1273 1220
1364 1330 1377 1332

JU N JU L AU G SEP OCT N OV
1290 1243 1203 1390 1360 1353

DEC
1343

En septembre, une modification structurelle (nouvelle unit de production) a provoqu un


saut des ventes. Les mthodes de lissage permettent defectuer de la prvision en intgrant
ce genre de rupture. Une moyenne arithmtique (non-pondre, note y) conduirait sousestimer les valeurs futures : il est alors naturel dintroduire des poids plus importants pour
les valeurs rcentes. La prvision horizon 1 est alors
T 1
T 1
T 1
X
X
1X
i
y T (1) =
yT i et ybT (1) =
[1 ] yT i =
[1 ] i yT i pour , ]0, 1[ et = 1
T i=0
i=0
i=0

cette dernire valeur tant obtenue par lissage exponentiel (simple). Nous noterons ici
yb1 , ..., ybT la srie lisse, et F1 , ..., FT la srie des valeurs prdites.
Mise en place de lalgorithme ( fix) Pour la premire valeur (T = 0), on considre
comme valeur initiale une moyenne des premires valeurs observes. EViews considre une
moyenne sur les 8 premiers mois,
1
(1293 + ... + 1203) = 1242
8
Pour construire la srie lisse, fix, on utilise la relation de mise jour
F1 = yb0 =

ybj = yj + (1 ) ybj1 ou Fj+1 = yj + (1 ) Fj


Avec comme constante de lissage = 0.3, on obtient
F2 = yb1 = y1 + (1 ) F1 = 0.3 1293 + 0.7 1242 = 1257.3
puis
F3 = y2 + (1 ) F2 = 0.3 1209 + 0.7 1257.3 = 1242.81
Comme on peut le voir, nous estimation pour la date 2 tait de 1257.3. Or la vraie valeur
tait plus faible, savoir 1209. Aussi, pour la date 3, la prvision sera une correction de
ce 1257.3 en prenant en compte (avec un poids correspondant la valeur ) lerreur qui
avait t faite : en loccurence, F3 sera plus faible que F2 (la diffrence tant [F2 y2 ])
1
2
3
4
5

yj1
1293
1209
1205
1273
1220

Fj1
1242.00
1257.30
1242.81
1231.47
70

Fj
1242.00
1257.30
1242.81
1231.47
1243.93

(puisque Fj = yj1 +(1 ) Fj1 ) do finallement la srie lisse exponentiellement pour


1998
yj
ybj ( = 0.3)
ybj ( = 0.7)

JAN
1293
1242
1242

F EB
1209
1257
1278

M AR
1205
1243
1230

AP R
1273
1231
1212

M AY
1220
1244
1255

JU N
1290
1237
1230

JU L
1243
1253
1272

AU G
1203
1250
1252

SEP
1390
1236
1218

OCT
1360
1282
1338

On peut noter que plus est proche de 1, plus la courbe lisse colle aux donnes (b
yj
est proche de yj ) : pour = 1, la prvision Fj+1 sera la dernire valeur observe (yj ).
Un coefficient de lissage plus faible (par exemple = 0.3) permet en revanche de bien
lisser les alas importants de la srie. La srie lisse sadapte galement au changement de
niveau observ en septembre. Toutefois, cette adaptation se fait dautant plus lentement
que est faible : les prvisions sont alors biaises (sous-estimation dans cet exemple)
pendant la priode dadaptation, comme on peut le voir sur le graphique ci-dessous : ds
octobre 1998, la prvision faite avec un coefficient de 0.7 avait atteint un niveau correct,
alors que la prvision avec une pondration de 0.3 est plus lente (ce qui rend la prvision
moins sensible un choc exogne : si cette variation en septembre navait t quun choc,
une faible pondration aurait permis de ne pas le prendre en compte).
On peut noter que le lissage dpend non seulement de mais aussi de la valeur
initale choisie. Comme le montre le graphique de gauche, on observe une convergence
(asymptotique), avec des valeurs trs proches pour T proche de 16. En choissant une
valeur intiale proche des premires valeurs de la srie (b
y0 = y1 ou yb0 moyenne des 2 ou
3 premires observations), on saperoit que la courbe observe et les courbes lisse sont
quasiment confondues au bout de 10 mois (cette valeur dpendant de : la convergence
est dautant plus rapide que est grand ). Le graphique ci-dessous correspond plusieurs
initialisations : F1 = y1 (prvision parfaite - (1)), F1 = (y1 + y2 ) /2 (moyenne des deux
premires valeurs - (2)), F1 = (y1 + y2 + y3 ) /2 (moyenne des trois premires valeurs (3)) et F1 = (y1 + ... + yn ) /n (moyenne de lchantillon - (4))
Remarque 100. Il convient de faire attention : dans la littrature, les courbes lisses sont
soit Ft , soit ybt1 . Certains auteurs dcallent ainsi (dans les tableaux ou les graphiques) la
courbe lisse.
A retenir 101. La formule itrative pour construire la srie lisse de Xt pour t = 1, ..., N
est la suivante

F0 = X1 ou [X1 + ... + Xp ] /p
Ft+1 = Xt + (1 ) Ft pour 0 t N

Ft = FN +1 pour t N + 1
Choix de la constante de lissage Ce choix peut relever de considrations empiriques :
des fortes pondrations pour les valeurs rcentes ( lev) donne de meilleures prvisions
court terme qu long terme. Toutefois, une des mthodes les plus utilise est la minisation
des moindres carrs des erreurs (prvision/ralisation) un horizon h = 1. Lalgorithme
(13) donne ici un paramtre = 0.418, qui correspond une somme des erreurs de
prvision de 48178, cest dire un cart type de lerreur valant 54.874.
71

N OV
1353
1305
1353

DEC
1343
1320
1353

Remarque 102. Lintervalle de confiance de la prvision est alors de la forme




2
2
2
bT (h)1.96X Ch o C 2 = 1+ 1
+
2h
(1

)
(1
+
3)
+
2h
(1

)
1
+
4
+
5
X
h
(1 + )3

5.2

Principe de lissage exponentiel double

Le lissage exponentiel simple est adapt des sries pouvant tre ajuste par une constante
au voisnage de T . Le principe de lissage exponentiel double permet de faire un ajustement
par une droite, savoir approcher Xt par Yt o
Yt = A + (t T ) B
La prvision horizon h scrit
bT (h) = A
b (T ) + hB
b (T )
FT +h = X
De mme que pour (12) le programme doptimisation pour estimer A et B scrit
(T 1
)
X
min
j (XT j [A + (T j) B])2
A,B

(14)

j=0

Thorme 103. La solution de (14) est donne par


b (T ) = 2S1 (T ) S2 (T ) et B
b (T ) = 1 [S1 (T ) S2 (T )]
A

en posant
S1 (t) = (1 )

t1
X

k Xtk = (1 ) Xt + S1 (t 1) (srie lisse)

k=0

S2 (t) = (1 )

t1
X

k S1 (t k) = (1 ) S1 (t) + S2 (t 1) (srie lisse 2 fois)

k=0
t1 tk1
X
X
2

= (1 )

k=0

i+k Xt(k+i)

i=0

Proof. Gouriroux et Monfort (1995) pages 110-111

72

5.2.1

Mthode adaptative de mise jour (ordre 1)

Pour obtenir la formule de mise jour ( lordre 1) permettant de passer de T T + 1,


on peut utiliser le rsultat suivant
bT (1) = A
b (T ) + B
b (T ), alors, en T + 1
Proposition 104. Si la date T , FT +1 = X

h
i
b (T + 1) = (1 2 ) XT +1 X
bT (1) + A
b (T ) + B
b (T )
A
h
i
(15)
b (T + 1) = B
b (T ) + (1 2 ) XT +1 X
bT (1)
B
Proof. Gouriroux et Monfort (1995) pages 112-113
bT (1), on aurait A
b (T + 1) =
Dans le cas dune prvision parfaite, i.e. XT +1 = X
b (T ) + B
b (T ) et B
b (T + 1) = B
b (T )
A
Dans ce cas, les droites de prvision en T et en T + 1 sont les mmes, et la pente, en
b (T + 1) = B
b (T )).
particulier, est inchange (B
Remarque 105. Lintervalle de confiance de la prvision est alors de la forme
s
2
bT (h) 1.96X
X
2 1
5.2.2

Application de la mthode de lissage exponentiel double

Considrons la srie suivante, correspondant un indice dactivit

1982
1983
1984
1985
1986
1987
1988

Trim 1 Trim 2 Trim 3 Trim 4

9050
9380
9378
9680 10100 10160 10469
10738 10910 11058 11016
10869 11034 11135 10845
11108 11115 11424 10895
11437 11352 11381 11401
11507 11453 11561

Le lissage exponentiel double est trs proche du lissage exponentiel simple, sauf que lon
fait un ajustement au voisinage de T non plus par une constante, mais par une droite.
En fait, la srie (correspondant un indice) est une srie croissante : lajustement par
lissage exponentiel simple sous-estimerait les valeurs ralises (graphique page ??) . Le
programme de minimisation scrit ici
(T 1
)
X
min
j (Xtj [AT + BT (T j)])2
A,B

j=0

73

La prvision horizon h est alors ybT (h) = AT + BT h. Trois formulations sont possibles
pour crire la srie lisse
Formulation classique - Les coefficients Aj et Bj sont donns par
Aj = 2b
yj1 ybj2 et Bj =


 1
ybj ybj2
1

o les ybj1 et ybj2 sont obtenus rcursivement par deux lissages conscutifs,


1
: lissage exponentiel simple de yi
ybj1 = yj + (1 ) ybj1
2
1
2
ybj = b
yj + (1 ) ybj1 : lissage exponentiel simple de ybi1

Formules de lissage direct - lerreur de lissage ej est donne par ej = yj ybj =


yj [Aj1 + Bj1 ], et donc



Aj = Aj1 + Bj1 + 1 (1 )2 ej
Bj = Bj1 + 2 ej
ce qui donne une relation permettant dobtenir rcursivement les Ai et les Bi .
Formules de mise jour - cette expression est en fait la mme que la prcdente,
sauf que lon remplace lerreur de prvision par la dernire observation yj ,


Aj = yj + (1 ) [Aj1 + Bj1 ]
o = 1 (1 )2 et =
(16)
Bj = [Aj Aj1 ] + (1 ) Bj1
2
Remarque 106. Aj et Bj sont unitiliss pour calculer ybj , prvision horizon 1 faite
la date j, soit Fj+1 .
Encore une fois, linitialisation de lalgorithme est important. Une mthode possible
est de considrer comme valeur initiale pour A1 la premire valeur y1 . La pente B1
peut alors tre choisie comme la pente moyenne entre la date 1 et une date t0 , telle que
B1 = [yt0 y1 ] /t0 .
Dans le cas qui nous intresse on obtient la srie lisse suivante, en prenant comme
constante de lissage = 0.384, et comme valeurs initiales de A0 = y1 et B0 la pente
sur une priode de 10 observations (soient 9050 et 177) - laide de la relation (16) , et
= 0.6205 et = 0.2376
1982 2
1982 3
1982 4
1983 1

yj
9050
9380
9378
9680

Aj
9050.00
9112.73
9332.05
9421.11

74

Bj
165.30
140.93
159.56
142.81

Fj+1
9215.30
9253.66
9491.61
9563.92

1982
1983
1984
1985
1986
1987
1988

Srie observe
Trim 1 Trim 2 Trim 3 Trim 4

9050
9380
9378
9680 10100 10160 10469
10738 10910 11058 11016
10869 11034 11135 10845
11108 11115 11424 10895
11437 11352 11381 11401
11507 11453 11561

1982
1983
1984
1985
1986
1987
1988

Srie lisse
Trim 1 Trim 2 Trim 3 Trim 4

9215
9254
9492
9564
9796 10189 10372
10646 10932 11143 11303
11295 11138 11166 11234
11023 11118 11159 11405
11095 11364 11412 11443
11461 11541 11524

A titre de comparaison, nous avons ajout droite le lissage exponentiel simple optimal
qui aurait t obtenu sur les mmes donnes. Ce lissage simple est relativement mal
adapat ce type de donnes (croissantes) puisque nous allons continuellement sousvaluer la vraie valeur en priode de croissance forte.
Supposons que la srie ait t observe jusquau troisime trimestre de 1987. La srie
lisse jusqu cette date reste la mme, et les prvisions pour les trimestres suivant aurait
t obtenus en utilisant A = A19873 = 11412, B = B19873 = 47.02, et ybT (h) = A + Bh
1987-4
1988-1
1988-2
1988-3

5.3
>
+
+
>
>
>
>
>
>
>
>
>

ralisation
11401
11507
11453
11561

prvision (double) prvision (simple)


11459
11352
11506
11352
11553
11352
11600
11352

Application au traffic sur lautoroute A7

autoroute=read.table(
"http://freakonometrics.blog.free.fr/public/data/autoroute.csv",
header=TRUE,sep=";")
a7=autoroute$a007
X=ts(a7,start = c(1989, 9), frequency = 12)
T=time(X)
S=cycle(X)
B=data.frame(x=as.vector(X),T=as.vector(T),S=as.vector(S))
regT=lm(x~T,data=B)
plot(X)
abline(regT,col="red",lwd=2)
summary(regT)

Call:
lm(formula = x ~ T, data = B)
Residuals:
Min
1Q Median
-20161 -10568 -2615

3Q
4390

Max
35017

Coefficients:
Estimate Std. Error t value Pr(>|t|)

75

(Intercept) -2872401.7 1545258.4 -1.859


0.0666 .
T
1460.7
775.3
1.884
0.0631 .
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 14610 on 83 degrees of freedom
Multiple R-squared: 0.04101,
Adjusted R-squared: 0.02946
F-statistic: 3.55 on 1 and 83 DF, p-value: 0.06306

>
>
>
>

B$res1=X-X1
regS=lm(res1~0+as.factor(S),data=B)
B$X2=predict(regS)
plot(B$S,B$res1,xlab="saisonnalit")

76

A retenir 107. La formule itrative pour construire la srie lisse de Xt pour t = 1, ..., N
est la suivante
1

S02 = X1 ou [X1 + ... + Xp ] /p

S0 = 0

S 1 = Xt + (1 ) St1 pour 0 t N

t+1
2
St+1
= St1 + (1 ) St2 pour 0 t N
1
2
At+1 = 2St+1
St+1
pour

 0tN

2
1

S
B
=

S
t+1
t+1 / (1 )
t+1

F = At+1 + Bt+1 pour 0 t N

t+1
Ft = AN +1 + (t N 1) BN +1 pour t N + 1

5.4

Lissage exponentiel multiple, ou gnralis

Cette gnralisation a t propose par Brown en 1962, permettant dajuster au voisinage


de T une fonction plus complexe quune fonction affine. La rsolution de ce problme
repose sur la notion de vecteurs de fonctions matrice de transition fixe.
Dfinition 108. Le vecteur f (t) = [f1 (t) , ..., fn (t)]0 , o t Z est dit matrice de
transition fixe sil existe une matrice A rgulire telle que
f (t) = Af (t 1) pour tout t Z
La mthode du lissage exponentiel gnralis consiste ajuster au voisinage de T de
la srie Xt une fonction (t T ) de la forme
(t) =

n
X

i fi (t) o f (.) est matrice de transition fixe

i=1

Cette classe de fonction (.) comprend la plupart des fonctions usuelles.


(1) Les fonctions constantes - (t) = c, obtenues avec f (t) = 1 et A = 1. Dans ce
cas, on retrouve le principe de lissage exponentiel simple,
(2) Les fonctions linaires - (t) = + t, obtenues avec f (t) = [1, t]0 de matrice
de transition


  


1 0
1
1 0
1
A=
puisque
=
1 1
t1
1 1
t
Dans ce cas, on retrouve le principe de lissage exponentiel double,
(3) Les fonctions polynmiales de degr p - Cette famille est obtenue en prenant
comme base une base de Rp (X) (espace des polynmes de degr infrieur ou gal p).
En particulier, on peut choisir la base


1
Bp = Pk (t) = t (t 1) ... (t k + 1) , k = 1, ..., p + 1
k!
obtenue laide du triangle de Pascal, et dfinie par rcurence par
Pk (t) = Pk1 (t 1) + Pk (t 1) pour k > 1
77

Le vecteur f (t) = [P1 (t) , ..., Pp+1 (t)] est alors de matrice de transition (fixe)

1 0 0
0 0
1 1 0
0 0

0 1 1

0
0

A=
.. ..

.
.

.
.. 1 0
0 0 0
0 0 0
1 1
(4) Les fonctions sinusodales - Les fonctions (t) = sin t+ sin t sont obtenues
en prenant f (t) = [sin t, cos t]0 , et dans ce cas


cos sin
A=
sin cos
(6) Les fonctions exponentielles - Les fonctions (t) = exp (t) sont obtenues
en prenant f (t) = exp (t) et dans ce cas A = exp ().
Cette mthode de lissage se met en place de la faon suivante.
De la mme faon que (14), le programme doptimisation scrit
(T 1
)
X
2
min
j (Xtj f 0 (j) a)
(17)
a

j=0

o la notation f 0 dsigne la transpose de f . Posons

XT
f1 (0)
fn (0)
f 0 (0)


..
..
..
T 1
x = ... , F =
=
et = diag 1, 1/, ..., 1/
.
.
.
X1
f1 (T + 1)
fn (T + 1)
f 0 (T + 1)
Le programme (17) correspond la regression (linaire) de x sur les colonnes de F ,
associe la matrice de covariance . On en dduit que la solution (17) est unique, et
est donne par
1 0
b
a (T ) = F 0 1 F
F y = [M (T )]1 Z (T )
o
0

M (T ) = F F =

T 1
X

f (j) f (j) et Z (T ) = F y =

j=0

T 1
X

j f (j) XT j

j=0

La matrice M (T ) converge vers une matrice finie M quand T + : on peut estimer


b
a (T ) en utilisant cette matrice limite,
b
a (T ) = M 1 Z (T ) avec M (T ) =

X
j=0

Et la prvision horizon h faite la date T est


bT (h) = f 0 (h) b
X
a (T )
78

j f (j) f 0 (j)

5.4.1

Mthode adaptative de mise jour (ordre 1)

Pour cela, notons que


Z (T + 1) = XT +1 f (0) + A1 Z (T )
et on peut alors crire
b
a (T + 1) = XT +1 M 1 f (0) + M 1 A1 Mb
a (T )
que lon peut encore noter

b
a (T + 1) = XT +1 + b
a (T ) o

= M 1 f (0)
= M 1 A1 M

o les matrices et sont indpendantes de T . Cette relation peut se mettre sous la


forme suivante, proche de (11),
h
i
bT (1)
b
a (T + 1) = A0b
a (T ) + XT +1 X

5.5
5.5.1

Les mthodes de Holt-Winters (1960)


Mthode non saisonnire

Cette mthode est une gnralisation de la mthode de lissage exponentiel mais avec un
point de vue diffrent de celui introduit dans le lissage exponentiel gnralis. De la
mme faon que pour le lissage exponentiel double, lajustement se fait de faon linaire
au voinage de T , la nuance se faisant au niveau de formules de mise jour, diffrentes de
(15) :

h
i
b (T + 1) = (1 ) XT +1 + A
b (T ) + B
b (T ) o 0 < < 1
A
h
i
(18)
b (T + 1) = (1 ) A
b (T + 1) A
b (T ) + B
b (T ) o 0 < < 1
B
La premire relation est une moyenne pondre de deux informations sur A (T ), correspondant au niveau de la srie la date T : lobservation XT +1 et la prvision faite en T
b (T ) + B
b (T )). La seconde relation sinterprte comme une moyenne pondre de deux
(A
informations sur B (T ), correspondant la pente de la srie la date T : la diffrence
entre les niveaux estims en T et T + 1, et la pente estime en T .
Toutefois, ces deux relations ne peuvent tre utilise quaprs initialisation, que lon
b (2) = X2 et B
b (2) = X2 X1 . La prvision
fera gnralement de la faon suivante : A
horizon h faite la date T est donne par
bT (h) = A
b (T ) + hB
b (T )
X

79

Cette mthode peut tre vue comme une gnralisation du lissage exponentiel double,
qui ne faisait intervenir quun coefficient, (ou ). Cette dernire mthode correspond
au cas particulier
(1 )2
2
2
= et = 1
=
2
1
1+
Sur lexemple prcdant, on obtient
>
>
>
>
+
>

HW=HoltWinters(X,alpha=.2,beta=0)
P=predict(HW,24,prediction.interval=TRUE)
plot(HW,xlim=range(c(time(X),time(P))))
polygon(c(time(P),rev(time(P))),c(P[,2],rev(P[,3])),
col="yellow",border=NA)
lines(P[,1],col="red",lwd=3)

5.5.2

La mthode saisonnire additive

On suppose ici que la srie (Xt ) peut tre approche au voisinage de T par la srie
Yt = A + (t T ) B + St
o St est un facteur saisonnier. Les formules de mise jour scrire de la faon suivante,
o s est le facteur de saisonnalisation (ou le nombre de saisons : s = 4 pour des donnes
trimestrielles ou s = 12 pour des donnes mensuelles)

h
i
b (T + 1) = (1 ) [XT +1 ST +1s ] + A
b (T ) + B
b (T ) o 0 < < 1 (lissage de la moyenne)

h
i
b
b
b
b (T ) o 0 < < 1
B (T + 1) = (1 ) A (T + 1) A (T ) + B
(lissage de la tedance)

h
i

b (T + 1) + ST +1s o 0 < < 1


SbT +1 = (1 ) XT +1 A
(lissage de la saisonnalit)
et la prvision horizon h (1 h s) scrit
bT (h) = A
b (T ) + hB
b (T ) + SbT +k+s
X
80

La encore, le problme dinitialisation va se poser, et on peut prendre

b (s) = Ms (X1 , ..., Xs ) o Ms est une moyenne pondre

b
A (s + 1) = Ms (X2 , ..., Xs+1 )
b (s + 1) = A
b (s + 1) A
b (s)

b
b (i)
Si = Xi A

5.6

Exemple de mise en pratique des mthodes de lissage

Comme nous allons le voir ici, les mthodes de lissage, afin de faire de la prvision,
peuvent trs facilement tre mises en oeuvre, en particulier sur des tableurs (Excel par
exemple). Nous allons voir comment faire de la prvision sur des donnes comportant de
la saisonnalit, laide des mthodes de lissage exponentiel.
5.6.1

Prsentation des donnes

Les donnes sont mensuelles, et comportent une saisonnalit annuelle,


Pour lisser cette srie, nous avons utilis une moyenne mobile permettant dannuler
une saisonnalit annuelle (priode 12) : M212 . En particulier


1
1 1
Xt6 + Xt5 + Xt4 + ... + Xt + ... + Xt+4 + Xt+5 + Xt+6
M Xt =
12 2
2
et ainsi, sur lexemple ci-dessus, on peut noter que

1 2 797 469
3
2 864 431 =
+ 2 773 701 + 2 735 895 + ... + 2 795 698 + ... + 3 032 833 + 3 075 696 +
12
2
La composante saisonnire est alors obtenue comme diffrence entre la srie brute Xt
et la srie dsaisonnalise M Xt . Cette srie correspond dans le tableau ci-dessus la
variable DIFFERENCE. Par exemple,
92 401 = 3 047 187 2 954 786
On considre alors la diffrence moyenne pour chaque mois :
JAN 1 = 21 [(XJAN 00 M XJAN 00 ) + (XJAN 01 M XJAN 01 )]
FEV 2 = 12 [(XF EV 00 M XF EV 00 ) + (XF EV 01 M XF EV 01 )]
Par exemple, la diffrence moyenne pour Septembre est
9 =

1
(69 692 + 71 120) = 70 406
2

On peut noter que la somme de ces diffrences moyennes i ne vaut pas 0 : on va alors
normaliser les i de faon ce que leur somme soit nulle. On considre alors
12

1 X j
=

12 j=1
i

81

Dans lexemple considre, la somme des i valait 20 865 : aussi, on va dfinir i = i 20


865/12. Cette srie i va alors constituer la composante saisonnire de la srie (Xt ). Par
exemple, la saisonnalit pour le mois de mars est 62 580. Et partir de l, on construit
la srie corrige des variations saisonnires (CV S) comme diffrence entre (Xt ) et la
composante saisonnire du mois correspondant.
Cest partir de cette srie corrige des variations saisonnires que lon va faire de la
prvision. La mthodologie est alors la suivante. On spare la srie initiale (Xt ) de la
faon suivante :
Xt = Zt + t = srie CV S + composante saisonnire
et la prvision sera alors faite en considrant
bt = Zbt + t
X
On extrapole la srie corrige des variations saisonnires (par lissage), et on rajoute ensuite
la composante saisonnire.
5.6.2

Lissage linaire

La mthode la plus simple pour faire de la prvision sur une srie dsaisonnalise est
dutiliser une rgression linaire,
Pour cela, on part des sries de base Xt (srie brute) et Zt (srie corrige des variations
saisonnires). Les sries sur la gauche donne lapproximation linaire. Pour cela, on
rgresse la srie Zt sur les sries I (cest dire la constante) et t (la srie temps), et lon
obtient
APPROX. LINEAIRE : Zt = A + Bt + t avec A = 209.98, B = 4772213
et o t est la sries des erreurs (ERREUR)9 . En particulier

2 858 914 = 4 772 213 + 209.98 36 342 (t = 36 342correspond au 1er juillet 1999)
38 382 = 2 929 423 2 891 041
La composante saisonnire (COMPOSANTE SAISONNIERE) est alors la srie
obtenue dans la partie prcdante, et combine la srie Zbt = A + Bt : on obtient
bt = A + Bt + t . (colonne PREVISION (droite)). Une
la premire prvision de Xt : X
mthode encore plus simple est de considrer comme ajustement de Zt non pas une droite
bt = C + t .
quelconque mais une constante, Zt = C + t , et la prvision de Xt devient X
(colonne PREVISION (constante)). On pourra ainsi obtenir

2 940 601 = 2 871 933 + 68 668 = (4 772 213 + 209.98 36 404) + 68 668
2 870 061 = 2 932 641 62 580
9

Le temps t est exprim, comme sous Excel, en nombre de jours par rapport au 1er janvier 1900.

82

5.6.3

Lissage exponentiel simple

Le lissage exponentiel simple est prsent ci dessous, appliqu la srie corrige des
variations saisonnires. Pour cela, on se fixe au pralable une constante de lissage, par
exemple = 0.7. La srie lisse est alors dfinie parde la faon suivante

St = Zt1 = 2 726 843 pour t = F eb99


St = Zt1 + (1 ) St1 = 0.7 3 005 108 + (1 0.7) 2 953 724 = 2 969 139 pour t > F eb99

St = ST pour t > T = Dec01


Lerreur saisonnire est alors toujours la srie (t ) et la prvision est alors donne par
bt = St + t , soit dans lexemple ci-dessous
X
3 051 423 = 2 925 143 + 126 280
5.6.4

Lissage exponentiel double

Les sries (S) et (S 0 ) sont dfinies rcursivement de la faon suivante



St = Xt1 + (1 ) St1 pour t = 2, ..., n + 1
0
pour t = 2, ..., n + 1
St0 = St1 + (1 ) St1
Les coefficients A et B sont dfinie par
At = 2St St0 et Bt =

[St St0 ]
1

soit sur lexemple ci-dessous


At = 2 2 771 987 2 746 504 = 2 797 469 et Bt =

0.7
(2 882 758 2 842 769)
1 0.7

La srie lissage brut est donne par


At + Bt = 2 877 040 + 18 480 = 2 895 520
La srie de la prvision est alors donne, lorsquil y a n observations, par
 P
Xt = At + Bt pour t = 2, ..., n + 1
P
Xn+h
= An+1 + h.Bn+1 pour h 1

83

Introduction aux modles linaires ARIM A

6.1

A quoi ressemblent les processus (S)ARIMA ?

6.2

Rappels sur les espaces L2

6.2.1

Proprits topologiques

On considre le processus (Xt ) dfinit sur lespace de probabilit (, A, P), valeurs dans
R.
Dfinition 109. LespaceL2 (, A, P) est lespace des variables de carr intgrable
(variances-covariances finies).
De faon plus gnrale (et plus formelle), on dsigne par Lp lespace de Banach des
classes dquivalence (pour lgalit P-presque sre) des fonctions mesurables telles que
1/p
R
soit finie.
kf kp = |f |p dP
Proposition 110. L2 est un espace de Hilbert, muni du produit scalaire h, i et la norme
associekk

hX, Y i = E (XY )
kXk2 = hX, Xi = E (X 2 ) = V (X) + E (X)2 .
Par dfinition de la covariance, on peut noter que, si X et Y sont centre, hX, Y i =
E (XY ) = cov (X, Y ).
Thorme 111. Thorme de projection Si H est un sous espace ferm de L2 , pour toute
variable Y L2 , il existe une unique variable alatoire Yb H tel que




b
Y Y = min kY Hk ,
HH

caractris par Yb H et Y Yb H . On notera aussi H (Y ).


Remarque 112. Xn converge vers X au sens de L2 si

lim EXn = EX
lim kXn Xk = 0, cest dire
lim V (Xn X) = 0
n
P
On peut alors dfinir la variable alatoire Y = nZ an Xn comme limite, dans L2 de Yp,q
Yp,q =

q
X
n=p

an Xn et Y =

lim Yp,q =

p,q+

84

X
nZ

an X n .

6.2.2

Rappel sur les vecteurs et processus gaussiens

Pour un vecteur alatoire Z = (Z1 , ..., Zd )0 , on dfinit son esprance par E (Z) =
(E (Z1 ) , ..., E (Zd ))0 et sa matrice
de variance-covariance (si elles existent) par V (Z) =

E (Z E (Z)) (Z E (Z))0 . Cette matrice est hermitienne positive. De plus, si A est
la matrice dun application linaire de Rd dans Rp , le vecteur AZ admet pour esprance
AE (Z) et pour matrice de variance-covariance AV (Z) A0 .
Dfinition 113. Le vecteur X = (X1 , ..., Xd ) est un vecteur gaussien si toute combinaison
des Xi est une variable gaussienne, i.e. pour tout a Rd , aX est une variable gaussienne.
Sa densit scrit alors


1
1
0 1
exp (x ) (x ) ,
f (x) =

2
(2)d/2 det
o Rd et est une matrice hermitienne positive d d.
Si X est un vecteur gaussien, son moment lordre p existe et de plus, E (X) = et
V (X) = .
Dfinition 114. Le processus (Xt ) est un processus gaussien si tout systme fini extrait
est un vecteur alatoire gaussien, i.e. pour tout n, pour tout t1 , ..., tn , (Xt1 , ..., Xtn ) est un
vecteur gaussien.
6.2.3

Rgression affine dans L2

Rgression sur un nombre fini de variables


La rgression linaire thorique de Y sur X1 , ..., Xn est la projection orthogonale dans
2
L (, A, P) de X sur H = V ect(X1 , ..., Xn ), et la rgression affine thorique de Y sur
X1 , ..., Xn est la projection orthogonale dans L2 (, A, P) de Y sur H = V ect(I, X1 , ..., Xn ).
On note alors
Yb = EL (Y |I, X1 , ..., Xn ) = H (Y )
o EL (.|.) dsigne lesprance linaire. Cette variable est la meilleure approximation (au
sens de L2 ) de Y par une combinaison linaire de I, X1 , ..., Xn ,
Proposition 115. Soit
[cov (Xi , Xj )]i,j=0,1,...,n . Alors

le

vecteur

[cov (X, Xi )]i=0,1,...,n

et

b = EL (X|I, X1 , ..., Xn ) = a0 + a1 X1 + ... + an Xn ,


X
o a = (a0 , a1 , ..., an ) vrifie a = 1 .
b peut scrire 0 + 1 X1 + ... + n Xn car X
b H, et vrifie
Proof. X
D
E
b I =0
X X,
D
E
b Xi = 0 pour i = 1, ..., n,
X X,
85

la

matrice

b H , cest dire
car X X


 
b = 0 soit E (X) = E X
b
E X X
h
i 
b Xi = 0 pour i = 1, ..., n.
E X X
Do

 
b = 0 + 1 E (X1 ) + ... + n E (Xn )
E (X) = E X
(1)


b i = 0 E (Xi ) + 1 E (X1 Xi ) + ... + n E (Xn Xi ) (2)
E (XXi ) = E XX
(1) donne 0 = E (X) 1 E (X1 ) ... n E (Xn ) et par substitution dans (2),
E (XXi ) = E (X) E (Xi ) (1 E (X1 ) + ... + n E (Xn )) E (Xi )
+1 E (X1 Xi ) + ... + n E (Xn Xi )
donc, pour i = 1, ..., n
cov (XXi ) = 1 cov (X1 Xi ) + ... + n cov (Xn Xi ) ,
ce qui donne le systme

cov (XX1 ) = 1 cov (X1 X1 ) + ... + n cov (Xn X1 )

cov (XX2 ) = 1 cov (X1 X2 ) + ... + n cov (Xn X2 )


...

cov (XXn ) = 1 cov (X1 Xn ) + ... + n cov (Xn Xn ) ,


qui scrit sous forme matricielle
= .

Remarque 116. On peut noter que EL (X|I, X1 , ..., Xn ) = EL (X|X1 , ..., Xn ) si et seulement si E (X) = 0 et E (Xj ) = 0 pour j = 1, 2, ..., n.
Rgression sur un nombre infini de variables ? ? ?
On considre cette fois ci X1 , ..., Xn , ... des variables de L2 , et X0 = I L2 .
Soit H ladhrance de lespace engendr par les combinaisons linaires des Xi :
H =L (I, X1 , ..., Xn , ...).
bn = EL (X|I, X1 , ..., Xn ). La projection sur H est alors la limite
On considre alors X
bn
(dans L2 ) des variables X
b = lim EL (X|I, X1 , ..., Xn ) .
X
n

86

6.2.4

La notion dinnovation

Oprateur de projection linaire


Etant donnes une variable alatoire Y et une famille de variables alatoires
{X1 , ..., Xn }, on dfinit loprateur de projection linaire de la faon suivante :
(Y | {X1 , ..., Xn }) = 1 X1 + ... + n Xn ,
o les i sont les solutions du programme doptimisation
(1 , ..., n ) = arg min {V ar [Y (a1 X1 + ... + an Xn )]} .
a1 ,...,an

En dautres termes, (Y | {X1 , ..., Xn }) est la meilleure prvision linaire de Y base sur
{X1 , ..., Xn }, au sens o la variance de lerreur sera minimale. On peut noter que cet
oprateur est linaire, au sens o
(.Y + .Z| {X1 , ..., Xn }) = . (Y | {X1 , ..., Xn }) + . (Z| {X1 , ..., Xn }) .
De plus, lerreur de prvision Y (Y | {X1 , ..., Xn }) est non corrle avec toute fonction
linaire des X1 , ..., Xn . Enfin, si cov (X1 , X2 ) = 0, alors (Y | {X1 , X2 }) = (Y | {X1 }) +
(Y | {X2 }).
Il est possible de projeter sur une suite infinie de variables alatoires {X1 , ..., Xn , ...},
en notant
(Y | {X1 , ..., Xn , ...}) = lim (Y | {X1 , ..., Xk }) .
k

Cette limite existant pour toute suite de variables alatoires | {X1 , ..., Xn , ...} .
Prvision linaire
Dfinition 117. Soit (Xt )tZ un processus de L2 . On appelle meilleur prvision
linaire de Xt sachant son pass la regression linaire (thorique) de Xt sur son pass
H =V ect (I, Xt1 , Xt2 , ...), et sera note EL (Xt |I, Xt1 , Xt2 , ...).
Dfinition 118. Le processus dinnovation du processus (Xt ) est le processus (t ) dfini
par
t = Xt EL (Xt |I, Xt1 , Xt2 , ...) .
Proposition 119. Soit (Yt ) un bruit blanc BB (0, 2 ), le processus stationnaire (Xt )
dfinit par10
Xt = Yt Yt1 pour || < 1,
alors
EL (Xt |I, Xt1 , Xt2 , ...) =

i Xti

i=1

et le processus dinnovation est (Yt ) .


10

Ceci correspond un processus M A (1), dont la racine est lintrieur du cercle unit.

87

Proof. Le processus (Xt ) est stationnaire en tant que moyenne mobile de bruit blanc.
Dfinissons alors
n
X
St,n =
i Xti .
i=1

A t fix, la suite (St,n ) est une suite de Cauchy dans L2 puisque




n
n

X
X
i


i
,
Xti kXt k
kSt,n St,m k =


i=m+1

i=m+1

qui tend
0 quand m et n tendent vers linfini. (St,n ) converge donc dans L2 vers
P vers
St = i=1 i Xti , lment de V ect (I, Xt1 , Xt2 , ...).
Or Xt = Yt Yt1 , donc Xt + Sn,t = Yt + n+1 Ytn1 et donc
Xt +

i Xti = Yt ,

i=1

puisque kn+1 Ytn1 k 2 ||n+1 0 quand n , do Xt = St + Yt .


Or hXs , Yt i = 0 pour tout s < t, hI, Yt i = 0 et St V ect (I, Xt1 , Xt2 , ...), donc
St = EL (Xt |I, Xt1 , Xt2 , ...) et (t ) est le processus dinnovation.
Remarque 120. Soit (Yt ) un bruit blanc BB (0, 2 ), le processus stationnaire (Xt ) satisfaisant
Xt Xt1 = Yt , avec || > 1,
Comme nous le verrons par la suite (proprit (??)) le processus Yt ainsi dfini ne correspond pas linnovation du processus Xt . Il est possible de montrer (en utilisant la
densit spectrale) que le processus t dfinit par t = Xt 1 Xt1 est effectivement un
bruit blanc. En fait, (t ) correspond au processus dinnovation associ au processus (Xt ).
Du fait de cette dfinition, linnovation possde un certain nombre de proprits
Comme on peut le voir sur le schma ci-dessus, si t est linnovation, alors elle est
orthogonale au pass de Xt cest dire que

E (t Xt1 ) = E (t Xt2 ) = ... = E (t Xth ) = ... = 0
mais E (t Xt ) 6= 0.
De plus, on aura galement que t+k sera galement orthonogonale au pass de Xt , pour
k 0,
E (t+k Xt1 ) = E (t+k Xt2 ) = ... = E (t+k Xth ) = ... = 0.
Remarque 121. De faon rigoureuse, il conviendrait dintroduite la notion de processus rgulier : on dira que le processus stationnaire (Xt ), centr, est rgulier sil existe un bruit blanc (t ) tel que, pour tout t Z, ladhrance des passs (linaires)
t
t
HX
= V ect (I, Xt1 , Xt2 , ...) et Ht = V ect (I, t1 , t2 , ...) concident : HX
= Ht . On
88

peut alors montrer si (Xt ) est un processus stationnaire rgulier, et si (t ) est un bruit
blanc tel que, chaque date t les passs concident, alors on a la dcomposition
t1
t
= HX
Rt , pour tout t,
HX

o dsigne une somme directe orthogonale, et le processus bruit blanc est alors unique :
il est appel innovation du processus (Xt ) . Le fait que les deux espaces concident implique,
en particulier, que si (t ) est linnovation du processus (Xt ) alors
EL (XT +k |XT , XT 1 , ....) = EL (XT +h |T , T 1 , ...) .
Complments laide des espaces H Etant donn un processus (Xt ), on notera
H (X) le sous-espace de Hilbert de L2 correspondant ladhrance, dans L2 , de lespace
des combinaisons linaires finies dlments de (Xt ). On notera HT (X) le sous-espace de
Hilbert de L2 correspondant ladhrance, dans L2 , de lespace des combinaisons linaires
finies dlments de (Xt ) avec t T .
Dfinition 122. On appelle processus dinnovation la suite t = Xt Ht1 (X) (Xt ).
Ce processus est alors une suite orthogonale (pour le produit scalaire h, i), et on a
linclusion Ht1 () Ht1 (X).

6.3
6.3.1

Polynmes doprateurs retard L et avance F


Rappels sur les oprateurs retards

Nous avions dfini prcdemment loprateur retard L par L : Xt 7 L (Xt ) = LXt =


Xt1 et loprateur avance F par F : Xt 7 F (Xt ) = F Xt = Xt+1 . On notera alors
Lp = |L L {z
... L} o p N,
p fois

avec la convention L = I et L
6.3.2

= F . Et de faon analogue, Lp = F p pour p N.

Inversibilit des polynmes P (L) ? ? ?

Soit A () un polynme, on cherche B () tel que A () B () = B () A () = 1.


inversibilit de P (L) = 1 L
Proposition 123. (i) Si || < 1 alors 1 L est inversible, et de plus,
1

(1 L)

k Lk .

k=0

(ii) Si || > 1 alors 1 L est inversible, et de plus,


1

(1 L)

X
1 k
=
F .
k
k=1

(iii) Si || = 1, alors 1 L nest pas inversible.


89

Proof. (i) Si || < 1 alors


1

(1 )

+
X

k =

k=0

donc A(L) =

P+

k=0

1
< +,
1

k Lk est bien dfini. De plus:

(1 L)A(L) = lim (1 L)
k+

k
X
j=0

!
j

= lim 1 k+1 Lk+1 = 1,


k+

ce qui signifie que A est le polynme inverse associ (1 L). 



(ii) De faon analogue, si || > 1 alors 1 L = L 1 = L 1 F . On a
alors :


1 X
+
1
1
F
1 k
1
<1
car
F
=
(L) = F et 1

k

k=0
En combinant ces deux rsultats :
(1 L)1

1

F
1
1
= F
= (L)
1

+
X
1 k
F
k

k=0

+
1
X
X
1 k
=
k Lk ,
F =
k

k=1
k=

ce qui correspond au rsultat souhait.


P
P
(iii) En effet, il nexiste par de polynme A(L) = kZ ak Lk ,
kZ |ak | < + tel
que (1 L)A(L) = 1. En effet, s un tel polynme existait,
(1 L)A(L) = 1 |ak | = |ak1 | 9 0 quand k ,
et donc

kZ

|ak | = +.

Exemple 124. Soit (Xt ) et (Yt ) deux processus stationnaires tels que Yt = Xt Xt1 =
(1 L) Xt , o < 1. Cette relation sinverse en
Xt = (1 L)1 Yt = Yt + Yt1 + ... + k Ytk + ...
Exemple 125. Dans le cas o = 1 (racine unit) on se retrouve en prsnce dune
marche alatoire Yt = Xt Xt1 (non stationnaire).
inversibilit des polynmes en L
Tout polynme A (L) = 1+a1 L+...+an Ln (normalis tel que A (0) = 1), peut scrire
A (z) = an (z z1 ) (z z2 ) ... (z zn ) ,
correspondant la dcomposition en lments simples (zi = racines du polynme). On
peut crire
n
Y
1
(1 i L) o i =
A (L) =
zi
i=1
90

Proposition 126. Si pour tout i, |i | =


6 1, alors A (L) est inversible. Pour cela, notons
Y
Y
Y
Y 
1
A (L) =
(1 i L) =
(1 i L)
1 F
(i L),
i
|i |<1
|i |>1
|i |>1
|
{z
}|
{z
}|
{z
}
A1 (L)

A2 (L)

A3 (L)

puisque (1 i L) = i L (1 F/i ), et alors, linverse de A (L) est donn par A (L)1


Y
A (L)1 =
(1 i L)1 = A1 (L)1 A2 (L)1 A3 (L)1
i.e.
Y

A (L)1 =

(1 i L)1

|i |<1

Y 

|i |>1
P

{z

k Lk

}|

1
F
i

1

{z

i F n ,

|i |>1

k F k

o n = card {i, |i | > 1}.


P
k
1
1
=
Proof.
En
effet,
i,
(1

L)
est
bien
dfini,
de
la
forme
i
kZ ai,k L et A(L)
Qp
1
1
est donc aussi dfini. Toutefois, A(L) peut contenir des termes en
i=1 (1 i L)
k
L , k > 0 qui sont des termes concernant le futur
P
k k
Si |i | < 1 pour tout i alors (1 i L)1 = +
k=0 i L et :
1

A(L)

p
+
Y
X
1
=
ak L k
(1 i L) =
i=1

+
X

|ak | < +.

k=0

k=0

Par ailleurs,
p
Y
A(z) =
(1 i z)

et A(z)A(z)1

p
+
Y
X
=1
(1 i z)
ak z k

i=1

i=1

!
= 1,

k=0

de telle sorte que A(0)A(0)1 = 1 a0 = 1 a0 = 1. Sil existe i tel que i C\R alors
A(L) = (1 i )(1 i )P (L) et
! +
! +
+
+
X
X
X
X
1
1
k k
k k
k

(1i ) (1i ) =
i L
i L =
k L k R, 0 = 1,
|ak | < +.
k=0

k=0

k=0

k=0

Remarque 127. Si des racines sont infrieures 1 (en module), cette dcomposition fait
intervenir le futur de la variable.
PourQ
dterminer, en pratique, linverse dun polynme A (L), supposons quil scrive
A(L) = pj=1 (1 j L), de telle sorte que
!
p
+
Y
X
A(L)1 =
kj Lk
j=1

91

k=0

On peut utiliser directement cette mthode de calcul pour p petit (p = 1, 2) mais elle
savre fastidieuse en gnral. On note,
!
!
+
+
X
X
A(L)
ak Lk = (1 + 1 L + + p Lp )
ak Lk = 1
k=0

k=0

Les ak sont obtenus par rcurrence puis identification.


(L)1 =

p
Y

1
1 j L
j=1

On dcompose alors cette fraction rationnelle en lments simples, 1 = (z)Qr (z) +


z r+1 Rr (z) avec limr+ Qr (z) = A1 (z).

6.4

Fonction et matrices autocorrlations

Pour rappels, un processus (Xt ) est stationnaire (au second ordre) si pour tout t, E (Xt2 ) <
+, pour tout t, E (Xt ) = , constante indpendante de t et, pour tout t et pour tout h,
cov (Xt , Xt+h ) = (h), indpendante de t.
6.4.1

Autocovariance et autocorrlation

Pour une srie stationnaire (Xt ), on dfini la fonction dautocovariance h 7 X (h) =


cov (Xt Xth ) pour tout t, et on dfini la fonction dautocorrlation h 7 X (h) =
X (h) /X (0) pour tout t, soit
X (h)
cov (Xt , Xth )
p
=
X (h) = corr (Xt , Xth ) = p
X (0)
V (Xt ) V (Xth )
Dfinition 128. On appelera matrice dautocorrlation du vecteur (Xt , Xt1 , ..., Xth+1 )

1
(1)
(2)
(h 1)
(1)
1
(1)
(h 2)

...
(2)
(1)
1
(h 3)

R (h) =
..
..
..

.
.
.

...

1
(1)
(h 1) (h 2) (h 3)
(1)
1
i.e.

R (h) =


(h 1)


..
R (h 1)

(1)


(h 1) (1)
1
92

On peut noter que det R (h) 0 pour tout h N\ {0}. Cette proprit implique
un certain nombre de contraintes sur les X (i). Par example, la relation det R (2) 0
implique la contrainte suivante sur le couple ( (1) , (2)) :


[1 (2)] 1 + (2) 2 (1)2 0,
ce qui fait quil ne peut
y avoir de chute brutale de (1) (2) : il est impossible davoir
(2) = 0 si (1) 1/ 2.
Ces fonctions sont estimes, pour un chantillon X1 , ..., XT , de la faon suivante :
T h

1 X

b (h)

b (h) =
Xt Xth et b (h) =
,
T h t=1

b (0)
(quand le processus est centr, sinon, il faut considrer (Xt ) (Xth )).
> X=rnrom(100)
> as.vector(acf(X))
Autocorrelations of series X, by lag
0
1
2
3
4
5
6
1.000 -0.004 -0.027 -0.107 -0.113 -0.093 -0.125

6.4.2

7
0.065

8
0.043

9
0.026

Autocorrlations partielles

Les deux prcdentes mesures de dpendence entre Xt et Xt+h ne faisaient intervenir


que les variables Xt et Xt+h . Nous allons introduire ici une notion faisant intervenir les
variables intermdiaires. Nous supposerons, sans perte de gnralit que le processus (Xt )
est centr : E (Xt ) = 0 pour tout t.
Dfinition 129. Pour une srie stationnaire (Xt ), on dfini la fonction dautocorrlation
partielle h 7 X (h) par


b
b
X (h) = corr Xt , Xth ,
o

bth = Xth EL (Xth |Xt1 , ..., Xth+1 )


X
bt = Xt EL (Xt |Xt1 , ..., Xth+1 ) .
X

On regarde ici la projection (ou lesprance linaire) les deux valeurs extrmes Xt et
Xth sur lensemble des valeurs intermdiaires t1
h1 = {Xt1 , ..., Xth+1 }. Cette projection peut scrire, dans le cas de Xt
EL (Xt |Xt1 , ..., Xth+1 ) = a1 (h 1) Xt1 + a2 (h 1) Xt2 + ... + ah1 (h 1) Xth+1 .
On peut aussi crire, en rajoutant Xth , et en projetant ainsi sur t1
h ,
EL (Xt |Xt1 , ..., Xth ) = a1 (h) Xt1 + a2 (h) Xt2 + ... + ah1 (h) Xth+1 + ah (h) Xth .
(19)
93

Il est alors possible de montrer que


EL (Xt |Xt1 , ..., Xth+1 ) = a1 (h 1) Xt1 + a2 (h 1) Xt2 + ...
+ah1 (h 1) EL (Xth |Xt1 , ..., Xth+1 ) .
On a alors
h1
X

ai (h 1) Xti =

i=1

h1
X

ai (h) Xti + ah (h)

i=1

h1
X

ahi (h 1) Xti .

i=1

Aussi, on a le rsultat suivant, permettant dobtenir les coefficients de faon rcursive


Proposition 130. Pour j = 1, ..., h 1
aj (h) = aj (h 1) ah (h) + ahj (h 1)

(20)

Toutefois, cette mthode rcursive nest possible qu condition de connatre ah (h).


Pour cela, on peut utiliser le rsultat suivant,
Lemme 131. En notant i le coefficient dautocorrlation, i = corr (Xt , Xti ), alors
ah (h) =

(h)
1

Ph1

Pi=1
h1
i=1

(h i) ai (h 1)
(i) ai (h 1)

(21)

Proof. De (19), on peut dduire


(h) = (h 1) a1 (h) + ... + (1) ah1 (h) + ah (h) , puisque (0) = 0,
cest dire
ah (h) = (h) [ (h 1) a1 (h) + ... + (1) ah1 (h)] = (h)

h1
X

(h i) ai (h) .

i=1

En utilisant (20), on peut crire


" h1
#
h1
X
X
ah (h) = (h)
(h i) ai (h 1) ah (h) .
(i) ai (h 1) .
i=1

i=1

On peut dailleurs noter que lon a la relation suivante

a1 (h)
(1)

1
..
.
a (h) =
= R (h) .. .
.
ah (h)
(h)
94

Dfinition 132. Lalgorithme rcursif bas sur (20), (21) et la condition initiale a1 (1) =
(1) est appel algorithme de Durbin.
De (20) on peut en dduire en particulier que
a1 (h) = a1 (h 1) + ah (h) ah1 (h 1) ,
et de (21) , que pour h 2,
ah (h) =

(1) ah1 (h 1)
.
1 (1) a1 (h 1)

Ces deux quation permettent dobtenir rcursivement les deux coefficients extrmes a1 (h)
et ah (h) pour tout h.
Proposition 133. Soit (Xt ) un processus stationnaire, alors X (0) = 1, et, pour h 1,
X (h) est le coefficient relatif Xth dans la projection de Xt sur Xt1 , ..., Xth+1 , Xth ,
soit ah (h).
Proof. Cette proprit sobtient en notant que
EL (Xt |Xt1 , ..., Xth )EL (Xt |Xt1 , ..., Xth+1 ) = ah (h) [Xth EL (Xth |Xt1 , ..., Xth+1 )] .

Thorme 134. Il est quivalent de connatre la fonction dautocorrlation (X (h)) ou


la fonction dautocorrlation partielle (X (h)).
Proof. (i) Lalgorithme de Durbin a montr que la connaissance des X (h) permet de
construire de faon rcursive les fonctions X (h).
(ii) Rciproquement, la relation inverse sobtient par rcurence, en notant que a1 (1) =
X (1) = X (1), et que

a1 (h)
(h 1)
(1)

..
..
..
R (h 1)
+
ah (h) =
,
.
.
.
ah1 (h)
(1)
(h 1)
et

a1 (h)



..
(h 1) (1)
+ ah (h) = (h) .
.
ah1 (h)

Exemple 135. En particulier, on peut noter que




X (2) X (1)2

X (1) = X (1) et X (2) = 
1 X (1)2
95

Une autre formulation consiste dire que la fonction dautocorrlation partielle mesure
la corrlation entre Xt et Xth une fois retire linfluence des variables antrieures Xth .
En reprenant les notations de la partie prcdante,

1
(1)
(2)
(h 3) (h 2) (h 1)
(1)
1
(1)
(h 4) (h 3) (h 2)

..
. (h 5) (h 4) (h 3)
(2)
(1)
1

...
...
...

R (h) =

.
.
(h 3) (h 4) (h 5)
.
1
(1)
(2)

(h 2) (h 3) (h 4)
(1)
1
(1)
(h 1) (h 2) (h 3)
(2)
(1)
1
et on introduit de faon analogue la matrice R (h) obtenue
colonne de R (h) par le vecteur [ (1) , ..., (h)]0 ,

1
(1)
(2)
(h 3)
(1)
1
(1)
(h 4)

...
(2)
(1)
1
(h 5)

..
.
.

..
..
R (h) =
.

(h 3) (h 4) (h 5) . . .
1

(h 2) (h 3) (h 4)
(1)
(h 1) (h 2) (h 3)
(2)

en remplaant la dernire
(h 2)
(h 3)

(1)
(2)

(h 4)
(3)

(1)
(h 2)

1
(h 1)
(1)
(h)

Il est alors possible de montrer simplement que


X (h) =

|R (h)|
pour tout h.
|R (h)|

> X=rnorm(100)
> as.vector(pacf(X))
Partial autocorrelations of series X, by lag
1
2
3
4
5
6
-0.004 -0.027 -0.108 -0.116 -0.105 -0.153

6.4.3

7
8
9
0.023 -0.002 -0.025

Densit spectrale ? ? ?

Comme nous lavon dj mentionn, il est quivalent de connatre la fonction


dautocorrlation et la densit spectrale du processus.
Proposition
136. Soit (Xt ) un processus
la forme Xt = m +
P+
P+ stationnaire de P
j=0 aj tj o (t ) est un bruit blanc et
j=0 |aj | < +, alors
hZ |X (h)| < +.

96

Proof.
X
hZ




X X

|X (h)| =
aj ak (h + j k) .



hZ

j,k

Or, comme (t ) est un bruit blanc,



(h + j k) =

0 si h + j k 6= 0
2 si h + j k = 0,

et donc,
X
hZ



!2

X X
X
X

|X (h)| =
aj ah+j 2
|aj | |ah+j | = 2
aj
< +.
2


hZ

h,j

Proposition 137. La densit spectrale du processus (Xt ) est dfinie par


fX () =

1 X
1 X
X (h) exp(ih) =
X (h) cos(h).
2 hZ
2 hZ

Proof. En effet,
#
"
X
X
1
X (h)eih
fX () =
X (h)eih +
X (0) +
2
h<0
h>0

X
X
1

=
X (h)eih +
X (h) eih
X (0) +
| {z }
2
h>0

h>0

=X (h)

#
"
X
X
1
1

X (h) (eih + eih ) =


X (h) cos(h)
X (0) +
=
X (0) +
|
{z
}
2
2
h>0
h6=0
=2 cos(h)

1 X
=
X (h) cos(h).
2 hZ

On peut dailleurs noter que si (t ) est un bruit blanc de variance 2 , on a alors


(t ) BB(0, 2 ) f () =

.
2

Proposition 138. Avec les notations prcdentes, on a le thorme dinjectivit suivant,


Z
Z
ih
h Z, X (h) =
fX ()e
d =
fX () cos(h)d.
[;]

[;]

97

Proof. En effet,
Z
fX ()eih d =

1
2

[;]

[;]

eih d

X (k)eik

kZ

Z

1 X
i(kh)
=
X (k)
e
d (daprs Fubini)
2 kZ
[;]
{z
}
|
0 si k 6= h
=
2 si k = h
= X (h).
Proposition 139. Soient (t ) un bruit blanc, et considrons les processus (Xt ) et (Yt )
dfinis par
X
X
X
X
bk Xtk o
|aj | ,
|bj | < +,
aj tj et Yt =
Xt =
jZ

alors Yt =

kZ

kZ ck tk ,

et de plus,

2
X


ik
fY () = fX ()
bk e .


kZ

Proof. Il suffit de noter que


!
Yt =

bk Xtk =

kZ

bk

kZ

aj tkj

jZ

aj bk t(k+j)

j,kZ

!
=

aj bhj th =

j,hZ

X X

aj bhj th .

jZ

hZ

{z

=ck

et de plus, la densit spectrale scrit


!
X X
1 X
1
fY () =
Y (h)eih =
bj bk X (h + j k) eih
2 hZ
2 hZ j,kZ
1 X
=
bj bk X (h + j k)ei(h+jk) eij eik
2 h,j,kZ
!
!
!
X
X
1 X
=
X (l)eil
bj eij
bk eik
2 lZ
jZ
kZ

2
X



= fX ()
bk eik .


kZ

98

6.4.4

Autocorrlations inverses ? ? ?

Cette notion a t introduite en 1972 par Cleveland, et Chatfield en a prcis les principales charactristiques en 1979. Etant donn un processus (Xt ) stationnaire, de fonction
dautocovariance X et de densit spectrale fX , il se peut que 1/fX soit interprtable
comme une densit spectrale (par exemple ds lors que 1/fX est continue).
Dfinition 140. La fonction dautocovariance inverse iX est la fonction
dautocovariance associe au spectre inverse 1/f ,
Z +
1
1
1 X
iX (h) =
exp (ih) d ou
=
iX (h) exp (ih) .
fX ()
2 hZ
fX ()
De la mme faon que prcdement, on peut alors dfinir une autocorrlation inverse,
Dfinition 141. La fonction dautocorrlation inverse iX est dfinie par,
i (h) =

iX (h)
.
iX (0)

Considrons une srie (Xt ) stationnaire, de processus dautocovariance (h) pour


h Z. On dfinit alors la fonction gnratrice dautocovariance comme le polynme
(doprateurs retards) suivant
1

(L) = ... + (1) L

+ (0) I + (1) L + (2) L + ... =

+
X

(k) Lk ,

k=

et de faon similaire, on peut dfinir la fonction gnratrice dautocorrlation. La fonction


gnratrice dautocovariance inverse, note i (L) est dfini par i (L) (L) = I et est telle
que
1

i (L) = ... + i (1) L

+ i (0) I + i (1) L + i (2) L + ... =

+
X

i (k) Lk = (L)1

k=

Exemple 142. Dans le cas dun processus dit ARM A (p, q) (voir partie (6.7)), dfinit par
une relation de la forme (L) Xt = (L) t o t est un bruit blanc, et o et sont
respectivement des polynmes de degr p et q. La fonction gnratrice dautocovariance
inverse est donne par
i (L) =

(L) (L1 ) 1
.
o 2 est la variance du bruit blanc t
(L) (L1 ) 2

Dans le cas o la composante moyenne mobile nexiste pas ( = I, on parle alors de


processus AR (p)),on peut alors en dduire simplement que lautocovariance inverse est
donne par
Pph
j=0 j j+h
i (h) = Pp
pour h p et i (h) = 0 pour h p
2
j=0 j
99

avec la convention 0 = 1. Aussi, pour les processus AR (p), les autocorrlations inverses
sannulent au del du retard p (de la mme faon que les autocorrlations partielles).
Bhansali a montr en 1980 que pour un bruit blanc, les autocorrlations inverses empiriques suivent un bruit blanc de loi normale de moyenne nulle et de variance 1/n.
Ainsi, la significativit des coefficients
dautocorrlation inverse peut tre teste, au seuil
de 5%, en la comparant avec 1.96/ n.
Il est galement possible de dfinir les autocorrlations partielles inverses (en utilisant
une construction analogue celle dveloppe dans la partie prcdante, en remplaant les
par les i). Comme la montr Bhansali (1980 1983) et Cleveland et Parzen, les
autocorrlations partielles inverses peuvent tre obtenus laide de mthodes rcursives
(proches de celle de Durbin).
Remarque 143. On peut noter la correspondance suivante
autocorrlations
l
autocorrlations
partielles inverses

autocorrlations
partielles
l
autocorrlations
inverses

En fait, comme nous le verrons par la suite, sur lidentification des modles ARM A, les
autocorrlations permettent de dtecter (entre autres) si une srie est intgre, et sil faut
la diffrencier, alors que les autocorrlations partielles permettent de vrifier que la srie
na pas t surdiffrencie.
Les autocorrlations et les autocorrlations inverses i sont identiques si et seulement
si X est un bruit blanc
6.4.5

Complment : autocorrlogrammes de fonctions dterministes

Nous allons rappeler ici les formes des autocorrlogrammes, et des autocorrlogrammes
partiels de sries non-stationnaires, et dterministes.
Exemple 144. Fonction linaire Xt = a + bt

Exemple 145. Fonction puissance Xt = (1 + r)t


100

Exemple 146. Fonction logarithmique Xt = log (t)

Exemple 147. Fonction sinusodale Xt = sin (t/12)

6.5

Les processus autorgressifs : AR (p)

Dfinition 148. On appelle processus autoregressif dordre p, not AR (p), un processus


stationnaire (Xt ) vrifiant une relation du type
Xt

p
X

i Xti = t pour tout t Z,

(22)

i=1

o les i sont des rels et (t ) est un bruit blanc de variance 2 . (22) est quivalent
lcriture
(L) Xt = t o (L) = I 1 L ... p Lp
Il convient de faire toutefois attention aux signes, certains ouvrages ou logiciels considrant des polynmes de la forme I + 1 L + ... + p Lp .

101

Remarque 149. En toute gnralit, un processus AR (p) vrifie une relation de la forme
(L) Xt = + t o est un terme constant. De cette forme gnrale, il est possible
de se ramener (22) par une simple translation : il suffit de consider non pas Xt mais
Yt = Xt m o m = / (1). En effet, (L) (Yt + m) = + t peut se rcire (L) Yt +
(1) m = + t cest dire (L) Yt = t . m correspond ici lesprance de (Xt ).
6.5.1

Rcriture de la forme AR (p)

Comme nous lavons vu dans la partie (6.3.2), si lon souhaite inverser un polynme (en
loccurence, prsenter Xt comme une fonction des t ), il convient de regarder les racines
du polynme , en particulier leur position par rapport 1 (en module). Comme nous
allons le voir dans cette partie, il est possible, lorsque les racines de sont de module
diffrent de 1, quil est toujours possible de supposer les racines de module suprieur 1,
quitte changer la forme du bruit blanc.
Ecriture sous la forme M A() quand les racines de sont de module strictement suprieur 1 On suppose (L)Xt = + t o (L) = 1 (1 L + + p L)
et aussi que |z| 1 (z) 6= 0 (de telle sorte que les racines de sont de module
strictement suprieur 1 ). Daprs les rsultats noncs dans la partie sur les polynmes
doprateurs retards, (Xt ) admet une reprsentation M A() i.e.
Xt = m +

+
X

ak tk

o a0 = 1, ak R,

k=0

+
X

|ak | < +.

k=0
1

On sait que (L)(Xt m) = t , donc Xt m = (L) (t ).


=
L(t ), o L(Xt )
=
Proposition 150. Sous ces hypothses, L(Xt )
L(1, Xt , Xt1 , . . . , Xtp , . . . ) et L(t ) = L(1, t , t1 , . . . , tp , . . . ), et de plus (t )
est linnovation de (Xt ) .
P
Proof. (i) Xt = + 1 Xt1 + + p Xtp + t , qui peut se rcrire Xt = + +
k=0 at tk
donc Xt L(t ) = L(1, t , t1 , . . . , tk , . . . ). Donc k 0, Xtk L(tk ) L(t ) On
en dduit que L(1, Xt , Xt1 , . . . , Xtk , . . . ) L(t ) et donc L(Xt ) L(t ). Le second
espace tant ferm, on en dduit que L(Xt ) L(t ).
De la mme faon et comme t = Xt (+1 Xt1 + +p Xtp ), in obtient linclusion
rciproque et finalement L(Xt ) = L(t ).
bt , o
(ii) Linnovation de (Xt ) vaut, par dfinition, Xt X
bt = EL(Xt |Xt1 ) = EL(Xt |1, Xt1 , . . . , Xtk , . . . )
X
= EL( + 1 Xt1 + + p Xtp + t |Xt1 ) = + 1 Xt1 + + p Xtp + EL(t |Xt1 ).
|
{z
}
L(Xt1 )

Comme L(Xt1 ) = L(t1 ), on a EL(t |Xt1 ) = EL(t |t1 ) = 0 car (t ) est un bruit
bt = + 1 Xt1 + + p Xtp et Xt X
bt = t : (t ) est bien
blanc. Finalement X
linnovation de (Xt ).
102

Si (Xt ) est un processus AR (p), (L)Xt = + t o les racines de sont lextrieur


du disque unit, on dit que la reprsentation (L)Xt = + t est la reprsentation
canonique de (Xt ).
Ecriture sous la forme M A() quand certaines racines de sont de module
strictement infrieur 1 On suppose que le processus (Xt ) scrit (L)Xt = + t
avec

p
Y
Y
Y
(1 j L) =
(1 j L)
(1 j L)
(L) =
j=1

j/ |j |<1

j/ |j |>1

On peut alors montrer que lon naura pas L(Xt ) = L(t ), et donc (t ) nest pas
linnovation.
Pour obtenir la reprsentation canonique il faut changer le polynme et le bruit
blanc. On pose

Y
Y
z
(z) =
(1 j z)
(1 )
j
j/ |j |<1

j/ |j |>1

de telle sorte que a toutes ses racines de module strictement suprieur 1.


Proposition 151. Soit (t ) le processus tel que t = (L)Xt . Alors (t ) est un bruit
blanc.
2

Proof. En effet, la densit spectrale de (t ) est f () = fX () | (ei )| . Et comme


(L)Xt = t , on a aussi :

2
2
fX () (ei ) = f () =
2
On peut alors crire
hQ

2
i 2
2
1
(e ) = h
f () =
2 |(ei )|2
2 Q

2
2

i 2

j/ |j |<1

|1 j e |

i 2
j/ |j |<1 |1 j e |

2
1 |j ei |
=
2
|j |2 |1 j ei |2
j, |j |>1
|
{z
}
Y

i Q

i hQ



j/ |j |>1 1

2 

ei
j

i 2
j/ |j |>1 |1 j e |

1
|j |2
|>1

Y
j, |j

=1

On a donc
f () =

Y
2
2
1
=
avec =
2 < 1
2
2
|
|
j
j, | |>1
j

et finalement (t ) est un bruit blanc.


La reprsentation (L)Xt = t est alors la reprsentation canonique de (Xt ) et (t )
est linnovation de (Xt ).
103

6.5.2

Proprits des autocorrlations - les quations de Yule-Walker

Le processus (Xt ) scrit


Xt = 1 Xt1 + 2 Xt2 + ... + p Xtp + t .

(23)

En multipliant par Xt , on obtient


Xt2 = 1 Xt1 Xt + 2 Xt2 Xt + ... + p Xtp Xt + t Xt
= 1 Xt1 Xt + 2 Xt2 Xt + ... + p Xtp Xt + t (1 Xt1 + 2 Xt2 + ... + p Xtp + t )
= 1 Xt1 Xt + 2 Xt2 Xt + ... + p Xtp Xt + 2t + [1 Xt1 + 2 Xt2 + ... + p Xtp ] t ,
do, en prenant lesprance
(0) = 1 (1) + 2 (2) + ... + p (p) + 2 + 0,
le dernire terme tant nul car t est suppos indpendant du pass de Xt ,
{Xt1 , Xt2 , ..., Xtp , ...}. De plus, en multipliant (23) par Xth , en prenant lesprance
et en divisant par (0), on obtient
(h)

p
X

i (h i) = 0 pour tout h > 0.

i=1

Cette suite dquations dfinit le systme dquation dit de Yule-Walker :


Proposition 152. Soit (Xt ) un processus AR (p) dautocorrlation (h).

..

.
(p 1)
1
(1)
(2)
(1)

.
. . (p 2)
(2) (1)
1
(1)


(3)
..

(2)
.
(p 3)
(1)
1

=
..
..
..
..
..


.
.
.
.
.


(p 1)
...
...

1
(1)
(p)
(p 1) (p 2) (p 3)
(1)
1

Alors

..
.

p1

De plus les (h) dcroissent exponentiellement vers 0.


Proof. En effet, h > 0, (h) 1 (h 1) p (h p) = 0. Le polynme
caractristique de cette relation de rcurrence est :

1
p1 p 
1
z p 1 z p1 p1 z p = z p 1
p1 p = z p ( ),
z
z
z
z
p
avec (L)Xt = t et(L) = 1 1 L p L . Les racines du polynme caractristique
sont les i = z1i (les zi tant les racines de ) avec |i | < 1. La forme gnrale de
la solution est, si z1 , . . . , zn sont des racines distinctes de de multiplicits respectives
m1 , . . . , mn
n m
i 1
X
X
(h) =
ik ki hk
i=1 k=0

cest dire que (h) dcroit vers 0 exponentiellement avec h.


104

Par inversion, il est possible dexprimer les i en fonction des (h). La mthodologie
dveloppe dans la partie (6.4.2) permet dobtenir les autocorrlations partielles (h). Il
est possible de montrer le rsultat suivant
Proposition 153. (i) Pour un processus AR (p) les autocorrlations partielles sont nulles
au del de rang p, (h) = 0 pour h > p.
(ii) Pour un processus AR (p) les autocorrlations inverses sont nulles au del de rang
p, i (h) = 0 pour h > p.
Proof. (i) Si (Xt ) est un processusAR(p) et si (L)Xt = + t est sa reprsentation
canonique, en notant (h) le coefficient de Xth dans EL(Xt |Xt1 , . . . , Xth ) alors,
Xt = +

1 Xt1 + + p Xtp
|
{z
}

+ t

L(1,Xt ,...,Xtp )L(1,Xt ,...,Xth )

de telle sorte que


EL(Xt |Xt1 , . . . , Xth ) = + 1 Xt1 + + p Xtp + EL(t |Xt1 , . . . , Xth )
= + 1 Xt1 + + p Xtp + 0
Aussi, si h > p, le coefficient de Xth est 0. et si h = p, le coefficient de Xtp est p 6= 0.
(ii) Les autocorrlation inverses sont dfinies par i (h) = i (h)/i (0) o
Z
1
eih d.
i (h) =
fX ()
Si (L)Xt = t la densit spectrale de (Xt ) vrifie

2
2
1
2
.
fX () (ei ) = f () = donc fX () =
2
2 |(ei )|2
Par consquent,
2
1
2
= 2 (ei )
fX ()

p
Aussi, si (z) = 1 + z + ... + p z (i.e. 0 = 1 et k = k ),
!
!
p
p
X
2 X
1
2 X
= 2
k eik
eik = 2
k l ei(kl) ,
fX ()
k=0

0k,lp
k=0k
et donc, les autocovariances inverses sont dfinies par
Z
2 X
i (h) = 2
k l
ei(kl+h) d .
0k,lp
| {z
}
=0 sauf si kl+h=0

Or k l [p; p] donc si h > p, i (h) = 0. En revanche si h = p,


i (p) =

4 2
4 2

p 6= 0.
0
p
2
2

Cette mthode pourra tre utilise pour identifier les processus AR (p) .
105

6.5.3

Le processus AR (1)

La forme gnral des processus de type AR (1) est


Xt Xt1 = t pour tout t Z,
o (t ) est un bruit blanc de variance 2 .
(i) si = 1, le processus (Xt ) nest pas stationnaire. Par exemple, pour = 1,
Xt = Xt1 + t peut scrire
Xt Xth = t + t1 + ... + th+1 ,
et donc E (Xt Xth )2 = h 2 . Or pour un processus stationnaire, il est possible de
montrer que E (Xt Xth )2 4V (Xt ). Puisquil est impossible que pour tout h, h 2
4V (Xt ), le processus nest pas stationnaire.
Si || 6= 1, il existe un unique processus stationnaire tel que Xt Xt1 = t pour
tout t Z, ou
(1 L) Xt = t .
(ii) si || < 1 alors on peut inverser le polynme, et
1

Xt = (1 L)

t =

i ti (en fonction du pass de (t ) ).

(24)

i=0

(iii) si || > 1 alors on peut inverser le polynme, et


1
Xt = F

1
1 F

1
t =

i t+i (en fonction du futur de (t ) ).

i=1

La reprsentation canonique est alors


Xt

1
Xt1 = t ,

o
t = (1 F ) (1 L)

t = t+1 + 1

X

i ti .

i=0

Proposition 154. La fonction dautocorrlation est donne par (h) = h .


Proof. Cette expression sobtient partir des relations du type (24) , ou en notant que
(h) = (h 1).
On peut visualiser cette autocorrlation sur les nuages de points (Xt1 , Xt ), (Xt2 , Xt ),
etc, pour un processus AR(1) avec > 0

106

>
>
>
>
>
>

X=arima.sim(n = 240, list(ar = 0.8),sd = 1)


plot(X)
n=240; h=1
plot(X[1:(n-h)],X[(1+h):n])
library(ellipse)
lines(ellipse(0.8^h), type = l,col="red")

ou un processus AR(1) avec < 0


> X=arima.sim(n = 240, list(ar = -0.8),sd = 1)

107

La densit spectrale dun processus AR (1) est de la forme


f () =

2
1
,
2 1 + 2 2 cos

qui correspond au graphique ci-dessous, avec > 0 (les courbes sont ici prsentes dans
la mme base 1 : f (0) = 1),
Les valeurs les plus importantes sont obtenues aux basses frquences, les fonctions
108

tant dcroissantes sur [0, ]. Dans les trois exemples ci-dessous, les t seront pris
gaussiens, t N (0, 1)
A retenir 155. Un processus AR (1) : Xt = Xt1 + t sera auto-corrl positivement
si 0 < < 1, et autocorrl ngativement si 1 < < 0. Cette srie va osciller autour
de 0, en sen cartant suivant la valeur t du processus dinnovation (si 1 < < +1).
Si = +1, on obtient une marche alatoire, et si > +1 ou < 1 le processus nest
par stationnaire, et on obtient un modle qui explosera ( moyen terme). La valeur ,
dans le cas o le processus est stationnaire, est la corrlation entre deux dates conscutives
= corr (Xt , Xt1 ).


> 0 dcroissance exponentielle

Fonction dautocorrlation

 < 0 sinusode amortie


AR (1) :
premire non nulle (signe = signe de )

Fonction dautocorrlation partielle


toutes nulles aprs
Considrons un processus AR(1) stationnaire avec 1 = 0.6.
> X=arima.sim(n = 2400, list(ar = 0.6),sd = 1)
> plot(X)

> plot(acf(X),lwd=5,col="red")
> plot(pacf(X),lwd=5,col="red")

Considrons un processus AR(1) stationnaire avec 1 = 0.6.


> X=arima.sim(n = 2400, list(ar = -0.6),sd = 1)
> plot(X)

109

> plot(acf(X),lwd=5,col="red")
> plot(pacf(X),lwd=5,col="red")

Considrons un processus AR(1) presque plus stationnaire avec 1 = 0.999.


> X=arima.sim(n = 2400, list(ar = 0.999),sd = 1)
> plot(X)

> plot(acf(X),lwd=5,col="red")
> plot(pacf(X),lwd=5,col="red")

110

6.5.4

Le processus AR (2)

Ces processus sont galement appels modles de Yule, dont la forme gnrale est

1 1 L 2 L2 Xt = t ,
o les racines du polynme caractristique (z) = 1 1 z 2 z 2 sont supposes
lextrieur du disque unit (de telle sorte que le processus t corresponde linnovation).
Cette condition scrit

1 1 + 2 > 0
1 + 1 2 > 0
2
1 + 42 > 0,
cest dire que le couple (1 , 2 ) doit se trouver dans une des 4 parties ci-dessous,
La fonction dautocorrlation satisfait lquation de rcurence
(h) = 1 (h 1) + 2 (h 2) pour h 2,
et la fonction dautocorrlation partielle vrifie


 (1) pour h 2= 1

a (h) =
(2) (1) / 1 (1)2 pour h = 2

0 pour h 3.
Exemple 156. Processus AR (0.5, 0.3) - cas 1 Exemple 157. Processus AR (0.5, 0.3) - cas 2 Exemple 158. Processus AR (0.5, 0.7) - cas 3 Exemple 159. Processus AR (0.5, 0.7) - cas 4 Dans le cas dun modle AR (2) avec constante, de la forme (1 1 L 2 L2 ) Xt =
0 + t on peut alors noter que lesprance de Xt est
E (Xt ) =

0
ds lors que 1 + 2 6= 1.
1 1 2

En utilisant les quations de Yule Walker, nous avions not que la fonction
dautocorrlation vrifiait la relation de rcurence suivante,

(0) = 1 et (1) = 1 / (1 2 ) ,
(h) = 1 (h 1) + 2 (h 2) pour h 2,
cest dire que le comportement de cette suite peut tre dcrit en tudiant le polynme
caractristique associ, x2 1 x 
2 = 0. Dansle cas o le polynme admet deux
p
racines relles, 1 et 2 o = 1 21 + 42 /2, alors le polynme autorgressif
peut scrire (1 1 L 2 L2 ) = (1 1 L) (1 2 L) : le modle AR (1) peut tre vu
alors comme un modle AR (1) appliqu un processus AR (1). Lautocorrlogramme
prsente une dcroissante suivant un mlange dexponentielles. Quand les racines sont
complexes (conjugues), alors les (h) prsentent une volution sinusodale
amortie.
 On
1
obtient alors des cycles stochastiques, de longueur moyenne 2/ cos
1 /2 2 .
111

(tir de Box, Jenkins & Reinsel (1994))


A retenir 160. Le comportement dun processus AR (2) : Xt = 1 Xt1 + 2 Xt2 + t
dpendra fortement des racines de son quation charactristique 1 1 .z 2 .z 2 = 0. Le
cas le plus intressant est celui o lquation charactristique a deux racines complexes
conjugues r exp (i) pour r < 1 : le processus est alors stationnaire (et oscille alors
autour de 0, sans exploser, de la mme faon que les processus AR (1) dans le cas o
|| < 1). Le processus est alors quasi-cyclique, de frquence , avec un bruit alatoire.

dcroissance exponentielle ou sinusode amortie


Fonction dautocorrlation

deux premires non nulles
AR (2) :
Fonction dautocorrlation partielle
toutes nulles aprs
> X=arima.sim(n = 2400, list(ar = c(0.6,0.4)),sd = 1)
> plot(acf(X),lwd=5,col="red")
> plot(pacf(X),lwd=5,col="red")

> X=arima.sim(n = 2400, list(ar = c(0.6,-0.4)),sd = 1)


> plot(acf(X),lwd=5,col="red")
> plot(pacf(X),lwd=5,col="red")

112

> X=arima.sim(n = 2400, list(ar = c(-0.6,0.4)),sd = 1)


> plot(acf(X),lwd=5,col="red")
> plot(pacf(X),lwd=5,col="red")

> X=arima.sim(n = 2400, list(ar = c(-0.6,-0.4)),sd = 1)


> plot(acf(X),lwd=5,col="red")
> plot(pacf(X),lwd=5,col="red")

6.6

Les processus moyenne-mobile : M A (q)

Dfinition 161. On appelle processus moyenne mobile (moving average) dordre q, not
M A (q), un processus stationnaire (Xt ) vrifiant une relation du type
X t = t +

q
X

i ti pour tout t Z,

(25)

i=1

o les i sont des rels et (t ) est un bruit blanc de variance 2 . (25) est quivalent
lcriture
Xt = (L) t o (L) = I + 1 L + ... + q Lq .
Remarque 162. Encore une fois, nous allons utiliser dans cette partie des modles de la
forme (25), toutefois, dans certains ouvrages, la convention est dcrire ces modles sous
la forme (L) = I 1 L ... q Lq . En particulier pour les logiciels dconomtrie, il
convient de vrifier le signe attribu aux coefficients de la forme M A (cf exercice 15 de
lexamen de 2002/2003).
Contrairement aux processus AR (p), les processus M A (q) sont toujours
P des 2processus
stationnaires. Les processus M A () sont stationnaires si et seulement si
i=1 i est finie.
Pour rappel, un processus AR (p) est stationnaire si les racines du polynme retard sont
lextrieur du cercle unit.
De la mme faon que pour les AR (p), il est possible dinverser le polynme dans le
cas o ses racines sont de module diffrent de 1 (quitte changer des bruit blanc, comme
pour les processus AR). Supposons que nait pas de racines de module gal 1, et
113

considrons le polynme obtenu en remplaant les racines de de module infrieur


1 par leur inverse. Le processus (t ) dfini par la relation Xt = (L) t est l aussi un
bruit blanc, dont la variance 2 est dfinie par
" p
#1
Y
2 = 2
|i |2
,
i=r+1

o i sont les racines de module infrieur 1. Aussi, la variance de (t ) est ici suprieure
celle de (t ). Par le suite, on supposera que le processus M A est sous forme canonique,
cest dire que toutes les racines de sont de module suprieur 1.
6.6.1

Proprits des autocorrlations

La fonction dautocovarariance est donne par


(h) = E (Xt Xth )
= E ([t + 1 t1 + ... + q tq ] [th + 1 th1 + ... + q thq ])

[h + h+1 1 + ... + q qh ] 2 si 1 h q
=
0
si h > q,
avec, pour h = 0, la relation


(0) = 1 + 12 + 22 + ... + q2 2 .
Cette dernire relation peut se rcrire
(k) = 2

q
X

j j+k avec la convention 0 = 1.

j=0

Do la fonction dautocovariance,
(h) =

h + h+1 1 + ... + q qh
si 1 h q,
1 + 12 + 22 + ... + q2

et (h) = 0 pour h > q.


On peut noter en particulier que (q) = 2 q 6= 0, alors que (q + 1) = 0. Cette
proprit sera relativement pratique pour faire lestimation de lordre de processus M A.
On peut calculer les autocorrlations la main
>
+
+
+
+
+
+

rho=function(h,theta){
theta=c(1,theta)
q=length(theta)
if(h>=q) ACF=0 else{sn=0;sd=0
for(i in 1:(q-h)) sn=sn+theta[i]*theta[i+h]
for(i in 1:(q)) sd=sd+theta[i]^2
ACF=sn/sd}

114

+
>
>
>
>
>
>
>

return(ACF)}
THETA=c(-.6,.7,-.4,0,.9)
X=arima.sim(list(ma = THETA),n=240)
acf(X,col="red",lwd=5)
R=function(h) rho(h,THETA)
points(1:24,Vectorize(R)(1:24),pch=19,cex=2,col="blue")

Exemple 163. Le graphique ci-dessous montre lvolution dun processus M A (5), avec
un bruit blanc gaussien, de variance 1, avec droite, lautocorrlogramme associ, pour
Xt = t 0.7t1 + 0.8t2 + 0.3t3 0.1t4 + 0.7t5 ,
On retrouve bien sur cette simulation de processus M A (5) le fait que les autocorrlations sannulent pour h > 5.
A retenir 164. Les processus M A sont toujours stationnaire, mais ils ne sont inversibles
que si les racines du polynme charactristiques sont lextrieur du disque unit.
On peut noter que sil ny a pas de rsultat particulier pour les autocorrlations partielles, on a malgr tout le rsultat suivant
Proposition 165. Si (Xt ) suit un processus M A (q), Xt = (L)t = t + 1 t1 + ... +
q tq , alors les autocorrlations inverves i (h) satisfont les quations de Yule-Walker
inverse,
i (h) + 1 i (h 1) + ... + q i (h q) = 0 pour h = 1, 2, ..., q.
En particulier, i(h) dcroit exponentiellement avec h.
Proof. Par dfinition i(h) = i (h)/i (0) avec i (h) =
crire, si Xt = (L)t
fX () =

1
eih d.
fX ()

2
2
1
2
(ei ) et donc
=
.
2
fX ()
2 |(ei )|2
115

On peut alors

Soit (Yt )tZ un processus tel que (L)Yt = t i.e. (Yt ) suit un processus AR (q), et

2
2
= fY () (ei ) .
2
Donc :
fY () =

2
1
,
2 |(ei )|2

de telle sorte que


2
1
2
4 2
2
fY () =
2 =
= 2 .
fX ()

6.6.2

Le processus M A (1)

La forme gnrale des processus de type M A (1) est


Xt = t + t1 , pour tout t Z,
o (t ) est un bruit blanc de variance 2 . Les autocorrlations sont donnes par
(1) =

, et (h) = 0, pour h 2.
1 + 2

On peut noter que 1/2 (1) 1/2 : les modles M A (1) ne peuvent avoir de fortes
autocorrlations lordre 1.
Lautocorrlation partielle lordre h est donne par
(1)h h (2 1)
,
(h) =
1 2(h+1)
et plus gnrallement, les coefficients de rgression sont donns par
ai (h) =

(1)i i
(1)i 2h+2i
+
,
1 2h+2
1 2h+2

dans le cas o 6= 1.
On peut visualiser cette autocorrlation sur les nuages de points (Xt1 , Xt ), (Xt2 , Xt ),
etc, pour un processus MA(1) avec > 0
>
>
>
>
>
>

X=arima.sim(n = 240, list(ma = 0.8),sd = 1)


plot(X)
n=240;h=1
plot(X[1:(n-h)],X[(1+h):n])
library(ellipse)
lines(ellipse(.8/(1+.8^2)), type = l,col="red")

116

La densit spectrale dun processus M A (1) est de la forme




2 
fX () =
1 + 2 + 2 cos ,
2
correspondant un trend dterministe, auquel vient sajouter une constante. De cette
dernire expression, on peut en dduire aisment que les autocorrlations inverses, dans
117

le cas dun processus M A (1) vrifient



h

i (h) =
pour tout h 1.
1 + 2
> X=arima.sim(n = 2400, list(ma = .7),sd = 1)
> plot(acf(X),lwd=5,col="red")
> plot(pacf(X),lwd=5,col="red")

> X=arima.sim(n = 2400, list(ma = -0.7),sd = 1)


> plot(acf(X),lwd=5,col="red")
> plot(pacf(X),lwd=5,col="red")

Remarque 166. Les graphiques ci-dessous reprsentent des simulations de processus


M A (1), avec diffrents coefficients , repectivement, de gauche droite 0, 1, 2, 5,1
et 2
Comme on peut le voir, ces processus sont toujours stationnaires, quel que soit .
A retenir 167.


premire non nulle (signe = signe de )

Fonction dautocorrlation

 toutes nulles aprs


M A (1) :
> 0 dcroissance exponentielle

Fonction dautocorrlation partielle


< 0 sinusode amortie
6.6.3

Le processus M A (2)

La forme gnrale de (Xt ) suivant un processus M A (2) est


Xt = t + 1 t1 + 2 t2 .
La fonction dautocorrlation est donne par lexpression suivante

1 [1 + 2 ] / [1 + 12 + 22 ] pour h = 1
2 / [1 + 12 + 22 ] pour h = 2
(h) =

0 pour h 3,
118

et la densit spectrale est donne par



2
fX () = 1 + 1 ei + 2 e2i .
Les configurations possibles sont donnes dans les 2 exemples ci-dessous
> X=arima.sim(n = 2400, list(ma = c(0.7,0.9)),sd = 1)
> plot(acf(X),lwd=5,col="red")
> plot(pacf(X),lwd=5,col="red")

> X=arima.sim(n = 2400, list(ma = c(0.7,-0.9)),sd = 1)


> plot(acf(X),lwd=5,col="red")
> plot(pacf(X),lwd=5,col="red")

> X=arima.sim(n = 2400, list(ma = c(0.7,-0.9)),sd = 1)


> plot(acf(X),lwd=5,col="red")
> plot(pacf(X),lwd=5,col="red")

6.7

Les processus ARM A (p, q)

Cette classe de processus gnralise les processus AR (p) et M A (q) .


Dfinition 168. On appelle processus ARM A (p, q), un processus stationnaire (Xt ) vrifiant une relation du type
Xt

p
X
i=1

i Xti = t +

q
X
j=1

119

i ti pour tout t Z,

(26)

o les i sont des rels et (t ) est un bruit blanc de variance 2 . (22) est quivalent
lcriture

(L) = I + 1 L + ... + q Lq
(L) Xt = (L) t o
(L) = I 1 L ... p Lp
On supposera de plus de les polymes et nont pas de racines en module strictement
suprieures 1 (criture sous forme canonique), et nont pas de racine commune. On
supposera de plus que les degrs de et sont respectivement q et p, au sens o q 6= 0
et p 6= 0. On dira dans ce cas que cette criture est la forme minimale.
Les processus ARM A (p, q) peuvent donc se mettre
(i) sous la forme M A () en crivant Xt = (L)1 (L) t , si toutes les racines de
sont lextrieur du disque unit.
(ii) ou sous forme AR () en crivant (L) (L)1 Xt = t , si toutes les racines de
sont lextrieur du disque unit.
Remarque 169. Un processus AR (p) est un processus ARM A (p, 0) et un processus
M A (q) est un processus ARM A (0, q) .
6.7.1

Proprits des autocorrlations

Proposition 170. Soit (Xt ) un processus ARM A (p, q), alors les autocovariances (h)
satisfont
p
X
(h)
i (h i) = 0 pour h q + 1.
(27)
i=1

Proof. La forme ARM A (p, q) de (Xt ) est


Xt

p
X

j Xtj = t +

j=1

q
X

j tj

j=1

En multipliant par Xth , o h q + 1, et en prenant lesprance, on obtient (27).


De plus, on a la relation suivante
Proposition 171. Soit (Xt ) un processus ARM A (p, q), alors les autocorrlations (h)
satisfont
(h)

p
X

i (h i) = 2 [h + h1 h+1 + ... + hqh q ] pour 0 h q,

i=1

o les hi correspondent aux coefficients de la forme M A () de (Xt ),


Xt =

+
X

hj tj .

j=0

120

(28)

Exemple 172. Les sorties ci-dessous correspondent aux autocorrlogrammes de processus


ARM A (2, 1), ARM A (1, 2) et ARM A (2, 2) respectivement de gauche droite
Pour tablir une rgle quant au comportement de la fonction dautocorrlation, deux
cas sont envisager,
Si p > q, la fonction dautocorrlation se comporte comme un mlange de fonctions
exponentielles/sinusodales amorties
Si q p, le q p+1 premires valeurs de lautocorrlogramme ont un comportement
propre, et pour k q p + 1, lautocorrlogramme tend vers 0.
Des proprits symtriques existent pour lautocorrlogramme partiel.
Remarque 173. Avec les notations (26), la variance de Xt est donne par
V (Xt ) = (0) =
6.7.2

1 + 12 + ... + q2 + 21 1 + ... + h h 2
o h = min (p, q) .
1 21 ... 2p

Densit spectrale des processus ARM A (p, q)

Proposition 174. La densit spectrale du processus ARM A (Xt ) stationnaire est une
fraction rationnelle en exp (i), et est donne par
2 | (exp [i])|2
fX () =
.
2 | (exp [i])|2
6.7.3

Les processus ARM A (1, 1)

Soit (Xt ) un processus ARM A (1, 1) dfini par


Xt Xt1 = t + t1 , pour tout t,
o 6= 0, 6= 0, || < 1 et || < 1. Ce processus peut de mettre sous forme AR (),
puisque
(1 L) (1 + L)1 Xt = (L) Xt = t ,
o

h
i
h h h
2 2
(L) = (1 L) 1 L + L + ... + (1) L + .. ,

aussi
(L) =

+
X
i=0

i L o

0 = 1
i = (1)i [ + ] i1 pour i 1.

La fonction dautocorrlation scrit



(1) = (1 + ) ( + ) / [1 + 2 + 2]
(h) = h (1) pour h 2,
et la fonction dautocorrlations partielles a le mme comportement quune moyenne mobile, avec comme valeur initiale a (1) (1). La sortie ci-dessous montre lvolution de
lautocorrlogramme dans le cas dun ARM A (1, 1)
121

> X=arima.sim(n = 2400, list(ar=0.6, ma = 0.7),sd = 1)


> plot(acf(X),lwd=5,col="red")
> plot(pacf(X),lwd=5,col="red")

A retenir 175.

ARM A (1, 1) :

6.8

Fonction dautocorrlation
dcroissance aprs le premier retard
Fonction dautocorrlation partielle dcroissance exponentielle ou sinusode amorti

Introduction aux modles linaires non-stationnaires

Tous les processus dcrits dans les parties prcdantes sont des processus stationnaires
(Xt ). En fait, la plupart des rsultats obtenus dans les parties prcdantes reposent sur
lhypothse (trs forte) de stationnarit. Cest le cas par exemple de la loi des grands
nombres telle quelle est formule dans le thorme ergodique. On peut toutefois noter
quun certain nombre de processus, trs simples, sont non-stationnaires.
Exemple 176. Marche alatoire - La marche alatoire est dfinie de la faon suivante
: soit 1 , ..., t , ... une suite de variables i.i.d. et on supposera que t ademet une variance
finie, note 2 . On supposera galement les t centrs. Une marche alatoire Yt vrifie
Yt = Yt1 + t , pour tout t,
avec la convention Y0 = 0. On peut noter que Yt = Y0 + Y1 + ... + Yt1 . On a alors

st
E (Yt ) = 0
, cov (Ys ; Yt ) = 2 (s t) et corr (Ys , Yt ) = pour s, t 0.
2
V (Yt ) = t
st
En notant Ft la filtration gnre par les Y0 , ..., Yt , cest dire Ft = {Y0 , ..., Yt }, on peut
montrer que
E (Ys |Ft ) = Yt pour tout s t 0.
Aussi, le processus (Yt ), muni de sa filtration naturelle, est une martingale. La marche
alatoire est stationnaire en moyenne, mais pas en variance. La non stationnarit de
cette srie pose de gros problme statistique : considrons par exemple la moyenne dfinie
sur les n premires observations, soit
n

1X
Yn =
Yt ,
n t=1


alors, de faon triviale, E Y n = 0 mais V Y n = O (n) . Plus prcisment, la variance
de cette moyenne est

n (n + 1) (2n + 1)
V Y n = 2
.
6n2
122

Exemple 177. Tendance linaire -Un processus tendance linaire est dfini de la
faon suivante : soit 1 , ..., t , ... une suite de variables i.i.d. et on supposera que t ademet
une variance finie, note 2 . On supposera galement les t centrs. Une tendance linaire
Yt vrifie
Yt = t + t pour tout t, o R.
Ce processus vrifie

E (Yt ) = t
V (Yt ) = 2

cov (Ys ; Yt ) = corr (Ys , Yt ) = 0 pour s, t 0,

et E (Ys |Ft ) = s pour tout s t 0. Cest dire que ce processus nest pas une
martingale, et les variables du processus sont indpendantes (au sens non-corrles). En
notant comme prcdemment Y n .la moyenne des n premires observations, on a

 2
n+1
E Yn =
et V Y n =
0 quand n .
2
n
Exemple 178. March alatoire avec drift - Ce processus est dfini comme mlange
des deux prcdants : soit Xt une marche alatoire, soit Xt = Xt1 + t , alors Yt , marche
alatoire avec drift, est dfini par
Yt = t + Xt pour tout t, o R
= [ + 1 ] + [ + 2 ] + ... + [ + t ] .
On a alors les proprits suivantes

st
E (Yt ) = t
cov (Ys ; Yt ) = 2 (s t) et corr (Ys , Yt ) = pour s, t 0,
2
V (Yt ) = t
st
et E (Ys |Ft ) = s + Xt = [s t] + Yt pour tout s t 0.
Les processus stationnaires ayant beaucoup de proprits, il peut apparaitre intressant
de trouver une transformation simple du processus non-stationnaire que le rendrait
stationnaire. La mthode la plus courament utilise est de prendre des diffrences :
Exemple 179. Marche alatoire - Soit (Yt ) une marche alatoire,
Yt = Yt1 + t , pour tout t,
alors Zt = Yt Yt1 est stationnaire (et Zt = t ).
Exemple 180. Tendance linaire - Une tendance linaire Yt vrifie
Yt = t + t , pour tout t, o R,
alors Zt = Yt Yt1 = + t t1 : il sagit dun processus M A (1) (non inversible,
mais stationnaire comme tout processus M A).
Exemple 181. March alatoire avec drift - Soit Yt , marche alatoire avec drift,
Yt = t + Xt = [ + 1 ] + [ + 2 ] + ... + [ + t ] ,
alors Zt = Yt Yt1 = + Xt Xt1 = + t est stationnaire.
Cest cette importance de la diffrenciation (dont lintgration est lopration duale)
qui a permis de passer des modles ARM A aux modles ARIM A.
123

6.9

Les processus ARIM A (p, d, q)

Lhypothse de stationnarit, prsente - sous certaines conditions - dans les modles


ARM A, nest que rarement vrie pour des sries conomiques. En revanche, on peut
considrer les diffrences premires Xt = Xt Xt1 , ou des diffrences des ordres plus
levs

Xt = Xt Xt1 = (1 L) Xt
d Xt = (1 L)d Xt
Dfinition 182. Un processus (Xt ) est un processus ARIM A (p, d, q) - autorgressif
moyenne mobile intgr - sil vrifie une quation du type
(L) (1 L)d Xt = (L) t pour tout t 0
o

(L) = I 1 L 2 L2 + ... p Lp o p 6= 0
(L) = I + 1 L + 2 L2 + ... + q Lq o q 6= 0

sont des polynmes dont les racines sont de module suprieur 1, et o les conditions
initiales
Z1 = {X1 , ..., Xp , 1 , ..., q }
sont non-corrles avec 0 , ..., t , ... et o le processus (t ) est un bruit blanc de variance
2.
Remarque 183. Si les processus ARM A peuvent tre dfinis sur Z, il nen est pas
de mme pour les processus ARIM A qui doivent commencer une certaine date
(t = 0 par convention), avec des valeurs initiales (q valeurs pour les t , et p + d pour
Xt ). En effet, si lon considre un processus Xt , ARIM A(0, 1, 0) (= marche alatoire),
soit (1 L) Xt = t . On peut crire
Xt = X0 +

t
X

k mais pas Xt =

k=1

t
X

k=

car cette somme ne converge pas dans L2 . Cette importance de linitialisation peut se
comprendre sur les graphique ci-dessous : considrer un processus AR (1) simul (ou un
processus ARM A de faon plus gnrale), partir de la date t = 0 : on peut noter qu
relativement court terme les processus (Xt ) et (Yt ) simuls respectivement partir de x et
y sont indentiques : L (Xt ) = L (Yt ), les deux processus ont la mme loi, quelle que soit
la valeur initiale (i.e. une loi normale dans le cas dun bruit blanc gaussien).
En revanche, pour un processus ARIM A (1, 1, 0) - cest dire un processus AR (1)
intgr, la valeur initiale est trs importante : pour deux valeurs initiales diffrentes, les
deux processus nont pas la mme loi L (Xt ) 6= L (Yt ),
Les deux processus intgrs, droite, ont sensiblement des lois diffrentes la date t.

124

Remarque 184. Soit Yt un processus intgr dordre d, au sens o il existe (Xt ) stationnaire tel que Yt = (1 L)d Xt satisfaisant (L) Yt = + (L) t Alors, (Yt ) nest pas un
processus ARM A car il ne commence pas en . En fait, (Yt ) est asymptotiquement
quivalent un processus stationnaire ARM A.

Proposition 185. Soit (Xt ) un processus ARIM A (p, d, q) alors le processus d Xt
converge vers un processus ARM A (p, q) stationnaire.
6.9.1

Processus ARIM A et formes AR ou M A

Proposition 186. Soit (Xt ) un processus ARIM A (p, d, q) de valeurs initiales Z1 , alors
(i) (Xt ) peut scrire sous la forme suivante, fonction du pass du bruit,
Xt =

t
X

hj tj + h (t) Z1 ,

j=1

o les hj sont les coefficients de la division selon les puissances croissantes de par ,
et h (t) est un vecteur (ligne) de fonctions de t
(ii) (Xt ) peut scrire sous la forme suivante, fonction du pass de Xt
Xt =

t
X

j Xtj + h (t) Z1 + t ,

j=1

o les j sont les coefficients (pour j 1) de la division selon les puissances croissantes

de par , et h (t) est un vecteur (ligne) de fonctions de t quand tend vers 0 quand
t .
Proof. (ii) La division selon les puissances croissantes de I par scrit, lordre t,
I =Qt (Z) (Z) + Z t+1 Rt (Z) o deg (Qt ) = t et deg (Rt ) q 1.
Posons (L) = (1 L)d (L). Alors lquation (L) Xt = (L) t peut scrire, en
multipliant par Qt (Z),


Qt (Z) (L) Xt = Qt (Z) (L) t = ILt+1 Rt (L) t = t Rt (L) 1 .
En posant t (L) = Qt (Z) (L) (de degr p + d + t fini) on peut crire t (L) Xt =
t Rt (L) 1 , soit
p+d+t
q1
X
X
j Xtj = t
rj 1j ,
j=0

j=0

cest dire, en coupant la premire somme,


t
X
j=0

t+p+d

j Xtj = t

j Xtj

j=t+1

h0 (t)Z1

125

rj 1j .

j=0

{z

q1
X

6.10

Les modles SARIM A

Les modles SARIM A peuvent vus comme une gnralisation des modles ARIM A,
contenant une partie saisonnire.
Dfinition 187. De faon gnrale, soient s1 , ..., sn n entiers, alors un processus (Xt )
est un processus SARIM A (p, d, q) - autorgressif moyenne mobile intgr saisonnier sil vrifie une quation du type
(L) (1 Ls1 ) ... (1 Lsn ) Xt = (L) t pour tout t 0
o (L) = I 1 L 2 L2 + ... p Lp o p 6= 0 et (L) = I + 1 L + 2 L2 + ... + q Lq
o q 6= 0.sont des polynmes dont les racines sont de module suprieur 1, et o les
conditions initiales
Z1 = {X1 , ..., Xp , 1 , ..., q }
sont non-corrles avec 0 , ..., t , ... et o le processus (t ) est un bruit blanc de variance
2.
Cette forme inclue les modles ARIM A puisquil suffit de prendre n = d et s1 = ... =
sn = 1. Toutefois, les deux formes les plus utilises sont les suivantes,
(L) (1 Ls ) Xt = (L) t pour tout t 0
(L) (1 Ls ) (1 L)d Xt = (L) t pour tout t 0
o un seul facteur saisonnier s intervient, soit appliqu un processus ARM A dans le
premier cas, soit appliqu un processus ARIM A dans le second cas.
Exemple 188. Soit S N\{0} correspondant la saisonnalit, et considrons le processus dfini par

Xt = (1 L) 1 LS t = t t1 tS + tS1 .
Les autocorrlations sont donnes par
(1) =

(1 + 2 )

=
,
2
2
(1 + ) (1 + )
1 + 2

(S 1) =

(1 +

2 ) (1

+ 2)

(1 + 2 )

=
,
(1 + 2 ) (1 + 2 )
1 + 2

(S + 1) =
,
2
(1 + ) (1 + 2 )
et (h) = 0 ailleurs. On peut noter que (S 1) = (S + 1) = (1) (S) . Le graphique
suivant montre lautocorrlogramme (empirique) dun tel processus simul
Pour les autocorrlations partielles, jusquen S 2 (inclus), la fonction
dautocorrlation partielle est celle dun M A (1) de paramtre , puis la fonction est significative en S 1, S et S + 1.
(S) =

126

Exemple 189. Soit S N\{0} correspondant la saisonnalit, et considrons le processus dfini par


1 LS Xt = (1 L) 1 LS t ou Xt Xt1 = t t1 tS + tS1 .
Les autocorrlations sont donnes par
(1 + 2 )

=
,
2
2
(1 + ) (1 + )
1 + 2


( )2 / (1 2 )

,
(S 1) =
(1 + 2 ) 1 + ( )2 / (1 2 )
(1) =

(1 + 2 )
S1 ,

avec (h) = 0 pour 2 h S 2, puis (S + 1) = (S 1) et (h) = (h S)


pour h S + 2. En particulier (kS) = k1 (S) . Le graphique suivant montre
lautocorrlogramme (empirique) dun tel processus simul
(S) =

Exemple 190. Soit S N\{0} correspondant la saisonnalit, et considrons le processus dfini par

(1 L) 1 LS Xt = t ou Xt Xt1 XtS + XtS1 = t .
Les autocorrlations partielles sont non nulles en 1, S et S + 1. De plus la fonction
dautocorrlation vrifie lquation de rcurence
(h) (h 1) (h S) + (h S 1) = 0,

qui a pour polynme caractristique (z ) z S , qui a pour racines et les racines
S-imes de . Le graphique suivant montre lautocorrlogramme (empirique) dun tel
processus simul
Exemple 191. Soit S N\{0} correspondant la saisonnalit, et considrons le processus dfini par


Xt = 1 L LS t = t t1 tS .
On se retrouve dans un cadre assez proche de celui dvelopp dans lexemple (188), et lon
obtient la fonction dautocorrlation suivante
(1) =

, (S 1) =
et (S) =
.
2
2
2
2
1+ +
1+ +
1 + 2 + 2

Le graphique suivant montre lautocorrlogramme (empirique) dun tel processus simul

127

Exemple 192. Soit S N\{0} correspondant la saisonnalit, et considrons le processus dfini par


Xt = 1 L LS LS+1 t = t t1 tS .
On se retrouve dans un cadre assez proche de celui dvelopp dans lexemple prcdant, et
lon obtient la fonction dautocorrlation suivante
(1) =
(S) =

, (S 1) =
,
2
2
2
2
1+ + +
1 + + 2 + 2

et (S + 1) =
.
2
2
2
2
1+ + +
1 + + 2 + 2

Le graphique suivant montre lautocorrlogramme (empirique) dun tel processus simul


Htrsoscdasticit et transformation de la variable Xt
Pour linstant, la non-stationnarit de la srie tait vu en supposant que la srie tait
intgr, ou saisonnire. Mais il est possible davoir une variance qui augemente sans pour
autant avoir supposer la srie comme tant intgre.
Comme pour les modles de rgression sur donnes individuelles, il peut tre intressant de modliser non pas X, mais une transformation de cette variable, e.g. log X. Et
l encore, il est lgitime dessayer des transformations puissances, de type Box-Cox.
Considrons la srie de production dlecticit, par mois, aux Etats-Unis,
> library(Ecdat)
> data(electricity)
> plot(electricity)

Compte tenu de lhtroscdasticit de la srie


> plot(log(electricity))

128

Considrons de manire plus gnrale une transformation de type Box-Cox


g (x) =

x 1
avec le cas limite g0 (x) = log(x).

> BoxCox.ar(electricity)

6.11

Thorme de Wold

Thorme 193. Tout processus (Xt ), centr, et stationnaire au second ordre, peut tre
reprsent sous une forme proche de la forme M A
Xt =

j tj + t ,

j=0

o
(1) (t ) est linnovation, au sens o t = Xt EL (Xt |Xt1 , Xt2 , ...) ,

129

(2) EL (t |Xt1 , Xt2 , ...) = 0, E (t Xtj ) = 0, E (t ) = 0, E (2t ) = 2 (indpendant


de t) et E (t s ) = 0 pour t 6= s,
(3) toutes les racines de (L) sont lextrieur du cercle unit : le polynome est
inversible,
P
2
(4)
j=0 j < et 0 = 1,
(5) les coefficients j et le processus (t ) sont uniques,
(6) (t ) vrifie t = EL (t |Xt1 , Xt2 , ...) .
La proprit (1) signifie que (t ) est lestimation de Xt comme combinaison linaire
des valeurs passes, et (2) est simplement lcriture des conditions dorthogonalit de la
projection. La proprit (4) est une consquence de la stationnarit du processus Ce
thorme se dmontre avec les diffrentes proprits des espaces de Hilbert. Ce thorme
dit juste que (Xt ) peut tre crit comme une somme des erreurs de prvision.
Remarque 194. Ce thorme ne dit pas que les t suivent une loi normale, ou que les t
sont i.i.d. (ils ont la mme variance et sont non-corrls).
Remarque 195. La proprit (2) dit que EL (t |Xt1 , Xt2 , ...) = 0, ce qui ne signifie pas que E (t |Xt1 , Xt2 , ...) = 0. Lcriture EL (Y |Xt1 , Xt2 , ...) signifie que
lon recherche la meilleure approximation de Y comme combinaison linaire du
pass de Xt , 1 Xt1 + 2 Xt2 + ... + h Xth + .... Lesprance conditionnelle
E (Y |Xt1 , Xt2 , ...) est elle la meilleure approximation de Y comme fonction du pass
de Xt , g (Xt1 , Xt2 , ..., Xth , ..), o g nest pas ncessairement linaire.
Remarque 196. Cette reprsentation nest unique que parce que lon a les diffrentes
conditions, en particulier (1) et (3). Par exemple, un processus de la forme Xt = t +2t1
o (t ) est i.i.d. et de variance 1, est stationnaire. Mais sous cette forme, le polynme
M A nest pas inversible. Pour trouver la reprsentation de Wold de ce processus, on va
chercher et t tels que Xt = t + t1 . On peut alors montrer que V (t ) = 2/ et que
est ncessairement soit gal 2, soit gal 1/2. Le cas = 2 et V (t ) = 1 correspond
lcriture initiale. Mais = 1/2 et V (t ) = 4 marche galement, et le polynme M A est
alors inversible (comme nous lavons vu prcdement, il est toujours possible de rcrire
un processus M A ou AR de faon inversible, condition de changer la variance du bruit).
Cette reprsentation est alors la rpresentation de Wold.
Remarque 197. Ce thorme peut scrire de faon plus simple si lon nest pas intress
par lunicit de lcriture : tout processus (Xt ) stationnaire peut se mettre sous forme
M A (),

X
Xt = +
j tj .
j=0

6.12

Thorie spectrale et processus ARIM A ? ? ?

Comme le rappelle Bourbonnais (1998), lanalyse des sries temporelles dans le dommaine
des frquences (ou analyse spectrale) est souvent plus riche en terme dinterprtation,
130

mais ncessite un recours des techniques mathmatiques plus complexes. Le principe


de base de lanalyse de Fourier est que toute fonction analytique dfinie sur un intervalle
(fini ) de R peut scrire comme somme pondre de fonctions sinus et cosinus.
6.12.1

Thorie spectrale et notion de filtre

Thorie spectrale Lanalyse spectrale, ou analyse harmonique, est une gnralisation


au cas alatoire de lanalyse de Fourier. Cette analyse sappuie sur deux rsultats de base :
le thorme de Loeve et le thorme de Khintchine. Le premier prsente la dcomposition
harmonique de (Xt ) sous la forme
Z +
exp (i2t) dUZ () ,
Xt =

dans laquelle les dUZ () sont des variables alatoires (complexes), alors que le second est
quivalent au prcdant, mais porte sur la fonction dautocovariance de (Xt ),
Z +

exp (i2h) E |dUZ ()|2 .
(h) =

Thorme 198. (de Khintchine) La densit spectrale de puissance dun processus alatoire stationnaire est gale la transforme de Fourier de sa fonction dautocorrlation
On a alors lcriture suivante
Z
+
1 X
ih
fX () =
(h) e
ou (h) =
eih fX () d, o (h) = cov (Xt , Xth ) ,
2 h=
0
avec fX () densit spectrale du processus (Xt ).
Filtre et processus strochastiques Etant donn un processus (Xt ), un filtre est une
transformation qui associe au processus (Xt ) un autre processus Yt = F (Xt ). Par exemple,
on dira quun filtre est linaire si F (Xt1 + Xt2 ) = F (Xt1 ) + F (Xt2 ).
De faon gnrale, on pourra considrer les filtres linaires de la forme suivante
X
F (Xt ) =
(i) Xt+i ,
iZ

o les (i) sont les coefficients de pondration, cest dire des filtres moyennes mobiles.
Considrons ainsi une fonction dfinie sur Z et valeurs dans R (ou C), appartenant
lespace des fonctions de carr intgrable sur R, alors admet une transforme de Fourier,
note A () appele fonction de rponse en frquence du filtre :
Z +
Z +
1
it
A () =
(t) e
dt ou (t) =
A () eit d.
2

On appelera gain du filtre le carr de la norme de la fonction de rponse, T () = |A ()|2 .


131

6.12.2

Le spectre dun processus ARM A

Daprs le thorme de Wold, un processus stationnaire est une combinaison linaire infinie
des valeurs passes dun bruit blanc, cest dire quil peut scrire comme un processus
M A () :
+
X
Xt = (L) t =
k tk o 0 = 1.
k=0

Cest dire que (Xt ) est la rponse un filtre dun processus (t ), bruit blanc (la stabilit
tant assure par la convergence de la somme des carrs de i ). Les i sont alors la fonction
de rponse impulsionnelle du filtre. La fonction de gain du filtre scrit

2
+
X


2
ik
T () = |A ()| =
i e
,


k=0

avec A () correspondant la fonction de rponse en frquence au filtre. On a alors la


relation suivante entre les spectres des deux processus,
fX () = T () f () .
Or, le spectre du bruit blanc vrifie f () = 2 /2, et donc

2
+
X

 2
2
2
ik
eik .
fX () =
k e
=


2
k=0
De faon gnrale et analogue, on a le rsultat suivant pour les processus ARM A,
Proposition 199. Soit (Xt ) un processus ARM A (p, q), vrifiant (L) Xt = (L) t ,
sous forme canonique minimal, avec les racines de et de lextrieur du disque unit
alors

 2
(L)
2 eik
.
Xt =
t et fX () =
(L)
2 | (eik )|2
Cette criture peut scrire sous la forme expense suivante
2

fX () =

2 |1 + 1 ei + 2 e2i + ... + q eqi |


.
2 |1 1 ei 2 e2i ... p eqi |2

Compte tenu du lien entre la densit spectrale et la fonction dautocorrlation, il est


possible dobtenir la densit spectrale dans plusieurs cas simples.
Exemple 200. Considrons le processus M A (1) suivant : Xt = t + t1 o (t ) suit un
bruit blanc de variance 2 . Pour mmoire, les autocovariances sont donnes par (0) =
(1 + 2 ) 2 , (1) = 2 et (h) = 0 pour h 2. Ainsi,
"
#
+
X
1
2 (1 + 2 cos () + 2 )
f () =
(0) + 2
(k) cos (k) =
.

k=1
132

Exemple 201. Considrons le processus AR (1) suivant : Xt = Xt1 +t o (t ) suit un


bruit blanc de variance 2 . Pour mmoire, les autocovariances sont donnes par (0) =
2 / [1 2 ], et (h) = (h 1) pour h 1. Ainsi, (h) = h (0) pour h 1. Cette
criture permet dobtenir la relation suivante
"
"
#
#
+
+
X
X
 ik

1
(0)
k
ik
f () =
(0) + 2
1+
(k) cos (k) =
e +e

k=1
k=1


eik
2
eik
(0)
1+
=
.
+
=

1 eik 1 eik
[1 2 cos () + 2 ]
ce qui donne une fonction dcroissante pour > 0 et croissante pour < 0.
Exemple 202. Considrons le processus AR (2) suivant : Xt = Xt1 + Xt2 + t o
(t ) suit un bruit blanc de variance 2 . Le polynme AR scrit (L) = 1LL2 dont
il faut sassurer que les racines sont lextrieur du disque unit. Le spectre du processus
(Xt ) scrit alors
fX () =

2
1
.
2 1 + 2 + 2 2 (1 ) cos 2 cos 2

Considrons le cas particulier o Xt = 0.9Xt1 0.4Xt2 + t avec 2 = 1,


fX () =

1
1
,
2 1.97 2.52 cos + 0.8 cos 2

dont le tableau de variation est


/2
f0
f

0
0.212
1
0 +
0

8 % 11.25 & 0.38

Les graphiques suivants donnent les volutions de densits spctrales pour diffrents
processus ARM A. Les graphiques ci-dessous correspondent des processus AR (1), avec
= 0.8 gauche, puis = 0.2 et 0.5 droite, avec des courbes dcroissantes quand
0 et croissantes quand 0,
6.12.3

Estimation de la densit spectrale dun processus

Supposons que nous ayons T observations dune srie temporelle, avec T impair, soit
T = 2m + 1. On dfini les frquences (dites parfois de Fourier) j = 2j/T pour
j = 1, ..., m. Considrons alors le modle de rgression
Yt = 0 +

m
X

j cos (j t) +

j=1

m
X
j=1

133

j sin (j t) ,

qui peut tre crit sous forme de modle linaire Y = X + , avec

0
1
1
..
.

Y1
1 cos (1 )
sin (1 ) cos (m )
sin (m )

..
..
..
..
Y = ... , X = ...
,

.
.
.
.

YT
1 cos (1 T ) sin (1 T ) cos (m T ) sin (m T )
m
m

et =

Lestimation de par la mthode des moindres carrs donne b = (X 0 X)1 X 0 Y . Compte


tenu des proprits suivantes
T
X
t=1

cos (j t) =

T
X

sin (j t) = 0,

t=1

T
X

cos (j t) =

t=1

T
X

sin2 (j t) =

t=1

T
pour tout j, (29)
2

et
T
X
t=1

cos (j t) sin (k t) =

T
X

cos (j t) cos (k t) =

t=1

T
X

sin (j t) sin (k t) = 0 pour j 6= k,

t=1

(30)
on peut montrer aisment que

b0

T
0 0
b1
b1 0 T /2 0


b = .. = ..
..
..
. .
.
.


bm
0
0 T /2
bm

Yt
P
cos (1 t) Yt
..
.
P
sin (m t) Yt

P
Y =
1/T.
Yt
P
2/T. cos (1 t) Yt
..
P .
2/T. sin (m t) Yt

et la variance empirique des observations (Yt ) est donne ( un facteur 1/T prs) par

!2
!2
T
m
T
T
X
X
X
2 X
2
Yt Y =
cos (j t) Yt +
sin (j t) Yt .
T
t=1
t=1
t=1
j=1
Tout ceci permet de dfinir le priodogramme I () de la faon suivante

!2
!2
T
T
X
X
1
I () =
cos (t) Yt +
sin (t) Yt .
T
t=1
t=1
Dans cette expression, un facteur 1/2 a t introduit de telle sorte que la variance
empirique, donne par
T

1X
Yt Y ,

b (0) =
T t=1
134

soit gale la somme des aires des m rectangles, de hauteur I (1 ) , ..., I (m ), et de base
2/T . La somme des aires de ces rectangles approxime laire sous la courbe I () pour
0 ,
En utilisant (29) et (30) on peut crire
T 1
1
2X
I (j ) =
b (0) +

b (k) cos (j k) .

k=1

Cette fonction I () est alors la version discrte et empirique de la densit spectrale f ().
Proposition 203. Si le processus est stationnaire, et si la densit spectrale existe, alors
I () est un estimateur sans biais de f () .
Supposons que (Yt ) soit un bruit blanc gaussien, cest dire Y1 , ..., YT sont i.i.d. et
distribus suivant une loi N (0, 2 ). Pour toute frquence de Fourier, = 2j/T ,
T
T
i
X
X
1 hb
2
2
b
b
b
Yt sin (t) .
Yt cos (t) et B () =
A () + B () o A () =
I () =
T
t=1
t=1

b () et B
b () sont centrs, et dont les variance sont donnes
Il est facile de montrer que A
par
T
T




X
X
2
2
b () = 2
b () = 2
V A
cos2 (t) = T
et V B
sin2 (t) = T ,
2
2
t=1
t=1

et dont la covariance est nulle





b () , B
b () = E
cov A

T
X

!
Ys Yt cos (s) sin (t)

s,t=1

= 2

T
X

!
cos (t) sin (t)

= 0.

t=1

b () / 2T 2 et B
b () / 2T 2 sont indpendant, et asymptotiquement
De plus, A
distribus
suivanti une la mme loi, normale, centre et rduite.
Et donc,
h
2
2
2
b
b
2 A () + B () /T est asyptotiquement distribu suivant une loi du chi-deux,
2 degrs de libert. Aussi, I () ( 2 /) 2 (2) /2, ce qui montre bien que I ()
est un estimateur sans biais de f () = 2 /, mais il nest pas consistant puisque
V (I ()) = 4 / 2 9 0 quand T .
Proposition 204. Soit (Yt ) un processus gaussien , de spectre f () Soit I (.) le priodogramme obtenu partir de lchantillon Y1 , ..., YT , posons j les frquences de Fourier,
au sens o j = 2j/T pour j < T /2. Dans ce cas, quand T ,on a les rsultats
suivants;
(i) I (j ) f (j ) .2 (2) /2
(ii) I (j ) et I (k ) sont indpendant pour j 6= k.
135

Remarque 205. La mthode de calcul des I (1 ) , ..., I (m ) prsent dans cette partie
ncessite de lordre de T 2 oprations. La Fast Fourier Transform permet daugmenter les
temps de calcul puisque seulement T log2 T oprations sont ncessaires (le gain en temps
est alors en T / log2 T : pour 100 observations, les calculs sont alors 15 fois plus rapides).
Remarque 206. Considrons la srie (Xt ) dfinie par Xt = 5 cos (t/36) + 7 sin (t/12) + t
o t N (0, 1), reprsente ci-dessous gauche. Sa densit spectrale est reprsente cidessous On note deux maximums locaux, aux priodes 110 et 35 (correspondants aux
paramtres 1/36 et 1/12).

136

Estimation des modles ARIM A : Box-Jenkins

Louvrage de Box et Jenkins Time series analysis, forecasting and control , publi en 1970
a propos une dmarche de prvision pour les sries univaries, fonde sur lutilisation de
processus ARIM A.
Les tapes pour lestimation des coefficients dun processus ARIM A sont les suivantes
(1) identification
(i) choix de d : combien de fois faut-il diffrencier pour obtenir une srie stationnaire (autocorrlogrammes, tests statistiques...)
(ii) choix de p et q : ordres respectifs des composantes AR et M A
(2) estimation des paramtres
estimation des i et des j : paramtres respectifs des composantes AR et M A
(3) vrification a posteriori
(i) significativit des paramtres
(ii) validation de lhypothse de bruit blanc des rsidus
Remarque 207. Il convient de retenir, comme en conomtrie, le modle le plus parcimonieux, utilisant le moins de paramtres, et ayant le meilleur comportement en prvision.

7.1
7.1.1

Estimation du paramtre dintgration d


Approche empirique par lautocorrlogramme

Comme nous lavons vu dans la partie (2.4.3), les moments empiriques convergent, avec
en plus normalit asymptotique (sous certaines conditions).
En pratique, si b (h) est proche de 1 (pour un grand nombre de retards), on a une racine
unit, et le processus nest pas stationnaire. On peut gallement penser diffrencier si
les premiers (h) sont proches les uns des autres, mme si (1) semble assez diffrent de
1. Il est noter que pour des sries conomiques, il est assez rare davoir d 3.
Exemple 208. Les graphiques ci-dessous reprsentent les sries (en haut) et les autocorrlogrammes (en bas) de Xt , de Xt et de 2 Xt On peut dailleurs noter que si lon
continue diffrencier, on a toujours des sries stationnaires
7.1.2

Tests de racine unit

La prsentation sera ici inspire de celle de Hamilton Time Series Analysis (1994).
Le test de Dickey & Fuller simple Ce test permet de tester lhypothse H0 : le
processus suit une marche alatoire contre lhypothse alternative Ha : le processus suit
un modle AR (1). Ces tests peuvent tre regroups en 4 cas :
(1) Yt = Yt1 + t : on teste H0 : = 1 (marche alatoire sans drive)
(2) Yt = + Yt1 + t : on teste H0 : = 0 et = 1 (marche alatoire sans drive)
(3) Yt = + Yt1 + t : on teste H0 : 6= 0 et = 1 (marche alatoire avec drive)

137

(4) Yt = + t + Yt1 + t : on teste H0 : = 0, = 0 et = 1 (marche alatoire


sans drive)
Le test de Dickey & Fuller, dans le cas (1), se construit comme un test de Sutdent de
lhypothse = 1, ou plutt 1 = 0. Etant donn lestimateur naturel de , on peut
noter que
P
t Yt1
b 1 = P
Yt1
Le test de Dickey & Fuller augment Ce test permet de tester lhypothse H0 : est
intgr dordre au moins 1 Ha : le processus suit un modle AR (p). Ces tests peuvent
tre regroups en 4 cas :
(1) (L) Yt = t : on teste H0 : (1) = 0
(2) (L) Yt = + t : on teste H0 : = 0 et (1) = 0
(3) (L) Yt = + t : on teste H0 : 6= 0 et (1) = 0
(4) (L) Yt = + t + t : on teste H0 : = 0, = 0 et (1) = 0
Ces 4 cas peuvent tre rcrits en introduisant les notations suivantes,
" p1
#

X
0 = (1) 1

i
(L) = (1)+(1 L) (L) = (1)
i L (1 L) o
i = i1 i = i+1 + ... + p
i=0

pour i = 1, ..., p. En P
posant = 1 (1), on peut rcrire les 4 cas en
(1) Yt = Yt1 + P
i yti + t : on teste H0 : = 1
(2) Yt = + Yt1 + P i yti + t : on teste H0 : = 0 et = 1
(3) Yt = + Yt1 + i y
P ti + t : on teste H0 : 6= 0 et = 1
(4) Yt = + t + Yt1 + i yti + t : on teste H0 : = 0, = 0 et = 1
Les statistiques de tests
P et leurs lois Pour simplifier, on crira
(1) Yt = Yt1 + i yti
P + t , avec = 1 appel Modle [1]
(2 3) Yt = + Yt1 + Pi yti + t appel Modle [2]
(4) Yt = + t + Yt1 + i yti + t appel Modle [3]
Les tables ci-aprs, ont t tabules par Dickey & Fuller (1979), et sont analogues aux
tables du t de Student. Dans le cas simple, le paramtre (ou ) est estim par la
mthode des moindres carrs ordinaires. Lestimation des coefficients et des cart-types
du modle fournit un t , analogue la statistique de Student dans les modles linaires
(rapport du coefficient sur son cart-type). Si tb est suprieur au t tabul, on accepte H0 ,
hypothse dexistence dune racine unit, et le processus nest alors pas stationnaire.
Il est aussi possible deffectuer ce test en utilisant nbn , o bn est lestimateur de
obtenu partir de n observations. Si cette valeur (empirique) est suprieure celle tabule
(et donne dans la deuxime table), on accepte lhypothse H0 .
Mise en place pratique des tests
> library(urca)
> summary(ur.df(y=,lag=1,type="trend"))

138

Il est aussi possible de laisser le logiciel choisir le nombre optimal de retard considrer
( laide du BIC, e.g.)
> library(urca)
> summary(ur.df(y=,lag=6,selectlags="BIC",type="trend"))

On choisit tout dabord un p suffisement grand pour que (L) Xt suive peu prs un
bruit blanc. On choisit alors parmi les cas proposs suivant que le graphique de la srie
prsente, ou pas, une tendance linaire.
Exemple 209. Considrons la srie dcrit prcdement,
Le test (simple) de Dickey & Fuller revient estimer les 3 modles suivants,

Xt Xt1 = Xt1
Xt Xt1 = + Xt1

Xt Xt1 = + t + Xt1
et dans le cas du test aumgent, avec p = 2

Xt Xt1 = Xt1 [2 Xt1 + 3 Xt2 ]


Xt Xt1 = + Xt1 [2 Xt1 + 3 Xt2 ]

Xt Xt1 = + t + Xt1 [2 Xt1 + 3 Xt2 ]


Le troisme modle scrit, compte tenu des sorties obtenues ci-dessous,


Xt = 0.048502 + 0.00919t 0.000083Xt1 1.01516Xt1 0.022332Xt2
(0.092874)

(0.000466)

(0.0000244)

(0.035561)

(0.035629)

avec n = 794. Les valeurs du test de Dickey & Fuller sont donnes par
En rpettant ce test en changeant la forme du modle (ici sans trend + t, et en
changeant lordre p), on confirme ce rejet de H0 : la srie Xt possde une racine unitaire et
nest pas stationnaire : la statistique de test ADF Test Statistic est toujours suprieure
aux valeurs critiques :
En faisant le test sur la srie diffrencie une fois (Xt ),on observe l aussi que lADF
Test Statistic est toujours suprieure aux valeurs critiques : H0 est encore accepte,
et donc la srie Xt possde elle aussi une racine unitaire et nest donc pas stationnaire
Le test de Dickey & Fuller appliqu cette fois-ci 2 Xt donne les rsultats suivants,
Cette fois-ci, le test de Dickey & Fuller permet de rejeter H0 : 2 Xt na pas de racine
unitaire, et la srie 2 Xt est donc stationnaire. Ce test valide les rsultats graphiques de
lexemple (208) : la srie Xt est intgre dordre 2 : d = 2.
139

Remarque 210. Dans le cas de sries financires (par exemple), il convient de faire
attention lors de la lecture des rsultats des tests de Dickey & Fuller : les processus
mmoire longue, bien que stationnaires, semblent avoir une racine unit. Avant de diffrencier afin dobtenir une srie stationnaire, il peut tre intressant de tester lhypothse
de mmoire longue du processus.
A retenir 211. Dans les tests de Dickey Fuller augment, trois (ou quatre) alternatives
sont proposes : avec ou sans tendance et constante. Il vaut mieux choisir lalternative
permettant de mieux dcrire la srie : si la srie (Xt ) nest pas centre, et que lon tente
un test de Dickey Fuller sans constante, il est possible il est possible H0 soit rejete, non
pas parce quil ny a pas de racine unit, mais parce que le modle test est mal spcifi
(cf exercice 16 de lexamen 2002/2003).
Complments sur les tests de racine unit Considrons une criture de la forme
(L) Xt = (L) t , o (t ) est un bruit blanc.

Lhypothse tester est (H0 ) : il existe tel que ei = 0, cest dire quune racine est
sur le disque unit (racine unit) le reste des racines tant lextrieur du risque unit :
(L) = (1 L) (L) o (1) 6= 0, avec les racines de lextrieur du disque unit.
Alors
Xt = (L)1 (L) t = (L) t = t ou Xt = Xt1 + t .

Lhypothse alternative (H1 ) scrit alors ei 6= 0 pour tout : na pas de racine
unit, et on suppose de plus que toutes les racines sont lextrieur du disque unit :
Xt = (L)1 (L) t = (L) t = t .
Les tests de Dickey-Fuller permet de tester cette hypothse : le test de rgression
scrit alors
b t1 + bt .
Xt = Xt1 + t dont lestimation est Xt = X
Il est alors possible de montrer que sous lhypothse (H0 ) : = 1 , la statistique de test
scrit
P
i
 2
b 1
Xt1 t
1 Xh
s2

b t1 et
b
Xt X
b b = P 2 ,
t=1 =   o b 1 = P 2 , s2 =
Xt1
T 1
Xt1

b b
 
avec
b b cart type (par moindre carrs) de lestimateur de , et sa distribution est
donne par
R1
b 1 L
Wt dWt

b
t=1 =   hR 0
i1/2 6= N (0, 1) o (Wt ) est un brownien standard sur [0, 1] .
1
2

b b
Wt dt
0
Cette distribution nest pas gaussienne, et des tabulations (obtenues par des mthodes de
type Monte-Carlo) sont ncessaire pour tabuler la distribution limite11 .
11

Le lien entre les processus intgrs et le mouvement brownien est donn page 31.

140

Tests de Phillips et Perron Ces tests non paramtriques ont t introduits en 1988.
La distribution thorique la base des tests de Dickey & Fuller repose sur lhypothse
dhtroscdasticit du bruit. La gnralisation des tests DF aux tests ADF se fait en
considrant
X
Yt = Dt + Yt1 + t Yt = Dt + Yt1 +
i yti + t ,
o (Dt ) est une tendance dterministe. La gnralisation des tests DF propose par
Phillips et Perron consiste ne plus supposer que (t ) est un bruit blanc, et autoriser
que ce processus soit autocorrle. La gnralisation de ces tests au cas htroscdastique
a t propose par Phillips et Perron, les valeurs critiques correspondant celles des
tests ADF . Ces tests reposent sur des rsultats de la thorie de la convergence faible
fonctionelle (thorme central limite fonctionel (FCLT) par exemple). Lutilisation du
FCLT pour des tests de racines unit a t propos ds 1958 par White.
Si (Xt ) est un processus stationnaire alors les statistiques calcules sur ce processus vrifiront le FCLT. Considrons par exemple le cas AR (1), Xt = Xt1 + t pour
t = 1, ..., T , et cherchons tester = 1 (hypothse H0 ). En supposons H0 vrifie, et
considrons la somme partielle du processus dinnovation,
St = Xt X0 =

t
X

i .

i=1

On prendra comme valeur initiale de (St ), S0 = 0, mais pour le choix de X0 trois possibilits sont gnralement envisages : (i) X0 = c (constante), (ii) X0 admet une distribution
spcifie a priori, (iii) X0 = XT . Cette dernire condition, dite hypothse de cicularit, a
t propos par Hotelling. Phillips
avait suggr la seconde possibilit.

En notant XT (r) = S[T r] / T , il possible de montrer (cd partie prcdante) que XT (r)
converge faiblement (not =) vers un mouvement brownien (cf. Billigsley (1968)).
n
o
+
Proposition 212. Si (t ) vrifie lhypothse () et si sup |t |
< pour > 0 et
> 0 alors, quand T , sous lhypothse H0 : = 1 dans le modle Xt = Xt1 + t
on a les rsultats suivants
Z 1
T
1 X 2
2
X =
Ws2 ds
(i) 2
T t=1 t1
0


T
1X
2
2
2
(ii)
Xt1 (Xt Xt1 ) =
W1 2
T t=1
2

1 W12 2 / 2
(iii) T (b
1) =
R1
2
Ws2 ds
0

(iv) b 1
141

v
u T
X
b 1 u
W12 2 / 2
t
qR
(v) tb =
(Xt Xt1 )2 =
1

b
2

t=1
Ws2 ds
0
Proof. Phillips (1987), Testing for a unit root in a time series regression.
Le point (iv) montre que les moindres carrs ordinaires conservent la proprit de
convergence quand il y a une racine unit.
Exemple 213. En reprenant la srie de lexemple (208), on retrouve que la srie (Xt )
admet une racine unit, que lon teste un modle simple, sans constante ni tendance (
gauche), ou avec tendance et constante ( droite),
avec les mmes conclusions pour la srie diffrencie une fois,
En revanche, dans le cas de la srie diffrencie deux fois, tous les tests valident
lhypothse dabsence de racine unit
Remarques complmentaires Un certains nombres dtudes sur des donnes simules
ont montr que ces tests rejettent difficilement lhypothse H0 dans le cas de sries dsaisonnalise. Il est alors parfois intressant dagrger des donnes mensuelles en donnes annuelles, et de tester si la srie annuelle prsente une racine unit. Nelson et
Plosser (1992) ont montr que les racines unitaires caractrisent un grand nombre de
sries macroconomiques.
Le test de Schmidt-Philipps repose sur lide que dans le cas du test ADF de type
4 - avec tendance linaire - linterprtation des paramtre nest pas la mme : considrons
le modle Yt = + t + Yt1 + t et lhypothse H0 : = 0 et = 1. Sous H0 et
lhypothse alternative Ha , on a respectivement
H0 : Yt = Y0 + t +

t
X

tk


et Ha : Yt = +

k=0

k tk .
+ (1 ) +
1
k=0

Autrement dit, sous Ha , (Yt ) est stationnaire autour dune tendance dterministe dont la
pente est (1 ), alors que sous H0 , (Yt ) est non stationnaire, avec pour tendance .
Aussi, Schmidt et Philipps ont propos de modliser (Yt ) sous la forme Yt = + t + Xt
o (Xt ) est non stationnaire sous H0 et (Xt ) est stationnaire sous Ha . On a alors



Yt = + t + Xt
H0 = 1
2
o || 1 et (t ) BB 0, et on teste
.
Xt = Xt1 + t
Ha < 1
7.1.3

Tests de racines unitaires saisonnires

Dans le cas dune modlisation SARIM A, avec une saisonnalit dordre s, il peut tre
intressant de tester lordre s. Un certain nombre de tests on t mis en oeuvre dans les
annes 80 et 90, en particulier pour tester de la saisonnalit lordre 4 et lordre 12.

142

Tests de Hasza et Fuller (1982) et de Osborn, Chui, Smith & Birchenhall


(OCSB, 1988) Hasza et Fuller ont considr le modle
Yt = 1 Yt1 + s Yts + s+1 Yts1 + t
o (t ) est un bruit blanc. Lhypothse H0 scrit ici H0 : 1 = s = s+1 = 1.
Osborn, Chui, Smith et Birchenhall ont alors tendu cette approche sous la forme
s

(L) (1 L) (1 L ) Yt =

s
X

s Ds,t + (1 Ls ) Yt1 + (1 L) Yts + t

i=1

Si lon accepte lhypothse = 0, la diffrence lordre s est approprie, et si =


= 0, alors le filtre (1 L) (1 Ls ) est ncessaire.
Test de Hylleberg, Engle, Granger et Yoo (HEGY , 1990) Ce test utilise la
dcomposition des polynmes (1 L4 ) et (1 L12 ), avec respectivement 4 et 12 racines
units : dans le cas dune saisonnalit lordre s = 12, on considre une criture de la
forme

(L) P8 (L) Yt = t + 1 P1 (L) Yt1 + 2 P2 (L) Yt2 + 3 P3 (L) Yt1 + 4 P3 (L) Yt2 + 5 P4 (L) Yt1 +
+7 P5 (L) Yt1 + 8 P5 (L) Yt2 + 9 P6 (L) Yt1 + 10 P6 (L) Yt2 + 11 P7 (L) Yt1 +
o les polynmes retards Pi sont dfinis par

P1 (L) = (1 + L) (1 + L2 ) (1 + L4 + L8 )

4
P3 (L) = (1 L2 ) (1 + L
+ L8 ) 

P (L) = (1 L4 ) 1 + 3L + L2 (1 + L2 + L4 )

5
P7 (L) = (1 L4 ) (1 L2 + L4 ) (1 + L + L2 )

et
et
et
et

2
P2 (L) = (1 L) (1 + L
) (1 + L4 + L8 ) ,
4
P4 (L) = (1 L ) 1 3L + L2 (1 + L2 + L4
P6 (L) = (1 L4 ) (1 L2 + L4 ) (1 L + L2 ) ,
P8 (L) = (1 L12 ) .

(i)

Les variables Zt = Pi (L) Yt sont alors associes aux diffrentes racines du polynme. On
peut alors considrer les t de Student pour les variables 1 et 2 , ainsi que les F de Fisher
associs aux couples.(3 , 4 ) , (5 , 6 ) , (7 , 8 ) , (9 , 10 ) et (11 , 12 ).
Test de Franses ( 1990) Ce test a t mis en place pour tester une saisonnalit
lordre 12.
Dtection graphique dune racine unitaire saisonnire Considrons les sries
suivantes, (Xt ), (Yt ) et (Zt ) comportant respectivement une racine unitaire saisonnire
dordre 2, 4 et 12,
Sur ces trois graphiques, en considrant la srie partielle des autocorrlogrammes
rs (h) = | (sh)| , on obtient une srie constante, proche de 1, de mme que
lautocorrlogramme dune srie en prsence de racine unitaire.
Toutefois, si ce genre de comportement laisse penser quil y a une racine unitaire
saisonnire, lordre s nest pas ncessairement celui indiqu par lautocorrlogramme : une
srie saionnire dordre 4 peut avoir un autocorrlogramme proche de celui de gauche.
143

7.1.4

Complment sur la notion de sur-diffrentiation

Considrons la srie suivante, correspondant une marche alatoire (Xt ). On notera alors
Yt = (1 L) Xt et Zt = (1 L) Yt , autrement dit, on diffrencie respectivement une fois
et deux fois la marche alatoire. On reprsentera respectivement les autocorrlations et
les autocorrlation inverses, au centre et droite,
Comme nous lavons dj voqu, lautocorrlogramme de la srie (Xt ) permet - a priori
- de conclure la prsence dune racine unit. Le comportement de lautocorrlogramme
inverse de la srie (Zt ) prsente, de faon moins nette certes, le mme genre de comportement.
On peut noter galement sur les autocorrlogrammes de (Yt ), correspondant un bruit
blanc, que les autocorrlations et les autocorrlations inverses sont identiques (ce qui est
une caractrisation des bruits blancs).
[A COMPLETER]

7.2

Estimation des ordres p et q dun modle ARM A (p, q)

Pour lestimation des paramtres p et q, on utilise le fait que si (Xt ) suit un


ARIM A (p, d, q), alors (1 L)d Xt suit asymptotiquement un processus ARM A (p, q).
En pratique, lide est daplliquer la rgle suivante : si (Xt ) ARIM A (p, d, q) alors
(1 L)d Xt ARM A (p, q).
On appelle processus ARM A (p, q), un processus stationnaire (Xt ) vrifiant une relation du type
p
q
X
X
Xt +
i Xti = t +
i ti pour tout t Z,
(31)
i=1

j=1

o les i sont des rels et (t ) est un bruit blanc de variance 2 . (22) est quivalent
lcriture

(L) = I + 1 L + ... + q Lq
(32)
(L) Xt = (L) t o
(L) = I + 1 L + ... + p Lp .
On supposera de plus que les polymes et nont pas de racines en module strictement
suprieures 1 (criture sous forme canonique), et nont pas de racine commune. On
supposera de plus que les degrs de et sont respectivement q et p, au sens o q 6= 0
et p 6= 0.
7.2.1

Problmes dunicit de la reprsentation ARM A

On peut noter que lcriture ARM A (32) nest pas unique. En effet, il suffit de multiplier
gauche et droite de (32) par un mme polynme en L, (L). Alors, en posant (L) =
(L) (L) et (L) = (L) (L), on peut noter que (L) Xt = (L) t .
Proposition 214. Soit un polynme dont les racines z C soient toutes lextrieur
du disque unit. Alors lquation (L) Xt = (L) t admet une solution stationnaire
(Xt ) et celle-ci est unique.
144

Dfinissons la matrice suivante, partir des autocorrlations (h)


tionnaire (Xt )

(i)
(i 1)
(i 2)
(i j + 2)
(i + 1)

(i)

(i

1)
(i j + 3)

..
. (i j + 4)
(i + 2)
(i + 1)
(i)

i,j =
...
...
...

(i + j 2) (i + j 3) (i + j 4) . . .
(i)
(i + j 1) (i + j 2) (i + j 3)
(i + 1)

du processus sta
(i j + 1)
(i j + 2)

(i j + 3)

(i 1)
(i)

et soit (i, j) son dterminant.


Dfinition 215. Un processus (Xt ) est un ARM A (p, q) minimal si (L) Xt = (L) t
o (t ) est un bruit blanc et o et sont de degr respectif p et q (avec p =
6 0 et
q 6= 0) dont les racines sont de module suprieur 1, et o et nont pas de racines
communes.
Proposition 216. Le processus (Xt ) est un ARM A (p, q) minimal si et seulement si
(i) (i, j) = 0 pour i q + 1 et j p + 1,
(ii) (i, j) 6= 0 pour i q,
(iii) (i, j) 6= 0 pour j p.
Autrement dit, on peut construire le tableau des (i, j), et il aura la forme suivante
pour un processus ARM A (p, q) minimal,
i\j
1
2
..
.
q
q+1
q+2
..
.
soit

1
(1, 1)
(2, 1)
..
.

2
(1, 2)
(2, 2)
..
.

p
(1, p)
(2, p)
..
.

p+1
p+2

(1, p + 1) (1, p + 2)
(2, p + 1) (2, p + 2)
..
.

(q, 1)
(q, 2)

(q, p)
(q, p + 1) (q, p + 2)
(q + 1, 1) (q + 1, 2) (q + 1, p)
0
0

(q + 2, 1) (q + 2, 2)
(q + 2, p)
0
0

..
..
..
..
..
.
.
.
.
.


Dp,q
Dq

Dp
0

o les termes Dp,q , Dq et Dp sont non-nuls.


Remarque 217. Dans le cas dun processus M A (q), le tableau des (i, j) a la forme

145

suivante

Dq
0


=

i\j
1
2
..
.
q
q+1
q+2
..
.

1
2
(1, 1) (1, 2)
(2, 1) (2, 2)
..
..
.
.
(q, 1) (q, 2)
0
0
0
0
..
..
.
.

Remarque 218. Dans le cas dun processus AR (p), le tableau des (i, j) a la forme
suivante

Dp

i\j

1
0 =
2
..
.

1
2

p
p + 1 p + 2
(1, 1) (1, 2) (1, p)
0
0

(2, 1) (2, 2) (2, p)


0
0

..
..
..
..
..
.
.
.
.
.

Lautocorrlogramme partiel scrit a (h) = (1)j1 (1, j) / (0, j) o (0, j) est


strictement positif (comme dterminant dune matrice de corrlation) pour un AR (p),
et donc a (h) = 0 pour h p + 1.
7.2.2

Comportement asymptotique des moments empiriques

Nous avions vu dans la partie (2.4.3) que les moments empiriques ( (h) , (h) , i (h) ...)
convergeaient vers les vraies moments.
Proposition 219. Sous lhypothse o (Xt ) M A (q), et que (t ) est stationnaire
lordre 4, alors

bT (h) (h)
L
Tp
N (0, 1) pour h > q.
Pq
2
1 + 2 k=1 (k)
Cette proposition permet en particulier davoir lintervalle de confiance 95% des
autocorrlations,
"
#
r
Pq
2
1 + 2 k=1 (k)
bT (h) 1.96
.
(33)
T
Proposition 220. Sous lhypothse o (Xt ) AR (p), et que (t ) est stationnaire
lordre 4, alors

L
T [b
aT (h) a (h)] N (0, 1) pour h > q.
Cette proposition permet en particulier davoir lintervalle de confiance 95% des
autocorrlations partielles,


1
b
aT (h) 1.96
,
T
146

(rsultat de Quenouille, 1949 ).


Sur un processus MA(1) simul, par dfaut, lintervalle de confiance est le suivant
> X=arima.sim(list(order=c(0,0,1),ma=.8),n=240)
> acf(X,col="red",lwd=5)

mais il est possible davoir la version MA de lintervalle de confiance


> acf(X,col="red",lwd=5, ci.type="ma")

7.2.3

Mthode pratique destimation des ordres p et q

Pour estimer les ordres p ou q, on utilise les proprits vues prcdemment sur les formes
des autocorrlogrammes ( (h)) ou des autocorrlogrammes partiels (a (h)). En particulier
(i) pour les processus AR (p) lautocorrlogramme partiel sannule partir de p (
gauche)
(ii) pour les processus M A (q) lautocorrlogramme sannule partir de q ( droite)
Remarque 221. Sil reste de la saisonnalit, celle-ci apparatra galement dans les autocorrlogrammes

147

7.2.4

Cas dun processus M A (q)

Si (Xt ) suit un processus M A (q), on peut noter que la variance des autocorrlations
empiriques est donne par la relation
V (b
(h)) 1 + 2

q
X

2 (i) , pour h > q,

i=1

et donc, on peut prendre comme estimation de lcart-type


v
u
q
X
1 u
t

b (b
(h)) =
b2 (i).
1+2
T
i=1
En pratique, on identifie q, ordre dun processus M A (q) comme la premire valeur
partir de laquelle les (h) sont dans lintervalle dont les extrmits sont dlimites par
1/2
1.96 
1 + 2 b2 (1) + b2 (2) + ... + b2 (h 1)
,
T
puisque sous lhypothse o le processus est effectivment un M A (q)


L
T b (h) N 0, 1 + 2 2 (1) + ... + 2 (q 1) pour h > q.
7.2.5

Cas dun processus ARM A (p, q)

La mthode du coin (Beguin, Gourieroux, Monfort) La mthode suivante, dite


mthode du coin permet destimer conjointement p et q lorsque les deux sont non-nuls.
Elle est base sur la proprit (216) . Les valeurs de ij o

(i)
(i 1)
(i 2)
(i j + 2) (i j + 1)
(i + 1)
(i)
(i 1)
(i j + 3) (i j + 2)

..
.
(i + 2)
(i j + 4) (i j + 3)
(i + 1)
(i)

i,j =
...
...
...

.
.
(i + j 2) (i + j 3) (i + j 4)
.
(i)
(i 1)
(i + j 1) (i + j 2) (i + j 3)
(i + 1)
(i)
sont inconnues mais peuvent tre estime par les b (h). On pose alors (i, j) = det ij ,
b (i, j) = det
b ij . Les
b (i, j) sont alors des
qui sera, de la mme faon, estim par
estimateurs convergents des (i, j) (par continuit du dterminant). Les coefficients p et
q sont alors les valeurs pour lesquels sobservent une rupture. La variance asymptotique
b (i, j)est une fonction diffrentiable du vecteur des autocorrlations b (h), avec une
de
loi normale asymptotique.
Un test
est bas sur lutilisation de la statistique de Student
r de nullit

b (i, j) / Vb
b (i, j) , qui doit tre compare 1.96 pour un seuil de 5%.

148

Exemple 222. Considrons le processus simul (sur 250 valeurs) (1 0.5L) Xt =


(1 + 0.1L 0.7L2 ) t o (t ) est un bruit blanc gaussien de variance 1
Le tableau des ij est donn par
i\j
1
2
3
4
5

1
0.352
0.296
0.316
0.179
0.036

2
3
4
5
i\j
0.420 0.006
0.095 0.003
1
0.199 0.067 0.022 0.006
2

0.047 0.006
0.001
0.003
3
0.021 0.000 0.001 0.001
4
0.010 0.002
0.001
0.000
5

En effet, par exemple, le terme 1,2 est donn par




(1) (0) 0.352
1
=
1,2 =


(2) (1)
0.296 0.352

1
0.352
0.296
0.316
0.179
0.036

2
3
4
5
0.420 0.006 0.095 0.003
0.199 0.067 0.022 0.006
0.047 0.000 0.000 0.000
0.021 0.000 0.000 0.000
0.010 0.000 0.000 0.000



= 0.3522 + 0.296 = 0.420.

Lapproximation indique ci-dessous semble valider lhypothse de modlisation


ARM A (1, 2). Cette intuition est confirme en tudiant le tableau des Student.
Utilisation de la fonction dautocorrlation tendue (Tsay, & Ciao) Cette mthode est appele EACF (Extended Autocorrelation Function). Pour cela, on effectue des
regressions linaires, de faon itrative pour calculer les paramtres AR dun ARM A
(stationnaire ou pas). Ensuite, partir de cette estimation, la srie observe est modlise sous forme M A.
Soit (Xt ) un processus ARM A (p, q) dont on observe n ralisations, suivant le modle
(L) Xt = (1 L)d (L) Xt = (L) t o (t ) suit un bruit blanc de variance 2 .
Sur la partie autorgressive du processus, on utilise une rgression linaire pour obtenir
des estimateurs (par moindres carrs) des paramtres autorgressifs de la composante
AR. On dfinit alors la premire regression
Xt =

p
X

|i=0

p,1
p,1 p,0
p,1
i Xti + i t1 + ut .

{z

Forme autorgressive

Ce modle est estim par les mco. On dfinit alors la k-me rgression itrative dun
AR (m) quelconque
m
k
X
X
m,k
j,k
Xt =
i Xti +
jm,k tj
+ um,k
t ,
i=0

j=0

o les tj,k sont les erreurs du processus AR de la k-ime rgression, et les um,k
les rsidus
t
de la rgression. Comme on ignore lordre p de la partie autorgressive, on choisit m

149

variant de 1 p0 , et on effectue q 0 rgressions itratives : on choisira a priori p0 et q 0


suffisamment grands. Les paramtres peuvent alors tre estims rcursivement par
bm+1,j1
bm+1,j1 bm,j1 m+1
bm,j
=

.
i
i
i1
bm,j1
m
Ces paramtres sont alors utiliss pour dfinir la ESACF , fonction dautocorrlation
tendue, telle que la dfinie Tsay et Tia (1984),
Dfinition 223. On appelle fonction dautocorrlation tendue la fonction rj (m), fonction dautocorrlation du processus
jm

= Xt

m
X

bm,j
i Xti pour j = 1, 2, ...

i=1

Si le processus suit un ARM A (p + d, q) la srie jm suit un processus M A (q) pour


j q, cest dire

rj (p + d) 0 pour j > q
(34)
rj (p + q) 6= 0 pour j = q.
Lanullit thorique de (??) est interprte statistiquement par une valeur infrieur
1.96/ n.
> library(TSA)
> X=arima.sim(list(ar=c(.8,0,-.5),ma =
> extacf=eacf(X)
AR/MA
0 1 2 3 4 5 6 7 8 9 10 11 12 13
0 x x x x x x x x x o o x x o
1 x x x x x x x x x o x x x o
2 x x x x o o x x x x x o o o
3 x x x x o o o o o o x o o o
4 x x x x o x o o x o o o o o
5 x x x x o x o o x o o o o o
6 x o x o x o o o x x o o o o
7 o o x o x o o o o x o o o o
> extacf$eacf
[,1] [,2]
[,3]
[,4]
[,5]
[1,] 0.749 0.274 -0.270 -0.544 -0.495
[2,] 0.652 0.291 -0.404 -0.638 -0.494
[3,] -0.576 0.631 -0.301 0.186 0.022
[4,] 0.551 0.519 0.134 0.199 0.035
[5,] -0.440 0.496 -0.206 0.190 0.034
[6,] 0.500 0.302 0.140 0.154 0.042
[7,] 0.245 0.058 -0.245 -0.035 0.264
[8,] 0.058 0.045 -0.185 -0.035 0.163

c(.4,.6)),n=240)

[,6]
[,7]
[,8] [,9] [,10]
-0.198 0.160 0.358 0.341 0.114
-0.207 0.231 0.427 0.361 0.125
-0.130 0.163 -0.215 0.201 -0.139
-0.078 -0.022 -0.060 0.102 0.078
-0.155 0.054 -0.027 0.182 -0.002
-0.228 -0.092 -0.034 0.172 0.006
0.066 0.020 0.049 0.180 0.205
0.020 -0.074 0.007 0.049 0.188

On peut visualiser ces valeurs sur la figure suivante


150

Mthode SCAN Cette mthode vise utiliser la plus petite corrlation canonique
(smallest canonical correlation) pour identifier les ordres p et q. Considrons une srie Xt
que nous allons centrer, Zt = Xt , dont on observe n ralisations, suivant un processus
ARIM A (p, d, q). Cette mthode analyse les valeurs propres de la matrice de corrlation
du processus.
[A COMPLETER]
Exemple 224. Dans le cas dun processus ARM A (2, 1), les tables ESACF et SCAN
thoriques seront de la forme
Table ESACF
AR-MA 0 1 2 3
0
1
2 0 0 0
3 0 0
4 0

0
0
0

0
0
0

0
0
0

AR-MA
0
1
2
3
4

Table SCAN
0 1 2 3


0 0 0
0 0 0
0 0 0

0
0
0

0
0
0

0
0
0

o lordre de lAR se lit gauche, et lordre du M A se lit en haut. Dans lexemple


ci-dessous, nous avons simul 1500 ralisations dun tel processus.
Les sorties ESACF ,et SCAN peuvent se rcrire
AR-MA
0
1
2
3
4

Table ESACF
0
1
2
3
4
5
0.53
0.01 0.32 0.41 0.36 0.21
0.52
0.02 0.25 0.16 0.16 0.17
0.44 -0.03 -0.08 -0.06 0.00 -0.03
0.48 0.11 -0.10 -0.06 0.01 -0.02
0.50 0.51 0.40 0.02 0.05 -0.02

AR-MA
0
1
2
3
4

0
0.28
0.14
0.04
0.02
0.03

Table SCAN
1
2
3
4
0.00 0.10 0.17 0.13
0.14 0.12 0.02 0.01
0.00 0.00 0.00 0.00
0.00 0.00 0.00 0.00
0.00 0.00 0.00 0.00

Comme on peut le noter, la mthode SCAN donne de trs bon rsultats, et permet
didentifier les ordres 2 et 1.

151

7.2.6

Proprit des estimateurs

En notant = (1 , ..., p , 1 , ..., q )0 , on a le rsultat suivant


Proposition 225. Lestimateur du maximum de vraissemblance est convergent, et asymptotiquement normal,


  

T
(b

)
0

0
L
T

N
,
.
0
0 a
T (b
T )
Cette proprit permet de mettre en place des tests sur les paramtres.

7.3

Test de bruit blanc et de stationnarit

Lhypothse (Xt ) ARIM A (p, d, q) peut scrire (1 L)d (L) Xt = (L) t , ou encore
t = (L)1 (1 L)d (L) Xt .
Une fois estims les paramres d, p, q et lensemble des i et j , on obtient des polynmes
b (L) et
b (L), qui permettent dobtenir les rsidus estims,
estims
b (L)1 (1 L)d
b (L) Xt .
bt =
Pour que les modles obtenus prcdamment soient valides, il convient de vrifier que les
rsidus estims suivent bien un bruit blanc H0 : (t ) BB.
7.3.1

Analyse des fonctions dautocorrlation

Lautocorrlation peut tre estime par


nk



1 X
1X

b (h)
o
b (h) =
Xt X Xth X et X =
Xt .
b (h) =

b (0)
n h t=1
n t=1
Lintervalle
de confiance
de b (h) est, dans le cas dun bruit blanc gaussien
h
i

t/2 / T ; t/2 / T o t/2 est le quantile dordre /2 de la loi de Student (1.96


pour = 5%). Pour avoir un bruit blanc, il est ncessaire quaucune valeur de
lautocorrlogramme ne soit significativement non-nulle.
Exemple 226. Pour la srie (1) gauche, aucune valeur nest significativement nonnulle alors que pour la srie (2), droite, certaines le sont, en particulier pour h = 8 ou
h = 16.

152

7.3.2

Statistique de Box-Pierce, ou test de portmanteau

Le test de Box-Pierce permet didentifier les processus de bruit blanc (i.e. les processus
alatoires de moyenne nulle, de variance constante et non autocorrls). Cette statistique
permet de tester cov (t , th ) = 0 pour tout h, soit (h) = 0 pour tout h. Ce test scrit

H0 : (1) = (2) = ... = (h) = 0
Ha : il existe i tel que (i) 6= 0.
Pour effectuer ce test, on utilise la statistique de Box et Pierce (1970) Q, donne par
Qh = T

h
X

b2k ,

k=1

o h est le nombre de retards, T est le nombre dobservations et bk lautocorrlation


empirique. Asymptotiquement, sous H0 , Qh suit un 2 h degrs de libert. Nous
rejetons lhypothse de bruit blanc au seuil h si Q est suprieure au quantile dordre
(1 ) de la loi du 2 h degrs de libert.
Une statistique ayant de meilleurs proprits asymptotiques peut tre utilise :
Q0h

= T (T + 2)

h
X
k=1

bk
,
T k

qui suit asymptotiquement, sous H0 une loi du 2 h degrs de libert. Ces tests sont
appels par les anglo-saxons portmanteau tests, soit littralement tests fourre-tout.
Exemple 227. Cette statistique est gnralement fournie avec lautocorrlogramme
(Q-stat). Les deux sorties ci-dessous correspondent aux valeurs pour 2 sries de rsidus
La table du 2 est donne ci-dessous. A titre comparatif, nous obtenons le tableau
suivant
h
Srie (1)
Srie (2)
10% (h)
5% (h)

1
0.000
2.088
2.706
3.841

2
0.102
2.206
4.605
5.991

3
0.819
4.059
6.251
7.815

4
5
6
7
4.095 4.476 6.852 9.087
4.673 7.2646 8.643 10.341
7.779 9.236 10.645 12.017
9.488 11.070 12.592 14.067

8
10.676
19.234
13.362
15.507

9
11.310
19.281
14.684
16.919

10
11.388
19.281
15.987
18.307

Si la srie (1) est statistiquement un bruit blanc, il ne semble pas en tre de mme pour
la seconde srie, pour laquelle Qh est parfois trop eleve (en particulier partir de h = 8
- ce qui tait confirm par lanalyse graphique des autocorrlogrammes, avec cette valeur
(8) significativement non nulle).
> library(forecast)
> (modele=auto.arima(X))
Series: X
ARIMA(1,0,1)(2,1,0)[12] with drift

153

Coefficients:
ar1
-0.0344
s.e.
NaN

ma1
-0.0686
NaN

sar1
-0.444
NaN

sar2
-0.4048
0.0010

drift
69.1618
16.9562

sigma^2 estimated as 9819923: log likelihood=-692.24


AIC=1396.48
AICc=1397.75
BIC=1410.22
> plot(modele$residuals)

> acf(modele$residuals,lwd=3,col="red")

Il est possible dutiliser les tests de Box-Pierce ou Ljung-Box


> Box.test(modele$residuals,lag=6,type="Box-Pierce")
Box-Pierce test
data: modele$residuals
X-squared = 1.8304, df = 6, p-value = 0.9346
> Box.test(modele$residuals,lag=6,type="Ljung-Box")
Box-Ljung test
data: modele$residuals
X-squared = 1.9189, df = 6, p-value = 0.927

que lon peut aussi visualiser graphiquement


154

>
>
>
>
>
>
+

BP=function(h) Box.test(modele$residuals,lag=h,type="Box-Pierce")$p.value
LB=function(h) Box.test(modele$residuals,lag=h,type="Ljung-Box")$p.value
plot(1:24,Vectorize(LB)(1:24),ylim=c(0,1),type="b",col="blue")
points(1:24,Vectorize(BP)(1:24),ylim=c(0,1),type="b",col="red",pch=2)
abline(h=.05,lty=2)
legend(20,.4,
c("Box-Pierce", "Ljung-Box"),col=c("blue","red"),lty=1,pch=c(1,2))

7.3.3

Complments : les tests de normalit

Dans le cadre de la prvision, ou lors des tests de Student sur les paramtres, il convient de
vrifier la normalit des rsidus. Un test possible est celui de Bera & Jarque (1984), bas
sur le skewness (coefficient dasymtrie de la distribution) et la kurtosis (aplatissement paisseur des queues).


k
En notant k le moment dordre k de la distribution, k = E [X E (X)] , on
3/2

appelle skewness le coefficient s = 3 /2 et kurtosis k = 4 /22 . Sous des hypothses de


normalit, on a normalit des estimateurs du skewness et de la kurtosis,
 p

 p

L
L
s N 0, 6/T et k N 3, 24/T quand T .
Le test de Bera & Jarque repose sur le fait que, si la distribution suit une loi normale,
alors la quantit
T
T
BJ = s2 +
[k 3]2 ,
6
24
2
suit asymptotiquement une loi du 2 degrs de libert. Aussi, si BJ 21 (2) on
rejette lhypothse H0 de normalit des rsidus au seuil .
> jarque.bera.test(residuals(modele))
Jarque Bera Test
data: residuals(modele)
X-squared = 81.2819, df = 2, p-value < 2.2e-16

On peut aussi faire des tests graphiques, comme des QQ-plots


155

> library(car)
> qqPlot(modele$residuals)

Parmi les autres tests, il y a la statistique de test propose par Shapiro & Wilk,
P
2
( ni=1 ai Xi:n )
W = Pn
2
i=1 (Xi X)
o Xi:n dsigne la ime statistique dordre, et o
a = (a1 , . . . , an ) =

m0 V 1
(m0 V 1 V 1 m)1/2

o m = (m1 , . . . , mn )0 sont les esprances des statistiques dordre dun chantillon de


variables indpendantes et identiquement distribue suivant une loi normale, et V est la
matrice de variance-covariance de ces statistiques dordre.
> shapiro.test(residuals(modele))
Shapiro-Wilk normality test
data: residuals(modele)
W = 0.8659, p-value = 3.023e-07

7.3.4

Complment : Test de rupture et de changement de tendance

Perron a propos dintroduire, ds 1989, dans la rgression de Dickey & Fuller une variable
indicatrice spcifiant lexistence dune rupture. La date de rupture peut dailleurs tre
156

connue ou inconnue. Dans le cas o elle est inconnue, une procdure squentielle permet de
la localiser. Ce lien entre les tests de racine unit et les changements de structure ont donn
lieu de nombreuses publications depuis une dizaine dannes. Diffrentes formes de
changement de structure ont dailleurs t tudies : changement de niveau, changement
du coefficient de tendance linaire, changement sur les coefficients des variables de la
modlisation... etc.
> library("strucchange")
> library(datasets)
> plot(Nile)
> breakpoints(Nile~1,breaks=1)
Optimal 2-segment partition:
Call:
breakpoints.formula(formula = Nile ~ 1, breaks = 1)
Breakpoints at observation number:
28
Corresponding to breakdates:
1898
> abline(v=time(Nile)[breakpoints(Nile~1,breaks=1)$breakpoints],col="red")

breakpoint-Nile.png
Les tests de racine unit Plusieurs tests ont t implments afin de tester lhypothse
nulle que la srie stationnaire (Yt ) possde une racine unit et une constante, ventuellement nulle, avec une rupture au temps o 1 < < T , contre lhypothse alternative
que la srie soit stationnaire autour dune tendance linaire avec rupture en sur cette
tendance. Une distinction est alors gnralement apporte entre deux cas :
AO - additive outliers - effet instantann
157

IO - innovational outliser - effet avec transition


Pour chacun des effets, trois modles sont alors considrs : dans la version AO

pour t = 1, ..., T,
(1) Xt = + t + DUt ( ) + Yt
pour t = 1, ..., T,
(2) Xt = + t + DTt ( ) + Yt

(3) Xt = + t + DUt ( ) + DTt ( ) + Yt pour t = 1, ..., T,


o (Yt ) est la srie (Xt ) laquelle on a retir la tendance dterministe, avec DUt ( ) = 1
si t > et 0 sinon (DUt ( ) = I (t > )) et DTt ( ) = (t ) si t > , 0 sinon (DTt ( ) =
[t ] .I (t > )). La mise en oeuvre du test se fait en deux tapes ;
(i) estimation (par une mthode de type moindre carrs) de la tendance avec les modles de rgression (1), (2) et (3), et calcul de la srie rsiduelle obtenue en retranchant
la srie observe la tendance estime
(ii) pour les modles (1) et (3), le test est bas sur la valeur de la t-statistique relative
= 0, not tb ( ) et correspond au test de racine unit dans la rgression ADF
Yt = Yt1 +

k
X
j=0

dj DT Btj ( ) +

k
X

i Yti + t

o DT Btj ( ) = I (t = + 1) .

i=1

Pour le modle (2), la seconde tape consiste effectuer la rgression


Yt = Yt1 +

k
X

i Yti + t ,

i=1

et utiliser la t-statistique tb ( ) pour effectuer les tests classiques ADF .


Dans la version IO, les quations de rgression scrivent

i
h
Pk

c
X
+

pour t = 1
(1)
X
=

+
t
+
DU
(
)
+
DT
B
(
)
+
X
+

ti
t
t
t
t
t1
i=1 i

i
h
P
pour t = 1
(2) Xt = + t + DTt ( ) + Xt1 + ki=1 ci Xti + t

h
i

(3) Xt = + t + DUt ( ) + DT Bt ( ) + DTt ( ) + Xt1 + k ci Xti + t pour t = 1


i=1
o, encore une fois, DT Bt ( ) = I (t = + 1). Le test de Zivot et Andrews (1992) considre seulement les modles de type IO, sans introduire lindicatrice DT Btj ( ) (la
justification tant que ce coefficient est asymptotiquement ngligeable)12 .
Toutefois, dans le cas gnral, la date de rupture est inconnue, ainsi que le paramtre
k, permettant dapprocher le processus ARM A (p, q) par un processus AR (k + 1). Diffrentes mthodes pour slectionner k ont t propose par Perron (1989et 1993) pour
les trois modles et les deux types deffets, AO et IO. Les procdures squentielles
didentification de Zivot et Andrews (1992) et de Perron (1993) permettent de dterminer
, ou plutt = /T . Cette mthode consiste estimer les modles de rgressions (A),
12

Ce test est voqu ici car il existe des codes tlchargeables sur internet, en EV iews, SAS ou Gauss.

158

(B) et (C) dans les deux cas AO et IO, et retenir le cas o tb ( ) = tb () est minimal.
Les auteurs ont tudi la disctribution asymptotique de inf tb () quand appartient
un intervalle ferm de ]0, 1[, = [3/20, 17/20] dans ltude de Zivot et Andrews. On
rejette alors lhypothse nulle de prsence de racine unit si inf {tb () , } est plus
petit que le fractile correspondant une probabilit fixe de la distribution asymptotique
de inf {tb () , }.
Les tests de Gregory et Hansen (1996) Ces tests sont une gnralisation des tests
de Zivot et Andrews dans le cas mutlivari, o Xt = (Xt1 , Xt2 ).
Les tests du CU SU M Ce test permet dtudier la stabilit dun modle
conomtrique estim au cours du temps. Il existe deux versions de ce test : le CU SU M
fond sur la somme cumule des rsidus rcursifs, et le CU SU M SQ (SQ pour square )
fond sur la somme cumule des carrs des rsidus rrursifs. Pour cela, on note (e
t ) le
rsidu normalis par rapport lcart-type, cest dire et = bt /b
, et on note k le nombre de paramtres estimer dans le modles. Les statistiques St du CU SU M et St0 du
CU SU M SQ sont dfinies par
Pt
ei
St = (T k) Pti=k+1 2 pour t = k + 1, ..., T,
ei
i=k+1
et
St0

Pt

= Pi=k+1
T

e2i

e2i
i=k+1

pour t = k + 1, ..., T.

Si les coefficients sont variables au cours du temps, alors les rsidus rcursifs St doivent
rester dans lintervalle dfini par


(2t + T 3k) (2t + T 3k)

St
,+
,
T k
T k
o = 1.143, 0.918 ou 0.850 suivant que le seuil est 1%, 5% ou 10%. De la mme faon,
les rsidus St0 doivent appartenir lintervalle


tT
tT
0
St
C,
+C ,
T k
T k
o C est la constante du Durbin. En fait, on peut montrer que sous lhypothse de
stabilit, lesprance de St0 est E (St0 ) = (t T ) / (T k) allant de 0 1 quand t varie
entre k et T . Plus prcisment, la variable St0 suit une loi Bta.
> cusum=efp(Nile~1,type="OLS-CUSUM")
> plot(time(Nile),cusum$process[-1],type="b",col="red")

159

> plot(cusum,alt.boundary = TRUE)

Le test de Chow ou test dhomoscdasticit Puisque les bruits blancs doivent tre
homoscdastiques, le test de Chow, visant comparer les variances des rsidus sur des
sous-priodes, peuvent tre utiliss13 .
> library("strucchange")
> plot(Fstats(Nile~1)$Fstats,col="blue")
13

Ce test nest pas dtaill ici puisquil se trouve dans tous les cours dconomtrie. Pour mmoire, ce
test est un test de Fisher : on considre un premier modle Y = Xm + m obtenu sur m observations,
et un second modle Y = Xn + n obtenu sur n observations. Le test de Chow permet de test lgalit
des coefficient : m = n , ainsi que V (m ) = V (n ) .

160

7.4

Estimation des paramtres dun modle ARM A (p, q)

A cette tape, les coefficients d, p et q ont t fixs. Il convient alors destimer les
paramtres i et j du processus ARIM A (p, d, q), ainsi que la volatilit 2 du bruit
blanc. Sous lhypothse t N (0, 2 ), on peut utiliser des mthodes du type maximum
de vraissemblance. On supposera ici que le processus (Xt ) est centr.
7.4.1

Attention la constante

Par dfaut, les modles ARMA ne sont pas ncessairement centrs. Comme nous lavons
not, la forme gnrale serait (pour un AR(1) par exemple)
Xt = a + Xt1 + t
Si la srie est stationnaire, de moyenne , alors devrait tre solution de
= a + , i.e. =

a
ou a = (1 ).
1

Si on considre un modle ARM A plus gnral (L)Xt = a + (L)t , alors a = (1).


Simulons un processus AR(1) de moyenne 2,
> X=arima.sim(list(order=c(1,0,0),ar=1/3),n=1000)+2
> mean(X)
[1] 1.931767

ou plus simplement, en utilisant une boucle rcursive


> X=rep(NA,1010)
> X[1]=0
> for(t in 2:1010){X[t]=4/3+X[t-1]/3+rnorm(1)}
> X=X[-(1:10)]
> mean(X)
[1] 2.03397

161

Lestimation avec R donne ici


> arima(X, order = c(1, 0, 0))
Call:
arima(x = X, order = c(1, 0, 0))
Coefficients:
ar1 intercept
0.3738
2.0334
s.e. 0.0294
0.0487
sigma^2 estimated as 0.9318:

log likelihood = -1383.68

Autrement dit, le coefficient appel intercept nest pas la constante a dans le modle
AR(1), mais la moyenne . Le modle estim est alors
(Xt ) = (Xt1 ) + t .
Ces deux formes sont (bien entendu) quivalentes. Mais les coefficients estims ne sont
pas tout fait ce que lon attendait...
Si on regarde maintenant la version intgre, i.e. un processus ARIM A(1, 1, 0), avec
une constante, on est tent dcrire
(1 L)(1 L)Xt = a + t ou (1 L)Xt = a + (1 L)Xt1 t .
Cette criture laisse penser quen intgrant, une tendance linaire apparatra. Posons
alors Yt = Xt t, prcisment pour enlever la tendance. Alors
(1 L)[Yt + t] = a + (1 L)[Yt1 + (t 1)] + t
qui peut se rcrire
(1 L)Yt = a + ( 1) + (1 L)Yt1 + t
i.e. Xt a(1 )1 t sera un processus ARIM A(1, 1, 0) sans constante.
Supposons ici que lon ingre le processus
1
Ut = 2 + Ut1 + t i.e. Xt = Xt1 + Ut ,
3
avec X0 = 0.
>
>
>
>
>

U=rep(NA,1010)
U[1]=0
for(t in 2:1010){U[t]=4/3+U[t-1]/3+rnorm(1)}
U=U[-(1:10)]
X=cumsum(U)

162

La simulation (brute) donne ici


> arima(X, order = c(1, 1, 0))
Call:
arima(x = X, order = c(1, 1, 0))
Coefficients:
ar1
0.8616
s.e. 0.0160
sigma^2 estimated as1.343:log likelihood = -1565.63

Mais cet estimation na rien voir avec ce qui a t simul. On peut tenter un processus
AR(1) (avec constante) sur la srie diffrencie,
> arima(diff(X), order = c(1, 0, 0))
Call:
arima(x = diff(X), order = c(1, 0, 0))
Coefficients:
ar1 intercept
0.3564
2.0200
s.e. 0.0295
0.0486
sigma^2 estimated as 0.9782:

log likelihood = -1406.6

Les estimateurs proposs voquent des choses que lon a pu voir, mme si ce nest pas
la constante du modle ARIMA, mais la moyenne du processus diffrenci. Mais cette
fois, on a un interprtation, cest que la constante est la pente de la tendance ! Si on
estime la pente associe a , on cupre la mme valeur,
> arima(X, order = c(1, 1, 0), xreg=1:length(X))
Call:
arima(x = X, order = c(1, 1, 0), xreg = 1:length(X))
Coefficients:
ar1 1:length(X)
0.3566
2.0519
s.e. 0.0296
0.0487
sigma^2 estimated as 0.9787:

log likelihood = -1406.82

Si on fait de la prvision (dtaille plus loin dans ces notes de cours), on obtient dans
le premier cas

163

>
>
>
>
+
>
>
+
+
>

ARIMA1=arima(X, order = c(1, 1, 0))


ARIMA2=arima(X, order = c(1, 1, 0), xreg=1:length(X))
Xp1=predict(ARIMA1,20)
Xp2=predict(ARIMA2,20,newxreg=
(length(X)+1):(length(X)+20))
plot(960:1000,X[960:1000],xlim=c(960,1020),type="l")
polygon(c(1001:1020,rev(1001:1020)),
c(Xp1$pred+2*Xp1$se,rev(Xp1$pred-2*Xp1$se)),
col=CL[3],border=NA)
lines(1001:1020,Xp1$pred,col="red",lwd=2)

alors quavec le modle prenant en compte la constante


> lines(1001:1020,Xp2$pred,col="blue",lwd=2)

7.4.2

Estimation pour les modles AR (p) par la m thode des moindres carrs

Un modle AR (p) scrit


Xt = c + 1 Xt1 + ... + p Xtp + t o (t ) est un bruit blanc,
= Zt0 + t o Zt0 = (1, Xt1 , Xt2 , ..., Xtp ) et 0 = (c, 1 , 2 , ..., p ) .
Lestimation des paramtres du modle X = Z 0 + par la mthode des moindres carrs
donne
2
X
1
1
b = (ZZ 0 ) ZX et
b2 =
Xt Zt0 b .
T (p + 1)
164

 
Toutefois, les rsultats usuels dconomtries ne sont pas vrifis ici, en particulier E b =
6
. Il est toutefois possible de montrer le rsultat suivant,
Proposition 228. Si les racines du polynme charactrisque (racines de (z) = 0) sont
lextrieur du disque unit alors
P
P
b et
b2 2 ,

et de plus




1
L
T b N 0, 2 V o V = p lim ZZ 0 .
T T
Remarque 229. Si la mthode des moindres carrs peut tre utilise pour estimer les
paramtres dun modle AR (p), elle ne marche plus ds lors que lon a des termes autorgressifs sur les rsidus.
7.4.3

Vraissemblance dun processus ARM A (p, q)

Pour dterminer la vraissemblance, il est ncessaire de supposer connue la loi des erreurs
: nous supposerons les erreurs normalement distribues. Les erreurs tant normalement
distribues et indpendantes (le processus (t ) est, par hypothse un bruit blanc), le vecteur
(1 , ..., n ) est un vecteur gaussien. Les composantes du vecteur (X1 , ..., Xn ) tant obtenues
par combinaisons linaires des composantes du vecteur (1 , ..., n ), (X1 , ..., Xn ) sera un
vecteur gaussien :



1
1 0 1
1
0
2
exp 2 X X ,
L X = (X1 , ..., Xn ) , , , =
2
(2 2 )n/2 [det ]1/2
o 2 est la matrice (n n) des covariances du vecteur X = (X1 , ..., Xn )0 .
La maximisation, et mme le calcul de cette vraissemblance taient relativement difficile il y a quelques annes, en particulier cause du calcul de linverse 1 , et du
dterminant, de , surtout lorsque n devenait relativement grand. Newbold a propos
une autre expression de cette vraissemblance, plus facile calculer. Soit H la matrice
triangulaire infrieure, lments positifs sur la diagonale telle que HH 0 = (dcomposition de Cholesky). Soit alors e le vecteur tel que e = H 1 X. La log-vraissemblance du
modle scrit alors
1
1
1
n
log L = log 2 log 2 log |det | 2 X 0 1 X,
2
2
2
2


n
n
n
1/n 0
1/n
0
= log 2 log (e e) log |det H| = log |det H| e e |det H|
.
2
2
2
La
 mthode du maximum
 de vraissemlance revient alors chercher le minimum de ` =
1/n 0
1/n
|det H| e e |det H|
.
Une autre criture, relativement proche est possible dans le cas des processus M A (q).
Soit le vecteur dinnitialisation des erreurs,
= (1q , ..., 1 , 0 )0 ,
165

permettant dengendrer la srie x1 , ..., xn . Considrons alors les vecteurs


(1q , ..., 1 , 0 , 1 , ..., n )0 et X. On peut alors crire

= N X + M ,
o M est une matrice (n + q) q et N (n + q) n. Linitialisation des erreurs sestimant
par b = (M 0 M )1 M 0 N X, et en notant
S () = (N X + M b )0 (N X + M b ) ,
on peut alors montrer que la log-vraissemblance peut scrire
n
1
S ()
n
log L = log 2 log 2 log (det (M 0 M ))
.
2
2
2
2 2
Et finallement, puisquon peut crire 2 = S () /n, la fonction minimiser scrit
` = n log S () + log (det (M 0 M )) .
Exemple 230. Dans le cas dun modle AR (1), de la forme Xt = c + Xt1 + t o t
est i.i.d. et distribu suivant une loi N (0, 2 ), avec || < 1, alors

Xt |Xt1 N c + Xt1 , 2 .
Aussi, la loi conditionnelle de Xt est donne par
f xt |xt1 , c, ,




1
2
exp 2 (xt c xt1 ) ,
=
2
2 2
1

cest dire que



Xt N (E (Xt ) , V (Xt )) soit Xt N

c
2
,
1 1 2


.

En posant = (c, , 2 ), la vraissemblance conditionelle du modle est alors donne par


L (|X1 , ..., XT ) =

T
Y
t=2


1
2

exp 2 (Xt c Xt1 ) ,


2
2 2
1

T
T 1
T 1
1 X
2
log L (|X1 , ..., XT ) =
(Xt c Xt1 )2 .
ln (2)
ln + 2
2
2
2 t=2

La vraissemblance marginale scrivant


"
r

2 #
1 2
(1 2 )
c
L (, X1 ) =
exp
X1
,
2 2
2 2
1
166

on en dduit la forme de la log-vraissemblance (exacte, et non plus conditionelle),





2
1
1
2
(1 2 )
c
log L (, X1 , ..., XT ) = ln (2) ln

X1
2
2
1 2
2 2
1
T

1 X
T 1
T 1
ln (2)
ln 2 2
(Xt c Xt1 )2 .

2
2
2 t=2
On peut noter que la maximisation de la vraissemblance exacte est un problme
doptimisation non-linaire.
7.4.4

Rsolution du programme doptimisation

Une fois crite la vraissemblance, deux mthodes sont alors possibles


(1) des mthodes exactes, visant mininimiser effectivement la log-vraissemblance
log L, de faon numrique
(2) des mthodes de type moindres carrs, visant minimiser la fonction S () dans le
cas M A, le second terme dans log Ln devenant ngligeable quand n augmente (mthode
utilise sous EViews).
Pour les modles ARM A stationnaires, les mthodes de maximisation de la vraissemblance conditionnelle, et de maximisation de la vraissemblance (exacte), sont asymptotiquement quivalentes. Lexplication heuristique est que pour les modles stationnaires,
leffet des valeurs initiales devient asymptotiquement ngligeable, alors que dans le cas
o des racines du polynme charactristique sont sur le cercle unit, les valeurs initiales
influencent les chantillons finis.
Critre des moindres carrs conditionnel (M CC)
Exemple 231. Considrons ici un modle de la forme M A (1), Xt = t t1 . Cette
quation peut scrire t = xt + t1 , et donc, en supposant 0 = 0,
t =

t1
X

i xti , pour t 2,

(35)

i=0

et donc, la somme des carrs, conditionnelle 0 = 0 scrit


" t1
#2
T
T
X
X
X
S (|0 = 0) =
2t =
i xti .
t=1

t=1

i=0

Lquation permettant destimer nest pas linaire.


Dans le cas gnral, pour un processus ARM A (p, q), on suppose que x1 = ... = xp
sont fixs et connus, et que p = p+1 = ...p+q = 0. Alors, par rcurence
t = x t

p
X

i xti +

i=1

q
X
j=1

167

j tj .

La somme des carrs conditionnelle aux valeurs initiales scrit


#2
"
q
p
T
T
X
X
X
X
2
j tj ,
i xti +
S (|0 = 0) =
t =
xt
t=1

t=1

j=1

i=1

o les tj peuvent tre crits en fonction des xtj , ..., xtjp et des tj1 , ..., tq .
Critre des moindres carrs non conditionnel (M CN )
Exemple 232. Considrons ici un modle de la forme M A (1), Xt = t t1 , que
lon notera, en considrant les innovations en temps invers t , Xt = t t+1 . On
supposant T +1 = 0, on dtermine rcurviement T = xT ,T 1 = xT + T ...etc. De faon
rtrospective, on peut ainsi dfiir x
b0 = 1 . De faon anologue (35), on peut crire
x
b0 =

T
X

t xT .

t=1

En posant alors 0 = x
b0 , on peut obtenir les t en utilisant (35). On obtient alors une
expression (non conditionelle) de la somme des carrs des rsidus
S () =

T
X
t=1

2t ==

" t1
T
X
X
t=1

i=0

i xti t

T
X

#2
i xi

i=1

L encore, lquation permettant destimer nest pas linaire.


Un des problmes de cette mthode est que, dans le cas de processus comprenant une
part autorgressive, les valeurs initiales doivent tre obtenues, thoriquement, en .
Ceci impose de faire une approximantion sur la base dun critre darrt portant sur la
convergence numrique de la rcurrence.
Critre du maximum de vraissemblance conditionelle (M V ) Pour utiliser la
mthode du maximumum de vraissemblance, il est ncessaire de faire des hypothses
sur la loi des t : ce sont des variables indpendantes, et de mme loi N (0, 2 ). La
vraissemblance conditionnelle est obtenue de la faon suivante :
La densit de = (1 , ..., T )0 est donne par
!
T
X
1
1
exp 2
2t .
f (1 , ..., T ) =
T /2
2
2 t=1
(2 )
On supposera connues les valeurs initiales x et . La densit de x peut sexprimer
conditionellement et x .

168

Programme doptimisation Nous allons ici nous limiter un cas simple, dun modle
M A (1), avec un critre de type M CC. On part dune valeur initiale 0 , et on va mettre
en place un algorithme convergent vers la vraie valeur . A la i + 1-me tape, on estime
i+1 en fonction de i en utilisant

S ()

S (i+1 ) = S (i ) + [i+1 i ] g ( ) o g ( ) =
,
=
o est compris entre i et i+1 . Aussi, on minimise la fonction S () en choisant i+1
de telle sorte que i soit de signe oppos au gradient de S () en . Mais comme est
inconnu, on choisit
i+1 = i g (i ) avec > 0
et ainsi, S (i+1 ) < S (i ). Le gradient, sil est difficile valuer peut tre remplac par
une diffrence de la forme [S (i + ) S (i )] / avec petit. Ces deux constantes
et , propres lalgorithme, peuvent tre fixe initialement, par exemple = 0.001 et
= 0.01.
Exemple 233. Considrons un cas relativement simple avec 6 observations
(5, 6, 3, 2, 7, 6), et cherchons tel que Xt = t + t1 .
(i)
0 = 0 et 0 + = 0.01. Alors S (0 ) = 52 + 62 + ... + 72 + 62 = 159. Alors X1 = 5,
(i)
(i)
(i)
(i)
X2 = X2 + (0 + ) X1 = 6 + 5 0.01 = 6.05, X3 = X3 + (0 + ) X2 =
3 + 6.05 0.01 = 3.06, ...etc. Do la somme S (0 + ) = 161.225. Aussi, on obtient
g (0 ) = 222.458 do finallement 1 = 0.222.
Cet algorithme se rpte ltape suivante, et les rsultats sont alors
itration i
0
1
2
3
4
5
6

i
i
0.000
i +
0.010
i
0.222
i + 0.212
i
0.524
i + 0.514
i
0.706
i
0.696
i
0.821
i
0.811
i
0.880
i
0.870
i
0.900
i
0.890

1
5.000
5.000
5.000
5.000
5.000
5.000
5.000
5.000
5.000
5.000
5.000
5.000
5.000
5.000

2
6.000
6.050
4.888
4.988
3.378
3.478
2.472
2.572
1.896
1.996
1.600
1.700
1.501
1.601

3
3.000
3.061
1.913
2.001
1.229
1.271
1.256
1.271
1.444
1.442
1.592
1.582
1.649
1.636

4
2.000
2.031
1.575
1.606
1.356
1.377
1.114
1.146
0.815
0.861
0.599
0.654
0.516
0.575

5
7.000
7.020
6.650
6.679
6.289
6.312
6.214
6.223
6.331
6.322
6.473
6.451
6.536
6.509

6
6.000
6.070
4.521
4.651
2.702
2.823
1.616
1.742
0.804
0.945
0.303
0.457
0.119
0.279

S (i )
159.00
161.22
119.68
122.70
86.61
88.42
75.16
76.31
72.07
72.66
72.44
72.64
72.97
73.01

g (i )
i+1
222.46 0.222
302.02 0.524
181.06 0.706
115.23 0.821
59.32

0.880

19.73

0.900

4.01

0.905

En allant jusqu ltape 10, on obtient = 0.905.


Dans le cas des modles moyennes mobiles (M A), lalgorithme du filtre de Kalman
peut tre utilis, en considrant que t (ou t1 ) est inobservable. La mthode destimation
169

est alors la suivante : (Yt ) suit un modle de la forme Yt = + t + t1 o t est i.i.d. et


suit une loi N (0, 2 ), avec || < 1. La fonction de vraissemblance conditionnelle est
Yt |t1 N ( + t1 , 2 ) et



1
1
2
2
f yt |t1 , , , =
exp [Yt t1 ]
2
2 2
Le problme est que t1 est inobservable. Le raisonnement est alors le suivant :
- on suppose que 0 = 0, alors Y1 |0 N (, 2 )
- Y1 = + 1 + 0 = + 1 donc 1 = Y1
- Y2 = + 2 + 1 donc 2 = Y2 (Y1 )
- ...
- Yt = + t + t1 et donc
t = (Yt ) (Yt1 ) + ... + ()t1 (Y1 )

(36)

(on peut reconnatre la version tronque de la reprsentation AR () du processus


M A (1)) La log vraissemblance conditionelle est
T

T
T
1 X 2
2
o t est donne par (36)
ln (2) ln 2
2
2
2 t=1 t

Complments : introduction au filtre de Kalman Un modle espace-tat est


dfini par le systme dquation

Zt+1 = At Zt + t : quation dtat
o (t , t )0 est un bruit blanc normal
Yt = Ct Zt + t : quation de mesure
o At et Ct sont dterministes, o Z0 N (m, p) est indpendant des (t , t )0 . Les
variables peuvent ici tre de dimension suprieure 1. La matrice de variance-covariance




t
V (t )
cov (t , t )
V
==
t
cov (t , t )
V (t )
On dira alors

(Zt ) : tat du systme la date t : inobservable

(Yt ) : observations du systme la date t : observable

(t ) : innovations du systme la date t : inobservable


(t ) : erreurs de mesure (ou bruit) en t : inobservable

(A

t ) : matrice de transition

(C ) : matrice de mesure

t
(Ct Zt ) : signal la date t

170

Le filtre de Kalman permet de calculer t Zbt = E (Zt |Y0 , ..., Yt ) la prvision de Zt . On


notera



0 

Zt t Zbt Zt t Zbt
: erreur quadratique du filtre sur Zt en t

t t = E

b
t1 Zt = E (Z
t |Y0 , ..., Yt1) : prvisionde
 Zt faite en t 1

t1 t = E Zt t1 Zbt Zt t1 Zbt
: erreur quadratique moyenne de prvision
Dans le cas o cov (t , t ) = 0, alors, pour tout t 0, le filtre de covariance,
h
i
(
 0
(a) t Zbt =t1 Zbt + Kt Yt Ct .t1 Zbt
(a ) t t = [I Kt Ct ]t1 t
et
(b0 ) t t+1 = At .t t .A0t + Q
(b) t Zbt+1 = At .t Zbt
o

Kt =t1 t .Ct0 (Ct .t1 t .Ct0 + R)

: matrice de gain du filtre la date t

On peut alors en dduire directement les formules de calcul de prvisions


de la variable

observe : soit t1 Ybt = E (Yt |Y0 , ..., Yt1 ) et t1 Mt = V Yt t1 Ybt alors
(c)
(c0 )

t Yt+1

b = Ct+1 .t Zbt+1
0
t Mt+1 = Ct+1 .t t+1 .Ct+1 + R

Dans le cas dit stationnaire, cest dire quand At = A et Ct = C alors le modle se


rcrit

Zt+1 = AZt + t
Yt = CZt + t
Le filtre doit tre initialis, et on prend gnralement 1 Zb0 = E (Z0 ) = m et 1 0 =
V (Z0 ) = P . De faon rcursive, on peut alors calculer les t Zbt laide de (a) et (a0 ) , puis
0
0
b
t t et t Yt+1 laide de (b) et (b ), ainsi que de (c) et (c ).
Remarque 234. Dans le cas o les bruits sont corrls, des mthodes similaires peuvent
tre utilises, en introduisant le rsidu de la rgression de (t ) sur (t ).
Pour une prvision lordre h, on introduit une seconde itration : on cherche



(
t Mt+h = V t Ybt+h Yt+h
b
t Yt+h = E (Yt+h |Y0 , ..., Yt )


et
b
t t+h = V t Zbt+h Zt+h
t Zt+h = E (Zt+h |Y0 , ..., Yt )
(pour h = 1 on retrouve le filtre de covariance). Dans le cas o cov (t , t ) = 0, on a les
formules de rcurrence
(

0
b
b
t Yt+h = Ct+h .t Zt+h
t Mt+h = Ct+h .t t+h .Ct+h + R
et
b
b
t t+h = At+h+1 .t t+h1 .At+h1 + Q
t Zt+h = At+h1 .t Zt+h1
171

La procdure itratif prend alors la forme suivante :


(i) initialisation : t = 0, h = 1, on pose 1 Zb0 = E (Z0 ) = m et 1 0 = V (Z0 ) = P
(ii) formules (a) et (a0 )
(iii) formules (b) et (b0 ), et (c) et (c0 )
(iv) si h < H (horizon de prvision), alors h = h + 1 et (iii) , sinon (v)
(v) si t < T alors t = t + 1 et h = 1, observation de Yt+1 , et (ii), sinon fin
Remarque 235. De faon analogue, on peut utiliser le filtre dinformation, bas sur
1 b
1
b
b
b
t Ut =t t .t Zt et t Ut+1 =t t+1 .t Zt+1 , et on alors les relations
(
 0
1
0 1
bt =t1 U
bt + C 0 R1 Yt
() t U
( ) t 1
t =t1 t + Ct R Ct
t
et
1
bt+1 = [I Mt ] A01
b
( 0 ) t t+1 = [I Mt ] Nt
() t U
t .t Ut
1

o Mt = Nt (Nt + Q1 )
7.4.5

1
1
et Nt = A01
t .t t .At .

Comparaison des diffrentes mthodes dinfrence

Commenons par tudier (sur des simulations) lestimation des paramtres =


(1 , 2 , 3 ) pour un modle AR(3),
Xt = 0.8Xt1 0.5Xt3 + t , i.e. = (1 , 2 , 3 ) = (0.8, 0, 0.5).
>
>
+
+
+
+
+
>
>
>

CFYL= CFOLS= CFMLE=matrix(NA,5000,3)


for(s in 1:5000){
X=arima.sim(list(ar=c(.8,0,-.5)),n=240)
CFYL[s,]=ar(X,order.max=3,method="yw")$ar
CFOLS[s,]=ar(X,order.max=3,method="ols")$ar[1:3]
CFMLE[s,]=ar(X,order.max=3,method="mle")$ar
}
plot(density(CFYL[,k]),lwd=2,col="red",main="Composante 1 AR")
lines(density(CFOLS[,k]),lwd=2,col="blue")
lines(density(CFMLE[,k]),lwd=2,col="purple")

i.e. la distribution de
bk par Yule-Walker est en rouge, par moindre carrs en bleu, et
par maximum de vraisemblance est en mauve,

172

Si le bruit nest plus un bruit blanc, mais que le vrai processus simul est un processus
ARMA(3,2)
Xt = 0.8Xt1 0.5Xt3 + t + 0.4t1 + 0.6t2 ,
la distribution des coefficients AR est alors biaise
>
>
+
+
+
+
+

CFYL= CFOLS= CFMLE=matrix(NA,5000,3)


for(s in 1:5000){
X=arima.sim(list(ar=c(.8,0,-.5),ma = c(.4,.6)),n=240)
CFYL[s,]=ar(X,order.max=3,method="yw")$ar
CFOLS[s,]=ar(X,order.max=3,method="ols")$ar[1:3]
CFMLE[s,]=ar(X,order.max=3,method="mle")$ar
}

7.4.6

Tests statistiques de validation du modle

Aprs avoir estim les paramtres p et q dun modle ARM A, il convient de vrifier que
les polynmes AR et M A ne possdent pas de racine commune. Lorsque cest le cas, il
y a redondance, ce qui peut conduire des erreurs lors des prvisions. Il convient alors
destimer les paramtres processus ARM A avec moins de retards (ou dautres types de
retards).
Comme lors dune regression linaire, un certain nombre dindicateurs sont intressants. Par exemple le test de Student des paramtres permet de vrifier que les paramtres
sont bien significatifs.
Il convient ensuite de vrifier que le processus t est effectivement un bruit blanc.
Par exemple, pour vrifier que la moyenne est nulle, on compare la moyenne

t/2
b/ n p q dans le cas dun processus p+q. Pour tester labsence dautocorrlation
de t , il est possible dutiliser la statistique de Box & Pierce (Q) ou la statistique de Ljung
& Box (Q0 ) dfinies par
Q (k) = n

k
X
i=1

ri2

k
X
ri2
et Q (k) = n (n + 2)
,
ni
i=1
0

qui sont comparer aux quantiles du chi-deux k (p + q) degrs de libert (lhypothse


H0 teste tant (1) = ... = (h) = 0).
173

7.5
7.5.1

Choix dun modle


Critre de pouvoir prdicitf

Comme nous le verrons par la suite, dans un modle ARM A, lerreur de prvision
horizon 1 dpend de la variance du rsidu. On peut alors choisir le modle conduisant
la plus petite erreur de prvision. Plusieurs indicateurs sont alors possibles :
(i) la variance du rsidu 2 , ou la somme des carrs des rsidus SCR
(ii) le coefficient de dtermination R2 , correspondant une normalisation de la variance
2
(iii) le coeffivient de dtermination modifi R
(iv) la statistique de Fisher (comme dans le cas du modle linaire)
Le but est alors de minimiser (i), ou de maximiser (ii) , (iii) ou (iv).
Exemple 236. Dans lexemple ci-dessous, considrons les 2 modles suivants : un modle
ARM A (1, 1) gauche, ou un modle AR (4), droite
soit

[1] : Xt = 0.767Xt1 + t 0.463t1


(0.019)

(0.026)

[2] : Xt = 0.303Xt1 + 0.226Xt1 +0.162 Xt1 + 0.116Xt1


(0.014)

(0.014)

(0.014)

(0.014)

Nous obtenons les indicateurs suivants


2

[1]
[2]

2
R2
R
F -stat
1.01737 0.18304 0.18287 1119.579
1.02751 0.17505 0.17455 353.3722

Le modle [1] semble meilleur que le modle [2] : la variance du rsidu est plus faible,
mais de plus, les trois autres indicateurs sont plus levs dans le premier cas que dans le
second.
7.5.2

Critre dinformation

Cette approche a t introduite par Akake en 1969. Cette mesure de lcart entre le
modle propos et la vraie loie peut tre obtenue laide de la quantit dinformation de
Kullback.
Dfinition 237. Soit f0 la densit inconnue dobservations, et {f (.) , f F} la famille
des densits parmi lesquelles ont fait lestimation. Lcart entre la vraie loi et le modle
est donn par
Z
f0 (x)
I (f0 , F) = min log
.f0 (x) dx
f F
f (x)
Cette quantit est toujours positive, et ne sannule que si f0 appartient F. Cette
mesure tant inconnue puisque f0 est inconnue, on essaiera de minimiser un estimateur
b Plusieurs estimateur de la quantit dinformation ont t propos, dans le cas de
de I, I.
modles ARM A (p, q), partir de T observations,
174

(i) Aikake (1969) :


AIC (p, q) = log
b2 + 2

p+q
T

(ii) Schwarz (1977) :


BIC (p, q) = log
b2 + [p + q]

log T
T

(iii) Hanna-Quinn (1979) :


(p, q) = log
b2 + [p + q] c

log (log T )
avec c > 2
T

Exemple 238. En reprenant lexemple prcdant un critre dAkake (AIC sous EViews)
de 0.017628 pour le modle ARM A (1, 1) contre 0.027968 pour le modle AR (4) . Ici
encore, le modle ARM A est prfr au modle AR.

7.6

Application

Nous allons essayer ici de modliser la srie mensuelle du nombre de voyageurs SNCF.
7.6.1

Identification du modle : recherche des paramtres d, p et q

La srie, compose de 204 observations peut tre reprsente par


Compte tenu de la significativit des premires autocorrlations (ou tout du moins le
fait quelles sont significativement non-nulles pour les 40 premiers retards) suggre de
diffrencier au moins un fois la srie,
La srie Yt = (1 L) Xt prsente alors de fortes corrlations pour les retards multiples de 12 (nous retrouvons ici la saisonnalit annuelle longuement dveloppe dans les
premires parties)
La srie Zt = (1 L12 ) Yt = (1 L) (1 L12 ) Xt semble cette fois-ci stationnaire.
Nanmois, la prsence de fortes valeurs pour (1) et (12) suggre dintroduire une
moyenne mobile de la forme (1 1 L) (1 2 L12 ). Ce type de reprsentation est confirm par la forme de lautocorrlogramme partiel : une modlisation de type AR ncessiterait dintroduire un trop grand nombre de termes (les 5 premires valeurs de
lautocorrlogramme partiel tant significativement non-nulles). De plus, la moyenne mobile (L) = (1 1 L) (1 2 L12 ) scrit
(L) t = t 1 t1 2 t12 + 1 2 t13
admettant des autocorrlations (h) non nulles pour h = 1, 11, 12, 13 (ce qui est confirm
par le graphique des autocorrlations).
Enfin, lhypothse de processus centr (ne ncessitant pas dintroduire - a priori - de
constance ou de tendance linaire) semble galement valide. En effet, la moyenne des Zt
vaut 0.157, avec un cart-type empirique valant 169.
175

7.6.2

Estimation du modle ARIM A

Le modle retenu est un modle ARIM A, ou SARIM A, de la forme




(1 L) 1 L12 Xt = (1 1 L) 1 2 L12 t o E (t ) = 0 et V (t ) = 2
Les trois paramtres estimer sont 1 , 2 et 2 . Une mthode base sur les moindres
carrs permet destimer les 3 paramtres de t t1 t12 + t13 :
Toutefois, cette estimation ( gauche, sous EViews) ne permet pas dintgrer la contrainte = .
Do finallement le modle,




12
12
t
1 0.4926L
(1 L) 1 L Xt = 1 0.8344L
(0.0402)

(0.0687)

Xt = Xt1 + Xt12 Xt13 + t 0.8344t1 0.4926t12 + 0.4110t13


7.6.3

Vrification

On peut tout dabord noter que les rapports de Student des 2 paramtres 1 et 2 sont
respectivment 21 et 7 ( 1.96) : ce deux coefficients sont significatifs.
Toutefois, il serait bien sr possible damliorer le modle. En particulier, on peut
noter que les rsidus prsentent des pics au niveau de lautocorrlogramme pour les h
multiples de 6.

176

Prvisions laide des modles ARIM A :


Jenkins

Box-

Etant donne une srie stationnaire (Xt ), observe entre 1 et T , on cherche faire de la
prvision horizon h, et donc prvoir XT +1 , ..., XT +h . Tous les processus AR, M A et
ARM A seront supposs mis sous forme canonique, et navoir aucune racine unit. Aussi,
toutes les racines des polynmes autorgressifs et des polynmes moyennes-mobiles
auront leurs racines lextrieur du disque unit. Ainsi, pour tous les processus Xt tels
que (L) Xt = (L) t , t sera linnovation du processus Xt .

8.1

Prvisions laide dun modle AR (p)

Le modle scrit, quite recentrer le processus,


Xt = 1 Xt1 + ... + p Xtp + t ou (L) Xt = t
La prvision optimale la date T + 1, faite la date T est
EL (XT +1 |XT , XT 1 , ...). Aussi,

T XT +1

T XT +1

= 1 XT + ... + p XT p

car (t ) est linnovation. De faon analogue, XT +h = 1 XT +h1 + ... + p XT +hp + T +h ,


et donc T XT +h = EL (XT +h |XT , XT 1 , ...) est donn, de faon rcursive par

1 .T XT +h1 + ... + h1 .T XT +1 + h XT + ... + p XT +hp pour h p

X
=
T T +h
1 .T XT +h1 + ... + p .T XT +hp pour h > p
Exemple 239. Dans le cas dun processus AR (1) tel que Xt = + Xt1 + t alors
(i) T XT +1 = + XT ,
(ii) T XT +2 = + .T XT +1 = + [ + XT ] = [1 + ] + 2 XT ,
(iii) T XT +3 = + .T XT +2 = + [ + [ + XT ]] = [1 + + 2 ] + 3 XT ,
et rcursivement, on peut obtenir T XT +h de la forme



2
h1
+ h XT .
T XT +h = + .T XT +h1 = 1 + + + ... +
Exemple 240. Une mthode alternative est de considrer le processus centr Yt = Xt

/, alors Yt = Yt1 + t . Alors de faon rcursive T YT+h = .T YT1


+h , et donc T YT +h =
h
YT . Aussi, on peut crire



1 h

+ XT
=
+ h XT .
T XT +h =

1
| {z }
1++2 +...+h1

177

8.2

Prvisions laide dun modle M A (q)

On supposera l aussi que lon sest ramen un processus centr (Xt ), satisfaisant
Xt = t + 1 t1 + ... + q tq = (L) t .
La prvision optimale la date T + 1, faite la date T est T XT +1 =
EL (XT +1 |XT , XT 1 , ...) = EL (XT +1 |T , T 1 , ...) car (t ) est le processus dinnovation.
Aussi,

T XT +1 = 0 + 1 T + ... + q T +1q
De faon analogue, XT +h est estim par T XT +h = EL (XT +h |XT , XT 1 , ...) =
EL (XT +h |T , T 1 , ...), et donc

h T + ... + q T +hq pour h q

(37)
T XT +h =
0 pour h > q.
Toutefois, cette mthode prsente le dsavantage destimer XT +h partir des rsidus
passs, a priori non observables, et non pas du pass de la variable.
8.2.1

Utilisation de lcriture AR () du processus M A (q)

Lquation Xt = (L) t peut se rcrire 1 (L) Xt = t , soit

X
X
ak Xt+hk + t+h pour tout h 0
ak Xtk + t et donc Xt+h =
Xt =
Aussi,

k=1

T XT +h peut

k=1

tre crit de faon itrative

T XT +h

h1
X

ak .T XT +hk

k=1

ak Xt+hk

k=h

Toutefois, un des problmes est que les (Xt ) ne sont pas observs, en pratique, pour t < 0.
On utilise alors lcriture suivante

h1

X
X
X
ak XT +hk + T +h ,
XT +h =
ak XT +hk + t+h =
ak XT +hk +
|k=h

k=1

k=1

{z

Reste dune srie ACV

o le reste de la srie absolument convergente tend (au sens de L2 ) vers 0 quand T .


On peut alors considrer, quand T est suffisement grand que

T XT +h

h1
X

ak .T XT +hk

k=1

T
+h
X

ak XT +hk +

k=h

ak XT +hk ,

k=T +h+1

{z

Ngligeable (hyp.)

b
et on approxime T XT +h par T X
T +h
b
T XT +h =

h1
X

b
ak . T X
T +hk +

k=1

T
+h
X
k=h

178

ak XT +hk .

8.2.2

Utilisation de la formule de mise jour des rsultats

Lide est ici de comparer lestimation faite en T de XT +1 , T XT +1 avec la vraie valeur :


XT +1 T XT +1 = T +1 .
La relation (37) permet dobtenir une estimation, la date T de XT +h . En se plaant

la date T + 1, on peut noter que T +1 XT +h =T +1 X(T


+1)+(h1) et donc

h1 T +1 +T XT +h pour h q + 1

=
X
T +1 T +h
0 pour h > q + 1,
et donc, pour h q + 1

T +1 XT +h

8.3



=T XT +h + h1 XT +1 T XT +1 : Formule de mise jour

Prvisions laide dun modle ARM A (p, q)

On supposera l aussi que lon sest ramen un processus centr (Xt ), satisfaisant
(L) Xt = (L) t
Remarque 241. Dans le cas dun processus non centr, (L) Xt = + (L) t , on peut
noter que EXt = / (1) = m, et que (L) (Xt m) = (L) t . Il est donc toujours possible, en translatant le processus, de se ramener un processus centr (pour des processus
ARM A seulement).
Sous cette forme ARM A, alors
Xt =

p
X

i Xti + t +

i=1

q
X

j tj et donc Xt+h =

j=1

p
X

i Xt+hi + t+h +

i=1

q
X

j t+hj .

j=1

On a alors T XT +h = EL (XT +h |XT , XT 1 , ...) = EL (XT +h |T , T 1 , ...) car t est le processus dinnovation. On peut noter que pour h > q

1 .T XT +h1 + ... + h1 .T XT +1 + h XT + ... + p XT +hp pour h p

T +1 XT +h =
1 .T XT +h1 + ... + p .T XT +hp pour h > p.
La forme gnrale des solutions est connue (comme dans le cas des AR (p)). Toutefois, il
y a ici un problme dinitialisation des calculs.
8.3.1

Utilisation de la forme AR () pu processus ARM A (p, q)

Lquation (L) Xt = (L) t peut se rcrire 1 (L) (L) Xt = t , cest dire, comme
dans le cas des processus M A (q),
Xt =

X
k=1

ak Xtk + t et donc Xt+h =

X
k=1

179

ak Xt+hk + t+h pour tout h 0,

et de la mme faon que pour la modlisation AR () des processus M A (q), on peut


rcrire
XT +h =

ak XT +hk + t+h =

k=1

h1
X

ak XT +hk +

k=1

ak XT +hk + T +h ,

|k=h

{z

ngligeable dans L2

do la forme itrative, obtenue par approximation, en ne tenant pas compte du second


terme, ngligeable dans L2 ,
b
T XT +h =

h1
X

b
ak . T X
T +hk +

k=1

T
+h
X

ak XT +hk .

k=h

Utilisation de la forme M A () pu processus ARM A (p, q) et des formules


de mise jour

8.3.2

Lquation (L) Xt = (L) t peut se rcrire Xt = (L)1 (L) t soit encore


Xt = t + 1 t1 + ... + q tq + ... = t +

bj tj .

j=1

=
L2 (t , t1 , ...), on
Puisque14 L2 (Xt , Xt1 , ...)
EL (XT +h |XT , XT 1 , ...) = EL (XT +h |T , T 1 , ...), soit

T XT +h

peut

crire

T XT +h

bj t+hj .

j=h

De plus, puisque

T +1 XT +h

T +1 XT +h

8.4

=T +1 X(T
+1)+(h1) , on peut crire


=T XT +h + bh1 XT +1 T XT +1 : Formule de mise jour.

Prvisions dans le cas dun processus ARIM A (p, d, q)

On considrons ici (Xt ) satisfaisant une quation de la forme (L) (1 L)d Xt = (L) t
avec les conditions initiales
Z = (X1 , ..., Xpd , 1 , .., q )0 .
Posons alors (L) = (L) (1 L)d . La forme ARIM A (p, d, q) peut scrire
Xt =

p+d
X
i=1

i Xti + t +

q
X

j tj et donc Xt+h =

j=1

p+d
X
i=1

14

i Xt+hi + t+h +

q
X

j t+hj .

j=1

Cette proprit L2 (Xt , Xt1 , ...) = L2 (t , t1 , ...) est une caractrisation du fait que t est
linnovation du processus Xt .

180

Notons T XT +h la prvision faite la date T , T XT +h = EL (XT +h |XT , XT 1 , ..., X0 , Z).


Alors

q
p+d
T XT +hi =XT +hi pour i h
X
X

0 pour j < h
j .T T +hj o
i .T XT +hi + 0 +
T XT +h =
T T +hj =
j=1
i=1
T +hj pour j h
En particulier, pour h q, on obtient une relation de rcurence de la forme

T XT +h

p+d
X

i .T XT +hi .

i=1

Utilisation de lapproximation AR

8.4.1

Cette approximation est base sur la proprit (186), rappele ci-dessous,


Proposition 242. Soit (Xt ) un processus ARIM A (p, d, q) de valeurs initiales Z, alors
(Xt ) peut scrire sous la forme AR,
Xt =

t
X

aj Xtj + f (t) Z + t ,

j=1

o les aj sont les coefficients (pour j 1) de la division selon les puissances croissantes
de par , et f (t) est un vecteur (ligne) de fonctions de t qui tend vers 0 quand t .
On peut alors crire
Xt+h =

t+h
X

aj Xt+hj + f 0 (t + h) Z + t+h ,

j=1

et ainsi,

T XT +h

= EL (Xt+h |XT , XT 1 , ..., X0 , Z) =

t+h
X

aj .T XT +hj + f 0 (T + h) Z + 0,

j=1

avec la convention T XT +hj = XT +hj pour j h. Or la limite de f (t) est 0 quand


t , do lapproximation
b
T XT +h =

h1
X

b
ak .T X
T +hk +

k=1

T
+h
X
k=h

181

ak XT +hk .

Utilisation de lapproximation M A

8.4.2

De la mme faon, un processus ARIM A peut tre approxim par un processus M A,


Proposition 243. Soit (Xt ) un processus ARIM A (p, d, q) de valeurs initiales Z, alors
(Xt ) peut scrire sous la forme M A,
Xt =

t
X

bj tj + g 0 (t) Z,

(38)

j=1

o les hj sont les coefficients de la division selon les puissances croissantes de par ,
et g 0 (t) est un vecteur (ligne) de fonctions de t.
La relation (38) permet alors dcrire
Xt+h =

t+h
X

bj t+hj + g 0 (t + h) Z avec lim g (u) = 0.


u

j=1

Puisque L2 (Xt , Xt1 , ...)


=
L2 (t , t1 , ...), on peut crire
EL (XT +h |XT , XT 1 , ..., X0 , Z) = EL (XT +h |T , T 1 , ..., 0 , Z), soit

T XT +h

T
+h
X

T XT +h

bj T +hj + g 0 (T + h) Z,

j=h

do les approximations, compte tenu de la limite de g (.),


b
T XT +h =

T
+h
X

bj T +hj

bT +h =
et T +1 X

j=h

T
+h
X

bj T +hj .

j=h1

Do la relation
h
i

b
b
b
: Formule de mise jour
T +1 XT +h =T XT +h + bh1 XT +1 T XT +1

8.5

Intervalle de confiance de la prvision

Cet intervalle est obtenu partir de la forme M A () dans le cas o (Xt ) est stationnaire,
ou de son approximation M A dans le cas non-stationnaire (ARIM A).
(i) dans le cas stationnaire,
XT +h =

X
i=0

bi T +hi =

T
+h
X

bi T +hi +

i=0

et donc
b
T h = Xt+h T XT +h

bi T +hi ,

i=T +h+1

h
X
i=0

182

bi T +hi .

(i) dans le cas non-stationnaire (ARIM A),


XT +h =

bi T +hi + g (T + h) Z =

i=0

T
+h
X

bi T +hi +

i=0

et donc
b
T h = Xt+h T XT +h

bi T +hi + g 0 (T + h) Z,

i=T +h+1

h
X

bi T +hi .

i=0

Sous lhypothse de normalit des rsidus (t ), H0 : t i.i.d., t N (0, 2 ), alors


!
h
X
b N 0, 2
b2 ,
T h = Xt+h T X
i

T +h

i=0

do lintervalle de confiance pour XT +h au niveau 1


v

u h
uX
bb2 ,
bT +h u1/2 .st
T X
i
i=0

o les bbi sont des estimateurs des coefficients de la forme moyenne mobile, et s est un
estimateur de la variance du rsidu.

8.6
8.6.1

Prvision pour certains processus AR et M A


Prvision pour un processus AR (1)

Considrons le processus stationnaire (Xt ), sous la forme gnrale Xt = 1 Xt1 + + t


.La prvision horizon 1, fait la date T , scrit

T XT +1

= E (XT +1 |XT , XT 1 , ..., X1 ) = 1 XT + ,

et de faon similaire

T XT +2

= 1T XT +1 + = 21 XT + [1 + 1] .

De faon plus gnrale, on obtient rcursivement la prvision horizon h,


 h1


h
+ ... + 1 + 1 .
T XT +h = 1 XT + 1

(39)

On peut noter que quand h , T XT +h tend vers / (1 1 ), la moyenne du processus


Xt . Lerreur de prvision horizon h est donne par
T h

= T XT +h XT +h =T XT +h [1 XT +h1 + + T +h ]



= ... =T XT +h h1 XT + h1
+ ... + 1 + 1 + T +h + 1 T +h1 + ... + h1
T +1 ,
1
1
183

do, en substituant (39), on obtient


T h

= T +h + 1 T +h1 + ... + h1
T +1 ,
1

qui possde la variance



 2
Vb = 1 + 21 + 41 + ... + 2h2
, o V (t ) = 2 .
1
La variance de la prvision croit avec lhorizon.
Exemple 244. Considrons le processus suivant,
Xt = 5 + 0.5Xt1 + t o t N (0, 1) ,
dont les dernires observations ont t 11.391, 12.748, 10.653, 9.285 et 10.738. La prvision pour la date T + 1 est alors

T XT +1

= E (XT +1 |XT , XT 1 , ..., X1 ) = 1 XT + = 5 + 0.5 10.738 = 10.369



1 .T XT +1 +

X
=
= 10.184.
T T +2
(1 + 1 ) + 1 .XT

Do finallement les prvisions suivantes, avec la variance, lintervalle de confiance, et la


taille relative de lintervalle de confiance
horizon

T XT +h
Vb
90%
Binf
90%
Bsup
IC 90%

0
10.738

1
2
3
4
5
6
7
10.369 10.184 10.092 10.046 10.023 10.012 10.006
1.000
1.250
1.313
1.328
1.332
1.333
1.333
8.739
8.362
8.225
8.168
8.142
8.130
8.124
11.999 12.007 11.960 11.925 11.904 11.893 11.888
15.7% 17.9% 18.5% 18.7% 18.8% 18.8% 18.8%

Graphiquement, on obtient gauche les prvisions suivantes (avec la vraie valeur de


Xt ), et droite la variation relative de lintervalle de confiance,
8.6.2

Prvision pour un processus M A (1)

Considrons le processus stationnaire (Xt ), sous la forme gnrale


Xt = + t + 1 t1
La prvision horizon 1, fait la date T , scrit

T XT +1

= E (XT +1 |XT , XT 1 , ..., X1 ) = + 1 T

o T est lerreur de la dernire observation, la date T . De faon plus gnrale, on


obtient rcursivement la prvision horizon h,

T XT +h

= E (XT +h |XT , XT 1 , ..., X1 ) = E ( + T +h + 1 T +h1 ) =


184

(40)

Cest dire qu partir dun horizon 2, la meilleure prvision est la moyenne du processus.
Lerreur de prvision horizon h est donne par
T h

=T XT +h XT +h = T +h + 1 T +h1

dont la variance est



Vb = 1 + 12 2 o V (t ) = 2
pour h 2. Sinon, pour h = 1, la variance est Vb = 12 2 .
Exemple 245. Considrons le processus suivant,
Xt = 5 + t 0.5t1 o t N (0, 1)
dont les dernires observations ont t 4.965, 5.247, 4.686 et 5.654. Pour faire de la
prvision, soit on considre la forme AR () du processus, soit on cherche uniquement
exprimer (t ) en fonction du pass de (Xt ), ou de Yt = Xt 5, processus centr
t = Yt + 0.5t1 = Yt + 0.5 [Yt1 + 0.5t2 ] = Yt + 0.5 [Yt1 + 0.5 [Yt2 + 0.5t3 ]] = ...

X
X
i
=
(0.5) Yti =
(0.5)i [Xti 5]
i=0

i=0

La prvision pour la date T + 1 est alors

T XT +1

= E (XT +1 |XT , XT 1 , ..., X1 ) = + 1 t = 5 0.5 0.606 = 3.3049

et la prvision un horizon h 2 est alors , la constante du modle,

T XT +2

==5

Do finallement les prvisions suivantes, avec la variance, lintervalle de confiance, et la


taille relative de lintervalle de confiance
horizon

T XT +h
Vb
90%
Binf
90%
Bsup
IC 90%

0
5.654

1
2
3
4
5
6
7
3.304
5.000
5.000
5.000
5.000
5.000
5.000
0.250
1.250
1.250
1.250
1.250
1.250
1.250
2.489
3.178
3.178
3.178
3.178
3.178
3.178
4.119
6.822
6.822
6.822
6.822
6.822
6.822
24.7% 36.4% 36.4% 36.4% 36.4% 36.4% 36.4%

Graphiquement, on obtient gauche les prvisions suivantes (avec la vraie valeur de


Xt ), et droite la variation relative de lintervalle de confiance,

185

8.6.3

Prvision pour un processus ARIM A (1, 1, 0)

Il sagit ici dun modle AR (1) pour la variable intgre Yt = Xt Xt1 , Yt = 1 Yt1 +
+ t . Aussi, la prvision horizon h = 1 est donne par

T XT +1

= XT +T YT+1 ,

et de faon plus gnrale

T XT +h

= XT +T YT+1 +T YT+2 + ... +T YT+h .

En substituant aux T YT+i ce qui a t trouv prcdemment pour les processus AR, on
obtient

T XT +1 = (1 + 1 ) XT 1 XT 1 + ,
et, pour un horizon h = 2,

T XT +2



= 1 + 1 + 21 XT 1 + 21 XT 1 + (1 + 1) + .

Lexpression gnrale de la prvision la date h sobtient rcursivement laide de



 h1


h
+ ... + 1 + 1
T YT +h = 1 YT + 1

T XT +h =T XT +1 + 1 .T YT +h1 + .
Lerreur faite sur la prvision horizon 1 est donne par
T 1

=T XT +1 XT +1 =T YT+1 YT +1 = T +1 , de variance 2 .

A horizon 2, lerreur de prvision est


T 2

=T XT +2 XT +2 =

T YT +1


YT +1 +

T YT +2


YT +2 = (1 + 1 ) T +1 + T +2 ,



dont la variance est Vb = 1 + (1 + 1 )2 2 . De faon plus gnrale, lerreur de prvision
horizion h est





T h =
T YT +1 YT +1 + T YT +2 YT +2 + T YT +1 YT +1 + ... + T YT +h YT +h

= T +1 + (T +2 + 1 T +1 ) + ... + T +h + 1 T +h1 + ... + h2
T +2 + h1
T +1
1
1

T +1 ,
= T +h + (1 + 1 ) T +h1 + ... + 1 + 1 + ... + h1
1
do la variance

!2
h
i1
X
X
Vb =
j1 2 .
i=1

j=0

Lerreur de prvision sur XT +h est alors laccumulation des erreurs de prvision de


YT +1 , ..., YT +h .

186

Exemple 246. Considrons le processus (Xt ) tel que Xt Xt1 = Yt o (Yt ) vrifie,
Yt = 2 + 0.2Yt1 + t o t N (0, 1) ,
dont les dernires observations ont t 81.036, 84.074 et 86.586. Le processus (Yt ) sousjacent peut tre obtenu comme diffrence entre Xt et Xt1 . On cherche alors les prvisions
de (Yt ) et les prvisions de (Xt ) correspondent la somme des (Yt ) prvus (processus
intgr).
(Xt )
(Yt )

70.788 73.606 74.937 78.035 81.036 84.074 86.586

2.818 1.331 3.098 3.001 3.037 2.512

La prvision pour la date T + 1 est alors

T XT +1

= XT +T YT+1 o T YT+1 = + 1 YT = 2.502,

et donc T XT +1 = 89.088. Lla prvision un horizon h 2 est alors




T YT +1 = + 1 YT = 2.5024

T XT +2 = XT +T YT +1 +T YT +2 o

T YT +2 = + 1 .T YT +1 = 2.5005
Do finallement les prvisions suivantes, avec la variance, lintervalle de confiance, et la
taille relative de lintervalle de confiance
horizon

T YT +h

T XT +h
Vb
90%
Binf
90%
Bsup
IC 90%

0
1
2.512 2.502
86.586 89.088
1.000
87.458
90.718
1.8%

2
2.500
91.589
2.440
89.043
94.135
2.8%

3
2.500
94.089
3.978
90.838
97.340
3.5%

4
2.500
96.589
5.535
92.754
100.42
4.0%

5
2.500
99.089
7.097
94.747
103.43
4.4%

6
2.500
101.59
8.659
96.793
106.39
4.7%

7
2.500
104.09
10.22
98.878
109.30
5.0%

Graphiquement, on obtient gauche les prvisions suivantes (avec la vraie valeur de


Xt ), et droite la variation relative de lintervalle de confiance,

8.7
8.7.1

Application
Example de prvision : cas dcole

Considrons le modle ARIM A (1, 1, 1) donn par


(1 L) (1 0.5L) Xt = (1 0.8L) t ,
2
o lon suppose que t est
 gaussien, centr, de variance connue = 0.5, avec XT = 12 et

b
T XT +1 = EL XT +1 |XT = 10, o XT = {X1 , ..., XT , Z}.

b = E XT +h |XT .
La prvision horizon h faite en T est T X
T +h

187

b : Cette forme ARIM A scrit


(i) estimation de T X
T +h
Xt 1 Xt1 2 Xt2 = t + 1 t1 , avec une racine unit.
b 1 .T X
b
b
Aussi, pour h 2, on peut crire T X
T +h
T +h1 2 .T XT +h2 = 0. Pour expliciter
les solutions, on se ramne au problme suivant : recherche des suites un telle que un =
un1 + un2 15 . Les racines du polynme caractristique tant 1 et 1/2, on peut crire
h
h
b
b
T XT +k = .1 + . (1/2) . Compte tenu du fait que XT = 12 et T XT +1 = 10 on en dduit
= 8 et = 4. Aussi
b
T XT +h

=8+

4
do les premires valeurs {12, 10, 9, 8.5, 8.25, 8.125, ...}
2k

(ii) expression de lintervalle de confiance : Lintervalle de confiance 95% de la


prvision est de la forme
#
"
r 
r 


b
b
b
b
.
T XT +h 1.96 V T XT +h ;T XT +h + 1.96 V T XT +h
Cette variance sobtient en approximant la forme ARIM A par une forme M A (),
XT +1 XT = T + b1 T 1 + b2 T 2 + ...
On note alors que

XT +1 XT = T +1 + b1 T + b2 T 1 + ...

XT +2 XT +1 = T +2 + b1 T +1 + b2 T + ...
...

XT +h XT +h1 = T +h + b1 T +h1 + b2 T +h2 + ...


do , par sommation, lexpression de XT +h XT et en considrant la variance (puique
les t sont identiquement distribus, de variance 2 , et surtout indpendant),





b
V T XT +h = 2 1 + (1 + b1 )2 + (1 + b1 + b2 )2 + ... + (1 + b1 + ... + bh )2 .
Or lexpression des bi est donne par la relation B (L)
(1 0.8L) (1 0.5L)1

(L) 1 (L)


L3
L2
B (L) = (1 0.8L) 1 + 0.5L + 0.52 L2 + ... = 1 0.3L 0.3 0.3 2 ...
2
2
15
Rappel : Pour une relation rcurente un = un1 + un2 , la forme gnrale des solutions est
un = r1n + r2n o r1 et r2 sont les racines du polynme P (x) = x2 x , dans le cas o les racines
sont distinctes. Dans le cas o P admet une racine double (r), la forme gnrale est un = ( + r) rn .
Dans le cas o la suite est entirement dtermine par les valeurs initiales u1 et u2 , alors et sont
entirement dtermins par la rsolution du systme

u1 = r1 + r2
u2 = r12 + r22

188

et donc b0 = 1 et bi = 0.3/2i1 . Aussi






1 1
1
1
0.6
1 + b1 + ...bj = 1 0.3 1 + + + ... + j1 = 1 0.6 1 j = 0.4 + j ,
2 4
2
2
2
et donc

2
h1 

X
0.6

2
b
0.4 + j .
V T XT +h =
2
j=0


Do finalement les prvisions et les premiers intervalles de confiance suivant :


h
95%
Binf
90%
Binf
b
T XT +h
90%
Bsup
95%
Bsup

IC95%

1
2
3
4
5
6
7
8
9
8.040
6.444
5.560
5.015
4.639
4.353
4.116
3.906
3.71
8.360
6.862
6.040
5.543
5.209
4.959
4.755
4.577
4.41
12.000 10.000
9.000
8.500
8.250
8.125
8.063
8.031
8.016
8.00
11.640 11.138 10.960 10.957 11.041 11.166 11.307 11.454 11.60
11.960 11.556 11.440 11.485 11.611 11.772 11.947 12.125 12.30
19.6% 28.4% 34.6% 39.2% 42.9% 46.0% 48.7% 51.3% 53.6

On notera bien sur cet exemple que les prvisions laide dun modle ARIM A
moyen terme sont dj relativement incertaines. Graphiquement, on obtient, gauche, la
prvision suivante (avec les intervalles de confiance 90% et 95%), et droite, lvolution
relative de lintervalle de confiance en fonction de lhorizon de prvision
8.7.2

Exemple dapplication : cas pratique

Considrons ici la srie du nombre de voyageurs SNCF, et la modlisation ARIM A que


nous avions pu faire,




12
12
(1 L) 1 L Xt = 1 0.8344L
1 0.4926L
t .
(41)
(0.0402)

(0.0687)

La srie Zt peut alors tre utilise pour faire de la prvision, laide de sa modlisation
M A.
Comme nous le voyons sur cet exemple, la prvision laide dun modliation ARM A
reste relativement floue, mme ici court terme (un exemple analogue sera repris plus en
dtails dans la partie suivante).

189

Mise en oeuvre de la mthode de Box & Jenkins

9.1

Application de la srie des taux dintrt 3 mois

Nous allons considrr ici les taux 3 mois du trsor amricain (comme le propose Pindyck
et Rubinfeld (1998)), donnes mensuelles, de Janvier 1960 Mars 1996.
>
>
>
>
>
>

base=read.table("http://freakonometrics.free.fr/basedata.txt",header=TRUE)
Y=base[,"R"]
Y=Y[(base$yr>=1960)&(base$yr<=1996.25)]
Y=ts(Y,frequency = 4, start = c(1960, 1))
Y

1960
1961
1962
1963
1964

Qtr1
3.873
2.350
2.723
2.907
3.530

Qtr2
2.993
2.303
2.717
2.940
3.477

Qtr3
2.360
2.303
2.840
3.293
3.497

Qtr4
2.307
2.460
2.813
3.497
3.683

2.960
3.243
5.737
4.930

2.967
3.987
5.597
5.020

3.003
4.477
5.367

3.060
5.280
5.260

...
1993
1994
1995
1996

Lautocorrlogramme de la srie bute des taux (Xt ) permet de se rendre compte rapidement que la srie nest pas stationnaire.
> acf(Y,lwd=5,col="red")
> pacf(Y,lwd=5,col="red")

190

La srie diffrencie Yt = Xt Xt1 a lallure suivante,


> plot(diff(Y))
> acf(diff(Y),lwd=5,col="red")
> pacf(diff(Y),lwd=5,col="red")

La srie ainsi forme semble stationnaire. A titre comparatif, la srie Zt obtenue en


diffrenciant 2 fois donne des rsultats ne semblant pas significativement diffrents
Aussi, diffrencier 1 fois suffit pour obtenir un modle stationnaire.
9.1.1

Modlisation de la srie

Compte tenu de lallure des autocorrlogrammes de Yt , nous pouvons penser modliser la


srie Xt par un processus ARM A (p, q). La mthode du coin, dcrite auparavant, donne

191

le tableau suivant
i\j
1
2
3
4
5
6
9.1.2

1
2
3
4
5
6
0.272
0.189 0.007 0.024
0.041 0.148
0.116 0.041 0.006 0.001 0.003 0.040
0.102 0.006
0.003 0.001 0.001 0.011
0.042 0.007 0.002 0.002
0.003 0.003
0.055 0.004 0.005 0.002 0.001 0.001
0.180 0.043 0.012 0.003
0.001 0.000

Estimation des paramtres dune modlisation ARIM A (1, 1, 1)

Lestimation donne les rsultats suivants (la constante tait clairement non significative),




1 + 0.3341L Yt = 1 + 0.7403L t
(0.1066)

>

(0.0616)

arima(X,order=c(1,1,1))

Call:
arima(x = X, order = c(1, 1, 1))
Coefficients:
ar1
-0.3341
s.e.
0.1066

ma1
0.7403
0.0616

sigma^2 estimated as 0.6168:

log likelihood = -170.89,

aic = 347.78

sur la srie brute, ou encore, sur la srie diffrencie


>

arima(diff(X),order=c(1,0,1))

Call:
arima(x = diff(X), order = c(1, 0, 1))
Coefficients:
ar1
-0.3342
s.e.
0.1066

ma1
0.7403
0.0616

intercept
0.0076
0.0850

sigma^2 estimated as 0.6168:

log likelihood = -170.88,

aic = 349.77

Si les estimations semblent significative, le rsidu ne semble pas tre un bruit blanc.
Ltape suivante est donc daugmenter le nombre de paramtres.

192

9.1.3

Estimation des paramtres dune modlisation ARIM A (2, 1, 2)

Lestimation donne les rsultats suivants (la constante tant l aussi non significative),




2
2
1 + 1.26 L + 0.49 L Yt = 1 + 1.767L 0.8778L t o Yt = (1 L)Xt
(0.095)

(0.067)

(0.088)

(0.054)

> arima(X,order=c(2,1,2))
Call:
arima(x = X, order = c(2, 1, 2))
Coefficients:
ar1
-1.2655
s.e.
0.0952

ar2
-0.4945
0.0884

ma1
1.7672
0.0675

sigma^2 estimated as 0.5435:

ma2
0.8778
0.0546
log likelihood = -162.24,

aic = 334.48

A titre dinformation, le modle avec constante scrit






2
2
1 + 1.26 L + 0.49 L Yt = 1 + 1.767L 0.8778L t + 0.007
(0.095)

(0.088)

(0.067)

(0.054)

(0.08)

> arima(X,order=c(2,1,2),xreg=1:length(Y))
Series: X
ARIMA(2,1,2)
Coefficients:
ar1
-1.2658
s.e.
0.0953

ar2
-0.4950
0.0884

ma1
1.7671
0.0676

ma2
0.8779
0.0547

xreg
0.0072
0.0807

sigma^2 estimated as 0.5434: log likelihood=-162.24


AIC=334.47
AICc=335.08
BIC=352.33

Encore une fois, lhypothse de bruit blanc des rsidus est rejete, de part la prsence
dautocorrlations significativement non nulles.
9.1.4

Estimation des paramtres dune modlisation ARIM A (4, 1, 4)

Lestimation donne les rsultats suivants


>
arima(X,order=c(4,1,4))
Series: X
ARIMA(4,1,4)
Coefficients:
ar1
-0.3360
s.e.
0.3592

ar2
0.0409
0.3459

ar3
-0.3508
0.2173

ar4
-0.1562
0.1736

ma1
0.7713
0.3406

ma2
-0.2380
0.4341

sigma^2 estimated as 0.5205: log likelihood=-159.2


AIC=334.4
AICc=335.74
BIC=361.19

193

ma3
0.3536
0.2400

ma4
0.6052
0.1916

9.1.5

Estimation des paramtres dune modlisation ARIM A (8, 1, 2)

Lestimation donne les rsultats suivants,


>
arima(Y,order=c(8,1,2))
Series: Y
ARIMA(8,1,2)
Coefficients:
ar1
ar2
0.5309 0.3147
s.e. 0.0983 0.1076

ar3
0.1282
0.0931

ar4
0.1482
0.0920

ar5
-0.1449
0.0871

ar6
0.1134
0.0859

ar7
-0.4324
0.0821

ar8
0.2575
0.0818

ma1
-0.1191
0.0737

ma2
-0.8809
0.0721

sigma^2 estimated as 0.4826: log likelihood=-154.69


AIC=329.38
AICc=331.36
BIC=362.12

9.1.6

Estimation des paramtres dune modlisation ARIM A (8, 1, 4)

Lestimation donne les rsultats suivants,


>
arima(Y,order=c(8,1,4))
Series: Y
ARIMA(8,1,4)
Coefficients:
ar1
ar2
0.6885 0.2197
s.e. 0.4166 0.3146

ar3
0.0672
0.2872

ar4
0.1619
0.2922

ar5
-0.1847
0.1205

ar6
0.1454
0.1227

ar7
-0.4762
0.1132

ar8
0.3106
0.1353

ma1
-0.2908
0.4125

ma2
-0.8308
0.4678

ma3
0.1653
0.3788

sigma^2 estimated as 0.4817: log likelihood=-154.48


AIC=332.97
AICc=335.75
BIC=371.67

9.1.7

Choix du modle

Les diffrents critres sont


ARIM A (1, 1, 1)
ARIM A (2, 1, 2)
ARIM A (4, 1, 4)
ARIM A (8, 1, 2)
ARIM A (8, 1, 4)

2
0.6168190
0.5434549
0.5204500
0.4826461
0.4816530

AIC
347.7753
334.4843
336.4037
331.3783
334.9689

log L
170.8877
162.2421
159.2019
154.6892
154.4845

> matrix(c(arima111$sigma2,arima212$sigma2,arima414$sigma2,arima812$sigma2,arima814$sigma2,
+ arima111$aic,arima212$aic,arima414$aic,arima812$aic,arima814$aic,
+ arima111$loglik,arima212$loglik,arima414$loglik,arima812$loglik,arima814$loglik),5,3)
[,1]
[,2]
[,3]
[1,] 0.6168190 347.7753 -170.8877
[2,] 0.5434549 334.4843 -162.2421
[3,] 0.5204500 336.4037 -159.2019
[4,] 0.4826461 331.3783 -154.6892
[5,] 0.4816530 334.9689 -154.4845

194

-0.
0.

Aucun modle ne semble vraiment bien modliser la srie. En fait, aucun modle de
type ARM A ne pourra prendre en compte le pic de volatilit au dbut des annes 80. Les
modles ARCH pourraient tre une alternative intressantes, mais au del de lobjectif
du cours.

9.2

Modlisation du taux de croissance du P IB amricain

La srie suivante correspond au P IB amricain, depuis 1947


> base=read.table("http://freakonometrics.free.fr/GDP_United_States2.csv",
+ header=TRUE,sep=",")
> > Y=rev(base[,3])
Y=ts(Y,frequency = 4, start = c(1947, 1))
> plot(Y)

Il est parfois plus simple de travailler sur le taux de croissance trimestriel


> Z=diff(Y)/Y
> plot(Z)

195

> acf(Y,lwd=5,col="red")
> pacf(Y,lwd=5,col="red")

Compte tenu de la forme des autocorrlations, il est possible de tester un modle


AR (3), i.e.
Nous obtenons le modle suivant
Xt 0.35Xt1 0.18Xt2 + 0.11Xt3 = 0.007 + t
> (modele=arima(Z,order=c(3,0,0)))
Series: Z
ARIMA(3,0,0) with non-zero mean
Coefficients:
ar1
ar2
0.3518 0.1279
s.e. 0.0618 0.0651

ar3
-0.1152
0.0618

intercept
0.0078
0.0009

sigma^2 estimated as 8.18e-05: log likelihood=847.87


AIC=-1687.73
AICc=-1687.5
BIC=-1669.97

On peut noter que le polynme autorgressif scrit




1 0.35L 0.13L2 + 0.11L3 = (1 + 0.46L) 1 0.87L + 0.27L2
o le second terme a des racines complexes conjugues.
> library(polynom)
> polyroot(c(1,-modele$coef[1:3]))
[1] 1.635739+1.157969i -2.161224-0.000000i 1.635739-1.157969i
> 2*pi/Arg(polyroot(c(1,-modele$coef[1:3])))
[1] 10.19964 -2.00000 -10.19964

On peut alors noter que la longueur moyenne du cycle stochastique est alors de 10.2
trimestres, cest dire entre 2 ans et demi et 3 ans.

196

También podría gustarte