Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Sries temporelles
Arthur Charpentier
15 mai 2012
Contents
1 Introduction gnrale et notations
1.1 Approches temps/frquences : un peu dhistoire . . . . . . . . . . . . . .
1.1.1 Analyse harmonique . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.2 Modles autoregressifs et moyennes mobiles . . . . . . . . . . . .
1.1.3 Lapproche temporelle : concept de corrlation srielle . . . . . .
1.1.4 Lquivalence entre les deux approches temps/frquence . . . . . .
1.2 Les dveloppements rcents . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.1 Les modles ARM A, ARIM A et SARIM A : modles linaires .
1.2.2 Modles ARCH - volatilit stochastique . . . . . . . . . . . . . .
1.2.3 Les processus mmoire longue . . . . . . . . . . . . . . . . . . .
1.2.4 Les processus multivaris . . . . . . . . . . . . . . . . . . . . . . .
1.2.5 Exemple : histoire de la prvision des modles conomiques
(macroconomiques) . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.6 Remarque sur les donnes hautes frquences . . . . . . . . . . . .
1.3 Thorie des processus temps discret . . . . . . . . . . . . . . . . . . . .
1.3.1 Stationnarit des processus . . . . . . . . . . . . . . . . . . . . . .
1.3.2 Proprit de Markov en temps discret . . . . . . . . . . . . . . . .
1.4 Objectifs de ltudes des sries temporelles . . . . . . . . . . . . . . . . .
1.4.1 Description et modlisation . . . . . . . . . . . . . . . . . . . . .
1.4.2 Prvision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.4.3 Filtrage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5 Conseils bibliographiques (en franais, et en anglais) . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
7
7
8
9
10
11
11
11
13
13
14
.
.
.
.
.
.
.
.
.
.
15
16
17
17
18
19
19
20
20
20
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
22
22
23
23
26
26
27
28
30
31
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
37
37
38
38
38
38
39
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3.3
3.4
3.5
3.6
3.7
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
41
41
42
42
43
43
47
48
49
50
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
52
52
52
53
57
57
58
58
59
59
60
61
62
62
63
63
64
64
64
.
.
.
.
.
.
.
.
.
.
.
67
67
67
68
69
70
72
73
73
75
77
79
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5.5
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
79
79
80
81
81
82
83
83
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
84
84
84
84
85
85
87
89
89
89
92
92
93
96
99
100
101
102
104
106
111
113
114
116
118
119
120
121
121
122
124
125
126
129
5.6
. . . . . .
. . . . . .
. . . . . .
de lissage
. . . . . .
. . . . . .
. . . . . .
. . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
130
131
132
133
137
. 137
. 137
. 137
. 142
. 144
. 144
. 144
. 146
. 147
. 148
. 148
. 152
. 152
. 152
. 153
. 155
. 156
. 161
. 161
.
.
.
.
.
.
.
.
.
.
.
.
164
165
167
172
173
174
174
174
175
175
176
176
8.3
8.4
8.5
8.6
8.7
. .
. .
. .
des
. .
. .
. .
. .
. .
. .
. .
. .
. .
. .
. .
. .
.
.
.
.
.
.
.
.
.
. 179
. 179
. 179
.
.
.
.
.
.
.
.
.
.
.
.
180
180
181
182
182
183
183
184
186
187
187
189
190
. 190
. 191
. 192
. 193
. 193
. 194
. 194
. 194
. 195
Remarque 1. Ces notes de cours sont bases sur de vieilles notes de cours datant de
2005, utilises lUniversit Paris 9 Dauphine. Les notes taient alors bases sur des
codes SAS, mais elles sont ajourdhui en R.
1.1
Ces visualisations graphiques ont permis, grce aux diffrents outils mathmatiques
mis en place au XV III e et XIX e sicles, de mettre en place les premires techniques
dtude des sries chronologiques2 , parmi lesquelles, lanalyse harmonique.
1.1.1
Analyse harmonique
Les astronomes ont t les premiers utiliser lanalyse de Fourier pour des sries
chronologiques. Leur but tait de dtecter des saisonalits caches au sein de leurs donnes. Ainsi, Lagrange a utilis ces mthodes pour dtecter de la priodicit cache en
1772 et en 1778. Un demi-sicle plus tard, en 1847, Buys et Ballot, dans Les changements priodiques de tempratures ont propos des mthodes pour tudier la priodicit
de donnes astronomiques. Toutefois, il a fallu attendre 1889 pour que Sir Arthur Shuster
introduise le priodogramme, qui constitue la base des mthodes spectrales danalyse de
sries chronologiques.
Lide est la suivante : on recherche un modle sous-jacent de la forme
X
X
Yt =
j cos [j t j ] + t =
[j cos (j t) + j sin (j t)] + t ,
o (t ) est une suite de variables alatoires indpendantes identiquement distribues, qui
correspondront un bruit
q blanc (cette notion serait longuement dveloppe par la suite).
Le facteur j (ou j2 + j2 ) correspond lamplitude de la j-me composante priodique, et indique le poids de cette composante au sein de la somme.
2
En fait, comme le note Bernstein dans Against the Gods (the remarkable story of risk), les grecs ou
les hbreux ont observs des phnomnes cycliques (par exemple), mais ils nont jamais pens faire de
la prvision. Il a fallu attendre la Renaissance pour que lavenir ne soit plus quune question de chance
ou un fruit du hasard.Y compris au XV IIIme sicle, prvoir des phnomne futurs pouvait faire croire
une tentative de rivaliser avec les dieux : Halley remarqua que la mme comte fut aperue en 1531,
en 1607 et en 1682 (cette comte avait t observe dailleurs depuis 240 avant J.C.), et il prvoit quon
la reverra en 1758 (ce fut effectivement le cas, au grand moi de toute lEurope, puisque tous les 76 ans,
la comte, dite de Halley, arrive en vue de la terre).
Deux articles en 1927 ont ouvert une autre voie : larticle de Yule (on the method of
investigating periodicities in disturbated series with sepcial reference to Wolfers sunspot
numbers) et celui de Slutsky (the summation of random causes as the source of cyclical
processes).
Yule a introduit dans la littrature les modles autorgressifs, en considrant des modles de la forme
Yt = Yt1 + Yt2 .
Etant donnes deux valeurs initiales, cette suite prsente un comportement saisonnier,
fonction des paramtres et . Yule remarque quen fait, le comportement dpend des
racines (complexes) de lquation z 2 z = 0, et plus particulirement de leur
position par rapport au disque unit. Si leur module est infrieur 1, alors on observe un
comportement sinusodal amorti. En fait, la forme gnrale des solutions sera
Yt = At cos (t ) , lorsque 0 < < 1.
Le modle autorgressif propos par Yule est le suivant
Yt = 1 Yt1 + 2 Yt2 + t ,
(1)
o (t ) correspond un bruit blanc : un bruit blanc correspond un processus indpendant (ou, plus faiblement, non corrl avec son pass). Nanmoins, des hypothses plus
fortes doivent parfois tre faites : on veut que ce bruit soit galement indpendant du
pass de la variable Yt , i.e. t indpendant de Yth pour tout h 1, et on parle alors
dinnovation du processus (Yt ) .
Remarque 2. Le terme bruit blanc vient de la thorie du signal. Comme pour la lumire
blanche (qui est un mlange de toutes les couleurs), le bruit blanc est compos de toutes
les frquences, o la densit spectrale de puissance est la mme pour toutes les frquences.
Ce bruit ressemble un souffle.
Slutsky a introduit les moyennes mobiles la mme anne que Yule a introduit les
processus autorgressifs... mais son article, crit en 1927 en russe na t traduit quen
1937 en anglais. Pour cela, il a utilis des nombres gnrs par la lotterie officielle, et a
russit gnrer une srie dcrivant le cycle conomique en Angleterre, de 1855 1877.
La forme gnrale tait la suivante,
Yt = 0 t + 1 t1 + ... + q tq ,
(2)
o (t ) est un bruit blanc, correspondant ces nombres gnrs par la lotterie officielle :
on obtient des variables indpendantes entre elles (cf tables de nombres alatoires), mais
surtout indpendantes du cycle conomique. Cette criture a suggr dlargir la relation
(1) sous une forme proche de (2), savoir
0 Yt + 1 Yt1 + ... + p Ytp = t .
Les processus introduits par Yule deviendront les processus AR (p) et ceux introduits par
Slutsky les processus M A (q). Lanalogie entre les deux processus sera mme pousse
plus loin lorsquil sera montr que les processus AR (p) et M A (q) sont respectivement
des processus M A () et AR (), sous certaines conditions.
1.1.3
1.1.4
Dans un premier temps, lanalyse harmonique a t gnralise pour passer dune somme
de Fourier une intgrale de Fourier
Z
Yt =
[cos (t) dA () + sin (t) dB ()] .
0
1.2
Ltude des sries temporelles semble avoir atteint sa maturit au cours des annes 70 o
des dveloppements significatifs sont apparus. En 1965, Cooley et Tukey ont beaucoup
aid ltude spectrale des sries grce leur article an algorithm for the machine calculation of complex Fourier series, introduisant la Fast Fourier Transform (FFT ). Cet
algorithme a permis de calculer rapidement des priodogrammes. A la mme poque,
en 1970, Box et Jenkins ont publi leur ouvrage Time series analysis, forecasting and
control , montrant que ltude des sries temporelles laide de processus de type ARM A
(obtenus en associant les critures (1) et (2) des processus AR et M A) pouvait sappliquer
de nombreux domaines, et pouvait tre facilement implmente informatiquement3 .
1.2.1
Les modles ARM A sont un mlange des modles (1) et (2) proposs par Yule et Slutsky.
Un processus (Xt ) est un processus ARM A (p, q) sil existe un bruit blanc (t ) (cest
3
Sur les mthodes de prvision en conomie, il peut tre intressant de se reporter The past, present
and future of macroeconomic forecasting de Francis Diebold (1997).
11
dire un processus stationnaire tel que t et tk soient indpendants, pour tout k, pour
tout t) tel que
Xt = 1 Xt1 + ... + p Xtp + t + 1 t1 + ... + q tq , pour tout t.
Sous certaines conditions, ces processus sont stationnaires. Comme nous le verrons par
la suite, ces processus peuvent scrire sous la forme
(L) Xt = (L) t , o (L) = I 1 L ... p Lp et (L) = I + 1 L + ... + q Lq ,
L reprsentant loprateur retard, au sens o LXt = Xt1 , et avec la convention Lp =
L Lp1 , soit Lp Xt = Xtp : la srie (Yt ) telle que Yt = Lp Xt est alors la srie (Xt )
retarde de p priodes.
Paralllement, on dira quun processus non-stationnaire est intgr dordre 1, si en le
diffrenciant une fois, on obtient un processus stationnaire : (Xt ) (non-stationnaire) sera
dit intgr dordre 1 si le processus (Yt ) dfinit Yt = Xt = Xt Xt1 = (1 L) Xt
est stationnaire. On dira, par extension, que (Xt ) est intgr dordre d si (Xt ) est
non-stationnaire, ..., (Yt ) o Yt = (1 L)d1 Xt , est non-stationnaire, et (Zt ) o Zt =
(1 L)d Xt , est stationnaire. On appelera alors processus ARIM A (p, d, q) un processus
(Xt ) pouvant se mettre sous la forme
(L) Xt = (L) (1 L)d Xt = (L) t , o (t ) est un bruit blanc.
Pour les donnes relles, on notera que d = 1, 2 ou 3 (au maximum). Cela signifie que
(Yt ) dfinit comme diffrence dordre d du processus (Xt ), soit Yt = (1 L)d Xt , suit un
processus ARM A (p, q) 4 .
On parlera dailleurs de prsence de racine unit : 1 est alors racine du polynme
autorgressif (z). Par gnralisation, on peut considrer le cas o exp (2i/s) est racine
du polynme autorgressif : cest dire que (L) = (1 Ls ) (L). On dira alors que
lon est prsence dune racine unit saisonnire, qui engendreront les modles SARIM A.
Les modles intgrs sont trs prsents dans les sries conomiques, par exemple
les sries dindices boursiers, dindice de production, dindice de prix.... Les modles
SARIM A sont galement trs prsents ds lors que les sries sont trs saisonnires (avec
une forte pridicit trimestrielle, annuelle...etc).
Remarque 3. Parmi les transformations usuelles des variables, la transformation par
(1 L) est parmi les plus utilises : on ne considre alors plus la srie brute (Xt ) mais la
variation (brute) Yt = Xt Xt1 . Dans le cas o Xt est un prix (par exemple un indice
boursier, CAC40 ou SP 500), on considre galement souvent la variable obtenue comme
diffrence des logarithmes des prix Zt = log Xt log Xt1 , qui est alors le rendement ou
le taux de croissance (return ).
4
Ceci nest quune notation : comme nous le verrons par la suite, les processus ARIM A sont un peu
plus compliqus que les processus ARM A puisquil faut prendre en compte des conditions initiales : (Yt )
ne suit quasymptotiquement un processus ARM A (p, q).
12
1.2.2
Dans les annes 80, des dveloppements ont t apports dans ltude de la non-linarit
de certaines sries, et sur leur modlisation. En 1982, Engle a introduit la classe des
modles ARCH (autorgressifs conditionnellement htroscdastiques5 ). Ces modles ont
t introduits pour palier une observation empirique qui ntait pas prise en compte par
les modles : la volatilit conditionelle dune srie (Yt ) na aucune raison dtre constante.
Dans les modles AR (1), la variance conditionnelle de Xt sachant Xt1 est constante :
V (Xt |Xt1 ) = 2 o V (t ) = 2 (notion dhomoscdasticit). Engle a cherch un modle
dans lequel la variance conditionnelle
de Xt sachant Xt1 dpendrait de Xt1 , et plus
2
particulirement, V (Xt |Xt1 ) = + Xt1
2 . Pour cela, il a considr les modles de
la forme
p
2
.
Xt = t ht , o ht = 0 + 1 Xt1
Cette classe de modle, appele ARCH (1) a t gnralise sous la forme ARCH (p),
p
2
2
Xt = t ht , o ht = 0 + 1 Xt1
+ ... + p Xtp
.
Cette forme pour ht a permis lanalogie entre les modles AR et les modles ARCH. De
plus, cette classe de modles ARCH a t gnralise de la mme faon que les ARM A
gnralisent les AR, en considrant des fonctions ht de la forme
ht = 0 +
p
X
2
i Xti
i=1
q
X
j tj ,
j=1
Dautres avances ont t faites sur la mmoire longue de certaines sries. Les processus stationnaires de type AR ont un autocorrlogramme qui converge vers 0 de faon
exponentielle ( (h) = h ). Les processus mmoire longue seront caractriss par une
dcroissance de leur autocorrlogramme suivant une fonction puissance ( (h) = h ).
Plusieurs classes de processus appartiennent cette srie,
(i) les processus self-similaires, introduits par Kolmogorov en 1958 et dvelopps par
Mandelbrot (1965) : ces processus sont caractriss par lexistence dune constante H
(dite de self-similarit) telle que, pour tout constante c, la distribution de Yct soit gale
celle de cH Yt . On retrouve dans cette classe les processus de Levy.
(ii) les processus F ARM A, gnralisation des modles ARIM A dcrits par Box et
Jenkins. Ces modles ARIM A taient obtenus en considrant que les diffrences premires
5
Pour rappel,
un modle conomtrique est dit homoscdatique si la variance des erreurs (cen
tres) E 2t est constante - quelque soit la priode dtude. Dans le cas contraire,
on parlera
dhtroscdasticit. Les modles sont ici conditionnellement htroscdatistique car E 2t |t1 dpend
de t.
13
Enfin, dautres dveloppements ont t fait dans ltude des processus multivaris. Si lon
se place uniquement en dimension 2, on comprend que la gnralisation des processus
univaris une dimension suprieur est relativement complique.
(i) les modles V AR - vecteurs autorgressifs - sont une gnralisation des modles
AR en dimension n. Si lon considre par exemple un couple Z t de deux variables (Xt , Yt )
que lon souhaite expliquer par leur pass, on obtient un modle de la forme
Xt
1 1
Xt1
t
=
+
, soit Z t = A1 Z t1 + Ut ,
Yt
1 1
Yt1
t
o la matrice At est compose des coefficients autoregressifs usuels (1 et 1 ) mais aussi
des notions relatives la notion de causalit, Xt dpendant de Yt1 , et Yt dpendant de
Xt1 .
(ii) la cointgration est une notion relative au comportement des plusieurs variables
intgres, et la relation qui les unit long terme : on considre (Xt ) et (Yt ) nonstationnaires, et intgres dordre d, satisfaisant une relation du type
Xt = + Yt + t .
Plus formellement, si le vecteur (Z t ) est intgr dordre d, on dira que les sries
Zt1 , Zt2 , ..., Ztn sont cointgres si et seulement sil existe une relation linaire non-nulle
des composantes qui soient intgres dordre strictement infrieur d
(iii) le modle filtre de Kalman. Ce modle est un cas particulier dune classe plus
large de modles, les modles espace dtats, de la forme
Z t+1 = At Z t + t
Y t = Ct Z t + t ,
o (Y t ) est le vecteur que lon tudie, (Z t ) est un vecteur alatoire (=tat) inconnu, At
et Ct sont des matrices dterministes, et (t , t ) est un bruit blanc normal. Lide est
destimer rcursivement Z t en fonction de Y 0 , ..., Y t .
14
1.2.5
La thorie conomique inspire de Keynes reposait sur lutilisation de prvisions conditionnelles : sous certaines hypothses, les prvisions dune ou plusieurs variables taient
faites conditionellement des comportements, au sein de modles structurels. Plus particulirement, ds 1936, Keynes proposait par exemple de lier la consommation Ct au revenu
disponible Rt , sous la forme Ct = Rt + : une prvision de Rt permettait de prvoir
Ct . Brown avait propos un modle lgrement diffrent ds 1952, en intgrant le fait
que les individus ont des habitudes de consommation, entrainant une inertie importante :
Ct = Rt + + Ct1 . Ces prvisions structurelles ont toutefois cess de faire rfrence
partir des annes 70.
Les prvisions non-structurelles ont alors pu prendre en compte les diffrents cycles
observs en conomie (1977 : Business cycle modeling without pretending to have too
much a priori theory de Sargent et Sims) : des prvisions de sries conomiques peuvent
se faire sans ncessairement avoir de modle structurel derrire. Les modles utiliss sont
toutefois relativement anciens puisquils sont inspirs des modles de Slutsky et Yule,
tous deux datant de 1927, bass sur la notion de modle autorgressif. La publication de
louvrage de Box et Jenkins en 1970 permettra une avance rapide avec lutilisation des
modles ARM A.
Toutefois, le lacune de la thorie de Box et Jenkins est quelle ne prend pas en compte
des effets croiss de dpendance entre variables. Pour effectuer de la prvision dun ensemble de variables, a priori lies, il convient deffectuer une prvision globale : la thorie
des modles V AR (modles autorgressifs vectoriels) a t introduite en conomie sous
limpulsion de Sims en 1980, qui a travaill sur des systmes dquations o toutes les variables sont alors endognes (contrairement aux quations structurelles de Keynes). Cette
thorie avait toutefois t tudie ds les annes 70 par Granger par exemple, qui avait
travaill sur la notion simple de causalit entre variables.
Toutefois, la prsence dun certain nombre de variables non-stationnaires a pos un
certain nombre de problmes : Granger a alors introduit la notion de cointgration en 1981
: cette notion dit que deux variables X et Y peuvent suivre une tendance stochastique,
mais la diffrence (ou le spread ) X Y peut tre stationnaire. Cette notion sera lorigine
des modles tendance commune, permettant de travailler sur des systmes dquations
o certaines variables sont cointgres. En particulier, ds 1978, Hall se posait la question
de savoir si la consommation par habitant ntait pas une martingale, ce qui conduirait
crire Ct = Ct1 + t o t est un ala. Nelson et Plosser ont dailleurs not, en 1982
quun grand nombre de sries macroconomiques taient caractrises par la prsence
dune racine unitaire (cest dire une criture de la forme Ct = Ct1 + Xt ). Et cest
finallement en 1987 que Campbell a propos un modle V AR sur la consommation C et
le revenu R, puis un modle V AR intgrant dans chaque quation un modle correction
derreur.
Une autre piste qui a t explore la mme poque est celle des modles non-linaires.
Cette voie a t ouverte ds 1982 par Engle, qui introduisi de la dynamique dans la
15
volatilit, laide des modles ARCH. Ces modles ont t trs utiliss en finance, mais
aussi pour des modles dinflation.
Parmi des amliorations apportes dans les annes 90, on peut noter les modles avec
cycles, avec rupture de tendance, changement de rgime...etc. La thorie des modles
changement de rgime repose sur lide que derrire les variables observes existent des
variables caches, non observes.
Pour rsumer lhistoire des applications conomiques des sries temporelles, on peut
retenir le schma suivant
- annes 20 : macroconomie descriptive : description des cycles (courts = Slutsky,
longs = Kondratieff )
- annes 50 : dbut de la thorie des sries temporelles, avec comme objectif principal,
la prvision
- annes 60 : application en macroconomie, avec des modles structurels : une
vingtaine de variables, et 200 observations (maximum)
- annes 70 : thorie de Box et Jenkins, sappuyant sur un logiciel (modle linaire)
: on considre les variables une une, sur 200 observations (dbut, la mme poque, de
la thorie des panels en microconomie : 3000 individus suivis sur 3 ou 4 priodes)
- annes 80 : en marcronomie, modles multivaris (causalit, cointgration,
codpendance). Dbut de lutilisation des modles de sries temporelles sur donnes financires : beaucoup de variables, 2000 observations. Dbut des modles temps continu.
- annes 90 : donnes hautes frquences sur les marchs financiers (de 4000 plus
de 2000000 observations).
Des complments peuvent se trouver dans larticle de Chris Chatfield (1997) intitul
Forecasting in the 1990s.
Remarque 4. Les modles que nous allons tudier dans ce cours sont bass sont bass sur
ltude de processus (Xt ) o les variables observes sur supposes valeurs relles
: X1 , X2 , ..., Xt , .... R. On observera ainsi des prix, des variations de prix, des taux, des
montants...etc. Des nombres de voyageurs seront, a la rigueur, considrs comme une
variable relle, mais deux cas seront exclus de notre tude, a priori :
les processus de comptage (ex : nombre daccident pour un conducteur lanne t)
les processus valeurs dans un espace dtat fini
1.2.6
Remarque 5. Les modles que nous allons tudier dans ce cours sont bass sont bass
sur ltude de processus (Xt ), observs des dates rgulires : X1 , X2 , ..., Xt , .... Il peut
sagir, par exemple, de la version discrre dun processus en temps continu : on observe
Xt1 , Xt2 , ..., Xtn , ... o les dates ti sont telles que ti ti1 soit constante pour tout i.
Dans le cas des donnes hautes frquences, lanalyse est relativement diffrente,
puisque laspect temporel doit tre pris en compte. Par exemple, pour tudier la liquidit des marchs financiers, on considre les triplets de variables suivants : (Ti , Vi , Pi ),
16
1.3
Deux types de processus sont utiliss dans la thorie des sries stationnaires
(i) les processus stationnaires
(ii) les processus markoviens
1.3.1
La stationnarit joue un rle central dans la thorie des processus, car elle remplace
(de faon naturelle) lhypothse dobservation i.i.d. en statistique. Deux notions sont
gnralement considres. La premire notion de stationnarit peut se dfinir de faon
forte par une stabilit en loi du processus : quels que soient n, t1 , ..., tn et h, on a lgalit
entre les lois jointes
L (Yt1 , ..., Ytn ) = L (Yt1 +h , ..., Ytn +h )
Cette dfinition toutefois peut tre affaiblie : le processus est dit stationnaire au second
ordre si
- la moyenne du processus est constante : E (Yt ) = m pour tout t Z
- les autocovariances ne dpendent que de la diffrence entre les observations :
cov (Xt , Xs ) = (|t s|)
Cette dernire proprit implique en particulier que la variance de Yt est constante :
V (Yt ) = 2 .
Remarque 6. Si lon considre les lois marginales ( t fix) du processus, la stationnarit
(forte) signifie une stabilit de la loi marginale : la loi de Yt et la loi de Ys sont identiques
pour t 6= s. La stationnarit du second ordre correspond uniquement une stabilit des
deux premiers moments : E (Yt ) = E (Ys ) et V (Yt ) = V (Ys ) pour t 6= s. Dans ce cas,
rien nempche davoir des skewness et des kurtosis variables en fonction du temps.
17
E (t ) = 0 pour tout t
V (t ) = E (2t ) = 2 pour tout t
1.3.2
La thorie sur les chanes de Markov (en temps discret) est galement un lment important.
6
Rappel : soient X1 et X2 de mme loi, Y1 et Y2 de mme loi, tels que cov (X1 , Y1 ) = cov (X2 , Y2 ),
alors on na pas galit des
lois jointes2 : L (X1 , Y1 ) 6= L (X2 , Y2 ). En particulier, si X et Y suivent des
2
lois normales N X , X
et N Y , Y avec corr (X, Y ) = , alors on na pas ncessairement
2
X
X
X
X Y
N
,
Y
Y
X Y
Y2
Un vecteur gaussien nest pas uniquement un vecteur dont les lois marginales sont uniformes (cf cours
de probabilit).
18
Cette proprit correspond lide que lon souhaite rsumer linformation contenue
dans les variables passes du processus par un nombre fini de variables (les variables
dtat). Dans le cas le plus simple, on souhaite que les variables dtat soient des valeurs
retardes du processus : toute linformation est contenue dans les k valeurs les plus
rcentes
L (Xt |Xt1 , Xt2 , Xt3 , ...) = L (Xt |Xt1 , ..., Xtk ) ,
qui peut se rcrire, lordre 1,
d
t discret
t continu
Chanes de Markov
Processus de Poisson
Sries Temporelles Calcul Stochastique (Brownien)
Les chanes de Markov correspondent par exemple au cas o Xt est valeurs dans un ensemble fini ({i1 , ..., in , ...}) o dnombrable (N) : par exemple les variables dichotomiques,
o Xt vaut soit 0, soit 1.. Le calcul stochastique correspond au mouvement brownien, et
aux processus de diffusion obtenus partir du mouvement brownien. Le cas o le temps est
continu et o les variables sont valeurs dans N (par exemple) correspond aux processus
de comptage, aux processus de Poisson, la thorie des files dattente...etc.
1.4
1.4.1
Le but est ici de dterminer les diffrentes composantes dune srie (Xt ), en particulier,
obtenir la srie corrige des variations saisonnires (mthodes de dsaisonnalisation). Pour
les sries stationnaires, on peut aussi chercher modliser la srie laide dun modle
ARM A, par exemple dans le but de faire de la prvision.
19
1.4.2
Prvision
Sur la base dobservation X1 , ..., XT le but est de faire une prvision, la date T , de la
bT (h). Une premire mthode est le lissage exponentiel, bas
ralisation en T + h, note X
bT (1) = Xt + (1 ) X
bT 1 (h), o , compris
sur une formule de rcurrence de la forme X
entre 0 et 1, est gnralement choisi de faon minimiser la somme des carrs des erreurs
de prvision.
Dans le cas des modles ARM A, de nombreuses relations existent afin de faire de
la prvision, avec un intervalle de confiance. Nous verrons comment ces intervalles de
confiance sont modifis si une modlisation ARCH est retenue, ou du type mmoire
longue.
1.4.3
Filtrage
1.5
21
La pratique de lanalyse des sries temporelles vise modliser une srie dobservations
x1 , ..., xn par un processus alatoire temps discret, cest dire une suite (Xn ) de variables
alatoires dfinies sur un espace de probabilit (, A, P), tel que lon puisse penser que
la srie observe soit une ralisation du processus. En dautres termes, x1 , ..., xn doit tre
obtenu comme tirage alatoire de X1 , ..., Xn suivant la probabilit P, cest dire que se
ralise un vnement tel que xi = Xi () pour i = 1, ..., n. Le but est alors, tant donne
une trajectoire x1 , ..., xn de reconstruire la dynamique du modle sous-jacent, cest dire
de comprendre la liaison entre Xi et son pass Xi1 , Xi2 , ..., X1 .
2.1
Un processus ( temps discret) sur un espace (, A, P) est une suite de variables alatoires
(Xt , t N), valeurs dans un espace mesur (E, E) (dans le cas qui nous intresse, E =
R). On peut considrer le processus comme la variable alatoire X (t, ), dfini sur lespace
produit N muni de la tribu produit.
Dfinition 9. Une filtration {Ft , t N} est la donne dune suite croissante (au sens de
linclusion) de sous-tribus de A. On posera F = sup {Ft , t N} : il sagit de la plus
petit tribu qui contienne toutes les Ft .
La filtration la plus usuelle est obtenue de la faon suivante : on observe une suite (Xt )
de variables alatoires, et on considre Ft = (X0 , ..., Xt ), qui est la plus petite tribu qui
rende mesurable les variables
(X0 , ..., Xn ). On appellera filtration naturelle cette filtration,
X
et on la notera Ft .
On dira que (Xt ) est adapte la filtration (Ft ) si pour tout t, Xt est Ft -mesurable.
La filtration naturelle est la plus petite filtration par rapport laquelle le processus soit
X
adapt. On dira que le processus (Xt ) est prvisible si pour tout t 1, Xt est Ft1
mesurable.
Dfinition 10. Le processus {Xt , t N} muni de la filtration {Ft , t N} tel que pour
tout t, Xt soit intgrable. On dira que (Xt ) est une martingale si et seulement si, pour
tout t, E (Xt+1 |Ft ) = Xt presque srement.
Remarque 11. Si pour tout t, E (Xt+1 |Ft ) Xt presque srement, on dira que (Xt ) est
une sous-martingale, et si pour tout t, E (Xt+1 |Ft ) Xt presque srement, on dira que
(Xt ) est une sur-martingale.
Si (Xt ) est une (Ft )-martingale, alors pour tout h 0, E (Xt+h |Ft ) = Xt . De
plus, si la martingale est de carr intgrable, les accroissements sont orthogonaux : si
Xt = Xt Xt1 , pour s 6= t, E (Xt Xs ) = 0. Une des consquences est que, pour tout
h0
h
X
2
2
E [Xt+h Xt ] =
E Xt+i
.
i=1
22
2.2
Dfinition 12. Le processus {Xt , t N} est une chane de Markov dordre 1 si et seulement si, pour tout t,
L (Xt |Xt1 , Xt2 , Xt3 , ...) = L (Xt |Xt1 ) .
Autrement dit, compte tenu de la trajectoire (XT 1 = xT 1 , XT 2 = xT 2 , ...) dun
processus (Xt ), la loi de XT linstant T est entirement dtermine par le fait que la
valeur en T 1 soit xT 1 .
Thorme 13. Le processus {Xt , t N} est une chane de Markov dordre 1 si et seulement sil existe une fonction g (.) mesurable et un processus t tel que Xt = g (Xt1 , t ) avec (t ) une suite de variables alatoires, indpendantes et de mme loi.
Lorsque lapplication g ne dpend par de t, la chane de Markov est dite homogne.
Exemple 14. Les processus AR (1) : Xt = + Xt1 + t , o (t ) est un bruit blanc
independant du pass du processus, sont markoviens.
Exemple 15. En particulier, les processus de la forme Xt = Xt1 + t correspond une
marche alatoire :
- si X0 Z et P (t = 1) = P (t = +1) = 1/2, on obtient la marche alatoire
symtrique sur Z (jeu du pile ou face),
- si t suit une loi normale centre, on obtient une discrtisation du mouvement brownien, ou un processus ARIMA(0,1,0) comme nous lappelerons ici.
On notera que si lon a parl de chane dordre 1, cest quil doit tre possible
dintroduire une chane dordre suprieur,
Dfinition 16. Le processus {Xt , t N} est une chane de Markov dordre p si et seulement si, pour tout t,
L (Xt |Xt1 , Xt2 , Xt3 , ...) = L (Xt |Xt1 , ..., Xtp ) .
2.3
Notions de stationnairit
Remarque 19. Une des consquences est que variance V (Xt ) est constante, indpendante
de t, V (Xt ) = (0) .
Proposition 20. Si (Xt , t Z) est un processus
stationnaire, et si (ai , i Z) est une
P
suite de rels absolument convergente, i.e. iZ |ai | < +, alors, le processus (Yt ) dfini
par
X
Yt =
ai Xti , pour tout t Z,
iZ
1
(Xt + Xt1 ) ,
2
est stationnaire ds lors que (Xt ) est stationnaire. De mme pour Yt = Xt Xt1 .
Dfinition 22. Un processus (Xt ) est stationnaire au sens fort si pour tous t1 , ..., tn et h
on a lgalit en loi
L
(Xt1 , ..., Xtn ) = (Xt1 +h , ..., Xtn +h ) .
Remarque 23. Cette notion revient dire que la loi temporelle est invariante en temps.
Cette stationnarit est beaucoup plus forte que la stationnarit du second ordre, puisquon
ne recherche pas la stabilit de la loi, mais seulement la stabilit des deux premiers moments.
Dfinition 24. On appelle bruit blanc (parfois appel bruit blanc faible) un processus (t )
stationnaire dont les autocovariance sont toutes nulles : (h) = 0 pour h 6= 0.
Remarque 25. Nous avons vu dans la partie prcdante que (Xt ) est une martingale
si et seulement si, pour tout t, E (Xt+1 |Xt , Xt1 , ....) = Xt pour tout t, ou, de faon
quivalente, cela signifie que Xt+1 = Xt + t avec E (t+1 |t , t1 , ....) = 0 pour tout t.
Cette notion est plus contraignante que celle de marche alatoire : en effet, la proprit
de martingale implique lindpendance des accroissements (t ) alors que la dfinition de
la marche alatoire nimplique que la nullit des corrlations des accroissements.
Dfinition 26. Un processus stationnaire (Xt ) sera dit ergodique si pour tout p N , et
pour tout fonction borlienne de Rp valeurs dans R, on a
N
1 X
f (Xi+1 , Xi+2 , ..., Xi+p ) E (f (X1 , X2 ..., Xp )) , quand N ,
N i=1
qui peut tre vu simplement comme une gnralisation de la loi de grand nombre.
24
Il est aussi possible de visualiser les racines units dans C, par exemple pour (L) =
(1 + 0.5L 0.4L2 0.3L4 ) ou (L) = (1 + 0.5L 0.4L2 + 0.3L4 ),
>
>
>
>
>
PM=c(1,.5,-.4,0,-.3)
plot(Re(polyroot(PM)),Im(polyroot(PM)),pch=19,col="blue",xlim=c(-2,2),ylim=c(-2,2))
u=seq(-1,1,by=.01)
lines(u,sqrt(1-u^2),col="red")
lines(u,-sqrt(1-u^2),col="red")
25
>
>
>
>
abline(h=0,col="grey")
abline(v=0,col="grey")
PM=c(1,.5,-.4,0,.3)
plot(Re(polyroot(PM)),Im(polyroot(PM)),pch=19,col="purple",xlim=c(-2,2),ylim=c(-2,2))
2.4
2.4.1
Dfinition 29. Pour une srie stationnaire (Xt ) , on dfinit la fonction dautocovariance,
pour tout t, par
h 7 X (h) = cov (Xt , Xth ) = E (Xt Xth ) E (Xt ) .E (Xth ) .
Dfinition 30. Pour une srie stationnaire (Xt ) , on dfinit la fonction dautocorrlation,
pour tout t, par
cov (Xt , Xth )
X (h)
p
.
h 7 X (h) = corr (Xt , Xth ) = p
=
X (0)
V (Xt ) V (Xth )
Cette fonction X (.) est valeurs dans [1, +1], et X (0) = 1.
Dfinition 31. Un processus (t ) sera appel bruit blanc (faible) sil est stationnaire,
centr et non-autocorrl :
E (t ) = 0, V (t ) = 2 et (h) = 0 pour h 6= 0.
On parlera de bruit blanc fort sil est indpendant et identiquement distribu (i.i.d.)
: la notion dindpendance est plus forte que la nullit des autocorrlations, et le fait que
le processus soit identiquement distribu est plus fort que la stabilit des deux premiers
moments.
Exemple 32. Processus M A (1) : Xt = t + t1 o (t ) est un bruit blanc centr de
variance 2 ,
(0) = [1 + 2 ] 2
(1) = 2
, soit (1) =
et (h) = 0 pour |h| 2.
1 + 2
(h) = 0 si |h| 2
26
2.4.2
Densit spectrale ? ? ?
Lide ici est que les coefficients dautocovariance dune srie stationnaire correspondent
aux coefficients de Fourier dune mesure positive, appele mesure spectrale du processus.
Il est possible de montrer que cette mesure spectrale admet une densit, dite spectrale,
par rapport la mesure de Lebesgue sur [, ], que nous noterons fX . Dans le cas
o la srie des autocovariance est absolument convergente, la densit spectrale est alors
dfinie comme la transforme de Fourier des coefficients dautocovariance (dans le cas o
la somme des |X (h)| tend vers linfini, la somme est prendre au sens de L2 ) : comme
lont montr Cramr, Kolmogorov, ou encore Wiener, on les rsultats suivants,
(i) la suite des fonctions dautocovariance X (h) dun processus stationnaire peut tre
crit sous la forme
Z +
exp (ih) dFX () ,
X (h) =
Proof. En effet
Z
Z (h) =
fZ () exp (ih) d = K
27
exp (ih) d
{z
}
=0 sauf si h=0
avec
jZ
bT (h) =
1 X
Xt X T Xth X T ,
T h t=1
bT (h)
.
bT (0)
Si ces estimateurs sont biaiss ( distance finie), ils sont malgr tout asymptotiquement
sans biais.
Proposition 39. Les moments empiriques convergent vers les moments thoriques :
X T m,
bT (h) (h) et bT (h) (h) quand T .
En fait, comme nous le verrons par la suite, nous avons mme normalit asymptotique
des moments empiriques.
Remarque 40. Bien que ces fonctions soient dfinies pour tout h tel que T < h < T , la
fonction dautocovariance empirique fournit un estimateur trs pauvre de (h) pour des
valeurs h proches de n. A titre indicatif, Box et Jenkins recommandent de nutiliser ces
quantits que si T > 50 et h T /4. In pratice, to obtain usefull estimate of the autocorrelation function, we need at least 50 obsevations, and the estimated autocorrelations
rk could be calculated for k = 1, ..., K where K was not larger than, say, T /4.
28
Afin, par exemple, de faire de la selection de modles, il est important de pouvoir dire
si les autocovariances empiriques sont significativement non nulles. Il est alors possible
dutiliser le rsultat suivant
Proposition
41. Si (Xt ) est un processus linaire, au sens o il satisfait Xt =
P
2 2
4
jZ j tj o (t ) est une suite de variables i.i.d. centres, telle que E (t ) = E (t ) <
+, o les j dfinissent une srie absolument convergente, et o est une constante
positive, alors, on a la formule dite de Bartlett,
lim T cov (b
T (h) ,
bT (k)) = (h) (k) +
+
X
(i) (i + k h) + (i + k) (i h) .
i=
bT (0)
(0)
.
..
n
N .. , V ,
.
bT (p)
(p)
o V est la matrice de variance-covariance dfinie par
"
#
+
X
V = (h) (k) +
(i) (i + k h) + (i + k) (i h)
i=
.
h,k=0,...,p
29
2.4.4
hZ
30
b =
log IT,k .
T t=1
2
Dans le cas des processus mmoire longue, la densit spectrale est de la forme fX (x)
Cx2d . Un estimateur non paramtrique de d peut tre obtenu en rgressant localement le
log-priodogramme dans un voisinage de la frquence nulle. On appelle alors estimateur
GPH
!1 m
mT
mT
T
X
X
2 X
2
b
log IT,j ,
d=
LT,k
LT,n . log LT,k o LT,k = 2 log |xk | +
mT j=1
k=1
k=0
et o mT est une suite dentiers positifs telle que mT 0 = et mT /T 0 quand
T .
> spec.pgram(X)
2.5
marche alatoire continue : on considre une marche alatoire discrte (Xt = Xt1 + t
o t N (0, 1)), pour laquelle on diminue les intervalles temporels entre deux dates
conscutives,
Proposition 46. Soit X1 , X2 , ..., XT un chantillon i.i.d., centr, de variance 2 . Soit [.]
la partie entire au sens o [x] x < [x] + 1 et [x] Z, alors pour tout 0 < r < 1,
[rT ]
1 X
L
p
Xt N 0, 2
[rT ] t=1
(r)
[rT ]
1X
=
Xt ,
T t=1
(r)
T XT XT
T XT L
L
N (0, r) ou encore
N (0, r2 r1 ) ,
(.)
pour r1 < r2 . Ceci permet de montrer que la suite des T .X T / est asymptotiquement
distribue comme un mouvement brownien, au sens o
(.)
T XT L
W.
Ce type de rsultat est alors trs utile pour obtenir des rsultats analytiques sur les
processus intgrs.
Considrons par exemple, une marche alatoire dfinie par Xt = Xt1 + t o t est
un bruit blanc de variance 2 , soit Xt = 1 + 2 + ... + t pour tout t, avec la convention
(r)
X0 = 0. Notons X T la variable construite partir des [rT ] premires observations par
(r)
XT
[rT ]
1X
1
i1
i
==
Xt = (1 + 2 + ... + i ) , o
r< ,
T t=1
T
T
T
on a alors
Z
T
(r)
X T dr = T 3/2
T
X
xt1 ,
t=1
(.)
t=1
32
T
X
2 T
(Xt1 )
(Ws )2 ds.
t=1
Ces rsultats seront utiliss en particulier pour la dtermination des proprits asymptotiques des estimateurs obtenus partir de sries intgres.
La construction de lintgrale stochastique sobtient dailleurs comme passage la
limite sur des processus temps discret8 . Considrons un dcoupage en T subdivisions
de lintervalle de temps [0, 1] : soit st = t/T pour t = 0, 1, ..., T . Considrons ici (Xst ),
not (Yt ), un processus dfini pour t = 0, 1, ..., T . On appelera variation quadratique de
la srie chronologique (Y ) la srie chronologique dfinie par
< Y >t =
t
X
j=1
La variation quadratique du mouvement bronwien standard (Wt ) est obtenu comme passage la limite
t
X
< W >t = lim
[Wj Wj1 ]2 = t
T
j=1
Xs dWs =
Zt =
0
t
X
Xi [Wj Wj1 ]
i=1
o (Xs ) est un processus discret : Xs = Xi pour (i 1) /T s < i/T , puis par passage
la limite, stend aux processus en temps continu.
Aussi, tous les modles financiers en temps continu ont un analogue en temps discret.
Mais si les modles en temps continu sont autant utiliss, cest principalement parce que
le calcul stochastique et la formule dIto permet danalyser les problmes de faon lgante
et relativement rapide.
Un processus suivant lquation stochastique
Z t
Z t
dYt = f (t, Yt ) dt + g (t, Yt ) dWt ou Yt = Y0 +
f (s, Ys ) ds +
g (s, Ys ) dWs
0
8
De faon plus simple, lintgrale dune fonction alatoire par rapport une mesure dterministe de
dfinie dj comme une limite : soit At un processus en temps continu, et considrons un dcoupage en
T subdivisions de lintervalle de temps [0, 1] : soit s = s/T pour s = 0, 1, ..., T . Considrons ici Xs ,
not Ys , le processus dfini pour s = 0, 1, ..., T , par Ys = At I (T t s < T (t + 1)), alors
Z
0
s
1X
As ds = lim
Ys
T T
j=1
33
34
La dcomposition tendance-cycle
Lanalyse des sries temporelles (conomiques par exemple) repose le plus souvent sur
une dcomposition tendance-cycle de la srie. Toutefois, cette dcomposition, si elle est
trs utilise en pratique, ne repose pas sur une construction thorique unique. Il est alors
souvent admis que la tendance correspond lquilibre de long terme, alors que le cycle
correspond la dynamique de court terme. Mais cette distinction ne suffit pas pour
identifier clairement les deux composantes, et des hypothses supplmentaires sont alors
ncessaires.
Deux approches sont alors gnrallement utilises : la premire consiste utiliser une
thorie conomique (cest dire un modle structurel dont les composantes auront des
interprtations conomiques), alors que la seconde tend utiliser des outils statistiques
neutres. Nous allons nous intresser ici cette seconde approche. Nanmoins, nous
pouvons ds prsent noter que cette neutralit est difficile mettre en oeuvre : il existe
une infinit de faon de construire la tendance moyenne, par exemple. Il existe alors de
nombreuses mthodes pour valuer la croissance tendancielle.
Nous allons nous concentrer ici sur des dcompositions additives de la forme (Xt ) =
(Tt )+(Ct ). Un modle multiplicatif peut en effet se ramener un modle additif en passant
au logarithme. Les mthodes traditionelles reposent sur deux techniques : lestimation
dune tendance dterministe et le lissage. Des mthodes plus rcentes se basent sur la
notion de tendance stochastique, avec en particulier la mthode de Beveridge et Nelson,
et les modles composantes inobservables.
Parmi les mthodes de lissage, lapproche la plus simple consiste utiliser des moyennes
mobiles on utilise alors une moyenne (pondre) de la srie (Xt ) dont la dure correspond
au cycle, qui conserve la tendance et limine le cycle. La moyenne symtrique arithmtique
est lexemple le plus simple : on considre alors la srie (Yt ) dfinie par
Yt = M (Xt ) =
1
(Xtm + Xtm+1 + ... + Yt1 + Yt + Yt+1 + ... + Yt+m )
2m + 1
(3)
Ce type de filre, comme nous le verrons par la suite, conserve les tendances linaires, et
filtre (ou annule) les sries priodiques de priode 2m + 1. Toutefois, deux problmes
apparaissent dans lutilisation des filtres moyennes-mobiles
- les points extrmes de la srie ne peuvent tre traits de la mme faon que les autres
points (effet de bord )
- les sries lisses sont souvent autocorrles, non pas cause de la structure de la
srie initiale, mais il sagit dune consquence du processus de lissage (effet Slutsky-Yule).
Dautre mthodes de lissage existent, par exemple en utilisant la mthode P AT (phase
average trend ) ou le filtre de Hodrick-Prescott (1980).
Lestimation dun trend dterministe repose sur lutilisation de fonctions simples, par
exemple linaires,
Xt = Tt + Ct = a + bt + Ct
(4)
Ces modles apparaissent parfois dans la littrature sous le terme T S (trend stationary), et
le cycle (suppos stationnaire) apparat alors comme lcart la tendance. Cette tendance
35
est alors estime par rgression. Cette mthode sera celle developpe dans la premire
partie, mme si elle a t fortement critique : la croissance long terme est alors fixe
de faon mcanique. Des modles avec rupture de tendance ont ainsi t introduits.
> autoroute=read.table(
+ "http://freakonometrics.blog.free.fr/public/data/autoroute.csv",
+ header=TRUE,sep=";")
> a7=autoroute$a007
> X=ts(a7,start = c(1989, 9), frequency = 12)
> plot(decompose(X))
Il convient toutefois de noter que cette dcomposition tendance-cycle ne sont pas adaptes pour les sries non-stationnaires, et il convient dintgrer une composante stochastique
dans la tendance. Le modle de Beveridge et Nelson propose dexprimer les composantes
laide dune reprsentation ARIM A de la srie. Les modles composantes inobservables
repose surlutilisation de modles espace-tat (e.g. filtre de Kalman). Ces deux mthodes
sont prsentes dans larticle de Doz, Rabault et Sobczack Dcomposition tendance-cycle
: estimations par des mthodes statistiques univaries (1995).
36
3.1
Nous considrons ici une srie chronologique, mensuelle, comportant une forte saisonalit,
le trafic voyageur de la SNCF en France ( Gouriroux & Monfort (1995)),
1963
1964
1965
1966
1967
1968
1969
1970
1971
1972
1973
1974
1975
1976
1977
1978
1979
1980
>
+
+
>
+
>
JAN F EB M AR
1750 1560 1820
1710 1600 1800
1670 1640 1770
1810 1640 1860
1850 1590 1880
1834 1792 1860
1798 1850 1981
1854 1823 2005
2008 1835 2120
2084 2034 2152
2081 2112 2279
2223 2248 2421
2481 2428 2596
2667 2668 2804
2706 2586 2796
2820 2857 3306
3313 2644 2872
2848 2913 3248
AP R M AY
2090 1910
2120 2100
2190 2020
1990 2110
2210 2110
2138 2115
2085 2120
2418 2219
2304 2264
2522 2318
2661 2281
2710 2505
2923 2795
2806 2976
2978 3053
3333 3141
3267 3391
3250 3375
JU N
2410
2460
2610
2500
2480
2485
2491
2722
2175
2684
2929
3021
3287
3430
3463
3512
3682
3640
JU L
3140
3200
3190
3030
2880
2581
2834
2912
2928
2971
3089
3327
3598
3705
3649
3744
3937
3771
AU G
2850
2960
2860
2900
2670
2639
2725
2771
2738
2759
2803
3044
3118
3053
3095
3179
3284
3259
sncf=read.table(
"http://freakonometrics.blog.free.fr/public/data/sncf.csv",
header=TRUE,sep=";")
SNCF=ts(as.vector(t(as.matrix(sncf[,2:13]))),
,start = c(1963, 1), frequency = 12)
plot(SNCF,lwd=2,col="purple")
37
SEP OCT N OV
2090 1850 1630
2190 1870 1770
2140 1870 1760
2160 1940 1750
2100 1920 1670
2038 1936 1784
1932 2085 1856
2153 2136 1910
2178 2137 2009
2267 2152 1978
2296 2210 2135
2607 2525 2160
2875 2754 2588
2764 2802 2707
2839 2966 2863
2984 2950 2896
2849 3085 3043
3206 3269 3181
DEC
2420
2270
2360
2330
2520
2391
2553
2537
2546
2723
2862
2876
3266
3307
3375
3611
3541
4008
3.2
Le modle linaire
La srie Xt est la somme de 2 composantes dterministes : une tendance Zt , dune saisonnalit St et dune composante alatoire t
Xt = Zt + St + t .
On suppose que Zt et St sont des combinaisons linaires de fonctions connues dans le
temps, Zti et Stj , i.e.
Zt = Zt1 1 + Zt2 2 + ... + Ztm m
St = St1 1 + St2 2 + ... + Stn n .
Le but est destimer les 1 , ..., m et 1 , ..., n partir des T observations.
Xt =
m
X
Zti i
i=1
3.2.1
n
X
j=1
On supposera lhypothse suivante vrifie, savoir que les erreurs sont centres : E (t ) =
0, de mme variance V (t ) = 2 et non-corrles cov (t , th ) = 0 pour tout h > 0.
3.2.2
La forme de St dpend du type de donnes, et de la forme de la saisonnalit. On considrera ici des fonctions Sti indicatrices,
0 si t = mois i
0 si t = 0 [modulo i]
i
i
St =
ou St =
1 si t 6= mois i
1 si t 6= 0 [modulo i] .
Exemple 48. Pour des donnes trimestrielles, on a St = St1 1 + St2 2 + St3 3 + St4 4 o
Stj est la fonction indicatrice du trimestre j.
3.2.3
Composante tendancielle
38
Le cas (i) se traite par rgression simple (cf partie suivante), le cas (ii) se ramne au
cas (i) par transformation logarithmique, et le cas (iii) se traite par rgression multiple.
Il est galement possible dutiliser des modles avec des ruptures :
0 + 1 t pour t t0
Zt =
0 + 1 t pour t > t0 .
Cette tendance est une des composante les plus complique modliser car il nexiste
pas vraiment de mthode
3.2.4
St
5130
1
1
1
0
0
0
6410
1
2
0
1
0
0
8080
1
3
0
0
1
0
5900
1
4
0
0
0
1
5110
1
5
1
0
0
0
6680
1
6
0
1
0
0
=
+
+
+
+
+
+
8350
1
7
0 2 0 3 1 4 0
5910
1
8
0
0
0
1
5080
1
9
1
0
0
0
..
..
..
..
..
..
..
.
.
.
.
.
.
.
1
2
3
Xt
1
t
St
St
St
St4
qui peut se rcrire, de
5130
1
6410 1
8080 1
5900 1
5110 1
6680 1
=
8350 1
5910 1
5080 1
.. ..
. .
Xt
1
faon matricielle,
1
2
3
4
5
6
7
8
9
..
.
1
0
0
0
1
0
0
0
1
..
.
0
1
0
0
0
1
0
0
0
..
.
0
0
1
0
0
0
1
0
0
..
.
0
0
0
1
0
0
0
1
0
..
.
39
1
2
3
4
1
2
3
4
5
6
7
8
9
..
.
t
soit X = Y +
1
2
3
4
5
6
7
8
9
..
.
t
Lcriture de lestimateur des moindres carrs ordinaires scrit b = (Y 0 Y )1 Y 0 X. Toutefos, cette criture nest possible que si Y 0 Y est inversible, ce qui nest pas le cas ici car la
premire colonne (correspondant la constante) est gale la somme des 4 dernires (les
composantes trimestrielles). Deux mthodes sont alors possibles pour faire malgr tout
lidentification du modle.
ne pas tenir compte de la constante, et identifier le modle
Xt = t + 1 St1 + 2 St2 + 3 St3 + 4 St4 + t ,
rajouter une contrainte, et identifier le modle
Xt = + t + 1 St1 + 2 St2 + 3 St3 + 4 St4 + t
sous contrainte 1 + 2 + 3 + 4 = 0,
(5)
(6)
Cette dernire contrainte est arbitraire, mais correspond une interprtation bien prcise. Considrons la srie reprsente ci dessous, avec une saisonnalit dordre 4 (donnes
trimestrielles)
> SNCFQ= ts(apply(matrix(as.numeric(SNCF),3,length(SNCF)/3),2,sum),
+ start = c(1963, 1), frequency = 4)
> plot(SNCFQ,col="red")
> SNCFQ
Qtr1 Qtr2 Qtr3 Qtr4
1963 5130 6410 8080 5900
1964 5110 6680 8350 5910
1965 5080 6820 8190 5990
1966 5310 6600 8090 6020
40
3.3
3.3.1
Solutions gnrales
m
X
Zti i
i=1
n
X
j=1
La mthode des mco consiste choisir les i et j de faon minimiser le carr des erreurs
(
)
X
2
bi ,
bj
= arg min
t=1
= arg min
"
X
Xt
t=1
m
X
Zti i +
i=1
n
X
Stj j
#2
j=1
|
|
|
|
Z = Z 1 ... Z m = Zti i=1,...,n et S = S 1 ... S n = Stj j=1,...,n
t=1,...,T
t=1,...,T
|
|
|
|
Le modle scrit
X = Z + S + = [Z|S]
+ = Y b + ,
0
b
et bb = ,
b vrifie alors lquation
0
Y Y bb = Y X soit [Z S]
et donc
=
Z 0Z Z 0S
S 0Z S 0S
Z0
S0
bb =
1
Z 0X
S 0X
Z0
S0
X,
,
b = S 0 S S 0 Z (Z 0 Z)1 Z 0 S
S X S 0 Z (Z 0 Z)1 Z 0 X .
Remarque 50. Sil ny a pas deffet saisonnier, X = Z + , et on retrouve le modle
linaire usuel, avec pour estimateur mco b = [Z 0 Z]1 Z 0 X.
41
3.3.2
Pour le modle
Xt = 1 + 2 t + St1 1 + St2 2 + St3 3 + St4 4 + t ,
il est possible dexpliciter les diffrents coefficients. Lquation
(
i2
P
P h
min, Tt=1 Xt 1 2 t 4j=1 Stj j
sous contrainte () 1 + 2 + 3 + 4 = 0,
peut se rcrire
"
#2
T
4
X
X
1 = [1 + 2 + 3 + 4 ] /4
j
min
Xt 2 t
St j
o
j = j 1 ,
, t=1
j=1
3.3.3
i
h
b1 = b1 + b2 + b3 + b4 /4
bj = bj b1
(7)
(8)
(9)
Les relations obtenues dans le cas prcdant peuvent en fait tre gnralises dans le cas
dune priodicit m, et en notant (de la mme faon que prcdemment) N le nombre
dannes entures. L modle scrit alors
Xt = 1 + 2 t + St1 1 + St2 2 + St3 3 + ... + Stm m + t .
Lquation
(
i2
P h
P
j
min, Tt=1 Xt 1 2 t m
S
j=1 t j
sous contrainte () 1 + 2 + 3 + ... + m = 0,
PN
ne
xn N (N2+1) x
N (N 2 1)
n=1
42
Nm + 1
b1 = x b2
2
m+1
b
bj = x
ej x 2 j
2
3.4
3.4.1
Considrons la srie du trafiic SNCF agrge par trimestre, reprsente ci-dessous, avec
en ligne les annes, et en colonne les trimestres,
n\j
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
xj
1
2
3
4
5130 6410 8080 5900
5110 6680 8350 5910
5080 6820 8190 5990
5310 6600 8090 6020
5320 6800 7650 6110
5486 6738 7258 6111
5629 6696 7491 6494
5682 7359 7836 6583
5963 6743 7844 6692
6270 7524 7997 6853
6472 7871 8188 7207
6892 8236 8978 7561
7505 9005 9591 8608
8139 9212 9522 8816
8088 9494 9583 9204
8983 9986 9907 9457
8829 10340 10070 9669
9009 10265 10236 10458
6605 7932 8603 7425
x
en
6380
6513
6520
6505
6470
6398
6578
6865
6811
7161
7435
7917
8677
8922
9092
9583
9727
9992
7641
Considrons alors un modle de la forme suivante, avec une saisonnalit en 4 composantes (les donnes tant trimestrielles : chaque composante correspondant un
trimestre), et une tendance suppose linaire (Zt = 1 + 2 t),
Xt = 1 + 2 t + St1 1 + St2 2 + St3 3 + St4 4 + t ,
Compte tenu de la sur-identification de ce modle, on rajoute la contrainte que la somme
des j soit nulle (cest dire que la composante saionnire soit centre : E (St ) = 0). On
peut alors faire lestimation de la faon suivante :
(i) on estime le modle (5), cest dire sans contrainte, et sans constante 1
(ii) et on se ramne au modle (6) en utilisant les relations.
43
Pour ltape (i) deux mthodes analogues sont possibles : soit en utilisant les expressions des estimateurs, soit en effectuant la rgression sous EViews
Calcul direct des estimateurs
1963
1964
1965
1966
1967
1968
1969
1970
1971
1972
1973
1974
1975
1976
1977
1978
1979
1980
n\j
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
xj
5
5
5
5
5
5
5
5
5
6
6
6
7
8
8
8
8
9
6
T1
T2
T3
T4
130 6 410 8 080 5 900
110 6 680 8 350 5 910
080 6 820 8 190 5 990
310 6 600 8 090 6 020
320 6 800 7 650 6 110
486 6 738 7 258 6 111
629 6 696 7 491 6 494
682 7 359 7 836 6 583
963 6 743 7 844 6 692
270 7 524 7 997 6 853
472 7 871 8 188 7 207
892 8 236 8 978 7 561
505 9 005 9 591 8 608
139 9 212 9 522 8 816
088 9 494 9 583 9 204
983 9 986 9 907 9 457
829 10 340 10 070 9 669
009 10 265 10 236 10 458
605 7 932 8 603 7 425
x
en
6 380,00
6 512,50
6 520,00
6 505,00
6 470,00
6 398,25
6 577,50
6 865,00
6 810,50
7 161,00
7 434,50
7 916,75
8 677,25
8 922,25
9 092,25
9 583,25
9 727,00
9 992,00
7641, 39
nx
en
6 380,00
13 025,00
19 560,00
26 020,00
32 350,00
38 389,50
46 042,50
54 920,00
61 294,50
71 610,00
81 779,50
95 001,00
112 804,25
124 911,50
136 383,75
153 332,00
165 359,00
179 856,00
Pour chacune des annes et chacun des trimestre, il est possible de calculer des moyennes
: aussi, la moyenne pour 1963 tait de 6380, et de 7435 pour 1973, et de faon analogue,
la moyenne pour le premier trimestre est de 6605, et de 8603 pour le troisime. La
moyenne totale est alors de 7641, pour ces 72 observations. Aussi, N = 18 (on a 18
annes dobservations), et la pente de la droite de la tendance est donne par
b2 =
3
N (N 2 1)
"
N
X
n=1
ne
xn
N (N + 1)
3
x =
[1 419 019-1 306 678] 57.97
2
18 (182 1)
en utilisant les moyennes par trimestre, et par anne, donnes dans le tableau ci-dessus,
et
b
= 7932 36 57.97 5845
bj = xj [j + 2 (N 1)] b2 et donc b2
b
4 = 7425 38 57.97 5222
44
do finallement
h
i
(
b
b
b
b
b
1 = 1 + 2 + 3 + 4 /4 5526
bj = bj b1
b
2 = 5845 5526 +320
soit
b
4 = 5222 5526 304
T = seq(from=1963,to=1980.75,by=.25)
Q = rep(1:4,18)
reg=lm(SNCFQ~0+T+as.factor(Q))
summary(reg)
Call:
lm(formula = SNCFQ ~ 0 + T + as.factor(Q))
Residuals:
Min
1Q
-1073.2 -425.5
Median
-106.8
3Q
404.4
Max
1485.6
Coefficients:
Estimate Std. Error t value Pr(>|t|)
T
231.87
12.55
18.47
<2e-16 ***
as.factor(Q)1 -450526.26
24752.39 -18.20
<2e-16 ***
as.factor(Q)2 -449257.44
24755.53 -18.15
<2e-16 ***
as.factor(Q)3 -448644.19
24758.67 -18.12
<2e-16 ***
as.factor(Q)4 -449880.94
24761.81 -18.17
<2e-16 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 552.7 on 67 degrees of freedom
Multiple R-squared: 0.9953,
Adjusted R-squared: 0.995
F-statistic: 2846 on 5 and 67 DF, p-value: < 2.2e-16
> plot(T,residuals(reg),type="l")
45
m
X
Zti i
i=1
n
X
Stj j ,
j=1
bt en pointills. Cette srie pourra tre prolonge afin
avec (Zt ) en trait plein, et X
de faire de la prvision. La srie corrige des corrections saisonnires (CVS -ci-dessous
droite) correspond la srie
Ybt = Xt Sbt =
m
X
Zti i + t .
i=1
P
Remarque 51. La composante saisonnire St correspond nj=1 Stj j , telle quelle apparat dans le modle contraint. Elle vrifie alors E (St ) = 0. Cette proprit nest pas
vrifie dans le modle sans constante.
46
3.4.2
JAN F EB M AR
1750 1560 1820
1710 1600 1800
1670 1640 1770
1810 1640 1860
1850 1590 1880
1834 1792 1860
1798 1850 1981
1854 1823 2005
2008 1835 2120
2084 2034 2152
2081 2112 2279
2223 2248 2421
2481 2428 2596
2667 2668 2804
2706 2586 2796
2820 2857 3306
3313 2644 2872
2848 2913 3248
2195 2101 2309
AP R M AY
2090 1910
2120 2100
2190 2020
1990 2110
2210 2110
2138 2115
2085 2120
2418 2219
2304 2264
2522 2318
2661 2281
2710 2505
2923 2795
2806 2976
2978 3053
3333 3141
3267 3391
3250 3375
2555 2489
JU N
2410
2460
2610
2500
2480
2485
2491
2722
2175
2684
2929
3021
3287
3430
3463
3512
3682
3640
2888
JU L
3140
3200
3190
3030
2880
2581
2834
2912
2928
2971
3089
3327
3598
3705
3649
3744
3937
3771
3249
AU G
2850
2960
2860
2900
2670
2639
2725
2771
2738
2759
2803
3044
3118
3053
3095
3179
3284
3259
2928
SEP OCT N OV
2090 1850 1630
2190 1870 1770
2140 1870 1760
2160 1940 1750
2100 1920 1670
2038 1936 1784
1932 2085 1856
2153 2136 1910
2178 2137 2009
2267 2152 1978
2296 2210 2135
2607 2525 2160
2875 2754 2588
2764 2802 2707
2839 2966 2863
2984 2950 2896
2849 3085 3043
3206 3269 3181
2426 2359 2205
T = seq(from=1963,to=1980+11/12,by=1/12)
M = as.factor(rep(1:12,18))
reg=lm(SNCF~0+T+M)
summary(reg)
Call:
lm(formula = SNCF ~ 0 + T + M)
Residuals:
Min
1Q
-674.19 -154.53
Median
-12.16
3Q
125.74
Max
611.51
Coefficients:
Estimate Std. Error t value Pr(>|t|)
47
DEC
2420
2270
2360
2330
2520
2391
2553
2537
2546
2723
2862
2876
3266
3307
3375
3611
3541
4008
2861
x
en
2127
2171
2173
2168
2157
2133
2192
2288
2270
2387
2478
2639
2892
2974
3031
3194
3242
3331
2547
T
77.29
M1 -150182.38
M2 -150282.54
M3 -150080.65
M4 -149841.26
M5 -149913.92
M6 -149521.58
M7 -149166.64
M8 -149494.13
M9 -150002.74
M10 -150076.46
M11 -150236.62
M12 -149587.17
--Signif. codes:
2.68
5283.13
5283.35
5283.58
5283.80
5284.02
5284.25
5284.47
5284.69
5284.92
5285.14
5285.36
5285.59
28.84
-28.43
-28.45
-28.41
-28.36
-28.37
-28.30
-28.23
-28.29
-28.38
-28.40
-28.43
-28.30
<2e-16
<2e-16
<2e-16
<2e-16
<2e-16
<2e-16
<2e-16
<2e-16
<2e-16
<2e-16
<2e-16
<2e-16
<2e-16
***
***
***
***
***
***
***
***
***
***
***
***
***
3.5
2
= s2
,
o
s
=
b2 ,
Vb
S 0Z S 0S
b
T n m t=1 t
ce qui permet dobtenir des intervalles de confiance sur les estimateurs.
48
3.6
Sur les donnes de traffic sur lautoroute A7, on obtient la dcomposition suivante
>
+
+
>
>
>
>
>
>
>
>
>
autoroute=read.table(
"http://freakonometrics.blog.free.fr/public/data/autoroute.csv",
header=TRUE,sep=";")
a7=autoroute$a007
X=ts(a7,start = c(1989, 9), frequency = 12)
T=time(X)
S=cycle(X)
B=data.frame(x=as.vector(X),T=as.vector(T),S=as.vector(S))
regT=lm(x~T,data=B)
plot(X)
abline(regT,col="red",lwd=2)
summary(regT)
Call:
lm(formula = x ~ T, data = B)
Residuals:
Min
1Q Median
-20161 -10568 -2615
3Q
4390
Max
35017
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -2872401.7 1545258.4 -1.859
0.0666 .
T
1460.7
775.3
1.884
0.0631 .
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 14610 on 83 degrees of freedom
Multiple R-squared: 0.04101,
Adjusted R-squared: 0.02946
F-statistic: 3.55 on 1 and 83 DF, p-value: 0.06306
49
>
>
>
>
B$res1=X-X1
regS=lm(res1~0+as.factor(S),data=B)
B$X2=predict(regS)
plot(B$S,B$res1,xlab="saisonnalit")
3.7
Prvision un horizon h
m
X
ZTi +h i
i=1
n
X
STj +h j + T +h ,
j=1
m
X
ZTi +h bi
i=1
n
X
STj +h
bj .
j=1
Cette prvision est la meilleur (au sens de lerreur quadratique moyenne) prvision,
linaire en X1 , ..., XT et sans biais. Un intervalle de confiance de cette prvision est de la
forme
h
p
p i
bT (h) 1/2 ebh ; X
bT (h) + 1/2 ebh ,
X
50
" #
h
i b b
+ s2 .
= b0 |b
0 Vb
51
j=1
4.1
4.1.1
A (L) = a0 I + a1 L + a2 L + ... + ap L =
p
X
ak Lk .
k=0
Soit (Xt ) une srie temporelle. La srie (Yt ) dfinie par Yt = A (L) Xt vrifie
Yt = A (L) Xt =
p
X
ak Xtk .
k=0
ak z k et A (L) =
ak Lk .
k=0
k=0
i
X
X
X
X
k
k
i
ak L
bk L =
ci L
o ci =
ak bik .
k=0
4.1.2
i=0
k=0
k=0
Dfinition 55. Une moyenne mobile est un oprateur linaire, combinaison linaire
doprateurs retard
m2
X
M=
i Li , o m1 , m2 N,
i=m1
M =L
mX
1 +m2
im1 L
m1
=L
i=0
mX
1 +m2
im1 F i = Lm1 (F ) ,
(10)
i=0
1
[Xt4 + Xt3 + ... + Xt + ... + Xt+4 ] .
9
De manire gnrale, le filtre
M9 (Xt ) =
M2p+1 (Xt ) =
1
[Xtp + Xtp+1 + ... + Xt1 + Xt + Xt+1 + ... + Xt+p1 + Xt+p ] .
2p + 1
scrit, pour p = 3
> library(ts)
> Y=filter(X,filter=rep(1/(2*p+1),2*p+1))
autoroute=read.table(
"http://freakonometrics.blog.free.fr/public/data/autoroute.csv",
header=TRUE,sep=";")
a7=autoroute$a007
X=ts(a7,start = c(1989, 9), frequency = 12)
plot(X)
p=3
Y=filter(X,filter=rep(1/p,p))
lines(Y,col="red",lwd=2)
p=6
Y=filter(X,filter=rep(1/p,p))
lines(Y,col="blue",lwd=2)
p=12
Y=filter(X,filter=rep(1/p,p))
lines(Y,col="green",lwd=2)
54
Cette moyenne mobile dordre pair est en fait une moyenne mobile dordre impair, que
lon notera M2p , dfinie par
1
[Xtp + 2Xtp+1 + ... + 2Xt1 + 2Xt + 2Xt+1 + ... + 2Xt+p1 + Xt+p ] .
2m
Exemple 61. La moyenne mobile 2 4 - Cette moyenne mobile permet permet destimer
des tendances dans le cas de donnes trimestrielles, elle est dordre 5 et de coefficients
1/8, 1/4, 1/4, 1/4, 1/8
M2p (Xt ) =
1
[Xt2 + 2Xt1 + 2Xt + 2Xt+1 + Xt+2 ] .
8
Comme nous le verrons par la suite, elle limine les saisonnalits trimestrielles des sries
trimestrielles, elle conserve les tendances linaires, et elle rduit de 75% la variance dun
bruit blanc.
M24 (Xt ) =
Exemple 62. La moyenne mobile 212 - Cette moyenne mobile permet permet destimer
des tendances dans le cas de donnes mensuelles, elle est dordre 13 et de coefficients
1/24, 1/12, 1/12, ..., 1/12, 1/24
M24 (Xt ) =
1
[Xt6 + 2Xt5 + 2Xt4 + ... + 2Xt+5 + Xt+6 ] .
24
55
Comme nous le verrons par la suite, elle limine les saisonnalits annuelles des sries
mensuelles, elle conserve les tendances linaires, et elle rduit de plus de 90% la variance
dun bruit blanc.
L encore, sur la srie a7
>
+
+
>
>
>
>
>
>
>
>
>
>
>
>
autoroute=read.table(
"http://freakonometrics.blog.free.fr/public/data/autoroute.csv",
header=TRUE,sep=";")
a7=autoroute$a007
X=ts(a7,start = c(1989, 9), frequency = 12)
plot(X)
p=3
Y=filter(X,filter=c(1/(2*p),rep(1/p,p-1),1/(2*p)))
lines(Y,col="red",lwd=2)
p=6
Y=filter(X,filter=c(1/(2*p),rep(1/p,p-1),1/(2*p)))
lines(Y,col="blue",lwd=2)
p=12
Y=filter(X,filter=c(1/(2*p),rep(1/p,p-1),1/(2*p)))
lines(Y,col="green",lwd=2)
1
[Xt2 + 2Xt1 + 3Xt + 2Xt+1 + Xt+2 ] .
9
1
[Xt5 + 2Xt4 + 3Xt3 + 3Xt2 + 3Xt1 + ... + 3Xt+4 + 2Xt+4 + Xt+5 ] .
27
Ces deux moyennes mobiles conservent les droites, et rduisent respectivement de 75% et
de 90% la variance dun bruit blanc.
56
Exemple 65. Les moyennes mobiles dHenderson - Ces moyennes mobiles sont utilises dans la mthode X11 pour extraire la tendance dune estimation de la srie corrige
des variations saisonnires
P 3 2 (partie (4.4.2)). Ces moyennes reposent sur lutilisation de
loprateur H = [ i ] o est loprateur diffrence premire (Xt = Xt Xt1 ).
Cette quantit est nulle dans le cas o les i se retrouvent sur une parabole : H mesure la
distance entre la forme parabolique et la forme de la fonction dfinissant les i . Hendersen a cherch les moyennes mobiles centres, dordre impair, conservant les polynmes de
degr 2, et minimisant la fonction H :
min
X
2
sous constraintes
+p
X
i=p
i = 1,
+p
X
ii = 0 et
i=p
+p
X
i2 i = 0,
i=p
1
[21Xt2 + 84Xt1 + 160Xt + 84Xt+1 21Xt+2 ] ,
286
1
[42Xt3 + 42Xt2 + 210Xt1 + 295Xt + 210Xt+1 + 42Xt+2 42Xt+3 ] .
715
4.2
Dfinition 70. Soit M une moyenne mobile. Sil existe et (Xt ) non nul tels que
M (Xt ) = Xt , (Xt ) sera vecteur propre associ la valeur propre .
57
4.2.1
Dfinition 71. Une suite (Xt ) est dite absorbe par M si et seulement si M (Xt ) = 0
pour tout t.
Exemple 72. Soit M la moyenne mobile dfinie par M (Xt ) = Xt + Xt1 + Xt2 . La
srie chronologique dfinie rcursivement par Yt = [Yt1 + Yt2 ] est absorbe par M .
Proposition 73. Les vecteurs propres associs la valeur propre = 0 forment un
espace vectoriel de dimension m1 + m2 , dont une base est constitue des Ztk = (k rt ) pour
k = 0, 1, ..., p 1, o r est racine non nulle du polynme .
Exemple 74. Dans lexemple (72), on peut chercher construire une base de la forme
Zt = rt , qui devra satisfaire
rt + rt1 + rt2 = 0 pour tout t
cest dire r2 + r + 1 = 0. Aussi, r est une racine du polynme caractristique de M si
et seulement si
2i
2i
1 i 3
soient r1 = exp
et r2 = exp
r=
2
3
3
Aussi, les suites absorbes sont ncessairement de la forme
Xt = r1t + r2t , pour tout t.
Or
58
4.2.3
Dfinition 76. Une suite (Xt ) est dite invariante par M si et seulement si M (Xt ) = 0
pour tout t
Une suite (Xt ) est dite invariante par M si elle est absorbe par (M I) .
Proposition 77. (i) Les suites constantes sont invariantes par M si et seulement si la
somme de ses coefficients vaut 1,
(ii) Les polynmes de degr k sont invariantes par M si et seulement si 1 est racine
dordre au moins k + 1 de = (z) z m1 ,, o M = Lm1 (F ) ,
(iii) Si M est symtrique et conserve les constantes, alors M conserve les polynmes
de degr 1.
Proof. En reprenant (10) , on peut crire
M=
m2
X
i Li = Lm1 (F ) .
i=m1
ii k = k,
i=m1
m2
X
i=m1
i r
t+i
=r
tm1
m2
X
i=m1
et donc M (rt ) = rm1 (r) rt pour tout t, ce qui correspond la dfinition dlments
propres.
59
Suites gometriques relles Si r est rel alors lapplication dune moyenne mobile
la suite gomtrique (rt ) revient faire une homothtie de rapport rm1 (r).
Suites gomtriques complexes Si r = ei alors appliquer M revient multiplier
rt par le nombre complexe rm1 (r) = () ei() ,
t
r = t eit
M rt = t eit () ei() = [ () t ] ei[t+()] ,
ce qui correspond un effet dchelle (le module faisant intervenir le coefficient ())
comme dans le cas rel, mais aussi un effet de phase puisque largument se voit ajouter
un lment ().
Exemple 79. Une suite de la forme t sin t sera transforme par M
[ () t ] sin [t + ()], xxx
en
Proposition 80. Si M est symtrique, alors leffet de phase sur la suite gomtrique
(eit ) est soit = 0 soit = .
P
ik
est
Proof. Ce rsultat se montre en explicitant M (eit ) et en notant que m
k=m |j| e
rel. Si ce rel est positif, alors = 0 et sil est ngatif = .
Remarque 81. Ce rsultat ne marche que pour la suite gomtrique (eit ) et devient faux
pour 6= 1, mme pour une moyenne mobile symtrique.
4.2.5
j=0
60
donc
p e
it
p
h ip
X
p
j
(1)j eij = eit 1 ei = eit .2p sin
=
eip[]/2
p
2
j=0
2
1 1 2 1
1
2
1 1 2 1
1
1 1 2 1
1
2
1 1 2 1
1
2
1 2 1
1
2
1 1 2 1
1
2
1
2 1
1
2
1 1 2 1
1
2
1 1
1
1
2
1 1 2 1
1
2
1 1 2
1
2
1 1 2 1
1
2
1 1 2 1
Comme on peut le noter, suite ne change pas damplitude, elle est juste dphase.
Exemple 83. Considrons la srie de cycle /2
Xt
1 Xt
2 Xt
3 Xt
4 Xt
5 Xt
1
0 1
0
1
0 1
0
1
0 1
0
1 1 1
1
1 1 1
1
1 1 1
1
0 2
0
2
0 2
0
2
0 2
0
2
2 2
2
2 2 2
2
2 2 2
2
2
4
0
4
0 4
0
4
0 4
0
4
0
4
4
4 4 4
4
4 4 4
4
4 4
61
4.2.7
q
X
j Lj o q N\{0} et j =
j=q
1
.
2q + 1
q
X
j L
o q N\{0} et j =
j=q
62
4.3
De la mme faon que pour la notion de stabilit, il existe deux faon de dfinir le bruit
blanc,
Dfinition 85. On appelera bruit blanc faible toute suite (t , t Z) telle que E (t ) = 0
et V (t ) = 2 pour tout t Z et tel que
(h) = cov (t , th ) = 0 pour h 6= 0.
Dfinition 86. On appelera bruit blanc fort toute suite (t , t Z) telle que (t ) soit
i.i.d.
Remarque 87. On notera par la suite (t ) BB (0, 2 ) pour bruit blanc faible.
4.3.1
Proposition 88. Soit M la moyenne mobile dfinie par (10) et (t ) BB (0, 2 ) pour
t Z. Le processus Xt = M (t ) est stationnaire, centr (E (Xt ) = 0), tel que
m2
X
X
1
h
2
o M (z) =
i z i pour z 6= 0.
X (h) z = M (z) M
z
i=m
h
1
m2
X
j=m1
Il est possible de prolonger cette somme sur Z en posant j = 0 pour j < m1 ou j > m2 .
Aussi
+
+
+
X
X
X
2
k t+h+k =
j k t+j t+h+k ,
Xt Xt+h =
j t+j
j=
k=
et donc
E (Xt Xt+h ) =
j,k=
+
X
j k =
+
X
j j h.
j=
k+h=j
X (h) z h = 2
+ X
+
X
j jh z h = 2
h= j=
+
X
j=
j z
+ X
+
X
j jh z j z hj
h= j=
+
X
jh z
h=
hj
+
X
j=
j z
+
X
i=
1
,
zi
4.4
4.4.1
Considrons une srie mensuelle Xt compose dune tendance Zt , dun cycle saisonnier
St , et dune perturbation t , de faon additive Xt = Zt + St + t .Lalgorithme suivant, en
4 tapes, permet de dsaisonnaliser la srie Xt
(1)
(1) Estimation de la tendance par moyenne mobile Zt = M (Xt ) ,o la moyenne
mobile M est choisie de faon reproduire au mieux la tendance, tout en liminant la
composante saisonnire, et en rduisant la perturbation au maximum
(2) Estimation de la composante saisonnire et de la perturbation t = St + t :
(1)
(1)
t = Xt Zt ,
(1)
(1)
(3) Estimation de la composante saisonnire par moyenne mobile St = M 0 t
et
(1)
(1)
(1)
Xt S t .
La difficult ici est donc de bien choisir les deux moyennes mobiles utiliser M et M 0 .
4.4.2
Cette mthode propose deux moyennes mobiles dans le cas de donnes mensuelles.
Lalgorithme devient
(1) Estimation de la tendance-par moyenne mobile 2 12
(1)
Zt
= M212 (Xt ) ,
(1)
t = Xt Zt ,
(3) Estimation de la composante saisonnire par moyenne mobile 3 3 sur chaque
mois
(1)
(1)
(1)
(1)
(1)
St = M33 t
et t = t St .
La moyenne mobile utilise ici est une moyenne mobile sur 5 termes, dite 3 3, dont
les coefficients sont 1/9, 2/9, 3/9, 2/9, 1/9, qui conserve les composantes linaires. Les
coefficients sont alors normaliss de telle sorte que leur somme, sur toute une priode de
12 mois, soit nulle.
(1)
(1)
(1)
Sbt = St M212 St
,
(4) Estimation de la srie corrige des variations saisonnires
bt(1) = Xt Sbt(1) .
X
Cette premire estimation de la srie corrige des variations saisonnires doit, par construction, contenir moins de saisonnalit.
(5) Estimation de la tendance par moyenne mobile de Henderson sur 13 termes
(2)
bt .
Zt = M13 X
Si les moyennes mobiles dHenderson nont pas de proprits spciales quant
llimination de la saisonnalit, mais elles lissent relativement bien, tout en conservant
(localement) les polynmes dordre 2.
(6) Estimation de la composante saisonnire et de la perturbation t
(2)
(2)
t = Xt Zt ,
(7) Estimation de la composante saisonnire par moyenne mobile 3 5 sur chaque
mois
(2)
(2)
(2)
(2)
(2)
St = M35 t
et t = t St .
La moyenne mobile utilise ici est une moyenne mobile sur 7 termes, dite 3 5, dont
les coefficients sont 1/15, 2/15, 3/15, 3/15, 3/15, 2/15, 1/15, qui conserve les composantes
linaires. Les coefficients sont alors normaliss de telle sorte que leur somme, sur toute
une priode de 12 mois, soit nulle.
(2)
(2)
(2)
b
St = St M212 St
,
(8) Estimation de la srie corrige des variations saisonnires
bt(2) = Xt Sbt(2) .
X
65
Remarque 92. Cette mthode permet de reprer les points abrants dune srie.
Comme lont montr Gouriroux et Monfort (1990), cet algorithme peut se rsumer
lapplication dun unique moyenne mobile qui peut tre explicite matriciellement. Les 8
points de lalgorithme scrivent
(1)
(3) St
(4)
(5)
(6)
(7)
(8)
(1)
= M33 t
(1)
(1)
(1)
Sbt = St M212 St
= M(3) (I M212 )2 (Xt )
bt(1) = Xt Sbt(1) = I M(3) (I M212 )2 (Xt )
X
(2)
bt = M13 I M(3) (I M212 )2 (Xt )
Zt = M13 X
(2)
(2)
t = Xt Zt = I I M(3) (I M212 )2 (Xt )
(2)
(2)
(2)
= (I M212 ) M(5) I M(3) (I M212 )2 (Xt )
Sbt = St M212 St
bt(2) = Xt Sbt(2) = I (I M212 ) M(5) I M(3) (I M212 )2 (Xt )
X
o M(3) est la moyenne mobile dfinie sur 49 mois, dont les coefficients sont
{1/9, 0, 0, ..., 0, 2/9, 0, ...., 0, 3/9}
et M(5) est la moyenne mobile dfinie sur 73 mois, dont les coefficients sont
{1/27, 0, 0, ..., 0, 2/27, 0, ...., 0, 3/27, 0, 0, ..., 0, 3/27}
La moyenne mobile ainsi dfinie est dordre 169, cest dire quen toute rigueur, il
faudrait 84 observations, soit 7 ans de part et dautre pour pouvoir estimer ce filtre.
Remarque 93. Un algorithme similaire existe pour des donnes trimestrielles, qui peut
l aussi scrire sous la forme dune seule moyenne mobile, portant sur 28 trimestres de
part et dautre (7 ans l aussi).
66
Les mthodes de lissages consistent extrapoler une srie en vue de faire de la prvision. Or comme on le voit sur lexemple ci-dessous, une extrapolation simple (linaire en
loccurence) dpend fortement du type de rsultats que lon cherche avoir : prvision
court, moyen, ou long terme Ces trois mthodes diffrent suivant le poids que lon accorde
aux observations passes.
5.1
T 1
X
j XT j
j=0
On donne un poids dautant moins important que les observations sont loins (dans le
pass), avec une dcroissance exponentielle :
- proche de 1 : prise en compte de tout le pass
- proche de 0 : prise en compte davantage des valeurs rcentes (plus sensible aux
fluctuations)
bT (h) ne dpend pas de h, dont X
bT (h) = X
bT .
Remarque 95. Si ne dpend pas de h, X
bT est la prvision faite en T de la valeur en T + 1. Nous appelerons cette
Cette valeur X
b
srie XT (srie lisse la date t) ou FT +1 (valeur prdite pour la date T + 1).
Remarque 96. Pour certains logiciels permettant de faire du lissage exponentiel, la constante de lissage nest pas mais = 1 .
5.1.1
(11)
bT 1 = XT + [1 ] X
bT 1
= [1 ] XT + X
Cette relation scrit galement
FT +1 = XT + (1 ) FT
bT peut tre vu comme une rgression sur une constante, avec des
Proposition 98. X
pondrations exponentielles
67
(12)
j=0
(13)
bT = b
et pour T assez grand X
c.
5.1.2
"
#2
T
t1
X
X
j
b
= arg min
Xt+1 (1 )
Xtj
t=1
j=0
V=function(a){
T=length(X)
L=erreur=rep(NA,T)
erreur[1]=0
L[1]=X[1]
for(t in 2:T){
L[t]=a*X[t]+(1-a)*L[t-1]
erreur[t]=X[t]-L[t-1] }
return(sum(erreur^2))
}
optimize(V,c(0,.5))$minimum
68
> hw=HoltWinters(X,beta=FALSE,gamma=FALSE,l.start=X[1])
> hw
Holt-Winters exponential smoothing without trend an seasonal comp.
Call:
HoltWinters(x = X, beta = FALSE, gamma = FALSE, l.start = X[1])
Smoothing parameters:
alpha: 0.2465579
beta : FALSE
gamma: FALSE
Coefficients:
[,1]
a 805.0389
> plot(hw)
> points(2:(length(X)+1),Vectorize(Lissage)(.2465),col="blue")
5.1.3
5.1.4
Exemple dapplication
JAN F EB M AR AP R M AY
1293 1209 1205 1273 1220
1364 1330 1377 1332
JU N JU L AU G SEP OCT N OV
1290 1243 1203 1390 1360 1353
DEC
1343
cette dernire valeur tant obtenue par lissage exponentiel (simple). Nous noterons ici
yb1 , ..., ybT la srie lisse, et F1 , ..., FT la srie des valeurs prdites.
Mise en place de lalgorithme ( fix) Pour la premire valeur (T = 0), on considre
comme valeur initiale une moyenne des premires valeurs observes. EViews considre une
moyenne sur les 8 premiers mois,
1
(1293 + ... + 1203) = 1242
8
Pour construire la srie lisse, fix, on utilise la relation de mise jour
F1 = yb0 =
yj1
1293
1209
1205
1273
1220
Fj1
1242.00
1257.30
1242.81
1231.47
70
Fj
1242.00
1257.30
1242.81
1231.47
1243.93
JAN
1293
1242
1242
F EB
1209
1257
1278
M AR
1205
1243
1230
AP R
1273
1231
1212
M AY
1220
1244
1255
JU N
1290
1237
1230
JU L
1243
1253
1272
AU G
1203
1250
1252
SEP
1390
1236
1218
OCT
1360
1282
1338
On peut noter que plus est proche de 1, plus la courbe lisse colle aux donnes (b
yj
est proche de yj ) : pour = 1, la prvision Fj+1 sera la dernire valeur observe (yj ).
Un coefficient de lissage plus faible (par exemple = 0.3) permet en revanche de bien
lisser les alas importants de la srie. La srie lisse sadapte galement au changement de
niveau observ en septembre. Toutefois, cette adaptation se fait dautant plus lentement
que est faible : les prvisions sont alors biaises (sous-estimation dans cet exemple)
pendant la priode dadaptation, comme on peut le voir sur le graphique ci-dessous : ds
octobre 1998, la prvision faite avec un coefficient de 0.7 avait atteint un niveau correct,
alors que la prvision avec une pondration de 0.3 est plus lente (ce qui rend la prvision
moins sensible un choc exogne : si cette variation en septembre navait t quun choc,
une faible pondration aurait permis de ne pas le prendre en compte).
On peut noter que le lissage dpend non seulement de mais aussi de la valeur
initale choisie. Comme le montre le graphique de gauche, on observe une convergence
(asymptotique), avec des valeurs trs proches pour T proche de 16. En choissant une
valeur intiale proche des premires valeurs de la srie (b
y0 = y1 ou yb0 moyenne des 2 ou
3 premires observations), on saperoit que la courbe observe et les courbes lisse sont
quasiment confondues au bout de 10 mois (cette valeur dpendant de : la convergence
est dautant plus rapide que est grand ). Le graphique ci-dessous correspond plusieurs
initialisations : F1 = y1 (prvision parfaite - (1)), F1 = (y1 + y2 ) /2 (moyenne des deux
premires valeurs - (2)), F1 = (y1 + y2 + y3 ) /2 (moyenne des trois premires valeurs (3)) et F1 = (y1 + ... + yn ) /n (moyenne de lchantillon - (4))
Remarque 100. Il convient de faire attention : dans la littrature, les courbes lisses sont
soit Ft , soit ybt1 . Certains auteurs dcallent ainsi (dans les tableaux ou les graphiques) la
courbe lisse.
A retenir 101. La formule itrative pour construire la srie lisse de Xt pour t = 1, ..., N
est la suivante
F0 = X1 ou [X1 + ... + Xp ] /p
Ft+1 = Xt + (1 ) Ft pour 0 t N
Ft = FN +1 pour t N + 1
Choix de la constante de lissage Ce choix peut relever de considrations empiriques :
des fortes pondrations pour les valeurs rcentes ( lev) donne de meilleures prvisions
court terme qu long terme. Toutefois, une des mthodes les plus utilise est la minisation
des moindres carrs des erreurs (prvision/ralisation) un horizon h = 1. Lalgorithme
(13) donne ici un paramtre = 0.418, qui correspond une somme des erreurs de
prvision de 48178, cest dire un cart type de lerreur valant 54.874.
71
N OV
1353
1305
1353
DEC
1343
1320
1353
)
(1
+
3)
+
2h
(1
)
1
+
4
+
5
X
h
(1 + )3
5.2
Le lissage exponentiel simple est adapt des sries pouvant tre ajuste par une constante
au voisnage de T . Le principe de lissage exponentiel double permet de faire un ajustement
par une droite, savoir approcher Xt par Yt o
Yt = A + (t T ) B
La prvision horizon h scrit
bT (h) = A
b (T ) + hB
b (T )
FT +h = X
De mme que pour (12) le programme doptimisation pour estimer A et B scrit
(T 1
)
X
min
j (XT j [A + (T j) B])2
A,B
(14)
j=0
en posant
S1 (t) = (1 )
t1
X
k=0
S2 (t) = (1 )
t1
X
k=0
t1 tk1
X
X
2
= (1 )
k=0
i+k Xt(k+i)
i=0
72
5.2.1
h
i
b (T + 1) = (1 2 ) XT +1 X
bT (1) + A
b (T ) + B
b (T )
A
h
i
(15)
b (T + 1) = B
b (T ) + (1 2 ) XT +1 X
bT (1)
B
Proof. Gouriroux et Monfort (1995) pages 112-113
bT (1), on aurait A
b (T + 1) =
Dans le cas dune prvision parfaite, i.e. XT +1 = X
b (T ) + B
b (T ) et B
b (T + 1) = B
b (T )
A
Dans ce cas, les droites de prvision en T et en T + 1 sont les mmes, et la pente, en
b (T + 1) = B
b (T )).
particulier, est inchange (B
Remarque 105. Lintervalle de confiance de la prvision est alors de la forme
s
2
bT (h) 1.96X
X
2 1
5.2.2
1982
1983
1984
1985
1986
1987
1988
9050
9380
9378
9680 10100 10160 10469
10738 10910 11058 11016
10869 11034 11135 10845
11108 11115 11424 10895
11437 11352 11381 11401
11507 11453 11561
Le lissage exponentiel double est trs proche du lissage exponentiel simple, sauf que lon
fait un ajustement au voisinage de T non plus par une constante, mais par une droite.
En fait, la srie (correspondant un indice) est une srie croissante : lajustement par
lissage exponentiel simple sous-estimerait les valeurs ralises (graphique page ??) . Le
programme de minimisation scrit ici
(T 1
)
X
min
j (Xtj [AT + BT (T j)])2
A,B
j=0
73
La prvision horizon h est alors ybT (h) = AT + BT h. Trois formulations sont possibles
pour crire la srie lisse
Formulation classique - Les coefficients Aj et Bj sont donns par
Aj = 2b
yj1 ybj2 et Bj =
1
ybj ybj2
1
o les ybj1 et ybj2 sont obtenus rcursivement par deux lissages conscutifs,
1
: lissage exponentiel simple de yi
ybj1 = yj + (1 ) ybj1
2
1
2
ybj = b
yj + (1 ) ybj1 : lissage exponentiel simple de ybi1
Aj = yj + (1 ) [Aj1 + Bj1 ]
o = 1 (1 )2 et =
(16)
Bj = [Aj Aj1 ] + (1 ) Bj1
2
Remarque 106. Aj et Bj sont unitiliss pour calculer ybj , prvision horizon 1 faite
la date j, soit Fj+1 .
Encore une fois, linitialisation de lalgorithme est important. Une mthode possible
est de considrer comme valeur initiale pour A1 la premire valeur y1 . La pente B1
peut alors tre choisie comme la pente moyenne entre la date 1 et une date t0 , telle que
B1 = [yt0 y1 ] /t0 .
Dans le cas qui nous intresse on obtient la srie lisse suivante, en prenant comme
constante de lissage = 0.384, et comme valeurs initiales de A0 = y1 et B0 la pente
sur une priode de 10 observations (soient 9050 et 177) - laide de la relation (16) , et
= 0.6205 et = 0.2376
1982 2
1982 3
1982 4
1983 1
yj
9050
9380
9378
9680
Aj
9050.00
9112.73
9332.05
9421.11
74
Bj
165.30
140.93
159.56
142.81
Fj+1
9215.30
9253.66
9491.61
9563.92
1982
1983
1984
1985
1986
1987
1988
Srie observe
Trim 1 Trim 2 Trim 3 Trim 4
9050
9380
9378
9680 10100 10160 10469
10738 10910 11058 11016
10869 11034 11135 10845
11108 11115 11424 10895
11437 11352 11381 11401
11507 11453 11561
1982
1983
1984
1985
1986
1987
1988
Srie lisse
Trim 1 Trim 2 Trim 3 Trim 4
9215
9254
9492
9564
9796 10189 10372
10646 10932 11143 11303
11295 11138 11166 11234
11023 11118 11159 11405
11095 11364 11412 11443
11461 11541 11524
A titre de comparaison, nous avons ajout droite le lissage exponentiel simple optimal
qui aurait t obtenu sur les mmes donnes. Ce lissage simple est relativement mal
adapat ce type de donnes (croissantes) puisque nous allons continuellement sousvaluer la vraie valeur en priode de croissance forte.
Supposons que la srie ait t observe jusquau troisime trimestre de 1987. La srie
lisse jusqu cette date reste la mme, et les prvisions pour les trimestres suivant aurait
t obtenus en utilisant A = A19873 = 11412, B = B19873 = 47.02, et ybT (h) = A + Bh
1987-4
1988-1
1988-2
1988-3
5.3
>
+
+
>
>
>
>
>
>
>
>
>
ralisation
11401
11507
11453
11561
autoroute=read.table(
"http://freakonometrics.blog.free.fr/public/data/autoroute.csv",
header=TRUE,sep=";")
a7=autoroute$a007
X=ts(a7,start = c(1989, 9), frequency = 12)
T=time(X)
S=cycle(X)
B=data.frame(x=as.vector(X),T=as.vector(T),S=as.vector(S))
regT=lm(x~T,data=B)
plot(X)
abline(regT,col="red",lwd=2)
summary(regT)
Call:
lm(formula = x ~ T, data = B)
Residuals:
Min
1Q Median
-20161 -10568 -2615
3Q
4390
Max
35017
Coefficients:
Estimate Std. Error t value Pr(>|t|)
75
>
>
>
>
B$res1=X-X1
regS=lm(res1~0+as.factor(S),data=B)
B$X2=predict(regS)
plot(B$S,B$res1,xlab="saisonnalit")
76
A retenir 107. La formule itrative pour construire la srie lisse de Xt pour t = 1, ..., N
est la suivante
1
S0 = 0
S 1 = Xt + (1 ) St1 pour 0 t N
t+1
2
St+1
= St1 + (1 ) St2 pour 0 t N
1
2
At+1 = 2St+1
St+1
pour
0tN
2
1
S
B
=
S
t+1
t+1 / (1 )
t+1
t+1
Ft = AN +1 + (t N 1) BN +1 pour t N + 1
5.4
n
X
i=1
Le vecteur f (t) = [P1 (t) , ..., Pp+1 (t)] est alors de matrice de transition (fixe)
1 0 0
0 0
1 1 0
0 0
0 1 1
0
0
A=
.. ..
.
.
.
.. 1 0
0 0 0
0 0 0
1 1
(4) Les fonctions sinusodales - Les fonctions (t) = sin t+ sin t sont obtenues
en prenant f (t) = [sin t, cos t]0 , et dans ce cas
cos sin
A=
sin cos
(6) Les fonctions exponentielles - Les fonctions (t) = exp (t) sont obtenues
en prenant f (t) = exp (t) et dans ce cas A = exp ().
Cette mthode de lissage se met en place de la faon suivante.
De la mme faon que (14), le programme doptimisation scrit
(T 1
)
X
2
min
j (Xtj f 0 (j) a)
(17)
a
j=0
XT
f1 (0)
fn (0)
f 0 (0)
..
..
..
T 1
x = ... , F =
=
et = diag 1, 1/, ..., 1/
.
.
.
X1
f1 (T + 1)
fn (T + 1)
f 0 (T + 1)
Le programme (17) correspond la regression (linaire) de x sur les colonnes de F ,
associe la matrice de covariance . On en dduit que la solution (17) est unique, et
est donne par
1 0
b
a (T ) = F 0 1 F
F y = [M (T )]1 Z (T )
o
0
M (T ) = F F =
T 1
X
f (j) f (j) et Z (T ) = F y =
j=0
T 1
X
j f (j) XT j
j=0
X
j=0
j f (j) f 0 (j)
5.4.1
= M 1 f (0)
= M 1 A1 M
5.5
5.5.1
Cette mthode est une gnralisation de la mthode de lissage exponentiel mais avec un
point de vue diffrent de celui introduit dans le lissage exponentiel gnralis. De la
mme faon que pour le lissage exponentiel double, lajustement se fait de faon linaire
au voinage de T , la nuance se faisant au niveau de formules de mise jour, diffrentes de
(15) :
h
i
b (T + 1) = (1 ) XT +1 + A
b (T ) + B
b (T ) o 0 < < 1
A
h
i
(18)
b (T + 1) = (1 ) A
b (T + 1) A
b (T ) + B
b (T ) o 0 < < 1
B
La premire relation est une moyenne pondre de deux informations sur A (T ), correspondant au niveau de la srie la date T : lobservation XT +1 et la prvision faite en T
b (T ) + B
b (T )). La seconde relation sinterprte comme une moyenne pondre de deux
(A
informations sur B (T ), correspondant la pente de la srie la date T : la diffrence
entre les niveaux estims en T et T + 1, et la pente estime en T .
Toutefois, ces deux relations ne peuvent tre utilise quaprs initialisation, que lon
b (2) = X2 et B
b (2) = X2 X1 . La prvision
fera gnralement de la faon suivante : A
horizon h faite la date T est donne par
bT (h) = A
b (T ) + hB
b (T )
X
79
Cette mthode peut tre vue comme une gnralisation du lissage exponentiel double,
qui ne faisait intervenir quun coefficient, (ou ). Cette dernire mthode correspond
au cas particulier
(1 )2
2
2
= et = 1
=
2
1
1+
Sur lexemple prcdant, on obtient
>
>
>
>
+
>
HW=HoltWinters(X,alpha=.2,beta=0)
P=predict(HW,24,prediction.interval=TRUE)
plot(HW,xlim=range(c(time(X),time(P))))
polygon(c(time(P),rev(time(P))),c(P[,2],rev(P[,3])),
col="yellow",border=NA)
lines(P[,1],col="red",lwd=3)
5.5.2
On suppose ici que la srie (Xt ) peut tre approche au voisinage de T par la srie
Yt = A + (t T ) B + St
o St est un facteur saisonnier. Les formules de mise jour scrire de la faon suivante,
o s est le facteur de saisonnalisation (ou le nombre de saisons : s = 4 pour des donnes
trimestrielles ou s = 12 pour des donnes mensuelles)
h
i
b (T + 1) = (1 ) [XT +1 ST +1s ] + A
b (T ) + B
b (T ) o 0 < < 1 (lissage de la moyenne)
h
i
b
b
b
b (T ) o 0 < < 1
B (T + 1) = (1 ) A (T + 1) A (T ) + B
(lissage de la tedance)
h
i
b
A (s + 1) = Ms (X2 , ..., Xs+1 )
b (s + 1) = A
b (s + 1) A
b (s)
b
b (i)
Si = Xi A
5.6
Comme nous allons le voir ici, les mthodes de lissage, afin de faire de la prvision,
peuvent trs facilement tre mises en oeuvre, en particulier sur des tableurs (Excel par
exemple). Nous allons voir comment faire de la prvision sur des donnes comportant de
la saisonnalit, laide des mthodes de lissage exponentiel.
5.6.1
1
(69 692 + 71 120) = 70 406
2
On peut noter que la somme de ces diffrences moyennes i ne vaut pas 0 : on va alors
normaliser les i de faon ce que leur somme soit nulle. On considre alors
12
1 X j
=
12 j=1
i
81
Lissage linaire
La mthode la plus simple pour faire de la prvision sur une srie dsaisonnalise est
dutiliser une rgression linaire,
Pour cela, on part des sries de base Xt (srie brute) et Zt (srie corrige des variations
saisonnires). Les sries sur la gauche donne lapproximation linaire. Pour cela, on
rgresse la srie Zt sur les sries I (cest dire la constante) et t (la srie temps), et lon
obtient
APPROX. LINEAIRE : Zt = A + Bt + t avec A = 209.98, B = 4772213
et o t est la sries des erreurs (ERREUR)9 . En particulier
2 858 914 = 4 772 213 + 209.98 36 342 (t = 36 342correspond au 1er juillet 1999)
38 382 = 2 929 423 2 891 041
La composante saisonnire (COMPOSANTE SAISONNIERE) est alors la srie
obtenue dans la partie prcdante, et combine la srie Zbt = A + Bt : on obtient
bt = A + Bt + t . (colonne PREVISION (droite)). Une
la premire prvision de Xt : X
mthode encore plus simple est de considrer comme ajustement de Zt non pas une droite
bt = C + t .
quelconque mais une constante, Zt = C + t , et la prvision de Xt devient X
(colonne PREVISION (constante)). On pourra ainsi obtenir
2 940 601 = 2 871 933 + 68 668 = (4 772 213 + 209.98 36 404) + 68 668
2 870 061 = 2 932 641 62 580
9
Le temps t est exprim, comme sous Excel, en nombre de jours par rapport au 1er janvier 1900.
82
5.6.3
Le lissage exponentiel simple est prsent ci dessous, appliqu la srie corrige des
variations saisonnires. Pour cela, on se fixe au pralable une constante de lissage, par
exemple = 0.7. La srie lisse est alors dfinie parde la faon suivante
[St St0 ]
1
0.7
(2 882 758 2 842 769)
1 0.7
83
6.1
6.2
6.2.1
Proprits topologiques
On considre le processus (Xt ) dfinit sur lespace de probabilit (, A, P), valeurs dans
R.
Dfinition 109. LespaceL2 (, A, P) est lespace des variables de carr intgrable
(variances-covariances finies).
De faon plus gnrale (et plus formelle), on dsigne par Lp lespace de Banach des
classes dquivalence (pour lgalit P-presque sre) des fonctions mesurables telles que
1/p
R
soit finie.
kf kp = |f |p dP
Proposition 110. L2 est un espace de Hilbert, muni du produit scalaire h, i et la norme
associekk
hX, Y i = E (XY )
kXk2 = hX, Xi = E (X 2 ) = V (X) + E (X)2 .
Par dfinition de la covariance, on peut noter que, si X et Y sont centre, hX, Y i =
E (XY ) = cov (X, Y ).
Thorme 111. Thorme de projection Si H est un sous espace ferm de L2 , pour toute
variable Y L2 , il existe une unique variable alatoire Yb H tel que
b
Y Y
= min kY Hk ,
HH
q
X
n=p
an Xn et Y =
lim Yp,q =
p,q+
84
X
nZ
an X n .
6.2.2
Pour un vecteur alatoire Z = (Z1 , ..., Zd )0 , on dfinit son esprance par E (Z) =
(E (Z1 ) , ..., E (Zd ))0 et sa matrice
de variance-covariance (si elles existent) par V (Z) =
E (Z E (Z)) (Z E (Z))0 . Cette matrice est hermitienne positive. De plus, si A est
la matrice dun application linaire de Rd dans Rp , le vecteur AZ admet pour esprance
AE (Z) et pour matrice de variance-covariance AV (Z) A0 .
Dfinition 113. Le vecteur X = (X1 , ..., Xd ) est un vecteur gaussien si toute combinaison
des Xi est une variable gaussienne, i.e. pour tout a Rd , aX est une variable gaussienne.
Sa densit scrit alors
1
1
0 1
exp (x ) (x ) ,
f (x) =
2
(2)d/2 det
o Rd et est une matrice hermitienne positive d d.
Si X est un vecteur gaussien, son moment lordre p existe et de plus, E (X) = et
V (X) = .
Dfinition 114. Le processus (Xt ) est un processus gaussien si tout systme fini extrait
est un vecteur alatoire gaussien, i.e. pour tout n, pour tout t1 , ..., tn , (Xt1 , ..., Xtn ) est un
vecteur gaussien.
6.2.3
le
vecteur
et
la
matrice
b H , cest dire
car X X
b = 0 soit E (X) = E X
b
E X X
h
i
b Xi = 0 pour i = 1, ..., n.
E X X
Do
b = 0 + 1 E (X1 ) + ... + n E (Xn )
E (X) = E X
(1)
b i = 0 E (Xi ) + 1 E (X1 Xi ) + ... + n E (Xn Xi ) (2)
E (XXi ) = E XX
(1) donne 0 = E (X) 1 E (X1 ) ... n E (Xn ) et par substitution dans (2),
E (XXi ) = E (X) E (Xi ) (1 E (X1 ) + ... + n E (Xn )) E (Xi )
+1 E (X1 Xi ) + ... + n E (Xn Xi )
donc, pour i = 1, ..., n
cov (XXi ) = 1 cov (X1 Xi ) + ... + n cov (Xn Xi ) ,
ce qui donne le systme
Remarque 116. On peut noter que EL (X|I, X1 , ..., Xn ) = EL (X|X1 , ..., Xn ) si et seulement si E (X) = 0 et E (Xj ) = 0 pour j = 1, 2, ..., n.
Rgression sur un nombre infini de variables ? ? ?
On considre cette fois ci X1 , ..., Xn , ... des variables de L2 , et X0 = I L2 .
Soit H ladhrance de lespace engendr par les combinaisons linaires des Xi :
H =L (I, X1 , ..., Xn , ...).
bn = EL (X|I, X1 , ..., Xn ). La projection sur H est alors la limite
On considre alors X
bn
(dans L2 ) des variables X
b = lim EL (X|I, X1 , ..., Xn ) .
X
n
86
6.2.4
La notion dinnovation
En dautres termes, (Y | {X1 , ..., Xn }) est la meilleure prvision linaire de Y base sur
{X1 , ..., Xn }, au sens o la variance de lerreur sera minimale. On peut noter que cet
oprateur est linaire, au sens o
(.Y + .Z| {X1 , ..., Xn }) = . (Y | {X1 , ..., Xn }) + . (Z| {X1 , ..., Xn }) .
De plus, lerreur de prvision Y (Y | {X1 , ..., Xn }) est non corrle avec toute fonction
linaire des X1 , ..., Xn . Enfin, si cov (X1 , X2 ) = 0, alors (Y | {X1 , X2 }) = (Y | {X1 }) +
(Y | {X2 }).
Il est possible de projeter sur une suite infinie de variables alatoires {X1 , ..., Xn , ...},
en notant
(Y | {X1 , ..., Xn , ...}) = lim (Y | {X1 , ..., Xk }) .
k
Cette limite existant pour toute suite de variables alatoires | {X1 , ..., Xn , ...} .
Prvision linaire
Dfinition 117. Soit (Xt )tZ un processus de L2 . On appelle meilleur prvision
linaire de Xt sachant son pass la regression linaire (thorique) de Xt sur son pass
H =V ect (I, Xt1 , Xt2 , ...), et sera note EL (Xt |I, Xt1 , Xt2 , ...).
Dfinition 118. Le processus dinnovation du processus (Xt ) est le processus (t ) dfini
par
t = Xt EL (Xt |I, Xt1 , Xt2 , ...) .
Proposition 119. Soit (Yt ) un bruit blanc BB (0, 2 ), le processus stationnaire (Xt )
dfinit par10
Xt = Yt Yt1 pour || < 1,
alors
EL (Xt |I, Xt1 , Xt2 , ...) =
i Xti
i=1
Ceci correspond un processus M A (1), dont la racine est lintrieur du cercle unit.
87
Proof. Le processus (Xt ) est stationnaire en tant que moyenne mobile de bruit blanc.
Dfinissons alors
n
X
St,n =
i Xti .
i=1
i=m+1
qui tend
0 quand m et n tendent vers linfini. (St,n ) converge donc dans L2 vers
P vers
St = i=1 i Xti , lment de V ect (I, Xt1 , Xt2 , ...).
Or Xt = Yt Yt1 , donc Xt + Sn,t = Yt + n+1 Ytn1 et donc
Xt +
i Xti = Yt ,
i=1
peut alors montrer si (Xt ) est un processus stationnaire rgulier, et si (t ) est un bruit
blanc tel que, chaque date t les passs concident, alors on a la dcomposition
t1
t
= HX
Rt , pour tout t,
HX
o dsigne une somme directe orthogonale, et le processus bruit blanc est alors unique :
il est appel innovation du processus (Xt ) . Le fait que les deux espaces concident implique,
en particulier, que si (t ) est linnovation du processus (Xt ) alors
EL (XT +k |XT , XT 1 , ....) = EL (XT +h |T , T 1 , ...) .
Complments laide des espaces H Etant donn un processus (Xt ), on notera
H (X) le sous-espace de Hilbert de L2 correspondant ladhrance, dans L2 , de lespace
des combinaisons linaires finies dlments de (Xt ). On notera HT (X) le sous-espace de
Hilbert de L2 correspondant ladhrance, dans L2 , de lespace des combinaisons linaires
finies dlments de (Xt ) avec t T .
Dfinition 122. On appelle processus dinnovation la suite t = Xt Ht1 (X) (Xt ).
Ce processus est alors une suite orthogonale (pour le produit scalaire h, i), et on a
linclusion Ht1 () Ht1 (X).
6.3
6.3.1
avec la convention L = I et L
6.3.2
(1 L)
k Lk .
k=0
(1 L)
X
1 k
=
F .
k
k=1
(1 )
+
X
k =
k=0
donc A(L) =
P+
k=0
1
< +,
1
(1 L)A(L) = lim (1 L)
k+
k
X
j=0
!
j
k=0
En combinant ces deux rsultats :
(1 L)1
1
F
1
1
= F
= (L)
1
+
X
1 k
F
k
k=0
+
1
X
X
1 k
=
k Lk ,
F =
k
k=1
k=
kZ
|ak | = +.
Exemple 124. Soit (Xt ) et (Yt ) deux processus stationnaires tels que Yt = Xt Xt1 =
(1 L) Xt , o < 1. Cette relation sinverse en
Xt = (1 L)1 Yt = Yt + Yt1 + ... + k Ytk + ...
Exemple 125. Dans le cas o = 1 (racine unit) on se retrouve en prsnce dune
marche alatoire Yt = Xt Xt1 (non stationnaire).
inversibilit des polynmes en L
Tout polynme A (L) = 1+a1 L+...+an Ln (normalis tel que A (0) = 1), peut scrire
A (z) = an (z z1 ) (z z2 ) ... (z zn ) ,
correspondant la dcomposition en lments simples (zi = racines du polynme). On
peut crire
n
Y
1
(1 i L) o i =
A (L) =
zi
i=1
90
A2 (L)
A3 (L)
A (L)1 =
(1 i L)1
|i |<1
Y
|i |>1
P
{z
k Lk
}|
1
F
i
1
{z
i F n ,
|i |>1
k F k
L)
est
bien
dfini,
de
la
forme
i
kZ ai,k L et A(L)
Qp
1
1
est donc aussi dfini. Toutefois, A(L) peut contenir des termes en
i=1 (1 i L)
k
L , k > 0 qui sont des termes concernant le futur
P
k k
Si |i | < 1 pour tout i alors (1 i L)1 = +
k=0 i L et :
1
A(L)
p
+
Y
X
1
=
ak L k
(1 i L) =
i=1
+
X
|ak | < +.
k=0
k=0
Par ailleurs,
p
Y
A(z) =
(1 i z)
et A(z)A(z)1
p
+
Y
X
=1
(1 i z)
ak z k
i=1
i=1
!
= 1,
k=0
de telle sorte que A(0)A(0)1 = 1 a0 = 1 a0 = 1. Sil existe i tel que i C\R alors
A(L) = (1 i )(1 i )P (L) et
! +
! +
+
+
X
X
X
X
1
1
k k
k k
k
(1i ) (1i ) =
i L
i L =
k L k R, 0 = 1,
|ak | < +.
k=0
k=0
k=0
k=0
Remarque 127. Si des racines sont infrieures 1 (en module), cette dcomposition fait
intervenir le futur de la variable.
PourQ
dterminer, en pratique, linverse dun polynme A (L), supposons quil scrive
A(L) = pj=1 (1 j L), de telle sorte que
!
p
+
Y
X
A(L)1 =
kj Lk
j=1
91
k=0
On peut utiliser directement cette mthode de calcul pour p petit (p = 1, 2) mais elle
savre fastidieuse en gnral. On note,
!
!
+
+
X
X
A(L)
ak Lk = (1 + 1 L + + p Lp )
ak Lk = 1
k=0
k=0
p
Y
1
1 j L
j=1
6.4
Pour rappels, un processus (Xt ) est stationnaire (au second ordre) si pour tout t, E (Xt2 ) <
+, pour tout t, E (Xt ) = , constante indpendante de t et, pour tout t et pour tout h,
cov (Xt , Xt+h ) = (h), indpendante de t.
6.4.1
Autocovariance et autocorrlation
1
(1)
(2)
(h 1)
(1)
1
(1)
(h 2)
...
(2)
(1)
1
(h 3)
R (h) =
..
..
..
.
.
.
...
1
(1)
(h 1) (h 2) (h 3)
(1)
1
i.e.
R (h) =
(h 1)
..
R (h 1)
(1)
(h 1) (1)
1
92
On peut noter que det R (h) 0 pour tout h N\ {0}. Cette proprit implique
un certain nombre de contraintes sur les X (i). Par example, la relation det R (2) 0
implique la contrainte suivante sur le couple ( (1) , (2)) :
[1 (2)] 1 + (2) 2 (1)2 0,
ce qui fait quil ne peut
y avoir de chute brutale de (1) (2) : il est impossible davoir
(2) = 0 si (1) 1/ 2.
Ces fonctions sont estimes, pour un chantillon X1 , ..., XT , de la faon suivante :
T h
1 X
b (h)
b (h) =
Xt Xth et b (h) =
,
T h t=1
b (0)
(quand le processus est centr, sinon, il faut considrer (Xt ) (Xth )).
> X=rnrom(100)
> as.vector(acf(X))
Autocorrelations of series X, by lag
0
1
2
3
4
5
6
1.000 -0.004 -0.027 -0.107 -0.113 -0.093 -0.125
6.4.2
7
0.065
8
0.043
9
0.026
Autocorrlations partielles
On regarde ici la projection (ou lesprance linaire) les deux valeurs extrmes Xt et
Xth sur lensemble des valeurs intermdiaires t1
h1 = {Xt1 , ..., Xth+1 }. Cette projection peut scrire, dans le cas de Xt
EL (Xt |Xt1 , ..., Xth+1 ) = a1 (h 1) Xt1 + a2 (h 1) Xt2 + ... + ah1 (h 1) Xth+1 .
On peut aussi crire, en rajoutant Xth , et en projetant ainsi sur t1
h ,
EL (Xt |Xt1 , ..., Xth ) = a1 (h) Xt1 + a2 (h) Xt2 + ... + ah1 (h) Xth+1 + ah (h) Xth .
(19)
93
ai (h 1) Xti =
i=1
h1
X
i=1
h1
X
ahi (h 1) Xti .
i=1
(20)
(h)
1
Ph1
Pi=1
h1
i=1
(h i) ai (h 1)
(i) ai (h 1)
(21)
h1
X
(h i) ai (h) .
i=1
i=1
a1 (h)
(1)
1
..
.
a (h) =
= R (h) .. .
.
ah (h)
(h)
94
Dfinition 132. Lalgorithme rcursif bas sur (20), (21) et la condition initiale a1 (1) =
(1) est appel algorithme de Durbin.
De (20) on peut en dduire en particulier que
a1 (h) = a1 (h 1) + ah (h) ah1 (h 1) ,
et de (21) , que pour h 2,
ah (h) =
(1) ah1 (h 1)
.
1 (1) a1 (h 1)
Ces deux quation permettent dobtenir rcursivement les deux coefficients extrmes a1 (h)
et ah (h) pour tout h.
Proposition 133. Soit (Xt ) un processus stationnaire, alors X (0) = 1, et, pour h 1,
X (h) est le coefficient relatif Xth dans la projection de Xt sur Xt1 , ..., Xth+1 , Xth ,
soit ah (h).
Proof. Cette proprit sobtient en notant que
EL (Xt |Xt1 , ..., Xth )EL (Xt |Xt1 , ..., Xth+1 ) = ah (h) [Xth EL (Xth |Xt1 , ..., Xth+1 )] .
a1 (h)
(h 1)
(1)
..
..
..
R (h 1)
+
ah (h) =
,
.
.
.
ah1 (h)
(1)
(h 1)
et
a1 (h)
..
(h 1) (1)
+ ah (h) = (h) .
.
ah1 (h)
Une autre formulation consiste dire que la fonction dautocorrlation partielle mesure
la corrlation entre Xt et Xth une fois retire linfluence des variables antrieures Xth .
En reprenant les notations de la partie prcdante,
1
(1)
(2)
(h 3) (h 2) (h 1)
(1)
1
(1)
(h 4) (h 3) (h 2)
..
. (h 5) (h 4) (h 3)
(2)
(1)
1
...
...
...
R (h) =
.
.
(h 3) (h 4) (h 5)
.
1
(1)
(2)
(h 2) (h 3) (h 4)
(1)
1
(1)
(h 1) (h 2) (h 3)
(2)
(1)
1
et on introduit de faon analogue la matrice R (h) obtenue
colonne de R (h) par le vecteur [ (1) , ..., (h)]0 ,
1
(1)
(2)
(h 3)
(1)
1
(1)
(h 4)
...
(2)
(1)
1
(h 5)
..
.
.
..
..
R (h) =
.
(h 3) (h 4) (h 5) . . .
1
(h 2) (h 3) (h 4)
(1)
(h 1) (h 2) (h 3)
(2)
en remplaant la dernire
(h 2)
(h 3)
(1)
(2)
(h 4)
(3)
(1)
(h 2)
1
(h 1)
(1)
(h)
|R (h)|
pour tout h.
|R (h)|
> X=rnorm(100)
> as.vector(pacf(X))
Partial autocorrelations of series X, by lag
1
2
3
4
5
6
-0.004 -0.027 -0.108 -0.116 -0.105 -0.153
6.4.3
7
8
9
0.023 -0.002 -0.025
Densit spectrale ? ? ?
96
Proof.
X
hZ
X X
|X (h)| =
aj ak (h + j k) .
hZ
j,k
0 si h + j k 6= 0
2 si h + j k = 0,
et donc,
X
hZ
!2
X X
X
X
|X (h)| =
aj ah+j 2
|aj | |ah+j | = 2
aj
< +.
2
hZ
h,j
1 X
1 X
X (h) exp(ih) =
X (h) cos(h).
2 hZ
2 hZ
Proof. En effet,
#
"
X
X
1
X (h)eih
fX () =
X (h)eih +
X (0) +
2
h<0
h>0
X
X
1
=
X (h)eih +
X (h) eih
X (0) +
| {z }
2
h>0
h>0
=X (h)
#
"
X
X
1
1
1 X
=
X (h) cos(h).
2 hZ
.
2
[;]
97
Proof. En effet,
Z
fX ()eih d =
1
2
[;]
[;]
eih d
X (k)eik
kZ
Z
1 X
i(kh)
=
X (k)
e
d (daprs Fubini)
2 kZ
[;]
{z
}
|
0 si k 6= h
=
2 si k = h
= X (h).
Proposition 139. Soient (t ) un bruit blanc, et considrons les processus (Xt ) et (Yt )
dfinis par
X
X
X
X
bk Xtk o
|aj | ,
|bj | < +,
aj tj et Yt =
Xt =
jZ
alors Yt =
kZ
kZ ck tk ,
et de plus,
2
X
ik
fY () = fX ()
bk e .
kZ
bk Xtk =
kZ
bk
kZ
aj tkj
jZ
aj bk t(k+j)
j,kZ
!
=
aj bhj th =
j,hZ
X X
aj bhj th .
jZ
hZ
{z
=ck
98
6.4.4
Autocorrlations inverses ? ? ?
Cette notion a t introduite en 1972 par Cleveland, et Chatfield en a prcis les principales charactristiques en 1979. Etant donn un processus (Xt ) stationnaire, de fonction
dautocovariance X et de densit spectrale fX , il se peut que 1/fX soit interprtable
comme une densit spectrale (par exemple ds lors que 1/fX est continue).
Dfinition 140. La fonction dautocovariance inverse iX est la fonction
dautocovariance associe au spectre inverse 1/f ,
Z +
1
1
1 X
iX (h) =
exp (ih) d ou
=
iX (h) exp (ih) .
fX ()
2 hZ
fX ()
De la mme faon que prcdement, on peut alors dfinir une autocorrlation inverse,
Dfinition 141. La fonction dautocorrlation inverse iX est dfinie par,
i (h) =
iX (h)
.
iX (0)
+
X
(k) Lk ,
k=
+
X
i (k) Lk = (L)1
k=
Exemple 142. Dans le cas dun processus dit ARM A (p, q) (voir partie (6.7)), dfinit par
une relation de la forme (L) Xt = (L) t o t est un bruit blanc, et o et sont
respectivement des polynmes de degr p et q. La fonction gnratrice dautocovariance
inverse est donne par
i (L) =
(L) (L1 ) 1
.
o 2 est la variance du bruit blanc t
(L) (L1 ) 2
avec la convention 0 = 1. Aussi, pour les processus AR (p), les autocorrlations inverses
sannulent au del du retard p (de la mme faon que les autocorrlations partielles).
Bhansali a montr en 1980 que pour un bruit blanc, les autocorrlations inverses empiriques suivent un bruit blanc de loi normale de moyenne nulle et de variance 1/n.
Ainsi, la significativit des coefficients
dautocorrlation inverse peut tre teste, au seuil
de 5%, en la comparant avec 1.96/ n.
Il est galement possible de dfinir les autocorrlations partielles inverses (en utilisant
une construction analogue celle dveloppe dans la partie prcdante, en remplaant les
par les i). Comme la montr Bhansali (1980 1983) et Cleveland et Parzen, les
autocorrlations partielles inverses peuvent tre obtenus laide de mthodes rcursives
(proches de celle de Durbin).
Remarque 143. On peut noter la correspondance suivante
autocorrlations
l
autocorrlations
partielles inverses
autocorrlations
partielles
l
autocorrlations
inverses
En fait, comme nous le verrons par la suite, sur lidentification des modles ARM A, les
autocorrlations permettent de dtecter (entre autres) si une srie est intgre, et sil faut
la diffrencier, alors que les autocorrlations partielles permettent de vrifier que la srie
na pas t surdiffrencie.
Les autocorrlations et les autocorrlations inverses i sont identiques si et seulement
si X est un bruit blanc
6.4.5
Nous allons rappeler ici les formes des autocorrlogrammes, et des autocorrlogrammes
partiels de sries non-stationnaires, et dterministes.
Exemple 144. Fonction linaire Xt = a + bt
6.5
p
X
(22)
i=1
o les i sont des rels et (t ) est un bruit blanc de variance 2 . (22) est quivalent
lcriture
(L) Xt = t o (L) = I 1 L ... p Lp
Il convient de faire toutefois attention aux signes, certains ouvrages ou logiciels considrant des polynmes de la forme I + 1 L + ... + p Lp .
101
Remarque 149. En toute gnralit, un processus AR (p) vrifie une relation de la forme
(L) Xt = + t o est un terme constant. De cette forme gnrale, il est possible
de se ramener (22) par une simple translation : il suffit de consider non pas Xt mais
Yt = Xt m o m = / (1). En effet, (L) (Yt + m) = + t peut se rcire (L) Yt +
(1) m = + t cest dire (L) Yt = t . m correspond ici lesprance de (Xt ).
6.5.1
Comme nous lavons vu dans la partie (6.3.2), si lon souhaite inverser un polynme (en
loccurence, prsenter Xt comme une fonction des t ), il convient de regarder les racines
du polynme , en particulier leur position par rapport 1 (en module). Comme nous
allons le voir dans cette partie, il est possible, lorsque les racines de sont de module
diffrent de 1, quil est toujours possible de supposer les racines de module suprieur 1,
quitte changer la forme du bruit blanc.
Ecriture sous la forme M A() quand les racines de sont de module strictement suprieur 1 On suppose (L)Xt = + t o (L) = 1 (1 L + + p L)
et aussi que |z| 1 (z) 6= 0 (de telle sorte que les racines de sont de module
strictement suprieur 1 ). Daprs les rsultats noncs dans la partie sur les polynmes
doprateurs retards, (Xt ) admet une reprsentation M A() i.e.
Xt = m +
+
X
ak tk
o a0 = 1, ak R,
k=0
+
X
|ak | < +.
k=0
1
Comme L(Xt1 ) = L(t1 ), on a EL(t |Xt1 ) = EL(t |t1 ) = 0 car (t ) est un bruit
bt = + 1 Xt1 + + p Xtp et Xt X
bt = t : (t ) est bien
blanc. Finalement X
linnovation de (Xt ).
102
p
Y
Y
Y
(1 j L) =
(1 j L)
(1 j L)
(L) =
j=1
j/ |j |<1
j/ |j |>1
On peut alors montrer que lon naura pas L(Xt ) = L(t ), et donc (t ) nest pas
linnovation.
Pour obtenir la reprsentation canonique il faut changer le polynme et le bruit
blanc. On pose
Y
Y
z
(z) =
(1 j z)
(1 )
j
j/ |j |<1
j/ |j |>1
2
i 2
2
1
(e ) = h
f () =
2 |(ei )|2
2 Q
2
2
i 2
j/ |j |<1
|1 j e |
i 2
j/ |j |<1 |1 j e |
2
1 |j ei |
=
2
|j |2 |1 j ei |2
j, |j |>1
|
{z
}
Y
i Q
i hQ
j/ |j |>1 1
2
ei
j
i 2
j/ |j |>1 |1 j e |
1
|j |2
|>1
Y
j, |j
=1
On a donc
f () =
Y
2
2
1
=
avec =
2 < 1
2
2
|
|
j
j, | |>1
j
6.5.2
(23)
p
X
i=1
..
.
(p 1)
1
(1)
(2)
(1)
.
. . (p 2)
(2) (1)
1
(1)
(3)
..
(2)
.
(p 3)
(1)
1
=
..
..
..
..
..
.
.
.
.
.
(p 1)
...
...
1
(1)
(p)
(p 1) (p 2) (p 3)
(1)
1
Alors
..
.
p1
Par inversion, il est possible dexprimer les i en fonction des (h). La mthodologie
dveloppe dans la partie (6.4.2) permet dobtenir les autocorrlations partielles (h). Il
est possible de montrer le rsultat suivant
Proposition 153. (i) Pour un processus AR (p) les autocorrlations partielles sont nulles
au del de rang p, (h) = 0 pour h > p.
(ii) Pour un processus AR (p) les autocorrlations inverses sont nulles au del de rang
p, i (h) = 0 pour h > p.
Proof. (i) Si (Xt ) est un processusAR(p) et si (L)Xt = + t est sa reprsentation
canonique, en notant (h) le coefficient de Xth dans EL(Xt |Xt1 , . . . , Xth ) alors,
Xt = +
1 Xt1 + + p Xtp
|
{z
}
+ t
p
Aussi, si (z) = 1 + z + ... + p z (i.e. 0 = 1 et k = k ),
!
!
p
p
X
2 X
1
2 X
= 2
k eik
eik = 2
k l ei(kl) ,
fX ()
k=0
0k,lp
k=0k
et donc, les autocovariances inverses sont dfinies par
Z
2 X
i (h) = 2
k l
ei(kl+h) d .
0k,lp
| {z
}
=0 sauf si kl+h=0
4 2
4 2
p 6= 0.
0
p
2
2
Cette mthode pourra tre utilise pour identifier les processus AR (p) .
105
6.5.3
Le processus AR (1)
Xt = (1 L)
t =
(24)
i=0
1
1 F
1
t =
i=1
1
Xt1 = t ,
o
t = (1 F ) (1 L)
t = t+1 + 1
X
i ti .
i=0
106
>
>
>
>
>
>
107
2
1
,
2 1 + 2 2 cos
qui correspond au graphique ci-dessous, avec > 0 (les courbes sont ici prsentes dans
la mme base 1 : f (0) = 1),
Les valeurs les plus importantes sont obtenues aux basses frquences, les fonctions
108
tant dcroissantes sur [0, ]. Dans les trois exemples ci-dessous, les t seront pris
gaussiens, t N (0, 1)
A retenir 155. Un processus AR (1) : Xt = Xt1 + t sera auto-corrl positivement
si 0 < < 1, et autocorrl ngativement si 1 < < 0. Cette srie va osciller autour
de 0, en sen cartant suivant la valeur t du processus dinnovation (si 1 < < +1).
Si = +1, on obtient une marche alatoire, et si > +1 ou < 1 le processus nest
par stationnaire, et on obtient un modle qui explosera ( moyen terme). La valeur ,
dans le cas o le processus est stationnaire, est la corrlation entre deux dates conscutives
= corr (Xt , Xt1 ).
> 0 dcroissance exponentielle
Fonction dautocorrlation
> plot(acf(X),lwd=5,col="red")
> plot(pacf(X),lwd=5,col="red")
109
> plot(acf(X),lwd=5,col="red")
> plot(pacf(X),lwd=5,col="red")
> plot(acf(X),lwd=5,col="red")
> plot(pacf(X),lwd=5,col="red")
110
6.5.4
Le processus AR (2)
Ces processus sont galement appels modles de Yule, dont la forme gnrale est
1 1 L 2 L2 Xt = t ,
o les racines du polynme caractristique (z) = 1 1 z 2 z 2 sont supposes
lextrieur du disque unit (de telle sorte que le processus t corresponde linnovation).
Cette condition scrit
1 1 + 2 > 0
1 + 1 2 > 0
2
1 + 42 > 0,
cest dire que le couple (1 , 2 ) doit se trouver dans une des 4 parties ci-dessous,
La fonction dautocorrlation satisfait lquation de rcurence
(h) = 1 (h 1) + 2 (h 2) pour h 2,
et la fonction dautocorrlation partielle vrifie
(1) pour h 2= 1
a (h) =
(2) (1) / 1 (1)2 pour h = 2
0 pour h 3.
Exemple 156. Processus AR (0.5, 0.3) - cas 1 Exemple 157. Processus AR (0.5, 0.3) - cas 2 Exemple 158. Processus AR (0.5, 0.7) - cas 3 Exemple 159. Processus AR (0.5, 0.7) - cas 4 Dans le cas dun modle AR (2) avec constante, de la forme (1 1 L 2 L2 ) Xt =
0 + t on peut alors noter que lesprance de Xt est
E (Xt ) =
0
ds lors que 1 + 2 6= 1.
1 1 2
En utilisant les quations de Yule Walker, nous avions not que la fonction
dautocorrlation vrifiait la relation de rcurence suivante,
(0) = 1 et (1) = 1 / (1 2 ) ,
(h) = 1 (h 1) + 2 (h 2) pour h 2,
cest dire que le comportement de cette suite peut tre dcrit en tudiant le polynme
caractristique associ, x2 1 x
2 = 0. Dansle cas o le polynme admet deux
p
racines relles, 1 et 2 o = 1 21 + 42 /2, alors le polynme autorgressif
peut scrire (1 1 L 2 L2 ) = (1 1 L) (1 2 L) : le modle AR (1) peut tre vu
alors comme un modle AR (1) appliqu un processus AR (1). Lautocorrlogramme
prsente une dcroissante suivant un mlange dexponentielles. Quand les racines sont
complexes (conjugues), alors les (h) prsentent une volution sinusodale
amortie.
On
1
obtient alors des cycles stochastiques, de longueur moyenne 2/ cos
1 /2 2 .
111
112
6.6
Dfinition 161. On appelle processus moyenne mobile (moving average) dordre q, not
M A (q), un processus stationnaire (Xt ) vrifiant une relation du type
X t = t +
q
X
i ti pour tout t Z,
(25)
i=1
o les i sont des rels et (t ) est un bruit blanc de variance 2 . (25) est quivalent
lcriture
Xt = (L) t o (L) = I + 1 L + ... + q Lq .
Remarque 162. Encore une fois, nous allons utiliser dans cette partie des modles de la
forme (25), toutefois, dans certains ouvrages, la convention est dcrire ces modles sous
la forme (L) = I 1 L ... q Lq . En particulier pour les logiciels dconomtrie, il
convient de vrifier le signe attribu aux coefficients de la forme M A (cf exercice 15 de
lexamen de 2002/2003).
Contrairement aux processus AR (p), les processus M A (q) sont toujours
P des 2processus
stationnaires. Les processus M A () sont stationnaires si et seulement si
i=1 i est finie.
Pour rappel, un processus AR (p) est stationnaire si les racines du polynme retard sont
lextrieur du cercle unit.
De la mme faon que pour les AR (p), il est possible dinverser le polynme dans le
cas o ses racines sont de module diffrent de 1 (quitte changer des bruit blanc, comme
pour les processus AR). Supposons que nait pas de racines de module gal 1, et
113
o i sont les racines de module infrieur 1. Aussi, la variance de (t ) est ici suprieure
celle de (t ). Par le suite, on supposera que le processus M A est sous forme canonique,
cest dire que toutes les racines de sont de module suprieur 1.
6.6.1
q
X
j=0
Do la fonction dautocovariance,
(h) =
h + h+1 1 + ... + q qh
si 1 h q,
1 + 12 + 22 + ... + q2
rho=function(h,theta){
theta=c(1,theta)
q=length(theta)
if(h>=q) ACF=0 else{sn=0;sd=0
for(i in 1:(q-h)) sn=sn+theta[i]*theta[i+h]
for(i in 1:(q)) sd=sd+theta[i]^2
ACF=sn/sd}
114
+
>
>
>
>
>
>
>
return(ACF)}
THETA=c(-.6,.7,-.4,0,.9)
X=arima.sim(list(ma = THETA),n=240)
acf(X,col="red",lwd=5)
R=function(h) rho(h,THETA)
points(1:24,Vectorize(R)(1:24),pch=19,cex=2,col="blue")
Exemple 163. Le graphique ci-dessous montre lvolution dun processus M A (5), avec
un bruit blanc gaussien, de variance 1, avec droite, lautocorrlogramme associ, pour
Xt = t 0.7t1 + 0.8t2 + 0.3t3 0.1t4 + 0.7t5 ,
On retrouve bien sur cette simulation de processus M A (5) le fait que les autocorrlations sannulent pour h > 5.
A retenir 164. Les processus M A sont toujours stationnaire, mais ils ne sont inversibles
que si les racines du polynme charactristiques sont lextrieur du disque unit.
On peut noter que sil ny a pas de rsultat particulier pour les autocorrlations partielles, on a malgr tout le rsultat suivant
Proposition 165. Si (Xt ) suit un processus M A (q), Xt = (L)t = t + 1 t1 + ... +
q tq , alors les autocorrlations inverves i (h) satisfont les quations de Yule-Walker
inverse,
i (h) + 1 i (h 1) + ... + q i (h q) = 0 pour h = 1, 2, ..., q.
En particulier, i(h) dcroit exponentiellement avec h.
Proof. Par dfinition i(h) = i (h)/i (0) avec i (h) =
crire, si Xt = (L)t
fX () =
1
eih d.
fX ()
2
2
1
2
(ei ) et donc
=
.
2
fX ()
2 |(ei )|2
115
On peut alors
Soit (Yt )tZ un processus tel que (L)Yt = t i.e. (Yt ) suit un processus AR (q), et
2
2
= fY () (ei ) .
2
Donc :
fY () =
2
1
,
2 |(ei )|2
6.6.2
Le processus M A (1)
, et (h) = 0, pour h 2.
1 + 2
On peut noter que 1/2 (1) 1/2 : les modles M A (1) ne peuvent avoir de fortes
autocorrlations lordre 1.
Lautocorrlation partielle lordre h est donne par
(1)h h (2 1)
,
(h) =
1 2(h+1)
et plus gnrallement, les coefficients de rgression sont donns par
ai (h) =
(1)i i
(1)i 2h+2i
+
,
1 2h+2
1 2h+2
dans le cas o 6= 1.
On peut visualiser cette autocorrlation sur les nuages de points (Xt1 , Xt ), (Xt2 , Xt ),
etc, pour un processus MA(1) avec > 0
>
>
>
>
>
>
116
i (h) =
pour tout h 1.
1 + 2
> X=arima.sim(n = 2400, list(ma = .7),sd = 1)
> plot(acf(X),lwd=5,col="red")
> plot(pacf(X),lwd=5,col="red")
premire non nulle (signe = signe de )
Fonction dautocorrlation
Le processus M A (2)
1 [1 + 2 ] / [1 + 12 + 22 ] pour h = 1
2 / [1 + 12 + 22 ] pour h = 2
(h) =
0 pour h 3,
118
6.7
p
X
i=1
i Xti = t +
q
X
j=1
119
i ti pour tout t Z,
(26)
o les i sont des rels et (t ) est un bruit blanc de variance 2 . (22) est quivalent
lcriture
(L) = I + 1 L + ... + q Lq
(L) Xt = (L) t o
(L) = I 1 L ... p Lp
On supposera de plus de les polymes et nont pas de racines en module strictement
suprieures 1 (criture sous forme canonique), et nont pas de racine commune. On
supposera de plus que les degrs de et sont respectivement q et p, au sens o q 6= 0
et p 6= 0. On dira dans ce cas que cette criture est la forme minimale.
Les processus ARM A (p, q) peuvent donc se mettre
(i) sous la forme M A () en crivant Xt = (L)1 (L) t , si toutes les racines de
sont lextrieur du disque unit.
(ii) ou sous forme AR () en crivant (L) (L)1 Xt = t , si toutes les racines de
sont lextrieur du disque unit.
Remarque 169. Un processus AR (p) est un processus ARM A (p, 0) et un processus
M A (q) est un processus ARM A (0, q) .
6.7.1
Proposition 170. Soit (Xt ) un processus ARM A (p, q), alors les autocovariances (h)
satisfont
p
X
(h)
i (h i) = 0 pour h q + 1.
(27)
i=1
p
X
j Xtj = t +
j=1
q
X
j tj
j=1
p
X
i=1
+
X
hj tj .
j=0
120
(28)
1 + 12 + ... + q2 + 21 1 + ... + h h 2
o h = min (p, q) .
1 21 ... 2p
Proposition 174. La densit spectrale du processus ARM A (Xt ) stationnaire est une
fraction rationnelle en exp (i), et est donne par
2 | (exp [i])|2
fX () =
.
2 | (exp [i])|2
6.7.3
h
i
h h h
2 2
(L) = (1 L) 1 L + L + ... + (1) L + .. ,
aussi
(L) =
+
X
i=0
i L o
0 = 1
i = (1)i [ + ] i1 pour i 1.
A retenir 175.
ARM A (1, 1) :
6.8
Fonction dautocorrlation
dcroissance aprs le premier retard
Fonction dautocorrlation partielle dcroissance exponentielle ou sinusode amorti
Tous les processus dcrits dans les parties prcdantes sont des processus stationnaires
(Xt ). En fait, la plupart des rsultats obtenus dans les parties prcdantes reposent sur
lhypothse (trs forte) de stationnarit. Cest le cas par exemple de la loi des grands
nombres telle quelle est formule dans le thorme ergodique. On peut toutefois noter
quun certain nombre de processus, trs simples, sont non-stationnaires.
Exemple 176. Marche alatoire - La marche alatoire est dfinie de la faon suivante
: soit 1 , ..., t , ... une suite de variables i.i.d. et on supposera que t ademet une variance
finie, note 2 . On supposera galement les t centrs. Une marche alatoire Yt vrifie
Yt = Yt1 + t , pour tout t,
avec la convention Y0 = 0. On peut noter que Yt = Y0 + Y1 + ... + Yt1 . On a alors
st
E (Yt ) = 0
, cov (Ys ; Yt ) = 2 (s t) et corr (Ys , Yt ) = pour s, t 0.
2
V (Yt ) = t
st
En notant Ft la filtration gnre par les Y0 , ..., Yt , cest dire Ft = {Y0 , ..., Yt }, on peut
montrer que
E (Ys |Ft ) = Yt pour tout s t 0.
Aussi, le processus (Yt ), muni de sa filtration naturelle, est une martingale. La marche
alatoire est stationnaire en moyenne, mais pas en variance. La non stationnarit de
cette srie pose de gros problme statistique : considrons par exemple la moyenne dfinie
sur les n premires observations, soit
n
1X
Yn =
Yt ,
n t=1
alors, de faon triviale, E Y n = 0 mais V Y n = O (n) . Plus prcisment, la variance
de cette moyenne est
n (n + 1) (2n + 1)
V Y n = 2
.
6n2
122
Exemple 177. Tendance linaire -Un processus tendance linaire est dfini de la
faon suivante : soit 1 , ..., t , ... une suite de variables i.i.d. et on supposera que t ademet
une variance finie, note 2 . On supposera galement les t centrs. Une tendance linaire
Yt vrifie
Yt = t + t pour tout t, o R.
Ce processus vrifie
E (Yt ) = t
V (Yt ) = 2
et E (Ys |Ft ) = s pour tout s t 0. Cest dire que ce processus nest pas une
martingale, et les variables du processus sont indpendantes (au sens non-corrles). En
notant comme prcdemment Y n .la moyenne des n premires observations, on a
2
n+1
E Yn =
et V Y n =
0 quand n .
2
n
Exemple 178. March alatoire avec drift - Ce processus est dfini comme mlange
des deux prcdants : soit Xt une marche alatoire, soit Xt = Xt1 + t , alors Yt , marche
alatoire avec drift, est dfini par
Yt = t + Xt pour tout t, o R
= [ + 1 ] + [ + 2 ] + ... + [ + t ] .
On a alors les proprits suivantes
st
E (Yt ) = t
cov (Ys ; Yt ) = 2 (s t) et corr (Ys , Yt ) = pour s, t 0,
2
V (Yt ) = t
st
et E (Ys |Ft ) = s + Xt = [s t] + Yt pour tout s t 0.
Les processus stationnaires ayant beaucoup de proprits, il peut apparaitre intressant
de trouver une transformation simple du processus non-stationnaire que le rendrait
stationnaire. La mthode la plus courament utilise est de prendre des diffrences :
Exemple 179. Marche alatoire - Soit (Yt ) une marche alatoire,
Yt = Yt1 + t , pour tout t,
alors Zt = Yt Yt1 est stationnaire (et Zt = t ).
Exemple 180. Tendance linaire - Une tendance linaire Yt vrifie
Yt = t + t , pour tout t, o R,
alors Zt = Yt Yt1 = + t t1 : il sagit dun processus M A (1) (non inversible,
mais stationnaire comme tout processus M A).
Exemple 181. March alatoire avec drift - Soit Yt , marche alatoire avec drift,
Yt = t + Xt = [ + 1 ] + [ + 2 ] + ... + [ + t ] ,
alors Zt = Yt Yt1 = + Xt Xt1 = + t est stationnaire.
Cest cette importance de la diffrenciation (dont lintgration est lopration duale)
qui a permis de passer des modles ARM A aux modles ARIM A.
123
6.9
(L) = I 1 L 2 L2 + ... p Lp o p 6= 0
(L) = I + 1 L + 2 L2 + ... + q Lq o q 6= 0
sont des polynmes dont les racines sont de module suprieur 1, et o les conditions
initiales
Z1 = {X1 , ..., Xp , 1 , ..., q }
sont non-corrles avec 0 , ..., t , ... et o le processus (t ) est un bruit blanc de variance
2.
Remarque 183. Si les processus ARM A peuvent tre dfinis sur Z, il nen est pas
de mme pour les processus ARIM A qui doivent commencer une certaine date
(t = 0 par convention), avec des valeurs initiales (q valeurs pour les t , et p + d pour
Xt ). En effet, si lon considre un processus Xt , ARIM A(0, 1, 0) (= marche alatoire),
soit (1 L) Xt = t . On peut crire
Xt = X0 +
t
X
k mais pas Xt =
k=1
t
X
k=
car cette somme ne converge pas dans L2 . Cette importance de linitialisation peut se
comprendre sur les graphique ci-dessous : considrer un processus AR (1) simul (ou un
processus ARM A de faon plus gnrale), partir de la date t = 0 : on peut noter qu
relativement court terme les processus (Xt ) et (Yt ) simuls respectivement partir de x et
y sont indentiques : L (Xt ) = L (Yt ), les deux processus ont la mme loi, quelle que soit
la valeur initiale (i.e. une loi normale dans le cas dun bruit blanc gaussien).
En revanche, pour un processus ARIM A (1, 1, 0) - cest dire un processus AR (1)
intgr, la valeur initiale est trs importante : pour deux valeurs initiales diffrentes, les
deux processus nont pas la mme loi L (Xt ) 6= L (Yt ),
Les deux processus intgrs, droite, ont sensiblement des lois diffrentes la date t.
124
Remarque 184. Soit Yt un processus intgr dordre d, au sens o il existe (Xt ) stationnaire tel que Yt = (1 L)d Xt satisfaisant (L) Yt = + (L) t Alors, (Yt ) nest pas un
processus ARM A car il ne commence pas en . En fait, (Yt ) est asymptotiquement
quivalent un processus stationnaire ARM A.
Proposition 185. Soit (Xt ) un processus ARIM A (p, d, q) alors le processus d Xt
converge vers un processus ARM A (p, q) stationnaire.
6.9.1
Proposition 186. Soit (Xt ) un processus ARIM A (p, d, q) de valeurs initiales Z1 , alors
(i) (Xt ) peut scrire sous la forme suivante, fonction du pass du bruit,
Xt =
t
X
hj tj + h (t) Z1 ,
j=1
o les hj sont les coefficients de la division selon les puissances croissantes de par ,
et h (t) est un vecteur (ligne) de fonctions de t
(ii) (Xt ) peut scrire sous la forme suivante, fonction du pass de Xt
Xt =
t
X
j Xtj + h (t) Z1 + t ,
j=1
o les j sont les coefficients (pour j 1) de la division selon les puissances croissantes
de par , et h (t) est un vecteur (ligne) de fonctions de t quand tend vers 0 quand
t .
Proof. (ii) La division selon les puissances croissantes de I par scrit, lordre t,
I =Qt (Z) (Z) + Z t+1 Rt (Z) o deg (Qt ) = t et deg (Rt ) q 1.
Posons (L) = (1 L)d (L). Alors lquation (L) Xt = (L) t peut scrire, en
multipliant par Qt (Z),
Qt (Z) (L) Xt = Qt (Z) (L) t = ILt+1 Rt (L) t = t Rt (L) 1 .
En posant t (L) = Qt (Z) (L) (de degr p + d + t fini) on peut crire t (L) Xt =
t Rt (L) 1 , soit
p+d+t
q1
X
X
j Xtj = t
rj 1j ,
j=0
j=0
t+p+d
j Xtj = t
j Xtj
j=t+1
h0 (t)Z1
125
rj 1j .
j=0
{z
q1
X
6.10
Les modles SARIM A peuvent vus comme une gnralisation des modles ARIM A,
contenant une partie saisonnire.
Dfinition 187. De faon gnrale, soient s1 , ..., sn n entiers, alors un processus (Xt )
est un processus SARIM A (p, d, q) - autorgressif moyenne mobile intgr saisonnier sil vrifie une quation du type
(L) (1 Ls1 ) ... (1 Lsn ) Xt = (L) t pour tout t 0
o (L) = I 1 L 2 L2 + ... p Lp o p 6= 0 et (L) = I + 1 L + 2 L2 + ... + q Lq
o q 6= 0.sont des polynmes dont les racines sont de module suprieur 1, et o les
conditions initiales
Z1 = {X1 , ..., Xp , 1 , ..., q }
sont non-corrles avec 0 , ..., t , ... et o le processus (t ) est un bruit blanc de variance
2.
Cette forme inclue les modles ARIM A puisquil suffit de prendre n = d et s1 = ... =
sn = 1. Toutefois, les deux formes les plus utilises sont les suivantes,
(L) (1 Ls ) Xt = (L) t pour tout t 0
(L) (1 Ls ) (1 L)d Xt = (L) t pour tout t 0
o un seul facteur saisonnier s intervient, soit appliqu un processus ARM A dans le
premier cas, soit appliqu un processus ARIM A dans le second cas.
Exemple 188. Soit S N\{0} correspondant la saisonnalit, et considrons le processus dfini par
Xt = (1 L) 1 LS t = t t1 tS + tS1 .
Les autocorrlations sont donnes par
(1) =
(1 + 2 )
=
,
2
2
(1 + ) (1 + )
1 + 2
(S 1) =
(1 +
2 ) (1
+ 2)
(1 + 2 )
=
,
(1 + 2 ) (1 + 2 )
1 + 2
(S + 1) =
,
2
(1 + ) (1 + 2 )
et (h) = 0 ailleurs. On peut noter que (S 1) = (S + 1) = (1) (S) . Le graphique
suivant montre lautocorrlogramme (empirique) dun tel processus simul
Pour les autocorrlations partielles, jusquen S 2 (inclus), la fonction
dautocorrlation partielle est celle dun M A (1) de paramtre , puis la fonction est significative en S 1, S et S + 1.
(S) =
126
Exemple 189. Soit S N\{0} correspondant la saisonnalit, et considrons le processus dfini par
1 LS Xt = (1 L) 1 LS t ou Xt Xt1 = t t1 tS + tS1 .
Les autocorrlations sont donnes par
(1 + 2 )
=
,
2
2
(1 + ) (1 + )
1 + 2
( )2 / (1 2 )
,
(S 1) =
(1 + 2 ) 1 + ( )2 / (1 2 )
(1) =
(1 + 2 )
S1 ,
Exemple 190. Soit S N\{0} correspondant la saisonnalit, et considrons le processus dfini par
(1 L) 1 LS Xt = t ou Xt Xt1 XtS + XtS1 = t .
Les autocorrlations partielles sont non nulles en 1, S et S + 1. De plus la fonction
dautocorrlation vrifie lquation de rcurence
(h) (h 1) (h S) + (h S 1) = 0,
qui a pour polynme caractristique (z ) z S , qui a pour racines et les racines
S-imes de . Le graphique suivant montre lautocorrlogramme (empirique) dun tel
processus simul
Exemple 191. Soit S N\{0} correspondant la saisonnalit, et considrons le processus dfini par
Xt = 1 L LS t = t t1 tS .
On se retrouve dans un cadre assez proche de celui dvelopp dans lexemple (188), et lon
obtient la fonction dautocorrlation suivante
(1) =
, (S 1) =
et (S) =
.
2
2
2
2
1+ +
1+ +
1 + 2 + 2
127
Exemple 192. Soit S N\{0} correspondant la saisonnalit, et considrons le processus dfini par
Xt = 1 L LS LS+1 t = t t1 tS .
On se retrouve dans un cadre assez proche de celui dvelopp dans lexemple prcdant, et
lon obtient la fonction dautocorrlation suivante
(1) =
(S) =
, (S 1) =
,
2
2
2
2
1+ + +
1 + + 2 + 2
et (S + 1) =
.
2
2
2
2
1+ + +
1 + + 2 + 2
128
x 1
avec le cas limite g0 (x) = log(x).
> BoxCox.ar(electricity)
6.11
Thorme de Wold
Thorme 193. Tout processus (Xt ), centr, et stationnaire au second ordre, peut tre
reprsent sous une forme proche de la forme M A
Xt =
j tj + t ,
j=0
o
(1) (t ) est linnovation, au sens o t = Xt EL (Xt |Xt1 , Xt2 , ...) ,
129
X
Xt = +
j tj .
j=0
6.12
Comme le rappelle Bourbonnais (1998), lanalyse des sries temporelles dans le dommaine
des frquences (ou analyse spectrale) est souvent plus riche en terme dinterprtation,
130
dans laquelle les dUZ () sont des variables alatoires (complexes), alors que le second est
quivalent au prcdant, mais porte sur la fonction dautocovariance de (Xt ),
Z +
exp (i2h) E |dUZ ()|2 .
(h) =
Thorme 198. (de Khintchine) La densit spectrale de puissance dun processus alatoire stationnaire est gale la transforme de Fourier de sa fonction dautocorrlation
On a alors lcriture suivante
Z
+
1 X
ih
fX () =
(h) e
ou (h) =
eih fX () d, o (h) = cov (Xt , Xth ) ,
2 h=
0
avec fX () densit spectrale du processus (Xt ).
Filtre et processus strochastiques Etant donn un processus (Xt ), un filtre est une
transformation qui associe au processus (Xt ) un autre processus Yt = F (Xt ). Par exemple,
on dira quun filtre est linaire si F (Xt1 + Xt2 ) = F (Xt1 ) + F (Xt2 ).
De faon gnrale, on pourra considrer les filtres linaires de la forme suivante
X
F (Xt ) =
(i) Xt+i ,
iZ
o les (i) sont les coefficients de pondration, cest dire des filtres moyennes mobiles.
Considrons ainsi une fonction dfinie sur Z et valeurs dans R (ou C), appartenant
lespace des fonctions de carr intgrable sur R, alors admet une transforme de Fourier,
note A () appele fonction de rponse en frquence du filtre :
Z +
Z +
1
it
A () =
(t) e
dt ou (t) =
A () eit d.
2
6.12.2
Daprs le thorme de Wold, un processus stationnaire est une combinaison linaire infinie
des valeurs passes dun bruit blanc, cest dire quil peut scrire comme un processus
M A () :
+
X
Xt = (L) t =
k tk o 0 = 1.
k=0
Cest dire que (Xt ) est la rponse un filtre dun processus (t ), bruit blanc (la stabilit
tant assure par la convergence de la somme des carrs de i ). Les i sont alors la fonction
de rponse impulsionnelle du filtre. La fonction de gain du filtre scrit
2
+
X
2
ik
T () = |A ()| =
i e
,
k=0
fX () =
k=1
132
k=1
k=1
eik
2
eik
(0)
1+
=
.
+
=
1 eik 1 eik
[1 2 cos () + 2 ]
ce qui donne une fonction dcroissante pour > 0 et croissante pour < 0.
Exemple 202. Considrons le processus AR (2) suivant : Xt = Xt1 + Xt2 + t o
(t ) suit un bruit blanc de variance 2 . Le polynme AR scrit (L) = 1LL2 dont
il faut sassurer que les racines sont lextrieur du disque unit. Le spectre du processus
(Xt ) scrit alors
fX () =
2
1
.
2 1 + 2 + 2 2 (1 ) cos 2 cos 2
1
1
,
2 1.97 2.52 cos + 0.8 cos 2
0
0.212
1
0 +
0
Les graphiques suivants donnent les volutions de densits spctrales pour diffrents
processus ARM A. Les graphiques ci-dessous correspondent des processus AR (1), avec
= 0.8 gauche, puis = 0.2 et 0.5 droite, avec des courbes dcroissantes quand
0 et croissantes quand 0,
6.12.3
Supposons que nous ayons T observations dune srie temporelle, avec T impair, soit
T = 2m + 1. On dfini les frquences (dites parfois de Fourier) j = 2j/T pour
j = 1, ..., m. Considrons alors le modle de rgression
Yt = 0 +
m
X
j cos (j t) +
j=1
m
X
j=1
133
j sin (j t) ,
0
1
1
..
.
Y1
1 cos (1 )
sin (1 ) cos (m )
sin (m )
..
..
..
..
Y = ... , X = ...
,
.
.
.
.
YT
1 cos (1 T ) sin (1 T ) cos (m T ) sin (m T )
m
m
et =
cos (j t) =
T
X
sin (j t) = 0,
t=1
T
X
cos (j t) =
t=1
T
X
sin2 (j t) =
t=1
T
pour tout j, (29)
2
et
T
X
t=1
cos (j t) sin (k t) =
T
X
cos (j t) cos (k t) =
t=1
T
X
t=1
(30)
on peut montrer aisment que
b0
T
0 0
b1
b1 0 T /2 0
b = .. = ..
..
..
. .
.
.
bm
0
0 T /2
bm
Yt
P
cos (1 t) Yt
..
.
P
sin (m t) Yt
P
Y =
1/T.
Yt
P
2/T. cos (1 t) Yt
..
P .
2/T. sin (m t) Yt
et la variance empirique des observations (Yt ) est donne ( un facteur 1/T prs) par
!2
!2
T
m
T
T
X
X
X
2 X
2
Yt Y =
cos (j t) Yt +
sin (j t) Yt .
T
t=1
t=1
t=1
j=1
Tout ceci permet de dfinir le priodogramme I () de la faon suivante
!2
!2
T
T
X
X
1
I () =
cos (t) Yt +
sin (t) Yt .
T
t=1
t=1
Dans cette expression, un facteur 1/2 a t introduit de telle sorte que la variance
empirique, donne par
T
1X
Yt Y ,
b (0) =
T t=1
134
soit gale la somme des aires des m rectangles, de hauteur I (1 ) , ..., I (m ), et de base
2/T . La somme des aires de ces rectangles approxime laire sous la courbe I () pour
0 ,
En utilisant (29) et (30) on peut crire
T 1
1
2X
I (j ) =
b (0) +
b (k) cos (j k) .
k=1
Cette fonction I () est alors la version discrte et empirique de la densit spectrale f ().
Proposition 203. Si le processus est stationnaire, et si la densit spectrale existe, alors
I () est un estimateur sans biais de f () .
Supposons que (Yt ) soit un bruit blanc gaussien, cest dire Y1 , ..., YT sont i.i.d. et
distribus suivant une loi N (0, 2 ). Pour toute frquence de Fourier, = 2j/T ,
T
T
i
X
X
1 hb
2
2
b
b
b
Yt sin (t) .
Yt cos (t) et B () =
A () + B () o A () =
I () =
T
t=1
t=1
b () et B
b () sont centrs, et dont les variance sont donnes
Il est facile de montrer que A
par
T
T
X
X
2
2
b () = 2
b () = 2
V A
cos2 (t) = T
et V B
sin2 (t) = T ,
2
2
t=1
t=1
b () , B
b () = E
cov A
T
X
!
Ys Yt cos (s) sin (t)
s,t=1
= 2
T
X
!
cos (t) sin (t)
= 0.
t=1
b () / 2T 2 et B
b () / 2T 2 sont indpendant, et asymptotiquement
De plus, A
distribus
suivanti une la mme loi, normale, centre et rduite.
Et donc,
h
2
2
2
b
b
2 A () + B () /T est asyptotiquement distribu suivant une loi du chi-deux,
2 degrs de libert. Aussi, I () ( 2 /) 2 (2) /2, ce qui montre bien que I ()
est un estimateur sans biais de f () = 2 /, mais il nest pas consistant puisque
V (I ()) = 4 / 2 9 0 quand T .
Proposition 204. Soit (Yt ) un processus gaussien , de spectre f () Soit I (.) le priodogramme obtenu partir de lchantillon Y1 , ..., YT , posons j les frquences de Fourier,
au sens o j = 2j/T pour j < T /2. Dans ce cas, quand T ,on a les rsultats
suivants;
(i) I (j ) f (j ) .2 (2) /2
(ii) I (j ) et I (k ) sont indpendant pour j 6= k.
135
Remarque 205. La mthode de calcul des I (1 ) , ..., I (m ) prsent dans cette partie
ncessite de lordre de T 2 oprations. La Fast Fourier Transform permet daugmenter les
temps de calcul puisque seulement T log2 T oprations sont ncessaires (le gain en temps
est alors en T / log2 T : pour 100 observations, les calculs sont alors 15 fois plus rapides).
Remarque 206. Considrons la srie (Xt ) dfinie par Xt = 5 cos (t/36) + 7 sin (t/12) + t
o t N (0, 1), reprsente ci-dessous gauche. Sa densit spectrale est reprsente cidessous On note deux maximums locaux, aux priodes 110 et 35 (correspondants aux
paramtres 1/36 et 1/12).
136
Louvrage de Box et Jenkins Time series analysis, forecasting and control , publi en 1970
a propos une dmarche de prvision pour les sries univaries, fonde sur lutilisation de
processus ARIM A.
Les tapes pour lestimation des coefficients dun processus ARIM A sont les suivantes
(1) identification
(i) choix de d : combien de fois faut-il diffrencier pour obtenir une srie stationnaire (autocorrlogrammes, tests statistiques...)
(ii) choix de p et q : ordres respectifs des composantes AR et M A
(2) estimation des paramtres
estimation des i et des j : paramtres respectifs des composantes AR et M A
(3) vrification a posteriori
(i) significativit des paramtres
(ii) validation de lhypothse de bruit blanc des rsidus
Remarque 207. Il convient de retenir, comme en conomtrie, le modle le plus parcimonieux, utilisant le moins de paramtres, et ayant le meilleur comportement en prvision.
7.1
7.1.1
Comme nous lavons vu dans la partie (2.4.3), les moments empiriques convergent, avec
en plus normalit asymptotique (sous certaines conditions).
En pratique, si b (h) est proche de 1 (pour un grand nombre de retards), on a une racine
unit, et le processus nest pas stationnaire. On peut gallement penser diffrencier si
les premiers (h) sont proches les uns des autres, mme si (1) semble assez diffrent de
1. Il est noter que pour des sries conomiques, il est assez rare davoir d 3.
Exemple 208. Les graphiques ci-dessous reprsentent les sries (en haut) et les autocorrlogrammes (en bas) de Xt , de Xt et de 2 Xt On peut dailleurs noter que si lon
continue diffrencier, on a toujours des sries stationnaires
7.1.2
La prsentation sera ici inspire de celle de Hamilton Time Series Analysis (1994).
Le test de Dickey & Fuller simple Ce test permet de tester lhypothse H0 : le
processus suit une marche alatoire contre lhypothse alternative Ha : le processus suit
un modle AR (1). Ces tests peuvent tre regroups en 4 cas :
(1) Yt = Yt1 + t : on teste H0 : = 1 (marche alatoire sans drive)
(2) Yt = + Yt1 + t : on teste H0 : = 0 et = 1 (marche alatoire sans drive)
(3) Yt = + Yt1 + t : on teste H0 : 6= 0 et = 1 (marche alatoire avec drive)
137
i
(L) = (1)+(1 L) (L) = (1)
i L (1 L) o
i = i1 i = i+1 + ... + p
i=0
pour i = 1, ..., p. En P
posant = 1 (1), on peut rcrire les 4 cas en
(1) Yt = Yt1 + P
i yti + t : on teste H0 : = 1
(2) Yt = + Yt1 + P i yti + t : on teste H0 : = 0 et = 1
(3) Yt = + Yt1 + i y
P ti + t : on teste H0 : 6= 0 et = 1
(4) Yt = + t + Yt1 + i yti + t : on teste H0 : = 0, = 0 et = 1
Les statistiques de tests
P et leurs lois Pour simplifier, on crira
(1) Yt = Yt1 + i yti
P + t , avec = 1 appel Modle [1]
(2 3) Yt = + Yt1 + Pi yti + t appel Modle [2]
(4) Yt = + t + Yt1 + i yti + t appel Modle [3]
Les tables ci-aprs, ont t tabules par Dickey & Fuller (1979), et sont analogues aux
tables du t de Student. Dans le cas simple, le paramtre (ou ) est estim par la
mthode des moindres carrs ordinaires. Lestimation des coefficients et des cart-types
du modle fournit un t , analogue la statistique de Student dans les modles linaires
(rapport du coefficient sur son cart-type). Si tb est suprieur au t tabul, on accepte H0 ,
hypothse dexistence dune racine unit, et le processus nest alors pas stationnaire.
Il est aussi possible deffectuer ce test en utilisant nbn , o bn est lestimateur de
obtenu partir de n observations. Si cette valeur (empirique) est suprieure celle tabule
(et donne dans la deuxime table), on accepte lhypothse H0 .
Mise en place pratique des tests
> library(urca)
> summary(ur.df(y=,lag=1,type="trend"))
138
Il est aussi possible de laisser le logiciel choisir le nombre optimal de retard considrer
( laide du BIC, e.g.)
> library(urca)
> summary(ur.df(y=,lag=6,selectlags="BIC",type="trend"))
On choisit tout dabord un p suffisement grand pour que (L) Xt suive peu prs un
bruit blanc. On choisit alors parmi les cas proposs suivant que le graphique de la srie
prsente, ou pas, une tendance linaire.
Exemple 209. Considrons la srie dcrit prcdement,
Le test (simple) de Dickey & Fuller revient estimer les 3 modles suivants,
Xt Xt1 = Xt1
Xt Xt1 = + Xt1
Xt Xt1 = + t + Xt1
et dans le cas du test aumgent, avec p = 2
(0.000466)
(0.0000244)
(0.035561)
(0.035629)
avec n = 794. Les valeurs du test de Dickey & Fuller sont donnes par
En rpettant ce test en changeant la forme du modle (ici sans trend + t, et en
changeant lordre p), on confirme ce rejet de H0 : la srie Xt possde une racine unitaire et
nest pas stationnaire : la statistique de test ADF Test Statistic est toujours suprieure
aux valeurs critiques :
En faisant le test sur la srie diffrencie une fois (Xt ),on observe l aussi que lADF
Test Statistic est toujours suprieure aux valeurs critiques : H0 est encore accepte,
et donc la srie Xt possde elle aussi une racine unitaire et nest donc pas stationnaire
Le test de Dickey & Fuller appliqu cette fois-ci 2 Xt donne les rsultats suivants,
Cette fois-ci, le test de Dickey & Fuller permet de rejeter H0 : 2 Xt na pas de racine
unitaire, et la srie 2 Xt est donc stationnaire. Ce test valide les rsultats graphiques de
lexemple (208) : la srie Xt est intgre dordre 2 : d = 2.
139
Remarque 210. Dans le cas de sries financires (par exemple), il convient de faire
attention lors de la lecture des rsultats des tests de Dickey & Fuller : les processus
mmoire longue, bien que stationnaires, semblent avoir une racine unit. Avant de diffrencier afin dobtenir une srie stationnaire, il peut tre intressant de tester lhypothse
de mmoire longue du processus.
A retenir 211. Dans les tests de Dickey Fuller augment, trois (ou quatre) alternatives
sont proposes : avec ou sans tendance et constante. Il vaut mieux choisir lalternative
permettant de mieux dcrire la srie : si la srie (Xt ) nest pas centre, et que lon tente
un test de Dickey Fuller sans constante, il est possible il est possible H0 soit rejete, non
pas parce quil ny a pas de racine unit, mais parce que le modle test est mal spcifi
(cf exercice 16 de lexamen 2002/2003).
Complments sur les tests de racine unit Considrons une criture de la forme
(L) Xt = (L) t , o (t ) est un bruit blanc.
Lhypothse tester est (H0 ) : il existe tel que ei = 0, cest dire quune racine est
sur le disque unit (racine unit) le reste des racines tant lextrieur du risque unit :
(L) = (1 L) (L) o (1) 6= 0, avec les racines de lextrieur du disque unit.
Alors
Xt = (L)1 (L) t = (L) t = t ou Xt = Xt1 + t .
Lhypothse alternative (H1 ) scrit alors ei 6= 0 pour tout : na pas de racine
unit, et on suppose de plus que toutes les racines sont lextrieur du disque unit :
Xt = (L)1 (L) t = (L) t = t .
Les tests de Dickey-Fuller permet de tester cette hypothse : le test de rgression
scrit alors
b t1 + bt .
Xt = Xt1 + t dont lestimation est Xt = X
Il est alors possible de montrer que sous lhypothse (H0 ) : = 1 , la statistique de test
scrit
P
i
2
b 1
Xt1 t
1 Xh
s2
b t1 et
b
Xt X
b b = P 2 ,
t=1 = o b 1 = P 2 , s2 =
Xt1
T 1
Xt1
b b
avec
b b cart type (par moindre carrs) de lestimateur de , et sa distribution est
donne par
R1
b 1 L
Wt dWt
b
t=1 = hR 0
i1/2 6= N (0, 1) o (Wt ) est un brownien standard sur [0, 1] .
1
2
b b
Wt dt
0
Cette distribution nest pas gaussienne, et des tabulations (obtenues par des mthodes de
type Monte-Carlo) sont ncessaire pour tabuler la distribution limite11 .
11
Le lien entre les processus intgrs et le mouvement brownien est donn page 31.
140
Tests de Phillips et Perron Ces tests non paramtriques ont t introduits en 1988.
La distribution thorique la base des tests de Dickey & Fuller repose sur lhypothse
dhtroscdasticit du bruit. La gnralisation des tests DF aux tests ADF se fait en
considrant
X
Yt = Dt + Yt1 + t Yt = Dt + Yt1 +
i yti + t ,
o (Dt ) est une tendance dterministe. La gnralisation des tests DF propose par
Phillips et Perron consiste ne plus supposer que (t ) est un bruit blanc, et autoriser
que ce processus soit autocorrle. La gnralisation de ces tests au cas htroscdastique
a t propose par Phillips et Perron, les valeurs critiques correspondant celles des
tests ADF . Ces tests reposent sur des rsultats de la thorie de la convergence faible
fonctionelle (thorme central limite fonctionel (FCLT) par exemple). Lutilisation du
FCLT pour des tests de racines unit a t propos ds 1958 par White.
Si (Xt ) est un processus stationnaire alors les statistiques calcules sur ce processus vrifiront le FCLT. Considrons par exemple le cas AR (1), Xt = Xt1 + t pour
t = 1, ..., T , et cherchons tester = 1 (hypothse H0 ). En supposons H0 vrifie, et
considrons la somme partielle du processus dinnovation,
St = Xt X0 =
t
X
i .
i=1
On prendra comme valeur initiale de (St ), S0 = 0, mais pour le choix de X0 trois possibilits sont gnralement envisages : (i) X0 = c (constante), (ii) X0 admet une distribution
spcifie a priori, (iii) X0 = XT . Cette dernire condition, dite hypothse de cicularit, a
t propos par Hotelling. Phillips
avait suggr la seconde possibilit.
En notant XT (r) = S[T r] / T , il possible de montrer (cd partie prcdante) que XT (r)
converge faiblement (not =) vers un mouvement brownien (cf. Billigsley (1968)).
n
o
+
Proposition 212. Si (t ) vrifie lhypothse () et si sup |t |
< pour > 0 et
> 0 alors, quand T , sous lhypothse H0 : = 1 dans le modle Xt = Xt1 + t
on a les rsultats suivants
Z 1
T
1 X 2
2
X =
Ws2 ds
(i) 2
T t=1 t1
0
T
1X
2
2
2
(ii)
Xt1 (Xt Xt1 ) =
W1 2
T t=1
2
1 W12 2 / 2
(iii) T (b
1) =
R1
2
Ws2 ds
0
(iv) b 1
141
v
u T
X
b 1 u
W12 2 / 2
t
qR
(v) tb =
(Xt Xt1 )2 =
1
b
2
t=1
Ws2 ds
0
Proof. Phillips (1987), Testing for a unit root in a time series regression.
Le point (iv) montre que les moindres carrs ordinaires conservent la proprit de
convergence quand il y a une racine unit.
Exemple 213. En reprenant la srie de lexemple (208), on retrouve que la srie (Xt )
admet une racine unit, que lon teste un modle simple, sans constante ni tendance (
gauche), ou avec tendance et constante ( droite),
avec les mmes conclusions pour la srie diffrencie une fois,
En revanche, dans le cas de la srie diffrencie deux fois, tous les tests valident
lhypothse dabsence de racine unit
Remarques complmentaires Un certains nombres dtudes sur des donnes simules
ont montr que ces tests rejettent difficilement lhypothse H0 dans le cas de sries dsaisonnalise. Il est alors parfois intressant dagrger des donnes mensuelles en donnes annuelles, et de tester si la srie annuelle prsente une racine unit. Nelson et
Plosser (1992) ont montr que les racines unitaires caractrisent un grand nombre de
sries macroconomiques.
Le test de Schmidt-Philipps repose sur lide que dans le cas du test ADF de type
4 - avec tendance linaire - linterprtation des paramtre nest pas la mme : considrons
le modle Yt = + t + Yt1 + t et lhypothse H0 : = 0 et = 1. Sous H0 et
lhypothse alternative Ha , on a respectivement
H0 : Yt = Y0 + t +
t
X
tk
et Ha : Yt = +
k=0
k tk .
+ (1 ) +
1
k=0
Autrement dit, sous Ha , (Yt ) est stationnaire autour dune tendance dterministe dont la
pente est (1 ), alors que sous H0 , (Yt ) est non stationnaire, avec pour tendance .
Aussi, Schmidt et Philipps ont propos de modliser (Yt ) sous la forme Yt = + t + Xt
o (Xt ) est non stationnaire sous H0 et (Xt ) est stationnaire sous Ha . On a alors
Yt = + t + Xt
H0 = 1
2
o || 1 et (t ) BB 0, et on teste
.
Xt = Xt1 + t
Ha < 1
7.1.3
Dans le cas dune modlisation SARIM A, avec une saisonnalit dordre s, il peut tre
intressant de tester lordre s. Un certain nombre de tests on t mis en oeuvre dans les
annes 80 et 90, en particulier pour tester de la saisonnalit lordre 4 et lordre 12.
142
(L) (1 L) (1 L ) Yt =
s
X
i=1
(L) P8 (L) Yt = t + 1 P1 (L) Yt1 + 2 P2 (L) Yt2 + 3 P3 (L) Yt1 + 4 P3 (L) Yt2 + 5 P4 (L) Yt1 +
+7 P5 (L) Yt1 + 8 P5 (L) Yt2 + 9 P6 (L) Yt1 + 10 P6 (L) Yt2 + 11 P7 (L) Yt1 +
o les polynmes retards Pi sont dfinis par
P1 (L) = (1 + L) (1 + L2 ) (1 + L4 + L8 )
4
P3 (L) = (1 L2 ) (1 + L
+ L8 )
P (L) = (1 L4 ) 1 + 3L + L2 (1 + L2 + L4 )
5
P7 (L) = (1 L4 ) (1 L2 + L4 ) (1 + L + L2 )
et
et
et
et
2
P2 (L) = (1 L) (1 + L
) (1 + L4 + L8 ) ,
4
P4 (L) = (1 L ) 1 3L + L2 (1 + L2 + L4
P6 (L) = (1 L4 ) (1 L2 + L4 ) (1 L + L2 ) ,
P8 (L) = (1 L12 ) .
(i)
Les variables Zt = Pi (L) Yt sont alors associes aux diffrentes racines du polynme. On
peut alors considrer les t de Student pour les variables 1 et 2 , ainsi que les F de Fisher
associs aux couples.(3 , 4 ) , (5 , 6 ) , (7 , 8 ) , (9 , 10 ) et (11 , 12 ).
Test de Franses ( 1990) Ce test a t mis en place pour tester une saisonnalit
lordre 12.
Dtection graphique dune racine unitaire saisonnire Considrons les sries
suivantes, (Xt ), (Yt ) et (Zt ) comportant respectivement une racine unitaire saisonnire
dordre 2, 4 et 12,
Sur ces trois graphiques, en considrant la srie partielle des autocorrlogrammes
rs (h) = | (sh)| , on obtient une srie constante, proche de 1, de mme que
lautocorrlogramme dune srie en prsence de racine unitaire.
Toutefois, si ce genre de comportement laisse penser quil y a une racine unitaire
saisonnire, lordre s nest pas ncessairement celui indiqu par lautocorrlogramme : une
srie saionnire dordre 4 peut avoir un autocorrlogramme proche de celui de gauche.
143
7.1.4
Considrons la srie suivante, correspondant une marche alatoire (Xt ). On notera alors
Yt = (1 L) Xt et Zt = (1 L) Yt , autrement dit, on diffrencie respectivement une fois
et deux fois la marche alatoire. On reprsentera respectivement les autocorrlations et
les autocorrlation inverses, au centre et droite,
Comme nous lavons dj voqu, lautocorrlogramme de la srie (Xt ) permet - a priori
- de conclure la prsence dune racine unit. Le comportement de lautocorrlogramme
inverse de la srie (Zt ) prsente, de faon moins nette certes, le mme genre de comportement.
On peut noter galement sur les autocorrlogrammes de (Yt ), correspondant un bruit
blanc, que les autocorrlations et les autocorrlations inverses sont identiques (ce qui est
une caractrisation des bruits blancs).
[A COMPLETER]
7.2
j=1
o les i sont des rels et (t ) est un bruit blanc de variance 2 . (22) est quivalent
lcriture
(L) = I + 1 L + ... + q Lq
(32)
(L) Xt = (L) t o
(L) = I + 1 L + ... + p Lp .
On supposera de plus que les polymes et nont pas de racines en module strictement
suprieures 1 (criture sous forme canonique), et nont pas de racine commune. On
supposera de plus que les degrs de et sont respectivement q et p, au sens o q 6= 0
et p 6= 0.
7.2.1
On peut noter que lcriture ARM A (32) nest pas unique. En effet, il suffit de multiplier
gauche et droite de (32) par un mme polynme en L, (L). Alors, en posant (L) =
(L) (L) et (L) = (L) (L), on peut noter que (L) Xt = (L) t .
Proposition 214. Soit un polynme dont les racines z C soient toutes lextrieur
du disque unit. Alors lquation (L) Xt = (L) t admet une solution stationnaire
(Xt ) et celle-ci est unique.
144
(i)
(i 1)
(i 2)
(i j + 2)
(i + 1)
(i)
(i
1)
(i j + 3)
..
. (i j + 4)
(i + 2)
(i + 1)
(i)
i,j =
...
...
...
(i + j 2) (i + j 3) (i + j 4) . . .
(i)
(i + j 1) (i + j 2) (i + j 3)
(i + 1)
du processus sta
(i j + 1)
(i j + 2)
(i j + 3)
(i 1)
(i)
1
(1, 1)
(2, 1)
..
.
2
(1, 2)
(2, 2)
..
.
p
(1, p)
(2, p)
..
.
p+1
p+2
(1, p + 1) (1, p + 2)
(2, p + 1) (2, p + 2)
..
.
(q, 1)
(q, 2)
(q, p)
(q, p + 1) (q, p + 2)
(q + 1, 1) (q + 1, 2) (q + 1, p)
0
0
(q + 2, 1) (q + 2, 2)
(q + 2, p)
0
0
..
..
..
..
..
.
.
.
.
.
Dp,q
Dq
Dp
0
145
suivante
Dq
0
=
i\j
1
2
..
.
q
q+1
q+2
..
.
1
2
(1, 1) (1, 2)
(2, 1) (2, 2)
..
..
.
.
(q, 1) (q, 2)
0
0
0
0
..
..
.
.
Remarque 218. Dans le cas dun processus AR (p), le tableau des (i, j) a la forme
suivante
Dp
i\j
1
0 =
2
..
.
1
2
p
p + 1 p + 2
(1, 1) (1, 2) (1, p)
0
0
..
..
..
..
..
.
.
.
.
.
Nous avions vu dans la partie (2.4.3) que les moments empiriques ( (h) , (h) , i (h) ...)
convergeaient vers les vraies moments.
Proposition 219. Sous lhypothse o (Xt ) M A (q), et que (t ) est stationnaire
lordre 4, alors
bT (h) (h)
L
Tp
N (0, 1) pour h > q.
Pq
2
1 + 2 k=1 (k)
Cette proposition permet en particulier davoir lintervalle de confiance 95% des
autocorrlations,
"
#
r
Pq
2
1 + 2 k=1 (k)
bT (h) 1.96
.
(33)
T
Proposition 220. Sous lhypothse o (Xt ) AR (p), et que (t ) est stationnaire
lordre 4, alors
L
T [b
aT (h) a (h)] N (0, 1) pour h > q.
Cette proposition permet en particulier davoir lintervalle de confiance 95% des
autocorrlations partielles,
1
b
aT (h) 1.96
,
T
146
7.2.3
Pour estimer les ordres p ou q, on utilise les proprits vues prcdemment sur les formes
des autocorrlogrammes ( (h)) ou des autocorrlogrammes partiels (a (h)). En particulier
(i) pour les processus AR (p) lautocorrlogramme partiel sannule partir de p (
gauche)
(ii) pour les processus M A (q) lautocorrlogramme sannule partir de q ( droite)
Remarque 221. Sil reste de la saisonnalit, celle-ci apparatra galement dans les autocorrlogrammes
147
7.2.4
Si (Xt ) suit un processus M A (q), on peut noter que la variance des autocorrlations
empiriques est donne par la relation
V (b
(h)) 1 + 2
q
X
i=1
b (b
(h)) =
b2 (i).
1+2
T
i=1
En pratique, on identifie q, ordre dun processus M A (q) comme la premire valeur
partir de laquelle les (h) sont dans lintervalle dont les extrmits sont dlimites par
1/2
1.96
1 + 2 b2 (1) + b2 (2) + ... + b2 (h 1)
,
T
puisque sous lhypothse o le processus est effectivment un M A (q)
L
T b (h) N 0, 1 + 2 2 (1) + ... + 2 (q 1) pour h > q.
7.2.5
(i)
(i 1)
(i 2)
(i j + 2) (i j + 1)
(i + 1)
(i)
(i 1)
(i j + 3) (i j + 2)
..
.
(i + 2)
(i j + 4) (i j + 3)
(i + 1)
(i)
i,j =
...
...
...
.
.
(i + j 2) (i + j 3) (i + j 4)
.
(i)
(i 1)
(i + j 1) (i + j 2) (i + j 3)
(i + 1)
(i)
sont inconnues mais peuvent tre estime par les b (h). On pose alors (i, j) = det ij ,
b (i, j) = det
b ij . Les
b (i, j) sont alors des
qui sera, de la mme faon, estim par
estimateurs convergents des (i, j) (par continuit du dterminant). Les coefficients p et
q sont alors les valeurs pour lesquels sobservent une rupture. La variance asymptotique
b (i, j)est une fonction diffrentiable du vecteur des autocorrlations b (h), avec une
de
loi normale asymptotique.
Un test
est bas sur lutilisation de la statistique de Student
r de nullit
b (i, j) / Vb
b (i, j) , qui doit tre compare 1.96 pour un seuil de 5%.
148
1
0.352
0.296
0.316
0.179
0.036
2
3
4
5
i\j
0.420 0.006
0.095 0.003
1
0.199 0.067 0.022 0.006
2
0.047 0.006
0.001
0.003
3
0.021 0.000 0.001 0.001
4
0.010 0.002
0.001
0.000
5
1
0.352
0.296
0.316
0.179
0.036
2
3
4
5
0.420 0.006 0.095 0.003
0.199 0.067 0.022 0.006
0.047 0.000 0.000 0.000
0.021 0.000 0.000 0.000
0.010 0.000 0.000 0.000
= 0.3522 + 0.296 = 0.420.
p
X
|i=0
p,1
p,1 p,0
p,1
i Xti + i t1 + ut .
{z
Forme autorgressive
Ce modle est estim par les mco. On dfinit alors la k-me rgression itrative dun
AR (m) quelconque
m
k
X
X
m,k
j,k
Xt =
i Xti +
jm,k tj
+ um,k
t ,
i=0
j=0
o les tj,k sont les erreurs du processus AR de la k-ime rgression, et les um,k
les rsidus
t
de la rgression. Comme on ignore lordre p de la partie autorgressive, on choisit m
149
.
i
i
i1
bm,j1
m
Ces paramtres sont alors utiliss pour dfinir la ESACF , fonction dautocorrlation
tendue, telle que la dfinie Tsay et Tia (1984),
Dfinition 223. On appelle fonction dautocorrlation tendue la fonction rj (m), fonction dautocorrlation du processus
jm
= Xt
m
X
bm,j
i Xti pour j = 1, 2, ...
i=1
c(.4,.6)),n=240)
[,6]
[,7]
[,8] [,9] [,10]
-0.198 0.160 0.358 0.341 0.114
-0.207 0.231 0.427 0.361 0.125
-0.130 0.163 -0.215 0.201 -0.139
-0.078 -0.022 -0.060 0.102 0.078
-0.155 0.054 -0.027 0.182 -0.002
-0.228 -0.092 -0.034 0.172 0.006
0.066 0.020 0.049 0.180 0.205
0.020 -0.074 0.007 0.049 0.188
Mthode SCAN Cette mthode vise utiliser la plus petite corrlation canonique
(smallest canonical correlation) pour identifier les ordres p et q. Considrons une srie Xt
que nous allons centrer, Zt = Xt , dont on observe n ralisations, suivant un processus
ARIM A (p, d, q). Cette mthode analyse les valeurs propres de la matrice de corrlation
du processus.
[A COMPLETER]
Exemple 224. Dans le cas dun processus ARM A (2, 1), les tables ESACF et SCAN
thoriques seront de la forme
Table ESACF
AR-MA 0 1 2 3
0
1
2 0 0 0
3 0 0
4 0
0
0
0
0
0
0
0
0
0
AR-MA
0
1
2
3
4
Table SCAN
0 1 2 3
0 0 0
0 0 0
0 0 0
0
0
0
0
0
0
0
0
0
Table ESACF
0
1
2
3
4
5
0.53
0.01 0.32 0.41 0.36 0.21
0.52
0.02 0.25 0.16 0.16 0.17
0.44 -0.03 -0.08 -0.06 0.00 -0.03
0.48 0.11 -0.10 -0.06 0.01 -0.02
0.50 0.51 0.40 0.02 0.05 -0.02
AR-MA
0
1
2
3
4
0
0.28
0.14
0.04
0.02
0.03
Table SCAN
1
2
3
4
0.00 0.10 0.17 0.13
0.14 0.12 0.02 0.01
0.00 0.00 0.00 0.00
0.00 0.00 0.00 0.00
0.00 0.00 0.00 0.00
Comme on peut le noter, la mthode SCAN donne de trs bon rsultats, et permet
didentifier les ordres 2 et 1.
151
7.2.6
)
0
0
L
T
N
,
.
0
0 a
T (b
T )
Cette proprit permet de mettre en place des tests sur les paramtres.
7.3
Lhypothse (Xt ) ARIM A (p, d, q) peut scrire (1 L)d (L) Xt = (L) t , ou encore
t = (L)1 (1 L)d (L) Xt .
Une fois estims les paramres d, p, q et lensemble des i et j , on obtient des polynmes
b (L) et
b (L), qui permettent dobtenir les rsidus estims,
estims
b (L)1 (1 L)d
b (L) Xt .
bt =
Pour que les modles obtenus prcdamment soient valides, il convient de vrifier que les
rsidus estims suivent bien un bruit blanc H0 : (t ) BB.
7.3.1
1 X
1X
b (h)
o
b (h) =
Xt X Xth X et X =
Xt .
b (h) =
b (0)
n h t=1
n t=1
Lintervalle
de confiance
de b (h) est, dans le cas dun bruit blanc gaussien
h
i
152
7.3.2
Le test de Box-Pierce permet didentifier les processus de bruit blanc (i.e. les processus
alatoires de moyenne nulle, de variance constante et non autocorrls). Cette statistique
permet de tester cov (t , th ) = 0 pour tout h, soit (h) = 0 pour tout h. Ce test scrit
H0 : (1) = (2) = ... = (h) = 0
Ha : il existe i tel que (i) 6= 0.
Pour effectuer ce test, on utilise la statistique de Box et Pierce (1970) Q, donne par
Qh = T
h
X
b2k ,
k=1
= T (T + 2)
h
X
k=1
bk
,
T k
qui suit asymptotiquement, sous H0 une loi du 2 h degrs de libert. Ces tests sont
appels par les anglo-saxons portmanteau tests, soit littralement tests fourre-tout.
Exemple 227. Cette statistique est gnralement fournie avec lautocorrlogramme
(Q-stat). Les deux sorties ci-dessous correspondent aux valeurs pour 2 sries de rsidus
La table du 2 est donne ci-dessous. A titre comparatif, nous obtenons le tableau
suivant
h
Srie (1)
Srie (2)
10% (h)
5% (h)
1
0.000
2.088
2.706
3.841
2
0.102
2.206
4.605
5.991
3
0.819
4.059
6.251
7.815
4
5
6
7
4.095 4.476 6.852 9.087
4.673 7.2646 8.643 10.341
7.779 9.236 10.645 12.017
9.488 11.070 12.592 14.067
8
10.676
19.234
13.362
15.507
9
11.310
19.281
14.684
16.919
10
11.388
19.281
15.987
18.307
Si la srie (1) est statistiquement un bruit blanc, il ne semble pas en tre de mme pour
la seconde srie, pour laquelle Qh est parfois trop eleve (en particulier partir de h = 8
- ce qui tait confirm par lanalyse graphique des autocorrlogrammes, avec cette valeur
(8) significativement non nulle).
> library(forecast)
> (modele=auto.arima(X))
Series: X
ARIMA(1,0,1)(2,1,0)[12] with drift
153
Coefficients:
ar1
-0.0344
s.e.
NaN
ma1
-0.0686
NaN
sar1
-0.444
NaN
sar2
-0.4048
0.0010
drift
69.1618
16.9562
> acf(modele$residuals,lwd=3,col="red")
>
>
>
>
>
>
+
BP=function(h) Box.test(modele$residuals,lag=h,type="Box-Pierce")$p.value
LB=function(h) Box.test(modele$residuals,lag=h,type="Ljung-Box")$p.value
plot(1:24,Vectorize(LB)(1:24),ylim=c(0,1),type="b",col="blue")
points(1:24,Vectorize(BP)(1:24),ylim=c(0,1),type="b",col="red",pch=2)
abline(h=.05,lty=2)
legend(20,.4,
c("Box-Pierce", "Ljung-Box"),col=c("blue","red"),lty=1,pch=c(1,2))
7.3.3
Dans le cadre de la prvision, ou lors des tests de Student sur les paramtres, il convient de
vrifier la normalit des rsidus. Un test possible est celui de Bera & Jarque (1984), bas
sur le skewness (coefficient dasymtrie de la distribution) et la kurtosis (aplatissement paisseur des queues).
k
En notant k le moment dordre k de la distribution, k = E [X E (X)] , on
3/2
> library(car)
> qqPlot(modele$residuals)
Parmi les autres tests, il y a la statistique de test propose par Shapiro & Wilk,
P
2
( ni=1 ai Xi:n )
W = Pn
2
i=1 (Xi X)
o Xi:n dsigne la ime statistique dordre, et o
a = (a1 , . . . , an ) =
m0 V 1
(m0 V 1 V 1 m)1/2
7.3.4
Perron a propos dintroduire, ds 1989, dans la rgression de Dickey & Fuller une variable
indicatrice spcifiant lexistence dune rupture. La date de rupture peut dailleurs tre
156
connue ou inconnue. Dans le cas o elle est inconnue, une procdure squentielle permet de
la localiser. Ce lien entre les tests de racine unit et les changements de structure ont donn
lieu de nombreuses publications depuis une dizaine dannes. Diffrentes formes de
changement de structure ont dailleurs t tudies : changement de niveau, changement
du coefficient de tendance linaire, changement sur les coefficients des variables de la
modlisation... etc.
> library("strucchange")
> library(datasets)
> plot(Nile)
> breakpoints(Nile~1,breaks=1)
Optimal 2-segment partition:
Call:
breakpoints.formula(formula = Nile ~ 1, breaks = 1)
Breakpoints at observation number:
28
Corresponding to breakdates:
1898
> abline(v=time(Nile)[breakpoints(Nile~1,breaks=1)$breakpoints],col="red")
breakpoint-Nile.png
Les tests de racine unit Plusieurs tests ont t implments afin de tester lhypothse
nulle que la srie stationnaire (Yt ) possde une racine unit et une constante, ventuellement nulle, avec une rupture au temps o 1 < < T , contre lhypothse alternative
que la srie soit stationnaire autour dune tendance linaire avec rupture en sur cette
tendance. Une distinction est alors gnralement apporte entre deux cas :
AO - additive outliers - effet instantann
157
pour t = 1, ..., T,
(1) Xt = + t + DUt ( ) + Yt
pour t = 1, ..., T,
(2) Xt = + t + DTt ( ) + Yt
k
X
j=0
dj DT Btj ( ) +
k
X
i Yti + t
o DT Btj ( ) = I (t = + 1) .
i=1
k
X
i Yti + t ,
i=1
i
h
Pk
c
X
+
pour t = 1
(1)
X
=
+
t
+
DU
(
)
+
DT
B
(
)
+
X
+
ti
t
t
t
t
t1
i=1 i
i
h
P
pour t = 1
(2) Xt = + t + DTt ( ) + Xt1 + ki=1 ci Xti + t
h
i
Ce test est voqu ici car il existe des codes tlchargeables sur internet, en EV iews, SAS ou Gauss.
158
(B) et (C) dans les deux cas AO et IO, et retenir le cas o tb ( ) = tb () est minimal.
Les auteurs ont tudi la disctribution asymptotique de inf tb () quand appartient
un intervalle ferm de ]0, 1[, = [3/20, 17/20] dans ltude de Zivot et Andrews. On
rejette alors lhypothse nulle de prsence de racine unit si inf {tb () , } est plus
petit que le fractile correspondant une probabilit fixe de la distribution asymptotique
de inf {tb () , }.
Les tests de Gregory et Hansen (1996) Ces tests sont une gnralisation des tests
de Zivot et Andrews dans le cas mutlivari, o Xt = (Xt1 , Xt2 ).
Les tests du CU SU M Ce test permet dtudier la stabilit dun modle
conomtrique estim au cours du temps. Il existe deux versions de ce test : le CU SU M
fond sur la somme cumule des rsidus rcursifs, et le CU SU M SQ (SQ pour square )
fond sur la somme cumule des carrs des rsidus rrursifs. Pour cela, on note (e
t ) le
rsidu normalis par rapport lcart-type, cest dire et = bt /b
, et on note k le nombre de paramtres estimer dans le modles. Les statistiques St du CU SU M et St0 du
CU SU M SQ sont dfinies par
Pt
ei
St = (T k) Pti=k+1 2 pour t = k + 1, ..., T,
ei
i=k+1
et
St0
Pt
= Pi=k+1
T
e2i
e2i
i=k+1
pour t = k + 1, ..., T.
Si les coefficients sont variables au cours du temps, alors les rsidus rcursifs St doivent
rester dans lintervalle dfini par
(2t + T 3k) (2t + T 3k)
St
,+
,
T k
T k
o = 1.143, 0.918 ou 0.850 suivant que le seuil est 1%, 5% ou 10%. De la mme faon,
les rsidus St0 doivent appartenir lintervalle
tT
tT
0
St
C,
+C ,
T k
T k
o C est la constante du Durbin. En fait, on peut montrer que sous lhypothse de
stabilit, lesprance de St0 est E (St0 ) = (t T ) / (T k) allant de 0 1 quand t varie
entre k et T . Plus prcisment, la variable St0 suit une loi Bta.
> cusum=efp(Nile~1,type="OLS-CUSUM")
> plot(time(Nile),cusum$process[-1],type="b",col="red")
159
Le test de Chow ou test dhomoscdasticit Puisque les bruits blancs doivent tre
homoscdastiques, le test de Chow, visant comparer les variances des rsidus sur des
sous-priodes, peuvent tre utiliss13 .
> library("strucchange")
> plot(Fstats(Nile~1)$Fstats,col="blue")
13
Ce test nest pas dtaill ici puisquil se trouve dans tous les cours dconomtrie. Pour mmoire, ce
test est un test de Fisher : on considre un premier modle Y = Xm + m obtenu sur m observations,
et un second modle Y = Xn + n obtenu sur n observations. Le test de Chow permet de test lgalit
des coefficient : m = n , ainsi que V (m ) = V (n ) .
160
7.4
A cette tape, les coefficients d, p et q ont t fixs. Il convient alors destimer les
paramtres i et j du processus ARIM A (p, d, q), ainsi que la volatilit 2 du bruit
blanc. Sous lhypothse t N (0, 2 ), on peut utiliser des mthodes du type maximum
de vraissemblance. On supposera ici que le processus (Xt ) est centr.
7.4.1
Attention la constante
Par dfaut, les modles ARMA ne sont pas ncessairement centrs. Comme nous lavons
not, la forme gnrale serait (pour un AR(1) par exemple)
Xt = a + Xt1 + t
Si la srie est stationnaire, de moyenne , alors devrait tre solution de
= a + , i.e. =
a
ou a = (1 ).
1
161
Autrement dit, le coefficient appel intercept nest pas la constante a dans le modle
AR(1), mais la moyenne . Le modle estim est alors
(Xt ) = (Xt1 ) + t .
Ces deux formes sont (bien entendu) quivalentes. Mais les coefficients estims ne sont
pas tout fait ce que lon attendait...
Si on regarde maintenant la version intgre, i.e. un processus ARIM A(1, 1, 0), avec
une constante, on est tent dcrire
(1 L)(1 L)Xt = a + t ou (1 L)Xt = a + (1 L)Xt1 t .
Cette criture laisse penser quen intgrant, une tendance linaire apparatra. Posons
alors Yt = Xt t, prcisment pour enlever la tendance. Alors
(1 L)[Yt + t] = a + (1 L)[Yt1 + (t 1)] + t
qui peut se rcrire
(1 L)Yt = a + ( 1) + (1 L)Yt1 + t
i.e. Xt a(1 )1 t sera un processus ARIM A(1, 1, 0) sans constante.
Supposons ici que lon ingre le processus
1
Ut = 2 + Ut1 + t i.e. Xt = Xt1 + Ut ,
3
avec X0 = 0.
>
>
>
>
>
U=rep(NA,1010)
U[1]=0
for(t in 2:1010){U[t]=4/3+U[t-1]/3+rnorm(1)}
U=U[-(1:10)]
X=cumsum(U)
162
Mais cet estimation na rien voir avec ce qui a t simul. On peut tenter un processus
AR(1) (avec constante) sur la srie diffrencie,
> arima(diff(X), order = c(1, 0, 0))
Call:
arima(x = diff(X), order = c(1, 0, 0))
Coefficients:
ar1 intercept
0.3564
2.0200
s.e. 0.0295
0.0486
sigma^2 estimated as 0.9782:
Les estimateurs proposs voquent des choses que lon a pu voir, mme si ce nest pas
la constante du modle ARIMA, mais la moyenne du processus diffrenci. Mais cette
fois, on a un interprtation, cest que la constante est la pente de la tendance ! Si on
estime la pente associe a , on cupre la mme valeur,
> arima(X, order = c(1, 1, 0), xreg=1:length(X))
Call:
arima(x = X, order = c(1, 1, 0), xreg = 1:length(X))
Coefficients:
ar1 1:length(X)
0.3566
2.0519
s.e. 0.0296
0.0487
sigma^2 estimated as 0.9787:
Si on fait de la prvision (dtaille plus loin dans ces notes de cours), on obtient dans
le premier cas
163
>
>
>
>
+
>
>
+
+
>
7.4.2
Estimation pour les modles AR (p) par la m thode des moindres carrs
Toutefois, les rsultats usuels dconomtries ne sont pas vrifis ici, en particulier E b =
6
. Il est toutefois possible de montrer le rsultat suivant,
Proposition 228. Si les racines du polynme charactrisque (racines de (z) = 0) sont
lextrieur du disque unit alors
P
P
b et
b2 2 ,
et de plus
1
L
T b N 0, 2 V o V = p lim ZZ 0 .
T T
Remarque 229. Si la mthode des moindres carrs peut tre utilise pour estimer les
paramtres dun modle AR (p), elle ne marche plus ds lors que lon a des termes autorgressifs sur les rsidus.
7.4.3
Pour dterminer la vraissemblance, il est ncessaire de supposer connue la loi des erreurs
: nous supposerons les erreurs normalement distribues. Les erreurs tant normalement
distribues et indpendantes (le processus (t ) est, par hypothse un bruit blanc), le vecteur
(1 , ..., n ) est un vecteur gaussien. Les composantes du vecteur (X1 , ..., Xn ) tant obtenues
par combinaisons linaires des composantes du vecteur (1 , ..., n ), (X1 , ..., Xn ) sera un
vecteur gaussien :
1
1 0 1
1
0
2
exp 2 X X ,
L X = (X1 , ..., Xn ) , , , =
2
(2 2 )n/2 [det ]1/2
o 2 est la matrice (n n) des covariances du vecteur X = (X1 , ..., Xn )0 .
La maximisation, et mme le calcul de cette vraissemblance taient relativement difficile il y a quelques annes, en particulier cause du calcul de linverse 1 , et du
dterminant, de , surtout lorsque n devenait relativement grand. Newbold a propos
une autre expression de cette vraissemblance, plus facile calculer. Soit H la matrice
triangulaire infrieure, lments positifs sur la diagonale telle que HH 0 = (dcomposition de Cholesky). Soit alors e le vecteur tel que e = H 1 X. La log-vraissemblance du
modle scrit alors
1
1
1
n
log L = log 2 log 2 log |det | 2 X 0 1 X,
2
2
2
2
n
n
n
1/n 0
1/n
0
= log 2 log (e e) log |det H| = log |det H| e e |det H|
.
2
2
2
La
mthode du maximum
de vraissemlance revient alors chercher le minimum de ` =
1/n 0
1/n
|det H| e e |det H|
.
Une autre criture, relativement proche est possible dans le cas des processus M A (q).
Soit le vecteur dinnitialisation des erreurs,
= (1q , ..., 1 , 0 )0 ,
165
= N X + M ,
o M est une matrice (n + q) q et N (n + q) n. Linitialisation des erreurs sestimant
par b = (M 0 M )1 M 0 N X, et en notant
S () = (N X + M b )0 (N X + M b ) ,
on peut alors montrer que la log-vraissemblance peut scrire
n
1
S ()
n
log L = log 2 log 2 log (det (M 0 M ))
.
2
2
2
2 2
Et finallement, puisquon peut crire 2 = S () /n, la fonction minimiser scrit
` = n log S () + log (det (M 0 M )) .
Exemple 230. Dans le cas dun modle AR (1), de la forme Xt = c + Xt1 + t o t
est i.i.d. et distribu suivant une loi N (0, 2 ), avec || < 1, alors
Xt |Xt1 N c + Xt1 , 2 .
Aussi, la loi conditionnelle de Xt est donne par
f xt |xt1 , c, ,
1
2
exp 2 (xt c xt1 ) ,
=
2
2 2
1
c
2
,
1 1 2
.
T
Y
t=2
1
2
T
T 1
T 1
1 X
2
log L (|X1 , ..., XT ) =
(Xt c Xt1 )2 .
ln (2)
ln + 2
2
2
2 t=2
X1
2
2
1 2
2 2
1
T
1 X
T 1
T 1
ln (2)
ln 2 2
(Xt c Xt1 )2 .
2
2
2 t=2
On peut noter que la maximisation de la vraissemblance exacte est un problme
doptimisation non-linaire.
7.4.4
t1
X
i xti , pour t 2,
(35)
i=0
t=1
i=0
p
X
i xti +
i=1
q
X
j=1
167
j tj .
t=1
j=1
i=1
o les tj peuvent tre crits en fonction des xtj , ..., xtjp et des tj1 , ..., tq .
Critre des moindres carrs non conditionnel (M CN )
Exemple 232. Considrons ici un modle de la forme M A (1), Xt = t t1 , que
lon notera, en considrant les innovations en temps invers t , Xt = t t+1 . On
supposant T +1 = 0, on dtermine rcurviement T = xT ,T 1 = xT + T ...etc. De faon
rtrospective, on peut ainsi dfiir x
b0 = 1 . De faon anologue (35), on peut crire
x
b0 =
T
X
t xT .
t=1
En posant alors 0 = x
b0 , on peut obtenir les t en utilisant (35). On obtient alors une
expression (non conditionelle) de la somme des carrs des rsidus
S () =
T
X
t=1
2t ==
" t1
T
X
X
t=1
i=0
i xti t
T
X
#2
i xi
i=1
168
Programme doptimisation Nous allons ici nous limiter un cas simple, dun modle
M A (1), avec un critre de type M CC. On part dune valeur initiale 0 , et on va mettre
en place un algorithme convergent vers la vraie valeur . A la i + 1-me tape, on estime
i+1 en fonction de i en utilisant
S ()
S (i+1 ) = S (i ) + [i+1 i ] g ( ) o g ( ) =
,
=
o est compris entre i et i+1 . Aussi, on minimise la fonction S () en choisant i+1
de telle sorte que i soit de signe oppos au gradient de S () en . Mais comme est
inconnu, on choisit
i+1 = i g (i ) avec > 0
et ainsi, S (i+1 ) < S (i ). Le gradient, sil est difficile valuer peut tre remplac par
une diffrence de la forme [S (i + ) S (i )] / avec petit. Ces deux constantes
et , propres lalgorithme, peuvent tre fixe initialement, par exemple = 0.001 et
= 0.01.
Exemple 233. Considrons un cas relativement simple avec 6 observations
(5, 6, 3, 2, 7, 6), et cherchons tel que Xt = t + t1 .
(i)
0 = 0 et 0 + = 0.01. Alors S (0 ) = 52 + 62 + ... + 72 + 62 = 159. Alors X1 = 5,
(i)
(i)
(i)
(i)
X2 = X2 + (0 + ) X1 = 6 + 5 0.01 = 6.05, X3 = X3 + (0 + ) X2 =
3 + 6.05 0.01 = 3.06, ...etc. Do la somme S (0 + ) = 161.225. Aussi, on obtient
g (0 ) = 222.458 do finallement 1 = 0.222.
Cet algorithme se rpte ltape suivante, et les rsultats sont alors
itration i
0
1
2
3
4
5
6
i
i
0.000
i +
0.010
i
0.222
i + 0.212
i
0.524
i + 0.514
i
0.706
i
0.696
i
0.821
i
0.811
i
0.880
i
0.870
i
0.900
i
0.890
1
5.000
5.000
5.000
5.000
5.000
5.000
5.000
5.000
5.000
5.000
5.000
5.000
5.000
5.000
2
6.000
6.050
4.888
4.988
3.378
3.478
2.472
2.572
1.896
1.996
1.600
1.700
1.501
1.601
3
3.000
3.061
1.913
2.001
1.229
1.271
1.256
1.271
1.444
1.442
1.592
1.582
1.649
1.636
4
2.000
2.031
1.575
1.606
1.356
1.377
1.114
1.146
0.815
0.861
0.599
0.654
0.516
0.575
5
7.000
7.020
6.650
6.679
6.289
6.312
6.214
6.223
6.331
6.322
6.473
6.451
6.536
6.509
6
6.000
6.070
4.521
4.651
2.702
2.823
1.616
1.742
0.804
0.945
0.303
0.457
0.119
0.279
S (i )
159.00
161.22
119.68
122.70
86.61
88.42
75.16
76.31
72.07
72.66
72.44
72.64
72.97
73.01
g (i )
i+1
222.46 0.222
302.02 0.524
181.06 0.706
115.23 0.821
59.32
0.880
19.73
0.900
4.01
0.905
(36)
(A
t ) : matrice de transition
(C ) : matrice de mesure
t
(Ct Zt ) : signal la date t
170
0
Zt t Zbt Zt t Zbt
: erreur quadratique du filtre sur Zt en t
t t = E
b
t1 Zt = E (Z
t |Y0 , ..., Yt1) : prvisionde
Zt faite en t 1
t1 t = E Zt t1 Zbt Zt t1 Zbt
: erreur quadratique moyenne de prvision
Dans le cas o cov (t , t ) = 0, alors, pour tout t 0, le filtre de covariance,
h
i
(
0
(a) t Zbt =t1 Zbt + Kt Yt Ct .t1 Zbt
(a ) t t = [I Kt Ct ]t1 t
et
(b0 ) t t+1 = At .t t .A0t + Q
(b) t Zbt+1 = At .t Zbt
o
t Yt+1
b = Ct+1 .t Zbt+1
0
t Mt+1 = Ct+1 .t t+1 .Ct+1 + R
(
t Mt+h = V t Ybt+h Yt+h
b
t Yt+h = E (Yt+h |Y0 , ..., Yt )
et
b
t t+h = V t Zbt+h Zt+h
t Zt+h = E (Zt+h |Y0 , ..., Yt )
(pour h = 1 on retrouve le filtre de covariance). Dans le cas o cov (t , t ) = 0, on a les
formules de rcurrence
(
0
b
b
t Yt+h = Ct+h .t Zt+h
t Mt+h = Ct+h .t t+h .Ct+h + R
et
b
b
t t+h = At+h+1 .t t+h1 .At+h1 + Q
t Zt+h = At+h1 .t Zt+h1
171
o Mt = Nt (Nt + Q1 )
7.4.5
1
1
et Nt = A01
t .t t .At .
i.e. la distribution de
bk par Yule-Walker est en rouge, par moindre carrs en bleu, et
par maximum de vraisemblance est en mauve,
172
Si le bruit nest plus un bruit blanc, mais que le vrai processus simul est un processus
ARMA(3,2)
Xt = 0.8Xt1 0.5Xt3 + t + 0.4t1 + 0.6t2 ,
la distribution des coefficients AR est alors biaise
>
>
+
+
+
+
+
7.4.6
Aprs avoir estim les paramtres p et q dun modle ARM A, il convient de vrifier que
les polynmes AR et M A ne possdent pas de racine commune. Lorsque cest le cas, il
y a redondance, ce qui peut conduire des erreurs lors des prvisions. Il convient alors
destimer les paramtres processus ARM A avec moins de retards (ou dautres types de
retards).
Comme lors dune regression linaire, un certain nombre dindicateurs sont intressants. Par exemple le test de Student des paramtres permet de vrifier que les paramtres
sont bien significatifs.
Il convient ensuite de vrifier que le processus t est effectivement un bruit blanc.
Par exemple, pour vrifier que la moyenne est nulle, on compare la moyenne
t/2
b/ n p q dans le cas dun processus p+q. Pour tester labsence dautocorrlation
de t , il est possible dutiliser la statistique de Box & Pierce (Q) ou la statistique de Ljung
& Box (Q0 ) dfinies par
Q (k) = n
k
X
i=1
ri2
k
X
ri2
et Q (k) = n (n + 2)
,
ni
i=1
0
7.5
7.5.1
Comme nous le verrons par la suite, dans un modle ARM A, lerreur de prvision
horizon 1 dpend de la variance du rsidu. On peut alors choisir le modle conduisant
la plus petite erreur de prvision. Plusieurs indicateurs sont alors possibles :
(i) la variance du rsidu 2 , ou la somme des carrs des rsidus SCR
(ii) le coefficient de dtermination R2 , correspondant une normalisation de la variance
2
(iii) le coeffivient de dtermination modifi R
(iv) la statistique de Fisher (comme dans le cas du modle linaire)
Le but est alors de minimiser (i), ou de maximiser (ii) , (iii) ou (iv).
Exemple 236. Dans lexemple ci-dessous, considrons les 2 modles suivants : un modle
ARM A (1, 1) gauche, ou un modle AR (4), droite
soit
(0.026)
(0.014)
(0.014)
(0.014)
[1]
[2]
2
R2
R
F -stat
1.01737 0.18304 0.18287 1119.579
1.02751 0.17505 0.17455 353.3722
Le modle [1] semble meilleur que le modle [2] : la variance du rsidu est plus faible,
mais de plus, les trois autres indicateurs sont plus levs dans le premier cas que dans le
second.
7.5.2
Critre dinformation
Cette approche a t introduite par Akake en 1969. Cette mesure de lcart entre le
modle propos et la vraie loie peut tre obtenue laide de la quantit dinformation de
Kullback.
Dfinition 237. Soit f0 la densit inconnue dobservations, et {f (.) , f F} la famille
des densits parmi lesquelles ont fait lestimation. Lcart entre la vraie loi et le modle
est donn par
Z
f0 (x)
I (f0 , F) = min log
.f0 (x) dx
f F
f (x)
Cette quantit est toujours positive, et ne sannule que si f0 appartient F. Cette
mesure tant inconnue puisque f0 est inconnue, on essaiera de minimiser un estimateur
b Plusieurs estimateur de la quantit dinformation ont t propos, dans le cas de
de I, I.
modles ARM A (p, q), partir de T observations,
174
p+q
T
log T
T
log (log T )
avec c > 2
T
Exemple 238. En reprenant lexemple prcdant un critre dAkake (AIC sous EViews)
de 0.017628 pour le modle ARM A (1, 1) contre 0.027968 pour le modle AR (4) . Ici
encore, le modle ARM A est prfr au modle AR.
7.6
Application
Nous allons essayer ici de modliser la srie mensuelle du nombre de voyageurs SNCF.
7.6.1
7.6.2
(0.0687)
Vrification
On peut tout dabord noter que les rapports de Student des 2 paramtres 1 et 2 sont
respectivment 21 et 7 ( 1.96) : ce deux coefficients sont significatifs.
Toutefois, il serait bien sr possible damliorer le modle. En particulier, on peut
noter que les rsidus prsentent des pics au niveau de lautocorrlogramme pour les h
multiples de 6.
176
Box-
Etant donne une srie stationnaire (Xt ), observe entre 1 et T , on cherche faire de la
prvision horizon h, et donc prvoir XT +1 , ..., XT +h . Tous les processus AR, M A et
ARM A seront supposs mis sous forme canonique, et navoir aucune racine unit. Aussi,
toutes les racines des polynmes autorgressifs et des polynmes moyennes-mobiles
auront leurs racines lextrieur du disque unit. Ainsi, pour tous les processus Xt tels
que (L) Xt = (L) t , t sera linnovation du processus Xt .
8.1
T XT +1
T XT +1
= 1 XT + ... + p XT p
X
=
T T +h
1 .T XT +h1 + ... + p .T XT +hp pour h > p
Exemple 239. Dans le cas dun processus AR (1) tel que Xt = + Xt1 + t alors
(i) T XT +1 = + XT ,
(ii) T XT +2 = + .T XT +1 = + [ + XT ] = [1 + ] + 2 XT ,
(iii) T XT +3 = + .T XT +2 = + [ + [ + XT ]] = [1 + + 2 ] + 3 XT ,
et rcursivement, on peut obtenir T XT +h de la forme
2
h1
+ h XT .
T XT +h = + .T XT +h1 = 1 + + + ... +
Exemple 240. Une mthode alternative est de considrer le processus centr Yt = Xt
1 h
+ XT
=
+ h XT .
T XT +h =
1
| {z }
1++2 +...+h1
177
8.2
On supposera l aussi que lon sest ramen un processus centr (Xt ), satisfaisant
Xt = t + 1 t1 + ... + q tq = (L) t .
La prvision optimale la date T + 1, faite la date T est T XT +1 =
EL (XT +1 |XT , XT 1 , ...) = EL (XT +1 |T , T 1 , ...) car (t ) est le processus dinnovation.
Aussi,
T XT +1 = 0 + 1 T + ... + q T +1q
De faon analogue, XT +h est estim par T XT +h = EL (XT +h |XT , XT 1 , ...) =
EL (XT +h |T , T 1 , ...), et donc
h T + ... + q T +hq pour h q
(37)
T XT +h =
0 pour h > q.
Toutefois, cette mthode prsente le dsavantage destimer XT +h partir des rsidus
passs, a priori non observables, et non pas du pass de la variable.
8.2.1
X
X
ak Xt+hk + t+h pour tout h 0
ak Xtk + t et donc Xt+h =
Xt =
Aussi,
k=1
T XT +h peut
k=1
T XT +h
h1
X
ak .T XT +hk
k=1
ak Xt+hk
k=h
Toutefois, un des problmes est que les (Xt ) ne sont pas observs, en pratique, pour t < 0.
On utilise alors lcriture suivante
h1
X
X
X
ak XT +hk + T +h ,
XT +h =
ak XT +hk + t+h =
ak XT +hk +
|k=h
k=1
k=1
{z
T XT +h
h1
X
ak .T XT +hk
k=1
T
+h
X
ak XT +hk +
k=h
ak XT +hk ,
k=T +h+1
{z
Ngligeable (hyp.)
b
et on approxime T XT +h par T X
T +h
b
T XT +h =
h1
X
b
ak . T X
T +hk +
k=1
T
+h
X
k=h
178
ak XT +hk .
8.2.2
=
X
T +1 T +h
0 pour h > q + 1,
et donc, pour h q + 1
T +1 XT +h
8.3
=T XT +h + h1 XT +1 T XT +1 : Formule de mise jour
On supposera l aussi que lon sest ramen un processus centr (Xt ), satisfaisant
(L) Xt = (L) t
Remarque 241. Dans le cas dun processus non centr, (L) Xt = + (L) t , on peut
noter que EXt = / (1) = m, et que (L) (Xt m) = (L) t . Il est donc toujours possible, en translatant le processus, de se ramener un processus centr (pour des processus
ARM A seulement).
Sous cette forme ARM A, alors
Xt =
p
X
i Xti + t +
i=1
q
X
j tj et donc Xt+h =
j=1
p
X
i Xt+hi + t+h +
i=1
q
X
j t+hj .
j=1
On a alors T XT +h = EL (XT +h |XT , XT 1 , ...) = EL (XT +h |T , T 1 , ...) car t est le processus dinnovation. On peut noter que pour h > q
1 .T XT +h1 + ... + h1 .T XT +1 + h XT + ... + p XT +hp pour h p
T +1 XT +h =
1 .T XT +h1 + ... + p .T XT +hp pour h > p.
La forme gnrale des solutions est connue (comme dans le cas des AR (p)). Toutefois, il
y a ici un problme dinitialisation des calculs.
8.3.1
Lquation (L) Xt = (L) t peut se rcrire 1 (L) (L) Xt = t , cest dire, comme
dans le cas des processus M A (q),
Xt =
X
k=1
X
k=1
179
ak XT +hk + t+h =
k=1
h1
X
ak XT +hk +
k=1
ak XT +hk + T +h ,
|k=h
{z
ngligeable dans L2
h1
X
b
ak . T X
T +hk +
k=1
T
+h
X
ak XT +hk .
k=h
8.3.2
bj tj .
j=1
=
L2 (t , t1 , ...), on
Puisque14 L2 (Xt , Xt1 , ...)
EL (XT +h |XT , XT 1 , ...) = EL (XT +h |T , T 1 , ...), soit
T XT +h
peut
crire
T XT +h
bj t+hj .
j=h
De plus, puisque
T +1 XT +h
T +1 XT +h
8.4
=T +1 X(T
+1)+(h1) , on peut crire
=T XT +h + bh1 XT +1 T XT +1 : Formule de mise jour.
On considrons ici (Xt ) satisfaisant une quation de la forme (L) (1 L)d Xt = (L) t
avec les conditions initiales
Z = (X1 , ..., Xpd , 1 , .., q )0 .
Posons alors (L) = (L) (1 L)d . La forme ARIM A (p, d, q) peut scrire
Xt =
p+d
X
i=1
i Xti + t +
q
X
j tj et donc Xt+h =
j=1
p+d
X
i=1
14
i Xt+hi + t+h +
q
X
j t+hj .
j=1
Cette proprit L2 (Xt , Xt1 , ...) = L2 (t , t1 , ...) est une caractrisation du fait que t est
linnovation du processus Xt .
180
q
p+d
T XT +hi =XT +hi pour i h
X
X
0 pour j < h
j .T T +hj o
i .T XT +hi + 0 +
T XT +h =
T T +hj =
j=1
i=1
T +hj pour j h
En particulier, pour h q, on obtient une relation de rcurence de la forme
T XT +h
p+d
X
i .T XT +hi .
i=1
Utilisation de lapproximation AR
8.4.1
t
X
aj Xtj + f (t) Z + t ,
j=1
o les aj sont les coefficients (pour j 1) de la division selon les puissances croissantes
de par , et f (t) est un vecteur (ligne) de fonctions de t qui tend vers 0 quand t .
On peut alors crire
Xt+h =
t+h
X
aj Xt+hj + f 0 (t + h) Z + t+h ,
j=1
et ainsi,
T XT +h
t+h
X
aj .T XT +hj + f 0 (T + h) Z + 0,
j=1
h1
X
b
ak .T X
T +hk +
k=1
T
+h
X
k=h
181
ak XT +hk .
Utilisation de lapproximation M A
8.4.2
t
X
bj tj + g 0 (t) Z,
(38)
j=1
o les hj sont les coefficients de la division selon les puissances croissantes de par ,
et g 0 (t) est un vecteur (ligne) de fonctions de t.
La relation (38) permet alors dcrire
Xt+h =
t+h
X
j=1
T XT +h
T
+h
X
T XT +h
bj T +hj + g 0 (T + h) Z,
j=h
T
+h
X
bj T +hj
bT +h =
et T +1 X
j=h
T
+h
X
bj T +hj .
j=h1
Do la relation
h
i
b
b
b
: Formule de mise jour
T +1 XT +h =T XT +h + bh1 XT +1 T XT +1
8.5
Cet intervalle est obtenu partir de la forme M A () dans le cas o (Xt ) est stationnaire,
ou de son approximation M A dans le cas non-stationnaire (ARIM A).
(i) dans le cas stationnaire,
XT +h =
X
i=0
bi T +hi =
T
+h
X
bi T +hi +
i=0
et donc
b
T h = Xt+h T XT +h
bi T +hi ,
i=T +h+1
h
X
i=0
182
bi T +hi .
bi T +hi + g (T + h) Z =
i=0
T
+h
X
bi T +hi +
i=0
et donc
b
T h = Xt+h T XT +h
bi T +hi + g 0 (T + h) Z,
i=T +h+1
h
X
bi T +hi .
i=0
T +h
i=0
u h
uX
bb2 ,
bT +h u1/2 .st
T X
i
i=0
o les bbi sont des estimateurs des coefficients de la forme moyenne mobile, et s est un
estimateur de la variance du rsidu.
8.6
8.6.1
T XT +1
et de faon similaire
T XT +2
= 1T XT +1 + = 21 XT + [1 + 1] .
h
+ ... + 1 + 1 .
T XT +h = 1 XT + 1
(39)
= T XT +h XT +h =T XT +h [1 XT +h1 + + T +h ]
= ... =T XT +h h1 XT + h1
+ ... + 1 + 1 + T +h + 1 T +h1 + ... + h1
T +1 ,
1
1
183
= T +h + 1 T +h1 + ... + h1
T +1 ,
1
T XT +1
X
=
= 10.184.
T T +2
(1 + 1 ) + 1 .XT
T XT +h
Vb
90%
Binf
90%
Bsup
IC 90%
0
10.738
1
2
3
4
5
6
7
10.369 10.184 10.092 10.046 10.023 10.012 10.006
1.000
1.250
1.313
1.328
1.332
1.333
1.333
8.739
8.362
8.225
8.168
8.142
8.130
8.124
11.999 12.007 11.960 11.925 11.904 11.893 11.888
15.7% 17.9% 18.5% 18.7% 18.8% 18.8% 18.8%
T XT +1
T XT +h
(40)
Cest dire qu partir dun horizon 2, la meilleure prvision est la moyenne du processus.
Lerreur de prvision horizon h est donne par
T h
=T XT +h XT +h = T +h + 1 T +h1
X
X
i
=
(0.5) Yti =
(0.5)i [Xti 5]
i=0
i=0
T XT +1
T XT +2
==5
T XT +h
Vb
90%
Binf
90%
Bsup
IC 90%
0
5.654
1
2
3
4
5
6
7
3.304
5.000
5.000
5.000
5.000
5.000
5.000
0.250
1.250
1.250
1.250
1.250
1.250
1.250
2.489
3.178
3.178
3.178
3.178
3.178
3.178
4.119
6.822
6.822
6.822
6.822
6.822
6.822
24.7% 36.4% 36.4% 36.4% 36.4% 36.4% 36.4%
185
8.6.3
Il sagit ici dun modle AR (1) pour la variable intgre Yt = Xt Xt1 , Yt = 1 Yt1 +
+ t . Aussi, la prvision horizon h = 1 est donne par
T XT +1
= XT +T YT+1 ,
T XT +h
En substituant aux T YT+i ce qui a t trouv prcdemment pour les processus AR, on
obtient
T XT +1 = (1 + 1 ) XT 1 XT 1 + ,
et, pour un horizon h = 2,
T XT +2
= 1 + 1 + 21 XT 1 + 21 XT 1 + (1 + 1) + .
h
+ ... + 1 + 1
T YT +h = 1 YT + 1
T XT +h =T XT +1 + 1 .T YT +h1 + .
Lerreur faite sur la prvision horizon 1 est donne par
T 1
=T XT +1 XT +1 =T YT+1 YT +1 = T +1 , de variance 2 .
=T XT +2 XT +2 =
T YT +1
YT +1 +
T YT +2
YT +2 = (1 + 1 ) T +1 + T +2 ,
dont la variance est Vb = 1 + (1 + 1 )2 2 . De faon plus gnrale, lerreur de prvision
horizion h est
T h =
T YT +1 YT +1 + T YT +2 YT +2 + T YT +1 YT +1 + ... + T YT +h YT +h
= T +1 + (T +2 + 1 T +1 ) + ... + T +h + 1 T +h1 + ... + h2
T +2 + h1
T +1
1
1
T +1 ,
= T +h + (1 + 1 ) T +h1 + ... + 1 + 1 + ... + h1
1
do la variance
!2
h
i1
X
X
Vb =
j1 2 .
i=1
j=0
186
Exemple 246. Considrons le processus (Xt ) tel que Xt Xt1 = Yt o (Yt ) vrifie,
Yt = 2 + 0.2Yt1 + t o t N (0, 1) ,
dont les dernires observations ont t 81.036, 84.074 et 86.586. Le processus (Yt ) sousjacent peut tre obtenu comme diffrence entre Xt et Xt1 . On cherche alors les prvisions
de (Yt ) et les prvisions de (Xt ) correspondent la somme des (Yt ) prvus (processus
intgr).
(Xt )
(Yt )
T XT +1
T YT +1 = + 1 YT = 2.5024
T XT +2 = XT +T YT +1 +T YT +2 o
T YT +2 = + 1 .T YT +1 = 2.5005
Do finallement les prvisions suivantes, avec la variance, lintervalle de confiance, et la
taille relative de lintervalle de confiance
horizon
T YT +h
T XT +h
Vb
90%
Binf
90%
Bsup
IC 90%
0
1
2.512 2.502
86.586 89.088
1.000
87.458
90.718
1.8%
2
2.500
91.589
2.440
89.043
94.135
2.8%
3
2.500
94.089
3.978
90.838
97.340
3.5%
4
2.500
96.589
5.535
92.754
100.42
4.0%
5
2.500
99.089
7.097
94.747
103.43
4.4%
6
2.500
101.59
8.659
96.793
106.39
4.7%
7
2.500
104.09
10.22
98.878
109.30
5.0%
8.7
8.7.1
Application
Example de prvision : cas dcole
b
T XT +1 = EL XT +1 |XT = 10, o XT = {X1 , ..., XT , Z}.
b = E XT +h |XT .
La prvision horizon h faite en T est T X
T +h
187
=8+
4
do les premires valeurs {12, 10, 9, 8.5, 8.25, 8.125, ...}
2k
XT +1 XT = T +1 + b1 T + b2 T 1 + ...
XT +2 XT +1 = T +2 + b1 T +1 + b2 T + ...
...
b
V T XT +h = 2 1 + (1 + b1 )2 + (1 + b1 + b2 )2 + ... + (1 + b1 + ... + bh )2 .
Or lexpression des bi est donne par la relation B (L)
(1 0.8L) (1 0.5L)1
(L) 1 (L)
L3
L2
B (L) = (1 0.8L) 1 + 0.5L + 0.52 L2 + ... = 1 0.3L 0.3 0.3 2 ...
2
2
15
Rappel : Pour une relation rcurente un = un1 + un2 , la forme gnrale des solutions est
un = r1n + r2n o r1 et r2 sont les racines du polynme P (x) = x2 x , dans le cas o les racines
sont distinctes. Dans le cas o P admet une racine double (r), la forme gnrale est un = ( + r) rn .
Dans le cas o la suite est entirement dtermine par les valeurs initiales u1 et u2 , alors et sont
entirement dtermins par la rsolution du systme
u1 = r1 + r2
u2 = r12 + r22
188
2
h1
X
0.6
2
b
0.4 + j .
V T XT +h =
2
j=0
IC95%
1
2
3
4
5
6
7
8
9
8.040
6.444
5.560
5.015
4.639
4.353
4.116
3.906
3.71
8.360
6.862
6.040
5.543
5.209
4.959
4.755
4.577
4.41
12.000 10.000
9.000
8.500
8.250
8.125
8.063
8.031
8.016
8.00
11.640 11.138 10.960 10.957 11.041 11.166 11.307 11.454 11.60
11.960 11.556 11.440 11.485 11.611 11.772 11.947 12.125 12.30
19.6% 28.4% 34.6% 39.2% 42.9% 46.0% 48.7% 51.3% 53.6
On notera bien sur cet exemple que les prvisions laide dun modle ARIM A
moyen terme sont dj relativement incertaines. Graphiquement, on obtient, gauche, la
prvision suivante (avec les intervalles de confiance 90% et 95%), et droite, lvolution
relative de lintervalle de confiance en fonction de lhorizon de prvision
8.7.2
(0.0687)
La srie Zt peut alors tre utilise pour faire de la prvision, laide de sa modlisation
M A.
Comme nous le voyons sur cet exemple, la prvision laide dun modliation ARM A
reste relativement floue, mme ici court terme (un exemple analogue sera repris plus en
dtails dans la partie suivante).
189
9.1
Nous allons considrr ici les taux 3 mois du trsor amricain (comme le propose Pindyck
et Rubinfeld (1998)), donnes mensuelles, de Janvier 1960 Mars 1996.
>
>
>
>
>
>
base=read.table("http://freakonometrics.free.fr/basedata.txt",header=TRUE)
Y=base[,"R"]
Y=Y[(base$yr>=1960)&(base$yr<=1996.25)]
Y=ts(Y,frequency = 4, start = c(1960, 1))
Y
1960
1961
1962
1963
1964
Qtr1
3.873
2.350
2.723
2.907
3.530
Qtr2
2.993
2.303
2.717
2.940
3.477
Qtr3
2.360
2.303
2.840
3.293
3.497
Qtr4
2.307
2.460
2.813
3.497
3.683
2.960
3.243
5.737
4.930
2.967
3.987
5.597
5.020
3.003
4.477
5.367
3.060
5.280
5.260
...
1993
1994
1995
1996
Lautocorrlogramme de la srie bute des taux (Xt ) permet de se rendre compte rapidement que la srie nest pas stationnaire.
> acf(Y,lwd=5,col="red")
> pacf(Y,lwd=5,col="red")
190
Modlisation de la srie
191
le tableau suivant
i\j
1
2
3
4
5
6
9.1.2
1
2
3
4
5
6
0.272
0.189 0.007 0.024
0.041 0.148
0.116 0.041 0.006 0.001 0.003 0.040
0.102 0.006
0.003 0.001 0.001 0.011
0.042 0.007 0.002 0.002
0.003 0.003
0.055 0.004 0.005 0.002 0.001 0.001
0.180 0.043 0.012 0.003
0.001 0.000
Lestimation donne les rsultats suivants (la constante tait clairement non significative),
1 + 0.3341L Yt = 1 + 0.7403L t
(0.1066)
>
(0.0616)
arima(X,order=c(1,1,1))
Call:
arima(x = X, order = c(1, 1, 1))
Coefficients:
ar1
-0.3341
s.e.
0.1066
ma1
0.7403
0.0616
aic = 347.78
arima(diff(X),order=c(1,0,1))
Call:
arima(x = diff(X), order = c(1, 0, 1))
Coefficients:
ar1
-0.3342
s.e.
0.1066
ma1
0.7403
0.0616
intercept
0.0076
0.0850
aic = 349.77
Si les estimations semblent significative, le rsidu ne semble pas tre un bruit blanc.
Ltape suivante est donc daugmenter le nombre de paramtres.
192
9.1.3
Lestimation donne les rsultats suivants (la constante tant l aussi non significative),
2
2
1 + 1.26 L + 0.49 L Yt = 1 + 1.767L 0.8778L t o Yt = (1 L)Xt
(0.095)
(0.067)
(0.088)
(0.054)
> arima(X,order=c(2,1,2))
Call:
arima(x = X, order = c(2, 1, 2))
Coefficients:
ar1
-1.2655
s.e.
0.0952
ar2
-0.4945
0.0884
ma1
1.7672
0.0675
ma2
0.8778
0.0546
log likelihood = -162.24,
aic = 334.48
(0.088)
(0.067)
(0.054)
(0.08)
> arima(X,order=c(2,1,2),xreg=1:length(Y))
Series: X
ARIMA(2,1,2)
Coefficients:
ar1
-1.2658
s.e.
0.0953
ar2
-0.4950
0.0884
ma1
1.7671
0.0676
ma2
0.8779
0.0547
xreg
0.0072
0.0807
Encore une fois, lhypothse de bruit blanc des rsidus est rejete, de part la prsence
dautocorrlations significativement non nulles.
9.1.4
ar2
0.0409
0.3459
ar3
-0.3508
0.2173
ar4
-0.1562
0.1736
ma1
0.7713
0.3406
ma2
-0.2380
0.4341
193
ma3
0.3536
0.2400
ma4
0.6052
0.1916
9.1.5
ar3
0.1282
0.0931
ar4
0.1482
0.0920
ar5
-0.1449
0.0871
ar6
0.1134
0.0859
ar7
-0.4324
0.0821
ar8
0.2575
0.0818
ma1
-0.1191
0.0737
ma2
-0.8809
0.0721
9.1.6
ar3
0.0672
0.2872
ar4
0.1619
0.2922
ar5
-0.1847
0.1205
ar6
0.1454
0.1227
ar7
-0.4762
0.1132
ar8
0.3106
0.1353
ma1
-0.2908
0.4125
ma2
-0.8308
0.4678
ma3
0.1653
0.3788
9.1.7
Choix du modle
2
0.6168190
0.5434549
0.5204500
0.4826461
0.4816530
AIC
347.7753
334.4843
336.4037
331.3783
334.9689
log L
170.8877
162.2421
159.2019
154.6892
154.4845
> matrix(c(arima111$sigma2,arima212$sigma2,arima414$sigma2,arima812$sigma2,arima814$sigma2,
+ arima111$aic,arima212$aic,arima414$aic,arima812$aic,arima814$aic,
+ arima111$loglik,arima212$loglik,arima414$loglik,arima812$loglik,arima814$loglik),5,3)
[,1]
[,2]
[,3]
[1,] 0.6168190 347.7753 -170.8877
[2,] 0.5434549 334.4843 -162.2421
[3,] 0.5204500 336.4037 -159.2019
[4,] 0.4826461 331.3783 -154.6892
[5,] 0.4816530 334.9689 -154.4845
194
-0.
0.
Aucun modle ne semble vraiment bien modliser la srie. En fait, aucun modle de
type ARM A ne pourra prendre en compte le pic de volatilit au dbut des annes 80. Les
modles ARCH pourraient tre une alternative intressantes, mais au del de lobjectif
du cours.
9.2
195
> acf(Y,lwd=5,col="red")
> pacf(Y,lwd=5,col="red")
ar3
-0.1152
0.0618
intercept
0.0078
0.0009
On peut alors noter que la longueur moyenne du cycle stochastique est alors de 10.2
trimestres, cest dire entre 2 ans et demi et 3 ans.
196