Céline Lévy-Leduc - Cours Econométrie (Etude Des Séries Chronologiques)

Introduction à l’Etude des Séries Chronologiques
Céline Lévy-Leduc
16 mai 2007
Chapitre 1
Introduction et Motivations
1.1 Introduction
1.1.1 Définitions et objectifs
Définition 1. Une série chronologique est un ensemble d’observations, xt , chacune étant
enregistrée à un instant spécifique t. L’intervalle d’observations sera noté T0 dans la suite.
L’étude des séries chronologiques est utile lorsque l’on cherche à analyser, comprendre ou
encore prévoir un phénomène évoluant dans le temps. Le but est donc de tirer des conclusions
à partir des séries observées. Nous considèrerons les étapes suivantes :
1. Proposer un modèle probabiliste afin de représenter les données.
2. Estimer les paramètres du modèle choisi et vérifier la qualité de l’ajustement aux
données (validation du modèle).
3. Application du modèle (validé) : prévision.
Les domaines concernés sont nombreux :
– ingéniérie, (EDF, pollution)
– sociologie, (chômage, grèves)
– finance, (ventes, bourse, passagers)
– industrie. (production, consommation)
1.1.2 Exemples de séries chronologiques

Exemple 1. Vente de vin rouge.
La Figure 1.1 montre les ventes mensuelles (en kilolitres) de vin rouge de janvier 1980
jusqu’à octobre 1991. L’intervalle d’observations est T0 = {1, 2, . . . , 142}. La courbe suggère
que les ventes ont une tendance croissante et un caractère saisonnier avec un maximum en
juillet et un minimum en janvier.
Exemple 2. Population des U.S.A., 1790 − 1990
La population des U.S.A., mesurée tous les 10 ans, est représentée par la Figure 1.2.
La courbe suggère la possibilité d’adapter une tendance quadratique ou exponentielle aux
données.
On définit maintenant la notion de processus stationnaires. Ceux-ci jouent un rôle fonda-
mental dans l’étude des séries chronologiques.
1
3000
2500
2000
ventes mensuelles de vin 1500
1000
500
0
0 12 24 36 48 60 72 84 96 108 120 132 144
mois (janvier1980−octobre1991)
Fig. 1.1 – Ventes annuelles de vin rouge (en kilolitres) entre janvier 1980 et octobre 1991.
250
200
150
millions
100
50
0
1790 1810 1830 1850 1870 1890 1910 1930 1950 1970 1990
Fig. 1.2 – Population des U.S.A. en intervalles de 10 ans, 1790 − 1990.
1.2 Stationnarité et stationnarité stricte

Définition 2. (Fonction d’autocovariance) Soit {Xt , t ∈ Z} un processus aléatoire tel que
V ar(Xt ) < ∞ pour tout t ∈ Z. La fonction d’autocovariance γX (., .) de {Xt } est définie par
γX (r, s) = Cov(Xr , Xs ) = E {(Xr − E(Xr ))(Xs − E(Xs ))} , r, s ∈ Z.
Définition 3. (Stationnarité ou Stationnarité faible) La série temporelle {Xt , t ∈ Z} est dite

stationnaire ou faiblement stationnaire si
(i) E(Xt2 ) < ∞
(ii) E(Xt ) = m, ∀t ∈ Z
(iii) γX (r, s) = γX (r + t, s + t), ∀r, s, t ∈ Z.
Remarque 1. Si {Xt , t ∈ Z} est stationnaire alors γX (r, s) = γX (r − s, 0) ∀r, s ∈ Z. Il
est donc plus agréable de redéfinir la fonction d’autocovariance d’un processus stationnaire
comme une fonction d’une seule variable définie par
γX (h) := γX (h, 0) = Cov(Xt+h , Xt ) ∀t, h ∈ Z.
Définition 4. (Stationnarité stricte) La série temporelle {Xt , t ∈ Z} est dite strictement

stationnaire si les lois jointes de (Xt1 , . . . , Xtk ) et de (Xt1 +h , . . . , Xtk +h ) pour tout entier
positif k et pour tous t1 , . . . , tk , h ∈ Z.
Intuitivement, une série chonologique strictement stationnaire doit avoir le même com-
portement statistique sur des intervalles de temps égaux.
2
1.2.1 Relation entre stationnarité faible et stricte
Un processus strictement stationnaire ayant ses moments d’ordre 2 finis est faiblement
stationnaire.
La réciproque n’est pas vraie en général.
Contre-exemple : Soit {Xt } une suite de variables aléatoires indépendantes telle que
– Xt ∼ E(1), lorsque t est pair
– Xt ∼ N (1, 1), lorsque t est impair
alors {Xt } est stationnaire avec γX (0) = 1 et γX (h) = 0 lorsque h 6= 0. Cependant X1 et X2
n’ont pas la même loi donc {Xt } n’est pas strictement stationnaire.
Cependant, il y a une classe importante de processus pour laquelle l’assertion : “ station-

narité (faible) implique stationnarité stricte ” est vraie : il s’agit des processus gaussiens.
En effet, ils sont caractérisés par leur espérance et leur covariance.
1.2.2 Quelques exemples

Exemple 3. Processus à moyenne mobile d’ordre 1 : MA(1)
Soit {Zt } une suite de variables iid d’espérance nulle et de variance finie σZ2 . On pose
Xt = Zt + θZt−1 .
La fonction d’autocovariance de Xt est donnée par
Cov(Xt+h , Xt ) = Cov(Zt+h + θZt+h−1 , Zt + θZt−1 )


 (1 + θ2 )σZ 2 , si h = 0
= θσZ 2 , si h = +1 ou − 1

0, si |h| > 1.
{Xt } est donc un processus stationnaire. En fait, on peut montrer qu’il est aussi stationnaire
au sens strict.
Exemple 4.
Soit {Yt } une série temporelle stationnaire. On définit

½
Yt , si t est pair
Xt =
Yt + 1, si t est impair
Bien que Cov(Xt+h , Xt ) = γY (h), {Xt } n’est pas un processus stationnaire car il n’a pas une
espérance constante.
Exemple 5. Marche aléatoire
Soit St = X1 + X2 + · · · + Xt où les Xi sont iid d’espérance nulle et de variance σ 2 . Pour

h > 0,
Ã t+h t
! Ã t t
!
X X X X
Cov(St+h , St ) = Cov Xi , Xi = Cov Xi , Xi = σ 2 t.
i=1 i=1 i=1 i=1
3
Donc {St } n’est pas stationnaire.
Evidemment, la plupart des séries temporelles ne sont pas des réalisations de processus
stationnaires. Mais comme on va le voir dans les paragraphes qui suivent, on peut s’y ramener
en faisant subir à la série chonologique certaines transformations.
1.3 Modélisation des séries chronologiques

Une étape importante dans l’analyse des séries chronologiques (SC) est le choix d’un
modèle probabiliste pour les données. Afin de conclure sur le caractère aléatoire des observa-
tions futures, il est naturel de supposer que chaque observation xt est une réalisation d’une
variable aléatoire Xt . La SC {xt , t ∈ T0 } est une réalisation de la famille de variables aléatoires
{Xt , t ∈ T0 }. Ces considérations suggèrent de modéliser les données comme une réalisation
d’un processus aléatoire {Xt , t ∈ T } où T ⊇ T0 .
1.3.1 Modèle général

On modélise un processus par la somme d’une partie déterministe et d’une partie aléatoire
(modèle additif), ou par le produit d’une partie déterministe et d’une partie aléatoire (modèle
multiplicatif). Le modèle de décomposition classique est le suivant (modèle additif) :
Xt = mt + st + et 1 ≤ t ≤ n. (1.1)
où dt = (mt + st ) représente la partie déterministe du processus et et sa partie aléatoire, avec

1. mt une fonction qui varie lentement, appelée la composante de tendance. C’est une
fonction qui varie au cours du temps et traduit l’aspect général de la série.
2. st une fonction périodique de t avec la période d : st−d = st . C’est la composante
saisonnière de période 4, 12, 52...selon qu’il s’agit de données trimestrielles, mensuelles,
hebdomadaires....
3. et un bruit aléatoire, stationnaire, de moyenne nulle. Il correspond à la notion d’écart
au modèle.
NB : Le modèle multiplicatif s’écrira Xt = dt et , où dt est la partie déterministe et et la partie
aléatoire.
La modélisation de la série (trajectoire du processus) comporte deux parties :
– celle de la partie fixe,
– celle de la partie aléatoire.
Nous nous intéressons tout d’abord à la première étape qui consiste à voir s’il existe une
tendance, une composante saisonnière, etc....et à les modéliser.
Pour détecter une tendance et/ou une saisonnalité, on peut s’aider des informations a priori,
notamment la nature des données et leur représentation graphique ; par exemple, si le signal
observé est la consommation mensuelle d’électricité par foyer, on pourra s’attendre à une
certaine saisonnalité (mensuelle ? trimestrielle ?) et à une tendance (linéaire ? quadratique ?).
4
1.3.2 Modèles avec tendance et composante saisonnière
Modèles avec tendance
Le modèle est de la forme :
Xt = mt + et (1.2)
où et est un bruit aléatoire de moyenne nulle.
Pour modéliser la tendance de la série observée, on peut par exemple chercher une fonction
paramétrique qui ressemble à l’allure générale de la série et estimer les paramètres de cette
fonction afin d’ajuster le mieux possible les observations.
Les fonctions les plus utilisées sont des fonctions :

• linéaires :
mt = a + bt. (1.3)
• polynomiales :
mt = a0 + a1 t + . . . ad td . (1.4)
NB : on peut aussi modéliser par des fonctions de type exponentiel.
Il existe plusieurs méthodes pour estimer la fonction mt . Une des plus utiles est la méthode
des moindres carrés. Les paramètres des fonctions sont choisis de façon à minimiser l’erreur :
n
X
(xt − mt )2 . (1.5)
t=1
Un examen visuel de la série permet en général de se faire une idée du degré du po-
lynôme à utiliser. Il faut utiliser un polynôme de degré le plus petit possible tout en ayant
un bon ajustement. Pour cela, on aimerait que les résidus fluctuent autour de 0 avec une
amplitude la plus faible possible.
NB : On peut aussi regarder l’erreur définie en (1.5) : par exemple, si l’erreur pour un
polynôme de degré d = 4 est proche de celle pour un polynôme de degré d = 3, alors le choix
d = 4 n’améliore pas nettement l’ajustement.
Exemple 6. Population des U.S.A
On essaie d’ajuster un polynôme de degré 2 (i.e d = 2 dans (1.4)). Pour obtenir les estimées
de a0 , a1 et a2 , on écrit
 
  1 t1 t21
a0  1 t2 t22 
Y = A  a1  + e où A =   ...
 , les ti étant les instants d’observations.

a2 2
1 tn tn
On estime a0 , a1 et a2 en utilisant le critère des moindres carrés

 
ab0
 ab1  = (AT A)−1 AT Y.
ab2
5
On représente dans la Figure 1.3 : m̂ = A(ab0 ab1 ab2 )T . On peut s’en servir pour faire de la
prévision ce qui donne
Année 2000 : Population estimée = 2.74348 × 108
Année 2010 : Population estimée = 3.01466 × 108
Année 2020 : Population estimée = 3.29886 × 108 .
6
300 x 10
4
250
2
200
0
150
−2
100 −4
50 −6
0 −8
1750 1800 1850 1900 1950 2000 1750 1800 1850 1900 1950 2000
Fig. 1.3 – Ajustement polynomial et résidus pour les données : Population des U.S.A.
Modèles avec composante saisonnière

Pour représenter un effet saisonnier, admettant du bruit mais pas de tendance, nous
utilisons le modèle simple suivant :
Xt = st + et (1.6)
où st est une fonction périodique de t, de période d, i.e., pour tout t, st−d = st . Un choix
convenable pour st est une somme de fonctions harmoniques définies par
k
X
st = a0 + [aj cos(λj t) + bj sin(λj t)] ,
j=1
où a0 , a1 . . . , ak et b1 . . . , bk sont des paramètres inconnus, et λ1 . . . , λk sont des fréquences

fixes, chacune étant un multiple entier de 2π/d.
Exemple 7. Victimes des accidents de la route aux U.S.A entre 1973 et 1978
11500
11000
10500
10000
9500
9000
8500
8000
7500
7000
6500
0 10 20 30 40 50 60 70 80
Fig. 1.4 – Nombre mensuel de victimes des accidents de la route aux USA entre 1973 et 1978
6
On ajuste aux données une fonction périodique avec une seule composante harmonique de
période 12 mois et une fonction périodique avec deux composantes : l’une de période 6 mois
et l’autre de période 12 mois (voir Figure 1.5).
• 1er cas : k = 1, λ1 = 2π/12
 
  1 cos(λ1 t1 ) sin(λ1 t1 )
ab0  
 ab1  = (AT A)−1 AT Y, où A =  1 cos(λ1 t2 ) sin(λ1 t2 ) 
 ... 
bb1
1 cos(λ1 tn ) sin(λ1 tn )
• 2ème cas : k = 2, λ1 = 2π/12, λ2 = 2π/6

 
ab0  
  1 cos(λ1 t1 ) sin(λ1 t1 ) cos(λ2 t1 ) sin(λ2 t1 )
ab1
   1 cos(λ1 t2 ) sin(λ1 t2 ) cos(λ2 t2 ) sin(λ2 t2 ) 
 bb1  = (AT A)−1 AT Y, où A =  
   ... 
 ab2 
1 cos(λ1 tn ) sin(λ1 tn ) cos(λ2 tn ) sin(λ2 tn )
bb2
11500 11500
11000 11000
10500 10500
10000 10000
9500 9500
9000 9000
8500 8500
8000 8000
7500 7500
7000 7000
6500 6500
0 10 20 30 40 50 60 70 80 0 10 20 30 40 50 60 70 80
Fig. 1.5 – Ajustement de composantes saisonnières
Les différentes composantes déterministes ayant été modélisées, il reste à les éliminer pour
effectuer la deuxième étape de modélisation, celle de la partie aléatoire.
1.3.3 Elimination de la tendance et de la composante saisonnière par différenciation

(Box et Jenkis (1970))
Opérateur retard et opérateur différence
Opérateur retard :
L’opérateur retard B décale le processus d’une unité de temps vers le passé :
BXt = Xt−1 .
Si on applique j fois cet opérateur, on décale le processus de j unités de temps :
B j Xt = B(B(..BXt )) = Xt−j .
Opérateur différence :
7
L’opérateur différence ∆ fait la différence entre le processus et sa version décalée de une
unité de temps :
∆Xt = Xt − Xt−1 = (1 − B)Xt .
• Elimination de la tendance
L’opérateur différence ∆ élimine les tendances linéaires. Par exemple, pour un processus
de la forme
Xt = a + bt + et ,
on a
∆Xt = b + et − et−1 .
De façon générale, l’opérateur ∆d élimine les tendances polynomiales de degré d. Par
exemple, pour une tendance de degré 2,
∆2 Xt = ∆2 (a + bt + ct2 + et ) = (1 − B)2 Xt = 2c + (et − 2et−1 + et−2 ).
Exemple 8. Population des U.S.A.

Après deux applications de l’opérateur ∆, on s’est ramené à une série stationnaire ce
qui confirme ce que l’on a obtenu précédemment pour cette série temporelle (voir Figure
1.6).
pop U.S.A.
200
millions
150
100
50
0
1780 1800 1820 1840 1860 1880 1900 1920 1940 1960 1980 2000
pop U.S.A. − differenciation de degre 1
20
millions
10
0
1780 1800 1820 1840 1860 1880 1900 1920 1940 1960 1980 2000
pop U.S.A. − differenciation de degre 2
10
5
millions
−5
1780 1800 1820 1840 1860 1880 1900 1920 1940 1960 1980 2000
Fig. 1.6 – Différenciation de la série : Population des U.S.A
• Elimination de la composante saisonnière

L’opérateur ∆d = (1 − B d ) élimine une saisonnalité de degré d. Par exemple, pour un
modèle général,
Xt = mt + st + et ,
où st est de période d, on obtient,
∆d = mt − mt−d + et − et−d .
8
avec mt − mt−d la tendance et et − et−d le bruit.
Exemple 9. Nombre de victimes des accidents de la route aux U.S.A.

On applique tout d’abord ∆12 pour faire une désaisonnalisation d’ordre 12 et ensuite
on fait une différenciation d’ordre 1 (voir Figure 1.7).
11000
nombre de victimes
10000
9000
8000
7000
0 10 20 30 40 50 60 70
differenciation de degre 12 pour la saisonnalite
nombre de victimes
500
0
−500
−1000
−1500
0 10 20 30 40 50 60 70
differenciation de degre 1 pour la tendance
nombre de victimes
1000
500
0
−500
−1000
0 10 20 30 40 50 60 70
mois (janvier1973−decembre1978)
Fig. 1.7 – Désaisonnalisation et différenciation de la série : nombre de victimes des accidents

de la route aux U.S.A
1.3.4 Méthode générale pour la modélisation des séries chronologiques

Les exemples que l’on a vus indiquent l’approche générale suivante pour la modélisation
des SC :
• tracer la série et examiner les caractéristiques du graphique. Vérifier en particulier si il
existe
1. une tendance,
2. une composante saisonnière
• modéliser la tendance et la composante saisonnière.
• enlever la tendance et la composante saisonnière afin d’obtenir des résidus station-
naires.
• choisir un modèle pour les résidus en utilisant des statistiques (empiriques) de la réalisation,
comme par exemple l’autocorrélation (voir plus loin).
Ensuite, on peut faire de la prévision sur les résidus d’abord et puis en inversant les transfor-
mations sur les données.
9
1.4 Propriétés de la fonction d’auto-covariance d’un processus
stationnaire
1.4.1 Propriétés de la fonction d’auto-covariance
Proposition 1. Si γ(.) est la fonction d’autocovariance d’un processus stationnaire {Xt , t ∈
Z} alors
(i) γ(0) ≥ 0,
(ii) |γ(h)| ≤ γ(0), ∀h ∈ Z
(iii) γ(−h) = γ(h), ∀h ∈ Z.
Démonstration. (i) : γ(0) = Var(Xt ) ≥ 0.
(ii) : Par l’inégalité de Cauchy-Scwarz,
|E [{Xt+h − E(Xt+h )} {Xt − E(Xt )}]| ≤ Var(Xt+h )1/2 Var(Xt )1/2 .
(iii) γ(−h) = Cov(Xt−h , Xt ) = Cov(Xt , Xt+h ) = γ(h).
Définition 5. Une fonction κ : Z −→ R est dite définie positive si et seulement si

n
X
ai κ(ti − tj )aj ≥ 0
i,j=1
pour tous entiers positifs n et pour tous vecteurs a = (a1 , . . . , an )0 ∈ Rn et t = (t1 , . . . , tn )0 ∈

Zn .
Théorème 1. (Caractérisation des fonctions d’autocovariance)
Une fonction à valeurs réelles définie sur les entiers est la fonction d’autocovariance d’une
série temporelle stationnaire si et seulement si elle est paire et définie positive.
Démonstration. Montrons que la fonction d’autocovariance d’une série temporelle {Xt } est
définie positive. Si a = (a1 , . . . , an )0 ∈ Rn , t = (t1 , . . . , tn ) ∈ Zn et Zt = (Xt1 −E(Xt1 ), . . . , Xtn −
E(Xtn ))0 alors
n
X
0 ≤ Var(a0 Zt ) = a0 E(Zt Zt0 )a = a0 Γn a = ai γ(ti − tj )aj ,
i,j=1
où Γn = [γ(ti − tj )]1≤i,j≤n est la matrice de covariance de (Xt1 , . . . , Xtn )0 .
La réciproque est admise.
Exemple 10.
Montrons que la fonction suivante définie sur Z :

 1 , si h=0
κ(h) = ρ , si h=+1 ou -1

0 , sinon.
est une fonction d’autocovariance si et seulement si |ρ| ≤ 1/2.

En effet,
10
κ est la fonction d’autocovariance d’un MA(1) avec σ 2 = (1 + θ2 )−1
– Si |ρ| ≤ 1/2, alors p
et θ = (2ρ)−1 (1 ± 1 − 4ρ2 ).
– Si ρ > 1/2, K = [κ(i−j)]1≤i,j≤n et a le vecteur de taille n défini par a = (1, −1, 1, −1, . . . )0
alors
a0 Ka = n − 2(n − 1)ρ < 0 lorque n > 2ρ/(2ρ − 1),
ce qui montre que κ(.) n’est pas définie positive et donc d’après le théorème précédent
κ n’est pas une fonction d’autocovariance.
– Si ρ < −1/2, on peut utiliser le même argument que précédemment mais cette fois-ci
avec comme vecteur a : a = (1, 1, 1, . . . ).
1.4.2 Fonction d’auto-covariance empirique

A partir des observations {x1 , . . . , xn } d’une série chronologique stationnaire {Xt }, nous
aurons souvent besoin d’estimer la fonction d’autocovariance γ(.) du processus sous-jacent
{Xt } afin de mieux comprendre sa structure de dépendance.
Définition 6. La fonction d’auto-covariance empirique de {x1 , . . . , xn ) est définie par

n−h
X
−1
γ̂n (h) = n (xj+h − x̄)(xj − x̄), 0 ≤ h < n
j=1
n (h) = γ̂n (−h) lorsque −n < h ≤ 0, x̄ étant la moyenne empirique des xi : x̄ =

et γ̂P
n−1 nj=1 xi .
Définition 7. La fonction d’auto-correlation empirique est définie par
ρ̂(h) = γ̂n (h)/γ̂n (0), |h| < n
Exemple 11. Autocorrelation empirique pour la série : population aux U.S.A (voir Figure
1.8).
300
250 0.8
0.6
200 0.4
0.2
150 0
−0.2
100 −0.4
−0.6
50 −0.8
−1
0
1750 1800 1850 1900 1950 2000 0 2 4 6 8 10 12 14 16 18 20
Fig. 1.8 – Autocorrelation empirique pour la série : Population aux U.S.A
Exemple 12. Autocorrelation empirique pour la série : ventes de vin aux U.S.A (voir Figure
1.9)
11
3000
2500 0.8
0.6
2000 0.4
ventes mensuelles de vin
0.2
1500 0
−0.2
1000
−0.4
−0.6
500
−0.8
−1
0
0 12 24 36 48 60 72 84 96 108 120 132 144
mois (janvier1980−octobre1991) 0 5 10 15 20 25 30 35 40
Fig. 1.9 – Autocorrelation empirique pour la série : ventes de vin aux U.S.A.
12
Chapitre 2
Processus ARMA
Dans ce chapitre, nous introduisons une classe très importante de séries chronologiques
{Xt , t ∈ Z} : les processus auto-régessifs à moyenne mobile (Auto Regressive Moving Ave-
rage). De plus, pour toute fonction d’autocovariance γ telle que limh→∞ γ(h) = 0, il existe un
processus ARMA de fonction d’auto-covariance γX telle que γX (h) = γ(h), h = 0, 1, . . . , k
pour tout entier k > 0. C’est entre autres pour cette raison que les modèles ARMA jouent un
rôle très important dans l’étude des séries temporelles.
2.1 Inversibilité et causalité des processus ARMA

Définition 8. (Bruit blanc)
Un processus {Zt } est un bruit blanc de moyenne nulle et de variance σ 2 noté
{Zt } ∼ W N (0, σ 2 ), (WN est une abréviation pour White Noise)
si et seulement si {Zt } est de moyenne nulle et de fonction d’autocovariance définie par
½ 2
σ , si h = 0,
γ(h) =
0, si h 6= 0.
Définition 9. (Processus ARMA(p,q))

Le processus {Xt , t ∈ Z} est un processus ARMA si {Xt } est stationnaire et si pour tout t,
Xt − φ1 Xt−1 − · · · − φp Xt−p = Zt + θ1 Zt−1 + · · · + θq Zt−q ,
où {Zt } ∼ W N (0, σ 2 ). On dit que {Xt } est un processus ARMA(p,q) de moyenne µ si {Xt −µ}
est un processus ARMA(p,q).
L’équation ci-dessus peut être réécrite de façon symbolique comme suit
φ(B)Xt = θ(B)Zt , t ∈ Z,
où φ(z) = 1 − φ1 z − · · · − φp z p , θ(z) = 1 + θ1 z + · · · + θq z q et B est un opérateur de retard

defini par
B j Xt = Xt−j , j ∈ Z.
Exemple 13. Processus MA(q)
13
Si φ(z) est identiquement égal à 1, alors
Xt = θ(B)Zt
et {Xt } est appelé processus à moyenne mobile d’ordre q. Ainsi défini, {Xt } est un processus
stationnaire. En effet,
q
X
E(Xt ) = θj E(Zt−j ) = 0,
j=0
où θ0 = 1 et ( Pq−|h|
σ2 j=0 θj θj+|h| , si |h| ≤ q,
Cov(Xt+h , Xt ) =
0, si |h| > q.
Exemple 14. Processus AR(p)
Si θ(z) est identiquement égal à 1, alors
φ(B)Xt = Zt .
L’existence et l’unicité d’une solution stationnaire reste à établir. Nous allons examiner le cas
où p = 1 : φ(z) = 1 − φ1 z i.e.
Xt = Zt + φ1 Xt−1 .
En itérant l’équation précédente, on obtient
Xt = Zt + φ1 Zt−1 + φ21 Zt−2 + · · · + φk1 Zt−k + φk+1

1 Xt−k−1 .
• |φ1 | < 1
On en déduit qu’au sens de la convergence dans L2 , on a

∞
X
Xt = φj1 Zt−j . (2.1)
j=0
En effet, Xt étant une solution stationnaire,

° °2  2 
° k ° k
° X ° X
°X t −
° φj1 Zt−j °
° =E
Xt − φj1 Zt−j   = φ2k+2
1
2
E(Xt−k−1 ) → 0, lorsque k → ∞.
° j=0 ° j=0
2
On verra plus tard que l’égalité est aussi valable au sens de la convergence p.s. autrement dit
X j
Xt (ω) = φ1 Zt−j (ω), ∀ω ∈ A
j≥0
où A est tel que P (A) = 1. Vérifions qu’une telle solution (2.1) est bien stationnaire. On peut
le montrer de deux façons différentes.
14
– En utilisant la continuité du produit scalaire dans L2 défini par hX, Y i = E(XY ) : si
Xn converge vers X dans L2 (kXn − Xk2 → 0) et Yn converge vers Y dans L2 alors
limn→∞ hXn , Yn i = hX, Y i.
En effet, en écrivant hX, Y i = h(X − Xn ) + Xn , (Y − Yn ) + Yn i, on obtient en utilisant
l’inégalité de Cauchy-Schwarz
|hXn , Yn i − hX, Y i| ≤ |h(X − Xn ), (Y − Yn )i| + |h(X − Xn ), Yn i| + |hXn , (Y − Yn )i|

≤ kX − Xn k2 kY − Yn k2 + kX − Xn k2 kYn k2 + kY − Yn k2 kXn k2 → 0 .
P
On en déduit donc que E(Xt ) = limk→∞ E( kj=0 φj1 Zt−j ) = 0 et que
 Ã !
n
X Xn ∞
X
|h| 2 |h|
Cov(Xt+h , Xt ) = lim E  φj1 Zt+h−j  φk1 Zt−k  = σ 2 φ1 φ2j 2
1 = σ φ1 /(1−φ1 ).
n→∞
j=0 k=0 j=0
– En utilisant le théorème de Fubini

¯  ¯  
¯ X j ¯ X X
¯ ¯ j Fubini-Tonnelli
¯E 
¯ φ1 Zt−j  ¯≤E
¯ |φ1 | |Zt−j |  = |φ1 |j E(|Zt−j |)
¯ j≥0 ¯ j≥0 j≥0
Cauchy-Schwarz X
≤ σ2 |φ1 |j < ∞ .
j≥0
³P ´ P
j j
D’après le théorème de Fubini, E(Xt ) = E j≥0 φ1 Zt−j = j≥0 φ1 E(Zt−j ) = 0.
Pour l’auto-covariance de {Xt }, on regarde
¯  ¯  
¯ ¯
¯ X j X ¯ X
|E(Xt+h Xt )| = ¯¯E  φ1 Zt−j φk1 Zt+h−k ¯¯ ≤ E  |φ1 |j |φ1 |k |Zt−j ||Zt+h−k |
¯ j≥0 k≥0 ¯ j,k≥0
Fub-Ton,CS X
≤ |φ1 |j |φ1 |k σ 2 < ∞ .
j,k≥0
D’après le théorème de Fubini,
X ∞
X
|h| |h|
E(Xt+h Xt ) = φj1 φk1 E(Zt−j Zt+h−k ) = σ 2 φ1 φ2j
1 = σ 2 φ1 /(1 − φ21 ).
j,k≥0 j=0
On a de plus unicité de la solution. En effet, soient Xt et Yt deux solutions de l’équation :

Xt = φ1 Xt−1 +Zt , on a alors : Xt −φ1 Xt−1 = Yt −φ1 Yt−1 soit encore Xt −Yt = φ1 (Xt−1 −Yt−1 ).
En itérant, on obtient
Xt − Yt = φk1 (Xt−k − Yt−k ) .
Ainsi
E(|Xt − Yt |) = |φ1 |k E(|Xt−k − Yt−k )|) ≤ 2|φ1 |k σX σY → 0, lorsque k → ∞ .
D’où l’on déduit que Xt = Yt p.s.
15
• |φ1 | > 1
° P °2
° °
Dans ce cas-là, la norme L2 précédente : °Xt − kj=0 φj1 Zt−j ° = φ2k+21
2
E(Xt−k−1 ) diverge
2
lorsque k tend vers l’infini. Par contre, on peut réécrire l’équation définissant Xt en fonction
de Zt comme suit
Xt = −φ−1 −1
1 Zt+1 + φ1 Xt+1 .
En itérant l’équation précédente, on obtient
Xt = −φ−1 −2 −2
1 Zt+1 − φ1 Zt+2 + φ1 Xt+2 = . . .
= −φ−1 −2 −k−1
1 Zt+1 − φ1 Zt+2 − · · · − φ1 Zt+k+1 + φ1−k−1 Xt+k+1 .
En utilisant exactement les mêmes arguments que ceux employés précédemment, on déduit
que la solution stationnaire dans ce cas vaut
X −j
Xt = − φ1 Zt+j .
j≥1
Cette solution est non causale : elle dépend du “futur” et non pas que du passé comme dans
le cas précédent où dans ce cas la solution est causale dont une définition précise est donnée
plus loin.
• |φ1 | = 1
Par stationnarité de Xt ,
° °
° k−1
X °
° j ° k k
°X t − φ1 Zt−j °
° ° = φ1 kXt−k k2 = φ1 kXt k2 .
° j=0 °
2
Or, le carré du terme de gauche est aussi égal à
° °2 * +
°Xk−1 ° k−1
X
° °
kXt k22 + °
° φj1 Zt−j °
° − 2 Xt , φj1 Zt−j .
° j=0 ° j=0
2
°P °2 D Pk−1 j E °P °2 P
° k−1 j ° ° k−1 j ° k−1 2j
Ainsi, ° j=0 φ1 Zt−j ° = 2 Xt , φ
j=0 1 Zt−j . De plus, ° φ
j=0 1 Zt−j ° = j=0 φ1 σZ2 =
2 2
kσZ2 . D’où, en utilisant l’inégalité de Cauchy-Schwarz,
° °
°Xk−1 °
2
°
1/2 ° j ° 1/2
kσZ ≤ 2 (γX (0)) ° φ1 Zt−j °
° ≤ 2 (γX (0)) k 1/2 σZ ,
° j=0 °
2
ce qui est impossible pour k grand.
Donc, dans ce cas, il n’existe pas de solution stationnaire.

Définition 10. Un processus ARMA(p,q) défini par les P équations φ(B)Xt = θ(B)Zt est dit
causal s’il existe une suite de constantes ψj telles que j≥0 |ψj | < ∞ et
X
Xt = ψj Zt−j , t ∈ Z.
j≥0
16
La signification de la somme précédente est donnée par la proposition suivante.
P
Proposition 2. Soit {ψk }k∈Z une suite absolument sommable : k |ψk | < ∞, et {Zt }t∈Z
une suite de variables aléatoires.
(i) Si supt∈Z E[|Zt |] < ∞, alors pour tout t ∈ Z, la suite {Xn,t }n∈N définie par
n
X
Xn,t = ψk Zt−k ,
k=−n
P
converge presque sûrement vers une v.a. Xt que l’on notera k∈Z ψk Zt−k . De plus,
E[|Xt |] < ∞ (noté aussi kXt k1 < ∞) et Xt est aussi la limite dans L1 de la suite
{Xn,t }n∈N .
(ii) Si supt∈Z E[|Zt |2 ] < ∞, alors E[Xt2 ] < ∞ et Xt est aussi la limite dans L2 de la suite
{Xn,t }n∈N .
Démonstration.
Pn ps P
I Soit Yn,t = k=−n |ψk ||Zt−k | alors Yn,t −→ Yt = k∈Z |ψk ||Zt−k | ∈ L1 .
P le théorème de convergence monotone, encore appelé théorème de Beppo-Levi, Yn,t →

Par
k∈Z |ψk ||Zt−k |, (limite croissante) implique
Ã !
X
E(Yn,t ) → E |ψk ||Zt−k | , en croissant.
k∈Z
Or,
n
X X
E(Yn,t ) ≤ |ψk | sup E(|Zt |) ≤ sup E(|Zt |) |ψk | < ∞
t t
k=−n k∈Z
¡P ¢
donc E k∈Z |ψk ||Zt−k | < ∞.
I Xn,t converge ps vers Xt finie ps.
On déduit de la précédente inégalité qu’il existe un ensemble A tel que P (A) = 1 et tel
que ∀ω ∈ A, X
|ψk ||Zt−k (ω)| < ∞.
k∈Z
Donc pour tout ω ∈ A,

X
|Xn,t (ω) − Xt (ω)| ≤ |ψk ||Zt−k (ω)| → 0 .
|k|>n
Ainsi pour tout ω ∈ A la suite Xn,t (ω) est convergente et converge vers Xt (ω) d’où l’on déduit
la convergence ps de Xn,t vers Xt .
I Xt est la limite dans L1 de Xn,t et est dans L1 également sous les hypothèses de (i).
17
Remarquons que
 
n −(p+1)
X X
E(|Xn,t − Xp,t |) ≤ sup E(|Zt |)  |ψk | + |ψk | ≤ ε, ∀n, p ≥ Mε
t −n
p+1
d’après le critère de Cauchy pour des séries convergentes. Or,
E(|Xt − Xp,t |) = E[lim |Xn,t − Xp,t |]

n
Fatou
= E(lim inf |Xn,t − Xp,t |) ≤ lim inf E(|Xn,t − Xp,t |) ≤ ε, ∀p ≥ Mε
n n
donc Xt = limn Xn,t dans L1 et Xt ∈ L1 en écrivant

X
E(|Xt |) ≤ E(|Xt − Xp,t |) + E(|Xp,t |) ≤ ε + sup E(|Zt |) |ψk | < ∞ .
t
k∈Z
On aurait aussi pu utiliser pour conclure le fait que L1

est complet et que donc tout suite de
Cauchy de L est convergente dans L et dont la limite est aussi dans L1 .
1 1
I La même chose est vraie dans L2 sous les hypothèses de (ii).

¯ ¯2 
¯ Xn −(p+1)
X ¯
2
¯ ¯
E[|Xn,t − Xp,t | ] = E ¯ ¯ ψk Zt−k + ψk Zt−k ¯¯ 
¯k=p+1 k=−n ¯
¯ ¯2  ¯ ¯2   
¯ X ¯ ¯−(p+1) ¯  
¯ n ¯ ¯ X ¯ X
≤ 2E ¯¯ ψk Zt−k ¯¯ +2E ¯¯ ψk Zt−k ¯¯  ≤ 2 sup E(|Zt |2 ) (|ψk ψl | + |ψ−k ψ−l |)
¯k=p+1 ¯ ¯ k=−n ¯ t  
(p+1)≤k,l≤n
≤ ε, ∀n, p ≥ Mε .
Xn,t est donc une suite de Cauchy dans L2 et converge donc dans L2 vers Xt ∈ L2 puisque
c’est un Hilbert (donc complet).
Rappels sur l’espace de Hilbert L2

L’espace quotient L2 (X ∼ Y si et seulement si X = Y ps) des variables aléatoires réelles
définies sur (Ω, A, P ) de carré intégrable muni du produit scalaire
hX, Y i = E [XY ]
est un espace de Hilbert : c’est un espace vectoriel, muni d’un produit scalaire donc d’une
norme, et il est complet. L’espace est quotienté pour que cette application soit bien un produit
scalaire.
P
Proposition 3. Soit {ψk }k∈Z une suite absolument sommable : k |ψk | < ∞, et {Zt }t∈Z un
processus
P stationnaire, de moyenne µZ et de fonction d’auto-covariance
P γZ . Alors le processus
Xt = k∈Z ψk Zt−k est stationnaire, de moyenne µX = µZ k ψk et de fonction d’auto-
covariance XX
γX (h) = ψj ψk γZ (h + k − j).
j∈Z k∈Z
P
La limite k∈Z ψk Zt−k est à prendre au sens L2 et p.s.
18
Démonstration. – On vérifie les conditions de la proposition précédente, pour montrer
¡ ¢1/2
que la limite est au sens p.s. et L2 : on a E[|Zt |] ≤ E[|Zt |2 ]1/2 = γZ (0) + µ2Z , donc
les espérances et les variances¡P
sont uniformément
¢ bornées.
– Pour l’espérance E(Xt ) = E ψ Z
k∈Z k t−k . D’après le théorème de Fubini-Tonnelli,
¯ Ã !¯
¯ X ¯ X X
¯ ¯
¯E ψk Zt−k ¯ ≤ |ψk |E(|Zt−k |) ≤ sup E(|Zt |) |ψk | < ∞ .
¯ ¯ t
k∈Z k∈Z k∈Z
D’après le théorème de Fubini,

Ã !
X X
E(Xt ) = E ψk Zt−k = µZ ψk .
k∈Z k∈Z
¡P P ¢
– Pour la covariance : E(Xt Xt+h ) = E k∈Z r∈Z ψk ψr Zt−k Zt+h−r . On a de plus
XX Cauchy-Schwarz XX
|E(Xt Xt+h )| ≤ |ψk ||ψr |E(|Zt−k Zt+h−r |) ≤ |ψk ||ψr |γZ (0) < ∞.
k∈Z r∈Z k∈Z r∈Z
D’où l’on déduit

XX
E(Xt Xt+h ) = ψk ψr (γZ (k + h − r) + E(Zt )2 ),
k∈Z r∈Z
ce qui conclut la preuve de la proposition.

La preuve peut aussi être faite en utilisant la continuité du produit scalaire dans L2 comme
on l’a vu précédemment.
La proposition suivante fournit une condition nécessaire et suffisante pour qu’un processus
ARMA soit causal.
Proposition 4. Soit {Xt } un processus ARMA(p,q) tels que les polynômes φ(.) et θ(.) n’ont
pas de racines communes. Alors {Xt } est causal si et seulement si φ(z) 6= 0, pour tout z ∈ C
tel que |z| ≤ 1. Les coefficients {ψj } caractérisant la solution causale évoquée précédemment
sont déterminés par la relation
X
ψ(z) = ψj z j = θ(z)/φ(z), |z| ≤ 1 .
j≥0
Démonstration. Supposons que φ(z) 6= 0 si |z| ≤ 1. Ceci implique qu’il existe ε > 0 tel que
1/φ(z) a le développement en série entière suivant
∞
X
1/φ(z) = ξj z j = ξ(z), |z| < 1 + ε .
j=0
En conséquence, ξj (1 + ε/2)j → 0 lorsque j → ∞ de telle sorte qu’il existe K ∈ (0, ∞) pour

lequel
|ξj | < K(1 + ε/2)−j , ∀j = 0, 1, 2, . . .
P
En particulier, ∞ j=0 |ξj | < ∞ et ξ(z)φ(z) = 1 pour |z| ≤ 1.
19
D’après la Proposition précédente, on peut appliquer l’opérateur ξ(B) aux deux membres
de l’équation φ(B)Xt = θ(B)Zt ce qui donne
Xt = ξ(B)θ(B)Zt .
Ceci fournit la représentation attendue :
X
Xt = ψj Zt−j .
j≥0
P P∞
On suppose maintenant que {Xt } est causal i.e : Xt = ∞ j=0 ψj Zt−j où j=0 |ψj | < ∞. On
a alors
θ(B)Zt = φ(B)Xt = φ(B)ψ(B)Zt .
P∞
Posons η(z) = φ(z)ψ(z) = j=0 ηj z j , |z| ≤ 1, on peut réécrire l’équation précédente sous la
forme
Xq X∞
θj Zt−j = ηj Zt−j .
j=0 j=0
On multiplie chaque membre de l’équation précédente par Zt−k et on prend l’espérance.
Comme Zt est un bruit blanc, on obtient que ηk = θk , k = 0, . . . , q et ηk = 0, k > q. Ainsi
θ(z) = η(z) = φ(z)ψ(z), |z| ≤ 1 .
Comme θ(z) et φ(z) n’ont pas de racines communes et |ψ(z)| < ∞ pour |z| ≤ 1, on conclut
que φ(z) ne peut pas s’annuler lorque |z| ≤ 1.
Remarque 2. On retrouve à l’aide de la proposition précédente ce que l’on avait trouvé pour
l’AR(1).
On définit maintenant ce qu’est un processus ARMA inversible.
Définition 11. Un processus ARMA(p,q)
P défini par φ(B)Xt = θ(B)Zt est dit inversible s’il
existe une suite {πj } telle que j≥0 |πj | < ∞ et
X
Zt = πj Xt−j , t ∈ Z.
j≥0
Le théorème suivant donne une condition nécessaire et suffisante pour qu’un processus
ARMA soit inversible.
Proposition 5. Soit {Xt } un processus ARMA(p,q) tels que les polynômes φ(.) et θ(.) n’ont
pas de racines communes. Alors {Xt } est inversible si et seulement si θ(z) 6= 0, pour tout z ∈ C
tel que |z| ≤ 1. Les coefficients {πj } caractérisant la solution inversible évoquée précédemment
sont déterminés par la relation
X
π(z) = πj z j = φ(z)/θ(z), |z| ≤ 1 .
j≥0
Démonstration. La preuve est similaire à celle de la proposition précédente.

Proposition 6. Si φ(z) 6= 0, pour tout z de module 1 alors l’équation φ(B)Xt = θ(B)Zt a
une unique solution stationnaire s’écrivant comme suit
X
Xt = ψj Zt−j ,
j∈Z
où ψj a la même définition que celle donnée précédemment.
20
2.2 Calcul de la fonction d’autocovariance d’un processus ARMA(p,q)
On donne à présent une méthode pour calculer la fonction d’auto-covariance d’un proces-
sus ARMA.
D’après la Proposition 3, on a que la fonction d’autocovariance d’un processus ARMA(p,q)
causal solution de φ(B)Xt = θ(B)Zt satisfait
∞
X
2
γ(k) = σ ψj ψj+|k| (2.2)
j=0
où
∞
X
ψ(z) = ψj z j = θ(z)/φ(z), lorsque |z| ≤ 1
j=0
et θ(z) = 1 + θ1 z + θ2 + · · · + θq z q , φ(z) = 1 − φ1 z − · · · − φp z p . Pour déterminer les

z2
coefficients ψj , on réécrit l’équation précédente sous la forme : ψ(z)φ(z) = θ(z) et on égalise
les coefficients de z j pour obtenir (en posant θ0 = 1, θj = 0 pour j > q et φj = 0 pour j > p) :
X
ψj − φk ψj−k = θj , 0 ≤ j < max(p, q + 1) (2.3)
0<k≤j
et X
ψj − φk ψj−k = 0, j ≥ max(p, q + 1) . (2.4)
0<k≤p
Les deux relations précédentes permettent, en utilisant (2.2) de calculer la fonction d’auto-
covariance d’un ARMA(p,q). En effet, la solution générale de (2.4) peut s’écrire sous la forme :
k rX
X i −1
ψn = αij nj ξi−n , n ≥ max(p, q + 1) − p

i=1 j=0
où les ξi , i P
= 1, . . . , k sont les racines distinctes de φ et ri est la multiplicité de ξi . En
particulier, ki=1 ri = p. Les p constantes αij sont déterminées par les équations (2.3) ainsi
que les ψj tels que 0 ≤ j < max(p, q + 1) − p.
Exemple 15.
On considère le processus ARMA : (1 − B + B 2 /4)Xt = (1 + B)Zt . On veut calculer sa

fonction d’auto-covariance. On a d’une part
ψ 0 = θ0 = 1
ψ1 = θ1 + ψ0 φ1 = θ1 + φ1 = 2
et d’autre part grâce à (2.4), on a
ψj − ψj−1 + ψj−2 /4 = 0, j ≥ 2 .
La solution de l’équation précédente est
ψn = (α10 + nα11 )2−n , n ≥ 0 .
21
Les constantes α10 et α11 sont trouvées en utilisant que ψ0 = 1 et ψ1 = 2 grâce aux deux
premières équations, on en déduit
α10 = 1 et α11 = 3 .
Ainsi
ψn = (1 + 3n)2−n , n = 0, 1, 2, . . .
On obtient donc, pour k ≥ 0,
X
γ(k) = σ 2 (1 + 3j)(1 + 3j + 3k)2−2j−k
j≥0
X£ ¤
= σ 2 2−k (3k + 1)4−j + 3(3k + 2)j4−j + 9j 2 4−j
j≥0
2 −k
= σ 2 [4(3k + 1)/3 + 12(3k + 2)/9 + 180/27]
2 −k
= σ 2 [32/3 + 8k] .
22
Chapitre 3
Représentation spectrale d’un

processus stationnaire
La représentation spectrale d’un processus stationnaire {Xt , t ∈ Z} consiste à décomposer

{Xt } en une somme de sinusoı̈des avec des coefficients aléatoires décorrélés. La représentation
spectrale pour les processus stationnaires est l’analogue de la représentation en séries de
Fourier pour les fonctions déterministes.
3.1 Séries chronologiques à valeurs complexes

Définition 12. Le processus {Xt } est un processus stationnaire à valeurs complexes si E|Xt |2 <
∞, E(Xt ) et E(Xt+h Xt ) sont indépendants de t.
Définition 13. La fonction d’autocovariance d’un processus stationnaire à valeurs complexes

{Xt } est définie par
γ(h) = E(Xt+h Xt ) − E(Xt+h )E(Xt ) .
On donne maintenant les propriétés des fonctions d’autocovariance d’un processus à va-
leurs complexes
γ(0) ≥ 0 (3.1)
|γ(h)| ≤ γ(0), pour tout entier h (3.2)
γ(.) est hermitienne i.e. γ(h) = γ(−h) (3.3)
Théorème 2. Une fonction K(.) définie sur les entiers est la fonction d’autocovariance d’un
processus stationnaire (à valeurs complexes) si et seulement si K(.) est hermitienne et définie
positive i.e. si et seulement si K(n) = K(−n) et
n
X
ai K(i − j)aj ≥ 0
i,j=1
pour tout entier positif n et pour tous nombres complexes (aj )1≤j≤n .
23
3.2 Distribution spectrale d’une combinaison linéaire de si-
nusoı̈des
On considère le processus {Xt } défini par
n
X
Xt = A(λj )eitλj ,
j=1
où −π < λ1 < λ2 < · · · < λn = π et A(λ1 ), . . . , A(λn ) sont des coefficients aléatoires à valeurs
complexes décorrélés tels que
E(A(λj )) = 0, j = 1, . . . , n
et
E(A(λj )A(λj )) = σj2 , j = 1, . . . , n .
Pn 2 ihλj
{Xt } est un processus stationnaire puisque E(Xt ) = 0 et E(Xt+h Xt ) = j=1 σj e = γ(h)
sont indépendants de t. On remarque que
Z
γ(h) = eihν dF (ν)
[−π,π]
P
où F (λ) = j:λj ≤λ σj2 .
On verra dans la suite que la fonction d’autocovariance de tout processus stationnaire
peut s’écrire sous la forme ci-dessus avec F bornée.
3.3 Théorème de Herglotz

Théorème 3. Une fonction γ définie sur les entiers et à valeurs complexes est définie positive
si et seulement si Z
γ(h) = eihν dF (ν), h ∈ Z (3.4)
[−π,π]
où F (.) est continue à droite, croissante, bornée sur [−π, π] et telle que F (−π) = 0. La
Rλ
fonction f définie par F (λ) = −π f (ν)dν est appelée la densité spectrale de γ(.).
Démonstration. Si γ(.) est définie par (3.4) alors γ(.) est bien hermitienne et définie positive
et donc une fonction d’autocovariance.
Inversement, supposons que γ(.) est une fonction définie positive sur les entiers. On définit
alors
N
1 X −irν 1 X
fN (ν) = e γ(r − s)eisν = (N − |m|)e−imν γ(m) .
2πN 2πN
r,s=1 |m|<N
γ(.) étant définie positive, on a

fN (ν) ≥ 0, pour tout ν ∈ [−π, π].
Soit FN la fonction de répartition associée à la densité fN (.)1I[−π,π] (.). Ainsi, FN (λ) = 0, si
λ ≤ −π, FN (λ) = FN (π), si λ ≥ π et
Z λ
FN (λ) = fN (ν)dν, si − π ≤ λ ≤ π .
−π
24
Alors pour tout entier h,
Z µ ¶ Z π
ihν 1 X |m|
e dFN (ν) = 1− γ(m) ei(h−m)ν dν
[−π,π] 2π N −π
|m|<N
i.e. ( ³ ´
Z |h|
1− γ(h), si |h| < N
eihν dFN (ν) = N
[−π,π] 0, sinon .
On applique le théorème de Helly pour déduire qu’il existe une fonction de répartition F et une
sous-suite FNk de FN telle que pour toute fonction continue bornée g vérifiant g(−π) = g(π),
on ait Z Z
g(ν)dFNk (ν) → g(ν)dF (ν), lorsque k → ∞ .
[−π,π] [−π,π]
En remplaçant N par Nk dans l’égalité précédente et en faisant tendre k vers l’infini, on

obtient Z
γ(h) = eihν dF (ν),
[−π,π]
qui est la représentation spectrale attendue de γ(.).
Théorème 4. Si K(.) est une fonction complexe quelconque définie sur les entiers telle que
X
|K(n)| < ∞
n∈Z
alors Z π
K(h) = eihν f (ν)dν, h ∈ Z
−π
où
1 X −inλ
f (λ) = e K(n) .
2π
n∈Z
Démonstration.
Z π Z π X
ihν 1
e f (ν)dν = ei(h−n)ν K(n) dν = K(h),
−π 2π −π n∈Z
R P
où on a pu intervertir le signe Σ et l’ par le théorème de Fubini puisque n∈Z |K(n)| <
∞.
Corollaire 1. Une fonction complexe absolument sommable γ(.) à valeurs complexes définie
sur les entiers est la fonction d’autocovariance d’un processus stationnaire si et seulement si
1 X −inλ
f (λ) := e γ(n) ≥ 0, pour tout λ ∈ [−π, π],
2π
n∈Z
auquel cas f (.) est la densité spectrale de γ(.).
25
Démonstration. Supposons que γ(.) est une fonction d’autocovariance. Puisque γ est définie
positive et absolument sommable,
N
1 X −irλ
0 ≤ fN (λ) = e γ(r − s)eisλ
2πN
r,s=1
µ ¶
1 X |m| −imλ
= 1− e γ(m) → f (λ), lorsque N → ∞ .
2π N
|m|<N
Ainsi
R π ihν f (λ) ≥ 0 pour tout λ ∈ [−π, π]. En utilisant le théorème précédent, on a que γ(h) =
−π e f (ν)dν pour h ∈ Z.
Inversement, supposons
R π ihνuniquement que γ est absolument sommable.
R π ihνD’après le théorème
précédent, γ(h) = −π e f (ν)dν. Si f (λ) ≥ 0, alors γ(h) = −π e dF (ν) où F (λ) =
Rλ
−π f (ν)dν. Ceci implique d’apres le théorème 3 de Herglotz que γ(.) est une fonction d’au-
tocovariance de densité spectrale f .
Exemple 16.
Nous pouvons prouver grâce à ce corollaire que la fonction K définie par

 1, si h = 0
K(h) = ρ, si h = 1 et h = −1

0, sinon .
est une fonction d’autocovariance si et seulement si |ρ| ≤ 1/2.
3.4 Densité spectrale des processus ARMA

Théorème 5. Soit {Yt } un processus stationnaire de moyenne nulle pouvant être à valeurs
complexes de fonction de répartition spectrale FY (.) et {Xt } le processus défini par
X X
Xt = ψj Yt−j où |ψj | < ∞,
j∈Z j∈Z
alors {Xt } est un processus stationnaire de fonction de répartition spectrale

¯ ¯2
Z ¯X ¯
¯ ¯
−ijν ¯
¯
FX (λ) = ¯ ψ j e ¯ dFY (ν), −π ≤ λ ≤ π .
[−π,λ] ¯ j∈Z ¯
Démonstration. D’après ce que l’on a vu dans le chapitre sur les processus ARMA, {Xt } est
un processus stationnaire de moyenne nulle et de fonction d’autocovariance
X
E(Xt+h Xt ) = ψj ψk γY (h − j + k), h ∈ Z.
j,k∈Z
En utilisant la représentation spectrale de γY , on obtient

X Z
γX (h) = ψj ψk ei(h−j+k)ν dFY (ν)
j,k∈Z [−π,π]
 Ã ! ¯ ¯2
Z Z ¯ ¯
X X ¯ X ¯
 −ijν  ikν ihν ihν ¯ −ijν ¯
= ψj e ψk e e dFY (ν) = e ¯ ψj e ¯ dFY (ν)
[−π,π] j∈Z k∈Z [−π,π] ¯ j∈Z ¯
26
ce qui permet d’identifier la fonction de répartition spectrale de {Xt }.
P
Remarque
P 3. Si {Yt } a pour densité spectrale fY et si {Xt } est défini par Xt = j∈Z ψj Yt−j
où j∈Z |ψj | < ∞, alors la densité spectrale de {Xt } vaut
fX (λ) = |ψ(e−iλ )|2 fY (λ),

P
où ψ(e−iλ ) = j∈Z ψj e
−ijλ .
On peut en déduire la densité spectrale d’un processus ARMA(p,q).
Théorème 6. Soit {Xt } un processus ARMA(p,q) (pas nécessairement causal ou inversible)

satisfaisant
φ(B)Xt = θ(B)Zt , où {Zt } est un bruit blanc d’espérance nulle et de variance σ 2
où φ(z) = 1 − φ1 z − · · · − φp z p et θ(z) = 1 + θ1 z + · · · + θq z q n’ont pas de racines communes

et φ(z) n’a pas de racines sur le cercle unité. Alors, {Xt } a pour densité spectrale
σ 2 |θ(e−iλ )|2
fX (λ) = , −π ≤ λ ≤ π .
2π |φ(e−iλ )|2
Démonstration. Trivial.
Exemple 17. Densité spectrale d’un MA(1)
Si Xt = Zt + θZt−1 , où {Zt } est un bruit blanc d’espérance nulle et de variance σ 2 alors
σ2 σ2
fX (λ) = |1 + θe−iλ |2 = (1 + 2θ cos(λ) + θ2 ), −π ≤ λ ≤ π .
2π 2π
Exemple 18. Densité spectrale d’un AR(1)
Si Xt − φXt−1 = Zt , où {Zt } est un bruit blanc d’espérance nulle et de variance σ 2 alors
σ2 σ2
fX (λ) = |1 − φe−iλ |−2 = (1 − 2φ cos(λ) + φ2 )−1 , −π ≤ λ ≤ π .
2π 2π
3.5 Causalité, inversibilité et densité spectrale

Soit {Xt } un processus ARMA(p,q) satisfaisant
φ(B)Xt = θ(B)Zt , où {Zt } est un bruit blanc d’espérance nulle et de variance σ 2
où φ(z)θ(z) 6= 0 pour tout z de module 1.

On va montrer que l’on peut proposer une représentation causale et inversible d’un pro-
cessus ARMA(p,q).
On factorise les polynômes φ et θ sous la forme
p
Y q
Y
(1 − a−1
j B)Xt = (1 − b−1
j B)Zt
j=1 j=1
27
où {Zt } est un bruit blanc d’espérance nulle et de variance σ 2 et
|aj | > 1, 1 ≤ j ≤ r, |aj | < 1, r < j ≤ p,
et
|bj | > 1, 1 ≤ j ≤ s, |bj | < 1, s < j ≤ q .
Le théorème précédent donne pour {Xt } la densité spectrale suivante
Qq −1 −iλ 2
σ 2 j=1 |1 − bj e |
fX (λ) = Qp .
2π j=1 |1 − a−1 j e
−iλ |2
Définissons à présent, Y Y
φ̃(B) = (1 − a−1
j B) (1 − aj B)
1≤j≤r r<j≤p
et Y Y
θ̃(B) = (1 − b−1
j B) (1 − bj B)
1≤j≤s s<j≤q
alors le processus ARMA défini par φ̃(B)X̃t = θ̃(B)Zt a pour densité spectrale
σ 2 |θ̃(e−iλ )|2
fX̃ (λ) = .
2π |φ̃(e−iλ )|2
Puisque
|1 − bj e−iλ | = |1 − bj eiλ | = |bj ||1 − b−1
j e
−iλ
|,
fX̃ peut être réécrit sous la forme
Q
s<j≤q |bj |2
fX̃ (λ) = Q f (λ)
2 X
.
r<j≤p |aj |
Ainsi le processus ARMA(p,q) {Xt+ } défini par

φ̃(B)Xt+ = θ̃(B)Z̃t
³Q ´2 ³Q ´−2
où Z̃t est un bruit blanc d’espérance nulle et de variance σ 2 |a
r<j≤p j | |b
s<j≤q j |
est causal et inversible et a exactement la même densité spectrale (et donc la même fonction
d’autocovariance) que {Xt }. En fait, {Xt } a la représentation causale et inversible
φ̃(B)Xt = θ̃(B)Zt∗
où {Zt∗ } est un bruit blanc ayant la même variance que {Z̃t } puisque les racines de φ̃ et de θ̃
ont des racines de module strictement plus grand que 1.
Exemple 19.
Le processus ARMA
Xt − 2Xt−1 = Zt + 4Zt−1 ,
où {Zt } est un bruit blanc de moyenne nulle et de variance σ 2 . {Xt } a la représentation
causale inversible donnée par
Xt − 0.5Xt−1 = Zt∗ + 0.25Zt−1
∗
,
où {Zt∗ } est un bruit blanc d’espérance nulle et de variance 4σ 2 .
28
Chapitre 4
Prédiction de processus
stationnaires
Dans ce chapitre, nous nous intéressons au problème de la prédiction des valeurs {Xt , t ≥
n + 1} d’un processus stationnaire à partir des valeurs {X1 , . . . , Xn }. Etant donné un sous-
espace fermé M de L2 , le meilleur prédicteur de Xn+h appartenant à M est défini comme
l’élément de M étant à la plus petite distance (issue de la norme L2 ) de Xn+h . D’après ce que
l’on sait sur l’espace L2 , il s’agit de la projection sur le sous-espace fermé M. On s’intéressera
dans ce chapitre à la meilleure prédiction linéaire i.e. à la meilleure combinaison linéaire de
1, X1 , . . . , Xn définie par Psp{1,X1 ,...,Xn } Xn+h , où sp{1, X1 , . . . , Xn } désigne la fermeture de
l’espace vectoriel engendré par 1, X1 , . . . , Xn .
4.1 Prédiction d’un processus stationnaire

On supposera dans tout ce chapitre que {Xt } est d’espérance nulle. Ainsi,
Psp{1,X1 ,...,Xn } Xn+h = Psp{X1 ,...,Xn } Xn+h .
4.1.1 Prédiction à “un pas”

Soit Hn le sous-espace vectoriel fermé : sp{X1 , . . . , Xn } et soit X̂n+1 , n ≥ 0 le prédicteur
à un pas défini par ½
0, si n = 0
X̂n+1 =
PHn Xn+1 , si n ≥ 1 .
Puisque X̂n+1 ∈ Hn , n ≥ 1, nous pouvons écrire
X̂n+1 = φn1 Xn + · · · + φnn X1 , n ≥ 1,
où φn1 , . . . , φnn satisfont (puisque Xn+1 − PHn Xn+1 est orthogonal à Hn ) :
* n
+
X
Xn+1 − φni Xn+1−i , Xn+1−j = 0, , j = 1, . . . , n
i=1
soit encore * +
n
X
φni Xn+1−i , Xn+1−j = hXn+1 , Xn+1−j i , j = 1, . . . , n
i=1
29
où hX, Y i = E(XY ). Les équations précédentes peuvent s’écrire sous la forme
n
X
φni γ(i − j) = γ(j), j = 1, . . . , n
i=1
ou de façon équivalente
Γn φn = γn , (4.1)
où Γn = [γ(i − j)]i,j=1,...,n , γn = (γ(1), . . . , γ(n))0 )0 .
et φn = (φn1 , . . . , φnn L’équation (4.1) a
une seule solution si et seulement si Γn est inversible auquel cas la solution vaut :
φn = Γ−1
n γn .
La proposition suivante fournit les conditions suffisantes assurant que Γn est inversible
pour tout n. On a ainsi les conditions sous lesquelles on peut calculer le prédicteur à “un
pas”.
Proposition 7. Si γ(0) > 0 et si γ(h) → 0 lorsque h → ∞ alors la matrice de covariance
Γn = [γ(i − j)]i,j=1,...,n est inversible pour tout n.
Démonstration. On fait une preuve par récurrence. Γ1 = γ(0) > 0 est donc inversible. Sup-
posons que Γr est inversible, montrons que Γr+1 est inversible. Pour cela supposons que Γr+1
n’est pas inversible. On en déduit qu’il existe a non nul dans Rr+1 tel que ar+1 6= 0 et tel que
a0 Γr+1 a = 0.
En effet, si l’on suppose que ar+1 = 0,
Ã !µ ¶
.. ã
0 0
0 = a Γr+1 a = (ã ar+1 ) Γ r . = ã0 Γr ã .
· · · γ(0) a r+1
Or a 6= 0 donc ã 6= 0 et ã0 Γr ã = 0 ainsi Γr est non inversible : contradiction.

On peut supposer sans perte de généralité que ar+1 = 1.
Montrons que pour tout h ≥ 1, Xr+h est une combinaison linéaire de X1 , . . . , Xr .
Ã !2 
r+1
X
£ ¤
0 = a0 Γr+1 a = a0 E (X1 , . . . , Xr+1 )0 (X1 , . . . , Xr+1 ) a = E  ak Xk  .
k=1
On en déduit que
r
X r
X
Xr+1 = − ak Xk = bk Xk .
k=1 k=1
Par stationnarité de {Xt }, on a
£ ¤ £ ¤
E (X1 , . . . , Xr+1 )0 (X1 , . . . , Xr+1 ) = E (Xh , . . . , Xr+h )0 (Xh , . . . , Xr+h )
et donc
r
X
Xr+h = bj Xj+h−1 , ∀h ≥ 1 .
j=1
On en déduit que pour tout n ≥ r + 1, Xn est une combinaison linéaire de X1 , . . . , Xr i.e.

0
Xn = b(n) (X1 , . . . , Xr )0 .
30
A partir de l’écriture précédente, on déduit
0 0
γ(0) = b(n) Γr b(n) = b(n) U ΛU 0 b(n) ,
où les éléments de la diagonale de Λ sont : 0 < λ1 ≤ · · · ≤ λr . Ainsi,

r
X
0 (n)
γ(0) ≥ λ1 b(n) U U 0 b(n) = λ1 (bj )2
j=1
(n) Pr (n)
ce qui montre que les bj sont bornés. On peut aussi écrire γ(0) = Cov(Xn , j=1 bj Xj ) et
on en déduit
r
X (n)
0 < γ(0) ≤ |bj | |γ(n − j)| .
j=1
On ne peut donc pas avoir que γ(0) > 0 puisque γ(h) → 0 lorsque h → ∞ : c’est une
contradiction. On en déduit donc que Γr+1 est inversible et donc, par récurrence, on a le
résultat attendu.
Corollaire 2. Sous les hypothèses de la proposition précédente, le meilleur prédicteur linéaire

X̂n+1 de Xn+1 en fonction de X1 , . . . , Xn est
n
X
X̂n+1 = φni Xn+1−i , n = 1, 2, . . .
i=1
où φn := (φn1 , . . . , φnn )0 = Γ−1 0

n γn , γn = (γ(1), . . . , γ(n)) et Γn = [γ(i − j)]i,j=1,...,n . L’erreur
quadratique moyenne vaut : vn = γ(0) − γn Γn γn .0 −1
Démonstration. Le début a déjà été vu. On calcule maintenant vn .

·³ ´2 ¸ n
X
vn = E Xn+1 − X̂n+1 = γ(0) + φ0n Γn φn −2 φni γ(i) = γ(0) + γn0 Γ−1 0 −1
n γn − 2γn Γn γn
i=1
= γ(0) − γn0 Γ−1
n γn .
4.1.2 Prédiction à “h pas”, h ≥ 1

Le meilleur prédicteur de Xn+h en fonction de X1 , . . . , Xn pour tout h ≥ 1 peut se calculer
exactement de la même façon que X̂n+1 et donc
(h)
PHn Xn+h = φn1 Xn + · · · + φ(h)
nn X1 , n, h ≥ 1
(h) (h) (h)

où φn = (φn1 , . . . , φnn )0 est solution (unique si Γn est inversible) de
Γn φ(h) (h)
n = γn
(h)
où γn = (γ(h), γ(h + 1), . . . , γ(n + h − 1))0 .
31
4.2 Algorithmes récursifs pour calculer les meilleurs prédicteurs
linéaires
L’utilisation d’algorithmes récursifs est très importante en pratique. En effet, on n’a ainsi
pas besoin d’inverser la matrice Γn qui peut être de grande dimension lorsque n est très grand.
D’autre part, les algorithmes récursifs permettent d’utiliser le prédicteur linéaire calculé à
partir de n observations lorsque le nombre d’observations devient égal à n + 1 pour calculer
le prédicteur linéaire à partir de n + 1 observations.
4.2.1 Algorithme de Durbin-Levinson

L’algorithme de Durbin-Levinson détaillé dans la proposition suivante explique comment
calculer φn = (φn1 , . . . , φnn )0 et vn correspondant à l’erreur quadratique moyenne donnée par
h i
vn = E (Xn+1 − X̂n+1 )2 , n ≥ 1 .
Proposition 8. Si {Xt } est un processus stationnaire de moyenne nulle et de fonction d’au-

tocovariance γ(.) telle que γ(0) > 0 et γ(h) → 0 lorsque h → ∞ alors les coefficients φni
définis par
X̂n+1 = φn1 Xn + · · · + φnn X1 , n ≥ 1,
et vn défini ci-dessus satisfont : φ11 = γ(1)/γ(0), v0 = γ(0),
 
n−1
X
−1
φnn = γ(n) − φn−1,j γ(n − j) vn−1 ,
j=1
     
φn,1 φn−1,1 φn−1,n−1
 ..   ..   .. 
 . = .  − φnn  . 
φn,n−1 φn−1,n−1 φn−1,1
et
vn = vn−1 (1 − φ2nn ) .
Démonstration. Par définition, K1 = sp{X2 , . . . , Xn } et K2 = sp{X1 − PK1 (X1 )} sont des

sous-espaces orthogonaux de Hn = sp{X1 , . . . , Xn }. De plus, si Y ∈ L2 , on a : PHn (Y ) =
PK1 (Y ) + PK2 (Y ). Ainsi,
X̂n+1 = PK1 (Xn+1 ) + PK2 (Xn+1 ) = PK1 (Xn+1 ) + a(X1 − PK1 (X1 ))
où
a = hXn+1 , X1 − PK1 (X1 )i /kX1 − PK1 (X1 )k2 .
En effet, en multipliant les deux membres de l’égalité définissant X̂n+1 par X1 − PK1 (X1 ), on
obtient : D E
a = X̂n+1 , X1 − PK1 (X1 ) /kX1 − PK1 (X1 )k2 ,
D E
d’autre part, X̂n+1 − Xn+1 , X1 − PK1 (X1 ) = 0 puisque X1 − PK1 (X1 ) est dans K2 ⊂ Hn
et X̂n+1 − Xn+1 est orthogonal à Hn .
32
En utilisant la stationnarité du processus {Xt }, on a que (X1 , . . . , Xn ) a la même fonction
d’autocovariance que (Xn , Xn−1 , . . . , X1 ) et (X2 , . . . , Xn+1 ) et donc :
n−1
X
PK1 (X1 ) = φn−1,j Xj+1
j=1
n−1
X
PK1 (Xn+1 ) = φn−1,j Xn+1−j
j=1
et
kX1 − PK1 (X1 )k2 = kXn+1 − PK1 (Xn+1 )k2 = kXn − X̂n k2 = vn−1 .
On en déduit que
n−1
X
X̂n+1 = aX1 + (φn−1,j − aφn−1,n−j ) Xn+1−j
j=1
où
   
n−1
X n−1
X
−1 −1
a = hXn+1 , X1 i − φn−1,j hXn+1 , Xj+1 i vn−1 = γ(n) − φn−1,j γ(n − j) vn−1 .
j=1 j=1
D’après les hypothèses de la proposition, la représentation suivante est unique

n
X
X̂n+1 = φnj Xn+1−j .
j=1
En comparant les coefficients des deux décompositions de X̂n+1 , on a
φnn = a
et
φnj = φn−1,j − aφn−1,n−j , j = 1, . . . , n − 1 .
On doit maintenant établir le résultat concernant vn .
vn = kXn+1 − X̂n+1 k2 = kXn+1 − PK1 (Xn+1 ) − PK2 (Xn+1 )k2

= kXn+1 − PK1 (Xn+1 )k2 + kPK2 (Xn+1 )k2 − 2 hXn+1 − PK1 (Xn+1 ), PK2 (Xn+1 )i
= vn−1 + a2 vn−1 − 2a hXn+1 , X1 − PK1 (X1 )i .
D’après la définition de a, on a :
vn = vn−1 (1 − a2 ) .
Remarque 4. Lien avec la fonction d’autocorrélation partielle (voir TD).
33
4.2.2 Algorithme des innovations
L’idée centrale de la proposition précédente consistait à décomposer Hn en deux sous-
espaces orthogonaux : K1 et K2 . L’idée de l’algorithme des innovations consiste à decomposer
Hn en n sous-espaces orthogonaux au moyen de la procédure de Gram-Schmidt.
L’algorithme des innovations est plus facilement applicable puisque l’on permet à {Xt }
de ne pas être un processus stationnaire. On le suppose uniquement de moyenne nulle et de
fonction d’autocovariance
κ(i, j) = E(Xi Xj ) .
Rappelons que Hn = sp{X1 , . . . , Xn } et vn = kXn+1 − X̂n+1 k2 . On a, en posant X̂1 = 0,
Hn = sp{X1 − X̂1 , X2 − X̂2 , . . . , Xn − X̂n }, n ≥ 1
de telle sorte que

n
X ³ ´
X̂n+1 = θnj Xn+1−j − X̂n+1−j .
j=1
L’algorithme des innovations décrit dans la proposition suivante fournit une méthode récursive
permettant de calculer (θnj , j = 1, . . . , n ; vn ), n = 1, 2, . . .
Proposition 9. Si {Xt } a une moyenne nulle et E(Xi Xj ) = κ(i, j), où la matrice [κ(i, j)]i,j=1,...,n
est inversible pour tout n ≥ 1 alors
½
0, si n = 0
X̂n+1 = Pn
j=1 θnj (Xn+1−j − X̂n+1−j ), si n ≥ 1
et 

 ³ v0 = κ(1, 1) ´
Pk−1
θn,n−k = vk−1 κ(n + 1, k + 1) − j=0 θk,k−j θn,n−j vj , k = 0, 1, . . . , n − 1,

 Pn−1 2
vn = κ(n + 1, n + 1) − j=0 θn,n−j vj .
Démonstration. Par définition de Hn , (Xi − X̂i ) ∈ Hj−1 lorsque i < j et par définition de X̂j ,
on a que (Xj − X̂j ) est orthogonal à Hj−1 . On considère
n
X
X̂n+1 = θnj (Xn+1−j − X̂n+1−j )
j=1
et on fait le produit scalaire des deux membres de l’égalité précédente avec Xk+1 − X̂k+1 ,
0 ≤ k < n et on obtient D E
X̂n+1 , Xk+1 − X̂k+1 = θn,n−k vk .
Puisque (Xn+1 − X̂n+1 ) est orthogonal à (Xk+1 − X̂k+1 ) lorsque 0 ≤ k < n, les coefficients
θn,n−k , k = 0, . . . , n − 1 sont donnés par
D E
θn,n−k = vk−1 Xn+1 , Xk+1 − X̂k+1 . (4.2)
En utilisant que
k
X k−1
X
X̂k+1 = θkj (Xk+1−j − X̂k+1−j ) = θk,k−j (Xj+1 − X̂j+1 ),
j=1 j=0
34
 
k−1
X D E
θn,n−k = vk−1 κ(n + 1, k + 1) − θn,k−j Xn+1 , Xj+1 − X̂j+1  .
j=0
D E
D’après (4.2), Xn+1 , Xj+1 − X̂j+1 = vj θn,n−j , 0 ≤ j < n, l’égalité ci-dessus se réécrit
 
k−1
X
θn,n−k = vk−1 κ(n + 1, k + 1) − θn,k−j θn,n−j vj  .
j=0
Prouvons à présent le résultat concernant vn :

n−1
X
2 Pythagore 2 2 2
vn = kXn+1 − X̂n+1 k = kXn+1 k − kX̂n+1 k = κ(n + 1, n + 1) − θn,n−k vk .
k=0
Exemple 20. Prédiction d’un processus MA(1) à l’aide de l’algorithme des innovations (cf
TD)
4.2.3 Calcul récursif d’un prédicteur à “h pas”

Notons Pn l’opérateur de projection sur Hn alors le prédicteur à h pas : Pn (Xn+h ) peut
être calculé comme suit
 
n+h−1
X ³ ´
Pn (Xn+h ) = Pn (Pn+h−1 (Xn+h )) = Pn (X̂n+h ) = Pn  θn+h−1,j Xn+h−j − X̂n+h−j  .
j=1
Puisque (Xn+h−j − X̂n+h−j ) est orthogonal à Hn lorsque j < h, on a
n+h−1
X ³ ´
Pn (Xn+h ) = θn+h−1,j Xn+h−j − X̂n+h−j
j=h
où les coefficients θnj ont été déterminés précédemment.

De plus,
£ ¤ Pythagore
E (Xn+h − Pn (Xn+h ))2 = kXn+h k2 − kPn (Xn+h )k2
n+h−1
X
2
= κ(n + h, n + h) − θn+h−1,j vn+h−j−1 .
j=h
35
Chapitre 5
Estimation de la moyenne et de la
fonction d’autocovariance
Si {Xt } est un processus stationnaire alors sa moyenne µ et son autocovariance γ(.) contri-
buent à sa caractérisation. C’est pour cela que l’estimation de µ, de γ et de la fonction d’au-
tocorrélation ρ(.) = γ(.)/γ(0) à partir des observations X1 , . . . , Xn joue un rôle crucial dans
la modélisation des données. Dans ce chapitre, on va proposer des estimateurs des différents
paramètres précédents et donner leurs propriétés statistiques.
5.1 Estimation de µ
Un estimateur sans biais naturel de la moyenne µ d’un processus stationnaire {Xt } est la
moyenne empirique
X̄n = (X1 + · · · + Xn )/n .
£ ¤
On commence par examiner le comportement de l’erreur quadratique moyenne : E (X̄n − µ)2
lorsque n tend vers l’infini.
Proposition 10. Si {Xt } est un processus stationnaire de moyenne µ et de fonction d’auto-

covariance γ, alors, lorsque n tend vers l’infini
£ ¤
Var(X̄n ) = E (X̄n − µ)2 → 0, si γ(n) → 0
et £ ¤ X X
nE (X̄n − µ)2 → γ(h), si |γ(h)| < ∞ .
h∈Z h∈Z
Démonstration.
 2   
Xn n
X
1 1
n Var(X̄n ) = E  (Xj − µ)  = E  (Xi − µ)(Xj − µ)
n n
j=1 i,j=1
n
X n n
1 1 X 1 X
= E [(Xi − µ)(Xj − µ)] = Cov(Xi , Xj ) = γ(i − j)
n n n
i,j=1 i,j=1 i,j=1
36
n−1
X µ ¶ X
|h|
= 1− γ(h) ≤ |γ(h)| .
n
h=−(n−1) |h|<n
L’égalité
n n−1 µ ¶
1 X X |h|
γ(i − j) = 1− γ(h)
n n
i,j=1 h=−(n−1)
vient du fait que la matrice [γ(i − j)]1≤i,j≤n est une matrice de Toeplitz ayant (n − 1) termes
sur la première surdiagonale tous égaux à γ(1), (n − 2) termes sur la deuxième surdiagonale
tous égaux à γ(2)... P
γ(n) → 0, alors par Césaro, ( |h|<n |γ(h)|)/n → 0 et donc Var(X̄n ) → 0.
Si P
Si k∈Z |γ(h)| < ∞, alors par le théorème de convergence dominée, on a le second résultat
attendu.
P
Remarque 5. Si h∈Z |γ(h)| < ∞, alors {Xt } a une densité spectrale f et d’après ce qui a
été vu dans le chapitre sur la représentation spectrale des processus stationnaires,
X
n Var(X̄n ) → γ(h) = 2πf (0) .
h∈Z
P P P
Remarque 6. Si Xt = j∈Z ψj Zt−j et que j∈Z |ψj | < ∞ alors h∈Z |γ(h)| < ∞ et donc
 2
X X
n Var(X̄n ) → γ(h) = 2πf (0) = σ 2  ψj  .
h∈Z j∈Z
P P
Remarque 7. Sous l’hypothèse h∈Z |γ(h)| < ∞, Var(X̄n ) ∼ n−1 h∈Z γ(h). Ceci suggère
que, sous certaines conditions, on
P pourrait montrer que X̄n est asymptotiquement normal
d’espérance µ et de variance n−1 h∈Z γ(h).
Proposition 11. Si {Xt } est un processus stationnaire tel que

X
Xt = µ + ψj Zt−j
j∈Z
P P
où les Zt sont iid de moyenne nulle et de variance σ 2 , j∈Z |ψj | < ∞ et j∈Z ψj 6= 0 alors
√ L
n(X̄n − µ) −→ N (0, v)
P ³P ´2
où v = 2 et γ est la fonction d’autocovariance de {Xt }.
h∈Z γ(h) = σ j∈Z ψj
Démonstration. On définit
m
X
Xtm = µ + ψj Zt−j
j=−m
et Ã !
n
X
Ynm = X̄nm = Xtm /n .
t=1
37
Lorsque n → ∞,
√ L
n(Ynm − µ) −→ Ym ,
où   2 
m
X
Ym ∼ N 0, σ 2  ψj   .
j=−m
Cette affirmation vient de l’application du théorème central limite pour les suites stric-
tement stationnaires m-dépendantes. La propriété de m-dépendance généralise la notion
d’indépendance : des variables m-dépendantes sont indépendantes pourvu qu’elles soient
séparées d’au moins m unités de temps. Par exemple, un processus MA(q) est m-dépendant.
³P ´2 ³P ´2
m
Lorsque m → ∞, σ 2 j=−m jψ → σ 2 ψ
j∈Z j et donc, en utilisant le théorème
de Paul Lévy assurant l’équivalence entre convergence en loi et convergence des fonctions
caractéristiques correspondantes,
  2 
L
X
Ym −→ N 0, σ 2  ψj   .
j∈Z
En utilisant la remarque 6, on a
   2
n X
X X
¡√ ¢
Var n(X̄n − Ynm ) = n Var n−1 ψj Zt−j  →  ψj  σ 2 lorsque n → ∞ .
t=1 |j|>m |j|>m
Ainsi ¡√ ¢
lim lim sup Var n(X̄n − Ynm ) = 0 .
m→∞ n→∞
µ ³P ´2 ¶
√ L 2
On en déduit que n(X̄n − µ) −→ N 0, σ j∈Z ψj . En effet, le résultat se déduit de
la proposition suivante :
Soient (Xn ) et (Yn,j ) des variables aléatoires telles que

L
(i) Yn,j → Yj , lorsque n → ∞ pour chaque j = 1, 2, . . .
L
(ii) Yj → Y , lorsque j → ∞
(iii) limj→∞ lim supn→∞ P (|Xn − Ynj | > ε) = 0, ∀ε > 0,
alors
L
Xn → Y, lorsque n → ∞.
Cette proposition se démontre une fois encore en utilisant le théorème de Paul Lévy.
Remarque 8. Le théorème précédent sert à fournir des intervalles de confiance asympto-

tiques pour µ. Si le processus {Xt } est non seulement stationnaire mais aussi gaussien alors
on peut montrer que, pour n fini,
 
√ X µ |h|
¶
n(X̄n − µ) ∼ N 0, 1− γ(h) .
n
|h|<n
38
5.2 Estimation de γ et de ρ
Les estimateurs que nous allons utiliser pour γ(h) et ρ(h) sont
n−h
X
γ̂(h) = n−1 (Xt − X̄n )(Xt+h − X̄n ), 0 ≤ h ≤ n − 1,
t=1
ρ̂(h) = γ̂(h)/γ̂(0) .
L’estimateur γ̂(h) est biaisé mais on peut montrer (voir plus loin) que, sous certaines hy-
pothèses, il est asymptotiquement non biaisé i.e. que sa moyenne tend vers γ(h) lorsque
n → ∞.
Les estimateurs γ̂(h) ont aussi la propriété intéressante suivante : pour tout n ≥ 1, la
matrice  
γ̂(0) γ̂(1) . . . γ̂(n − 1)
 γ̂(1) γ̂(0) . . . γ̂(n − 2) 
 
Γ̂n =  .. 
 . 
γ̂(n − 1) γ̂(n − 2) . . . γ̂(0)
est définie positive. Pour montrer cela, on écrit
Γ̂n = n−1 T T 0 ,
où T est la matrice n × 2n suivante

 
0 ... 0 Y1 Y2 ... Yn
 0 ... 0 Y1 Y2 ... Yn 0 
 
T = . 
 .. 
0 Y1 Y2 . . . Yn 0 ... 0
et Yi = Xi − X̄n , i = 1, . . . , n. Ainsi pour tout vecteur a de taille n × 1,
a0 Γ̂n a = n−1 (a0 T )(a0 T )0 ≥ 0 .
De plus, on peut montrer que det(Γ̂n ) > 0, si γ̂(0) > 0.

La proposition suivante sera utile pour arriver à savoir quel processus ARMA(p,q) corres-
pond le mieux à la modélisation de la partie aléatoire de certaines données. En effet, on sait
que ρ(k) = 0, ∀|k| > q lorsque l’on a affaire à un MA(q). La proposition suivante va servir à
mettre au point un test pour savoir si ρ̂(k) est significativement différent de 0 ou pas.
Proposition 12. Si {Xt } est un processus stationnaire

X
Xt − µ = ψj Zt−j ,
j∈Z
P
où les {Zt } sont iid d’espérance nulle et de variance σ 2 , j∈Z |ψj | < ∞ et E(Zt4 ) < ∞ alors
pour tout h ∈ {1, 2, . . .}
√ L
n(ρ̂V (h) − ρV (h)) −→ N (0, W ) lorsque n → ∞
39
où
ρ̂V (h)0 = [ρ̂(1), . . . , ρ̂(h)]
ρV (h)0 = [ρ(1), . . . , ρ(h)]
et W est une matrice de covariance dont l’élément (i, j) est donné par la formule de Bartlett
X
wi,j = [ρ(k + i) + ρ(k − i) − 2ρ(i)ρ(k)] × [ρ(k + j) + ρ(k − j) − 2ρ(j)ρ(k)] .
k≥1
Remarque 9.
P
L’hypothèse E(Zt4 ) < ∞ peut être remplacée par 2
j∈Z |j|ψj < ∞.
Application 1 : Tester si des observations sont iid

1ère méthode : Fonction d’autocorrélation empirique
Si les Xt sont iid d’espérance nulle et de variance σ 2 alors ρ(l) = 0 si |l| > 0 et donc
½
1, si i = j,
wij =
0, sinon.
Pour n suffisamment grand, ρ̂(1), . . . , ρ̂(h) sont approximativement iid gaussiens d’espérance
nulle et de variance n−1 . Donc si on trace les autocorrélations empiriques ρ̂(k) en fonction de
k ≥ 1 et si celles-ci restent entre les bornes −1.96 × n−1/2 et 1.96 × n−1/2 alors ceci assure
que l’on a bien affaire à des données iid.
2ème méthode : Test de Portmanteau

Au lieu de regarder si chaque ρ̂(k) est bien dans l’intervalle de confiance précédent, on
peut envisager une statistique globale
h
X
Q=n ρ̂(j)2 .
j=1
Si les observations sont iid alors Q est la somme de h variables aléatoires qui sont des carrés
de gaussiennes centrées réduites, Q suit donc une loi χ2 (h). Une valeur trop grande de Q
par rapport au (1 − α)-quantile d’une loi du χ2 (h) nous amène à rejeter l’hypothèse que les
observations sont iid.
Application 2 : Tester si un processus est un MA(q) ou un AR(1)

On utilise pour ce faire la formule de Bartlett et la proposition précédente (voir TD).
40

Céline Lévy-Leduc - Cours Econométrie (Etude Des Séries Chronologiques)

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Céline Lévy-Leduc - Cours Econométrie (Etude Des Séries Chronologiques)

Cargado por

Copyright:

Formatos disponibles

Introduction à l’Etude des Séries Chronologiques

1.1.2 Exemples de séries chronologiques

ventes mensuelles de vin 1500

Fig. 1.2 – Population des U.S.A. en intervalles de 10 ans, 1790 − 1990.

1.2 Stationnarité et stationnarité stricte

γX (r, s) = Cov(Xr , Xs ) = E {(Xr − E(Xr ))(Xs − E(Xs ))} , r, s ∈ Z.

Définition 3. (Stationnarité ou Stationnarité faible) La série temporelle {Xt , t ∈ Z} est dite

γX (h) := γX (h, 0) = Cov(Xt+h , Xt ) ∀t, h ∈ Z.

Définition 4. (Stationnarité stricte) La série temporelle {Xt , t ∈ Z} est dite strictement

Cependant, il y a une classe importante de processus pour laquelle l’assertion : “ station-

1.2.2 Quelques exemples

La fonction d’autocovariance de Xt est donnée par

Cov(Xt+h , Xt ) = Cov(Zt+h + θZt+h−1 , Zt + θZt−1 )

Soit {Yt } une série temporelle stationnaire. On définit

Exemple 5. Marche aléatoire

Soit St = X1 + X2 + · · · + Xt où les Xi sont iid d’espérance nulle et de variance σ 2 . Pour

1.3 Modélisation des séries chronologiques

1.3.1 Modèle général

où dt = (mt + st ) représente la partie déterministe du processus et et sa partie aléatoire, avec

Les fonctions les plus utilisées sont des fonctions :

Exemple 6. Population des U.S.A

On estime a0 , a1 et a2 en utilisant le critère des moindres carrés

Modèles avec composante saisonnière

où a0 , a1 . . . , ak et b1 . . . , bk sont des paramètres inconnus, et λ1 . . . , λk sont des fréquences

• 2ème cas : k = 2, λ1 = 2π/12, λ2 = 2π/6

Fig. 1.5 – Ajustement de composantes saisonnières

1.3.3 Elimination de la tendance et de la composante saisonnière par différenciation

Si on applique j fois cet opérateur, on décale le processus de j unités de temps :

∆2 Xt = ∆2 (a + bt + ct2 + et ) = (1 − B)2 Xt = 2c + (et − 2et−1 + et−2 ).

Exemple 8. Population des U.S.A.

Fig. 1.6 – Différenciation de la série : Population des U.S.A

• Elimination de la composante saisonnière

Exemple 9. Nombre de victimes des accidents de la route aux U.S.A.

Fig. 1.7 – Désaisonnalisation et différenciation de la série : nombre de victimes des accidents

1.3.4 Méthode générale pour la modélisation des séries chronologiques

|E [{Xt+h − E(Xt+h )} {Xt − E(Xt )}]| ≤ Var(Xt+h )1/2 Var(Xt )1/2 .

(iii) γ(−h) = Cov(Xt−h , Xt ) = Cov(Xt , Xt+h ) = γ(h).

Définition 5. Une fonction κ : Z −→ R est dite définie positive si et seulement si

pour tous entiers positifs n et pour tous vecteurs a = (a1 , . . . , an )0 ∈ Rn et t = (t1 , . . . , tn )0 ∈

où Γn = [γ(ti − tj )]1≤i,j≤n est la matrice de covariance de (Xt1 , . . . , Xtn )0 .

La réciproque est admise.

est une fonction d’autocovariance si et seulement si |ρ| ≤ 1/2.

1.4.2 Fonction d’auto-covariance empirique

Définition 6. La fonction d’auto-covariance empirique de {x1 , . . . , xn ) est définie par

n (h) = γ̂n (−h) lorsque −n < h ≤ 0, x̄ étant la moyenne empirique des xi : x̄ =

Définition 7. La fonction d’auto-correlation empirique est définie par

ρ̂(h) = γ̂n (h)/γ̂n (0), |h| < n

Fig. 1.8 – Autocorrelation empirique pour la série : Population aux U.S.A

2.1 Inversibilité et causalité des processus ARMA

{Zt } ∼ W N (0, σ 2 ), (WN est une abréviation pour White Noise)

Définition 9. (Processus ARMA(p,q))

Xt − φ1 Xt−1 − · · · − φp Xt−p = Zt + θ1 Zt−1 + · · · + θq Zt−q ,

L’équation ci-dessus peut être réécrite de façon symbolique comme suit

où φ(z) = 1 − φ1 z − · · · − φp z p , θ(z) = 1 + θ1 z + · · · + θq z q et B est un opérateur de retard

Exemple 13. Processus MA(q)

Exemple 14. Processus AR(p)

Si θ(z) est identiquement égal à 1, alors

Xt = Zt + φ1 Zt−1 + φ21 Zt−2 + · · · + φk1 Zt−k + φk+1

On en déduit qu’au sens de la convergence dans L2 , on a

En effet, Xt étant une solution stationnaire,

|hXn , Yn i − hX, Y i| ≤ |h(X − Xn ), (Y − Yn )i| + |h(X − Xn ), Yn i| + |hXn , (Y − Yn )i|

– En utilisant le théorème de Fubini

D’après le théorème de Fubini,