Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Céline Lévy-Leduc
16 mai 2007
Chapitre 1
Introduction et Motivations
1.1 Introduction
1.1.1 Définitions et objectifs
Définition 1. Une série chronologique est un ensemble d’observations, xt , chacune étant
enregistrée à un instant spécifique t. L’intervalle d’observations sera noté T0 dans la suite.
L’étude des séries chronologiques est utile lorsque l’on cherche à analyser, comprendre ou
encore prévoir un phénomène évoluant dans le temps. Le but est donc de tirer des conclusions
à partir des séries observées. Nous considèrerons les étapes suivantes :
1. Proposer un modèle probabiliste afin de représenter les données.
2. Estimer les paramètres du modèle choisi et vérifier la qualité de l’ajustement aux
données (validation du modèle).
3. Application du modèle (validé) : prévision.
Les domaines concernés sont nombreux :
– ingéniérie, (EDF, pollution)
– sociologie, (chômage, grèves)
– finance, (ventes, bourse, passagers)
– industrie. (production, consommation)
1
3000
2500
2000
1000
500
0
0 12 24 36 48 60 72 84 96 108 120 132 144
mois (janvier1980−octobre1991)
Fig. 1.1 – Ventes annuelles de vin rouge (en kilolitres) entre janvier 1980 et octobre 1991.
250
200
150
millions
100
50
0
1790 1810 1830 1850 1870 1890 1910 1930 1950 1970 1990
2
1.2.1 Relation entre stationnarité faible et stricte
Un processus strictement stationnaire ayant ses moments d’ordre 2 finis est faiblement
stationnaire.
La réciproque n’est pas vraie en général.
Contre-exemple : Soit {Xt } une suite de variables aléatoires indépendantes telle que
– Xt ∼ E(1), lorsque t est pair
– Xt ∼ N (1, 1), lorsque t est impair
alors {Xt } est stationnaire avec γX (0) = 1 et γX (h) = 0 lorsque h 6= 0. Cependant X1 et X2
n’ont pas la même loi donc {Xt } n’est pas strictement stationnaire.
Soit {Zt } une suite de variables iid d’espérance nulle et de variance finie σZ2 . On pose
Xt = Zt + θZt−1 .
{Xt } est donc un processus stationnaire. En fait, on peut montrer qu’il est aussi stationnaire
au sens strict.
Exemple 4.
Bien que Cov(Xt+h , Xt ) = γY (h), {Xt } n’est pas un processus stationnaire car il n’a pas une
espérance constante.
3
Donc {St } n’est pas stationnaire.
Evidemment, la plupart des séries temporelles ne sont pas des réalisations de processus
stationnaires. Mais comme on va le voir dans les paragraphes qui suivent, on peut s’y ramener
en faisant subir à la série chonologique certaines transformations.
Xt = mt + st + et 1 ≤ t ≤ n. (1.1)
Nous nous intéressons tout d’abord à la première étape qui consiste à voir s’il existe une
tendance, une composante saisonnière, etc....et à les modéliser.
Pour détecter une tendance et/ou une saisonnalité, on peut s’aider des informations a priori,
notamment la nature des données et leur représentation graphique ; par exemple, si le signal
observé est la consommation mensuelle d’électricité par foyer, on pourra s’attendre à une
certaine saisonnalité (mensuelle ? trimestrielle ?) et à une tendance (linéaire ? quadratique ?).
4
1.3.2 Modèles avec tendance et composante saisonnière
Modèles avec tendance
Le modèle est de la forme :
Xt = mt + et (1.2)
où et est un bruit aléatoire de moyenne nulle.
Pour modéliser la tendance de la série observée, on peut par exemple chercher une fonction
paramétrique qui ressemble à l’allure générale de la série et estimer les paramètres de cette
fonction afin d’ajuster le mieux possible les observations.
Il existe plusieurs méthodes pour estimer la fonction mt . Une des plus utiles est la méthode
des moindres carrés. Les paramètres des fonctions sont choisis de façon à minimiser l’erreur :
n
X
(xt − mt )2 . (1.5)
t=1
Un examen visuel de la série permet en général de se faire une idée du degré du po-
lynôme à utiliser. Il faut utiliser un polynôme de degré le plus petit possible tout en ayant
un bon ajustement. Pour cela, on aimerait que les résidus fluctuent autour de 0 avec une
amplitude la plus faible possible.
NB : On peut aussi regarder l’erreur définie en (1.5) : par exemple, si l’erreur pour un
polynôme de degré d = 4 est proche de celle pour un polynôme de degré d = 3, alors le choix
d = 4 n’améliore pas nettement l’ajustement.
On essaie d’ajuster un polynôme de degré 2 (i.e d = 2 dans (1.4)). Pour obtenir les estimées
de a0 , a1 et a2 , on écrit
1 t1 t21
a0 1 t2 t22
Y = A a1 + e où A = ...
, les ti étant les instants d’observations.
a2 2
1 tn tn
5
On représente dans la Figure 1.3 : m̂ = A(ab0 ab1 ab2 )T . On peut s’en servir pour faire de la
prévision ce qui donne
Année 2000 : Population estimée = 2.74348 × 108
Année 2010 : Population estimée = 3.01466 × 108
Année 2020 : Population estimée = 3.29886 × 108 .
6
300 x 10
4
250
2
200
0
150
−2
100 −4
50 −6
0 −8
1750 1800 1850 1900 1950 2000 1750 1800 1850 1900 1950 2000
Fig. 1.3 – Ajustement polynomial et résidus pour les données : Population des U.S.A.
Exemple 7. Victimes des accidents de la route aux U.S.A entre 1973 et 1978
11500
11000
10500
10000
9500
9000
8500
8000
7500
7000
6500
0 10 20 30 40 50 60 70 80
Fig. 1.4 – Nombre mensuel de victimes des accidents de la route aux USA entre 1973 et 1978
6
On ajuste aux données une fonction périodique avec une seule composante harmonique de
période 12 mois et une fonction périodique avec deux composantes : l’une de période 6 mois
et l’autre de période 12 mois (voir Figure 1.5).
• 1er cas : k = 1, λ1 = 2π/12
1 cos(λ1 t1 ) sin(λ1 t1 )
ab0
ab1 = (AT A)−1 AT Y, où A = 1 cos(λ1 t2 ) sin(λ1 t2 )
...
bb1
1 cos(λ1 tn ) sin(λ1 tn )
11500 11500
11000 11000
10500 10500
10000 10000
9500 9500
9000 9000
8500 8500
8000 8000
7500 7500
7000 7000
6500 6500
0 10 20 30 40 50 60 70 80 0 10 20 30 40 50 60 70 80
Les différentes composantes déterministes ayant été modélisées, il reste à les éliminer pour
effectuer la deuxième étape de modélisation, celle de la partie aléatoire.
BXt = Xt−1 .
B j Xt = B(B(..BXt )) = Xt−j .
Opérateur différence :
7
L’opérateur différence ∆ fait la différence entre le processus et sa version décalée de une
unité de temps :
∆Xt = Xt − Xt−1 = (1 − B)Xt .
• Elimination de la tendance
L’opérateur différence ∆ élimine les tendances linéaires. Par exemple, pour un processus
de la forme
Xt = a + bt + et ,
on a
∆Xt = b + et − et−1 .
De façon générale, l’opérateur ∆d élimine les tendances polynomiales de degré d. Par
exemple, pour une tendance de degré 2,
pop U.S.A.
200
millions
150
100
50
0
1780 1800 1820 1840 1860 1880 1900 1920 1940 1960 1980 2000
pop U.S.A. − differenciation de degre 1
20
millions
10
0
1780 1800 1820 1840 1860 1880 1900 1920 1940 1960 1980 2000
pop U.S.A. − differenciation de degre 2
10
5
millions
−5
1780 1800 1820 1840 1860 1880 1900 1920 1940 1960 1980 2000
∆d = mt − mt−d + et − et−d .
8
avec mt − mt−d la tendance et et − et−d le bruit.
11000
nombre de victimes
10000
9000
8000
7000
0 10 20 30 40 50 60 70
differenciation de degre 12 pour la saisonnalite
nombre de victimes
500
0
−500
−1000
−1500
0 10 20 30 40 50 60 70
differenciation de degre 1 pour la tendance
nombre de victimes
1000
500
0
−500
−1000
0 10 20 30 40 50 60 70
mois (janvier1973−decembre1978)
9
1.4 Propriétés de la fonction d’auto-covariance d’un processus
stationnaire
1.4.1 Propriétés de la fonction d’auto-covariance
Proposition 1. Si γ(.) est la fonction d’autocovariance d’un processus stationnaire {Xt , t ∈
Z} alors
(i) γ(0) ≥ 0,
(ii) |γ(h)| ≤ γ(0), ∀h ∈ Z
(iii) γ(−h) = γ(h), ∀h ∈ Z.
Démonstration. (i) : γ(0) = Var(Xt ) ≥ 0.
(ii) : Par l’inégalité de Cauchy-Scwarz,
Exemple 10.
Montrons que la fonction suivante définie sur Z :
1 , si h=0
κ(h) = ρ , si h=+1 ou -1
0 , sinon.
10
κ est la fonction d’autocovariance d’un MA(1) avec σ 2 = (1 + θ2 )−1
– Si |ρ| ≤ 1/2, alors p
et θ = (2ρ)−1 (1 ± 1 − 4ρ2 ).
– Si ρ > 1/2, K = [κ(i−j)]1≤i,j≤n et a le vecteur de taille n défini par a = (1, −1, 1, −1, . . . )0
alors
a0 Ka = n − 2(n − 1)ρ < 0 lorque n > 2ρ/(2ρ − 1),
ce qui montre que κ(.) n’est pas définie positive et donc d’après le théorème précédent
κ n’est pas une fonction d’autocovariance.
– Si ρ < −1/2, on peut utiliser le même argument que précédemment mais cette fois-ci
avec comme vecteur a : a = (1, 1, 1, . . . ).
Exemple 11. Autocorrelation empirique pour la série : population aux U.S.A (voir Figure
1.8).
300
250 0.8
0.6
200 0.4
0.2
150 0
−0.2
100 −0.4
−0.6
50 −0.8
−1
0
1750 1800 1850 1900 1950 2000 0 2 4 6 8 10 12 14 16 18 20
Exemple 12. Autocorrelation empirique pour la série : ventes de vin aux U.S.A (voir Figure
1.9)
11
3000
2500 0.8
0.6
2000 0.4
ventes mensuelles de vin
0.2
1500 0
−0.2
1000
−0.4
−0.6
500
−0.8
−1
0
0 12 24 36 48 60 72 84 96 108 120 132 144
mois (janvier1980−octobre1991) 0 5 10 15 20 25 30 35 40
Fig. 1.9 – Autocorrelation empirique pour la série : ventes de vin aux U.S.A.
12
Chapitre 2
Processus ARMA
Dans ce chapitre, nous introduisons une classe très importante de séries chronologiques
{Xt , t ∈ Z} : les processus auto-régessifs à moyenne mobile (Auto Regressive Moving Ave-
rage). De plus, pour toute fonction d’autocovariance γ telle que limh→∞ γ(h) = 0, il existe un
processus ARMA de fonction d’auto-covariance γX telle que γX (h) = γ(h), h = 0, 1, . . . , k
pour tout entier k > 0. C’est entre autres pour cette raison que les modèles ARMA jouent un
rôle très important dans l’étude des séries temporelles.
si et seulement si {Zt } est de moyenne nulle et de fonction d’auto- covariance définie par
½ 2
σ , si h = 0,
γ(h) =
0, si h 6= 0.
où {Zt } ∼ W N (0, σ 2 ). On dit que {Xt } est un processus ARMA(p,q) de moyenne µ si {Xt −µ}
est un processus ARMA(p,q).
φ(B)Xt = θ(B)Zt , t ∈ Z,
13
Si φ(z) est identiquement égal à 1, alors
Xt = θ(B)Zt
et {Xt } est appelé processus à moyenne mobile d’ordre q. Ainsi défini, {Xt } est un processus
stationnaire. En effet,
q
X
E(Xt ) = θj E(Zt−j ) = 0,
j=0
où θ0 = 1 et ( Pq−|h|
σ2 j=0 θj θj+|h| , si |h| ≤ q,
Cov(Xt+h , Xt ) =
0, si |h| > q.
φ(B)Xt = Zt .
L’existence et l’unicité d’une solution stationnaire reste à établir. Nous allons examiner le cas
où p = 1 : φ(z) = 1 − φ1 z i.e.
Xt = Zt + φ1 Xt−1 .
En itérant l’équation précédente, on obtient
• |φ1 | < 1
On verra plus tard que l’égalité est aussi valable au sens de la convergence p.s. autrement dit
X j
Xt (ω) = φ1 Zt−j (ω), ∀ω ∈ A
j≥0
où A est tel que P (A) = 1. Vérifions qu’une telle solution (2.1) est bien stationnaire. On peut
le montrer de deux façons différentes.
14
– En utilisant la continuité du produit scalaire dans L2 défini par hX, Y i = E(XY ) : si
Xn converge vers X dans L2 (kXn − Xk2 → 0) et Yn converge vers Y dans L2 alors
limn→∞ hXn , Yn i = hX, Y i.
En effet, en écrivant hX, Y i = h(X − Xn ) + Xn , (Y − Yn ) + Yn i, on obtient en utilisant
l’inégalité de Cauchy-Schwarz
X ∞
X
|h| |h|
E(Xt+h Xt ) = φj1 φk1 E(Zt−j Zt+h−k ) = σ 2 φ1 φ2j
1 = σ 2 φ1 /(1 − φ21 ).
j,k≥0 j=0
15
• |φ1 | > 1
° P °2
° °
Dans ce cas-là, la norme L2 précédente : °Xt − kj=0 φj1 Zt−j ° = φ2k+21
2
E(Xt−k−1 ) diverge
2
lorsque k tend vers l’infini. Par contre, on peut réécrire l’équation définissant Xt en fonction
de Zt comme suit
Xt = −φ−1 −1
1 Zt+1 + φ1 Xt+1 .
En itérant l’équation précédente, on obtient
Xt = −φ−1 −2 −2
1 Zt+1 − φ1 Zt+2 + φ1 Xt+2 = . . .
= −φ−1 −2 −k−1
1 Zt+1 − φ1 Zt+2 − · · · − φ1 Zt+k+1 + φ1−k−1 Xt+k+1 .
En utilisant exactement les mêmes arguments que ceux employés précédemment, on déduit
que la solution stationnaire dans ce cas vaut
X −j
Xt = − φ1 Zt+j .
j≥1
Cette solution est non causale : elle dépend du “futur” et non pas que du passé comme dans
le cas précédent où dans ce cas la solution est causale dont une définition précise est donnée
plus loin.
• |φ1 | = 1
Par stationnarité de Xt ,
° °
° k−1
X °
° j ° k k
°X t − φ1 Zt−j °
° ° = φ1 kXt−k k2 = φ1 kXt k2 .
° j=0 °
2
Or, le carré du terme de gauche est aussi égal à
° °2 * +
°Xk−1 ° k−1
X
° °
kXt k22 + °
° φj1 Zt−j °
° − 2 Xt , φj1 Zt−j .
° j=0 ° j=0
2
°P °2 D Pk−1 j E °P °2 P
° k−1 j ° ° k−1 j ° k−1 2j
Ainsi, ° j=0 φ1 Zt−j ° = 2 Xt , φ
j=0 1 Zt−j . De plus, ° φ
j=0 1 Zt−j ° = j=0 φ1 σZ2 =
2 2
kσZ2 . D’où, en utilisant l’inégalité de Cauchy-Schwarz,
° °
°Xk−1 °
2
°
1/2 ° j ° 1/2
kσZ ≤ 2 (γX (0)) ° φ1 Zt−j °
° ≤ 2 (γX (0)) k 1/2 σZ ,
° j=0 °
2
ce qui est impossible pour k grand.
16
La signification de la somme précédente est donnée par la proposition suivante.
P
Proposition 2. Soit {ψk }k∈Z une suite absolument sommable : k |ψk | < ∞, et {Zt }t∈Z
une suite de variables aléatoires.
(i) Si supt∈Z E[|Zt |] < ∞, alors pour tout t ∈ Z, la suite {Xn,t }n∈N définie par
n
X
Xn,t = ψk Zt−k ,
k=−n
P
converge presque sûrement vers une v.a. Xt que l’on notera k∈Z ψk Zt−k . De plus,
E[|Xt |] < ∞ (noté aussi kXt k1 < ∞) et Xt est aussi la limite dans L1 de la suite
{Xn,t }n∈N .
(ii) Si supt∈Z E[|Zt |2 ] < ∞, alors E[Xt2 ] < ∞ et Xt est aussi la limite dans L2 de la suite
{Xn,t }n∈N .
Démonstration.
Pn ps P
I Soit Yn,t = k=−n |ψk ||Zt−k | alors Yn,t −→ Yt = k∈Z |ψk ||Zt−k | ∈ L1 .
Or,
n
X X
E(Yn,t ) ≤ |ψk | sup E(|Zt |) ≤ sup E(|Zt |) |ψk | < ∞
t t
k=−n k∈Z
¡P ¢
donc E k∈Z |ψk ||Zt−k | < ∞.
On déduit de la précédente inégalité qu’il existe un ensemble A tel que P (A) = 1 et tel
que ∀ω ∈ A, X
|ψk ||Zt−k (ω)| < ∞.
k∈Z
Ainsi pour tout ω ∈ A la suite Xn,t (ω) est convergente et converge vers Xt (ω) d’où l’on déduit
la convergence ps de Xn,t vers Xt .
I Xt est la limite dans L1 de Xn,t et est dans L1 également sous les hypothèses de (i).
17
Remarquons que
n −(p+1)
X X
E(|Xn,t − Xp,t |) ≤ sup E(|Zt |) |ψk | + |ψk | ≤ ε, ∀n, p ≥ Mε
t −n
p+1
≤ ε, ∀n, p ≥ Mε .
Xn,t est donc une suite de Cauchy dans L2 et converge donc dans L2 vers Xt ∈ L2 puisque
c’est un Hilbert (donc complet).
18
Démonstration. – On vérifie les conditions de la proposition précédente, pour montrer
¡ ¢1/2
que la limite est au sens p.s. et L2 : on a E[|Zt |] ≤ E[|Zt |2 ]1/2 = γZ (0) + µ2Z , donc
les espérances et les variances¡P
sont uniformément
¢ bornées.
– Pour l’espérance E(Xt ) = E ψ Z
k∈Z k t−k . D’après le théorème de Fubini-Tonnelli,
¯ Ã !¯
¯ X ¯ X X
¯ ¯
¯E ψk Zt−k ¯ ≤ |ψk |E(|Zt−k |) ≤ sup E(|Zt |) |ψk | < ∞ .
¯ ¯ t
k∈Z k∈Z k∈Z
La proposition suivante fournit une condition nécessaire et suffisante pour qu’un processus
ARMA soit causal.
Proposition 4. Soit {Xt } un processus ARMA(p,q) tels que les polynômes φ(.) et θ(.) n’ont
pas de racines communes. Alors {Xt } est causal si et seulement si φ(z) 6= 0, pour tout z ∈ C
tel que |z| ≤ 1. Les coefficients {ψj } caractérisant la solution causale évoquée précédemment
sont déterminés par la relation
X
ψ(z) = ψj z j = θ(z)/φ(z), |z| ≤ 1 .
j≥0
Démonstration. Supposons que φ(z) 6= 0 si |z| ≤ 1. Ceci implique qu’il existe ε > 0 tel que
1/φ(z) a le développement en série entière suivant
∞
X
1/φ(z) = ξj z j = ξ(z), |z| < 1 + ε .
j=0
19
D’après la Proposition précédente, on peut appliquer l’opérateur ξ(B) aux deux membres
de l’équation φ(B)Xt = θ(B)Zt ce qui donne
Xt = ξ(B)θ(B)Zt .
Ceci fournit la représentation attendue :
X
Xt = ψj Zt−j .
j≥0
P P∞
On suppose maintenant que {Xt } est causal i.e : Xt = ∞ j=0 ψj Zt−j où j=0 |ψj | < ∞. On
a alors
θ(B)Zt = φ(B)Xt = φ(B)ψ(B)Zt .
P∞
Posons η(z) = φ(z)ψ(z) = j=0 ηj z j , |z| ≤ 1, on peut réécrire l’équation précédente sous la
forme
Xq X∞
θj Zt−j = ηj Zt−j .
j=0 j=0
On multiplie chaque membre de l’équation précédente par Zt−k et on prend l’espérance.
Comme Zt est un bruit blanc, on obtient que ηk = θk , k = 0, . . . , q et ηk = 0, k > q. Ainsi
θ(z) = η(z) = φ(z)ψ(z), |z| ≤ 1 .
Comme θ(z) et φ(z) n’ont pas de racines communes et |ψ(z)| < ∞ pour |z| ≤ 1, on conclut
que φ(z) ne peut pas s’annuler lorque |z| ≤ 1.
Remarque 2. On retrouve à l’aide de la proposition précédente ce que l’on avait trouvé pour
l’AR(1).
On définit maintenant ce qu’est un processus ARMA inversible.
Définition 11. Un processus ARMA(p,q)
P défini par φ(B)Xt = θ(B)Zt est dit inversible s’il
existe une suite {πj } telle que j≥0 |πj | < ∞ et
X
Zt = πj Xt−j , t ∈ Z.
j≥0
Le théorème suivant donne une condition nécessaire et suffisante pour qu’un processus
ARMA soit inversible.
Proposition 5. Soit {Xt } un processus ARMA(p,q) tels que les polynômes φ(.) et θ(.) n’ont
pas de racines communes. Alors {Xt } est inversible si et seulement si θ(z) 6= 0, pour tout z ∈ C
tel que |z| ≤ 1. Les coefficients {πj } caractérisant la solution inversible évoquée précédemment
sont déterminés par la relation
X
π(z) = πj z j = φ(z)/θ(z), |z| ≤ 1 .
j≥0
20
2.2 Calcul de la fonction d’autocovariance d’un processus ARMA(p,q)
On donne à présent une méthode pour calculer la fonction d’auto-covariance d’un proces-
sus ARMA.
D’après la Proposition 3, on a que la fonction d’autocovariance d’un processus ARMA(p,q)
causal solution de φ(B)Xt = θ(B)Zt satisfait
∞
X
2
γ(k) = σ ψj ψj+|k| (2.2)
j=0
où
∞
X
ψ(z) = ψj z j = θ(z)/φ(z), lorsque |z| ≤ 1
j=0
et X
ψj − φk ψj−k = 0, j ≥ max(p, q + 1) . (2.4)
0<k≤p
Les deux relations précédentes permettent, en utilisant (2.2) de calculer la fonction d’auto-
covariance d’un ARMA(p,q). En effet, la solution générale de (2.4) peut s’écrire sous la forme :
k rX
X i −1
où les ξi , i P
= 1, . . . , k sont les racines distinctes de φ et ri est la multiplicité de ξi . En
particulier, ki=1 ri = p. Les p constantes αij sont déterminées par les équations (2.3) ainsi
que les ψj tels que 0 ≤ j < max(p, q + 1) − p.
Exemple 15.
ψ 0 = θ0 = 1
ψ1 = θ1 + ψ0 φ1 = θ1 + φ1 = 2
ψj − ψj−1 + ψj−2 /4 = 0, j ≥ 2 .
21
Les constantes α10 et α11 sont trouvées en utilisant que ψ0 = 1 et ψ1 = 2 grâce aux deux
premières équations, on en déduit
α10 = 1 et α11 = 3 .
Ainsi
ψn = (1 + 3n)2−n , n = 0, 1, 2, . . .
On obtient donc, pour k ≥ 0,
X
γ(k) = σ 2 (1 + 3j)(1 + 3j + 3k)2−2j−k
j≥0
X£ ¤
= σ 2 2−k (3k + 1)4−j + 3(3k + 2)j4−j + 9j 2 4−j
j≥0
2 −k
= σ 2 [4(3k + 1)/3 + 12(3k + 2)/9 + 180/27]
2 −k
= σ 2 [32/3 + 8k] .
22
Chapitre 3
On donne maintenant les propriétés des fonctions d’autocovariance d’un processus à va-
leurs complexes
γ(0) ≥ 0 (3.1)
|γ(h)| ≤ γ(0), pour tout entier h (3.2)
γ(.) est hermitienne i.e. γ(h) = γ(−h) (3.3)
Théorème 2. Une fonction K(.) définie sur les entiers est la fonction d’autocovariance d’un
processus stationnaire (à valeurs complexes) si et seulement si K(.) est hermitienne et définie
positive i.e. si et seulement si K(n) = K(−n) et
n
X
ai K(i − j)aj ≥ 0
i,j=1
pour tout entier positif n et pour tous nombres complexes (aj )1≤j≤n .
23
3.2 Distribution spectrale d’une combinaison linéaire de si-
nusoı̈des
On considère le processus {Xt } défini par
n
X
Xt = A(λj )eitλj ,
j=1
où −π < λ1 < λ2 < · · · < λn = π et A(λ1 ), . . . , A(λn ) sont des coefficients aléatoires à valeurs
complexes décorrélés tels que
E(A(λj )) = 0, j = 1, . . . , n
et
E(A(λj )A(λj )) = σj2 , j = 1, . . . , n .
Pn 2 ihλj
{Xt } est un processus stationnaire puisque E(Xt ) = 0 et E(Xt+h Xt ) = j=1 σj e = γ(h)
sont indépendants de t. On remarque que
Z
γ(h) = eihν dF (ν)
[−π,π]
P
où F (λ) = j:λj ≤λ σj2 .
On verra dans la suite que la fonction d’autocovariance de tout processus stationnaire
peut s’écrire sous la forme ci-dessus avec F bornée.
où F (.) est continue à droite, croissante, bornée sur [−π, π] et telle que F (−π) = 0. La
Rλ
fonction f définie par F (λ) = −π f (ν)dν est appelée la densité spectrale de γ(.).
Démonstration. Si γ(.) est définie par (3.4) alors γ(.) est bien hermitienne et définie positive
et donc une fonction d’autocovariance.
Inversement, supposons que γ(.) est une fonction définie positive sur les entiers. On définit
alors
N
1 X −irν 1 X
fN (ν) = e γ(r − s)eisν = (N − |m|)e−imν γ(m) .
2πN 2πN
r,s=1 |m|<N
24
Alors pour tout entier h,
Z µ ¶ Z π
ihν 1 X |m|
e dFN (ν) = 1− γ(m) ei(h−m)ν dν
[−π,π] 2π N −π
|m|<N
i.e. ( ³ ´
Z |h|
1− γ(h), si |h| < N
eihν dFN (ν) = N
[−π,π] 0, sinon .
On applique le théorème de Helly pour déduire qu’il existe une fonction de répartition F et une
sous-suite FNk de FN telle que pour toute fonction continue bornée g vérifiant g(−π) = g(π),
on ait Z Z
g(ν)dFNk (ν) → g(ν)dF (ν), lorsque k → ∞ .
[−π,π] [−π,π]
Théorème 4. Si K(.) est une fonction complexe quelconque définie sur les entiers telle que
X
|K(n)| < ∞
n∈Z
alors Z π
K(h) = eihν f (ν)dν, h ∈ Z
−π
où
1 X −inλ
f (λ) = e K(n) .
2π
n∈Z
Démonstration.
Z π Z π X
ihν 1
e f (ν)dν = ei(h−n)ν K(n) dν = K(h),
−π 2π −π n∈Z
R P
où on a pu intervertir le signe Σ et l’ par le théorème de Fubini puisque n∈Z |K(n)| <
∞.
Corollaire 1. Une fonction complexe absolument sommable γ(.) à valeurs complexes définie
sur les entiers est la fonction d’autocovariance d’un processus stationnaire si et seulement si
1 X −inλ
f (λ) := e γ(n) ≥ 0, pour tout λ ∈ [−π, π],
2π
n∈Z
25
Démonstration. Supposons que γ(.) est une fonction d’autocovariance. Puisque γ est définie
positive et absolument sommable,
N
1 X −irλ
0 ≤ fN (λ) = e γ(r − s)eisλ
2πN
r,s=1
µ ¶
1 X |m| −imλ
= 1− e γ(m) → f (λ), lorsque N → ∞ .
2π N
|m|<N
Ainsi
R π ihν f (λ) ≥ 0 pour tout λ ∈ [−π, π]. En utilisant le théorème précédent, on a que γ(h) =
−π e f (ν)dν pour h ∈ Z.
Inversement, supposons
R π ihνuniquement que γ est absolument sommable.
R π ihνD’après le théorème
précédent, γ(h) = −π e f (ν)dν. Si f (λ) ≥ 0, alors γ(h) = −π e dF (ν) où F (λ) =
Rλ
−π f (ν)dν. Ceci implique d’apres le théorème 3 de Herglotz que γ(.) est une fonction d’au-
tocovariance de densité spectrale f .
Exemple 16.
Nous pouvons prouver grâce à ce corollaire que la fonction K définie par
1, si h = 0
K(h) = ρ, si h = 1 et h = −1
0, sinon .
est une fonction d’autocovariance si et seulement si |ρ| ≤ 1/2.
26
ce qui permet d’identifier la fonction de répartition spectrale de {Xt }.
P
Remarque
P 3. Si {Yt } a pour densité spectrale fY et si {Xt } est défini par Xt = j∈Z ψj Yt−j
où j∈Z |ψj | < ∞, alors la densité spectrale de {Xt } vaut
φ(B)Xt = θ(B)Zt , où {Zt } est un bruit blanc d’espérance nulle et de variance σ 2
σ 2 |θ(e−iλ )|2
fX (λ) = , −π ≤ λ ≤ π .
2π |φ(e−iλ )|2
Démonstration. Trivial.
Si Xt = Zt + θZt−1 , où {Zt } est un bruit blanc d’espérance nulle et de variance σ 2 alors
σ2 σ2
fX (λ) = |1 + θe−iλ |2 = (1 + 2θ cos(λ) + θ2 ), −π ≤ λ ≤ π .
2π 2π
Exemple 18. Densité spectrale d’un AR(1)
Si Xt − φXt−1 = Zt , où {Zt } est un bruit blanc d’espérance nulle et de variance σ 2 alors
σ2 σ2
fX (λ) = |1 − φe−iλ |−2 = (1 − 2φ cos(λ) + φ2 )−1 , −π ≤ λ ≤ π .
2π 2π
φ(B)Xt = θ(B)Zt , où {Zt } est un bruit blanc d’espérance nulle et de variance σ 2
27
où {Zt } est un bruit blanc d’espérance nulle et de variance σ 2 et
|aj | > 1, 1 ≤ j ≤ r, |aj | < 1, r < j ≤ p,
et
|bj | > 1, 1 ≤ j ≤ s, |bj | < 1, s < j ≤ q .
Le théorème précédent donne pour {Xt } la densité spectrale suivante
Qq −1 −iλ 2
σ 2 j=1 |1 − bj e |
fX (λ) = Qp .
2π j=1 |1 − a−1 j e
−iλ |2
Définissons à présent, Y Y
φ̃(B) = (1 − a−1
j B) (1 − aj B)
1≤j≤r r<j≤p
et Y Y
θ̃(B) = (1 − b−1
j B) (1 − bj B)
1≤j≤s s<j≤q
alors le processus ARMA défini par φ̃(B)X̃t = θ̃(B)Zt a pour densité spectrale
σ 2 |θ̃(e−iλ )|2
fX̃ (λ) = .
2π |φ̃(e−iλ )|2
Puisque
|1 − bj e−iλ | = |1 − bj eiλ | = |bj ||1 − b−1
j e
−iλ
|,
fX̃ peut être réécrit sous la forme
Q
s<j≤q |bj |2
fX̃ (λ) = Q f (λ)
2 X
.
r<j≤p |aj |
28
Chapitre 4
Prédiction de processus
stationnaires
Dans ce chapitre, nous nous intéressons au problème de la prédiction des valeurs {Xt , t ≥
n + 1} d’un processus stationnaire à partir des valeurs {X1 , . . . , Xn }. Etant donné un sous-
espace fermé M de L2 , le meilleur prédicteur de Xn+h appartenant à M est défini comme
l’élément de M étant à la plus petite distance (issue de la norme L2 ) de Xn+h . D’après ce que
l’on sait sur l’espace L2 , il s’agit de la projection sur le sous-espace fermé M. On s’intéressera
dans ce chapitre à la meilleure prédiction linéaire i.e. à la meilleure combinaison linéaire de
1, X1 , . . . , Xn définie par Psp{1,X1 ,...,Xn } Xn+h , où sp{1, X1 , . . . , Xn } désigne la fermeture de
l’espace vectoriel engendré par 1, X1 , . . . , Xn .
soit encore * +
n
X
φni Xn+1−i , Xn+1−j = hXn+1 , Xn+1−j i , j = 1, . . . , n
i=1
29
où hX, Y i = E(XY ). Les équations précédentes peuvent s’écrire sous la forme
n
X
φni γ(i − j) = γ(j), j = 1, . . . , n
i=1
ou de façon équivalente
Γn φn = γn , (4.1)
où Γn = [γ(i − j)]i,j=1,...,n , γn = (γ(1), . . . , γ(n))0 )0 .
et φn = (φn1 , . . . , φnn L’équation (4.1) a
une seule solution si et seulement si Γn est inversible auquel cas la solution vaut :
φn = Γ−1
n γn .
La proposition suivante fournit les conditions suffisantes assurant que Γn est inversible
pour tout n. On a ainsi les conditions sous lesquelles on peut calculer le prédicteur à “un
pas”.
Proposition 7. Si γ(0) > 0 et si γ(h) → 0 lorsque h → ∞ alors la matrice de covariance
Γn = [γ(i − j)]i,j=1,...,n est inversible pour tout n.
Démonstration. On fait une preuve par récurrence. Γ1 = γ(0) > 0 est donc inversible. Sup-
posons que Γr est inversible, montrons que Γr+1 est inversible. Pour cela supposons que Γr+1
n’est pas inversible. On en déduit qu’il existe a non nul dans Rr+1 tel que ar+1 6= 0 et tel que
a0 Γr+1 a = 0.
En effet, si l’on suppose que ar+1 = 0,
à !µ ¶
.. ã
0 0
0 = a Γr+1 a = (ã ar+1 ) Γ r . = ã0 Γr ã .
· · · γ(0) a r+1
On en déduit que
r
X r
X
Xr+1 = − ak Xk = bk Xk .
k=1 k=1
Par stationnarité de {Xt }, on a
£ ¤ £ ¤
E (X1 , . . . , Xr+1 )0 (X1 , . . . , Xr+1 ) = E (Xh , . . . , Xr+h )0 (Xh , . . . , Xr+h )
et donc
r
X
Xr+h = bj Xj+h−1 , ∀h ≥ 1 .
j=1
30
A partir de l’écriture précédente, on déduit
0 0
γ(0) = b(n) Γr b(n) = b(n) U ΛU 0 b(n) ,
(n) Pr (n)
ce qui montre que les bj sont bornés. On peut aussi écrire γ(0) = Cov(Xn , j=1 bj Xj ) et
on en déduit
r
X (n)
0 < γ(0) ≤ |bj | |γ(n − j)| .
j=1
On ne peut donc pas avoir que γ(0) > 0 puisque γ(h) → 0 lorsque h → ∞ : c’est une
contradiction. On en déduit donc que Γr+1 est inversible et donc, par récurrence, on a le
résultat attendu.
Γn φ(h) (h)
n = γn
(h)
où γn = (γ(h), γ(h + 1), . . . , γ(n + h − 1))0 .
31
4.2 Algorithmes récursifs pour calculer les meilleurs prédicteurs
linéaires
L’utilisation d’algorithmes récursifs est très importante en pratique. En effet, on n’a ainsi
pas besoin d’inverser la matrice Γn qui peut être de grande dimension lorsque n est très grand.
D’autre part, les algorithmes récursifs permettent d’utiliser le prédicteur linéaire calculé à
partir de n observations lorsque le nombre d’observations devient égal à n + 1 pour calculer
le prédicteur linéaire à partir de n + 1 observations.
φn,1 φn−1,1 φn−1,n−1
.. .. ..
. = . − φnn .
φn,n−1 φn−1,n−1 φn−1,1
et
vn = vn−1 (1 − φ2nn ) .
X̂n+1 = PK1 (Xn+1 ) + PK2 (Xn+1 ) = PK1 (Xn+1 ) + a(X1 − PK1 (X1 ))
où
a = hXn+1 , X1 − PK1 (X1 )i /kX1 − PK1 (X1 )k2 .
En effet, en multipliant les deux membres de l’égalité définissant X̂n+1 par X1 − PK1 (X1 ), on
obtient : D E
a = X̂n+1 , X1 − PK1 (X1 ) /kX1 − PK1 (X1 )k2 ,
D E
d’autre part, X̂n+1 − Xn+1 , X1 − PK1 (X1 ) = 0 puisque X1 − PK1 (X1 ) est dans K2 ⊂ Hn
et X̂n+1 − Xn+1 est orthogonal à Hn .
32
En utilisant la stationnarité du processus {Xt }, on a que (X1 , . . . , Xn ) a la même fonction
d’autocovariance que (Xn , Xn−1 , . . . , X1 ) et (X2 , . . . , Xn+1 ) et donc :
n−1
X
PK1 (X1 ) = φn−1,j Xj+1
j=1
n−1
X
PK1 (Xn+1 ) = φn−1,j Xn+1−j
j=1
et
kX1 − PK1 (X1 )k2 = kXn+1 − PK1 (Xn+1 )k2 = kXn − X̂n k2 = vn−1 .
On en déduit que
n−1
X
X̂n+1 = aX1 + (φn−1,j − aφn−1,n−j ) Xn+1−j
j=1
où
n−1
X n−1
X
−1 −1
a = hXn+1 , X1 i − φn−1,j hXn+1 , Xj+1 i vn−1 = γ(n) − φn−1,j γ(n − j) vn−1 .
j=1 j=1
φnn = a
et
φnj = φn−1,j − aφn−1,n−j , j = 1, . . . , n − 1 .
On doit maintenant établir le résultat concernant vn .
D’après la définition de a, on a :
vn = vn−1 (1 − a2 ) .
33
4.2.2 Algorithme des innovations
L’idée centrale de la proposition précédente consistait à décomposer Hn en deux sous-
espaces orthogonaux : K1 et K2 . L’idée de l’algorithme des innovations consiste à decomposer
Hn en n sous-espaces orthogonaux au moyen de la procédure de Gram-Schmidt.
L’algorithme des innovations est plus facilement applicable puisque l’on permet à {Xt }
de ne pas être un processus stationnaire. On le suppose uniquement de moyenne nulle et de
fonction d’autocovariance
κ(i, j) = E(Xi Xj ) .
Rappelons que Hn = sp{X1 , . . . , Xn } et vn = kXn+1 − X̂n+1 k2 . On a, en posant X̂1 = 0,
L’algorithme des innovations décrit dans la proposition suivante fournit une méthode récursive
permettant de calculer (θnj , j = 1, . . . , n ; vn ), n = 1, 2, . . .
Proposition 9. Si {Xt } a une moyenne nulle et E(Xi Xj ) = κ(i, j), où la matrice [κ(i, j)]i,j=1,...,n
est inversible pour tout n ≥ 1 alors
½
0, si n = 0
X̂n+1 = Pn
j=1 θnj (Xn+1−j − X̂n+1−j ), si n ≥ 1
et
³ v0 = κ(1, 1) ´
Pk−1
θn,n−k = vk−1 κ(n + 1, k + 1) − j=0 θk,k−j θn,n−j vj , k = 0, 1, . . . , n − 1,
Pn−1 2
vn = κ(n + 1, n + 1) − j=0 θn,n−j vj .
Démonstration. Par définition de Hn , (Xi − X̂i ) ∈ Hj−1 lorsque i < j et par définition de X̂j ,
on a que (Xj − X̂j ) est orthogonal à Hj−1 . On considère
n
X
X̂n+1 = θnj (Xn+1−j − X̂n+1−j )
j=1
et on fait le produit scalaire des deux membres de l’égalité précédente avec Xk+1 − X̂k+1 ,
0 ≤ k < n et on obtient D E
X̂n+1 , Xk+1 − X̂k+1 = θn,n−k vk .
Puisque (Xn+1 − X̂n+1 ) est orthogonal à (Xk+1 − X̂k+1 ) lorsque 0 ≤ k < n, les coefficients
θn,n−k , k = 0, . . . , n − 1 sont donnés par
D E
θn,n−k = vk−1 Xn+1 , Xk+1 − X̂k+1 . (4.2)
En utilisant que
k
X k−1
X
X̂k+1 = θkj (Xk+1−j − X̂k+1−j ) = θk,k−j (Xj+1 − X̂j+1 ),
j=1 j=0
34
k−1
X D E
θn,n−k = vk−1 κ(n + 1, k + 1) − θn,k−j Xn+1 , Xj+1 − X̂j+1 .
j=0
D E
D’après (4.2), Xn+1 , Xj+1 − X̂j+1 = vj θn,n−j , 0 ≤ j < n, l’égalité ci-dessus se réécrit
k−1
X
θn,n−k = vk−1 κ(n + 1, k + 1) − θn,k−j θn,n−j vj .
j=0
Exemple 20. Prédiction d’un processus MA(1) à l’aide de l’algorithme des innovations (cf
TD)
n+h−1
X ³ ´
Pn (Xn+h ) = θn+h−1,j Xn+h−j − X̂n+h−j
j=h
35
Chapitre 5
Estimation de la moyenne et de la
fonction d’autocovariance
Si {Xt } est un processus stationnaire alors sa moyenne µ et son autocovariance γ(.) contri-
buent à sa caractérisation. C’est pour cela que l’estimation de µ, de γ et de la fonction d’au-
tocorrélation ρ(.) = γ(.)/γ(0) à partir des observations X1 , . . . , Xn joue un rôle crucial dans
la modélisation des données. Dans ce chapitre, on va proposer des estimateurs des différents
paramètres précédents et donner leurs propriétés statistiques.
5.1 Estimation de µ
Un estimateur sans biais naturel de la moyenne µ d’un processus stationnaire {Xt } est la
moyenne empirique
X̄n = (X1 + · · · + Xn )/n .
£ ¤
On commence par examiner le comportement de l’erreur quadratique moyenne : E (X̄n − µ)2
lorsque n tend vers l’infini.
et £ ¤ X X
nE (X̄n − µ)2 → γ(h), si |γ(h)| < ∞ .
h∈Z h∈Z
Démonstration.
2
Xn n
X
1 1
n Var(X̄n ) = E (Xj − µ) = E (Xi − µ)(Xj − µ)
n n
j=1 i,j=1
n
X n n
1 1 X 1 X
= E [(Xi − µ)(Xj − µ)] = Cov(Xi , Xj ) = γ(i − j)
n n n
i,j=1 i,j=1 i,j=1
36
n−1
X µ ¶ X
|h|
= 1− γ(h) ≤ |γ(h)| .
n
h=−(n−1) |h|<n
L’égalité
n n−1 µ ¶
1 X X |h|
γ(i − j) = 1− γ(h)
n n
i,j=1 h=−(n−1)
vient du fait que la matrice [γ(i − j)]1≤i,j≤n est une matrice de Toeplitz ayant (n − 1) termes
sur la première surdiagonale tous égaux à γ(1), (n − 2) termes sur la deuxième surdiagonale
tous égaux à γ(2)... P
γ(n) → 0, alors par Césaro, ( |h|<n |γ(h)|)/n → 0 et donc Var(X̄n ) → 0.
Si P
Si k∈Z |γ(h)| < ∞, alors par le théorème de convergence dominée, on a le second résultat
attendu.
P
Remarque 5. Si h∈Z |γ(h)| < ∞, alors {Xt } a une densité spectrale f et d’après ce qui a
été vu dans le chapitre sur la représentation spectrale des processus stationnaires,
X
n Var(X̄n ) → γ(h) = 2πf (0) .
h∈Z
P P P
Remarque 6. Si Xt = j∈Z ψj Zt−j et que j∈Z |ψj | < ∞ alors h∈Z |γ(h)| < ∞ et donc
2
X X
n Var(X̄n ) → γ(h) = 2πf (0) = σ 2 ψj .
h∈Z j∈Z
P P
Remarque 7. Sous l’hypothèse h∈Z |γ(h)| < ∞, Var(X̄n ) ∼ n−1 h∈Z γ(h). Ceci suggère
que, sous certaines conditions, on
P pourrait montrer que X̄n est asymptotiquement normal
d’espérance µ et de variance n−1 h∈Z γ(h).
Démonstration. On définit
m
X
Xtm = µ + ψj Zt−j
j=−m
et à !
n
X
Ynm = X̄nm = Xtm /n .
t=1
37
Lorsque n → ∞,
√ L
n(Ynm − µ) −→ Ym ,
où 2
m
X
Ym ∼ N 0, σ 2 ψj .
j=−m
Cette affirmation vient de l’application du théorème central limite pour les suites stric-
tement stationnaires m-dépendantes. La propriété de m-dépendance généralise la notion
d’indépendance : des variables m-dépendantes sont indépendantes pourvu qu’elles soient
séparées d’au moins m unités de temps. Par exemple, un processus MA(q) est m-dépendant.
³P ´2 ³P ´2
m
Lorsque m → ∞, σ 2 j=−m jψ → σ 2 ψ
j∈Z j et donc, en utilisant le théorème
de Paul Lévy assurant l’équivalence entre convergence en loi et convergence des fonctions
caractéristiques correspondantes,
2
L
X
Ym −→ N 0, σ 2 ψj .
j∈Z
En utilisant la remarque 6, on a
2
n X
X X
¡√ ¢
Var n(X̄n − Ynm ) = n Var n−1 ψj Zt−j → ψj σ 2 lorsque n → ∞ .
t=1 |j|>m |j|>m
Ainsi ¡√ ¢
lim lim sup Var n(X̄n − Ynm ) = 0 .
m→∞ n→∞
µ ³P ´2 ¶
√ L 2
On en déduit que n(X̄n − µ) −→ N 0, σ j∈Z ψj . En effet, le résultat se déduit de
la proposition suivante :
38
5.2 Estimation de γ et de ρ
Les estimateurs que nous allons utiliser pour γ(h) et ρ(h) sont
n−h
X
γ̂(h) = n−1 (Xt − X̄n )(Xt+h − X̄n ), 0 ≤ h ≤ n − 1,
t=1
ρ̂(h) = γ̂(h)/γ̂(0) .
L’estimateur γ̂(h) est biaisé mais on peut montrer (voir plus loin) que, sous certaines hy-
pothèses, il est asymptotiquement non biaisé i.e. que sa moyenne tend vers γ(h) lorsque
n → ∞.
Les estimateurs γ̂(h) ont aussi la propriété intéressante suivante : pour tout n ≥ 1, la
matrice
γ̂(0) γ̂(1) . . . γ̂(n − 1)
γ̂(1) γ̂(0) . . . γ̂(n − 2)
Γ̂n = ..
.
γ̂(n − 1) γ̂(n − 2) . . . γ̂(0)
est définie positive. Pour montrer cela, on écrit
Γ̂n = n−1 T T 0 ,
39
où
ρ̂V (h)0 = [ρ̂(1), . . . , ρ̂(h)]
ρV (h)0 = [ρ(1), . . . , ρ(h)]
et W est une matrice de covariance dont l’élément (i, j) est donné par la formule de Bartlett
X
wi,j = [ρ(k + i) + ρ(k − i) − 2ρ(i)ρ(k)] × [ρ(k + j) + ρ(k − j) − 2ρ(j)ρ(k)] .
k≥1
Remarque 9.
P
L’hypothèse E(Zt4 ) < ∞ peut être remplacée par 2
j∈Z |j|ψj < ∞.
Pour n suffisamment grand, ρ̂(1), . . . , ρ̂(h) sont approximativement iid gaussiens d’espérance
nulle et de variance n−1 . Donc si on trace les autocorrélations empiriques ρ̂(k) en fonction de
k ≥ 1 et si celles-ci restent entre les bornes −1.96 × n−1/2 et 1.96 × n−1/2 alors ceci assure
que l’on a bien affaire à des données iid.
Si les observations sont iid alors Q est la somme de h variables aléatoires qui sont des carrés
de gaussiennes centrées réduites, Q suit donc une loi χ2 (h). Une valeur trop grande de Q
par rapport au (1 − α)-quantile d’une loi du χ2 (h) nous amène à rejeter l’hypothèse que les
observations sont iid.
40