Introduction aux Séries temporelles

Transcription

Introduction aux Séries temporelles
Introduction aux Séries temporelles
Yves ARAGON
[email protected]
Septembre 2004
1
Table des matières
1 Préliminaires sur les séries temporelles
1.1 Exemples de séries temporelles . . . . . . . .
1.2 Objectifs de l’analyse d’une série temporelle
1.3 Tendance. Saisonnalité. Résidus . . . . . . .
1.4 Notations . . . . . . . . . . . . . . . . . . .
1.5 Contenu de ce cours . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6
6
7
9
10
10
2 Etude de deux exemples et recensement de quelques problèmes
2.1 La population des Etats-Unis . . . . . . . . . . . . . . . . . . . . .
La population française . . . . . . . . . . . . . . . . .
2.2 Le niveau du lac Huron . . . . . . . . . . . . . . . . . . . . . . . . .
2.3 Annexe : commandes SAS du chapitre. . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
11
11
12
13
14
3 Rappels de statistique mathématique
3.1 Matrice des covariances d’un vecteur aléatoire
3.2 Lois de probabilités d’un vecteur aléatoire . .
3.2.1 Loi normale . . . . . . . . . . . . . . .
Loi normale bivariée . . . . . . . . . .
Loi normale conditionnelle . . . . . . .
3.3 Tests d’hypothèses . . . . . . . . . . . . . . .
Situation pratique courante. . .
3.4 Rappels sur la régression linéaire . . . . . . .
3.5 Exercices . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
18
18
18
19
20
20
21
21
22
23
.
.
.
.
27
27
27
28
29
.
.
.
.
31
31
31
32
32
4 Lissage
4.1 Lissage exponentiel . . . . . . . . . . . .
Lissage exponentiel simple
Lissage exponentiel double
4.2 Lissage par Moyenne Mobile . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5 Propriétés de base des séries stationnaires
5.1 Stationarité . . . . . . . . . . . . . . . . . . . .
5.1.1 Fonction d’autocovariance . . . . . . . .
5.1.2 Corrélation et fonction d’autocorrélation
Fonction d’autocorrélation (ACF)
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Test du Portemanteau . . . . . . . . . . . . . . . . . . . . . . . . 33
5.2 Exemples de fonctions d’autocorrélation empiriques . . . . . . . . . . . . . . . . 35
5.3 Annexe – code SAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
6 Modèles de séries stationnaires
6.1 Série linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.1.1 Processus gaussien . . . . . . . . . . . . . . . . . . . . .
6.2 Processus autorégressif d’ordre p . . . . . . . . . . . . . . . . .
6.2.1 Processus autorégressif d’ordre 1 . . . . . . . . . . . . .
Moments d’ordres 1 et 2 d’un AR(1) . . . . . . . . . . .
Exemples . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2.2 Modèle AR(2) . . . . . . . . . . . . . . . . . . . . . . . .
Processus autorégressif d’ordre p . . . . . . . . . .
6.2.3 Exemple numérique . . . . . . . . . . . . . . . . . . . .
6.3 Processus Moyenne mobile . . . . . . . . . . . . . . . . . . . . .
6.3.1 Processus MA(1) . . . . . . . . . . . . . . . . . . . . . .
Moments d’ordres 1 et 2 d’un MA(1) . . . . . . .
6.3.2 Processus MA(q) . . . . . . . . . . . . . . . . . . . . . .
6.4 Processus ARMA(p,q) . . . . . . . . . . . . . . . . . . . . . . .
Représentation MA(∞) et réponse impulsionnelle
6.5 Saisonnalité . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.5.1 Saisonnalité multiplicative . . . . . . . . . . . . . . . . .
6.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.7 Annexe : simulation de processus ARMA dans SAS . . . . . . .
Simulation d’un MA . . . . . . . . . . . . . . . .
Simulation d’un AR . . . . . . . . . . . . . . . . .
Simulation d’un AR saisonnier . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
39
39
40
40
40
40
41
46
47
48
50
50
50
51
53
53
53
53
54
55
55
55
56
7 Prédiction linéaire d’une v.a.
7.1 Projection affine d’une v.a. sur une autre . . .
7.2 Projection d’une v.a. sur un ensemble de v.a. .
7.3 Application aux séries temporelles . . . . . . .
7.4 Exercices . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
59
59
61
63
65
8 Prévision d’une série temporelle
8.1 Prévision à erreur quadratique minimum pour un ARMA
Erreur de prévision . . . . . . . . . . . . .
8.2 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . .
8.3 Plan de l’étude empirique d’une série ARMA . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
66
66
67
68
69
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
9 Estimation d’un ARMA
70
9.1 Fonction de vraisemblance d’un processus gaussien AR(1) . . . . . . . . . . . . . 70
9.2 Fonction de vraisemblance d’un processus gaussien MA(1) . . . . . . . . . . . . 71
3
10 Modèles de séries non stationnaires
10.1 Non stationnarité en variance . . . . . . . . . .
10.2 Tendance stochastique ou déterministe . . . . .
Exemple . . . . . . . . . . . . . . . . . .
10.2.1 Non stationnarité d’une série saisonnière
10.3 Annexe – code SAS . . . . . . . . . . . . . . . .
Références bibliographiques
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
73
73
73
74
78
78
79
4
Ce cours est une introduction à l’analyse des séries temporelles. Les notions de mathématiques
utilisées ne dépassent pas ce qu’on apprend habituellement en DEUG MASS (ou L2 MASS).
Les notions de calcul des probabilité et statistique mathématique dont l’étudiant doit avoir une
bonne connaissance préalable sont : la loi normale uni et bi-dimensionnelle, la notion de matrice
des variances et covariances pour un vecteur aléatoire, les tests d’hypothèse sur la moyenne dans
le cadre de la loi normale et en régression linéaire, la méthode des Moindres Carrés.
5
Chapitre 1
Préliminaires sur les séries temporelles
1.1
Exemples de séries temporelles
Une série temporelle est une suite d’observations indicées par le temps, la date à laquelle
l’observation est faite est une information importante sur le phénomène observé.
Examinons quelques séries et notons leurs caractéristiques les plus évidentes.
1 La population de la France (1.1) et la population des Etats-Unis (1.2) sont des séries où le
temps explique bien le niveau de la série. Une fonction du temps assez lisse capte une
grande part de la variabilité de la série. Les démographes sont intéressés par la prévision
de la population à 10 ans, à 20 ans.
2 Le nombre de morts par accident (5.2) est une série où la saisonnalité contribue à expliquer
le niveau. Le niveau moyen reste stable et il y a des fluctuations saisonnières.
Un service de santé publique peut vouloir prédire le nombre de morts chacun des 6
prochains mois pour voir où et quand faire une campagne de prévention, mais il peut
aussi vouloir une vision synthétique de la situation, un aperçu de la tendance sur l’année.
3 Les ventes de champagne (1.3) et les ventes de vin australien (1.4) montrent une saisonnalité
qui contribue à expliquer le niveau mais en plus la moyenne et la variabilité de ces séries
augmentent avec le temps. Ce sont des séries hétéroscédastiques (c’est-à-dire à variance
non constante) dont la variance à une date est fonction de la moyenne à cette date.
La chambre de commerce d’une région viticole peut être intéressée par l’examen de la
tendance des ventes débarassée de ce qui peut se passer à court-terme alors qu’un syndicat
de transporteurs a besoin de savoir combien de bouteilles devront partir de la région le
mois prochain.
4 Le niveau du lac Huron (1.6) montre une tendance légèrement décroissante et on observe
que les résidus d’un ajustement d’une droite au niveau, à deux dates consécutives sont
corrélés positivement (2.4).
Si l’objctif est de prédire le niveau l’an prochain, il faut exploiter à la fois la linéarité de
la tendance et la corrélation de la série à 2 dates consécutives. Nous verrons cet exemple
en détail au chapitre (2).
5 Le rendement du titre Alcatel (1.5) est une série hétéroscédastique dont la variabilité change
au cours du temps de façon non évidente. Le rendement d’une action est très souvent de
6
65000000
Population
60000000
55000000
50000000
45000000
40000000
1900
1920
1940
1960
1980
2000
2020
annnee
Fig. 1.1 – Population française
Fig. 1.2 – Population des Etats-Unis
Fig. 1.3 – Ventes de bouteilles de champagne
Fig. 1.4 – Ventes de vin australien
moyenne nulle et les rendements à 2 dates consécutives souvent non corrélés. Il n’y a donc
pas de problème de prévision du rendement mais la prévision de sa variabilité est utile.
On voit sur ces exemples qu’on ne peut pas, pour une série temporelle, parler d’observations
indépendantes. Par conséquent tous les calculs et raisonnements de statistique mathématique
basés sur l’indépendance entre les observations doivent être revus et si nécessaire, pensés autrement. Mais la dépendance temporelle permet d’améliorer la prévision de la valeur d’une série
à une date future connaissant le présent et le passé.
1.2
Objectifs de l’analyse d’une série temporelle
Décrire Quand on s’intéresse à une série temporelle, la première étape, comme pour toutes
données est de décrire la série. On utilise pour ce faire un certain nombre de graphiques :
7
Fig. 1.5 – Cours de l’action Alcatel
Fig. 1.6 – Niveau du lac Huron
– diagramme séquentiel (time plot)
– histogramme pour avoir une idée de la distribution des valeurs
– histogramme des valeurs absolues pour apprécier l’hétéroscédasticité éventuelle (notamment pour les séries de rendements de titres).
Sur les graphiques on peut repérer les valeurs atypiques ou aberrantes.
On calcule aussi les statistiques descriptives usuelles : moyenne, variance, coefficients
d’aplatissement et d’asymétrie.
Une même série temporelle peut être analysée de différentes façons suivant l’objectif
poursuivi.
Résumer Dans certains cas on veut une vue synthétique débarassée de détails de court-terme ;
c’est souvent un besoin des instituts de statistique officielle.
Modéliser Expliquer le niveau ou parfois la variance du niveau, par des modèles à peu de
paramètres
– Modèle sans variable explicative
Yt = f (Yt−1 , Yt−2 , · · · ) + ut
(1.1)
– Modèle avec variable explicative
Yt = f (Xt ) + ut
(1.2)
où ut est une erreur
– statique : Xt ne contient pas de valeurs passées de {Yt } et les ut sont non corrélés
entre eux
– dynamique : les ut sont auto-corrélés ou Xt contient des valeurs retardées de yt
Prédire La prévision de valeurs à des dates futures connaissant le présent et le passé de la
série peut être basée sur un modèle ou bien être construite sans référence à un modèle.
8
1.3
Tendance. Saisonnalité. Résidus
Il est classique de décomposer une série temporelle {Yt , t = 1, · · · , n} en tendance mt (trend),
effet saisonnier st , erreur Ut . On s’intéresse habituellement à un modèle additif :
où E(Ut ) = 0
yt = mt + st + Ut ,
(∗)
ou à un modèle multiplicatif :
yt = mt st Ut ,
où E(Ut ) = 1
(∗∗)
Par exemple, les séries montrant une saisonnalité qui a de plus en plus d’ampleur (cas des ventes
de champagne), sont souvent mieux ajustées par un modèle multiplicatif que par un modèle
additif.
Commentaires
– Une décomposition permettant d’éliminer l’effet saisonnier est utile quand on veut examiner le comportement à moyen terme d’une série. Les services de statistique officielle, les
organismes qui étudient les grandes tendances d’un phénomène, travaillent sur des séries
désaisonnalisées. A titre d’exemple on consultera le site de la Sécurité routière :
http://www.securiteroutiere.gouv.fr/infos-ref/observatoire/conjoncture/
puis ”Les méthodes de production de l’analyse conjoncturelle”.
– Par contre quand c’est le comportement à court terme qui intéresse, il faut garder l’aspect
saisonnier. Les gestionnaires de stocks de magasins doivent tenir compte de la saisonnalité
des ventes de leurs produits quand ils passent leurs commandes.
– Le choix d’un modèle ou d’un autre, l’incorporation ou non d’une composante, peuvent
s’apprécier d’après le graphique de la série et peuvent être validés par l’analyse elle-même.
– Il n’y a pas une unique façon d’obtenir une décomposition telle que (*) ou (**) pour une
série particulière.
On considère qu’une série temporelle observée {xt , t = 1, · · · , T } est la réalisation d’un processus aléatoire {Xt , t = 1, · · · , T }. Les Xt sont des variables aléatoires, xt est la valeur prise par
Xt , ce qui advient à la date (ou à l’instant d’observation) t.
Bruit blanc (BB) Définition. Un bruit blanc {Zt } est une suite de v.a. non corrélées de
moyenne nulle, de variance constante σZ2 . On note {Zt } ∼ BB(0, σ(2 )0, σZ2 ). {Zt } ∼ BBN (0, σZ2 )
désigne un bruit blanc gaussien, c’est-à-dire une suite de v.a. i.i.d. N (0, σZ2 ).
C’est une série de référence, trouver les transformations qui décrivent une série donnée
comme une transformation d’un bruit blanc est un enjeu de base dans l’analyse des séries
temporelles. Le BB ramène l’étude à des v.a. non corrélées et même souvent indépendantes.
Une bonne partie du cours sera consacrée à étudier des séries obtenues par transformation d’un
BB : les modèles de moyenne mobile (MA pour Moving Average), AR (Autorégressif) et les
ARMA qui combinent les deux.
Etapes de l’étude d’une série sans série explicative associée.
– On commence par enlever, si nécessaire, les effets systématiques (par exemple, le nombre
de jours ouvrables dans une série hebdomadaire d’une production), les effets occasionnels
(grèves, panne de machine).
9
– Soit xt , t = 1, · · · , n, la série obtenue après ces corrections. Si elle présente une tendance
et une saisonnalité, il faut les estimer ou les éliminer suivant l’objectif recherché.
– Enfin on prédit chaque composante de la série puis la série.
Notons qu’il y a souvent plusieurs méthodes possibles pour réaliser ces étapes.
1.4
Notations
Opérateur retard. On note B(backwards) ou L (lag), l’opérateur qui fait passer de xt à xt−1 :
Bxt = xt−1
On a :
B2 xt = B(Bxt ) = Bxt−1 = xt−2
Opérateur différence. La différence première est :
∆xt = (1 − B)xt = xt − xt−1
on a :
∆2 xt = ∆(∆xt ) = xt − 2xt−1 + xt−2
Ces notations simplifient l’écriture des équations relatives aux séries.
1.5
Contenu de ce cours
Le chapitre 2 traite deux exemples : dans l’un une tendance suffit à décrire la variabilité
de la série, dans l’autre il faut ajuster une tendance et également modéliser l’erreur pour bien
capter la variabilité. Le chapitre 3 est consacré à des rappels de statistique mathématique :
loi normale multidimensionnelle, moyenne, covariance. Le chapitre 4 présente rapidement les
techniques de lissage (exponentiel et par moyennes mobiles) utilisés en séries temporelles. Le
chapitre 5 introduit les séries stationnaires et en donne les propriétés de base. Dans le chapitre
6 on étudie les modèles de base des séries stationnaires : modèle AR, MA et ARMA. Dans le
chapitre suivant (7) on introduit la prévision des séries stationnaires et ensuite, chapitre 8 on
applique ces notions à la prédiction de processus ARMA. Un rapide aperçu de l’estimation des
processus AR et MA est donné chapitre 9 . On finit le cours en examinant quelques aspects des
séries non stationnaires et leur traitement (10).
10
Chapitre 2
Etude de deux exemples et
recensement de quelques problèmes
Nous examinons la série de la population des Etats-Unis puis la série donnant le niveau du
Lac Huron. On peut percevoir sur ces séries quelques problèmes courants sur les séries temporelles. Nous en faisons un traitement particulier, sur mesure. La suite du cours développera des
outils plus généraux.
2.1
La population des Etats-Unis
Le graphique donne la population des Etats-Unis de 1790 à 1990, tous les 10 ans. On note
que l’échelle de temps est très grossière. Les variations de surface (guerre avec le Mexique) ont
sans doute entrainé des variations de population qui ne se remarquent pas sur le graphique. La
variation de la population est assez régulière et il semble que l’on peut capturer l’essentiel de
cette variation par un ajustement polynomial.
y t = m t + Ut
Commençons par ajuster un polynome de degré 1 : mt = β0 + β1 t. (La table work.a contient
la série et la série des années correspondantes.
Output
The REG Procedure
Model: MODEL1
Dependent Variable: POP_EU POP_EU
Analysis of Variance
5
10
Source
DF
Sum of
Squares
Mean
Square
Model
Error
Corrected Total
1
19
20
1.137456E17
9.634075E15
1.233797E17
1.137456E17
5.070566E14
11
F Value
Pr > F
224.33
<.0001
Root MSE
Dependent Mean
Coeff Var
15
R-Square
Adj R-Sq
0.9219
0.9178
Parameter Estimates
20
25
22517917
85782624
26.24997
Variable
Label
Intercept
AN
Intercept
AN
DF
Parameter
Estimate
Standard
Error
t Value
Pr > |t|
1
1
-2211337570
1215408
153450192
81149
-14.41
14.98
<.0001
<.0001
Bien que le R2 ajusté soit élevé, Adj R-Sq
0.9178, l’examen du graphique des résidus
(2.1) montre la mauvaise qualité de l’ajustement : ces résidus n’ont rien d’aléatoire et, manifestement, il faut un terme de degré 2 parmi les régresseurs : mt = β0 + β1 t + β2 t2 .
Output
The REG Procedure
Model: MODEL1
Dependent Variable: POP_EU POP_EU
Analysis of Variance
5
10
Source
DF
Sum of
Squares
Mean
Square
Model
Error
Corrected Total
2
18
20
1.232419E17
1.377793E14
1.233797E17
6.162094E16
7.654408E12
Root MSE
Dependent Mean
Coeff Var
2766660
85782624
3.22520
15
Pr > F
8050.39
<.0001
0.9989
0.9988
Parameter Estimates
20
25
R-Square
Adj R-Sq
F Value
Variable
Label
Intercept
AN
an2
Intercept
AN
DF
Parameter
Estimate
Standard
Error
t Value
Pr > |t|
1
1
1
21006098093
-23378553
6506.33863
659432744
698315
184.72061
31.85
-33.48
35.22
<.0001
<.0001
<.0001
le R2 ajusté vaut maintenant 0.9988 ( dans le premier ajustement, il était élevé mais n’avait
pas de sens). Le graphique des résidus de ce dernier ajustement (2.2) ne montre pas d’aspect
déterministe ou régulier trop marqué. Comme la série est très courte, il n’est pas intéressant
d’examiner en détail les statistiques associées à cet ajustement linéaire.
La population française Si l’on veut faire un ajustement semblable avec la population
française on se heurte à deux questions : les données ne sont pas collectées régulièrement et
Moselle, Bas-Rhin et Haut-Rhin ne faisaient pas partie de la France de 1871 à 1918 et de 1939 à
12
Fig. 2.1 – Population des Etats-Unis - ajus- Fig. 2.2 – Population des Etats-Unis - ajustement d’un polynome de degré 1
tement d’un polynome de degré 2
1945. De plus le graphique montre une rupture de tendance vers 1940 (la direction de la courbe
ajustée change assez brutalement). Une droite ou un polynôme de faible degré, uniques pour
toute la période ne peuvent donc pas rendre compte de la tendance.
2.2
Le niveau du lac Huron
Etudions maintenant la série du niveau du lac Huron. Le graphique de la série (1.6) montre
que la variabilité d’une année à l’autre est très importante par rapport à la tendance légèrement
décroissante et dont la significativité doit être testée. Commençons par faire une régression
linéaire du niveau sur l’année :
yt = β0 + β1 t + ut ,
t = 1, · · · , T
et stockons les résidus de cet ajustement.
Niveau du lac Huron - Residus
16:30 Sunday, June 23, 2002
9
The AUTOREG Procedure
Dependent Variable
5
NIVEAU
Ordinary Least Squares Estimates
10
SSE
MSE
SBC
Regress R-Square
Durbin-Watson
122.645511
1.27756
309.266295
0.2725
0.4395
DFE
Root MSE
AIC
Total R-Square
96
1.13029
304.09636
0.2725
15
Variable
20
Intercept
DATE
DF
Estimate
Standard
Error
t Value
Approx
Pr > |t|
1
1
8.1208
-0.000066
0.1864
0.0000111
43.57
-6.00
<.0001
<.0001
13
(2.1)
Examinons maintenant le résidu de cet ajustement : u
bt = yt − βb0 − βb1 t. Le R2 n’est pas très
élevé (R2 = 0.2725) mais la régression est significative : t Value pour β1 = −6.00 qui correspond
à un niveau de signification empirique < .0001. On constate aussi (graphique 2.4) que le signe
du résidu est assez régulièrement alternativement positif et négatif.
Examinons donc le diagramme de dispersion des (b
ut−1 , u
bt ), t = 2, · · · , T , graphique (2.5).
Comme on pouvait s’y attendre, on observe une corrélation linéaire significative entre le résidu
à une date et le résidu à la date voisine. Cette corrélation sur les résidus u
bt est le reflet d’une
corrélation sur les erreurs ut . On comprend qu’on peut améliorer la prévision du niveau d’une
année à partir de la connaissance du niveau les années antérieures en prenant en compte de
cette corrélation.
On appelle autocorrélation d’ordre 1 le coefficient de corrélation linéaire entre une série (xt )
et la série retardée (xt−1 ). On peut évidemment définir des coefficients d’autocorrélation d’ordre
2, 3, ... Cette question est étudiée chapitre (6).
En résumé, nous avons estimé le niveau moyen du lac et avons constaté que l’erreur est
autocorrélée. Au chapitre (6), section (6.2) nous poursuivrons cet exemple et modéliserons
l’erreur. Finalement, c’est un modèle du type (1.2) avec erreur autocorrélée, qui convient pour
le niveau du lac.
Si notre objectif est la prévision du niveau l’année suivante, il est en effet utile de modéliser
le mécanisme d’évolution de ut pour ensuite prédire yT +1 par :
yT +1 = βb0 + βb1 (T + 1) + Pred(uT +1 |b
u1 , u
b2 , · · · , u
bT )
Dans cette expression Pred(.|.) désigne la prévision de ce qui est avant le | sachant ce qui est
après. On donnera dans ce cours un contenu précis à cette expression.
Une deuxième raison justifie qu’on s’intéresse au modèle de l’erreur : on montre, voir par
exemple ([2], chapitre 5) que si l’erreur est autocorrélée, l’estimateur des moindres carrés ordinaires (MCO) de β n’est pas efficace et il vaut mieux dans ce cas utiliser l’estimateur des
moindres carrés généralisés (MCG) de β :
b −1 y
b −1 X)−1 X0 Ω
βb = (X0 Ω
où y est la matrice colonne (21 × 1) des valeurs du niveau, X est la matrice (21 × 2) dont la
b est une estimation de la matrice des covariances de l’erreur
ligne t est [1 t] et Ω
Le test de Durbin-Watson qu’on examinera avec d’autres tests de non corrélation (5.1.2)
est un test de blancheur de l’erreur basé sur le résidu d’un ajustement par MCO tel que (2.1)
et pour une hypothèse alternative particulière.
2.3
5
Annexe : commandes SAS du chapitre.
* population des Etats-Unis ;
proc reg data=a;
model pop_eu =an;
/* output out=popout */
plot residual.*an;
run;
quit;
/* Fabrication de la série an*an */
14
Fig. 2.3 – Niveau du lac Huron - ajustement Fig. 2.4 – Niveau du lac Huron - résidus en
d’un polynome de degré 1
fonction du temps
Fig. 2.5 – Lac Huron - résidu contre résidu retardé
15
10
data b;
set a;
an2 = an*an;
run;
15
proc reg data=b;
model pop_eu =an an2;
plot residual.*an;
run;
quit;
Noter qu’on peut faire un graphe des résidus sans les stocker explicitement.
5
10
15
title "Niveau du lac Huron";
proc gplot data=st6.lake;
symbol1 v=star i= r l=1;
plot niveau * date = 1;
run; quit;
proc autoreg data= st6.lake;
model niveau = date;
output out= lakout residual=residmc;
run;
title "Lac Huron - residu contre residu retarde";
proc gplot data=b;
symbol1 v=star i= none;
plot resret * residmc = 1;
run;
quit;
20
data b;
set lakout;
zero =0;
run;
25
30
title "Niveau du lac Huron - Residus"; proc gplot data=b;
symbol1 v=none i= join;
symbol2 v=none i= join;
plot residmc * date = 1 zero*date=2 /overlay;
run; quit;
Noter dans la proc autoreg ci-dessus le stockage des résidus par la commande output.
Fabrication de la série des résidus retardés. On utilise la fonction lag1 qui retarde la série de
1, comme on peut le voir sur l’extrait d’output.
data b;
set lakout;
resret =lag1(residmc);
run;
Trois
premières lignes du fichier b :
Obs
residmc
NIVEAU
DATE
1
0.20218
10.38
1875
resret
.
16
2
3
1.70636
0.84061
11.86
10.97
1876
1877
0.20218
1.70636
17
Chapitre 3
Rappels de statistique mathématique
3.1
Matrice des covariances d’un vecteur aléatoire
On considère X = [X1 , · · · , Xn ]0 un vecteur aléatoire, représenté en matrice colonne. On
suppose que E|Xi | < ∞, ∀i. On appelle moyenne ou espérance mathématique de X, la matrice
colonne des moyennes des composantes de X :
µX = E(X) = E(X) = [E(X1 ), · · · , E(Xn )]0
On peut définir de la même façon la moyenne de toute matrice, comme la matrice des moyennes
de ses éléments.
Si X = [X1 , · · · , Xn ]0 et Y = [Y1 , · · · , Ym ]0 sont des vecteurs aléatoires, on appelle matrice
des covariances de X et Y la matrice :
ΣXY = cov(X, Y) = E[(X − EX)(Y − EY)0 ] = E(XY0 ) − (EX)(EY)0
L’élément (i, j) de ΣXY est la covariance cov(Xi , Yj ) = E(Xi Yj ) − E(Xi )E(Yj ). Dans le cas
particulier où Y = X, cov(X, Y) se reduit à la matrice des covariances du vecteur X.
Supposons que Y est une transformation affine de X :
Y = a + BX
où a est un vecteur colonne m × 1 et B une matrice m × n. Alors :
EY = a + BEX
ΣYY = BΣX,X B 0
3.2
Lois de probabilités d’un vecteur aléatoire
Soit X et Y deux v.a. ∈ R.
On appelle fonction de répartition conjointe de (X, Y ), de paramètre θ, la fonction :
FX,Y (x, y; θ) = P (X ≤ x, Y ≤ y),
18
où x ∈ R, y ∈ R. La fonction de densité de probabilité du couple (X, Y ), si elle existe, est la
fonction fX,Y (x, y; θ) qui permet d’écrire :
Z x Z y
FX,Y (x, y; θ) =
fX,Y (u, v; θ)dudv
−∞
−∞
On dit alors que (X, Y ) est un vecteur aléatoire continu.
Soit des points : x ∈ Rp , y ∈ Rq et deux vecteurs aléatoires : X = [X1 , · · · , Xp ]0 , Y =
[Y1 , · · · , Yq ]0 . La fonction de répartition conjointe, de paramètre θ, des deux vecteurs X et Y
est :
FX,Y (x, y; θ) = P (X ≤ x, Y ≤ y),
où, x ∈ Rp , y ∈ Rq et les inégalités se comprennent composante par composante.
Distribution marginale. La fonction de répartition marginale de X est :
FX (x; θ) = FX,Y (x, ∞; θ)
où ∞ résume q fois ce symbole. On l’obtient en intégrant la densité conjointe sur toutes les
composantes de y.
Distribution conditionnelle. Si les densités existent, la densité conditionnelle de Y sachant
que X = x est :
fX,Y (x, y; θ)
fY |X=x (y; θ) =
fX (x; θ)
On utilise souvent, en particulier dans les séries temporelles, la factorisation de la densité
conjointe apparaissant ci-dessus :
fX,Y (x, y; θ) = fX (x; θ)fY |X=x (y; θ)
(3.1)
Si le contexte ne prête pas à confusion, on écrit fY |X (y) à la place de fY |X=x (y)
3.2.1
Loi normale
Soit X = [X1 , · · · , Xn ]0 un vecteur aléatoire.
Définition. X a une distribution normale multidimensionnelle (ou multivariée) de moyenne µ
et de matrice des covariances non-singulière Σ = ΣX,X , et on écrit X ∼ N(µ, Σ), si la densité
de probabilité du vecteur X est :
1
fX (x) = (2π)−n/2 (detΣ)−1/2 exp[− (x − µ)0 Σ−1 (x − µ)]
2
(3.2)
Remarquons que cet énoncé contient le fait que µ n × 1 est la moyenne de X et Σ n × n la
matrice des covariances de X.
Résultat. Si X ∼ N(µ, Σ), B est une matrice m × n, de rang m, et a un vecteur réel m × 1,
alors le vecteur aléatoire
Y = a + BX
suit une loi normale. Sa moyenne est a + Bµ et sa matrice des covariances : BΣB0 . Ce résultat
s’obtient par une application directe des formules de changement de variables pour des densités
de probabilité. Nous l’admettons sans démonstration.
19
Considérons la factorisation de Choleski de Σ : Σ = Σ1/2 (Σ1/2 )0 où Σ1/2 est une matrice
triangulaire inférieure. Alors la variable :Z = [Z1 , · · · , Zn ] = Σ−1/2 (X − µ) est de moyenne 0,
de matrice des covariances, Σ−1/2 Σ(Σ−1/2 )0 = I n , Z ∼ N(0n,1 , I n ). On appelle cette loi, loi
normale mulivariée standardisée. La densité de Z est
1
1
1
(3.3)
fZ (z) = (2π)−n/2 exp[− z0 z] = {(2 π)−1/2 exp[− z12 ]} · · · {(2π)−1/2 exp[− zn2 ]}
2
2
2
On reconnaı̂t le produit des densités de n v.a. i.i.d. N(0, 1)
Remarques.
1 On peut définir une loi normale même si la matrice des covariances n’est pas inversible.
2 De (3.3), on voit que Z0 Z ∼ χ2 (n) , mais
Z0 Z = (Σ−1/2 (X − µ))0 Σ−1/2 (X − µ) = (X − µ)0 Σ−1 (X − µ) ∼ χ2 (n)
(3.4)
On énonce parfois ce résultat, vu (3.2), par :
l’exposant de la densité d’une v.a. normale suit une loi χ2 (rang(Σ)).
Loi normale bivariée
La matrice des covariances de X = [X1 X2 ]0 normal bivarié de moyenne µ = [µ1 µ2 ]0 , est :
σ12
ρσ1 σ2
Σ=
, σ1 > 0, , σ2 > 0, − 1 < ρ < 1
ρσ1 σ2
σ22
Les paramètres σ1 , σ2 , ρ sont les écart-types et coefficient de corrélation des deux composantes.
L’inverse de Σ est
σ1−2
−ρσ1−1 σ2−1
−1
2 −1
Σ = (1 − ρ )
−ρσ1−1 σ2−1
σ2−2
et donc la densité de X est :
fX (x) = (2πσ12 σ22 (1 − ρ2 )1/2 )−1
x 1 − µ1 2
x 1 − µ1 x 2 − µ2
x 2 − µ2 2
−1
[(
) − 2ρ(
)(
)+(
) ]} (3.5)
exp{
2
2(1 − ρ )
σ1
σ1
σ2
σ2
dans l’espace (x1 , x2 , z) les courbes de niveau : fX (x) = constante, sont des ellipses, d’autant
plus proches d’un cercle que |ρ| est proche de 0. Voir le TP SAS.
Loi normale conditionnelle
Considérons un vecteur normal de Rn et une partition de ses composantes :
(1) X
X=
, X(1) n1 × 1, X(2) n2 × 1, n1 + n2 = n
(2)
X
et les partitions associées des moyennes et matrice de covariance :
(1) µ
Σ11 Σ12
µ=
, et Σ =
Σ21 Σ22
µ(2)
Proposition.
20
1 X(1) et X(2) sont indépendants si et seulement si Σ21 = 0
2 La distribution conditionnelle de X(1) sachant que X(2) = x(2) est
−1
N(µ(1) + Σ12 Σ−1
22 (x2 − µ2 ), Σ11 − Σ12 Σ22 Σ21 )
(3.6)
Pour la démonstration des propriétés d’un vecteur normal, voir par exemple Brockwell et Davis
([4]).
3.3
Tests d’hypothèses
Situation. Soit X une v.a.. On s’intéresse à une caractéristique de la loi de probabilité de X :
moyenne, 1er quartile, variance... Appelons θ cette caractéristique. C’est un nombre (ou un
vecteur) certain inconnu.
On dispose d’autre part d’un échantillon d’observations x1 , · · · , xn indépendantes de X qui
permet d’estimer θ.
On veut d’autre part tester une hypothèse nulle sur θ.
Situation pratique courante. Beaucoup de tests d’hypothèse reviennent à la situation :
tester l’hypothèse nulle
H0 : θ = θ0
contre, par exemple,
H1 : θ 6= θ0
où θ0 est une valeur particulière de θ et d’autre part, on dispose d’un estimateur1 θb pour lequel,
on sait par le théorème central limite, que si n, le nombre d’observations est suffisamment
grand, on a :
b
θb ' N (θ, var(θ))
b de var(θ).
b
c θ)
et enfin on dispose d’une estimation var(
Donc, si H0 est vraie,
θb − θ0
Z=
b .5
c θ))
(var(
suit approximativement une loi N (0, 1).
On voit qu’on rejettera H0 au profit de H1 si Z prend une valeur exceptionnellement élevée
pour une variable N (0, 1). La région critique (RC) est donc :
Z > z0
Si on prend comme valeur z0 , la valeur zobs observée pour Z sur l’échantillon, la probabilité
de rejeter l’hypothèse nulle alors qu’elle est vraie : P r(Z > zobs |Z ∼ N (0, 1)) est appelée le
niveau de signification empirique.
1
Rappel. Un estimateur d’un paramètre d’une v.a. est une fonction des observations de cette v.a.. La
fonction en question est propre à la méthode d’estimation mise en œuvre.
21
3.4
Rappels sur la régression linéaire
On dispose d’observations indépendantes y1 , · · · , yn d’une variable aléatoire Y . La moyenne
de Y dépend de variables x1 , · · · , xp observées simultanément : on note
Ppxki la valeur de la
variable k pour l’observation i. On suppose précisément que E(yi ) =
k=1 βk xki et que les
ui = yi − E(yi ) sont non corrélés, de moyenne 0 (évidemment) et de variance constante σU2 .
Posant xi = [x1i , · · · , xpi ]0 , X = [x1 , · · · , xn ]0 β = [β1 , · · · , βp ]0 , y = [y1 , · · · , yn ]0 U =
[u1 , · · · , un ]0 on a donc le modèle :
y = Xβ + U, U ∼ (0, σU2 I )
(3.7)
L’estimateur des moindres carrés ordinaires :
βb = (X0 X)−1 X0 y
est linéaire en y (chaque composante de βb est bien une combinaison linéaire des yi ). Il est sans
b = β, et vérifie : var(β) = σ 2 (X0 X)−1 . Cet estimateur a la propriété d’optimalité
biais : E(β)
U
suivante.
Théorème de Gauss-markov. Dans le modèle (3.7), l’estimateur βb est optimal dans la
classe des estimateurs linéaires et sans biais en ce sens que pour tout autre estimateur linéaire
e − var(β)
b est semi définie positive.
et sans biais βe de β on a : var(β)
Dans les séries temporelles, une observation est associée à une date et comme on l’a vu pour
l’exemple du lac Huron, la non corrélation des erreurs ne tient pas toujours. Le remède consiste
donc, étant donnée une série {yt } et des variables explicatives xt , à utiliser la méthode des
moindres carrés généralisés. La matrice des covariances de l’erreur doit être identifiée à partir
de la structure d’autocorrélation des résidus d’un ajustement par MCO. Dans l’exemple du lac
Huron, on a fait une partie du travail.
Test de normalité de l’erreur. Il y a plusieurs tests de normalité d’une distribution. La
proc autoreg de SAS fournit la statistique de Jarque-Bera, couramment utilisée dans les
études économétriques.
Principe : Supposons une série de n observations indépendantes d’une v.a. Y , y1 , · · · , yn , supposées pour simplifier centrées à la moyenne. L’asymétrie (skewness) empirique est
p
m3
b1 =
3/2
m2
et l’applatissement (kurtosis) empirique est
b2 =
où mj = (1/n)
Pn
i=1
m4
m22
yij , j = 2, 3, 4. Si Y suit une loi normale alors :
√ √
0
6 0
b1
L
n
−−−→ N
,
3
0 24
n→∞
b2
22
La statistique de Jarque-Bera est
√
√ 2
( b1 − 0)2 (b2 − 3)2
b1
(b2 − 3)2
T = n(
+
) = n(
+
).
6
24
6
24
Si Y est normalement distribuée de moyenne 0, alors T suit approximativement une loi de χ22 .
(Notons que ceci est une illustration de la propriété énoncée après (3.4).) On rejette l’hypothèse
nulle, normalité, pour de grandes valeurs de la statistique.
Mise en œuvre. La table a contient les variables y, x1, x2. Pour tester à l’aide de la
proc autoreg que l’erreur dans la régression de y sur x1 et x2 est normale on écrira la
syntaxe :
proc autoreg data=a;
model y= x1 x2 /normal ;
run;
Pour tester que y est normal on écrira la syntaxe :
proc autoreg data=a;
model y= /normal ;
run;
3.5
Exercices
1. Régression linéaire. On considère le modèle linéaire : yt = β0 + β1 t + ut , t = 1, · · · , T
où les ut sont i.i.d. N(0, σ 2 ). On suppose que ce modèle tient au-delà de T . (1) ... (2)
Calculer la prévision à l’horizon h de yt . Donner la covariance des prévisions aux horizons
h et h + 1.
2. Tests dans le modèle linéaire. On a fait la régression linéaire du poids sur la taille
et l’âge, par sexe, sur un ensemble d’enfants. Un certain nombre de résultats figurent
ci-dessous.
(1) Discuter la pertinence de ce modèle.
(2) Tester l’hypothèse que chez les filles, le coefficient de la taille est égal à deux fois celui
de l’âge.
(3) Tester l’hypothèse que les coefficients de la taille sont égaux dans les deux populations.
Note. Avant de s’embarquer dans des calculs numériques, il faut raconter l’histoire qui
justifie l’emploi des techniques qu’on veut mettre en œuvre.
5
*------------Data on Age, Weight, and Height of Children-------*
| Age (months), height (inches), and weight (pounds) were
|
| recorded for a group of school children.
|
| From Lewis and Taylor (1967).
|
*--------------------------------------------------------------*;
title ’----- Data on age, weight, and height of children ------’;
23
10
15
20
proc reg data=htwt
rsquare covout corr;
by sex;
eqa: model weight=height age;
print covb corrb ;
run;
------------------------------------ sex=f -------------------------The REG Procedure
Correlation
Variable
height
age
weight
height
1.0000
0.5439
0.7511
age
0.5439
1.0000
0.5393
weight
0.7511
0.5393
1.0000
25
30
35
40
45
50
55
60
65
70
75
Source
Model
Error
Corrected Total
DF
2
108
110
The REG Procedure
Model: eqa
Dependent Variable: weight
Analysis of Variance
Sum of
Mean
Squares
Square
F Value
22432
11216
77.21
15689
145.26700
38121
Root MSE
Dependent Mean
Coeff Var
12.05268
98.87838
12.18939
R-Square
Adj R-Sq
Pr > F
<.0001
0.5884
0.5808
Parameter Estimates
Parameter
Standard
Variable
DF
Estimate
Error
t Value
Pr > |t|
Intercept
1
-150.59698
20.76730
-7.25
<.0001
height
1
3.60378
0.40777
8.84
<.0001
age
1
1.90703
0.75543
2.52
0.0130
------------------------------------ sex=f -----------------------------The REG Procedure
Model: eqa
Dependent Variable: weight
Covariance of Estimates
Variable
Intercept
height
age
Intercept
431.28074658
-7.309712477
0.7576724388
height
-7.309712477
0.166274748
-0.167528183
age
0.7576724388
-0.167528183
0.5706722044
Correlation of Estimates
Variable
Intercept
height
age
Intercept
1.0000
-0.8632
0.0483
height
-0.8632
1.0000
-0.5439
age
0.0483
-0.5439
1.0000
------------------------------------ sex=m ---------------------------The REG Procedure
Model: eqa
Dependent Variable: weight
Correlation
Variable
height
age
weight
height
1.0000
0.7466
0.7903
age
0.7466
1.0000
0.7181
weight
0.7903
0.7181
1.0000
------------------------------------ sex=m ------------------------------The REG Procedure
Model: eqa
Dependent Variable: weight
Analysis of Variance
Sum of
Mean
Source
DF
Squares
Square
F Value
Pr > F
Model
2
32975
16487
120.24
<.0001
Error
123
16866
137.11922
24
Corrected Total
80
85
90
95
125
49840
Root MSE
Dependent Mean
Coeff Var
11.70979
103.44841
11.31945
R-Square
Adj R-Sq
0.6616
0.6561
Parameter Estimates
Parameter
Standard
Variable
DF
Estimate
Error
t Value
Pr > |t|
Intercept
1
-113.71346
15.59021
-7.29
<.0001
height
1
2.68075
0.36809
7.28
<.0001
age
1
3.08167
0.83927
3.67
0.0004
------------------------------------ sex=m -----------------------------The REG Procedure
Model: eqa
Dependent Variable: weight
Covariance of Estimates
Variable
Intercept
height
age
Intercept
243.05476027
-4.621590334
2.7393290828
height
-4.621590334
0.1354906781
-0.230632776
age
2.7393290828
-0.230632776
0.7043800994
100
Variable
Intercept
height
age
Correlation of Estimates
Intercept
height
1.0000
-0.8054
-0.8054
1.0000
0.2094
-0.7466
age
0.2094
-0.7466
1.0000
105
3. Valeur manquante. On a fait n = 100 observations indépendantes d’un couple X1 , X2
de variables conjointement normales. Pour l’observation n◦ 4, on a perdu la valeur de
X1 . La moyenne empirique et la matrice des covariances empirique des 99 observations
complètes sont :
−2.1045
2.3601
−0.6665
b
µ
b=
Σ=
2.8510
−0.6665 2.0195
Pour l’observation n◦ 4, X2 = 3.3649.
(1) Quelle est la loi de X1 sachant que X2 = 3.3649 ?
(2) Suggérer d’après (1) une approximation de la valeur manquante de X1 .
(3) Donner un intervalle de prévision à 95% pour cette valeur (Question : pourquoi ”intervalle de prévision” et non ”intervalle de confiance” ?).
4. Estimation de la demande d’essence. (Exercice de révision de notions vues antérieurement.)
On dispose de données américaines pour les années 60 à 86, observées sur 27 ans :
YR année
G consommation totale d’essence (en dizaines de millions d’essence-dollar en 1967)
PG indice des prix de l’essence (en dollars de 1967)
I revenu disponible par tête (en dollars de 1967)
PNC indice des prix des voitures neuves (en dollars de 1967)
PUC indice des prix des voitures d’occasion (en dollars de 1967)
PPT indice des prix des transports publics (en dollars de 1967)
PD indice des prix agrégés des biens durables (en dollars de 1982)
PN indices des prix agrégés des biens de consommation courante (en dollars de 1982)
PS indice des prix agrégés des services (en dollars de 1982)
YRSQ carre de l’année.
La consommation d’essence est calculée comme la dépense courante en dollars divisée par
25
l’indice des prix de l’essence. On veut estimer la fonction de demande d’essence.
(1) Dessiner le nuage des points (PG,G) en portant la date comme étiquette des points
(pour faire ce travail en SAS,utiliser la syntaxe figurant dans demanda.sas). Qu’y a-t-il
de remarquable ?
(2) Dessiner le nuage des points (YR,G). Expliquer.
(3) Calculer le coefficient de corrélation simple entre PG et G.
(4) Régresser la consommation sur l’ensemble des autres variables. Examiner les résultats.
Commenter.
(5) Calculer la statistique de Durbin-Watson (5.8).
(6) Simplifier le modèle.
(7) Calculer le coefficient de corrélation partielle entre PG et G, dans le modèle simplifié.
Comparer son signe avec celui du coefficient de corrélation simple. Expliquer.
Note. Soit la régression linéaire de yi sur x1i , · · · xki , i = 1, · · · , n. On appelle coefficient
de corrélation partielle entre y et x1 , le coefficient de corrélation entre les résidus (1) de
la régression de y sur x2 , · · · , xk et (2) de la régression de x1 sur x2 , · · · , xk . C’est un
coefficient de corrélation entre y et x1 , net des effets parasites de x2 , · · · , xk .
Cette notion est reprise et détaillée pour les séries temporelles au chapitre (7).
5. TP SAS. Lancer le travail : norbivar.sas puis modifier la syntaxe pour dessiner successivement des vecteurs de lois :
0
1 −1
1
2 1.5
0
,Σ =
)
N(
,Σ =
), N(
−1 2
0
1.5 3
0
5
10
15
20
/* norbivar.sas */
data fxy;
/* coefficient de corrélation */
rho=0.50;
pi=arcos(-1);
k=1/(2*pi*sqrt(1-rho**2));
do x=-3 to 3 by 0.1;
do y=-3 to 3 by 0.1;
fxy=k*exp(-(x**2+2*rho*x*y+y**2)/(1-rho**2));
output;
end;
end;
label x=’x’
y=’y’
fxy=’f(x,y)’;
run;
/* remise a zero des options graphiques */
goptions;
title "Graphe de la densite normale bivariee";
proc g3d;
plot y*x=fxy;
run;
26
Chapitre 4
Lissage
4.1
Lissage exponentiel
But. Le lissage exponentiel est un outil pour faire de la prévision de séries sans en chercher
préalablement un modèle.
On présente ici le lissage exponentiel comme une régression linéaire pondérée.
On s’intéresse à une série {yt } pouvant être modélisée par :
yt = ψ(t) + Zt ,
1≤t≤T
(4.1)
2
Zt ' BB(0, σZ )
ψ(t)
est un polynôme dont les coefficients varient lentement au cours du temps
Objectif. Prédire la série en T + 1, · · · , T + h où h, l’horizon, ne dépasse généralement pas 3 ou
4.
Moyen. Estimer la tendance au voisinage d’un point T par un polynôme de faible degré (pas
plus de 2) ajusté sur les voisins de T .
Habituellement, la série est observée de t = 1 à t = T et donc les voisins de la date T sont des
points de date inférieure. En lissage exponentiel, on mesure l’intensité du voisinage à T par un
poids qui décroit exponentiellement quand on s’écarte de T . On est au voisinage de T . Le poids
du point t, t < T est pris de la forme :
ωT −t = α(1 − α)T −t
où 0 < α < 1 est un paramètre à fixer, plus α est proche de 0 plus les points ont des poids
proches ; plus α est proche de 1, moins les points éloignés de T ont de l’importance.
Lissage exponentiel simple Il correspond à ψ(t) = c dans (4.1) au voisinage de T . L’ajustement par régression pondérée d’une constante à {yt } consiste à prendre comme estimateur
de c le minimiseur de
T
X
α(1 − α)T −t (yt − c)2 = α
t=1
T −1
X
k=0
27
(1 − α)k (yT −k − c)2
c’est-à-dire
b
c=
α
PT −1
T −k
yT −k
k=0 (1 − α)
PT −1
α k=0 (1 − α)k
si T est grand, le dénominateur est ' 1 et on écrit, au moins pour les calculs formels :
∞
X
b
c(T ) = α
(1 − α)k yT −k
k=0
On prédit yT +h par b
c(T ). On comprend donc que si la série a une tendance linéaire, la méthode
n’est pas très satisfaisante.
• Mise à jour de la prévision. L’observation yT +1 devient disponible. On observe que
b
c(T + 1) = αyT +1 + (1 − α)b
c(T )
On retrouve l’interprétation de α. Cette présentation du lissage exponentiel simple s’appelle
aussi lissage de Brown.
• Mise en pratique. Il faut une valeur de démarrage pour la récurrence (on prend souvent
b
c(1) = y1 ) et une valeur P
de α. Pour α on calcule pour une grille de valeurs de α, l’erreur
c(t))2 , et on retient la valeur de α qui minimise cette erreur.
quadratique de prévision : t (yt −b
Lissage exponentiel double Supposons qu’au voisinage de T , la série est bien ajustée par
une droite : dans 4.1, ψ(t) = a1 + a2 (t − T ), pour t ' T . Donc a1 = a1 (T ), a2 = a2 (T ). Posons
pour alléger l’écriture : β = 1 − α. On cherche a1 et a2 qui minimisent :
T −1
X
β j [yT −j − (a1 − a2 j)]2
j=0
C’est un problème classique de moindres carrés pondérés. Notons b
a1 (T ), â2 (T ) la solution. On
prédit ensuite yT par ŷT −1 (1) = b
a1 (T ) + â2 (T ) × 1 et yT +k par yT (k) = b
a1 (T ) + kâ2 (T ).
• Mise à jour de la prévision. L’observation yT devient disponible. Les coefficients de la droite
ajustée deviennent a1 (T + 1), a2 (T + 1). Un calcul un peu fastidieux mais sans difficulté particulière donne, voir Gourieroux et Monfort [9] par. 4-2 :
b
a1 (T ) = b
a1 (T − 1) + b
a2 (T − 1) + (1 − β 2 )(yT − yT −1 (1))
b
a2 (T ) =
b
a2 (T − 1) + (1 − β)2 (yT − yT −1 (1))
Remplaçons dans ces expressions, yT −1 (1) par b
a1 (T − 1) + â2 (T − 1). On obtient :
β 2 (b
a1 (T − 1) + b
a2 (T − 1)) + (1 − β 2 )yT
(1 − β)2
(1 − β)2
b
a2 (T ) = (1 −
)b
a
(T
−
1)
+
(b
a1 (T ) − b
a1 (T − 1))
2
1 − β2
1 − β2
Ce sont des combinaisons convexes de l’information passée et de l’information disponible à la
date T .
2
Méthode de Holt-Winters. Posons : α = β 2 et γ = 1 − (1−β)
et oublions la dépendance par
1−β 2
rapport à β. La méthode de Holt-Winters correspond au mécanisme de mise à jour :
b
a1 (T ) =
b
a1 (T ) = α(b
a1 (T − 1) + b
a2 (T − 1)) + (1 − α)yT
b
a2 (T ) = γb
a2 (T − 1) + (1 − γ)(b
a1 (T ) − b
a1 (T − 1))
Note. Dans SAS, le lissage exponentiel peut se faire par la proc forecast
28
4.2
Lissage par Moyenne Mobile
But. Le lissage par Moyenne Mobile (Running mean) est un moyen pour éliminer ou au
contraire conserver certains aspects d’une série. Ce n’est pas un outil de prévision.
Etant donné une série {xt } on la transforme en une série {yt } par l’opération linéaire
yt =
+s
X
ak xt−k
k=−q
où les ak sont un système de poids. Suivant ces poids, on peut garder uniquement un aspect
d’une série, en faire disparaı̂tre un autre...
Exemples. Estimation de la tendance par une moyenne locale, c’est-à-dire par une moyenne
des observations voisines, passées et futures, de la date où on veut estimer la tendance.
On peut estimer la moyenne au voisinage de t par
P
yt = Pm
k=−m ak xt−k , m + 1 ≤ t ≤ n − m
SC ak = 1
c’est une opération (ou filtre) linéaire. On obtient donc, si xt = ψ(t) + Zt :
P
ak ψ(t − k) + Zt∗
yt = m
k=−m
P
m
Zt∗ = k=−m ak Zt−k
Variance et auto-covariance de l’erreur
P
2
var(Zt∗ ) = σZ2 m
k=−m
Pamk
2
∗
l=−m al+h al σZ si − 2m ≤ h ≤ 2m
)=
cov(Zt∗ , Zt+h
0
si 2m + 1 ≤ |h|
Reste à préciser les ak : c’est un problème de minimisation sous contrainte (explicitez) et on
obtient : ak = 1/(2m + 1).
On peut vouloir conserver les polynômes d’un certain degré. Par exemple si ψ(t) est un
polynôme de degré 3 on veut
+s
X
ψ(t) =
ak ψ(t − k)
k=−q
au moins pour t > q et t < T − s, T étant la longueur de la série. Pour q = s = 2 on obtient :
k
Coeff.
-2
-3/35
-1
12/35
0
17/35
1
12/35
2
-3/35
La notation conventionnelle pour ce filtre est :
M {[5];
1
[−3, 12, 17]}.
35
C’est un exemple de la moyenne mobile d’Henderson.
La moyenne mobile
yt =
1
1 1
[ xt−m + xt−m+1 + · · · + xt+m−1 + xt+m ]
2m 2
2
29
annule les séries périodiques de période 2 m. On peut donc se servir de ce filtre avec m = 6
pour désaisonnaliser une série mensuelle.
Si xt a une composante saisonnière :
x t = m t + St
avec St = St+12 , le filtre de différence saisonnière 1 − B12 annule cette composante :
(1 − −B12 )xt = xt − xt−12 = mt − mt−12 .
Remarques.
La méthode X-11 enchaı̂ne des filtres pour éliminer des tendances ou des effets saisonniers dans
tous les services de statistique officielle.
Pour un exposé complet sur ces filtres et un aperçu de la méthode X-11, on consultera Gourieroux et Monfort ([9]) par. 3.7.
30
Chapitre 5
Propriétés de base des séries
stationnaires
5.1
Stationarité
La stationnarité est la clef de l’analyse des séries temporelles. Une série {Yt } est dite
stritement stationnaire si la distribution conjointe de (Yt1 , · · · , Ytk ) est identique à celle de
(Yt1 +t , · · · , Ytk +t ), quel que soit t, où k est un entier positif arbitraire et (t1 , · · · , tk ) une liste
de k entiers positifs arbitraires. Autrement dit, la stationnarité stricte dit que la distribution
conjointe de (Yt1 , · · · , Ytk ) est invariante quand on fait glisser le temps. Cette condition est
difficile à vérifier et on utilise en général, une version plus faible de stationnarité. On dit qu’une
série temporelle {Yt } est faiblement stationnaire si la moyenne de Yt et la covariance entre Yt
et Yt−l sont invariantes par translation du temps. Précisément, {Yt } est faiblement stationnaire
si : (a) E(Yt ) = µ où µ est une constante indépendante de t, (b) cov(Yt , Yt−l ) ne dépend que
de l, entier. La stationnarité faible (ou du second ordre) implique que le graphe de la série en
fonction du temps montre des fluctuations autour d’un niveau moyen, fluctuations qui se ressemblent, quel que soit la date autour de laquelle on examine la série. Les séries de population
du chapitre précédent sont manifestement non stationnaires. La série des morts par accident
au Royaume-Uni, le résidu de l’ajustement du niveau du lac Huron par un polynôme de degré
2, ont toutes les apparences de séries stationnaires.
5.1.1
Fonction d’autocovariance
La covariance γl = cov(Yt , Yt−l ) est appelée autocovariance d’ordre (ou de décalage) l (lag-l
autocovariance). Pour chaque décalage l, il y a une autocovariance.
Définition. La fonction : l
γl est la fonction d’autocovariance de {Yt }. Cette fonction a
trois propriétés importantes :
(a) γ0 = var(Yt ),
(b) γl = γ−l , car :
γ−l = cov(Yt , Yt−(−l) ) = cov(Yt−(−l) , Yt ) = cov(Yt+l , Yt ) = cov(Yt+l , Y(t+l)−l ) = γl
Autre notation. On écrit aussi γY (l), en particulier pour distinguer la fonction d’autocovariance
d’une série Y , de celle d’une autre série.
31
5.1.2
Corrélation et fonction d’autocorrélation
Rappel. Le coefficient de corrélation entre deux v.a. X et Y de moyennes µX et µY est défini
par :
E[(X − µX )(Y − µY )]
cov(X, Y )
=p
ρX,Y = p
var(X)var(Y )
E(X − µX )2 E(Y − µY )2
Ce coefficient est compris entre −1 et 1. Il mesure la force de la dépendance linéaire entre X et
Y . Si on dispose d’un échantillon (xt , yt ), t = 1, . . . , T d’observations indépendantes de (X, Y ),
on peut estimer de façon convergente le coefficient de corrélation par le coefficient de corrélation
empirique :
PT
(xt − x)(yt − y)
ρbX,Y = qP t=1
PT
T
2
2
t=1 (xt − x)
t=1 (yt − y)
P
P
où x = Tt=1 xt /T et y = Tt=1 yt /T sont les moyennes empiriques de X et Y .
Considérons maintenant une série temporelle xt , t = 1, . . . , T de valeurs numériques, sans nous
interroger sur son modèle mathématique, et formons la série retardée : yt = xt−1 , t = 2, . . . , T .
On peut calculer le coefficient de corrélation entre les deux séries :
PT
(xt − x)(yt − y)
r = qP t=2
(∗).
PT
T −1
2
2
(x
−
(y
−
x)
y)
t
t=1
t=2 t
Si la série observée xt , t = 1, . . . , T est la réalisation d’une série (ou processus) stationnaire,
ce coefficient mesurePla liaison entre la valeurPde la série en une date et en la date voisine.
T −1
xt /(T − 1) et y = Tt=2 yt /(T − 1) ne différent que par les valeurs
Observons que x = t=1
x1 et xT . Le paragraphe suivant formalise cette observation : on y définit d’abord la covariance
décalée de 1, de 2,. . .d’une série stationnaire, puis le coefficient de corrélation décalé de 1, de
2,. . .,. On introduit ensuite la version empirique de ce coefficient de corrélation (5.4). On pourra
observer qu’elle est plus simple que le r donné par la formule (*) ci-dessus.
Fonction d’autocorrélation (ACF) Considérons une série (faiblement) stationnaire {Yt }.
On est souvent intéressé par décrire la dépendance de {Yt } par rapport à son passé, notamment
pour expliquer le niveau actuel de la série par le niveau à une date précédente. On sait que si une
dépendance est linéaire, elle est bien décrite par le coefficient d’autocorrélation. Par définition,
le coefficient d’autocorrélation d’ordre l est
cov(Yt , Yt−l )
.
(5.1)
ρl = p
var(Yt )var(Yt−l )
Mais var(Yt−l ) = var(Yt ) = γ0 donc :
ρl =
cov(Yt , Yt−l )
γl
= .
var(Yt )
γ0
(5.2)
Enfin en terme d’espérance mathématique et notant que par la stationnarité : E(Yt ) = µ
indépendant de t, on a :
E[(Yt − µ)(Yt−l − µ)]
.
(5.3)
ρl =
E[(Yt − µ)2 ]
32
ρl est une mesure de la dépendance de la valeur Y en une date par rapport à sa valeur à une
date décalée de l intervalles de temps.
Définition. La fonction :
l
ρl , l = 0, 1, 2, . . .
est appelée fonction d’autocorrélation (théorique), FAC (ou ACF en anglais) de la série {Yt }.
De la définition on voit que : ρ0 = 1, −1 ≤ ρl ≤ 1.
Etant
un échantillon yt , t = 1, · · · , T , de {Yt } stationnaire, notons la moyenne empirique,
Pdonné
T
y = t=1 yt /T . Le coefficient d’autocorrélation empirique d’ordre 1 est :
PT
(yt − y)(yt−1 − y)
ρb1 = t=2PT
(5.4)
2
(y
−
y)
t
t=1
Le coefficient d’autocorrélation empirique d’ordre l ≥ 1 est
PT
(yt − y)(yt−l − y)
ρbl = t=l+1
,0 ≤ l ≤ T − 1
PT
2
(y
−
y)
t
t=1
(5.5)
Sous des conditions générales, voir par exemple Brockwell et Davis ([4]), ρbl est un estimateur
convergent de ρl .
Définition. La fonction :
l
ρbl , l = 0, 1, 2, . . .
est appelée fonction d’autocorrélation empirique de la série {Yt }.
Tests de non corrélation
Résultat. Si {Yt } est une suite de v.a. i.i.d., de moment d’ordre 2 fini, E(Yt2 ) < ∞, alors les coefficients d’autocorrélation ρbl sont approximativement indépendants et normalement distribués,
de moyenne 0, de variance 1/T .
Ce résultat peut être utilisé pour différents tests.
– Etant donnée
√ une réalisation y1 , · · · , yT d’une série, on peut calculer pour un décalage l
particulier : T (b
ρl −0) et voir si ça peut être considéré comme la valeur d’une v.a. N(0,1).
– Etant donnée une réalisation y1 , · · · , yT d’une série vérifiant les hypothèses du résultat
ci-dessus, on devrait
√ avoir environ 95% des coefficients d’autocorrélation empirique dans
l’intervalle ±1, 96/ T . Si la proportion observée est loin de cette valeur, on peut conclure
que les observations ne sont pas indépendantes.
Test du Portemanteau Au lieu de tester les coefficients d’autocorrélation 1 par 1 comme
ci-dessus, on peut faire un test global basé sur la statistique
Q(h) = T
h
X
ρbj
2
j=1
où h est un décalage qu’on choisit, avec habituellement : h < T /4. Sous l’hypothèse d’indépendance
des {Yt } faite ci-dessus (hypothèse nulle), Q suit approximativement une loi de χ2 à h degrés
33
de liberté. Q est appelée statistique de Box-Pierce.
Une modification de cette formule est la statistique de Box-Pierce-Ljung, programmée dans la
proc arima notamment :
∗
Q (h) = T (T + 2)
h
X
k=1
ρb2k
.
T −k
(5.6)
Souvent on s’intéresse à la blancheur non d’une série directement observée mais à la blancheur
d’une série résidu d’un ajustement. Dans ce cas on diminue les degrés de liberté de la statistique
du nombre de paramètres estimés dans le modèle.
P
Plus généralement, si Yt est une série stationnaire satisfaisant Yt = c + qi=1 ψi Zt−i où Zt est
un BB gaussien alors
ρbl est approximativement normalement distribué,
de moyenne 0,
P
1 + 2 qi=1 ρ2i
.
de variance
(5.7)
T
Ce résultat est un cas particulier de la formule de Bartlett (voir ([4] sec. 2.4 pour les conditions exactes). Il permet de tester H0 : ρl = 0 contre H1 : ρl 6= 0. SAS utilise cette formule
pour calculer un intervalle autour de 0 à 95% pour chaque décalage k sous l’hypothèse que
ρm = 0, m > k.
Test de Durbin-Watson Le test de Durbin-Watson est un test de blancheur de série particulier.
Situation. On veut faire la régression d’une série yt scalaire sur une série vectorielle xt , t =
1, · · · , T . Le vecteur xt contient la constante. Le test de D-W s’intéresse à la situation :
yt = x0t β + ut , t = 1, · · · , T
où ut = ρut−1 + Zt , Zt ∼ BB et teste H0 : ρ = 0. Si ρ = 0 la méthode des MCO estime
correctement β, si ρ 6= 0 l’estimation de β obtenue par MCO n’est pas efficace. Le test de D-W
teste H0 contre : H1a : ρ 6= 0 ou H1b : ρ > 0 ou H1c : ρ < 0. La statistique de test est :
PT
(b
ut − u
bt−1 )2
(5.8)
d = t=2PT
2
u
b
t=1 t
où u
bt est le résidu de la régression par MCO de y sur x ; 0 ≤ d ≤ 4. En développant on observe
que
d ' 2(1 − ρb)
où ρb est le coefficient d’autocorrélation empirique des résidus. On voit que la région critique est
de la forme : pour H1a , d << 2 ou d >> 2, pour H1b , d << 2, pour H1c , d >> 2.
Durbin et Watson ont pensé ce test à une époque où il y avait peu d’ordinateurs. Leurs
tables donnent des bornes approchées de la région critique indépendantes des valeurs des x.
Actuellement beaucoup de logiciels donnent les niveaux de signification empiriques exacts. Dans
SAS, la proc autoreg calcule la statistique de D-W. On trouve un exposé détaillé de ce test
dans tous les manuels d’économétie, Bourbonnais ([2]), par exemple.
Notes sur le paragraphe.
34
ukdeath
1000
1500
2000
2500
1970
1975
Time
1980
1985
Fig. 5.1 – Bruit blanc
Fig. 5.2 – Nombre de conducteurs morts ou
gravement blessés au R.-U..
1. Plus le décalage l est grand, moins il y a d’observations pour estimer ρl dans (5.5). On
s’arrête habituellement à l = T /4.
2. Observons que l’on peut calculer (5.5) pour toute série, stationnaire ou non. On montre
que pour une série stationnaire, le corrélogramme empirique, graphe de l ,→ ρbl décroit exponentiellement vers 0, avec éventuellement des oscillations. Inversement un corrélogramme
empirique qui ne tend pas rapidement vers 0, n’est pas le corrélogramme d’une série stationnaire. Cette observation permet de se faire une idée de la stationnarité d’une série
d’après l’examen de son corrélogramme empirique.
5.2
Exemples de fonctions d’autocorrélation empiriques
1. Bruit blanc. On a simulé un bruit blanc N (0, σ 2 = 2.25) sur 200 instants consécutifs
(5.1), et estimé sa FAC (Table 5.1). Les ... sont les limites de l’intervalle autour de
0 introduit après la formule de Bartlett (5.7) ; le calcul suppose pour chaque k, k > 0
que toutes les autocorrélations sont nulles à partir de k. Ici les valeurs observées tombant
dans l’intervalle ∀k suggèrent bien qu’on a dessiné la FAC empirique d’un BB. Le test
du portemanteau est donné ensuite. La ligne (6 de la table 5.2) correspond au test de
H0 : ρ1 = · · · = ρ6 = 0.
2. Nombre de conducteurs morts ou sérieusement blessés par mois au Royaume-Uni entre
janvier 1969 et décembre 1984. Voir les tables 5.3 et 5.4. La ceinture de sécurité devient
obligatoire à partir de février 1983. Source : Harvey, 1989, p.519ff.
http://www-personal.buseco.monash.edu.au/˜hyndman/TSDL/tourism.html
Cette série semble-t-elle stationnaire ?
35
0.6
200
160
120
0.8
csEnrPr
240
1.0
Series ukdeath
1980
1990
2000
Time
0.4
ACF
1970
0.2
−0.2
0.0
ACF
0.6
1.0
0.2
csEnrPr
0.0
0.5
1.0
1.5
0
Lag
5
10
15
Lag
Fig. 5.3 – Nombre de conducteurs morts ou Fig. 5.4 – Consommation d’énergie prigravement blessés au R.-U. : FAC.
maire en France 106 tonnes : série et FAC
3. Consommation d’énergie primaire en France de 1965 à 2002 (prévision). Voir le site de
BP :
http://www.bp.com/
Cette série semble-t-elle stationnaire ? D’après votre réponse, commentez la pertinence
du graphique de la FAC.
5.3
Annexe – code SAS
* Syntaxe pour
la simulation du Bruit blanc gaussien de variance 1.5**2 . ;
data a;
do i =1 to 200;
z = 1.5* rannor(45297);
output;
end;
run;
* calcul de la FAC de la série précédente ;
proc arima data= a;
i var = z; run;
quit;
36
Tab. 5.1 – FAC empirique d’un bruit Blanc
The SAS System
06:07 Sunday, July 11, 2004
The ARIMA Procedure
5
Name of Variable = z
Mean of Working Series
Standard Deviation
Number of Observations
10
-0.12203
1.637604
200
Autocorrelations
15
20
25
30
35
40
Lag
Covariance
Correlation
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
2.681746
0.055661
0.100309
0.049561
-0.145573
-0.055428
0.218940
0.247274
-0.198556
-0.081473
-0.119776
-0.019767
-0.161385
-0.092279
-0.198980
-0.136983
-0.105819
-0.056320
0.147906
-0.126669
-0.114486
-0.228622
0.020796
-0.423656
-0.105117
1.00000
0.02076
0.03740
0.01848
-.05428
-.02067
0.08164
0.09221
-.07404
-.03038
-.04466
-.00737
-.06018
-.03441
-.07420
-.05108
-.03946
-.02100
0.05515
-.04723
-.04269
-.08525
0.00775
-.15798
-.03920
-1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|********************|
. | .
|
. |* .
|
. | .
|
. *| .
|
. | .
|
. |**.
|
. |**.
|
. *| .
|
. *| .
|
. *| .
|
. | .
|
. *| .
|
. *| .
|
. *| .
|
. *| .
|
. *| .
|
. | .
|
. |* .
|
. *| .
|
. *| .
|
.**| .
|
. | .
|
***| .
|
. *| .
|
Std Error
0
0.070711
0.070741
0.070840
0.070864
0.071072
0.071102
0.071569
0.072160
0.072539
0.072603
0.072740
0.072744
0.072992
0.073073
0.073449
0.073627
0.073732
0.073762
0.073968
0.074119
0.074241
0.074729
0.074733
0.076385
"." marks two standard errors
45
Tab. 5.2 – Test du portemanteau pour un bruit Blanc
Autocorrelation Check for White Noise
To
Lag
ChiSquare
DF
Pr >
ChiSq
6
12
18
24
2.53
6.87
10.01
18.62
6
12
18
24
0.8654
0.8661
0.9317
0.7722
--------------------Autocorrelations--------------------
5
0.021
0.092
-0.034
-0.047
0.037
-0.074
-0.074
-0.043
10
37
0.018
-0.030
-0.051
-0.085
-0.054
-0.045
-0.039
0.008
-0.021
-0.007
-0.021
-0.158
0.082
-0.060
0.055
-0.039
1
Tab. 5.3 – FAC empirique de la série ”Nombres de morts par accident au Royaume-Uni
The ARIMA Procedure
Name of Variable = nbmorts
5
Mean of Working Series
Standard Deviation
Number of Observations
1670.307
288.8558
192
10
Autocorrelations
15
20
25
30
35
Lag
Covariance
Correlation
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
83437.661
59175.305
38668.111
22355.203
12236.275
10562.841
5569.811
6611.029
6371.492
15602.846
28378.989
46148.290
58509.710
44807.324
24629.801
11064.697
2834.743
-371.072
-1974.918
-3902.628
-4232.750
3160.806
14258.737
32610.400
42438.630
1.00000
0.70922
0.46344
0.26793
0.14665
0.12660
0.06675
0.07923
0.07636
0.18700
0.34012
0.55309
0.70124
0.53702
0.29519
0.13261
0.03397
-.00445
-.02367
-.04677
-.05073
0.03788
0.17089
0.39084
0.50863
-1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
|********************|
|**************
|
|*********
|
|*****
|
|*** .
|
|*** .
|
|*
.
|
|** .
|
|** .
|
|****.
|
|*******
|
|***********
|
|**************
|
|***********
|
|******.
|
|***
.
|
|*
.
|
|
.
|
|
.
|
*|
.
|
*|
.
|
|*
.
|
|***
.
|
|********
|
|**********
|
Std Error
0
0.072169
0.102214
0.112628
0.115900
0.116862
0.117574
0.117772
0.118049
0.118306
0.119836
0.124762
0.136938
0.154513
0.163946
0.166691
0.167240
0.167276
0.167277
0.167294
0.167362
0.167442
0.167487
0.168392
0.173053
40
"." marks two standard errors
Tab. 5.4 – Test de blancheur de la série ”Nombres de morts par accident au Royaume-Uni
Autocorrelation Check for White Noise
5
To
Lag
ChiSquare
DF
Pr >
ChiSq
10
6
12
18
24
162.69
360.63
442.95
541.71
6
12
18
24
<.0001
<.0001
<.0001
<.0001
--------------------Autocorrelations-------------------0.709
0.079
0.537
-0.047
0.463
0.076
0.295
-0.051
38
0.268
0.187
0.133
0.038
0.147
0.340
0.034
0.171
0.127
0.553
-0.004
0.391
0.067
0.701
-0.024
0.509
Chapitre 6
Modèles de séries stationnaires
Dans le précédent chapitre on a défini la stationnarité (faible) et étudié la fonction d’autocorrélation d’une telle série. Maintenant nous examinons les exemples classiques de séries
stationnaires et calculons leurs fonctions d’autocorrélation.
Premier exemple, le bruit blanc. Un bruit blanc est une série stationnaire. Si {Zt } ∼
BB(0, σZ2 ), sa fonction d’autocovariance est :
2
σZ , k = 0
γZ (k) =
0, k 6= 0
Etant donné une série empirique, sa modélisation revient souvent à trouver, c’est-à-dire identifier et estimer le mécanisme qui fait passer d’un BB à la série.
6.1
Série linéaire
Une série Yt est dite linéaire si elle peut s’écrire :
∞
X
Yt = µ +
ψi Zt−i
(6.1)
i=−∞
P
où Zt est un BB(0, σZ2 ), ψ0 = 1 et la suite {ψi } est absolument sommable, c’est-à-dire
i |ψi | <
∞. On admettra qu’une série linéaire est stationnaire.
Une série est dite linéaire et causale si elle est linéaire et ψi = 0, i < 0, autrement dit elle
ne dépend que du BB passé. Pour une discussion sur le sens de l’écriture ci-dessus, on peut voir
par exemple Hamilton ([10]), paragraphe 3.3.
P
2
Si Yt est linéaire et causal on obtient : EYt = µ, var(Yt ) = σZ2 ∞
i=0 ψi L’autocovariance
d’ordre k est :
∞
∞
X
X
γk = cov(Yt , Yt−k ) = E[
ψi Zt−i ,
ψj Zt−k−j ]
(6.2)
i=0
= E(
∞
X
j=0
ψi ψj Zt−i Zt−k−j )
(6.3)
i,j=0
=
∞
X
2
ψj+k ψj E(Zt−k−j
)
j=0
=
σZ2
∞
X
j=0
39
ψj ψj+k
(6.4)
Si la série est linéaire et causale et si de plus ψi = 0 pour i > q on dit que Yt est une moyenne
mobile d’ordre q (MA(q)). Une série linéaire causale est un MA(∞).
6.1.1
Processus gaussien
Nous admettons sans justification, la définition non formalisée suivante. Un processus {Yt }
est gaussien si :
– ∀k, un nombre de dates,
– ∀(t1 , t2 , · · · , tk ), un choix de k dates,
le vecteur aléatoire : (Yt1 , Yt2 , . . . , Ytn ) est normalement distribué.
6.2
6.2.1
Processus autorégressif d’ordre p
Processus autorégressif d’ordre 1
On dit que {Yt } est un processus autorégressif d’ordre 1 s’il obéit à une équation :
Yt = φ0 + φ1 Yt−1 + Zt ,
t∈Z
(6.5)
Moments d’ordres 1 et 2 d’un AR(1)
Supposons {Yt } dans (6.5) stationnaire alors, sa moyenne µ, est constante et prenant
l’espérance mathématique des deux côtés de (6.5) on obtient
µ = φ0 + φ1 µ
et si φ1 6= 1 :
E(Yt ) = µ =
φ0
.
1 − φ1
Comme alors, φ0 = µ(1 − φ1 ) on a :
Yt − µ = φ1 (Yt−1 − µ) + Zt
On pose Ẏt = Yt − µ. C’est le processus centré. Avec l’opérateur retard, on a :
(1 − φ1 B)Ẏt = Zt
Par substitutions successives on obtient que Ẏt peut être exprimé comme une moyenne mobile
infinie :
Ẏt = Zt + φ1 Zt−1 + φ21 Zt−2 + ...
(6.6)
pourvu que −1 < φ1 < 1. Cette condition est suffisante pour que le processus soit stationnaire.
Dans ce cours nous supposerons toujours qu’un processus qui vérifie (6.5) est stationnaire si et
seulement si −1 < φ < 1.
On appelle (6.6) la représentation MA(∞) de Yt . L’écriture de Yt comme une somme de v.a. non
40
corrélées permet de calculer facilement les variance et autocovariances comme nous le voyons
maintenant.
Elevons au carré les deux côtés de (6.6), il vient :
var(Yt ) = σZ2 (1 + φ2 + φ4 + . . . )
σZ2
=
1 − φ2
Enfin écrivons (6.6) en t − k et calculons les espérances des deux côtés de :
Yt Yt−k = (Zt + φZt−1 + φ2 Zt−2 + ...)(Zt−k + φZt−k−1 + φ2 Zt−k−2 + ...)
où, Zt étant un BB, E(Zt Zt−m ) = 0, m 6= 0. On obtient pour k > 0
γk = (φk + φk+2 + φk+4 . . . )σZ2 = φk γ0
La fonction d’autocorrélation de l’AR(1) est :
ρk = φk , k = 0, 1, 2, . . .
(6.7)
Observons enfin que (6.6) est l’écriture d’un AR(1) comme une moyenne mobile infinie.
Exemples
AR(1) simulé. On a simulé 150 observations de yt obéissant à
yt = 4 − 0.8 yt−1 + Zt , Zt ∼ BBN (0, 1)
On a obtenu une moyenne empirique de 2.271132 et un écart-type 1.371441.
Retard
0
1
2
3
4
5
6
FAC théorique
1
-0.8
0.64
-0.512
0.4096
-0.32768
0.26214
FAC empirique
1.00000
-.72267
0.46219
-.30436
0.22636
-.13674
0.06958
Résidu de l’ajustement pour le lac Huron Nous avons ajusté une droite au nuage des
points (année, niveau) pour les données du lac Huron. Examinons la fonction d’autocorrélation
des résidus.
proc arima data=lakout;
identify var= residmc;
run;
quit;
5
The ARIMA Procedure
41
Name of Variable = residmc
Mean of Working Series
Standard Deviation
Number of Observations
10
3.17E-16
1.118698
98
Autocorrelations
15
20
25
30
35
40
Lag
Covariance
Correlation
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
1.251485
0.953128
0.581134
0.326760
0.175465
0.100643
0.042525
0.029330
0.065770
0.110970
0.027184
-0.088782
-0.140411
-0.147251
-0.090530
-0.053720
-0.053759
-0.104093
-0.177552
-0.219761
-0.230869
-0.148704
-0.016941
0.117597
0.161241
1.00000
0.76160
0.46436
0.26110
0.14021
0.08042
0.03398
0.02344
0.05255
0.08867
0.02172
-.07094
-.11220
-.11766
-.07234
-.04292
-.04296
-.08318
-.14187
-.17560
-.18448
-.11882
-.01354
0.09397
0.12884
-1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|********************|
|***************
|
.
|*********
|
.
|***** .
|
.
|***
.
|
.
|**
.
|
.
|*
.
|
.
|
.
|
.
|*
.
|
.
|**
.
|
.
|
.
|
.
*|
.
|
.
**|
.
|
.
**|
.
|
.
*|
.
|
.
*|
.
|
.
*|
.
|
.
**|
.
|
.
***|
.
|
. ****|
.
|
. ****|
.
|
.
**|
.
|
.
|
.
|
.
|**
.
|
.
|***
.
|
.
Std Error
0
0.101015
0.148464
0.162610
0.166833
0.168031
0.168423
0.168493
0.168527
0.168694
0.169169
0.169197
0.169500
0.170256
0.171084
0.171396
0.171506
0.171615
0.172026
0.173216
0.175023
0.176996
0.177808
0.177819
0.178325
Les ... sont les limites de l’intervalle introduit après la formule de Bartlett (5.7). On voit la
fonction dessinée ressemble à la FAC d’un AR(1) avec φ ' 0.7. Il faudrait donc ajuster à la
série des niveaux, un modèle :
(6.8)
yt = β0 + β1 t + ut ,
ut = φut−1 + zt
zt ∼ BB.
On n’étudiera pas dans ce cours la théorie de cet ajustement. Nous allons le faire en deux
étapes : ajustement linéaire de la première équation par MCO puis modélisation du résidu.
1. Ajustement MCO. On a vu comment l’obtenir par la proc autoreg de SAS.
5
proc autoreg data= st6.lake;
model niveau = date;
output out= lakout1 residual=residmc1;
run;
Un extrait de l’output est :
The AUTOREG Procedure
Standard
42
Approx
Variable
DF
Estimate
Error
t Value
Pr > |t|
1
1
8.3171
-0.000057
0.4620
0.0000267
18.00
-2.13
<.0001
0.0359
5
Intercept
DATE
2. Modélisation du résidu. On commence par examiner la fonction d’autocorrélation des zbt .
Ça se fait par l’étape identify de la proc arima.
proc arima data=lakout1;
identify var= residmc1;
run;
quit;
L’ouput est :
The ARIMA Procedure
Name of Variable = residmc
5
Mean of Working Series
Standard Deviation
Number of Observations
3.17E-16
1.118698
98
10
Autocorrelations
15
20
25
Lag
Covariance
Correlation
0
1
2
3
4
5
6
7
8
9
10
1.251485
0.953128
0.581134
0.326760
0.175465
0.100643
0.042525
0.029330
0.065770
0.110970
0.027184
1.00000
0.76160
0.46436
0.26110
0.14021
0.08042
0.03398
0.02344
0.05255
0.08867
0.02172
-1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1
|
|
|
|
|
|
|
|
|
|
|
|********************|
|***************
|
|*********
|
|***** .
|
|***
.
|
|**
.
|
|*
.
|
|
.
|
|*
.
|
|**
.
|
|
.
|
.
.
.
.
.
.
.
.
.
.
Std Error
0
0.101015
0.148464
0.162610
0.166833
0.168031
0.168423
0.168493
0.168527
0.168694
0.169169
"." marks two standard errors
Cette FAC suggère que l’erreur est AR(1). Une estimation explicite du modèle AR(1)
pour le résidu s’obtient par la syntaxe minimale :
5
proc arima data=lakout;
identify var= residmc;
estimate p=1 plot;
run;
quit;
The SAS System
09:55 Thursday, July 29, 2004
The ARIMA Procedure
10
Name of Variable = residmc
Mean of Working Series
Standard Deviation
43
3.17E-16
1.118698
18
Number of Observations
98
15
Autocorrelations
Lag
Covariance
Correlation
0
1
2
3
4
5
6
7
8
9
10
1.251485
0.953128
0.581134
0.326760
0.175465
0.100643
0.042525
0.029330
0.065770
0.110970
0.027184
1.00000
0.76160
0.46436
0.26110
0.14021
0.08042
0.03398
0.02344
0.05255
0.08867
0.02172
-1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1
Std Error
20
25
30
|
|
|
|
|
|
|
|
|
|
|
|********************|
|***************
|
|*********
|
|***** .
|
|***
.
|
|**
.
|
|*
.
|
|
.
|
|*
.
|
|**
.
|
|
.
|
.
.
.
.
.
.
.
.
.
.
0
0.101015
0.148464
0.162610
0.166833
0.168031
0.168423
0.168493
0.168527
0.168694
0.169169
"." marks two standard errors
Autocorrelation Check for White Noise
35
40
To
Lag
ChiSquare
DF
Pr >
ChiSq
6
12
18
24
90.50
93.78
99.73
113.00
6
12
18
24
<.0001
<.0001
<.0001
<.0001
--------------------Autocorrelations-------------------0.762
0.023
-0.118
-0.176
0.464
0.053
-0.072
-0.184
0.261
0.089
-0.043
-0.119
0.140
0.022
-0.043
-0.014
0.080
-0.071
-0.083
0.094
0.034
-0.112
-0.142
0.129
45
Conditional Least Squares Estimation
Parameter
Estimate
Standard
Error
t Value
Approx
Pr > |t|
Lag
0.09811
0.79163
0.31349
0.06549
0.31
12.09
0.7550
<.0001
0
1
50
MU
AR1,1
Constant Estimate
0.020443
Variance Estimate
0.507557
Std Error Estimate
0.71243
AIC
213.6328
SBC
218.8028
Number of Residuals
98
* AIC and SBC do not include log determinant.
55
60
Correlations of Parameter
Estimates
65
Parameter
MU
AR1,1
70
MU
AR1,1
1.000
0.097
0.097
1.000
The SAS System
09:55 Thursday, July 29, 2004
The ARIMA Procedure
75
Autocorrelation Check of Residuals
To
Lag
ChiSquare
DF
Pr >
ChiSq
6
8.25
5
0.1430
--------------------Autocorrelations--------------------
80
0.216
44
-0.104
-0.136
-0.057
-0.009
-0.044
21
12
18
24
14.86
16.22
25.09
11
17
23
0.1888
0.5079
0.3456
-0.053
-0.050
-0.068
0.008
0.018
-0.162
0.177
0.023
-0.041
0.019
0.062
0.050
-0.119
0.010
0.160
-0.103
-0.064
0.091
85
Autocorrelation Plot of Residuals
Lag
Covariance
Correlation
0
1
2
3
4
5
6
7
8
9
10
0.507557
0.109480
-0.052640
-0.068972
-0.028755
-0.0046044
-0.022188
-0.026876
0.0038855
0.089783
0.0095761
1.00000
0.21570
-.10371
-.13589
-.05665
-.00907
-.04371
-.05295
0.00766
0.17689
0.01887
-1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1
Std Error
90
95
100
|
|
|
|
|
|
|
|
|
|
|
|********************|
.
|****
|
. **|
.
|
.***|
.
|
. *|
.
|
.
|
.
|
. *|
.
|
. *|
.
|
.
|
.
|
.
|****
|
.
|
.
|
0
0.101015
0.105611
0.106645
0.108397
0.108699
0.108707
0.108886
0.109148
0.109154
0.112041
"." marks two standard errors
Model for variable residmc
105
Estimated Mean
0.09811
Autoregressive Factors
110
Factor 1:
1 - 0.79163 B**(1)
On lit à partir de la ligne (76) ci-dessus, le test de blancheur. Un modèle AR(1) convient
donc. Reste à estimer le coefficient φ de l’autorégression ; l’output précédent fournit φb =
0.79163.
Les tests de blancheur fournis par la proc arima seront commentés plus en détail, section
(6.2.3), sur un autre exemple d’ajustement.
Note. L’ajustement de (6.8) avec l’erreur AR(1) peut se faire directement dans SAS par :
proc autoreg data= st6.lake;
model niveau = date/nlag=1;
run;
L’estimateur de β est dans ce cas un estimateur MCG. Pour une erreur autre que AR, il faut
utiliser la proc arima.
Note. Test de blancheur - Voyons comment est mise en œuvre la formule (5.6 de la section 5.1.2)
pour obtenir la statistique du portemanteau : 8.38 ci-dessus, de la ligne (76) dans le paragraphe
Autocorrelation Check for White Noise
de la sortie de l’étape identify de la proc arima. Cette statistique est calculée suivant la
45
formule par :
98 × (98 + 2)×
(0.2382 /97 + (−0.083)2 /96 + (−0.121)2 /95 + (−0.050)2 /94 + (−0.004)2 /93 + (−0.041)2 /92) =
8.3778 ' 8.38
Cet exemple comportait deux estimations : celle de la moyenne du niveau, ici une fonction
linéaire du temps, et l’estimation du modèle de l’erreur, une fois son type reconnu, c’est-àdire une fois identifiée la série des résidus. C’est un cas assez réaliste mais pour ne pas compliquer
la situation, nous n’étudierons en général que des séries de moyenne constante et le problème
qui nous intéressera sera de reconnaı̂tre le mécanisme d’autocorrélation (c’est-à-dire identifier
la série), estimer les paramètres du modèle identifié et prédire les valeurs futures.
6.2.2
Modèle AR(2)
Soit Yt stationnaire, obéissant à l’équation :
Yt = φ0 + φ1 Yt−1 + φ2 Yt−2 + Zt
(6.9)
Prenant l’espérance des deux côtés on obtient :
E(Yt ) = µ =
φ0
1 − φ1 − φ2
pourvu que 1 6= φ1 + φ2 . Comme φ0 = µ(1 − φ1 − φ2 ), on a :
Yt − µ = φ1 (Yt−1 − µ) + φ2 (Yt−2 − µ) + Zt
et on va étudier la fonction d’autocovariance sur le processus centré, Ẏt = Yt − µ qui vérifie :
Ẏt = φ1 Ẏt−1 + φ2 Ẏt−2 + Zt
(6.10)
Multiplions les deux côtés de cette équation par Ẏt−l , l > 0
Ẏt Ẏt−l = φ1 Ẏt−1 Ẏt−l + φ2 Ẏt−2 Ẏt−l + Zt Ẏt−l
et prenons les espérances mathématiques. Nous obtenons :
γl = φ1 γl−1 + φ2 γl−2 , l > 0
(6.11)
En effet, par substitution successive de Yt−1 en fonction de Yt−2 , Zt−2 , ... on voit que cov(Ẏt−l , Zt ) =
0, l > 0. On appelle (6.11), l’équation de moments d’un AR(2). La fonction d’autocorrélation
d’un AR(2) est :
φ1
1 − φ2
ρl = φ1 ρl−1 + φ2 ρl−2 , l > 1.
ρ1 =
46
(6.12)
(6.13)
On appelle équations de Yule-Walker, les équations que vérifient les autocovariances ou les
autocorrélations d’un processus AR(p), formule (6.14) ou un ARMA(p,q) (formule (6.18).
Nous avons supposé Yt dans (6.9), stationnaire. Nous examinons maintenant les conditions
sur les φi qui assurent cette stationnarité. L’équation aux différences correspondant à (6.10),
est :
1 − φ1 B − φ2 B2 = 0
C’est le polynôme caractéristique de l’équation de récurrence qui décrit l’AR(2). Cette équation
du second degré a deux racines réelles ou complexes : 1/ω1 et 1/ω2 :
1 − φ1 B − φ2 B2 = (1 − ω1 B)(1 − ω2 B)
Pour aller plus loin, examinons ce qu’on a fait pour le processus AR(1). Le processus AR(1)
centré obéit à
(1 − φ1 B)Ẏt = Zt
La substitution a donné : Ẏt = Zt + φZt−1 + φ2 Zt−2 + ... ou Ẏt = (1 − φ1 B)−1 Zt Elle revient
à développer en série la fraction rationnelle (1 − φ1 B)−1 , opération possible car |φ1 | < 1. Pour
l’AR(2), on veut développer en série : (1−φ1 B−φ2 B2 )−1 . On peut décomposer cette opération :
(1 − ω1 B)(1 − ω2 B)Ẏt = Zt
donne :
(1 − ω2 B)Ẏt = (1 − ω1 B)−1 Zt
puis
Ẏt = (1 − ω2 B)−1 (1 − ω1 B)−1 Zt
Ces opérations sont possibles si |ω1 | < 1 et |ω2 | < 1 c’est-à-dire si les racines du polynôme
caractéristique sont en module > 1.
En résumé : un processus qui vérifie (6.9) est stationnaire si et seulement si les racines du
polynôme caractéristique 1 − φ1 B − φ2 B2 sont > 1 en module.
Processus autorégressif d’ordre p Une extension immédiate du modèle AR(1) est le
modèle AR(p).
Soit {Zt } un BB. Un processus {Yt } est dit autorégressif d’ordre p s’il s’écrit :
Yt = φ0 + φ1 Yt−1 + φ2 Yt−2 + · · · + φp Yt−p + Zt
(6.14)
Avec l’opérateur retard on peut écrire cette autorégression à l’ordre p comme :
(1 − φ1 B − φ2 B2 − · · · − φp Bp )Yt = φ0 + Zt
Φ(B)Yt
=
φ0 Zt
Condition de stationnarié d’un processus autorégressif d’ordre p. Nous inspirant de
ce qu’on a obtenu pour un AR(2), nous admettrons qu’un processus autorégressif d’ordre p est
stationnaire si les racines de l’équation : 1 − φ1 z − φ2 z 2 − · · · − φp z p = 0 sont en module > 1.
47
6.2.3
Exemple numérique
On considère Yt obéissant à :
Yt − 50 = 0.7(Yt−1 − 50) − 0.49(Yt−2 − 50) + Zt
Zt ' BBN(0, 1)
On simule 200 valeurs consécutives de Yt . Par la proc arima on obtient la fonction d’autocorrélation empirique qu’on peut comparer à la FAC théorique.
Ajustons un modèle AR(2) à la série observée et testons la blancheur du résidu. (Ce test
est automatiquement réalisé par la proc arima dans l’étape d’estimation.)
5
proc arima data=exoiup.ar2;
i var=y; run;
e p=2 plot; run;
quit;
* ------------------;
The SAS System
09:55 Thursday, July 29, 2004
1
The ARIMA Procedure
10
Name of Variable = y
Mean of Working Series
Standard Deviation
Number of Observations
15
49.97537
1.282115
200
The ARIMA Procedure
Name of Variable = y
20
Mean of Working Series
Standard Deviation
Number of Observations
49.97537
1.282115
200
25
Autocorrelations
30
35
40
Lag
Covariance
Correlation
0
1
2
3
4
5
6
7
8
9
10
1.643819
0.828390
-0.091800
-0.316190
-0.199732
-0.080230
0.0036423
0.124443
0.145125
-0.015833
-0.236086
1.00000
0.50394
-.05585
-.19235
-.12150
-.04881
0.00222
0.07570
0.08829
-.00963
-.14362
-1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1
|
|
|
|
|
|
|
|
|
|
|
|********************|
. |**********
|
. *| .
|
****| .
|
. **|
.
|
. *|
.
|
.
|
.
|
.
|** .
|
.
|** .
|
.
|
.
|
.***|
.
|
Std Error
0
0.070711
0.086831
0.087010
0.089111
0.089935
0.090068
0.090068
0.090386
0.090816
0.090821
"." marks two standard errors
Autocorrelation Check for White Noise
45
50
To
Lag
ChiSquare
DF
Pr >
ChiSq
6
12
18
24
63.32
78.17
83.58
88.66
6
12
18
24
<.0001
<.0001
<.0001
<.0001
--------------------Autocorrelations-------------------0.504
0.076
0.044
-0.042
-0.056
0.088
0.073
-0.048
48
-0.192
-0.010
0.065
-0.059
-0.122
-0.144
0.089
-0.049
-0.049
-0.170
0.064
0.037
0.002
-0.082
0.035
0.105
The ARIMA Procedure
55
Conditional Least Squares Estimation
60
Parameter
Estimate
Standard
Error
t Value
Approx
Pr > |t|
Lag
MU
AR1,1
AR1,2
49.98941
0.72493
-0.42548
0.10187
0.06499
0.06499
490.72
11.16
-6.55
<.0001
<.0001
<.0001
0
1
2
65
Constant Estimate
35.02049
Variance Estimate
1.019616
Std Error Estimate
1.009761
AIC
574.438
SBC
584.3329
Number of Residuals
200
* AIC and SBC do not include log determinant.
70
Autocorrelation Check of Residuals
75
80
85
To
Lag
ChiSquare
DF
Pr >
ChiSq
6
12
18
24
30
36
3.02
6.66
11.45
15.55
21.58
30.33
4
10
16
22
28
34
0.5549
0.7567
0.7810
0.8374
0.8002
0.6480
--------------------Autocorrelations-------------------0.039
0.020
0.062
-0.096
0.032
-0.063
-0.067
0.033
0.027
0.030
0.063
-0.073
0.065
-0.001
-0.011
-0.006
0.013
-0.007
0.037
-0.078
0.092
-0.051
-0.091
-0.017
-0.016
-0.066
-0.007
0.033
0.034
-0.157
-0.054
-0.072
0.093
0.065
-0.105
-0.043
The ARIMA Procedure
Model for variable y
90
Estimated Mean
49.98941
Autoregressive Factors
95
Factor 1:
1 - 0.72493 B**(1) + 0.42548 B**(2)
Lecture du code et de la sortie ci-dessus. y est la série simulée.
• Ligne (2) et suivante, étape d’identification de la série y. L’étape fournit l’ACF (et d’autres
outils d’aide à la compréhension du mécanisme de la série non reproduits) ainsi qu’un test de
blancheur de la série (49). Les p-values sont évidemment très faibles puisqu’y n’est pas un BB.
Comparer les coefficients d’autocorrélation empiriques et théoriques jusqu’à l’ordre 3.
• La ligne (4) commande l’étape d’estimation. L’équation estimée apparaı̂t d’abord coefficient
par coefficient puis en clair en fin de sortie. Quel est le lien entre Estimated Mean et
Constant Estimate, ligne (67) ? L’option plot de la commande estimate donne les mêmes
résultats qu’une étape identify, mais sur la série des résidus de l’estimation. Ces sorties peuvent
suggérer des corrections au modèle estimé.
• Ligne (80) et suivantes, test de blancheur du résidu. Noter que SAS indique 4 et non 6, ...
degrès de liberté, colonne DF. Ces résidus sont le résultat d’un ajusement d’un AR(2), soit 2
paramètres estimés, donc cette quantité est enlevée aux degrés de liberté.
49
Il faut bien faire la différence entre : Autocorrelation Check for White Noise, ligne
(44) qui annonce le test de blancheur de la série indiquée à l’étape identify et
Autocorrelation Check of Residuals ligne ( 75) qui annonce le test de blancheur de
la série des résidus de l’étape estimate. Cette série doit être un buit blanc si l’ajustement
est satisfaisant.
Résumé. Nous avons étudié une série suivant un AR(2). Le rejet de sa blancheur à l’étape
d’identification est normal. Ensuite nous avons ajusté le modèle correct à cette série. L’acceptation de la blancheur des résidus correspondants est logique (et rassurante). Nous définirons au
chapitre (7) la fonction d’autocorrélation partielle. C’est une fonction très utile pour reconnaı̂tre
si une série est autorégressive, et de quel ordre.
6.3
6.3.1
Processus Moyenne mobile
Processus MA(1)
On dit que (Yt ) est un processus moyenne mobile d’ordre 1 (MA(1)), s’il obéit à une
équation :
Yt = µ + Zt − θZt−1
(6.15)
où Zt ∼ BB(0, σZ2 ). Cette équation s’écrit encore :
Yt − µ = (1 − θB)Zt
Moments d’ordres 1 et 2 d’un MA(1) En prenant l’espérance mathématique des deux
côtés de (6.15), on voit que
E(Yt ) = µ
La variance de Yt est la variance d’une combinaison affine de variables non corrélées donc :
var(Yt ) = (1 + θ2 )σZ2 . De même, cov(Yt , Yt−1 ) = cov(µ + Zt − θZt−1 , µ + Zt−1 − θZt−2 ) = −θσZ2 .
On voit que cov(Yt , Yt−k ) = 0, k > 1. En résumé, ∀θ, le processus MA(1) défini par (6.15) est
stationnaire, de moyenne µ, de fonction d’autocorrélation :


si k = 0,
1
−θ
ρk = 1+θ2 si k = 1,


0
si k > 1
On aimerait pouvoir exprimer le processus MA(1) en fonction de son passé (observé) et pas
seulement en fonction d’un bruit non observé. Introduisons le processus centré, Ẏt = Yt − µ,
correspondant à (6.15). On voit que si |θ| < 1, on peut développer (1 − θB)−1 en série entière.
Ceci nous amène à une définition.
Définition. On dit qu’un processus est inversible si on peut l’écrire comme une autorégression
infinie. Ainsi, un MA(1) est inversible si la racine de l’équation 1−θz = 0 est > 1 en module. On
observe que la condition d’inversibilité d’un MA(1) est techniquement parallèle à la condition
de stationnarité d’un autorégressif d’ordre 1.
50
Commentaires.
Un processus MA comme (6.15) ou (6.16) ci-dessous, ne s’exprime pas directement en fonction de ses observations passées et de plus le bruit Zt n’est pas observé. L’écriture MA ne permet
donc pas de prédire directement le processus ou d’écrire la vraisemblance. L’inversibilité qui
permet d’exprimer le processus en fonction de son passé est donc très utile.
6.3.2
Processus MA(q)
Un processus (Yt ) est dit processus moyenne mobile d’ordre q (M A(q)) si :
Yt = µ + Zt − θ1 Zt−1 − θ2 Zt−2 − · · · − θq Zt−q
(6.16)
où Zt ∼ BB(0, σZ2 ).
On peut noter de façon équivalente :
Yt = µ + (1 − θ1 B − θ2 B2 − · · · − θq Bq )Zt
= µ + Θ(B)Zt
Un M A(q) est un cas de série linéaire.
Propriétés.
1. Un M A(q) est un processus stationnaire.
2. La fonction d’autocorrélation d’un processus MA(q) est nulle à partir de l’ordre q + 1.
Cette dernière propriété est utile pour deviner (identifier) l’ordre de moyenne mobile convenable
pour modéliser une série. En effet, en présence d’un corrélogramme empirique non significativement différent de 0 à partir d’un certain ordre (k), on pensera à modéliser la série correspondante
par un MA(k − 1).
Inversibilité d’un MA(q). On voit qu’un MA(q) est inversible si les racines de 1 − θ1 z − θ2 z 2 −
· · · − θq z q = 0 sont, en module, > 1.
Exemple numérique
On a simulé 200 observations consécutives d’un processus Yt obéissant à :
Yt = 3 + 0.3 Zt−1 − 0.9 Zt−2 + Zt , Zt ∼ BBN (0, σ 2 = 2.25)
(6.17)
Calculer la fonction d’autocorrélation de ce processus et la comparer à la fonction d’autocorrélation empirique ci-dessous.
The SAS System
22:04 Sunday, July 11, 2004
The ARIMA Procedure
Name of Variable = y
Mean of Working Series
Standard Deviation
Number of Observations
51
3.058899
2.217469
200
1
Fig. 6.1 – Simulation d’un AR(1)
Fig. 6.2 – Simulation d’un MA(2)
Autocorrelations
Lag
Covariance
Correlation
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
4.917168
0.353187
-2.728001
-0.606867
0.411749
0.596527
0.198892
-0.216285
-0.320821
-0.184069
0.089727
0.149609
0.197149
-0.233649
-0.759076
0.314311
1.058500
-0.374751
-0.939826
0.210366
0.333923
-0.091486
0.169077
0.278091
0.060347
1.00000
0.07183
-.55479
-.12342
0.08374
0.12132
0.04045
-.04399
-.06525
-.03743
0.01825
0.03043
0.04009
-.04752
-.15437
0.06392
0.21527
-.07621
-.19113
0.04278
0.06791
-.01861
0.03439
0.05656
0.01227
-1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|********************|
. |* .
|
***********| .
|
. **|
.
|
.
|** .
|
.
|** .
|
.
|* .
|
. *|
.
|
. *|
.
|
. *|
.
|
.
|
.
|
.
|* .
|
.
|* .
|
. *|
.
|
.***|
.
|
.
|* .
|
.
|****
|
. **|
.
|
****|
.
|
.
|* .
|
.
|* .
|
.
|
.
|
.
|* .
|
.
|* .
|
.
|
.
|
Std Error
0
0.070711
0.071075
0.090164
0.091005
0.091389
0.092191
0.092279
0.092384
0.092614
0.092690
0.092708
0.092758
0.092844
0.092966
0.094239
0.094455
0.096877
0.097177
0.099039
0.099131
0.099363
0.099381
0.099440
0.099601
"." marks two standard errors
On observe que la fonction d’autocorrélation n’est pas significativement différente à partir du
décalage 3, ce qui suggère bien un MA(2).
52
6.4
Processus ARMA(p,q)
Définition {Yt } est un processus ARMA(p,q) s’il est stationnaire avec une partie MA et
une partie AR :
Yt − φ1 Yt−1 − φ2 Yt−2 − · · · − φp Yt−p = θ0 + Zt − θ1 Zt−1 − θ2 Zt−2 − · · · − θq Zt−q (6.18)
où Zt ∼ BB(0, σZ2 ). On voit que
µ = E(Yt ) =
θ0
.
1 − φ1 − · · · − φp
Un ARMA(p,q) peut se noter :
Yt = µ +
1 − θ1 B − · · · − θq B q
Zt
1 − φ1 B − · · · − φp Bp
(6.19)
par exemple un ARMA(2,1) s’écrit :
Yt = µ +
1 − θ1 B
Zt .
1 − φ1 B − φ2 B2
Dans ces expressions, il faut bien voir que µ est la moyenne et que l’autre terme est une erreur
de moyenne nulle, autocorrélée. On pourrait envisager une moyenne fonction du temps avec
toujours un modèle ARMA de moyenne nulle pour l’erreur.
Processus ARMA(p,q) gaussien Supposons que dans la définition ci-dessus : Zt ∼
BBN(0, σZ2 ), c’est-à-dire : le bruit blanc est une suite de v.a. i.i.d. N (0, σZ2 ). Nous admettrons,
qu’alors Yt est un processus gaussien. Il est relativement facile d’écrire la fonction de vraisemblance pour un tel processus et donc de calculer des estimateurs par maximum de vraisemblance
de ses paramètres, c’est ce que nous détaillerons au chapitre 9.
Représentation MA(∞) et réponse impulsionnelle Examinons un processus linéaire et
causal :
Yt = µ +
∞
X
ψi Zt−i
(6.20)
i=0
par exemple, la représentation MA(∞) d’un AR(p). La quantité ψi indique l’influence d’un
choc aléatoire de 1 sur venant en t − i, sur Yt .
6.5
6.5.1
Saisonnalité
Saisonnalité multiplicative
Décrivons brièvement la modélisation de la saisonnalité dans l’approche de Box-jenkins. Soit
une série mensuelle observée (pour simplifier) sur un nombre entier d’années, à partir d’un mois
de janvier. On note yij l’observation du mois j de l’année i; j = 1, · · · , 12, i = 1, · · · , N .
53
Rangeons les valeurs observées en une table de Buys-Ballot : une ligne par an, une colonne par
mois :
janv. févr. mars
y11
y12
y13
y21
y22
y23
···
···
···
yN 1 yN 2
x13
· · · déc.
. . . y1,12
. . . y2,12
··· ···
. . . yN,12
Supposons qu’on modélise la dépendance d’un mois sur un ou deux mois précédents (sans
s’occuper de l’effet saisonnier) et qu’on adopte un ARMA(p,q) :
Φ(B)Yt = Θ(B)bt
Il est fort probable, si la série présente une saisonnalité, que le résidu bbt ne sera pas blanc mais
aura une structure de corrélation saisonnière. On peut envisager deux traitements de cette ”non
blancheur”. Ou bien on ajoute des termes de retard dans les polynômes Φ et Θ, ou bien on
modélise bt par un ARMA dont l’unité de temps est l’année :
bt =
Θs (Bs )
zt
Φs (Bs )
où s désigne la période (ici, s= 12). Ce qui donne :
Φs (Bs )Φ(B)Yt = Θ(B)Θs (Bs )Zt
(6.21)
avec Zt ∼ BB, où Φ(B), Φs (Bs ), Θ(B), Θs (Bs ) sont respectivement des polynômes de degrés
p, q en B et P, Q en Bs . On dit que Yt est un SARMA(p, q)(P, Q)s s’il vérifie (6.21) et est
stationnaire. Les conditions de
– stationnarité de Yt sont : les racines des polynômes Φ(B) et Φs (Bs ) sont en module > 1.
– inversibilité de Yt sont : les racines des polynômes Θ(B) et Θs (Bs ) sont en module > 1.
6.6
Exercices
Exercice 1 Notations de la section 6.2.1. Montrer que dans un AR(1) : cov(Yt , Zt+k ) = 0, k > 0.
Utiliser cette observation pour calculer γk sans passer par l’écriture M A(∞).
Exercice 2 Dessiner la fonction d’autocorrélation du modèle AR(1) : Yt = 1.2 − 0.8 Yt−1 + Zt où
Zt N (0, σ 2 = 9).
Exercice 3 (Complément à l’exemple numérique de la section (6.2.3). (1) Ce processus est-il
stationnaire ? (2) Calculer sa fonction d’autocorrélation jusqu’à l’ordre 3. (3) Comparer les
fonctions d’autocorrélation empiriques et théoriques jusqu’à l’ordre 3.
Exercice 4 Etudier la fonction
−θ
1 + θ2
rencontrée dans l’étude d’un MA(1) et commenter en termes concrets.
R3θ−
→
54
6.7
Annexe : simulation de processus ARMA dans SAS
Etant donné un modèle ARIMA entièrement spécifié (coefficients, loi de l’erreur) on veut
simuler une série temporelle qui obéit au dit modèle.
Simulation d’un MA Un processus MA(q) est une combinaison linéaire de q v.a. non
corrélées de moyenne 0, de variance constante. On peut simuler dans SAS des v.a. i.i.d. N(0,1),
par la fonction rannor. Elle génére des nombres pseudo aléatoires à partir d’un germe (ou
graine) qu’on doit spécifier. Si on donne, à des emplois successifs de la fonction, le même germe
constamment, on obtient toujours la même suite de simulations.
Exemple : Simulation d’une série de 100 observations suivant :
xt = at − 0.8at−1
avec at v.a. i.i.d. N(0,1) (xt MA(1) gaussien).
title1 ’Serie MA(1) Simulee’;
data a;
a1 = 0;
do i = -50 to 150;
a = rannor( 32565 );
u = a - .8 * a1;
if i > 0 then output;
a1 = a;
u1 = u;
end;
run;
On a initialisé la série du BB à 0 : a1 = 0;, puis on fait 150 tirages et on ne conserve
que les 100 derniers (if i > 0 then output; ).
Simulation du MA(2) (6.17)
data a;
mu =3;
zm1 =0;
zm2 =0;
do i=-10 to 200;
zm0 = 1.5*rannor(54629);
y = mu + 0.3*zm1-0.9*zm2 + zm0;
zm2 = zm1;
zm1=zm0;
if i >0 then output;
end;
run;
*---------------------------------;
proc arima data=a;
i var= y;
run;
quit;
Simulation d’un AR On veut simuler 200 observations d’un processus stationnaire obéissant
à :
yt = 1.4 ∗ yt−1 − 0.45 ∗ yt−2 + at
(6.22)
55
où at est un bruit blanc gaussien de variance 1, c’est un AR(2) gaussien. L’étape data ci-dessous
fait le travail.
title1 ’AR(2) simule’;
data a;
um1 = 0; um2=0; /* valeurs initiales */
do i = -50 to 200;
a = rannor( 43201 );
u = 1.4 * um1 - .45* um2 +a;
if i > 0 then output;
um2 = um1;
um1 = u;
end;
run;
Commentaires. Noter qu’il faut deux valeurs initiales y1 et y2 . Au début de la simulation le
processus dépend de ces valeurs. C’est pourquoi on abandonne le début de la série, ici les 51
premières valeurs.
* simulation d’un AR(1)
data a;
c= 4;
phi= -.8;
y1=0;
do i = -50 to 150;
z = rannor( 32565 );
y = c+ phi* y1 +z;
y1=y;
if i > 0 then output;
end;
run;
proc arima data = a;
i var= y; run;
quit;
Simulation d’un AR saisonnier On veut simuler une série suivant :
yt = −0.9yt−4 + at
avec at i.i.d. normale de moyenne 0 et de variance 2.25. Ici il faut 4 valeurs initiales, une par
saison (= trimestre).
5
10
title1 ’Simulation d’un AR saiso periode 4’;
data b;
y1=0; y2=0; y3= 0; y4=0;
do i = 1 to 300;
a = rannor( 32565 )*1.25;
if mod(i,4) = 1 then
do;
y= -.9* y1 +a;
y1=y;
end;
if mod(i,4) = 2 then
do;
y= -.9* y2 +a;
y2=y;
56
15
20
25
end;
if mod(i,4) = 3 then
do;
y= -.9* y3 +a;
y3=y;
end;
if mod(i,4) = 0 then
do;
y= -.9* y4 +a;
y4=y;
end;
if i > 100 then output;
end;
run;
Noter (1) l’usage de la fonction mod qui donne le reste de la division du premier argument par
le deuxième, (2) l’exécution de plusieurs ordres après then entre do; et end;.
Question. Comment corriger le code ci-dessus pour simuler un AR saisonnier de moyenne 10 ?
Application La proc arima, étape identify, a été appliquée à une des séries simulées
par les codes ci-dessus. Les fonctions d’autocorrélation simples et partielles sont reproduites
ci-dessous. Reconnaı̂tre le modèle simulé.
The SAS System
06:22 Tuesday, October 15, 2002
The ARIMA Procedure
Name of Variable = u
Mean of Working Series
Standard Deviation
Number of Observations
3.111413
4.014773
200
Autocorrelations
Lag
Covariance
Correlation
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
16.118398
15.274570
13.827400
12.215168
10.577303
8.969951
7.308810
5.758059
4.317324
3.056454
1.903562
0.785890
-0.254972
-1.170280
-1.879569
-2.303244
-2.513334
-2.615135
-2.809637
-3.086956
-3.304976
-3.570032
-3.850581
-4.306530
1.00000
0.94765
0.85786
0.75784
0.65623
0.55650
0.45345
0.35724
0.26785
0.18963
0.11810
0.04876
-.01582
-.07261
-.11661
-.14290
-.15593
-.16225
-.17431
-.19152
-.20504
-.22149
-.23889
-.26718
-1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|********************|
|******************* |
.
|*****************
|
.
|***************
|
.
|*************
|
.
|***********
|
.
|*********
|
.
|*******.
|
.
|***** .
|
.
|****
.
|
.
|**
.
|
.
|*
.
|
.
|
.
|
.
*|
.
|
.
**|
.
|
.
***|
.
|
.
***|
.
|
.
***|
.
|
.
***|
.
|
.
****|
.
|
.
****|
.
|
.
****|
.
|
. *****|
.
|
. *****|
.
|
.
57
Std Error
0
0.070711
0.118239
0.146081
0.164569
0.177170
0.185705
0.191160
0.194470
0.196306
0.197219
0.197573
0.197633
0.197639
0.197772
0.198116
0.198631
0.199242
0.199901
0.200660
0.201572
0.202612
0.203819
0.205214
1
24
-4.936490
-.30626
|
. ******|
.
|
0.206946
"." marks two standard errors
Partial Autocorrelations
Lag
Correlation
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
0.94765
-0.39399
-0.02374
-0.04899
-0.04112
-0.11995
0.03929
-0.05320
0.02209
-0.06893
-0.06165
-0.03099
-0.00167
0.02090
0.07520
-0.00418
-0.03009
-0.13667
-0.04743
0.02324
-0.09791
-0.01544
-0.15037
-0.10850
-1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
. |*******************
********| .
. | .
. *| .
. *| .
.**| .
. |* .
. *| .
. | .
. *| .
. *| .
. *| .
. | .
. | .
. |**.
. | .
. *| .
***| .
. *| .
. | .
.**| .
. | .
***| .
.**| .
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Autocorrelation Check for White Noise
To
Lag
ChiSquare
DF
Pr >
ChiSq
6
12
18
24
646.00
698.94
725.39
804.86
6
12
18
24
<.0001
<.0001
<.0001
<.0001
--------------------Autocorrelations-------------------0.948
0.357
-0.073
-0.192
0.858
0.268
-0.117
-0.205
58
0.758
0.190
-0.143
-0.221
0.656
0.118
-0.156
-0.239
0.557
0.049
-0.162
-0.267
0.453
-0.016
-0.174
-0.306
Chapitre 7
Prédiction linéaire d’une v.a.
Ce chapitre introduit essentiellement la notion d’espérance conditionnelle linéaire d’une v.a.
par rapport à une autre v.a. et, en exercice, la notion de coefficient de corrélation partielle.
7.1
Projection affine d’une v.a. sur une autre
Soit (X, Y ) un couple de v.a.. On appelle espérance conditionnelle linéaire (ECL) de Y
sachant X et on note EL(Y |X), la transformation affine de X, a∗0 + a∗1 X qui réalise :
min E[(Y − a0 − a1 X)2 ]
a0 ,a1
On dite encore que EL(Y |X) est le meilleur prédicteur affine de Y par X. On appelle aussi
EL(Y |X), régression linéaire de Y sur X.
Obtention de a∗0 et a∗1 . Posons Q(a0 , a1 ) = E[(Y − a0 − a1 X)2 ]. Admettant qu’on peut
permuter dérivation et calcul d’espérance mathématique, on obtient :
∂Q
= E[(Y − a0 − a1 X)(2)(−1)]
∂a0
∂Q
= E[(Y − a0 − a1 X)(2)(−X)]
∂a1
D’où on tire les conditions nécessaires :
E[(Y − a0 − a1 X)] = 0 (1)
E[(Y − a0 − a1 X)X] = 0 (2)
(1) et (2) sont les équations normales. De (1) on tire : a0 = E(Y − a1 X) = E(Y ) − a1 E(X). On
reporte ceci dans (2) qui devient : E[(Y − EY − a1 (X − EX))X] = 0, c’est-à-dire : cov(Y, X) −
a1 var(X) = 0 d’où :
cov(X, Y )
, si var(X) 6= 0
a∗1 =
var(X)
et :
cov(X, Y )
a∗0 = EY − a∗1 EX = EY −
EX
var(X)
59
En résumé :
(X,Y )
cov(X,Y )
EL(Y |X) = EY − cov
var(X) EX + var(X) X
(X,Y )
=
EY + cov
var(X) (X − EX)
=
EY + ρ σσXY (X − EX)
(7.1)
Pour trouver a∗1 on a utilisé la remarque (1) ci-dessous. Notons que si EX = EY = 0, alors
a∗0 = 0
Erreur quadratique de prévision. On a :
E[(Y − a∗0 − a∗1 X)2 ] = E[(Y − EL(Y |X))2 ] = var(Y ) −
cov(X, Y )2
= (1 − ρ2 )var(Y ), (7.2)
var(X)
où ρ est le coefficient de corrélation entre Y et X. Ce résultat est démontré dans un cadre
général ci-dessous.
Remarques.
1 On a : ∀a, E[(X − a)(Y − EY )] = E[X(Y − EY ) − a(Y − EY )] = E[X(Y − EY )] − aE[Y − EY ].
Dans cette dernière expression, le facteur de a est nul, et développant le terme non nul
on obtient :
∀a, E[(X − a)(Y − EY )] = E[X(Y − EY )] = E[XY ] − EXEY = cov(X, Y )
On a également :
∀b, E[(X − EX)(Y − b)] = cov(X, Y )
2 Unités. Observons par exemple que si X est en Euros et Y en mètres, a∗1 est en mètre/Euro,
et a∗0 en mètres - mètre/Euro × Euro, c’est-à-dire en mètres.
3 EL(Y |X) apparaı̂t dans (7.1) comme l’espérance de Y corrigée d’un facteur produit de deux
termes : le premier est du signe de la covariance entre X et Y et le second mesure l’écart
de X à sa moyenne.
4 EL(Y |X) est une v.a. fonction de la v.a. X.
5 Dans la pratique on s’intéresse à l’espérance conditionnelle linéaire de Y sachant que X a
pris une certaine valeur x, c’est-à-dire à la valeur prise par la v.a. EL(Y |X), et on note :
EL(Y |X = x) = EY + ρ
σY
(x − EX)
σX
(X,Y )2
5 La quantité var(Y ) − cov
var(X) dans (7.2) peut être comprise comme la variance de Y étant
donné X et on observe que plus forte est la corrélation entre Y et X plus faible est cette
variance.
60
7.2
Projection d’une v.a. sur un ensemble de v.a.
Soit X = [X1 , · · · , Xp ]0 un vecteur aléatoire ∈ Rp et Y ∈ R une v.a.. On appelle espérance
conditionnelle linéaire (ECL) de Y sachant X et on note EL(Y |X), la transformation affine de
X : a∗0 + a∗1 X1 + · · · + a∗p Xp , qui réalise :
min
a0 ,a1 ,··· ,ap
E[(Y − a0 − a1 X1 − · · · − ap Xp )2 ]
On dite encore que EL(Y |X) est le meilleur prédicteur affine de Y par X. Pour simplifier
l’écriture, nous prenons le cas p = 2.
Résultat. (Les calculs sont détaillés ensuite.) Si la matrice des covariances de X1 , X2 est
inversible alors :
∗ −1 a1
var(X1 )
cov(X1 , X2 )
cov(Y, X1 )
(7.3)
=
a∗2
cov(X2 , X1 )
var(X2 )
cov(Y, X2 )
et
a∗0 = µY − a∗1 E(X1 ) − a∗2 E(X2 )
(7.4)
Posons a = [a1 a2 ]0 . L’équation ci-dessus s’écrit :
−1 var(X1 )
cov(X1 , X2 )
cov(Y, X1 )
∗
a =
cov(X2 , X1 )
var(X2 )
cov(Y, X2 )
Enfin, notant : X = [X1 X2 ]0 et ΣY,Y , ΣY,X , ΣX,X respectivement la variance de Y , la matrice
de covariances entre Y et X et la matrice de covariances de X, on a :
a∗ = Σ−1
X,X ΣY,X
D’où
EL(Y |X1 = x1 , X2 = x2 ) = µY +
ΣY,X Σ−1
X,X
x 1 − µ1
x 2 − µ2
(7.5)
L’espérance mathématique de l’erreur de prévision vaut 0 : E(Y − a∗0 − a∗1 X1 − a∗2 X2 ) = 0.
On dit que l’ECL de Y sachant X1 , X2 est un prédicteur sans biais de EY . L’erreur quadratique
de prévision est
Q(a∗0 , a∗1 , a∗2 ) = E[(Y c − a∗1 X1c − a∗2 X2c )2 ] = var(Y c − a∗1 X1c − a∗2 X2c ) =
ΣY,Y ΣY,X
1
∗ 0
= ΣY,Y − ΣY,X Σ−1
[1 − a ]
X,X ΣX,Y . (7.6)
ΣX,Y ΣX,X
−a∗
Remarques.
1. Cette quantité qui est le minimum d’une erreur quadratique, est toujours positive. On
l’appelle variance conditionnelle linéaire de Y étant donné X. Notons qu’elle ne dépend
pas de la valeur prise par X.
2. On peut observer que la variance conditionnelle linéaire (7.6) est aussi la variance conditionnelle d’une variable normale, voir (3.6). Evidemment pour un couple de v.a. non
gaussien, variance conditionnelle et variance conditionnelle linéaire ne coı̈ncident pas.
3. Les calculs numériques d’espérance conditionnelle linéaire se font de la même façon que
pour une variable normale.
61
Calculs
Obtention de a∗0 , a∗1 , · · · + a∗p . Notons µY = EY, µ1 = EX1 , µ2 = EX2 et définissons
Q(a0 , a1 , a2 ) = E[(Y − a0 − a1 X1 − a2 X2 )2 ].
C’est une fonction quadratique en a0 , a1 , a2 . Les dérivées partielles par rapport à ces variables
sont :
∂Q
= E[(Y − a0 − a1 X1 − a2 X2 )(2)(−1)] (1)
∂a0
∂Q
= E[(Y − a0 − a1 X1 − a2 X2 )(2)(−X1 )] (2)
∂a1
∂Q
= E[(Y − a0 − a1 X1 − a2 X2 )(2)(−X2 )] (3)
∂a2
Les conditions nécessaires d’optimum, sont :
∂Q
∂Q
∂Q
= 0,
= 0,
=0
∂a0
∂a1
∂a2
D’où les équations normales :
E[(Y − a0 − a1 X1 − a2 X2 )] = 0
E[(Y − a0 − a1 X1 − a2 X2 )X1 ] = 0
E[(Y − a0 − a1 X1 − a2 X2 )X2 ] = 0
(7.7)
(7.8)
(7.9)
De (1) on tire : a0 = µY −a1 µ1 −a2 µ2 . Introduisant les variables centrées : Y c = Y −µY , Xic =
Xi − µi , i = 1, 2, on reporte a0 dans (2) et (3), ce qui donne :
(−2)E[X1 (Y c − a1 X1c − a2 X2c )] = 0
(−2)E[X2 (Y c − a1 X1c − a2 X2c )] = 0
Faisant encore appel à la remarque 1 ci-dessus, on obtient le système que doivent vérifier a∗1 , a∗2 :
cov(Y, X1 )
var(X1 )
cov(X1 , X2 )
a1
E(Y X1c )
=
=
E(Y X2c )
cov(Y, X2 )
cov(X2 , X1 )
var(X2 )
a2
D’où, si la matrice des covariances de X1 , X2 est inversible :
∗ −1 a1
var(X1 )
cov(X1 , X2 )
cov(Y, X1 )
=
a∗2
cov(X2 , X1 )
var(X2 )
cov(Y, X2 )
puis
a∗0 = µY − a∗1 E(X1 ) − a∗2 E(X2 )
Posons a = [a1 a2 ]0 . L’équation ci-dessus s’écrit :
−1 var(X1 )
cov(X1 , X2 )
cov(Y, X1 )
∗
a =
cov(X2 , X1 )
var(X2 )
cov(Y, X2 )
62
(7.10)
Enfin, notant : X = [X1 X2 ]0 et ΣY,Y , ΣY,X , ΣX,X respectivement la variance de Y , la matrice
de covariances entre Y et X et la matrice de covariances de X, on a :
a∗ = Σ−1
X,X ΣY,X
D’où
EL(Y |X1 = x1 , X2 = x2 ) = µY +
7.3
ΣY,X Σ−1
X,X
x 1 − µ1
x 2 − µ2
(7.11)
Application aux séries temporelles
Fonction d’autocorrélation partielle (PACF). Considérons une série stationnaire {Xt } et
ses régressions sur son passé :
Xt = φ0,1 + φ1,1 Xt−1 + u1t
Xt = φ0,2 + φ1,2 Xt−1 + φ2,2 Xt−2 + u2t
Xt = φ0,3 + φ1,3 Xt−1 + φ2,3 Xt−2 + φ3,3 Xt−3 + u3t
..
.
(7.12)
Par exemple, φ0,2 + φ1,2 Xt−1 + φ2,2 Xt−2 désigne l’espérance conditionnelle linéaire de Xt sachant Xt−1 , Xt−2 , voir par exemple ([9]) Chap. 5, [10]... (Nous admettons qu’il est légitime
d’estimer ces modèles par MCO.) Les φk,k , k = 1, 2, . . . forment ce qu’on appelle la fonction
d’autocorrélation partielle (PACF) et les estimations φbk,k , k = 1, 2, . . . forment la fonction
d’autocorrélation partielle empirique. φk,k a la même interprétation que les coefficients d’une
régression linéaire classique : φk,k représente l’apport d’explication de Xt−k à Xt étant donné
qu’on a déjà régressé sur Xt−1 , · · · , Xt−k+1 .
Supposons en particulier que Xt soit autorégressif, un AR(3) pour fixer les idées, alors il
est clair que Xt−4 n’apporte rien de plus que Xt−1 , Xt−2 , Xt−3 et on montre en effet que
φk,k = 0, k > 3. D’autre part, de même que dans la méthode des MCO les βb s’expriment en
fonction des moments d’ordre 2 des observations, la PACF d’une série stationnaire s’exprime en
fonction de son ACF. On pensera qu’une série suit un AR(p) si les φbk,k ' 0, k > p. Précisément,
si Xt est un AR(p), on a les propriétés :
– φbp,p converge vers φp,p quand n → ∞,
– φbl,l , ∀l > p converge vers 0 quand n → ∞,
– var(φbl,l ) ' 1/n ∀l > p.
La PACF se calcule à partir de l’ACF par récurrence à l’aide de l’algorithme de DurbinLevinson :
63
φ11 = ρ(1)
(7.13)
j=1 φh−1,j ρ(h − j)
Ph−1
1 − j=1 φh−1,j ρ(j)
(7.14)
φhj = φh−1,j − φhh φh−1,h−j , j = 1, · · · , h − 1
(7.15)
φhh =
ρ(h) −
Ph−1
La PACF empirique est obtenue par le même algorithme appliqué sur l’ACF empirique.
Exemple numérique Considérons le processus AR(2) défini par la formule (6.22). Son ACF
est :
ρ0 = 1, ρ1 = 0.96552, ρ2 = 0.90172, · · ·
La PACF du est obtenue par :
0.90172 − 0.96552 × 0.96552
= −0.45018
1 − 0.96552 × 0.96552
c’est-à-dire -0.45 aux erreurs d’arrondi près, φkk = 0, k > 2.
Examinons la PACF empirique obtenue sur la simulation du processus :
φ11 = 0.96552, φ22 =
proc arima data=a;
i var=u;
run;
quit;
....
Partial Autocorrelations
Lag
Correlation
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
0.94765
-0.39399
-0.02374
-0.04899
-0.04112
-0.11995
0.03929
-0.05320
0.02209
-0.06893
-0.06165
-0.03099
-0.00167
0.02090
0.07520
-1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
. |*******************
********| .
. | .
. *| .
. *| .
.**| .
. |* .
. *| .
. | .
. *| .
. *| .
. *| .
. | .
. | .
. |**.
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
On voit que
φb11 = 0.94765, φb22 = −0.39399
et que les autocorrélations partielles d’ordre supérieur ne sont pas significativement différentes
de 0. La PACF empirique permet donc d’identifier un processus comme un AR d’un certain
ordre p. Mais on peut également identifier l’ordre d’un processus qu’on sait AR, par un critère
d’information (AIC, SBIC...).
Résumé pratique. Nous avons maintenant à notre disposition 2 outils pour identifier une
série (c’est-à-dire deviner le/les modèles auxquels elle est susceptible d’obéir) :
64
1. l’ACF qui s’annule à partir de l’ordre q + 1 pour un MA(q) et
2. la PACF qui s’annulle à partir de l’ordre p + 1 pour un AR(p).
La prévision d’une série temporelle dont on connaı̂t le modèle fera l’objet du chapitre (8).
7.4
Exercices
Ex. 1. On considère un couple de v.a. (X, Y ). (1) Calculer la variance de l’espérance linéaire
EL(Y |X). (2) Calculer la variance de l’erreur : Y − EL(Y |X), expression (7.2), sans
faire appel à l’expression générale. Qu’observe-t-on ? On appelle la décomposition de la
variance ainsi obtenue : Décomposition de l’ANOVA.
Ex. 2. Covariance partielle. Considérons un vecteur de trois variables aléatoires : Y1 , Y2 , X, de
moyennes nulles, pour simplifier. (1) Calculer la régression linéaire de Y1 sur X et de
Y2 sur X. (2) On note Ri = Yi − EL(Yi |X), i = 1, 2 les erreurs ou résidus. Calculer
cov(R1 , R2 ). On l’appelle covariance partielle entre Y1 et Y2 étant donné X. (3) On pose
dans (2) ci-dessus : Y = [Y1 Y2 ]0 . Exprimer matriciellement la matrice des covariances
de [R1 R2 ]0 . Exprimer le coefficient de corrélation partiel entre Y1 et Y2 étant donné X.
Ex. 3. Coefficient de corrélation partielle empirique. La notion d’espérance linéaire a été présentée
sur des moyennes et des matrices de covariances théoriques, mais elle tient aussi pour des
moments empiriques. Le poids, la taille et l’âge de n enfants prélevés dans une certaine
population ont été enregistrés. La matrice des covariances de ces mesures est :


30 52 14
 52 91 20 
14 20 30
Calculer le coefficient de corrélation simple entre âge et taille, puis le coefficient de
corrélation partiel entre âge et taille étant donné le poids.
Ex. 4. TP SAS sur les données d’Iris.
65
Chapitre 8
Prévision d’une série temporelle
Objectif
On veut prédire les valeurs futures Yt+1 , · · · , Yt+h d’une série {Yt } à partir des valeurs
observées {yt , yt−1 , . . .}.
On est exactement dans le cadre de l’espérance conditionnelle, par exemple, la prévision de
Yt+1 connaissant Yt , Yt−1 , . . . est l’espérance conditionnelle E(Yt+1 |Yt , Yt−1 , . . . ).
On suppose dans ce chapitre que le processus {Yt } est gaussien et donc qu’espérance conditionnelle et espérance conditionnelle linéaire coı̈ncident. On a rencontré la question en termes
généraux au chapitre (7), où on n’a pas cherché à exploiter des aspects particuliers des covariances qui permettraient de simplifier les calculs. Dans le présent chapitre on considère le
cas où {Yt } est un ARMA(p,q) dont les paramètres sont connus. Dans la pratique le modèle
est estimé et on applique la méthode qu’on va voir en remplaçant dans les expressions, les
paramètres par leurs estimations.
8.1
Prévision à erreur quadratique minimum pour un
ARMA
Considérons un processus {Yt }, ARMA(p,q) :
Yt = φ0 + φ1 Yt−1 + φ2 Yt−2 + · · · + φp Yt−p + Zt − θ1 Zt−1 − θ2 Zt−2 − · · · − θq Zt−q
(8.1)
où Zt ∼ BB(0, σZ2 ). Avec l’opérateur retard cette équation s’écrit aussi :
(1 − φ1 B − φ2 B2 − · · · − φp Bp )Yt = φ0 + (1 − θ1 B − θ2 B2 − · · · − θq Bq )Zt
(8.2)
On suppose {Yt } stationnaire ( les racines du polynôme 1 − φ1 z − φ2 z 2 − · · · − φp z p sont en
module > 1) , et inversible (les racines du polynôme 1 − θ1 z − θ2 z 2 − · · · − θq z q sont en module
> 1). Les paramètres φi , θj et σZ2 sont connus.
Commençons par centrer le processus. On voit sur (8.1) que µ = E(Yt ) vérifie :
µ=
φ0
.
1 − φ1 − φ2 − · · · − φp
66
Nous simplifions l’écriture en notant encore Yt , le processus centré Yt − µ. Avec les hypothèses
de stationnarité et inversibilité, le processus admet une représentation MA(∞) :
Yt = Zt + ψ1 Zt−1 + ψ2 Zt−2 + . . .
(8.3)
avec ψ0 = 1. C’est-à-dire, Yt s’écrit comme une combinaison linéaire (c.l.) des valeurs Zt , Zt−1 , . . . .
Considérons d’autre part sur l’écriture AR(∞)
Yt = Z t +
∞
X
πj Yt−j
j=1
on voit que Zt s’écrit comme une c.l. des Yt , Yt−1 , . . . . Ainsi, l’espace engendré par les c.l. de
Yt , Yt−1 , . . . est le même que celui engendré par les c.l. de Zt , Zt−1 , . . . . Notamment :
E(Zn+j |Yn , Yn−1 , . . . ) = E(Zn+j |Zn , Zn−1 , . . . ) et donc
E(Zn+j |Yn , Yn−1 , . . . ) = 0 si j > 0, = Zn+j si j ≤ 0.
On a observé le P
processus jusqu’au temps n et on veut le prédire à l’horizon l, c’est-àdire prédire Yn+l = ∞
j=0 ψj Zn+l−j à partir de Yn , Yn−l , . . . l > 0. La prévision est une fonction
linéaire de Yn , Yn−1 , . . . . La prévision à l’horizon l étant donné l’observation jusqu’au temps n
peut donc aussi s’écrire comme une fonction linéaire de Zn , Zn−1 , . . . :
∗
∗
Ybn (l) = ψl∗ Zn + ψl+1
Zn−1 + ψl+2
Zn−2 + . . .
où les ψi∗ sont à déterminer. L’erreur quadratique de prévision (EQP) est :
E(Yn+l − Ybn (l))2 = σZ2
l−1
X
ψj2
+
σZ2
∞
X
j=0
∗
(ψl+j − ψl+j
)2 .
j=0
∗
l’EQP est minimisée quand ψl+j
= ψl+j , j = 0, 1, . . . donc :
Ybn (l) = ψl Zn + ψl+1 Zn−1 + ψl+2 Zn−2 + . . .
Erreur de prévision L’erreur de prévision est
en (l) := Yn+l − Ybn (l) =
l−1
X
ψj Zn+l−j .
j=0
P
2
On vérifie que E(en (l)) = 0, le prédicteur est sans biais. D’autre part, var(en (l)) = σZ2 l−1
j=0 ψj .
Enfin, ayant supposé la normalité du bruit blanc, on peut fabriquer des intervalles de prévision :
les limites de prévision à (1 − α)100%, α fixé entre 0 et 1, sont :
v
u
l−1
X
u
ψj2 σZ .
Ybn (l) ± z1−α/2 t1 +
j=1
Les calculs ci-dessus sont simples car tout est exprimé en fonction du bruit blanc Zt , mais
ils ne sont pas directement utilisables car Zt n’est pas observé. On envisage maintenant une
expression plus utilisable de la prévision.
67
Calcul de la prévision
Considérons le processus ARMA(p,q) centré examiné précédemment :
Yn+l = φ1 Yn+l−1 + φ2 Yn+l−2 + · · · + φp Yn+l−p + Zn+l − θ1 Zn+l−1 − θ2 Zn+l−2 − · · · − θq Zn+l−q .
Prenant l’espérance conditionnelle au passé Yn , Yn−1 , Yn−2 , . . . , nous obtenons :
Ybn (l) = φ1 Ybn (l − 1) + φ2 Ybn (l − 2) + · · · + φp Ybn (l − p)
+ Zbn (l) − θ1 Zbn (l − 1) − θ2 Zbn (l − 2) − · · · + θq Zbn (l − q).
(8.4)
Nous savons d’autre part que :
Ybn (j) = E(Yn+j |Yn , Yn−1 , . . . ), si j ≥ 1, et Ybn (j) = Yn−j , si j ≤ 0.
et Zbn (j) = 0, si j ≥ 1, et Zbn (j) = Yn+j − Ybn+j−1 (1), si j ≤ 0. On peut donc par récurrence
calculer les prévisions à l’horizon 1, 2, · · ·
8.2
Exemple
Considérons un ARMA(1,1) :
(1 − φB)(Yt − µ) = (1 − θB)Zt .
Calcul de Ybn (l).
Yn+l = µ + φ(Yn+l−1 − µ) + Zn+l − θZn+l−1 donc
Ybn (1) = µ + φ(Yn − µ) − θZn
et
Ybn (l) = µ + φ(Ybn (l − 1) − µ) = µ + φl (Yn − µ) − φl−1 θZn , l ≥ 2
où Zn = Yn − Ybn−1 (1).
P
Variance de l’erreur de prévision. L’écriture MA(∞) : Yt = µ + ∞
j=0 ψj Zt−j s’obtient en
développant, (1 − θB)/(1 − φB) :
1 − θB
= 1 + ψ1 B + ψ2 B2 + ψ3 B3 + . . .
1 − φB
ou
(1 − φB)(1 + ψ1 B + ψ2 B2 + ψ3 B3 + . . . ) ≡ 1 − θB.
Identifiant les termes de même puissance de B à gauche et à droite on obtient :
ψj = φj−1 (φ − θ), j ≥ 1.
La variance de l’erreur est donc :
var(en (l)) =
σZ2 {1
+
l−1
X
j=1
2
qui tend vers σZ2 (φ−θ)
quand l → ∞.
1−φ2
68
[φj−1 (φ − θ)]2 }
8.3
Plan de l’étude empirique d’une série ARMA
Avant de poursuivre l’étude des séries, on fait un point des étapes à suivre pour cette étude
dans le cas d’une série ARMA.
Situation On a observé une série sur un intervalle de temps, on a examiné son graphique et
sa fonction d’autocorrélation empirique. On a conclu qu’elle pouvait être stationnaire. On veut
essayer de la modéliser par un modèle ARMA en vue d’en avoir une description synthétique,
de la prédire ou de la comparer à une autre série.
Étape d’identification (au sens de l’automatique) Il faut, avant l’estimation, choisir les paramètres p et q. En examinant l’aspect de la FAC (Fonction d’autocorrélation) empirique,
on se fait une idée de la stationnarité (atteinte ou non) de la série. On considère qu’une
série est stationnaire quand sa FAC empirique décroit suffisamment vite vers 0. On exammine ensuite l’aspect de la FAC et de la FAC Partielle de la série. On se fait ainsi une
idée des ordres p et q possibles. Des méthodes d’aide au choix de p et q ont été proposées.
SAS en intègre plusieurs mais nous ne les envisageons pas dans ce cours.
Étape d’estimation Une fois p et q choisis, on estime le modèle. On teste d’abord que le
résidu b
at est un bruit blanc. Si on doit rejeter cette hypothèse, il faut revoir le choix des
ordres p, d et q, et de la transformation initiale. Si on peut considérer que le résidu est
un bruit blanc, on analyse les résultats de l’estimation suivant les mêmes principes qu’en
régression linéaire : significativité des φi et θj d’après les t-statistiques, corrélations entre
les estimateurs de ces paramètres. Le chapitre (9) est brève introduction à l’estimation
d’un ARMA.
Remarque. Les logiciels qui ajustent un modèle ARMA d’ordres p et q donnés, à une série
supposée stationnaire, fournissent une représentation inversible : les racines de Φ(B) = 0
et Θ(B) = 0 sont > 1 en module. Quand on essaie d’ajuster un modèle ARMA à une
série non stationnaire, on obtient un message d’avertissement ou d’erreur de la part du
logiciel car les procédures numériques d’optimisation mises en œuvre pour l’estimation ne
convergent pas ou convergent mal dans un tel cas.
Étape de prévision On utilise enfin le modèle estimé pour prédire la série. Il est recommandé
de n’utiliser qu’une partie de la série pour estimer le modèle, de façon à pouvoir comparer
ensuite pour un même intervalle de temps, réalisations et prévisions.
69
Chapitre 9
Estimation d’un ARMA
On examine dans ce chapitre, comment écrire la fonction de vraisemblance de processus
de base : AR(1) et MA(1). Une fois obtenue la fonction de vraisemblance, son optimisation
est un problème numérique. Si la fonction de vraisemblance est quadratique, on débouche sur
le problème des moindres carrés linéaires classique. Sinon on a un problème non linéaire qui
doit se résoudre par un algorithme d’optimisation. Nous n’étudions pas ces algorithmes dans
ce cours.
9.1
Fonction de vraisemblance d’un processus gaussien
AR(1)
On a la série yt , t = 1, 2, · · · , T , observation de {Yt } AR(1) :
Zt ∼ BBN (0, σ 2 ), t ∈ N,
Yt = c + φYt−1 + Zt ,
(BBN = Bruit Blanc Gaussien). Evaluation de la fonction de vraisemblance. On sait qu’alors Yt
c
, var(Yt ) =
suit une loi normale et on a déjà calculé ses moyenne et variance : E(Yt ) = µ = 1−φ
σ2
.
1−φ2
Notons θ = (c, φ, σ 2 ) le vecteur des paramètres à estimer. La fonction de densité de
probabilité (f.d.p.) de Y1 est :
fY1 (y1 ; θ) = p
(y1 − c/(1 − φ))2
exp[−0.5
]
σ 2 /(1 − φ2 )
2πσ 2 /(1 − φ2 )
1
Considérons maintenant la loi conditionnelle de Y2 sachant que Y1 = y1 . C’est une loi normale
de moyenne c + φy1 , de variance σ 2 d’où la f.d.p.
fY2 |Y1 =y1 (y2 ; θ) = √
1
2πσ 2
exp[−0.5
(y2 − c − φy1 ))2
]
σ2
on en déduit la f.d.p. conjointe du couple (Y1 , Y2 ) :
fY1 ,Y2 (y1 , y2 ; θ) = fY1 (y1 ; θ)fY2 |Y1 =y1 (y2 ; θ)
70
On observe d’autre part que Yt ne dépend explicitement que de yt−1 :
fYt |Yt−1 =yt−1 ,Yt−2 =yt−2 ,··· ,Y1 =y1 (yt ; θ) = fYt |Yt−1 =yt−1 (yt ; θ) = √
1
2πσ 2
exp[−0.5
(yt − c − φyt−1 ))2
].
σ2
La f.d.p. conjointe des observations est donc :
fY1 ,··· ,YT (y1 , · · · , yT ; θ) = fY1 (y1 ; θ)
T
Y
fYt |Yt−1 =yt−1 (yt ; θ).
t=2
D’où on obtient la (fonction) log vraisemblance
L(θ) =
(9.1)
1
σ2
1
1 (y1 − c/(1 − φ))2 T − 1
− ln(2π
−
ln(2πσ 2 ) −
)
−
2
2
2
2
1−φ
2 σ /(1 − φ )
2
2
T
X
t=2
(yt − c − φyt−1 )2
σ2
Supposons qu’on travaille conditionnellement à la première valeur y1 . Alors la log vraisemblance
se simplifie en la log vraisemblance conditionnelle :
T
X (yt − c − φyt−1 )2
T −1
2
Lc (θ) = −
ln(2πσ ) −
.
2
2σ 2
t=2
(9.2)
On reconnaı̂t que 9.2 a la même forme que la log vraisemblance associée à l’estimation de la
moyenne et de la variance d’une v.a. normale, basée sur T − 1 observations indépendantes de
cette v.a.. Dérivant par rapport à c et φ on obtient b
c et φb solution de
−1 P
P
y
c
T
−
1
y
t
t−1
P 2
P 2
= P
yt−1
yt−1
yt−1
φ
qu’on reporte dans 9.2 puis en dérivant par rapport à σ 2 :
PT
b t−1 )2
(yt − b
c − φy
2
b
σ = t=2
T −1
On appelle estimateur du maximum de vraisemblance conditionnelle, la solution de ces deux
équations. Si T est grand les solutions des maximisations de ( 9.1) et ( 9.2) sont proches.
9.2
Fonction de vraisemblance d’un processus gaussien
MA(1)
Soit un processus gaussien MA(1) :
Yt = µ + Zt − θZt−1
où Zt est un BBN(0, σ 2 ), Yt est observé sur t = 1, 2 · · · , T .
71
Si on connaı̂t zt−1 , la valeur de Zt−1 , alors la loi de Yt sachant que Zt−1 = zt−1 est N(µ −
θzt−1 , σ 2 ). Supposons que Z0 = 0, alors étant donné l’observation de Y1 on peut déduire la
valeur de Z1 : z1 = y1 − µ. Ensuite Y2 = µ + Z2 − θz1 permet d’obtenir z2 . On obtient ainsi la
loi conditionnelle de Y2 sachant que Z0 = 0, Y1 = y1 . Sa f.d.p. est :
fY2 |Y1 =y1 ,Z0 =0 (y2 ; θ) = √
1
exp(−0.5
2πσ 2
(y2 − µ + θz1 )2
).
σ2
Ensuite connaissant z1 et y2 on peut calculer z3 = y2 − µ + θz1 ... Ainsi ayant fixé la valeur de Z0
(ici à la moyenne) et disposant des observations y1 , · · · , yT on peut calculer pour chaque valeur
de θ : z1 = y1 − µ, z2 = y2 − µ + θz1 , · · · , zt = yt − µ + θzt−1 et la distribution conditionnelle
de Yt |Yt−1 = yt−1 , · · · , Y1 = y1 , Z0 = 0. Sa f.d.p. est :
fYt |Yt−1 =yt−1 ,···Y1 =y1 ,Z0 =0 (yt ; θ) = √
1
2πσ 2
exp[
1
(yt − µ + θzt−1 )2 ].
2σ 2
La f.d.p. conjointe de Y1 , · · · , YT |Z0 = 0 est :
fY1 |Z0 =0 (y1 ; θ)
T
Y
fYt =yt |Yt−1 =yt−1 ,···Y1 =y1 ,Z0 =0 (yt ; θ).
t=2
La log vraisemblance est :
T
1 X
T
2
(yt − µ + θzt−1 )2
− ln(2πσ ) − 2
2
2σ t=1
72
Chapitre 10
Modèles de séries non stationnaires
10.1
Non stationnarité en variance
On envisage le cas d’une série {Yt } dont la moyenne, µt , varie avec le temps de façon
déterministe et dont la variance dépend du niveau moyen :
Y t = µ t + Ut
avec var(Ut ) = h2 (µt )σ 2 pour une certaine fonction h. Pour traiter cette situation d’hétéroscédasticité,
on cherche une transformation g telle que var(g(Yt )) ' constante. C’est la technique dite de
stabilisation de la variance.
Par linéarisation on a :
g(Yt ) ' g(µt ) + (Yt − µt )g 0 (µt )
et
var(g(Yt )) ' [g 0 (µt )]2 var(Yt )
On cherche donc g telle que g 0 (x) = 1/h(x). Par exemple, pour h(x) = x, g 0 (x) = 1/x et donc
g(x) = log(x).
10.2
Tendance stochastique ou déterministe
Considérons les deux modèles suivants :
Yt = β0 + β1 t + Ut
Yt = β1 + Yt−1 + Ut
(Det)
(Sto)
(10.1)
(10.2)
où Ut est stationnaire. Si on différencie le premier modèle on obtient un processus stationnaire
mais ∆Ut = (1 − B)Ut n’est pas inversible. Alors que l’erreur reste inversible si on différencie le
deuxième.
Il n’est pas facile, étant donné une série dont la moyenne ne semble pas constante, de savoir s’il
faut la différencier ou lui ajuster une tendance déterministe. Avec les logiciels, la différenciation
est facile et tentante. Une façon de procéder consiste à
73
Fig. 10.1 – y1 et y2
,
– (1) Examiner le graphique de la série pour voir si une tendance linéaire ou quadratique se
dégage sur l’ensemble de la série. Si c’est le cas, ajuster une telle tendance puis modèliser
le résidu.
– (2) Différencier la série et identifier le modèle de la série (1 − B)Yt ou (1 − B)2 Yt ... si
ce modèle semble plus compliqué que celui de la série initiale, il est probable qu’il fallait
ajuster une tendance déterministe et non différencier.
On peut envisager (1) et (2) simultanément. Il existe des tests dits de ”racine unité” qui
permettent de tester l’hypothèse nulle que la série doit être différenciée.
Exemple
On a simulé les séries :
y1t = a0 + a1 t +
et
y2t − y2,t−1 =
1 − θB
Zt
1 − φB
avec a0 = 0, a1 = −.2 θ = .4 φ = −.7.
Graphe de l’ACF de y1 .
The ARIMA Procedure
Name of Variable = y1
Mean of Working Series
3.695422 Standard Deviation
2.870494 Number of Observations
200
74
1 − θB
Zt
1 − φB
Autocorrelations
Lag Covariance
8 9 1
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
8.239734
1.199694
6.625372
2.526843
5.469683
3.186449
4.657897
3.388947
4.405001
3.394916
4.081730
3.585290
3.485498
4.041477
2.732624
4.361790
2.365318
4.146199
2.518068
3.669622
2.648516
3.386793
2.607445
3.301683
2.294181
Correlation
1.00000
0.14560
0.80408
0.30667
0.66382
0.38672
0.56530
0.41129
0.53460
0.41202
0.49537
0.43512
0.42301
0.49049
0.33164
0.52936
0.28706
0.50320
0.30560
0.44536
0.32143
0.41103
0.31645
0.40070
0.27843
-1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
|********************|
|***
|
|****************
|
|******
|
|*************
|
|********
|
|***********
|
|********
|
|***********
|
|********
|
|**********
|
|*********
|
|********
|
|**********
|
|*******.
|
|***********
|
|****** .
|
|**********
|
|****** .
|
|*********
|
|****** .
|
|********.
|
|****** .
|
|********.
|
|****** .
|
Graphe de l’ACF de y2 .
Name of Variable = y2
Mean of Working Series
-7.65501 Standard Deviation
1.768322 Number of Observations
200
Autocorrelations
Lag Covariance
8 9 1
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
3.126961
1.561493
2.490392
1.719192
2.133912
1.736780
1.933931
1.734175
1.731355
1.649560
1.625851
1.539286
1.548901
1.405170
1.515742
1.280278
1.299462
1.149190
1.205819
0.975364
1.123834
0.846295
0.967381
Correlation
1.00000
0.49936
0.79643
0.54980
0.68242
0.55542
0.61847
0.55459
0.55369
0.52753
0.51995
0.49226
0.49534
0.44937
0.48473
0.40943
0.41557
0.36751
0.38562
0.31192
0.35940
0.27064
0.30937
-1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
|********************|
|**********
|
|****************
|
|***********
|
|**************
|
|***********
|
|************
|
|***********
|
|***********
|
|***********
|
|**********
|
|**********
|
|**********
|
|*********
|
|**********
|
|********.
|
|********.
|
|******* .
|
|********.
|
|****** .
|
|******* .
|
|*****
.
|
|******
.
|
75
23
24
0.718949
0.742880
0.22992
0.23757
|
|
.
.
|*****
|*****
.
.
|
|
Graphe de l’ACF de (1 − B)y1 .
Name of Variable = y1
Period(s) of Differencing
1 Mean of
Working Series
0.035171 Standard Deviation
3.742027 Number of Observations
199
Observation(s) eliminated by differencing
1
Autocorrelations
Lag Covariance
8 9 1
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
Correlation
14.002764
-12.478156
9.514141
-7.043273
5.250343
-3.826731
2.850475
-2.343063
2.000108
-1.628659
1.130746
-0.351696
-0.706889
1.899692
-2.993566
3.637361
-3.713017
3.329222
-2.683054
2.045614
-1.545019
1.268442
-1.305110
1.580499
-1.747923
1.00000
-.89112
0.67945
-.50299
0.37495
-.27328
0.20357
-.16733
0.14284
-.11631
0.08075
-.02512
-.05048
0.13567
-.21378
0.25976
-.26516
0.23775
-.19161
0.14609
-.11034
0.09059
-.09320
0.11287
-.12483
-1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|********************|
******************| .
|
.
|**************
|
**********|
.
|
.
|*******
|
.*****|
.
|
.
|**** .
|
. ***|
.
|
.
|*** .
|
.
**|
.
|
.
|**
.
|
.
*|
.
|
.
*|
.
|
.
|*** .
|
. ****|
.
|
.
|*****.
|
.*****|
.
|
.
|*****.
|
. ****|
.
|
.
|***
.
|
.
**|
.
|
.
|**
.
|
.
**|
.
|
.
|**
.
|
.
**|
.
|
The ARIMA Procedure
Graphe de l’ACF de (1 − B)y2 .
Name of Variable = y2
Period(s) of Differencing
1 Mean of
Working Series
-0.01399 Standard Deviation
1.760053 Number of Observations
199
Observation(s) eliminated by differencing
1
Autocorrelations
Lag Covariance
8 9 1
0
1
2
3.097785
-2.502463
1.697283
Correlation
1.00000
-.80782
0.54790
-1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7
|
|
|
|********************|
****************| .
|
.
|***********
|
76
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
-1.160169
0.791552
-0.567092
0.364269
-0.185157
0.104696
-0.084632
0.072530
-0.124372
0.153480
-0.248267
0.324443
-0.237194
0.186345
-0.260849
0.338255
-0.412104
0.440975
-0.408651
0.410683
-0.293404
0.015778
-.37452
0.25552
-.18306
0.11759
-.05977
0.03380
-.02732
0.02341
-.04015
0.04955
-.08014
0.10473
-.07657
0.06015
-.08420
0.10919
-.13303
0.14235
-.13192
0.13257
-.09471
0.00509
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
*******|
.
.
|*****
.****|
.
.
|** .
.
*|
.
.
|*
.
.
*|
.
.
|
.
.
*|
.
.
|*
.
. **|
.
.
|** .
. **|
.
.
|*
.
. **|
.
.
|** .
. ***|
.
.
|*** .
. ***|
.
.
|*** .
. **|
.
.
|
.
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
L’ACF de (1 − B)y2 semble moins bruité que celle de (1 − B)y1 .
On ajuste un ARMA(1,1) aux séries différenciées.
• Résidu de l’ajustement ARMA(1,1) à (1 − B)y1 .
Autocorrelation Check of Residuals
To
ChiPr >
Lag
Square
DF
ChiSq
---------------Autocorrelations--------------6
12
18
24
30
36
14.25
16.59
28.74
33.99
38.00
42.89
4
10
16
22
28
34
0.0065
0.0840
0.0257
0.0492
0.0984
0.1411
-0.179
0.029
-0.017
0.019
0.035
-0.022
-0.058
0.037
-0.109
0.040
0.052
0.077
0.140
-0.005
0.154
-0.044
-0.002
-0.092
0.053
0.077
-0.077
0.076
-0.075
0.046
0.099
-0.051
0.108
0.034
-0.002
-0.023
-0.051
0.013
0.046
-0.111
-0.087
0.052
-0.059
-0.076
-0.045
-0.109
0.015
-0.001
0.009
-0.066
0.009
-0.074
-0.024
0.057
• Résidu de l’ajustement ARMA(1,1) à (1 − B)y2 .
Autocorrelation Check of Residuals
To
ChiPr >
Lag
Square
DF
ChiSq
---------------Autocorrelations--------------6
12
18
24
30
36
1.19
6.02
11.93
20.26
26.28
27.31
4
10
16
22
28
34
0.8798
0.8132
0.7487
0.5669
0.5575
0.7851
0.011
0.026
0.016
-0.039
-0.001
-0.009
0.000
-0.044
0.142
0.084
-0.045
-0.026
-0.027
-0.063
0.026
0.046
0.151
0.001
-0.037
-0.078
-0.063
0.094
0.017
-0.012
On voit que la série à tendance déterministe, y1 a une différence première mal ajustée par un
ARMA(1,1).
77
10.2.1
Non stationnarité d’une série saisonnière
Une série saisonnière peut ne pas être stationnaire et nécessiter une différenciation saisonnière.
On dit que Yt est un SARIMA(p, d, q)(P, D, Q)s si
(1 − Bs )D (1 − B)d Yt est un SARMA(p, q)(P, Q)s
c’est-à-dire si
(1 − Bs )D (1 − B)d Φ(B)Φs (Bs ) Yt = Θ(B)Θs (Bs )Zt
10.3
Annexe – code SAS
Le code ci-dessous donne la simulation des processus y1 et y2 et les estimations.
5
10
15
20
25
30
Options PS=55 LS=78 NoDate PageNo=1 NoCenter
FORMCHAR=’|----|+|---+=|-/\<>*’;
goptions htitle=3 htext=2 ftext=swissb ftitle=swissb;
data a;
* simulation de 2 proc;
data a;
teta =.4;
phi = -.7;
a0 = 0;
a1=-.2;
y1m1 = 0;
y2m1=0;
y2m2 = 0;
z1m1 =0;
z2m1 = 0;
y1 =0;
y2 = 0;
z1 =0;
z2 = 0;
do i = -50 to 200;
date=i;
z1m1 = z1;
z2m1 = z2;
z1 = rannor( 138561 );
z2 = rannor(458395);
y1m1 = y1;
y2m2 = y2m1;
y2m1 = y2;
y1 = a0 + phi*(a1 -a0) + i*a1*(1-phi) + phi* y1m1+ z1 - teta* z1m1;
y2 = (phi+1) * y2m1 - phi *y2m2+ z2 - teta* z2m1;
if i > 0 then output;
end;
run;
35
40
45
symbol1 color=green interpol=j width=2 value=
height=3;
;
symbol2 color=red interpol=j width=2 value=
height=3; ;
proc gplot data=a;
plot y1*date=1 y2*date=2/ overlay;
run;
quit;
78
50
proc arima data=a;
identify var=y1; run;
identify var=y2; run;
identify var=y1(1); run;
identify var=y2(1); run;
quit;
55
60
proc arima data=a;
identify var=y1(1); run;
estimate p=1 q=1 ;
run;
identify var=y2(1); run;
estimate p=1 q=1 ;
run;
Exemple de syntaxe pour l’ajustement d’un SARIMA(0, 1, 1)(0.1.1)12 à une série (xlog),
sans constante, par la méthode des moindres carrés.
proc arima data=seriesg;
identify var=xlog(1,12) nlag=15;
run;
estimate q=(1)(12) noconstant method=uls;
run;
quit;
79
Bibliographie
[1] Box G., Jenkins, Reinsel G.C. Time Series 3rd Ed. Prentice Hall.
[2] Bourbonnais R. Econométrie, 3ème éd., 2000, Dunod. 14, 34
[3] Bourbonnais R., Terraza M. Analyse des séries temporelles en économie, 1998, PUF.
[4] Brockwell P.J., Davis R.A. Introduction to Time Series and Forecasting , 1997, Springer.
[5] Bosq D. et Lecoutre Modélisation des Séries chronologiques Masson.
[6] Brockwell P.J., Davis R.A. Time Series : Theory and Methods, 2nd edition , 1991, Springer.
21, 33, 34
[7] Destandau S. et Le Guen M. Analyse Exploratoire des Données avec SAS/INSIGHT, 1998,
INSEE Guides 7-8 .
[8] Franses P. H. Time series models for business and economic forecasting, 1998, Camridge
University Press.
[9] Gourieroux C., Monfort A. Séries temporelles et modèles dynamiques, 1995, 2nd edition,
Economica. 28, 30, 63
[10] Hamilton J.D. Time Series Analysis, 1994, Princeton University Press. 39, 63
[11] Harvey A. C. Forecasting, Structural Time Series Models and the Kalman Filter, 1991,
Cambridge Univ. Press.
[12] Jaffe J.A. Mastering the SAS System Snd ed., 1996, ITP.
[13] Kennedy P. A guide to Econometrics 5th ed., 2003 Blackwell.
[14] SAS Institute, SAS/ETS User’s Guide Version 6 Snd ed., SAS Institute.
[15] Tassi Ph. Méthodes statistiques, 1989 et nombreuses éditions, Economica.
[16] Thomas A. Econométrie des variables qualitatives, Dunod.
[17] Wei Time Series Analysis : Univariate and Multivariate Methods, 1990, Addison-Wesley.
80