Introduction aux Séries temporelles

Transcription

Introduction aux Séries temporelles
Yves ARAGON
[email protected]
Septembre 2004
1
Table des matières
1 Préliminaires sur les séries temporelles
1.1 Exemples de séries temporelles . . . . . . . .
1.2 Objectifs de l’analyse d’une série temporelle
1.3 Tendance. Saisonnalité. Résidus . . . . . . .
1.4 Notations . . . . . . . . . . . . . . . . . . .
1.5 Contenu de ce cours . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6
6
7
9
10
10
2 Etude de deux exemples et recensement de quelques problèmes
2.1 La population des Etats-Unis . . . . . . . . . . . . . . . . . . . . .
La population française . . . . . . . . . . . . . . . . .
2.2 Le niveau du lac Huron . . . . . . . . . . . . . . . . . . . . . . . . .
2.3 Annexe : commandes SAS du chapitre. . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
11
11
12
13
14
3 Rappels de statistique mathématique
3.1 Matrice des covariances d’un vecteur aléatoire
3.2 Lois de probabilités d’un vecteur aléatoire . .
3.2.1 Loi normale . . . . . . . . . . . . . . .
Loi normale bivariée . . . . . . . . . .
Loi normale conditionnelle . . . . . . .
3.3 Tests d’hypothèses . . . . . . . . . . . . . . .
Situation pratique courante. . .
3.4 Rappels sur la régression linéaire . . . . . . .
3.5 Exercices . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
18
18
18
19
20
20
21
21
22
23
.
.
.
.
27
27
27
28
29
.
.
.
.
31
31
31
32
32
4 Lissage
4.1 Lissage exponentiel . . . . . . . . . . . .
Lissage exponentiel simple
Lissage exponentiel double
4.2 Lissage par Moyenne Mobile . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5 Propriétés de base des séries stationnaires
5.1 Stationarité . . . . . . . . . . . . . . . . . . . .
5.1.1 Fonction d’autocovariance . . . . . . . .
5.1.2 Corrélation et fonction d’autocorrélation
Fonction d’autocorrélation (ACF)
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Test du Portemanteau . . . . . . . . . . . . . . . . . . . . . . . . 33
5.2 Exemples de fonctions d’autocorrélation empiriques . . . . . . . . . . . . . . . . 35
5.3 Annexe – code SAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
6 Modèles de séries stationnaires
6.1 Série linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.1.1 Processus gaussien . . . . . . . . . . . . . . . . . . . . .
6.2 Processus autorégressif d’ordre p . . . . . . . . . . . . . . . . .
6.2.1 Processus autorégressif d’ordre 1 . . . . . . . . . . . . .
Moments d’ordres 1 et 2 d’un AR(1) . . . . . . . . . . .
Exemples . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2.2 Modèle AR(2) . . . . . . . . . . . . . . . . . . . . . . . .
Processus autorégressif d’ordre p . . . . . . . . . .
6.2.3 Exemple numérique . . . . . . . . . . . . . . . . . . . .
6.3 Processus Moyenne mobile . . . . . . . . . . . . . . . . . . . . .
6.3.1 Processus MA(1) . . . . . . . . . . . . . . . . . . . . . .
Moments d’ordres 1 et 2 d’un MA(1) . . . . . . .
6.3.2 Processus MA(q) . . . . . . . . . . . . . . . . . . . . . .
6.4 Processus ARMA(p,q) . . . . . . . . . . . . . . . . . . . . . . .
Représentation MA(∞) et réponse impulsionnelle
6.5 Saisonnalité . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.5.1 Saisonnalité multiplicative . . . . . . . . . . . . . . . . .
6.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.7 Annexe : simulation de processus ARMA dans SAS . . . . . . .
Simulation d’un MA . . . . . . . . . . . . . . . .
Simulation d’un AR . . . . . . . . . . . . . . . . .
Simulation d’un AR saisonnier . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
39
39
40
40
40
40
41
46
47
48
50
50
50
51
53
53
53
53
54
55
55
55
56
7 Prédiction linéaire d’une v.a.
7.1 Projection affine d’une v.a. sur une autre . . .
7.2 Projection d’une v.a. sur un ensemble de v.a. .
7.3 Application aux séries temporelles . . . . . . .
7.4 Exercices . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
59
59
61
63
65
8 Prévision d’une série temporelle
8.1 Prévision à erreur quadratique minimum pour un ARMA
Erreur de prévision . . . . . . . . . . . . .
8.2 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . .
8.3 Plan de l’étude empirique d’une série ARMA . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
66
66
67
68
69
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
9 Estimation d’un ARMA
70
9.1 Fonction de vraisemblance d’un processus gaussien AR(1) . . . . . . . . . . . . . 70
9.2 Fonction de vraisemblance d’un processus gaussien MA(1) . . . . . . . . . . . . 71
3
10 Modèles de séries non stationnaires
10.1 Non stationnarité en variance . . . . . . . . . .
10.2 Tendance stochastique ou déterministe . . . . .
Exemple . . . . . . . . . . . . . . . . . .
10.2.1 Non stationnarité d’une série saisonnière
10.3 Annexe – code SAS . . . . . . . . . . . . . . . .
Références bibliographiques
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
73
73
73
74
78
78
79
4
Ce cours est une introduction à l’analyse des séries temporelles. Les notions de mathématiques
utilisées ne dépassent pas ce qu’on apprend habituellement en DEUG MASS (ou L2 MASS).
Les notions de calcul des probabilité et statistique mathématique dont l’étudiant doit avoir une
bonne connaissance préalable sont : la loi normale uni et bi-dimensionnelle, la notion de matrice
des variances et covariances pour un vecteur aléatoire, les tests d’hypothèse sur la moyenne dans
le cadre de la loi normale et en régression linéaire, la méthode des Moindres Carrés.
5
Chapitre 1
Préliminaires sur les séries temporelles
1.1
Exemples de séries temporelles
Une série temporelle est une suite d’observations indicées par le temps, la date à laquelle
l’observation est faite est une information importante sur le phénomène observé.
Examinons quelques séries et notons leurs caractéristiques les plus évidentes.
1 La population de la France (1.1) et la population des Etats-Unis (1.2) sont des séries où le
temps explique bien le niveau de la série. Une fonction du temps assez lisse capte une
grande part de la variabilité de la série. Les démographes sont intéressés par la prévision
de la population à 10 ans, à 20 ans.
2 Le nombre de morts par accident (5.2) est une série où la saisonnalité contribue à expliquer
le niveau. Le niveau moyen reste stable et il y a des fluctuations saisonnières.
Un service de santé publique peut vouloir prédire le nombre de morts chacun des 6
prochains mois pour voir où et quand faire une campagne de prévention, mais il peut
aussi vouloir une vision synthétique de la situation, un aperçu de la tendance sur l’année.
3 Les ventes de champagne (1.3) et les ventes de vin australien (1.4) montrent une saisonnalité
qui contribue à expliquer le niveau mais en plus la moyenne et la variabilité de ces séries
augmentent avec le temps. Ce sont des séries hétéroscédastiques (c’est-à-dire à variance
non constante) dont la variance à une date est fonction de la moyenne à cette date.
La chambre de commerce d’une région viticole peut être intéressée par l’examen de la
tendance des ventes débarassée de ce qui peut se passer à court-terme alors qu’un syndicat
de transporteurs a besoin de savoir combien de bouteilles devront partir de la région le
mois prochain.
4 Le niveau du lac Huron (1.6) montre une tendance légèrement décroissante et on observe
que les résidus d’un ajustement d’une droite au niveau, à deux dates consécutives sont
corrélés positivement (2.4).
Si l’objctif est de prédire le niveau l’an prochain, il faut exploiter à la fois la linéarité de
la tendance et la corrélation de la série à 2 dates consécutives. Nous verrons cet exemple
en détail au chapitre (2).
5 Le rendement du titre Alcatel (1.5) est une série hétéroscédastique dont la variabilité change
au cours du temps de façon non évidente. Le rendement d’une action est très souvent de
6
65000000
Population
60000000
55000000
50000000
45000000
40000000
1900
1920
1940
1960
1980
2000
2020
annnee
Fig. 1.1 – Population française
Fig. 1.2 – Population des Etats-Unis
Fig. 1.3 – Ventes de bouteilles de champagne
Fig. 1.4 – Ventes de vin australien
moyenne nulle et les rendements à 2 dates consécutives souvent non corrélés. Il n’y a donc
pas de problème de prévision du rendement mais la prévision de sa variabilité est utile.
On voit sur ces exemples qu’on ne peut pas, pour une série temporelle, parler d’observations
indépendantes. Par conséquent tous les calculs et raisonnements de statistique mathématique
basés sur l’indépendance entre les observations doivent être revus et si nécessaire, pensés autrement. Mais la dépendance temporelle permet d’améliorer la prévision de la valeur d’une série
à une date future connaissant le présent et le passé.
1.2
Objectifs de l’analyse d’une série temporelle
Décrire Quand on s’intéresse à une série temporelle, la première étape, comme pour toutes
données est de décrire la série. On utilise pour ce faire un certain nombre de graphiques :
7
Fig. 1.5 – Cours de l’action Alcatel
Fig. 1.6 – Niveau du lac Huron
– diagramme séquentiel (time plot)
– histogramme pour avoir une idée de la distribution des valeurs
– histogramme des valeurs absolues pour apprécier l’hétéroscédasticité éventuelle (notamment pour les séries de rendements de titres).
Sur les graphiques on peut repérer les valeurs atypiques ou aberrantes.
On calcule aussi les statistiques descriptives usuelles : moyenne, variance, coefficients
d’aplatissement et d’asymétrie.
Une même série temporelle peut être analysée de différentes façons suivant l’objectif
poursuivi.
Résumer Dans certains cas on veut une vue synthétique débarassée de détails de court-terme ;
c’est souvent un besoin des instituts de statistique officielle.
Modéliser Expliquer le niveau ou parfois la variance du niveau, par des modèles à peu de
paramètres
– Modèle sans variable explicative
Yt = f (Yt−1 , Yt−2 , · · · ) + ut
(1.1)
– Modèle avec variable explicative
Yt = f (Xt ) + ut
(1.2)
où ut est une erreur
– statique : Xt ne contient pas de valeurs passées de {Yt } et les ut sont non corrélés
entre eux
– dynamique : les ut sont auto-corrélés ou Xt contient des valeurs retardées de yt
Prédire La prévision de valeurs à des dates futures connaissant le présent et le passé de la
série peut être basée sur un modèle ou bien être construite sans référence à un modèle.
8
1.3
Tendance. Saisonnalité. Résidus
Il est classique de décomposer une série temporelle {Yt , t = 1, · · · , n} en tendance mt (trend),
effet saisonnier st , erreur Ut . On s’intéresse habituellement à un modèle additif :
où E(Ut ) = 0
yt = mt + st + Ut ,
(∗)
ou à un modèle multiplicatif :
yt = mt st Ut ,
où E(Ut ) = 1
(∗∗)
Par exemple, les séries montrant une saisonnalité qui a de plus en plus d’ampleur (cas des ventes
de champagne), sont souvent mieux ajustées par un modèle multiplicatif que par un modèle
additif.
Commentaires
– Une décomposition permettant d’éliminer l’effet saisonnier est utile quand on veut examiner le comportement à moyen terme d’une série. Les services de statistique officielle, les
organismes qui étudient les grandes tendances d’un phénomène, travaillent sur des séries
désaisonnalisées. A titre d’exemple on consultera le site de la Sécurité routière :
http://www.securiteroutiere.gouv.fr/infos-ref/observatoire/conjoncture/
puis ”Les méthodes de production de l’analyse conjoncturelle”.
– Par contre quand c’est le comportement à court terme qui intéresse, il faut garder l’aspect
saisonnier. Les gestionnaires de stocks de magasins doivent tenir compte de la saisonnalité
des ventes de leurs produits quand ils passent leurs commandes.
– Le choix d’un modèle ou d’un autre, l’incorporation ou non d’une composante, peuvent
s’apprécier d’après le graphique de la série et peuvent être validés par l’analyse elle-même.
– Il n’y a pas une unique façon d’obtenir une décomposition telle que (*) ou (**) pour une
série particulière.
On considère qu’une série temporelle observée {xt , t = 1, · · · , T } est la réalisation d’un processus aléatoire {Xt , t = 1, · · · , T }. Les Xt sont des variables aléatoires, xt est la valeur prise par
Xt , ce qui advient à la date (ou à l’instant d’observation) t.
Bruit blanc (BB) Définition. Un bruit blanc {Zt } est une suite de v.a. non corrélées de
moyenne nulle, de variance constante σZ2 . On note {Zt } ∼ BB(0, σ(2 )0, σZ2 ). {Zt } ∼ BBN (0, σZ2 )
désigne un bruit blanc gaussien, c’est-à-dire une suite de v.a. i.i.d. N (0, σZ2 ).
C’est une série de référence, trouver les transformations qui décrivent une série donnée
comme une transformation d’un bruit blanc est un enjeu de base dans l’analyse des séries
temporelles. Le BB ramène l’étude à des v.a. non corrélées et même souvent indépendantes.
Une bonne partie du cours sera consacrée à étudier des séries obtenues par transformation d’un
BB : les modèles de moyenne mobile (MA pour Moving Average), AR (Autorégressif) et les
ARMA qui combinent les deux.
Etapes de l’étude d’une série sans série explicative associée.
– On commence par enlever, si nécessaire, les effets systématiques (par exemple, le nombre
de jours ouvrables dans une série hebdomadaire d’une production), les effets occasionnels
(grèves, panne de machine).
9
– Soit xt , t = 1, · · · , n, la série obtenue après ces corrections. Si elle présente une tendance
et une saisonnalité, il faut les estimer ou les éliminer suivant l’objectif recherché.
– Enfin on prédit chaque composante de la série puis la série.
Notons qu’il y a souvent plusieurs méthodes possibles pour réaliser ces étapes.
1.4
Notations
Opérateur retard. On note B(backwards) ou L (lag), l’opérateur qui fait passer de xt à xt−1 :
Bxt = xt−1
On a :
B2 xt = B(Bxt ) = Bxt−1 = xt−2
Opérateur différence. La différence première est :
∆xt = (1 − B)xt = xt − xt−1
on a :
∆2 xt = ∆(∆xt ) = xt − 2xt−1 + xt−2
Ces notations simplifient l’écriture des équations relatives aux séries.
1.5
Contenu de ce cours
Le chapitre 2 traite deux exemples : dans l’un une tendance suffit à décrire la variabilité
de la série, dans l’autre il faut ajuster une tendance et également modéliser l’erreur pour bien
capter la variabilité. Le chapitre 3 est consacré à des rappels de statistique mathématique :
loi normale multidimensionnelle, moyenne, covariance. Le chapitre 4 présente rapidement les
techniques de lissage (exponentiel et par moyennes mobiles) utilisés en séries temporelles. Le
chapitre 5 introduit les séries stationnaires et en donne les propriétés de base. Dans le chapitre
6 on étudie les modèles de base des séries stationnaires : modèle AR, MA et ARMA. Dans le
chapitre suivant (7) on introduit la prévision des séries stationnaires et ensuite, chapitre 8 on
applique ces notions à la prédiction de processus ARMA. Un rapide aperçu de l’estimation des
processus AR et MA est donné chapitre 9 . On finit le cours en examinant quelques aspects des
séries non stationnaires et leur traitement (10).
10
Chapitre 2
Etude de deux exemples et
recensement de quelques problèmes
Nous examinons la série de la population des Etats-Unis puis la série donnant le niveau du
Lac Huron. On peut percevoir sur ces séries quelques problèmes courants sur les séries temporelles. Nous en faisons un traitement particulier, sur mesure. La suite du cours développera des
outils plus généraux.
2.1
La population des Etats-Unis
Le graphique donne la population des Etats-Unis de 1790 à 1990, tous les 10 ans. On note
que l’échelle de temps est très grossière. Les variations de surface (guerre avec le Mexique) ont
sans doute entrainé des variations de population qui ne se remarquent pas sur le graphique. La
variation de la population est assez régulière et il semble que l’on peut capturer l’essentiel de
cette variation par un ajustement polynomial.
y t = m t + Ut
Commençons par ajuster un polynome de degré 1 : mt = β0 + β1 t. (La table work.a contient
la série et la série des années correspondantes.
Output
The REG Procedure
Model: MODEL1
Dependent Variable: POP_EU POP_EU
Analysis of Variance
5
10
Source
DF
Sum of
Squares
Mean
Square
Model
Error
Corrected Total
1
19
20
1.137456E17
9.634075E15
1.233797E17
1.137456E17
5.070566E14
11
F Value
Pr > F
224.33
<.0001
Root MSE
Dependent Mean
Coeff Var
15
R-Square
Adj R-Sq
0.9219
0.9178
Parameter Estimates
20
25
22517917
85782624
26.24997
Variable
Label
Intercept
AN
Intercept
AN
DF
Parameter
Estimate
Standard
Error
t Value
Pr > |t|
1
1
-2211337570
1215408
153450192
81149
-14.41
14.98
<.0001
<.0001
Bien que le R2 ajusté soit élevé, Adj R-Sq
0.9178, l’examen du graphique des résidus
(2.1) montre la mauvaise qualité de l’ajustement : ces résidus n’ont rien d’aléatoire et, manifestement, il faut un terme de degré 2 parmi les régresseurs : mt = β0 + β1 t + β2 t2 .
Output
The REG Procedure
Model: MODEL1
Dependent Variable: POP_EU POP_EU
5
10
Source
DF
Sum of
Squares
Mean
Square
Model
Error
Corrected Total
2
18
20
1.232419E17
1.377793E14
1.233797E17
6.162094E16
7.654408E12
Root MSE
Dependent Mean
Coeff Var
2766660
85782624
3.22520
15
Pr > F
8050.39
<.0001
0.9989
0.9988
Parameter Estimates
20
25
R-Square
Adj R-Sq
F Value
Variable
Label
Intercept
AN
an2
Intercept
AN
DF
Parameter
Estimate
Standard
Error
t Value
Pr > |t|
1
1
1
21006098093
-23378553
6506.33863
659432744
698315
184.72061
31.85
-33.48
35.22
<.0001
<.0001
<.0001
le R2 ajusté vaut maintenant 0.9988 ( dans le premier ajustement, il était élevé mais n’avait
pas de sens). Le graphique des résidus de ce dernier ajustement (2.2) ne montre pas d’aspect
déterministe ou régulier trop marqué. Comme la série est très courte, il n’est pas intéressant
d’examiner en détail les statistiques associées à cet ajustement linéaire.
La population française Si l’on veut faire un ajustement semblable avec la population
française on se heurte à deux questions : les données ne sont pas collectées régulièrement et
Moselle, Bas-Rhin et Haut-Rhin ne faisaient pas partie de la France de 1871 à 1918 et de 1939 à
12
Fig. 2.1 – Population des Etats-Unis - ajus- Fig. 2.2 – Population des Etats-Unis - ajustement d’un polynome de degré 1
tement d’un polynome de degré 2
1945. De plus le graphique montre une rupture de tendance vers 1940 (la direction de la courbe
ajustée change assez brutalement). Une droite ou un polynôme de faible degré, uniques pour
toute la période ne peuvent donc pas rendre compte de la tendance.
2.2
Le niveau du lac Huron
Etudions maintenant la série du niveau du lac Huron. Le graphique de la série (1.6) montre
que la variabilité d’une année à l’autre est très importante par rapport à la tendance légèrement
décroissante et dont la significativité doit être testée. Commençons par faire une régression
linéaire du niveau sur l’année :
yt = β0 + β1 t + ut ,
t = 1, · · · , T
et stockons les résidus de cet ajustement.
Niveau du lac Huron - Residus
16:30 Sunday, June 23, 2002
9
The AUTOREG Procedure
Dependent Variable
5
NIVEAU
Ordinary Least Squares Estimates
10
SSE
MSE
SBC
Regress R-Square
Durbin-Watson
122.645511
1.27756
309.266295
0.2725
0.4395
DFE
Root MSE
AIC
Total R-Square
96
1.13029
304.09636
0.2725
15
Variable
20
Intercept
DATE
DF
Estimate
Standard
Error
t Value
Approx
Pr > |t|
1
1
8.1208
-0.000066
0.1864
0.0000111
43.57
-6.00
<.0001
<.0001
13
(2.1)
Examinons maintenant le résidu de cet ajustement : u
bt = yt − βb0 − βb1 t. Le R2 n’est pas très
élevé (R2 = 0.2725) mais la régression est significative : t Value pour β1 = −6.00 qui correspond
à un niveau de signification empirique < .0001. On constate aussi (graphique 2.4) que le signe
du résidu est assez régulièrement alternativement positif et négatif.
Examinons donc le diagramme de dispersion des (b
ut−1 , u
bt ), t = 2, · · · , T , graphique (2.5).
Comme on pouvait s’y attendre, on observe une corrélation linéaire significative entre le résidu
à une date et le résidu à la date voisine. Cette corrélation sur les résidus u
bt est le reflet d’une
corrélation sur les erreurs ut . On comprend qu’on peut améliorer la prévision du niveau d’une
année à partir de la connaissance du niveau les années antérieures en prenant en compte de
cette corrélation.
On appelle autocorrélation d’ordre 1 le coefficient de corrélation linéaire entre une série (xt )
et la série retardée (xt−1 ). On peut évidemment définir des coefficients d’autocorrélation d’ordre
2, 3, ... Cette question est étudiée chapitre (6).
En résumé, nous avons estimé le niveau moyen du lac et avons constaté que l’erreur est
autocorrélée. Au chapitre (6), section (6.2) nous poursuivrons cet exemple et modéliserons
l’erreur. Finalement, c’est un modèle du type (1.2) avec erreur autocorrélée, qui convient pour
le niveau du lac.
Si notre objectif est la prévision du niveau l’année suivante, il est en effet utile de modéliser
le mécanisme d’évolution de ut pour ensuite prédire yT +1 par :
yT +1 = βb0 + βb1 (T + 1) + Pred(uT +1 |b
u1 , u
b2 , · · · , u
bT )
Dans cette expression Pred(.|.) désigne la prévision de ce qui est avant le | sachant ce qui est
après. On donnera dans ce cours un contenu précis à cette expression.
Une deuxième raison justifie qu’on s’intéresse au modèle de l’erreur : on montre, voir par
exemple ([2], chapitre 5) que si l’erreur est autocorrélée, l’estimateur des moindres carrés ordinaires (MCO) de β n’est pas efficace et il vaut mieux dans ce cas utiliser l’estimateur des
moindres carrés généralisés (MCG) de β :
b −1 y
b −1 X)−1 X0 Ω
βb = (X0 Ω
où y est la matrice colonne (21 × 1) des valeurs du niveau, X est la matrice (21 × 2) dont la
b est une estimation de la matrice des covariances de l’erreur
ligne t est [1 t] et Ω
Le test de Durbin-Watson qu’on examinera avec d’autres tests de non corrélation (5.1.2)
est un test de blancheur de l’erreur basé sur le résidu d’un ajustement par MCO tel que (2.1)
et pour une hypothèse alternative particulière.
2.3
5
Annexe : commandes SAS du chapitre.
* population des Etats-Unis ;
proc reg data=a;
model pop_eu =an;
/* output out=popout */
plot residual.*an;
run;
quit;
/* Fabrication de la série an*an */
14
Fig. 2.3 – Niveau du lac Huron - ajustement Fig. 2.4 – Niveau du lac Huron - résidus en
d’un polynome de degré 1
fonction du temps
Fig. 2.5 – Lac Huron - résidu contre résidu retardé
15
10
data b;
set a;
an2 = an*an;
run;
15
proc reg data=b;
model pop_eu =an an2;
plot residual.*an;
run;
quit;
Noter qu’on peut faire un graphe des résidus sans les stocker explicitement.
5
10
15
title "Niveau du lac Huron";
proc gplot data=st6.lake;
symbol1 v=star i= r l=1;
plot niveau * date = 1;
run; quit;
proc autoreg data= st6.lake;
model niveau = date;
output out= lakout residual=residmc;
run;
title "Lac Huron - residu contre residu retarde";
proc gplot data=b;
symbol1 v=star i= none;
plot resret * residmc = 1;
run;
quit;
20
data b;
set lakout;
zero =0;
run;
25
30
title "Niveau du lac Huron - Residus"; proc gplot data=b;
symbol1 v=none i= join;
symbol2 v=none i= join;
plot residmc * date = 1 zero*date=2 /overlay;
run; quit;
Noter dans la proc autoreg ci-dessus le stockage des résidus par la commande output.
Fabrication de la série des résidus retardés. On utilise la fonction lag1 qui retarde la série de
1, comme on peut le voir sur l’extrait d’output.
data b;
set lakout;
resret =lag1(residmc);
run;
Trois
premières lignes du fichier b :
Obs
residmc
NIVEAU
DATE
1
0.20218
10.38
1875
resret
.
16
2
3
1.70636
0.84061
11.86
10.97
1876
1877
0.20218
1.70636
17
Chapitre 3
Rappels de statistique mathématique
3.1
Matrice des covariances d’un vecteur aléatoire
On considère X = [X1 , · · · , Xn ]0 un vecteur aléatoire, représenté en matrice colonne. On
suppose que E|Xi | < ∞, ∀i. On appelle moyenne ou espérance mathématique de X, la matrice
colonne des moyennes des composantes de X :
µX = E(X) = E(X) = [E(X1 ), · · · , E(Xn )]0
On peut définir de la même façon la moyenne de toute matrice, comme la matrice des moyennes
de ses éléments.
Si X = [X1 , · · · , Xn ]0 et Y = [Y1 , · · · , Ym ]0 sont des vecteurs aléatoires, on appelle matrice
des covariances de X et Y la matrice :
ΣXY = cov(X, Y) = E[(X − EX)(Y − EY)0 ] = E(XY0 ) − (EX)(EY)0
L’élément (i, j) de ΣXY est la covariance cov(Xi , Yj ) = E(Xi Yj ) − E(Xi )E(Yj ). Dans le cas
particulier où Y = X, cov(X, Y) se reduit à la matrice des covariances du vecteur X.
Supposons que Y est une transformation affine de X :
Y = a + BX
où a est un vecteur colonne m × 1 et B une matrice m × n. Alors :
EY = a + BEX
ΣYY = BΣX,X B 0
3.2
Lois de probabilités d’un vecteur aléatoire
Soit X et Y deux v.a. ∈ R.
On appelle fonction de répartition conjointe de (X, Y ), de paramètre θ, la fonction :
FX,Y (x, y; θ) = P (X ≤ x, Y ≤ y),
18
où x ∈ R, y ∈ R. La fonction de densité de probabilité du couple (X, Y ), si elle existe, est la
fonction fX,Y (x, y; θ) qui permet d’écrire :
Z x Z y
FX,Y (x, y; θ) =
fX,Y (u, v; θ)dudv
−∞
−∞
On dit alors que (X, Y ) est un vecteur aléatoire continu.
Soit des points : x ∈ Rp , y ∈ Rq et deux vecteurs aléatoires : X = [X1 , · · · , Xp ]0 , Y =
[Y1 , · · · , Yq ]0 . La fonction de répartition conjointe, de paramètre θ, des deux vecteurs X et Y
est :
FX,Y (x, y; θ) = P (X ≤ x, Y ≤ y),
où, x ∈ Rp , y ∈ Rq et les inégalités se comprennent composante par composante.
Distribution marginale. La fonction de répartition marginale de X est :
FX (x; θ) = FX,Y (x, ∞; θ)
où ∞ résume q fois ce symbole. On l’obtient en intégrant la densité conjointe sur toutes les
composantes de y.
Distribution conditionnelle. Si les densités existent, la densité conditionnelle de Y sachant
que X = x est :
fX,Y (x, y; θ)
fY |X=x (y; θ) =
fX (x; θ)
On utilise souvent, en particulier dans les séries temporelles, la factorisation de la densité
conjointe apparaissant ci-dessus :
fX,Y (x, y; θ) = fX (x; θ)fY |X=x (y; θ)
(3.1)
Si le contexte ne prête pas à confusion, on écrit fY |X (y) à la place de fY |X=x (y)
3.2.1
Loi normale
Soit X = [X1 , · · · , Xn ]0 un vecteur aléatoire.
Définition. X a une distribution normale multidimensionnelle (ou multivariée) de moyenne µ
et de matrice des covariances non-singulière Σ = ΣX,X , et on écrit X ∼ N(µ, Σ), si la densité
de probabilité du vecteur X est :
1
fX (x) = (2π)−n/2 (detΣ)−1/2 exp[− (x − µ)0 Σ−1 (x − µ)]
2
(3.2)
Remarquons que cet énoncé contient le fait que µ n × 1 est la moyenne de X et Σ n × n la
matrice des covariances de X.
Résultat. Si X ∼ N(µ, Σ), B est une matrice m × n, de rang m, et a un vecteur réel m × 1,
alors le vecteur aléatoire
Y = a + BX
suit une loi normale. Sa moyenne est a + Bµ et sa matrice des covariances : BΣB0 . Ce résultat
s’obtient par une application directe des formules de changement de variables pour des densités
de probabilité. Nous l’admettons sans démonstration.
19
Considérons la factorisation de Choleski de Σ : Σ = Σ1/2 (Σ1/2 )0 où Σ1/2 est une matrice
triangulaire inférieure. Alors la variable :Z = [Z1 , · · · , Zn ] = Σ−1/2 (X − µ) est de moyenne 0,
de matrice des covariances, Σ−1/2 Σ(Σ−1/2 )0 = I n , Z ∼ N(0n,1 , I n ). On appelle cette loi, loi
normale mulivariée standardisée. La densité de Z est
1
1
1
(3.3)
fZ (z) = (2π)−n/2 exp[− z0 z] = {(2 π)−1/2 exp[− z12 ]} · · · {(2π)−1/2 exp[− zn2 ]}
2
2
2
On reconnaı̂t le produit des densités de n v.a. i.i.d. N(0, 1)
Remarques.
1 On peut définir une loi normale même si la matrice des covariances n’est pas inversible.
2 De (3.3), on voit que Z0 Z ∼ χ2 (n) , mais
Z0 Z = (Σ−1/2 (X − µ))0 Σ−1/2 (X − µ) = (X − µ)0 Σ−1 (X − µ) ∼ χ2 (n)
(3.4)
On énonce parfois ce résultat, vu (3.2), par :
l’exposant de la densité d’une v.a. normale suit une loi χ2 (rang(Σ)).
Loi normale bivariée
La matrice des covariances de X = [X1 X2 ]0 normal bivarié de moyenne µ = [µ1 µ2 ]0 , est :
σ12
ρσ1 σ2
Σ=
, σ1 > 0, , σ2 > 0, − 1 < ρ < 1
ρσ1 σ2
σ22
Les paramètres σ1 , σ2 , ρ sont les écart-types et coefficient de corrélation des deux composantes.
L’inverse de Σ est
σ1−2
−ρσ1−1 σ2−1
−1
2 −1
Σ = (1 − ρ )
−ρσ1−1 σ2−1
σ2−2
et donc la densité de X est :
fX (x) = (2πσ12 σ22 (1 − ρ2 )1/2 )−1
x 1 − µ1 2
x 1 − µ1 x 2 − µ2
x 2 − µ2 2
−1
[(
) − 2ρ(
)(
)+(
) ]} (3.5)
exp{
2
2(1 − ρ )
σ1
σ1
σ2
σ2
dans l’espace (x1 , x2 , z) les courbes de niveau : fX (x) = constante, sont des ellipses, d’autant
plus proches d’un cercle que |ρ| est proche de 0. Voir le TP SAS.
Loi normale conditionnelle
Considérons un vecteur normal de Rn et une partition de ses composantes :
(1) X
X=
, X(1) n1 × 1, X(2) n2 × 1, n1 + n2 = n
(2)
X
et les partitions associées des moyennes et matrice de covariance :
(1) µ
Σ11 Σ12
µ=
, et Σ =
Σ21 Σ22
µ(2)
Proposition.
20
1 X(1) et X(2) sont indépendants si et seulement si Σ21 = 0
2 La distribution conditionnelle de X(1) sachant que X(2) = x(2) est
−1
N(µ(1) + Σ12 Σ−1
22 (x2 − µ2 ), Σ11 − Σ12 Σ22 Σ21 )
(3.6)
Pour la démonstration des propriétés d’un vecteur normal, voir par exemple Brockwell et Davis
([4]).
3.3
Tests d’hypothèses
Situation. Soit X une v.a.. On s’intéresse à une caractéristique de la loi de probabilité de X :
moyenne, 1er quartile, variance... Appelons θ cette caractéristique. C’est un nombre (ou un
vecteur) certain inconnu.
On dispose d’autre part d’un échantillon d’observations x1 , · · · , xn indépendantes de X qui
permet d’estimer θ.
On veut d’autre part tester une hypothèse nulle sur θ.
Situation pratique courante. Beaucoup de tests d’hypothèse reviennent à la situation :
tester l’hypothèse nulle
H0 : θ = θ0
contre, par exemple,
H1 : θ 6= θ0
où θ0 est une valeur particulière de θ et d’autre part, on dispose d’un estimateur1 θb pour lequel,
on sait par le théorème central limite, que si n, le nombre d’observations est suffisamment
grand, on a :
b
θb ' N (θ, var(θ))
b de var(θ).
b
c θ)
et enfin on dispose d’une estimation var(
Donc, si H0 est vraie,
θb − θ0
Z=
b .5
c θ))
(var(
suit approximativement une loi N (0, 1).
On voit qu’on rejettera H0 au profit de H1 si Z prend une valeur exceptionnellement élevée
pour une variable N (0, 1). La région critique (RC) est donc :
Z > z0
Si on prend comme valeur z0 , la valeur zobs observée pour Z sur l’échantillon, la probabilité
de rejeter l’hypothèse nulle alors qu’elle est vraie : P r(Z > zobs |Z ∼ N (0, 1)) est appelée le
niveau de signification empirique.
1
Rappel. Un estimateur d’un paramètre d’une v.a. est une fonction des observations de cette v.a.. La
fonction en question est propre à la méthode d’estimation mise en œuvre.
21
3.4
Rappels sur la régression linéaire
On dispose d’observations indépendantes y1 , · · · , yn d’une variable aléatoire Y . La moyenne
de Y dépend de variables x1 , · · · , xp observées simultanément : on note
Ppxki la valeur de la
variable k pour l’observation i. On suppose précisément que E(yi ) =
k=1 βk xki et que les
ui = yi − E(yi ) sont non corrélés, de moyenne 0 (évidemment) et de variance constante σU2 .
Posant xi = [x1i , · · · , xpi ]0 , X = [x1 , · · · , xn ]0 β = [β1 , · · · , βp ]0 , y = [y1 , · · · , yn ]0 U =
[u1 , · · · , un ]0 on a donc le modèle :
y = Xβ + U, U ∼ (0, σU2 I )
(3.7)
L’estimateur des moindres carrés ordinaires :
βb = (X0 X)−1 X0 y
est linéaire en y (chaque composante de βb est bien une combinaison linéaire des yi ). Il est sans
b = β, et vérifie : var(β) = σ 2 (X0 X)−1 . Cet estimateur a la propriété d’optimalité
biais : E(β)
U
suivante.
Théorème de Gauss-markov. Dans le modèle (3.7), l’estimateur βb est optimal dans la
classe des estimateurs linéaires et sans biais en ce sens que pour tout autre estimateur linéaire
e − var(β)
b est semi définie positive.
et sans biais βe de β on a : var(β)
Dans les séries temporelles, une observation est associée à une date et comme on l’a vu pour
l’exemple du lac Huron, la non corrélation des erreurs ne tient pas toujours. Le remède consiste
donc, étant donnée une série {yt } et des variables explicatives xt , à utiliser la méthode des
moindres carrés généralisés. La matrice des covariances de l’erreur doit être identifiée à partir
de la structure d’autocorrélation des résidus d’un ajustement par MCO. Dans l’exemple du lac
Huron, on a fait une partie du travail.
Test de normalité de l’erreur. Il y a plusieurs tests de normalité d’une distribution. La
proc autoreg de SAS fournit la statistique de Jarque-Bera, couramment utilisée dans les
études économétriques.
Principe : Supposons une série de n observations indépendantes d’une v.a. Y , y1 , · · · , yn , supposées pour simplifier centrées à la moyenne. L’asymétrie (skewness) empirique est
p
m3
b1 =
3/2
m2
et l’applatissement (kurtosis) empirique est
b2 =
où mj = (1/n)
Pn
i=1
m4
m22
yij , j = 2, 3, 4. Si Y suit une loi normale alors :
√ √
0
6 0
b1
L
n
−−−→ N
,
3
0 24
n→∞
b2
22
La statistique de Jarque-Bera est
√
√ 2
( b1 − 0)2 (b2 − 3)2
b1
(b2 − 3)2
T = n(
+
) = n(
+
).
6
24
6
24
Si Y est normalement distribuée de moyenne 0, alors T suit approximativement une loi de χ22 .
(Notons que ceci est une illustration de la propriété énoncée après (3.4).) On rejette l’hypothèse
nulle, normalité, pour de grandes valeurs de la statistique.
Mise en œuvre. La table a contient les variables y, x1, x2. Pour tester à l’aide de la
proc autoreg que l’erreur dans la régression de y sur x1 et x2 est normale on écrira la
syntaxe :
proc autoreg data=a;
model y= x1 x2 /normal ;
run;
Pour tester que y est normal on écrira la syntaxe :
proc autoreg data=a;
model y= /normal ;
run;
3.5
Exercices
1. Régression linéaire. On considère le modèle linéaire : yt = β0 + β1 t + ut , t = 1, · · · , T
où les ut sont i.i.d. N(0, σ 2 ). On suppose que ce modèle tient au-delà de T . (1) ... (2)
Calculer la prévision à l’horizon h de yt . Donner la covariance des prévisions aux horizons
h et h + 1.
2. Tests dans le modèle linéaire. On a fait la régression linéaire du poids sur la taille
et l’âge, par sexe, sur un ensemble d’enfants. Un certain nombre de résultats figurent
ci-dessous.
(1) Discuter la pertinence de ce modèle.
(2) Tester l’hypothèse que chez les filles, le coefficient de la taille est égal à deux fois celui
de l’âge.
(3) Tester l’hypothèse que les coefficients de la taille sont égaux dans les deux populations.
Note. Avant de s’embarquer dans des calculs numériques, il faut raconter l’histoire qui
justifie l’emploi des techniques qu’on veut mettre en œuvre.
5
*------------Data on Age, Weight, and Height of Children-------*
| Age (months), height (inches), and weight (pounds) were
|
| recorded for a group of school children.
|
| From Lewis and Taylor (1967).
|
*--------------------------------------------------------------*;
title ’----- Data on age, weight, and height of children ------’;
23
10
15
20
proc reg data=htwt
rsquare covout corr;
by sex;
eqa: model weight=height age;
print covb corrb ;
run;
------------------------------------ sex=f -------------------------The REG Procedure
Correlation
Variable
height
age
weight
height
1.0000
0.5439
0.7511
age
0.5439
1.0000
0.5393
weight
0.7511
0.5393
1.0000
25
30
35
40
45
50
55
60
65
70
75
Source
Model
Error
Corrected Total
DF
2
108
110
The REG Procedure
Model: eqa
Dependent Variable: weight
Sum of
Mean
Squares
Square
F Value
22432
11216
77.21
15689
145.26700
38121
Root MSE
Dependent Mean
Coeff Var
12.05268
98.87838
12.18939
R-Square
Adj R-Sq
Pr > F
<.0001
0.5884
0.5808
Parameter Estimates
Parameter
Standard
Variable
DF
Estimate
Error
t Value
Pr > |t|
Intercept
1
-150.59698
20.76730
-7.25
<.0001
height
1
3.60378
0.40777
8.84
<.0001
age
1
1.90703
0.75543
2.52
0.0130
------------------------------------ sex=f -----------------------------The REG Procedure
Model: eqa
Covariance of Estimates
Variable
Intercept
height
age
Intercept
431.28074658
-7.309712477
0.7576724388
height
-7.309712477
0.166274748
-0.167528183
age
0.7576724388
-0.167528183
0.5706722044
Correlation of Estimates
Variable
Intercept
height
age
Intercept
1.0000
-0.8632
0.0483
height
-0.8632
1.0000
-0.5439
age
0.0483
-0.5439
1.0000
------------------------------------ sex=m ---------------------------The REG Procedure
Model: eqa
Correlation
Variable
height
age
weight
height
1.0000
0.7466
0.7903
age
0.7466
1.0000
0.7181
weight
0.7903
0.7181
1.0000
------------------------------------ sex=m ------------------------------The REG Procedure
Model: eqa
Sum of
Mean
Source
DF
Squares
Square
F Value
Pr > F
Model
2
32975
16487
120.24
<.0001
Error
123
16866
137.11922
24
Corrected Total
80
85
90
95
125
49840
Root MSE
Dependent Mean
Coeff Var
11.70979
103.44841
11.31945
R-Square
Adj R-Sq
0.6616
0.6561
Parameter Estimates
Parameter
Standard
Variable
DF
Estimate
Error
t Value
Pr > |t|
Intercept
1
-113.71346
15.59021
-7.29
<.0001
height
1
2.68075
0.36809
7.28
<.0001
age
1
3.08167
0.83927
3.67
0.0004
------------------------------------ sex=m -----------------------------The REG Procedure
Model: eqa
Covariance of Estimates
Variable
Intercept
height
age
Intercept
243.05476027
-4.621590334
2.7393290828
height
-4.621590334
0.1354906781
-0.230632776
age
2.7393290828
-0.230632776
0.7043800994
100
Variable
Intercept
height
age
Correlation of Estimates
Intercept
height
1.0000
-0.8054
-0.8054
1.0000
0.2094
-0.7466
age
0.2094
-0.7466
1.0000
105
3. Valeur manquante. On a fait n = 100 observations indépendantes d’un couple X1 , X2
de variables conjointement normales. Pour l’observation n◦ 4, on a perdu la valeur de
X1 . La moyenne empirique et la matrice des covariances empirique des 99 observations
complètes sont :
−2.1045
2.3601
−0.6665
b
µ
b=
Σ=
2.8510
−0.6665 2.0195
Pour l’observation n◦ 4, X2 = 3.3649.
(1) Quelle est la loi de X1 sachant que X2 = 3.3649 ?
(2) Suggérer d’après (1) une approximation de la valeur manquante de X1 .
(3) Donner un intervalle de prévision à 95% pour cette valeur (Question : pourquoi ”intervalle de prévision” et non ”intervalle de confiance” ?).
4. Estimation de la demande d’essence. (Exercice de révision de notions vues antérieurement.)
On dispose de données américaines pour les années 60 à 86, observées sur 27 ans :
YR année
G consommation totale d’essence (en dizaines de millions d’essence-dollar en 1967)
PG indice des prix de l’essence (en dollars de 1967)
I revenu disponible par tête (en dollars de 1967)
PNC indice des prix des voitures neuves (en dollars de 1967)
PUC indice des prix des voitures d’occasion (en dollars de 1967)
PPT indice des prix des transports publics (en dollars de 1967)
PD indice des prix agrégés des biens durables (en dollars de 1982)
PN indices des prix agrégés des biens de consommation courante (en dollars de 1982)
PS indice des prix agrégés des services (en dollars de 1982)
YRSQ carre de l’année.
La consommation d’essence est calculée comme la dépense courante en dollars divisée par
25
l’indice des prix de l’essence. On veut estimer la fonction de demande d’essence.
(1) Dessiner le nuage des points (PG,G) en portant la date comme étiquette des points
(pour faire ce travail en SAS,utiliser la syntaxe figurant dans demanda.sas). Qu’y a-t-il
de remarquable ?
(2) Dessiner le nuage des points (YR,G). Expliquer.
(3) Calculer le coefficient de corrélation simple entre PG et G.
(4) Régresser la consommation sur l’ensemble des autres variables. Examiner les résultats.
Commenter.
(5) Calculer la statistique de Durbin-Watson (5.8).
(6) Simplifier le modèle.
(7) Calculer le coefficient de corrélation partielle entre PG et G, dans le modèle simplifié.
Comparer son signe avec celui du coefficient de corrélation simple. Expliquer.
Note. Soit la régression linéaire de yi sur x1i , · · · xki , i = 1, · · · , n. On appelle coefficient
de corrélation partielle entre y et x1 , le coefficient de corrélation entre les résidus (1) de
la régression de y sur x2 , · · · , xk et (2) de la régression de x1 sur x2 , · · · , xk . C’est un
coefficient de corrélation entre y et x1 , net des effets parasites de x2 , · · · , xk .
Cette notion est reprise et détaillée pour les séries temporelles au chapitre (7).
5. TP SAS. Lancer le travail : norbivar.sas puis modifier la syntaxe pour dessiner successivement des vecteurs de lois :
0
1 −1
1
2 1.5
0
,Σ =
)
N(
,Σ =
), N(
−1 2
0
1.5 3
0
5
10
15
20
/* norbivar.sas */
data fxy;
/* coefficient de corrélation */
rho=0.50;
pi=arcos(-1);
k=1/(2*pi*sqrt(1-rho**2));
do x=-3 to 3 by 0.1;
do y=-3 to 3 by 0.1;
fxy=k*exp(-(x**2+2*rho*x*y+y**2)/(1-rho**2));
output;
end;
end;
label x=’x’
y=’y’
fxy=’f(x,y)’;
run;
/* remise a zero des options graphiques */
goptions;
title "Graphe de la densite normale bivariee";
proc g3d;
plot y*x=fxy;
run;
26
Chapitre 4
Lissage
4.1
Lissage exponentiel
But. Le lissage exponentiel est un outil pour faire de la prévision de séries sans en chercher
préalablement un modèle.
On présente ici le lissage exponentiel comme une régression linéaire pondérée.
On s’intéresse à une série {yt } pouvant être modélisée par :
yt = ψ(t) + Zt ,
1≤t≤T
(4.1)
2
Zt ' BB(0, σZ )
ψ(t)
est un polynôme dont les coefficients varient lentement au cours du temps
Objectif. Prédire la série en T + 1, · · · , T + h où h, l’horizon, ne dépasse généralement pas 3 ou
4.
Moyen. Estimer la tendance au voisinage d’un point T par un polynôme de faible degré (pas
plus de 2) ajusté sur les voisins de T .
Habituellement, la série est observée de t = 1 à t = T et donc les voisins de la date T sont des
points de date inférieure. En lissage exponentiel, on mesure l’intensité du voisinage à T par un
poids qui décroit exponentiellement quand on s’écarte de T . On est au voisinage de T . Le poids
du point t, t < T est pris de la forme :
ωT −t = α(1 − α)T −t
où 0 < α < 1 est un paramètre à fixer, plus α est proche de 0 plus les points ont des poids
proches ; plus α est proche de 1, moins les points éloignés de T ont de l’importance.
Lissage exponentiel simple Il correspond à ψ(t) = c dans (4.1) au voisinage de T . L’ajustement par régression pondérée d’une constante à {yt } consiste à prendre comme estimateur
de c le minimiseur de
T
X
α(1 − α)T −t (yt − c)2 = α
t=1
T −1
X
k=0
27
(1 − α)k (yT −k − c)2
c’est-à-dire
b
c=
α
PT −1
T −k
yT −k
k=0 (1 − α)
PT −1
α k=0 (1 − α)k
si T est grand, le dénominateur est ' 1 et on écrit, au moins pour les calculs formels :
∞
X
b
c(T ) = α
(1 − α)k yT −k
k=0
On prédit yT +h par b
c(T ). On comprend donc que si la série a une tendance linéaire, la méthode
n’est pas très satisfaisante.
• Mise à jour de la prévision. L’observation yT +1 devient disponible. On observe que
b
c(T + 1) = αyT +1 + (1 − α)b
c(T )
On retrouve l’interprétation de α. Cette présentation du lissage exponentiel simple s’appelle
aussi lissage de Brown.
• Mise en pratique. Il faut une valeur de démarrage pour la récurrence (on prend souvent
b
c(1) = y1 ) et une valeur P
de α. Pour α on calcule pour une grille de valeurs de α, l’erreur
c(t))2 , et on retient la valeur de α qui minimise cette erreur.
quadratique de prévision : t (yt −b
Lissage exponentiel double Supposons qu’au voisinage de T , la série est bien ajustée par
une droite : dans 4.1, ψ(t) = a1 + a2 (t − T ), pour t ' T . Donc a1 = a1 (T ), a2 = a2 (T ). Posons
pour alléger l’écriture : β = 1 − α. On cherche a1 et a2 qui minimisent :
T −1
X
β j [yT −j − (a1 − a2 j)]2
j=0
C’est un problème classique de moindres carrés pondérés. Notons b
a1 (T ), â2 (T ) la solution. On
prédit ensuite yT par ŷT −1 (1) = b
a1 (T ) + â2 (T ) × 1 et yT +k par yT (k) = b
a1 (T ) + kâ2 (T ).
• Mise à jour de la prévision. L’observation yT devient disponible. Les coefficients de la droite
ajustée deviennent a1 (T + 1), a2 (T + 1). Un calcul un peu fastidieux mais sans difficulté particulière donne, voir Gourieroux et Monfort [9] par. 4-2 :
b
a1 (T ) = b
a1 (T − 1) + b
a2 (T − 1) + (1 − β 2 )(yT − yT −1 (1))
b
a2 (T ) =
b
a2 (T − 1) + (1 − β)2 (yT − yT −1 (1))
Remplaçons dans ces expressions, yT −1 (1) par b
a1 (T − 1) + â2 (T − 1). On obtient :
β 2 (b
a1 (T − 1) + b
a2 (T − 1)) + (1 − β 2 )yT
(1 − β)2
(1 − β)2
b
a2 (T ) = (1 −
)b
a
(T
−
1)
+
(b
a1 (T ) − b
a1 (T − 1))
2
1 − β2
1 − β2
Ce sont des combinaisons convexes de l’information passée et de l’information disponible à la
date T .
2
Méthode de Holt-Winters. Posons : α = β 2 et γ = 1 − (1−β)
et oublions la dépendance par
1−β 2
rapport à β. La méthode de Holt-Winters correspond au mécanisme de mise à jour :
b
a1 (T ) =
b
a1 (T ) = α(b
a1 (T − 1) + b
a2 (T − 1)) + (1 − α)yT
b
a2 (T ) = γb
a2 (T − 1) + (1 − γ)(b
a1 (T ) − b
a1 (T − 1))
Note. Dans SAS, le lissage exponentiel peut se faire par la proc forecast
28
4.2
Lissage par Moyenne Mobile
But. Le lissage par Moyenne Mobile (Running mean) est un moyen pour éliminer ou au
contraire conserver certains aspects d’une série. Ce n’est pas un outil de prévision.
Etant donné une série {xt } on la transforme en une série {yt } par l’opération linéaire
yt =
+s
X
ak xt−k
k=−q
où les ak sont un système de poids. Suivant ces poids, on peut garder uniquement un aspect
d’une série, en faire disparaı̂tre un autre...
Exemples. Estimation de la tendance par une moyenne locale, c’est-à-dire par une moyenne
des observations voisines, passées et futures, de la date où on veut estimer la tendance.
On peut estimer la moyenne au voisinage de t par
P
yt = Pm
k=−m ak xt−k , m + 1 ≤ t ≤ n − m
SC ak = 1
c’est une opération (ou filtre) linéaire. On obtient donc, si xt = ψ(t) + Zt :
P
ak ψ(t − k) + Zt∗
yt = m
k=−m
P
m
Zt∗ = k=−m ak Zt−k
Variance et auto-covariance de l’erreur
P
2
var(Zt∗ ) = σZ2 m
k=−m
Pamk
2
∗
l=−m al+h al σZ si − 2m ≤ h ≤ 2m
)=
cov(Zt∗ , Zt+h
0
si 2m + 1 ≤ |h|
Reste à préciser les ak : c’est un problème de minimisation sous contrainte (explicitez) et on
obtient : ak = 1/(2m + 1).
On peut vouloir conserver les polynômes d’un certain degré. Par exemple si ψ(t) est un
polynôme de degré 3 on veut
+s
X
ψ(t) =
ak ψ(t − k)
k=−q
au moins pour t > q et t < T − s, T étant la longueur de la série. Pour q = s = 2 on obtient :
k
Coeff.
-2
-3/35
-1
12/35
0
17/35
1
12/35
2
-3/35
La notation conventionnelle pour ce filtre est :
M {[5];
1
[−3, 12, 17]}.
35
C’est un exemple de la moyenne mobile d’Henderson.
La moyenne mobile
yt =
1
1 1
[ xt−m + xt−m+1 + · · · + xt+m−1 + xt+m ]
2m 2
2
29
annule les séries périodiques de période 2 m. On peut donc se servir de ce filtre avec m = 6
pour désaisonnaliser une série mensuelle.
Si xt a une composante saisonnière :
x t = m t + St
avec St = St+12 , le filtre de différence saisonnière 1 − B12 annule cette composante :
(1 − −B12 )xt = xt − xt−12 = mt − mt−12 .
Remarques.
La méthode X-11 enchaı̂ne des filtres pour éliminer des tendances ou des effets saisonniers dans
tous les services de statistique officielle.
Pour un exposé complet sur ces filtres et un aperçu de la méthode X-11, on consultera Gourieroux et Monfort ([9]) par. 3.7.
30
Chapitre 5
Propriétés de base des séries
stationnaires
5.1
Stationarité
La stationnarité est la clef de l’analyse des séries temporelles. Une série {Yt } est dite
stritement stationnaire si la distribution conjointe de (Yt1 , · · · , Ytk ) est identique à celle de
(Yt1 +t , · · · , Ytk +t ), quel que soit t, où k est un entier positif arbitraire et (t1 , · · · , tk ) une liste
de k entiers positifs arbitraires. Autrement dit, la stationnarité stricte dit que la distribution
conjointe de (Yt1 , · · · , Ytk ) est invariante quand on fait glisser le temps. Cette condition est
difficile à vérifier et on utilise en général, une version plus faible de stationnarité. On dit qu’une
série temporelle {Yt } est faiblement stationnaire si la moyenne de Yt et la covariance entre Yt
et Yt−l sont invariantes par translation du temps. Précisément, {Yt } est faiblement stationnaire
si : (a) E(Yt ) = µ où µ est une constante indépendante de t, (b) cov(Yt , Yt−l ) ne dépend que
de l, entier. La stationnarité faible (ou du second ordre) implique que le graphe de la série en
fonction du temps montre des fluctuations autour d’un niveau moyen, fluctuations qui se ressemblent, quel que soit la date autour de laquelle on examine la série. Les séries de population
du chapitre précédent sont manifestement non stationnaires. La série des morts par accident
au Royaume-Uni, le résidu de l’ajustement du niveau du lac Huron par un polynôme de degré
2, ont toutes les apparences de séries stationnaires.
5.1.1
Fonction d’autocovariance
La covariance γl = cov(Yt , Yt−l ) est appelée autocovariance d’ordre (ou de décalage) l (lag-l
autocovariance). Pour chaque décalage l, il y a une autocovariance.
Définition. La fonction : l
γl est la fonction d’autocovariance de {Yt }. Cette fonction a
trois propriétés importantes :
(a) γ0 = var(Yt ),
(b) γl = γ−l , car :
γ−l = cov(Yt , Yt−(−l) ) = cov(Yt−(−l) , Yt ) = cov(Yt+l , Yt ) = cov(Yt+l , Y(t+l)−l ) = γl
Autre notation. On écrit aussi γY (l), en particulier pour distinguer la fonction d’autocovariance
d’une série Y , de celle d’une autre série.
31
5.1.2
Corrélation et fonction d’autocorrélation
Rappel. Le coefficient de corrélation entre deux v.a. X et Y de moyennes µX et µY est défini
par :
E[(X − µX )(Y − µY )]
cov(X, Y )
=p
ρX,Y = p
var(X)var(Y )
E(X − µX )2 E(Y − µY )2
Ce coefficient est compris entre −1 et 1. Il mesure la force de la dépendance linéaire entre X et
Y . Si on dispose d’un échantillon (xt , yt ), t = 1, . . . , T d’observations indépendantes de (X, Y ),
on peut estimer de façon convergente le coefficient de corrélation par le coefficient de corrélation
empirique :
PT
(xt − x)(yt − y)
ρbX,Y = qP t=1
PT
T
2
2
t=1 (xt − x)
t=1 (yt − y)
P
P
où x = Tt=1 xt /T et y = Tt=1 yt /T sont les moyennes empiriques de X et Y .
Considérons maintenant une série temporelle xt , t = 1, . . . , T de valeurs numériques, sans nous
interroger sur son modèle mathématique, et formons la série retardée : yt = xt−1 , t = 2, . . . , T .
On peut calculer le coefficient de corrélation entre les deux séries :
PT
(xt − x)(yt − y)
r = qP t=2
(∗).
PT
T −1
2
2
(x
−
(y
−
x)
y)
t
t=1
t=2 t
Si la série observée xt , t = 1, . . . , T est la réalisation d’une série (ou processus) stationnaire,
ce coefficient mesurePla liaison entre la valeurPde la série en une date et en la date voisine.
T −1
xt /(T − 1) et y = Tt=2 yt /(T − 1) ne différent que par les valeurs
Observons que x = t=1
x1 et xT . Le paragraphe suivant formalise cette observation : on y définit d’abord la covariance
décalée de 1, de 2,. . .d’une série stationnaire, puis le coefficient de corrélation décalé de 1, de
2,. . .,. On introduit ensuite la version empirique de ce coefficient de corrélation (5.4). On pourra
observer qu’elle est plus simple que le r donné par la formule (*) ci-dessus.
Fonction d’autocorrélation (ACF) Considérons une série (faiblement) stationnaire {Yt }.
On est souvent intéressé par décrire la dépendance de {Yt } par rapport à son passé, notamment
pour expliquer le niveau actuel de la série par le niveau à une date précédente. On sait que si une
dépendance est linéaire, elle est bien décrite par le coefficient d’autocorrélation. Par définition,
le coefficient d’autocorrélation d’ordre l est
cov(Yt , Yt−l )
.
(5.1)
ρl = p
var(Yt )var(Yt−l )
Mais var(Yt−l ) = var(Yt ) = γ0 donc :
ρl =
cov(Yt , Yt−l )
γl
= .
var(Yt )
γ0
(5.2)
Enfin en terme d’espérance mathématique et notant que par la stationnarité : E(Yt ) = µ
indépendant de t, on a :
E[(Yt − µ)(Yt−l − µ)]
.
(5.3)
ρl =
E[(Yt − µ)2 ]
32
ρl est une mesure de la dépendance de la valeur Y en une date par rapport à sa valeur à une
date décalée de l intervalles de temps.
Définition. La fonction :
l
ρl , l = 0, 1, 2, . . .
est appelée fonction d’autocorrélation (théorique), FAC (ou ACF en anglais) de la série {Yt }.
De la définition on voit que : ρ0 = 1, −1 ≤ ρl ≤ 1.
Etant
un échantillon yt , t = 1, · · · , T , de {Yt } stationnaire, notons la moyenne empirique,
Pdonné
T
y = t=1 yt /T . Le coefficient d’autocorrélation empirique d’ordre 1 est :
PT
(yt − y)(yt−1 − y)
ρb1 = t=2PT
(5.4)
2
(y
−
y)
t
t=1
Le coefficient d’autocorrélation empirique d’ordre l ≥ 1 est
PT
(yt − y)(yt−l − y)
ρbl = t=l+1
,0 ≤ l ≤ T − 1
PT
2
(y
−
y)
t
t=1
(5.5)
Sous des conditions générales, voir par exemple Brockwell et Davis ([4]), ρbl est un estimateur
convergent de ρl .
Définition. La fonction :
l
ρbl , l = 0, 1, 2, . . .
est appelée fonction d’autocorrélation empirique de la série {Yt }.
Tests de non corrélation
Résultat. Si {Yt } est une suite de v.a. i.i.d., de moment d’ordre 2 fini, E(Yt2 ) < ∞, alors les coefficients d’autocorrélation ρbl sont approximativement indépendants et normalement distribués,
de moyenne 0, de variance 1/T .
Ce résultat peut être utilisé pour différents tests.
– Etant donnée
√ une réalisation y1 , · · · , yT d’une série, on peut calculer pour un décalage l
particulier : T (b
ρl −0) et voir si ça peut être considéré comme la valeur d’une v.a. N(0,1).
– Etant donnée une réalisation y1 , · · · , yT d’une série vérifiant les hypothèses du résultat
ci-dessus, on devrait
√ avoir environ 95% des coefficients d’autocorrélation empirique dans
l’intervalle ±1, 96/ T . Si la proportion observée est loin de cette valeur, on peut conclure
que les observations ne sont pas indépendantes.
Test du Portemanteau Au lieu de tester les coefficients d’autocorrélation 1 par 1 comme
ci-dessus, on peut faire un test global basé sur la statistique
Q(h) = T
h
X
ρbj
2
j=1
où h est un décalage qu’on choisit, avec habituellement : h < T /4. Sous l’hypothèse d’indépendance
des {Yt } faite ci-dessus (hypothèse nulle), Q suit approximativement une loi de χ2 à h degrés
33
de liberté. Q est appelée statistique de Box-Pierce.
Une modification de cette formule est la statistique de Box-Pierce-Ljung, programmée dans la
proc arima notamment :
∗
Q (h) = T (T + 2)
h
X
k=1
ρb2k
.
T −k
(5.6)
Souvent on s’intéresse à la blancheur non d’une série directement observée mais à la blancheur
d’une série résidu d’un ajustement. Dans ce cas on diminue les degrés de liberté de la statistique
du nombre de paramètres estimés dans le modèle.
P
Plus généralement, si Yt est une série stationnaire satisfaisant Yt = c + qi=1 ψi Zt−i où Zt est
un BB gaussien alors
ρbl est approximativement normalement distribué,
de moyenne 0,
P
1 + 2 qi=1 ρ2i
.
de variance
(5.7)
T
Ce résultat est un cas particulier de la formule de Bartlett (voir ([4] sec. 2.4 pour les conditions exactes). Il permet de tester H0 : ρl = 0 contre H1 : ρl 6= 0. SAS utilise cette formule
pour calculer un intervalle autour de 0 à 95% pour chaque décalage k sous l’hypothèse que
ρm = 0, m > k.
Test de Durbin-Watson Le test de Durbin-Watson est un test de blancheur de série particulier.
Situation. On veut faire la régression d’une série yt scalaire sur une série vectorielle xt , t =
1, · · · , T . Le vecteur xt contient la constante. Le test de D-W s’intéresse à la situation :
yt = x0t β + ut , t = 1, · · · , T
où ut = ρut−1 + Zt , Zt ∼ BB et teste H0 : ρ = 0. Si ρ = 0 la méthode des MCO estime
correctement β, si ρ 6= 0 l’estimation de β obtenue par MCO n’est pas efficace. Le test de D-W
teste H0 contre : H1a : ρ 6= 0 ou H1b : ρ > 0 ou H1c : ρ < 0. La statistique de test est :
PT
(b
ut − u
bt−1 )2
(5.8)
d = t=2PT
2
u
b
t=1 t
où u
bt est le résidu de la régression par MCO de y sur x ; 0 ≤ d ≤ 4. En développant on observe
que
d ' 2(1 − ρb)
où ρb est le coefficient d’autocorrélation empirique des résidus. On voit que la région critique est
de la forme : pour H1a , d << 2 ou d >> 2, pour H1b , d << 2, pour H1c , d >> 2.
Durbin et Watson ont pensé ce test à une époque où il y avait peu d’ordinateurs. Leurs
tables donnent des bornes approchées de la région critique indépendantes des valeurs des x.
Actuellement beaucoup de logiciels donnent les niveaux de signification empiriques exacts. Dans
SAS, la proc autoreg calcule la statistique de D-W. On trouve un exposé détaillé de ce test
dans tous les manuels d’économétie, Bourbonnais ([2]), par exemple.
Notes sur le paragraphe.
34
ukdeath
1000
1500
2000
2500
1970
1975
Time
1980
1985
Fig. 5.1 – Bruit blanc
Fig. 5.2 – Nombre de conducteurs morts ou
gravement blessés au R.-U..
1. Plus le décalage l est grand, moins il y a d’observations pour estimer ρl dans (5.5). On
s’arrête habituellement à l = T /4.
2. Observons que l’on peut calculer (5.5) pour toute série, stationnaire ou non. On montre
que pour une série stationnaire, le corrélogramme empirique, graphe de l ,→ ρbl décroit exponentiellement vers 0, avec éventuellement des oscillations. Inversement un corrélogramme
empirique qui ne tend pas rapidement vers 0, n’est pas le corrélogramme d’une série stationnaire. Cette observation permet de se faire une idée de la stationnarité d’une série
d’après l’examen de son corrélogramme empirique.
5.2
Exemples de fonctions d’autocorrélation empiriques
1. Bruit blanc. On a simulé un bruit blanc N (0, σ 2 = 2.25) sur 200 instants consécutifs
(5.1), et estimé sa FAC (Table 5.1). Les ... sont les limites de l’intervalle autour de
0 introduit après la formule de Bartlett (5.7) ; le calcul suppose pour chaque k, k > 0
que toutes les autocorrélations sont nulles à partir de k. Ici les valeurs observées tombant
dans l’intervalle ∀k suggèrent bien qu’on a dessiné la FAC empirique d’un BB. Le test
du portemanteau est donné ensuite. La ligne (6 de la table 5.2) correspond au test de
H0 : ρ1 = · · · = ρ6 = 0.
2. Nombre de conducteurs morts ou sérieusement blessés par mois au Royaume-Uni entre
janvier 1969 et décembre 1984. Voir les tables 5.3 et 5.4. La ceinture de sécurité devient
obligatoire à partir de février 1983. Source : Harvey, 1989, p.519ff.
http://www-personal.buseco.monash.edu.au/˜hyndman/TSDL/tourism.html
Cette série semble-t-elle stationnaire ?
35
0.6
200
160
120
0.8
csEnrPr
240
1.0
Series ukdeath
1980
1990
2000
Time
0.4
ACF
1970
0.2
−0.2
0.0
ACF
0.6
1.0
0.2
csEnrPr
0.0
0.5
1.0
1.5
0
Lag
5
10
15
Lag
Fig. 5.3 – Nombre de conducteurs morts ou Fig. 5.4 – Consommation d’énergie prigravement blessés au R.-U. : FAC.
maire en France 106 tonnes : série et FAC
3. Consommation d’énergie primaire en France de 1965 à 2002 (prévision). Voir le site de
BP :
http://www.bp.com/
Cette série semble-t-elle stationnaire ? D’après votre réponse, commentez la pertinence
du graphique de la FAC.
5.3
Annexe – code SAS
* Syntaxe pour
la simulation du Bruit blanc gaussien de variance 1.5**2 . ;
data a;
do i =1 to 200;
z = 1.5* rannor(45297);
output;
end;
run;
* calcul de la FAC de la série précédente ;
proc arima data= a;
i var = z; run;
quit;
36
Tab. 5.1 – FAC empirique d’un bruit Blanc
The SAS System
06:07 Sunday, July 11, 2004
The ARIMA Procedure
5
Name of Variable = z
Mean of Working Series
Standard Deviation
Number of Observations
10
-0.12203
1.637604
200
Autocorrelations
15
20
25
30
35
40
Lag
Covariance
Correlation
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
2.681746
0.055661
0.100309
0.049561
-0.145573
-0.055428
0.218940
0.247274
-0.198556
-0.081473
-0.119776
-0.019767
-0.161385
-0.092279
-0.198980
-0.136983
-0.105819
-0.056320
0.147906
-0.126669
-0.114486
-0.228622
0.020796
-0.423656
-0.105117
1.00000
0.02076
0.03740
0.01848
-.05428
-.02067
0.08164
0.09221
-.07404
-.03038
-.04466
-.00737
-.06018
-.03441
-.07420
-.05108
-.03946
-.02100
0.05515
-.04723
-.04269
-.08525
0.00775
-.15798
-.03920
-1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|********************|
. | .
|
. |* .
|
. | .
|
. *| .
|
. | .
|
. |**.
|
. |**.
|
. *| .
|
. *| .
|
. *| .
|
. | .
|
. *| .
|
. *| .
|
. *| .
|
. *| .
|
. *| .
|
. | .
|
. |* .
|
. *| .
|
. *| .
|
.**| .
|
. | .
|
***| .
|
. *| .
|
Std Error
0
0.070711
0.070741
0.070840
0.070864
0.071072
0.071102
0.071569
0.072160
0.072539
0.072603
0.072740
0.072744
0.072992
0.073073
0.073449
0.073627
0.073732
0.073762
0.073968
0.074119
0.074241
0.074729
0.074733
0.076385
"." marks two standard errors
45
Tab. 5.2 – Test du portemanteau pour un bruit Blanc
Autocorrelation Check for White Noise
To
Lag
ChiSquare
DF
Pr >
ChiSq
6
12
18
24
2.53
6.87
10.01
18.62
6
12
18
24
0.8654
0.8661
0.9317
0.7722
--------------------Autocorrelations--------------------
5
0.021
0.092
-0.034
-0.047
0.037
-0.074
-0.074
-0.043
10
37
0.018
-0.030
-0.051
-0.085
-0.054
-0.045
-0.039
0.008
-0.021
-0.007
-0.021
-0.158
0.082
-0.060
0.055
-0.039
1
Tab. 5.3 – FAC empirique de la série ”Nombres de morts par accident au Royaume-Uni
The ARIMA Procedure
Name of Variable = nbmorts
5
Standard Deviation
1670.307
288.8558
192
10
Autocorrelations
15
20
25
30
35
Lag
Covariance
Correlation
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
83437.661
59175.305
38668.111
22355.203
12236.275
10562.841
5569.811
6611.029
6371.492
15602.846
28378.989
46148.290
58509.710
44807.324
24629.801
11064.697
2834.743
-371.072
-1974.918
-3902.628
-4232.750
3160.806
14258.737
32610.400
42438.630
1.00000
0.70922
0.46344
0.26793
0.14665
0.12660
0.06675
0.07923
0.07636
0.18700
0.34012
0.55309
0.70124
0.53702
0.29519
0.13261
0.03397
-.00445
-.02367
-.04677
-.05073
0.03788
0.17089
0.39084
0.50863
-1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
|********************|
|**************
|
|*********
|
|*****
|
|*** .
|
|*** .
|
|*
.
|
|** .
|
|** .
|
|****.
|
|*******
|
|***********
|
|**************
|
|***********
|
|******.
|
|***
.
|
|*
.
|
|
.
|
|
.
|
*|
.
|
*|
.
|
|*
.
|
|***
.
|
|********
|
|**********
|
Std Error
0
0.072169
0.102214
0.112628
0.115900
0.116862
0.117574
0.117772
0.118049
0.118306
0.119836
0.124762
0.136938
0.154513
0.163946
0.166691
0.167240
0.167276
0.167277
0.167294
0.167362
0.167442
0.167487
0.168392
0.173053
40
Tab. 5.4 – Test de blancheur de la série ”Nombres de morts par accident au Royaume-Uni
5
To
Lag
ChiSquare
DF
Pr >
ChiSq
10
6
12
18
24
162.69
360.63
442.95
541.71
6
12
18
24
<.0001
<.0001
<.0001
<.0001
--------------------Autocorrelations-------------------0.709
0.079
0.537
-0.047
0.463
0.076
0.295
-0.051
38
0.268
0.187
0.133
0.038
0.147
0.340
0.034
0.171
0.127
0.553
-0.004
0.391
0.067
0.701
-0.024
0.509
Chapitre 6
Modèles de séries stationnaires
Dans le précédent chapitre on a défini la stationnarité (faible) et étudié la fonction d’autocorrélation d’une telle série. Maintenant nous examinons les exemples classiques de séries
stationnaires et calculons leurs fonctions d’autocorrélation.
Premier exemple, le bruit blanc. Un bruit blanc est une série stationnaire. Si {Zt } ∼
BB(0, σZ2 ), sa fonction d’autocovariance est :
2
σZ , k = 0
γZ (k) =
0, k 6= 0
Etant donné une série empirique, sa modélisation revient souvent à trouver, c’est-à-dire identifier et estimer le mécanisme qui fait passer d’un BB à la série.
6.1
Série linéaire
Une série Yt est dite linéaire si elle peut s’écrire :
∞
X
Yt = µ +
ψi Zt−i
(6.1)
i=−∞
P
où Zt est un BB(0, σZ2 ), ψ0 = 1 et la suite {ψi } est absolument sommable, c’est-à-dire
i |ψi | <
∞. On admettra qu’une série linéaire est stationnaire.
Une série est dite linéaire et causale si elle est linéaire et ψi = 0, i < 0, autrement dit elle
ne dépend que du BB passé. Pour une discussion sur le sens de l’écriture ci-dessus, on peut voir
par exemple Hamilton ([10]), paragraphe 3.3.
P
2
Si Yt est linéaire et causal on obtient : EYt = µ, var(Yt ) = σZ2 ∞
i=0 ψi L’autocovariance
d’ordre k est :
∞
∞
X
X
γk = cov(Yt , Yt−k ) = E[
ψi Zt−i ,
ψj Zt−k−j ]
(6.2)
i=0
= E(
∞
X
j=0
ψi ψj Zt−i Zt−k−j )
(6.3)
i,j=0
=
∞
X
2
ψj+k ψj E(Zt−k−j
)
j=0
=
σZ2
∞
X
j=0
39
ψj ψj+k
(6.4)
Si la série est linéaire et causale et si de plus ψi = 0 pour i > q on dit que Yt est une moyenne
mobile d’ordre q (MA(q)). Une série linéaire causale est un MA(∞).
6.1.1
Processus gaussien
Nous admettons sans justification, la définition non formalisée suivante. Un processus {Yt }
est gaussien si :
– ∀k, un nombre de dates,
– ∀(t1 , t2 , · · · , tk ), un choix de k dates,
le vecteur aléatoire : (Yt1 , Yt2 , . . . , Ytn ) est normalement distribué.
6.2
6.2.1
Processus autorégressif d’ordre p
Processus autorégressif d’ordre 1
On dit que {Yt } est un processus autorégressif d’ordre 1 s’il obéit à une équation :
Yt = φ0 + φ1 Yt−1 + Zt ,
t∈Z
(6.5)
Moments d’ordres 1 et 2 d’un AR(1)
Supposons {Yt } dans (6.5) stationnaire alors, sa moyenne µ, est constante et prenant
l’espérance mathématique des deux côtés de (6.5) on obtient
µ = φ0 + φ1 µ
et si φ1 6= 1 :
E(Yt ) = µ =
φ0
.
1 − φ1
Comme alors, φ0 = µ(1 − φ1 ) on a :
Yt − µ = φ1 (Yt−1 − µ) + Zt
On pose Ẏt = Yt − µ. C’est le processus centré. Avec l’opérateur retard, on a :
(1 − φ1 B)Ẏt = Zt
Par substitutions successives on obtient que Ẏt peut être exprimé comme une moyenne mobile
infinie :
Ẏt = Zt + φ1 Zt−1 + φ21 Zt−2 + ...
(6.6)
pourvu que −1 < φ1 < 1. Cette condition est suffisante pour que le processus soit stationnaire.
Dans ce cours nous supposerons toujours qu’un processus qui vérifie (6.5) est stationnaire si et
seulement si −1 < φ < 1.
On appelle (6.6) la représentation MA(∞) de Yt . L’écriture de Yt comme une somme de v.a. non
40
corrélées permet de calculer facilement les variance et autocovariances comme nous le voyons
maintenant.
Elevons au carré les deux côtés de (6.6), il vient :
var(Yt ) = σZ2 (1 + φ2 + φ4 + . . . )
σZ2
=
1 − φ2
Enfin écrivons (6.6) en t − k et calculons les espérances des deux côtés de :
Yt Yt−k = (Zt + φZt−1 + φ2 Zt−2 + ...)(Zt−k + φZt−k−1 + φ2 Zt−k−2 + ...)
où, Zt étant un BB, E(Zt Zt−m ) = 0, m 6= 0. On obtient pour k > 0
γk = (φk + φk+2 + φk+4 . . . )σZ2 = φk γ0
La fonction d’autocorrélation de l’AR(1) est :
ρk = φk , k = 0, 1, 2, . . .
(6.7)
Observons enfin que (6.6) est l’écriture d’un AR(1) comme une moyenne mobile infinie.
Exemples
AR(1) simulé. On a simulé 150 observations de yt obéissant à
yt = 4 − 0.8 yt−1 + Zt , Zt ∼ BBN (0, 1)
On a obtenu une moyenne empirique de 2.271132 et un écart-type 1.371441.
Retard
0
1
2
3
4
5
6
FAC théorique
1
-0.8
0.64
-0.512
0.4096
-0.32768
0.26214
FAC empirique
1.00000
-.72267
0.46219
-.30436
0.22636
-.13674
0.06958
Résidu de l’ajustement pour le lac Huron Nous avons ajusté une droite au nuage des
points (année, niveau) pour les données du lac Huron. Examinons la fonction d’autocorrélation
des résidus.
proc arima data=lakout;
identify var= residmc;
run;
quit;
5
The ARIMA Procedure
41
Name of Variable = residmc
Standard Deviation
10
3.17E-16
1.118698
98
Autocorrelations
15
20
25
30
35
40
Lag
Covariance
Correlation
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
1.251485
0.953128
0.581134
0.326760
0.175465
0.100643
0.042525
0.029330
0.065770
0.110970
0.027184
-0.088782
-0.140411
-0.147251
-0.090530
-0.053720
-0.053759
-0.104093
-0.177552
-0.219761
-0.230869
-0.148704
-0.016941
0.117597
0.161241
1.00000
0.76160
0.46436
0.26110
0.14021
0.08042
0.03398
0.02344
0.05255
0.08867
0.02172
-.07094
-.11220
-.11766
-.07234
-.04292
-.04296
-.08318
-.14187
-.17560
-.18448
-.11882
-.01354
0.09397
0.12884
-1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|********************|
|***************
|
.
|*********
|
.
|***** .
|
.
|***
.
|
.
|**
.
|
.
|*
.
|
.
|
.
|
.
|*
.
|
.
|**
.
|
.
|
.
|
.
*|
.
|
.
**|
.
|
.
**|
.
|
.
*|
.
|
.
*|
.
|
.
*|
.
|
.
**|
.
|
.
***|
.
|
. ****|
.
|
. ****|
.
|
.
**|
.
|
.
|
.
|
.
|**
.
|
.
|***
.
|
.
Std Error
0
0.101015
0.148464
0.162610
0.166833
0.168031
0.168423
0.168493
0.168527
0.168694
0.169169
0.169197
0.169500
0.170256
0.171084
0.171396
0.171506
0.171615
0.172026
0.173216
0.175023
0.176996
0.177808
0.177819
0.178325
Les ... sont les limites de l’intervalle introduit après la formule de Bartlett (5.7). On voit la
fonction dessinée ressemble à la FAC d’un AR(1) avec φ ' 0.7. Il faudrait donc ajuster à la
série des niveaux, un modèle :
(6.8)
yt = β0 + β1 t + ut ,
ut = φut−1 + zt
zt ∼ BB.
On n’étudiera pas dans ce cours la théorie de cet ajustement. Nous allons le faire en deux
étapes : ajustement linéaire de la première équation par MCO puis modélisation du résidu.
1. Ajustement MCO. On a vu comment l’obtenir par la proc autoreg de SAS.
5
model niveau = date;
output out= lakout1 residual=residmc1;
run;
Un extrait de l’output est :
The AUTOREG Procedure
Standard
42
Approx
Variable
DF
Estimate
Error
t Value
Pr > |t|
1
1
8.3171
-0.000057
0.4620
0.0000267
18.00
-2.13
<.0001
0.0359
5
Intercept
DATE
2. Modélisation du résidu. On commence par examiner la fonction d’autocorrélation des zbt .
Ça se fait par l’étape identify de la proc arima.
proc arima data=lakout1;
identify var= residmc1;
run;
quit;
L’ouput est :
The ARIMA Procedure
5
Standard Deviation
3.17E-16
1.118698
98
10
Autocorrelations
15
20
25
Lag
Covariance
Correlation
0
1
2
3
4
5
6
7
8
9
10
1.251485
0.953128
0.581134
0.326760
0.175465
0.100643
0.042525
0.029330
0.065770
0.110970
0.027184
1.00000
0.76160
0.46436
0.26110
0.14021
0.08042
0.03398
0.02344
0.05255
0.08867
0.02172
-1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1
|
|
|
|
|
|
|
|
|
|
|
|********************|
|***************
|
|*********
|
|***** .
|
|***
.
|
|**
.
|
|*
.
|
|
.
|
|*
.
|
|**
.
|
|
.
|
.
.
.
.
.
.
.
.
.
.
Std Error
0
0.101015
0.148464
0.162610
0.166833
0.168031
0.168423
0.168493
0.168527
0.168694
0.169169
Cette FAC suggère que l’erreur est AR(1). Une estimation explicite du modèle AR(1)
pour le résidu s’obtient par la syntaxe minimale :
5
proc arima data=lakout;
identify var= residmc;
estimate p=1 plot;
run;
quit;
The SAS System
09:55 Thursday, July 29, 2004
The ARIMA Procedure
10
Standard Deviation
43
3.17E-16
1.118698
18
98
15
Autocorrelations
Lag
Covariance
Correlation
0
1
2
3
4
5
6
7
8
9
10
1.251485
0.953128
0.581134
0.326760
0.175465
0.100643
0.042525
0.029330
0.065770
0.110970
0.027184
1.00000
0.76160
0.46436
0.26110
0.14021
0.08042
0.03398
0.02344
0.05255
0.08867
0.02172
-1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1
Std Error
20
25
30
|
|
|
|
|
|
|
|
|
|
|
|********************|
|***************
|
|*********
|
|***** .
|
|***
.
|
|**
.
|
|*
.
|
|
.
|
|*
.
|
|**
.
|
|
.
|
.
.
.
.
.
.
.
.
.
.
0
0.101015
0.148464
0.162610
0.166833
0.168031
0.168423
0.168493
0.168527
0.168694
0.169169
35
40
To
Lag
ChiSquare
DF
Pr >
ChiSq
6
12
18
24
90.50
93.78
99.73
113.00
6
12
18
24
<.0001
<.0001
<.0001
<.0001
0.023
-0.118
-0.176
0.464
0.053
-0.072
-0.184
0.261
0.089
-0.043
-0.119
0.140
0.022
-0.043
-0.014
0.080
-0.071
-0.083
0.094
0.034
-0.112
-0.142
0.129
45
Conditional Least Squares Estimation
Parameter
Estimate
Standard
Error
t Value
Approx
Pr > |t|
Lag
0.09811
0.79163
0.31349
0.06549
0.31
12.09
0.7550
<.0001
0
1
50
MU
AR1,1
Constant Estimate
0.020443
Variance Estimate
0.507557
Std Error Estimate
0.71243
AIC
213.6328
SBC
218.8028
Number of Residuals
98
* AIC and SBC do not include log determinant.
55
60
Correlations of Parameter
Estimates
65
Parameter
MU
AR1,1
70
MU
AR1,1
1.000
0.097
0.097
1.000
The SAS System
The ARIMA Procedure
75
Autocorrelation Check of Residuals
To
Lag
ChiSquare
DF
Pr >
ChiSq
6
8.25
5
0.1430
--------------------Autocorrelations--------------------
80
0.216
44
-0.104
-0.136
-0.057
-0.009
-0.044
21
12
18
24
14.86
16.22
25.09
11
17
23
0.1888
0.5079
0.3456
-0.053
-0.050
-0.068
0.008
0.018
-0.162
0.177
0.023
-0.041
0.019
0.062
0.050
-0.119
0.010
0.160
-0.103
-0.064
0.091
85
Autocorrelation Plot of Residuals
Lag
Covariance
Correlation
0
1
2
3
4
5
6
7
8
9
10
0.507557
0.109480
-0.052640
-0.068972
-0.028755
-0.0046044
-0.022188
-0.026876
0.0038855
0.089783
0.0095761
1.00000
0.21570
-.10371
-.13589
-.05665
-.00907
-.04371
-.05295
0.00766
0.17689
0.01887
-1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1
Std Error
90
95
100
|
|
|
|
|
|
|
|
|
|
|
|********************|
.
|****
|
. **|
.
|
.***|
.
|
. *|
.
|
.
|
.
|
. *|
.
|
. *|
.
|
.
|
.
|
.
|****
|
.
|
.
|
0
0.101015
0.105611
0.106645
0.108397
0.108699
0.108707
0.108886
0.109148
0.109154
0.112041
Model for variable residmc
105
Estimated Mean
0.09811
Autoregressive Factors
110
Factor 1:
1 - 0.79163 B**(1)
On lit à partir de la ligne (76) ci-dessus, le test de blancheur. Un modèle AR(1) convient
donc. Reste à estimer le coefficient φ de l’autorégression ; l’output précédent fournit φb =
0.79163.
Les tests de blancheur fournis par la proc arima seront commentés plus en détail, section
(6.2.3), sur un autre exemple d’ajustement.
Note. L’ajustement de (6.8) avec l’erreur AR(1) peut se faire directement dans SAS par :
model niveau = date/nlag=1;
run;
L’estimateur de β est dans ce cas un estimateur MCG. Pour une erreur autre que AR, il faut
utiliser la proc arima.
Note. Test de blancheur - Voyons comment est mise en œuvre la formule (5.6 de la section 5.1.2)
pour obtenir la statistique du portemanteau : 8.38 ci-dessus, de la ligne (76) dans le paragraphe
de la sortie de l’étape identify de la proc arima. Cette statistique est calculée suivant la
45
formule par :
98 × (98 + 2)×
(0.2382 /97 + (−0.083)2 /96 + (−0.121)2 /95 + (−0.050)2 /94 + (−0.004)2 /93 + (−0.041)2 /92) =
8.3778 ' 8.38
Cet exemple comportait deux estimations : celle de la moyenne du niveau, ici une fonction
linéaire du temps, et l’estimation du modèle de l’erreur, une fois son type reconnu, c’est-àdire une fois identifiée la série des résidus. C’est un cas assez réaliste mais pour ne pas compliquer
la situation, nous n’étudierons en général que des séries de moyenne constante et le problème
qui nous intéressera sera de reconnaı̂tre le mécanisme d’autocorrélation (c’est-à-dire identifier
la série), estimer les paramètres du modèle identifié et prédire les valeurs futures.
6.2.2
Modèle AR(2)
Soit Yt stationnaire, obéissant à l’équation :
Yt = φ0 + φ1 Yt−1 + φ2 Yt−2 + Zt
(6.9)
Prenant l’espérance des deux côtés on obtient :
E(Yt ) = µ =
φ0
1 − φ1 − φ2
pourvu que 1 6= φ1 + φ2 . Comme φ0 = µ(1 − φ1 − φ2 ), on a :
Yt − µ = φ1 (Yt−1 − µ) + φ2 (Yt−2 − µ) + Zt
et on va étudier la fonction d’autocovariance sur le processus centré, Ẏt = Yt − µ qui vérifie :
Ẏt = φ1 Ẏt−1 + φ2 Ẏt−2 + Zt
(6.10)
Multiplions les deux côtés de cette équation par Ẏt−l , l > 0
Ẏt Ẏt−l = φ1 Ẏt−1 Ẏt−l + φ2 Ẏt−2 Ẏt−l + Zt Ẏt−l
et prenons les espérances mathématiques. Nous obtenons :
γl = φ1 γl−1 + φ2 γl−2 , l > 0
(6.11)
En effet, par substitution successive de Yt−1 en fonction de Yt−2 , Zt−2 , ... on voit que cov(Ẏt−l , Zt ) =
0, l > 0. On appelle (6.11), l’équation de moments d’un AR(2). La fonction d’autocorrélation
d’un AR(2) est :
φ1
1 − φ2
ρl = φ1 ρl−1 + φ2 ρl−2 , l > 1.
ρ1 =
46
(6.12)
(6.13)
On appelle équations de Yule-Walker, les équations que vérifient les autocovariances ou les
autocorrélations d’un processus AR(p), formule (6.14) ou un ARMA(p,q) (formule (6.18).
Nous avons supposé Yt dans (6.9), stationnaire. Nous examinons maintenant les conditions
sur les φi qui assurent cette stationnarité. L’équation aux différences correspondant à (6.10),
est :
1 − φ1 B − φ2 B2 = 0
C’est le polynôme caractéristique de l’équation de récurrence qui décrit l’AR(2). Cette équation
du second degré a deux racines réelles ou complexes : 1/ω1 et 1/ω2 :
1 − φ1 B − φ2 B2 = (1 − ω1 B)(1 − ω2 B)
Pour aller plus loin, examinons ce qu’on a fait pour le processus AR(1). Le processus AR(1)
centré obéit à
(1 − φ1 B)Ẏt = Zt
La substitution a donné : Ẏt = Zt + φZt−1 + φ2 Zt−2 + ... ou Ẏt = (1 − φ1 B)−1 Zt Elle revient
à développer en série la fraction rationnelle (1 − φ1 B)−1 , opération possible car |φ1 | < 1. Pour
l’AR(2), on veut développer en série : (1−φ1 B−φ2 B2 )−1 . On peut décomposer cette opération :
(1 − ω1 B)(1 − ω2 B)Ẏt = Zt
donne :
(1 − ω2 B)Ẏt = (1 − ω1 B)−1 Zt
puis
Ẏt = (1 − ω2 B)−1 (1 − ω1 B)−1 Zt
Ces opérations sont possibles si |ω1 | < 1 et |ω2 | < 1 c’est-à-dire si les racines du polynôme
caractéristique sont en module > 1.
En résumé : un processus qui vérifie (6.9) est stationnaire si et seulement si les racines du
polynôme caractéristique 1 − φ1 B − φ2 B2 sont > 1 en module.
Processus autorégressif d’ordre p Une extension immédiate du modèle AR(1) est le
modèle AR(p).
Soit {Zt } un BB. Un processus {Yt } est dit autorégressif d’ordre p s’il s’écrit :
Yt = φ0 + φ1 Yt−1 + φ2 Yt−2 + · · · + φp Yt−p + Zt
(6.14)
Avec l’opérateur retard on peut écrire cette autorégression à l’ordre p comme :
(1 − φ1 B − φ2 B2 − · · · − φp Bp )Yt = φ0 + Zt
Φ(B)Yt
=
φ0 Zt
Condition de stationnarié d’un processus autorégressif d’ordre p. Nous inspirant de
ce qu’on a obtenu pour un AR(2), nous admettrons qu’un processus autorégressif d’ordre p est
stationnaire si les racines de l’équation : 1 − φ1 z − φ2 z 2 − · · · − φp z p = 0 sont en module > 1.
47
6.2.3
Exemple numérique
On considère Yt obéissant à :
Yt − 50 = 0.7(Yt−1 − 50) − 0.49(Yt−2 − 50) + Zt
Zt ' BBN(0, 1)
On simule 200 valeurs consécutives de Yt . Par la proc arima on obtient la fonction d’autocorrélation empirique qu’on peut comparer à la FAC théorique.
Ajustons un modèle AR(2) à la série observée et testons la blancheur du résidu. (Ce test
est automatiquement réalisé par la proc arima dans l’étape d’estimation.)
5
proc arima data=exoiup.ar2;
i var=y; run;
e p=2 plot; run;
quit;
* ------------------;
The SAS System
1
The ARIMA Procedure
10
Name of Variable = y
Standard Deviation
15
49.97537
1.282115
200
The ARIMA Procedure
20
Standard Deviation
49.97537
1.282115
200
25
Autocorrelations
30
35
40
Lag
Covariance
Correlation
0
1
2
3
4
5
6
7
8
9
10
1.643819
0.828390
-0.091800
-0.316190
-0.199732
-0.080230
0.0036423
0.124443
0.145125
-0.015833
-0.236086
1.00000
0.50394
-.05585
-.19235
-.12150
-.04881
0.00222
0.07570
0.08829
-.00963
-.14362
-1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1
|
|
|
|
|
|
|
|
|
|
|
|********************|
. |**********
|
. *| .
|
****| .
|
. **|
.
|
. *|
.
|
.
|
.
|
.
|** .
|
.
|** .
|
.
|
.
|
.***|
.
|
Std Error
0
0.070711
0.086831
0.087010
0.089111
0.089935
0.090068
0.090068
0.090386
0.090816
0.090821
45
50
To
Lag
ChiSquare
DF
Pr >
ChiSq
6
12
18
24
63.32
78.17
83.58
88.66
6
12
18
24
<.0001
<.0001
<.0001
<.0001
0.076
0.044
-0.042
-0.056
0.088
0.073
-0.048
48
-0.192
-0.010
0.065
-0.059
-0.122
-0.144
0.089
-0.049
-0.049
-0.170
0.064
0.037
0.002
-0.082
0.035
0.105
The ARIMA Procedure
55
Conditional Least Squares Estimation
60
Parameter
Estimate
Standard
Error
t Value
Approx
Pr > |t|
Lag
MU
AR1,1
AR1,2
49.98941
0.72493
-0.42548
0.10187
0.06499
0.06499
490.72
11.16
-6.55
<.0001
<.0001
<.0001
0
1
2
65
Constant Estimate
35.02049
Variance Estimate
1.019616
Std Error Estimate
1.009761
AIC
574.438
SBC
584.3329
Number of Residuals
200
* AIC and SBC do not include log determinant.
70
75
80
85
To
Lag
ChiSquare
DF
Pr >
ChiSq
6
12
18
24
30
36
3.02
6.66
11.45
15.55
21.58
30.33
4
10
16
22
28
34
0.5549
0.7567
0.7810
0.8374
0.8002
0.6480
0.020
0.062
-0.096
0.032
-0.063
-0.067
0.033
0.027
0.030
0.063
-0.073
0.065
-0.001
-0.011
-0.006
0.013
-0.007
0.037
-0.078
0.092
-0.051
-0.091
-0.017
-0.016
-0.066
-0.007
0.033
0.034
-0.157
-0.054
-0.072
0.093
0.065
-0.105
-0.043
The ARIMA Procedure
Model for variable y
90
Estimated Mean
49.98941
Autoregressive Factors
95
Factor 1:
1 - 0.72493 B**(1) + 0.42548 B**(2)
Lecture du code et de la sortie ci-dessus. y est la série simulée.
• Ligne (2) et suivante, étape d’identification de la série y. L’étape fournit l’ACF (et d’autres
outils d’aide à la compréhension du mécanisme de la série non reproduits) ainsi qu’un test de
blancheur de la série (49). Les p-values sont évidemment très faibles puisqu’y n’est pas un BB.
Comparer les coefficients d’autocorrélation empiriques et théoriques jusqu’à l’ordre 3.
• La ligne (4) commande l’étape d’estimation. L’équation estimée apparaı̂t d’abord coefficient
par coefficient puis en clair en fin de sortie. Quel est le lien entre Estimated Mean et
Constant Estimate, ligne (67) ? L’option plot de la commande estimate donne les mêmes
résultats qu’une étape identify, mais sur la série des résidus de l’estimation. Ces sorties peuvent
suggérer des corrections au modèle estimé.
• Ligne (80) et suivantes, test de blancheur du résidu. Noter que SAS indique 4 et non 6, ...
degrès de liberté, colonne DF. Ces résidus sont le résultat d’un ajusement d’un AR(2), soit 2
paramètres estimés, donc cette quantité est enlevée aux degrés de liberté.
49
Il faut bien faire la différence entre : Autocorrelation Check for White Noise, ligne
(44) qui annonce le test de blancheur de la série indiquée à l’étape identify et
Autocorrelation Check of Residuals ligne ( 75) qui annonce le test de blancheur de
la série des résidus de l’étape estimate. Cette série doit être un buit blanc si l’ajustement
est satisfaisant.
Résumé. Nous avons étudié une série suivant un AR(2). Le rejet de sa blancheur à l’étape
d’identification est normal. Ensuite nous avons ajusté le modèle correct à cette série. L’acceptation de la blancheur des résidus correspondants est logique (et rassurante). Nous définirons au
chapitre (7) la fonction d’autocorrélation partielle. C’est une fonction très utile pour reconnaı̂tre
si une série est autorégressive, et de quel ordre.
6.3
6.3.1
Processus Moyenne mobile
Processus MA(1)
On dit que (Yt ) est un processus moyenne mobile d’ordre 1 (MA(1)), s’il obéit à une
équation :
Yt = µ + Zt − θZt−1
(6.15)
où Zt ∼ BB(0, σZ2 ). Cette équation s’écrit encore :
Yt − µ = (1 − θB)Zt
Moments d’ordres 1 et 2 d’un MA(1) En prenant l’espérance mathématique des deux
côtés de (6.15), on voit que
E(Yt ) = µ
La variance de Yt est la variance d’une combinaison affine de variables non corrélées donc :
var(Yt ) = (1 + θ2 )σZ2 . De même, cov(Yt , Yt−1 ) = cov(µ + Zt − θZt−1 , µ + Zt−1 − θZt−2 ) = −θσZ2 .
On voit que cov(Yt , Yt−k ) = 0, k > 1. En résumé, ∀θ, le processus MA(1) défini par (6.15) est
stationnaire, de moyenne µ, de fonction d’autocorrélation :


si k = 0,
1
−θ
ρk = 1+θ2 si k = 1,


0
si k > 1
On aimerait pouvoir exprimer le processus MA(1) en fonction de son passé (observé) et pas
seulement en fonction d’un bruit non observé. Introduisons le processus centré, Ẏt = Yt − µ,
correspondant à (6.15). On voit que si |θ| < 1, on peut développer (1 − θB)−1 en série entière.
Ceci nous amène à une définition.
Définition. On dit qu’un processus est inversible si on peut l’écrire comme une autorégression
infinie. Ainsi, un MA(1) est inversible si la racine de l’équation 1−θz = 0 est > 1 en module. On
observe que la condition d’inversibilité d’un MA(1) est techniquement parallèle à la condition
de stationnarité d’un autorégressif d’ordre 1.
50
Commentaires.
Un processus MA comme (6.15) ou (6.16) ci-dessous, ne s’exprime pas directement en fonction de ses observations passées et de plus le bruit Zt n’est pas observé. L’écriture MA ne permet
donc pas de prédire directement le processus ou d’écrire la vraisemblance. L’inversibilité qui
permet d’exprimer le processus en fonction de son passé est donc très utile.
6.3.2
Processus MA(q)
Un processus (Yt ) est dit processus moyenne mobile d’ordre q (M A(q)) si :
Yt = µ + Zt − θ1 Zt−1 − θ2 Zt−2 − · · · − θq Zt−q
(6.16)
où Zt ∼ BB(0, σZ2 ).
On peut noter de façon équivalente :
Yt = µ + (1 − θ1 B − θ2 B2 − · · · − θq Bq )Zt
= µ + Θ(B)Zt
Un M A(q) est un cas de série linéaire.
Propriétés.
1. Un M A(q) est un processus stationnaire.
2. La fonction d’autocorrélation d’un processus MA(q) est nulle à partir de l’ordre q + 1.
Cette dernière propriété est utile pour deviner (identifier) l’ordre de moyenne mobile convenable
pour modéliser une série. En effet, en présence d’un corrélogramme empirique non significativement différent de 0 à partir d’un certain ordre (k), on pensera à modéliser la série correspondante
par un MA(k − 1).
Inversibilité d’un MA(q). On voit qu’un MA(q) est inversible si les racines de 1 − θ1 z − θ2 z 2 −
· · · − θq z q = 0 sont, en module, > 1.
Exemple numérique
On a simulé 200 observations consécutives d’un processus Yt obéissant à :
Yt = 3 + 0.3 Zt−1 − 0.9 Zt−2 + Zt , Zt ∼ BBN (0, σ 2 = 2.25)
(6.17)
Calculer la fonction d’autocorrélation de ce processus et la comparer à la fonction d’autocorrélation empirique ci-dessous.
The SAS System
22:04 Sunday, July 11, 2004
The ARIMA Procedure
Standard Deviation
51
3.058899
2.217469
200
1
Fig. 6.1 – Simulation d’un AR(1)
Fig. 6.2 – Simulation d’un MA(2)
Autocorrelations
Lag
Covariance
Correlation
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
4.917168
0.353187
-2.728001
-0.606867
0.411749
0.596527
0.198892
-0.216285
-0.320821
-0.184069
0.089727
0.149609
0.197149
-0.233649
-0.759076
0.314311
1.058500
-0.374751
-0.939826
0.210366
0.333923
-0.091486
0.169077
0.278091
0.060347
1.00000
0.07183
-.55479
-.12342
0.08374
0.12132
0.04045
-.04399
-.06525
-.03743
0.01825
0.03043
0.04009
-.04752
-.15437
0.06392
0.21527
-.07621
-.19113
0.04278
0.06791
-.01861
0.03439
0.05656
0.01227
-1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|********************|
. |* .
|
***********| .
|
. **|
.
|
.
|** .
|
.
|** .
|
.
|* .
|
. *|
.
|
. *|
.
|
. *|
.
|
.
|
.
|
.
|* .
|
.
|* .
|
. *|
.
|
.***|
.
|
.
|* .
|
.
|****
|
. **|
.
|
****|
.
|
.
|* .
|
.
|* .
|
.
|
.
|
.
|* .
|
.
|* .
|
.
|
.
|
Std Error
0
0.070711
0.071075
0.090164
0.091005
0.091389
0.092191
0.092279
0.092384
0.092614
0.092690
0.092708
0.092758
0.092844
0.092966
0.094239
0.094455
0.096877
0.097177
0.099039
0.099131
0.099363
0.099381
0.099440
0.099601
On observe que la fonction d’autocorrélation n’est pas significativement différente à partir du
décalage 3, ce qui suggère bien un MA(2).
52
6.4
Processus ARMA(p,q)
Définition {Yt } est un processus ARMA(p,q) s’il est stationnaire avec une partie MA et
une partie AR :
Yt − φ1 Yt−1 − φ2 Yt−2 − · · · − φp Yt−p = θ0 + Zt − θ1 Zt−1 − θ2 Zt−2 − · · · − θq Zt−q (6.18)
où Zt ∼ BB(0, σZ2 ). On voit que
µ = E(Yt ) =
θ0
.
1 − φ1 − · · · − φp
Un ARMA(p,q) peut se noter :
Yt = µ +
1 − θ1 B − · · · − θq B q
Zt
1 − φ1 B − · · · − φp Bp
(6.19)
par exemple un ARMA(2,1) s’écrit :
Yt = µ +
1 − θ1 B
Zt .
1 − φ1 B − φ2 B2
Dans ces expressions, il faut bien voir que µ est la moyenne et que l’autre terme est une erreur
de moyenne nulle, autocorrélée. On pourrait envisager une moyenne fonction du temps avec
toujours un modèle ARMA de moyenne nulle pour l’erreur.
Processus ARMA(p,q) gaussien Supposons que dans la définition ci-dessus : Zt ∼
BBN(0, σZ2 ), c’est-à-dire : le bruit blanc est une suite de v.a. i.i.d. N (0, σZ2 ). Nous admettrons,
qu’alors Yt est un processus gaussien. Il est relativement facile d’écrire la fonction de vraisemblance pour un tel processus et donc de calculer des estimateurs par maximum de vraisemblance
de ses paramètres, c’est ce que nous détaillerons au chapitre 9.
Représentation MA(∞) et réponse impulsionnelle Examinons un processus linéaire et
causal :
Yt = µ +
∞
X
ψi Zt−i
(6.20)
i=0
par exemple, la représentation MA(∞) d’un AR(p). La quantité ψi indique l’influence d’un
choc aléatoire de 1 sur venant en t − i, sur Yt .
6.5
6.5.1
Saisonnalité
Saisonnalité multiplicative
Décrivons brièvement la modélisation de la saisonnalité dans l’approche de Box-jenkins. Soit
une série mensuelle observée (pour simplifier) sur un nombre entier d’années, à partir d’un mois
de janvier. On note yij l’observation du mois j de l’année i; j = 1, · · · , 12, i = 1, · · · , N .
53
Rangeons les valeurs observées en une table de Buys-Ballot : une ligne par an, une colonne par
mois :
janv. févr. mars
y11
y12
y13
y21
y22
y23
···
···
···
yN 1 yN 2
x13
· · · déc.
. . . y1,12
. . . y2,12
··· ···
. . . yN,12
Supposons qu’on modélise la dépendance d’un mois sur un ou deux mois précédents (sans
s’occuper de l’effet saisonnier) et qu’on adopte un ARMA(p,q) :
Φ(B)Yt = Θ(B)bt
Il est fort probable, si la série présente une saisonnalité, que le résidu bbt ne sera pas blanc mais
aura une structure de corrélation saisonnière. On peut envisager deux traitements de cette ”non
blancheur”. Ou bien on ajoute des termes de retard dans les polynômes Φ et Θ, ou bien on
modélise bt par un ARMA dont l’unité de temps est l’année :
bt =
Θs (Bs )
zt
Φs (Bs )
où s désigne la période (ici, s= 12). Ce qui donne :
Φs (Bs )Φ(B)Yt = Θ(B)Θs (Bs )Zt
(6.21)
avec Zt ∼ BB, où Φ(B), Φs (Bs ), Θ(B), Θs (Bs ) sont respectivement des polynômes de degrés
p, q en B et P, Q en Bs . On dit que Yt est un SARMA(p, q)(P, Q)s s’il vérifie (6.21) et est
stationnaire. Les conditions de
– stationnarité de Yt sont : les racines des polynômes Φ(B) et Φs (Bs ) sont en module > 1.
– inversibilité de Yt sont : les racines des polynômes Θ(B) et Θs (Bs ) sont en module > 1.
6.6
Exercices
Exercice 1 Notations de la section 6.2.1. Montrer que dans un AR(1) : cov(Yt , Zt+k ) = 0, k > 0.
Utiliser cette observation pour calculer γk sans passer par l’écriture M A(∞).
Exercice 2 Dessiner la fonction d’autocorrélation du modèle AR(1) : Yt = 1.2 − 0.8 Yt−1 + Zt où
Zt N (0, σ 2 = 9).
Exercice 3 (Complément à l’exemple numérique de la section (6.2.3). (1) Ce processus est-il
stationnaire ? (2) Calculer sa fonction d’autocorrélation jusqu’à l’ordre 3. (3) Comparer les
fonctions d’autocorrélation empiriques et théoriques jusqu’à l’ordre 3.
Exercice 4 Etudier la fonction
−θ
1 + θ2
rencontrée dans l’étude d’un MA(1) et commenter en termes concrets.
R3θ−
→
54
6.7
Annexe : simulation de processus ARMA dans SAS
Etant donné un modèle ARIMA entièrement spécifié (coefficients, loi de l’erreur) on veut
simuler une série temporelle qui obéit au dit modèle.
Simulation d’un MA Un processus MA(q) est une combinaison linéaire de q v.a. non
corrélées de moyenne 0, de variance constante. On peut simuler dans SAS des v.a. i.i.d. N(0,1),
par la fonction rannor. Elle génére des nombres pseudo aléatoires à partir d’un germe (ou
graine) qu’on doit spécifier. Si on donne, à des emplois successifs de la fonction, le même germe
constamment, on obtient toujours la même suite de simulations.
Exemple : Simulation d’une série de 100 observations suivant :
xt = at − 0.8at−1
avec at v.a. i.i.d. N(0,1) (xt MA(1) gaussien).
title1 ’Serie MA(1) Simulee’;
data a;
a1 = 0;
do i = -50 to 150;
a = rannor( 32565 );
u = a - .8 * a1;
if i > 0 then output;
a1 = a;
u1 = u;
end;
run;
On a initialisé la série du BB à 0 : a1 = 0;, puis on fait 150 tirages et on ne conserve
que les 100 derniers (if i > 0 then output; ).
Simulation du MA(2) (6.17)
data a;
mu =3;
zm1 =0;
zm2 =0;
do i=-10 to 200;
zm0 = 1.5*rannor(54629);
y = mu + 0.3*zm1-0.9*zm2 + zm0;
zm2 = zm1;
zm1=zm0;
if i >0 then output;
end;
run;
*---------------------------------;
proc arima data=a;
i var= y;
run;
quit;
Simulation d’un AR On veut simuler 200 observations d’un processus stationnaire obéissant
à :
yt = 1.4 ∗ yt−1 − 0.45 ∗ yt−2 + at
(6.22)
55
où at est un bruit blanc gaussien de variance 1, c’est un AR(2) gaussien. L’étape data ci-dessous
fait le travail.
title1 ’AR(2) simule’;
data a;
um1 = 0; um2=0; /* valeurs initiales */
do i = -50 to 200;
a = rannor( 43201 );
u = 1.4 * um1 - .45* um2 +a;
um2 = um1;
um1 = u;
end;
run;
Commentaires. Noter qu’il faut deux valeurs initiales y1 et y2 . Au début de la simulation le
processus dépend de ces valeurs. C’est pourquoi on abandonne le début de la série, ici les 51
premières valeurs.
* simulation d’un AR(1)
data a;
c= 4;
phi= -.8;
y1=0;
do i = -50 to 150;
z = rannor( 32565 );
y = c+ phi* y1 +z;
y1=y;
end;
run;
proc arima data = a;
i var= y; run;
quit;
Simulation d’un AR saisonnier On veut simuler une série suivant :
yt = −0.9yt−4 + at
avec at i.i.d. normale de moyenne 0 et de variance 2.25. Ici il faut 4 valeurs initiales, une par
saison (= trimestre).
5
10
title1 ’Simulation d’un AR saiso periode 4’;
data b;
y1=0; y2=0; y3= 0; y4=0;
do i = 1 to 300;
a = rannor( 32565 )*1.25;
if mod(i,4) = 1 then
do;
y= -.9* y1 +a;
y1=y;
end;
do;
y= -.9* y2 +a;
y2=y;
56
15
20
25
end;
do;
y= -.9* y3 +a;
y3=y;
end;
do;
y= -.9* y4 +a;
y4=y;
end;
end;
run;
Noter (1) l’usage de la fonction mod qui donne le reste de la division du premier argument par
le deuxième, (2) l’exécution de plusieurs ordres après then entre do; et end;.
Question. Comment corriger le code ci-dessus pour simuler un AR saisonnier de moyenne 10 ?
Application La proc arima, étape identify, a été appliquée à une des séries simulées
par les codes ci-dessus. Les fonctions d’autocorrélation simples et partielles sont reproduites
ci-dessous. Reconnaı̂tre le modèle simulé.
The SAS System
06:22 Tuesday, October 15, 2002
The ARIMA Procedure
Name of Variable = u
Standard Deviation
3.111413
4.014773
200
Autocorrelations
Lag
Covariance
Correlation
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
16.118398
15.274570
13.827400
12.215168
10.577303
8.969951
7.308810
5.758059
4.317324
3.056454
1.903562
0.785890
-0.254972
-1.170280
-1.879569
-2.303244
-2.513334
-2.615135
-2.809637
-3.086956
-3.304976
-3.570032
-3.850581
-4.306530
1.00000
0.94765
0.85786
0.75784
0.65623
0.55650
0.45345
0.35724
0.26785
0.18963
0.11810
0.04876
-.01582
-.07261
-.11661
-.14290
-.15593
-.16225
-.17431
-.19152
-.20504
-.22149
-.23889
-.26718
-1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|********************|
|******************* |
.
|*****************
|
.
|***************
|
.
|*************
|
.
|***********
|
.
|*********
|
.
|*******.
|
.
|***** .
|
.
|****
.
|
.
|**
.
|
.
|*
.
|
.
|
.
|
.
*|
.
|
.
**|
.
|
.
***|
.
|
.
***|
.
|
.
***|
.
|
.
***|
.
|
.
****|
.
|
.
****|
.
|
.
****|
.
|
. *****|
.
|
. *****|
.
|
.
57
Std Error
0
0.070711
0.118239
0.146081
0.164569
0.177170
0.185705
0.191160
0.194470
0.196306
0.197219
0.197573
0.197633
0.197639
0.197772
0.198116
0.198631
0.199242
0.199901
0.200660
0.201572
0.202612
0.203819
0.205214
1
24
-4.936490
-.30626
|
. ******|
.
|
0.206946
Partial Autocorrelations
Lag
Correlation
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
0.94765
-0.39399
-0.02374
-0.04899
-0.04112
-0.11995
0.03929
-0.05320
0.02209
-0.06893
-0.06165
-0.03099
-0.00167
0.02090
0.07520
-0.00418
-0.03009
-0.13667
-0.04743
0.02324
-0.09791
-0.01544
-0.15037
-0.10850
-1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
. |*******************
********| .
. | .
. *| .
. *| .
.**| .
. |* .
. *| .
. | .
. *| .
. *| .
. *| .
. | .
. | .
. |**.
. | .
. *| .
***| .
. *| .
. | .
.**| .
. | .
***| .
.**| .
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
To
Lag
ChiSquare
DF
Pr >
ChiSq
6
12
18
24
646.00
698.94
725.39
804.86
6
12
18
24
<.0001
<.0001
<.0001
<.0001
0.357
-0.073
-0.192
0.858
0.268
-0.117
-0.205
58
0.758
0.190
-0.143
-0.221
0.656
0.118
-0.156
-0.239
0.557
0.049
-0.162
-0.267
0.453
-0.016
-0.174
-0.306
Chapitre 7
Prédiction linéaire d’une v.a.
Ce chapitre introduit essentiellement la notion d’espérance conditionnelle linéaire d’une v.a.
par rapport à une autre v.a. et, en exercice, la notion de coefficient de corrélation partielle.
7.1
Projection affine d’une v.a. sur une autre
Soit (X, Y ) un couple de v.a.. On appelle espérance conditionnelle linéaire (ECL) de Y
sachant X et on note EL(Y |X), la transformation affine de X, a∗0 + a∗1 X qui réalise :
min E[(Y − a0 − a1 X)2 ]
a0 ,a1
On dite encore que EL(Y |X) est le meilleur prédicteur affine de Y par X. On appelle aussi
EL(Y |X), régression linéaire de Y sur X.
Obtention de a∗0 et a∗1 . Posons Q(a0 , a1 ) = E[(Y − a0 − a1 X)2 ]. Admettant qu’on peut
permuter dérivation et calcul d’espérance mathématique, on obtient :
∂Q
= E[(Y − a0 − a1 X)(2)(−1)]
∂a0
∂Q
= E[(Y − a0 − a1 X)(2)(−X)]
∂a1
D’où on tire les conditions nécessaires :
E[(Y − a0 − a1 X)] = 0 (1)
E[(Y − a0 − a1 X)X] = 0 (2)
(1) et (2) sont les équations normales. De (1) on tire : a0 = E(Y − a1 X) = E(Y ) − a1 E(X). On
reporte ceci dans (2) qui devient : E[(Y − EY − a1 (X − EX))X] = 0, c’est-à-dire : cov(Y, X) −
a1 var(X) = 0 d’où :
cov(X, Y )
, si var(X) 6= 0
a∗1 =
var(X)
et :
cov(X, Y )
a∗0 = EY − a∗1 EX = EY −
EX
var(X)
59
En résumé :
(X,Y )
cov(X,Y )
EL(Y |X) = EY − cov
var(X) EX + var(X) X
(X,Y )
=
EY + cov
var(X) (X − EX)
=
EY + ρ σσXY (X − EX)
(7.1)
Pour trouver a∗1 on a utilisé la remarque (1) ci-dessous. Notons que si EX = EY = 0, alors
a∗0 = 0
Erreur quadratique de prévision. On a :
E[(Y − a∗0 − a∗1 X)2 ] = E[(Y − EL(Y |X))2 ] = var(Y ) −
cov(X, Y )2
= (1 − ρ2 )var(Y ), (7.2)
var(X)
où ρ est le coefficient de corrélation entre Y et X. Ce résultat est démontré dans un cadre
général ci-dessous.
Remarques.
1 On a : ∀a, E[(X − a)(Y − EY )] = E[X(Y − EY ) − a(Y − EY )] = E[X(Y − EY )] − aE[Y − EY ].
Dans cette dernière expression, le facteur de a est nul, et développant le terme non nul
on obtient :
∀a, E[(X − a)(Y − EY )] = E[X(Y − EY )] = E[XY ] − EXEY = cov(X, Y )
On a également :
∀b, E[(X − EX)(Y − b)] = cov(X, Y )
2 Unités. Observons par exemple que si X est en Euros et Y en mètres, a∗1 est en mètre/Euro,
et a∗0 en mètres - mètre/Euro × Euro, c’est-à-dire en mètres.
3 EL(Y |X) apparaı̂t dans (7.1) comme l’espérance de Y corrigée d’un facteur produit de deux
termes : le premier est du signe de la covariance entre X et Y et le second mesure l’écart
de X à sa moyenne.
4 EL(Y |X) est une v.a. fonction de la v.a. X.
5 Dans la pratique on s’intéresse à l’espérance conditionnelle linéaire de Y sachant que X a
pris une certaine valeur x, c’est-à-dire à la valeur prise par la v.a. EL(Y |X), et on note :
EL(Y |X = x) = EY + ρ
σY
(x − EX)
σX
(X,Y )2
5 La quantité var(Y ) − cov
var(X) dans (7.2) peut être comprise comme la variance de Y étant
donné X et on observe que plus forte est la corrélation entre Y et X plus faible est cette
variance.
60
7.2
Projection d’une v.a. sur un ensemble de v.a.
Soit X = [X1 , · · · , Xp ]0 un vecteur aléatoire ∈ Rp et Y ∈ R une v.a.. On appelle espérance
conditionnelle linéaire (ECL) de Y sachant X et on note EL(Y |X), la transformation affine de
X : a∗0 + a∗1 X1 + · · · + a∗p Xp , qui réalise :
min
a0 ,a1 ,··· ,ap
E[(Y − a0 − a1 X1 − · · · − ap Xp )2 ]
On dite encore que EL(Y |X) est le meilleur prédicteur affine de Y par X. Pour simplifier
l’écriture, nous prenons le cas p = 2.
Résultat. (Les calculs sont détaillés ensuite.) Si la matrice des covariances de X1 , X2 est
inversible alors :
∗ −1 a1
var(X1 )
cov(X1 , X2 )
cov(Y, X1 )
(7.3)
=
a∗2
cov(X2 , X1 )
var(X2 )
cov(Y, X2 )
et
a∗0 = µY − a∗1 E(X1 ) − a∗2 E(X2 )
(7.4)
Posons a = [a1 a2 ]0 . L’équation ci-dessus s’écrit :
−1 var(X1 )
cov(X1 , X2 )
cov(Y, X1 )
∗
a =
cov(X2 , X1 )
var(X2 )
cov(Y, X2 )
Enfin, notant : X = [X1 X2 ]0 et ΣY,Y , ΣY,X , ΣX,X respectivement la variance de Y , la matrice
de covariances entre Y et X et la matrice de covariances de X, on a :
a∗ = Σ−1
X,X ΣY,X
D’où
EL(Y |X1 = x1 , X2 = x2 ) = µY +
ΣY,X Σ−1
X,X
x 1 − µ1
x 2 − µ2
(7.5)
L’espérance mathématique de l’erreur de prévision vaut 0 : E(Y − a∗0 − a∗1 X1 − a∗2 X2 ) = 0.
On dit que l’ECL de Y sachant X1 , X2 est un prédicteur sans biais de EY . L’erreur quadratique
de prévision est
Q(a∗0 , a∗1 , a∗2 ) = E[(Y c − a∗1 X1c − a∗2 X2c )2 ] = var(Y c − a∗1 X1c − a∗2 X2c ) =
ΣY,Y ΣY,X
1
∗ 0
= ΣY,Y − ΣY,X Σ−1
[1 − a ]
X,X ΣX,Y . (7.6)
ΣX,Y ΣX,X
−a∗
Remarques.
1. Cette quantité qui est le minimum d’une erreur quadratique, est toujours positive. On
l’appelle variance conditionnelle linéaire de Y étant donné X. Notons qu’elle ne dépend
pas de la valeur prise par X.
2. On peut observer que la variance conditionnelle linéaire (7.6) est aussi la variance conditionnelle d’une variable normale, voir (3.6). Evidemment pour un couple de v.a. non
gaussien, variance conditionnelle et variance conditionnelle linéaire ne coı̈ncident pas.
3. Les calculs numériques d’espérance conditionnelle linéaire se font de la même façon que
pour une variable normale.
61
Calculs
Obtention de a∗0 , a∗1 , · · · + a∗p . Notons µY = EY, µ1 = EX1 , µ2 = EX2 et définissons
Q(a0 , a1 , a2 ) = E[(Y − a0 − a1 X1 − a2 X2 )2 ].
C’est une fonction quadratique en a0 , a1 , a2 . Les dérivées partielles par rapport à ces variables
sont :
∂Q
= E[(Y − a0 − a1 X1 − a2 X2 )(2)(−1)] (1)
∂a0
∂Q
= E[(Y − a0 − a1 X1 − a2 X2 )(2)(−X1 )] (2)
∂a1
∂Q
= E[(Y − a0 − a1 X1 − a2 X2 )(2)(−X2 )] (3)
∂a2
Les conditions nécessaires d’optimum, sont :
∂Q
∂Q
∂Q
= 0,
= 0,
=0
∂a0
∂a1
∂a2
D’où les équations normales :
E[(Y − a0 − a1 X1 − a2 X2 )] = 0
E[(Y − a0 − a1 X1 − a2 X2 )X1 ] = 0
E[(Y − a0 − a1 X1 − a2 X2 )X2 ] = 0
(7.7)
(7.8)
(7.9)
De (1) on tire : a0 = µY −a1 µ1 −a2 µ2 . Introduisant les variables centrées : Y c = Y −µY , Xic =
Xi − µi , i = 1, 2, on reporte a0 dans (2) et (3), ce qui donne :
(−2)E[X1 (Y c − a1 X1c − a2 X2c )] = 0
(−2)E[X2 (Y c − a1 X1c − a2 X2c )] = 0
Faisant encore appel à la remarque 1 ci-dessus, on obtient le système que doivent vérifier a∗1 , a∗2 :
cov(Y, X1 )
var(X1 )
cov(X1 , X2 )
a1
E(Y X1c )
=
=
E(Y X2c )
cov(Y, X2 )
cov(X2 , X1 )
var(X2 )
a2
D’où, si la matrice des covariances de X1 , X2 est inversible :
∗ −1 a1
var(X1 )
cov(X1 , X2 )
cov(Y, X1 )
=
a∗2
cov(X2 , X1 )
var(X2 )
cov(Y, X2 )
puis
a∗0 = µY − a∗1 E(X1 ) − a∗2 E(X2 )
Posons a = [a1 a2 ]0 . L’équation ci-dessus s’écrit :
−1 var(X1 )
cov(X1 , X2 )
cov(Y, X1 )
∗
a =
cov(X2 , X1 )
var(X2 )
cov(Y, X2 )
62
(7.10)
Enfin, notant : X = [X1 X2 ]0 et ΣY,Y , ΣY,X , ΣX,X respectivement la variance de Y , la matrice
de covariances entre Y et X et la matrice de covariances de X, on a :
a∗ = Σ−1
X,X ΣY,X
D’où
EL(Y |X1 = x1 , X2 = x2 ) = µY +
7.3
ΣY,X Σ−1
X,X
x 1 − µ1
x 2 − µ2
(7.11)
Application aux séries temporelles
Fonction d’autocorrélation partielle (PACF). Considérons une série stationnaire {Xt } et
ses régressions sur son passé :
Xt = φ0,1 + φ1,1 Xt−1 + u1t
Xt = φ0,2 + φ1,2 Xt−1 + φ2,2 Xt−2 + u2t
Xt = φ0,3 + φ1,3 Xt−1 + φ2,3 Xt−2 + φ3,3 Xt−3 + u3t
..
.
(7.12)
Par exemple, φ0,2 + φ1,2 Xt−1 + φ2,2 Xt−2 désigne l’espérance conditionnelle linéaire de Xt sachant Xt−1 , Xt−2 , voir par exemple ([9]) Chap. 5, [10]... (Nous admettons qu’il est légitime
d’estimer ces modèles par MCO.) Les φk,k , k = 1, 2, . . . forment ce qu’on appelle la fonction
d’autocorrélation partielle (PACF) et les estimations φbk,k , k = 1, 2, . . . forment la fonction
d’autocorrélation partielle empirique. φk,k a la même interprétation que les coefficients d’une
régression linéaire classique : φk,k représente l’apport d’explication de Xt−k à Xt étant donné
qu’on a déjà régressé sur Xt−1 , · · · , Xt−k+1 .
Supposons en particulier que Xt soit autorégressif, un AR(3) pour fixer les idées, alors il
est clair que Xt−4 n’apporte rien de plus que Xt−1 , Xt−2 , Xt−3 et on montre en effet que
φk,k = 0, k > 3. D’autre part, de même que dans la méthode des MCO les βb s’expriment en
fonction des moments d’ordre 2 des observations, la PACF d’une série stationnaire s’exprime en
fonction de son ACF. On pensera qu’une série suit un AR(p) si les φbk,k ' 0, k > p. Précisément,
si Xt est un AR(p), on a les propriétés :
– φbp,p converge vers φp,p quand n → ∞,
– φbl,l , ∀l > p converge vers 0 quand n → ∞,
– var(φbl,l ) ' 1/n ∀l > p.
La PACF se calcule à partir de l’ACF par récurrence à l’aide de l’algorithme de DurbinLevinson :
63
φ11 = ρ(1)
(7.13)
j=1 φh−1,j ρ(h − j)
Ph−1
1 − j=1 φh−1,j ρ(j)
(7.14)
φhj = φh−1,j − φhh φh−1,h−j , j = 1, · · · , h − 1
(7.15)
φhh =
ρ(h) −
Ph−1
La PACF empirique est obtenue par le même algorithme appliqué sur l’ACF empirique.
Exemple numérique Considérons le processus AR(2) défini par la formule (6.22). Son ACF
est :
ρ0 = 1, ρ1 = 0.96552, ρ2 = 0.90172, · · ·
La PACF du est obtenue par :
0.90172 − 0.96552 × 0.96552
= −0.45018
1 − 0.96552 × 0.96552
c’est-à-dire -0.45 aux erreurs d’arrondi près, φkk = 0, k > 2.
Examinons la PACF empirique obtenue sur la simulation du processus :
φ11 = 0.96552, φ22 =
proc arima data=a;
i var=u;
run;
quit;
....
Partial Autocorrelations
Lag
Correlation
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
0.94765
-0.39399
-0.02374
-0.04899
-0.04112
-0.11995
0.03929
-0.05320
0.02209
-0.06893
-0.06165
-0.03099
-0.00167
0.02090
0.07520
-1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
. |*******************
********| .
. | .
. *| .
. *| .
.**| .
. |* .
. *| .
. | .
. *| .
. *| .
. *| .
. | .
. | .
. |**.
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
On voit que
φb11 = 0.94765, φb22 = −0.39399
et que les autocorrélations partielles d’ordre supérieur ne sont pas significativement différentes
de 0. La PACF empirique permet donc d’identifier un processus comme un AR d’un certain
ordre p. Mais on peut également identifier l’ordre d’un processus qu’on sait AR, par un critère
d’information (AIC, SBIC...).
Résumé pratique. Nous avons maintenant à notre disposition 2 outils pour identifier une
série (c’est-à-dire deviner le/les modèles auxquels elle est susceptible d’obéir) :
64
1. l’ACF qui s’annule à partir de l’ordre q + 1 pour un MA(q) et
2. la PACF qui s’annulle à partir de l’ordre p + 1 pour un AR(p).
La prévision d’une série temporelle dont on connaı̂t le modèle fera l’objet du chapitre (8).
7.4
Exercices
Ex. 1. On considère un couple de v.a. (X, Y ). (1) Calculer la variance de l’espérance linéaire
EL(Y |X). (2) Calculer la variance de l’erreur : Y − EL(Y |X), expression (7.2), sans
faire appel à l’expression générale. Qu’observe-t-on ? On appelle la décomposition de la
variance ainsi obtenue : Décomposition de l’ANOVA.
Ex. 2. Covariance partielle. Considérons un vecteur de trois variables aléatoires : Y1 , Y2 , X, de
moyennes nulles, pour simplifier. (1) Calculer la régression linéaire de Y1 sur X et de
Y2 sur X. (2) On note Ri = Yi − EL(Yi |X), i = 1, 2 les erreurs ou résidus. Calculer
cov(R1 , R2 ). On l’appelle covariance partielle entre Y1 et Y2 étant donné X. (3) On pose
dans (2) ci-dessus : Y = [Y1 Y2 ]0 . Exprimer matriciellement la matrice des covariances
de [R1 R2 ]0 . Exprimer le coefficient de corrélation partiel entre Y1 et Y2 étant donné X.
Ex. 3. Coefficient de corrélation partielle empirique. La notion d’espérance linéaire a été présentée
sur des moyennes et des matrices de covariances théoriques, mais elle tient aussi pour des
moments empiriques. Le poids, la taille et l’âge de n enfants prélevés dans une certaine
population ont été enregistrés. La matrice des covariances de ces mesures est :


30 52 14
 52 91 20 
14 20 30
Calculer le coefficient de corrélation simple entre âge et taille, puis le coefficient de
corrélation partiel entre âge et taille étant donné le poids.
Ex. 4. TP SAS sur les données d’Iris.
65
Chapitre 8
Prévision d’une série temporelle
Objectif
On veut prédire les valeurs futures Yt+1 , · · · , Yt+h d’une série {Yt } à partir des valeurs
observées {yt , yt−1 , . . .}.
On est exactement dans le cadre de l’espérance conditionnelle, par exemple, la prévision de
Yt+1 connaissant Yt , Yt−1 , . . . est l’espérance conditionnelle E(Yt+1 |Yt , Yt−1 , . . . ).
On suppose dans ce chapitre que le processus {Yt } est gaussien et donc qu’espérance conditionnelle et espérance conditionnelle linéaire coı̈ncident. On a rencontré la question en termes
généraux au chapitre (7), où on n’a pas cherché à exploiter des aspects particuliers des covariances qui permettraient de simplifier les calculs. Dans le présent chapitre on considère le
cas où {Yt } est un ARMA(p,q) dont les paramètres sont connus. Dans la pratique le modèle
est estimé et on applique la méthode qu’on va voir en remplaçant dans les expressions, les
paramètres par leurs estimations.
8.1
Prévision à erreur quadratique minimum pour un
ARMA
Considérons un processus {Yt }, ARMA(p,q) :
Yt = φ0 + φ1 Yt−1 + φ2 Yt−2 + · · · + φp Yt−p + Zt − θ1 Zt−1 − θ2 Zt−2 − · · · − θq Zt−q
(8.1)
où Zt ∼ BB(0, σZ2 ). Avec l’opérateur retard cette équation s’écrit aussi :
(1 − φ1 B − φ2 B2 − · · · − φp Bp )Yt = φ0 + (1 − θ1 B − θ2 B2 − · · · − θq Bq )Zt
(8.2)
On suppose {Yt } stationnaire ( les racines du polynôme 1 − φ1 z − φ2 z 2 − · · · − φp z p sont en
module > 1) , et inversible (les racines du polynôme 1 − θ1 z − θ2 z 2 − · · · − θq z q sont en module
> 1). Les paramètres φi , θj et σZ2 sont connus.
Commençons par centrer le processus. On voit sur (8.1) que µ = E(Yt ) vérifie :
µ=
φ0
.
1 − φ1 − φ2 − · · · − φp
66
Nous simplifions l’écriture en notant encore Yt , le processus centré Yt − µ. Avec les hypothèses
de stationnarité et inversibilité, le processus admet une représentation MA(∞) :
Yt = Zt + ψ1 Zt−1 + ψ2 Zt−2 + . . .
(8.3)
avec ψ0 = 1. C’est-à-dire, Yt s’écrit comme une combinaison linéaire (c.l.) des valeurs Zt , Zt−1 , . . . .
Considérons d’autre part sur l’écriture AR(∞)
Yt = Z t +
∞
X
πj Yt−j
j=1
on voit que Zt s’écrit comme une c.l. des Yt , Yt−1 , . . . . Ainsi, l’espace engendré par les c.l. de
Yt , Yt−1 , . . . est le même que celui engendré par les c.l. de Zt , Zt−1 , . . . . Notamment :
E(Zn+j |Yn , Yn−1 , . . . ) = E(Zn+j |Zn , Zn−1 , . . . ) et donc
E(Zn+j |Yn , Yn−1 , . . . ) = 0 si j > 0, = Zn+j si j ≤ 0.
On a observé le P
processus jusqu’au temps n et on veut le prédire à l’horizon l, c’est-àdire prédire Yn+l = ∞
j=0 ψj Zn+l−j à partir de Yn , Yn−l , . . . l > 0. La prévision est une fonction
linéaire de Yn , Yn−1 , . . . . La prévision à l’horizon l étant donné l’observation jusqu’au temps n
peut donc aussi s’écrire comme une fonction linéaire de Zn , Zn−1 , . . . :
∗
∗
Ybn (l) = ψl∗ Zn + ψl+1
Zn−1 + ψl+2
Zn−2 + . . .
où les ψi∗ sont à déterminer. L’erreur quadratique de prévision (EQP) est :
E(Yn+l − Ybn (l))2 = σZ2
l−1
X
ψj2
+
σZ2
∞
X
j=0
∗
(ψl+j − ψl+j
)2 .
j=0
∗
l’EQP est minimisée quand ψl+j
= ψl+j , j = 0, 1, . . . donc :
Ybn (l) = ψl Zn + ψl+1 Zn−1 + ψl+2 Zn−2 + . . .
Erreur de prévision L’erreur de prévision est
en (l) := Yn+l − Ybn (l) =
l−1
X
ψj Zn+l−j .
j=0
P
2
On vérifie que E(en (l)) = 0, le prédicteur est sans biais. D’autre part, var(en (l)) = σZ2 l−1
j=0 ψj .
Enfin, ayant supposé la normalité du bruit blanc, on peut fabriquer des intervalles de prévision :
les limites de prévision à (1 − α)100%, α fixé entre 0 et 1, sont :
v
u
l−1
X
u
ψj2 σZ .
Ybn (l) ± z1−α/2 t1 +
j=1
Les calculs ci-dessus sont simples car tout est exprimé en fonction du bruit blanc Zt , mais
ils ne sont pas directement utilisables car Zt n’est pas observé. On envisage maintenant une
expression plus utilisable de la prévision.
67
Calcul de la prévision
Considérons le processus ARMA(p,q) centré examiné précédemment :
Yn+l = φ1 Yn+l−1 + φ2 Yn+l−2 + · · · + φp Yn+l−p + Zn+l − θ1 Zn+l−1 − θ2 Zn+l−2 − · · · − θq Zn+l−q .
Prenant l’espérance conditionnelle au passé Yn , Yn−1 , Yn−2 , . . . , nous obtenons :
Ybn (l) = φ1 Ybn (l − 1) + φ2 Ybn (l − 2) + · · · + φp Ybn (l − p)
+ Zbn (l) − θ1 Zbn (l − 1) − θ2 Zbn (l − 2) − · · · + θq Zbn (l − q).
(8.4)
Nous savons d’autre part que :
Ybn (j) = E(Yn+j |Yn , Yn−1 , . . . ), si j ≥ 1, et Ybn (j) = Yn−j , si j ≤ 0.
et Zbn (j) = 0, si j ≥ 1, et Zbn (j) = Yn+j − Ybn+j−1 (1), si j ≤ 0. On peut donc par récurrence
calculer les prévisions à l’horizon 1, 2, · · ·
8.2
Exemple
Considérons un ARMA(1,1) :
(1 − φB)(Yt − µ) = (1 − θB)Zt .
Calcul de Ybn (l).
Yn+l = µ + φ(Yn+l−1 − µ) + Zn+l − θZn+l−1 donc
Ybn (1) = µ + φ(Yn − µ) − θZn
et
Ybn (l) = µ + φ(Ybn (l − 1) − µ) = µ + φl (Yn − µ) − φl−1 θZn , l ≥ 2
où Zn = Yn − Ybn−1 (1).
P
Variance de l’erreur de prévision. L’écriture MA(∞) : Yt = µ + ∞
j=0 ψj Zt−j s’obtient en
développant, (1 − θB)/(1 − φB) :
1 − θB
= 1 + ψ1 B + ψ2 B2 + ψ3 B3 + . . .
1 − φB
ou
(1 − φB)(1 + ψ1 B + ψ2 B2 + ψ3 B3 + . . . ) ≡ 1 − θB.
Identifiant les termes de même puissance de B à gauche et à droite on obtient :
ψj = φj−1 (φ − θ), j ≥ 1.
La variance de l’erreur est donc :
var(en (l)) =
σZ2 {1
+
l−1
X
j=1
2
qui tend vers σZ2 (φ−θ)
quand l → ∞.
1−φ2
68
[φj−1 (φ − θ)]2 }
8.3
Plan de l’étude empirique d’une série ARMA
Avant de poursuivre l’étude des séries, on fait un point des étapes à suivre pour cette étude
dans le cas d’une série ARMA.
Situation On a observé une série sur un intervalle de temps, on a examiné son graphique et
sa fonction d’autocorrélation empirique. On a conclu qu’elle pouvait être stationnaire. On veut
essayer de la modéliser par un modèle ARMA en vue d’en avoir une description synthétique,
de la prédire ou de la comparer à une autre série.
Étape d’identification (au sens de l’automatique) Il faut, avant l’estimation, choisir les paramètres p et q. En examinant l’aspect de la FAC (Fonction d’autocorrélation) empirique,
on se fait une idée de la stationnarité (atteinte ou non) de la série. On considère qu’une
série est stationnaire quand sa FAC empirique décroit suffisamment vite vers 0. On exammine ensuite l’aspect de la FAC et de la FAC Partielle de la série. On se fait ainsi une
idée des ordres p et q possibles. Des méthodes d’aide au choix de p et q ont été proposées.
SAS en intègre plusieurs mais nous ne les envisageons pas dans ce cours.
Étape d’estimation Une fois p et q choisis, on estime le modèle. On teste d’abord que le
résidu b
at est un bruit blanc. Si on doit rejeter cette hypothèse, il faut revoir le choix des
ordres p, d et q, et de la transformation initiale. Si on peut considérer que le résidu est
un bruit blanc, on analyse les résultats de l’estimation suivant les mêmes principes qu’en
régression linéaire : significativité des φi et θj d’après les t-statistiques, corrélations entre
les estimateurs de ces paramètres. Le chapitre (9) est brève introduction à l’estimation
d’un ARMA.
Remarque. Les logiciels qui ajustent un modèle ARMA d’ordres p et q donnés, à une série
supposée stationnaire, fournissent une représentation inversible : les racines de Φ(B) = 0
et Θ(B) = 0 sont > 1 en module. Quand on essaie d’ajuster un modèle ARMA à une
série non stationnaire, on obtient un message d’avertissement ou d’erreur de la part du
logiciel car les procédures numériques d’optimisation mises en œuvre pour l’estimation ne
convergent pas ou convergent mal dans un tel cas.
Étape de prévision On utilise enfin le modèle estimé pour prédire la série. Il est recommandé
de n’utiliser qu’une partie de la série pour estimer le modèle, de façon à pouvoir comparer
ensuite pour un même intervalle de temps, réalisations et prévisions.
69
Chapitre 9
Estimation d’un ARMA
On examine dans ce chapitre, comment écrire la fonction de vraisemblance de processus
de base : AR(1) et MA(1). Une fois obtenue la fonction de vraisemblance, son optimisation
est un problème numérique. Si la fonction de vraisemblance est quadratique, on débouche sur
le problème des moindres carrés linéaires classique. Sinon on a un problème non linéaire qui
doit se résoudre par un algorithme d’optimisation. Nous n’étudions pas ces algorithmes dans
ce cours.
9.1
Fonction de vraisemblance d’un processus gaussien
AR(1)
On a la série yt , t = 1, 2, · · · , T , observation de {Yt } AR(1) :
Zt ∼ BBN (0, σ 2 ), t ∈ N,
Yt = c + φYt−1 + Zt ,
(BBN = Bruit Blanc Gaussien). Evaluation de la fonction de vraisemblance. On sait qu’alors Yt
c
, var(Yt ) =
suit une loi normale et on a déjà calculé ses moyenne et variance : E(Yt ) = µ = 1−φ
σ2
.
1−φ2
Notons θ = (c, φ, σ 2 ) le vecteur des paramètres à estimer. La fonction de densité de
probabilité (f.d.p.) de Y1 est :
fY1 (y1 ; θ) = p
(y1 − c/(1 − φ))2
exp[−0.5
]
σ 2 /(1 − φ2 )
2πσ 2 /(1 − φ2 )
1
Considérons maintenant la loi conditionnelle de Y2 sachant que Y1 = y1 . C’est une loi normale
de moyenne c + φy1 , de variance σ 2 d’où la f.d.p.
fY2 |Y1 =y1 (y2 ; θ) = √
1
2πσ 2
exp[−0.5
(y2 − c − φy1 ))2
]
σ2
on en déduit la f.d.p. conjointe du couple (Y1 , Y2 ) :
fY1 ,Y2 (y1 , y2 ; θ) = fY1 (y1 ; θ)fY2 |Y1 =y1 (y2 ; θ)
70
On observe d’autre part que Yt ne dépend explicitement que de yt−1 :
fYt |Yt−1 =yt−1 ,Yt−2 =yt−2 ,··· ,Y1 =y1 (yt ; θ) = fYt |Yt−1 =yt−1 (yt ; θ) = √
1
2πσ 2
exp[−0.5
(yt − c − φyt−1 ))2
].
σ2
La f.d.p. conjointe des observations est donc :
fY1 ,··· ,YT (y1 , · · · , yT ; θ) = fY1 (y1 ; θ)
T
Y
fYt |Yt−1 =yt−1 (yt ; θ).
t=2
D’où on obtient la (fonction) log vraisemblance
L(θ) =
(9.1)
1
σ2
1
1 (y1 − c/(1 − φ))2 T − 1
− ln(2π
−
ln(2πσ 2 ) −
)
−
2
2
2
2
1−φ
2 σ /(1 − φ )
2
2
T
X
t=2
(yt − c − φyt−1 )2
σ2
Supposons qu’on travaille conditionnellement à la première valeur y1 . Alors la log vraisemblance
se simplifie en la log vraisemblance conditionnelle :
T
X (yt − c − φyt−1 )2
T −1
2
Lc (θ) = −
ln(2πσ ) −
.
2
2σ 2
t=2
(9.2)
On reconnaı̂t que 9.2 a la même forme que la log vraisemblance associée à l’estimation de la
moyenne et de la variance d’une v.a. normale, basée sur T − 1 observations indépendantes de
cette v.a.. Dérivant par rapport à c et φ on obtient b
c et φb solution de
−1 P
P
y
c
T
−
1
y
t
t−1
P 2
P 2
= P
yt−1
yt−1
yt−1
φ
qu’on reporte dans 9.2 puis en dérivant par rapport à σ 2 :
PT
b t−1 )2
(yt − b
c − φy
2
b
σ = t=2
T −1
On appelle estimateur du maximum de vraisemblance conditionnelle, la solution de ces deux
équations. Si T est grand les solutions des maximisations de ( 9.1) et ( 9.2) sont proches.
9.2
Fonction de vraisemblance d’un processus gaussien
MA(1)
Soit un processus gaussien MA(1) :
Yt = µ + Zt − θZt−1
où Zt est un BBN(0, σ 2 ), Yt est observé sur t = 1, 2 · · · , T .
71
Si on connaı̂t zt−1 , la valeur de Zt−1 , alors la loi de Yt sachant que Zt−1 = zt−1 est N(µ −
θzt−1 , σ 2 ). Supposons que Z0 = 0, alors étant donné l’observation de Y1 on peut déduire la
valeur de Z1 : z1 = y1 − µ. Ensuite Y2 = µ + Z2 − θz1 permet d’obtenir z2 . On obtient ainsi la
loi conditionnelle de Y2 sachant que Z0 = 0, Y1 = y1 . Sa f.d.p. est :
fY2 |Y1 =y1 ,Z0 =0 (y2 ; θ) = √
1
exp(−0.5
2πσ 2
(y2 − µ + θz1 )2
).
σ2
Ensuite connaissant z1 et y2 on peut calculer z3 = y2 − µ + θz1 ... Ainsi ayant fixé la valeur de Z0
(ici à la moyenne) et disposant des observations y1 , · · · , yT on peut calculer pour chaque valeur
de θ : z1 = y1 − µ, z2 = y2 − µ + θz1 , · · · , zt = yt − µ + θzt−1 et la distribution conditionnelle
de Yt |Yt−1 = yt−1 , · · · , Y1 = y1 , Z0 = 0. Sa f.d.p. est :
fYt |Yt−1 =yt−1 ,···Y1 =y1 ,Z0 =0 (yt ; θ) = √
1
2πσ 2
exp[
1
(yt − µ + θzt−1 )2 ].
2σ 2
La f.d.p. conjointe de Y1 , · · · , YT |Z0 = 0 est :
fY1 |Z0 =0 (y1 ; θ)
T
Y
fYt =yt |Yt−1 =yt−1 ,···Y1 =y1 ,Z0 =0 (yt ; θ).
t=2
La log vraisemblance est :
T
1 X
T
2
(yt − µ + θzt−1 )2
− ln(2πσ ) − 2
2
2σ t=1
72
Chapitre 10
Modèles de séries non stationnaires
10.1
Non stationnarité en variance
On envisage le cas d’une série {Yt } dont la moyenne, µt , varie avec le temps de façon
déterministe et dont la variance dépend du niveau moyen :
Y t = µ t + Ut
avec var(Ut ) = h2 (µt )σ 2 pour une certaine fonction h. Pour traiter cette situation d’hétéroscédasticité,
on cherche une transformation g telle que var(g(Yt )) ' constante. C’est la technique dite de
stabilisation de la variance.
Par linéarisation on a :
g(Yt ) ' g(µt ) + (Yt − µt )g 0 (µt )
et
var(g(Yt )) ' [g 0 (µt )]2 var(Yt )
On cherche donc g telle que g 0 (x) = 1/h(x). Par exemple, pour h(x) = x, g 0 (x) = 1/x et donc
g(x) = log(x).
10.2
Tendance stochastique ou déterministe
Considérons les deux modèles suivants :
Yt = β0 + β1 t + Ut
Yt = β1 + Yt−1 + Ut
(Det)
(Sto)
(10.1)
(10.2)
où Ut est stationnaire. Si on différencie le premier modèle on obtient un processus stationnaire
mais ∆Ut = (1 − B)Ut n’est pas inversible. Alors que l’erreur reste inversible si on différencie le
deuxième.
Il n’est pas facile, étant donné une série dont la moyenne ne semble pas constante, de savoir s’il
faut la différencier ou lui ajuster une tendance déterministe. Avec les logiciels, la différenciation
est facile et tentante. Une façon de procéder consiste à
73
Fig. 10.1 – y1 et y2
,
– (1) Examiner le graphique de la série pour voir si une tendance linéaire ou quadratique se
dégage sur l’ensemble de la série. Si c’est le cas, ajuster une telle tendance puis modèliser
le résidu.
– (2) Différencier la série et identifier le modèle de la série (1 − B)Yt ou (1 − B)2 Yt ... si
ce modèle semble plus compliqué que celui de la série initiale, il est probable qu’il fallait
ajuster une tendance déterministe et non différencier.
On peut envisager (1) et (2) simultanément. Il existe des tests dits de ”racine unité” qui
permettent de tester l’hypothèse nulle que la série doit être différenciée.
Exemple
On a simulé les séries :
y1t = a0 + a1 t +
et
y2t − y2,t−1 =
1 − θB
Zt
1 − φB
avec a0 = 0, a1 = −.2 θ = .4 φ = −.7.
Graphe de l’ACF de y1 .
The ARIMA Procedure
Name of Variable = y1
3.695422 Standard Deviation
2.870494 Number of Observations
200
74
1 − θB
Zt
1 − φB
Autocorrelations
Lag Covariance
8 9 1
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
8.239734
1.199694
6.625372
2.526843
5.469683
3.186449
4.657897
3.388947
4.405001
3.394916
4.081730
3.585290
3.485498
4.041477
2.732624
4.361790
2.365318
4.146199
2.518068
3.669622
2.648516
3.386793
2.607445
3.301683
2.294181
Correlation
1.00000
0.14560
0.80408
0.30667
0.66382
0.38672
0.56530
0.41129
0.53460
0.41202
0.49537
0.43512
0.42301
0.49049
0.33164
0.52936
0.28706
0.50320
0.30560
0.44536
0.32143
0.41103
0.31645
0.40070
0.27843
-1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
|********************|
|***
|
|****************
|
|******
|
|*************
|
|********
|
|***********
|
|********
|
|***********
|
|********
|
|**********
|
|*********
|
|********
|
|**********
|
|*******.
|
|***********
|
|****** .
|
|**********
|
|****** .
|
|*********
|
|****** .
|
|********.
|
|****** .
|
|********.
|
|****** .
|
Graphe de l’ACF de y2 .
-7.65501 Standard Deviation
200
Autocorrelations
Lag Covariance
8 9 1
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
3.126961
1.561493
2.490392
1.719192
2.133912
1.736780
1.933931
1.734175
1.731355
1.649560
1.625851
1.539286
1.548901
1.405170
1.515742
1.280278
1.299462
1.149190
1.205819
0.975364
1.123834
0.846295
0.967381
Correlation
1.00000
0.49936
0.79643
0.54980
0.68242
0.55542
0.61847
0.55459
0.55369
0.52753
0.51995
0.49226
0.49534
0.44937
0.48473
0.40943
0.41557
0.36751
0.38562
0.31192
0.35940
0.27064
0.30937
-1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
|********************|
|**********
|
|****************
|
|***********
|
|**************
|
|***********
|
|************
|
|***********
|
|***********
|
|***********
|
|**********
|
|**********
|
|**********
|
|*********
|
|**********
|
|********.
|
|********.
|
|******* .
|
|********.
|
|****** .
|
|******* .
|
|*****
.
|
|******
.
|
75
23
24
0.718949
0.742880
0.22992
0.23757
|
|
.
.
|*****
|*****
.
.
|
|
Graphe de l’ACF de (1 − B)y1 .
Period(s) of Differencing
1 Mean of
Working Series
0.035171 Standard Deviation
199
Observation(s) eliminated by differencing
1
Autocorrelations
Lag Covariance
8 9 1
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
Correlation
14.002764
-12.478156
9.514141
-7.043273
5.250343
-3.826731
2.850475
-2.343063
2.000108
-1.628659
1.130746
-0.351696
-0.706889
1.899692
-2.993566
3.637361
-3.713017
3.329222
-2.683054
2.045614
-1.545019
1.268442
-1.305110
1.580499
-1.747923
1.00000
-.89112
0.67945
-.50299
0.37495
-.27328
0.20357
-.16733
0.14284
-.11631
0.08075
-.02512
-.05048
0.13567
-.21378
0.25976
-.26516
0.23775
-.19161
0.14609
-.11034
0.09059
-.09320
0.11287
-.12483
-1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|********************|
******************| .
|
.
|**************
|
**********|
.
|
.
|*******
|
.*****|
.
|
.
|**** .
|
. ***|
.
|
.
|*** .
|
.
**|
.
|
.
|**
.
|
.
*|
.
|
.
*|
.
|
.
|*** .
|
. ****|
.
|
.
|*****.
|
.*****|
.
|
.
|*****.
|
. ****|
.
|
.
|***
.
|
.
**|
.
|
.
|**
.
|
.
**|
.
|
.
|**
.
|
.
**|
.
|
The ARIMA Procedure
Graphe de l’ACF de (1 − B)y2 .
Period(s) of Differencing
1 Mean of
Working Series
-0.01399 Standard Deviation
199
Observation(s) eliminated by differencing
1
Autocorrelations
Lag Covariance
8 9 1
0
1
2
3.097785
-2.502463
1.697283
Correlation
1.00000
-.80782
0.54790
-1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7
|
|
|
|********************|
****************| .
|
.
|***********
|
76
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
-1.160169
0.791552
-0.567092
0.364269
-0.185157
0.104696
-0.084632
0.072530
-0.124372
0.153480
-0.248267
0.324443
-0.237194
0.186345
-0.260849
0.338255
-0.412104
0.440975
-0.408651
0.410683
-0.293404
0.015778
-.37452
0.25552
-.18306
0.11759
-.05977
0.03380
-.02732
0.02341
-.04015
0.04955
-.08014
0.10473
-.07657
0.06015
-.08420
0.10919
-.13303
0.14235
-.13192
0.13257
-.09471
0.00509
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
*******|
.
.
|*****
.****|
.
.
|** .
.
*|
.
.
|*
.
.
*|
.
.
|
.
.
*|
.
.
|*
.
. **|
.
.
|** .
. **|
.
.
|*
.
. **|
.
.
|** .
. ***|
.
.
|*** .
. ***|
.
.
|*** .
. **|
.
.
|
.
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
L’ACF de (1 − B)y2 semble moins bruité que celle de (1 − B)y1 .
On ajuste un ARMA(1,1) aux séries différenciées.
• Résidu de l’ajustement ARMA(1,1) à (1 − B)y1 .
To
ChiPr >
Lag
Square
DF
ChiSq
---------------Autocorrelations--------------6
12
18
24
30
36
14.25
16.59
28.74
33.99
38.00
42.89
4
10
16
22
28
34
0.0065
0.0840
0.0257
0.0492
0.0984
0.1411
-0.179
0.029
-0.017
0.019
0.035
-0.022
-0.058
0.037
-0.109
0.040
0.052
0.077
0.140
-0.005
0.154
-0.044
-0.002
-0.092
0.053
0.077
-0.077
0.076
-0.075
0.046
0.099
-0.051
0.108
0.034
-0.002
-0.023
-0.051
0.013
0.046
-0.111
-0.087
0.052
-0.059
-0.076
-0.045
-0.109
0.015
-0.001
0.009
-0.066
0.009
-0.074
-0.024
0.057
• Résidu de l’ajustement ARMA(1,1) à (1 − B)y2 .
To
ChiPr >
Lag
Square
DF
ChiSq
---------------Autocorrelations--------------6
12
18
24
30
36
1.19
6.02
11.93
20.26
26.28
27.31
4
10
16
22
28
34
0.8798
0.8132
0.7487
0.5669
0.5575
0.7851
0.011
0.026
0.016
-0.039
-0.001
-0.009
0.000
-0.044
0.142
0.084
-0.045
-0.026
-0.027
-0.063
0.026
0.046
0.151
0.001
-0.037
-0.078
-0.063
0.094
0.017
-0.012
On voit que la série à tendance déterministe, y1 a une différence première mal ajustée par un
ARMA(1,1).
77
10.2.1
Non stationnarité d’une série saisonnière
Une série saisonnière peut ne pas être stationnaire et nécessiter une différenciation saisonnière.
On dit que Yt est un SARIMA(p, d, q)(P, D, Q)s si
(1 − Bs )D (1 − B)d Yt est un SARMA(p, q)(P, Q)s
c’est-à-dire si
(1 − Bs )D (1 − B)d Φ(B)Φs (Bs ) Yt = Θ(B)Θs (Bs )Zt
10.3
Annexe – code SAS
Le code ci-dessous donne la simulation des processus y1 et y2 et les estimations.
5
10
15
20
25
30
Options PS=55 LS=78 NoDate PageNo=1 NoCenter
FORMCHAR=’|----|+|---+=|-/\<>*’;
goptions htitle=3 htext=2 ftext=swissb ftitle=swissb;
data a;
* simulation de 2 proc;
data a;
teta =.4;
phi = -.7;
a0 = 0;
a1=-.2;
y1m1 = 0;
y2m1=0;
y2m2 = 0;
z1m1 =0;
z2m1 = 0;
y1 =0;
y2 = 0;
z1 =0;
z2 = 0;
do i = -50 to 200;
date=i;
z1m1 = z1;
z2m1 = z2;
z1 = rannor( 138561 );
z2 = rannor(458395);
y1m1 = y1;
y2m2 = y2m1;
y2m1 = y2;
y1 = a0 + phi*(a1 -a0) + i*a1*(1-phi) + phi* y1m1+ z1 - teta* z1m1;
y2 = (phi+1) * y2m1 - phi *y2m2+ z2 - teta* z2m1;
end;
run;
35
40
45
symbol1 color=green interpol=j width=2 value=
height=3;
;
symbol2 color=red interpol=j width=2 value=
height=3; ;
proc gplot data=a;
plot y1*date=1 y2*date=2/ overlay;
run;
quit;
78
50
proc arima data=a;
identify var=y1; run;
identify var=y2; run;
identify var=y1(1); run;
quit;
55
60
proc arima data=a;
estimate p=1 q=1 ;
run;
estimate p=1 q=1 ;
run;
Exemple de syntaxe pour l’ajustement d’un SARIMA(0, 1, 1)(0.1.1)12 à une série (xlog),
sans constante, par la méthode des moindres carrés.
proc arima data=seriesg;
identify var=xlog(1,12) nlag=15;
run;
estimate q=(1)(12) noconstant method=uls;
run;
quit;
79
Bibliographie
[1] Box G., Jenkins, Reinsel G.C. Time Series 3rd Ed. Prentice Hall.
[2] Bourbonnais R. Econométrie, 3ème éd., 2000, Dunod. 14, 34
[3] Bourbonnais R., Terraza M. Analyse des séries temporelles en économie, 1998, PUF.
[4] Brockwell P.J., Davis R.A. Introduction to Time Series and Forecasting , 1997, Springer.
[5] Bosq D. et Lecoutre Modélisation des Séries chronologiques Masson.
[6] Brockwell P.J., Davis R.A. Time Series : Theory and Methods, 2nd edition , 1991, Springer.
21, 33, 34
[7] Destandau S. et Le Guen M. Analyse Exploratoire des Données avec SAS/INSIGHT, 1998,
INSEE Guides 7-8 .
[8] Franses P. H. Time series models for business and economic forecasting, 1998, Camridge
University Press.
[9] Gourieroux C., Monfort A. Séries temporelles et modèles dynamiques, 1995, 2nd edition,
Economica. 28, 30, 63
[10] Hamilton J.D. Time Series Analysis, 1994, Princeton University Press. 39, 63
[11] Harvey A. C. Forecasting, Structural Time Series Models and the Kalman Filter, 1991,
Cambridge Univ. Press.
[12] Jaffe J.A. Mastering the SAS System Snd ed., 1996, ITP.
[13] Kennedy P. A guide to Econometrics 5th ed., 2003 Blackwell.
[14] SAS Institute, SAS/ETS User’s Guide Version 6 Snd ed., SAS Institute.
[15] Tassi Ph. Méthodes statistiques, 1989 et nombreuses éditions, Economica.
[16] Thomas A. Econométrie des variables qualitatives, Dunod.
[17] Wei Time Series Analysis : Univariate and Multivariate Methods, 1990, Addison-Wesley.
80

Introduction aux Séries temporelles

Transcription

Documents pareils

Qui donc est cette femme?

Téléchargement de Adobe Reader : http://get.adobe.com/fr/reader

Solliès-Pont La Poulasse (page 1)

SÉRIES CHRONOLOGIQUES, HIVER 2014, MAT8181 EXAMEN

Vol de cuivre : Algérie Télécom subit le dictat de la mafia à Oran

Semaine tunisienne en Algérie : Les saveurs du Maghreb

CONTRˆOLE CONTINU Séries numériques Durée : 1h30 Les

Tableau vierge A-4-AU (60x65 mm) sÃ©rie 4

Brignoles ZAC Les Consacs (page 1)