Introduction aux Séries temporelles
Transcription
Introduction aux Séries temporelles
Introduction aux Séries temporelles Yves ARAGON [email protected] Septembre 2004 1 Table des matières 1 Préliminaires sur les séries temporelles 1.1 Exemples de séries temporelles . . . . . . . . 1.2 Objectifs de l’analyse d’une série temporelle 1.3 Tendance. Saisonnalité. Résidus . . . . . . . 1.4 Notations . . . . . . . . . . . . . . . . . . . 1.5 Contenu de ce cours . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 6 7 9 10 10 2 Etude de deux exemples et recensement de quelques problèmes 2.1 La population des Etats-Unis . . . . . . . . . . . . . . . . . . . . . La population française . . . . . . . . . . . . . . . . . 2.2 Le niveau du lac Huron . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Annexe : commandes SAS du chapitre. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 11 12 13 14 3 Rappels de statistique mathématique 3.1 Matrice des covariances d’un vecteur aléatoire 3.2 Lois de probabilités d’un vecteur aléatoire . . 3.2.1 Loi normale . . . . . . . . . . . . . . . Loi normale bivariée . . . . . . . . . . Loi normale conditionnelle . . . . . . . 3.3 Tests d’hypothèses . . . . . . . . . . . . . . . Situation pratique courante. . . 3.4 Rappels sur la régression linéaire . . . . . . . 3.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 18 18 19 20 20 21 21 22 23 . . . . 27 27 27 28 29 . . . . 31 31 31 32 32 4 Lissage 4.1 Lissage exponentiel . . . . . . . . . . . . Lissage exponentiel simple Lissage exponentiel double 4.2 Lissage par Moyenne Mobile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Propriétés de base des séries stationnaires 5.1 Stationarité . . . . . . . . . . . . . . . . . . . . 5.1.1 Fonction d’autocovariance . . . . . . . . 5.1.2 Corrélation et fonction d’autocorrélation Fonction d’autocorrélation (ACF) 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Test du Portemanteau . . . . . . . . . . . . . . . . . . . . . . . . 33 5.2 Exemples de fonctions d’autocorrélation empiriques . . . . . . . . . . . . . . . . 35 5.3 Annexe – code SAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 6 Modèles de séries stationnaires 6.1 Série linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1.1 Processus gaussien . . . . . . . . . . . . . . . . . . . . . 6.2 Processus autorégressif d’ordre p . . . . . . . . . . . . . . . . . 6.2.1 Processus autorégressif d’ordre 1 . . . . . . . . . . . . . Moments d’ordres 1 et 2 d’un AR(1) . . . . . . . . . . . Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2.2 Modèle AR(2) . . . . . . . . . . . . . . . . . . . . . . . . Processus autorégressif d’ordre p . . . . . . . . . . 6.2.3 Exemple numérique . . . . . . . . . . . . . . . . . . . . 6.3 Processus Moyenne mobile . . . . . . . . . . . . . . . . . . . . . 6.3.1 Processus MA(1) . . . . . . . . . . . . . . . . . . . . . . Moments d’ordres 1 et 2 d’un MA(1) . . . . . . . 6.3.2 Processus MA(q) . . . . . . . . . . . . . . . . . . . . . . 6.4 Processus ARMA(p,q) . . . . . . . . . . . . . . . . . . . . . . . Représentation MA(∞) et réponse impulsionnelle 6.5 Saisonnalité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.5.1 Saisonnalité multiplicative . . . . . . . . . . . . . . . . . 6.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.7 Annexe : simulation de processus ARMA dans SAS . . . . . . . Simulation d’un MA . . . . . . . . . . . . . . . . Simulation d’un AR . . . . . . . . . . . . . . . . . Simulation d’un AR saisonnier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 39 40 40 40 40 41 46 47 48 50 50 50 51 53 53 53 53 54 55 55 55 56 7 Prédiction linéaire d’une v.a. 7.1 Projection affine d’une v.a. sur une autre . . . 7.2 Projection d’une v.a. sur un ensemble de v.a. . 7.3 Application aux séries temporelles . . . . . . . 7.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 59 61 63 65 8 Prévision d’une série temporelle 8.1 Prévision à erreur quadratique minimum pour un ARMA Erreur de prévision . . . . . . . . . . . . . 8.2 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . 8.3 Plan de l’étude empirique d’une série ARMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 66 67 68 69 . . . . . . . . . . . . . . . . . . . . 9 Estimation d’un ARMA 70 9.1 Fonction de vraisemblance d’un processus gaussien AR(1) . . . . . . . . . . . . . 70 9.2 Fonction de vraisemblance d’un processus gaussien MA(1) . . . . . . . . . . . . 71 3 10 Modèles de séries non stationnaires 10.1 Non stationnarité en variance . . . . . . . . . . 10.2 Tendance stochastique ou déterministe . . . . . Exemple . . . . . . . . . . . . . . . . . . 10.2.1 Non stationnarité d’une série saisonnière 10.3 Annexe – code SAS . . . . . . . . . . . . . . . . Références bibliographiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 73 73 74 78 78 79 4 Ce cours est une introduction à l’analyse des séries temporelles. Les notions de mathématiques utilisées ne dépassent pas ce qu’on apprend habituellement en DEUG MASS (ou L2 MASS). Les notions de calcul des probabilité et statistique mathématique dont l’étudiant doit avoir une bonne connaissance préalable sont : la loi normale uni et bi-dimensionnelle, la notion de matrice des variances et covariances pour un vecteur aléatoire, les tests d’hypothèse sur la moyenne dans le cadre de la loi normale et en régression linéaire, la méthode des Moindres Carrés. 5 Chapitre 1 Préliminaires sur les séries temporelles 1.1 Exemples de séries temporelles Une série temporelle est une suite d’observations indicées par le temps, la date à laquelle l’observation est faite est une information importante sur le phénomène observé. Examinons quelques séries et notons leurs caractéristiques les plus évidentes. 1 La population de la France (1.1) et la population des Etats-Unis (1.2) sont des séries où le temps explique bien le niveau de la série. Une fonction du temps assez lisse capte une grande part de la variabilité de la série. Les démographes sont intéressés par la prévision de la population à 10 ans, à 20 ans. 2 Le nombre de morts par accident (5.2) est une série où la saisonnalité contribue à expliquer le niveau. Le niveau moyen reste stable et il y a des fluctuations saisonnières. Un service de santé publique peut vouloir prédire le nombre de morts chacun des 6 prochains mois pour voir où et quand faire une campagne de prévention, mais il peut aussi vouloir une vision synthétique de la situation, un aperçu de la tendance sur l’année. 3 Les ventes de champagne (1.3) et les ventes de vin australien (1.4) montrent une saisonnalité qui contribue à expliquer le niveau mais en plus la moyenne et la variabilité de ces séries augmentent avec le temps. Ce sont des séries hétéroscédastiques (c’est-à-dire à variance non constante) dont la variance à une date est fonction de la moyenne à cette date. La chambre de commerce d’une région viticole peut être intéressée par l’examen de la tendance des ventes débarassée de ce qui peut se passer à court-terme alors qu’un syndicat de transporteurs a besoin de savoir combien de bouteilles devront partir de la région le mois prochain. 4 Le niveau du lac Huron (1.6) montre une tendance légèrement décroissante et on observe que les résidus d’un ajustement d’une droite au niveau, à deux dates consécutives sont corrélés positivement (2.4). Si l’objctif est de prédire le niveau l’an prochain, il faut exploiter à la fois la linéarité de la tendance et la corrélation de la série à 2 dates consécutives. Nous verrons cet exemple en détail au chapitre (2). 5 Le rendement du titre Alcatel (1.5) est une série hétéroscédastique dont la variabilité change au cours du temps de façon non évidente. Le rendement d’une action est très souvent de 6 65000000 Population 60000000 55000000 50000000 45000000 40000000 1900 1920 1940 1960 1980 2000 2020 annnee Fig. 1.1 – Population française Fig. 1.2 – Population des Etats-Unis Fig. 1.3 – Ventes de bouteilles de champagne Fig. 1.4 – Ventes de vin australien moyenne nulle et les rendements à 2 dates consécutives souvent non corrélés. Il n’y a donc pas de problème de prévision du rendement mais la prévision de sa variabilité est utile. On voit sur ces exemples qu’on ne peut pas, pour une série temporelle, parler d’observations indépendantes. Par conséquent tous les calculs et raisonnements de statistique mathématique basés sur l’indépendance entre les observations doivent être revus et si nécessaire, pensés autrement. Mais la dépendance temporelle permet d’améliorer la prévision de la valeur d’une série à une date future connaissant le présent et le passé. 1.2 Objectifs de l’analyse d’une série temporelle Décrire Quand on s’intéresse à une série temporelle, la première étape, comme pour toutes données est de décrire la série. On utilise pour ce faire un certain nombre de graphiques : 7 Fig. 1.5 – Cours de l’action Alcatel Fig. 1.6 – Niveau du lac Huron – diagramme séquentiel (time plot) – histogramme pour avoir une idée de la distribution des valeurs – histogramme des valeurs absolues pour apprécier l’hétéroscédasticité éventuelle (notamment pour les séries de rendements de titres). Sur les graphiques on peut repérer les valeurs atypiques ou aberrantes. On calcule aussi les statistiques descriptives usuelles : moyenne, variance, coefficients d’aplatissement et d’asymétrie. Une même série temporelle peut être analysée de différentes façons suivant l’objectif poursuivi. Résumer Dans certains cas on veut une vue synthétique débarassée de détails de court-terme ; c’est souvent un besoin des instituts de statistique officielle. Modéliser Expliquer le niveau ou parfois la variance du niveau, par des modèles à peu de paramètres – Modèle sans variable explicative Yt = f (Yt−1 , Yt−2 , · · · ) + ut (1.1) – Modèle avec variable explicative Yt = f (Xt ) + ut (1.2) où ut est une erreur – statique : Xt ne contient pas de valeurs passées de {Yt } et les ut sont non corrélés entre eux – dynamique : les ut sont auto-corrélés ou Xt contient des valeurs retardées de yt Prédire La prévision de valeurs à des dates futures connaissant le présent et le passé de la série peut être basée sur un modèle ou bien être construite sans référence à un modèle. 8 1.3 Tendance. Saisonnalité. Résidus Il est classique de décomposer une série temporelle {Yt , t = 1, · · · , n} en tendance mt (trend), effet saisonnier st , erreur Ut . On s’intéresse habituellement à un modèle additif : où E(Ut ) = 0 yt = mt + st + Ut , (∗) ou à un modèle multiplicatif : yt = mt st Ut , où E(Ut ) = 1 (∗∗) Par exemple, les séries montrant une saisonnalité qui a de plus en plus d’ampleur (cas des ventes de champagne), sont souvent mieux ajustées par un modèle multiplicatif que par un modèle additif. Commentaires – Une décomposition permettant d’éliminer l’effet saisonnier est utile quand on veut examiner le comportement à moyen terme d’une série. Les services de statistique officielle, les organismes qui étudient les grandes tendances d’un phénomène, travaillent sur des séries désaisonnalisées. A titre d’exemple on consultera le site de la Sécurité routière : http://www.securiteroutiere.gouv.fr/infos-ref/observatoire/conjoncture/ puis ”Les méthodes de production de l’analyse conjoncturelle”. – Par contre quand c’est le comportement à court terme qui intéresse, il faut garder l’aspect saisonnier. Les gestionnaires de stocks de magasins doivent tenir compte de la saisonnalité des ventes de leurs produits quand ils passent leurs commandes. – Le choix d’un modèle ou d’un autre, l’incorporation ou non d’une composante, peuvent s’apprécier d’après le graphique de la série et peuvent être validés par l’analyse elle-même. – Il n’y a pas une unique façon d’obtenir une décomposition telle que (*) ou (**) pour une série particulière. On considère qu’une série temporelle observée {xt , t = 1, · · · , T } est la réalisation d’un processus aléatoire {Xt , t = 1, · · · , T }. Les Xt sont des variables aléatoires, xt est la valeur prise par Xt , ce qui advient à la date (ou à l’instant d’observation) t. Bruit blanc (BB) Définition. Un bruit blanc {Zt } est une suite de v.a. non corrélées de moyenne nulle, de variance constante σZ2 . On note {Zt } ∼ BB(0, σ(2 )0, σZ2 ). {Zt } ∼ BBN (0, σZ2 ) désigne un bruit blanc gaussien, c’est-à-dire une suite de v.a. i.i.d. N (0, σZ2 ). C’est une série de référence, trouver les transformations qui décrivent une série donnée comme une transformation d’un bruit blanc est un enjeu de base dans l’analyse des séries temporelles. Le BB ramène l’étude à des v.a. non corrélées et même souvent indépendantes. Une bonne partie du cours sera consacrée à étudier des séries obtenues par transformation d’un BB : les modèles de moyenne mobile (MA pour Moving Average), AR (Autorégressif) et les ARMA qui combinent les deux. Etapes de l’étude d’une série sans série explicative associée. – On commence par enlever, si nécessaire, les effets systématiques (par exemple, le nombre de jours ouvrables dans une série hebdomadaire d’une production), les effets occasionnels (grèves, panne de machine). 9 – Soit xt , t = 1, · · · , n, la série obtenue après ces corrections. Si elle présente une tendance et une saisonnalité, il faut les estimer ou les éliminer suivant l’objectif recherché. – Enfin on prédit chaque composante de la série puis la série. Notons qu’il y a souvent plusieurs méthodes possibles pour réaliser ces étapes. 1.4 Notations Opérateur retard. On note B(backwards) ou L (lag), l’opérateur qui fait passer de xt à xt−1 : Bxt = xt−1 On a : B2 xt = B(Bxt ) = Bxt−1 = xt−2 Opérateur différence. La différence première est : ∆xt = (1 − B)xt = xt − xt−1 on a : ∆2 xt = ∆(∆xt ) = xt − 2xt−1 + xt−2 Ces notations simplifient l’écriture des équations relatives aux séries. 1.5 Contenu de ce cours Le chapitre 2 traite deux exemples : dans l’un une tendance suffit à décrire la variabilité de la série, dans l’autre il faut ajuster une tendance et également modéliser l’erreur pour bien capter la variabilité. Le chapitre 3 est consacré à des rappels de statistique mathématique : loi normale multidimensionnelle, moyenne, covariance. Le chapitre 4 présente rapidement les techniques de lissage (exponentiel et par moyennes mobiles) utilisés en séries temporelles. Le chapitre 5 introduit les séries stationnaires et en donne les propriétés de base. Dans le chapitre 6 on étudie les modèles de base des séries stationnaires : modèle AR, MA et ARMA. Dans le chapitre suivant (7) on introduit la prévision des séries stationnaires et ensuite, chapitre 8 on applique ces notions à la prédiction de processus ARMA. Un rapide aperçu de l’estimation des processus AR et MA est donné chapitre 9 . On finit le cours en examinant quelques aspects des séries non stationnaires et leur traitement (10). 10 Chapitre 2 Etude de deux exemples et recensement de quelques problèmes Nous examinons la série de la population des Etats-Unis puis la série donnant le niveau du Lac Huron. On peut percevoir sur ces séries quelques problèmes courants sur les séries temporelles. Nous en faisons un traitement particulier, sur mesure. La suite du cours développera des outils plus généraux. 2.1 La population des Etats-Unis Le graphique donne la population des Etats-Unis de 1790 à 1990, tous les 10 ans. On note que l’échelle de temps est très grossière. Les variations de surface (guerre avec le Mexique) ont sans doute entrainé des variations de population qui ne se remarquent pas sur le graphique. La variation de la population est assez régulière et il semble que l’on peut capturer l’essentiel de cette variation par un ajustement polynomial. y t = m t + Ut Commençons par ajuster un polynome de degré 1 : mt = β0 + β1 t. (La table work.a contient la série et la série des années correspondantes. Output The REG Procedure Model: MODEL1 Dependent Variable: POP_EU POP_EU Analysis of Variance 5 10 Source DF Sum of Squares Mean Square Model Error Corrected Total 1 19 20 1.137456E17 9.634075E15 1.233797E17 1.137456E17 5.070566E14 11 F Value Pr > F 224.33 <.0001 Root MSE Dependent Mean Coeff Var 15 R-Square Adj R-Sq 0.9219 0.9178 Parameter Estimates 20 25 22517917 85782624 26.24997 Variable Label Intercept AN Intercept AN DF Parameter Estimate Standard Error t Value Pr > |t| 1 1 -2211337570 1215408 153450192 81149 -14.41 14.98 <.0001 <.0001 Bien que le R2 ajusté soit élevé, Adj R-Sq 0.9178, l’examen du graphique des résidus (2.1) montre la mauvaise qualité de l’ajustement : ces résidus n’ont rien d’aléatoire et, manifestement, il faut un terme de degré 2 parmi les régresseurs : mt = β0 + β1 t + β2 t2 . Output The REG Procedure Model: MODEL1 Dependent Variable: POP_EU POP_EU Analysis of Variance 5 10 Source DF Sum of Squares Mean Square Model Error Corrected Total 2 18 20 1.232419E17 1.377793E14 1.233797E17 6.162094E16 7.654408E12 Root MSE Dependent Mean Coeff Var 2766660 85782624 3.22520 15 Pr > F 8050.39 <.0001 0.9989 0.9988 Parameter Estimates 20 25 R-Square Adj R-Sq F Value Variable Label Intercept AN an2 Intercept AN DF Parameter Estimate Standard Error t Value Pr > |t| 1 1 1 21006098093 -23378553 6506.33863 659432744 698315 184.72061 31.85 -33.48 35.22 <.0001 <.0001 <.0001 le R2 ajusté vaut maintenant 0.9988 ( dans le premier ajustement, il était élevé mais n’avait pas de sens). Le graphique des résidus de ce dernier ajustement (2.2) ne montre pas d’aspect déterministe ou régulier trop marqué. Comme la série est très courte, il n’est pas intéressant d’examiner en détail les statistiques associées à cet ajustement linéaire. La population française Si l’on veut faire un ajustement semblable avec la population française on se heurte à deux questions : les données ne sont pas collectées régulièrement et Moselle, Bas-Rhin et Haut-Rhin ne faisaient pas partie de la France de 1871 à 1918 et de 1939 à 12 Fig. 2.1 – Population des Etats-Unis - ajus- Fig. 2.2 – Population des Etats-Unis - ajustement d’un polynome de degré 1 tement d’un polynome de degré 2 1945. De plus le graphique montre une rupture de tendance vers 1940 (la direction de la courbe ajustée change assez brutalement). Une droite ou un polynôme de faible degré, uniques pour toute la période ne peuvent donc pas rendre compte de la tendance. 2.2 Le niveau du lac Huron Etudions maintenant la série du niveau du lac Huron. Le graphique de la série (1.6) montre que la variabilité d’une année à l’autre est très importante par rapport à la tendance légèrement décroissante et dont la significativité doit être testée. Commençons par faire une régression linéaire du niveau sur l’année : yt = β0 + β1 t + ut , t = 1, · · · , T et stockons les résidus de cet ajustement. Niveau du lac Huron - Residus 16:30 Sunday, June 23, 2002 9 The AUTOREG Procedure Dependent Variable 5 NIVEAU Ordinary Least Squares Estimates 10 SSE MSE SBC Regress R-Square Durbin-Watson 122.645511 1.27756 309.266295 0.2725 0.4395 DFE Root MSE AIC Total R-Square 96 1.13029 304.09636 0.2725 15 Variable 20 Intercept DATE DF Estimate Standard Error t Value Approx Pr > |t| 1 1 8.1208 -0.000066 0.1864 0.0000111 43.57 -6.00 <.0001 <.0001 13 (2.1) Examinons maintenant le résidu de cet ajustement : u bt = yt − βb0 − βb1 t. Le R2 n’est pas très élevé (R2 = 0.2725) mais la régression est significative : t Value pour β1 = −6.00 qui correspond à un niveau de signification empirique < .0001. On constate aussi (graphique 2.4) que le signe du résidu est assez régulièrement alternativement positif et négatif. Examinons donc le diagramme de dispersion des (b ut−1 , u bt ), t = 2, · · · , T , graphique (2.5). Comme on pouvait s’y attendre, on observe une corrélation linéaire significative entre le résidu à une date et le résidu à la date voisine. Cette corrélation sur les résidus u bt est le reflet d’une corrélation sur les erreurs ut . On comprend qu’on peut améliorer la prévision du niveau d’une année à partir de la connaissance du niveau les années antérieures en prenant en compte de cette corrélation. On appelle autocorrélation d’ordre 1 le coefficient de corrélation linéaire entre une série (xt ) et la série retardée (xt−1 ). On peut évidemment définir des coefficients d’autocorrélation d’ordre 2, 3, ... Cette question est étudiée chapitre (6). En résumé, nous avons estimé le niveau moyen du lac et avons constaté que l’erreur est autocorrélée. Au chapitre (6), section (6.2) nous poursuivrons cet exemple et modéliserons l’erreur. Finalement, c’est un modèle du type (1.2) avec erreur autocorrélée, qui convient pour le niveau du lac. Si notre objectif est la prévision du niveau l’année suivante, il est en effet utile de modéliser le mécanisme d’évolution de ut pour ensuite prédire yT +1 par : yT +1 = βb0 + βb1 (T + 1) + Pred(uT +1 |b u1 , u b2 , · · · , u bT ) Dans cette expression Pred(.|.) désigne la prévision de ce qui est avant le | sachant ce qui est après. On donnera dans ce cours un contenu précis à cette expression. Une deuxième raison justifie qu’on s’intéresse au modèle de l’erreur : on montre, voir par exemple ([2], chapitre 5) que si l’erreur est autocorrélée, l’estimateur des moindres carrés ordinaires (MCO) de β n’est pas efficace et il vaut mieux dans ce cas utiliser l’estimateur des moindres carrés généralisés (MCG) de β : b −1 y b −1 X)−1 X0 Ω βb = (X0 Ω où y est la matrice colonne (21 × 1) des valeurs du niveau, X est la matrice (21 × 2) dont la b est une estimation de la matrice des covariances de l’erreur ligne t est [1 t] et Ω Le test de Durbin-Watson qu’on examinera avec d’autres tests de non corrélation (5.1.2) est un test de blancheur de l’erreur basé sur le résidu d’un ajustement par MCO tel que (2.1) et pour une hypothèse alternative particulière. 2.3 5 Annexe : commandes SAS du chapitre. * population des Etats-Unis ; proc reg data=a; model pop_eu =an; /* output out=popout */ plot residual.*an; run; quit; /* Fabrication de la série an*an */ 14 Fig. 2.3 – Niveau du lac Huron - ajustement Fig. 2.4 – Niveau du lac Huron - résidus en d’un polynome de degré 1 fonction du temps Fig. 2.5 – Lac Huron - résidu contre résidu retardé 15 10 data b; set a; an2 = an*an; run; 15 proc reg data=b; model pop_eu =an an2; plot residual.*an; run; quit; Noter qu’on peut faire un graphe des résidus sans les stocker explicitement. 5 10 15 title "Niveau du lac Huron"; proc gplot data=st6.lake; symbol1 v=star i= r l=1; plot niveau * date = 1; run; quit; proc autoreg data= st6.lake; model niveau = date; output out= lakout residual=residmc; run; title "Lac Huron - residu contre residu retarde"; proc gplot data=b; symbol1 v=star i= none; plot resret * residmc = 1; run; quit; 20 data b; set lakout; zero =0; run; 25 30 title "Niveau du lac Huron - Residus"; proc gplot data=b; symbol1 v=none i= join; symbol2 v=none i= join; plot residmc * date = 1 zero*date=2 /overlay; run; quit; Noter dans la proc autoreg ci-dessus le stockage des résidus par la commande output. Fabrication de la série des résidus retardés. On utilise la fonction lag1 qui retarde la série de 1, comme on peut le voir sur l’extrait d’output. data b; set lakout; resret =lag1(residmc); run; Trois premières lignes du fichier b : Obs residmc NIVEAU DATE 1 0.20218 10.38 1875 resret . 16 2 3 1.70636 0.84061 11.86 10.97 1876 1877 0.20218 1.70636 17 Chapitre 3 Rappels de statistique mathématique 3.1 Matrice des covariances d’un vecteur aléatoire On considère X = [X1 , · · · , Xn ]0 un vecteur aléatoire, représenté en matrice colonne. On suppose que E|Xi | < ∞, ∀i. On appelle moyenne ou espérance mathématique de X, la matrice colonne des moyennes des composantes de X : µX = E(X) = E(X) = [E(X1 ), · · · , E(Xn )]0 On peut définir de la même façon la moyenne de toute matrice, comme la matrice des moyennes de ses éléments. Si X = [X1 , · · · , Xn ]0 et Y = [Y1 , · · · , Ym ]0 sont des vecteurs aléatoires, on appelle matrice des covariances de X et Y la matrice : ΣXY = cov(X, Y) = E[(X − EX)(Y − EY)0 ] = E(XY0 ) − (EX)(EY)0 L’élément (i, j) de ΣXY est la covariance cov(Xi , Yj ) = E(Xi Yj ) − E(Xi )E(Yj ). Dans le cas particulier où Y = X, cov(X, Y) se reduit à la matrice des covariances du vecteur X. Supposons que Y est une transformation affine de X : Y = a + BX où a est un vecteur colonne m × 1 et B une matrice m × n. Alors : EY = a + BEX ΣYY = BΣX,X B 0 3.2 Lois de probabilités d’un vecteur aléatoire Soit X et Y deux v.a. ∈ R. On appelle fonction de répartition conjointe de (X, Y ), de paramètre θ, la fonction : FX,Y (x, y; θ) = P (X ≤ x, Y ≤ y), 18 où x ∈ R, y ∈ R. La fonction de densité de probabilité du couple (X, Y ), si elle existe, est la fonction fX,Y (x, y; θ) qui permet d’écrire : Z x Z y FX,Y (x, y; θ) = fX,Y (u, v; θ)dudv −∞ −∞ On dit alors que (X, Y ) est un vecteur aléatoire continu. Soit des points : x ∈ Rp , y ∈ Rq et deux vecteurs aléatoires : X = [X1 , · · · , Xp ]0 , Y = [Y1 , · · · , Yq ]0 . La fonction de répartition conjointe, de paramètre θ, des deux vecteurs X et Y est : FX,Y (x, y; θ) = P (X ≤ x, Y ≤ y), où, x ∈ Rp , y ∈ Rq et les inégalités se comprennent composante par composante. Distribution marginale. La fonction de répartition marginale de X est : FX (x; θ) = FX,Y (x, ∞; θ) où ∞ résume q fois ce symbole. On l’obtient en intégrant la densité conjointe sur toutes les composantes de y. Distribution conditionnelle. Si les densités existent, la densité conditionnelle de Y sachant que X = x est : fX,Y (x, y; θ) fY |X=x (y; θ) = fX (x; θ) On utilise souvent, en particulier dans les séries temporelles, la factorisation de la densité conjointe apparaissant ci-dessus : fX,Y (x, y; θ) = fX (x; θ)fY |X=x (y; θ) (3.1) Si le contexte ne prête pas à confusion, on écrit fY |X (y) à la place de fY |X=x (y) 3.2.1 Loi normale Soit X = [X1 , · · · , Xn ]0 un vecteur aléatoire. Définition. X a une distribution normale multidimensionnelle (ou multivariée) de moyenne µ et de matrice des covariances non-singulière Σ = ΣX,X , et on écrit X ∼ N(µ, Σ), si la densité de probabilité du vecteur X est : 1 fX (x) = (2π)−n/2 (detΣ)−1/2 exp[− (x − µ)0 Σ−1 (x − µ)] 2 (3.2) Remarquons que cet énoncé contient le fait que µ n × 1 est la moyenne de X et Σ n × n la matrice des covariances de X. Résultat. Si X ∼ N(µ, Σ), B est une matrice m × n, de rang m, et a un vecteur réel m × 1, alors le vecteur aléatoire Y = a + BX suit une loi normale. Sa moyenne est a + Bµ et sa matrice des covariances : BΣB0 . Ce résultat s’obtient par une application directe des formules de changement de variables pour des densités de probabilité. Nous l’admettons sans démonstration. 19 Considérons la factorisation de Choleski de Σ : Σ = Σ1/2 (Σ1/2 )0 où Σ1/2 est une matrice triangulaire inférieure. Alors la variable :Z = [Z1 , · · · , Zn ] = Σ−1/2 (X − µ) est de moyenne 0, de matrice des covariances, Σ−1/2 Σ(Σ−1/2 )0 = I n , Z ∼ N(0n,1 , I n ). On appelle cette loi, loi normale mulivariée standardisée. La densité de Z est 1 1 1 (3.3) fZ (z) = (2π)−n/2 exp[− z0 z] = {(2 π)−1/2 exp[− z12 ]} · · · {(2π)−1/2 exp[− zn2 ]} 2 2 2 On reconnaı̂t le produit des densités de n v.a. i.i.d. N(0, 1) Remarques. 1 On peut définir une loi normale même si la matrice des covariances n’est pas inversible. 2 De (3.3), on voit que Z0 Z ∼ χ2 (n) , mais Z0 Z = (Σ−1/2 (X − µ))0 Σ−1/2 (X − µ) = (X − µ)0 Σ−1 (X − µ) ∼ χ2 (n) (3.4) On énonce parfois ce résultat, vu (3.2), par : l’exposant de la densité d’une v.a. normale suit une loi χ2 (rang(Σ)). Loi normale bivariée La matrice des covariances de X = [X1 X2 ]0 normal bivarié de moyenne µ = [µ1 µ2 ]0 , est : σ12 ρσ1 σ2 Σ= , σ1 > 0, , σ2 > 0, − 1 < ρ < 1 ρσ1 σ2 σ22 Les paramètres σ1 , σ2 , ρ sont les écart-types et coefficient de corrélation des deux composantes. L’inverse de Σ est σ1−2 −ρσ1−1 σ2−1 −1 2 −1 Σ = (1 − ρ ) −ρσ1−1 σ2−1 σ2−2 et donc la densité de X est : fX (x) = (2πσ12 σ22 (1 − ρ2 )1/2 )−1 x 1 − µ1 2 x 1 − µ1 x 2 − µ2 x 2 − µ2 2 −1 [( ) − 2ρ( )( )+( ) ]} (3.5) exp{ 2 2(1 − ρ ) σ1 σ1 σ2 σ2 dans l’espace (x1 , x2 , z) les courbes de niveau : fX (x) = constante, sont des ellipses, d’autant plus proches d’un cercle que |ρ| est proche de 0. Voir le TP SAS. Loi normale conditionnelle Considérons un vecteur normal de Rn et une partition de ses composantes : (1) X X= , X(1) n1 × 1, X(2) n2 × 1, n1 + n2 = n (2) X et les partitions associées des moyennes et matrice de covariance : (1) µ Σ11 Σ12 µ= , et Σ = Σ21 Σ22 µ(2) Proposition. 20 1 X(1) et X(2) sont indépendants si et seulement si Σ21 = 0 2 La distribution conditionnelle de X(1) sachant que X(2) = x(2) est −1 N(µ(1) + Σ12 Σ−1 22 (x2 − µ2 ), Σ11 − Σ12 Σ22 Σ21 ) (3.6) Pour la démonstration des propriétés d’un vecteur normal, voir par exemple Brockwell et Davis ([4]). 3.3 Tests d’hypothèses Situation. Soit X une v.a.. On s’intéresse à une caractéristique de la loi de probabilité de X : moyenne, 1er quartile, variance... Appelons θ cette caractéristique. C’est un nombre (ou un vecteur) certain inconnu. On dispose d’autre part d’un échantillon d’observations x1 , · · · , xn indépendantes de X qui permet d’estimer θ. On veut d’autre part tester une hypothèse nulle sur θ. Situation pratique courante. Beaucoup de tests d’hypothèse reviennent à la situation : tester l’hypothèse nulle H0 : θ = θ0 contre, par exemple, H1 : θ 6= θ0 où θ0 est une valeur particulière de θ et d’autre part, on dispose d’un estimateur1 θb pour lequel, on sait par le théorème central limite, que si n, le nombre d’observations est suffisamment grand, on a : b θb ' N (θ, var(θ)) b de var(θ). b c θ) et enfin on dispose d’une estimation var( Donc, si H0 est vraie, θb − θ0 Z= b .5 c θ)) (var( suit approximativement une loi N (0, 1). On voit qu’on rejettera H0 au profit de H1 si Z prend une valeur exceptionnellement élevée pour une variable N (0, 1). La région critique (RC) est donc : Z > z0 Si on prend comme valeur z0 , la valeur zobs observée pour Z sur l’échantillon, la probabilité de rejeter l’hypothèse nulle alors qu’elle est vraie : P r(Z > zobs |Z ∼ N (0, 1)) est appelée le niveau de signification empirique. 1 Rappel. Un estimateur d’un paramètre d’une v.a. est une fonction des observations de cette v.a.. La fonction en question est propre à la méthode d’estimation mise en œuvre. 21 3.4 Rappels sur la régression linéaire On dispose d’observations indépendantes y1 , · · · , yn d’une variable aléatoire Y . La moyenne de Y dépend de variables x1 , · · · , xp observées simultanément : on note Ppxki la valeur de la variable k pour l’observation i. On suppose précisément que E(yi ) = k=1 βk xki et que les ui = yi − E(yi ) sont non corrélés, de moyenne 0 (évidemment) et de variance constante σU2 . Posant xi = [x1i , · · · , xpi ]0 , X = [x1 , · · · , xn ]0 β = [β1 , · · · , βp ]0 , y = [y1 , · · · , yn ]0 U = [u1 , · · · , un ]0 on a donc le modèle : y = Xβ + U, U ∼ (0, σU2 I ) (3.7) L’estimateur des moindres carrés ordinaires : βb = (X0 X)−1 X0 y est linéaire en y (chaque composante de βb est bien une combinaison linéaire des yi ). Il est sans b = β, et vérifie : var(β) = σ 2 (X0 X)−1 . Cet estimateur a la propriété d’optimalité biais : E(β) U suivante. Théorème de Gauss-markov. Dans le modèle (3.7), l’estimateur βb est optimal dans la classe des estimateurs linéaires et sans biais en ce sens que pour tout autre estimateur linéaire e − var(β) b est semi définie positive. et sans biais βe de β on a : var(β) Dans les séries temporelles, une observation est associée à une date et comme on l’a vu pour l’exemple du lac Huron, la non corrélation des erreurs ne tient pas toujours. Le remède consiste donc, étant donnée une série {yt } et des variables explicatives xt , à utiliser la méthode des moindres carrés généralisés. La matrice des covariances de l’erreur doit être identifiée à partir de la structure d’autocorrélation des résidus d’un ajustement par MCO. Dans l’exemple du lac Huron, on a fait une partie du travail. Test de normalité de l’erreur. Il y a plusieurs tests de normalité d’une distribution. La proc autoreg de SAS fournit la statistique de Jarque-Bera, couramment utilisée dans les études économétriques. Principe : Supposons une série de n observations indépendantes d’une v.a. Y , y1 , · · · , yn , supposées pour simplifier centrées à la moyenne. L’asymétrie (skewness) empirique est p m3 b1 = 3/2 m2 et l’applatissement (kurtosis) empirique est b2 = où mj = (1/n) Pn i=1 m4 m22 yij , j = 2, 3, 4. Si Y suit une loi normale alors : √ √ 0 6 0 b1 L n −−−→ N , 3 0 24 n→∞ b2 22 La statistique de Jarque-Bera est √ √ 2 ( b1 − 0)2 (b2 − 3)2 b1 (b2 − 3)2 T = n( + ) = n( + ). 6 24 6 24 Si Y est normalement distribuée de moyenne 0, alors T suit approximativement une loi de χ22 . (Notons que ceci est une illustration de la propriété énoncée après (3.4).) On rejette l’hypothèse nulle, normalité, pour de grandes valeurs de la statistique. Mise en œuvre. La table a contient les variables y, x1, x2. Pour tester à l’aide de la proc autoreg que l’erreur dans la régression de y sur x1 et x2 est normale on écrira la syntaxe : proc autoreg data=a; model y= x1 x2 /normal ; run; Pour tester que y est normal on écrira la syntaxe : proc autoreg data=a; model y= /normal ; run; 3.5 Exercices 1. Régression linéaire. On considère le modèle linéaire : yt = β0 + β1 t + ut , t = 1, · · · , T où les ut sont i.i.d. N(0, σ 2 ). On suppose que ce modèle tient au-delà de T . (1) ... (2) Calculer la prévision à l’horizon h de yt . Donner la covariance des prévisions aux horizons h et h + 1. 2. Tests dans le modèle linéaire. On a fait la régression linéaire du poids sur la taille et l’âge, par sexe, sur un ensemble d’enfants. Un certain nombre de résultats figurent ci-dessous. (1) Discuter la pertinence de ce modèle. (2) Tester l’hypothèse que chez les filles, le coefficient de la taille est égal à deux fois celui de l’âge. (3) Tester l’hypothèse que les coefficients de la taille sont égaux dans les deux populations. Note. Avant de s’embarquer dans des calculs numériques, il faut raconter l’histoire qui justifie l’emploi des techniques qu’on veut mettre en œuvre. 5 *------------Data on Age, Weight, and Height of Children-------* | Age (months), height (inches), and weight (pounds) were | | recorded for a group of school children. | | From Lewis and Taylor (1967). | *--------------------------------------------------------------*; title ’----- Data on age, weight, and height of children ------’; 23 10 15 20 proc reg data=htwt rsquare covout corr; by sex; eqa: model weight=height age; print covb corrb ; run; ------------------------------------ sex=f -------------------------The REG Procedure Correlation Variable height age weight height 1.0000 0.5439 0.7511 age 0.5439 1.0000 0.5393 weight 0.7511 0.5393 1.0000 25 30 35 40 45 50 55 60 65 70 75 Source Model Error Corrected Total DF 2 108 110 The REG Procedure Model: eqa Dependent Variable: weight Analysis of Variance Sum of Mean Squares Square F Value 22432 11216 77.21 15689 145.26700 38121 Root MSE Dependent Mean Coeff Var 12.05268 98.87838 12.18939 R-Square Adj R-Sq Pr > F <.0001 0.5884 0.5808 Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > |t| Intercept 1 -150.59698 20.76730 -7.25 <.0001 height 1 3.60378 0.40777 8.84 <.0001 age 1 1.90703 0.75543 2.52 0.0130 ------------------------------------ sex=f -----------------------------The REG Procedure Model: eqa Dependent Variable: weight Covariance of Estimates Variable Intercept height age Intercept 431.28074658 -7.309712477 0.7576724388 height -7.309712477 0.166274748 -0.167528183 age 0.7576724388 -0.167528183 0.5706722044 Correlation of Estimates Variable Intercept height age Intercept 1.0000 -0.8632 0.0483 height -0.8632 1.0000 -0.5439 age 0.0483 -0.5439 1.0000 ------------------------------------ sex=m ---------------------------The REG Procedure Model: eqa Dependent Variable: weight Correlation Variable height age weight height 1.0000 0.7466 0.7903 age 0.7466 1.0000 0.7181 weight 0.7903 0.7181 1.0000 ------------------------------------ sex=m ------------------------------The REG Procedure Model: eqa Dependent Variable: weight Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 2 32975 16487 120.24 <.0001 Error 123 16866 137.11922 24 Corrected Total 80 85 90 95 125 49840 Root MSE Dependent Mean Coeff Var 11.70979 103.44841 11.31945 R-Square Adj R-Sq 0.6616 0.6561 Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > |t| Intercept 1 -113.71346 15.59021 -7.29 <.0001 height 1 2.68075 0.36809 7.28 <.0001 age 1 3.08167 0.83927 3.67 0.0004 ------------------------------------ sex=m -----------------------------The REG Procedure Model: eqa Dependent Variable: weight Covariance of Estimates Variable Intercept height age Intercept 243.05476027 -4.621590334 2.7393290828 height -4.621590334 0.1354906781 -0.230632776 age 2.7393290828 -0.230632776 0.7043800994 100 Variable Intercept height age Correlation of Estimates Intercept height 1.0000 -0.8054 -0.8054 1.0000 0.2094 -0.7466 age 0.2094 -0.7466 1.0000 105 3. Valeur manquante. On a fait n = 100 observations indépendantes d’un couple X1 , X2 de variables conjointement normales. Pour l’observation n◦ 4, on a perdu la valeur de X1 . La moyenne empirique et la matrice des covariances empirique des 99 observations complètes sont : −2.1045 2.3601 −0.6665 b µ b= Σ= 2.8510 −0.6665 2.0195 Pour l’observation n◦ 4, X2 = 3.3649. (1) Quelle est la loi de X1 sachant que X2 = 3.3649 ? (2) Suggérer d’après (1) une approximation de la valeur manquante de X1 . (3) Donner un intervalle de prévision à 95% pour cette valeur (Question : pourquoi ”intervalle de prévision” et non ”intervalle de confiance” ?). 4. Estimation de la demande d’essence. (Exercice de révision de notions vues antérieurement.) On dispose de données américaines pour les années 60 à 86, observées sur 27 ans : YR année G consommation totale d’essence (en dizaines de millions d’essence-dollar en 1967) PG indice des prix de l’essence (en dollars de 1967) I revenu disponible par tête (en dollars de 1967) PNC indice des prix des voitures neuves (en dollars de 1967) PUC indice des prix des voitures d’occasion (en dollars de 1967) PPT indice des prix des transports publics (en dollars de 1967) PD indice des prix agrégés des biens durables (en dollars de 1982) PN indices des prix agrégés des biens de consommation courante (en dollars de 1982) PS indice des prix agrégés des services (en dollars de 1982) YRSQ carre de l’année. La consommation d’essence est calculée comme la dépense courante en dollars divisée par 25 l’indice des prix de l’essence. On veut estimer la fonction de demande d’essence. (1) Dessiner le nuage des points (PG,G) en portant la date comme étiquette des points (pour faire ce travail en SAS,utiliser la syntaxe figurant dans demanda.sas). Qu’y a-t-il de remarquable ? (2) Dessiner le nuage des points (YR,G). Expliquer. (3) Calculer le coefficient de corrélation simple entre PG et G. (4) Régresser la consommation sur l’ensemble des autres variables. Examiner les résultats. Commenter. (5) Calculer la statistique de Durbin-Watson (5.8). (6) Simplifier le modèle. (7) Calculer le coefficient de corrélation partielle entre PG et G, dans le modèle simplifié. Comparer son signe avec celui du coefficient de corrélation simple. Expliquer. Note. Soit la régression linéaire de yi sur x1i , · · · xki , i = 1, · · · , n. On appelle coefficient de corrélation partielle entre y et x1 , le coefficient de corrélation entre les résidus (1) de la régression de y sur x2 , · · · , xk et (2) de la régression de x1 sur x2 , · · · , xk . C’est un coefficient de corrélation entre y et x1 , net des effets parasites de x2 , · · · , xk . Cette notion est reprise et détaillée pour les séries temporelles au chapitre (7). 5. TP SAS. Lancer le travail : norbivar.sas puis modifier la syntaxe pour dessiner successivement des vecteurs de lois : 0 1 −1 1 2 1.5 0 ,Σ = ) N( ,Σ = ), N( −1 2 0 1.5 3 0 5 10 15 20 /* norbivar.sas */ data fxy; /* coefficient de corrélation */ rho=0.50; pi=arcos(-1); k=1/(2*pi*sqrt(1-rho**2)); do x=-3 to 3 by 0.1; do y=-3 to 3 by 0.1; fxy=k*exp(-(x**2+2*rho*x*y+y**2)/(1-rho**2)); output; end; end; label x=’x’ y=’y’ fxy=’f(x,y)’; run; /* remise a zero des options graphiques */ goptions; title "Graphe de la densite normale bivariee"; proc g3d; plot y*x=fxy; run; 26 Chapitre 4 Lissage 4.1 Lissage exponentiel But. Le lissage exponentiel est un outil pour faire de la prévision de séries sans en chercher préalablement un modèle. On présente ici le lissage exponentiel comme une régression linéaire pondérée. On s’intéresse à une série {yt } pouvant être modélisée par : yt = ψ(t) + Zt , 1≤t≤T (4.1) 2 Zt ' BB(0, σZ ) ψ(t) est un polynôme dont les coefficients varient lentement au cours du temps Objectif. Prédire la série en T + 1, · · · , T + h où h, l’horizon, ne dépasse généralement pas 3 ou 4. Moyen. Estimer la tendance au voisinage d’un point T par un polynôme de faible degré (pas plus de 2) ajusté sur les voisins de T . Habituellement, la série est observée de t = 1 à t = T et donc les voisins de la date T sont des points de date inférieure. En lissage exponentiel, on mesure l’intensité du voisinage à T par un poids qui décroit exponentiellement quand on s’écarte de T . On est au voisinage de T . Le poids du point t, t < T est pris de la forme : ωT −t = α(1 − α)T −t où 0 < α < 1 est un paramètre à fixer, plus α est proche de 0 plus les points ont des poids proches ; plus α est proche de 1, moins les points éloignés de T ont de l’importance. Lissage exponentiel simple Il correspond à ψ(t) = c dans (4.1) au voisinage de T . L’ajustement par régression pondérée d’une constante à {yt } consiste à prendre comme estimateur de c le minimiseur de T X α(1 − α)T −t (yt − c)2 = α t=1 T −1 X k=0 27 (1 − α)k (yT −k − c)2 c’est-à-dire b c= α PT −1 T −k yT −k k=0 (1 − α) PT −1 α k=0 (1 − α)k si T est grand, le dénominateur est ' 1 et on écrit, au moins pour les calculs formels : ∞ X b c(T ) = α (1 − α)k yT −k k=0 On prédit yT +h par b c(T ). On comprend donc que si la série a une tendance linéaire, la méthode n’est pas très satisfaisante. • Mise à jour de la prévision. L’observation yT +1 devient disponible. On observe que b c(T + 1) = αyT +1 + (1 − α)b c(T ) On retrouve l’interprétation de α. Cette présentation du lissage exponentiel simple s’appelle aussi lissage de Brown. • Mise en pratique. Il faut une valeur de démarrage pour la récurrence (on prend souvent b c(1) = y1 ) et une valeur P de α. Pour α on calcule pour une grille de valeurs de α, l’erreur c(t))2 , et on retient la valeur de α qui minimise cette erreur. quadratique de prévision : t (yt −b Lissage exponentiel double Supposons qu’au voisinage de T , la série est bien ajustée par une droite : dans 4.1, ψ(t) = a1 + a2 (t − T ), pour t ' T . Donc a1 = a1 (T ), a2 = a2 (T ). Posons pour alléger l’écriture : β = 1 − α. On cherche a1 et a2 qui minimisent : T −1 X β j [yT −j − (a1 − a2 j)]2 j=0 C’est un problème classique de moindres carrés pondérés. Notons b a1 (T ), â2 (T ) la solution. On prédit ensuite yT par ŷT −1 (1) = b a1 (T ) + â2 (T ) × 1 et yT +k par yT (k) = b a1 (T ) + kâ2 (T ). • Mise à jour de la prévision. L’observation yT devient disponible. Les coefficients de la droite ajustée deviennent a1 (T + 1), a2 (T + 1). Un calcul un peu fastidieux mais sans difficulté particulière donne, voir Gourieroux et Monfort [9] par. 4-2 : b a1 (T ) = b a1 (T − 1) + b a2 (T − 1) + (1 − β 2 )(yT − yT −1 (1)) b a2 (T ) = b a2 (T − 1) + (1 − β)2 (yT − yT −1 (1)) Remplaçons dans ces expressions, yT −1 (1) par b a1 (T − 1) + â2 (T − 1). On obtient : β 2 (b a1 (T − 1) + b a2 (T − 1)) + (1 − β 2 )yT (1 − β)2 (1 − β)2 b a2 (T ) = (1 − )b a (T − 1) + (b a1 (T ) − b a1 (T − 1)) 2 1 − β2 1 − β2 Ce sont des combinaisons convexes de l’information passée et de l’information disponible à la date T . 2 Méthode de Holt-Winters. Posons : α = β 2 et γ = 1 − (1−β) et oublions la dépendance par 1−β 2 rapport à β. La méthode de Holt-Winters correspond au mécanisme de mise à jour : b a1 (T ) = b a1 (T ) = α(b a1 (T − 1) + b a2 (T − 1)) + (1 − α)yT b a2 (T ) = γb a2 (T − 1) + (1 − γ)(b a1 (T ) − b a1 (T − 1)) Note. Dans SAS, le lissage exponentiel peut se faire par la proc forecast 28 4.2 Lissage par Moyenne Mobile But. Le lissage par Moyenne Mobile (Running mean) est un moyen pour éliminer ou au contraire conserver certains aspects d’une série. Ce n’est pas un outil de prévision. Etant donné une série {xt } on la transforme en une série {yt } par l’opération linéaire yt = +s X ak xt−k k=−q où les ak sont un système de poids. Suivant ces poids, on peut garder uniquement un aspect d’une série, en faire disparaı̂tre un autre... Exemples. Estimation de la tendance par une moyenne locale, c’est-à-dire par une moyenne des observations voisines, passées et futures, de la date où on veut estimer la tendance. On peut estimer la moyenne au voisinage de t par P yt = Pm k=−m ak xt−k , m + 1 ≤ t ≤ n − m SC ak = 1 c’est une opération (ou filtre) linéaire. On obtient donc, si xt = ψ(t) + Zt : P ak ψ(t − k) + Zt∗ yt = m k=−m P m Zt∗ = k=−m ak Zt−k Variance et auto-covariance de l’erreur P 2 var(Zt∗ ) = σZ2 m k=−m Pamk 2 ∗ l=−m al+h al σZ si − 2m ≤ h ≤ 2m )= cov(Zt∗ , Zt+h 0 si 2m + 1 ≤ |h| Reste à préciser les ak : c’est un problème de minimisation sous contrainte (explicitez) et on obtient : ak = 1/(2m + 1). On peut vouloir conserver les polynômes d’un certain degré. Par exemple si ψ(t) est un polynôme de degré 3 on veut +s X ψ(t) = ak ψ(t − k) k=−q au moins pour t > q et t < T − s, T étant la longueur de la série. Pour q = s = 2 on obtient : k Coeff. -2 -3/35 -1 12/35 0 17/35 1 12/35 2 -3/35 La notation conventionnelle pour ce filtre est : M {[5]; 1 [−3, 12, 17]}. 35 C’est un exemple de la moyenne mobile d’Henderson. La moyenne mobile yt = 1 1 1 [ xt−m + xt−m+1 + · · · + xt+m−1 + xt+m ] 2m 2 2 29 annule les séries périodiques de période 2 m. On peut donc se servir de ce filtre avec m = 6 pour désaisonnaliser une série mensuelle. Si xt a une composante saisonnière : x t = m t + St avec St = St+12 , le filtre de différence saisonnière 1 − B12 annule cette composante : (1 − −B12 )xt = xt − xt−12 = mt − mt−12 . Remarques. La méthode X-11 enchaı̂ne des filtres pour éliminer des tendances ou des effets saisonniers dans tous les services de statistique officielle. Pour un exposé complet sur ces filtres et un aperçu de la méthode X-11, on consultera Gourieroux et Monfort ([9]) par. 3.7. 30 Chapitre 5 Propriétés de base des séries stationnaires 5.1 Stationarité La stationnarité est la clef de l’analyse des séries temporelles. Une série {Yt } est dite stritement stationnaire si la distribution conjointe de (Yt1 , · · · , Ytk ) est identique à celle de (Yt1 +t , · · · , Ytk +t ), quel que soit t, où k est un entier positif arbitraire et (t1 , · · · , tk ) une liste de k entiers positifs arbitraires. Autrement dit, la stationnarité stricte dit que la distribution conjointe de (Yt1 , · · · , Ytk ) est invariante quand on fait glisser le temps. Cette condition est difficile à vérifier et on utilise en général, une version plus faible de stationnarité. On dit qu’une série temporelle {Yt } est faiblement stationnaire si la moyenne de Yt et la covariance entre Yt et Yt−l sont invariantes par translation du temps. Précisément, {Yt } est faiblement stationnaire si : (a) E(Yt ) = µ où µ est une constante indépendante de t, (b) cov(Yt , Yt−l ) ne dépend que de l, entier. La stationnarité faible (ou du second ordre) implique que le graphe de la série en fonction du temps montre des fluctuations autour d’un niveau moyen, fluctuations qui se ressemblent, quel que soit la date autour de laquelle on examine la série. Les séries de population du chapitre précédent sont manifestement non stationnaires. La série des morts par accident au Royaume-Uni, le résidu de l’ajustement du niveau du lac Huron par un polynôme de degré 2, ont toutes les apparences de séries stationnaires. 5.1.1 Fonction d’autocovariance La covariance γl = cov(Yt , Yt−l ) est appelée autocovariance d’ordre (ou de décalage) l (lag-l autocovariance). Pour chaque décalage l, il y a une autocovariance. Définition. La fonction : l γl est la fonction d’autocovariance de {Yt }. Cette fonction a trois propriétés importantes : (a) γ0 = var(Yt ), (b) γl = γ−l , car : γ−l = cov(Yt , Yt−(−l) ) = cov(Yt−(−l) , Yt ) = cov(Yt+l , Yt ) = cov(Yt+l , Y(t+l)−l ) = γl Autre notation. On écrit aussi γY (l), en particulier pour distinguer la fonction d’autocovariance d’une série Y , de celle d’une autre série. 31 5.1.2 Corrélation et fonction d’autocorrélation Rappel. Le coefficient de corrélation entre deux v.a. X et Y de moyennes µX et µY est défini par : E[(X − µX )(Y − µY )] cov(X, Y ) =p ρX,Y = p var(X)var(Y ) E(X − µX )2 E(Y − µY )2 Ce coefficient est compris entre −1 et 1. Il mesure la force de la dépendance linéaire entre X et Y . Si on dispose d’un échantillon (xt , yt ), t = 1, . . . , T d’observations indépendantes de (X, Y ), on peut estimer de façon convergente le coefficient de corrélation par le coefficient de corrélation empirique : PT (xt − x)(yt − y) ρbX,Y = qP t=1 PT T 2 2 t=1 (xt − x) t=1 (yt − y) P P où x = Tt=1 xt /T et y = Tt=1 yt /T sont les moyennes empiriques de X et Y . Considérons maintenant une série temporelle xt , t = 1, . . . , T de valeurs numériques, sans nous interroger sur son modèle mathématique, et formons la série retardée : yt = xt−1 , t = 2, . . . , T . On peut calculer le coefficient de corrélation entre les deux séries : PT (xt − x)(yt − y) r = qP t=2 (∗). PT T −1 2 2 (x − (y − x) y) t t=1 t=2 t Si la série observée xt , t = 1, . . . , T est la réalisation d’une série (ou processus) stationnaire, ce coefficient mesurePla liaison entre la valeurPde la série en une date et en la date voisine. T −1 xt /(T − 1) et y = Tt=2 yt /(T − 1) ne différent que par les valeurs Observons que x = t=1 x1 et xT . Le paragraphe suivant formalise cette observation : on y définit d’abord la covariance décalée de 1, de 2,. . .d’une série stationnaire, puis le coefficient de corrélation décalé de 1, de 2,. . .,. On introduit ensuite la version empirique de ce coefficient de corrélation (5.4). On pourra observer qu’elle est plus simple que le r donné par la formule (*) ci-dessus. Fonction d’autocorrélation (ACF) Considérons une série (faiblement) stationnaire {Yt }. On est souvent intéressé par décrire la dépendance de {Yt } par rapport à son passé, notamment pour expliquer le niveau actuel de la série par le niveau à une date précédente. On sait que si une dépendance est linéaire, elle est bien décrite par le coefficient d’autocorrélation. Par définition, le coefficient d’autocorrélation d’ordre l est cov(Yt , Yt−l ) . (5.1) ρl = p var(Yt )var(Yt−l ) Mais var(Yt−l ) = var(Yt ) = γ0 donc : ρl = cov(Yt , Yt−l ) γl = . var(Yt ) γ0 (5.2) Enfin en terme d’espérance mathématique et notant que par la stationnarité : E(Yt ) = µ indépendant de t, on a : E[(Yt − µ)(Yt−l − µ)] . (5.3) ρl = E[(Yt − µ)2 ] 32 ρl est une mesure de la dépendance de la valeur Y en une date par rapport à sa valeur à une date décalée de l intervalles de temps. Définition. La fonction : l ρl , l = 0, 1, 2, . . . est appelée fonction d’autocorrélation (théorique), FAC (ou ACF en anglais) de la série {Yt }. De la définition on voit que : ρ0 = 1, −1 ≤ ρl ≤ 1. Etant un échantillon yt , t = 1, · · · , T , de {Yt } stationnaire, notons la moyenne empirique, Pdonné T y = t=1 yt /T . Le coefficient d’autocorrélation empirique d’ordre 1 est : PT (yt − y)(yt−1 − y) ρb1 = t=2PT (5.4) 2 (y − y) t t=1 Le coefficient d’autocorrélation empirique d’ordre l ≥ 1 est PT (yt − y)(yt−l − y) ρbl = t=l+1 ,0 ≤ l ≤ T − 1 PT 2 (y − y) t t=1 (5.5) Sous des conditions générales, voir par exemple Brockwell et Davis ([4]), ρbl est un estimateur convergent de ρl . Définition. La fonction : l ρbl , l = 0, 1, 2, . . . est appelée fonction d’autocorrélation empirique de la série {Yt }. Tests de non corrélation Résultat. Si {Yt } est une suite de v.a. i.i.d., de moment d’ordre 2 fini, E(Yt2 ) < ∞, alors les coefficients d’autocorrélation ρbl sont approximativement indépendants et normalement distribués, de moyenne 0, de variance 1/T . Ce résultat peut être utilisé pour différents tests. – Etant donnée √ une réalisation y1 , · · · , yT d’une série, on peut calculer pour un décalage l particulier : T (b ρl −0) et voir si ça peut être considéré comme la valeur d’une v.a. N(0,1). – Etant donnée une réalisation y1 , · · · , yT d’une série vérifiant les hypothèses du résultat ci-dessus, on devrait √ avoir environ 95% des coefficients d’autocorrélation empirique dans l’intervalle ±1, 96/ T . Si la proportion observée est loin de cette valeur, on peut conclure que les observations ne sont pas indépendantes. Test du Portemanteau Au lieu de tester les coefficients d’autocorrélation 1 par 1 comme ci-dessus, on peut faire un test global basé sur la statistique Q(h) = T h X ρbj 2 j=1 où h est un décalage qu’on choisit, avec habituellement : h < T /4. Sous l’hypothèse d’indépendance des {Yt } faite ci-dessus (hypothèse nulle), Q suit approximativement une loi de χ2 à h degrés 33 de liberté. Q est appelée statistique de Box-Pierce. Une modification de cette formule est la statistique de Box-Pierce-Ljung, programmée dans la proc arima notamment : ∗ Q (h) = T (T + 2) h X k=1 ρb2k . T −k (5.6) Souvent on s’intéresse à la blancheur non d’une série directement observée mais à la blancheur d’une série résidu d’un ajustement. Dans ce cas on diminue les degrés de liberté de la statistique du nombre de paramètres estimés dans le modèle. P Plus généralement, si Yt est une série stationnaire satisfaisant Yt = c + qi=1 ψi Zt−i où Zt est un BB gaussien alors ρbl est approximativement normalement distribué, de moyenne 0, P 1 + 2 qi=1 ρ2i . de variance (5.7) T Ce résultat est un cas particulier de la formule de Bartlett (voir ([4] sec. 2.4 pour les conditions exactes). Il permet de tester H0 : ρl = 0 contre H1 : ρl 6= 0. SAS utilise cette formule pour calculer un intervalle autour de 0 à 95% pour chaque décalage k sous l’hypothèse que ρm = 0, m > k. Test de Durbin-Watson Le test de Durbin-Watson est un test de blancheur de série particulier. Situation. On veut faire la régression d’une série yt scalaire sur une série vectorielle xt , t = 1, · · · , T . Le vecteur xt contient la constante. Le test de D-W s’intéresse à la situation : yt = x0t β + ut , t = 1, · · · , T où ut = ρut−1 + Zt , Zt ∼ BB et teste H0 : ρ = 0. Si ρ = 0 la méthode des MCO estime correctement β, si ρ 6= 0 l’estimation de β obtenue par MCO n’est pas efficace. Le test de D-W teste H0 contre : H1a : ρ 6= 0 ou H1b : ρ > 0 ou H1c : ρ < 0. La statistique de test est : PT (b ut − u bt−1 )2 (5.8) d = t=2PT 2 u b t=1 t où u bt est le résidu de la régression par MCO de y sur x ; 0 ≤ d ≤ 4. En développant on observe que d ' 2(1 − ρb) où ρb est le coefficient d’autocorrélation empirique des résidus. On voit que la région critique est de la forme : pour H1a , d << 2 ou d >> 2, pour H1b , d << 2, pour H1c , d >> 2. Durbin et Watson ont pensé ce test à une époque où il y avait peu d’ordinateurs. Leurs tables donnent des bornes approchées de la région critique indépendantes des valeurs des x. Actuellement beaucoup de logiciels donnent les niveaux de signification empiriques exacts. Dans SAS, la proc autoreg calcule la statistique de D-W. On trouve un exposé détaillé de ce test dans tous les manuels d’économétie, Bourbonnais ([2]), par exemple. Notes sur le paragraphe. 34 ukdeath 1000 1500 2000 2500 1970 1975 Time 1980 1985 Fig. 5.1 – Bruit blanc Fig. 5.2 – Nombre de conducteurs morts ou gravement blessés au R.-U.. 1. Plus le décalage l est grand, moins il y a d’observations pour estimer ρl dans (5.5). On s’arrête habituellement à l = T /4. 2. Observons que l’on peut calculer (5.5) pour toute série, stationnaire ou non. On montre que pour une série stationnaire, le corrélogramme empirique, graphe de l ,→ ρbl décroit exponentiellement vers 0, avec éventuellement des oscillations. Inversement un corrélogramme empirique qui ne tend pas rapidement vers 0, n’est pas le corrélogramme d’une série stationnaire. Cette observation permet de se faire une idée de la stationnarité d’une série d’après l’examen de son corrélogramme empirique. 5.2 Exemples de fonctions d’autocorrélation empiriques 1. Bruit blanc. On a simulé un bruit blanc N (0, σ 2 = 2.25) sur 200 instants consécutifs (5.1), et estimé sa FAC (Table 5.1). Les ... sont les limites de l’intervalle autour de 0 introduit après la formule de Bartlett (5.7) ; le calcul suppose pour chaque k, k > 0 que toutes les autocorrélations sont nulles à partir de k. Ici les valeurs observées tombant dans l’intervalle ∀k suggèrent bien qu’on a dessiné la FAC empirique d’un BB. Le test du portemanteau est donné ensuite. La ligne (6 de la table 5.2) correspond au test de H0 : ρ1 = · · · = ρ6 = 0. 2. Nombre de conducteurs morts ou sérieusement blessés par mois au Royaume-Uni entre janvier 1969 et décembre 1984. Voir les tables 5.3 et 5.4. La ceinture de sécurité devient obligatoire à partir de février 1983. Source : Harvey, 1989, p.519ff. http://www-personal.buseco.monash.edu.au/˜hyndman/TSDL/tourism.html Cette série semble-t-elle stationnaire ? 35 0.6 200 160 120 0.8 csEnrPr 240 1.0 Series ukdeath 1980 1990 2000 Time 0.4 ACF 1970 0.2 −0.2 0.0 ACF 0.6 1.0 0.2 csEnrPr 0.0 0.5 1.0 1.5 0 Lag 5 10 15 Lag Fig. 5.3 – Nombre de conducteurs morts ou Fig. 5.4 – Consommation d’énergie prigravement blessés au R.-U. : FAC. maire en France 106 tonnes : série et FAC 3. Consommation d’énergie primaire en France de 1965 à 2002 (prévision). Voir le site de BP : http://www.bp.com/ Cette série semble-t-elle stationnaire ? D’après votre réponse, commentez la pertinence du graphique de la FAC. 5.3 Annexe – code SAS * Syntaxe pour la simulation du Bruit blanc gaussien de variance 1.5**2 . ; data a; do i =1 to 200; z = 1.5* rannor(45297); output; end; run; * calcul de la FAC de la série précédente ; proc arima data= a; i var = z; run; quit; 36 Tab. 5.1 – FAC empirique d’un bruit Blanc The SAS System 06:07 Sunday, July 11, 2004 The ARIMA Procedure 5 Name of Variable = z Mean of Working Series Standard Deviation Number of Observations 10 -0.12203 1.637604 200 Autocorrelations 15 20 25 30 35 40 Lag Covariance Correlation 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 2.681746 0.055661 0.100309 0.049561 -0.145573 -0.055428 0.218940 0.247274 -0.198556 -0.081473 -0.119776 -0.019767 -0.161385 -0.092279 -0.198980 -0.136983 -0.105819 -0.056320 0.147906 -0.126669 -0.114486 -0.228622 0.020796 -0.423656 -0.105117 1.00000 0.02076 0.03740 0.01848 -.05428 -.02067 0.08164 0.09221 -.07404 -.03038 -.04466 -.00737 -.06018 -.03441 -.07420 -.05108 -.03946 -.02100 0.05515 -.04723 -.04269 -.08525 0.00775 -.15798 -.03920 -1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1 | | | | | | | | | | | | | | | | | | | | | | | | | |********************| . | . | . |* . | . | . | . *| . | . | . | . |**. | . |**. | . *| . | . *| . | . *| . | . | . | . *| . | . *| . | . *| . | . *| . | . *| . | . | . | . |* . | . *| . | . *| . | .**| . | . | . | ***| . | . *| . | Std Error 0 0.070711 0.070741 0.070840 0.070864 0.071072 0.071102 0.071569 0.072160 0.072539 0.072603 0.072740 0.072744 0.072992 0.073073 0.073449 0.073627 0.073732 0.073762 0.073968 0.074119 0.074241 0.074729 0.074733 0.076385 "." marks two standard errors 45 Tab. 5.2 – Test du portemanteau pour un bruit Blanc Autocorrelation Check for White Noise To Lag ChiSquare DF Pr > ChiSq 6 12 18 24 2.53 6.87 10.01 18.62 6 12 18 24 0.8654 0.8661 0.9317 0.7722 --------------------Autocorrelations-------------------- 5 0.021 0.092 -0.034 -0.047 0.037 -0.074 -0.074 -0.043 10 37 0.018 -0.030 -0.051 -0.085 -0.054 -0.045 -0.039 0.008 -0.021 -0.007 -0.021 -0.158 0.082 -0.060 0.055 -0.039 1 Tab. 5.3 – FAC empirique de la série ”Nombres de morts par accident au Royaume-Uni The ARIMA Procedure Name of Variable = nbmorts 5 Mean of Working Series Standard Deviation Number of Observations 1670.307 288.8558 192 10 Autocorrelations 15 20 25 30 35 Lag Covariance Correlation 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 83437.661 59175.305 38668.111 22355.203 12236.275 10562.841 5569.811 6611.029 6371.492 15602.846 28378.989 46148.290 58509.710 44807.324 24629.801 11064.697 2834.743 -371.072 -1974.918 -3902.628 -4232.750 3160.806 14258.737 32610.400 42438.630 1.00000 0.70922 0.46344 0.26793 0.14665 0.12660 0.06675 0.07923 0.07636 0.18700 0.34012 0.55309 0.70124 0.53702 0.29519 0.13261 0.03397 -.00445 -.02367 -.04677 -.05073 0.03788 0.17089 0.39084 0.50863 -1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1 | | | | | | | | | | | | | | | | | | | | | | | | | . . . . . . . . . . . . . . . . . . . . . . . . |********************| |************** | |********* | |***** | |*** . | |*** . | |* . | |** . | |** . | |****. | |******* | |*********** | |************** | |*********** | |******. | |*** . | |* . | | . | | . | *| . | *| . | |* . | |*** . | |******** | |********** | Std Error 0 0.072169 0.102214 0.112628 0.115900 0.116862 0.117574 0.117772 0.118049 0.118306 0.119836 0.124762 0.136938 0.154513 0.163946 0.166691 0.167240 0.167276 0.167277 0.167294 0.167362 0.167442 0.167487 0.168392 0.173053 40 "." marks two standard errors Tab. 5.4 – Test de blancheur de la série ”Nombres de morts par accident au Royaume-Uni Autocorrelation Check for White Noise 5 To Lag ChiSquare DF Pr > ChiSq 10 6 12 18 24 162.69 360.63 442.95 541.71 6 12 18 24 <.0001 <.0001 <.0001 <.0001 --------------------Autocorrelations-------------------0.709 0.079 0.537 -0.047 0.463 0.076 0.295 -0.051 38 0.268 0.187 0.133 0.038 0.147 0.340 0.034 0.171 0.127 0.553 -0.004 0.391 0.067 0.701 -0.024 0.509 Chapitre 6 Modèles de séries stationnaires Dans le précédent chapitre on a défini la stationnarité (faible) et étudié la fonction d’autocorrélation d’une telle série. Maintenant nous examinons les exemples classiques de séries stationnaires et calculons leurs fonctions d’autocorrélation. Premier exemple, le bruit blanc. Un bruit blanc est une série stationnaire. Si {Zt } ∼ BB(0, σZ2 ), sa fonction d’autocovariance est : 2 σZ , k = 0 γZ (k) = 0, k 6= 0 Etant donné une série empirique, sa modélisation revient souvent à trouver, c’est-à-dire identifier et estimer le mécanisme qui fait passer d’un BB à la série. 6.1 Série linéaire Une série Yt est dite linéaire si elle peut s’écrire : ∞ X Yt = µ + ψi Zt−i (6.1) i=−∞ P où Zt est un BB(0, σZ2 ), ψ0 = 1 et la suite {ψi } est absolument sommable, c’est-à-dire i |ψi | < ∞. On admettra qu’une série linéaire est stationnaire. Une série est dite linéaire et causale si elle est linéaire et ψi = 0, i < 0, autrement dit elle ne dépend que du BB passé. Pour une discussion sur le sens de l’écriture ci-dessus, on peut voir par exemple Hamilton ([10]), paragraphe 3.3. P 2 Si Yt est linéaire et causal on obtient : EYt = µ, var(Yt ) = σZ2 ∞ i=0 ψi L’autocovariance d’ordre k est : ∞ ∞ X X γk = cov(Yt , Yt−k ) = E[ ψi Zt−i , ψj Zt−k−j ] (6.2) i=0 = E( ∞ X j=0 ψi ψj Zt−i Zt−k−j ) (6.3) i,j=0 = ∞ X 2 ψj+k ψj E(Zt−k−j ) j=0 = σZ2 ∞ X j=0 39 ψj ψj+k (6.4) Si la série est linéaire et causale et si de plus ψi = 0 pour i > q on dit que Yt est une moyenne mobile d’ordre q (MA(q)). Une série linéaire causale est un MA(∞). 6.1.1 Processus gaussien Nous admettons sans justification, la définition non formalisée suivante. Un processus {Yt } est gaussien si : – ∀k, un nombre de dates, – ∀(t1 , t2 , · · · , tk ), un choix de k dates, le vecteur aléatoire : (Yt1 , Yt2 , . . . , Ytn ) est normalement distribué. 6.2 6.2.1 Processus autorégressif d’ordre p Processus autorégressif d’ordre 1 On dit que {Yt } est un processus autorégressif d’ordre 1 s’il obéit à une équation : Yt = φ0 + φ1 Yt−1 + Zt , t∈Z (6.5) Moments d’ordres 1 et 2 d’un AR(1) Supposons {Yt } dans (6.5) stationnaire alors, sa moyenne µ, est constante et prenant l’espérance mathématique des deux côtés de (6.5) on obtient µ = φ0 + φ1 µ et si φ1 6= 1 : E(Yt ) = µ = φ0 . 1 − φ1 Comme alors, φ0 = µ(1 − φ1 ) on a : Yt − µ = φ1 (Yt−1 − µ) + Zt On pose Ẏt = Yt − µ. C’est le processus centré. Avec l’opérateur retard, on a : (1 − φ1 B)Ẏt = Zt Par substitutions successives on obtient que Ẏt peut être exprimé comme une moyenne mobile infinie : Ẏt = Zt + φ1 Zt−1 + φ21 Zt−2 + ... (6.6) pourvu que −1 < φ1 < 1. Cette condition est suffisante pour que le processus soit stationnaire. Dans ce cours nous supposerons toujours qu’un processus qui vérifie (6.5) est stationnaire si et seulement si −1 < φ < 1. On appelle (6.6) la représentation MA(∞) de Yt . L’écriture de Yt comme une somme de v.a. non 40 corrélées permet de calculer facilement les variance et autocovariances comme nous le voyons maintenant. Elevons au carré les deux côtés de (6.6), il vient : var(Yt ) = σZ2 (1 + φ2 + φ4 + . . . ) σZ2 = 1 − φ2 Enfin écrivons (6.6) en t − k et calculons les espérances des deux côtés de : Yt Yt−k = (Zt + φZt−1 + φ2 Zt−2 + ...)(Zt−k + φZt−k−1 + φ2 Zt−k−2 + ...) où, Zt étant un BB, E(Zt Zt−m ) = 0, m 6= 0. On obtient pour k > 0 γk = (φk + φk+2 + φk+4 . . . )σZ2 = φk γ0 La fonction d’autocorrélation de l’AR(1) est : ρk = φk , k = 0, 1, 2, . . . (6.7) Observons enfin que (6.6) est l’écriture d’un AR(1) comme une moyenne mobile infinie. Exemples AR(1) simulé. On a simulé 150 observations de yt obéissant à yt = 4 − 0.8 yt−1 + Zt , Zt ∼ BBN (0, 1) On a obtenu une moyenne empirique de 2.271132 et un écart-type 1.371441. Retard 0 1 2 3 4 5 6 FAC théorique 1 -0.8 0.64 -0.512 0.4096 -0.32768 0.26214 FAC empirique 1.00000 -.72267 0.46219 -.30436 0.22636 -.13674 0.06958 Résidu de l’ajustement pour le lac Huron Nous avons ajusté une droite au nuage des points (année, niveau) pour les données du lac Huron. Examinons la fonction d’autocorrélation des résidus. proc arima data=lakout; identify var= residmc; run; quit; 5 The ARIMA Procedure 41 Name of Variable = residmc Mean of Working Series Standard Deviation Number of Observations 10 3.17E-16 1.118698 98 Autocorrelations 15 20 25 30 35 40 Lag Covariance Correlation 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 1.251485 0.953128 0.581134 0.326760 0.175465 0.100643 0.042525 0.029330 0.065770 0.110970 0.027184 -0.088782 -0.140411 -0.147251 -0.090530 -0.053720 -0.053759 -0.104093 -0.177552 -0.219761 -0.230869 -0.148704 -0.016941 0.117597 0.161241 1.00000 0.76160 0.46436 0.26110 0.14021 0.08042 0.03398 0.02344 0.05255 0.08867 0.02172 -.07094 -.11220 -.11766 -.07234 -.04292 -.04296 -.08318 -.14187 -.17560 -.18448 -.11882 -.01354 0.09397 0.12884 -1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1 | | | | | | | | | | | | | | | | | | | | | | | | | |********************| |*************** | . |********* | . |***** . | . |*** . | . |** . | . |* . | . | . | . |* . | . |** . | . | . | . *| . | . **| . | . **| . | . *| . | . *| . | . *| . | . **| . | . ***| . | . ****| . | . ****| . | . **| . | . | . | . |** . | . |*** . | . Std Error 0 0.101015 0.148464 0.162610 0.166833 0.168031 0.168423 0.168493 0.168527 0.168694 0.169169 0.169197 0.169500 0.170256 0.171084 0.171396 0.171506 0.171615 0.172026 0.173216 0.175023 0.176996 0.177808 0.177819 0.178325 Les ... sont les limites de l’intervalle introduit après la formule de Bartlett (5.7). On voit la fonction dessinée ressemble à la FAC d’un AR(1) avec φ ' 0.7. Il faudrait donc ajuster à la série des niveaux, un modèle : (6.8) yt = β0 + β1 t + ut , ut = φut−1 + zt zt ∼ BB. On n’étudiera pas dans ce cours la théorie de cet ajustement. Nous allons le faire en deux étapes : ajustement linéaire de la première équation par MCO puis modélisation du résidu. 1. Ajustement MCO. On a vu comment l’obtenir par la proc autoreg de SAS. 5 proc autoreg data= st6.lake; model niveau = date; output out= lakout1 residual=residmc1; run; Un extrait de l’output est : The AUTOREG Procedure Standard 42 Approx Variable DF Estimate Error t Value Pr > |t| 1 1 8.3171 -0.000057 0.4620 0.0000267 18.00 -2.13 <.0001 0.0359 5 Intercept DATE 2. Modélisation du résidu. On commence par examiner la fonction d’autocorrélation des zbt . Ça se fait par l’étape identify de la proc arima. proc arima data=lakout1; identify var= residmc1; run; quit; L’ouput est : The ARIMA Procedure Name of Variable = residmc 5 Mean of Working Series Standard Deviation Number of Observations 3.17E-16 1.118698 98 10 Autocorrelations 15 20 25 Lag Covariance Correlation 0 1 2 3 4 5 6 7 8 9 10 1.251485 0.953128 0.581134 0.326760 0.175465 0.100643 0.042525 0.029330 0.065770 0.110970 0.027184 1.00000 0.76160 0.46436 0.26110 0.14021 0.08042 0.03398 0.02344 0.05255 0.08867 0.02172 -1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1 | | | | | | | | | | | |********************| |*************** | |********* | |***** . | |*** . | |** . | |* . | | . | |* . | |** . | | . | . . . . . . . . . . Std Error 0 0.101015 0.148464 0.162610 0.166833 0.168031 0.168423 0.168493 0.168527 0.168694 0.169169 "." marks two standard errors Cette FAC suggère que l’erreur est AR(1). Une estimation explicite du modèle AR(1) pour le résidu s’obtient par la syntaxe minimale : 5 proc arima data=lakout; identify var= residmc; estimate p=1 plot; run; quit; The SAS System 09:55 Thursday, July 29, 2004 The ARIMA Procedure 10 Name of Variable = residmc Mean of Working Series Standard Deviation 43 3.17E-16 1.118698 18 Number of Observations 98 15 Autocorrelations Lag Covariance Correlation 0 1 2 3 4 5 6 7 8 9 10 1.251485 0.953128 0.581134 0.326760 0.175465 0.100643 0.042525 0.029330 0.065770 0.110970 0.027184 1.00000 0.76160 0.46436 0.26110 0.14021 0.08042 0.03398 0.02344 0.05255 0.08867 0.02172 -1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1 Std Error 20 25 30 | | | | | | | | | | | |********************| |*************** | |********* | |***** . | |*** . | |** . | |* . | | . | |* . | |** . | | . | . . . . . . . . . . 0 0.101015 0.148464 0.162610 0.166833 0.168031 0.168423 0.168493 0.168527 0.168694 0.169169 "." marks two standard errors Autocorrelation Check for White Noise 35 40 To Lag ChiSquare DF Pr > ChiSq 6 12 18 24 90.50 93.78 99.73 113.00 6 12 18 24 <.0001 <.0001 <.0001 <.0001 --------------------Autocorrelations-------------------0.762 0.023 -0.118 -0.176 0.464 0.053 -0.072 -0.184 0.261 0.089 -0.043 -0.119 0.140 0.022 -0.043 -0.014 0.080 -0.071 -0.083 0.094 0.034 -0.112 -0.142 0.129 45 Conditional Least Squares Estimation Parameter Estimate Standard Error t Value Approx Pr > |t| Lag 0.09811 0.79163 0.31349 0.06549 0.31 12.09 0.7550 <.0001 0 1 50 MU AR1,1 Constant Estimate 0.020443 Variance Estimate 0.507557 Std Error Estimate 0.71243 AIC 213.6328 SBC 218.8028 Number of Residuals 98 * AIC and SBC do not include log determinant. 55 60 Correlations of Parameter Estimates 65 Parameter MU AR1,1 70 MU AR1,1 1.000 0.097 0.097 1.000 The SAS System 09:55 Thursday, July 29, 2004 The ARIMA Procedure 75 Autocorrelation Check of Residuals To Lag ChiSquare DF Pr > ChiSq 6 8.25 5 0.1430 --------------------Autocorrelations-------------------- 80 0.216 44 -0.104 -0.136 -0.057 -0.009 -0.044 21 12 18 24 14.86 16.22 25.09 11 17 23 0.1888 0.5079 0.3456 -0.053 -0.050 -0.068 0.008 0.018 -0.162 0.177 0.023 -0.041 0.019 0.062 0.050 -0.119 0.010 0.160 -0.103 -0.064 0.091 85 Autocorrelation Plot of Residuals Lag Covariance Correlation 0 1 2 3 4 5 6 7 8 9 10 0.507557 0.109480 -0.052640 -0.068972 -0.028755 -0.0046044 -0.022188 -0.026876 0.0038855 0.089783 0.0095761 1.00000 0.21570 -.10371 -.13589 -.05665 -.00907 -.04371 -.05295 0.00766 0.17689 0.01887 -1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1 Std Error 90 95 100 | | | | | | | | | | | |********************| . |**** | . **| . | .***| . | . *| . | . | . | . *| . | . *| . | . | . | . |**** | . | . | 0 0.101015 0.105611 0.106645 0.108397 0.108699 0.108707 0.108886 0.109148 0.109154 0.112041 "." marks two standard errors Model for variable residmc 105 Estimated Mean 0.09811 Autoregressive Factors 110 Factor 1: 1 - 0.79163 B**(1) On lit à partir de la ligne (76) ci-dessus, le test de blancheur. Un modèle AR(1) convient donc. Reste à estimer le coefficient φ de l’autorégression ; l’output précédent fournit φb = 0.79163. Les tests de blancheur fournis par la proc arima seront commentés plus en détail, section (6.2.3), sur un autre exemple d’ajustement. Note. L’ajustement de (6.8) avec l’erreur AR(1) peut se faire directement dans SAS par : proc autoreg data= st6.lake; model niveau = date/nlag=1; run; L’estimateur de β est dans ce cas un estimateur MCG. Pour une erreur autre que AR, il faut utiliser la proc arima. Note. Test de blancheur - Voyons comment est mise en œuvre la formule (5.6 de la section 5.1.2) pour obtenir la statistique du portemanteau : 8.38 ci-dessus, de la ligne (76) dans le paragraphe Autocorrelation Check for White Noise de la sortie de l’étape identify de la proc arima. Cette statistique est calculée suivant la 45 formule par : 98 × (98 + 2)× (0.2382 /97 + (−0.083)2 /96 + (−0.121)2 /95 + (−0.050)2 /94 + (−0.004)2 /93 + (−0.041)2 /92) = 8.3778 ' 8.38 Cet exemple comportait deux estimations : celle de la moyenne du niveau, ici une fonction linéaire du temps, et l’estimation du modèle de l’erreur, une fois son type reconnu, c’est-àdire une fois identifiée la série des résidus. C’est un cas assez réaliste mais pour ne pas compliquer la situation, nous n’étudierons en général que des séries de moyenne constante et le problème qui nous intéressera sera de reconnaı̂tre le mécanisme d’autocorrélation (c’est-à-dire identifier la série), estimer les paramètres du modèle identifié et prédire les valeurs futures. 6.2.2 Modèle AR(2) Soit Yt stationnaire, obéissant à l’équation : Yt = φ0 + φ1 Yt−1 + φ2 Yt−2 + Zt (6.9) Prenant l’espérance des deux côtés on obtient : E(Yt ) = µ = φ0 1 − φ1 − φ2 pourvu que 1 6= φ1 + φ2 . Comme φ0 = µ(1 − φ1 − φ2 ), on a : Yt − µ = φ1 (Yt−1 − µ) + φ2 (Yt−2 − µ) + Zt et on va étudier la fonction d’autocovariance sur le processus centré, Ẏt = Yt − µ qui vérifie : Ẏt = φ1 Ẏt−1 + φ2 Ẏt−2 + Zt (6.10) Multiplions les deux côtés de cette équation par Ẏt−l , l > 0 Ẏt Ẏt−l = φ1 Ẏt−1 Ẏt−l + φ2 Ẏt−2 Ẏt−l + Zt Ẏt−l et prenons les espérances mathématiques. Nous obtenons : γl = φ1 γl−1 + φ2 γl−2 , l > 0 (6.11) En effet, par substitution successive de Yt−1 en fonction de Yt−2 , Zt−2 , ... on voit que cov(Ẏt−l , Zt ) = 0, l > 0. On appelle (6.11), l’équation de moments d’un AR(2). La fonction d’autocorrélation d’un AR(2) est : φ1 1 − φ2 ρl = φ1 ρl−1 + φ2 ρl−2 , l > 1. ρ1 = 46 (6.12) (6.13) On appelle équations de Yule-Walker, les équations que vérifient les autocovariances ou les autocorrélations d’un processus AR(p), formule (6.14) ou un ARMA(p,q) (formule (6.18). Nous avons supposé Yt dans (6.9), stationnaire. Nous examinons maintenant les conditions sur les φi qui assurent cette stationnarité. L’équation aux différences correspondant à (6.10), est : 1 − φ1 B − φ2 B2 = 0 C’est le polynôme caractéristique de l’équation de récurrence qui décrit l’AR(2). Cette équation du second degré a deux racines réelles ou complexes : 1/ω1 et 1/ω2 : 1 − φ1 B − φ2 B2 = (1 − ω1 B)(1 − ω2 B) Pour aller plus loin, examinons ce qu’on a fait pour le processus AR(1). Le processus AR(1) centré obéit à (1 − φ1 B)Ẏt = Zt La substitution a donné : Ẏt = Zt + φZt−1 + φ2 Zt−2 + ... ou Ẏt = (1 − φ1 B)−1 Zt Elle revient à développer en série la fraction rationnelle (1 − φ1 B)−1 , opération possible car |φ1 | < 1. Pour l’AR(2), on veut développer en série : (1−φ1 B−φ2 B2 )−1 . On peut décomposer cette opération : (1 − ω1 B)(1 − ω2 B)Ẏt = Zt donne : (1 − ω2 B)Ẏt = (1 − ω1 B)−1 Zt puis Ẏt = (1 − ω2 B)−1 (1 − ω1 B)−1 Zt Ces opérations sont possibles si |ω1 | < 1 et |ω2 | < 1 c’est-à-dire si les racines du polynôme caractéristique sont en module > 1. En résumé : un processus qui vérifie (6.9) est stationnaire si et seulement si les racines du polynôme caractéristique 1 − φ1 B − φ2 B2 sont > 1 en module. Processus autorégressif d’ordre p Une extension immédiate du modèle AR(1) est le modèle AR(p). Soit {Zt } un BB. Un processus {Yt } est dit autorégressif d’ordre p s’il s’écrit : Yt = φ0 + φ1 Yt−1 + φ2 Yt−2 + · · · + φp Yt−p + Zt (6.14) Avec l’opérateur retard on peut écrire cette autorégression à l’ordre p comme : (1 − φ1 B − φ2 B2 − · · · − φp Bp )Yt = φ0 + Zt Φ(B)Yt = φ0 Zt Condition de stationnarié d’un processus autorégressif d’ordre p. Nous inspirant de ce qu’on a obtenu pour un AR(2), nous admettrons qu’un processus autorégressif d’ordre p est stationnaire si les racines de l’équation : 1 − φ1 z − φ2 z 2 − · · · − φp z p = 0 sont en module > 1. 47 6.2.3 Exemple numérique On considère Yt obéissant à : Yt − 50 = 0.7(Yt−1 − 50) − 0.49(Yt−2 − 50) + Zt Zt ' BBN(0, 1) On simule 200 valeurs consécutives de Yt . Par la proc arima on obtient la fonction d’autocorrélation empirique qu’on peut comparer à la FAC théorique. Ajustons un modèle AR(2) à la série observée et testons la blancheur du résidu. (Ce test est automatiquement réalisé par la proc arima dans l’étape d’estimation.) 5 proc arima data=exoiup.ar2; i var=y; run; e p=2 plot; run; quit; * ------------------; The SAS System 09:55 Thursday, July 29, 2004 1 The ARIMA Procedure 10 Name of Variable = y Mean of Working Series Standard Deviation Number of Observations 15 49.97537 1.282115 200 The ARIMA Procedure Name of Variable = y 20 Mean of Working Series Standard Deviation Number of Observations 49.97537 1.282115 200 25 Autocorrelations 30 35 40 Lag Covariance Correlation 0 1 2 3 4 5 6 7 8 9 10 1.643819 0.828390 -0.091800 -0.316190 -0.199732 -0.080230 0.0036423 0.124443 0.145125 -0.015833 -0.236086 1.00000 0.50394 -.05585 -.19235 -.12150 -.04881 0.00222 0.07570 0.08829 -.00963 -.14362 -1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1 | | | | | | | | | | | |********************| . |********** | . *| . | ****| . | . **| . | . *| . | . | . | . |** . | . |** . | . | . | .***| . | Std Error 0 0.070711 0.086831 0.087010 0.089111 0.089935 0.090068 0.090068 0.090386 0.090816 0.090821 "." marks two standard errors Autocorrelation Check for White Noise 45 50 To Lag ChiSquare DF Pr > ChiSq 6 12 18 24 63.32 78.17 83.58 88.66 6 12 18 24 <.0001 <.0001 <.0001 <.0001 --------------------Autocorrelations-------------------0.504 0.076 0.044 -0.042 -0.056 0.088 0.073 -0.048 48 -0.192 -0.010 0.065 -0.059 -0.122 -0.144 0.089 -0.049 -0.049 -0.170 0.064 0.037 0.002 -0.082 0.035 0.105 The ARIMA Procedure 55 Conditional Least Squares Estimation 60 Parameter Estimate Standard Error t Value Approx Pr > |t| Lag MU AR1,1 AR1,2 49.98941 0.72493 -0.42548 0.10187 0.06499 0.06499 490.72 11.16 -6.55 <.0001 <.0001 <.0001 0 1 2 65 Constant Estimate 35.02049 Variance Estimate 1.019616 Std Error Estimate 1.009761 AIC 574.438 SBC 584.3329 Number of Residuals 200 * AIC and SBC do not include log determinant. 70 Autocorrelation Check of Residuals 75 80 85 To Lag ChiSquare DF Pr > ChiSq 6 12 18 24 30 36 3.02 6.66 11.45 15.55 21.58 30.33 4 10 16 22 28 34 0.5549 0.7567 0.7810 0.8374 0.8002 0.6480 --------------------Autocorrelations-------------------0.039 0.020 0.062 -0.096 0.032 -0.063 -0.067 0.033 0.027 0.030 0.063 -0.073 0.065 -0.001 -0.011 -0.006 0.013 -0.007 0.037 -0.078 0.092 -0.051 -0.091 -0.017 -0.016 -0.066 -0.007 0.033 0.034 -0.157 -0.054 -0.072 0.093 0.065 -0.105 -0.043 The ARIMA Procedure Model for variable y 90 Estimated Mean 49.98941 Autoregressive Factors 95 Factor 1: 1 - 0.72493 B**(1) + 0.42548 B**(2) Lecture du code et de la sortie ci-dessus. y est la série simulée. • Ligne (2) et suivante, étape d’identification de la série y. L’étape fournit l’ACF (et d’autres outils d’aide à la compréhension du mécanisme de la série non reproduits) ainsi qu’un test de blancheur de la série (49). Les p-values sont évidemment très faibles puisqu’y n’est pas un BB. Comparer les coefficients d’autocorrélation empiriques et théoriques jusqu’à l’ordre 3. • La ligne (4) commande l’étape d’estimation. L’équation estimée apparaı̂t d’abord coefficient par coefficient puis en clair en fin de sortie. Quel est le lien entre Estimated Mean et Constant Estimate, ligne (67) ? L’option plot de la commande estimate donne les mêmes résultats qu’une étape identify, mais sur la série des résidus de l’estimation. Ces sorties peuvent suggérer des corrections au modèle estimé. • Ligne (80) et suivantes, test de blancheur du résidu. Noter que SAS indique 4 et non 6, ... degrès de liberté, colonne DF. Ces résidus sont le résultat d’un ajusement d’un AR(2), soit 2 paramètres estimés, donc cette quantité est enlevée aux degrés de liberté. 49 Il faut bien faire la différence entre : Autocorrelation Check for White Noise, ligne (44) qui annonce le test de blancheur de la série indiquée à l’étape identify et Autocorrelation Check of Residuals ligne ( 75) qui annonce le test de blancheur de la série des résidus de l’étape estimate. Cette série doit être un buit blanc si l’ajustement est satisfaisant. Résumé. Nous avons étudié une série suivant un AR(2). Le rejet de sa blancheur à l’étape d’identification est normal. Ensuite nous avons ajusté le modèle correct à cette série. L’acceptation de la blancheur des résidus correspondants est logique (et rassurante). Nous définirons au chapitre (7) la fonction d’autocorrélation partielle. C’est une fonction très utile pour reconnaı̂tre si une série est autorégressive, et de quel ordre. 6.3 6.3.1 Processus Moyenne mobile Processus MA(1) On dit que (Yt ) est un processus moyenne mobile d’ordre 1 (MA(1)), s’il obéit à une équation : Yt = µ + Zt − θZt−1 (6.15) où Zt ∼ BB(0, σZ2 ). Cette équation s’écrit encore : Yt − µ = (1 − θB)Zt Moments d’ordres 1 et 2 d’un MA(1) En prenant l’espérance mathématique des deux côtés de (6.15), on voit que E(Yt ) = µ La variance de Yt est la variance d’une combinaison affine de variables non corrélées donc : var(Yt ) = (1 + θ2 )σZ2 . De même, cov(Yt , Yt−1 ) = cov(µ + Zt − θZt−1 , µ + Zt−1 − θZt−2 ) = −θσZ2 . On voit que cov(Yt , Yt−k ) = 0, k > 1. En résumé, ∀θ, le processus MA(1) défini par (6.15) est stationnaire, de moyenne µ, de fonction d’autocorrélation : si k = 0, 1 −θ ρk = 1+θ2 si k = 1, 0 si k > 1 On aimerait pouvoir exprimer le processus MA(1) en fonction de son passé (observé) et pas seulement en fonction d’un bruit non observé. Introduisons le processus centré, Ẏt = Yt − µ, correspondant à (6.15). On voit que si |θ| < 1, on peut développer (1 − θB)−1 en série entière. Ceci nous amène à une définition. Définition. On dit qu’un processus est inversible si on peut l’écrire comme une autorégression infinie. Ainsi, un MA(1) est inversible si la racine de l’équation 1−θz = 0 est > 1 en module. On observe que la condition d’inversibilité d’un MA(1) est techniquement parallèle à la condition de stationnarité d’un autorégressif d’ordre 1. 50 Commentaires. Un processus MA comme (6.15) ou (6.16) ci-dessous, ne s’exprime pas directement en fonction de ses observations passées et de plus le bruit Zt n’est pas observé. L’écriture MA ne permet donc pas de prédire directement le processus ou d’écrire la vraisemblance. L’inversibilité qui permet d’exprimer le processus en fonction de son passé est donc très utile. 6.3.2 Processus MA(q) Un processus (Yt ) est dit processus moyenne mobile d’ordre q (M A(q)) si : Yt = µ + Zt − θ1 Zt−1 − θ2 Zt−2 − · · · − θq Zt−q (6.16) où Zt ∼ BB(0, σZ2 ). On peut noter de façon équivalente : Yt = µ + (1 − θ1 B − θ2 B2 − · · · − θq Bq )Zt = µ + Θ(B)Zt Un M A(q) est un cas de série linéaire. Propriétés. 1. Un M A(q) est un processus stationnaire. 2. La fonction d’autocorrélation d’un processus MA(q) est nulle à partir de l’ordre q + 1. Cette dernière propriété est utile pour deviner (identifier) l’ordre de moyenne mobile convenable pour modéliser une série. En effet, en présence d’un corrélogramme empirique non significativement différent de 0 à partir d’un certain ordre (k), on pensera à modéliser la série correspondante par un MA(k − 1). Inversibilité d’un MA(q). On voit qu’un MA(q) est inversible si les racines de 1 − θ1 z − θ2 z 2 − · · · − θq z q = 0 sont, en module, > 1. Exemple numérique On a simulé 200 observations consécutives d’un processus Yt obéissant à : Yt = 3 + 0.3 Zt−1 − 0.9 Zt−2 + Zt , Zt ∼ BBN (0, σ 2 = 2.25) (6.17) Calculer la fonction d’autocorrélation de ce processus et la comparer à la fonction d’autocorrélation empirique ci-dessous. The SAS System 22:04 Sunday, July 11, 2004 The ARIMA Procedure Name of Variable = y Mean of Working Series Standard Deviation Number of Observations 51 3.058899 2.217469 200 1 Fig. 6.1 – Simulation d’un AR(1) Fig. 6.2 – Simulation d’un MA(2) Autocorrelations Lag Covariance Correlation 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 4.917168 0.353187 -2.728001 -0.606867 0.411749 0.596527 0.198892 -0.216285 -0.320821 -0.184069 0.089727 0.149609 0.197149 -0.233649 -0.759076 0.314311 1.058500 -0.374751 -0.939826 0.210366 0.333923 -0.091486 0.169077 0.278091 0.060347 1.00000 0.07183 -.55479 -.12342 0.08374 0.12132 0.04045 -.04399 -.06525 -.03743 0.01825 0.03043 0.04009 -.04752 -.15437 0.06392 0.21527 -.07621 -.19113 0.04278 0.06791 -.01861 0.03439 0.05656 0.01227 -1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1 | | | | | | | | | | | | | | | | | | | | | | | | | |********************| . |* . | ***********| . | . **| . | . |** . | . |** . | . |* . | . *| . | . *| . | . *| . | . | . | . |* . | . |* . | . *| . | .***| . | . |* . | . |**** | . **| . | ****| . | . |* . | . |* . | . | . | . |* . | . |* . | . | . | Std Error 0 0.070711 0.071075 0.090164 0.091005 0.091389 0.092191 0.092279 0.092384 0.092614 0.092690 0.092708 0.092758 0.092844 0.092966 0.094239 0.094455 0.096877 0.097177 0.099039 0.099131 0.099363 0.099381 0.099440 0.099601 "." marks two standard errors On observe que la fonction d’autocorrélation n’est pas significativement différente à partir du décalage 3, ce qui suggère bien un MA(2). 52 6.4 Processus ARMA(p,q) Définition {Yt } est un processus ARMA(p,q) s’il est stationnaire avec une partie MA et une partie AR : Yt − φ1 Yt−1 − φ2 Yt−2 − · · · − φp Yt−p = θ0 + Zt − θ1 Zt−1 − θ2 Zt−2 − · · · − θq Zt−q (6.18) où Zt ∼ BB(0, σZ2 ). On voit que µ = E(Yt ) = θ0 . 1 − φ1 − · · · − φp Un ARMA(p,q) peut se noter : Yt = µ + 1 − θ1 B − · · · − θq B q Zt 1 − φ1 B − · · · − φp Bp (6.19) par exemple un ARMA(2,1) s’écrit : Yt = µ + 1 − θ1 B Zt . 1 − φ1 B − φ2 B2 Dans ces expressions, il faut bien voir que µ est la moyenne et que l’autre terme est une erreur de moyenne nulle, autocorrélée. On pourrait envisager une moyenne fonction du temps avec toujours un modèle ARMA de moyenne nulle pour l’erreur. Processus ARMA(p,q) gaussien Supposons que dans la définition ci-dessus : Zt ∼ BBN(0, σZ2 ), c’est-à-dire : le bruit blanc est une suite de v.a. i.i.d. N (0, σZ2 ). Nous admettrons, qu’alors Yt est un processus gaussien. Il est relativement facile d’écrire la fonction de vraisemblance pour un tel processus et donc de calculer des estimateurs par maximum de vraisemblance de ses paramètres, c’est ce que nous détaillerons au chapitre 9. Représentation MA(∞) et réponse impulsionnelle Examinons un processus linéaire et causal : Yt = µ + ∞ X ψi Zt−i (6.20) i=0 par exemple, la représentation MA(∞) d’un AR(p). La quantité ψi indique l’influence d’un choc aléatoire de 1 sur venant en t − i, sur Yt . 6.5 6.5.1 Saisonnalité Saisonnalité multiplicative Décrivons brièvement la modélisation de la saisonnalité dans l’approche de Box-jenkins. Soit une série mensuelle observée (pour simplifier) sur un nombre entier d’années, à partir d’un mois de janvier. On note yij l’observation du mois j de l’année i; j = 1, · · · , 12, i = 1, · · · , N . 53 Rangeons les valeurs observées en une table de Buys-Ballot : une ligne par an, une colonne par mois : janv. févr. mars y11 y12 y13 y21 y22 y23 ··· ··· ··· yN 1 yN 2 x13 · · · déc. . . . y1,12 . . . y2,12 ··· ··· . . . yN,12 Supposons qu’on modélise la dépendance d’un mois sur un ou deux mois précédents (sans s’occuper de l’effet saisonnier) et qu’on adopte un ARMA(p,q) : Φ(B)Yt = Θ(B)bt Il est fort probable, si la série présente une saisonnalité, que le résidu bbt ne sera pas blanc mais aura une structure de corrélation saisonnière. On peut envisager deux traitements de cette ”non blancheur”. Ou bien on ajoute des termes de retard dans les polynômes Φ et Θ, ou bien on modélise bt par un ARMA dont l’unité de temps est l’année : bt = Θs (Bs ) zt Φs (Bs ) où s désigne la période (ici, s= 12). Ce qui donne : Φs (Bs )Φ(B)Yt = Θ(B)Θs (Bs )Zt (6.21) avec Zt ∼ BB, où Φ(B), Φs (Bs ), Θ(B), Θs (Bs ) sont respectivement des polynômes de degrés p, q en B et P, Q en Bs . On dit que Yt est un SARMA(p, q)(P, Q)s s’il vérifie (6.21) et est stationnaire. Les conditions de – stationnarité de Yt sont : les racines des polynômes Φ(B) et Φs (Bs ) sont en module > 1. – inversibilité de Yt sont : les racines des polynômes Θ(B) et Θs (Bs ) sont en module > 1. 6.6 Exercices Exercice 1 Notations de la section 6.2.1. Montrer que dans un AR(1) : cov(Yt , Zt+k ) = 0, k > 0. Utiliser cette observation pour calculer γk sans passer par l’écriture M A(∞). Exercice 2 Dessiner la fonction d’autocorrélation du modèle AR(1) : Yt = 1.2 − 0.8 Yt−1 + Zt où Zt N (0, σ 2 = 9). Exercice 3 (Complément à l’exemple numérique de la section (6.2.3). (1) Ce processus est-il stationnaire ? (2) Calculer sa fonction d’autocorrélation jusqu’à l’ordre 3. (3) Comparer les fonctions d’autocorrélation empiriques et théoriques jusqu’à l’ordre 3. Exercice 4 Etudier la fonction −θ 1 + θ2 rencontrée dans l’étude d’un MA(1) et commenter en termes concrets. R3θ− → 54 6.7 Annexe : simulation de processus ARMA dans SAS Etant donné un modèle ARIMA entièrement spécifié (coefficients, loi de l’erreur) on veut simuler une série temporelle qui obéit au dit modèle. Simulation d’un MA Un processus MA(q) est une combinaison linéaire de q v.a. non corrélées de moyenne 0, de variance constante. On peut simuler dans SAS des v.a. i.i.d. N(0,1), par la fonction rannor. Elle génére des nombres pseudo aléatoires à partir d’un germe (ou graine) qu’on doit spécifier. Si on donne, à des emplois successifs de la fonction, le même germe constamment, on obtient toujours la même suite de simulations. Exemple : Simulation d’une série de 100 observations suivant : xt = at − 0.8at−1 avec at v.a. i.i.d. N(0,1) (xt MA(1) gaussien). title1 ’Serie MA(1) Simulee’; data a; a1 = 0; do i = -50 to 150; a = rannor( 32565 ); u = a - .8 * a1; if i > 0 then output; a1 = a; u1 = u; end; run; On a initialisé la série du BB à 0 : a1 = 0;, puis on fait 150 tirages et on ne conserve que les 100 derniers (if i > 0 then output; ). Simulation du MA(2) (6.17) data a; mu =3; zm1 =0; zm2 =0; do i=-10 to 200; zm0 = 1.5*rannor(54629); y = mu + 0.3*zm1-0.9*zm2 + zm0; zm2 = zm1; zm1=zm0; if i >0 then output; end; run; *---------------------------------; proc arima data=a; i var= y; run; quit; Simulation d’un AR On veut simuler 200 observations d’un processus stationnaire obéissant à : yt = 1.4 ∗ yt−1 − 0.45 ∗ yt−2 + at (6.22) 55 où at est un bruit blanc gaussien de variance 1, c’est un AR(2) gaussien. L’étape data ci-dessous fait le travail. title1 ’AR(2) simule’; data a; um1 = 0; um2=0; /* valeurs initiales */ do i = -50 to 200; a = rannor( 43201 ); u = 1.4 * um1 - .45* um2 +a; if i > 0 then output; um2 = um1; um1 = u; end; run; Commentaires. Noter qu’il faut deux valeurs initiales y1 et y2 . Au début de la simulation le processus dépend de ces valeurs. C’est pourquoi on abandonne le début de la série, ici les 51 premières valeurs. * simulation d’un AR(1) data a; c= 4; phi= -.8; y1=0; do i = -50 to 150; z = rannor( 32565 ); y = c+ phi* y1 +z; y1=y; if i > 0 then output; end; run; proc arima data = a; i var= y; run; quit; Simulation d’un AR saisonnier On veut simuler une série suivant : yt = −0.9yt−4 + at avec at i.i.d. normale de moyenne 0 et de variance 2.25. Ici il faut 4 valeurs initiales, une par saison (= trimestre). 5 10 title1 ’Simulation d’un AR saiso periode 4’; data b; y1=0; y2=0; y3= 0; y4=0; do i = 1 to 300; a = rannor( 32565 )*1.25; if mod(i,4) = 1 then do; y= -.9* y1 +a; y1=y; end; if mod(i,4) = 2 then do; y= -.9* y2 +a; y2=y; 56 15 20 25 end; if mod(i,4) = 3 then do; y= -.9* y3 +a; y3=y; end; if mod(i,4) = 0 then do; y= -.9* y4 +a; y4=y; end; if i > 100 then output; end; run; Noter (1) l’usage de la fonction mod qui donne le reste de la division du premier argument par le deuxième, (2) l’exécution de plusieurs ordres après then entre do; et end;. Question. Comment corriger le code ci-dessus pour simuler un AR saisonnier de moyenne 10 ? Application La proc arima, étape identify, a été appliquée à une des séries simulées par les codes ci-dessus. Les fonctions d’autocorrélation simples et partielles sont reproduites ci-dessous. Reconnaı̂tre le modèle simulé. The SAS System 06:22 Tuesday, October 15, 2002 The ARIMA Procedure Name of Variable = u Mean of Working Series Standard Deviation Number of Observations 3.111413 4.014773 200 Autocorrelations Lag Covariance Correlation 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 16.118398 15.274570 13.827400 12.215168 10.577303 8.969951 7.308810 5.758059 4.317324 3.056454 1.903562 0.785890 -0.254972 -1.170280 -1.879569 -2.303244 -2.513334 -2.615135 -2.809637 -3.086956 -3.304976 -3.570032 -3.850581 -4.306530 1.00000 0.94765 0.85786 0.75784 0.65623 0.55650 0.45345 0.35724 0.26785 0.18963 0.11810 0.04876 -.01582 -.07261 -.11661 -.14290 -.15593 -.16225 -.17431 -.19152 -.20504 -.22149 -.23889 -.26718 -1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1 | | | | | | | | | | | | | | | | | | | | | | | | |********************| |******************* | . |***************** | . |*************** | . |************* | . |*********** | . |********* | . |*******. | . |***** . | . |**** . | . |** . | . |* . | . | . | . *| . | . **| . | . ***| . | . ***| . | . ***| . | . ***| . | . ****| . | . ****| . | . ****| . | . *****| . | . *****| . | . 57 Std Error 0 0.070711 0.118239 0.146081 0.164569 0.177170 0.185705 0.191160 0.194470 0.196306 0.197219 0.197573 0.197633 0.197639 0.197772 0.198116 0.198631 0.199242 0.199901 0.200660 0.201572 0.202612 0.203819 0.205214 1 24 -4.936490 -.30626 | . ******| . | 0.206946 "." marks two standard errors Partial Autocorrelations Lag Correlation 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 0.94765 -0.39399 -0.02374 -0.04899 -0.04112 -0.11995 0.03929 -0.05320 0.02209 -0.06893 -0.06165 -0.03099 -0.00167 0.02090 0.07520 -0.00418 -0.03009 -0.13667 -0.04743 0.02324 -0.09791 -0.01544 -0.15037 -0.10850 -1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1 | | | | | | | | | | | | | | | | | | | | | | | | . |******************* ********| . . | . . *| . . *| . .**| . . |* . . *| . . | . . *| . . *| . . *| . . | . . | . . |**. . | . . *| . ***| . . *| . . | . .**| . . | . ***| . .**| . | | | | | | | | | | | | | | | | | | | | | | | | Autocorrelation Check for White Noise To Lag ChiSquare DF Pr > ChiSq 6 12 18 24 646.00 698.94 725.39 804.86 6 12 18 24 <.0001 <.0001 <.0001 <.0001 --------------------Autocorrelations-------------------0.948 0.357 -0.073 -0.192 0.858 0.268 -0.117 -0.205 58 0.758 0.190 -0.143 -0.221 0.656 0.118 -0.156 -0.239 0.557 0.049 -0.162 -0.267 0.453 -0.016 -0.174 -0.306 Chapitre 7 Prédiction linéaire d’une v.a. Ce chapitre introduit essentiellement la notion d’espérance conditionnelle linéaire d’une v.a. par rapport à une autre v.a. et, en exercice, la notion de coefficient de corrélation partielle. 7.1 Projection affine d’une v.a. sur une autre Soit (X, Y ) un couple de v.a.. On appelle espérance conditionnelle linéaire (ECL) de Y sachant X et on note EL(Y |X), la transformation affine de X, a∗0 + a∗1 X qui réalise : min E[(Y − a0 − a1 X)2 ] a0 ,a1 On dite encore que EL(Y |X) est le meilleur prédicteur affine de Y par X. On appelle aussi EL(Y |X), régression linéaire de Y sur X. Obtention de a∗0 et a∗1 . Posons Q(a0 , a1 ) = E[(Y − a0 − a1 X)2 ]. Admettant qu’on peut permuter dérivation et calcul d’espérance mathématique, on obtient : ∂Q = E[(Y − a0 − a1 X)(2)(−1)] ∂a0 ∂Q = E[(Y − a0 − a1 X)(2)(−X)] ∂a1 D’où on tire les conditions nécessaires : E[(Y − a0 − a1 X)] = 0 (1) E[(Y − a0 − a1 X)X] = 0 (2) (1) et (2) sont les équations normales. De (1) on tire : a0 = E(Y − a1 X) = E(Y ) − a1 E(X). On reporte ceci dans (2) qui devient : E[(Y − EY − a1 (X − EX))X] = 0, c’est-à-dire : cov(Y, X) − a1 var(X) = 0 d’où : cov(X, Y ) , si var(X) 6= 0 a∗1 = var(X) et : cov(X, Y ) a∗0 = EY − a∗1 EX = EY − EX var(X) 59 En résumé : (X,Y ) cov(X,Y ) EL(Y |X) = EY − cov var(X) EX + var(X) X (X,Y ) = EY + cov var(X) (X − EX) = EY + ρ σσXY (X − EX) (7.1) Pour trouver a∗1 on a utilisé la remarque (1) ci-dessous. Notons que si EX = EY = 0, alors a∗0 = 0 Erreur quadratique de prévision. On a : E[(Y − a∗0 − a∗1 X)2 ] = E[(Y − EL(Y |X))2 ] = var(Y ) − cov(X, Y )2 = (1 − ρ2 )var(Y ), (7.2) var(X) où ρ est le coefficient de corrélation entre Y et X. Ce résultat est démontré dans un cadre général ci-dessous. Remarques. 1 On a : ∀a, E[(X − a)(Y − EY )] = E[X(Y − EY ) − a(Y − EY )] = E[X(Y − EY )] − aE[Y − EY ]. Dans cette dernière expression, le facteur de a est nul, et développant le terme non nul on obtient : ∀a, E[(X − a)(Y − EY )] = E[X(Y − EY )] = E[XY ] − EXEY = cov(X, Y ) On a également : ∀b, E[(X − EX)(Y − b)] = cov(X, Y ) 2 Unités. Observons par exemple que si X est en Euros et Y en mètres, a∗1 est en mètre/Euro, et a∗0 en mètres - mètre/Euro × Euro, c’est-à-dire en mètres. 3 EL(Y |X) apparaı̂t dans (7.1) comme l’espérance de Y corrigée d’un facteur produit de deux termes : le premier est du signe de la covariance entre X et Y et le second mesure l’écart de X à sa moyenne. 4 EL(Y |X) est une v.a. fonction de la v.a. X. 5 Dans la pratique on s’intéresse à l’espérance conditionnelle linéaire de Y sachant que X a pris une certaine valeur x, c’est-à-dire à la valeur prise par la v.a. EL(Y |X), et on note : EL(Y |X = x) = EY + ρ σY (x − EX) σX (X,Y )2 5 La quantité var(Y ) − cov var(X) dans (7.2) peut être comprise comme la variance de Y étant donné X et on observe que plus forte est la corrélation entre Y et X plus faible est cette variance. 60 7.2 Projection d’une v.a. sur un ensemble de v.a. Soit X = [X1 , · · · , Xp ]0 un vecteur aléatoire ∈ Rp et Y ∈ R une v.a.. On appelle espérance conditionnelle linéaire (ECL) de Y sachant X et on note EL(Y |X), la transformation affine de X : a∗0 + a∗1 X1 + · · · + a∗p Xp , qui réalise : min a0 ,a1 ,··· ,ap E[(Y − a0 − a1 X1 − · · · − ap Xp )2 ] On dite encore que EL(Y |X) est le meilleur prédicteur affine de Y par X. Pour simplifier l’écriture, nous prenons le cas p = 2. Résultat. (Les calculs sont détaillés ensuite.) Si la matrice des covariances de X1 , X2 est inversible alors : ∗ −1 a1 var(X1 ) cov(X1 , X2 ) cov(Y, X1 ) (7.3) = a∗2 cov(X2 , X1 ) var(X2 ) cov(Y, X2 ) et a∗0 = µY − a∗1 E(X1 ) − a∗2 E(X2 ) (7.4) Posons a = [a1 a2 ]0 . L’équation ci-dessus s’écrit : −1 var(X1 ) cov(X1 , X2 ) cov(Y, X1 ) ∗ a = cov(X2 , X1 ) var(X2 ) cov(Y, X2 ) Enfin, notant : X = [X1 X2 ]0 et ΣY,Y , ΣY,X , ΣX,X respectivement la variance de Y , la matrice de covariances entre Y et X et la matrice de covariances de X, on a : a∗ = Σ−1 X,X ΣY,X D’où EL(Y |X1 = x1 , X2 = x2 ) = µY + ΣY,X Σ−1 X,X x 1 − µ1 x 2 − µ2 (7.5) L’espérance mathématique de l’erreur de prévision vaut 0 : E(Y − a∗0 − a∗1 X1 − a∗2 X2 ) = 0. On dit que l’ECL de Y sachant X1 , X2 est un prédicteur sans biais de EY . L’erreur quadratique de prévision est Q(a∗0 , a∗1 , a∗2 ) = E[(Y c − a∗1 X1c − a∗2 X2c )2 ] = var(Y c − a∗1 X1c − a∗2 X2c ) = ΣY,Y ΣY,X 1 ∗ 0 = ΣY,Y − ΣY,X Σ−1 [1 − a ] X,X ΣX,Y . (7.6) ΣX,Y ΣX,X −a∗ Remarques. 1. Cette quantité qui est le minimum d’une erreur quadratique, est toujours positive. On l’appelle variance conditionnelle linéaire de Y étant donné X. Notons qu’elle ne dépend pas de la valeur prise par X. 2. On peut observer que la variance conditionnelle linéaire (7.6) est aussi la variance conditionnelle d’une variable normale, voir (3.6). Evidemment pour un couple de v.a. non gaussien, variance conditionnelle et variance conditionnelle linéaire ne coı̈ncident pas. 3. Les calculs numériques d’espérance conditionnelle linéaire se font de la même façon que pour une variable normale. 61 Calculs Obtention de a∗0 , a∗1 , · · · + a∗p . Notons µY = EY, µ1 = EX1 , µ2 = EX2 et définissons Q(a0 , a1 , a2 ) = E[(Y − a0 − a1 X1 − a2 X2 )2 ]. C’est une fonction quadratique en a0 , a1 , a2 . Les dérivées partielles par rapport à ces variables sont : ∂Q = E[(Y − a0 − a1 X1 − a2 X2 )(2)(−1)] (1) ∂a0 ∂Q = E[(Y − a0 − a1 X1 − a2 X2 )(2)(−X1 )] (2) ∂a1 ∂Q = E[(Y − a0 − a1 X1 − a2 X2 )(2)(−X2 )] (3) ∂a2 Les conditions nécessaires d’optimum, sont : ∂Q ∂Q ∂Q = 0, = 0, =0 ∂a0 ∂a1 ∂a2 D’où les équations normales : E[(Y − a0 − a1 X1 − a2 X2 )] = 0 E[(Y − a0 − a1 X1 − a2 X2 )X1 ] = 0 E[(Y − a0 − a1 X1 − a2 X2 )X2 ] = 0 (7.7) (7.8) (7.9) De (1) on tire : a0 = µY −a1 µ1 −a2 µ2 . Introduisant les variables centrées : Y c = Y −µY , Xic = Xi − µi , i = 1, 2, on reporte a0 dans (2) et (3), ce qui donne : (−2)E[X1 (Y c − a1 X1c − a2 X2c )] = 0 (−2)E[X2 (Y c − a1 X1c − a2 X2c )] = 0 Faisant encore appel à la remarque 1 ci-dessus, on obtient le système que doivent vérifier a∗1 , a∗2 : cov(Y, X1 ) var(X1 ) cov(X1 , X2 ) a1 E(Y X1c ) = = E(Y X2c ) cov(Y, X2 ) cov(X2 , X1 ) var(X2 ) a2 D’où, si la matrice des covariances de X1 , X2 est inversible : ∗ −1 a1 var(X1 ) cov(X1 , X2 ) cov(Y, X1 ) = a∗2 cov(X2 , X1 ) var(X2 ) cov(Y, X2 ) puis a∗0 = µY − a∗1 E(X1 ) − a∗2 E(X2 ) Posons a = [a1 a2 ]0 . L’équation ci-dessus s’écrit : −1 var(X1 ) cov(X1 , X2 ) cov(Y, X1 ) ∗ a = cov(X2 , X1 ) var(X2 ) cov(Y, X2 ) 62 (7.10) Enfin, notant : X = [X1 X2 ]0 et ΣY,Y , ΣY,X , ΣX,X respectivement la variance de Y , la matrice de covariances entre Y et X et la matrice de covariances de X, on a : a∗ = Σ−1 X,X ΣY,X D’où EL(Y |X1 = x1 , X2 = x2 ) = µY + 7.3 ΣY,X Σ−1 X,X x 1 − µ1 x 2 − µ2 (7.11) Application aux séries temporelles Fonction d’autocorrélation partielle (PACF). Considérons une série stationnaire {Xt } et ses régressions sur son passé : Xt = φ0,1 + φ1,1 Xt−1 + u1t Xt = φ0,2 + φ1,2 Xt−1 + φ2,2 Xt−2 + u2t Xt = φ0,3 + φ1,3 Xt−1 + φ2,3 Xt−2 + φ3,3 Xt−3 + u3t .. . (7.12) Par exemple, φ0,2 + φ1,2 Xt−1 + φ2,2 Xt−2 désigne l’espérance conditionnelle linéaire de Xt sachant Xt−1 , Xt−2 , voir par exemple ([9]) Chap. 5, [10]... (Nous admettons qu’il est légitime d’estimer ces modèles par MCO.) Les φk,k , k = 1, 2, . . . forment ce qu’on appelle la fonction d’autocorrélation partielle (PACF) et les estimations φbk,k , k = 1, 2, . . . forment la fonction d’autocorrélation partielle empirique. φk,k a la même interprétation que les coefficients d’une régression linéaire classique : φk,k représente l’apport d’explication de Xt−k à Xt étant donné qu’on a déjà régressé sur Xt−1 , · · · , Xt−k+1 . Supposons en particulier que Xt soit autorégressif, un AR(3) pour fixer les idées, alors il est clair que Xt−4 n’apporte rien de plus que Xt−1 , Xt−2 , Xt−3 et on montre en effet que φk,k = 0, k > 3. D’autre part, de même que dans la méthode des MCO les βb s’expriment en fonction des moments d’ordre 2 des observations, la PACF d’une série stationnaire s’exprime en fonction de son ACF. On pensera qu’une série suit un AR(p) si les φbk,k ' 0, k > p. Précisément, si Xt est un AR(p), on a les propriétés : – φbp,p converge vers φp,p quand n → ∞, – φbl,l , ∀l > p converge vers 0 quand n → ∞, – var(φbl,l ) ' 1/n ∀l > p. La PACF se calcule à partir de l’ACF par récurrence à l’aide de l’algorithme de DurbinLevinson : 63 φ11 = ρ(1) (7.13) j=1 φh−1,j ρ(h − j) Ph−1 1 − j=1 φh−1,j ρ(j) (7.14) φhj = φh−1,j − φhh φh−1,h−j , j = 1, · · · , h − 1 (7.15) φhh = ρ(h) − Ph−1 La PACF empirique est obtenue par le même algorithme appliqué sur l’ACF empirique. Exemple numérique Considérons le processus AR(2) défini par la formule (6.22). Son ACF est : ρ0 = 1, ρ1 = 0.96552, ρ2 = 0.90172, · · · La PACF du est obtenue par : 0.90172 − 0.96552 × 0.96552 = −0.45018 1 − 0.96552 × 0.96552 c’est-à-dire -0.45 aux erreurs d’arrondi près, φkk = 0, k > 2. Examinons la PACF empirique obtenue sur la simulation du processus : φ11 = 0.96552, φ22 = proc arima data=a; i var=u; run; quit; .... Partial Autocorrelations Lag Correlation 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 0.94765 -0.39399 -0.02374 -0.04899 -0.04112 -0.11995 0.03929 -0.05320 0.02209 -0.06893 -0.06165 -0.03099 -0.00167 0.02090 0.07520 -1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1 | | | | | | | | | | | | | | | . |******************* ********| . . | . . *| . . *| . .**| . . |* . . *| . . | . . *| . . *| . . *| . . | . . | . . |**. | | | | | | | | | | | | | | | On voit que φb11 = 0.94765, φb22 = −0.39399 et que les autocorrélations partielles d’ordre supérieur ne sont pas significativement différentes de 0. La PACF empirique permet donc d’identifier un processus comme un AR d’un certain ordre p. Mais on peut également identifier l’ordre d’un processus qu’on sait AR, par un critère d’information (AIC, SBIC...). Résumé pratique. Nous avons maintenant à notre disposition 2 outils pour identifier une série (c’est-à-dire deviner le/les modèles auxquels elle est susceptible d’obéir) : 64 1. l’ACF qui s’annule à partir de l’ordre q + 1 pour un MA(q) et 2. la PACF qui s’annulle à partir de l’ordre p + 1 pour un AR(p). La prévision d’une série temporelle dont on connaı̂t le modèle fera l’objet du chapitre (8). 7.4 Exercices Ex. 1. On considère un couple de v.a. (X, Y ). (1) Calculer la variance de l’espérance linéaire EL(Y |X). (2) Calculer la variance de l’erreur : Y − EL(Y |X), expression (7.2), sans faire appel à l’expression générale. Qu’observe-t-on ? On appelle la décomposition de la variance ainsi obtenue : Décomposition de l’ANOVA. Ex. 2. Covariance partielle. Considérons un vecteur de trois variables aléatoires : Y1 , Y2 , X, de moyennes nulles, pour simplifier. (1) Calculer la régression linéaire de Y1 sur X et de Y2 sur X. (2) On note Ri = Yi − EL(Yi |X), i = 1, 2 les erreurs ou résidus. Calculer cov(R1 , R2 ). On l’appelle covariance partielle entre Y1 et Y2 étant donné X. (3) On pose dans (2) ci-dessus : Y = [Y1 Y2 ]0 . Exprimer matriciellement la matrice des covariances de [R1 R2 ]0 . Exprimer le coefficient de corrélation partiel entre Y1 et Y2 étant donné X. Ex. 3. Coefficient de corrélation partielle empirique. La notion d’espérance linéaire a été présentée sur des moyennes et des matrices de covariances théoriques, mais elle tient aussi pour des moments empiriques. Le poids, la taille et l’âge de n enfants prélevés dans une certaine population ont été enregistrés. La matrice des covariances de ces mesures est : 30 52 14 52 91 20 14 20 30 Calculer le coefficient de corrélation simple entre âge et taille, puis le coefficient de corrélation partiel entre âge et taille étant donné le poids. Ex. 4. TP SAS sur les données d’Iris. 65 Chapitre 8 Prévision d’une série temporelle Objectif On veut prédire les valeurs futures Yt+1 , · · · , Yt+h d’une série {Yt } à partir des valeurs observées {yt , yt−1 , . . .}. On est exactement dans le cadre de l’espérance conditionnelle, par exemple, la prévision de Yt+1 connaissant Yt , Yt−1 , . . . est l’espérance conditionnelle E(Yt+1 |Yt , Yt−1 , . . . ). On suppose dans ce chapitre que le processus {Yt } est gaussien et donc qu’espérance conditionnelle et espérance conditionnelle linéaire coı̈ncident. On a rencontré la question en termes généraux au chapitre (7), où on n’a pas cherché à exploiter des aspects particuliers des covariances qui permettraient de simplifier les calculs. Dans le présent chapitre on considère le cas où {Yt } est un ARMA(p,q) dont les paramètres sont connus. Dans la pratique le modèle est estimé et on applique la méthode qu’on va voir en remplaçant dans les expressions, les paramètres par leurs estimations. 8.1 Prévision à erreur quadratique minimum pour un ARMA Considérons un processus {Yt }, ARMA(p,q) : Yt = φ0 + φ1 Yt−1 + φ2 Yt−2 + · · · + φp Yt−p + Zt − θ1 Zt−1 − θ2 Zt−2 − · · · − θq Zt−q (8.1) où Zt ∼ BB(0, σZ2 ). Avec l’opérateur retard cette équation s’écrit aussi : (1 − φ1 B − φ2 B2 − · · · − φp Bp )Yt = φ0 + (1 − θ1 B − θ2 B2 − · · · − θq Bq )Zt (8.2) On suppose {Yt } stationnaire ( les racines du polynôme 1 − φ1 z − φ2 z 2 − · · · − φp z p sont en module > 1) , et inversible (les racines du polynôme 1 − θ1 z − θ2 z 2 − · · · − θq z q sont en module > 1). Les paramètres φi , θj et σZ2 sont connus. Commençons par centrer le processus. On voit sur (8.1) que µ = E(Yt ) vérifie : µ= φ0 . 1 − φ1 − φ2 − · · · − φp 66 Nous simplifions l’écriture en notant encore Yt , le processus centré Yt − µ. Avec les hypothèses de stationnarité et inversibilité, le processus admet une représentation MA(∞) : Yt = Zt + ψ1 Zt−1 + ψ2 Zt−2 + . . . (8.3) avec ψ0 = 1. C’est-à-dire, Yt s’écrit comme une combinaison linéaire (c.l.) des valeurs Zt , Zt−1 , . . . . Considérons d’autre part sur l’écriture AR(∞) Yt = Z t + ∞ X πj Yt−j j=1 on voit que Zt s’écrit comme une c.l. des Yt , Yt−1 , . . . . Ainsi, l’espace engendré par les c.l. de Yt , Yt−1 , . . . est le même que celui engendré par les c.l. de Zt , Zt−1 , . . . . Notamment : E(Zn+j |Yn , Yn−1 , . . . ) = E(Zn+j |Zn , Zn−1 , . . . ) et donc E(Zn+j |Yn , Yn−1 , . . . ) = 0 si j > 0, = Zn+j si j ≤ 0. On a observé le P processus jusqu’au temps n et on veut le prédire à l’horizon l, c’est-àdire prédire Yn+l = ∞ j=0 ψj Zn+l−j à partir de Yn , Yn−l , . . . l > 0. La prévision est une fonction linéaire de Yn , Yn−1 , . . . . La prévision à l’horizon l étant donné l’observation jusqu’au temps n peut donc aussi s’écrire comme une fonction linéaire de Zn , Zn−1 , . . . : ∗ ∗ Ybn (l) = ψl∗ Zn + ψl+1 Zn−1 + ψl+2 Zn−2 + . . . où les ψi∗ sont à déterminer. L’erreur quadratique de prévision (EQP) est : E(Yn+l − Ybn (l))2 = σZ2 l−1 X ψj2 + σZ2 ∞ X j=0 ∗ (ψl+j − ψl+j )2 . j=0 ∗ l’EQP est minimisée quand ψl+j = ψl+j , j = 0, 1, . . . donc : Ybn (l) = ψl Zn + ψl+1 Zn−1 + ψl+2 Zn−2 + . . . Erreur de prévision L’erreur de prévision est en (l) := Yn+l − Ybn (l) = l−1 X ψj Zn+l−j . j=0 P 2 On vérifie que E(en (l)) = 0, le prédicteur est sans biais. D’autre part, var(en (l)) = σZ2 l−1 j=0 ψj . Enfin, ayant supposé la normalité du bruit blanc, on peut fabriquer des intervalles de prévision : les limites de prévision à (1 − α)100%, α fixé entre 0 et 1, sont : v u l−1 X u ψj2 σZ . Ybn (l) ± z1−α/2 t1 + j=1 Les calculs ci-dessus sont simples car tout est exprimé en fonction du bruit blanc Zt , mais ils ne sont pas directement utilisables car Zt n’est pas observé. On envisage maintenant une expression plus utilisable de la prévision. 67 Calcul de la prévision Considérons le processus ARMA(p,q) centré examiné précédemment : Yn+l = φ1 Yn+l−1 + φ2 Yn+l−2 + · · · + φp Yn+l−p + Zn+l − θ1 Zn+l−1 − θ2 Zn+l−2 − · · · − θq Zn+l−q . Prenant l’espérance conditionnelle au passé Yn , Yn−1 , Yn−2 , . . . , nous obtenons : Ybn (l) = φ1 Ybn (l − 1) + φ2 Ybn (l − 2) + · · · + φp Ybn (l − p) + Zbn (l) − θ1 Zbn (l − 1) − θ2 Zbn (l − 2) − · · · + θq Zbn (l − q). (8.4) Nous savons d’autre part que : Ybn (j) = E(Yn+j |Yn , Yn−1 , . . . ), si j ≥ 1, et Ybn (j) = Yn−j , si j ≤ 0. et Zbn (j) = 0, si j ≥ 1, et Zbn (j) = Yn+j − Ybn+j−1 (1), si j ≤ 0. On peut donc par récurrence calculer les prévisions à l’horizon 1, 2, · · · 8.2 Exemple Considérons un ARMA(1,1) : (1 − φB)(Yt − µ) = (1 − θB)Zt . Calcul de Ybn (l). Yn+l = µ + φ(Yn+l−1 − µ) + Zn+l − θZn+l−1 donc Ybn (1) = µ + φ(Yn − µ) − θZn et Ybn (l) = µ + φ(Ybn (l − 1) − µ) = µ + φl (Yn − µ) − φl−1 θZn , l ≥ 2 où Zn = Yn − Ybn−1 (1). P Variance de l’erreur de prévision. L’écriture MA(∞) : Yt = µ + ∞ j=0 ψj Zt−j s’obtient en développant, (1 − θB)/(1 − φB) : 1 − θB = 1 + ψ1 B + ψ2 B2 + ψ3 B3 + . . . 1 − φB ou (1 − φB)(1 + ψ1 B + ψ2 B2 + ψ3 B3 + . . . ) ≡ 1 − θB. Identifiant les termes de même puissance de B à gauche et à droite on obtient : ψj = φj−1 (φ − θ), j ≥ 1. La variance de l’erreur est donc : var(en (l)) = σZ2 {1 + l−1 X j=1 2 qui tend vers σZ2 (φ−θ) quand l → ∞. 1−φ2 68 [φj−1 (φ − θ)]2 } 8.3 Plan de l’étude empirique d’une série ARMA Avant de poursuivre l’étude des séries, on fait un point des étapes à suivre pour cette étude dans le cas d’une série ARMA. Situation On a observé une série sur un intervalle de temps, on a examiné son graphique et sa fonction d’autocorrélation empirique. On a conclu qu’elle pouvait être stationnaire. On veut essayer de la modéliser par un modèle ARMA en vue d’en avoir une description synthétique, de la prédire ou de la comparer à une autre série. Étape d’identification (au sens de l’automatique) Il faut, avant l’estimation, choisir les paramètres p et q. En examinant l’aspect de la FAC (Fonction d’autocorrélation) empirique, on se fait une idée de la stationnarité (atteinte ou non) de la série. On considère qu’une série est stationnaire quand sa FAC empirique décroit suffisamment vite vers 0. On exammine ensuite l’aspect de la FAC et de la FAC Partielle de la série. On se fait ainsi une idée des ordres p et q possibles. Des méthodes d’aide au choix de p et q ont été proposées. SAS en intègre plusieurs mais nous ne les envisageons pas dans ce cours. Étape d’estimation Une fois p et q choisis, on estime le modèle. On teste d’abord que le résidu b at est un bruit blanc. Si on doit rejeter cette hypothèse, il faut revoir le choix des ordres p, d et q, et de la transformation initiale. Si on peut considérer que le résidu est un bruit blanc, on analyse les résultats de l’estimation suivant les mêmes principes qu’en régression linéaire : significativité des φi et θj d’après les t-statistiques, corrélations entre les estimateurs de ces paramètres. Le chapitre (9) est brève introduction à l’estimation d’un ARMA. Remarque. Les logiciels qui ajustent un modèle ARMA d’ordres p et q donnés, à une série supposée stationnaire, fournissent une représentation inversible : les racines de Φ(B) = 0 et Θ(B) = 0 sont > 1 en module. Quand on essaie d’ajuster un modèle ARMA à une série non stationnaire, on obtient un message d’avertissement ou d’erreur de la part du logiciel car les procédures numériques d’optimisation mises en œuvre pour l’estimation ne convergent pas ou convergent mal dans un tel cas. Étape de prévision On utilise enfin le modèle estimé pour prédire la série. Il est recommandé de n’utiliser qu’une partie de la série pour estimer le modèle, de façon à pouvoir comparer ensuite pour un même intervalle de temps, réalisations et prévisions. 69 Chapitre 9 Estimation d’un ARMA On examine dans ce chapitre, comment écrire la fonction de vraisemblance de processus de base : AR(1) et MA(1). Une fois obtenue la fonction de vraisemblance, son optimisation est un problème numérique. Si la fonction de vraisemblance est quadratique, on débouche sur le problème des moindres carrés linéaires classique. Sinon on a un problème non linéaire qui doit se résoudre par un algorithme d’optimisation. Nous n’étudions pas ces algorithmes dans ce cours. 9.1 Fonction de vraisemblance d’un processus gaussien AR(1) On a la série yt , t = 1, 2, · · · , T , observation de {Yt } AR(1) : Zt ∼ BBN (0, σ 2 ), t ∈ N, Yt = c + φYt−1 + Zt , (BBN = Bruit Blanc Gaussien). Evaluation de la fonction de vraisemblance. On sait qu’alors Yt c , var(Yt ) = suit une loi normale et on a déjà calculé ses moyenne et variance : E(Yt ) = µ = 1−φ σ2 . 1−φ2 Notons θ = (c, φ, σ 2 ) le vecteur des paramètres à estimer. La fonction de densité de probabilité (f.d.p.) de Y1 est : fY1 (y1 ; θ) = p (y1 − c/(1 − φ))2 exp[−0.5 ] σ 2 /(1 − φ2 ) 2πσ 2 /(1 − φ2 ) 1 Considérons maintenant la loi conditionnelle de Y2 sachant que Y1 = y1 . C’est une loi normale de moyenne c + φy1 , de variance σ 2 d’où la f.d.p. fY2 |Y1 =y1 (y2 ; θ) = √ 1 2πσ 2 exp[−0.5 (y2 − c − φy1 ))2 ] σ2 on en déduit la f.d.p. conjointe du couple (Y1 , Y2 ) : fY1 ,Y2 (y1 , y2 ; θ) = fY1 (y1 ; θ)fY2 |Y1 =y1 (y2 ; θ) 70 On observe d’autre part que Yt ne dépend explicitement que de yt−1 : fYt |Yt−1 =yt−1 ,Yt−2 =yt−2 ,··· ,Y1 =y1 (yt ; θ) = fYt |Yt−1 =yt−1 (yt ; θ) = √ 1 2πσ 2 exp[−0.5 (yt − c − φyt−1 ))2 ]. σ2 La f.d.p. conjointe des observations est donc : fY1 ,··· ,YT (y1 , · · · , yT ; θ) = fY1 (y1 ; θ) T Y fYt |Yt−1 =yt−1 (yt ; θ). t=2 D’où on obtient la (fonction) log vraisemblance L(θ) = (9.1) 1 σ2 1 1 (y1 − c/(1 − φ))2 T − 1 − ln(2π − ln(2πσ 2 ) − ) − 2 2 2 2 1−φ 2 σ /(1 − φ ) 2 2 T X t=2 (yt − c − φyt−1 )2 σ2 Supposons qu’on travaille conditionnellement à la première valeur y1 . Alors la log vraisemblance se simplifie en la log vraisemblance conditionnelle : T X (yt − c − φyt−1 )2 T −1 2 Lc (θ) = − ln(2πσ ) − . 2 2σ 2 t=2 (9.2) On reconnaı̂t que 9.2 a la même forme que la log vraisemblance associée à l’estimation de la moyenne et de la variance d’une v.a. normale, basée sur T − 1 observations indépendantes de cette v.a.. Dérivant par rapport à c et φ on obtient b c et φb solution de −1 P P y c T − 1 y t t−1 P 2 P 2 = P yt−1 yt−1 yt−1 φ qu’on reporte dans 9.2 puis en dérivant par rapport à σ 2 : PT b t−1 )2 (yt − b c − φy 2 b σ = t=2 T −1 On appelle estimateur du maximum de vraisemblance conditionnelle, la solution de ces deux équations. Si T est grand les solutions des maximisations de ( 9.1) et ( 9.2) sont proches. 9.2 Fonction de vraisemblance d’un processus gaussien MA(1) Soit un processus gaussien MA(1) : Yt = µ + Zt − θZt−1 où Zt est un BBN(0, σ 2 ), Yt est observé sur t = 1, 2 · · · , T . 71 Si on connaı̂t zt−1 , la valeur de Zt−1 , alors la loi de Yt sachant que Zt−1 = zt−1 est N(µ − θzt−1 , σ 2 ). Supposons que Z0 = 0, alors étant donné l’observation de Y1 on peut déduire la valeur de Z1 : z1 = y1 − µ. Ensuite Y2 = µ + Z2 − θz1 permet d’obtenir z2 . On obtient ainsi la loi conditionnelle de Y2 sachant que Z0 = 0, Y1 = y1 . Sa f.d.p. est : fY2 |Y1 =y1 ,Z0 =0 (y2 ; θ) = √ 1 exp(−0.5 2πσ 2 (y2 − µ + θz1 )2 ). σ2 Ensuite connaissant z1 et y2 on peut calculer z3 = y2 − µ + θz1 ... Ainsi ayant fixé la valeur de Z0 (ici à la moyenne) et disposant des observations y1 , · · · , yT on peut calculer pour chaque valeur de θ : z1 = y1 − µ, z2 = y2 − µ + θz1 , · · · , zt = yt − µ + θzt−1 et la distribution conditionnelle de Yt |Yt−1 = yt−1 , · · · , Y1 = y1 , Z0 = 0. Sa f.d.p. est : fYt |Yt−1 =yt−1 ,···Y1 =y1 ,Z0 =0 (yt ; θ) = √ 1 2πσ 2 exp[ 1 (yt − µ + θzt−1 )2 ]. 2σ 2 La f.d.p. conjointe de Y1 , · · · , YT |Z0 = 0 est : fY1 |Z0 =0 (y1 ; θ) T Y fYt =yt |Yt−1 =yt−1 ,···Y1 =y1 ,Z0 =0 (yt ; θ). t=2 La log vraisemblance est : T 1 X T 2 (yt − µ + θzt−1 )2 − ln(2πσ ) − 2 2 2σ t=1 72 Chapitre 10 Modèles de séries non stationnaires 10.1 Non stationnarité en variance On envisage le cas d’une série {Yt } dont la moyenne, µt , varie avec le temps de façon déterministe et dont la variance dépend du niveau moyen : Y t = µ t + Ut avec var(Ut ) = h2 (µt )σ 2 pour une certaine fonction h. Pour traiter cette situation d’hétéroscédasticité, on cherche une transformation g telle que var(g(Yt )) ' constante. C’est la technique dite de stabilisation de la variance. Par linéarisation on a : g(Yt ) ' g(µt ) + (Yt − µt )g 0 (µt ) et var(g(Yt )) ' [g 0 (µt )]2 var(Yt ) On cherche donc g telle que g 0 (x) = 1/h(x). Par exemple, pour h(x) = x, g 0 (x) = 1/x et donc g(x) = log(x). 10.2 Tendance stochastique ou déterministe Considérons les deux modèles suivants : Yt = β0 + β1 t + Ut Yt = β1 + Yt−1 + Ut (Det) (Sto) (10.1) (10.2) où Ut est stationnaire. Si on différencie le premier modèle on obtient un processus stationnaire mais ∆Ut = (1 − B)Ut n’est pas inversible. Alors que l’erreur reste inversible si on différencie le deuxième. Il n’est pas facile, étant donné une série dont la moyenne ne semble pas constante, de savoir s’il faut la différencier ou lui ajuster une tendance déterministe. Avec les logiciels, la différenciation est facile et tentante. Une façon de procéder consiste à 73 Fig. 10.1 – y1 et y2 , – (1) Examiner le graphique de la série pour voir si une tendance linéaire ou quadratique se dégage sur l’ensemble de la série. Si c’est le cas, ajuster une telle tendance puis modèliser le résidu. – (2) Différencier la série et identifier le modèle de la série (1 − B)Yt ou (1 − B)2 Yt ... si ce modèle semble plus compliqué que celui de la série initiale, il est probable qu’il fallait ajuster une tendance déterministe et non différencier. On peut envisager (1) et (2) simultanément. Il existe des tests dits de ”racine unité” qui permettent de tester l’hypothèse nulle que la série doit être différenciée. Exemple On a simulé les séries : y1t = a0 + a1 t + et y2t − y2,t−1 = 1 − θB Zt 1 − φB avec a0 = 0, a1 = −.2 θ = .4 φ = −.7. Graphe de l’ACF de y1 . The ARIMA Procedure Name of Variable = y1 Mean of Working Series 3.695422 Standard Deviation 2.870494 Number of Observations 200 74 1 − θB Zt 1 − φB Autocorrelations Lag Covariance 8 9 1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 8.239734 1.199694 6.625372 2.526843 5.469683 3.186449 4.657897 3.388947 4.405001 3.394916 4.081730 3.585290 3.485498 4.041477 2.732624 4.361790 2.365318 4.146199 2.518068 3.669622 2.648516 3.386793 2.607445 3.301683 2.294181 Correlation 1.00000 0.14560 0.80408 0.30667 0.66382 0.38672 0.56530 0.41129 0.53460 0.41202 0.49537 0.43512 0.42301 0.49049 0.33164 0.52936 0.28706 0.50320 0.30560 0.44536 0.32143 0.41103 0.31645 0.40070 0.27843 -1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 | | | | | | | | | | | | | | | | | | | | | | | | | . . . . . . . . . . . . . . . . . . . . . . . . |********************| |*** | |**************** | |****** | |************* | |******** | |*********** | |******** | |*********** | |******** | |********** | |********* | |******** | |********** | |*******. | |*********** | |****** . | |********** | |****** . | |********* | |****** . | |********. | |****** . | |********. | |****** . | Graphe de l’ACF de y2 . Name of Variable = y2 Mean of Working Series -7.65501 Standard Deviation 1.768322 Number of Observations 200 Autocorrelations Lag Covariance 8 9 1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 3.126961 1.561493 2.490392 1.719192 2.133912 1.736780 1.933931 1.734175 1.731355 1.649560 1.625851 1.539286 1.548901 1.405170 1.515742 1.280278 1.299462 1.149190 1.205819 0.975364 1.123834 0.846295 0.967381 Correlation 1.00000 0.49936 0.79643 0.54980 0.68242 0.55542 0.61847 0.55459 0.55369 0.52753 0.51995 0.49226 0.49534 0.44937 0.48473 0.40943 0.41557 0.36751 0.38562 0.31192 0.35940 0.27064 0.30937 -1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 | | | | | | | | | | | | | | | | | | | | | | | . . . . . . . . . . . . . . . . . . . . . . |********************| |********** | |**************** | |*********** | |************** | |*********** | |************ | |*********** | |*********** | |*********** | |********** | |********** | |********** | |********* | |********** | |********. | |********. | |******* . | |********. | |****** . | |******* . | |***** . | |****** . | 75 23 24 0.718949 0.742880 0.22992 0.23757 | | . . |***** |***** . . | | Graphe de l’ACF de (1 − B)y1 . Name of Variable = y1 Period(s) of Differencing 1 Mean of Working Series 0.035171 Standard Deviation 3.742027 Number of Observations 199 Observation(s) eliminated by differencing 1 Autocorrelations Lag Covariance 8 9 1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Correlation 14.002764 -12.478156 9.514141 -7.043273 5.250343 -3.826731 2.850475 -2.343063 2.000108 -1.628659 1.130746 -0.351696 -0.706889 1.899692 -2.993566 3.637361 -3.713017 3.329222 -2.683054 2.045614 -1.545019 1.268442 -1.305110 1.580499 -1.747923 1.00000 -.89112 0.67945 -.50299 0.37495 -.27328 0.20357 -.16733 0.14284 -.11631 0.08075 -.02512 -.05048 0.13567 -.21378 0.25976 -.26516 0.23775 -.19161 0.14609 -.11034 0.09059 -.09320 0.11287 -.12483 -1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 | | | | | | | | | | | | | | | | | | | | | | | | | |********************| ******************| . | . |************** | **********| . | . |******* | .*****| . | . |**** . | . ***| . | . |*** . | . **| . | . |** . | . *| . | . *| . | . |*** . | . ****| . | . |*****. | .*****| . | . |*****. | . ****| . | . |*** . | . **| . | . |** . | . **| . | . |** . | . **| . | The ARIMA Procedure Graphe de l’ACF de (1 − B)y2 . Name of Variable = y2 Period(s) of Differencing 1 Mean of Working Series -0.01399 Standard Deviation 1.760053 Number of Observations 199 Observation(s) eliminated by differencing 1 Autocorrelations Lag Covariance 8 9 1 0 1 2 3.097785 -2.502463 1.697283 Correlation 1.00000 -.80782 0.54790 -1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 | | | |********************| ****************| . | . |*********** | 76 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 -1.160169 0.791552 -0.567092 0.364269 -0.185157 0.104696 -0.084632 0.072530 -0.124372 0.153480 -0.248267 0.324443 -0.237194 0.186345 -0.260849 0.338255 -0.412104 0.440975 -0.408651 0.410683 -0.293404 0.015778 -.37452 0.25552 -.18306 0.11759 -.05977 0.03380 -.02732 0.02341 -.04015 0.04955 -.08014 0.10473 -.07657 0.06015 -.08420 0.10919 -.13303 0.14235 -.13192 0.13257 -.09471 0.00509 | | | | | | | | | | | | | | | | | | | | | | *******| . . |***** .****| . . |** . . *| . . |* . . *| . . | . . *| . . |* . . **| . . |** . . **| . . |* . . **| . . |** . . ***| . . |*** . . ***| . . |*** . . **| . . | . | | | | | | | | | | | | | | | | | | | | | | L’ACF de (1 − B)y2 semble moins bruité que celle de (1 − B)y1 . On ajuste un ARMA(1,1) aux séries différenciées. • Résidu de l’ajustement ARMA(1,1) à (1 − B)y1 . Autocorrelation Check of Residuals To ChiPr > Lag Square DF ChiSq ---------------Autocorrelations--------------6 12 18 24 30 36 14.25 16.59 28.74 33.99 38.00 42.89 4 10 16 22 28 34 0.0065 0.0840 0.0257 0.0492 0.0984 0.1411 -0.179 0.029 -0.017 0.019 0.035 -0.022 -0.058 0.037 -0.109 0.040 0.052 0.077 0.140 -0.005 0.154 -0.044 -0.002 -0.092 0.053 0.077 -0.077 0.076 -0.075 0.046 0.099 -0.051 0.108 0.034 -0.002 -0.023 -0.051 0.013 0.046 -0.111 -0.087 0.052 -0.059 -0.076 -0.045 -0.109 0.015 -0.001 0.009 -0.066 0.009 -0.074 -0.024 0.057 • Résidu de l’ajustement ARMA(1,1) à (1 − B)y2 . Autocorrelation Check of Residuals To ChiPr > Lag Square DF ChiSq ---------------Autocorrelations--------------6 12 18 24 30 36 1.19 6.02 11.93 20.26 26.28 27.31 4 10 16 22 28 34 0.8798 0.8132 0.7487 0.5669 0.5575 0.7851 0.011 0.026 0.016 -0.039 -0.001 -0.009 0.000 -0.044 0.142 0.084 -0.045 -0.026 -0.027 -0.063 0.026 0.046 0.151 0.001 -0.037 -0.078 -0.063 0.094 0.017 -0.012 On voit que la série à tendance déterministe, y1 a une différence première mal ajustée par un ARMA(1,1). 77 10.2.1 Non stationnarité d’une série saisonnière Une série saisonnière peut ne pas être stationnaire et nécessiter une différenciation saisonnière. On dit que Yt est un SARIMA(p, d, q)(P, D, Q)s si (1 − Bs )D (1 − B)d Yt est un SARMA(p, q)(P, Q)s c’est-à-dire si (1 − Bs )D (1 − B)d Φ(B)Φs (Bs ) Yt = Θ(B)Θs (Bs )Zt 10.3 Annexe – code SAS Le code ci-dessous donne la simulation des processus y1 et y2 et les estimations. 5 10 15 20 25 30 Options PS=55 LS=78 NoDate PageNo=1 NoCenter FORMCHAR=’|----|+|---+=|-/\<>*’; goptions htitle=3 htext=2 ftext=swissb ftitle=swissb; data a; * simulation de 2 proc; data a; teta =.4; phi = -.7; a0 = 0; a1=-.2; y1m1 = 0; y2m1=0; y2m2 = 0; z1m1 =0; z2m1 = 0; y1 =0; y2 = 0; z1 =0; z2 = 0; do i = -50 to 200; date=i; z1m1 = z1; z2m1 = z2; z1 = rannor( 138561 ); z2 = rannor(458395); y1m1 = y1; y2m2 = y2m1; y2m1 = y2; y1 = a0 + phi*(a1 -a0) + i*a1*(1-phi) + phi* y1m1+ z1 - teta* z1m1; y2 = (phi+1) * y2m1 - phi *y2m2+ z2 - teta* z2m1; if i > 0 then output; end; run; 35 40 45 symbol1 color=green interpol=j width=2 value= height=3; ; symbol2 color=red interpol=j width=2 value= height=3; ; proc gplot data=a; plot y1*date=1 y2*date=2/ overlay; run; quit; 78 50 proc arima data=a; identify var=y1; run; identify var=y2; run; identify var=y1(1); run; identify var=y2(1); run; quit; 55 60 proc arima data=a; identify var=y1(1); run; estimate p=1 q=1 ; run; identify var=y2(1); run; estimate p=1 q=1 ; run; Exemple de syntaxe pour l’ajustement d’un SARIMA(0, 1, 1)(0.1.1)12 à une série (xlog), sans constante, par la méthode des moindres carrés. proc arima data=seriesg; identify var=xlog(1,12) nlag=15; run; estimate q=(1)(12) noconstant method=uls; run; quit; 79 Bibliographie [1] Box G., Jenkins, Reinsel G.C. Time Series 3rd Ed. Prentice Hall. [2] Bourbonnais R. Econométrie, 3ème éd., 2000, Dunod. 14, 34 [3] Bourbonnais R., Terraza M. Analyse des séries temporelles en économie, 1998, PUF. [4] Brockwell P.J., Davis R.A. Introduction to Time Series and Forecasting , 1997, Springer. [5] Bosq D. et Lecoutre Modélisation des Séries chronologiques Masson. [6] Brockwell P.J., Davis R.A. Time Series : Theory and Methods, 2nd edition , 1991, Springer. 21, 33, 34 [7] Destandau S. et Le Guen M. Analyse Exploratoire des Données avec SAS/INSIGHT, 1998, INSEE Guides 7-8 . [8] Franses P. H. Time series models for business and economic forecasting, 1998, Camridge University Press. [9] Gourieroux C., Monfort A. Séries temporelles et modèles dynamiques, 1995, 2nd edition, Economica. 28, 30, 63 [10] Hamilton J.D. Time Series Analysis, 1994, Princeton University Press. 39, 63 [11] Harvey A. C. Forecasting, Structural Time Series Models and the Kalman Filter, 1991, Cambridge Univ. Press. [12] Jaffe J.A. Mastering the SAS System Snd ed., 1996, ITP. [13] Kennedy P. A guide to Econometrics 5th ed., 2003 Blackwell. [14] SAS Institute, SAS/ETS User’s Guide Version 6 Snd ed., SAS Institute. [15] Tassi Ph. Méthodes statistiques, 1989 et nombreuses éditions, Economica. [16] Thomas A. Econométrie des variables qualitatives, Dunod. [17] Wei Time Series Analysis : Univariate and Multivariate Methods, 1990, Addison-Wesley. 80