Séries Temporelles Avancées Polycopié de Cours
Transcription
Séries Temporelles Avancées Polycopié de Cours
1 Université Paris Ouest Nanterre Master EIPMC Séries Temporelles Avancées Polycopié de Cours Laurent FERRARA 1 1 EconomiX - Université Paris Ouest Nanterre et Banque de France. Email : laurent.ferrara@u–paris10.fr ou [email protected]. Site web : http://lo.ferrara.free.fr 2 Contents 3 4 CONTENTS Chapter 1 Introduction L’objet de ce cours est de fournir les outils et méthodes nécessaires à l’étude de la dynamique des séries temporelles économiques et financières. Le cours débute par une présentation détaillée et progressive des bases de l’économétrie des séries temporelles stationnaires en rappelant d’abord différents concepts de séries chronologiques (fonction d’auto-corrélation, stationnarité, tests Ě), puis en dérivant les processus univariés de type ARMA (autorégressifs et moyenne mobile). Le cours se poursuit par l’étude conjointe de plusieurs séries au travers de la présentation des modèles VAR (autorégressifs vectoriels), largement utilisés aujourd’hui en pratique. L’inférence statistique de ce type de modèles sera développée et des extensions récentes seront présentées. La plupart des séries économiques et financières étant non stationnaires, la suite du cours est consacrée aux tests de racine unitaire (stationnarité et non stationnarité) ainsi qu’à la théorie de la cointégration et aux modèles à correction d’erreur. Enfin, de nombreuses séries macroéconomiques et financières étant affectées par des chocs structurels, nous proposons une revue des différents modèles linéaires à paramètres non constants au cours du temps qui permettent une modélisation plus flexible. Ce cours a une dimension appliquée très importante ; chaque chapitre théorique est ainsi systématiquement illustré d’applications empiriques à la macroéconomie et à la finance. Bibliographie sommaire : Brockwell P.J. et Davis R.A. (1991), Time Series: Theory and Methods, Springer Verlag. Hamilton J.D. (1994), Time Series Analysis, Princeton University Press. Lardic S. et Mignon V. (2002), Econométrie des séries temporelles macroéconomiques et financières, Economica. Ferrara L. et Guégan D. (2002), Analyser les Séries Chronologiques avec S-Plus : une approche Paramétrique, Collection " Pratique de la Statistique ", Presses Universitaires 5 6 CHAPTER 1. INTRODUCTION de Rennes, 147 pages Van Dijk D. et Franses, P.H. (2000), Nonlinear Time Series Models in Empirical Finance, Cambridge University Press. Plan du cours : CHAPITRE 1 : Concepts de séries chronologiques Définitions : série temporelle et processus aléatoire Stationnarité et transformation des séries temporelles Caractéristiques d’une série temporelle Application : Faits stylisés de séries d’indices boursiers européens CHAPITRE 2 : Rappels sur les processus ARMA Définitions et généralités Caractéristiques et simulations Spécification et estimation des processus ARMA Validation des processus ARMA Prévision des processus ARMA Quelques exemples d’application CHAPITRE 3 : Représentation autorégressive vectorielle VAR(p) d’un processus stationnaire Représentation canonique et processus d’innovation Caractéristiques et simulations Spécification et estimation des paramètres d’un processus VAR (MCO, maximum de vraisemblance) Validation (test du rapport de vraisemblance, critères d’information) Prévision Causalité et exogénéité dans les processus VAR Fonction de réponse impulsionnelle Une application empirique : PIB, Inflation et politique monétaire aux Etats-Unis Extensions récentes des processus VAR CHAPITRE 4 : Tests de racine unitaire et modélisation ARIMA Généralités sur la non stationnarité des séries Les tests de racine unitaire Processus ARIMA univariés et multivariés : définitions Application : étude de la stationnarité d’indices boursiers CHAPITRE 5 : Cointégration et modèles à correction d’erreur 7 Concepts de cointégration Caractéristiques et simulations Représentation des séries cointégrées : les modèles à correction d’erreur Estimation des relations de cointégration : méthode d’estimation en deux étapes Tests de cointégration Application : Cointégration entre la croissance économique et certains secteurs en France CHAPITRE 6 : Processus linéaires à paramètres non-constants Quelques évidences empiriques de non-stabilité dans les séries Processus à changements de régimes régis par une variable observable (Ex : processus à seuil, à transition lisse) Processus à changements de régimes régis par une variable inobservable (Ex : processus à changements de régimes markoviens) Dans ce document dédié aux étudiants du cours du M2 EIMPC, nous reprenons quelques éléments de ce plan du cours, le reste sera traité en cours. 8 CHAPTER 1. INTRODUCTION Chapter 2 Concepts de série chronologique 2.1 Approche statistique en termes de processus En statistique, toute tentative de modélisation se fait en introduisant la notion de variable aléatoire. L’approche statistique d’une série chronologique consiste à mettre en place un modèle statistique qui considère chaque observation xt , pour t = 1, . . . , T , comme la réalisation d’une variable aléatoire Xt (ω), telle que : Xt : (Ω, F, P ) → (R, B(R)), où B(R) est la tribu des Boréliens de R. Definition 2.1.1 Un processus (Xt )t∈Z est une famille de variables aléatoires à valeurs réelles indéxée par t ∈ Z. Pour une valeur de ω fixée dans Ω, la fonction qui associe à chaque date t la réalisation Xt (ω) est la trajectoire du processus au point ω. De même, pour une date t fixée dans Z, la fonction qui associe à chaque ω associe la réalisation Xt (ω) est l’état du processus à la date t. L’objectif du praticien va être alors d’identifier le processus ayant généré la trajectoire observée. Cette identification se fera à l’aide d’outils statistiques présentés plus loin dans ce document. En termes mathématiques, cela revient à rechercher un certain ω0 ∈ Ω ayant engendré la trajectoire observée. Si le processus a été spécifié, estimé et validé, on peut alors l’utiliser pour effectuer une prévision. On construit alors l’estimateur X̂T (h) qui est le prédicteur de la variable aléatoire XT +h . Comme tout estimateur, ce prédicteur est à son tour une variable aléatoire, en tant que fonction mesurable de v.a.. Ainsi, X̂T (h) possède une loi de distribution, qu’il conviendra de spécifier dans la mesure du possible. En utilisant cette v.a., on pourra donc calculer la prévision x̂T (h) comme étant la réalisation de X̂T (h), calculée à partir des données de la trajectoire. 9 10 2.2 CHAPTER 2. CONCEPTS DE SÉRIE CHRONOLOGIQUE Comment se présente l’information dans une trajectoire ? Contrairement à un échantillon, ce qui caractérise une trajectoire (x1 , . . . , xT ) issue d’un processus est la non indépendance des v.a. (X1 , . . . , XT ). En effet, dans la plupart des cas en pratique, il existe une forme de dépendance entre les valeurs d’une trajectoire. En finance, la valeur d’un actif un jour donné va dépendre d’une certaine manière de la valeur de cet actif les jours précédents. En économie, les séries de PIB, d’investissement, de consommation des ménages ou de commerce extérieur pour un certain trimestre dépendent d’un certaine manire des trimestres précédents. On pourrait ainsi multiplier les exemples de dépendence temporelle au sein d’une série. 2.2.0.1 Domaine temporel Il existe un outil statistique qui permet de mesurer la dépendence entre deux v.a., il s’agit du coefficient de corrélation linéaire. La plupart du temps, les praticiens font souvent une utilisation extensive de ce coefficient, du fait de sa facilité d’utilisation. Toutefois, quelques précautions d’usage sont à prendre. En particulier, il est bon de rappeler que ce coefficient ne mesure que les dépendances linéaires entre variables, les dépendances non linéaires étant exclues. Ensuite, d’autres dépendances sur les moments d’ordre supérieurs ou égaux à 2 peuvent exister; elles ne sont pas mesurées par ce coefficient. Ainsi, un coefficient de corrélation égal à zéro n’implique pas, en général, que ces deux variables sont indépendantes, la réciproque étant vraie. Le cas Gaussien en est un contre-exemple. Cependant, dans la pratique, le coefficient de corrélation linéaire reste utile pour caractériser le degré de dépendance d’un processus. En particulier, on utilisera la fonction d’autocorrélation décrite dans la définition suivante : Definition 2.2.1 Soit (Xt )t∈Z un processus du second ordre (i.e. : E(Xt2 ) < ∞). (i) La fonction moyenne, notée m(.), du processus (Xt )t∈Z est l’espérance non conditionnelle du processus, i.e.: m(t) = E(Xt ), pour tout t ∈ Z. (ii) La fonction d’autocovariance au retard k, notée γ(k), du processus (Xt )t∈Z est définie de la manière suivante, pour tout t ∈ Z et k ∈ Z, : γ(k) = cov(Xt , Xt+k ) = E [(Xt − E(Xt ))(Xt+k − E(Xt+k ))] . (2.1) (iii) La fonction d’autocorrélation au retard k, notée ρ(k), du processus (Xt )t∈Z , que l’on note ACF (AutoCorrelation Function), est définie de la manière suivante, pour tout t ∈ Z et k ∈ Z, : γ(k) ρ(k) = , (2.2) σXt σXt+k p où σXt est l’écart type du processus au temps t, pour t ∈ Z, tel que : σXt = γ(0) . 2.2. COMMENT SE PRÉSENTE L’INFORMATION DANS UNE TRAJECTOIRE ?11 Ainsi, pour un retard k fixé, le nombre ρ(k) ∈ [−1, 1] mesure la corrélation linéaire entre les variables Xt et Xt+k . En particulier, on remarque que ρ(0) = 1. Dans une optique prévisionnelle, on s’attachera à mettre en évidence les retards k pour lesquels l’ACF est la plus élevée. Remarque 2.1 On dit que le processus est centré si m(t) = 0, ∀t. D’autres mesures de dépendance entre variables existent en statistique. Un outil de diagnostic intéressant est la fonction d’autocorrélation partielle, que l’on note PACF (Partial ACF). La PACF au retard k, notée r(k), est définie pour tout k ∈ Z, de la manière suivante : ∗ cov(Xt − X ∗ , Xt+k − Xt+k ) , (2.3) r(k) = ∗ ∗ 1/2 var(Xt − X ) var(Xt+k − Xt+k )1/2 ∗ où, pour tout t, Xt∗ est la régression affine de Xt sur Xt+1 , Xt+2 , . . . , Xt+k−1 et Xt+k est la régression affine de Xt+k sur Xt+k−1 , Xt+k−2 , . . . , Xt+1 . Ainsi, pour un retard k fixé, le nombre r(k) est le coefficient de corrélation linéaire entre la variable Xt − E(Xt |Xt+1 , Xt+2 , . . . , Xt+k−1 ) et la variable Xt − E(Xt+k |Xt+1 , . . . , Xt+k−2 , Xt+k−1 ). Ce coefficient mesure en fait la liaison entre les variables Xt et Xt+k , une fois que l’on a retranché l’influence des variables intermédiaires. La proposition suivante permet de calculer facilement r(k), pour un retard k fixé. Proposition 2.1 Le coefficient r(k) défini par l’équation ?? est le coefficient de Xt dans la régression linéaire de Xt+k sur 1, Xt , Xt+1 , . . . , Xt+k−1 . Enfin, on rappellera que la connaissance parfaite de la dépendance entre 2 variables n’est possible qu’avec la connaissance de la jointe du vecteur bivarié. Les outils de type copules, qui sont en train de se développer fortement dans le domaine de la finance permettent une estimation de la loi jointe d’un vecteur en dimension 2. Dans la pratique, à échantillon fini, on estime la moyenne du processus à l’aide de la PT −1 moyenne empirique de la série, définie par X̄T = T t=1 Xt . La fonction d’autocovariance d’un processus au retard k est estimée par la fonction d’autocovariance empirique, γ̂(.), définie, pour 0 ≤ k < T , par : T −k 1X (Xt − X̄T )(Xt+k − X̄T ). γ̂(k) = T t=1 (2.4) On remarque que γ̂(k) est divisée par le nombre total d’observations T , et non pas par T − k. Par conséquent, cet estimateur est biaisé mais la matrice de variance-covariance 12 CHAPTER 2. CONCEPTS DE SÉRIE CHRONOLOGIQUE estimée Γ̂ = [γ̂(i − j)]i,j=1,...,T , calculée à partir de cet estimateur, est alors définie positive et inversible. De même, l’ACF est estimée par l’ACF empirique, notée ρ̂(.) et définie, pour 0 ≤ k < T , par : γ̂(k) . (2.5) ρ̂(k) = σˆXt σXˆt+k On remarque également que la matrice de corrélation estimée, R̂ = [ρ̂(i − j)]i,j=1,...,T , est définie positive. 2.2.0.2 Domaine spectral Dans ce paragraphe, on effectue quelques rappels sur l’analyse spectrale d’un processus stationnaire et on présente en détail les instructions RATS correspondantes. Pour une présentation fouillée des différentes techniques d’analyse spectrale, on se référe à la monographie de Priestley (1981). On considère toujours le trajectoire finie X1 , . . . , XT , issue du processus stationnaire (Xt )t∈Z , de covariance notée γ. La densité spectrale f de ce processus est définie comme étant la transformée de Fourier de la fonction d’autocovariance du processus, i.e., pour toute fréquence λ appartenant à l’intervalle [0, 2π[ : ∞ 1 X γ(k)e−iλk . f (λ) = 2π k=−∞ (2.6) Le principal outil d’analyse dont on dispose pour estimer empiriquement la densité spectrale théorique du processus est le périodogramme IT , défini sur l’intervalle [0, 2π[ par: 2 T 1 X −iλt IT (λ) = e Xt , (2.7) 2πT t=1 En général, on considère des processus centrés pour lesquels la moyenne empirique est nulle. On note que, dans la pratique, les fréquences λ sur l’intervalle [0, 2π[ sont remplacées par les fréquences de Fourier, λj , définies, pour j = 0, . . . , T −1, par : λj = 2πj/T . 2.3 Comment identifier un processus candidat ? L’ACF fournit une mesure de la persistence ou de la mémoire du processus. A partir de cette information, nous allons chercher quel type de processus permet de reproduire 2.3. COMMENT IDENTIFIER UN PROCESSUS CANDIDAT ? 13 cette persistence. Nous allons caractériser trois de types de mémoire : mémoire longue, mémoire courte et sans mémoire. Il existe des processus sans mémoire, pour lesquels la v.a. à la date t, Xt , n’est pas corrélée aux v.a. aux dates précédentes Xt−1 , Xt−2 , . . .. Ce sont les processus de type bruit blanc faible définis ci-dessous. Definition 2.3.1 Un processus d’ordre 2 (εt )t∈Z est un processus bruit blanc faible si : (i) ∀t, E(εt ) = 0 (ii) ∀t,∀s, E(εt εs ) = σε2 × I[t=s] où I(.) est la fonction indicatrice. On généralisera la notion de bruit blanc faible à celle de bruit blanc fort en posant que (εt )t∈Z est un processus bruit blanc fort si (εt )t∈Z est un processus indépendant. C’est à dire que la v.a. à la date t, εt , est indépendante de toute v.a. à la date s 6= t, εs . Un processus bruit blanc fort est un processus bruit blanc faible, mais, en général, un processus bruit blanc faible n’est pas un processus bruit blanc fort (la non-corrélation n’implique pas l’indépendance). Par contre, un processus bruit blanc faible Gaussien est un processus bruit blanc fort. Le processus bruit blanc est le processus de base à partir duquel tous les processus stochastiques sont définis. Le dénomination de bruit vient du fait que ce processus ne contient aucune information, l’information étant représentée par l’auto-corrélation. Ainsi, aucun signal déterministe ne peut être extrait de ce processus. L’objectif de toute tentative de modélisation statistique étant d’extraire le signal afin qu’il ne reste que le bruit dans les résidus du modèle. La qualité d’un modèle statistique de série chronologique se mesure, en partie, au fait que les résidus forment un bruit blanc. L’adjectif blanc vient de l’analogie avec la lumière blanche pour laquelle le spectre est constant pour toute fréquence, ce qui est le cas d’un bruit blanc pour lequel on montre que la densité spectrale est égale à σε2 pour toute fréquence λ. fε (λ) = 2π Il existe également des processus dont l’ACF est géométriquement bornée et décroit rapidement vers zéro, on parle alors de processus à mémoire courte. C’est le cas des processus de type ARMA. Definition 2.3.2 Un processus est dit à mémoire courte s’il possède une ACF, ρ(k), telle que : ρ(k) ≤ Cr−k , → ∞, (2.8) où C > 0, 0 < r < 1 et k = 1, 2, . . .. Les processus ci-dessous sont des exemples de processus à mémoire courte. 14 CHAPTER 2. CONCEPTS DE SÉRIE CHRONOLOGIQUE Exemple 2.1 Un processus moyenne-mobile d’ordre 1, de la forme suivante : Xt = εt + θεt−1 où εt est un processus bruit blanc faible, est un processus à mémoire courte. En général, pour des raisons d’inversibilité et d’indentifiabilité le paramètre θ est tel que : |θ| < 1. Pour ce processus, on montre que E(Xt ) = 0, et que ρ(1) = θ et ρ(k) = 0 si k > 1. Exemple 2.2 Un processus autoregressif d’ordre 1, de la forme suivante : Xt − φXt−1 = εt où εt est un processus bruit blanc faible, est un processus à mémoire courte. En général, pour des raisons d’inversibilité et de stationnarité (voir ci-après), le paramètre φ est tel que : |φ| < 1. Pour ce processus, on montre que E(Xt ) = 0, et que r(1) = φ et r(k) = 0 si k > 1. Enfin, si l’ACF est non nulle pour des retards élevés, en pratique de l’ordre de k ≥ 20, on dit que le processus est fortement persistent. Plus formellement, on parle de processus à mémoire longue lorsque l’ACF du processus, ρ(k), décroît comme une fonction puissance de k. Definition 2.3.3 Un processus est dit à mémoire longue s’il possède une ACF, ρ(k), qui est approchée comme suit: ρ(k) ∼ Ck −α quand k → ∞, (2.9) où ∼ représente l’équivalence asymptotique, où C > 0 est une constante et où α est un réel appartenant à l’intervalle ]0, 1[. On P∞remarque alors que la série des autocorrélations est absolument divergente, i.e. : k=0 |ρ(k)| = ∞. Les processus intégrés fractionnaires de type FARIMA (ou ARFIMA) permettent de reproduire ce fait stylisé. Exemple 2.3 Le processus fractionnaire intégré introduit par Hosking (1980) et Granger et Joyeux (1981) de la forme suivante : (I − B)d Xt = εt où B est l’opérateur retard tel que B(Xt ) = Xt−1 et B k (Xt ) = Xt−k et d est un réel fractionnaire tel que 0 < d < 1, est un processus à mémoire longue. On remarque également, sans s’étendre sur le sujet que la mémoire des processus se retrouve également dans les caractéristiques de la densité spectrale du processus. Ainsi, la densité spectrale d’un processus bruit blanc est une constante et celle d’un processus longue mémoire tend vers l’infini lorsque les fréquences tendent vers zéro. 2.4. NON INDÉPENDANT, MAIS IDENTIQUEMENT DISTRIBUÉ ? 2.4 15 Non indépendant, mais identiquement distribué ? Ainsi, en général dans le cas des séries chronologiques, la fameuse hypothèse i.i.d. ne peut plus être effectuée, à cause de la dépendance temporelle du processus (hormis le processus bruit blanc fort). Qu’en est-il de l’hypothèse relative à l’identité de la loi de distribution ? En fait, cette hypothèse est nécessaire dans l’étude des processus stochastiques, car on va se reposer dessus pour rendre possible la plupart des calculs. On introduit ci-dessous la notion de processus fortement stationnaire ou stationnaire au sens strict. Definition 2.4.1 Un processus (Xt )t∈Z est dit fortement stationnaire si, ∀t1 , . . . , tn ∈ Z, ∀k ∈ Z et n = 1, 2, . . ., la loi du vecteur (Xt1 , . . . , Xtn ) est identique à la loi du vecteur (Xt1 +k , . . . , Xtn +k ), i.e. toutes les lois de dimension finie du processus sont identiques. En particulier, pour un processus fortement stationnaire les variables Xt , ∀t, sont identiquement distribuées. Un processus particulier, que l’on retrouve souvent en statistique, est le processus Gaussien pour lequel toutes ses lois de dimension finie sont Gaussiennes. En pratique, cette hypothèse de stationnarité forte ne peut pas être testée à l’aide de la trajectoire. On introduit donc une condition de stationnarité moins restrictive qui pourra être testée à partir des observations. Definition 2.4.2 Un processus du second ordre (Xt )t∈Z est dit faiblement stationnaire si : (i) la moyenne du processus est constante au cours du temps, i.e. : pour tout t ∈ Z, E(Xt ) = µ, (ii) la covariance du processus est invariante au cours du temps, i.e. : pour tout t ∈ Z et k ∈ Z, γ(k) ne dépend que de k. Un processus faiblement stationnaire est également appelé stationnaire au second ordre, stationnaire en covariance ou stationnaire. Si le processus est faiblement stationnaire, l’espérance de chaque variable est identique et on peut alors l’estimer par la moyenne empirique X̄T . Ainsi, on peut centrer tout processus stationnaire en lui retranchant sa moyenne empirique. Remarque 2.2 Un processus fortement stationnaire est faiblement stationnaire, l’inverse n’étant généralement pas vrai. Un contre-exemple est le processus Gaussien pour lequel les deux types de stationnarités sont équivalents. La stationnarité d’un processus permet ainsi d’estimer les moments non conditionnels de la v.a. XT +h en utilisant les moments empiriques à partir du processus (X1 , . . . , XT ). Ainsi, on peut utiliser comme prédicteur naturel de XT +h un estimateur de l’espérance non P conditionnelle E(XT +h ), en particulier la moyenne empirique, i.e. : X̂T +h = PX̄T = T −1 Tt=1 Xt . Ainsi, la prévision est alors obtenue, pour tout h, par x̂T (h) = T −1 Tt=1 xt . De même, on peut utiliser comme prédicteur de XT +h d’autres statistiques qui estiment la 16 CHAPTER 2. CONCEPTS DE SÉRIE CHRONOLOGIQUE position centrale de la distribution non conditionnelle tels que la médiane et le mode, i.e. : X̂T +h = M ed(X1 , . . . , XT ) ou X̂T +h = M ode(X1 , . . . , XT ). Toutefois, on se rend compte que cette prévision est extrêmement grossière car, pour n’importe quel horizon h > 0, le prédicteur est identique, illustrant ainsi que la dynamique du processus n’est pas prise en compte dans ce type de prédicteur. Bien que dans certains cas ce type de prédicteur peut être utile en pratique, nous allons chercher à développer des méthodes statistiques visant à renforcer les qualités du prédicteur par intégration de la dynamique du processus. 2.5 Comment caractériser la qualité d’un prédicteur ? En statistique, les propriétés qui caractérisent un "‘bon"’ estimateur d’une valeur est le fait d’être sans biais et de variance minimale. Dans le cas de la variable X̂T (h), le prédicteur à la data T pour l’horizon h (h > 0) de XT +h , on introduit la variable d’erreur de prévision à l’horizon h définie par : eT +h = XT +h − X̂T (h) (2.10) La caractéristique principale d’un "‘bon"’ prédicteur X̂T (h) est de minimiser cette erreur de prévision au sens d’un certain critère. Généralement, 3 critères d’erreur de prévision à l’horizon h sont retenus : l’erreur moyenne (ME, Mean Error), absolue moyenne (MAE, Mean Absolute Error) et quadratique moyenne (MSE, Mean Squared Error). M RE = E(eT +h ) (2.11) M AE = E(|eT +h |) (2.12) M SE = E(e2T +h ) (2.13) Evidemment, une mesure de ces critères nécessite la connaissance de la réalisation xT +h de la v.a. XT +h et ne peut donc se faire qu’a posteriori. En généralisant l’erreur de prévision au temps T précédente à l’ensemble des temps, on introduit le processus d’erreur de prévision (et+h )t∈Z tel que : et+h = Xt+h − X̂t (h), pour tout t ∈ Z et tout h > 0. 2.6 Prévision par processus linéaires Les processus linéaires sont particulièrement bien adaptés pour la prévision des séries chronologiques car ils permettent d’utiliser de manière optimale l’information contenue dans le processus sous la forme d’autocorrélation linéaire. 2.6. PRÉVISION PAR PROCESSUS LINÉAIRES 17 Definition 2.6.1 Un processus (Xt )t∈Z est un processus linéaire s’il admet une décomposition de la forme suivante, ∀t ∈ Z : ∞ X Xt = ai εt−i , (2.14) i=−∞ où : P∞ (i) les coefficients (ai )i sont absolument sommables, i.e.: i=−∞ |ai | < ∞, (ii) (εt )t est un processus bruit blanc fort. En fait, la justification de l’utilisation extensive en prévision des processus linéaires provient du théorème de Wold (1938) qui montre que tout processus fortement stationnaire peut s’écrire sous la forme d’un processus linéaire. Trivialement, un processus non linéaire P est un processus qui ne vérifie pas la définition ??. Par exemple, un processus tel que ∞ i=−∞ |ai | = ∞ n’est pas linéaire. Ce type de processus est connu comme étant un processus fractionnaire à mémoire longue (voir Ferrara, 2000, et Ferrara et Guégan, 2002). Autre exemple, un processus de la forme ?? mais tel que (εt )t est un processus bruit blanc faible n’est pas linéaire. Les processus de type GARCH appartiennent à cette dernière catégorie. Si on observe une trajectoire (x1 , . . . , xT ) que l’on suppose engendrée par une processus linéaire (Xt )t∈Z , on connait alors le meilleur prédicteur X̂T (h), au sens de la plus faible erreur quadratique moyenne. On note IT l’ensemble d’information apporté par les variables (X1 , . . . , XT ), qui est en terme probabiliste la σ-algèbre engendrée par les T v.a.. On note MT le sous-espace vectoriel fermé engendré par les variables (X1 , . . . , XT ), muni du produit scalaire hXt , Xt0 i = E(Xt Xt0 ). La norme issue du produit scalaire est la norme L2 , notée k.k2L2 . Proposition 2.2 Le prédicteur X̂T (h) qui minimise l’erreur quadratique moyenne (MSE) est le prédicteur des moindres carrés définie par : X̂T (h) = E(XT +h |IT ), soit : X̂T (h) = arg min kXT +h − Y k2L2 , Y ∈MT (2.15) On se réfère à Priestley (1981) et à Brockwell et Davis (1987) pour une preuve de cette proposition. Definition 2.6.2 On définit le processus d’innovation (t )t d’un processus (Xt )t∈Z comme étant l’écart entre la variable Xt au temps t et sa projection sur l’espace vectoriel engendré par les variables jusqu’au temps (t-1), i.e.: t = Xt − E(Xt |It−1 ) 18 CHAPTER 2. CONCEPTS DE SÉRIE CHRONOLOGIQUE On montre que le processus d’innovation d’un processus stationnaire est un bruit blanc et qu’un processus bruit blanc est son propre processus d’innovation. Dans le cas d’un processus linéaire, on montre alors facilement que l’erreur de prévision eT +h est d’espérance nulle, E(eT +h ) = 0, et de variance telle que : E(e2T +h ) = σε2 h−1 X a2i , (2.16) i=0 avec a0 = 1. Par conséquent, sous l’hypothèse supplémentaire de connaissance de la loi du processus d’erreur de prévision, on peut calculer un intervalle de confiance pour la prévision. Par exemple, dans la cas d’un processus Gaussien, on obtient l’intervalle de confiance suivant pour XT +h , au niveau de confiance 1 − α : v u h−1 uX XT +h ∈ [X̂T (h) ± t1−α/2 σε t a2i ], (2.17) i=0 où t1−α/2 est le quantile de la loi d’ordre 1 − α. Remarque 2.3 On suppose ici que les paramètres du processus sont connus mais en pratique on utilise les valeurs des paramètres estimés, sans toutefois rajouter d’incertitude sur le prédicteur due à la variabilité des estimateurs. 2.7 Prévision de la densité de distribution Dans l’intervalle de confiance précédent, la variance de l’erreur de prévision est constante au cours du temps. Or, il existe de nombreux exemples pour lesquels la variance de l’erreur de prévision que l’on commet peut varier au cours du temps. Ainsi, en économie, il plus facile d’eefectuer des prévisions lorsqu’on se trouve en période forte croissance plutôt qu’un période de retournement conjonturel. De même, la volatilité sur les marchés financiers évolue au cours du temps : il existe des agrégats de volatilité. On peut alors logiquement penser que, de manière analogue à l’espérance conditionnelle qui est le meilleur prédicteur de XT +h au sens du MSE, la variance conditionnelle de XT +h sachant IT , notée V (XT +h |IT ), peut être un meilleur prédicteur que la variance non conditionnelle de XT +h , au sens d’un certain critère, car elle va tenir compte de la dynamique du processus. La variance étant une mesure du risque associé à la prévision, cela peut être intéressant de pouvoir gérer au mieux ce risque. Ainsi, il existe différentes mesures de la variance (voir RiskMetrics). En particulier, les processus de type GARCH vont permettre une modélisation et une prévision de la variance conditionnelle d’une série. 2.8. IMPORTANCE DE L’HORIZON DE PRÉVISION 19 De même, en généralisant aux moments supérieurs conditionnels, la loi conditionnelle de la v.a. XT +h sachant le passé du processus jusqu’au temps T , notée L(XT +h |IT ), apparaît jouer un rôle fondamental au niveau de la prévision. Pour un processus fortement stationnaire, la loi conditionnelle à tout instant intègre la mémoire du processus et permet ainsi une appréciation plus précise que la loi non conditionnelle ou loi historique à un instant donné. En effet cette dernière n’intégre pas l’information passée. Par exemple, la VaR (Value at Risk) peut être estimée à partir de la loi conditionnelle du processus. On oppose alors la VaR historique et la VaR conditionnelle. Les méthodes de rééchantillonage de type Bootstrap permettent une estimation de la loi conditionnelle L(XT +h |IT ). 2.8 Importance de l’horizon de prévision Quel horizon de prévision ? Court, moyen ou long terme ? Si le processus est stationnaire, on montre que la loi de distribution conditionnelle converge vers la loi de distribution non conditionnelle lorsque l’horizon tend vers l’infini, ie: h→∞ L(XT +h |IT ) → L(X1 ) (2.18) Seule la vitesse de convergence différe en fonction de la mémoire de processus. Plus la mémoire d’un processus est courte, plus la vitesse de convergence est grande, et inversement. Ainsi, lorsqu’on utilise en prévision un processus ARMA, il est particulièrement recommandé que l’horizon soit de très court terme (h = 1 ou h = 2). En effet, ce type de processus étant à mémoire courte, au bout de quelques pas le prédicteur va être égal à la moyenne non conditionnelle de la série, ce qui est très peu informatif et toujours décevant pour un praticien. Ainsi, le prédicteur retourne vers la moyenne non conditionnelle très rapidement. Si l’on désire effectuer des prévisions sur un horizon de plus long terme, les processus à mémoire longue fournissent une alternative plus intéressante (évidemment si la persistance est présente dans la série). Exemple 2.4 On considère un processus autoregressif stationnaire d’ordre 1, de moyenne nulle, de la forme suivante : Xt − φXt−1 = εt où εt est un processus bruit blanc faible et le paramètre φ est tel que : |φ| < 1. Pour tout t, le prédicteur à l’horizon h = 1, noté X̂t (1) est donné par X̂t (1) = E(Xt+1 |It ) = φE(Xt |It ) + E(εt+1 |It ) = φXt . De même, pour tout h > 0, on montre que : X̂t (h) = phih Xt . 20 CHAPTER 2. CONCEPTS DE SÉRIE CHRONOLOGIQUE Ainsi, lorsque h → ∞, X̂t (h) converge vers son espérance non-conditionelle E(Xt ) (égale à 0 ici). La vitesse de convergence est ici inversement proportionnelle à la valeur du paramètre autorégressif φ. Chapter 3 Exemple d’analyse sous RATS Dans ce chapitre, nous présentons les instructions RATS nécessaires à la mise en oeuvre de l’analyse des séries chronologiques. Une telle analyse doit être systématiquement effectuée, prélablement à la modélisation de la série. Les détails des quelques définitions et propositions énoncées ci-dessous, ainsi que leurs démonstrations, se trouvent dans les livres traitant de l’analyse des séries chronologiques, tels que les ouvrages de Box et Jenkins (1970), Brockwell et Davis (1987), Box, Jenkins et Reinsel (1994) ou Hamilton (1994). Dans la suite de ce document, on suppose qu’on observe une suite finie de valeurs réelles, notée X1 , . . . , XT . On considère cette suite finie de valeurs, de longueur T , comme étant la réalisation d’un processus (Xt )t∈Z du second ordre (i.e. : E(Xt2 ) < ∞), et on l’appelle la trajectoire du processus. Dans la pratique, on observe uniquement cette trajectoire, et on l’utilise pour faire de l’inférence statistique sur le processus sous-jacent à cette série observée. Il importe donc d’analyser correctement la trajectoire, préalablement à toute tentative de modélisation. Dans un premier temps, on s’intéresse à une analyse temporelle d’une série, puis, dans un second temps, à une analyse spectrale. Afin d’illustrer ce chapitre, on considère la série chronologique mensuelle du taux de change du Dollar Canadien contre le Dollar US, contenue dans le fichier candata.rat, sous le nom de canusxsr. Cette série commence au mois de janvier 1960 et finit au mois de mars 1990. L’import des données dans RATS se fait à l’aide des commandes suivantes : calendar 1960 1 12 all 90:03 open data ’candata.rat’ data(format=rats) / canusxsr Le graphe de cette série présenté sur la Figure 1.1 est obtenu à l’aide de la commande suivante : 21 22 CHAPTER 3. EXEMPLE D’ANALYSE SOUS RATS Figure 3.1: Taux de change mensuel Canadian Dollar / US Dollar, de janvier 1960 à mars 1990 (série canusxsr). graph(header="Taux de change Canadian Dollar / US Dollar",key=lol) # canusxsr 3.1 Analyse temporelle On propose dans ce paragraphe, d’effectuer quelques rappels sur l’analyse temporelle d’une série chronologique, et de présenter les instructions RATS permettant de mettre en oeuvre cette analyse. Le logiciel RATS permet d’obtenir l’autocovariance empirique, l’ACF empirique et la PACF empirique à l’aide de la même instruction correlate. Cette instruction s’utilise de la manière suivante : correlate(options) série début fin acfsérie où acfsérie est le nom que l’on donne à la série des autocorrélations ou des autocovariances. L’option covariances permet d’obtenir l’autocovariance au lieu de l’ACF (par défaut nocovariances) et l’option partial= permet d’obtenir la PACF. De plus, l’option par défaut print affiche les séries en sortie et l’option number permet de fixer le nombre maximum de retards. Par exemple, on s’intéresse à nouveau à la série canusxsr. Plus particulièrement, on s’intéresse à la série des rendements de cette série, définie par Rt = log(Xt ) − log(Xt−1 ), où Xt est la valeur de la série du taux de change au temps t. Ce type de transformation est classique dans l’analyse des séries financières. On obtient et on trace cette série (voir Figure 1.3), que l’on appelle ret, à l’aide des commandes suivantes : set ret = log(canusxsr)-log(canusxsr{1}) graph # ret On obtient les 10 premières valeurs de l’ACF et la PACF de la série des rendements à l’aide de la commande suivante : 3.1. ANALYSE TEMPORELLE 23 Figure 3.2: Rendements de la série du taux de change mensuel Canadian Dollar / US Dollar, de janvier 1960 à mars 1990 (série ret). Figure 3.3: ACF empirique de la série des rendements mensuels du taux de change Canadian Dollar / US Dollar. corr(number=10,partial=retpacf) ret / retacf Les résultats suivants s’affichent alors sur la fenêtre d’output : Correlations of Series RET Monthly Data From 1960:02 To 1990:03 Autocorrelations 1: -0.0529340 -0.0742793 0.0610969 0.0309579 0.0703153 -0.0144331 7: -0.0224910 0.1140178 0.0385587 0.0326157 Partial Autocorrelations 1: -0.0529340 -0.0772979 0.0532358 0.0318610 0.0832107 -0.0047441 7: -0.0164537 0.1018877 0.0451163 0.0520415 On peut tracer l’ACF empirique de la série ret, pour un retard maximum de k = 100, de la manière suivante (voir Figure 1.4) : corr(noprint,number=100) ret / retacf graph(nodates,style=bar,header="ACF") # retacf Dans le Chapitre 2, nous verrons que l’instruction correlate permet également de tester la nullité de l’ACF et de la PACF aux différents retards et de tester la non corrélation d’une série à l’aide du test "Portmanteau" de Ljung-Box. Les quatre premiers moments de la série sont renvoyés par l’instruction statistics, qui permet ainsi de calculer le skewness (%skewness) et la kurtosis (%kurtosis), respectivement définis par : T2 m3 Sk = , (3.1) (T − 1)(T − 2) s3 et T2 (T + 1)m4 − 3(T − 1)m22 Ku = , (T − 1)(T − 2)(T − 3) s4 (3.2) 24 CHAPTER 3. EXEMPLE D’ANALYSE SOUS RATS où s est l’écart-type empirique non biaisé tel que : T X 1 (Xt − X̄)2 , s = (T − 1) t=1 2 (3.3) et le moment d’ordre k, mk , est défini par : T 1X mk = (Xt − X̄)k . T t=1 (3.4) On note que la valeur de la variance empirique s2 est légérement différente de la valeur de l’autocovariance empirique au retard k = 0 donnée par l’équation (1.3), car le dénominateur est différent ((T −1) pour la variance empirique et T pour la covariance empirique). 3.2 Analyse spectrale Dans ce paragraphe, on effectue quelques rappels sur l’analyse spectrale d’un processus stationnaire et on présente en détail les instructions RATS correspondantes. RATS permet d’estimer la densité spectrale d’un processus à l’aide de la procédure spectrum, contenue dans le fichier SPECTRUM.SRC fourni par Estima. Pour pouvoir utiliser cette procédure, il est donc nécessaire d’importer cette procédure dans la session RATS, à l’aide de l’instruction source. Cette procédure s’utilise de la manière suivante : @spectrum(options) série début fin Cette procédure utilise la méthode du périodogramme lissé, qu’on se propose de détailler maintenant. Le principal outil d’analyse dont on dispose pour estimer empiriquement la densité spectrale théorique du processus est le périodogramme IT , défini sur l’intervalle [0, 2π[ par: 2 T X 1 −iλt e Xt , IT (λ) = 2πT t=1 (3.5) En général, on considère des processus centrés pour lesquels la moyenne empirique est nulle. On note que, dans la pratique, les fréquences λ sur l’intervalle [0, 2π[ sont remplacées par les fréquences de Fourier, λj , définies, pour j = 0, . . . , T −1, par : λj = 2πj/T . 3.2. ANALYSE SPECTRALE 25 RATS permet de traiter des séries à valeurs dans le plan complexe, ce qui autorise le calcul du périodogramme, de manière simple, à l’aide de la Transformée de Fourier Rapide (Fast Fourier Transform) que l’on calcule à l’aide de l’instruction fft. Par exemple, les commandes suivantes permettent de calculer le périodogramme sur l’intervalle [0, π], et les fréquences de Fourier correspondantes, pour les résidus de la série canusxsr, traitée dans le paragraphe précédent, du mois de janvier 1960 au mois de décembre 1989 (voir Figure 1.5). Le graphe de cette série des résidus, notée resids est présentée sur le bas de la Figure 1.2. smpl 60:01 89:12 linreg canusxsr / resids # constant date sta resids com nn = %nobs/2+1 * Calcul des fréquences de Fourier sur [0,2pi[ set freqs 1 %nobs = 2*%pi*(t-1.0)/%nobs * Calcul du périodogramme frequency 1 %nobs rtoc 60:01 89:12 1 # resids # 1 fft 1 cmult(scale=1.0/(2.0*%pi*%nobs)) 1 1 ctor 1 nn 1 # 1 # periodo scatter(sty=lines,header=’Periodogramme de la serie:resids’) 1 # freqs periodo 1 nn smpl On note que la valeur du périodogramme pour la fréquence zéro est nulle, car la moyenne empirique des résidus est égale à zéro. De plus, on observe que le périodogramme augmente lorsque les fréquences tendent vers zéro. Ce phénomène a été observé en premier par Granger (1966) et est présent dans de nombreuses séries à caractère économique. Une manière de modéliser ce phénomène est présentée dans le Chapitre 3 de ce document. Les deux principales propriétés du périodogramme en tant qu’estimateur de la densité spectrale sont les suivantes : 1. il est asymptotiquement sans biais 26 CHAPTER 3. EXEMPLE D’ANALYSE SOUS RATS 2. il est non-consistant : lim Cov(IT (λ), IT (λ0 )) = 0 si λ 6= λ0 , (3.6) ( f 2 (λ) si λ ∈ [0, 2π[−{0, π}, limT →∞ V ar(IT (λ)) = 2f 2 (λ) si λ ∈ {0, π}. (3.7) T →∞ et Il importe donc de chercher à améliorer les performances du périodogramme en tant qu’estimateur de la densité spectrale. Nous présentons rapidement deux techniques classiquement utilisées dans l’analyse spectrale des séries chronologiques afin d’améliorer cette estimation : la méthode de l’effilage des données (dite du "tapering") et l’utilisation d’un périodogramme lissé. L’instruction spectrum permet d’utiliser en option ces deux techniques. La méthode de l’effilage des données permet d’améliorer la précision du périodogramme dans l’estimation de la densité spectrale, en particulier, cette méthode permet de réduire le "leakage effect", que l’on peut traduire en français par l’effet de perte. Cet effet intervient lorsque la densité spectrale possède un ou plusieurs pics. A ce moment-là, les autres valeurs estimées de la densité spectrale sont surélevées par rapport à leurs vraies valeurs. La méthode de l’effilage des données se fait à l’aide d’une transformation préliminaire sur les données. On remplace alors l’échantillon initial X1 , . . . , XT par l’échantillon effilé suivant : h1 X1 , . . . , hT XT , où (ht )t=1,...,T est une suite convenable de constantes. RATS propose deux suites (ht )t=1,...,T différentes : une suite dite trapézoidale, qui vaut 1 pour la partie centrale de la série et décroît linéairement vers zéro pour les m premières et dernières valeurs de la série, et une suite dite de cloche en cosinus ("cosine bell"), respectivement définies de la manière suivante : • Suite Trapézoidale : si 1 ≤ t ≤ m, t/m h(t) = 1 si m + 1 ≤ t ≤ T − m, (T − t + 1)/m) si T − m + 1 ≤ t ≤ T , • Suite en Cosinus : si 1 ≤ t ≤ m, 0.5(1 − cos(πt/m)) h(t) = 1 si m + 1 ≤ t ≤ T − m, 0.5(1 − cos(π(T − t + 1)/m)) si T − m + 1 ≤ t ≤ T , (3.8) (3.9) 3.2. ANALYSE SPECTRALE 27 Figure 3.4: Périodogramme lissé de la série des résidus resids. Le paramètre m tel que 1 ≤ m ≤ T permet de contrôler la proportion de la série sur laquelle on effectue la transformation. Lorsqu’on utilise l’instruction spectrum, l’option taper=trapezoidal permet d’utiliser une suite trapézoidale et l’option taper=cosine permet d’utiliser une suite en cosinus. L’option par défaut taper=cosine n’effile pas les données. L’option permet wtaper permet de donner une valeur au paramètre m, en tant que fraction de la taille d’échantillon T . Par défaut, cette valeur est de 0.25. Une expression du périodogramme effilé est alors donnée par l’équation suivante: 2 T X 1 tap −iλt e ht Xt . (3.10) IT (λ) = PT 2 2π t=1 ht t=1 Le périodogramme lissé, que l’on note fL (λ), correspond à moyenne mobile centrée pondérée du périodogramme. fL (λ) est donné par l’équation suivante: 1 fL (λj ) = 2π (m−1) X WT (h)IT (λj+h ), (3.11) h=−(m−1) où IT (λj ) est le périodogramme pour la fréquence de Fourier λj , et où m est un entier positif ou nul qui contrôle la longueur de la moyenne mobile. Lorsque m = 1, on remarque alors que le périodogramme lissé est le périodogramme brut. Pour cette moyenne mobile, il existe de nombreuses suites de poids (WT (h))h , proposées par des statisticiens célèbres (Bartlett, Parzen, Blackman-Tukey, Daniell, ...) et on renvoie au chapitre 6 du livre de Priestley (1981) pour une discussion approfondie sur ce sujet. La procédure spectrum propose deux suites de poids différentes, pour h = −m+1, . . . , −1, 0, 1, . . . , m− 1. L’option par défaut window=flat utilise la suite définie par : WT (h) = 1, (3.12) et l’option window=tent utilise la suite définie par : WT (h) = T − |h|. (3.13) RATS standardise automatiquement ces poids, de manière à ce que la somme soit égale à 1. L’instruction spectrum contrôle le lissage par l’intermédiaire de l’option width. La valeur de l’entier, obligatoirement impair, affectée à width permet de contrôler la longueur de la 28 CHAPTER 3. EXEMPLE D’ANALYSE SOUS RATS moyenne mobile utilisée, de la manière suivante : m = (width + 1)/2. Ainsi, si width=1, alors m = 1, et le périodogramme lissé est le périodogramme brut. L’option width=0.75 T1/2 , est l’option par défaut dans l’instruction spectrum. Enfin, il est important de noter que l’instruction spectrum ne renvoie pas la valeur exacte du périodogramme calculé, mais son logarithme. La commande suivante permet d’obtenir et de tracer un estimateur de la densité spectrale de la série resids (voir figure ??). @spectrum(taper=none,window=tent,header=’Log-periodogramme lisse de la serie:resids’) resids 60:01 89:12 3.3 Filtrage A l’image de la série du taux de change précédente, de nombreuses séries chronologiques, en économie et en finance possédent une tendance, croissante ou décroissante. La série est alors non stationnaire (voir chapitre suivant pour les différents types de non stationnarité). Il est souvent utile de retrancher cette tendance de long terme qui peut masquer certains effets conjoncturels, en particulier cycliques. L’économétrie fourmille de méthodes de décomposition tendance-cycle, de type Hodrick-prescott, Beveridge-Nelson, Baxter-King, ... En pratique, il est relativement difficile de savoir quelle est la bonne méthode à utiliser, chacune ayant des défauts et des qualités (voir Gay et Saint-Amand, 1997). Le filtre HP permet de décomposer une série (Xt ) en deux composantes orthogonales, la tendance (Tt ) et le cycle (Ct ). La méthode consiste à minimiser la variance cyclique pénalisée, ie : X X T̂t = arg min (Xt − Tt )2 + λ {(Tt+1 − Tt ) − (Tt − Tt−1 )}2 (3.14) t t La paramètre λ permet de régler l’importance raltive des deux termes à minimiser. Au plus λ est élevé, au plus la composante tendancielle est lisse. Lorsque λ tend vers l’infini, la tendance approche une droite linéaire. Pour des données trimestrielles, il généralement conseillé de prendre λ = 1600. Une estimation du cycle (appelé cycle de croissance) est donnée par Ĉt = Xt − T̂t . Avec RATS, un filtrage HP est obtenu à l’aide la fonction @hpfilter.src. De même, un filtrage Baxter-King est obtenu à l’aide la fonction @bpfilter.src. Une approche triviale peut être de considérer que cette tendance est linéaire. D’un point de vue technique, il suffit d’effectuer une régression linéaire sur la tendance. D’une manière 3.3. FILTRAGE 29 générale, avec RATS, l’opération de régression linéaire sur des variables exogènes se fait à l’aide de l’instruction linreg. Les commandes suivantes permettent d’ajuster une droite à la série canusxsr et d’obtenir la série estimée (canusxsrhat) et les résidus (resids). set date = t linreg canusxsr / resids # constant date prj canusxsrhat En sortie, on obtient les résultats suivants sur la régression effectuée : Linear Regression - Estimation by Least Squares Dependent Variable CANUSXSR Monthly Data From 1960:01 To 1990:03 Usable Observations 363 Degrees of Freedom 361 Centered R**2 0.542319 R Bar **2 0.541051 Uncentered R**2 0.995580 T x R**2 361.395 Mean of Dependent Variable 0.9008063361 Std Error of Dependent Variable 0.0890803141 Standard Error of Estimate 0.0603481431 Sum of Squared Residuals 1.3147253136 Regression F(1,361) 427.7588 Significance Level of F 0.00000000 Durbin-Watson Statistic 0.024915 Variable Coeff Std Error T-Stat Signif *************************************************************** 1. Constant 1.014586647 0.006348023 159.82718 0.00000000 2. DATE -0.000625167 0.000030227 -20.68233 0.00000000 On observe que les paramètres estimés sont significativement différent de zéro, même avec un risque de première espèce extrêmement faible. En particulier, la pente de la droite de régression est non-nulle. L’instruction linreg possède différentes options, permettant par exemple d’obtenir la matrice de variance-covariance des estimateurs (option vcv) ou d’omettre certaines valeurs de la régression (option smpl). On se référe au manuel fourni par Estima (Doan, 1992) pour un descriptif complet de ces options. On peut alors tracer la série canusxsr, la droite de régression et les résidus obtenus, à l’aide des commandes suivantes : spgraph(vfields=2) 30 CHAPTER 3. EXEMPLE D’ANALYSE SOUS RATS Figure 3.5: Série canusxsr et la tendance linéaire ajustée et la série des résidus. graph(header=’Serie canusxsr’) 2 # canusxsr # canusxsrhat graph(header=’Residus’) # resids spgraph(done) Notons que l’instruction linreg permet d’accéder à plusieurs renseignements relatifs à l’opération de régression. Ces valeurs (vecteurs et scalaires) sont présentées en page 14144 du guide fourni par Estima. Par exemple, on obtient le vecteur des coefficients par la commande %beta, le R2 par %rsquared et la somme des carrés des résidus par %rss. Figure 4.1: Evolution de l’indice CAC40 et des ses rendement journaliers de deécembre 1987 à décembre 2008 Chapter 4 Faits stylisés des séries financières De nombreuses études empiriques ont souligné que la plupart des séries chronologiques à caractère financier ont tendance à exhiber des comportements statistiques caractéristiques. On se propose de lister ces faits stylisés, dont certains pourront être pris en compte par les processus de type ARCH. 4.1 Non stationnarité La plupart des séries de prix d’actifs financiers présente une non stationnarité en tendance, i.e. l’espérance du processus sous-jacent n’est pas constante au cours du temps. En particulier, les tests de racine unitaire classiques (Dickey-Fuller, Phillips-Perron, KPSS, ...) montrent que l’hypothèse nulle de non stationnarité de la série est acceptée la plupart du temps. Par conséquent, afin de stationnariser la série, l’étude est menée sur les taux de croissance ou les log-rendements de la série. Ainsi, si on observe une série (Xt )t=1,...,T , la série des taux de croissance est donnée pour tout t par Yt = (Xt − Xt−1 )/Xt−1 et la série des log-rendements est donnée pour tout t par Rt = log(Xt ) − log(Xt−1 ). Comme Rt = log(1 + Yt ), les deux expressions sont semblables pour des petites variations. Un des avantages des log-rendements est que le log-rendement calculé sur plusieurs périodes consécutives est la somme des log-rendements calculés sur chacune des périodes. C’est cette série des log-rendements que l’on considère dans la suite de cette partie. 4.2 Non Normalité Lorsqu’on estime la distribution non conditionnelle d’une série financière (soit par un histogramme, soit par un estimateur non paramétrique à noyaux), on observe que la 31 32 CHAPTER 4. FAITS STYLISÉS DES SÉRIES FINANCIÈRES distribution empirique possède des queues de distribution plus épaisses que celles de la loi Normale. Cela est du à une fréquence plus élevée que ce qu’on pouvait attendre d’évènements exceptionnels. Une mesure de l’épaisseur des queues est fournie par la kurtosis (un estimateur des moments d’ordre 4) qui est systématiquement supérieure à celle de la loi Normale (égale à 3). De plus, la dsitribution de nombreux actifs financiers, en particulier les prix d’actions, n’est pas symétrique. En effet, le moment d’ordre 3 de la distribution non conditionnelle mesuré par le skewness est souvent négatif. Cela signifie que la queue gauche de la distribution est plus épaisse que la queue droite, i.e. les forts rendements négatifs ont tendance à se produire plus souvent que les forts rendements positifs. Ainsi, la plupart des tests statistiques d’adéquation (Jarque-Bera, Chi-2, Kolmogorov-Smirnov, ...) rejettent l’hypothèse nulle de Gaussianité de la distribution non conditionnele, même avec un très faible risque de première espèce. Or, cette hypothèse de Normalité est nécessaire pour de nombreux modèles en finance tels que le CAPM ou le modèle de Black et Scholes. 4.3 Non constance de la variance On observe que la variance des séries subit une évolution au cours au cours du temps, en particulier sous l’effet de chocs exogènes tels que les crises financières. Ce fait empirique avéré remet alors en cause l’hypothèse d’homoscédasticité (variance constante), que l’on utilise classiquement lors d’une modélisation de série chronologique, en particulier dans le cas des processus de type ARMA. Il semble donc nécessaire de proposer des modèles prenant en compte cette hétéroscédasticité. 4.4 Agrégats de volatilité Non seulement les séries financières ne présentent pas une variance constante au cours du temps, mais on s’aperçoit également que cette variance évolue également de manière caractéristique. En effet, les séries financières présentent des successions de phases de relative tranquillité et de phases de forte volatilité. On dit également que les séries présentent des agrégats de volatilité (volatility clustering). 4.5 Effet de levier On observe une corrélation négative entre les variations des prix d’actifs et les variations de la volatilité. Toutefois, il existe une asymétrie sur les marchés dans la mesure où cette corrélation varie en intensité selon le sens de la variation des prix. En effet, on observe que la volatilité augmente fortement lorsque les prix baissent fortement (par exemple dans le cas d’une mauvaise nouvelle économique ou sur la santé financière des entreprises ou dans 4.6. AUTO-CORRÉLATIONS 33 le cas plus général d’une crise financière). En revanche, lors des périodes d’expansion des prix, la volatilité affiche une plus grande stabilité. 4.6 Auto-Corrélations Lorsqu’on calcule les autocorrélations des séries financières, on observe une très faible autocorrélation. Généralement, la série est blanchie par un processus AR(p)où p est relativement petit (p ≤ 3). Il arrive même souvent que la série soit supposée suivre un bruit blanc faible (non indépendant). En revanche, les autocorrélations de la série au carré (Yt2 )t , ou élevée à une certaine puissance (|Yt | delta)t , présentent une forte persistance. 4.7 Co-mouvements de volatilité Si on s’intéresse aux indices synthétiques relatifs à des marchés différents (CAC40, FTSE100, DAX, SP500, ...), on observe des mouvements de volatilité communs aux places financières, du fait d’une forte dépendance entre les marchés. En fait, les mouvements de forte volatilité s’explique par des facteurs exogènes qui s’appliquent à l’ensemble des places financières. On parle alors de co-mouvement de volatilité. Le graphique ?? représente les évolutions mensuelles des 4 principaux indices boursiers de la zone euro (DAX,CAC,MIB et IBEX). On se rend compte des effets de contagion entre marchés caractérisés par des baisses et des hausses simultanées. De même, le graphique ?? met en evidence les périodes communes de forte volatilité sur ces marchés. 4.8 An example We choose the 4 main European stocks indices, namely the DAX30, CAC40, MIB30 and IBEX35, that describe the financial activity on the stock markets in Germany, France, Italy and Spain, respectively. We use monthly data corresponding to the average of closure values, from January 1988 to September 2008 (see figure ??). As those four series are clearly non-stationary, we are going to work with the log-returns defined as follows : i Yti = (log(Xti ) − log(Xt−1 )) × 100, where i = 1, 2, 3, 4 and Xti is the index value at date t for the market i. Log-returns are presented in figure ??. Typically, those series present stylised facts well known in financial econometrics, that is stationarity in mean, weak auto-correlation, strong kurtosis, negative skwewness and presence of clusters of volatility indicating a non-constant conditional variance. Unconditional empirical moments are presented in table ??. To evaluate the 34 CHAPTER 4. FAITS STYLISÉS DES SÉRIES FINANCIÈRES Mean Variance Skewness Exc. Kurtosis JB P-value QY (5) P-value DAX 0.718 24.40 -0.824 1.567 0.000 0.000 CAC 0.595 20.67 -0.621 1.048 0.000 0.001 MIB 0.387 36.73 0.274 0.598 0.033 0.809 IBEX 0.631 24.86 -0.377 0.974 0.000 0.001 Table 4.1: Estimates and standard errors of the parameters for the 4 univariate GARCH(1,1) model applied to the 4 log-returns and the main statistics. auto-correlation structure and the Gaussianity, we are going to use the statistical tests based on the Portmanteau and Jarque-Bera statistics respectively given by the following equations: k X ρ2j , (4.1) Q(k) = T (T + 2) T −j j=1 Ku2 Sk 2 + ), (4.2) 24 6 where T is the sample size, k ∈ N, Ku and Sk denote respectively the excess Kurtosis and the Skewness, ρj being the autocorrelation function of the series for lag j. Both statistics (??)-(??) are distributed according to a χ2 distribution function. P-values of thes tests are presented in table ??. JB = T ( From table ??, we observe that the series present the stylised facts described previously except the MIB series that possesses a special pattern in the sense that the empirical variance is much greater than the 3 others, the skewness is close to zero by positive value, indicating thus a symmetrical distribution, and the excess kurtosis is also close to zero implying thus that the tails of the distribution are close to the Gaussian. Because of those two latter facts, we cannot reject the null of a Gaussian distribution with a type I risk α = 0.01. Concerning the auto-correlation structure, all the series present short-term auto-correlation according to the Portmanteau test, except the MIB series that can be identified to a weak white noise. Moreover, there is evidence of common movements among the four variables reflecting the strong financial integration of the markets in the Euro area. This co-movement, sometimes refers to as contagion in some papers, asks for a multivariate approach in modelling. In order to estimate the conditional variances, we are going to implement various multivariate GARCH specifications presented in previous chapters. 4.8. AN EXAMPLE 35 Figure 4.2: Four European stock indices Figure 4.3: Log-returns of four European stock indices 36 CHAPTER 4. FAITS STYLISÉS DES SÉRIES FINANCIÈRES Chapter 5 Modèles ARMA Dans ce chapitre, on s’intéresse à la mise en oeuvre d’une modélisation linéaire de série chronologique par la méthodologie de Box et Jenkins (1970). Dans le premier paragraphe, nous effectuons quelques rappels sur les processus de type autorégressif moyenne-mobile, ou ARMA. Dans le deuxième paragraphe, nous détaillons les différentes étapes de la modélisation et les instructions RATS associées, et le troisième paragraphe contient un exemple d’application sur une série saisonnière. Enfin, le dernier paragraphe présente la méthode d’analyse d’intervention de Box et Tiao (1975), qui permet de modéliser l’effet d’un événement extérieur sur un processus ARMA. 5.1 Introduction aux processus ARMA On rappelle dans un premier temps la définition d’un processus de type autorégressif moyenne-mobile, ou ARMA. Definition 5.1.1 Un processus du second ordre (Xt )t∈Z est défini comme étant un processus ARMA(p, q), s’il est stationnaire et si et seulement si, pour tout t ∈ Z, il vérifie l’équation aux différences suivante : φ(B)(Xt − µ) = θ(B)εt , (5.1) où µ est la moyenne du processus, où B est l’opérateur retard tel que, ∀t, BXt = Xt−1 et pour tout entier b, B b Xt = Xt−b , où φ(z) = I −φ1 z −. . .−φp z p et θ(z) = I +θ1 z +. . .+θq z q sont deux polynômes et où (εt )t∈Z est un processus bruit blanc centré de variance σε2 . Si q = 0, on dit que (Xt )t∈Z est un processus AR(p), et si p = 0, on dit que (Xt )t∈Z est un processus MA(q). Il est important de remarquer la manière dont sont définis les polynômes φ(z) et θ(z). Nous les avons définis de manière cohérente avec RATS, mais il arrive souvent que le polynôme θ(z) soit égal à θ(z) = 1 − θ1 z − . . . − θq z q . 37 38 CHAPTER 5. MODÈLES ARMA On rappelle un résultat relatif aux propriétés de linéarité, de causalité et d’inversibilité. Proposition 5.1 Soit (Xt )t∈Z un processus ARMA(p, q) défini par la définition ??. (i) Si le polynôme φ(z) ne s’annule pas sur le cercle défini par |z| = 1, alors le processus (Xt )t∈Z est un processus linéaire stationnaire. (ii) Si le polynôme φ(z) ne s’annule pas sur le cercle défini par |z| ≤ 1, alors le processus (Xt )t∈Z possède une représentation causale. (iii) Si le polynôme θ(z) ne s’annule pas sur le cercle défini par |z| ≤ 1, alors le processus (Xt )t∈Z possède une représentation inversible. On généralise maintenant la définition ?? au cas des processus ARMA(p, q) intégrés d’ordre d, ou ARIMA(p, d, q). Definition 5.1.2 Un processus du second ordre (Xt )t∈Z est défini comme étant un processus ARIMA(p, d, q), si le processus ((I − B)d Xt )t∈Z est un processus ARMA défini par la définition ??. On généralise à nouveau les deux définitions précédentes au cas des processus saisonniers SARIMA (Seasonal ARIMA). Definition 5.1.3 Un processus du second ordre (Xt )t∈Z est défini comme étant un processus SARIMA(p, d, q)(P, D, Q)S , si et seulement si, pour tout t ∈ Z, il vérifie l’équation aux différences suivante : φ(B)Φ(B S )(I − B)d (I − B S )D (Xt − µ) = θ(B)Θ(B S )εt , (5.2) où S est la saisonnalité du processus, où d et D sont deux entiers correspondant respectivement aux ordres de différentiation et de différentiation saisonnière, où Φ(z) = I − Φ1 z − . . . − ΦP z P et Θ(z) = I − Θ1 z − . . . − ΘQ z Q sont deux polynômes, et où µ, φ(z), θ(z) et (εt )t∈Z sont définis dans la définition ??. Le logiciel RATS permet de simuler des trajectoires finies engendrées par un processus ARMA. Par exemple, on s’intéresse au processus centré ARMA(2,1), tel que : (I − 0.4B − 0.2B 2 )Xt = (I + 0.3B)εt , 5.2. LA MÉTHODOLOGIE BOX ET JENKINS PAS À PAS 39 Figure 5.1: Simulation d’un processus ARMA(2,1). où le processus (εt )t est un bruit blanc Gaussien de variance unitaire. Les commandes suivantes permettent de générer et de tracer une trajectoire de longueur 1000, issue de ce processus ARMA (voir figure ??). set eps = %ran(1) set x 1 2 = 0 set x 3 1100 = 0.4*x{1}+0.2*x{2}+eps+0.3*eps{1} smpl 101 1100 graph(header=’Simulations d’un processus ARMA(2,1)’,subheader=’T=1000’) # x 5.2 La méthodologie Box et Jenkins pas à pas La méthodologie de Box et Jenkins (1970) repose sur une modélisation de la série d’étude par un processus de type ARIMA(p, d, q). Cette méthodologie est basée sur les 4 étapes suivantes : 1. 2. 3. 4. Spécification du processus. Estimation des paramètres du processus. Validation du processus par tests. Utilisation du processus en prévision. Nous allons maintenant détailler ces 4 différentes étapes. 5.2.1 Spécification L’étape de la spécification d’un processus ARIMA(p, d, q) consiste à choisir l’ordre des parties AR (choix de l’entier p) et MA (choix de l’entier q), ainsi que l’ordre du degré d’intégration (choix de l’entier d). 5.2.1.1 Choix de l’entier d Ce choix est un problème délicat à régler et est à l’origine d’une littérature expansive dans le domaine des statistiques et de l’économétrie. Ce choix est lié à une des toutes premières questions que doit se poser le statisticien désireux de mettre en oeuvre la méthodologie 40 CHAPTER 5. MODÈLES ARMA de Box et Jenkins (1970), à savoir, si la trajectoire qu’il observe est issue d’un processus faiblement stationnaire. Si tel est le cas, on dira alors que le processus (Xt )t∈Z est intégré d’ordre 0; sinon, on suppose qu’il existe un entier d > 0 tel que (I − B)d Xt est asymptotiquement faiblement stationnaire, B étant l’opérateur retard. On dira alors que le processus (Xt )t∈Z est intégré d’ordre d. Cependant, dans la majorité des cas rencontrés en pratique l’entier d correspondant à l’ordre d’intégration est égal à l’unité. Ainsi, le problème du statisticien revient alors à se demander quel est l’ordre d’intégration du processus, ce qui est équivalent à tester l’hypothèse H0 : {d = 0} contre l’hypothèse H1 : {d = 1}. On renvoie au Chapitre 3 de ce document pour le cas où 0 < d < 1. De nombreux tests d’hypothèses ont été développés depuis le milieu des années 1970 dans la littérature statistique et économétrique afin d’aider le praticien dans le choix du paramètre d, à partir des données dont il dispose. On citera en particulier, les tests de racine unitaire de Fuller (1976), Dickey et Fuller (1979, 1981), Phillips (1987), Phillips et Perron (1988), Kwiatkowski, Phillips, Schmidt et Shin (1992) et Zivot et Andrews (1992). Ces différents tests de racine unitaire peuvent être utilisés dans RATS à l’aide de plusieurs différentes procédures contenues dans les fichiers ADF.SRC, DFUNIT.SRC, PPUNIT.SRC ou ZIVOT.SRC. En pratique, on retiendra que la présence d’une tendance linéaire entraîne le choix d = 1 et qu’une moyenne constante entraîne le choix d = 0. On se limitera donc à des critères de choix empiriques, tel que l’évolution de la moyenne empirique, pour déterminer le choix de l’entier d. 5.2.1.2 Choix des entiers p et q Le choix des entiers p et q se fait à l’aide de l’ACF empirique et la PACF empirique. On rappelle la propriété suivante : Proposition 5.2 Soit (Xt )t∈Z un processus faiblement stationnaire. (i) Si (Xt )t∈Z ∼ AR(p), alors rX (k) = 0, si k > p. (ii) Si (Xt )t∈Z ∼ M A(q), alors ρX (k) = 0, si k > q. On cherche alors le retard k à partir duquel r̂X (k) = 0 ou ρ̂X (k) = 0. Cette recherche se fait à l’aide du test de Bartlett qui permet de tester statistiquement l’hypothèse H0 : ρX (k) = 0 contre l’hypothèse H1 : ρX (k) 6= 0. De même le test de Quenouille permet de tester statistiquement l’hypothèse H0 : rX (k) = 0 contre l’hypothèse H1 : rX (k) 6= 0. On rappelle ces deux tests basés sur les théorèmes suivants : Théorème de Bartlett 5.2. LA MÉTHODOLOGIE BOX ET JENKINS PAS À PAS 41 Soit (Xt )t∈Z un processus MA(q) stationnaire. Sous l’hypothèse H0 : ρX (k) = 0, pour k ≥ q + 1, on a quand T → ∞ : T 1/2 ρ̂X (k) → N (0, 1 + 2 q X ρ̂X (i)) (5.3) i=1 Théorème de Quenouille Soit (Xt )t∈Z un processus AR(q) stationnaire. Sous l’hypothèse H0 : rX (k) = 0, pour k ≥ p + 1, on a quand T → ∞ : T 1/2 r̂X (k) → N (0, 1) (5.4) Ainsi, en se plaçant au retard k, sous l’hypothèse H0 : ρX (k) = 0, les bornes de confiance asymptotiques de ρ̂X (k) au risque α = 5% sont données par : ρ̂X (k) ∈ [0 ± 1.96 (1 + 2 Pk−1 1/2 i=1 ρ̂X (i)) ]. T 1/2 (5.5) De même, en se plaçant au rang k, sous l’hypothèse H0 : rX (k) = 0, les bornes de confiance asymptotiques de r̂X (k) au risque α = 5% sont données par : r̂X (k) ∈ [0 ± 1.96 1 T 1/2 ]. (5.6) On remarque que, lorsque le nombre k de retards augmente, les bornes de confiance de ρ̂X (k) vont en s’évasant, alors que les bornes de confiance de r̂X (k) restent constantes. On note cependant que la propriété ?? ne concerne que des processus AR et MA "purs". En présence simultanée d’une partie AR et d’une partie MA, le choix de p et q devient plus délicat. Il arrive souvent que l’on sélectionne plusieurs modèles, que l’on pressent capable d’ajuster correctement la série d’étude. Chacun de ces modèles sera alors estimé puis validé. La phase de validation permettra de retenir un seul modèle, à utiliser ensuite en prévision. Une manière efficace de procéder pour choisir les ordres des parties AR et MA, est de choisir les ordres p et q de telle sorte qu’ils optimisent un certain critère d’intérêt, déterminé a priori. Un des critères les plus utilisés en statistique est le critère d’information d’Akaike (1977), dénoté AIC, défini de la manière suivante : AIC = T log(σ̂ε2 ) + 2(p + q), (5.7) 42 CHAPTER 5. MODÈLES ARMA où σ̂ε2 est la variance résiduelle estimée. Un modèle possédant une bonne qualité d’ajustement fournira une variance résiduelle faible, donc un AIC faible. On cherchera donc à minimiser le critère AIC. Il est à noter qu’il existe d’autres critères d’information dans la littérature statistique, tels que les critères de Bayes (BIC), de Hannan (HIC) ou de Akaike corrigé (AICC). On se référe, par exemple, à Hamilton (1994) pour une définition de ces critères. On note également que ces critères sont relatifs à la qualité d’ajustement du modèle, mais on peut envisager une recherche automatique de p et de q relativement à la qualité de prédiction du modèle par validation croisée. Dans RATS, on peut calculer l’intervalle de confiance asymptotique de l’ACF (équation (2.5)), à l’aide de l’option stderrs correlate. En effet, cette option Pk−1 de l’instruction 1/2 −1/2 renvoie la valeur T (1 + 2 i=1 ρ̂X (i)) , pour k ≥ 1, contenue dans l’expression (2.5). Dans l’exemple suivant, nous allons simuler une trajectoire de longueur T = 1000, issue d’un processus AR(2) de paramètres φ1 = 0.3 et φ2 = 0.2, et nous calculer son ACF et ses bornes de confiance au risque α = 0.05. all 1100 seed 123; set eps = %ran(1) set xar2 1 2 = 0.0 set xar2 3 1100 = 0.3*xar2{1}+0.2*xar2{2}+eps corr(stderrs=xse,number=10,partial=xpacf) xar2 101 1100 xacf print / xse xacf xpacf set ic1 = 1.96*xse set ic2 = -1.96*xse De même, on peut calculer l’intervalle de confiance asymptotique de la PACF (équation (2.6)), de la manière suivante : sta xar2 set pic1 = 1.96/sqrt(%nobs) set pic2 = -1.96/sqrt(%nobs) On peut alors tracer simultanément l’ACF et la PACF de cette série simulée xar2, ainsi que les intervalles de confiance asymptotiques respectifs, permettant d’effectuer les tests de non nullité précités (voir figure ??). spgraph(vfields=2,header=’Serie : xar2’) graph(style=bar,overlay=line,ovcount=2,omax=1,omin=-1, $ max=1,min=-1,number=1) 3 # xacf 5.2. LA MÉTHODOLOGIE BOX ET JENKINS PAS À PAS 43 Figure 5.2: ACF et PACF de la série simulée xar2, issue d’un processus AR(2). # ic1 # ic2 graph(style=bar,overlay=line,ovcount=2,omax=1,omin=-1, $ max=1,min=-1,number=1) 3 # xpacf # pic1 # pic2 spgaph(done) On peut alors observer visuellement si les valeurs de l’ACF et de la PACF sont à l’intérieur de l’intervalle de confiance et déterminer ainsi les ordres p et q. Dans le cas présent, on peut soit choisir un processus AR(2), soit un processus MA(3). Cependant, le principe de parcimonie nous recommande de choisir un processus AR(2). 5.2.2 Estimation des paramètres Il existe de nombreuses méthodes concurrentes d’estimation des paramètres d’un processus ARIMA. On se référe à Box et Jenkins (1970), Brockwell et Davis (1987) ou Hamilton (1994) pour une revue des différentes méthodes d’estimation. Les méthodes d’estimation des paramètres dans un processus ARMA(p, q) sont pour la plupart basées sur l’expression de la vraisemblance conditionnelle du processus. Dans la littérature statistique, il existe de nombreuses méthodes permettant de calculer cette vraisemblance conditionelle. Nous présentons celle utilisée par RATS, basée sur la méthode de Box et Jenkins (1976,p.211). On suppose donc que le processus considéré est Gaussien et θ = (µ, σε2 , φ1 , . . . , φp , θ1 , . . . , θq ) est le paramètre à estimer. La méthode préconisée par Box et Jenkins (1976, p.211) conditionne la vraisemblance du processus sur les p premières valeurs observées du processus (Xt )t , X1 , . . . , Xp , et sur les q valeurs du processus (εt )t , telles que : εp = εp−1 = . . . = εp−q+1 = 0. Ainsi, à partir de la suite X1 , . . . , XT , on peut alors calculer par itérations la suite εp+1 , εp+2 , . . . , εT , de la manière suivante, pour t = p + 1, . . . , T , : εt = −µ(1 − p X i=1 φi ) + Xt − φ1 Xt−1 − . . . − φp Xt−p − θ1 εt−1 − . . . − θq εt−q . (5.8) 44 CHAPTER 5. MODÈLES ARMA La log-vraisemblance conditionnelle est alors donnée par l’équation suivante : LBJ (θ) = log f (XT , . . . , Xp+1 |Xp , . . . , X1 , εp = . . . = εp−q+1 = 0) T X T −p ε2t T −p 2 log(2π) − log(σε ) − = − . 2 2 2σε2 t=p+1 (5.9) (5.10) L’estimateur du maximum de vraisemblance (EMV), noté θ̂EM V , est le paramètre qui maximise la log-vraisemblance, i.e. : θ̂EM V = Arg max L(θ) θ (5.11) La résolution numérique de ce problème de maximisation se fait à l’aide d’un algorithme du gradient conjugué de type Newton-Raphson. Ces algorithmes effectuent une recherche de maximum global, par "descente" vers ce maximum à partir d’une valeur initiale. De nombreux algorithmes de ce type sont connus dans la littérature statistique, et varient selon la direction de descente. En particulier, RATS utilise la méthode de dite de Gauss-Newton présentée. Ces méthodes de maximisation nécessitent la spécification par l’utilisateur de valeurs initiales pour l’algorithme. Le choix de ces valeurs initiales n’est pas sans conséquence, car un mauvais choix peut faire atterrir l’algorithme sur un maximum local, et non pas global. Une solution à ce problème est de choisir empiriquement différentes valeurs initiales et d’observer le comportement du résultat et les valeurs de la variance résiduelle ou du critère AIC. Notons également que lorsque le nombre de paramètres est faible, en général inférieur ou égal à 3, on peut résoudre ce problème de maximisation en utilisant une procédure par maillage ("grid-search procedure"). Cette procédure consiste à calculer la log-vraisemblance pour différentes valeurs successives des paramètres, appartenant à un intervalle fini, et de retenir alors les valeurs des paramètres pour lesquelles la log-vraisemblance est maximale. Lorsque le nombre de paramètres du processus augmente cette procédure devient très lente. De plus, elle ne permet pas d’obtenir l’écart-type des estimateurs. On se référe, par exemple, à Hamilton (1994, chapitre 5) pour un descriptif de ces méthodes de résolution numérique. Avec RATS, l’estimation des paramètres d’un processus ARMA se fait à l’aide de l’instruction boxjenk, qui s’utilise de la manière suivante : boxjenk(options) série début fin résidus Cette instruction permet de spécifier les ordres saisonniers et non saisonniers du modèle, à l’aide des options ar=, ma=, sar= et sma=. De plus, les degrés d’intégration saisonnier et non saisonnier sont spécifiés par les options diffs= et sdiffs=. Par défaut, les ordres du modèle sont nuls. Dans l’exemple suivant, on considère la série xar2, que l’on a simulée, 5.2. LA MÉTHODOLOGIE BOX ET JENKINS PAS À PAS 45 et on ajuste un processus AR(2). boxjenk(noconstant,ar=2) xar2 101 1100 resids On obtient alors les résultats suivants : Dependent Variable XAR2 - Estimation by Box-Jenkins Iterations Taken 2 Usable Observations 1000 Degrees of Freedom 998 Centered R**2 0.135253 R Bar **2 0.134387 Uncentered R**2 0.135258 T x R**2 135.258 Mean of Dependent Variable -0.002639775 Std Error of Dependent Variable 1.116592696 Standard Error of Estimate 1.038859357 Sum of Squared Residuals 1077.0703052 Durbin-Watson Statistic 2.000817 Variable Coeff Std Error T-Stat Signif ****************************************************** 1. AR{1} 0.2959591252 0.0313249410 9.44803 0.00000000 2. AR{2} 0.1389769914 0.0313396456 4.43454 0.00001025 L’instruction boxjenk renvoie de nombreuses informations relatives à l’opération d’estimation. Par exemple, la variable %beta contient le vecteur des paramètres et la variable %rss contient la somme des carrés des résidus. L’option input permet de mettre en oeuvre l’analyse d’intervention (voir paragraphe 2.4). Enfin, il est intéressant de noter que l’instruction boxjenk permet d’estimer des processus ARMA à "trous". Par exemple, si on désire estimer le processus AR(4) suivant : (I − φ1 B − φ4 B 4 )Xt = εt , on spécifie un modèle à l’aide de l’option ar=||1,4|| de la manière suivante : boxjenk(noconstant,ar=||1,4||) xar2 101 1100 De manière identique, on spécifie un modèle MA à "trous", à l’aide de l’option ma=. 5.2.3 Validation par tests La validation du processus estimé se fait à l’aide d’un test de significativité des paramètres et d’une analyse sur les résidus estimés. 46 CHAPTER 5. MODÈLES ARMA 5.2.3.1 Significativité des paramètres Il est important de déterminer si les paramètres du modèles sont significativement différent de zéro. Pour cela on effectue un test de Student en comparant la valeur absolue de chacun des paramètres estimés avec sa variance. Ainsi, si la valeur absolue du paramètre est plus grande que 1.96 × l’écart-type du paramètre, alors on rejette, au risque α = 0.05, l’hypothèse de nullité du paramètre. L’instruction boxjenk renvoie un tableau contenant l’écart-type des paramètres, les T-stat et les probabilités critiques contenues dans la colonne Signif. Si cette valeur est inférieure à 0.05, on rejette alors au risque α = 5%, l’hypothèse de nullité des paramètres. Ainsi, dans l’exemple précédent, on peut alors conclure à la significativité des paramètres du modèle, au risque α = 0.05. 5.2.3.2 Analyse des résidus Si le modèle est correctement spécifié, les résidus estimés doivent former une trajectoire issue d’un processus bruit blanc. Il est donc important de regarder attentivement la trajectoire des résidus, l’ACF et la PACF des résidus et de tester la corrélation des résidus. Pour analyser les résidus, on les récupère à l’aide de l’instruction boxjenk et pour obtenir l’ACF et la PACF des résidus on utilise l’instruction correlate. Par exemple, la commande suivante : corr(stderrs=rse,number=10,partial=rpacf,qstats,span=1) $ resids 101 1100 racf renvoie les résultats suivants : Correlations of Series RESIDS Autocorrelations 1: -0.0007693 0.0041912 0.0083685 -0.0204107 0.0048092 0.0021344 7: -0.0511083 -0.0087062 -0.0062567 -0.0466030 Partial Autocorrelations 1: -0.0007693 0.0041906 0.0083751 -0.0204170 0.0047121 0.0022441 7: -0.0508321 -0.0092998 -0.0056797 -0.0458186 Ljung-Box Q-Statistics Q(1) = 5.9364e-004. Significance Level 0.98056169 Q(2) = 0.0182. Significance Level 0.99092625 Q(3) = 0.0886. Significance Level 0.99316788 Q(4) = 0.5077. Significance Level 0.97274501 Q(5) = 0.5310. Significance Level 0.99094370 Q(6) = 0.5356. Significance Level 0.99737787 5.2. LA MÉTHODOLOGIE BOX ET JENKINS PAS À PAS 47 Figure 5.3: Trajectoire, ACF et PACF de la série resids. Q(7) = 3.1713. Significance Level 0.86871279 Q(8) = 3.2479. Significance Level 0.91785119 Q(9) = 3.2875. Significance Level 0.95179904 Q(10) = 5.4856. Significance Level 0.85647018 On peut alors obtenir la trajectoire des résidus et les graphes de l’ACF et de la PACF (voir figure ??) à l’aide des commandes suivantes : set ric1 = 1.96*rse set ric2 = -1.96*rse sta resids 101 1100 set rpic1 1 11 = 1.96/sqrt(%nobs) set rpic2 1 11 = -1.96/sqrt(%nobs) spgraph(vfields=2,hfields=2,header=’Serie : resids’) graph # resids graph(style=bar,overlay=line,ovcount=2,omax=0.2,omin=-0.2, $ max=0.2,min=-0.2,number=1,header=’ACF’) 3 # racf 2 11 # ric1 2 11 # ric2 2 11 graph(style=bar,overlay=line,ovcount=2,omax=0.2,omin=-0.2, $ max=0.2, min=-0.2,number=1,header=’PACF’) 3 # rpacf 2 11 # rpic1 2 11 # rpic2 2 11 spgraph(done) Commentons maintenant les différents résultats que l’on peut obtenir sur les résidus. • Trajectoire des résidus Ce graphe permet d’observer si les résidus sont issus d’un processus bruit blanc. Ce graphe est utile pour détecter la présence de valeurs aberrantes. • ACF des résidus Ce graphe représente l’ACF des résidus, ρ̂ε (k), pour un retard k allant de 1 à un entier spécifié par l’option number= de l’instruction correlate, et permet de tester 48 CHAPTER 5. MODÈLES ARMA ainsi la présence d’une corrélation pour un certain retard. Si l’ACF des résidus sort de l’intervalle de confiance pour un certain retard k0 , avec 1 ≤ k0 < p ou 1 ≤ k0 < q, alors cela signifie qu’il faut rajouter une partie MA(k0 ) au processus spécifié initialement. Si k0 ≥ p ou k0 ≥ q, alors cela signifie que les ordres de parties AR et/ou MA ont été mal choisis lors de l’étape de spécification du processus. • PACF des résidus Ce graphe représente la PACF des résidus, r̂ε (k), pour un retard k allant de 1 à un entier spécifié par l’option number= de l’instruction correlate, et permet de tester ainsi la présence d’une corrélation partielle pour un certain retard. De même que dans le cas précédent, si la PACF des résidus sort de l’intervalle de confiance pour un certain retard k0 , avec 1 ≤ k0 < p ou 1 ≤ k0 < q, alors cela signifie qu’il faut rajouter une partie AR(k0 ) au processus spécifié initialement. Si k0 ≥ p ou k0 ≥ q, alors cela signifie que les ordres de parties AR et/ou MA ont été mal choisis lors de l’étape de spécification du processus. • Test "Portmanteau" Au lieu de tester si chaque valeur de l’ACF tombe dans l’intervalle de confiance, on peut tester la significativité globale des ACF, à l’aide d’une statistique. Le test utilisé par le logiciel est le test "Portmanteau" de Ljung-Box, basée sur la statistique suivante : K X ρ̂2 (k) . (5.12) QK = T (T + 2) T − k k=1 Sous l’hypothèse de non corrélation des K premières autocorrélations des perturbations (H0 : ρε (1) = ρε (2) = . . . = ρε (K) = 0), cette statistique suit asymptotiquement une loi du Chi-2 à (K − p − q) degrés de liberté. L’adéquation du modèle est rejetée au risque α, si : 2 QK > X1−α (K − p − q). Les différentes valeurs des probabilités critiques sont renvoyées par l’instruction correlate. Si ces dernières valeurs, pour différents entiers K, sont toutes supérieures à 0.05, on accepte alors l’hypothèse H0 de non-corrélation. Par exemple, dans le précédent de la série resids, les probabilités sont toutes supérieures à 0.05, donc au risque α = 5%, on accepte l’hypothèse dite de blancheur des résidus. Le choix de l’entier K est à discuter, mais en pratique, il est souvent intéressant de faire varier ce nombre et d’observer le résultat du test pour ces différentes valeurs de K. Enfin, si l’on a effectué l’hypothèse de Gaussianité sur le processus bruit blanc (εt )t∈Z , il est intéressant d’observer la distribution empirique des résidus estimés. Pour cela on trace l’histogramme et la densité non paramétrique de distribution des résidus standardisés à 5.2. LA MÉTHODOLOGIE BOX ET JENKINS PAS À PAS 49 l’aide (dans la version 4.X du logiciel) respectivement des procédures @hist et @density, de la manière suivante : @hist(nbar=20) resids @density resids 101 1100 xdens ydens scatter(style=3) 1 # xdens ydens Dans la version 5 du logiciel, l’estimateur non paramétrique de la densité de distribution par la méthode des noyaux s’obtient par la fonction density qui est intégrée dans le logiciel. La procédure @kernel permet également de tracer la densité de distribution non paramétrique des résidus à l’aide de la méthode des noyaux. Le noyau peut être choisi Gaussien (option kernel=gaussian) ou d’Epanechnikov (option par défaut kernel=optimal). De plus, cette procédure permet de tracer simultanément la densité de distribution de la loi Normale (voir Figure 2.4) et effectue le test de Jarque-Bera qui permet de tester l’adéquation de la loi de distribution des résidus à la loi Normale. Dans la version 5 du logiciel, le test de normalité de Jarque-Bera est contenu dans la fonction statistics. La statistique de Jarque-Bera est définie par l’équation suivante : JB = T (Sk)2 T (Ku)2 + , 6 24 (5.13) où Sk et Ku sont respectivement le Skewness et le Kurtosis, définis par les équations (1.6) et (1.7). Sous l’hypothèse de Normalité, la statistique de Jarque-Bera suit une loi du χ2 (2). En général, RATS renvoie la P-value issue du test. La procédure @kernel s’utilise de la manière suivante : @kernel(kernel=gaussian,ngraph,style=dots,gridsize=128) $ resids 101 1100 xr yr On rappelle également que les tests sur le Skewness et sur le Kurtosis renvoyés par l’instruction statistics permettent de se faire une idée sur l’adéquation de la loi des résidus à la loi Normale. En particulier, les P-values issues du test de nullité du skweness et de la Kurtosis sont renvoyées. Si plusieurs modèles passent avec succès l’étape de la validation, un arbitrage doit être effectué pour retenir le modèle que l’on utilisera en prévision. Pour cela, on peut, par Figure 5.4: Estimation de la densité de probabilité normalisée de la série resids et comparaison avec la densité de probabilité de la loi Normale. 50 CHAPTER 5. MODÈLES ARMA exemple, comparer les critères d’information fournis par chacun des modèles et retenir le modèle pour lequel le critère d’information AIC est minimum. Le calcul du critère AIC se fait de la manière suivante : dis ’AIC:’ %nobs*log(%seesq)+2*%nreg On peut également utiliser la règle de parcimonie qui recommande de choisir un modèle paramétrique pour lequel le nombre de paramètre est le plus faible possible. Il faut également savoir que dans une optique prévisionelle, il est préférable d’utiliser un processus AR pur, plutôt qu’un processus MA pur. Cependant, si plusieurs modèles paraissent valides, on peut alors tester le comportement de chacun en prévision ou utiliser une méthode de type validation croisée. Il faut toutefois savoir que de nombreuses études empiriques ont souligné le fait que le modèle qui ajuste le mieux les données n’est pas forcément celui qui fournit les meilleures prévisions. 5.2.4 Prévision Une fois que l’on a spécifié et estimé un processus ARIMA, qui a passé avec succès les tests de validation, on désire l’utiliser pour effectuer des prévisions sur la série. On dispose donc des données X1 , . . . , XT , et on désire prédire la valeur de la série à l’horizon h, avec h > 0, à savoir XT +h . On note alors X̂T (h) le prédicteur pour l’horizon h. Il est connu que le prédicteur linéaire qui minimise l’erreur quadratique moyenne à l’horizon h = 1, définie par E(X̂T (1) − XT +1 )2 , est l’espérance conditionelle de XT +1 , sachant le passé de la série, donné par : X̂T (1) = E(XT +1 |Xs , s ≤ T ). (5.14) Dans le cas d’un processus ARMA défini par l’équation (2.1), ce prédicteur est donné par l’égalité suivante : X̂T (1) = φ1 XT + . . . + φp XT −p+1 + θ1 εˆT + . . . + θq ε̂T −q . (5.15) Lorsque l’horizon h est strictement supérieur à 1, on réitére l’opération en remplaçant les valeurs inconnues de la série par les valeurs prédites aux pas précédents, et en remplaçant les valeurs inconnues des résidus par leur moyenne conditionelle, à savoir zéro. Avec RATS, la prévision se fait à l’aide de l’instruction boxjenk, qui permet de spécifier une équation, puis à l’aide de l’instruction forecast, qui prend comme argument cette dernière équation et le nombre de pas de prédiction. De plus, les intervalles de confiance des prévisions se calculent à l’aide de l’instruction errors, qui permet de calculer les valeurs de l’écart-type du prédicteur. Par exemple, on construit les prévisions à l’horizon h = 20, et un intervalle de confiance à 95% pour la série simulée xar2 (voir Figure 2.5), de la manière suivante : 5.3. UN EXEMPLE D’APPLICATION 51 Figure 5.5: Prévisions à l’horizon h = 20 et intervalle de confiance à 95% de la série x1. boxjenk(print,noconstant,ar=2,define=eqxar2) xar2 101 1100 resids forecast 1 20 1101 # eqxar2 prevxar2 errors(noprint) 1 20 # eqxar2 errxar2 1101 set icsup 1101 1120 = 1.96*errxar2+prevxar2 set icinf 1101 1120 = -1.96*errxar2+prevxar2 graph(header=’Serie XAR2’) 4 # xar2 1061 1100 # prevxar2 # icsup 1101 1120 # icinf 1101 1120 Il est à souligner que la prédiction se fait sans tenir compte de la variabilité induite par l’estimation des paramètres. On suppose en effet que les valeurs estimées sont les vraies valeurs des paramètres. De plus, on notera que les prédictions effectuées par l’instruction forecast sont calculées de manière récursive. 5.3 Un exemple d’application Dans cette section, nous fournissons un exemple d’application de modélisation Box et Jenkins (1970) sur une série réelle, à l’aide d’un processus saisonnier ARIMA (SARIMA). On s’intéresse à la série de trafic passagers de l’ensemble des bus de banlieue de la RATP (cet exemple est issu du livre de Ferrara et Guégan, 2002). Cette série est mensuelle; elle débute en janvier 1984 et finit en décembre 1995 (voir Figure 2.6). Nous allons modéliser cette série en utilisant les données à partir du mois de janvier 1984 jusqu’au mois de décembre 1994, puis nous effectuerons des prévisions sur la période janvier 1995 - décembre 1995, que nous comparerons avec les données réelles observées afin de pouvoir juger de la précision de ces prévisions. On note (Xt )t=1,...,T cette série, où T est la taille de l’échantillon, égale à 132. Figure 5.6: Evolution de la série mensuelle busban.cts, du mois de janvier 1984 au mois de décembre 1995. 52 CHAPTER 5. MODÈLES ARMA 5.3.0.1 Analyse des données La série de trafic (Xt )t=1,...,T est représentée sur la Figure 2.6. On observe que cette série possède une tendance linéaire ainsi qu’une forte saisonnalité de 12 mois. Cette forte saisonnalité est également observable sur le graphe de l’ACF empirique (Figure 2.7), que l’on obtient par les commandes suivantes : correlate(std=bse,number=50,partial=bpacf,noprint) $ bus 84:01 94:12 bacf set bic1 = 1.96*bse set bic2 = -1.96*bse sta(noprint) bus 84:01 94:12 set bpic1 = 1.96/sqrt(%nobs) set bpic2 = -1.96/sqrt(%nobs) spgraph(vfields=2,header=’Serie : bus’) graph(style=bar,overlay=line,ovcount=2,omax=1,omin=-1, $ max=1,min=-1,number=1,header=’ACF’) 3 # bacf 2 50 # bic1 2 50 # bic2 2 50 graph(style=bar,overlay=line,ovcount=2,omax=1,omin=-1, $ max=1, min=-1,number=1,header=’PACF’) 3 # bpacf 2 50 # bpic1 2 50 # bpic2 2 50 spgraph(done) Il convient donc de stationnariser asymptotiquement cette série afin de pouvoir la modéliser par un processus de type ARMA. Au préalable, on retranche à cette série sa moyenne empirique et on étudie par la suite la série centrée (Xt − X̄)t , où X̄ est la moyenne empirique de cette série, égale à 1551.997. On obtient cette série centrée par la commande suivante : set busc = bus-%mean Pour stationnariser la série, on applique successivement un filtre de la forme (I − B) et un filtre de la forme (I − B 12 ). Dans un premier temps, le filtre (I − B) permet d’enlever la tendance linéaire de la série. On note que ceci revient donc à choisir l’entier d du processus Figure 5.7: ACF et PACF empiriques de la série bus. 5.3. UN EXEMPLE D’APPLICATION 53 ARIMA égal à 1. diff busc / dbusc La série différenciée est représentée sur le graphe en haut à gauche de la Figure 2.8. On observe qu’il existe toujours une saisonnalité que l’on fait disparaître, dans un second temps, à l’aide du filtre saisonnier (I − B 12 ). diff(sdiffs=1) dbusc / dd12busc La série résultante que l’on obtient, notée dd12busbanc, est représentée sur le graphe en haut à droite de la Figure 2.8. Cette série résultante que l’on note (Yt )t est donc la série telle que, pour tout t = 14, . . . , T , : Yt = (I − B)(I − B 12 )Xt = Xt − Xt−1 − Xt−12 + Xt−13 . On va alors chercher à modéliser cette série (Yt )t , asymptotiquement stationnaire, à l’aide d’un processus ARMA. 5.3.0.2 Spécification du modèle Dans une première étape, on va chercher à spécifier le modèle ARMA. On va donc chercher les ordres p et q des polynômes AR et MA à l’aide de l’ACF et de la PACF. sta dd12busc 85:02 94:12 correlate(std=dd12se,number=50,partial=dd12pacf,noprint) $ dd12busc 85:02 94:12 dd12acf dis %nobs set dd12ic1 = 1.96*dd12se set dd12ic2 = -1.96*dd12se set dd12pic1 = 1.96/sqrt(%nobs) set dd12pic2 = -1.96/sqrt(%nobs) spgraph(vfields=2,hfields=2) graph(header=’dbusc’) # dbusc graph(style=bar,overlay=line,ovcount=2,omax=1,omin=-1, $ max=1,min=-1,number=1,header=’ACF’,subheader=’dd12busc’) 3 # dd12acf 2 50 # dd12ic1 2 50 # dd12ic2 2 50 54 CHAPTER 5. MODÈLES ARMA graph(header=’dd12busc’) # dd12busc graph(style=bar,overlay=line,ovcount=2,omax=1,omin=-1, $ max=1, min=-1,number=1,header=’PACF’,subheader=’dd12busc’) 3 # dd12pacf 2 50 # dd12pic1 2 50 # dd12pic2 2 50 spgraph(done) On observe que l’ACF est en dehors de l’intervalle de confiance à 95% pour les retards 1, 11, 12 et 13. Ceci nous porte à supposer que le modèle devra comporter une partie MA(1) non saisonnière et une partie MA(1) saisonnière, de période 12. En ce qui concerne la PACF, on observe que les valeurs sont en dehors de l’intervalle de confiance à 95% pour les retards 1, 2, 10, 11 et 12. Donc on peut penser que le modèle comportera également une partie AR(2) non saisonnière et une partie AR(1) saisonnière. Ainsi, en tenant compte de ces informations, on retient plusieurs modèles possibles auxquels nous feront passer les différents tests de validation. 5.3.0.3 Estimation des paramètres Le modèle que l’on retient finalement est un modèle SARIMA(011)(011)12 . L’estimation des paramètres de ce modèle se fait à l’aide de l’instruction boxjenk, de la manière suivante : box(noconstant,ar=0,diffs=1,ma=1,sar=0,sdiffs=1,sma=1,span=12, $ define=buseq) busc 85:02 94:12 resbus On obtient alors les résultats suivants : Dependent Variable BUSC - Estimation by Box-Jenkins Iterations Taken 13 Monthly Data From 1985:02 To 1994:12 Usable Observations 119 Degrees of Freedom 117 Centered R**2 0.989541 R Bar **2 0.989451 Uncentered R**2 0.989583 T x R**2 117.760 Figure 5.8: Evolution de la série dbusc (haut gauche) et de la série dd12busc (haut droite) et représentation de l’ACF de dd12busc (bas gauche) et sa PACF (bas droite). 5.3. UN EXEMPLE D’APPLICATION 55 Mean of Dependent Variable 15.36000626 Std Error of Dependent Variable 242.56967255 Standard Error of Estimate 24.91337650 Sum of Squared Residuals 72619.130457 Durbin-Watson Statistic 1.853524 Q(29-2) 22.639120 Significance Level of Q 0.70423937 Variable Coeff Std Error T-Stat Signif ******************************************* 1. MA{1} -0.482198486 0.081037646 -5.95030 0.00000003 2. SMA{12} -0.473196053 0.093345610 -5.06929 0.00000151 Le modèle estimé que l’on obtient est donc le suivant : (I − B)(I − B 12 )(Xt − 1552) = (I − 0.4800B)(I − 0.4641B 12 )εt 5.3.0.4 Validation du modèle Dans un premier temps, on teste la significativité des paramètres avec un risque α = 0.05. Les probabilités critiques renvoyées par le logiciel sont toutes les deux inférieures à 0.05, on peut donc conclure ques les paramètres sont statistiquement significatifs, au risque α = 0.05. Dans un second temps on s’intéresse aux résidus du modèle. Tout d’abors, la statistique de Ljung-Box calculée par le logiciel possède une probabilité critique supérieure à 0.05. Ce test permet d’accepter, au risque α = 0.05, l’hypothèse de blancheur des résidus. Examinons dans un second temps l’ACF et la PACF des résidus. corr(stderrs=rse,number=25,partial=rpacf,qstats,span=1) $ resbus 85:02 94:12 racf set ric1 = 1.96*rse set ric2 = -1.96*rse set rpic1 1 25 = 1.96/sqrt(%nobs) set rpic2 1 25 = -1.96/sqrt(%nobs) spgraph(vfields=2,hfields=2,header=’Serie : resbus’) graph # resbus Figure 5.9: Graphiques de diagnostic sur la série des résidus, notée resbus. 56 CHAPTER 5. MODÈLES ARMA Figure 5.10: Prévisions mensuelles de la série bus pour l’année 1995 et intervalle de confiance à 95%. graph(style=bar,overlay=line,ovcount=2,omax=1,omin=-1, $ max=1,min=-1,number=1,header=’ACF’) 3 # racf 2 25 # ric1 2 25 # ric2 2 25 graph(style=bar,overlay=line,ovcount=2,omax=1,omin=-1, $ max=1, min=-1,number=1,header=’PACF’) 3 # rpacf 2 25 # rpic1 2 25 # rpic2 2 25 spgraph(done) Le graphique en haut à gauche de la Figure 2.9 représente l’évolution des résidus. On observe une très faible valeur des résidus pour le mois de janvier 1987. En fait, ce mois correspond à une forte grève des agents ayant eu lieu sur l’ensemble du réseau de la RATP. Ce mois peut donc être considéré comme une valeur aberrante. L’ACF et la PACF (Figure 2.9) des résidus montrent que l’hypothèse d’indépendance des résidus est valide, car aucune valeur ne se trouve en dehors des intervalles de confiance de Bartlett et Quenouille. Ainsi, on accepte, au risque α = 0.05, l’hypothèse nulle de bruit blanc pour les résidus. 5.3.0.5 Prédiction La prédiction du processus SARIMA, sur un horizon de 12 mois, se fait à l’aide de la manière suivante : forecast 1 12 95:01 # buseq buscprev sta(noprint) ban 84:01 94:12 set busprev = buscprev+%mean Si on suppose que le prédicteur suit une loi Normale, on peut alors construire un intervalle de confiance pour ce prédicteur. On désire alors tracer simultanément la série réelle, la série prévue et son intervalle de confiance au risque α = 0.05. errors 1 12 # buseq buspreverr 95:01 5.4. ANALYSE D’INTERVENTION 57 set icsup 95:01 95:12 = 1.96*buspreverr+busprev set icinf 95:01 95:12 = -1.96*buspreverr+busprev graph(key=lol) 4 # bus 95:01 95:12 # busprev # icinf 95:01 95:12 # icsup 95:01 95:12 Les prévisions obtenues sont présentées sur la Figure 2.5. Les résultats semblent être assez bons, car les prédictions se trouvent toutes à l’intérieur de l’intervalle de confiance à 95%. 5.4 Analyse d’intervention Lorsqu’on travaille sur des séries chronologiques à caractère économique, on est souvent amené à tenir compte d’événements de nature diverse, extérieurs au modèle, qui viennent perturber les séries. L’effet de ces évènements se fait sentir soit par la présence d’un ou plusieurs points dits aberrants, qui occasionnent une rupture ponctuelle dans la série, soit par un changement sensible durable dans l’évolution de la série. La théorie de l’analyse d’intervention développée par Box et Tiao (1975) permet de prendre en compte, lors de la modélisation SARIMA d’une série chronologique, des interventions extérieures au modèle. On apporte ainsi au modèle statistique une information supplémentaire de type qualitatif, qui est intégrée de manière additive au modèle à l’aide de variables déterministes exogènes de type binaire. On espère ainsi fournir une "meilleure" modélisation en terme d’ajustement du modèle aux données, grâce à l’utilisation d’un ensemble informationnel plus grand. On note (Xt )t∈Z la suite de variables aléatoires à modéliser, perturbée par une intervention extérieure. Le modèle d’intervention proposé par Box et Tiao (1975) se présente alors ous la forme suivante : ω(B)bb ξt + Nt , (5.16) Xt = C + δ(B) où (Nt )t∈Z est supposé suivre un processus SARIMA défini par la Définition 2.3, où ω(z) est un polynôme de degré l tel que : ω(z) = ω0 + ω1 z + . . . + ωl B l , où δ(z) est un polynôme de degré r tel que : δ(z) = 1 − δ1 z − . . . − δr B r et b est un entier qui représente un retard à determiner. La fonction déterministe δ −1 (B)ω(B)B b ξt , représente l’effet de l’intervention qui vient s’ajouter de manière additive au bruit (Nt )t∈Z ; elle est appelée fonction d’intervention. Dans l’équation (2.16), la suite de variable aléatoire (ξt )t∈Z représente l’effet d’une intervention extérieure à la date t0 , mis sous la forme d’une variable déterministe qui prend 58 CHAPTER 5. MODÈLES ARMA pour valeur 1 ou 0 selon la présence ou l’absence de l’intervention. Cette variable est en général modélisée par deux classes de fonctions : • une fonction en forme de saut : ξt = (t0 ) St ( 0 si t < t0 , = 1 si t ≥ t0 (5.17) ( 0 si t 6= t0 , = 1 si t = t0 (5.18) • une fonction en forme d’impulsion : (t0 ) ξt = Pt (t0 ) On remarque cependant que grâce à l’égalité suivante : (I − B)St toujours passer d’un saut à une impulsion. (t0 ) = Pt , on peut Plus généralement, la série chronologique peut être perturbée par k interventions de natures différentes. Avec les notations précédentes, le modèle d’intervention (2.16) a alors une représentation plus générale donnée par : Xt = C + k X ωj (B)bbj j=1 δj (B) (Tj ) ξt + Nt , (5.19) où, pour j = 1, . . . , k, ωj (z) est un polynôme de degré lj , où δj (z) est un polynôme de degré rj et bj est un entier qui représente un retard à determiner. Une hypothèse fondamentale lors de l’utilisation de l’analyse d’intervention est que la structure du modèle, par exemple SARIMA, soit la même avant et après l’intervention. Ainsi, après avoir déterminé la date d’intervention, on fixe alors les deux sous-ensembles de données correspondant à l’évolution du processus avant et après l’intervention. On ajuste ensuite le même modèle sur chacun de ces deux sous-ensembles. Dans notre cadre, comme nous nous intéressons aux processus linéaires, nous chercherons à ajuster un processus SARIMA à l’aide des outils classiques que sont les fonctions d’autocorrélation et d’autocorrélation partielle. En ce qui concerne la forme de la fonction d’intervention, il n’existe pas de méthode automatique fiable permettant de la déterminer. Cependant Box et Tiao (1975) ont proposé différents types de fonctions permettant de s’adapter à la forme graphique que prend la série, suite à l’effet de l’intervention extérieure, d’où l’importance d’une analyse graphique ou géométrique de la série à étudier. Cette analyse graphique nécessite donc une approche locale de la série qui s’éloigne de l’analyse souvent globale utilisée quand on fait une modélisation paramétrique d’un processus. On se réfère également à l’article de Ferrara et Guégan (2000a) pour une description des quelques types de 5.4. ANALYSE D’INTERVENTION 59 fonctions d’intervention que l’on rencontre en pratique. Le logiciel RATS permet d’estimer un modèle d’intervention à l’aide de l’instruction boxjenk. Cette instruction possède l’option inputs, qui permet de spécifier le nombre k d’interventions extérieures. La série (ξt )t et les entiers l, r et b de l’équation (2.15), sont spécifiés par une carte supplémentaire. Par exemple, si on s’intéresse à nouveau à l’application présentée dans le paragraphe 2.3, on peut améliorer la modélisation et la prévision en prenant en compte la forte valeur de la série des résidus pour le mois de janvier 1986. On rappelle que cette faible valeur du trafic sur le réseau des bus de banlieue est due à une grève des agents RATP. L’analyse d’intervention va alors nous servir à mesurer l’impact de cette grève sur le trafic. On suppose que cette grève a un effet ponctuel sur le trafic et on spécifie alors la fonction d’intervention par une impulsion en date de janvier 1987. Dans RATS, la spécification et l’estimation du modèle se font de la manière suivante : set P8701 84:01 95:12 = T==87:01 box(noconstant,ar=0,diffs=1,ma=1,sar=0,sdiffs=1,sma=1,span=12, $ define=buseq2,inputs=1,apply) busc 85:02 94:12 resbus2 # P8701 0 0 0 On obtient alors le résultat suivant : Dependent Variable BUSC - Estimation by Box-Jenkins Iterations Taken 14 Monthly Data From 1985:02 To 1994:12 Usable Observations 119 Degrees of Freedom 116 Centered R**2 0.990651 R Bar **2 0.990489 Uncentered R**2 0.990688 T x R**2 117.892 Mean of Dependent Variable 15.36000626 Std Error of Dependent Variable 242.56967255 Standard Error of Estimate 23.65590274 Sum of Squared Residuals 64913.801171 Durbin-Watson Statistic 1.873671 Q(29-2) 23.190264 Significance Level of Q 0.67474964 Variable Coeff Std Error T-Stat Signif ********************************************************* 1. MA{1} -0.49465185 0.08122314 -6.09004 0.00000002 2. SMA{12} -0.41946909 0.09517685 -4.40726 0.00002349 60 CHAPTER 5. MODÈLES ARMA 3. N_P8701{0} -65.03550992 17.38301277 -3.74133 0.00028614 Ainsi, le modèle que l’on obtient est donné par l’équation suivante : Xt = 1552 − 65.036Pt8701 + (I − 0.4947B)(I − 0.4195B 12 ) εt (I − B)(I − B 12 ) (5.20) On constate donc que cette grève des agents a entraîné une perte d’environ 65036 passagers en moyenne par jour ouvrable du mois de janvier 1987. La valeur du paramètre ω0 est significativement non nulle, au risque α = 0.05. De plus, on amélioré la qualité d’ajustement du modèle aux données, car si on compare l’écart-type des résidus avec l’écart-type des résidus obtenus par le SARIMA, on constate que l’on passe de 24.91 à 23.66. De même, si on s’intéresse aux prévisions sur un horizon de 12 mois, on compare alors la capacité prédictive à l’aide du critère de la moyenne des erreurs relatives de prévision (MER), défini par : h 1 X (Xt+l − X̂t (l)) , M ER = h l=1 Xt+l (5.21) où h est l’horizon de prévision et X̂t (l) est la valeur prédite de Xt+l . Le modèle d’analyse d’intervention fournit un MER égal à -0.6718, alors que le modèle SARIMA fournit un MER égal à -0.7275. Ainsi, le modèle d’analyse d’intervention permet également d’améliorer la qualité des prévisions. Un autre exemple d’application, pour lequel le gain en qualité d’ajustement et en qualité de prévision est substantiel, se trouve dans l’article de Ferrara et Guégan (2000a). On retiendra que la méthode d’analyse d’intervention est un outil fort intéressant pour un praticien, car elle permet de mesurer de manière fiable l’impact d’un événement extérieur sur une série. Figure 6.1: IPI en niveau et taux de croissance mensuel Chapter 6 Tests Ce chapitre introduit les fonctions du module FinMetrics intégrées au logiciel S-Plus et dédiées aux tests statistiques. S’agissant des détails statistiques, on se réfère aux polycopiés distribués en cours, en particulier en ce qui concerne le test de racine unitaire Le module FinMetrics se lance à partir de S-Plus par la commande : > module(finmetrics) On suppose que l’on observe la trajectoire suivante (X1 , . . . , XT ). Les tests présentés ci-dessus constituent l’analyse préalable à toute tentative de modélisation, mais servent également au diagnostic du modèle (étape de validation). Dans ce dernier cas, les tests seront appliqués sur la série des résidus. Dans les exemples présentés ci-dessous, on choisit de tester la série de l’indice de la production industrielle (hors construction et énergie) dans la zone euro de janvier 1990 à octobre 2008 ipi ou la série du taux de croissance mensuel de l’IPI dipi (voir graphique ci-dessous). 6.1 Test de stationnarité On commence naturellement par se poser la question de la stationnarité de la série d’étude. On insiste sur le fait que les modèles proposés ne permettent de ne modéliser que des séries stationnaires. Ce test permet de tester l’hypothèse de stationnarité de la série (absence de racine unitaire) à l’aide de deux méthodes : celle proposée par Dickey et Fuller (1979) et de celle proposée par Philips et Perron (1988). Les deux méthodes s’implémentent à 61 62 CHAPTER 6. TESTS l’aide de la fonction uniroot(.) en jouant sur l’option method, le test par défaut étant celui de Dickey et Fuller. 6.1.1 Test de Dickey-Fuller augmenté (ADF test) On rappelle que ce test est basé sur la régression linéaire suivante: ∆Xt = C + δt + ρXt−1 + p X ai ∆Xt−i + ut , (6.1) i=1 où C est une constante et (ut )t est un bruit blanc faible. La constante C et la tendance linéaire δt peuvent être inclues ou non dans la régression, donnant ainsi trois types de test possibles. L’hypothèse nulle H0 : ρ = 0 est ainsi testée à l’aide de la statistique de p Student suivante : ρ̂/ V ar(ρ̂). Les valeurs critiques usuelles ne sont pas valides dans ce type ce test. Les valeurs critiques à utiliser dans chacun des trois cas possibles ont été tabulées par Dickey et Fuller. La commande suivante permet d’effectuer le test ADF sur la série en niveau en utilisant le nombre de retards par défaut : > unitroot(ipi) Test for Unit Root: Augmented DF Test Null Hypothesis: Type of Test: Test Statistic: P-value: there is a unit root t-test -1.305 0.6276 Coefficients: lag1 lag2 lag3 -0.0066 -0.4586 -0.0341 lag4 0.2950 lag5 0.2376 lag6 0.2147 lag7 0.1943 lag8 constant 0.1296 0.6560 Degrees of freedom: 218 total; 209 residual Residual standard error: 0.7095 On observe ainsi que l’hypothèse nulle de non-stationarité de la série est acceptée par le test. Nous pouvons étendre ce résultat à d’autres spécifications du test. Par exemple, l’option lags permet de choisir le nombre p de retards à inclure dans la régression et l’option trend permet de choisir les variables déteministes à inclure dans la régression: trend="nc" : pas de constante ni de tendance linéaire trend="c" : constante mais de tendance linéaire 6.1. TEST DE STATIONNARITÉ 63 trend="ct" : constante et tendance linéaire. Ainsi, on peut mener le test suivant : > unitroot(ipi,lags=1,trend="nc") Test for Unit Root: Augmented DF Test Null Hypothesis: Type of Test: Test Statistic: P-value: there is a unit root t-test 2.08 0.9912 Coefficients: lag1 0.0012 Degrees of freedom: 225 total; 224 residual Residual standard error: 0.8007 On conclut de manière similaire à la non-stationnarité de la série. Les différentes spécifications du test mènent à des conclusions identiques. Il reste donc à vérifier que la série différenciée du taux de croissance mensuel est bien stationnaire. > unitroot(dipi,lags=1,trend="nc") Test for Unit Root: Augmented DF Test Null Hypothesis: Type of Test: Test Statistic: P-value: there is a unit root t-test -20.49 1.997e-36 Coefficients: lag1 -1.3072 Degrees of freedom: 224 total; 223 residual Residual standard error: 0.7951 Ainsi, on accepte bien la stationnarité de la série du taux de croissance mensuel de l’IPI. On pourra donc proposer un processus pour cette série. 64 CHAPTER 6. TESTS 6.1.2 Test de Phillips-Perron Ce test permet de tester l’hypothèse nulle de stationnarité à partir de la statistique suivante: T 1 X 2 S , (6.2) ν= 2 2 n s (l) t=1 t où s2 (l) est la variance de long terme de la série (êt )t , cette série étant le résidu de la régression suivante: Xt = τ + δt + et , P et où St est la somme partielle de ces résidus estimée par Ŝt = ti=1 êi . Phillips et Perron (1988) proposent d’estimer la variance de long terme de la manière suivante : T l n X 1X 2 2X ê + ω(j, l) êt êt−j , ŝ (l) = T t=1 t T j=1 t=j+1 2 (6.3) où les poids sont en général donnés par l’égalité suivante (voir Newey and West (1994)): ω(j, l) = 1 − j . l+1 (6.4) Les valeurs critiques à utiliser ont été tabulées par Phillips et Perron. La commande suivante permet d’effectuer le test PP : > unitroot(ipi,method="pp") Test for Unit Root: Phillips-Perron Test Null Hypothesis: Type of Test: Test Statistic: P-value: there is a unit root t-test -0.3045 0.9208 Coefficients: lag1 constant -0.0023 0.3292 Degrees of freedom: 225 total; 223 residual Residual standard error: 0.8018 Le test de PP confirme la non-stationnarité de la série même en prenant un risque α très élevé (p-value de 0.9208). De manière similaire à précédemment, le test accepte l’hypothèse de stationnarité de la série du taux de croissance mensuel. 6.2. TEST DE BLANCHEUR 65 Remarque 6.1 Il est à souligner que ces tests de stationnarité sont peu puissants en particulier contre l’alternative de stationnarité avec longue mémoire. En effet, dans le cas d’une forte persistence dans une série stationnaire, les tests de racine unitaire auront tendance a rejeter à tort la stationnarité. Ce résultat aura donc tendance à entraîner une sur-différenciation de la série (on différencie une série déjà stationnaire), donc une perte d’information dommageable pour le modélisateur. 6.2 Test de blancheur A partir d’une série stationnaire, il s’agit donc maintenant vérifier la présence d’information dans les données, c’est à dire de mettre en évidence de l’autocorrélation. Ce test de blancheur permet de tester l’hypothèse nulle d’absence d’autocorrélation dans la série (X1 , . . . , XT ), en utilisant la significativité globale des K premières autocorrélations ρ(1), . . . , ρ(K). Ainsi, sous l’hypothèse nulle, la série suit un processus bruit blanc, bien qu’il ne soit pas possible de discriminer avec ce test entre un bruit blanc faible et un bruit blanc fort. Deux statistiques sont disponibles: la statistique de Ljung-Box et celle de Box-Pierce. Toutes les deux suivent une loi de Chi-2 (voir aussi Chapitre précédent). 6.2.0.1 Test de Box-Pierce Le test de Box et Pierce (1970) est basé sur la statistique suivante : QK = T K X ρ̂2 (k). (6.5) k=1 Sous l’hypothèse de non-corrélation des K premières valeurs de la série (H0 : ρX (1) = ρX (2) = . . . = ρX (K) = 0), cette statistique suit asymptotiquement une loi du Chi-2 à (K) degrés de liberté. L’adéquation du modèle est rejetée au risque α, si : QK > χ21−α (K). 6.2.0.2 Test de Ljung-Box Le test de Ljung-Box de non-corrélation est basé sur la statistique suivante : QLB = T (T + 2) K X ρ̂2 (k) . T − k k=1 (6.6) Cette statistique QLB est également distribuée selon une loi de Chi-2 à (K) degrés de liberté sous H0 . 66 CHAPTER 6. TESTS Dans FinMetrics, l’instruction autocorTest() permet de mettre en place ces deux tests. L’option par défaut method="lb" permet d’utiliser la statistique de Ljung-Box et l’option method="bp" permet d’utiliser la statistique de Box-Pierce. L’option lag.n permet de choisir l’entier K. Le choix de K n’est pas automatique. En pratique, on fait varier K et on observe les changements dans la P-value ou la valeur de la statistique. Le test de Ljung-Box sur la série du taux de croissance de l’IPI est réalisé à l’aide de l’instruction autocorTest(), de la manière suivante : > autocorTest(dipi,lag.n=1) Test for Autocorrelation: Ljung-Box Null Hypothesis: no autocorrelation Test Statistics: Test Stat 25.1241 p.value 0.0000 Dist. under Null: chi-square with 1 degrees of freedom Total Observ.: 225 Ainsi, en prenant K = 1, on rejette l’hypothèse nulle d’absence d’autocorrélation dans la série. De même, en augmentant le nombre K, la p-value reste toujours proche de zéro. Cela signifie donc que cette série n’a pas été engendrée par un bruit blanc et que l’on pourra alors chercher à mettre en place un processus sur cette série afin de modéliser l’espérance conditionnelle. Remarque 6.2 Lorsqu’on cherche à tester la blancheur de résidus (εt )t issus d’un processus ARMA(p, q), le nombre de degré de liberté des tests est égal à (K − p − q). A noter que ces tests de blancheur de type Portmanteau sont à utiliser avec prudence car ils sont connus pour leur faible puissance. 6.3 Test de Normalité Ce test permet de tester l’hypothèse nulle de Normalité de la distribution non conditionnelle de (Xt )t . Ce test vient en complément du test de Kolmogorov-Smirnov disponible dans S-Plus (ks.gof()). On renvoie au cours de statistique pour un rappel de ces tests. Il est réalisé à l’aide de l’instruction normalTest(). L’option method permet de choisir le type de test, soit le test de Shapiro-Wilks (method="sw", option par défaut), soit le test de Jarque-Bera (method="jb"). 6.4. TEST DE PRÉSENCE D’EFFET ARCH 67 Ainsi, si l’on désire tester la Normalité du taux de croissance de l’IPI on effectue la commande suivante : > normalTest(dipi,method="jb") Test for Normality: Jarque-Bera Null Hypothesis: data is normally distributed Test Statistics: Test Stat 0.810 p.value 0.667 Dist. under Null: chi-square with 2 degrees of freedom Total Observ.: 225 Les résultats indiquent donc que l’on peut accepter l’hypothède nulle de Normalité avec un risque α élevé (p-value de 0.667). 6.4 Test de présence d’effet ARCH Ce test du multiplicateur de Lagrange permet de tester l’hypothèse nulle d’homoscédasticité contre l’hypothèse alternative d’une composante ARCH dans la série d’étude, notée (Yt )t . On se réfère, par exemple, à Guégan (1994) pour un descriptif précis du test. Dans la pratique, on utilise le fait que la statistique du multiplicateur de Lagrange, notée FL , vérifie l’égalité asymptotique suivante : FL ∼ T R2 , (6.7) où R2 est le coefficient de détermination issu de la régression linéaire avec constante de Yt2 2 2 sur Yt−1 , . . . , Yt−p et où T est le nombre d’observations utilisées dans la régression. Sous l’hypothèse nulle d’homoscédasticité, la statistique FL suit une loi du Chi-deux à p degrés de liberté. Une valeur de FL élevée est due à une valeur élevée du coefficient de détermination R2 , ce qui signifie que le pouvoir explicatif des variables exogènes dans l’équation 2 2 de régression de Yt2 sur Yt−1 , . . . , Yt−p est élevé. Dans ce cas, on a alors tendance à rejeter l’hypothèse nulle d’homoscédasticité. Le test du multiplicateur de Lagrange d’effet ARCH se met en place à l’aide de la commande archTest(). L’option lag.n permet de choisir le nombre p de retards à inclure dans la régression. Il est conseillé de faire varier p et de vérifier que les résultats du test convergent. Toutefois, ce test n’est pas puissant pour spécifier le processus ARCH(p). 68 CHAPTER 6. TESTS Pour tester la présence d’effet ARCH dans la série du taux de croissance de l’IPI on effectue la commande suivante: > archTest(dipi, lag.n = 1) Test for ARCH Effects: LM Test Null Hypothesis: no ARCH effects Test Statistics: Test Stat 0.8420 p.value 0.3588 Dist. under Null: chi-square with 1 degrees of freedom Total Observ.: 225 Les résultats indiquent que l’on accepte l’hypothèse nulle d’absence d’effet ARCH avec un risque standard. Par conséquent, il ne semble pas utile de mettre en place un processus de type GARCH sur cette série. Chapter 7 Bibliographie • Adenstedt, R.K. (1974), "On large sample estimation for the mean of a stationary random sequence", Annals of Mathematical Statistics, 2, 1095-1107. • Akaike, H. (1977), "On entropy maximisation principle", in Applications of Statistics, Edition Krisnaiah, 27-41, North-Holland. • Ansley, C.F. (1979), "An algorithm for the exact likelihood of a mixed autoregressive-moving average process", Biometrika, 66, 59-65. • Avouyi-Dovi, S., Guégan, D., Ladoucette, S. (2001), "Application des processus longue mémoire à l’analyse des indices boursiers", NR GRID 01-12, Ecole Normale Supérieure de Cachan, France. • Barkoulas, J.T. and Baum, C.F. (1997), "Fractional differencing modeling and forecasting of eurocurrency", Journal of Financial Research, 20, 355-372. • Baillie, R.T. (1996), "Long memory processes and fractional integration in econometrics", Journal of Econometrics, 73, 5-59. • Baillie, R.T. and Bollerslev T. (1989), "The message in daily exchange rates: a conditional variance tale", Journal of Business and Economics Statistics, 7, 297-305. • Baillie, R.T. and Bollerslev T. (1992), "Prediction in dynamics models with time-dependent conditional variances", Journal of Econometrics, 52, 91-113. • Baillie, R.T., Chung, C.-F. and Tieslau, M.A. (1996), "Analysing inflation by the fractionally integrated ARFIMA-GARCH model", Journal of Applied Econometrics, 11, 23-40. • Baillie, R.T., Bollerslev, T. and Mikkelsen, H.-O. (1996), "Fractionally integrated generalized autoregressive conditional heteroskesdasticity", Journal of Econometrics, 73, 3-30. • Becker, R.A., Chambers, J.M. and Wilks, A.R. (1988), The New S Language: A programming Environment for Data Analysis and Graphics, Chapman and Hall, New York (anciennement Wadsworth and Brooks/Cole). • Beine, M., Bénassy-Quéré, A., and Lecourt, C. (1999), "Central Bank intervention and foreign exchange rates: New evidence from FIGARCH estimations", CEPII Working Paper no 9914. • Beran, J. (1994), Statistics for Long-Memory Processes, Chapman and Hall, London. • Beran, J. and Ocker, D. (1999), "SEMIFAR forecasts, with applications to foreign exchanges rates" , Journal of Statistical Planning and Inference, 80, 137-153. 69 70 CHAPTER 7. BIBLIOGRAPHIE • Bisaglia, L. (1998), Processi a memoria lunga : problemi di stima, identificazione e previsione, Dottora di Ricerca in Statistica, Ciclo X, Universita degli Studi di Padova. • Bisaglia, L. and Guégan, D. (1998), "A comparison of techniques of estimation in long-memory processes : application to intra-day data", Computationnal Statistics and Data Analysis, 27, 61-81. • Bollerslev, T. (1986), "Generalized autoregressive conditional heteroscedasticity", Journal of Econometrics, 31, 307-327. • Bollerslev, T. (1987), "A conditionally heteroscedastic time series model for speculative prices and rates return", Review of Economics and Statistics, 69, 542-547. • Bollerslev, T. (1990), "Modeling the coherence in short-run nominal exchanges rates: A multivariate generalized ARCH model", Review of Economics and Statistics, 72, 498-505. • Bollerslev, T., Chou, R. and Kroner, K. (1992), "ARCH modeling in finance: A review of the theory and empirical evidence", Journal of Econometrics, 52, 5-59. • Bollerslev, T. and Ghysels, E. (1996), "On periodic autoregression conditional heteroskedasticity", Journal of Business and Economic Statistics, 14, 139-152. • Bowman, A.W. and Azzalini, A. (1997), Applied smoothing Techniques for Data Analysis: the Kernel Approach with S-Plus Illustrations, Claredon Press. • Box, G.E and Pierce, D. (1970), "Distribution of residual autocorrelation in autoregressive integrated moving average time series models", Journal of the American Statistical Association, 65, 1509-1529. • Box, G.E.P. and Jenkins, G.M. (1976), Time Series Analysis: Forecasting and Control., 2nd edition, Holden-Day, San Francisco. • Box, G.E.P. and Tiao, G.C. (1975), "Intervention analysis with applications to economic and environmental problems", Journal of the American Statistical Association, 70, 70-79. • Brock, W.A., Hsieh, D.A. and Lebaron, B. (1993), Nonlinear Dynamics, Chaos and Instability, MIT Press. • Brockwell, P.J. and Davis, R.A. (1987), Time Series: Theory and Methods, Springer-Verlag, New York. • Burg, J.P. (1967), "Maximum entropy spectral analysis", paper presented at the 37th Annual International SEG Meeting, Oklahoma City, Oklahoma. • Chambers, J.M. and Hastie, T.J. (1992), Statistical Models in S, Chapman and Hall, New York (anciennement Wadsworth and Brooks/Cole). • Chauveau, T., Damon, J. et Guégan, D. (1999), "Testing for non linearity in intra-day financial series: the cases of two french stocks", Doc. de Travail 1999-06/FI, Caisse des Dépôts et Consignations, Paris. • Cheung, Y.W. (1993), "Long memory in foreign-exchanges rates", Journal of Business and Economic Statistics, 11, 93-101. • Cheung, Y.W. and Lai, K.S. (1993), "A fractional cointegration analysis of purchasing power parity", Journal of Business and Economic Statistics, 11, 103-112. • Cheung, Y.W. and Lai, K. (1995), "A search of long memory in international stock market returns", Journal of International Money and Finance, 14, 597-615. 71 • Chow, K.V., Denning, K.C., Ferris, S. and Noronha, G. (1995), "Long-term and short-term price memory in the stock market", Economics Letters, 49, 287-293. • Cleveland, R.B, Cleveland, W.S., McRae, J.E. and Terpening, I. (1990), "STL: a seasonal-trend decomposition procedure based on loess", Journal of Official Statistics, 6, 3-73. • Collet, J. et Guégan, D. (2002), "Forecasting with non Gaussian long memory processes", NR GRID 02-02, Ecole Normale Supérieure de Cachan, France. • Crato, N. and de Lima, P.J.F. (1994), "Long-range dependence in the conditional variance of stocks returns", Economics Letters, 45, 281-285. • Dahlhaus, R. (1989), "Efficient parameter estimation for self-similar processes", Annals of Statistics, 17, 1749-1766. • Davies, R.B. and Harte, D.S. (1987), "Tests for Hurst effect", Biometrika, 74, 95-101. • Delgado, M.A. and Robinson, P.M. (1994), "New methods for the analysis of long-memory time series: application to spanish inflation", Journal of Forecasting, 13, 97-107. • Dennis, J.E., Gay, D.M. and Welsh, R.E. (1980), "An adaptative nonlinear least-squares algorithm", ACM Transaction Mathematical Software, 7, 348-383. • Dickey, D.A. and Fuller, W.A. (1979), "Distribution of the estimators for autoregressive time series with a unit root", Journal of the American Statistical Association, 74, 427-431. • Dickey, D.A. and Fuller, W.A. (1981), "Likelihood ratio statistics for autoregressive time series with a unit root" Econometrica, 49, 1057-1072. • Diebold, F.X. and Rudebusch, G.D. (1989), "Long memory and persistence in aggregate output", Journal of Monetary Economics, 24, 189-209. • Diebolt, J. et Guégan, D. (1991), "Le modèle de séries chronologiques β-ARCH", CRAS, Série I, 312, 625-630. • Diebolt, J. and Guégan, D. (1993), "Tail beahaviour of the stationary density of general non linear autoregressive processes of order 1", Journal of Applied Probability, 30, 315-329. • Ding, Z., Granger, C.W.J. and Engle, R.F. (1993), "A long memory property of stock market and a new model", Journal of Empirical Finance, 1, 83-106. • Enders, W. (1995), Applied Econometric Time Series, Wiley, New York. • Engle, R.F. (1982), "Autoregressive conditional heteroscedasticity with estimates of the variance of the United Kingdom inflation", Econometrica, 50, 987-1007. • Engle, R.F. (2002), Dynamic conditional correlation - A simple class of multivariate GARCH models, Journal of Business And Economic Statistics, 20, 3, 339-350. • Engle, R.F. (2004), Risk and volatility: Econometric models and financial practice, American Economic Review, 94, 3, 405-420. • Engle, R.F. and Bollerslev, T. (1986), "Modelling the persistence of conditional variances", Econometric Review, 5, 1-50. • Engle, R.F, Lilien, D.F. and Robins, R.P. (1987), "Estimating time varying risk premia in the term structure. The ARCH-M model", Economica, 55, 391-407. • Everitt, B. (1994), A Handbook of Statistical Analyses Using S-Plus, Chapman and Hall, London. 72 CHAPTER 7. BIBLIOGRAPHIE • Ferrara, L. (2000), Processus Longue Mémoire Généralisés : Estimation, Prévision et Applications, Thèse de Doctorat, Université Paris 13. • Ferrara, L. et Guégan, D. (2000a), "Analyse d’intervention et prévisions : Problématique et applications à des données de la RATP", Revue de Statistiques Appliquées, 2, 55-72. • Ferrara, L. and Guégan, D. (2000b), "Forecasting financial time series with generalized long memory processes", in Advances in Quantitative Asset Management, 319-342, C. Dunis [ed.], Kluwer Academic Publishers. • Ferrara, L. and Guégan, D. (2001a), "Comparison of parameter estimation methods in cyclical long memory time series", in Developments in Forecast Combination and Portfolio Choice, 183-199, A. Timmermann, C.L. Dunis and J. Moody [eds.], Wiley, New York. • Ferrara, L. and Guégan, D. (2001b), "Forecasting with k-factor Gegenbauer processes: Theory and applications", Journal of Forecasting, 20, 581-601. • Ferrara, L. et Guégan, D. (2002), Analyser les Séries Chronologiques avec S-Plus: Une Approche Paramétrique, Presses Universitaire de Rennes, 147 pages. • Fox, R. and Taqqu, M.S. (1986), "Large-sample properties of parameter estimates for strongly dependent stationary Gaussian time series", Annals of Statistics, 14, 517-532. • Franses, P.H. and Ooms, M. (1997), "A periodic long memory model for quarterly UK inflation", International Journal of Forecasting, 13, 117-126. • Fuller, W.A. (1976), Introduction to Statistical Time Series, Wiley, New York. • Guay, A. and P. Saint-Amand, 1997, "‘Do the Hodrick-precott and Baxter-King filters provide a good approcimation of business cycles ?"’, Working paper N. 53, CREFE. • Geweke, J. and Porter-Hudak, S. (1983), "The estimation and application of long-memory time series models", Journal of Time Series Analysis, 4, 221-238. • Glosten, L., Jagannathan, R. and Runkle, D. (1993), On the relation between expected value and the volatility of the nominal excess return on stocks, Journal of Finance, 48, 1779-1801. • Giraitis, L. and Surgailis, D. (1990), "A central limit theorem for quadratics forms in strongly dependent linear variables and application to asymptotical normality of Whittle’s estimate", Probability Theory and Related Fields, 86, 87-104. • Giraitis, L., Robinson, P. and Surgailis, D. (1998), "Variance-type estimation of long memory", Working paper, London School of Economics. • Granger, C.W.J. and Joyeux, R. (1980), "An introduction to long-memory time series models and fractional differencing", Journal of Time Series Analysis, 1, 15-29. • Granger, C.W.J. and Terasvirta, T. (1993), Modelling Nonlinear Economic Relationships, Oxford University Press, Oxford. • Gray, H.L., Zhang, N.-F. and Woodward, W.A. (1989), "On generalized fractional processes", Journal of Time Series Analysis, 10, 233-257. • Guégan, D. (1994), Séries Chronologique Non Linéaires à Temps Discret, Economica, Paris. • Guégan, D. (1999), "Note on long memory processes with cyclical behavior and heteroscedasticity", Document de Travail 99.08, Département de Mathématiques, Université de Reims. • Guégan, D. (2000), "A new model: The k-factor GIGARCH process", Journal of Signal Processing, 4, 265-271. 73 • Guégan, D. (2001), "A prospective study of the k-factor Gegenbauer processes with heteroscedastic errors and an application to inflation rate", NR GRID 01-13, Ecole Normale Supérieure de Cachan, France. • Guégan D. et Diebolt, J. (1994), "Probabilistic properties of the β-ARCH model", Statistica Sinica, 4, 71-87. • Haerdle, W. (1991), Smoothing Techniques with Implementation in S, Springer-Verlag, New York. • Hamilton, J.D. (1989), "A new approach to the economic analysis of nonstationary time series subject to changes in regime", Econometrica, 57, 357-384. • Hamilton, J.D. (1994), Time Series Analysis, Princeton University Press. • Harvey, A.C. (1981), Time Series Models, Wiley, New York. • Hassler, U. and Wolters, J. (1995), "Long memory in inflation rates: international evidence", Journal of Business and Economic Statistics, 13, 37-46. • Hasslet, J. and Raftery, A.E (1989), "Space time modeling with long memory dependence: assessing Ireland’s wind power ressource", Applied Statistics, 38, 1-50. • Hauser, M.A. and Reschenhofer, E. (1995), "Estimation of the fractionally differencing parameter with the R/S method", Computational Statistics and Data Analysis, 20, 569-579. • Hosking, J.R.M. (1981), "Fractional differencing", Biometrika, 68, 165-176. • Hosking, J.R.M. (1984), "Modeling persistence in hydrological time series using fractional differencing", Water Resources Research, 20, 1898-1908. • Hosking, J.R.M. (1996), "Asymptotic distribution of the sample mean, autocovariances, and autocorrelations of long-memory time series", Journal of Econometrics, 73, 261-284. • Hurst, H.E. (1951), "Long-term storage capacity of reservoirs", Transactions of the American Society of Civils Engineers, 116, 770-799. • Hurvich, C.M. and Beltrao, K.I (1993), "Asymptotics for the low-frequencies ordinates of the periodogram of a long-memory time series", Journal of Time Series Analysis, 14, 455-472. • Hurvich, C.M. and Beltrao, K.I (1994), "Automatic semiparametric estimation of the memory parameter of a long-memory time series", Journal of Time Series Analysis, 15, 285-302. • Hurvich, C.M., Deo, R., and Brodsky, J. (1998), "The mean-squared error of Geweke and PorterHudak’s estimates of the memory parameter of a long memory time series", Jornal of Time Series Analysis, 19, 19-46. • Hurvich, C.M. and Deo, R. (1999), "Plug-in selection of the number of frequencies in regression estimates of the memory parameter of a long-memory time series ", Journal of Time Series Analysis, 20, 331-341. • Jarque, C. and Bera, A. (1987), A test for Normality of observations and regression residuals, International Statistical Review, 55, 163-172. • Krause, A. and Olson, M. (2000), The Basics of S and S-Plus, Second Edition, Springer-Verlag, New York. • Lam, L. (2001), An Introduction to S-Plus for Windows, Second Edition, Candiensten, Amsterdam. • Laroque, G. (1977), "Analyse d’une méthode de désaisonnalisation: le programme X11, version trimestrielle", Annales de l’INSEE, 28, 105-126. 74 CHAPTER 7. BIBLIOGRAPHIE • Ljung, G. and Box, G. (1978), "On a measure of lack of fit in time series models", Biometrika, 65, 297-303. • Lo, A.W. (1991), "Long term memory in stock market prices", Econometrica, 59, 1279-1313. • Mandelbrot, B.B. (1972), "A statistical methodology for non-periodic cycles: From the covariance to R/S analysis", Annals of Economic and Social Measurement, 1, 259-290. • Mandelbrot, B.B. (1975), "Limits theorems on the self-normaized range for weakly and strongly dependent processes", Zeitschrift fur Wahrscheinlichkeitstheorie und Vewandte Gebiete, 31, 271285. • Mandelbrot, B.B. and Wallis J.R. (1969), "Robustness of the rescaled range R/S in the measurement of noncyclic long-run statistical dependence", Water Resources Research, 5, 967-988. • Mandelbrot, B.B. and Taqqu, M.S. (1979), "Robust R/S analysis of long-run serial correlation", Bulletin of the International Statistical Institute, 48, 69-99. • Mathsoft (1996), S+GARCH User’s Manual, Data Analysis Products Division, Seattle, WA. • Mathsoft (1999), S-PLUS 2000 User’s Guide, Data Analysis Products Division, Seattle, WA. • Mathsoft (1999), S-PLUS 2000 Programmer’s Guide, Data Analysis Products Division, Seattle, WA. • Mathsoft (1999), S-PLUS 2000 Guide to Statistics, Vol. 1 and Vol. 2, Data Analysis Products Division, Seattle, WA. • Nelson, D.B. (1990), "Stationary and persistence in the GARCH(1,1) model", Econometric Theory, 6, 318-334. • Nelson, D.B. (1991), "Conditional heteroskedasticity in asset returns: A new approach", Econometrica, 59, 347-370. • Phillips, P.C.B. (1987), "Time series regression with a unit root", Econometrica, 55, 277-301. • Phillips, P.C.B. and Perron, P. (1988), "Testing for a unit root in time series regression", Biometrika, 75, 335-346. • Porter-Hudak, S. (1990), "An application to the seasonal fractionally differenced model to the monetary aggregates", Journal of the American Statistical Association, 85, 338-344. • Priestley, M.B. (1981), Spectral Analysis of Time Series, Academic Press, New York. • Ray, B.K. (1993a), "Modelling long-memory processes for optimal long-range prediction", Journal of Time Series Analysis, 14, 511-526. • Ray, B.K. (1993b), "Long-range forecasting of IBM product revenues using a seasonal fractionally differenced ARMA model", International Journal of Forecasting, 9, 255-269. • Robinson, P.M. (1994), "Semiparametric analysis of long memory time series", Annals of Statistics, 22, 515-539. • Robinson, P.M. (1995), "Log-periodogram regression of time series with long range dependence", Annals of Statistics, 23, 1048-1072. • Shiskin, J., Young, A. and Musgrave, J. (1965), "The X11 variant of the Census method X11 seasonal adjustment program", Technical paper 15, Bureau of Census. • Smith, J. (1993), "Long range dependence and global warming", in Statistics of the Environment, 141-161, V. Barnett and K. Feridun Turkman eds., Wiley, New York. 75 • Sowell, F. (1992), "Maximum likelihood estimation of stationary univariate fractionally integrated time series models", Journal of Econometrics, 53, 165-188. • Spector, P. (1994), An Introduction to S and S-Plus, Duxbury Press, Belmont, CA. • Sutcliffe, A. (1994), "Time-series forecasting using fractional differencing", Journal of Forecasting, 13, 383-393. • Taqqu, M.S. (1975), "Weak convergence to fractional Brownian motion and to the Roseblatt process", Zeitschrift fur Wahrscheinlichkeitstheorie und Vewandte Gebiete, 31, 287-302. • Taqqu, M.S. (1977), "Law of the iterated logarithm for sums of non-linear functions of Gaussian variables that exhibit a long range dependence", Zeitschrift fur Wahrscheinlichkeitstheorie und Vewandte Gebiete, 40, 203-238. • Taqqu, M.S., Teverovsky, V. and Willinger, W. (1995), "Estimators for long-range dependence: an empirical study", Fractals, 3, 785-798. • Tong, H. (1990), Non Linear Times Series: A Dynamical Systems Approach, Oxford University Press, Oxford. • Tsay, R.S. (1987), "Conditional heteroskedasticity time series analysis", Journal of the American Statistical Association, 82, 590-604. • Tse, Y.K., (1998), "The conditional heteroscedasticity of the Yen-Dollar exchange rates", Journal of Applied Econometrics, 13, 49-56. • Teverovsky, V. and Taqqu, M.S. (1997), "Testing for long-range dependence in the presence of shifting mean or a slowly declining trend, using a variance-type estimator", Journal of Time Series Analysis, 18, 279-304. • Velasco, C. (1999), "Gaussian semiparametric estimation of non-stationary time series", Journal of Time Series Analysis, 20, 87-127. • Venables, W.N. and Ripley, B.D. (1999), Modern Applied Statistics with S-PLUS, Third Edition, Springer-Verlag, New York. • Venables, W.N. and Ripley, B.D. (2000), S Programming, Springer-Verlag, New York. • Wallis, K.F. (1974), "Seasonal adjustment and relations between variables", Journal of the American Statistical Association, 69, 18-32. • Weiss, A.A. (1984), "ARMA models with ARCH errors", Journal of Time Series Analysis, 5, 129-143. • Willinger, W., Taqqu, M.S. and Teverovsky, V. (1999), "Stock market prices and long range dependence", Finance and Stochastics, 3, 1-13. • Woodward, W.A., Cheng, Q.C. and Gray, H.L. (1998), "A k-factor GARMA long-memory model", Journal of Time Series Analysis, 19, 485-504. • Yajima, Y. (1985), "On estimation of long-memory time series models", Australian Journal of Statistics, 27, 303-320. • Yajima, Y. (1989), "A central limit theorem of Fourier transforms of strongly dependent stationary processes", Journal of Time Series Analysis, 10, 375-383. • Zakoian, J.M, (1990), "Threshold heteroskedastic models", Journal of Economic Dynamics and Control, 18, 931-955.