Séries Temporelles Avancées Polycopié de Cours

Transcription

1
Université Paris Ouest Nanterre
Master EIPMC
Séries Temporelles Avancées
Polycopié de Cours
Laurent FERRARA
1
1
EconomiX - Université Paris Ouest Nanterre et Banque de France.
Email : laurent.ferrara@u–paris10.fr ou [email protected].
Site web : http://lo.ferrara.free.fr
2
Contents
3
4
CONTENTS
Chapter 1
Introduction
L’objet de ce cours est de fournir les outils et méthodes nécessaires à l’étude de la dynamique des séries temporelles économiques et financières. Le cours débute par une
présentation détaillée et progressive des bases de l’économétrie des séries temporelles
stationnaires en rappelant d’abord différents concepts de séries chronologiques (fonction
d’auto-corrélation, stationnarité, tests Ě), puis en dérivant les processus univariés de type
ARMA (autorégressifs et moyenne mobile). Le cours se poursuit par l’étude conjointe de
plusieurs séries au travers de la présentation des modèles VAR (autorégressifs vectoriels),
largement utilisés aujourd’hui en pratique. L’inférence statistique de ce type de modèles sera développée et des extensions récentes seront présentées. La plupart des séries
économiques et financières étant non stationnaires, la suite du cours est consacrée aux
tests de racine unitaire (stationnarité et non stationnarité) ainsi qu’à la théorie de la
cointégration et aux modèles à correction d’erreur. Enfin, de nombreuses séries macroéconomiques et financières étant affectées par des chocs structurels, nous proposons une
revue des différents modèles linéaires à paramètres non constants au cours du temps qui
permettent une modélisation plus flexible. Ce cours a une dimension appliquée très importante ; chaque chapitre théorique est ainsi systématiquement illustré d’applications
empiriques à la macroéconomie et à la finance.
Bibliographie sommaire :
Brockwell P.J. et Davis R.A. (1991), Time Series: Theory and Methods, Springer
Verlag.
Hamilton J.D. (1994), Time Series Analysis, Princeton University Press.
Lardic S. et Mignon V. (2002), Econométrie des séries temporelles macroéconomiques
et financières, Economica.
Ferrara L. et Guégan D. (2002), Analyser les Séries Chronologiques avec S-Plus : une
approche Paramétrique, Collection " Pratique de la Statistique ", Presses Universitaires
5
6
CHAPTER 1. INTRODUCTION
de Rennes, 147 pages
Van Dijk D. et Franses, P.H. (2000), Nonlinear Time Series Models in Empirical Finance, Cambridge University Press.
Plan du cours :
CHAPITRE 1 : Concepts de séries chronologiques
Définitions : série temporelle et processus aléatoire
Stationnarité et transformation des séries temporelles
Caractéristiques d’une série temporelle
Application : Faits stylisés de séries d’indices boursiers européens
CHAPITRE 2 : Rappels sur les processus ARMA
Définitions et généralités
Caractéristiques et simulations
Spécification et estimation des processus ARMA
Validation des processus ARMA
Prévision des processus ARMA
Quelques exemples d’application
CHAPITRE 3 : Représentation autorégressive vectorielle VAR(p) d’un processus stationnaire
Représentation canonique et processus d’innovation
Spécification et estimation des paramètres d’un processus VAR (MCO, maximum de
vraisemblance)
Validation (test du rapport de vraisemblance, critères d’information)
Prévision
Causalité et exogénéité dans les processus VAR
Fonction de réponse impulsionnelle
Une application empirique : PIB, Inflation et politique monétaire aux Etats-Unis
Extensions récentes des processus VAR
CHAPITRE 4 : Tests de racine unitaire et modélisation ARIMA
Généralités sur la non stationnarité des séries
Les tests de racine unitaire
Processus ARIMA univariés et multivariés : définitions
Application : étude de la stationnarité d’indices boursiers
CHAPITRE 5 : Cointégration et modèles à correction d’erreur
7
Concepts de cointégration
Représentation des séries cointégrées : les modèles à correction d’erreur
Estimation des relations de cointégration : méthode d’estimation en deux étapes
Tests de cointégration
Application : Cointégration entre la croissance économique et certains secteurs en
France
CHAPITRE 6 : Processus linéaires à paramètres non-constants
Quelques évidences empiriques de non-stabilité dans les séries
Processus à changements de régimes régis par une variable observable (Ex : processus
à seuil, à transition lisse)
Processus à changements de régimes régis par une variable inobservable (Ex : processus à changements de régimes markoviens)
Dans ce document dédié aux étudiants du cours du M2 EIMPC, nous reprenons
quelques éléments de ce plan du cours, le reste sera traité en cours.
8
CHAPTER 1. INTRODUCTION
Chapter 2
Concepts de série chronologique
2.1
Approche statistique en termes de processus
En statistique, toute tentative de modélisation se fait en introduisant la notion de variable
aléatoire. L’approche statistique d’une série chronologique consiste à mettre en place un
modèle statistique qui considère chaque observation xt , pour t = 1, . . . , T , comme la
réalisation d’une variable aléatoire Xt (ω), telle que :
Xt : (Ω, F, P ) → (R, B(R)),
où B(R) est la tribu des Boréliens de R.
Definition 2.1.1 Un processus (Xt )t∈Z est une famille de variables aléatoires à valeurs
réelles indéxée par t ∈ Z.
Pour une valeur de ω fixée dans Ω, la fonction qui associe à chaque date t la réalisation
Xt (ω) est la trajectoire du processus au point ω. De même, pour une date t fixée dans
Z, la fonction qui associe à chaque ω associe la réalisation Xt (ω) est l’état du processus
à la date t. L’objectif du praticien va être alors d’identifier le processus ayant généré la
trajectoire observée. Cette identification se fera à l’aide d’outils statistiques présentés plus
loin dans ce document. En termes mathématiques, cela revient à rechercher un certain
ω0 ∈ Ω ayant engendré la trajectoire observée.
Si le processus a été spécifié, estimé et validé, on peut alors l’utiliser pour effectuer une
prévision. On construit alors l’estimateur X̂T (h) qui est le prédicteur de la variable aléatoire XT +h . Comme tout estimateur, ce prédicteur est à son tour une variable aléatoire,
en tant que fonction mesurable de v.a.. Ainsi, X̂T (h) possède une loi de distribution,
qu’il conviendra de spécifier dans la mesure du possible. En utilisant cette v.a., on pourra
donc calculer la prévision x̂T (h) comme étant la réalisation de X̂T (h), calculée à partir
des données de la trajectoire.
9
10
2.2
CHAPTER 2. CONCEPTS DE SÉRIE CHRONOLOGIQUE
Comment se présente l’information dans une trajectoire ?
Contrairement à un échantillon, ce qui caractérise une trajectoire (x1 , . . . , xT ) issue d’un
processus est la non indépendance des v.a. (X1 , . . . , XT ). En effet, dans la plupart des
cas en pratique, il existe une forme de dépendance entre les valeurs d’une trajectoire. En
finance, la valeur d’un actif un jour donné va dépendre d’une certaine manière de la valeur
de cet actif les jours précédents. En économie, les séries de PIB, d’investissement, de consommation des ménages ou de commerce extérieur pour un certain trimestre dépendent
d’un certaine manire des trimestres précédents. On pourrait ainsi multiplier les exemples
de dépendence temporelle au sein d’une série.
2.2.0.1
Domaine temporel
Il existe un outil statistique qui permet de mesurer la dépendence entre deux v.a., il s’agit
du coefficient de corrélation linéaire. La plupart du temps, les praticiens font souvent
une utilisation extensive de ce coefficient, du fait de sa facilité d’utilisation. Toutefois,
quelques précautions d’usage sont à prendre. En particulier, il est bon de rappeler que ce
coefficient ne mesure que les dépendances linéaires entre variables, les dépendances non
linéaires étant exclues. Ensuite, d’autres dépendances sur les moments d’ordre supérieurs
ou égaux à 2 peuvent exister; elles ne sont pas mesurées par ce coefficient. Ainsi, un
coefficient de corrélation égal à zéro n’implique pas, en général, que ces deux variables
sont indépendantes, la réciproque étant vraie. Le cas Gaussien en est un contre-exemple.
Cependant, dans la pratique, le coefficient de corrélation linéaire reste utile pour caractériser le degré de dépendance d’un processus. En particulier, on utilisera la fonction
d’autocorrélation décrite dans la définition suivante :
Definition 2.2.1 Soit (Xt )t∈Z un processus du second ordre (i.e. : E(Xt2 ) < ∞).
(i) La fonction moyenne, notée m(.), du processus (Xt )t∈Z est l’espérance non conditionnelle du processus, i.e.: m(t) = E(Xt ), pour tout t ∈ Z.
(ii) La fonction d’autocovariance au retard k, notée γ(k), du processus (Xt )t∈Z est
définie de la manière suivante, pour tout t ∈ Z et k ∈ Z, :
γ(k) = cov(Xt , Xt+k ) = E [(Xt − E(Xt ))(Xt+k − E(Xt+k ))] .
(2.1)
(iii) La fonction d’autocorrélation au retard k, notée ρ(k), du processus (Xt )t∈Z , que
l’on note ACF (AutoCorrelation Function), est définie de la manière suivante, pour tout
t ∈ Z et k ∈ Z, :
γ(k)
ρ(k) =
,
(2.2)
σXt σXt+k
p
où σXt est l’écart type du processus au temps t, pour t ∈ Z, tel que : σXt = γ(0) .
2.2. COMMENT SE PRÉSENTE L’INFORMATION DANS UNE TRAJECTOIRE ?11
Ainsi, pour un retard k fixé, le nombre ρ(k) ∈ [−1, 1] mesure la corrélation linéaire entre
les variables Xt et Xt+k . En particulier, on remarque que ρ(0) = 1. Dans une optique
prévisionnelle, on s’attachera à mettre en évidence les retards k pour lesquels l’ACF est
la plus élevée.
Remarque 2.1 On dit que le processus est centré si m(t) = 0, ∀t.
D’autres mesures de dépendance entre variables existent en statistique. Un outil de diagnostic intéressant est la fonction d’autocorrélation partielle, que l’on note PACF (Partial
ACF). La PACF au retard k, notée r(k), est définie pour tout k ∈ Z, de la manière
suivante :
∗
cov(Xt − X ∗ , Xt+k − Xt+k
)
,
(2.3)
r(k) =
∗
∗
1/2
var(Xt − X ) var(Xt+k − Xt+k )1/2
∗
où, pour tout t, Xt∗ est la régression affine de Xt sur Xt+1 , Xt+2 , . . . , Xt+k−1 et Xt+k
est
la régression affine de Xt+k sur Xt+k−1 , Xt+k−2 , . . . , Xt+1 .
Ainsi, pour un retard k fixé, le nombre r(k) est le coefficient de corrélation linéaire entre
la variable Xt − E(Xt |Xt+1 , Xt+2 , . . . , Xt+k−1 ) et la variable
Xt − E(Xt+k |Xt+1 , . . . , Xt+k−2 , Xt+k−1 ). Ce coefficient mesure en fait la liaison entre les
variables Xt et Xt+k , une fois que l’on a retranché l’influence des variables intermédiaires.
La proposition suivante permet de calculer facilement r(k), pour un retard k fixé.
Proposition 2.1 Le coefficient r(k) défini par l’équation ?? est le coefficient de Xt dans
la régression linéaire de Xt+k sur 1, Xt , Xt+1 , . . . , Xt+k−1 .
Enfin, on rappellera que la connaissance parfaite de la dépendance entre 2 variables n’est
possible qu’avec la connaissance de la jointe du vecteur bivarié. Les outils de type copules,
qui sont en train de se développer fortement dans le domaine de la finance permettent
une estimation de la loi jointe d’un vecteur en dimension 2.
Dans la pratique, à échantillon fini, on estime la moyenne
du processus à l’aide de la
PT
−1
moyenne empirique de la série, définie par X̄T = T
t=1 Xt . La fonction d’autocovariance
d’un processus au retard k est estimée par la fonction d’autocovariance empirique, γ̂(.),
définie, pour 0 ≤ k < T , par :
T −k
1X
(Xt − X̄T )(Xt+k − X̄T ).
γ̂(k) =
T t=1
(2.4)
On remarque que γ̂(k) est divisée par le nombre total d’observations T , et non pas par
T − k. Par conséquent, cet estimateur est biaisé mais la matrice de variance-covariance
12
estimée Γ̂ = [γ̂(i − j)]i,j=1,...,T , calculée à partir de cet estimateur, est alors définie positive
et inversible.
De même, l’ACF est estimée par l’ACF empirique, notée ρ̂(.) et définie, pour 0 ≤ k < T ,
par :
γ̂(k)
.
(2.5)
ρ̂(k) =
σˆXt σXˆt+k
On remarque également que la matrice de corrélation estimée, R̂ = [ρ̂(i − j)]i,j=1,...,T , est
définie positive.
2.2.0.2
Domaine spectral
Dans ce paragraphe, on effectue quelques rappels sur l’analyse spectrale d’un processus
stationnaire et on présente en détail les instructions RATS correspondantes. Pour une
présentation fouillée des différentes techniques d’analyse spectrale, on se référe à la monographie de Priestley (1981).
On considère toujours le trajectoire finie X1 , . . . , XT , issue du processus stationnaire
(Xt )t∈Z , de covariance notée γ. La densité spectrale f de ce processus est définie comme
étant la transformée de Fourier de la fonction d’autocovariance du processus, i.e., pour
toute fréquence λ appartenant à l’intervalle [0, 2π[ :
∞
1 X
γ(k)e−iλk .
f (λ) =
2π k=−∞
(2.6)
Le principal outil d’analyse dont on dispose pour estimer empiriquement la densité spectrale théorique du processus est le périodogramme IT , défini sur l’intervalle [0, 2π[ par:
2
T
1 X −iλt IT (λ) =
e
Xt ,
(2.7)
2πT t=1
En général, on considère des processus centrés pour lesquels la moyenne empirique est
nulle. On note que, dans la pratique, les fréquences λ sur l’intervalle [0, 2π[ sont remplacées par les fréquences de Fourier, λj , définies, pour j = 0, . . . , T −1, par : λj = 2πj/T .
2.3
Comment identifier un processus candidat ?
L’ACF fournit une mesure de la persistence ou de la mémoire du processus. A partir
de cette information, nous allons chercher quel type de processus permet de reproduire
2.3. COMMENT IDENTIFIER UN PROCESSUS CANDIDAT ?
13
cette persistence. Nous allons caractériser trois de types de mémoire : mémoire longue,
mémoire courte et sans mémoire.
Il existe des processus sans mémoire, pour lesquels la v.a. à la date t, Xt , n’est pas corrélée
aux v.a. aux dates précédentes Xt−1 , Xt−2 , . . .. Ce sont les processus de type bruit blanc
faible définis ci-dessous.
Definition 2.3.1 Un processus d’ordre 2 (εt )t∈Z est un processus bruit blanc faible si :
(i) ∀t, E(εt ) = 0
(ii) ∀t,∀s, E(εt εs ) = σε2 × I[t=s]
où I(.) est la fonction indicatrice.
On généralisera la notion de bruit blanc faible à celle de bruit blanc fort en posant que
(εt )t∈Z est un processus bruit blanc fort si (εt )t∈Z est un processus indépendant. C’est
à dire que la v.a. à la date t, εt , est indépendante de toute v.a. à la date s 6= t, εs .
Un processus bruit blanc fort est un processus bruit blanc faible, mais, en général, un
processus bruit blanc faible n’est pas un processus bruit blanc fort (la non-corrélation
n’implique pas l’indépendance). Par contre, un processus bruit blanc faible Gaussien est
un processus bruit blanc fort.
Le processus bruit blanc est le processus de base à partir duquel tous les processus stochastiques sont définis. Le dénomination de bruit vient du fait que ce processus ne contient
aucune information, l’information étant représentée par l’auto-corrélation. Ainsi, aucun
signal déterministe ne peut être extrait de ce processus. L’objectif de toute tentative de
modélisation statistique étant d’extraire le signal afin qu’il ne reste que le bruit dans les
résidus du modèle. La qualité d’un modèle statistique de série chronologique se mesure, en
partie, au fait que les résidus forment un bruit blanc. L’adjectif blanc vient de l’analogie
avec la lumière blanche pour laquelle le spectre est constant pour toute fréquence, ce qui
est le cas d’un bruit blanc pour lequel on montre que la densité spectrale est égale à
σε2
pour toute fréquence λ.
fε (λ) = 2π
Il existe également des processus dont l’ACF est géométriquement bornée et décroit rapidement vers zéro, on parle alors de processus à mémoire courte. C’est le cas des processus
de type ARMA.
Definition 2.3.2 Un processus est dit à mémoire courte s’il possède une ACF, ρ(k), telle
que :
ρ(k) ≤ Cr−k , → ∞,
(2.8)
où C > 0, 0 < r < 1 et k = 1, 2, . . ..
Les processus ci-dessous sont des exemples de processus à mémoire courte.
14
Exemple 2.1 Un processus moyenne-mobile d’ordre 1, de la forme suivante :
Xt = εt + θεt−1
où εt est un processus bruit blanc faible, est un processus à mémoire courte. En général,
pour des raisons d’inversibilité et d’indentifiabilité le paramètre θ est tel que : |θ| < 1.
Pour ce processus, on montre que E(Xt ) = 0, et que ρ(1) = θ et ρ(k) = 0 si k > 1.
Exemple 2.2 Un processus autoregressif d’ordre 1, de la forme suivante :
Xt − φXt−1 = εt
où εt est un processus bruit blanc faible, est un processus à mémoire courte. En général,
pour des raisons d’inversibilité et de stationnarité (voir ci-après), le paramètre φ est tel
que : |φ| < 1. Pour ce processus, on montre que E(Xt ) = 0, et que r(1) = φ et r(k) = 0
si k > 1.
Enfin, si l’ACF est non nulle pour des retards élevés, en pratique de l’ordre de k ≥ 20, on
dit que le processus est fortement persistent. Plus formellement, on parle de processus à
mémoire longue lorsque l’ACF du processus, ρ(k), décroît comme une fonction puissance
de k.
Definition 2.3.3 Un processus est dit à mémoire longue s’il possède une ACF, ρ(k), qui
est approchée comme suit:
ρ(k) ∼ Ck −α quand k → ∞,
(2.9)
où ∼ représente l’équivalence asymptotique, où C > 0 est une constante et où α est un
réel appartenant à l’intervalle ]0, 1[.
On
P∞remarque alors que la série des autocorrélations est absolument divergente, i.e. :
k=0 |ρ(k)| = ∞. Les processus intégrés fractionnaires de type FARIMA (ou ARFIMA)
permettent de reproduire ce fait stylisé.
Exemple 2.3 Le processus fractionnaire intégré introduit par Hosking (1980) et Granger
et Joyeux (1981) de la forme suivante :
(I − B)d Xt = εt
où B est l’opérateur retard tel que B(Xt ) = Xt−1 et B k (Xt ) = Xt−k et d est un réel
fractionnaire tel que 0 < d < 1, est un processus à mémoire longue.
On remarque également, sans s’étendre sur le sujet que la mémoire des processus se
retrouve également dans les caractéristiques de la densité spectrale du processus. Ainsi,
la densité spectrale d’un processus bruit blanc est une constante et celle d’un processus
longue mémoire tend vers l’infini lorsque les fréquences tendent vers zéro.
2.4. NON INDÉPENDANT, MAIS IDENTIQUEMENT DISTRIBUÉ ?
2.4
15
Non indépendant, mais identiquement distribué ?
Ainsi, en général dans le cas des séries chronologiques, la fameuse hypothèse i.i.d. ne peut
plus être effectuée, à cause de la dépendance temporelle du processus (hormis le processus
bruit blanc fort). Qu’en est-il de l’hypothèse relative à l’identité de la loi de distribution
? En fait, cette hypothèse est nécessaire dans l’étude des processus stochastiques, car on
va se reposer dessus pour rendre possible la plupart des calculs. On introduit ci-dessous
la notion de processus fortement stationnaire ou stationnaire au sens strict.
Definition 2.4.1 Un processus (Xt )t∈Z est dit fortement stationnaire si, ∀t1 , . . . , tn ∈ Z,
∀k ∈ Z et n = 1, 2, . . ., la loi du vecteur (Xt1 , . . . , Xtn ) est identique à la loi du vecteur
(Xt1 +k , . . . , Xtn +k ), i.e. toutes les lois de dimension finie du processus sont identiques.
En particulier, pour un processus fortement stationnaire les variables Xt , ∀t, sont identiquement distribuées. Un processus particulier, que l’on retrouve souvent en statistique,
est le processus Gaussien pour lequel toutes ses lois de dimension finie sont Gaussiennes.
En pratique, cette hypothèse de stationnarité forte ne peut pas être testée à l’aide de la
trajectoire. On introduit donc une condition de stationnarité moins restrictive qui pourra
être testée à partir des observations.
Definition 2.4.2 Un processus du second ordre (Xt )t∈Z est dit faiblement stationnaire si
:
(i) la moyenne du processus est constante au cours du temps,
i.e. : pour tout t ∈ Z, E(Xt ) = µ,
(ii) la covariance du processus est invariante au cours du temps,
i.e. : pour tout t ∈ Z et k ∈ Z, γ(k) ne dépend que de k.
Un processus faiblement stationnaire est également appelé stationnaire au second ordre,
stationnaire en covariance ou stationnaire. Si le processus est faiblement stationnaire,
l’espérance de chaque variable est identique et on peut alors l’estimer par la moyenne
empirique X̄T . Ainsi, on peut centrer tout processus stationnaire en lui retranchant sa
moyenne empirique.
Remarque 2.2 Un processus fortement stationnaire est faiblement stationnaire, l’inverse
n’étant généralement pas vrai. Un contre-exemple est le processus Gaussien pour lequel
les deux types de stationnarités sont équivalents.
La stationnarité d’un processus permet ainsi d’estimer les moments non conditionnels de
la v.a. XT +h en utilisant les moments empiriques à partir du processus (X1 , . . . , XT ).
Ainsi, on peut utiliser comme prédicteur naturel de XT +h un estimateur de l’espérance
non P
conditionnelle E(XT +h ), en particulier la moyenne empirique, i.e. : X̂T +h =
PX̄T =
T −1 Tt=1 Xt . Ainsi, la prévision est alors obtenue, pour tout h, par x̂T (h) = T −1 Tt=1 xt .
De même, on peut utiliser comme prédicteur de XT +h d’autres statistiques qui estiment la
16
position centrale de la distribution non conditionnelle tels que la médiane et le mode, i.e.
: X̂T +h = M ed(X1 , . . . , XT ) ou X̂T +h = M ode(X1 , . . . , XT ). Toutefois, on se rend compte
que cette prévision est extrêmement grossière car, pour n’importe quel horizon h > 0, le
prédicteur est identique, illustrant ainsi que la dynamique du processus n’est pas prise en
compte dans ce type de prédicteur. Bien que dans certains cas ce type de prédicteur peut
être utile en pratique, nous allons chercher à développer des méthodes statistiques visant
à renforcer les qualités du prédicteur par intégration de la dynamique du processus.
2.5
Comment caractériser la qualité d’un prédicteur ?
En statistique, les propriétés qui caractérisent un "‘bon"’ estimateur d’une valeur est
le fait d’être sans biais et de variance minimale. Dans le cas de la variable X̂T (h), le
prédicteur à la data T pour l’horizon h (h > 0) de XT +h , on introduit la variable d’erreur
de prévision à l’horizon h définie par :
eT +h = XT +h − X̂T (h)
(2.10)
La caractéristique principale d’un "‘bon"’ prédicteur X̂T (h) est de minimiser cette erreur
de prévision au sens d’un certain critère. Généralement, 3 critères d’erreur de prévision à
l’horizon h sont retenus : l’erreur moyenne (ME, Mean Error), absolue moyenne (MAE,
Mean Absolute Error) et quadratique moyenne (MSE, Mean Squared Error).
M RE = E(eT +h )
(2.11)
M AE = E(|eT +h |)
(2.12)
M SE = E(e2T +h )
(2.13)
Evidemment, une mesure de ces critères nécessite la connaissance de la réalisation xT +h
de la v.a. XT +h et ne peut donc se faire qu’a posteriori.
En généralisant l’erreur de prévision au temps T précédente à l’ensemble des temps, on
introduit le processus d’erreur de prévision (et+h )t∈Z tel que : et+h = Xt+h − X̂t (h), pour
tout t ∈ Z et tout h > 0.
2.6
Prévision par processus linéaires
Les processus linéaires sont particulièrement bien adaptés pour la prévision des séries
chronologiques car ils permettent d’utiliser de manière optimale l’information contenue
dans le processus sous la forme d’autocorrélation linéaire.
2.6. PRÉVISION PAR PROCESSUS LINÉAIRES
17
Definition 2.6.1 Un processus (Xt )t∈Z est un processus linéaire s’il admet une décomposition de la forme suivante, ∀t ∈ Z :
∞
X
Xt =
ai εt−i ,
(2.14)
i=−∞
où :
P∞
(i) les coefficients (ai )i sont absolument sommables, i.e.:
i=−∞ |ai | < ∞,
(ii) (εt )t est un processus bruit blanc fort.
En fait, la justification de l’utilisation extensive en prévision des processus linéaires
provient du théorème de Wold (1938) qui montre que tout processus fortement stationnaire peut s’écrire sous la forme d’un processus linéaire.
Trivialement, un processus non linéaire P
est un processus qui ne vérifie pas la définition
??. Par exemple, un processus tel que ∞
i=−∞ |ai | = ∞ n’est pas linéaire. Ce type de
processus est connu comme étant un processus fractionnaire à mémoire longue (voir Ferrara, 2000, et Ferrara et Guégan, 2002). Autre exemple, un processus de la forme ?? mais
tel que (εt )t est un processus bruit blanc faible n’est pas linéaire. Les processus de type
GARCH appartiennent à cette dernière catégorie.
Si on observe une trajectoire (x1 , . . . , xT ) que l’on suppose engendrée par une processus
linéaire (Xt )t∈Z , on connait alors le meilleur prédicteur X̂T (h), au sens de la plus faible
erreur quadratique moyenne. On note IT l’ensemble d’information apporté par les variables (X1 , . . . , XT ), qui est en terme probabiliste la σ-algèbre engendrée par les T v.a..
On note MT le sous-espace vectoriel fermé engendré par les variables (X1 , . . . , XT ), muni
du produit scalaire hXt , Xt0 i = E(Xt Xt0 ). La norme issue du produit scalaire est la norme
L2 , notée k.k2L2 .
Proposition 2.2 Le prédicteur X̂T (h) qui minimise l’erreur quadratique moyenne (MSE)
est le prédicteur des moindres carrés définie par :
X̂T (h) = E(XT +h |IT ),
soit :
X̂T (h) = arg min kXT +h − Y k2L2 ,
Y ∈MT
(2.15)
On se réfère à Priestley (1981) et à Brockwell et Davis (1987) pour une preuve de cette
proposition.
Definition 2.6.2 On définit le processus d’innovation (t )t d’un processus (Xt )t∈Z comme
étant l’écart entre la variable Xt au temps t et sa projection sur l’espace vectoriel engendré
par les variables jusqu’au temps (t-1), i.e.:
t = Xt − E(Xt |It−1 )
18
On montre que le processus d’innovation d’un processus stationnaire est un bruit blanc
et qu’un processus bruit blanc est son propre processus d’innovation.
Dans le cas d’un processus linéaire, on montre alors facilement que l’erreur de prévision
eT +h est d’espérance nulle, E(eT +h ) = 0, et de variance telle que :
E(e2T +h )
=
σε2
h−1
X
a2i ,
(2.16)
i=0
avec a0 = 1. Par conséquent, sous l’hypothèse supplémentaire de connaissance de la loi
du processus d’erreur de prévision, on peut calculer un intervalle de confiance pour la
prévision. Par exemple, dans la cas d’un processus Gaussien, on obtient l’intervalle de
confiance suivant pour XT +h , au niveau de confiance 1 − α :
v
u h−1
uX
XT +h ∈ [X̂T (h) ± t1−α/2 σε t
a2i ],
(2.17)
i=0
où t1−α/2 est le quantile de la loi d’ordre 1 − α.
Remarque 2.3 On suppose ici que les paramètres du processus sont connus mais en
pratique on utilise les valeurs des paramètres estimés, sans toutefois rajouter d’incertitude
sur le prédicteur due à la variabilité des estimateurs.
2.7
Prévision de la densité de distribution
Dans l’intervalle de confiance précédent, la variance de l’erreur de prévision est constante
au cours du temps. Or, il existe de nombreux exemples pour lesquels la variance de l’erreur
de prévision que l’on commet peut varier au cours du temps. Ainsi, en économie, il plus
facile d’eefectuer des prévisions lorsqu’on se trouve en période forte croissance plutôt qu’un
période de retournement conjonturel. De même, la volatilité sur les marchés financiers
évolue au cours du temps : il existe des agrégats de volatilité. On peut alors logiquement penser que, de manière analogue à l’espérance conditionnelle qui est le meilleur
prédicteur de XT +h au sens du MSE, la variance conditionnelle de XT +h sachant IT , notée
V (XT +h |IT ), peut être un meilleur prédicteur que la variance non conditionnelle de XT +h ,
au sens d’un certain critère, car elle va tenir compte de la dynamique du processus. La
variance étant une mesure du risque associé à la prévision, cela peut être intéressant de
pouvoir gérer au mieux ce risque. Ainsi, il existe différentes mesures de la variance (voir
RiskMetrics). En particulier, les processus de type GARCH vont permettre une modélisation et une prévision de la variance conditionnelle d’une série.
2.8. IMPORTANCE DE L’HORIZON DE PRÉVISION
19
De même, en généralisant aux moments supérieurs conditionnels, la loi conditionnelle
de la v.a. XT +h sachant le passé du processus jusqu’au temps T , notée L(XT +h |IT ),
apparaît jouer un rôle fondamental au niveau de la prévision. Pour un processus fortement
stationnaire, la loi conditionnelle à tout instant intègre la mémoire du processus et permet
ainsi une appréciation plus précise que la loi non conditionnelle ou loi historique à un
instant donné. En effet cette dernière n’intégre pas l’information passée. Par exemple, la
VaR (Value at Risk) peut être estimée à partir de la loi conditionnelle du processus. On
oppose alors la VaR historique et la VaR conditionnelle. Les méthodes de rééchantillonage
de type Bootstrap permettent une estimation de la loi conditionnelle L(XT +h |IT ).
2.8
Importance de l’horizon de prévision
Quel horizon de prévision ? Court, moyen ou long terme ? Si le processus est stationnaire,
on montre que la loi de distribution conditionnelle converge vers la loi de distribution non
conditionnelle lorsque l’horizon tend vers l’infini, ie:
h→∞
L(XT +h |IT ) → L(X1 )
(2.18)
Seule la vitesse de convergence différe en fonction de la mémoire de processus. Plus la
mémoire d’un processus est courte, plus la vitesse de convergence est grande, et inversement.
Ainsi, lorsqu’on utilise en prévision un processus ARMA, il est particulièrement recommandé que l’horizon soit de très court terme (h = 1 ou h = 2). En effet, ce type de
processus étant à mémoire courte, au bout de quelques pas le prédicteur va être égal à la
moyenne non conditionnelle de la série, ce qui est très peu informatif et toujours décevant
pour un praticien. Ainsi, le prédicteur retourne vers la moyenne non conditionnelle très
rapidement. Si l’on désire effectuer des prévisions sur un horizon de plus long terme, les
processus à mémoire longue fournissent une alternative plus intéressante (évidemment si
la persistance est présente dans la série).
Exemple 2.4 On considère un processus autoregressif stationnaire d’ordre 1, de moyenne
nulle, de la forme suivante :
Xt − φXt−1 = εt
où εt est un processus bruit blanc faible et le paramètre φ est tel que : |φ| < 1. Pour tout
t, le prédicteur à l’horizon h = 1, noté X̂t (1) est donné par
X̂t (1) = E(Xt+1 |It ) = φE(Xt |It ) + E(εt+1 |It ) = φXt .
De même, pour tout h > 0, on montre que :
X̂t (h) = phih Xt .
20
Ainsi, lorsque h → ∞, X̂t (h) converge vers son espérance non-conditionelle E(Xt ) (égale
à 0 ici). La vitesse de convergence est ici inversement proportionnelle à la valeur du
paramètre autorégressif φ.
Chapter 3
Exemple d’analyse sous RATS
Dans ce chapitre, nous présentons les instructions RATS nécessaires à la mise en oeuvre
de l’analyse des séries chronologiques. Une telle analyse doit être systématiquement effectuée, prélablement à la modélisation de la série. Les détails des quelques définitions
et propositions énoncées ci-dessous, ainsi que leurs démonstrations, se trouvent dans les
livres traitant de l’analyse des séries chronologiques, tels que les ouvrages de Box et Jenkins (1970), Brockwell et Davis (1987), Box, Jenkins et Reinsel (1994) ou Hamilton (1994).
Dans la suite de ce document, on suppose qu’on observe une suite finie de valeurs réelles,
notée X1 , . . . , XT . On considère cette suite finie de valeurs, de longueur T , comme étant
la réalisation d’un processus (Xt )t∈Z du second ordre (i.e. : E(Xt2 ) < ∞), et on l’appelle
la trajectoire du processus. Dans la pratique, on observe uniquement cette trajectoire, et
on l’utilise pour faire de l’inférence statistique sur le processus sous-jacent à cette série
observée. Il importe donc d’analyser correctement la trajectoire, préalablement à toute
tentative de modélisation. Dans un premier temps, on s’intéresse à une analyse temporelle
d’une série, puis, dans un second temps, à une analyse spectrale.
Afin d’illustrer ce chapitre, on considère la série chronologique mensuelle du taux de
change du Dollar Canadien contre le Dollar US, contenue dans le fichier candata.rat,
sous le nom de canusxsr. Cette série commence au mois de janvier 1960 et finit au mois
de mars 1990. L’import des données dans RATS se fait à l’aide des commandes suivantes :
calendar 1960 1 12
all 90:03
open data ’candata.rat’
data(format=rats) / canusxsr
Le graphe de cette série présenté sur la Figure 1.1 est obtenu à l’aide de la commande
suivante :
21
22
CHAPTER 3. EXEMPLE D’ANALYSE SOUS RATS
Figure 3.1: Taux de change mensuel Canadian Dollar / US Dollar, de janvier 1960 à mars
1990 (série canusxsr).
graph(header="Taux de change Canadian Dollar / US Dollar",key=lol)
# canusxsr
3.1
Analyse temporelle
On propose dans ce paragraphe, d’effectuer quelques rappels sur l’analyse temporelle d’une
série chronologique, et de présenter les instructions RATS permettant de mettre en oeuvre
cette analyse.
Le logiciel RATS permet d’obtenir l’autocovariance empirique, l’ACF empirique et la
PACF empirique à l’aide de la même instruction correlate. Cette instruction s’utilise
de la manière suivante :
correlate(options) série début fin acfsérie
où acfsérie est le nom que l’on donne à la série des autocorrélations ou des autocovariances. L’option covariances permet d’obtenir l’autocovariance au lieu de l’ACF (par
défaut nocovariances) et l’option partial= permet d’obtenir la PACF. De plus, l’option
par défaut print affiche les séries en sortie et l’option number permet de fixer le nombre
maximum de retards.
Par exemple, on s’intéresse à nouveau à la série canusxsr. Plus particulièrement, on
s’intéresse à la série des rendements de cette série, définie par Rt = log(Xt ) − log(Xt−1 ),
où Xt est la valeur de la série du taux de change au temps t. Ce type de transformation
est classique dans l’analyse des séries financières. On obtient et on trace cette série (voir
Figure 1.3), que l’on appelle ret, à l’aide des commandes suivantes :
set ret = log(canusxsr)-log(canusxsr{1})
graph
# ret
On obtient les 10 premières valeurs de l’ACF et la PACF de la série des rendements à
l’aide de la commande suivante :
3.1. ANALYSE TEMPORELLE
23
Figure 3.2: Rendements de la série du taux de change mensuel Canadian Dollar / US
Dollar, de janvier 1960 à mars 1990 (série ret).
Figure 3.3: ACF empirique de la série des rendements mensuels du taux de change Canadian Dollar / US Dollar.
corr(number=10,partial=retpacf) ret / retacf
Les résultats suivants s’affichent alors sur la fenêtre d’output :
Correlations of Series RET
Monthly Data From 1960:02 To 1990:03
Autocorrelations
1: -0.0529340 -0.0742793 0.0610969 0.0309579 0.0703153 -0.0144331
7: -0.0224910 0.1140178 0.0385587 0.0326157
Partial Autocorrelations
1: -0.0529340 -0.0772979 0.0532358 0.0318610 0.0832107 -0.0047441
7: -0.0164537 0.1018877 0.0451163 0.0520415
On peut tracer l’ACF empirique de la série ret, pour un retard maximum de k = 100, de
la manière suivante (voir Figure 1.4) :
corr(noprint,number=100) ret / retacf
graph(nodates,style=bar,header="ACF")
# retacf
Dans le Chapitre 2, nous verrons que l’instruction correlate permet également de tester
la nullité de l’ACF et de la PACF aux différents retards et de tester la non corrélation
d’une série à l’aide du test "Portmanteau" de Ljung-Box.
Les quatre premiers moments de la série sont renvoyés par l’instruction statistics, qui
permet ainsi de calculer le skewness (%skewness) et la kurtosis (%kurtosis), respectivement définis par :
T2
m3
Sk =
,
(3.1)
(T − 1)(T − 2) s3
et
T2
(T + 1)m4 − 3(T − 1)m22
Ku =
,
(T − 1)(T − 2)(T − 3)
s4
(3.2)
24
où s est l’écart-type empirique non biaisé tel que :
T
X
1
(Xt − X̄)2 ,
s =
(T − 1) t=1
2
(3.3)
et le moment d’ordre k, mk , est défini par :
T
1X
mk =
(Xt − X̄)k .
T t=1
(3.4)
On note que la valeur de la variance empirique s2 est légérement différente de la valeur
de l’autocovariance empirique au retard k = 0 donnée par l’équation (1.3), car le dénominateur est différent ((T −1) pour la variance empirique et T pour la covariance empirique).
3.2
Analyse spectrale
Dans ce paragraphe, on effectue quelques rappels sur l’analyse spectrale d’un processus
stationnaire et on présente en détail les instructions RATS correspondantes.
RATS permet d’estimer la densité spectrale d’un processus à l’aide de la procédure
spectrum, contenue dans le fichier SPECTRUM.SRC fourni par Estima. Pour pouvoir
utiliser cette procédure, il est donc nécessaire d’importer cette procédure dans la session
RATS, à l’aide de l’instruction source. Cette procédure s’utilise de la manière suivante :
@spectrum(options) série début fin
Cette procédure utilise la méthode du périodogramme lissé, qu’on se propose de détailler
maintenant.
Le principal outil d’analyse dont on dispose pour estimer empiriquement la densité spectrale théorique du processus est le périodogramme IT , défini sur l’intervalle [0, 2π[ par:
2
T
X
1 −iλt
e
Xt ,
IT (λ) =
2πT t=1
(3.5)
En général, on considère des processus centrés pour lesquels la moyenne empirique est
nulle. On note que, dans la pratique, les fréquences λ sur l’intervalle [0, 2π[ sont remplacées par les fréquences de Fourier, λj , définies, pour j = 0, . . . , T −1, par : λj = 2πj/T .
3.2. ANALYSE SPECTRALE
25
RATS permet de traiter des séries à valeurs dans le plan complexe, ce qui autorise le calcul du périodogramme, de manière simple, à l’aide de la Transformée de Fourier Rapide
(Fast Fourier Transform) que l’on calcule à l’aide de l’instruction fft. Par exemple, les
commandes suivantes permettent de calculer le périodogramme sur l’intervalle [0, π], et
les fréquences de Fourier correspondantes, pour les résidus de la série canusxsr, traitée
dans le paragraphe précédent, du mois de janvier 1960 au mois de décembre 1989 (voir
Figure 1.5). Le graphe de cette série des résidus, notée resids est présentée sur le bas de
la Figure 1.2.
smpl 60:01 89:12
linreg canusxsr / resids
# constant date
sta resids
com nn = %nobs/2+1
* Calcul des fréquences de Fourier sur [0,2pi[
set freqs 1 %nobs = 2*%pi*(t-1.0)/%nobs
* Calcul du périodogramme
frequency 1 %nobs
rtoc 60:01 89:12 1
# resids
# 1
fft 1
cmult(scale=1.0/(2.0*%pi*%nobs)) 1 1
ctor 1 nn 1
# 1
# periodo
scatter(sty=lines,header=’Periodogramme de la serie:resids’) 1
# freqs periodo 1 nn
smpl
On note que la valeur du périodogramme pour la fréquence zéro est nulle, car la moyenne
empirique des résidus est égale à zéro. De plus, on observe que le périodogramme augmente lorsque les fréquences tendent vers zéro. Ce phénomène a été observé en premier
par Granger (1966) et est présent dans de nombreuses séries à caractère économique. Une
manière de modéliser ce phénomène est présentée dans le Chapitre 3 de ce document.
Les deux principales propriétés du périodogramme en tant qu’estimateur de la densité
spectrale sont les suivantes :
1. il est asymptotiquement sans biais
26
2. il est non-consistant :
lim Cov(IT (λ), IT (λ0 )) = 0 si λ 6= λ0 ,
(3.6)
(
f 2 (λ) si λ ∈ [0, 2π[−{0, π},
limT →∞ V ar(IT (λ)) =
2f 2 (λ) si λ ∈ {0, π}.
(3.7)
T →∞
et
Il importe donc de chercher à améliorer les performances du périodogramme en tant
qu’estimateur de la densité spectrale. Nous présentons rapidement deux techniques classiquement utilisées dans l’analyse spectrale des séries chronologiques afin d’améliorer cette
estimation : la méthode de l’effilage des données (dite du "tapering") et l’utilisation d’un
périodogramme lissé. L’instruction spectrum permet d’utiliser en option ces deux techniques.
La méthode de l’effilage des données permet d’améliorer la précision du périodogramme
dans l’estimation de la densité spectrale, en particulier, cette méthode permet de réduire le
"leakage effect", que l’on peut traduire en français par l’effet de perte. Cet effet intervient
lorsque la densité spectrale possède un ou plusieurs pics. A ce moment-là, les autres
valeurs estimées de la densité spectrale sont surélevées par rapport à leurs vraies valeurs.
La méthode de l’effilage des données se fait à l’aide d’une transformation préliminaire
sur les données. On remplace alors l’échantillon initial X1 , . . . , XT par l’échantillon effilé
suivant : h1 X1 , . . . , hT XT , où (ht )t=1,...,T est une suite convenable de constantes. RATS
propose deux suites (ht )t=1,...,T différentes : une suite dite trapézoidale, qui vaut 1 pour la
partie centrale de la série et décroît linéairement vers zéro pour les m premières et dernières
valeurs de la série, et une suite dite de cloche en cosinus ("cosine bell"), respectivement
définies de la manière suivante :
• Suite Trapézoidale :


si 1 ≤ t ≤ m,
t/m
h(t) = 1
si m + 1 ≤ t ≤ T − m,


(T − t + 1)/m) si T − m + 1 ≤ t ≤ T ,
• Suite en Cosinus :


si 1 ≤ t ≤ m,
0.5(1 − cos(πt/m))
h(t) = 1
si m + 1 ≤ t ≤ T − m,


0.5(1 − cos(π(T − t + 1)/m)) si T − m + 1 ≤ t ≤ T ,
(3.8)
(3.9)
3.2. ANALYSE SPECTRALE
27
Figure 3.4: Périodogramme lissé de la série des résidus resids.
Le paramètre m tel que 1 ≤ m ≤ T permet de contrôler la proportion de la série sur
laquelle on effectue la transformation. Lorsqu’on utilise l’instruction spectrum, l’option
taper=trapezoidal permet d’utiliser une suite trapézoidale et l’option taper=cosine
permet d’utiliser une suite en cosinus. L’option par défaut taper=cosine n’effile pas les
données. L’option permet wtaper permet de donner une valeur au paramètre m, en tant
que fraction de la taille d’échantillon T . Par défaut, cette valeur est de 0.25.
Une expression du périodogramme effilé est alors donnée par l’équation suivante:
2
T
X
1
tap
−iλt
e
ht Xt .
(3.10)
IT (λ) =
PT
2 2π t=1 ht t=1
Le périodogramme lissé, que l’on note fL (λ), correspond à moyenne mobile centrée pondérée
du périodogramme. fL (λ) est donné par l’équation suivante:
1
fL (λj ) =
2π
(m−1)
X
WT (h)IT (λj+h ),
(3.11)
h=−(m−1)
où IT (λj ) est le périodogramme pour la fréquence de Fourier λj , et où m est un entier
positif ou nul qui contrôle la longueur de la moyenne mobile. Lorsque m = 1, on remarque
alors que le périodogramme lissé est le périodogramme brut. Pour cette moyenne mobile,
il existe de nombreuses suites de poids (WT (h))h , proposées par des statisticiens célèbres
(Bartlett, Parzen, Blackman-Tukey, Daniell, ...) et on renvoie au chapitre 6 du livre de
Priestley (1981) pour une discussion approfondie sur ce sujet.
La procédure spectrum propose deux suites de poids différentes, pour h = −m+1, . . . , −1, 0, 1, . . . , m−
1. L’option par défaut window=flat utilise la suite définie par :
WT (h) = 1,
(3.12)
et l’option window=tent utilise la suite définie par :
WT (h) = T − |h|.
(3.13)
RATS standardise automatiquement ces poids, de manière à ce que la somme soit égale à 1.
L’instruction spectrum contrôle le lissage par l’intermédiaire de l’option width. La valeur
de l’entier, obligatoirement impair, affectée à width permet de contrôler la longueur de la
28
moyenne mobile utilisée, de la manière suivante : m = (width + 1)/2. Ainsi, si width=1,
alors m = 1, et le périodogramme lissé est le périodogramme brut. L’option width=0.75
T1/2 , est l’option par défaut dans l’instruction spectrum.
Enfin, il est important de noter que l’instruction spectrum ne renvoie pas la valeur exacte
du périodogramme calculé, mais son logarithme.
La commande suivante permet d’obtenir et de tracer un estimateur de la densité spectrale
de la série resids (voir figure ??).
@spectrum(taper=none,window=tent,header=’Log-periodogramme lisse
de la serie:resids’) resids 60:01 89:12
3.3
Filtrage
A l’image de la série du taux de change précédente, de nombreuses séries chronologiques,
en économie et en finance possédent une tendance, croissante ou décroissante. La série est
alors non stationnaire (voir chapitre suivant pour les différents types de non stationnarité).
Il est souvent utile de retrancher cette tendance de long terme qui peut masquer certains
effets conjoncturels, en particulier cycliques. L’économétrie fourmille de méthodes de décomposition tendance-cycle, de type Hodrick-prescott, Beveridge-Nelson, Baxter-King, ...
En pratique, il est relativement difficile de savoir quelle est la bonne méthode à utiliser,
chacune ayant des défauts et des qualités (voir Gay et Saint-Amand, 1997).
Le filtre HP permet de décomposer une série (Xt ) en deux composantes orthogonales,
la tendance (Tt ) et le cycle (Ct ). La méthode consiste à minimiser la variance cyclique
pénalisée, ie :
X
X
T̂t = arg min
(Xt − Tt )2 + λ
{(Tt+1 − Tt ) − (Tt − Tt−1 )}2
(3.14)
t
t
La paramètre λ permet de régler l’importance raltive des deux termes à minimiser. Au
plus λ est élevé, au plus la composante tendancielle est lisse. Lorsque λ tend vers l’infini,
la tendance approche une droite linéaire. Pour des données trimestrielles, il généralement
conseillé de prendre λ = 1600. Une estimation du cycle (appelé cycle de croissance)
est donnée par Ĉt = Xt − T̂t . Avec RATS, un filtrage HP est obtenu à l’aide la fonction @hpfilter.src. De même, un filtrage Baxter-King est obtenu à l’aide la fonction
@bpfilter.src.
Une approche triviale peut être de considérer que cette tendance est linéaire. D’un point
de vue technique, il suffit d’effectuer une régression linéaire sur la tendance. D’une manière
3.3. FILTRAGE
29
générale, avec RATS, l’opération de régression linéaire sur des variables exogènes se fait à
l’aide de l’instruction linreg. Les commandes suivantes permettent d’ajuster une droite
à la série canusxsr et d’obtenir la série estimée (canusxsrhat) et les résidus (resids).
set date = t
linreg canusxsr / resids
# constant date
prj canusxsrhat
En sortie, on obtient les résultats suivants sur la régression effectuée :
Linear Regression - Estimation by Least Squares
Dependent Variable CANUSXSR
Usable Observations 363
Degrees of Freedom 361
Centered R**2 0.542319
R Bar **2 0.541051
Uncentered R**2 0.995580
T x R**2 361.395
Mean of Dependent Variable 0.9008063361
Std Error of Dependent Variable 0.0890803141
Standard Error of Estimate 0.0603481431
Sum of Squared Residuals 1.3147253136
Regression F(1,361) 427.7588
Significance Level of F 0.00000000
Durbin-Watson Statistic 0.024915
Variable Coeff Std Error T-Stat Signif
***************************************************************
1. Constant 1.014586647 0.006348023 159.82718 0.00000000
2. DATE -0.000625167 0.000030227 -20.68233 0.00000000
On observe que les paramètres estimés sont significativement différent de zéro, même avec
un risque de première espèce extrêmement faible. En particulier, la pente de la droite
de régression est non-nulle. L’instruction linreg possède différentes options, permettant
par exemple d’obtenir la matrice de variance-covariance des estimateurs (option vcv) ou
d’omettre certaines valeurs de la régression (option smpl). On se référe au manuel fourni
par Estima (Doan, 1992) pour un descriptif complet de ces options.
On peut alors tracer la série canusxsr, la droite de régression et les résidus obtenus, à
l’aide des commandes suivantes :
spgraph(vfields=2)
30
Figure 3.5: Série canusxsr et la tendance linéaire ajustée et la série des résidus.
graph(header=’Serie canusxsr’) 2
# canusxsr
# canusxsrhat
graph(header=’Residus’)
# resids
spgraph(done)
Notons que l’instruction linreg permet d’accéder à plusieurs renseignements relatifs à
l’opération de régression. Ces valeurs (vecteurs et scalaires) sont présentées en page 14144 du guide fourni par Estima. Par exemple, on obtient le vecteur des coefficients par la
commande %beta, le R2 par %rsquared et la somme des carrés des résidus par %rss.
Figure 4.1: Evolution de l’indice CAC40 et des ses rendement journaliers de deécembre 1987 à décembre
2008
Chapter 4
Faits stylisés des séries financières
De nombreuses études empiriques ont souligné que la plupart des séries chronologiques à
caractère financier ont tendance à exhiber des comportements statistiques caractéristiques.
On se propose de lister ces faits stylisés, dont certains pourront être pris en compte par
les processus de type ARCH.
4.1
Non stationnarité
La plupart des séries de prix d’actifs financiers présente une non stationnarité en tendance,
i.e. l’espérance du processus sous-jacent n’est pas constante au cours du temps. En
particulier, les tests de racine unitaire classiques (Dickey-Fuller, Phillips-Perron, KPSS,
...) montrent que l’hypothèse nulle de non stationnarité de la série est acceptée la plupart
du temps. Par conséquent, afin de stationnariser la série, l’étude est menée sur les taux
de croissance ou les log-rendements de la série. Ainsi, si on observe une série (Xt )t=1,...,T ,
la série des taux de croissance est donnée pour tout t par Yt = (Xt − Xt−1 )/Xt−1 et la
série des log-rendements est donnée pour tout t par Rt = log(Xt ) − log(Xt−1 ). Comme
Rt = log(1 + Yt ), les deux expressions sont semblables pour des petites variations. Un
des avantages des log-rendements est que le log-rendement calculé sur plusieurs périodes
consécutives est la somme des log-rendements calculés sur chacune des périodes. C’est
cette série des log-rendements que l’on considère dans la suite de cette partie.
4.2
Non Normalité
Lorsqu’on estime la distribution non conditionnelle d’une série financière (soit par un
histogramme, soit par un estimateur non paramétrique à noyaux), on observe que la
31
32
CHAPTER 4. FAITS STYLISÉS DES SÉRIES FINANCIÈRES
distribution empirique possède des queues de distribution plus épaisses que celles de la
loi Normale. Cela est du à une fréquence plus élevée que ce qu’on pouvait attendre
d’évènements exceptionnels. Une mesure de l’épaisseur des queues est fournie par la kurtosis (un estimateur des moments d’ordre 4) qui est systématiquement supérieure à celle
de la loi Normale (égale à 3). De plus, la dsitribution de nombreux actifs financiers, en
particulier les prix d’actions, n’est pas symétrique. En effet, le moment d’ordre 3 de la
distribution non conditionnelle mesuré par le skewness est souvent négatif. Cela signifie que la queue gauche de la distribution est plus épaisse que la queue droite, i.e. les
forts rendements négatifs ont tendance à se produire plus souvent que les forts rendements positifs. Ainsi, la plupart des tests statistiques d’adéquation (Jarque-Bera, Chi-2,
Kolmogorov-Smirnov, ...) rejettent l’hypothèse nulle de Gaussianité de la distribution non
conditionnele, même avec un très faible risque de première espèce. Or, cette hypothèse
de Normalité est nécessaire pour de nombreux modèles en finance tels que le CAPM ou
le modèle de Black et Scholes.
4.3
Non constance de la variance
On observe que la variance des séries subit une évolution au cours au cours du temps, en
particulier sous l’effet de chocs exogènes tels que les crises financières. Ce fait empirique
avéré remet alors en cause l’hypothèse d’homoscédasticité (variance constante), que l’on
utilise classiquement lors d’une modélisation de série chronologique, en particulier dans
le cas des processus de type ARMA. Il semble donc nécessaire de proposer des modèles
prenant en compte cette hétéroscédasticité.
4.4
Agrégats de volatilité
Non seulement les séries financières ne présentent pas une variance constante au cours du
temps, mais on s’aperçoit également que cette variance évolue également de manière caractéristique. En effet, les séries financières présentent des successions de phases de relative
tranquillité et de phases de forte volatilité. On dit également que les séries présentent des
agrégats de volatilité (volatility clustering).
4.5
Effet de levier
On observe une corrélation négative entre les variations des prix d’actifs et les variations
de la volatilité. Toutefois, il existe une asymétrie sur les marchés dans la mesure où cette
corrélation varie en intensité selon le sens de la variation des prix. En effet, on observe que
la volatilité augmente fortement lorsque les prix baissent fortement (par exemple dans le
cas d’une mauvaise nouvelle économique ou sur la santé financière des entreprises ou dans
4.6. AUTO-CORRÉLATIONS
33
le cas plus général d’une crise financière). En revanche, lors des périodes d’expansion des
prix, la volatilité affiche une plus grande stabilité.
4.6
Auto-Corrélations
Lorsqu’on calcule les autocorrélations des séries financières, on observe une très faible
autocorrélation. Généralement, la série est blanchie par un processus AR(p)où p est
relativement petit (p ≤ 3). Il arrive même souvent que la série soit supposée suivre un
bruit blanc faible (non indépendant). En revanche, les autocorrélations de la série au
carré (Yt2 )t , ou élevée à une certaine puissance (|Yt |
delta)t , présentent une forte persistance.
4.7
Co-mouvements de volatilité
Si on s’intéresse aux indices synthétiques relatifs à des marchés différents (CAC40, FTSE100,
DAX, SP500, ...), on observe des mouvements de volatilité communs aux places financières, du fait d’une forte dépendance entre les marchés. En fait, les mouvements de forte
volatilité s’explique par des facteurs exogènes qui s’appliquent à l’ensemble des places
financières. On parle alors de co-mouvement de volatilité. Le graphique ?? représente les
évolutions mensuelles des 4 principaux indices boursiers de la zone euro (DAX,CAC,MIB
et IBEX). On se rend compte des effets de contagion entre marchés caractérisés par des
baisses et des hausses simultanées. De même, le graphique ?? met en evidence les périodes
communes de forte volatilité sur ces marchés.
4.8
An example
We choose the 4 main European stocks indices, namely the DAX30, CAC40, MIB30 and
IBEX35, that describe the financial activity on the stock markets in Germany, France,
Italy and Spain, respectively. We use monthly data corresponding to the average of closure
values, from January 1988 to September 2008 (see figure ??). As those four series are
clearly non-stationary, we are going to work with the log-returns defined as follows :
i
Yti = (log(Xti ) − log(Xt−1
)) × 100,
where i = 1, 2, 3, 4 and Xti is the index value at date t for the market i. Log-returns are
presented in figure ??. Typically, those series present stylised facts well known in financial
econometrics, that is stationarity in mean, weak auto-correlation, strong kurtosis, negative
skwewness and presence of clusters of volatility indicating a non-constant conditional
variance. Unconditional empirical moments are presented in table ??. To evaluate the
34
Mean
Variance
Skewness
Exc. Kurtosis
JB P-value
QY (5) P-value
DAX
0.718
24.40
-0.824
1.567
0.000
0.000
CAC
0.595
20.67
-0.621
1.048
0.000
0.001
MIB
0.387
36.73
0.274
0.598
0.033
0.809
IBEX
0.631
24.86
-0.377
0.974
0.000
0.001
Table 4.1: Estimates and standard errors of the parameters for the 4 univariate GARCH(1,1) model
applied to the 4 log-returns and the main statistics.
auto-correlation structure and the Gaussianity, we are going to use the statistical tests
based on the Portmanteau and Jarque-Bera statistics respectively given by the following
equations:
k
X
ρ2j
,
(4.1)
Q(k) = T (T + 2)
T −j
j=1
Ku2 Sk 2
+
),
(4.2)
24
6
where T is the sample size, k ∈ N, Ku and Sk denote respectively the excess Kurtosis and
the Skewness, ρj being the autocorrelation function of the series for lag j. Both statistics
(??)-(??) are distributed according to a χ2 distribution function. P-values of thes tests
are presented in table ??.
JB = T (
From table ??, we observe that the series present the stylised facts described previously
except the MIB series that possesses a special pattern in the sense that the empirical
variance is much greater than the 3 others, the skewness is close to zero by positive value,
indicating thus a symmetrical distribution, and the excess kurtosis is also close to zero
implying thus that the tails of the distribution are close to the Gaussian. Because of
those two latter facts, we cannot reject the null of a Gaussian distribution with a type I
risk α = 0.01. Concerning the auto-correlation structure, all the series present short-term
auto-correlation according to the Portmanteau test, except the MIB series that can be
identified to a weak white noise.
Moreover, there is evidence of common movements among the four variables reflecting the
strong financial integration of the markets in the Euro area. This co-movement, sometimes refers to as contagion in some papers, asks for a multivariate approach in modelling.
In order to estimate the conditional variances, we are going to implement various multivariate GARCH specifications presented in previous chapters.
4.8. AN EXAMPLE
35
Figure 4.2: Four European stock indices
Figure 4.3: Log-returns of four European stock indices
36
Chapter 5
Modèles ARMA
Dans ce chapitre, on s’intéresse à la mise en oeuvre d’une modélisation linéaire de série
chronologique par la méthodologie de Box et Jenkins (1970). Dans le premier paragraphe,
nous effectuons quelques rappels sur les processus de type autorégressif moyenne-mobile,
ou ARMA. Dans le deuxième paragraphe, nous détaillons les différentes étapes de la
modélisation et les instructions RATS associées, et le troisième paragraphe contient un
exemple d’application sur une série saisonnière. Enfin, le dernier paragraphe présente la
méthode d’analyse d’intervention de Box et Tiao (1975), qui permet de modéliser l’effet
d’un événement extérieur sur un processus ARMA.
5.1
Introduction aux processus ARMA
On rappelle dans un premier temps la définition d’un processus de type autorégressif
moyenne-mobile, ou ARMA.
Definition 5.1.1 Un processus du second ordre (Xt )t∈Z est défini comme étant un processus ARMA(p, q), s’il est stationnaire et si et seulement si, pour tout t ∈ Z, il vérifie
l’équation aux différences suivante :
φ(B)(Xt − µ) = θ(B)εt ,
(5.1)
où µ est la moyenne du processus, où B est l’opérateur retard tel que, ∀t, BXt = Xt−1 et
pour tout entier b, B b Xt = Xt−b , où φ(z) = I −φ1 z −. . .−φp z p et θ(z) = I +θ1 z +. . .+θq z q
sont deux polynômes et où (εt )t∈Z est un processus bruit blanc centré de variance σε2 .
Si q = 0, on dit que (Xt )t∈Z est un processus AR(p), et si p = 0, on dit que (Xt )t∈Z
est un processus MA(q). Il est important de remarquer la manière dont sont définis les
polynômes φ(z) et θ(z). Nous les avons définis de manière cohérente avec RATS, mais il
arrive souvent que le polynôme θ(z) soit égal à θ(z) = 1 − θ1 z − . . . − θq z q .
37
38
CHAPTER 5. MODÈLES ARMA
On rappelle un résultat relatif aux propriétés de linéarité, de causalité et d’inversibilité.
Proposition 5.1 Soit (Xt )t∈Z un processus ARMA(p, q) défini par la définition ??.
(i) Si le polynôme φ(z) ne s’annule pas sur le cercle défini par |z| = 1, alors le processus (Xt )t∈Z est un processus linéaire stationnaire.
(ii) Si le polynôme φ(z) ne s’annule pas sur le cercle défini par |z| ≤ 1, alors le processus (Xt )t∈Z possède une représentation causale.
(iii) Si le polynôme θ(z) ne s’annule pas sur le cercle défini par |z| ≤ 1, alors le
processus (Xt )t∈Z possède une représentation inversible.
On généralise maintenant la définition ?? au cas des processus ARMA(p, q) intégrés
d’ordre d, ou ARIMA(p, d, q).
Definition 5.1.2 Un processus du second ordre (Xt )t∈Z est défini comme étant un processus
ARIMA(p, d, q), si le processus ((I − B)d Xt )t∈Z est un processus ARMA défini par la
définition ??.
On généralise à nouveau les deux définitions précédentes au cas des processus saisonniers
SARIMA (Seasonal ARIMA).
Definition 5.1.3 Un processus du second ordre (Xt )t∈Z est défini comme étant un processus
SARIMA(p, d, q)(P, D, Q)S , si et seulement si, pour tout t ∈ Z, il vérifie l’équation aux
différences suivante :
φ(B)Φ(B S )(I − B)d (I − B S )D (Xt − µ) = θ(B)Θ(B S )εt ,
(5.2)
où S est la saisonnalité du processus, où d et D sont deux entiers correspondant respectivement aux ordres de différentiation et de différentiation saisonnière, où Φ(z) =
I − Φ1 z − . . . − ΦP z P et Θ(z) = I − Θ1 z − . . . − ΘQ z Q sont deux polynômes, et où µ, φ(z),
θ(z) et (εt )t∈Z sont définis dans la définition ??.
Le logiciel RATS permet de simuler des trajectoires finies engendrées par un processus
ARMA. Par exemple, on s’intéresse au processus centré ARMA(2,1), tel que :
(I − 0.4B − 0.2B 2 )Xt = (I + 0.3B)εt ,
5.2. LA MÉTHODOLOGIE BOX ET JENKINS PAS À PAS
39
Figure 5.1: Simulation d’un processus ARMA(2,1).
où le processus (εt )t est un bruit blanc Gaussien de variance unitaire. Les commandes
suivantes permettent de générer et de tracer une trajectoire de longueur 1000, issue de ce
processus ARMA (voir figure ??).
set eps = %ran(1)
set x 1 2 = 0
set x 3 1100 = 0.4*x{1}+0.2*x{2}+eps+0.3*eps{1}
smpl 101 1100
graph(header=’Simulations d’un processus ARMA(2,1)’,subheader=’T=1000’)
# x
5.2
La méthodologie Box et Jenkins pas à pas
La méthodologie de Box et Jenkins (1970) repose sur une modélisation de la série d’étude
par un processus de type ARIMA(p, d, q). Cette méthodologie est basée sur les 4 étapes
suivantes :
1.
2.
3.
4.
Spécification du processus.
Estimation des paramètres du processus.
Validation du processus par tests.
Utilisation du processus en prévision.
Nous allons maintenant détailler ces 4 différentes étapes.
5.2.1
Spécification
L’étape de la spécification d’un processus ARIMA(p, d, q) consiste à choisir l’ordre des
parties AR (choix de l’entier p) et MA (choix de l’entier q), ainsi que l’ordre du degré
d’intégration (choix de l’entier d).
5.2.1.1
Choix de l’entier d
Ce choix est un problème délicat à régler et est à l’origine d’une littérature expansive dans
le domaine des statistiques et de l’économétrie. Ce choix est lié à une des toutes premières
questions que doit se poser le statisticien désireux de mettre en oeuvre la méthodologie
40
de Box et Jenkins (1970), à savoir, si la trajectoire qu’il observe est issue d’un processus faiblement stationnaire. Si tel est le cas, on dira alors que le processus (Xt )t∈Z est
intégré d’ordre 0; sinon, on suppose qu’il existe un entier d > 0 tel que (I − B)d Xt est
asymptotiquement faiblement stationnaire, B étant l’opérateur retard. On dira alors que
le processus (Xt )t∈Z est intégré d’ordre d. Cependant, dans la majorité des cas rencontrés en pratique l’entier d correspondant à l’ordre d’intégration est égal à l’unité. Ainsi,
le problème du statisticien revient alors à se demander quel est l’ordre d’intégration du
processus, ce qui est équivalent à tester l’hypothèse H0 : {d = 0} contre l’hypothèse
H1 : {d = 1}. On renvoie au Chapitre 3 de ce document pour le cas où 0 < d < 1.
De nombreux tests d’hypothèses ont été développés depuis le milieu des années 1970
dans la littérature statistique et économétrique afin d’aider le praticien dans le choix du
paramètre d, à partir des données dont il dispose. On citera en particulier, les tests de
racine unitaire de Fuller (1976), Dickey et Fuller (1979, 1981), Phillips (1987), Phillips
et Perron (1988), Kwiatkowski, Phillips, Schmidt et Shin (1992) et Zivot et Andrews
(1992). Ces différents tests de racine unitaire peuvent être utilisés dans RATS à l’aide
de plusieurs différentes procédures contenues dans les fichiers ADF.SRC, DFUNIT.SRC,
PPUNIT.SRC ou ZIVOT.SRC.
En pratique, on retiendra que la présence d’une tendance linéaire entraîne le choix d = 1
et qu’une moyenne constante entraîne le choix d = 0. On se limitera donc à des critères de
choix empiriques, tel que l’évolution de la moyenne empirique, pour déterminer le choix
de l’entier d.
5.2.1.2
Choix des entiers p et q
Le choix des entiers p et q se fait à l’aide de l’ACF empirique et la PACF empirique. On
rappelle la propriété suivante :
Proposition 5.2 Soit (Xt )t∈Z un processus faiblement stationnaire.
(i) Si (Xt )t∈Z ∼ AR(p), alors rX (k) = 0, si k > p.
(ii) Si (Xt )t∈Z ∼ M A(q), alors ρX (k) = 0, si k > q.
On cherche alors le retard k à partir duquel r̂X (k) = 0 ou ρ̂X (k) = 0. Cette recherche se fait
à l’aide du test de Bartlett qui permet de tester statistiquement l’hypothèse H0 : ρX (k) = 0
contre l’hypothèse H1 : ρX (k) 6= 0. De même le test de Quenouille permet de tester statistiquement l’hypothèse H0 : rX (k) = 0 contre l’hypothèse H1 : rX (k) 6= 0. On rappelle ces
deux tests basés sur les théorèmes suivants :
Théorème de Bartlett
41
Soit (Xt )t∈Z un processus MA(q) stationnaire. Sous l’hypothèse H0 : ρX (k) = 0, pour
k ≥ q + 1, on a quand T → ∞ :
T
1/2
ρ̂X (k) → N (0, 1 + 2
q
X
ρ̂X (i))
(5.3)
i=1
Théorème de Quenouille
Soit (Xt )t∈Z un processus AR(q) stationnaire. Sous l’hypothèse H0 : rX (k) = 0, pour
k ≥ p + 1, on a quand T → ∞ :
T 1/2 r̂X (k) → N (0, 1)
(5.4)
Ainsi, en se plaçant au retard k, sous l’hypothèse H0 : ρX (k) = 0, les bornes de confiance
asymptotiques de ρ̂X (k) au risque α = 5% sont données par :
ρ̂X (k) ∈ [0 ± 1.96
(1 + 2
Pk−1
1/2
i=1 ρ̂X (i))
].
T 1/2
(5.5)
De même, en se plaçant au rang k, sous l’hypothèse H0 : rX (k) = 0, les bornes de confiance
asymptotiques de r̂X (k) au risque α = 5% sont données par :
r̂X (k) ∈ [0 ± 1.96
1
T 1/2
].
(5.6)
On remarque que, lorsque le nombre k de retards augmente, les bornes de confiance de
ρ̂X (k) vont en s’évasant, alors que les bornes de confiance de r̂X (k) restent constantes.
On note cependant que la propriété ?? ne concerne que des processus AR et MA "purs".
En présence simultanée d’une partie AR et d’une partie MA, le choix de p et q devient
plus délicat. Il arrive souvent que l’on sélectionne plusieurs modèles, que l’on pressent
capable d’ajuster correctement la série d’étude. Chacun de ces modèles sera alors estimé
puis validé. La phase de validation permettra de retenir un seul modèle, à utiliser ensuite
en prévision.
Une manière efficace de procéder pour choisir les ordres des parties AR et MA, est de
choisir les ordres p et q de telle sorte qu’ils optimisent un certain critère d’intérêt, déterminé a priori. Un des critères les plus utilisés en statistique est le critère d’information
d’Akaike (1977), dénoté AIC, défini de la manière suivante :
AIC = T log(σ̂ε2 ) + 2(p + q),
(5.7)
42
où σ̂ε2 est la variance résiduelle estimée. Un modèle possédant une bonne qualité d’ajustement
fournira une variance résiduelle faible, donc un AIC faible. On cherchera donc à minimiser
le critère AIC.
Il est à noter qu’il existe d’autres critères d’information dans la littérature statistique,
tels que les critères de Bayes (BIC), de Hannan (HIC) ou de Akaike corrigé (AICC). On
se référe, par exemple, à Hamilton (1994) pour une définition de ces critères. On note
également que ces critères sont relatifs à la qualité d’ajustement du modèle, mais on peut
envisager une recherche automatique de p et de q relativement à la qualité de prédiction
du modèle par validation croisée.
Dans RATS, on peut calculer l’intervalle de confiance asymptotique de l’ACF (équation
(2.5)), à l’aide de l’option stderrs
correlate. En effet, cette option
Pk−1 de l’instruction
1/2
−1/2
renvoie la valeur T
(1 + 2 i=1 ρ̂X (i)) , pour k ≥ 1, contenue dans l’expression (2.5).
Dans l’exemple suivant, nous allons simuler une trajectoire de longueur T = 1000, issue
d’un processus AR(2) de paramètres φ1 = 0.3 et φ2 = 0.2, et nous calculer son ACF et
ses bornes de confiance au risque α = 0.05.
all 1100
seed 123; set eps = %ran(1)
set xar2 1 2 = 0.0
set xar2 3 1100 = 0.3*xar2{1}+0.2*xar2{2}+eps
corr(stderrs=xse,number=10,partial=xpacf) xar2 101 1100 xacf
print / xse xacf xpacf
set ic1 = 1.96*xse
set ic2 = -1.96*xse
De même, on peut calculer l’intervalle de confiance asymptotique de la PACF (équation
(2.6)), de la manière suivante :
sta xar2
set pic1 = 1.96/sqrt(%nobs)
set pic2 = -1.96/sqrt(%nobs)
On peut alors tracer simultanément l’ACF et la PACF de cette série simulée xar2, ainsi
que les intervalles de confiance asymptotiques respectifs, permettant d’effectuer les tests
de non nullité précités (voir figure ??).
spgraph(vfields=2,header=’Serie : xar2’)
graph(style=bar,overlay=line,ovcount=2,omax=1,omin=-1, $
max=1,min=-1,number=1) 3
# xacf
43
Figure 5.2: ACF et PACF de la série simulée xar2, issue d’un processus AR(2).
# ic1
# ic2
max=1,min=-1,number=1) 3
# xpacf
# pic1
# pic2
spgaph(done)
On peut alors observer visuellement si les valeurs de l’ACF et de la PACF sont à l’intérieur
de l’intervalle de confiance et déterminer ainsi les ordres p et q. Dans le cas présent, on
peut soit choisir un processus AR(2), soit un processus MA(3). Cependant, le principe
de parcimonie nous recommande de choisir un processus AR(2).
5.2.2
Estimation des paramètres
Il existe de nombreuses méthodes concurrentes d’estimation des paramètres d’un processus ARIMA. On se référe à Box et Jenkins (1970), Brockwell et Davis (1987) ou
Hamilton (1994) pour une revue des différentes méthodes d’estimation. Les méthodes
d’estimation des paramètres dans un processus ARMA(p, q) sont pour la plupart basées
sur l’expression de la vraisemblance conditionnelle du processus. Dans la littérature
statistique, il existe de nombreuses méthodes permettant de calculer cette vraisemblance
conditionelle. Nous présentons celle utilisée par RATS, basée sur la méthode de Box
et Jenkins (1976,p.211). On suppose donc que le processus considéré est Gaussien et
θ = (µ, σε2 , φ1 , . . . , φp , θ1 , . . . , θq ) est le paramètre à estimer.
La méthode préconisée par Box et Jenkins (1976, p.211) conditionne la vraisemblance du
processus sur les p premières valeurs observées du processus (Xt )t , X1 , . . . , Xp , et sur les
q valeurs du processus (εt )t , telles que :
εp = εp−1 = . . . = εp−q+1 = 0.
Ainsi, à partir de la suite X1 , . . . , XT , on peut alors calculer par itérations la suite
εp+1 , εp+2 , . . . , εT , de la manière suivante, pour t = p + 1, . . . , T , :
εt = −µ(1 −
p
X
i=1
φi ) + Xt − φ1 Xt−1 − . . . − φp Xt−p − θ1 εt−1 − . . . − θq εt−q .
(5.8)
44
La log-vraisemblance conditionnelle est alors donnée par l’équation suivante :
LBJ (θ) = log f (XT , . . . , Xp+1 |Xp , . . . , X1 , εp = . . . = εp−q+1 = 0)
T
X
T −p
ε2t
T −p
2
log(2π) −
log(σε ) −
= −
.
2
2
2σε2
t=p+1
(5.9)
(5.10)
L’estimateur du maximum de vraisemblance (EMV), noté θ̂EM V , est le paramètre qui
maximise la log-vraisemblance, i.e. :
θ̂EM V = Arg max L(θ)
θ
(5.11)
La résolution numérique de ce problème de maximisation se fait à l’aide d’un algorithme du
gradient conjugué de type Newton-Raphson. Ces algorithmes effectuent une recherche de
maximum global, par "descente" vers ce maximum à partir d’une valeur initiale. De nombreux algorithmes de ce type sont connus dans la littérature statistique, et varient selon la
direction de descente. En particulier, RATS utilise la méthode de dite de Gauss-Newton
présentée. Ces méthodes de maximisation nécessitent la spécification par l’utilisateur de
valeurs initiales pour l’algorithme. Le choix de ces valeurs initiales n’est pas sans conséquence, car un mauvais choix peut faire atterrir l’algorithme sur un maximum local,
et non pas global. Une solution à ce problème est de choisir empiriquement différentes
valeurs initiales et d’observer le comportement du résultat et les valeurs de la variance
résiduelle ou du critère AIC. Notons également que lorsque le nombre de paramètres est
faible, en général inférieur ou égal à 3, on peut résoudre ce problème de maximisation en
utilisant une procédure par maillage ("grid-search procedure"). Cette procédure consiste
à calculer la log-vraisemblance pour différentes valeurs successives des paramètres, appartenant à un intervalle fini, et de retenir alors les valeurs des paramètres pour lesquelles la
log-vraisemblance est maximale. Lorsque le nombre de paramètres du processus augmente
cette procédure devient très lente. De plus, elle ne permet pas d’obtenir l’écart-type des
estimateurs. On se référe, par exemple, à Hamilton (1994, chapitre 5) pour un descriptif
de ces méthodes de résolution numérique.
Avec RATS, l’estimation des paramètres d’un processus ARMA se fait à l’aide de l’instruction
boxjenk, qui s’utilise de la manière suivante :
boxjenk(options) série début fin résidus
Cette instruction permet de spécifier les ordres saisonniers et non saisonniers du modèle,
à l’aide des options ar=, ma=, sar= et sma=. De plus, les degrés d’intégration saisonnier et
non saisonnier sont spécifiés par les options diffs= et sdiffs=. Par défaut, les ordres du
modèle sont nuls. Dans l’exemple suivant, on considère la série xar2, que l’on a simulée,
45
et on ajuste un processus AR(2).
boxjenk(noconstant,ar=2) xar2 101 1100 resids
On obtient alors les résultats suivants :
Dependent Variable XAR2 - Estimation by Box-Jenkins
Iterations Taken 2
R Bar **2 0.134387
T x R**2 135.258
Mean of Dependent Variable -0.002639775
******************************************************
1. AR{1} 0.2959591252 0.0313249410 9.44803 0.00000000
2. AR{2} 0.1389769914 0.0313396456 4.43454 0.00001025
L’instruction boxjenk renvoie de nombreuses informations relatives à l’opération d’estimation.
Par exemple, la variable %beta contient le vecteur des paramètres et la variable %rss contient la somme des carrés des résidus. L’option input permet de mettre en oeuvre l’analyse
d’intervention (voir paragraphe 2.4).
Enfin, il est intéressant de noter que l’instruction boxjenk permet d’estimer des processus
ARMA à "trous". Par exemple, si on désire estimer le processus AR(4) suivant :
(I − φ1 B − φ4 B 4 )Xt = εt ,
on spécifie un modèle à l’aide de l’option ar=||1,4|| de la manière suivante :
boxjenk(noconstant,ar=||1,4||) xar2 101 1100
De manière identique, on spécifie un modèle MA à "trous", à l’aide de l’option ma=.
5.2.3
Validation par tests
La validation du processus estimé se fait à l’aide d’un test de significativité des paramètres
et d’une analyse sur les résidus estimés.
46
5.2.3.1
Significativité des paramètres
Il est important de déterminer si les paramètres du modèles sont significativement différent de zéro. Pour cela on effectue un test de Student en comparant la valeur absolue de chacun des paramètres estimés avec sa variance. Ainsi, si la valeur absolue du
paramètre est plus grande que 1.96 × l’écart-type du paramètre, alors on rejette, au risque
α = 0.05, l’hypothèse de nullité du paramètre. L’instruction boxjenk renvoie un tableau
contenant l’écart-type des paramètres, les T-stat et les probabilités critiques contenues
dans la colonne Signif. Si cette valeur est inférieure à 0.05, on rejette alors au risque
α = 5%, l’hypothèse de nullité des paramètres. Ainsi, dans l’exemple précédent, on peut
alors conclure à la significativité des paramètres du modèle, au risque α = 0.05.
5.2.3.2
Analyse des résidus
Si le modèle est correctement spécifié, les résidus estimés doivent former une trajectoire
issue d’un processus bruit blanc. Il est donc important de regarder attentivement la trajectoire des résidus, l’ACF et la PACF des résidus et de tester la corrélation des résidus.
Pour analyser les résidus, on les récupère à l’aide de l’instruction boxjenk et pour obtenir
l’ACF et la PACF des résidus on utilise l’instruction correlate. Par exemple, la commande suivante :
corr(stderrs=rse,number=10,partial=rpacf,qstats,span=1) $
resids 101 1100 racf
renvoie les résultats suivants :
Correlations of Series RESIDS
Autocorrelations
1: -0.0007693 0.0041912 0.0083685 -0.0204107 0.0048092 0.0021344
7: -0.0511083 -0.0087062 -0.0062567 -0.0466030
Partial Autocorrelations
1: -0.0007693 0.0041906 0.0083751 -0.0204170 0.0047121 0.0022441
7: -0.0508321 -0.0092998 -0.0056797 -0.0458186
Ljung-Box Q-Statistics
Q(1) = 5.9364e-004. Significance Level 0.98056169
Q(2) = 0.0182. Significance Level 0.99092625
47
Figure 5.3: Trajectoire, ACF et PACF de la série resids.
On peut alors obtenir la trajectoire des résidus et les graphes de l’ACF et de la PACF
(voir figure ??) à l’aide des commandes suivantes :
set ric1 = 1.96*rse
set ric2 = -1.96*rse
sta resids 101 1100
set rpic1 1 11 = 1.96/sqrt(%nobs)
set rpic2 1 11 = -1.96/sqrt(%nobs)
spgraph(vfields=2,hfields=2,header=’Serie : resids’)
graph
# resids
graph(style=bar,overlay=line,ovcount=2,omax=0.2,omin=-0.2, $
max=0.2,min=-0.2,number=1,header=’ACF’) 3
# racf 2 11
# ric1 2 11
# ric2 2 11
graph(style=bar,overlay=line,ovcount=2,omax=0.2,omin=-0.2, $
max=0.2, min=-0.2,number=1,header=’PACF’) 3
# rpacf 2 11
# rpic1 2 11
# rpic2 2 11
spgraph(done)
Commentons maintenant les différents résultats que l’on peut obtenir sur les résidus.
• Trajectoire des résidus
Ce graphe permet d’observer si les résidus sont issus d’un processus bruit blanc. Ce
graphe est utile pour détecter la présence de valeurs aberrantes.
• ACF des résidus
Ce graphe représente l’ACF des résidus, ρ̂ε (k), pour un retard k allant de 1 à un
entier spécifié par l’option number= de l’instruction correlate, et permet de tester
48
ainsi la présence d’une corrélation pour un certain retard. Si l’ACF des résidus
sort de l’intervalle de confiance pour un certain retard k0 , avec 1 ≤ k0 < p ou
1 ≤ k0 < q, alors cela signifie qu’il faut rajouter une partie MA(k0 ) au processus
spécifié initialement. Si k0 ≥ p ou k0 ≥ q, alors cela signifie que les ordres de parties
AR et/ou MA ont été mal choisis lors de l’étape de spécification du processus.
• PACF des résidus
Ce graphe représente la PACF des résidus, r̂ε (k), pour un retard k allant de 1 à un
entier spécifié par l’option number= de l’instruction correlate, et permet de tester
ainsi la présence d’une corrélation partielle pour un certain retard. De même que
dans le cas précédent, si la PACF des résidus sort de l’intervalle de confiance pour
un certain retard k0 , avec 1 ≤ k0 < p ou 1 ≤ k0 < q, alors cela signifie qu’il faut
rajouter une partie AR(k0 ) au processus spécifié initialement. Si k0 ≥ p ou k0 ≥ q,
alors cela signifie que les ordres de parties AR et/ou MA ont été mal choisis lors de
l’étape de spécification du processus.
• Test "Portmanteau"
Au lieu de tester si chaque valeur de l’ACF tombe dans l’intervalle de confiance,
on peut tester la significativité globale des ACF, à l’aide d’une statistique. Le test
utilisé par le logiciel est le test "Portmanteau" de Ljung-Box, basée sur la statistique
suivante :
K
X
ρ̂2 (k)
.
(5.12)
QK = T (T + 2)
T
−
k
k=1
Sous l’hypothèse de non corrélation des K premières autocorrélations des perturbations (H0 : ρε (1) = ρε (2) = . . . = ρε (K) = 0), cette statistique suit asymptotiquement une loi du Chi-2 à (K − p − q) degrés de liberté. L’adéquation du modèle est
rejetée au risque α, si :
2
QK > X1−α
(K − p − q).
Les différentes valeurs des probabilités critiques sont renvoyées par l’instruction
correlate. Si ces dernières valeurs, pour différents entiers K, sont toutes supérieures
à 0.05, on accepte alors l’hypothèse H0 de non-corrélation. Par exemple, dans le
précédent de la série resids, les probabilités sont toutes supérieures à 0.05, donc
au risque α = 5%, on accepte l’hypothèse dite de blancheur des résidus. Le choix de
l’entier K est à discuter, mais en pratique, il est souvent intéressant de faire varier
ce nombre et d’observer le résultat du test pour ces différentes valeurs de K.
Enfin, si l’on a effectué l’hypothèse de Gaussianité sur le processus bruit blanc (εt )t∈Z , il
est intéressant d’observer la distribution empirique des résidus estimés. Pour cela on trace
l’histogramme et la densité non paramétrique de distribution des résidus standardisés à
49
l’aide (dans la version 4.X du logiciel) respectivement des procédures @hist et @density,
@hist(nbar=20) resids
@density resids 101 1100 xdens ydens
scatter(style=3) 1
# xdens ydens
Dans la version 5 du logiciel, l’estimateur non paramétrique de la densité de distribution par la méthode des noyaux s’obtient par la fonction density qui est intégrée dans
le logiciel. La procédure @kernel permet également de tracer la densité de distribution non paramétrique des résidus à l’aide de la méthode des noyaux. Le noyau peut
être choisi Gaussien (option kernel=gaussian) ou d’Epanechnikov (option par défaut
kernel=optimal). De plus, cette procédure permet de tracer simultanément la densité
de distribution de la loi Normale (voir Figure 2.4) et effectue le test de Jarque-Bera qui
permet de tester l’adéquation de la loi de distribution des résidus à la loi Normale. Dans
la version 5 du logiciel, le test de normalité de Jarque-Bera est contenu dans la fonction
statistics. La statistique de Jarque-Bera est définie par l’équation suivante :
JB =
T (Sk)2 T (Ku)2
+
,
6
24
(5.13)
où Sk et Ku sont respectivement le Skewness et le Kurtosis, définis par les équations
(1.6) et (1.7). Sous l’hypothèse de Normalité, la statistique de Jarque-Bera suit une loi du
χ2 (2). En général, RATS renvoie la P-value issue du test. La procédure @kernel s’utilise
@kernel(kernel=gaussian,ngraph,style=dots,gridsize=128) $
resids 101 1100 xr yr
On rappelle également que les tests sur le Skewness et sur le Kurtosis renvoyés par
l’instruction statistics permettent de se faire une idée sur l’adéquation de la loi des
résidus à la loi Normale. En particulier, les P-values issues du test de nullité du skweness
et de la Kurtosis sont renvoyées.
Si plusieurs modèles passent avec succès l’étape de la validation, un arbitrage doit être
effectué pour retenir le modèle que l’on utilisera en prévision. Pour cela, on peut, par
Figure 5.4: Estimation de la densité de probabilité normalisée de la série resids et
comparaison avec la densité de probabilité de la loi Normale.
50
exemple, comparer les critères d’information fournis par chacun des modèles et retenir le
modèle pour lequel le critère d’information AIC est minimum. Le calcul du critère AIC
se fait de la manière suivante :
dis ’AIC:’ %nobs*log(%seesq)+2*%nreg
On peut également utiliser la règle de parcimonie qui recommande de choisir un modèle
paramétrique pour lequel le nombre de paramètre est le plus faible possible. Il faut également savoir que dans une optique prévisionelle, il est préférable d’utiliser un processus AR
pur, plutôt qu’un processus MA pur. Cependant, si plusieurs modèles paraissent valides,
on peut alors tester le comportement de chacun en prévision ou utiliser une méthode de
type validation croisée. Il faut toutefois savoir que de nombreuses études empiriques ont
souligné le fait que le modèle qui ajuste le mieux les données n’est pas forcément celui qui
fournit les meilleures prévisions.
5.2.4
Prévision
Une fois que l’on a spécifié et estimé un processus ARIMA, qui a passé avec succès les
tests de validation, on désire l’utiliser pour effectuer des prévisions sur la série. On dispose
donc des données X1 , . . . , XT , et on désire prédire la valeur de la série à l’horizon h, avec
h > 0, à savoir XT +h . On note alors X̂T (h) le prédicteur pour l’horizon h. Il est connu
que le prédicteur linéaire qui minimise l’erreur quadratique moyenne à l’horizon h = 1,
définie par E(X̂T (1) − XT +1 )2 , est l’espérance conditionelle de XT +1 , sachant le passé de
la série, donné par :
X̂T (1) = E(XT +1 |Xs , s ≤ T ).
(5.14)
Dans le cas d’un processus ARMA défini par l’équation (2.1), ce prédicteur est donné par
l’égalité suivante :
X̂T (1) = φ1 XT + . . . + φp XT −p+1 + θ1 εˆT + . . . + θq ε̂T −q .
(5.15)
Lorsque l’horizon h est strictement supérieur à 1, on réitére l’opération en remplaçant les
valeurs inconnues de la série par les valeurs prédites aux pas précédents, et en remplaçant
les valeurs inconnues des résidus par leur moyenne conditionelle, à savoir zéro.
Avec RATS, la prévision se fait à l’aide de l’instruction boxjenk, qui permet de spécifier
une équation, puis à l’aide de l’instruction forecast, qui prend comme argument cette
dernière équation et le nombre de pas de prédiction. De plus, les intervalles de confiance
des prévisions se calculent à l’aide de l’instruction errors, qui permet de calculer les
valeurs de l’écart-type du prédicteur.
Par exemple, on construit les prévisions à l’horizon h = 20, et un intervalle de confiance
à 95% pour la série simulée xar2 (voir Figure 2.5), de la manière suivante :
5.3. UN EXEMPLE D’APPLICATION
51
Figure 5.5: Prévisions à l’horizon h = 20 et intervalle de confiance à 95% de la série x1.
boxjenk(print,noconstant,ar=2,define=eqxar2) xar2 101 1100 resids
forecast 1 20 1101
# eqxar2 prevxar2
errors(noprint) 1 20
# eqxar2 errxar2 1101
set icsup 1101 1120 = 1.96*errxar2+prevxar2
set icinf 1101 1120 = -1.96*errxar2+prevxar2
graph(header=’Serie XAR2’) 4
# xar2 1061 1100
# prevxar2
# icsup 1101 1120
# icinf 1101 1120
Il est à souligner que la prédiction se fait sans tenir compte de la variabilité induite par
l’estimation des paramètres. On suppose en effet que les valeurs estimées sont les vraies
valeurs des paramètres. De plus, on notera que les prédictions effectuées par l’instruction
forecast sont calculées de manière récursive.
5.3
Un exemple d’application
Dans cette section, nous fournissons un exemple d’application de modélisation Box et
Jenkins (1970) sur une série réelle, à l’aide d’un processus saisonnier ARIMA (SARIMA).
On s’intéresse à la série de trafic passagers de l’ensemble des bus de banlieue de la RATP
(cet exemple est issu du livre de Ferrara et Guégan, 2002). Cette série est mensuelle; elle
débute en janvier 1984 et finit en décembre 1995 (voir Figure 2.6). Nous allons modéliser
cette série en utilisant les données à partir du mois de janvier 1984 jusqu’au mois de
décembre 1994, puis nous effectuerons des prévisions sur la période janvier 1995 - décembre 1995, que nous comparerons avec les données réelles observées afin de pouvoir juger
de la précision de ces prévisions. On note (Xt )t=1,...,T cette série, où T est la taille de
l’échantillon, égale à 132.
Figure 5.6: Evolution de la série mensuelle busban.cts, du mois de janvier 1984 au mois
de décembre 1995.
52
5.3.0.1
Analyse des données
La série de trafic (Xt )t=1,...,T est représentée sur la Figure 2.6. On observe que cette
série possède une tendance linéaire ainsi qu’une forte saisonnalité de 12 mois. Cette forte
saisonnalité est également observable sur le graphe de l’ACF empirique (Figure 2.7), que
l’on obtient par les commandes suivantes :
correlate(std=bse,number=50,partial=bpacf,noprint) $
bus 84:01 94:12 bacf
set bic1 = 1.96*bse
set bic2 = -1.96*bse
sta(noprint) bus 84:01 94:12
set bpic1 = 1.96/sqrt(%nobs)
set bpic2 = -1.96/sqrt(%nobs)
spgraph(vfields=2,header=’Serie : bus’)
max=1,min=-1,number=1,header=’ACF’) 3
# bacf 2 50
# bic1 2 50
# bic2 2 50
max=1, min=-1,number=1,header=’PACF’) 3
# bpacf 2 50
# bpic1 2 50
# bpic2 2 50
spgraph(done)
Il convient donc de stationnariser asymptotiquement cette série afin de pouvoir la modéliser par un processus de type ARMA. Au préalable, on retranche à cette série sa moyenne
empirique et on étudie par la suite la série centrée (Xt − X̄)t , où X̄ est la moyenne empirique de cette série, égale à 1551.997. On obtient cette série centrée par la commande
suivante :
set busc = bus-%mean
Pour stationnariser la série, on applique successivement un filtre de la forme (I − B) et un
filtre de la forme (I − B 12 ). Dans un premier temps, le filtre (I − B) permet d’enlever la
tendance linéaire de la série. On note que ceci revient donc à choisir l’entier d du processus
Figure 5.7: ACF et PACF empiriques de la série bus.
53
ARIMA égal à 1.
diff busc / dbusc
La série différenciée est représentée sur le graphe en haut à gauche de la Figure 2.8. On
observe qu’il existe toujours une saisonnalité que l’on fait disparaître, dans un second
temps, à l’aide du filtre saisonnier (I − B 12 ).
diff(sdiffs=1) dbusc / dd12busc
La série résultante que l’on obtient, notée dd12busbanc, est représentée sur le graphe en
haut à droite de la Figure 2.8. Cette série résultante que l’on note (Yt )t est donc la série
telle que, pour tout t = 14, . . . , T , :
Yt = (I − B)(I − B 12 )Xt
= Xt − Xt−1 − Xt−12 + Xt−13 .
On va alors chercher à modéliser cette série (Yt )t , asymptotiquement stationnaire, à l’aide
d’un processus ARMA.
5.3.0.2
Spécification du modèle
Dans une première étape, on va chercher à spécifier le modèle ARMA. On va donc chercher
les ordres p et q des polynômes AR et MA à l’aide de l’ACF et de la PACF.
sta dd12busc 85:02 94:12
correlate(std=dd12se,number=50,partial=dd12pacf,noprint) $
dd12busc 85:02 94:12 dd12acf
dis %nobs
set dd12ic1 = 1.96*dd12se
set dd12ic2 = -1.96*dd12se
set dd12pic1 = 1.96/sqrt(%nobs)
set dd12pic2 = -1.96/sqrt(%nobs)
spgraph(vfields=2,hfields=2)
graph(header=’dbusc’)
# dbusc
max=1,min=-1,number=1,header=’ACF’,subheader=’dd12busc’) 3
# dd12acf 2 50
# dd12ic1 2 50
# dd12ic2 2 50
54
graph(header=’dd12busc’)
# dd12busc
max=1, min=-1,number=1,header=’PACF’,subheader=’dd12busc’) 3
# dd12pacf 2 50
# dd12pic1 2 50
# dd12pic2 2 50
spgraph(done)
On observe que l’ACF est en dehors de l’intervalle de confiance à 95% pour les retards 1,
11, 12 et 13. Ceci nous porte à supposer que le modèle devra comporter une partie MA(1)
non saisonnière et une partie MA(1) saisonnière, de période 12. En ce qui concerne la
PACF, on observe que les valeurs sont en dehors de l’intervalle de confiance à 95% pour les
retards 1, 2, 10, 11 et 12. Donc on peut penser que le modèle comportera également une
partie AR(2) non saisonnière et une partie AR(1) saisonnière. Ainsi, en tenant compte
de ces informations, on retient plusieurs modèles possibles auxquels nous feront passer les
différents tests de validation.
5.3.0.3
Estimation des paramètres
Le modèle que l’on retient finalement est un modèle SARIMA(011)(011)12 . L’estimation
des paramètres de ce modèle se fait à l’aide de l’instruction boxjenk, de la manière suivante :
box(noconstant,ar=0,diffs=1,ma=1,sar=0,sdiffs=1,sma=1,span=12, $
define=buseq) busc 85:02 94:12 resbus
On obtient alors les résultats suivants :
Dependent Variable BUSC - Estimation by Box-Jenkins
Iterations Taken 13
R Bar **2 0.989451
T x R**2 117.760
Figure 5.8: Evolution de la série dbusc (haut gauche) et de la série dd12busc (haut droite)
et représentation de l’ACF de dd12busc (bas gauche) et sa PACF (bas droite).
55
Q(29-2) 22.639120
Significance Level of Q 0.70423937
*******************************************
1. MA{1} -0.482198486 0.081037646 -5.95030 0.00000003
2. SMA{12} -0.473196053 0.093345610 -5.06929 0.00000151
Le modèle estimé que l’on obtient est donc le suivant :
(I − B)(I − B 12 )(Xt − 1552) = (I − 0.4800B)(I − 0.4641B 12 )εt
5.3.0.4
Validation du modèle
Dans un premier temps, on teste la significativité des paramètres avec un risque α = 0.05.
Les probabilités critiques renvoyées par le logiciel sont toutes les deux inférieures à 0.05,
on peut donc conclure ques les paramètres sont statistiquement significatifs, au risque
α = 0.05.
Dans un second temps on s’intéresse aux résidus du modèle. Tout d’abors, la statistique
de Ljung-Box calculée par le logiciel possède une probabilité critique supérieure à 0.05.
Ce test permet d’accepter, au risque α = 0.05, l’hypothèse de blancheur des résidus. Examinons dans un second temps l’ACF et la PACF des résidus.
corr(stderrs=rse,number=25,partial=rpacf,qstats,span=1) $
resbus 85:02 94:12 racf
set ric1 = 1.96*rse
set ric2 = -1.96*rse
set rpic1 1 25 = 1.96/sqrt(%nobs)
set rpic2 1 25 = -1.96/sqrt(%nobs)
spgraph(vfields=2,hfields=2,header=’Serie : resbus’)
graph
# resbus
Figure 5.9: Graphiques de diagnostic sur la série des résidus, notée resbus.
56
Figure 5.10: Prévisions mensuelles de la série bus pour l’année 1995 et intervalle de
confiance à 95%.
max=1,min=-1,number=1,header=’ACF’) 3
# racf 2 25
# ric1 2 25
# ric2 2 25
max=1, min=-1,number=1,header=’PACF’) 3
# rpacf 2 25
# rpic1 2 25
# rpic2 2 25
spgraph(done)
Le graphique en haut à gauche de la Figure 2.9 représente l’évolution des résidus. On
observe une très faible valeur des résidus pour le mois de janvier 1987. En fait, ce mois
correspond à une forte grève des agents ayant eu lieu sur l’ensemble du réseau de la
RATP. Ce mois peut donc être considéré comme une valeur aberrante. L’ACF et la
PACF (Figure 2.9) des résidus montrent que l’hypothèse d’indépendance des résidus est
valide, car aucune valeur ne se trouve en dehors des intervalles de confiance de Bartlett et
Quenouille. Ainsi, on accepte, au risque α = 0.05, l’hypothèse nulle de bruit blanc pour
les résidus.
5.3.0.5
Prédiction
La prédiction du processus SARIMA, sur un horizon de 12 mois, se fait à l’aide de la
manière suivante :
forecast 1 12 95:01
# buseq buscprev
sta(noprint) ban 84:01 94:12
set busprev = buscprev+%mean
Si on suppose que le prédicteur suit une loi Normale, on peut alors construire un intervalle
de confiance pour ce prédicteur. On désire alors tracer simultanément la série réelle, la
série prévue et son intervalle de confiance au risque α = 0.05.
errors 1 12
# buseq buspreverr 95:01
5.4. ANALYSE D’INTERVENTION
57
set icsup 95:01 95:12 = 1.96*buspreverr+busprev
set icinf 95:01 95:12 = -1.96*buspreverr+busprev
graph(key=lol) 4
# bus 95:01 95:12
# busprev
# icinf 95:01 95:12
# icsup 95:01 95:12
Les prévisions obtenues sont présentées sur la Figure 2.5. Les résultats semblent être assez
bons, car les prédictions se trouvent toutes à l’intérieur de l’intervalle de confiance à 95%.
5.4
Analyse d’intervention
Lorsqu’on travaille sur des séries chronologiques à caractère économique, on est souvent
amené à tenir compte d’événements de nature diverse, extérieurs au modèle, qui viennent perturber les séries. L’effet de ces évènements se fait sentir soit par la présence
d’un ou plusieurs points dits aberrants, qui occasionnent une rupture ponctuelle dans la
série, soit par un changement sensible durable dans l’évolution de la série. La théorie de
l’analyse d’intervention développée par Box et Tiao (1975) permet de prendre en compte,
lors de la modélisation SARIMA d’une série chronologique, des interventions extérieures
au modèle. On apporte ainsi au modèle statistique une information supplémentaire de
type qualitatif, qui est intégrée de manière additive au modèle à l’aide de variables déterministes exogènes de type binaire. On espère ainsi fournir une "meilleure" modélisation
en terme d’ajustement du modèle aux données, grâce à l’utilisation d’un ensemble informationnel plus grand.
On note (Xt )t∈Z la suite de variables aléatoires à modéliser, perturbée par une intervention
extérieure. Le modèle d’intervention proposé par Box et Tiao (1975) se présente alors ous
la forme suivante :
ω(B)bb
ξt + Nt ,
(5.16)
Xt = C +
δ(B)
où (Nt )t∈Z est supposé suivre un processus SARIMA défini par la Définition 2.3, où ω(z)
est un polynôme de degré l tel que : ω(z) = ω0 + ω1 z + . . . + ωl B l , où δ(z) est un polynôme
de degré r tel que : δ(z) = 1 − δ1 z − . . . − δr B r et b est un entier qui représente un retard
à determiner.
La fonction déterministe δ −1 (B)ω(B)B b ξt , représente l’effet de l’intervention qui vient
s’ajouter de manière additive au bruit (Nt )t∈Z ; elle est appelée fonction d’intervention.
Dans l’équation (2.16), la suite de variable aléatoire (ξt )t∈Z représente l’effet d’une intervention extérieure à la date t0 , mis sous la forme d’une variable déterministe qui prend
58
pour valeur 1 ou 0 selon la présence ou l’absence de l’intervention. Cette variable est en
général modélisée par deux classes de fonctions :
• une fonction en forme de saut :
ξt =
(t0 )
St
(
0 si t < t0 ,
=
1 si t ≥ t0
(5.17)
(
0 si t 6= t0 ,
=
1 si t = t0
(5.18)
• une fonction en forme d’impulsion :
(t0 )
ξt = Pt
(t0 )
On remarque cependant que grâce à l’égalité suivante : (I − B)St
toujours passer d’un saut à une impulsion.
(t0 )
= Pt , on peut
Plus généralement, la série chronologique peut être perturbée par k interventions de natures différentes. Avec les notations précédentes, le modèle d’intervention (2.16) a alors
une représentation plus générale donnée par :
Xt = C +
k
X
ωj (B)bbj
j=1
δj (B)
(Tj )
ξt
+ Nt ,
(5.19)
où, pour j = 1, . . . , k, ωj (z) est un polynôme de degré lj , où δj (z) est un polynôme de
degré rj et bj est un entier qui représente un retard à determiner.
Une hypothèse fondamentale lors de l’utilisation de l’analyse d’intervention est que la
structure du modèle, par exemple SARIMA, soit la même avant et après l’intervention.
Ainsi, après avoir déterminé la date d’intervention, on fixe alors les deux sous-ensembles
de données correspondant à l’évolution du processus avant et après l’intervention. On
ajuste ensuite le même modèle sur chacun de ces deux sous-ensembles. Dans notre cadre,
comme nous nous intéressons aux processus linéaires, nous chercherons à ajuster un processus SARIMA à l’aide des outils classiques que sont les fonctions d’autocorrélation et
d’autocorrélation partielle. En ce qui concerne la forme de la fonction d’intervention, il
n’existe pas de méthode automatique fiable permettant de la déterminer. Cependant Box
et Tiao (1975) ont proposé différents types de fonctions permettant de s’adapter à la forme
graphique que prend la série, suite à l’effet de l’intervention extérieure, d’où l’importance
d’une analyse graphique ou géométrique de la série à étudier. Cette analyse graphique
nécessite donc une approche locale de la série qui s’éloigne de l’analyse souvent globale
utilisée quand on fait une modélisation paramétrique d’un processus. On se réfère également à l’article de Ferrara et Guégan (2000a) pour une description des quelques types de
5.4. ANALYSE D’INTERVENTION
59
fonctions d’intervention que l’on rencontre en pratique.
Le logiciel RATS permet d’estimer un modèle d’intervention à l’aide de l’instruction
boxjenk. Cette instruction possède l’option inputs, qui permet de spécifier le nombre k d’interventions extérieures. La série (ξt )t et les entiers l, r et b de l’équation (2.15),
sont spécifiés par une carte supplémentaire.
Par exemple, si on s’intéresse à nouveau à l’application présentée dans le paragraphe 2.3,
on peut améliorer la modélisation et la prévision en prenant en compte la forte valeur de
la série des résidus pour le mois de janvier 1986. On rappelle que cette faible valeur du
trafic sur le réseau des bus de banlieue est due à une grève des agents RATP. L’analyse
d’intervention va alors nous servir à mesurer l’impact de cette grève sur le trafic. On
suppose que cette grève a un effet ponctuel sur le trafic et on spécifie alors la fonction
d’intervention par une impulsion en date de janvier 1987. Dans RATS, la spécification et
l’estimation du modèle se font de la manière suivante :
set P8701 84:01 95:12 = T==87:01
box(noconstant,ar=0,diffs=1,ma=1,sar=0,sdiffs=1,sma=1,span=12, $
define=buseq2,inputs=1,apply) busc 85:02 94:12 resbus2
# P8701 0 0 0
On obtient alors le résultat suivant :
Dependent Variable BUSC - Estimation by Box-Jenkins
Iterations Taken 14
R Bar **2 0.990489
T x R**2 117.892
Q(29-2) 23.190264
Significance Level of Q 0.67474964
*********************************************************
1. MA{1} -0.49465185 0.08122314 -6.09004 0.00000002
2. SMA{12} -0.41946909 0.09517685 -4.40726 0.00002349
60
3.
N_P8701{0} -65.03550992 17.38301277 -3.74133 0.00028614
Ainsi, le modèle que l’on obtient est donné par l’équation suivante :
Xt = 1552 − 65.036Pt8701 +
(I − 0.4947B)(I − 0.4195B 12 )
εt
(I − B)(I − B 12 )
(5.20)
On constate donc que cette grève des agents a entraîné une perte d’environ 65036 passagers
en moyenne par jour ouvrable du mois de janvier 1987. La valeur du paramètre ω0
est significativement non nulle, au risque α = 0.05. De plus, on amélioré la qualité
d’ajustement du modèle aux données, car si on compare l’écart-type des résidus avec
l’écart-type des résidus obtenus par le SARIMA, on constate que l’on passe de 24.91 à
23.66. De même, si on s’intéresse aux prévisions sur un horizon de 12 mois, on compare
alors la capacité prédictive à l’aide du critère de la moyenne des erreurs relatives de
prévision (MER), défini par :
h
1 X (Xt+l − X̂t (l))
,
M ER =
h l=1
Xt+l
(5.21)
où h est l’horizon de prévision et X̂t (l) est la valeur prédite de Xt+l . Le modèle d’analyse
d’intervention fournit un MER égal à -0.6718, alors que le modèle SARIMA fournit
un MER égal à -0.7275. Ainsi, le modèle d’analyse d’intervention permet également
d’améliorer la qualité des prévisions. Un autre exemple d’application, pour lequel le gain
en qualité d’ajustement et en qualité de prévision est substantiel, se trouve dans l’article
de Ferrara et Guégan (2000a).
On retiendra que la méthode d’analyse d’intervention est un outil fort intéressant pour un
praticien, car elle permet de mesurer de manière fiable l’impact d’un événement extérieur
sur une série.
Figure 6.1: IPI en niveau et taux de croissance mensuel
Chapter 6
Tests
Ce chapitre introduit les fonctions du module FinMetrics intégrées au logiciel S-Plus et
dédiées aux tests statistiques. S’agissant des détails statistiques, on se réfère aux polycopiés distribués en cours, en particulier en ce qui concerne le test de racine unitaire
Le module FinMetrics se lance à partir de S-Plus par la commande :
> module(finmetrics)
On suppose que l’on observe la trajectoire suivante (X1 , . . . , XT ). Les tests présentés
ci-dessus constituent l’analyse préalable à toute tentative de modélisation, mais servent
également au diagnostic du modèle (étape de validation). Dans ce dernier cas, les tests
seront appliqués sur la série des résidus.
Dans les exemples présentés ci-dessous, on choisit de tester la série de l’indice de la production industrielle (hors construction et énergie) dans la zone euro de janvier 1990 à
octobre 2008 ipi ou la série du taux de croissance mensuel de l’IPI dipi (voir graphique
ci-dessous).
6.1
Test de stationnarité
On commence naturellement par se poser la question de la stationnarité de la série d’étude.
On insiste sur le fait que les modèles proposés ne permettent de ne modéliser que des séries
stationnaires. Ce test permet de tester l’hypothèse de stationnarité de la série (absence
de racine unitaire) à l’aide de deux méthodes : celle proposée par Dickey et Fuller (1979)
et de celle proposée par Philips et Perron (1988). Les deux méthodes s’implémentent à
61
62
CHAPTER 6. TESTS
l’aide de la fonction uniroot(.) en jouant sur l’option method, le test par défaut étant
celui de Dickey et Fuller.
6.1.1
Test de Dickey-Fuller augmenté (ADF test)
On rappelle que ce test est basé sur la régression linéaire suivante:
∆Xt = C + δt + ρXt−1 +
p
X
ai ∆Xt−i + ut ,
(6.1)
i=1
où C est une constante et (ut )t est un bruit blanc faible. La constante C et la tendance
linéaire δt peuvent être inclues ou non dans la régression, donnant ainsi trois types de
test possibles. L’hypothèse
nulle H0 : ρ = 0 est ainsi testée à l’aide de la statistique de
p
Student suivante : ρ̂/ V ar(ρ̂). Les valeurs critiques usuelles ne sont pas valides dans ce
type ce test. Les valeurs critiques à utiliser dans chacun des trois cas possibles ont été
tabulées par Dickey et Fuller.
La commande suivante permet d’effectuer le test ADF sur la série en niveau en utilisant
le nombre de retards par défaut :
> unitroot(ipi)
Test for Unit Root: Augmented DF Test
Null Hypothesis:
Type of Test:
Test Statistic:
P-value:
there is a unit root
t-test
-1.305
0.6276
Coefficients:
lag1
lag2
lag3
-0.0066 -0.4586 -0.0341
lag4
0.2950
lag5
0.2376
lag6
0.2147
lag7
0.1943
lag8 constant
0.1296 0.6560
Degrees of freedom: 218 total; 209 residual
Residual standard error: 0.7095
On observe ainsi que l’hypothèse nulle de non-stationarité de la série est acceptée par le
test. Nous pouvons étendre ce résultat à d’autres spécifications du test. Par exemple,
l’option lags permet de choisir le nombre p de retards à inclure dans la régression et
l’option trend permet de choisir les variables déteministes à inclure dans la régression:
trend="nc" : pas de constante ni de tendance linéaire
trend="c" : constante mais de tendance linéaire
6.1. TEST DE STATIONNARITÉ
63
trend="ct" : constante et tendance linéaire.
Ainsi, on peut mener le test suivant :
> unitroot(ipi,lags=1,trend="nc")
Null Hypothesis:
Type of Test:
Test Statistic:
P-value:
t-test
2.08
0.9912
Coefficients:
lag1
0.0012
On conclut de manière similaire à la non-stationnarité de la série. Les différentes spécifications du test mènent à des conclusions identiques. Il reste donc à vérifier que la série
différenciée du taux de croissance mensuel est bien stationnaire.
> unitroot(dipi,lags=1,trend="nc")
Null Hypothesis:
Type of Test:
Test Statistic:
P-value:
t-test
-20.49
1.997e-36
Coefficients:
lag1
-1.3072
Ainsi, on accepte bien la stationnarité de la série du taux de croissance mensuel de l’IPI.
On pourra donc proposer un processus pour cette série.
64
CHAPTER 6. TESTS
6.1.2
Test de Phillips-Perron
Ce test permet de tester l’hypothèse nulle de stationnarité à partir de la statistique suivante:
T
1 X 2
S ,
(6.2)
ν= 2 2
n s (l) t=1 t
où s2 (l) est la variance de long terme de la série (êt )t , cette série étant le résidu de la
régression suivante:
Xt = τ + δt + et ,
P
et où St est la somme partielle de ces résidus estimée par Ŝt = ti=1 êi . Phillips et Perron
(1988) proposent d’estimer la variance de long terme de la manière suivante :
T
l
n
X
1X 2 2X
ê +
ω(j, l)
êt êt−j ,
ŝ (l) =
T t=1 t T j=1
t=j+1
2
(6.3)
où les poids sont en général donnés par l’égalité suivante (voir Newey and West (1994)):
ω(j, l) = 1 −
j
.
l+1
(6.4)
Les valeurs critiques à utiliser ont été tabulées par Phillips et Perron.
La commande suivante permet d’effectuer le test PP :
> unitroot(ipi,method="pp")
Test for Unit Root: Phillips-Perron Test
Null Hypothesis:
Type of Test:
Test Statistic:
P-value:
t-test
-0.3045
0.9208
Coefficients:
lag1 constant
-0.0023 0.3292
Le test de PP confirme la non-stationnarité de la série même en prenant un risque α
très élevé (p-value de 0.9208). De manière similaire à précédemment, le test accepte
l’hypothèse de stationnarité de la série du taux de croissance mensuel.
6.2. TEST DE BLANCHEUR
65
Remarque 6.1 Il est à souligner que ces tests de stationnarité sont peu puissants en
particulier contre l’alternative de stationnarité avec longue mémoire. En effet, dans le
cas d’une forte persistence dans une série stationnaire, les tests de racine unitaire auront
tendance a rejeter à tort la stationnarité. Ce résultat aura donc tendance à entraîner une
sur-différenciation de la série (on différencie une série déjà stationnaire), donc une perte
d’information dommageable pour le modélisateur.
6.2
Test de blancheur
A partir d’une série stationnaire, il s’agit donc maintenant vérifier la présence d’information
dans les données, c’est à dire de mettre en évidence de l’autocorrélation. Ce test de
blancheur permet de tester l’hypothèse nulle d’absence d’autocorrélation dans la série
(X1 , . . . , XT ), en utilisant la significativité globale des K premières autocorrélations ρ(1), . . . , ρ(K).
Ainsi, sous l’hypothèse nulle, la série suit un processus bruit blanc, bien qu’il ne soit pas
possible de discriminer avec ce test entre un bruit blanc faible et un bruit blanc fort. Deux
statistiques sont disponibles: la statistique de Ljung-Box et celle de Box-Pierce. Toutes
les deux suivent une loi de Chi-2 (voir aussi Chapitre précédent).
6.2.0.1
Test de Box-Pierce
Le test de Box et Pierce (1970) est basé sur la statistique suivante :
QK = T
K
X
ρ̂2 (k).
(6.5)
k=1
Sous l’hypothèse de non-corrélation des K premières valeurs de la série (H0 : ρX (1) =
ρX (2) = . . . = ρX (K) = 0), cette statistique suit asymptotiquement une loi du Chi-2 à
(K) degrés de liberté. L’adéquation du modèle est rejetée au risque α, si :
QK > χ21−α (K).
6.2.0.2
Test de Ljung-Box
Le test de Ljung-Box de non-corrélation est basé sur la statistique suivante :
QLB = T (T + 2)
K
X
ρ̂2 (k)
.
T
−
k
k=1
(6.6)
Cette statistique QLB est également distribuée selon une loi de Chi-2 à (K) degrés de
liberté sous H0 .
66
CHAPTER 6. TESTS
Dans FinMetrics, l’instruction autocorTest() permet de mettre en place ces deux tests.
L’option par défaut method="lb" permet d’utiliser la statistique de Ljung-Box et l’option
method="bp" permet d’utiliser la statistique de Box-Pierce. L’option lag.n permet de
choisir l’entier K. Le choix de K n’est pas automatique. En pratique, on fait varier K et
on observe les changements dans la P-value ou la valeur de la statistique.
Le test de Ljung-Box sur la série du taux de croissance de l’IPI est réalisé à l’aide de
l’instruction autocorTest(), de la manière suivante :
> autocorTest(dipi,lag.n=1)
Test for Autocorrelation: Ljung-Box
Null Hypothesis: no autocorrelation
Test Statistics:
Test Stat 25.1241
p.value 0.0000
Dist. under Null: chi-square with 1 degrees of freedom
Total Observ.: 225
Ainsi, en prenant K = 1, on rejette l’hypothèse nulle d’absence d’autocorrélation dans la
série. De même, en augmentant le nombre K, la p-value reste toujours proche de zéro.
Cela signifie donc que cette série n’a pas été engendrée par un bruit blanc et que l’on
pourra alors chercher à mettre en place un processus sur cette série afin de modéliser
l’espérance conditionnelle.
Remarque 6.2 Lorsqu’on cherche à tester la blancheur de résidus (εt )t issus d’un processus ARMA(p, q), le nombre de degré de liberté des tests est égal à (K − p − q). A noter
que ces tests de blancheur de type Portmanteau sont à utiliser avec prudence car ils sont
connus pour leur faible puissance.
6.3
Test de Normalité
Ce test permet de tester l’hypothèse nulle de Normalité de la distribution non conditionnelle de (Xt )t . Ce test vient en complément du test de Kolmogorov-Smirnov disponible
dans S-Plus (ks.gof()). On renvoie au cours de statistique pour un rappel de ces tests.
Il est réalisé à l’aide de l’instruction normalTest(). L’option method permet de choisir le
type de test, soit le test de Shapiro-Wilks (method="sw", option par défaut), soit le test
de Jarque-Bera (method="jb").
6.4. TEST DE PRÉSENCE D’EFFET ARCH
67
Ainsi, si l’on désire tester la Normalité du taux de croissance de l’IPI on effectue la commande suivante :
> normalTest(dipi,method="jb")
Test for Normality: Jarque-Bera
Null Hypothesis: data is normally distributed
Test Statistics:
Test Stat 0.810
p.value 0.667
Total Observ.: 225
Les résultats indiquent donc que l’on peut accepter l’hypothède nulle de Normalité avec
un risque α élevé (p-value de 0.667).
6.4
Test de présence d’effet ARCH
Ce test du multiplicateur de Lagrange permet de tester l’hypothèse nulle d’homoscédasticité
contre l’hypothèse alternative d’une composante ARCH dans la série d’étude, notée (Yt )t .
On se réfère, par exemple, à Guégan (1994) pour un descriptif précis du test. Dans la
pratique, on utilise le fait que la statistique du multiplicateur de Lagrange, notée FL ,
vérifie l’égalité asymptotique suivante :
FL ∼ T R2 ,
(6.7)
où R2 est le coefficient de détermination issu de la régression linéaire avec constante de Yt2
2
2
sur Yt−1
, . . . , Yt−p
et où T est le nombre d’observations utilisées dans la régression. Sous
l’hypothèse nulle d’homoscédasticité, la statistique FL suit une loi du Chi-deux à p degrés
de liberté. Une valeur de FL élevée est due à une valeur élevée du coefficient de détermination R2 , ce qui signifie que le pouvoir explicatif des variables exogènes dans l’équation
2
2
de régression de Yt2 sur Yt−1
, . . . , Yt−p
est élevé. Dans ce cas, on a alors tendance à rejeter
l’hypothèse nulle d’homoscédasticité.
Le test du multiplicateur de Lagrange d’effet ARCH se met en place à l’aide de la commande archTest(). L’option lag.n permet de choisir le nombre p de retards à inclure
dans la régression. Il est conseillé de faire varier p et de vérifier que les résultats du test
convergent. Toutefois, ce test n’est pas puissant pour spécifier le processus ARCH(p).
68
CHAPTER 6. TESTS
Pour tester la présence d’effet ARCH dans la série du taux de croissance de l’IPI on effectue la commande suivante:
> archTest(dipi, lag.n = 1)
Test for ARCH Effects: LM Test
Null Hypothesis: no ARCH effects
Test Statistics:
Test Stat 0.8420
p.value 0.3588
Total Observ.: 225
Les résultats indiquent que l’on accepte l’hypothèse nulle d’absence d’effet ARCH avec un
risque standard. Par conséquent, il ne semble pas utile de mettre en place un processus
de type GARCH sur cette série.
Chapter 7
Bibliographie
• Adenstedt, R.K. (1974), "On large sample estimation for the mean of a stationary random sequence", Annals of Mathematical Statistics, 2, 1095-1107.
• Akaike, H. (1977), "On entropy maximisation principle", in Applications of Statistics, Edition
Krisnaiah, 27-41, North-Holland.
• Ansley, C.F. (1979), "An algorithm for the exact likelihood of a mixed autoregressive-moving
average process", Biometrika, 66, 59-65.
• Avouyi-Dovi, S., Guégan, D., Ladoucette, S. (2001), "Application des processus longue mémoire à
l’analyse des indices boursiers", NR GRID 01-12, Ecole Normale Supérieure de Cachan, France.
• Barkoulas, J.T. and Baum, C.F. (1997), "Fractional differencing modeling and forecasting of eurocurrency", Journal of Financial Research, 20, 355-372.
• Baillie, R.T. (1996), "Long memory processes and fractional integration in econometrics", Journal
of Econometrics, 73, 5-59.
• Baillie, R.T. and Bollerslev T. (1989), "The message in daily exchange rates: a conditional variance
tale", Journal of Business and Economics Statistics, 7, 297-305.
• Baillie, R.T. and Bollerslev T. (1992), "Prediction in dynamics models with time-dependent conditional variances", Journal of Econometrics, 52, 91-113.
• Baillie, R.T., Chung, C.-F. and Tieslau, M.A. (1996), "Analysing inflation by the fractionally
integrated ARFIMA-GARCH model", Journal of Applied Econometrics, 11, 23-40.
• Baillie, R.T., Bollerslev, T. and Mikkelsen, H.-O. (1996), "Fractionally integrated generalized
autoregressive conditional heteroskesdasticity", Journal of Econometrics, 73, 3-30.
• Becker, R.A., Chambers, J.M. and Wilks, A.R. (1988), The New S Language: A programming Environment for Data Analysis and Graphics, Chapman and Hall, New York (anciennement Wadsworth
and Brooks/Cole).
• Beine, M., Bénassy-Quéré, A., and Lecourt, C. (1999), "Central Bank intervention and foreign
exchange rates: New evidence from FIGARCH estimations", CEPII Working Paper no 9914.
• Beran, J. (1994), Statistics for Long-Memory Processes, Chapman and Hall, London.
• Beran, J. and Ocker, D. (1999), "SEMIFAR forecasts, with applications to foreign exchanges rates"
, Journal of Statistical Planning and Inference, 80, 137-153.
69
70
CHAPTER 7. BIBLIOGRAPHIE
• Bisaglia, L. (1998), Processi a memoria lunga : problemi di stima, identificazione e previsione,
Dottora di Ricerca in Statistica, Ciclo X, Universita degli Studi di Padova.
• Bisaglia, L. and Guégan, D. (1998), "A comparison of techniques of estimation in long-memory
processes : application to intra-day data", Computationnal Statistics and Data Analysis, 27, 61-81.
• Bollerslev, T. (1986), "Generalized autoregressive conditional heteroscedasticity", Journal of Econometrics, 31, 307-327.
• Bollerslev, T. (1987), "A conditionally heteroscedastic time series model for speculative prices and
rates return", Review of Economics and Statistics, 69, 542-547.
• Bollerslev, T. (1990), "Modeling the coherence in short-run nominal exchanges rates: A multivariate generalized ARCH model", Review of Economics and Statistics, 72, 498-505.
• Bollerslev, T., Chou, R. and Kroner, K. (1992), "ARCH modeling in finance: A review of the
theory and empirical evidence", Journal of Econometrics, 52, 5-59.
• Bollerslev, T. and Ghysels, E. (1996), "On periodic autoregression conditional heteroskedasticity",
Journal of Business and Economic Statistics, 14, 139-152.
• Bowman, A.W. and Azzalini, A. (1997), Applied smoothing Techniques for Data Analysis: the
Kernel Approach with S-Plus Illustrations, Claredon Press.
• Box, G.E and Pierce, D. (1970), "Distribution of residual autocorrelation in autoregressive integrated moving average time series models", Journal of the American Statistical Association, 65,
1509-1529.
• Box, G.E.P. and Jenkins, G.M. (1976), Time Series Analysis: Forecasting and Control., 2nd edition, Holden-Day, San Francisco.
• Box, G.E.P. and Tiao, G.C. (1975), "Intervention analysis with applications to economic and
environmental problems", Journal of the American Statistical Association, 70, 70-79.
• Brock, W.A., Hsieh, D.A. and Lebaron, B. (1993), Nonlinear Dynamics, Chaos and Instability,
MIT Press.
• Brockwell, P.J. and Davis, R.A. (1987), Time Series: Theory and Methods, Springer-Verlag, New
York.
• Burg, J.P. (1967), "Maximum entropy spectral analysis", paper presented at the 37th Annual
International SEG Meeting, Oklahoma City, Oklahoma.
• Chambers, J.M. and Hastie, T.J. (1992), Statistical Models in S, Chapman and Hall, New York
(anciennement Wadsworth and Brooks/Cole).
• Chauveau, T., Damon, J. et Guégan, D. (1999), "Testing for non linearity in intra-day financial series: the cases of two french stocks", Doc. de Travail 1999-06/FI, Caisse des Dépôts et
Consignations, Paris.
• Cheung, Y.W. (1993), "Long memory in foreign-exchanges rates", Journal of Business and Economic Statistics, 11, 93-101.
• Cheung, Y.W. and Lai, K.S. (1993), "A fractional cointegration analysis of purchasing power
parity", Journal of Business and Economic Statistics, 11, 103-112.
• Cheung, Y.W. and Lai, K. (1995), "A search of long memory in international stock market returns",
Journal of International Money and Finance, 14, 597-615.
71
• Chow, K.V., Denning, K.C., Ferris, S. and Noronha, G. (1995), "Long-term and short-term price
memory in the stock market", Economics Letters, 49, 287-293.
• Cleveland, R.B, Cleveland, W.S., McRae, J.E. and Terpening, I. (1990), "STL: a seasonal-trend
decomposition procedure based on loess", Journal of Official Statistics, 6, 3-73.
• Collet, J. et Guégan, D. (2002), "Forecasting with non Gaussian long memory processes", NR
GRID 02-02, Ecole Normale Supérieure de Cachan, France.
• Crato, N. and de Lima, P.J.F. (1994), "Long-range dependence in the conditional variance of stocks
returns", Economics Letters, 45, 281-285.
• Dahlhaus, R. (1989), "Efficient parameter estimation for self-similar processes", Annals of Statistics, 17, 1749-1766.
• Davies, R.B. and Harte, D.S. (1987), "Tests for Hurst effect", Biometrika, 74, 95-101.
• Delgado, M.A. and Robinson, P.M. (1994), "New methods for the analysis of long-memory time
series: application to spanish inflation", Journal of Forecasting, 13, 97-107.
• Dennis, J.E., Gay, D.M. and Welsh, R.E. (1980), "An adaptative nonlinear least-squares algorithm", ACM Transaction Mathematical Software, 7, 348-383.
• Dickey, D.A. and Fuller, W.A. (1979), "Distribution of the estimators for autoregressive time series
with a unit root", Journal of the American Statistical Association, 74, 427-431.
• Dickey, D.A. and Fuller, W.A. (1981), "Likelihood ratio statistics for autoregressive time series
with a unit root" Econometrica, 49, 1057-1072.
• Diebold, F.X. and Rudebusch, G.D. (1989), "Long memory and persistence in aggregate output",
Journal of Monetary Economics, 24, 189-209.
• Diebolt, J. et Guégan, D. (1991), "Le modèle de séries chronologiques β-ARCH", CRAS, Série I,
312, 625-630.
• Diebolt, J. and Guégan, D. (1993), "Tail beahaviour of the stationary density of general non linear
autoregressive processes of order 1", Journal of Applied Probability, 30, 315-329.
• Ding, Z., Granger, C.W.J. and Engle, R.F. (1993), "A long memory property of stock market and
a new model", Journal of Empirical Finance, 1, 83-106.
• Enders, W. (1995), Applied Econometric Time Series, Wiley, New York.
• Engle, R.F. (1982), "Autoregressive conditional heteroscedasticity with estimates of the variance
of the United Kingdom inflation", Econometrica, 50, 987-1007.
• Engle, R.F. (2002), Dynamic conditional correlation - A simple class of multivariate GARCH
models, Journal of Business And Economic Statistics, 20, 3, 339-350.
• Engle, R.F. (2004), Risk and volatility: Econometric models and financial practice, American
Economic Review, 94, 3, 405-420.
• Engle, R.F. and Bollerslev, T. (1986), "Modelling the persistence of conditional variances", Econometric Review, 5, 1-50.
• Engle, R.F, Lilien, D.F. and Robins, R.P. (1987), "Estimating time varying risk premia in the term
structure. The ARCH-M model", Economica, 55, 391-407.
• Everitt, B. (1994), A Handbook of Statistical Analyses Using S-Plus, Chapman and Hall, London.
72
• Ferrara, L. (2000), Processus Longue Mémoire Généralisés : Estimation, Prévision et Applications,
Thèse de Doctorat, Université Paris 13.
• Ferrara, L. et Guégan, D. (2000a), "Analyse d’intervention et prévisions : Problématique et applications à des données de la RATP", Revue de Statistiques Appliquées, 2, 55-72.
• Ferrara, L. and Guégan, D. (2000b), "Forecasting financial time series with generalized long memory processes", in Advances in Quantitative Asset Management, 319-342, C. Dunis [ed.], Kluwer
Academic Publishers.
• Ferrara, L. and Guégan, D. (2001a), "Comparison of parameter estimation methods in cyclical long
memory time series", in Developments in Forecast Combination and Portfolio Choice, 183-199, A.
Timmermann, C.L. Dunis and J. Moody [eds.], Wiley, New York.
• Ferrara, L. and Guégan, D. (2001b), "Forecasting with k-factor Gegenbauer processes: Theory and
applications", Journal of Forecasting, 20, 581-601.
• Ferrara, L. et Guégan, D. (2002), Analyser les Séries Chronologiques avec S-Plus: Une Approche
Paramétrique, Presses Universitaire de Rennes, 147 pages.
• Fox, R. and Taqqu, M.S. (1986), "Large-sample properties of parameter estimates for strongly
dependent stationary Gaussian time series", Annals of Statistics, 14, 517-532.
• Franses, P.H. and Ooms, M. (1997), "A periodic long memory model for quarterly UK inflation",
International Journal of Forecasting, 13, 117-126.
• Fuller, W.A. (1976), Introduction to Statistical Time Series, Wiley, New York.
• Guay, A. and P. Saint-Amand, 1997, "‘Do the Hodrick-precott and Baxter-King filters provide a
good approcimation of business cycles ?"’, Working paper N. 53, CREFE.
• Geweke, J. and Porter-Hudak, S. (1983), "The estimation and application of long-memory time
series models", Journal of Time Series Analysis, 4, 221-238.
• Glosten, L., Jagannathan, R. and Runkle, D. (1993), On the relation between expected value and
the volatility of the nominal excess return on stocks, Journal of Finance, 48, 1779-1801.
• Giraitis, L. and Surgailis, D. (1990), "A central limit theorem for quadratics forms in strongly
dependent linear variables and application to asymptotical normality of Whittle’s estimate", Probability Theory and Related Fields, 86, 87-104.
• Giraitis, L., Robinson, P. and Surgailis, D. (1998), "Variance-type estimation of long memory",
Working paper, London School of Economics.
• Granger, C.W.J. and Joyeux, R. (1980), "An introduction to long-memory time series models and
fractional differencing", Journal of Time Series Analysis, 1, 15-29.
• Granger, C.W.J. and Terasvirta, T. (1993), Modelling Nonlinear Economic Relationships, Oxford
University Press, Oxford.
• Gray, H.L., Zhang, N.-F. and Woodward, W.A. (1989), "On generalized fractional processes",
Journal of Time Series Analysis, 10, 233-257.
• Guégan, D. (1994), Séries Chronologique Non Linéaires à Temps Discret, Economica, Paris.
• Guégan, D. (1999), "Note on long memory processes with cyclical behavior and heteroscedasticity",
Document de Travail 99.08, Département de Mathématiques, Université de Reims.
• Guégan, D. (2000), "A new model: The k-factor GIGARCH process", Journal of Signal Processing,
4, 265-271.
73
• Guégan, D. (2001), "A prospective study of the k-factor Gegenbauer processes with heteroscedastic
errors and an application to inflation rate", NR GRID 01-13, Ecole Normale Supérieure de Cachan,
France.
• Guégan D. et Diebolt, J. (1994), "Probabilistic properties of the β-ARCH model", Statistica Sinica,
4, 71-87.
• Haerdle, W. (1991), Smoothing Techniques with Implementation in S, Springer-Verlag, New York.
• Hamilton, J.D. (1989), "A new approach to the economic analysis of nonstationary time series
subject to changes in regime", Econometrica, 57, 357-384.
• Hamilton, J.D. (1994), Time Series Analysis, Princeton University Press.
• Harvey, A.C. (1981), Time Series Models, Wiley, New York.
• Hassler, U. and Wolters, J. (1995), "Long memory in inflation rates: international evidence",
Journal of Business and Economic Statistics, 13, 37-46.
• Hasslet, J. and Raftery, A.E (1989), "Space time modeling with long memory dependence: assessing
Ireland’s wind power ressource", Applied Statistics, 38, 1-50.
• Hauser, M.A. and Reschenhofer, E. (1995), "Estimation of the fractionally differencing parameter
with the R/S method", Computational Statistics and Data Analysis, 20, 569-579.
• Hosking, J.R.M. (1981), "Fractional differencing", Biometrika, 68, 165-176.
• Hosking, J.R.M. (1984), "Modeling persistence in hydrological time series using fractional differencing", Water Resources Research, 20, 1898-1908.
• Hosking, J.R.M. (1996), "Asymptotic distribution of the sample mean, autocovariances, and autocorrelations of long-memory time series", Journal of Econometrics, 73, 261-284.
• Hurst, H.E. (1951), "Long-term storage capacity of reservoirs", Transactions of the American
Society of Civils Engineers, 116, 770-799.
• Hurvich, C.M. and Beltrao, K.I (1993), "Asymptotics for the low-frequencies ordinates of the
periodogram of a long-memory time series", Journal of Time Series Analysis, 14, 455-472.
• Hurvich, C.M. and Beltrao, K.I (1994), "Automatic semiparametric estimation of the memory
parameter of a long-memory time series", Journal of Time Series Analysis, 15, 285-302.
• Hurvich, C.M., Deo, R., and Brodsky, J. (1998), "The mean-squared error of Geweke and PorterHudak’s estimates of the memory parameter of a long memory time series", Jornal of Time Series
Analysis, 19, 19-46.
• Hurvich, C.M. and Deo, R. (1999), "Plug-in selection of the number of frequencies in regression estimates of the memory parameter of a long-memory time series ", Journal of Time Series Analysis,
20, 331-341.
• Jarque, C. and Bera, A. (1987), A test for Normality of observations and regression residuals,
International Statistical Review, 55, 163-172.
• Krause, A. and Olson, M. (2000), The Basics of S and S-Plus, Second Edition, Springer-Verlag,
New York.
• Lam, L. (2001), An Introduction to S-Plus for Windows, Second Edition, Candiensten, Amsterdam.
• Laroque, G. (1977), "Analyse d’une méthode de désaisonnalisation: le programme X11, version
trimestrielle", Annales de l’INSEE, 28, 105-126.
74
• Ljung, G. and Box, G. (1978), "On a measure of lack of fit in time series models", Biometrika, 65,
297-303.
• Lo, A.W. (1991), "Long term memory in stock market prices", Econometrica, 59, 1279-1313.
• Mandelbrot, B.B. (1972), "A statistical methodology for non-periodic cycles: From the covariance
to R/S analysis", Annals of Economic and Social Measurement, 1, 259-290.
• Mandelbrot, B.B. (1975), "Limits theorems on the self-normaized range for weakly and strongly
dependent processes", Zeitschrift fur Wahrscheinlichkeitstheorie und Vewandte Gebiete, 31, 271285.
• Mandelbrot, B.B. and Wallis J.R. (1969), "Robustness of the rescaled range R/S in the measurement of noncyclic long-run statistical dependence", Water Resources Research, 5, 967-988.
• Mandelbrot, B.B. and Taqqu, M.S. (1979), "Robust R/S analysis of long-run serial correlation",
Bulletin of the International Statistical Institute, 48, 69-99.
• Mathsoft (1996), S+GARCH User’s Manual, Data Analysis Products Division, Seattle, WA.
• Mathsoft (1999), S-PLUS 2000 User’s Guide, Data Analysis Products Division, Seattle, WA.
• Mathsoft (1999), S-PLUS 2000 Programmer’s Guide, Data Analysis Products Division, Seattle,
WA.
• Mathsoft (1999), S-PLUS 2000 Guide to Statistics, Vol. 1 and Vol. 2, Data Analysis Products
Division, Seattle, WA.
• Nelson, D.B. (1990), "Stationary and persistence in the GARCH(1,1) model", Econometric Theory,
6, 318-334.
• Nelson, D.B. (1991), "Conditional heteroskedasticity in asset returns: A new approach", Econometrica, 59, 347-370.
• Phillips, P.C.B. (1987), "Time series regression with a unit root", Econometrica, 55, 277-301.
• Phillips, P.C.B. and Perron, P. (1988), "Testing for a unit root in time series regression", Biometrika,
75, 335-346.
• Porter-Hudak, S. (1990), "An application to the seasonal fractionally differenced model to the
monetary aggregates", Journal of the American Statistical Association, 85, 338-344.
• Priestley, M.B. (1981), Spectral Analysis of Time Series, Academic Press, New York.
• Ray, B.K. (1993a), "Modelling long-memory processes for optimal long-range prediction", Journal
of Time Series Analysis, 14, 511-526.
• Ray, B.K. (1993b), "Long-range forecasting of IBM product revenues using a seasonal fractionally
differenced ARMA model", International Journal of Forecasting, 9, 255-269.
• Robinson, P.M. (1994), "Semiparametric analysis of long memory time series", Annals of Statistics,
22, 515-539.
• Robinson, P.M. (1995), "Log-periodogram regression of time series with long range dependence",
Annals of Statistics, 23, 1048-1072.
• Shiskin, J., Young, A. and Musgrave, J. (1965), "The X11 variant of the Census method X11
seasonal adjustment program", Technical paper 15, Bureau of Census.
• Smith, J. (1993), "Long range dependence and global warming", in Statistics of the Environment,
141-161, V. Barnett and K. Feridun Turkman eds., Wiley, New York.
75
• Sowell, F. (1992), "Maximum likelihood estimation of stationary univariate fractionally integrated
time series models", Journal of Econometrics, 53, 165-188.
• Spector, P. (1994), An Introduction to S and S-Plus, Duxbury Press, Belmont, CA.
• Sutcliffe, A. (1994), "Time-series forecasting using fractional differencing", Journal of Forecasting,
13, 383-393.
• Taqqu, M.S. (1975), "Weak convergence to fractional Brownian motion and to the Roseblatt process", Zeitschrift fur Wahrscheinlichkeitstheorie und Vewandte Gebiete, 31, 287-302.
• Taqqu, M.S. (1977), "Law of the iterated logarithm for sums of non-linear functions of Gaussian
variables that exhibit a long range dependence", Zeitschrift fur Wahrscheinlichkeitstheorie und
Vewandte Gebiete, 40, 203-238.
• Taqqu, M.S., Teverovsky, V. and Willinger, W. (1995), "Estimators for long-range dependence: an
empirical study", Fractals, 3, 785-798.
• Tong, H. (1990), Non Linear Times Series: A Dynamical Systems Approach, Oxford University
Press, Oxford.
• Tsay, R.S. (1987), "Conditional heteroskedasticity time series analysis", Journal of the American
Statistical Association, 82, 590-604.
• Tse, Y.K., (1998), "The conditional heteroscedasticity of the Yen-Dollar exchange rates", Journal
of Applied Econometrics, 13, 49-56.
• Teverovsky, V. and Taqqu, M.S. (1997), "Testing for long-range dependence in the presence of
shifting mean or a slowly declining trend, using a variance-type estimator", Journal of Time
Series Analysis, 18, 279-304.
• Velasco, C. (1999), "Gaussian semiparametric estimation of non-stationary time series", Journal
of Time Series Analysis, 20, 87-127.
• Venables, W.N. and Ripley, B.D. (1999), Modern Applied Statistics with S-PLUS, Third Edition,
Springer-Verlag, New York.
• Venables, W.N. and Ripley, B.D. (2000), S Programming, Springer-Verlag, New York.
• Wallis, K.F. (1974), "Seasonal adjustment and relations between variables", Journal of the American Statistical Association, 69, 18-32.
• Weiss, A.A. (1984), "ARMA models with ARCH errors", Journal of Time Series Analysis, 5,
129-143.
• Willinger, W., Taqqu, M.S. and Teverovsky, V. (1999), "Stock market prices and long range
dependence", Finance and Stochastics, 3, 1-13.
• Woodward, W.A., Cheng, Q.C. and Gray, H.L. (1998), "A k-factor GARMA long-memory model",
Journal of Time Series Analysis, 19, 485-504.
• Yajima, Y. (1985), "On estimation of long-memory time series models", Australian Journal of
Statistics, 27, 303-320.
• Yajima, Y. (1989), "A central limit theorem of Fourier transforms of strongly dependent stationary
processes", Journal of Time Series Analysis, 10, 375-383.
• Zakoian, J.M, (1990), "Threshold heteroskedastic models", Journal of Economic Dynamics and
Control, 18, 931-955.

Séries Temporelles Avancées Polycopié de Cours

Transcription

Documents pareils

Arma Crème - Deb Group

donnees techniques photos documents

ARMA-GEL-PLUS

1ere demande d`adhesion - Alpes Spirit Chapter Annecy

Directeur aux communications ()

inter-chapter sud-est

Naturel - Deb Group

modèle/type/code - EMC Motoculture

Télécharger le Formulaire

PRESTIGE 2015