Modélisation Garch pour des séries `a valeurs enti`eres non

Transcription

Modélisation Garch pour des séries `a valeurs enti`eres non
Modélisation Garch pour des séries à valeurs
entières non négatives : application aux cas de
campylobactériose
René Ferland(1) , Alain Latour(2) & Driss Oraichi(1)
(1)
Université du Québec à Montréal ; Département de mathématiques ; Case postale 8888,
Succursale Centre-ville ; Montréal (Québec) H3C 3P8 ; Canada
(2)
LabSAD ; Université Pierre Mendès-France ; Bâtiment Sciences Humaines et
Mathématiques ; Campus Universitaire de St-Martin d’Hères ; 1251, avenue Centrale ;
B.p. 47 - 38 040 Grenoble cedex 9
Résumé
Analogue au modèle garch classique, un modèle relativement simple pour des
processus à valeurs entières non négatives est suggéré. Soit {Xt }t∈ la série étudiée.
Dans le modèle proposé, la distribution conditionnelle au temps t−1 de Xt est une loi
de Poisson de paramètre λt et λt est une fonction linéaire des q valeurs précédentes de
la série et des p valeurs antérieurement prises par ‹‹λt ››. Nous obtenons des conditions
d’existence et de stationnarité d’un tel processus. Nous nous attardons quelque peu
sur le modèle où p = 1 et q = 1. Nous montrons, qu’au second ordre, il s’agit d’un
processus Arma(1; 1). Nous abordons le problème de l’estimation des paramètres
de ce modèle par la méthode du maximum de vraisemblance conditionnelle. Un
exemple réel est traité, celui de la série des cas de campylobactériose observés dans
le nord du Québec.
Mots-clés. Séries chronologiques à valeurs entières ; Modèle Garch ; Hétéroscédasticité ;
Campylobactériose.
Abstract
A quite simple integer-valued model, similar to the classical Garch model is
suggested. Poisson deviates are used instead of normal deviates. Conditions for the
existence of stationarity of such a process are given. Peculiar attention is devoted to
the very special case where p = 1 and q = 1 for which we explicitly show that, from
a second order point of view, this integer-valued Garch process is nothing but a
standard Arma(1, 1) process. Perhaps with caution, classical second order results
concerning Arma processes can be applied in the analysis of such a time series.
We discuss the maximum likelihood estimation of the parameters. An application
of this model to a real time series is given.
Keywords. Integer-valued time series ; Garch model ; Heteroskedastic ; Campylobacteriosis.
1
60
50
40
30
20
10
0
0
30
60
90
120
150
Fig. 1: Nombre de cas de campylobactériose observés dans le nord du Québec de janvier 1990 à octobre
2000. Xt est le nombre de cas observés au cours des 28 derniers jours. On dispose donc de 13 observations
par année.
1
Introduction
En épidémiologie, les données se présentent souvent sous forme de séries chronologiques à valeurs entières : il s’agit du nombre de cas observés de maladies données durant
une période fixe, souvent 28 jours. La surveillance préventive des épidémies se fait en
exigeant des médecins qu’ils informent les autorités gouvernementales de tous les cas
diagnostiqués de certaines maladies. Il s’agit des maladies à déclaration obligatoire. Tout
comme, la méningite ou l’hépatite, la campylobactériose en est une. Pour certaines maladies relativement rares, les valeurs observées ont une étendue particulièrement restreinte.
Dans Cardinal (1995), différentes approches sont considérées dans le but de modéliser ces
séries : des modèles classiques tels que les modèles Arima (voir Brockwell et Davis (1991))
et des modèles moins classiques tels que les modèles Genar introduits par Gauthier et
Latour (1994). Le modèle Sitar a été exploité par Franke et Seligmann (1993) pour des
séries donnant le nombre quotidien de crises d’épilepsie d’un patient avant et après un
traitement.
Dans plusieurs cas, l’hypothèse d’homogénéité de la variance est trop forte. Dans
certaines séries chronologiques, on note en effet que la variance semble augmenter avec le
niveau de la série. Un tel comportement se manifeste dans la série de la figure 1.
Le graphique correspond au nombre de cas de campylobactériose observés dans le
nord du Québec de janvier 1990 à octobre 2000. Ici, Xt est le nombre de cas observés au
cours des 28 derniers jours. On dispose donc de 13 observations par année. Tout comme
le niveau moyen, la variation semble plus importante à la fin qu’au début de la série.
2
2
Processus ARCH et GARCH à valeurs entières
Les modèles présentés dans ce travail sont inspirés de ceux de Bollerslev (1986) et
de Engle (1982). Dans un premier temps, nous définissons un processus Arch dont les
distributions conditionnelles sont de Poisson. Le processus Garch à valeurs entières est
une extension de celui-ci. Dans ce dernier cas, λt , étant donné le passé jusqu’à l’instant
t − 1, est une combinaison linéaire des valeurs antérieures Xt−1 , . . . , Xt−q et de ses propres
valeurs antérieures, λt−1 , . . . , λt−p .
2.1 Processus ARCH à valeurs entières. Engle (1982) a considéré le modèle suivant :

 Xt |Ft−1 : Nq (0, ht );
2
γi Xt−i
;
 ht = γ0 +
i=1
sans préciser si t ∈ N ou si t ∈ Z. Dans cette notation, N (µ; σ 2 ) est la distribution
normale de moyenne µ et de variance σ 2 . Nous proposons :

t );
 Xt |Ft−1 : P(λ
q
(1)
γi Xt−i , ∀t ∈ Z.
 λt = γ0 +
i=1
Dans cette notation, P(λ) est la distribution de Poisson de moyenne λ. L’utilisation de la
loi de Poisson est assez naturelle dans l’élaboration d’un modèle pour le type de données
qui nous intéressent. On peut aussi consulter : Davis et al. (2003) et Davis et al. (1999).
2.2 Existence du processus ENARCH(q ).
Théorème 2.1 Pour i = 1, . . . , q, soit γi tels que 0 ≤ γi < 1, (γq = 0) et tels que
q
i=1 γi < 1. Alors, il existe {Xt }t∈Z , un processus à valeurs entières non négatives stationnaire au second ordre satisfaisant (1).
Définition 2.1 Un processus satisfaisant (1) tel que les paramètres satisfont les hypothèses du théorème 2.1 est dit Enarch d’ordre q.
2.3 Processus GARCH à valeurs entières. Une extension naturelle du processus
de la définition 2.1 est :


t );
 Xt |Ft−1 : P(λ
q
p
(2)
γi Xt−i +
δj λt−j ;

 λt = γ0 +
i=1
j=1
∀t ∈ Z. Dans ce modèle, 0 ≤ δi < 1 pour i = 1, . . . , p − 1 et 0 < δp < 1.
3
Soit D(B) = 1 − δ1 B − · · · − δp B p et G(B) = γ1 B + · · · + γq B q où B est l’opérateur de
décalage arrière. Nous supposonsque les racines de D(z) = 0 sont à l’extérieur du cercle
p
unitaire : il suffit que D(1) =
j=1 δj < 1, hypothèse que nous supposons désormais
satisfaite. Sous cette condition, l’opérateur D(B) a un inverse dénoté par D−1 (B). Ainsi :
λt = D−1 (B) (γ0 + G(B)Xt ) = γ0 D−1 (1) + G(B)D−1 (B)Xt = γ0 D−1 (1) + H(B)Xt
où H(B) = G(B)D−1 (B) =
∞
ψj B j .
j=1
Proposition 2.1 S’il existe un processus stationnaire au second ordre satisfaisant (2)
alors : δ1 + · · · + δp + γ1 + · · · + γq < 1.
Soit {ζt }t∈Z une suite de variables de Poisson indépendantes de moyenne γ0 /(1 − δ1 −
· · · − δp ). Soit {Zt,i,k }t∈Z, k∈N des suites variables indépendantes de Poisson de moyenne
ψi , i = 1, . . . , ∞. Considérons la suite :

0,
n < 0;




n = 0;
 ζt ,
(n)
(n−1)
Xt =
X
∞ t−i



Zt−i,i,k + ζt , n > 0.


i=1
k=1
La limite de cette suite nous conduit au processus souhaité.
Proposition 2.2 Si δ1 + · · · + δp + γ1 + · · · + γq < 1, alors :
(n)
1. La suite {Xt }t∈Z a une limite presque sûre.
2. Les deux premiers moments de la limite presque sûre existent : le processus est donc
stationnaire au sens large.
(n)
3. La suite {Xt }t∈Z a une limite en moyenne quadratique.
Il faut aussi vérifier que les lois conditionnelles sont de Poisson.
2.4 Le processus ENGARCH(1, 1). Dans le cas particulier où p = q = 1, nous
avons
Xt |Ft−1 : P (λt );
(3)
λt = γ0 + γ1 Xt−1 + δ1 λt−1 ;
∀t ∈ Z. Dans ce modèle, 0 < δ1 < 1, et 0 < γ1 < 1. On a les résultats suivants.
Proposition 2.3 Les moments d’un processus Engarch (1, 1) sont tous finis si, et seulement si, γ1 + δ1 < 1. Dans ce cas :
1. La valeur moyenne du processus est donnée par : µ = γ0 /[1 − (γ1 + δ1 )].
4
2. Sa variance est :
V [Xt ] = µ 1 − (γ1 + δ1 )2 + γ12 / 1 − (γ1 + δ1 )2 .
3. De plus, sa fonction d’autocovariance est :
γ(r) = µγ1 (1 − δ1 (γ1 + δ1 )) (γ1 + δ1 )r−1 / 1 − (γ1 + δ1 )2 , ∀r ≥ 1.
Appliquant un résultat de Brockwell et Davis (1991), p. 90, on obtient le corollaire 2.1.
Corollaire 2.1 Soit {Xt }t∈Z un processus Engarch (1, 1) satisfaisant (3). Alors, {Xt }t∈Z
est un Arma(1; 1) pouvant s’écrire sous la forme :
(Xt − µ) − (γ1 + δ1 )(Xt−1 − µ) = et − δ1 et−1
(4)
où {et }t∈Z est un bruit blanc faible de variance σ 2 = µ = γ0 /(1 − φ1 − δ1 ).
3
Estimation des paramètres
La vraisemblance des n observations X1 , X2 , . . . , Xn , conditionnelle aux quelques valeurs
antérieures, peut s’écrire :
n
e−λt λt Xt
L(Θ) =
Xt !
t=1
où
Θ = (γ0 , γ1 , . . . , γq , δ1 , . . . , δp ) = (θ0 , . . . , θp+q )
et λt = γ0 +
q
γi Xt−i +
i=1
p
δj λt−j .
j=1
La solution à ce problème s’obtient numériquement. Comme dans Bollerslev (1986), si n
est suffisamment grand, la distribution de cet estimateur est asymptotiquement normale :
Θ̂ ∼ N (Θ0 , n−1 I(Θ0 )−1 )
où I(Θ0 ) est la matrice d’information de Fisher évaluée en Θ0 , la vraie valeur de Θ. De
plus, on dispose d’un estimateur convergent pour la matrice d’information.
4
Intervalle de confiance pour la prévision
Pour construire l’intervalle de confiance pour la prévision d’horizon 1, nous suggérons
l’approche suivante. À chaque instant t, calculer la valeur ajustée de λt , dénotée ici par
λ̂t :
q
p
λ̂t = γ0 +
γi Xt−i +
δj λ̂t−j .
i=1
j=1
5
Alors, déterminer deux valeurs at and bt , telles que :
(1) Pr (at ≤ P(λ̂t ) ≤ bt ) ≥ 1 − α,
(2) la longueur de l’intervalle, bt − at , est minimale.
5
Application
La campylobactériose est une maladie à déclaration obligatoire. Il s’agit d’une infection
sévère du système digestif. Les données disponibles couvrent la période allant de janvier
1990 à octobre 2000. Nous disposons de 13 observations par année, une tous les 28 jours.
Le modèle retenu a été :
Xt |Ft−1 : P(λt )
(5)
λt = γ0 + γ1 Xt−1 + δ13 λt−13
Les paramètres estimés pour le modèle retenu ont été :
Paramètre
γ0
γ1
δ13
Valeur 2,3135 0,5484 0,2752
Bibliographie
Bollerslev, T. (1986). Generalized autoregressive conditional heteroskedasticity. J. of
Econometrics, 31 :307–327.
Brockwell, P. et Davis, R. (1991). Time series : Theory and methods. Springer-Verlag,
New York, 2e édition.
Cardinal, M. (1995). Modélisation temporelle d’incidence de maladies. Mémoire de
maı̂trise, Département de médecine sociale et préventive, Faculté de médecine, Université de Montréal.
Davis, R., Dunsmuir, W., et Streett, S. (2003). Observation driven models for Poisson
counts. Biometrika, 90 :777–790.
Davis, R., Dunsmuir, W., et Wang, Y. (1999). Modelling Time Series of Count Data,
Asymptotics, Nonparametrics, and Time Series. Marcel-Dekker, New York.
Engle, R. F. (1982). Autoregressive conditional heteroskedasticity with estimate of the
variance of U. K. inflation. Econometrica, 15 :286–301.
Franke, J. et Seligmann, T. (1993). Conditional maximum likelihood estimates for inar(1)
processes and their application to modelling epileptic seizure counts. In Rao, T. S.,
editor, Developments in Time Series Analysis, New York. Chapmann and Hall.
Gauthier, G. et Latour, A. (1994). Convergence forte des estimateurs des paramètres d’un
processus GEnAr(p). Ann. sc. math. Québec, 18 :49–71.
6