Modélisation Garch pour des séries `a valeurs enti`eres non

Transcription

Modélisation Garch pour des séries à valeurs
entières non négatives : application aux cas de
campylobactériose
René Ferland(1) , Alain Latour(2) & Driss Oraichi(1)
(1)
Université du Québec à Montréal ; Département de mathématiques ; Case postale 8888,
Succursale Centre-ville ; Montréal (Québec) H3C 3P8 ; Canada
(2)
LabSAD ; Université Pierre Mendès-France ; Bâtiment Sciences Humaines et
Mathématiques ; Campus Universitaire de St-Martin d’Hères ; 1251, avenue Centrale ;
B.p. 47 - 38 040 Grenoble cedex 9
Résumé
Analogue au modèle garch classique, un modèle relativement simple pour des
processus à valeurs entières non négatives est suggéré. Soit {Xt }t∈ la série étudiée.
Dans le modèle proposé, la distribution conditionnelle au temps t−1 de Xt est une loi
de Poisson de paramètre λt et λt est une fonction linéaire des q valeurs précédentes de
la série et des p valeurs antérieurement prises par ‹‹λt ››. Nous obtenons des conditions
d’existence et de stationnarité d’un tel processus. Nous nous attardons quelque peu
sur le modèle où p = 1 et q = 1. Nous montrons, qu’au second ordre, il s’agit d’un
processus Arma(1; 1). Nous abordons le problème de l’estimation des paramètres
de ce modèle par la méthode du maximum de vraisemblance conditionnelle. Un
exemple réel est traité, celui de la série des cas de campylobactériose observés dans
le nord du Québec.
Mots-clés. Séries chronologiques à valeurs entières ; Modèle Garch ; Hétéroscédasticité ;
Campylobactériose.
Abstract
A quite simple integer-valued model, similar to the classical Garch model is
suggested. Poisson deviates are used instead of normal deviates. Conditions for the
existence of stationarity of such a process are given. Peculiar attention is devoted to
the very special case where p = 1 and q = 1 for which we explicitly show that, from
a second order point of view, this integer-valued Garch process is nothing but a
standard Arma(1, 1) process. Perhaps with caution, classical second order results
concerning Arma processes can be applied in the analysis of such a time series.
We discuss the maximum likelihood estimation of the parameters. An application
of this model to a real time series is given.
Keywords. Integer-valued time series ; Garch model ; Heteroskedastic ; Campylobacteriosis.
1
60
50
40
30
20
10
0
0
30
60
90
120
150
Fig. 1: Nombre de cas de campylobactériose observés dans le nord du Québec de janvier 1990 à octobre
2000. Xt est le nombre de cas observés au cours des 28 derniers jours. On dispose donc de 13 observations
par année.
1
Introduction
En épidémiologie, les données se présentent souvent sous forme de séries chronologiques à valeurs entières : il s’agit du nombre de cas observés de maladies données durant
une période fixe, souvent 28 jours. La surveillance préventive des épidémies se fait en
exigeant des médecins qu’ils informent les autorités gouvernementales de tous les cas
diagnostiqués de certaines maladies. Il s’agit des maladies à déclaration obligatoire. Tout
comme, la méningite ou l’hépatite, la campylobactériose en est une. Pour certaines maladies relativement rares, les valeurs observées ont une étendue particulièrement restreinte.
Dans Cardinal (1995), différentes approches sont considérées dans le but de modéliser ces
séries : des modèles classiques tels que les modèles Arima (voir Brockwell et Davis (1991))
et des modèles moins classiques tels que les modèles Genar introduits par Gauthier et
Latour (1994). Le modèle Sitar a été exploité par Franke et Seligmann (1993) pour des
séries donnant le nombre quotidien de crises d’épilepsie d’un patient avant et après un
traitement.
Dans plusieurs cas, l’hypothèse d’homogénéité de la variance est trop forte. Dans
certaines séries chronologiques, on note en effet que la variance semble augmenter avec le
niveau de la série. Un tel comportement se manifeste dans la série de la figure 1.
Le graphique correspond au nombre de cas de campylobactériose observés dans le
nord du Québec de janvier 1990 à octobre 2000. Ici, Xt est le nombre de cas observés au
cours des 28 derniers jours. On dispose donc de 13 observations par année. Tout comme
le niveau moyen, la variation semble plus importante à la fin qu’au début de la série.
2
2
Processus ARCH et GARCH à valeurs entières
Les modèles présentés dans ce travail sont inspirés de ceux de Bollerslev (1986) et
de Engle (1982). Dans un premier temps, nous définissons un processus Arch dont les
distributions conditionnelles sont de Poisson. Le processus Garch à valeurs entières est
une extension de celui-ci. Dans ce dernier cas, λt , étant donné le passé jusqu’à l’instant
t − 1, est une combinaison linéaire des valeurs antérieures Xt−1 , . . . , Xt−q et de ses propres
valeurs antérieures, λt−1 , . . . , λt−p .
2.1 Processus ARCH à valeurs entières. Engle (1982) a considéré le modèle suivant :

 Xt |Ft−1 : Nq (0, ht );
2
γi Xt−i
;
 ht = γ0 +
i=1
sans préciser si t ∈ N ou si t ∈ Z. Dans cette notation, N (µ; σ 2 ) est la distribution
normale de moyenne µ et de variance σ 2 . Nous proposons :

t );
 Xt |Ft−1 : P(λ
q
(1)
γi Xt−i , ∀t ∈ Z.
 λt = γ0 +
i=1
Dans cette notation, P(λ) est la distribution de Poisson de moyenne λ. L’utilisation de la
loi de Poisson est assez naturelle dans l’élaboration d’un modèle pour le type de données
qui nous intéressent. On peut aussi consulter : Davis et al. (2003) et Davis et al. (1999).
2.2 Existence du processus ENARCH(q ).
Théorème 2.1 Pour i = 1, . . . , q, soit γi tels que 0 ≤ γi < 1, (γq = 0) et tels que
q
i=1 γi < 1. Alors, il existe {Xt }t∈Z , un processus à valeurs entières non négatives stationnaire au second ordre satisfaisant (1).
Définition 2.1 Un processus satisfaisant (1) tel que les paramètres satisfont les hypothèses du théorème 2.1 est dit Enarch d’ordre q.
2.3 Processus GARCH à valeurs entières. Une extension naturelle du processus
de la définition 2.1 est :


t );
 Xt |Ft−1 : P(λ
q
p
(2)
γi Xt−i +
δj λt−j ;

 λt = γ0 +
i=1
j=1
∀t ∈ Z. Dans ce modèle, 0 ≤ δi < 1 pour i = 1, . . . , p − 1 et 0 < δp < 1.
3
Soit D(B) = 1 − δ1 B − · · · − δp B p et G(B) = γ1 B + · · · + γq B q où B est l’opérateur de
décalage arrière. Nous supposonsque les racines de D(z) = 0 sont à l’extérieur du cercle
p
unitaire : il suffit que D(1) =
j=1 δj < 1, hypothèse que nous supposons désormais
satisfaite. Sous cette condition, l’opérateur D(B) a un inverse dénoté par D−1 (B). Ainsi :
λt = D−1 (B) (γ0 + G(B)Xt ) = γ0 D−1 (1) + G(B)D−1 (B)Xt = γ0 D−1 (1) + H(B)Xt
où H(B) = G(B)D−1 (B) =
∞
ψj B j .
j=1
Proposition 2.1 S’il existe un processus stationnaire au second ordre satisfaisant (2)
alors : δ1 + · · · + δp + γ1 + · · · + γq < 1.
Soit {ζt }t∈Z une suite de variables de Poisson indépendantes de moyenne γ0 /(1 − δ1 −
· · · − δp ). Soit {Zt,i,k }t∈Z, k∈N des suites variables indépendantes de Poisson de moyenne
ψi , i = 1, . . . , ∞. Considérons la suite :

0,
n < 0;




n = 0;
 ζt ,
(n)
(n−1)
Xt =
X
∞ t−i



Zt−i,i,k + ζt , n > 0.


i=1
k=1
La limite de cette suite nous conduit au processus souhaité.
Proposition 2.2 Si δ1 + · · · + δp + γ1 + · · · + γq < 1, alors :
(n)
1. La suite {Xt }t∈Z a une limite presque sûre.
2. Les deux premiers moments de la limite presque sûre existent : le processus est donc
stationnaire au sens large.
(n)
3. La suite {Xt }t∈Z a une limite en moyenne quadratique.
Il faut aussi vérifier que les lois conditionnelles sont de Poisson.
2.4 Le processus ENGARCH(1, 1). Dans le cas particulier où p = q = 1, nous
avons
Xt |Ft−1 : P (λt );
(3)
λt = γ0 + γ1 Xt−1 + δ1 λt−1 ;
∀t ∈ Z. Dans ce modèle, 0 < δ1 < 1, et 0 < γ1 < 1. On a les résultats suivants.
Proposition 2.3 Les moments d’un processus Engarch (1, 1) sont tous finis si, et seulement si, γ1 + δ1 < 1. Dans ce cas :
1. La valeur moyenne du processus est donnée par : µ = γ0 /[1 − (γ1 + δ1 )].
4
2. Sa variance est :
V [Xt ] = µ 1 − (γ1 + δ1 )2 + γ12 / 1 − (γ1 + δ1 )2 .
3. De plus, sa fonction d’autocovariance est :
γ(r) = µγ1 (1 − δ1 (γ1 + δ1 )) (γ1 + δ1 )r−1 / 1 − (γ1 + δ1 )2 , ∀r ≥ 1.
Appliquant un résultat de Brockwell et Davis (1991), p. 90, on obtient le corollaire 2.1.
Corollaire 2.1 Soit {Xt }t∈Z un processus Engarch (1, 1) satisfaisant (3). Alors, {Xt }t∈Z
est un Arma(1; 1) pouvant s’écrire sous la forme :
(Xt − µ) − (γ1 + δ1 )(Xt−1 − µ) = et − δ1 et−1
(4)
où {et }t∈Z est un bruit blanc faible de variance σ 2 = µ = γ0 /(1 − φ1 − δ1 ).
3
Estimation des paramètres
La vraisemblance des n observations X1 , X2 , . . . , Xn , conditionnelle aux quelques valeurs
antérieures, peut s’écrire :
n
e−λt λt Xt
L(Θ) =
Xt !
t=1
où
Θ = (γ0 , γ1 , . . . , γq , δ1 , . . . , δp ) = (θ0 , . . . , θp+q )
et λt = γ0 +
q
γi Xt−i +
i=1
p
δj λt−j .
j=1
La solution à ce problème s’obtient numériquement. Comme dans Bollerslev (1986), si n
est suffisamment grand, la distribution de cet estimateur est asymptotiquement normale :
Θ̂ ∼ N (Θ0 , n−1 I(Θ0 )−1 )
où I(Θ0 ) est la matrice d’information de Fisher évaluée en Θ0 , la vraie valeur de Θ. De
plus, on dispose d’un estimateur convergent pour la matrice d’information.
4
Intervalle de confiance pour la prévision
Pour construire l’intervalle de confiance pour la prévision d’horizon 1, nous suggérons
l’approche suivante. À chaque instant t, calculer la valeur ajustée de λt , dénotée ici par
λ̂t :
q
p
λ̂t = γ0 +
γi Xt−i +
δj λ̂t−j .
i=1
j=1
5
Alors, déterminer deux valeurs at and bt , telles que :
(1) Pr (at ≤ P(λ̂t ) ≤ bt ) ≥ 1 − α,
(2) la longueur de l’intervalle, bt − at , est minimale.
5
Application
La campylobactériose est une maladie à déclaration obligatoire. Il s’agit d’une infection
sévère du système digestif. Les données disponibles couvrent la période allant de janvier
1990 à octobre 2000. Nous disposons de 13 observations par année, une tous les 28 jours.
Le modèle retenu a été :
Xt |Ft−1 : P(λt )
(5)
λt = γ0 + γ1 Xt−1 + δ13 λt−13
Les paramètres estimés pour le modèle retenu ont été :
Paramètre
γ0
γ1
δ13
Valeur 2,3135 0,5484 0,2752
Bibliographie
Bollerslev, T. (1986). Generalized autoregressive conditional heteroskedasticity. J. of
Econometrics, 31 :307–327.
Brockwell, P. et Davis, R. (1991). Time series : Theory and methods. Springer-Verlag,
New York, 2e édition.
Cardinal, M. (1995). Modélisation temporelle d’incidence de maladies. Mémoire de
maı̂trise, Département de médecine sociale et préventive, Faculté de médecine, Université de Montréal.
Davis, R., Dunsmuir, W., et Streett, S. (2003). Observation driven models for Poisson
counts. Biometrika, 90 :777–790.
Davis, R., Dunsmuir, W., et Wang, Y. (1999). Modelling Time Series of Count Data,
Asymptotics, Nonparametrics, and Time Series. Marcel-Dekker, New York.
Engle, R. F. (1982). Autoregressive conditional heteroskedasticity with estimate of the
variance of U. K. inflation. Econometrica, 15 :286–301.
Franke, J. et Seligmann, T. (1993). Conditional maximum likelihood estimates for inar(1)
processes and their application to modelling epileptic seizure counts. In Rao, T. S.,
editor, Developments in Time Series Analysis, New York. Chapmann and Hall.
Gauthier, G. et Latour, A. (1994). Convergence forte des estimateurs des paramètres d’un
processus GEnAr(p). Ann. sc. math. Québec, 18 :49–71.
6

Modélisation Garch pour des séries `a valeurs enti`eres non

Transcription

Documents pareils

Analyse complexe, L3, 2007 5-me feuille de TD Exercice 1 (a

GIF-1001 Ordinateurs: Structure et Applications Exercices : Le port

Chapitre 4 : Séries Enti`eres

ECN 6578, Hiver 2008 : Travail Pratique 1

BULLETIN DE RÉSERVATION

Impossible à dire de Patricia Reilly Giff Un vrai coup de coeur! C`est

CONTRˆOLE CONTINU Séries numériques Durée : 1h30 Les

Problème sous titres caractères accentués

CCP 2006 -PSI premi`ere épreuve : corrigé Partie I. Partie II.

Zoning Map

CArPrO300 film Sécurité