Modélisation Garch pour des séries `a valeurs enti`eres non
Transcription
Modélisation Garch pour des séries `a valeurs enti`eres non
Modélisation Garch pour des séries à valeurs entières non négatives : application aux cas de campylobactériose René Ferland(1) , Alain Latour(2) & Driss Oraichi(1) (1) Université du Québec à Montréal ; Département de mathématiques ; Case postale 8888, Succursale Centre-ville ; Montréal (Québec) H3C 3P8 ; Canada (2) LabSAD ; Université Pierre Mendès-France ; Bâtiment Sciences Humaines et Mathématiques ; Campus Universitaire de St-Martin d’Hères ; 1251, avenue Centrale ; B.p. 47 - 38 040 Grenoble cedex 9 Résumé Analogue au modèle garch classique, un modèle relativement simple pour des processus à valeurs entières non négatives est suggéré. Soit {Xt }t∈ la série étudiée. Dans le modèle proposé, la distribution conditionnelle au temps t−1 de Xt est une loi de Poisson de paramètre λt et λt est une fonction linéaire des q valeurs précédentes de la série et des p valeurs antérieurement prises par ‹‹λt ››. Nous obtenons des conditions d’existence et de stationnarité d’un tel processus. Nous nous attardons quelque peu sur le modèle où p = 1 et q = 1. Nous montrons, qu’au second ordre, il s’agit d’un processus Arma(1; 1). Nous abordons le problème de l’estimation des paramètres de ce modèle par la méthode du maximum de vraisemblance conditionnelle. Un exemple réel est traité, celui de la série des cas de campylobactériose observés dans le nord du Québec. Mots-clés. Séries chronologiques à valeurs entières ; Modèle Garch ; Hétéroscédasticité ; Campylobactériose. Abstract A quite simple integer-valued model, similar to the classical Garch model is suggested. Poisson deviates are used instead of normal deviates. Conditions for the existence of stationarity of such a process are given. Peculiar attention is devoted to the very special case where p = 1 and q = 1 for which we explicitly show that, from a second order point of view, this integer-valued Garch process is nothing but a standard Arma(1, 1) process. Perhaps with caution, classical second order results concerning Arma processes can be applied in the analysis of such a time series. We discuss the maximum likelihood estimation of the parameters. An application of this model to a real time series is given. Keywords. Integer-valued time series ; Garch model ; Heteroskedastic ; Campylobacteriosis. 1 60 50 40 30 20 10 0 0 30 60 90 120 150 Fig. 1: Nombre de cas de campylobactériose observés dans le nord du Québec de janvier 1990 à octobre 2000. Xt est le nombre de cas observés au cours des 28 derniers jours. On dispose donc de 13 observations par année. 1 Introduction En épidémiologie, les données se présentent souvent sous forme de séries chronologiques à valeurs entières : il s’agit du nombre de cas observés de maladies données durant une période fixe, souvent 28 jours. La surveillance préventive des épidémies se fait en exigeant des médecins qu’ils informent les autorités gouvernementales de tous les cas diagnostiqués de certaines maladies. Il s’agit des maladies à déclaration obligatoire. Tout comme, la méningite ou l’hépatite, la campylobactériose en est une. Pour certaines maladies relativement rares, les valeurs observées ont une étendue particulièrement restreinte. Dans Cardinal (1995), différentes approches sont considérées dans le but de modéliser ces séries : des modèles classiques tels que les modèles Arima (voir Brockwell et Davis (1991)) et des modèles moins classiques tels que les modèles Genar introduits par Gauthier et Latour (1994). Le modèle Sitar a été exploité par Franke et Seligmann (1993) pour des séries donnant le nombre quotidien de crises d’épilepsie d’un patient avant et après un traitement. Dans plusieurs cas, l’hypothèse d’homogénéité de la variance est trop forte. Dans certaines séries chronologiques, on note en effet que la variance semble augmenter avec le niveau de la série. Un tel comportement se manifeste dans la série de la figure 1. Le graphique correspond au nombre de cas de campylobactériose observés dans le nord du Québec de janvier 1990 à octobre 2000. Ici, Xt est le nombre de cas observés au cours des 28 derniers jours. On dispose donc de 13 observations par année. Tout comme le niveau moyen, la variation semble plus importante à la fin qu’au début de la série. 2 2 Processus ARCH et GARCH à valeurs entières Les modèles présentés dans ce travail sont inspirés de ceux de Bollerslev (1986) et de Engle (1982). Dans un premier temps, nous définissons un processus Arch dont les distributions conditionnelles sont de Poisson. Le processus Garch à valeurs entières est une extension de celui-ci. Dans ce dernier cas, λt , étant donné le passé jusqu’à l’instant t − 1, est une combinaison linéaire des valeurs antérieures Xt−1 , . . . , Xt−q et de ses propres valeurs antérieures, λt−1 , . . . , λt−p . 2.1 Processus ARCH à valeurs entières. Engle (1982) a considéré le modèle suivant : Xt |Ft−1 : Nq (0, ht ); 2 γi Xt−i ; ht = γ0 + i=1 sans préciser si t ∈ N ou si t ∈ Z. Dans cette notation, N (µ; σ 2 ) est la distribution normale de moyenne µ et de variance σ 2 . Nous proposons : t ); Xt |Ft−1 : P(λ q (1) γi Xt−i , ∀t ∈ Z. λt = γ0 + i=1 Dans cette notation, P(λ) est la distribution de Poisson de moyenne λ. L’utilisation de la loi de Poisson est assez naturelle dans l’élaboration d’un modèle pour le type de données qui nous intéressent. On peut aussi consulter : Davis et al. (2003) et Davis et al. (1999). 2.2 Existence du processus ENARCH(q ). Théorème 2.1 Pour i = 1, . . . , q, soit γi tels que 0 ≤ γi < 1, (γq = 0) et tels que q i=1 γi < 1. Alors, il existe {Xt }t∈Z , un processus à valeurs entières non négatives stationnaire au second ordre satisfaisant (1). Définition 2.1 Un processus satisfaisant (1) tel que les paramètres satisfont les hypothèses du théorème 2.1 est dit Enarch d’ordre q. 2.3 Processus GARCH à valeurs entières. Une extension naturelle du processus de la définition 2.1 est : t ); Xt |Ft−1 : P(λ q p (2) γi Xt−i + δj λt−j ; λt = γ0 + i=1 j=1 ∀t ∈ Z. Dans ce modèle, 0 ≤ δi < 1 pour i = 1, . . . , p − 1 et 0 < δp < 1. 3 Soit D(B) = 1 − δ1 B − · · · − δp B p et G(B) = γ1 B + · · · + γq B q où B est l’opérateur de décalage arrière. Nous supposonsque les racines de D(z) = 0 sont à l’extérieur du cercle p unitaire : il suffit que D(1) = j=1 δj < 1, hypothèse que nous supposons désormais satisfaite. Sous cette condition, l’opérateur D(B) a un inverse dénoté par D−1 (B). Ainsi : λt = D−1 (B) (γ0 + G(B)Xt ) = γ0 D−1 (1) + G(B)D−1 (B)Xt = γ0 D−1 (1) + H(B)Xt où H(B) = G(B)D−1 (B) = ∞ ψj B j . j=1 Proposition 2.1 S’il existe un processus stationnaire au second ordre satisfaisant (2) alors : δ1 + · · · + δp + γ1 + · · · + γq < 1. Soit {ζt }t∈Z une suite de variables de Poisson indépendantes de moyenne γ0 /(1 − δ1 − · · · − δp ). Soit {Zt,i,k }t∈Z, k∈N des suites variables indépendantes de Poisson de moyenne ψi , i = 1, . . . , ∞. Considérons la suite : 0, n < 0; n = 0; ζt , (n) (n−1) Xt = X ∞ t−i Zt−i,i,k + ζt , n > 0. i=1 k=1 La limite de cette suite nous conduit au processus souhaité. Proposition 2.2 Si δ1 + · · · + δp + γ1 + · · · + γq < 1, alors : (n) 1. La suite {Xt }t∈Z a une limite presque sûre. 2. Les deux premiers moments de la limite presque sûre existent : le processus est donc stationnaire au sens large. (n) 3. La suite {Xt }t∈Z a une limite en moyenne quadratique. Il faut aussi vérifier que les lois conditionnelles sont de Poisson. 2.4 Le processus ENGARCH(1, 1). Dans le cas particulier où p = q = 1, nous avons Xt |Ft−1 : P (λt ); (3) λt = γ0 + γ1 Xt−1 + δ1 λt−1 ; ∀t ∈ Z. Dans ce modèle, 0 < δ1 < 1, et 0 < γ1 < 1. On a les résultats suivants. Proposition 2.3 Les moments d’un processus Engarch (1, 1) sont tous finis si, et seulement si, γ1 + δ1 < 1. Dans ce cas : 1. La valeur moyenne du processus est donnée par : µ = γ0 /[1 − (γ1 + δ1 )]. 4 2. Sa variance est : V [Xt ] = µ 1 − (γ1 + δ1 )2 + γ12 / 1 − (γ1 + δ1 )2 . 3. De plus, sa fonction d’autocovariance est : γ(r) = µγ1 (1 − δ1 (γ1 + δ1 )) (γ1 + δ1 )r−1 / 1 − (γ1 + δ1 )2 , ∀r ≥ 1. Appliquant un résultat de Brockwell et Davis (1991), p. 90, on obtient le corollaire 2.1. Corollaire 2.1 Soit {Xt }t∈Z un processus Engarch (1, 1) satisfaisant (3). Alors, {Xt }t∈Z est un Arma(1; 1) pouvant s’écrire sous la forme : (Xt − µ) − (γ1 + δ1 )(Xt−1 − µ) = et − δ1 et−1 (4) où {et }t∈Z est un bruit blanc faible de variance σ 2 = µ = γ0 /(1 − φ1 − δ1 ). 3 Estimation des paramètres La vraisemblance des n observations X1 , X2 , . . . , Xn , conditionnelle aux quelques valeurs antérieures, peut s’écrire : n e−λt λt Xt L(Θ) = Xt ! t=1 où Θ = (γ0 , γ1 , . . . , γq , δ1 , . . . , δp ) = (θ0 , . . . , θp+q ) et λt = γ0 + q γi Xt−i + i=1 p δj λt−j . j=1 La solution à ce problème s’obtient numériquement. Comme dans Bollerslev (1986), si n est suffisamment grand, la distribution de cet estimateur est asymptotiquement normale : Θ̂ ∼ N (Θ0 , n−1 I(Θ0 )−1 ) où I(Θ0 ) est la matrice d’information de Fisher évaluée en Θ0 , la vraie valeur de Θ. De plus, on dispose d’un estimateur convergent pour la matrice d’information. 4 Intervalle de confiance pour la prévision Pour construire l’intervalle de confiance pour la prévision d’horizon 1, nous suggérons l’approche suivante. À chaque instant t, calculer la valeur ajustée de λt , dénotée ici par λ̂t : q p λ̂t = γ0 + γi Xt−i + δj λ̂t−j . i=1 j=1 5 Alors, déterminer deux valeurs at and bt , telles que : (1) Pr (at ≤ P(λ̂t ) ≤ bt ) ≥ 1 − α, (2) la longueur de l’intervalle, bt − at , est minimale. 5 Application La campylobactériose est une maladie à déclaration obligatoire. Il s’agit d’une infection sévère du système digestif. Les données disponibles couvrent la période allant de janvier 1990 à octobre 2000. Nous disposons de 13 observations par année, une tous les 28 jours. Le modèle retenu a été : Xt |Ft−1 : P(λt ) (5) λt = γ0 + γ1 Xt−1 + δ13 λt−13 Les paramètres estimés pour le modèle retenu ont été : Paramètre γ0 γ1 δ13 Valeur 2,3135 0,5484 0,2752 Bibliographie Bollerslev, T. (1986). Generalized autoregressive conditional heteroskedasticity. J. of Econometrics, 31 :307–327. Brockwell, P. et Davis, R. (1991). Time series : Theory and methods. Springer-Verlag, New York, 2e édition. Cardinal, M. (1995). Modélisation temporelle d’incidence de maladies. Mémoire de maı̂trise, Département de médecine sociale et préventive, Faculté de médecine, Université de Montréal. Davis, R., Dunsmuir, W., et Streett, S. (2003). Observation driven models for Poisson counts. Biometrika, 90 :777–790. Davis, R., Dunsmuir, W., et Wang, Y. (1999). Modelling Time Series of Count Data, Asymptotics, Nonparametrics, and Time Series. Marcel-Dekker, New York. Engle, R. F. (1982). Autoregressive conditional heteroskedasticity with estimate of the variance of U. K. inflation. Econometrica, 15 :286–301. Franke, J. et Seligmann, T. (1993). Conditional maximum likelihood estimates for inar(1) processes and their application to modelling epileptic seizure counts. In Rao, T. S., editor, Developments in Time Series Analysis, New York. Chapmann and Hall. Gauthier, G. et Latour, A. (1994). Convergence forte des estimateurs des paramètres d’un processus GEnAr(p). Ann. sc. math. Québec, 18 :49–71. 6