modelisation de la frequence des sinistres en assurance automobile
Transcription
modelisation de la frequence des sinistres en assurance automobile
MODELISATION DE LA FREQUENCE DES SINISTRES EN ASSURANCE AUTOMOBILE Olga A. VASECHKO1 Michel GRUN-RÉHOMME2 Noureddine BENLAGHA3 RÉSUMÉ La sinistralité en assurance automobile se mesure en termes de fréquence des accidents et de montant de ces accidents. Dans ce marché fortement concurrentiel, l’assureur cherche à sélectionner des facteurs qui contribuent à expliquer la sinistralité. Dans cet article, on s’intéresse aux facteurs explicatifs du nombre d’accidents responsables déclarés par l’assuré à son assureur. Pour répondre à l’importance du nombre d’assurés sans sinistre sur une période d’exercice et à l’hétérogénéité de cette population (absence de sinistre ou sinistre non déclaré), des modèles à « inflation de zéros » sont proposés : le modèle de Poisson et le modèle binomial négatif. A priori, ces modèles n’ont jamais été utilisés sur des données d’assurance automobile française. Nous montrons empiriquement que ces modèles sont justifiés, même si les variables explicatives de la fréquence des sinistres sont sensiblement les mêmes qu’avec les modèles classiques de comptage, à l’exception du choix de contrat et ils révèlent un effet de sélection adverse. La probabilité que l’assuré a eu un sinistre responsable non déclaré, augmente avec le coefficient réduction majoration et diminue avec l’ancienneté du véhicule et l’ancienneté de permis. ABSTRACT In the strongly competitive automotive insurance market, the insurer tries to determine factors that explain the frequency and cost of claims. In this paper, we study the factors that explain the number of accidents declared by the responsible insurant to his or her insurer giving consideration to the importance of the number of insurants without an accident over a given year. We use zero-inflated distributions (Poisson and binomial negative). These distributions model count data that have many zeros. For example, the 1 Research Institute of Statistics, Kyiv, Ukraine Université Paris 2, ERMES-UMR7181-CNRS, Paris, France – M. GRUN-REHOMME - 3 sq. Auguste Renoir, 75014 Paris, France - E-Mail : [email protected] 3 Université Paris 2, ERMES-UMR7181-CNRS, Paris, France 2 BULLETIN FRANÇAIS D’ACTUARIAT, Vol. 9, n°18, juillet - décembre 2009, pp. 41 - 63 42 O.A. VASECHKO – M. GRUN-REHOMME – B. BENLAGHA zero-inflated Poisson distribution might be used when the proportion of zero counts is greater than expected on the basis of the mean of the non-zero counts. Specifically, we separate the zero accidents into two groups: those without an accident from those who had an accident but did not declare it. These models have not been used on data for the French automobile insurance market. Empirically, we show that the explanatory variables of the frequency of the disasters are appreciably the same as those with the classic models of counting, with the exception of the choice of contract for which we find adverse selection. The probability that the policyholder does not declare a claim increases with the bonussurcharge coefficient and decreases with the age of the driver and the age of the car. ZUSAMMENFASSUNG Die Schadenfallsrate wird in der Autoversicherung mittels der Ausdrücke für die Häufigkeit der Unfälle und der Zahl der Unfälle gemessen. In diesem stark konkurrenzgeprägten Markt, versucht der Versicherungsträger die Faktoren, die dazu beitragen, die Schadenfallsrate zu erklären, auszuwählen. In diesem Artikel, interessiert man sich für die Faktoren, die eine Erklärung für die Zahl der von dem Versicherten verschuldeten bei dem Versicherungsträger angemeldeten Unfälle liefern. Um zu der Höhe der Anzahl der Versicherten ohne Schadensfall während einer Ausübungszeit und zu der Heterogenität dieser Personengruppe eine Antwort zu geben (Fehlen von Schadenfall oder nicht angemeldeter Schadenfall), wurden Modelle mit „Inflation von Nullen“ vorgeschlagen: Poisson-Modell und negative Binomial-Modell. Auf dem ersten Blick sind diese Modelle nie ab Angaben der französischen Autoversicherung verwendet worden. Wir zeigen empirisch, dass diese Modelle begründet sind, selbst wenn die für die Häufigkeit der Unfälle erklärende Veränderlichkeiten spürbar die selben sind wie bei den klassischen Zählungsmodellen mit Ausnahme der Wahl des Vertrages. Die Modelle zeigen einen gegnerischen Auswahleffekt. Die Wahrscheinlichkeit, verschuldeten Schadenfall dass gehabt der Versicherte hat, wächst einen mit nicht dem angemeldeten Koeffizient Steigerungsverminderung und vermindert sich mit dem Alter des Fahrzeuges und dem Alter des Führerscheines. MODELISATION DE LA FREQUENCE DES SINISTRES EN ASSURANCE AUTOMOBILE 1. 43 INTRODUCTION La sinistralité en assurance automobile est un problème important pour les pays industrialisés. Pour les assureurs, elle se mesure en termes de fréquence des accidents et de montant de ces accidents. Dans ce marché fortement concurrentiel de l’assurance automobile, qui représente la branche la plus importante de l’assurance non-vie, l’assureur cherche à déterminer des facteurs qui contribuent à expliquer la sinistralité. Ces facteurs lui permettent, en construisant des classes de risque, de segmenter son portefeuille et de hiérarchiser ces classes à l’aide d’indicateurs de sinistralité, comme la prime pure. Cette démarche vise à obtenir une bonne adéquation entre la sinistralité et les primes payées par les assurés. Dans cet article, on s’intéresse aux facteurs explicatifs du nombre d’accidents responsables déclarés par l’assuré à son assureur. En général, des modèles de comptage (modèle de Poisson ou modèle binomial négatif) sont utilisés dans la modélisation de la fréquence des accidents. Mais du fait de l’existence, dans le portefeuille, d’un grand nombre d’assurés sans sinistre sur une période d’exercice (une année), le nombre de zéros de la variable aléatoire du nombre de sinistres est important. De plus, la valeur zéro peut correspondre à deux sous populations : les assurés qui n’ont eu aucun sinistre dans l’année (cas général) et ceux qui ont eu un accident responsable et qui ne l’ont pas déclaré à l’assureur. Non déclaration d’un accident mineur, en indemnisant directement la partie adverse pour éviter d’avoir un malus et une augmentation de sa prime. Cette non déclaration peut aussi correspondre à un délit de fuite. Pour répondre à cette importance des valeurs nulles et à l’hétérogénéité de la population correspondante, des modèles à « inflation de zéros » ont été proposés : le modèle de Poisson à inflation de zéros (Zero-Inflated Poisson, noté ZIP) et le modèle binomial négatif à inflation de zéros (Zero-Inflated Negative Binomial, noté ZINB). Les variables explicatives de la fréquence des sinistres sont sensiblement les mêmes qu’avec les modèles classiques de comptage, à l’exception du choix de contrat et ils révèlent un effet de sélection adverse. A notre connaissance, ces modèles ont été très peu utilisés en assurance automobile. On trouve un article de LEE et al. (2002) sur les conducteurs novices dont l’ancienneté de permis est inférieure à un an. Ils montrent empiriquement sur des données australiennes que le modèle ZIP est justifié du fait d’une sur-dispersion de la fréquence des sinistres. MELGAR et al. (2005) utilisent un modèle ZINB sur des données d’une compagnie 44 O.A. VASECHKO – M. GRUN-REHOMME – B. BENLAGHA espagnole et montrent que ce modèle est plus adéquat aux données. Récemment, BOUCHER et al. (2007, 2008a) comparent, aussi sur des données espagnoles, les modèles à inflation de zéros et les modèles à barrière (hurdle models), mais ils n’insistent pas sur les interprétations des probabilités de sinistralité à l’aide des variables exogènes. Pour des données longitudinales ou des données de panel, on peut consulter les articles de BOUCHER et al. (2008b) et BOUCHER, DENUIT (2008c). Notre démarche empirique est nouvelle dans la mesure où elle concerne des données françaises et que nous disposons du coefficient réduction majoration qui traduit l’expérience passée du conducteur. Ce texte est organisé en 5 sections. Après l’introduction, les modèles probabilistes utilisés sont exposés synthétiquement dans la section 2. Les données et quelques statistiques exploratoires sont présentées dans la section 3. Les résultats et les comparaisons entre les différents modèles constituent la section 4. Le papier se termine par des conclusions (section5), une bibliographie et des annexes. 2. LES MODELES Dans la modélisation des processus de comptage, ici de la fréquence des sinistres, deux sortes de modèle sont couramment mis en œuvre ; le modèle de poisson et le modèle binomial négatif. On trouve une littérature abondante sur l’utilisation de ces modèles : GREENE (1996), WOOLDRIDGE (1997), CAMERON et TRIVEDI (1998), WINKILMANN (2000), YAU et al. (2003), YANG et al. (2007). Rappelons les définitions et les propriétés de ces modèles pour bien comprendre par la suite l’emploi des modèles ZIP et ZINB. 2.1 Modèle de Poisson Dans un modèle de Poisson, la probabilité pour qu’une variable aléatoire Y (nombre de sinistres responsables déclarés) prennent la valeur yi ( yi 0,1, 2... ) pour un assuré i est donnée par : i P (Y yi / X i ) où le paramètre i e i yi (1) yi ! dépend du vecteur X i des caractéristiques (régresseurs) de l’assuré i par une équation log linéaire, à savoir : ln i X i , où est le vecteur des ' coefficients à estimer. MODELISATION DE LA FREQUENCE DES SINISTRES EN ASSURANCE AUTOMOBILE 45 On vérifie aisément que dans la loi de Poisson (1), l’espérance est égale à la variance. E (Yi / X i ) Var (Yi / X i ) i e ' Xi (2) Cette hypothèse d’équidispersion (homogénéité du portefeuille par rapport au risque) est très restrictive. Mais dans la pratique, du fait d’une abondance de valeurs nulles et de la présence de quelques valeurs extrêmes, la variance est supérieure à la moyenne. Dans ce cas, on parle d’une sur-dispersion de la variable Y. Cette situation implique une sous estimation des écarts types et on rejette trop souvent l’hypothèse nulle de non significativité des coefficients du modèle. D’où l’idée d’utiliser un modèle de comptage alternatif, basé sur la loi binomiale négative, qui prend en compte cette sur-dispersion par l’introduction d’un paramètre supplémentaire ( ) qui permet, en outre, de capter l’hétérogénéité inobservée de la variable endogène (qui peut impliquer la sur-dispersion observée). 2.2 Modèle binomial négatif Dans un modèle binomial négatif, on définit la probabilité pour que Y prenne la valeur yi par: yi i P (Y yi / X i ) yi 1 i i En posant 1 / , l’espérance et la variance s’expriment ainsi : E ( yi / X i ) i e ' Xi yi , Var ( yi / X i ) i (1 i ) (3) (4) La variance est donc différente de l’espérance et le paramètre traduit une sur dispersion (ou une sous dispersion) des données. Si 0 , le modèle binomial se réduit au modèle de Poisson. Si 0 , le modèle de Poisson est rejeté au profit du modèle négatif binomial. La sur-dispersion peut être testée soit par le ratio D / ( n p ) , où D désigne la déviance, n le nombre d’observations et p le nombre de paramètres dans le modèle, soit par le ratio X / ( n p ) , où X 2 2 correspond à la statistique du chi-deux de Pearson. La déviance est définie comme 2 fois la différence entre le maximum possible de la log vraisemblance et le maximum atteint sur le modèle estimé (MC CULLAGH, NELDER, 1989). 2 Le X de Pearson correspond à la somme des carrés des écarts à la moyenne. Si ces ratios sont supérieurs à 1, les données présentent une sur dispersion (et une sous dispersion si ces rations sont inférieurs à 1). 46 2.3 O.A. VASECHKO – M. GRUN-REHOMME – B. BENLAGHA Les modèles ZIP et ZINB CRAGG (1971) a développé différents modèles dans la situation où pour une variable endogène, un événement (comme l’achat d’un bien ou la déclaration d’un sinistre) peut se produire ou non, comme dans le modèle Tobit (TOBIN, 1958). Si l’événement ne se produit pas, la valeur zéro est attribuée à la variable endogène, qui est supposée continue et à valeurs positives. Le processus de décision est représenté par un modèle probit et le second événement (montant de l’achat ou du sinistre) par un modèle de régression standard. En se référant à la réalité des données, il est possible que la population des assurés pour lesquels Y=0, soit composée de deux sous populations : Une population qui prend la décision de participer à l’événement ou l’expérience, c’est-à-dire qui effectue une déclaration d’accident dans le cas où celui ci se produit. La valeur zéro indique que le conducteur assuré n’a pas eu de sinistre pendant la période considérée. Une population qui ne déclare pas un sinistre responsable à son assureur. En effet, certains assurés sont amenés à ne pas déclarer un accident sans grande gravité, pour éviter un malus et donc de payer davantage la prochaine prime. Comme les pénalités du système sont indépendantes du montant des sinistres, le conducteur responsable a tout intérêt à indemniser directement la partie adverse pour les petits sinistres. L’autre cas, concerne les conducteurs qui, par exemple, accrochent une voiture en stationnement, et ne s’arrêtent pas pour faire un constat. Cette distinction peut être intéressante pour l’assureur, car on peut penser que la non déclaration d’un sinistre responsable (en dehors des cas des délits de fuite) est liée davantage à la non gravité du sinistre qu’à la réalité objective du risque. L’assuré ne communique pas cette information à son assureur dans la mesure où cette démarche lui est favorable, mais ceci n’enlève rien au fait que l’assuré est risqué. Un modèle de Poisson standard ou binomial négatif ne permet pas de distinguer ces deux sous populations. Un modèle de Poisson à inflation de zéros (Zero-Inflated Poisson : ZIP) ou binomial négatif à inflation de zéros (Zero-Inflated Negative Binomial : ZINB) génère deux modèles séparés puis les combine. Ces modèles, développés par LAMBERT (1992) et GREENE (1994), ne supposent pas que les valeurs nulles et les valeurs strictement positives sont générées par le même processus. Par rapport aux modèles simples précédents, on suppose donc que la variable MODELISATION DE LA FREQUENCE DES SINISTRES EN ASSURANCE AUTOMOBILE 47 aléatoire observée Y est le produit d’une loi binaire B et d’une loi de Poisson (modèle ZIP) ou binomiale négative (modèle ZINB) : Y BY * (5) La variable aléatoire inobservée B est modélisée par une régression logistique pour estimer la probabilité que yi 0 . Pour un assuré i, bi 0 si l’assuré n’a pas déclaré d’accidents et bi 1 dans le cas contraire. La variable aléatoire Y correspond au modèle * de Poisson (ou au modèle binomial négatif) et est utilisée pour prédire la valeur de Y pour les assurés qui ont déclaré un sinistre (bi 1) . Cette équation estime l’espérance de yi . Les modèles ZIP et ZINB comportent donc deux parties : celle relative au modèle de * comptage (pour Y , qui rend compte du nombre de sinistres quand l’assuré est dans la situation de déclaration) et celle relative à l’inflation de zéros (Logit) qui explique la probabilité de non déclaration. Plus précisément, pour un modèle ZIP, si on note qi la probabilité de bi 0 (pas de sinistre déclaré) et i le paramètre de la loi de Poisson pour la fréquence des sinistres, qui dépend comme précédemment des variables explicatives (4), alors la densité de la distribution Y s’écrit : P (Y 0 / X i ) qi (1 qi )e i avec qi exp( X i' ) (6) 1 exp( X i' ) et pour y i non nulle, on a : P(Y y i / X i ) (1 q i )e i iy i (7) yi ! La probabilité du nombre de sinistres conditionnellement à bi 1 est égale à la * probabilité, non conditionnelle, de la variable inobservée yi . Pour un modèle ZINB, la probabilité est alors donnée, en comparaison avec (3), par : yi i P (Y yi / X i ) qi 1 min yi ,1 1 qi yi 1 i i yi (8) avec i 0,1, 2... 2.4 Le test de Vuong De nombreux auteurs ont proposé des statistiques pour tester la sur-dispersion dans 48 O.A. VASECHKO – M. GRUN-REHOMME – B. BENLAGHA un contexte de loi de Poisson (GOURIEROUX et al. 1984, LEE 1986, CAMERON et TRIVEDI 1990, GURMU, 1991). On peut aussi consulter l’ouvrage GREEN (2002) pour plus de détails sur ces différents tests. Dans cette étude, on utilise le test de VUONG (1989), qui a proposé une statistique, dans le cadre des estimations par la maximum de vraisemblance, pour tester des modèles non emboîtés : le modèle ZIP (ou ZINB) contre le modèle de Poisson (ou binomial négatif) correspondant. Soient f1 la densité du modèle 1 (ZIP ou ZINB) et f 2 la densité du modèle 2 (Poisson ou binomial négatif). f1 ( yi ) Pr( yi _ ZIP ) log f 2 ( yi ) Pr( yi _ Poisson) mi log Notons Les hypothèses sont: H 0 : E mi 0 H1 : E mi 0 La statistique de Vuong, pour tester l’hypothèse du modèle 1 (ZIP ou ZINB) contre le modèle 2 (Poisson ou binomial négatif), est donnée par: nm V Avec m 1 n n mi et sm2 i 1 1 (9) sm n ( m m) n 1 2 i i 1 Le test de Vuong peut être décrit de façon très simple. Si l'hypothèse nulle est vraie, la valeur moyenne du rapport de vraisemblance devrait être égale à zéro. Si l’hypothèse complémentaire est vraie, la valeur moyenne du rapport de vraisemblance devrait être sensiblement plus grande que zéro. Si l'inverse est vrai, la valeur moyenne du rapport de vraisemblance devrait être de manière significative inférieure à zéro. En d'autres termes, la statistique du test de Vuong n’est autre que le rapport moyen du log de vraisemblance convenablement normalisé. Les logarithmes de la vraisemblance utilisés dans le test de Vuong sont affectés si le nombre de coefficients dans les deux modèles est différent ; le test doit donc être corrigé par les degrés de liberté. Vuong propose d'employer une correction qui correspond aux critères d'information bayesiens d'Akaike et de Schwarz. Vuong montre que V tend asymptotiquement vers la loi normale standard. MODELISATION DE LA FREQUENCE DES SINISTRES EN ASSURANCE AUTOMOBILE 49 - On note que : Si V est inférieure à la valeur prédéterminée, par exemple 1.96 pour un seuil - 0.5 , le test ne donne la préférence à aucun des deux modèles. Si la valeur de V est élevée et positive alors le modèle 1 est préféré au modèle 2. Si la valeur de V est largement négative alors le modèle 2 est favorisé. 3. APPROCHE EMPIRIQUE Pour mettre en œuvre cette approche de modélisation de la fréquence des sinistres, nous disposons d’un échantillon aléatoire de 50 000 observations du portefeuille d’une compagnie française d’assurance. Ces données concernent des véhicules 4 roues de tourisme assurés durant l'année 2005. 3.1 Les données Pour chaque assuré de notre échantillon, nous disposons de 4 groupes de variables : les caractéristiques du conducteur, les caractéristiques du véhicule, le type de contrat et la sinistralité. Plus précisément, Caractéristiques du conducteur : Sexe : Il s’agit du sexe du conducteur principal déclaré. Type du conducteur, il exprime la qualification du conducteur principal déclaré au regard du véhicule (le conducteur principal déclaré est ou non l’assuré). Age du conducteur, exprimé en années. Profession : profession du conducteur, codée en 17 modalités (cf. annexe 1). Numéro de département : numéro de département de l’habitat principal du conducteur. Ancienneté de permis : de 0 à 3 ans. Coefficient Réduction Majoration (CRM) ou Bonus Malus : il est compris entre 0.50 et 3.50 inclus (exprimé en %), conformément à la législation française en vigueur. L’assuré voit sa prime augmenter de 25% pour un sinistre responsable (pour plus de détails sur ce coefficient, se référer à l’article de Grun-Rehomme, 2000). Période de couverture : période, en mois, au cours de laquelle l’assuré est couvert par la police qu’il a souscrit, le plus souvent cette période est d’une année. 50 O.A. VASECHKO – M. GRUN-REHOMME – B. BENLAGHA Caractéristiques du véhicule : Ancienneté de véhicule : elle exprime le millésime de l'année du modèle du véhicule. Puissance réelle du véhicule : elle exprime la puissance du moteur en chevaux Din (Deutsch Industrie Normen). Cette mesure donne une vision plus réaliste de la puissance effective au niveau des roues (1 ch. Din = 0,735 Watt). La variable sur l’usage du véhicule n’a pas été retenue puisque la quasi-totalité des sociétaires en avait un usage promenade-trajet et non un usage professionnel. Les Contrats : Cette assureur propose quatre type de garanties pour l'assurance d'un véhicule 4 roues de tourisme : Responsabilité Civile (RC, assurance minimale obligatoire) ; sont inclus dans cette formule des garanties Défense-recours, Attentats, Catastrophes naturelles, Dommages corporels du conducteur et Assistance. Dommages au Véhicule (DV1) : RC + Garantie Dommage au véhicule toutes causes avec une franchise importante. DV2 : RC + Garantie Dommage au véhicule toutes causes avec une franchise moyenne. DV3 : RC + Garantie Dommage au véhicule toutes causes avec une franchise faible. Caractéristiques des sinistres : Nombre de sinistres déclarés : pour l’année de référence, ici 2005. Responsabilité du conducteur : variable binaire qui indique si la responsabilité du conducteur est engagée en cas de sinistre. Il faut ajouter l’existence de variables inobservées par l’assureur (ou non prises en compte) qui peuvent avoir un effet explicatif de la fréquence des sinistres comme le nombre de kilomètres parcourus, l’état du véhicule, le comportement du conducteur au volant (respect du code de la route, rapidité des réflexes, agressivité au volant..), les conditions climatologiques, le type de route, l’état du réseau routier… MODELISATION DE LA FREQUENCE DES SINISTRES EN ASSURANCE AUTOMOBILE 3.2 51 Statistiques exploratoires La table 1 présente la répartition de l’échantillon, environ 53% d’hommes et 47% de femmes, selon le nombre de sinistres responsables déclarés durant l’année 2005. L’espérance de la variable aléatoire Y est égale à 0.728 dans l’échantillon. Table 1 : Répartition de la fréquence des sinistres Nombre de sinistres Fréquence Pourcentage (%) Fréquence cumulée Pourcentage Cumulé (%) 0 32434 64.87 32434 64.84 1 6737 13.47 39171 78.34 2 6198 12.40 45369 90.74 3 2603 5.21 47972 95.94 4 1210 2.42 49182 98.36 5 486 0.97 49668 99.34 6 207 0.41 49875 99.75 7 72 0.14 49947 99.89 8 34 0.07 49981 99.96 9 16 0.03 49997 99.99 10 3 0.01 50000 100.00 Table 2 : Répartition des assurés selon le sexe et le type de conducteur Type =1 (*) Type = 2 (**) Masculin 65.4 34.6 Féminin 72.0 38.0 (*) Le conducteur principal est l’assuré, (**) Le conducteur principal n’est pas l’assuré Dans cette assurance, il est possible que l’assuré ne soit pas le conducteur principal. En effet, c’est très souvent la situation pour les jeunes conducteurs dont l’ancienneté de permis est inférieure à trois ans (80% des cas) et pour des hommes expérimentés, dont la femme est l’assuré ; ceci tient à la particularité de cette assurance dont les assurés (ou sociétaires) proviennent de l’éducation nationale (qui est très majoritairement constituée de femmes dans l’enseignement primaire et secondaire). 52 O.A. VASECHKO – M. GRUN-REHOMME – B. BENLAGHA Table 3 : Statistiques descriptives des variables quantitatives utilisées Moyenne Médiane Ecart type Q1 Q3 Ancienneté de permis 25 28 13.6 16 38 Age du conducteur 48 50 15.7 37 59 Bonus-Malus 60 50 16.9 50 64 Ancienneté du véhicule 7.6 7 5.5 3 11 Puissance du véhicule 82.5 76 28.8 60 100 Cette population constitue une niche d’assurés à bas risques pour cette compagnie comme le montre la distribution du coefficient réduction-majoration (médiane à 50 et troisième quartile à 64). Il faut aussi ajouter que les assurés ayant des sinistres graves où leur responsabilité est engagée et qui ont provoqué un accident en commettant une infraction (alcoolémie, excès de vitesse,…) peuvent être exclus du portefeuille par l’assureur. Table 4 : Répartition des assurés selon le type de garantie Garantie RC DV1 DV2 DV3 Pourcentage (%) 46,1 16,1 8,3 29,5 Ces pourcentages dans l’échantillon coïncident avec les proportions dans l’ensemble du portefeuille de cette assurance. 4. RESULTATS DES MODELISATIONS Dans un premier temps, on compare le modèle de Poisson et le modèle binomial négatif, puis avec les modèles correspondants à inflation de zéros. 4.1 Modèle de Poisson et modèle binomial négatif La régression de Poisson et la régression binomiale négative mettent en évidence les mêmes variables explicatives de la fréquence des sinistres, avec des effets semblables. Même si le modèle binomial négatif est « meilleur » pour rendre compte de ces données, il n’apporte pas d’éléments ou de précisions supplémentaires par rapport au modèle de Poisson au niveau de l’interprétation des résultats (Table 5, où seules sont représentées les variables exogènes significatives). Dans un article récent, MELGAR et al. (2005) montrent MODELISATION DE LA FREQUENCE DES SINISTRES EN ASSURANCE AUTOMOBILE 53 aussi que différents types de modèles de comptage donnent des résultats qualitativement semblables. Table 5 : Comparaison des variables explicatives Modèles Poisson Binomial négatif Variables Coefficient (**) Ecart-type Coefficient (**) Ecart-type Constante -1.1530 0.0524 -1.0251 0.0914 Type1 (*) -0.1643 0.0111 -0.1682 0.0173 DV1 -0.6532 0.0222 -0.6479 0.0308 DV2 -0.1565 0.0211 -0.1558 0.0319 DV3 -0.1185 0.0123 -0.1149 0.0190 Ancienneté du véhicule -0.0191 0.0013 -0.0194 0.0019 Ancienneté de permis -0.0064 0.0004 -0.0060 0.0006 CRM 0.0153 0.0005 0.0138 0.0010 Scale 1.0000 0.0000 1.7529 0.0289 (*) Le conducteur principal est l’assuré (**) Tous les coefficients sont significatifs au seuil de 0.1%. On constate une augmentation de la sinistralité avec le coefficient réduction majoration (CRM, ce qui est logique puisque celui-ci traduit le passé du conducteur) et le fait que le conducteur principal ne soit pas l’assuré, et une diminution avec l’ancienneté du véhicule et l’ancienneté de permis. Pour les contrats, la sinistralité diminue avec le choix de couvertures DV, ce qui va à l’encontre d’une hypothèse de sélection adverse et est conforme aux travaux empiriques récents (CHIAPPORI, SALANIE, 2000, GRUN-REHOMME, JOLY, 2003, COHEN, 2005, GRUNREHOMME, BENLAGHA, 2007). Le choix de garantie traduit plutôt une aversion au risque. La distribution de Poisson se caractérise par l’égalité de l’espérance et de la variance et dans ce cas le ratio D / ( n p ) et le ratio X / ( n p ) sont égaux à 1. Sous l’hypothèse 2 que le modèle est adéquat, la déviance suit une loi du chi-deux à (n-p) degrés de liberté. Le nombre de degrés de liberté (DL) est égal à (n-p). Le paramètre d’échelle (scale) correspond à la racine carrée du paramètre de dispersion dans la famille des lois exponentielles. 54 O.A. VASECHKO – M. GRUN-REHOMME – B. BENLAGHA Comme le montre la table 6 suivante, les données présentent une sur dispersion et le modèle basé sur la loi binomiale négative est plus adapté à nos données que le modèle de Poisson (cf. Log de la vraisemblance). Table 6 : Critères de comparaison des modèles de Poisson et binomial négatif Critères Poisson Valeur/DL 1.6581 1.9319 X 2 / (n p) Valeur 82891.88 9657798 Log-vraisemblance - 46288.84 D / (n p) -- Binomial négatif Valeur Valeur/DL 41273.93 0.8256 43653.23 0.8732 -39910.76 -- Signalons que les données présentent une faible sous dispersion par rapport au modèle binomial négatif. 4.2 Modèles à inflation de zéros : ZIP et ZINB Les résultats ont été obtenu avec les logiciels SAS (pour l’analyse exploratoire et les modèles de Poisson et binomial négatif) et Stata (pour les quatre modèles). Dans Stata, la première partie des résultats concerne le modèle de comptage du nombre de sinistres et la deuxième partie (inflate, inflation de zéros) correspond à la régression logistique. Table 7 : Résultats des modélisations ZIP et ZINB Modèles Fréquence des sinistres ( Y*) CRM Type1 DV1 DV2 DV3 Ancienneté de permis Age du conducteur Ancienneté du véhicule Coefficient ZIP Erreur type ZINB Erreur type Z Coefficient .0067419 -.0652792 -.4096558 -.0818105 -.0566314 -.0057936 .0005876 .0130758 .0310780 .0250281 .0144617 .0012193 11.47 -4.99 -13.18 -3.27 -3.92 -4.75 .0068692 -.0706267 -.4167522 -.086006 -.059632 -.0059137 .0006155 .013515 .0320164 0.256983 .148847 .001256 11.16 -5.23 -13.02 -3.35 -4.01 -4.71 .0025266 .0012770 1.98 .0026379 .001313 2.01 -.0079037 .0016719 -4.73 -.0079776 .0017307 -4.61 Z MODELISATION DE LA FREQUENCE DES SINISTRES EN ASSURANCE AUTOMOBILE Modèles Inflation de Zéros (B) CRM DV2 Ancienneté de permis Ancienneté du véhicule Constante Lnalpha Alpha ZIP 55 ZINB -.0180454 .3306541 .0044903 .0015770 .0009080 .0027424 -11.44 4.95 7.67 -.0180448 .3271561 .0045072 .001607 .0009335 .0028126 -11.23 4.83 7.52 .0210358 .0027424 7.67 .0211643 .0028126 7.52 1.528996 - .1454075 - 10.52 - 1.492156 -3.312252 .036434 .1485441 .2539225 .0092514 10.05 -13.04 Dans la première partie (Poisson ou binomial négatif), la probabilité du nombre de sinistres, pour les assurés qui ne sont pas sans sinistre, augmente avec le CRM et l’âge du conducteur. Cette probabilité diminue avec l’ancienneté de permis, l’ancienneté du véhicule, le fait que le conducteur principal est l’assuré et les garanties DV (cf. table 7). A propos des garanties, il faut noter une absence de sélection adverse entre la garantie RC (modalité de référence) et les garanties DV mises ensemble, mais l’hypothèse de sélection adverse est vérifiée parmi les conducteurs qui choisissent une garantie DV (cf. annexe 2 sur les effets marginaux). Précisons davantage ces simples commentaires. Toutes choses égales par ailleurs, la probabilité du nombre de sinistres pour ces assurés change (augmente ou diminue) d’un facteur exp(coefficient) pour chaque augmentation d’une unité du facteur prédictif correspondant (cf. annexe 2). Les seuils de significativité des effets marginaux ne sont pas présentés dans cette annexe car ils sont biaisés, on se réfère donc plutôt à la significativité des coefficients des variables correspondantes. Si le coefficient d’une variable dans l’une ou dans les deux équations est significatif, l’effet marginal correspondant est considéré comme significatif. Par exemple, comme le montre la table de cette annexe, le nombre de sinistres diminue d’un facteur multiplicatif 0.994 par année d’ancienneté de permis et de 6% lorsque le conducteur est l’assuré. Pour une variable indicatrice, les effets marginaux expliquent le changement discret de la valeur 0 à la valeur 1. La statistique z de la table 7, qui correspond au ratio du coefficient sur l’erreur type, suit une loi normale standard et permet de juger de la significativité des coefficients du modèle. Dans la table 7, tous les coefficients des modèles sont significatifs au seuil de 0.1% 56 O.A. VASECHKO – M. GRUN-REHOMME – B. BENLAGHA sauf pour l’âge du conducteur qui est significatif seulement au seuil de 5%. La probabilité de sinistre (régression logistique, deuxième partie) augmente avec l’ancienneté de permis, l’ancienneté du véhicule et la garantie DV2, et elle diminue avec le CRM (table 7). Les coefficients de la deuxième équation s’interprètent de la même façon. 4.3 Comparaison des modèles Le test de Vuong, avec une valeur de z égale à 58.54 (significatif au seuil 0.1%), montre que le modèle ZIP est préférable à un modèle de Poisson standard. De même, avec une valeur du test de Vuong égale à 27.03, le modèle ZINB est préférable au modèle binomial négatif. En conclusion, on peut retenir comme modèle final, ce modèle ZINB. De même, alpha correspond au paramètre de dispersion dans le modèle de comptage. Si Ln ( ) 0 (hypothèse nulle), le modèle de Poisson est approprié. Dans notre cas, le modèle de Poisson est rejeté (p-value<0.0001). Les variables significatives dans les deux modèles à inflation de zéros sont identiques et les coefficients des régresseurs sont très proches. Les quatre modélisations envisagées dans ce travail pour analyser la fréquence des sinistres sont cohérentes : augmentation du nombre de sinistres avec le CRM, diminution du nombre de sinistres avec l’ancienneté du permis de conduire, l’ancienneté du véhicule et lorsque le conducteur est l’assuré. Quels sont les apports supplémentaires de ce modèle ZINB par rapport aux modèles de comptage standards ? Dans la première équation (modèle de comptage) l’âge du conducteur devient une variable significative au seuil de 5% avec un coefficient positif (table 7), alors que cette variable n’était pas significative dans le modèle binomial négatif (table 5). Conditionnellement au fait de déclarer un sinistre, la probabilité de sinistres augmente avec l’âge du conducteur. Sachant à l’évidence que l’âge du conducteur est fortement corrélé avec l’ancienneté du permis de conduire (le coefficient de corrélation linéaire est égal à 0.91 sur nos données), ce résultat doit certainement mettre en évidence une sous population pour laquelle le nombre de sinistres augmente avec l’âge. En effet, on constate, toutes choses égales par ailleurs, que pour les jeunes conducteurs, de 18 à 21 ans, l’espérance de la variable Y (nombre de sinistres) augmente avec l’âge. Elle prend les valeurs suivantes : 0.62 (pour 18 ans), 0.88, 0.97 et 1.10 (pour les 21 ans). Nous avions déjà relevé ce point (GRUN-REHOMME et BENLAGHA, 2007) à propos MODELISATION DE LA FREQUENCE DES SINISTRES EN ASSURANCE AUTOMOBILE 57 des jeunes conducteurs dans le cadre d’une modélisation bivariée pour tester l’endogénéité du choix de garantie par rapport à la sinistralité. On peut penser que le jeune conducteur prend de l’assurance après ses premières expériences de conduite et sur estime ses capacités de conduite. L’expérience et la maturité peuvent par la suite expliquer une diminution de la sinistralité (toutes choses égales par ailleurs). Un biais de simultanéité pourrait intervenir dans la mesure où un assuré qui aurait plusieurs sinistres responsables (dans la même année) fait un arbitrage entre la déclaration et la non déclaration. Mais on peut penser que ce biais est faible, car d’une part, dans une telle situation, l’assuré n’a pas forcément le choix du fait que la partie adverse peut refuser une non déclaration et d’autre part, cette situation concerne un faible effectif de nos données. Les résultats des deux équations de modélisation sont cohérents. En effet, les signes des coefficients des quatre variables explicatives dans la régression logistique sont opposés à ceux correspondants aux mêmes variables dans l’équation conditionnelle de comptage. Par exemple, le nombre de sinistres déclarés diminue avec l’ancienneté du véhicule (première équation de la table 7) et la probabilité de non sinistre augmente avec l’ancienneté du véhicule (deuxième équation). Plus le score d’un assuré, dans la deuxième équation, est élevé, plus il est vraisemblable que l’assuré n’a pas eu de sinistres non déclarés. La probabilité que l’assuré a eu un sinistre responsable non déclaré, diminue avec l’ancienneté du véhicule et l’ancienneté de permis, et augmente avec le CRM. En proposant un modèle ZINB, on tente d’isoler la trace d’une non déclaration d’un sinistre, d’une véritable absence de sinistralité, à travers le CRM et le type de contrat. Dans cette assurance, lorsqu’un assuré à un CRM égal à 0.50 de puis au moins trois ans et qu’il n’a pas eu d’accidents responsables déclarés dans ces trois dernières années, son CRM reste inchangé s’il occasionne un accident où sa responsabilité est engagée. On peut donc penser qu’un assuré dans cette situation déclarera un accident responsable (car sans conséquences sur sa prime à payer) alors qu’un assuré ayant un CRM élevé cherchera à non déclarer le sinistre. De plus le type de garantie choisie peut intervenir sur la décision de non déclaration. En cas de sinistre responsable, un assuré ayant une garantie RC n’est pas remboursé pour les dommages à son véhicule. La déclaration du sinistre n’engendre aucun bénéfice. On peut également ajouter, qu’en valeur absolue, 25% d’augmentation sur la prime de référence d’un assuré, dont le CRM est élevé, est plus important que pour un 58 O.A. VASECHKO – M. GRUN-REHOMME – B. BENLAGHA assuré dont le CRM est à 0.50. De plus, le modèle ZINB (comme le modèle ZIP), met en évidence la particularité de la garantie DV2 (avec une franchise moyenne). Cette garantie a l’effectif le plus faible de l’échantillon (cf. table 4), et du portefeuille. Cette garantie DV2 se caractérise des autres garanties par le fait que la corrélation (positive) entre l’ancienneté du véhicule et l’ancienneté de permis est plus importante, ainsi que la corrélation négative entre l’âge du conducteur et le CRM. Ce qui corrobore les résultats obtenus dans la deuxième équation du modèle (table 7). On peut penser que les assurés qui choisissent ce contrat DV2 sont plus enclins à déclarer un sinistre, malgré un CRM parfois élevé. 5. CONCLUSIONS Si les modèles actuels sont suffisamment sophistiqués pour que l’on puisse les considérer comme des outils utiles et performants et non plus comme des curiosités théoriques, il ne faut pas oublier qu’un modèle a ses limites et ne donne qu’une image imparfaite de la réalité. Les modèles doivent être utilisés de façon souple, sans y croire complètement à la limite. Il reste toujours une composante individuelle comportementale non observée. L’approche devant être ouverte et multiforme, et en ce sens, il n’y a pas une méthode pour un problème. Une modélisation économétrique permet un meilleur contrôle des risques et de leurs impacts sur l’entreprise en fournissant une information fiable et robuste pour les décideurs. MODELISATION DE LA FREQUENCE DES SINISTRES EN ASSURANCE AUTOMOBILE 6. ANNEXES 6.1 Codification des professions Code Profession 0 Non renseigné 1 Agriculteur, exploitant 2 Artisan (*) 3 Commerçant 4 Chef d’entreprise (*) 5 Profession libérale 6 Profession de l’information des arts et des spectacles 7 Cadre, ingénieur 8 Enseignant, formateur, chercheur 9 Educateur, animateur, moniteur 10 Profession intermédiaire de la santé et du travail social 11 Technicien 12 Contremaître, agent de maîtrise (*) 13 Agent, employé 14 Ouvrier 15 Etudiant 16 Demandeur d’emploi 17 Homme ou femme au foyer 59 60 6.2 O.A. VASECHKO – M. GRUN-REHOMME – B. BENLAGHA Calcul des effets des variables explicatives dans les modèles ZIP et ZINB Modèles Fréquence des sinistres ( Y * ) CRM Type1 DV1 DV2 DV3 Ancienneté de permis Age du conducteur Ancienneté du véhicule ………………. Inflation de Zéros (B) CRM DV2 Ancienneté de permis Ancienneté du véhicule Constante Coefficient ZIP Exp(Coefficient) Coefficient ZINB Exp(Coefficient) .0067419 -.0652792 -.4096558 -.0818105 -.0566314 1.00676468 0.93680587 0.66387872 0.92144656 0.94494231 .0068692 -.0706267 -.4167522 -.086006 -.059632 1.00689285 0.93180967 0.65918425 0.91758873 0.94211117 -.0057936 0.99422315 -.0059137 0.99410375 .0025266 1.00252979 .0026379 1.00264138 -.0079037 …………. 0.99212745 ............................ -.0079776 …………. 0.99205414 ………………… -.0180454 .3306541 0.98211644 1.39187826 -.0180448 .3271561 0.98211703 1.38701797 .0044903 1.0045004 .0045072 1.00451737 .0210358 1.528996 1.02125861 4.6135425 .0211643 1.492156 1.02138985 4.44667222 MODELISATION DE LA FREQUENCE DES SINISTRES EN ASSURANCE AUTOMOBILE 7. 61 BIBLIOGRAPHIE BOUCHER, J.Ph., DENUIT, M. and GUILLEN, M. (2007) Risk classification for claims counts: A comparative analysis of various zero-inflated mixed Poisson and hurdle models. North American Actuarial Journal, 11, 110-131. BOUCHER, J.Ph., DENUIT, M. and GUILLEN, M. (2008a) Models of insurance claim counts with time dependence based on generalization of Poisson and Negative Binomial distribution. Variance 2, 135-162. BOUCHER, J.Ph. and DENUIT, M. (2008b) Credibility premium for the zero-inflated Poisson model and new hunger for bonus interpretation. Insurance; mathematics and economics, 42, 727-735 BOUCHER, J.Ph. and DENUIT, M. (2008c) Crédibilité linéaire bivariée utilisant le nombre de périodes avec réclamations: modèles de Poisson, modèles à barrières et modèles gonflés de zéros. Assurances et gestion des risques, 75, 487-520. CHIAPPORI, P.A. and SALANIÉ, B. (2000) Testing for Asymmetric Information in Insurance Markets. Journal of Political Economy, 108, 56-78. COHEN, A. (2005) Asymmetric information and learning: evidence from the automobile insurance market. The Review of Economics and Statistics, 87, 197-207. COX, D. R. (1983) Some remarks on overdispersion. Biometrika, 70, 269-274. CRAGG, J.G. (1958) Some Statistical Models for Limited Dependent Variables with Application to the Demand for Durable Goods. Econometrica, 39, 829-844. DANIE, B., HALL, D.B. and KENNETH, S.B. (2002) Score Tests for Heterogeneity and Overdispersion in Zero-inflated Poisson and Binomial Regression Models, The Canadian Journal of Statistics, 30, 415-430. GOURIEROUX, C., MONFORT, A. and TROGNON, A. (1984) Pseudo Maximum Likelihood Methods: Applications to Poisson Models. Econometrica, 52, 701-720. GREENE, W.H. (2002) Econometric Analysis. Prentice Hall, 5th Ed. GREENE, W.H. (1994) Accounting for Excess Zeros and Sample Selection in Poisson and Negative Binomial Regression Models. Working Paper EC-94-10, Department of Economics, Stern school of Business, New York University. GRUN-REHOMME, M. and JOLY, V. (2003) Risque individuel et choix de contrat : Le cas de l’assurance automobile. Assurances et gestion des risques, 71(1), 145-162. 62 O.A. VASECHKO – M. GRUN-REHOMME – B. BENLAGHA GRUN-REHOMME, M. and BENLAGHA, N. (2007) Choix de contrat et sinistralité chez les jeunes conducteurs. Assurances et gestion des risques, 74(4), 505-532. GRUN-REHOMME, M. (2000) Prévision du risque et tarification : le rôle du bonusmalus français. Assurances et gestion des risques 1, 21-30. MELGAR, M.C. and GUERRERO, F.M. (2005) Los Siniestros en el Seguro del Automóvil: un Análisis Econométrico Aplicado, Estudios de Economía Aplicada. HALL, D.B. (2000) Zero-inflated Poisson and binomial regression with random effects: a case study. Biometrics, 56, pp. 1030-1039. HUI LIU (2007) Growth Curve Models for Zero-Inflated Count Data: An Application to Smoking Behavior. Structural Equation Modeling: A Multidisciplinary Journal, 14, 247279. LAMBERT, D. (1992) Zero-Inflated Poisson Regressions, with an Application to defects in Manufacturing. Technometrics, 34, 1-14. LEE, A.H., STEVENSON, M.R., WANG, K. and YAU, K.K.W. (2002) Modeling young driver motor vehicle crashes: data with extra zeros. Accident analysis and prevention, 34(4), 515-521. LEE, J. and MANNERING, F.L. (2002) Impact of Roadside Features on the Frequency and Severity of Run-Off-Road Accidents: An Empirical Analysis. Accident Analysis and Prevention, 34 (2), 349-161. MC CULLAGH P. and NELDER, J.A. (1989) Generalized Linea Models. Chapman and Hall. MELGAR, M.C., ORDAZ SANZ, J.A. and GUERRERO M. (2005) Diverses alternatives pour déterminer les facteurs significatifs de la fréquence d’accidents dans l’assurance automobile. Assurances et gestion des risques, 73(1), 31-54. MULLAHY, J. (1986) Specification and testing of some modified count data model. Journal of Econometrics, 33, 341-365. TOBIN, J. (1958) Estimation of Relationships for Limited Dependant Variables. Econometrica, 26, 24-36. VUONG, Q.H. (1989) Likelihood Ratio Tests for Model Selection and Non-Nested Hypotheses. Econometrica, 57, 307-333. WINKELMANN, R. (2003) Econometric Analysis of Count Data. SpringerVerlag. YANG, Z., HARDIN, J.W., ADDY, C.L. and VUONG, Q.H. (2007) Testing Approaches MODELISATION DE LA FREQUENCE DES SINISTRES EN ASSURANCE AUTOMOBILE 63 for Overdispersion in Poisson Regression versus the Generalized Poisson Model. Biometrical Journal, 49, 565 – 584. YAU, K.K., WANG, K. and LEE, A.H. (2003) Zero-Inflated Negative Binomial Mixed Regression Modelling of Over-Dispersed Count Data with Extra Zeros. Biometrical Journal, 45, pp. 437-452.