modelisation de la frequence des sinistres en assurance automobile

Transcription

modelisation de la frequence des sinistres en assurance automobile
MODELISATION DE LA FREQUENCE DES SINISTRES EN
ASSURANCE AUTOMOBILE
Olga A. VASECHKO1
Michel GRUN-RÉHOMME2
Noureddine BENLAGHA3
RÉSUMÉ
La sinistralité en assurance automobile se mesure en termes de fréquence des
accidents et de montant de ces accidents. Dans ce marché fortement concurrentiel,
l’assureur cherche à sélectionner des facteurs qui contribuent à expliquer la sinistralité.
Dans cet article, on s’intéresse aux facteurs explicatifs du nombre d’accidents
responsables déclarés par l’assuré à son assureur. Pour répondre à l’importance du nombre
d’assurés sans sinistre sur une période d’exercice et à l’hétérogénéité de cette population
(absence de sinistre ou sinistre non déclaré), des modèles à « inflation de zéros » sont
proposés : le modèle de Poisson et le modèle binomial négatif.
A priori, ces modèles n’ont jamais été utilisés sur des données d’assurance
automobile française. Nous montrons empiriquement que ces modèles sont justifiés, même
si les variables explicatives de la fréquence des sinistres sont sensiblement les mêmes
qu’avec les modèles classiques de comptage, à l’exception du choix de contrat et ils
révèlent un effet de sélection adverse. La probabilité que l’assuré a eu un sinistre
responsable non déclaré, augmente avec le coefficient réduction majoration et diminue avec
l’ancienneté du véhicule et l’ancienneté de permis.
ABSTRACT
In the strongly competitive automotive insurance market, the insurer tries to
determine factors that explain the frequency and cost of claims. In this paper, we study the
factors that explain the number of accidents declared by the responsible insurant to his or
her insurer giving consideration to the importance of the number of insurants without an
accident over a given year. We use zero-inflated distributions (Poisson and binomial
negative). These distributions model count data that have many zeros. For example, the
1
Research Institute of Statistics, Kyiv, Ukraine
Université Paris 2, ERMES-UMR7181-CNRS, Paris, France – M. GRUN-REHOMME - 3 sq. Auguste Renoir,
75014 Paris, France - E-Mail : [email protected]
3
Université Paris 2, ERMES-UMR7181-CNRS, Paris, France
2
BULLETIN FRANÇAIS D’ACTUARIAT, Vol. 9, n°18, juillet - décembre 2009, pp. 41 - 63
42
O.A. VASECHKO – M. GRUN-REHOMME – B. BENLAGHA
zero-inflated Poisson distribution might be used when the proportion of zero counts is
greater than expected on the basis of the mean of the non-zero counts. Specifically, we
separate the zero accidents into two groups: those without an accident from those who had
an accident but did not declare it. These models have not been used on data for the French
automobile insurance market. Empirically, we show that the explanatory variables of the
frequency of the disasters are appreciably the same as those with the classic models of
counting, with the exception of the choice of contract for which we find adverse selection.
The probability that the policyholder does not declare a claim increases with the bonussurcharge coefficient and decreases with the age of the driver and the age of the car.
ZUSAMMENFASSUNG
Die Schadenfallsrate wird in der Autoversicherung mittels der Ausdrücke für die
Häufigkeit der Unfälle und der Zahl der Unfälle gemessen.
In diesem stark konkurrenzgeprägten Markt, versucht der Versicherungsträger die
Faktoren, die dazu beitragen, die Schadenfallsrate zu erklären, auszuwählen.
In diesem Artikel, interessiert man sich für die Faktoren, die eine Erklärung für die
Zahl der von dem Versicherten verschuldeten bei dem Versicherungsträger angemeldeten
Unfälle liefern.
Um zu der Höhe der Anzahl der Versicherten ohne Schadensfall während einer
Ausübungszeit und zu der Heterogenität dieser Personengruppe eine Antwort zu geben
(Fehlen von Schadenfall oder nicht angemeldeter Schadenfall), wurden Modelle mit
„Inflation von Nullen“ vorgeschlagen: Poisson-Modell und negative Binomial-Modell.
Auf dem ersten Blick sind diese Modelle nie ab Angaben der französischen
Autoversicherung verwendet worden.
Wir zeigen empirisch, dass diese Modelle begründet sind, selbst wenn die für die
Häufigkeit der Unfälle erklärende Veränderlichkeiten spürbar die selben sind wie bei den
klassischen Zählungsmodellen mit Ausnahme der Wahl des Vertrages. Die Modelle zeigen
einen gegnerischen Auswahleffekt.
Die
Wahrscheinlichkeit,
verschuldeten
Schadenfall
dass
gehabt
der
Versicherte
hat,
wächst
einen
mit
nicht
dem
angemeldeten
Koeffizient
Steigerungsverminderung und vermindert sich mit dem Alter des Fahrzeuges und dem
Alter des Führerscheines.
MODELISATION DE LA FREQUENCE DES SINISTRES EN ASSURANCE AUTOMOBILE
1.
43
INTRODUCTION
La sinistralité en assurance automobile est un problème important pour les pays
industrialisés. Pour les assureurs, elle se mesure en termes de fréquence des accidents et de
montant de ces accidents.
Dans ce marché fortement concurrentiel de l’assurance automobile, qui représente la
branche la plus importante de l’assurance non-vie, l’assureur cherche à déterminer des
facteurs qui contribuent à expliquer la sinistralité. Ces facteurs lui permettent, en
construisant des classes de risque, de segmenter son portefeuille et de hiérarchiser ces
classes à l’aide d’indicateurs de sinistralité, comme la prime pure. Cette démarche vise à
obtenir une bonne adéquation entre la sinistralité et les primes payées par les assurés.
Dans cet article, on s’intéresse aux facteurs explicatifs du nombre d’accidents
responsables déclarés par l’assuré à son assureur. En général, des modèles de comptage
(modèle de Poisson ou modèle binomial négatif) sont utilisés dans la modélisation de la
fréquence des accidents. Mais du fait de l’existence, dans le portefeuille, d’un grand
nombre d’assurés sans sinistre sur une période d’exercice (une année), le nombre de zéros
de la variable aléatoire du nombre de sinistres est important. De plus, la valeur zéro peut
correspondre à deux sous populations : les assurés qui n’ont eu aucun sinistre dans l’année
(cas général) et ceux qui ont eu un accident responsable et qui ne l’ont pas déclaré à
l’assureur. Non déclaration d’un accident mineur, en indemnisant directement la partie
adverse pour éviter d’avoir un malus et une augmentation de sa prime. Cette non
déclaration peut aussi correspondre à un délit de fuite.
Pour répondre à cette importance des valeurs nulles et à l’hétérogénéité de la
population correspondante, des modèles à « inflation de zéros » ont été proposés : le
modèle de Poisson à inflation de zéros (Zero-Inflated Poisson, noté ZIP) et le modèle
binomial négatif à inflation de zéros (Zero-Inflated Negative Binomial, noté ZINB). Les
variables explicatives de la fréquence des sinistres sont sensiblement les mêmes qu’avec les
modèles classiques de comptage, à l’exception du choix de contrat et ils révèlent un effet de
sélection adverse.
A notre connaissance, ces modèles ont été très peu utilisés en assurance automobile.
On trouve un article de LEE et al. (2002) sur les conducteurs novices dont l’ancienneté de
permis est inférieure à un an. Ils montrent empiriquement sur des données australiennes que
le modèle ZIP est justifié du fait d’une sur-dispersion de la fréquence des sinistres.
MELGAR et al. (2005) utilisent un modèle ZINB sur des données d’une compagnie
44
O.A. VASECHKO – M. GRUN-REHOMME – B. BENLAGHA
espagnole et montrent que ce modèle est plus adéquat aux données. Récemment, BOUCHER
et al. (2007, 2008a) comparent, aussi sur des données espagnoles, les modèles à inflation de
zéros et les modèles à barrière (hurdle models), mais ils n’insistent pas sur les
interprétations des probabilités de sinistralité à l’aide des variables exogènes. Pour des
données longitudinales ou des données de panel, on peut consulter les articles de BOUCHER
et al. (2008b) et BOUCHER, DENUIT (2008c).
Notre démarche empirique est nouvelle dans la mesure où elle concerne des données
françaises et que nous disposons du coefficient réduction majoration qui traduit
l’expérience passée du conducteur.
Ce texte est organisé en 5 sections. Après l’introduction, les modèles probabilistes
utilisés sont exposés synthétiquement dans la section 2. Les données et quelques
statistiques exploratoires sont présentées dans la section 3. Les résultats et les comparaisons
entre les différents modèles constituent la section 4. Le papier se termine par des
conclusions (section5), une bibliographie et des annexes.
2.
LES MODELES
Dans la modélisation des processus de comptage, ici de la fréquence des sinistres,
deux sortes de modèle sont couramment mis en œuvre ; le modèle de poisson et le modèle
binomial négatif. On trouve une littérature abondante sur l’utilisation de ces modèles :
GREENE (1996), WOOLDRIDGE (1997), CAMERON et TRIVEDI (1998), WINKILMANN (2000),
YAU et al. (2003), YANG et al. (2007).
Rappelons les définitions et les propriétés de ces modèles pour bien comprendre par
la suite l’emploi des modèles ZIP et ZINB.
2.1
Modèle de Poisson
Dans un modèle de Poisson, la probabilité pour qu’une variable aléatoire Y (nombre
de sinistres responsables déclarés) prennent la valeur yi ( yi  0,1, 2... ) pour un assuré i
est donnée par :
 i
P (Y  yi / X i ) 
où le paramètre
i
e i
yi
(1)
yi !
dépend du vecteur X i des caractéristiques (régresseurs) de
l’assuré i par une équation log linéaire, à savoir : ln i  X i  , où  est le vecteur des
'
coefficients à estimer.
MODELISATION DE LA FREQUENCE DES SINISTRES EN ASSURANCE AUTOMOBILE
45
On vérifie aisément que dans la loi de Poisson (1), l’espérance est égale à la
variance.
E (Yi / X i )  Var (Yi / X i )  i  e
'
Xi
(2)
Cette hypothèse d’équidispersion (homogénéité du portefeuille par rapport au
risque) est très restrictive.
Mais dans la pratique, du fait d’une abondance de valeurs nulles et de la présence de
quelques valeurs extrêmes, la variance est supérieure à la moyenne. Dans ce cas, on parle
d’une sur-dispersion de la variable Y. Cette situation implique une sous estimation des
écarts types et on rejette
trop souvent l’hypothèse nulle de non significativité des
coefficients  du modèle. D’où l’idée d’utiliser un modèle de comptage alternatif, basé
sur la loi binomiale négative, qui prend en compte cette sur-dispersion par l’introduction
d’un paramètre supplémentaire ( ) qui permet, en outre, de capter l’hétérogénéité
inobservée de la variable endogène (qui peut impliquer la sur-dispersion observée).
2.2
Modèle binomial négatif
Dans un modèle binomial négatif, on définit la probabilité pour que Y prenne la
valeur yi par:
  yi   

    i 
P (Y  yi / X i ) 

 

  yi  1        i     i 
En posant   1 /  , l’espérance et la variance s’expriment ainsi :
E ( yi / X i )  i  e
'
Xi 
yi
, Var ( yi / X i )  i (1  i )
(3)
(4)
La variance est donc différente de l’espérance et le paramètre  traduit une sur
dispersion (ou une sous dispersion) des données. Si   0 , le modèle binomial se réduit au
modèle de Poisson. Si   0 , le modèle de Poisson est rejeté au profit du modèle négatif
binomial. La sur-dispersion peut être testée soit par le ratio D / ( n  p ) , où D désigne la
déviance, n le nombre d’observations et p le nombre de paramètres dans le modèle, soit par
le ratio X / ( n  p ) , où X
2
2
correspond à la statistique du chi-deux de Pearson. La
déviance est définie comme 2 fois la différence entre le maximum possible de la log
vraisemblance et le maximum atteint sur le modèle estimé (MC CULLAGH, NELDER, 1989).
2
Le X de Pearson correspond à la somme des carrés des écarts à la moyenne.
Si ces ratios sont supérieurs à 1, les données présentent une sur dispersion (et une
sous dispersion si ces rations sont inférieurs à 1).
46
2.3
O.A. VASECHKO – M. GRUN-REHOMME – B. BENLAGHA
Les modèles ZIP et ZINB
CRAGG (1971) a développé différents modèles dans la situation où pour une variable
endogène, un événement (comme l’achat d’un bien ou la déclaration d’un sinistre) peut se
produire ou non, comme dans le modèle Tobit (TOBIN, 1958). Si l’événement ne se produit
pas, la valeur zéro est attribuée à la variable endogène, qui est supposée continue et à
valeurs positives. Le processus de décision est représenté par un modèle probit et le second
événement (montant de l’achat ou du sinistre) par un modèle de régression standard.
En se référant à la réalité des données, il est possible que la population des assurés
pour lesquels Y=0, soit composée de deux sous populations :

Une population qui prend la décision de participer à l’événement ou
l’expérience, c’est-à-dire qui effectue une déclaration d’accident dans le cas
où celui ci se produit. La valeur zéro indique que le conducteur assuré n’a
pas eu de sinistre pendant la période considérée.

Une population qui ne déclare pas un sinistre responsable à son assureur.
En effet, certains assurés sont amenés à ne pas déclarer un accident sans
grande gravité, pour éviter un malus et donc de payer davantage la
prochaine prime. Comme les pénalités du système sont indépendantes du
montant des sinistres, le conducteur responsable a tout intérêt à indemniser
directement la partie adverse pour les petits sinistres. L’autre cas, concerne
les conducteurs qui, par exemple, accrochent une voiture en stationnement,
et ne s’arrêtent pas pour faire un constat.
Cette distinction peut être intéressante pour l’assureur, car on peut penser que la non
déclaration d’un sinistre responsable (en dehors des cas des délits de fuite) est liée
davantage à la non gravité du sinistre qu’à la réalité objective du risque. L’assuré ne
communique pas cette information à son assureur dans la mesure où cette démarche lui est
favorable, mais ceci n’enlève rien au fait que l’assuré est risqué.
Un modèle de Poisson standard ou binomial négatif ne permet pas de distinguer ces
deux sous populations. Un modèle de Poisson à inflation de zéros (Zero-Inflated Poisson :
ZIP) ou binomial négatif à inflation de zéros (Zero-Inflated Negative Binomial : ZINB)
génère deux modèles séparés puis les combine. Ces modèles, développés par LAMBERT
(1992) et GREENE (1994), ne supposent pas que les valeurs nulles et les valeurs strictement
positives sont générées par le même processus.
Par rapport aux modèles simples précédents, on suppose donc que la variable
MODELISATION DE LA FREQUENCE DES SINISTRES EN ASSURANCE AUTOMOBILE
47
aléatoire observée Y est le produit d’une loi binaire B et d’une loi de Poisson (modèle
ZIP) ou binomiale négative (modèle ZINB) :
Y  BY *
(5)
La variable aléatoire inobservée B est modélisée par une régression logistique pour
estimer la probabilité que yi  0 . Pour un assuré i, bi  0 si l’assuré n’a pas déclaré
d’accidents et bi  1 dans le cas contraire. La variable aléatoire Y correspond au modèle
*
de Poisson (ou au modèle binomial négatif) et est utilisée pour prédire la valeur de Y pour
les assurés qui ont déclaré un sinistre (bi  1) . Cette équation estime l’espérance de yi .
Les modèles ZIP et ZINB comportent donc deux parties : celle relative au modèle de
*
comptage (pour Y , qui rend compte du nombre de sinistres quand l’assuré est dans la
situation de déclaration) et celle relative à l’inflation de zéros (Logit) qui explique la
probabilité de non déclaration.
Plus précisément, pour un modèle ZIP, si on note qi la probabilité de bi  0 (pas
de sinistre déclaré) et i le paramètre de la loi de Poisson pour la fréquence des sinistres,
qui dépend comme précédemment des variables explicatives (4), alors la densité de la
distribution Y s’écrit :
P (Y  0 / X i )  qi  (1  qi )e
 i
avec qi 
exp( X i'  )
(6)
1  exp( X i'  )
et pour y i non nulle, on a :
P(Y  y i / X i )  (1  q i )e
 i
iy
i
(7)
yi !
La probabilité du nombre de sinistres conditionnellement à bi  1 est égale à la
*
probabilité, non conditionnelle, de la variable inobservée yi .
Pour un modèle ZINB, la probabilité est alors donnée, en comparaison avec (3),
par :
  yi   

    i 
P (Y  yi / X i )  qi 1  min  yi ,1  1  qi 

 

  yi  1        i     i 
yi
(8)
avec i  0,1, 2...
2.4
Le test de Vuong
De nombreux auteurs ont proposé des statistiques pour tester la sur-dispersion dans
48
O.A. VASECHKO – M. GRUN-REHOMME – B. BENLAGHA
un contexte de loi de Poisson (GOURIEROUX et al. 1984, LEE 1986, CAMERON et TRIVEDI
1990, GURMU, 1991). On peut aussi consulter l’ouvrage GREEN (2002) pour plus de détails
sur ces différents tests.
Dans cette étude, on utilise le test de VUONG (1989), qui a proposé une statistique,
dans le cadre des estimations par la maximum de vraisemblance, pour tester des modèles
non emboîtés : le modèle ZIP (ou ZINB) contre le modèle de Poisson (ou binomial négatif)
correspondant.
Soient f1 la densité du modèle 1 (ZIP ou ZINB) et f 2 la densité du modèle 2
(Poisson ou binomial négatif).
 f1 ( yi ) 
 Pr( yi _ ZIP ) 
 log 


 f 2 ( yi ) 
 Pr( yi _ Poisson) 
mi  log 
Notons
Les hypothèses sont:
H 0 : E  mi   0
H1 : E  mi   0
La statistique de Vuong, pour tester l’hypothèse du modèle 1 (ZIP ou ZINB) contre
le modèle 2 (Poisson ou binomial négatif), est donnée par:
nm
V 
Avec m 
1
n
n
 mi et sm2 
i 1
1
(9)
sm
n
 ( m  m)
n 1
2
i
i 1
Le test de Vuong peut être décrit de façon très simple. Si l'hypothèse nulle est vraie,
la valeur moyenne du rapport de vraisemblance devrait être égale à zéro.
Si l’hypothèse complémentaire est vraie, la valeur moyenne du rapport de
vraisemblance devrait être sensiblement plus grande que zéro. Si l'inverse est vrai, la
valeur moyenne du rapport de vraisemblance devrait être de manière significative inférieure
à zéro. En d'autres termes, la statistique du test de Vuong n’est autre que le rapport moyen
du log de vraisemblance convenablement normalisé.
Les logarithmes de la vraisemblance utilisés dans le test de Vuong sont affectés si le
nombre de coefficients dans les deux modèles est différent ; le test doit donc être corrigé
par les degrés de liberté. Vuong propose d'employer une correction qui correspond aux
critères d'information bayesiens d'Akaike et de Schwarz.
Vuong montre que V tend asymptotiquement vers la loi normale standard.
MODELISATION DE LA FREQUENCE DES SINISTRES EN ASSURANCE AUTOMOBILE
49
-
On note que :
Si V est inférieure à la valeur prédéterminée, par exemple 1.96 pour un seuil
-
  0.5 , le test ne donne la préférence à aucun des deux modèles.
Si la valeur de V est élevée et positive alors le modèle 1 est préféré au modèle 2.
Si la valeur de V est largement négative alors le modèle 2 est favorisé.
3.
APPROCHE EMPIRIQUE
Pour mettre en œuvre cette approche de modélisation de la fréquence des sinistres,
nous disposons d’un échantillon aléatoire de 50 000 observations du portefeuille d’une
compagnie française d’assurance. Ces données concernent des véhicules 4 roues de
tourisme assurés durant l'année 2005.
3.1
Les données
Pour chaque assuré de notre échantillon, nous disposons de 4 groupes de variables :
les caractéristiques du conducteur, les caractéristiques du véhicule, le type de contrat et la
sinistralité. Plus précisément,
Caractéristiques du conducteur :
Sexe : Il s’agit du sexe du conducteur principal déclaré.
Type du conducteur, il exprime la qualification du conducteur principal déclaré au
regard du véhicule (le conducteur principal déclaré est ou non l’assuré).
Age du conducteur, exprimé en années.
Profession : profession du conducteur, codée en 17 modalités (cf. annexe 1).
Numéro de département : numéro de département de l’habitat principal du
conducteur.
Ancienneté de permis : de 0 à 3 ans.
Coefficient Réduction Majoration (CRM) ou Bonus Malus : il est compris entre 0.50
et 3.50 inclus (exprimé en %), conformément à la législation française en vigueur. L’assuré
voit sa prime augmenter de 25% pour un sinistre responsable (pour plus de détails sur ce
coefficient, se référer à l’article de Grun-Rehomme, 2000).
Période de couverture : période, en mois, au cours de laquelle l’assuré est couvert
par la police qu’il a souscrit, le plus souvent cette période est d’une année.
50
O.A. VASECHKO – M. GRUN-REHOMME – B. BENLAGHA
Caractéristiques du véhicule :
Ancienneté de véhicule : elle exprime le millésime de l'année du modèle du
véhicule.
Puissance réelle du véhicule : elle exprime la puissance du moteur en chevaux Din
(Deutsch Industrie Normen). Cette mesure donne une vision plus réaliste de la puissance
effective au niveau des roues (1 ch. Din = 0,735 Watt).
La variable sur l’usage du véhicule n’a pas été retenue puisque la quasi-totalité des
sociétaires en avait un usage promenade-trajet et non un usage professionnel.
Les Contrats :
Cette assureur propose quatre type de garanties pour l'assurance d'un véhicule 4
roues de tourisme :
Responsabilité Civile (RC, assurance minimale obligatoire) ; sont inclus dans cette
formule des garanties Défense-recours, Attentats, Catastrophes naturelles, Dommages
corporels du conducteur et Assistance.
Dommages au Véhicule (DV1) : RC + Garantie Dommage au véhicule toutes causes
avec une franchise importante.
DV2 : RC + Garantie Dommage au véhicule toutes causes avec une franchise
moyenne.
DV3 : RC + Garantie Dommage au véhicule toutes causes avec une franchise faible.
Caractéristiques des sinistres :
Nombre de sinistres déclarés : pour l’année de référence, ici 2005.
Responsabilité du conducteur : variable binaire qui indique si la responsabilité du
conducteur est engagée en cas de sinistre.
Il faut ajouter l’existence de variables inobservées par l’assureur (ou non prises en
compte) qui peuvent avoir un effet explicatif de la fréquence des sinistres comme le nombre
de kilomètres parcourus, l’état du véhicule, le comportement du conducteur au volant
(respect du code de la route, rapidité des réflexes, agressivité au volant..), les conditions
climatologiques, le type de route, l’état du réseau routier…
MODELISATION DE LA FREQUENCE DES SINISTRES EN ASSURANCE AUTOMOBILE
3.2
51
Statistiques exploratoires
La table 1 présente la répartition de l’échantillon, environ 53% d’hommes et 47% de
femmes, selon le nombre de sinistres responsables déclarés durant l’année 2005.
L’espérance de la variable aléatoire Y est égale à 0.728 dans l’échantillon.
Table 1 : Répartition de la fréquence des sinistres
Nombre de
sinistres
Fréquence
Pourcentage
(%)
Fréquence
cumulée
Pourcentage
Cumulé (%)
0
32434
64.87
32434
64.84
1
6737
13.47
39171
78.34
2
6198
12.40
45369
90.74
3
2603
5.21
47972
95.94
4
1210
2.42
49182
98.36
5
486
0.97
49668
99.34
6
207
0.41
49875
99.75
7
72
0.14
49947
99.89
8
34
0.07
49981
99.96
9
16
0.03
49997
99.99
10
3
0.01
50000
100.00
Table 2 : Répartition des assurés selon le sexe et le type de conducteur
Type =1 (*)
Type = 2 (**)
Masculin
65.4
34.6
Féminin
72.0
38.0
(*) Le conducteur principal est l’assuré, (**) Le conducteur principal n’est pas l’assuré
Dans cette assurance, il est possible que l’assuré ne soit pas le conducteur principal.
En effet, c’est très souvent la situation pour les jeunes conducteurs dont l’ancienneté de
permis est inférieure à trois ans (80% des cas) et pour des hommes expérimentés, dont la
femme est l’assuré ; ceci tient à la particularité de cette assurance dont les assurés (ou
sociétaires) proviennent de l’éducation nationale (qui est très majoritairement constituée de
femmes dans l’enseignement primaire et secondaire).
52
O.A. VASECHKO – M. GRUN-REHOMME – B. BENLAGHA
Table 3 : Statistiques descriptives des variables quantitatives utilisées
Moyenne
Médiane
Ecart type
Q1
Q3
Ancienneté de permis
25
28
13.6
16
38
Age du conducteur
48
50
15.7
37
59
Bonus-Malus
60
50
16.9
50
64
Ancienneté du véhicule
7.6
7
5.5
3
11
Puissance du véhicule
82.5
76
28.8
60
100
Cette population constitue une niche d’assurés à bas risques pour cette compagnie
comme le montre la distribution du coefficient réduction-majoration (médiane à 50 et
troisième quartile à 64). Il faut aussi ajouter que les assurés ayant des sinistres graves où
leur responsabilité est engagée et qui ont provoqué un accident en commettant une
infraction (alcoolémie, excès de vitesse,…) peuvent être exclus du portefeuille par
l’assureur.
Table 4 : Répartition des assurés selon le type de garantie
Garantie
RC
DV1
DV2
DV3
Pourcentage (%)
46,1
16,1
8,3
29,5
Ces pourcentages dans l’échantillon coïncident avec les proportions dans l’ensemble
du portefeuille de cette assurance.
4.
RESULTATS DES MODELISATIONS
Dans un premier temps, on compare le modèle de Poisson et le modèle binomial
négatif, puis avec les modèles correspondants à inflation de zéros.
4.1
Modèle de Poisson et modèle binomial négatif
La régression de Poisson et la régression binomiale négative mettent en évidence les
mêmes variables explicatives de la fréquence des sinistres, avec des effets semblables.
Même si le modèle binomial négatif est « meilleur » pour rendre compte de ces données, il
n’apporte pas d’éléments ou de précisions supplémentaires par rapport au modèle de
Poisson au niveau de l’interprétation des résultats (Table 5, où seules sont représentées les
variables exogènes significatives). Dans un article récent, MELGAR et al. (2005) montrent
MODELISATION DE LA FREQUENCE DES SINISTRES EN ASSURANCE AUTOMOBILE
53
aussi que différents types de modèles de comptage donnent des résultats qualitativement
semblables.
Table 5 : Comparaison des variables explicatives
Modèles
Poisson
Binomial négatif
Variables
Coefficient (**) Ecart-type
Coefficient (**) Ecart-type
Constante
-1.1530
0.0524
-1.0251
0.0914
Type1 (*)
-0.1643
0.0111
-0.1682
0.0173
DV1
-0.6532
0.0222
-0.6479
0.0308
DV2
-0.1565
0.0211
-0.1558
0.0319
DV3
-0.1185
0.0123
-0.1149
0.0190
Ancienneté du véhicule
-0.0191
0.0013
-0.0194
0.0019
Ancienneté de permis
-0.0064
0.0004
-0.0060
0.0006
CRM
0.0153
0.0005
0.0138
0.0010
Scale
1.0000
0.0000
1.7529
0.0289
(*) Le conducteur principal est l’assuré
(**) Tous les coefficients sont significatifs au seuil de 0.1%.
On constate une augmentation de la sinistralité avec le coefficient réduction
majoration (CRM, ce qui est logique puisque celui-ci traduit le passé du conducteur) et le
fait que le conducteur principal ne soit pas l’assuré, et une diminution avec l’ancienneté du
véhicule et l’ancienneté de permis.
Pour les contrats, la sinistralité diminue avec le choix de couvertures DV, ce qui va à
l’encontre d’une hypothèse de sélection adverse et est conforme aux travaux empiriques
récents (CHIAPPORI, SALANIE, 2000, GRUN-REHOMME, JOLY, 2003, COHEN, 2005, GRUNREHOMME, BENLAGHA, 2007). Le choix de garantie traduit plutôt une aversion au risque.
La distribution de Poisson se caractérise par l’égalité de l’espérance et de la variance
et dans ce cas le ratio D / ( n  p ) et le ratio X / ( n  p ) sont égaux à 1. Sous l’hypothèse
2
que le modèle est adéquat, la déviance suit une loi du chi-deux à (n-p) degrés de liberté. Le
nombre de degrés de liberté (DL) est égal à (n-p). Le paramètre d’échelle (scale)
correspond à la racine carrée du paramètre de dispersion dans la famille des lois
exponentielles.
54
O.A. VASECHKO – M. GRUN-REHOMME – B. BENLAGHA
Comme le montre la table 6 suivante, les données présentent une sur dispersion et le
modèle basé sur la loi binomiale négative est plus adapté à nos données que le modèle de
Poisson (cf. Log de la vraisemblance).
Table 6 : Critères de comparaison des modèles de Poisson et binomial négatif
Critères
Poisson
Valeur/DL
1.6581
1.9319
X 2 / (n  p)
Valeur
82891.88
9657798
Log-vraisemblance
- 46288.84
D / (n  p)
--
Binomial négatif
Valeur
Valeur/DL
41273.93
0.8256
43653.23
0.8732
-39910.76
--
Signalons que les données présentent une faible sous dispersion par rapport au
modèle binomial négatif.
4.2
Modèles à inflation de zéros : ZIP et ZINB
Les résultats ont été obtenu avec les logiciels SAS (pour l’analyse exploratoire et les
modèles de Poisson et binomial négatif) et Stata (pour les quatre modèles). Dans Stata, la
première partie des résultats concerne le modèle de comptage du nombre de sinistres et la
deuxième partie (inflate, inflation de zéros) correspond à la régression logistique.
Table 7 : Résultats des modélisations ZIP et ZINB
Modèles
Fréquence
des sinistres (
Y*)
CRM
Type1
DV1
DV2
DV3
Ancienneté
de permis
Age du
conducteur
Ancienneté
du véhicule
Coefficient
ZIP
Erreur
type
ZINB
Erreur
type
Z
Coefficient
.0067419
-.0652792
-.4096558
-.0818105
-.0566314
-.0057936
.0005876
.0130758
.0310780
.0250281
.0144617
.0012193
11.47
-4.99
-13.18
-3.27
-3.92
-4.75
.0068692
-.0706267
-.4167522
-.086006
-.059632
-.0059137
.0006155
.013515
.0320164
0.256983
.148847
.001256
11.16
-5.23
-13.02
-3.35
-4.01
-4.71
.0025266
.0012770
1.98
.0026379
.001313
2.01
-.0079037
.0016719
-4.73
-.0079776
.0017307
-4.61
Z
MODELISATION DE LA FREQUENCE DES SINISTRES EN ASSURANCE AUTOMOBILE
Modèles
Inflation de
Zéros (B)
CRM
DV2
Ancienneté
de permis
Ancienneté
du véhicule
Constante
Lnalpha
Alpha
ZIP
55
ZINB
-.0180454
.3306541
.0044903
.0015770
.0009080
.0027424
-11.44
4.95
7.67
-.0180448
.3271561
.0045072
.001607
.0009335
.0028126
-11.23
4.83
7.52
.0210358
.0027424
7.67
.0211643
.0028126
7.52
1.528996
-
.1454075
-
10.52
-
1.492156
-3.312252
.036434
.1485441
.2539225
.0092514
10.05
-13.04
Dans la première partie (Poisson ou binomial négatif), la probabilité du nombre de
sinistres, pour les assurés qui ne sont pas sans sinistre, augmente avec le CRM et l’âge du
conducteur. Cette probabilité diminue avec l’ancienneté de permis, l’ancienneté du
véhicule, le fait que le conducteur principal est l’assuré et les garanties DV (cf. table 7). A
propos des garanties, il faut noter une absence de sélection adverse entre la garantie RC
(modalité de référence) et les garanties DV mises ensemble, mais l’hypothèse de sélection
adverse est vérifiée parmi les conducteurs qui choisissent une garantie DV (cf. annexe 2 sur
les effets marginaux).
Précisons davantage ces simples commentaires.
Toutes choses égales par ailleurs, la probabilité du nombre de sinistres pour ces
assurés change (augmente ou diminue) d’un facteur exp(coefficient) pour chaque
augmentation d’une unité du facteur prédictif correspondant (cf. annexe 2). Les seuils de
significativité des effets marginaux ne sont pas présentés dans cette annexe car ils sont
biaisés, on se réfère donc plutôt à la significativité des coefficients des variables
correspondantes. Si le coefficient d’une variable dans l’une ou dans les deux équations est
significatif, l’effet marginal correspondant est considéré comme significatif. Par exemple,
comme le montre la table de cette annexe, le nombre de sinistres diminue d’un facteur
multiplicatif 0.994 par année d’ancienneté de permis et de 6% lorsque le conducteur est
l’assuré. Pour une variable indicatrice, les effets marginaux expliquent le changement
discret de la valeur 0 à la valeur 1.
La statistique z de la table 7, qui correspond au ratio du coefficient sur l’erreur type,
suit une loi normale standard et permet de juger de la significativité des coefficients du
modèle. Dans la table 7, tous les coefficients des modèles sont significatifs au seuil de 0.1%
56
O.A. VASECHKO – M. GRUN-REHOMME – B. BENLAGHA
sauf pour l’âge du conducteur qui est significatif seulement au seuil de 5%.
La probabilité de sinistre (régression logistique, deuxième partie) augmente avec
l’ancienneté de permis, l’ancienneté du véhicule et la garantie DV2, et elle diminue avec le
CRM (table 7).
Les coefficients de la deuxième équation s’interprètent de la même façon.
4.3
Comparaison des modèles
Le test de Vuong, avec une valeur de z égale à 58.54 (significatif au seuil 0.1%),
montre que le modèle ZIP est préférable à un modèle de Poisson standard. De même, avec
une valeur du test de Vuong égale à 27.03, le modèle ZINB est préférable au modèle
binomial négatif. En conclusion, on peut retenir comme modèle final, ce modèle ZINB. De
même, alpha correspond au paramètre de dispersion dans le modèle de comptage. Si
Ln ( )  0 (hypothèse nulle), le modèle de Poisson est approprié. Dans notre cas, le
modèle de Poisson est rejeté (p-value<0.0001). Les variables significatives dans les deux
modèles à inflation de zéros sont identiques et les coefficients des régresseurs sont très
proches.
Les quatre modélisations envisagées dans ce travail pour analyser la fréquence des
sinistres sont cohérentes : augmentation du nombre de sinistres avec le CRM, diminution
du nombre de sinistres avec l’ancienneté du permis de conduire, l’ancienneté du véhicule et
lorsque le conducteur est l’assuré.
Quels sont les apports supplémentaires de ce modèle ZINB par rapport aux
modèles de comptage standards ?
Dans la première équation (modèle de comptage) l’âge du conducteur devient une
variable significative au seuil de 5% avec un coefficient positif (table 7), alors que cette
variable n’était pas significative dans le modèle binomial négatif (table 5).
Conditionnellement au fait de déclarer un sinistre, la probabilité de sinistres augmente avec
l’âge du conducteur. Sachant à l’évidence que l’âge du conducteur est fortement corrélé
avec l’ancienneté du permis de conduire (le coefficient de corrélation linéaire est égal à
0.91 sur nos données), ce résultat doit certainement mettre en évidence une sous population
pour laquelle le nombre de sinistres augmente avec l’âge. En effet, on constate, toutes
choses égales par ailleurs, que pour les jeunes conducteurs, de 18 à 21 ans, l’espérance de la
variable Y (nombre de sinistres) augmente avec l’âge. Elle prend les valeurs suivantes :
0.62 (pour 18 ans), 0.88, 0.97 et 1.10 (pour les 21 ans).
Nous avions déjà relevé ce point (GRUN-REHOMME et BENLAGHA, 2007) à propos
MODELISATION DE LA FREQUENCE DES SINISTRES EN ASSURANCE AUTOMOBILE
57
des jeunes conducteurs dans le cadre d’une modélisation bivariée pour tester l’endogénéité
du choix de garantie par rapport à la sinistralité. On peut penser que le jeune conducteur
prend de l’assurance après ses premières expériences de conduite et sur estime ses capacités
de conduite. L’expérience et la maturité peuvent par la suite expliquer une diminution de la
sinistralité (toutes choses égales par ailleurs).
Un biais de simultanéité pourrait intervenir dans la mesure où un assuré qui aurait
plusieurs sinistres responsables (dans la même année) fait un arbitrage entre la déclaration
et la non déclaration. Mais on peut penser que ce biais est faible, car d’une part, dans une
telle situation, l’assuré n’a pas forcément le choix du fait que la partie adverse peut refuser
une non déclaration et d’autre part, cette situation concerne un faible effectif de nos
données.
Les résultats des deux équations de modélisation sont cohérents. En effet, les signes
des coefficients des quatre variables explicatives dans la régression logistique sont opposés
à ceux correspondants aux mêmes variables dans l’équation conditionnelle de comptage.
Par exemple, le nombre de sinistres déclarés diminue avec l’ancienneté du véhicule
(première équation de la table 7) et la probabilité de non sinistre augmente avec
l’ancienneté du véhicule (deuxième équation).
Plus le score d’un assuré, dans la deuxième équation, est élevé, plus il est
vraisemblable que l’assuré n’a pas eu de sinistres non déclarés. La probabilité que l’assuré a
eu un sinistre responsable non déclaré, diminue avec l’ancienneté du véhicule et
l’ancienneté de permis, et augmente avec le CRM.
En proposant un modèle ZINB, on tente d’isoler la trace d’une non déclaration d’un
sinistre, d’une véritable absence de sinistralité, à travers le CRM et le type de contrat. Dans
cette assurance, lorsqu’un assuré à un CRM égal à 0.50 de puis au moins trois ans et qu’il
n’a pas eu d’accidents responsables déclarés dans ces trois dernières années, son CRM reste
inchangé s’il occasionne un accident où sa responsabilité est engagée. On peut donc penser
qu’un assuré dans cette situation déclarera un accident responsable (car sans conséquences
sur sa prime à payer) alors qu’un assuré ayant un CRM élevé cherchera à non déclarer le
sinistre. De plus le type de garantie choisie peut intervenir sur la décision de non
déclaration. En cas de sinistre responsable, un assuré ayant une garantie RC n’est pas
remboursé pour les dommages à son véhicule. La déclaration du sinistre n’engendre aucun
bénéfice. On peut également ajouter, qu’en valeur absolue, 25% d’augmentation sur la
prime de référence d’un assuré, dont le CRM est élevé, est plus important que pour un
58
O.A. VASECHKO – M. GRUN-REHOMME – B. BENLAGHA
assuré dont le CRM est à 0.50.
De plus, le modèle ZINB (comme le modèle ZIP), met en évidence la particularité
de la garantie DV2 (avec une franchise moyenne). Cette garantie a l’effectif le plus faible
de l’échantillon (cf. table 4), et du portefeuille. Cette garantie DV2 se caractérise des autres
garanties par le fait que la corrélation (positive) entre l’ancienneté du véhicule et
l’ancienneté de permis est plus importante, ainsi que la corrélation négative entre l’âge du
conducteur et le CRM. Ce qui corrobore les résultats obtenus dans la deuxième équation du
modèle (table 7). On peut penser que les assurés qui choisissent ce contrat DV2 sont plus
enclins à déclarer un sinistre, malgré un CRM parfois élevé.
5.
CONCLUSIONS
Si les modèles actuels sont suffisamment sophistiqués pour que l’on puisse les
considérer comme des outils utiles et performants et non plus comme des curiosités
théoriques, il ne faut pas oublier qu’un modèle a ses limites et ne donne qu’une image
imparfaite de la réalité. Les modèles doivent être utilisés de façon souple, sans y croire
complètement à la limite. Il reste toujours une composante individuelle comportementale
non observée. L’approche devant être ouverte et multiforme, et en ce sens, il n’y a pas une
méthode pour un problème.
Une modélisation économétrique permet un meilleur contrôle des risques et de leurs
impacts sur l’entreprise en fournissant une information fiable et robuste pour les décideurs.
MODELISATION DE LA FREQUENCE DES SINISTRES EN ASSURANCE AUTOMOBILE
6.
ANNEXES
6.1
Codification des professions
Code
Profession
0
Non renseigné
1
Agriculteur, exploitant
2
Artisan (*)
3
Commerçant
4
Chef d’entreprise (*)
5
Profession libérale
6
Profession de l’information des arts et des spectacles
7
Cadre, ingénieur
8
Enseignant, formateur, chercheur
9
Educateur, animateur, moniteur
10
Profession intermédiaire de la santé et du travail social
11
Technicien
12
Contremaître, agent de maîtrise (*)
13
Agent, employé
14
Ouvrier
15
Etudiant
16
Demandeur d’emploi
17
Homme ou femme au foyer
59
60
6.2
O.A. VASECHKO – M. GRUN-REHOMME – B. BENLAGHA
Calcul des effets des variables explicatives dans les modèles ZIP et ZINB
Modèles
Fréquence des
sinistres ( Y * )
CRM
Type1
DV1
DV2
DV3
Ancienneté de
permis
Age du
conducteur
Ancienneté du
véhicule
……………….
Inflation de
Zéros (B)
CRM
DV2
Ancienneté de
permis
Ancienneté du
véhicule
Constante
Coefficient
ZIP
Exp(Coefficient)
Coefficient
ZINB
Exp(Coefficient)
.0067419
-.0652792
-.4096558
-.0818105
-.0566314
1.00676468
0.93680587
0.66387872
0.92144656
0.94494231
.0068692
-.0706267
-.4167522
-.086006
-.059632
1.00689285
0.93180967
0.65918425
0.91758873
0.94211117
-.0057936
0.99422315
-.0059137
0.99410375
.0025266
1.00252979
.0026379
1.00264138
-.0079037
………….
0.99212745
............................
-.0079776
………….
0.99205414
…………………
-.0180454
.3306541
0.98211644
1.39187826
-.0180448
.3271561
0.98211703
1.38701797
.0044903
1.0045004
.0045072
1.00451737
.0210358
1.528996
1.02125861
4.6135425
.0211643
1.492156
1.02138985
4.44667222
MODELISATION DE LA FREQUENCE DES SINISTRES EN ASSURANCE AUTOMOBILE
7.
61
BIBLIOGRAPHIE
BOUCHER, J.Ph., DENUIT, M. and GUILLEN, M. (2007) Risk classification for claims
counts: A comparative analysis of various zero-inflated mixed Poisson and hurdle models.
North American Actuarial Journal, 11, 110-131.
BOUCHER, J.Ph., DENUIT, M. and GUILLEN, M. (2008a) Models of insurance claim
counts with time dependence based on generalization of Poisson and Negative Binomial
distribution. Variance 2, 135-162.
BOUCHER, J.Ph. and DENUIT, M. (2008b) Credibility premium for the zero-inflated
Poisson model and new hunger for bonus interpretation. Insurance; mathematics and
economics, 42, 727-735
BOUCHER, J.Ph. and DENUIT, M. (2008c) Crédibilité linéaire bivariée utilisant le
nombre de périodes avec réclamations: modèles de Poisson, modèles à barrières et modèles
gonflés de zéros. Assurances et gestion des risques, 75, 487-520.
CHIAPPORI, P.A. and SALANIÉ, B. (2000) Testing for Asymmetric Information in
Insurance Markets. Journal of Political Economy, 108, 56-78.
COHEN, A. (2005) Asymmetric information and learning: evidence from the
automobile insurance market. The Review of Economics and Statistics, 87, 197-207.
COX, D. R. (1983) Some remarks on overdispersion. Biometrika, 70, 269-274.
CRAGG, J.G. (1958) Some Statistical Models for Limited Dependent Variables with
Application to the Demand for Durable Goods. Econometrica, 39, 829-844.
DANIE, B., HALL, D.B. and KENNETH, S.B. (2002) Score Tests for Heterogeneity
and Overdispersion in Zero-inflated Poisson and Binomial Regression Models, The
Canadian Journal of Statistics, 30, 415-430.
GOURIEROUX, C., MONFORT, A. and TROGNON, A. (1984) Pseudo Maximum
Likelihood Methods: Applications to Poisson Models. Econometrica, 52, 701-720.
GREENE, W.H. (2002) Econometric Analysis. Prentice Hall, 5th Ed.
GREENE, W.H. (1994) Accounting for Excess Zeros and Sample Selection in Poisson
and Negative Binomial Regression Models. Working Paper EC-94-10, Department of
Economics, Stern school of Business, New York University.
GRUN-REHOMME, M. and JOLY, V. (2003) Risque individuel et choix de contrat : Le
cas de l’assurance automobile. Assurances et gestion des risques, 71(1), 145-162.
62
O.A. VASECHKO – M. GRUN-REHOMME – B. BENLAGHA
GRUN-REHOMME, M. and BENLAGHA, N. (2007) Choix de contrat et sinistralité chez
les jeunes conducteurs. Assurances et gestion des risques, 74(4), 505-532.
GRUN-REHOMME, M. (2000) Prévision du risque et tarification : le rôle du bonusmalus français. Assurances et gestion des risques 1, 21-30.
MELGAR, M.C. and GUERRERO, F.M. (2005) Los Siniestros en el Seguro del
Automóvil: un Análisis Econométrico Aplicado, Estudios de Economía Aplicada.
HALL, D.B. (2000) Zero-inflated Poisson and binomial regression with random
effects: a case study. Biometrics, 56, pp. 1030-1039.
HUI LIU (2007) Growth Curve Models for Zero-Inflated Count Data: An Application
to Smoking Behavior. Structural Equation Modeling: A Multidisciplinary Journal, 14, 247279.
LAMBERT, D. (1992) Zero-Inflated Poisson Regressions, with an Application to
defects in Manufacturing. Technometrics, 34, 1-14.
LEE, A.H., STEVENSON, M.R., WANG, K. and YAU, K.K.W. (2002) Modeling young
driver motor vehicle crashes: data with extra zeros. Accident analysis and prevention,
34(4), 515-521.
LEE, J. and MANNERING, F.L. (2002) Impact of Roadside Features on the Frequency
and Severity of Run-Off-Road Accidents: An Empirical Analysis. Accident Analysis and
Prevention, 34 (2), 349-161.
MC CULLAGH P. and NELDER, J.A. (1989) Generalized Linea Models. Chapman and
Hall.
MELGAR, M.C., ORDAZ SANZ, J.A. and GUERRERO M. (2005) Diverses alternatives
pour déterminer les facteurs significatifs de la fréquence d’accidents dans l’assurance
automobile. Assurances et gestion des risques, 73(1), 31-54.
MULLAHY, J. (1986) Specification and testing of some modified count data model.
Journal of Econometrics, 33, 341-365.
TOBIN, J. (1958) Estimation of Relationships for Limited Dependant
Variables. Econometrica, 26, 24-36.
VUONG, Q.H. (1989) Likelihood Ratio Tests for Model Selection and Non-Nested
Hypotheses. Econometrica, 57, 307-333.
WINKELMANN, R. (2003) Econometric Analysis of Count Data. SpringerVerlag.
YANG, Z., HARDIN, J.W., ADDY, C.L. and VUONG, Q.H. (2007) Testing Approaches
MODELISATION DE LA FREQUENCE DES SINISTRES EN ASSURANCE AUTOMOBILE
63
for Overdispersion in Poisson Regression versus the Generalized Poisson Model.
Biometrical Journal, 49, 565 – 584.
YAU, K.K., WANG, K. and LEE, A.H. (2003) Zero-Inflated Negative Binomial
Mixed Regression Modelling of Over-Dispersed Count Data with Extra Zeros. Biometrical
Journal, 45, pp. 437-452.