Analyse Statistique des Taux de Prime des Garanties Dommages en

Transcription

Analyse Statistique des Taux de Prime des Garanties Dommages en
UNIVERSITÉ DE YAOUNDÉ I
UNIVERSITY OF YAOUNDE I
******************
ÉCOLE NATIONALE SUPÉRIEURE
POLYTECHNIQUE
******************
DEPARTEMENT DE
MATHEMATIQUES ET SCIENCES
PHYSIQUES
*****************
NATIONAL ADVANCED SCHOOL
OF ENGINEERING
******************
DEPARTEMENT OF
MATHEMATICS AND PHYSICAL
SCIENCES
Analyse Statistique des Taux de Prime des
Garanties Dommages en assurances automobile :
cas de la SAAR Assurances
Par
DOUANLA Frédéric Hermann
Matricule : 12 P 316
Mémoire
présenté en vue de l’obtention du
Diplôme de Master Recherche
Option
Statistique Appliquée
Sous la direction de
Dr Eugène-Patrice NDONG NGUEMA
Chargé de cours
Devant le jury composé de:
Président : Pr Henri GWÉT, Maître de conférences
Rapporteur : Dr Eugène-Patrice NDONG NGUEMA, Chargé de cours
Membres : Dr Jacques TAGOUDJEU, Chargé de cours ;
Dr Wilson TOUSSILE, Assistant ;
Mme Liliane MISSOUMA, Cadre à la SAAR Assurances.
Année académique 2013-2014
17 Septembre 2014
Dédicaces
DÉDICACES
Je dédie ce mémoire à
Mes chers parents Papa SIMOU Pierre et Maman FOPA Charlotte.
DOUANLA Frédéric Hermann ©2014
i
Memoire de Master de Statistique Appliquée, UYI-ENSP
Remerciements
REMERCIEMENTS
Je remercie :
• le président du jury, Pr Henri GWÉT,
ainsi que les membres du jury,
• Dr Eugène-Patrice NDONG NGUEMA ;
• Dr Jacques TAGOUDJEU ;
• Dr Wilson TOUSSILE ;
• Mme Liliane MISSOUMA
pour leur disponibilité, et plus encore pour leurs remarques et appréciations qui vont contribuer à l’édification et la perfection de ce travail.
J’exprime encore une reconnaissance particulière à l’endroit de :
• Mon Directeur de mémoire Dr Eugène Patrice NDONG NGUEMA, Chargé de cours
à l’ENSP, pour sa rigueur et sa disponibilité ;
• Le Pr Henri GWÉT, Maître de conférences, coordonateur du Master de Statistique
Appliquée de l’ENSP pour sa contribution dans la formation de la jeunesse africaine et
camerounaise en particulier ;
• Tous mes enseignants du MASTAT, pour leur engagement et leur dévouement à la formation de leurs étudiants ;
• Le conseil d’administration de la compagnie SAAR Assurances, particulièrement le
Dr Paul FOKAM KOMMOGNE, président dudit conseil ;
• M. Georges Léopold KAGOU, Directeur Général de la SAAR Assurances, pour
m’avoir accordé de faire le stage au sein de sa compagnie ;
• M. Elvis SOUN SOUN, chef du département des Ressources Humaines, pour avoir
facilité mon insertion dans mon lieu de stage ;
• Mon encadreur professionnel Mme Liliane MISSOUMA, Chef du Bureau Direct de
Douala, qui n’a cessé de me faire apprendre grâce à ses remarques, conseils, et souvent sa
fermeté. Merci Madame !
• Tout le personnel de la Direction générale et du Bureau Direct de Douala ;
DOUANLA Frédéric Hermann ©2014
ii
Memoire de Master de Statistique Appliquée, UYI-ENSP
Remerciements
• M. Evariste FOSSO DIFFO ;
• M&Mme TIOSTE ;
• M&Mme TACKOUGANG ;
• M&Mme TCHOUATA ;
• Particulièrement M. Hernandez LELE SIAKA ;
• Mes amis Jackson DOUNTSOP et Alex NGUEBOU ;
• Tous mes camarades de la 7ème promotion du MASTAT.
Je termine ces remerciements en les addresant à :
• À ma chère Vanessa TCHOUATA, pour son accompagnement multiforme ;
• Tous mes aimables frères et sœurs.
À tous, trouvez en ce travail l’un des premiers résultats de vos efforts, attentions et accompagnement dont vous avez toujours su me gratifier. Merci !
DOUANLA Frédéric Hermann ©2014
iii
Memoire de Master de Statistique Appliquée, UYI-ENSP
Résumé
RÉSUMÉ
Ce mémoire propose une méthodologie d’estimation des taux de prime (des garanties dommage) en adéquation avec la sinistralité actuelle du portefeuille automobile de la compagnie
SAAR Assurances. Ces garanties sont : Assistance à la Réparation, Dommages par Accident,
Dommages par Collision, Incendie, Vol Total & Vol Partiel et Bris de Glaces. L’objectif de cette
étude était de déterminer si la charge des sinistres présents est en adéquation avec les taux de
prime en vigueur. La démarche utilisée a été la suivante : partant de la charge des sinistres
actuelle d’une garantie donnée, le taux de prime qui aurait été appliqué pour régler ces sinistres
est estimé. Ensuite, ce taux de prime estimé est comparé à celui appliqué effectivement. À la
base de tout ceci, des conclusions sont tirées. Les résultats obtenus révèlent des taux de prime
inférieurs aux taux en vigueur, exceptés ceux de la garantie Incendie et l’Assistance à la Réparation où les taux estimés sont un peu supérieurs aux taux en vigueur dans certaines classes de
risques.
Mots clés : Assurance, Coût relatif des sinistres, Fréquence des sinistres, Taux de
prime, Garantie, Risque.
DOUANLA Frédéric Hermann ©2014
iv
Memoire de Master de Statistique Appliquée, UYI-ENSP
Abstract
ABSTRACT
This dissertation puts forward a methodology of premium rates assessment (damage warranties) in adequacy with the current level of disasters for the automobile portfolio of the
Insurance Company SAAR. Those warranties are : Repair assistance, Damages per Accident,
Damages per Collision, Fire, Total Robbery & Partial Robbery and Broken Windows. The aim
of this study was to determine whether the charge of current disasters is in adequacy with the
premium rates in force. We proceeded as follows : Going from the charge of current disasters
of a given warranty, the premium rate which would have been applied, in order to settle the
disasters is considered. Then, this premium rate is compared to the one actually applied. From
what precedes, conclusions are drawn. The results show that premium rates are quite low, compared to the rates in force, except that of the Fire and Repair assistance, where the estimated
rates are a bit higher than the rates in force in some risk categories.
Key words : Insurance, Relative cost of a disaster, Frequency of disasters, Premium rates, Warranty, Risk.
DOUANLA Frédéric Hermann ©2014
v
Memoire de Master de Statistique Appliquée, UYI-ENSP
Table des matières
TABLE DES MATIÈRES
Dédicaces
i
Remerciements
ii
Résumé
iv
Abstract
v
Table des matières
vii
Liste des figures
viii
Liste des Tableaux
x
Sigles des abréviations
xi
Glossaire
xiii
Présentation de la SAAR Assurances
1
Introduction
3
Résumé Exécutif
5
1 Notion d’Assurance et Présentation des Données
1.1 Notion de Prime d’Assurance . . . . . . . . . . . . . . . . . . . .
1.1.1 La Prime Pure . . . . . . . . . . . . . . . . . . . . . . . .
1.1.2 La Prime Nette . . . . . . . . . . . . . . . . . . . . . . . .
1.1.3 La Prime Commerciale . . . . . . . . . . . . . . . . . . . .
1.2 Assurance Automobile . . . . . . . . . . . . . . . . . . . . . . . .
1.2.1 Branches de risque commercialisées par la SAAR S.A. . . .
1.2.2 Les différentes garanties en Assurance Automobile . . . . .
1.3 Présentation des Données . . . . . . . . . . . . . . . . . . . . . .
1.3.1 Origine des Données . . . . . . . . . . . . . . . . . . . . .
1.3.2 Définition de l’Unité Statistique . . . . . . . . . . . . . . .
1.3.3 Présentation des Variables . . . . . . . . . . . . . . . . . .
1.3.4 Problématique statistique de l’étude et variables d’intérêt.
2 Analyse Descriptive des Données
2.1 Formatage de la base de données . . . . . . . . . . .
2.2 Analyse descriptive univariée . . . . . . . . . . . . . .
2.2.1 Analyse descriptive des variables qualitatives .
2.2.2 Analyse descriptive des variables quantitatives
2.3 Analyse de la sinistralité du portefeuille . . . . . . . .
DOUANLA Frédéric Hermann ©2014
vi
Memoire de Master de Statistique Appliquée, UYI-ENSP
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
10
10
10
11
11
12
12
13
16
16
17
17
20
.
.
.
.
.
21
21
22
22
25
28
2.4
Premier tri parmi les variables tarifaires . . . . . . . . . . . . . . . . . . . . . . 34
3 Méthodes Statistiques
3.1 Modèles linéaires généralisés pour des données longitudinales . . . . . . . . .
3.1.1 Données longitudinales : notations . . . . . . . . . . . . . . . . . . . .
3.1.2 Famille exponentielle linéaire . . . . . . . . . . . . . . . . . . . . . . .
3.1.3 Modèle linéaire généralisé pour données longitudinales : Introduction
3.1.4 Cas de l’indépendance des observations répétées sur le même individu
3.1.5 Estimation des paramètres βk sous l’indépendance. . . . . . . . . . .
3.1.6 Intervalles de confiance pour les paramètres (Méthode de Wald) . . .
3.1.7 Validation du modèle (statistique de Pearson) . . . . . . . . . . . . .
3.2 Un exemple de GLM : La régression de Poisson longitudinale . . . . . . . . .
3.2.1 Hypothèse du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.2 Écriture du modèle et interprétation des paramétres . . . . . . . . . .
3.2.3 Estimation du paramètre β . . . . . . . . . . . . . . . . . . . . . . .
3.3 Estimation des paramètres à l’aide de la technique GEE . . . . . . . . . . .
3.3.1 Prise en compte de l’aspect sériel . . . . . . . . . . . . . . . . . . . .
3.3.2 Spécification et estimation de la "working correlation matrix" . . . .
3.3.3 Obtention des estimations . . . . . . . . . . . . . . . . . . . . . . . .
3.4 Quantification de l’incertitude dans le modèle : Méthode "bootstrap" . . . .
3.4.1 Principe de la méthode du bootstrap . . . . . . . . . . . . . . . . . .
3.4.2 Bootstrap et échantillons corrélés. . . . . . . . . . . . . . . . . . . . .
4 Application aux Données
4.1 Estimation des taux de prime en adéquation avec la sinistralité actuelle. .
4.1.1 Modélisation de la fréquence des sinistres. . . . . . . . . . . . . .
4.1.2 Estimation du coût relatif moyen des sinistres. . . . . . . . . . . .
4.1.3 Estimation du taux de prime. . . . . . . . . . . . . . . . . . . . .
4.1.4 Estimation des taux de prime pour les autres garanties dommages
4.2 Vérification des résultats : Erreur de prédiction . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
37
37
37
38
39
39
39
41
42
42
43
43
43
44
44
44
47
47
48
49
.
.
.
.
.
.
50
50
50
57
58
59
62
Conclusion
63
Annexe
66
Bibliographie
73
DOUANLA Frédéric Hermann ©2014
vii
Memoire de Master de Statistique Appliquée, UYI-ENSP
Liste des figures
LISTE DES FIGURES
2.1
Nombre de polices d’assurance émises selon l’année (pour 2014, période JanvierJuin) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Répartition du portefeuille, fréquence des sinistres et coût relatif moyen des sinistres par type d’énergie (de gauche à droite), avec ES="Essence" et DS="Diesel".
2.3 Répartition du portefeuille, fréquence et coût relatif moyen des sinistres selon la
variable PROPRIETAIRE (de gauche à droite). . . . . . . . . . . . . . . . . .
2.4 Répartition du portefeuille par type d’usage, fréquence des sinistres par type
d’usage (de gauche à droite). . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.5 Répartition du portefeuille, fréquence des sinistres et coût relatif moyen des sinistres par type d’usage (de gauche à droite). . . . . . . . . . . . . . . . . . . . .
2.6 Répartition du portefeuille, fréquence des sinistres et coût relatif moyen des sinistres par garantie souscrite (de gauche à droite). . . . . . . . . . . . . . . . . .
2.7 Répartition du portefeuille selon l’âge du preneur d’assurance. . . . . . . . . . .
2.8 Répartition du portefeuille selon l’âge du véhicule. . . . . . . . . . . . . . . . . .
2.9 (a) Fréquence des sinistres selon l’âge du véhicule. (b) Coût relatif moyen des
sinistres selon l’âge du véhicule, pour les sinistres ayant un coût non nul. . . . .
2.10 Répartition du portefeuille selon l’âge du permis. . . . . . . . . . . . . . . . . .
2.11 (a) Fréquence des sinistres selon l’âge du permis. (b) Coût relatif moyen des
sinistres selon l’âge du permis, pour les sinistres ayant un coût non nul. . . . . .
DOUANLA Frédéric Hermann ©2014
viii
Memoire de Master de Statistique Appliquée, UYI-ENSP
23
28
29
30
31
31
32
32
33
34
34
Liste des tableaux
LISTE DES TABLEAUX
1
2
3
4
5
Fiche d’identification de la SAAR Assurances . . . . . . . . . . . . . . . . . . .
Estimation des taux de prime selon les classes de risques en VOL&VOL PARTIEL.
Estimation des taux de prime selon les classes de risques en Dommage par Collision.
Estimation des taux de prime selon les classes de risques en garantie Bris de
Glaces. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Estimation des taux de prime selon les classes de risques en Assistance à la
Réparation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
7
8
8
8
1.1
1.2
1.3
Garanties Dommage en assurances automobile . . . . . . . . . . . . . . . . . . . 16
Variables de l’étude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
Garanties dommages en assurance automobile. . . . . . . . . . . . . . . . . . . . 18
2.1
2.2
2.3
Nombre d’observations du coût relatif par garantie. . . . . . . . . . . . . . . . .
Répartition du nombre de polices d’assurance souscrites selon l’unité. . . . . . .
Nombre de polices d’assurance émises selon l’année (pour 2014, période JanvierJuin) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Résumé Statistique de la variable SEXE. . . . . . . . . . . . . . . . . . . . . . .
Résumé Statistique de la variable CATEG.PERMIS. . . . . . . . . . . . . . .
Résumé Statistique de la variable PROPRIETAIRE. . . . . . . . . . . . . . .
Résumé statistique de la variable GARANTIE. . . . . . . . . . . . . . . . . .
Résumé Statistique de la variable ENERGIE. . . . . . . . . . . . . . . . . . . .
Résumé Statistique de la variable USAGE. . . . . . . . . . . . . . . . . . . . .
Résumé Statistique de la variable AGE.ASSURE . . . . . . . . . . . . . . . .
Résumé Statistique de la variable AGE.PERMIS. . . . . . . . . . . . . . . . .
Résumé Statistique de la variable AGE.VEH. . . . . . . . . . . . . . . . . . . .
Distribution de la variable N.SIN et ajustement par une loi de Poisson. . . . . .
Distribution de la variable IND dans le portefeuille. . . . . . . . . . . . . . . . .
Résumé statistique de la variable COUT.SIN . . . . . . . . . . . . . . . . . . .
Résumé statistique de la variable COUT.RELATIF . . . . . . . . . . . . . . .
Résumé Statistique de la variable USAGE après regroupement. . . . . . . . . .
Résumé statistique de la variable AGE.VEH.G. . . . . . . . . . . . . . . . . .
Table de contingence croisant IND et PROPRIETAIRE, et test d’indépendance du χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Résultats des tests d’indépendance du χ2 sur les tables de contingence croisant
les variables tarifaires et IND. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Variables retenues à l’issue de l’analyse descriptive . . . . . . . . . . . . . . . . .
2.4
2.5
2.6
2.7
2.8
2.9
2.10
2.11
2.12
2.13
2.14
2.15
2.16
2.17
2.18
2.19
2.20
2.21
22
22
23
24
24
24
24
25
25
26
26
26
27
27
27
28
30
33
35
35
36
3.1
Fonction variance et paramètres associés aux lois de probabilité usuelles dont les
densités sont de la forme (3.1). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.1
Résultat de la régression de Poisson avec approche GEE et structure de dépendance AR(1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
Résultats de l’analyse pour le modèle de base avec approche GEE et structure
de dépendance AR(1). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.2
DOUANLA Frédéric Hermann ©2014
ix
Memoire de Master de Statistique Appliquée, UYI-ENSP
4.3
4.4
4.5
4.6
4.7
4.8
4.9
4.10
4.11
4.12
4.13
4.14
4.15
4.16
4.17
Ajustement du modèle de régression de Poisson, modèle final. . . . . . . . . . .
Statistiques du rapport de vraisemblance, modèle final. . . . . . . . . . . . . . .
Estimation des fréquences des différentes classes de risque pour la garantie Incendie.
Estimation du coût relatif moyen selon l’usage du véhicule en garantie Incendie.
Estimation des taux de prime selon les classes de risques en garantie Incendie. .
Estimation des taux de prime selon les classes de risques en Dommage par Accident.
Estimation des taux de prime selon les classes de risques en VOL&VOL PARTIEL.
Estimation des taux de prime selon les classes de risques en Dommage par Collision.
Estimation des taux de prime selon les classes de risques en garantie Bris de
Glaces. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Estimation des taux de prime selon les classes de risques en Assistance à la
Réparation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Proportion des différentes catégories d’usage en Assistance Auto . . . . . . . . .
Estimation des taux de prime selon les classes de risques en Assistance à la
Réparation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Vérification des résultats sur quelques classes de risque. . . . . . . . . . . . . . .
Proportion des sinistres ayant un coût de règlement non nul. . . . . . . . . . . .
Propriétés de dispersion associées à quelques lois. . . . . . . . . . . . . . . . . .
DOUANLA Frédéric Hermann ©2014
x
Memoire de Master de Statistique Appliquée, UYI-ENSP
54
55
56
57
58
59
60
60
61
61
62
62
62
64
68
Liste des abréviations
LISTE DES ABRÉVIATIONS
CIMA : Conférence Interafricaine des Marchés d’Assurances.
SAAR : Société Africaine d’Assurance et de Réassurance.
ASSAC : Association des Sociétés d’Assurances du Cameroun.
ENSP : École Nationale Supéieure Polytechnique.
N.SIN : Nombre de Sinistres.
DOUANLA Frédéric Hermann ©2014
xi
Memoire de Master de Statistique Appliquée, UYI-ENSP
Glossaire
GLOSSAIRE
Assurance : Engagement donné par contrat, à un assuré par un assureur , de le garantir
en cas de survenance d’un événement incertain affectant sa personne, ses biens ou sa
responsabilité. Cette garantie est donnée contre le paiement d’une prime. 10
Assureur : Terme générique utilisé pour désigner des organismes d’assurance. Disposant d’un
agrément, ces entités produisent les contrats d’assurance. 3
Assuré (ou souscripteur) : Personne à qui est accordée la garantie prévue par le contrat
d’assurance. 3
Branche de risques : Segmentation ou classification des risques. 4
Capitaux assurés : Représente la valeur de l’objet assuré, et correspond au montant maximal
d’indemnisation. 17
Classes de risques : Sous-portefeuilles sur lesquels les risques peuvent être considérés comme
équivalents. 4
Contrat d’assurance : Document qui constate l’engagement réciproque de l’assureur et de
l’assuré. 10
Coût relatif moyen des sinistres : Proportion moyenne des capitaux, nécessaire pour le
règlement d’un sinistre dans un portefeuille donné. 3
Dommage : Perte, destruction, atteinte corporelle, manque à gagner. 14
Exclusion : Ce qui n’est pas garanti par un contrat d’assurance. 14
Franchise : Prévue dans un contrat d’assurance, est la somme restant à la charge de l’assuré
(donc non indemnisée par l’assureur). 64
Fréquence des sinistres : Nombre moyen d’occurrence des sinistres sur une période (un an)
.3
Garantie : Couverture d’un risque par l’assureur en contrepartie d’une cotisation (ou prime)
.3
Portefeuille : Ensemble des contrats d’assurances par branche de risque détenus par une
compagnie d’assurance. 3
Prime Pure : C’est le prix du risque. 10
Produit : Rassemblement de plusieurs garanties dans une compagnie d’assurance. 12
Risque : Événement incertain (qui n’a pas encore eu lieu) pouvant affecter une personne, ses
biens ou sa responsabilité. 3, 10
DOUANLA Frédéric Hermann ©2014
xii
Memoire de Master de Statistique Appliquée, UYI-ENSP
Glossaire
Sinistralité (en assurance automobile) : se mesure en terme de fréquence des accidents et de
coût de ces accidents. 4
Sinistres : Réalisation d’un risque créant des dommages. 10
Taux de Prime : Proportion moyenne des capitaux nécessaire pour le règlement des sinistres
sur une période (un an) dans un portefeuille donnée. 4
DOUANLA Frédéric Hermann ©2014
xiii
Memoire de Master de Statistique Appliquée, UYI-ENSP
Présentation de la SAAR Assurances
PRÉSENTATION DE LA SAAR
ASSURANCES
Créée le 27 novembre 1990 avec pour siège social Yaoundé, la Société Africaine d’Assurance
et de Réassurance (SAAR Assurances S.A) est une compagnie d’assurance au capital social de
4,2 milliards de F CFA entièrement libéré, qui est régie par ordonnance N85/003 du 31/08/85.
La SAAR Assurances est une compagnie dont l’actionnariat est composé de :
• SAPA à 51, 02% du capital ;
• Afriland First Bank Cameroun à 11, 7% ; une des principales banques camerounaises, avec
un capital social de 15,8 Milliards de F CFA ;
• Divers investisseurs camerounais à hauteur de 37, 27%.
• Raison sociale : Société Africaine d’Assurance et de Réassurance (SAAR)
• Forme juridique : Société Anonyme (S.A.)
• Siège social : Yaoundé, Hippodrome
BP : 11834 Yaoundé Tél : (237) 22 20 66 48 Fax : (237) 22 20 66 50
• Direction Générale : Rue de la Perouse - Bonanjo - Douala
BP : 1011 Douala Tél : (237) 33 43 17 60 Fax : (237) 33 43 17 59
Site web : www.saar-assurances.com
•
Capital social : 4.2 milliards de F CFA
•
Vision : World Class African Insurance
Ambitions :
- Hisser la compagnie au standard international dans le domaine de l’assurance
en tenant compte des spécificités africaines ;
- Offrir aux assurés des produits et services adaptés à leur environnement ;
- Participer efficacement au développement de l’Afrique à travers ses actions.
Président du Conseil d’Administration : Dr Paul FOKAM KAMMOGNE
Directeur Général : M. Georges Léopold KAGOU
Table 1 – Fiche d’identification de la SAAR Assurances
La SAAR Assurances est la maison mère du groupe SAAR qui a une étendue à l’échelle
continentale et regroupe, entre autres :
DOUANLA Frédéric Hermann ©2014
1
Memoire de Master de Statistique Appliquée, UYI-ENSP
Présentation de la SAAR Assurances
Compagnies
SAAR
SAFAR
EGICO
SAAR-VIE
SAT
SAARB
CEA
SAAR-VIE
SAARL
Pays
Douala-Cameroun (Maison mère)
NDjamena-Tchad
Malabo-Guinée Equatoriale
Dakar-Sénégal
Sao Tomé et Principe
Cotonou-Bénin
Côte d’Ivoire
Cameroun
Monrovia-Libéria
Contact
(237)33 43 17 65
(235)22 52 09 80
(240)333 09 3578
(221)33 889 87 87
(239)22 26 161
(229)213002887
+22507727071
(237)99 91 62 79
(231)776 44 35 29
La SAAR Assurances offre des produits d’assurance dans les branches automobile, santé,
responsabilité civile, transports, incendie et risques divers.
En termes de chiffre d’affaires, le Cameroun est classé deuxième marché d’assurance (après
la Côte d’Ivoire) dans l’espace CIMA1 . Les chiffres publiés dans le récent Magazine de l’ASAC2 [1], positionne la SAAR Assurances deuxième compagnie d’assurances au Cameroun en termes
de chiffre d’affaires.
1
2
CIMA : Conférence Interafricaine des Marchés d’Assurances
ASAC : Association des Sociétés d’Assurances du Cameroun
DOUANLA Frédéric Hermann ©2014
2
Memoire de Master de Statistique Appliquée, UYI-ENSP
Introduction
INTRODUCTION
Contexte
L’assurance est un engagement donné par contrat, par un Assureur à un Assuré, de le
garantir en cas de survenance d’un événement incertain affectant sa personne, ses biens ou
sa responsabilité. Cette garantie est donnée contre le paiement d’une prime d’assurance par
l’assuré (Cf. [3]).
La prime d’assurance se décompose généralement en prime pure, frais d’acquisition et frais
de gestion, ainsi que des taxes. Ici, c’est la prime pure qui représente le prix du Risque. Il
s’agit du montant dont doit disposer l’assureur pour dédommager (en moyenne) les assurés
suite aux sinistres survenus, sans excédent, ni déficit. Toutefois, la charge financière qui pourra
être occasionnée par un contrat du Portefeuille est inconnue au début de la période d’assurance
alors que la prime doit être réclamée.
La prime pure ou technique est fonction de l’assiette des capitaux assurés (qui représente la
valeur de l’objet assuré), et du taux de prime selon la formule suivante :
PRIME PURE = TAUX DE PRIME × CAPITAUX ASSURÉS
Le taux de prime, ainsi que la valeur des capitaux assurés, correspondent à l’importance
du risque à garantir. Le taux de prime est déterminé en fonction de la Fréquence des sinistres
et du Coût relatif moyen des sinistres (voir [2], [4] ou [13]), sur des bases mathématiques et
statistiques, selon la formule suivante :
Taux de prime = Fréquence × Coût relatif moyen des sinistres
Problématique
Dès lors, il est question de déterminer si les primes appliquées en Garantie dommage automobile sont en adéquation avec la sinistralité actuelle du portefeuille de la compagnie SAAR.
Puisque nous nous intéressons au montant déboursé par la compagnie pour le règlement des
sinistres, il est important d’étudier l’adéquation entre les primes pures évaluées et les règlements des sinistres présents. Face à ce problème, la procédure à suivre, sur la base de données
historiques, est la suivante :
• Partant de la charge de sinistres actuelle d’une garantie donnée, on estime le taux de
prime qui aurait dû être appliqué pour pouvoir régler ces sinistres.
• Ensuite, on compare ce taux de prime estimé à celui appliqué effectivement.
• Enfin, on tire des conclusions.
DOUANLA Frédéric Hermann ©2014
3
Memoire de Master de Statistique Appliquée, UYI-ENSP
Introduction
Objectif
Notre objectif est donc l’estimation des différents Taux de Prime par garantie dommage en
assurance automobile, qui sont en adéquation avec la Sinistralité actuelle du portefeuille de la
compagnie SAAR Assurances, et de les comparer à ceux appliqués actuellement.
Plan de travail
Pour ce faire, nous allons adopter le plan de travail suivant :
1. Le premier chapitre introduit les bases nécessaires à la compréhension des données de
l’étude. Il est consacré à la présentation de l’assurance automobile ainsi que celle des
données.
2. Le deuxième chapitre s’attèle à l’analyse descriptive des variables d’étude. L’objectif visé
dans ce chapitre est de partitionner le portefeuille afin de constituer des sous-portefeuilles
sur lesquels les risques puissent être considérés comme équivalents : on parle de Classes
de risques . Ici, il sera question d’une tarification a priori car il s’agit de classer le risque
à partir d’informations déjà disponibles ; contrairement à la tarification a posteriori où
l’information sur l’historique des sinistres de l’assuré est prise en considération. Pour ce
faire, on aura recours à l’usage des paramètres de dispersion, de tendance centrale, des
graphiques, ainsi que de test d’indépendance.
3. Le troisième chapitre met sur pied les bases théoriques des outils de modélisation statistique permettant l’atteinte de l’objectif fixé. Parmi ces outils, on a la régression de
Poisson longitudinale qui fait partie des modèles linéaires généralisés (GLM, pour Generalized Linear Models) introduits en statistique par [16]. Ce modèle permettra d’estimer
la fréquence des sinistres. Ses paramètres seront estimés avec prise en compte de la dépendance temporelle à l’aide de la technique GEE (Generalized Estimating Equation)
proposée par [14]. Par ailleurs, il sera également question d’avoir recours à l’estimateur
empirique de la moyenne qui permettra d’estimer le coût relatif moyen des sinistres. Le
chapitre s’achèvera avec la présentation de la méthode de rééchantillonnage bootstrap qui
va nous permettre d’obtenir les marges de réduction possibles des taux de prime.
4. Le quatrième et dernier chapitre consistera en l’application des méthodes statistiques aux
données d’apprentissage (i.e. de l’historique du portefeuille) afin d’obtenir une estimation
des différents taux de prime par garantie dommage dans la Branche de risques automobile.
Nous terminerons par une conclusion dans laquelle les principaux résultats seront récapitulés, des recommandations seront suggérées et enfin des éventuelles limites de cette étude, ainsi
que les perspectives seront faites.
Le document s’achèvera par des Annexes portant sur quelques démonstrations de résultats
ainsi que les principaux programmes algorithmiques utilisés.
Nos analyses et représentations seront effectuées à l’aide du logiciel statistique R 2.15.1
[21], et la fonction geeglm du package geepack sera utilisée (Cf. [11]).
DOUANLA Frédéric Hermann ©2014
4
Memoire de Master de Statistique Appliquée, UYI-ENSP
Résumé Exécutif
RÉSUMÉ EXÉCUTIF
Problématique
La sinistralité en assurance automobile se mesure en terme de fréquence des accidents et de
coût de ces accidents. Dans un marché camerounais qui devient de plus en plus concurrentiel,
la SAAR Assurances cherche à déterminer si les taux de prime appliqués en garantie dommage
sont en adéquation avec la sinistralité actuelle de son portefeuille automobile. C’est dans cette
optique cette étude à été mise sur pied.
Dans cette étude, il a été question de s’intéresser au montant déboursé par la compagnie
pour le règlement des sinistres ; d’où l’importance d’étudier l’adéquation entre les primes pures
évaluées et les règlements des sinistres présents.
Notons que la prime pure est le prix du risque : il s’agit du montant dont doit disposer
l’assureur pour dédommager (en moyenne) les assurés suite aux sinistres survenus, sans excédent, ni déficit. La marge de bénéfices de l’assureur ne fait pas partie de la prime pure. Ainsi,
la totalité de l’encaissement pur sera retournée aux assurés sous forme d’indemnité.
La prime pure est fonction des capitaux assurés , et du taux de prime selon la formule
suivante :
PRIME PURE = TAUX DE PRIME × CAPITAUX ASSURES
Le taux de prime qui représente la proportion moyenne des capitaux nécessaire pour le
règlement des sinistres sur une année est déterminé en fonction de la fréquence et du coût
relatif moyen des sininstres, selon la formule suivante :
Taux de prime = Fréquence × Coût relatif moyen des sinistres
avec le coût relatif moyen qui représente proportion moyenne des capitaux, nécessaire
pour le règlement d’un sinistre.
Obejectif
Notre objectif était d’estimer les différents taux de prime par garantie dommage qui sont
en adéquation avec la sinistralité actuelle du portefeuille de la compagnie SAAR Assurances,
et de les comparer à ceux appliqués actuellement.
Pour ce faire, la procédure à suivre, sur la base de données historiques, a été la suivante :
• Partant de la charge de sinistres actuelle d’une garantie donnée, nous avons estimé les
taux de prime par classe de risque qui auraient dû être appliqués pour pouvoir régler ces
sinistres ;
• Ensuite, on a procédé à une analyse comparative entre ces taux de prime estimés et ceux
appliqués actuellement, afin d’en tirer des conclusions objectives.
DOUANLA Frédéric Hermann ©2014
5
Memoire de Master de Statistique Appliquée, UYI-ENSP
Résumé Exécutif
Méthodologie
Les données utilisées dans cette étude intègrent un aspect temporelle, car il s’agit des
données observées avec répétition sur certains assurés. Ces données font partie de la classe des
données longitudinales. En ce qui concerne la modélisation de la fréquence des sinistres, on a
observé le nombre de sinistres subis par un assuré sur un an : il est ainsi question d’un processus
de comptage sur des données longitudinales.
La demarche méthodologique mise en œuvre dans ce mémoire s’est déclinée comme suit :
1. Le premier chapitre a introduit les bases nécessaires à la compréhension des données de
l’étude. Il a été consacré à la présentation de l’assurance automobile et à celle des données
y afférent .
2. Le deuxième chapitre s’est attelé à l’analyse descriptive des variables d’étude. L’objectif
visé dans ce chapitre était de sélectionner les facteurs qui contribuent à expliquer la
sinistralité du portefeuille. D’une part, des histogrammes ainsi que de tests du χ2 ont été
utilisés pour mettre en évidence l’influence des variables explicatives (toutes catégorielles)
sur la fréquence des sinistres. D’autre part, des boîtes à moustache ainsi que de tests de
Kruskall-Wallis ont été mis en œuvre pour percevoir l’influence des variables explicatives
sur le coût relatif moyen des sinistres.
3. Le troisième chapitre était reservé à la présentation des outils de modélisation statistique
qui ont permis d’atteindre l’objectif fixé. Parmi ces outils, on a eu la regression de Poisson
longitudinale qui fait partie des modèles linéaires généralisés (GLM, pour "Generalized
Linear Models") introduits en statistique par [16]. Ce modèle a permis d’estimer la fréquence des sinistres. Ses paramètres ont été estimés avec prise en compte de la dépendance
temporelle à l’aide de la technique GEE ("Generalized Estimating Equation") proposée
par ([14]). Ce choix a été justifié par le fait qu’il s’agit de la modélisation d’un processus
de comptage d’un événement rare (nombres de sinistres) sur une période fixe (une année).
Il a été également question d’avoir recours à l’estimateur empirique de la moyenne qui a
permis d’estimer le coût relatif moyen des sinistres. Ce chapitre s’est achevé avec la présentation
de la méthode de rééchantillonnage "bootstrap", qui nous a permis d’obtenir les marges de
réduction possibles des taux de prime.
Ces analyses et représentations ont été effectuées à l’aide du logiciel statistique R 2.15.1 ,
et la fonction geeglm du package geepack a été utilisée.
Résultats
De façon générale, nous avons obtenu que :
• la Garantie souscrite ;
• la catégorie d’usage du véhicule ;
• le nombre d’années de mise en circulation du véhicule assuré ;
• le fait pour le preneur d’assurance d’être propriétaire ou non du véhicule assuré,
DOUANLA Frédéric Hermann ©2014
6
Memoire de Master de Statistique Appliquée, UYI-ENSP
Résumé Exécutif
sont des indicateurs qui influencent la sinistralité.
Il découle également de cette étude que les taux de prime sont légèrement plus élevés pour
les véhicules ayant moins de 5 années de circulation. Il en est de même des non-propriétaires
du véhicule assuré.
Toutefois, les taux de prime restent, de manière sommaire faibles, relativement aux taux
mentionnés dans le tarifaire de la compagnie.
De façon spécifique, les observations suivantes ont été faites selon la Garantie étudiée :
***Garantie INCENDIE
De manière générale, les taux de prime sont légèrement plus élevés pour les véhicules âgés
de moins de 5 ans. Les véhicules de catégorie 1 (véhicules de tourisme), 2 (véhicules pour
transport des produits de l’assuré) ainsi que ceux de catégorie 4 (taxis de ville (4A), véhicules
de transport public de voyageurs (4B) et autocars de transport des élèves et du personnel à
titre gratuit (4C)) ; sont particulièrement exposés au risque Incendie avec des taux de prime
qui excèdent ceux en vigueur (Voir résultats au chapitre 4).
***DOMMAGE PAR ACCIDENT
Nous avons obtenu que les non-propriétaires ont une sinistralité plus élevée relativement aux
propriétaires. Ceci traduit un risque plus élevé en Dommage par Accident chez les véhicules
assurés en flotte. Cependant, ces taux restent inférieurs aux taux de prime en vigueur (Voir
résultats au chapitre 4).
***VOL&VOL PARTIEL
USAGE
PROP.
CAT 1
O
N
O
N
O
N
CAT 2
CAT 8G
VOL&VOL PARTIEL
Taux (%)
IC (95%)
estimé
0.340
[0.295; 0.381]
0.0156
[0.0135; 0.0175]
0.231
[0.195; 0.285]
0.0106
[0.00896; 0.01306]
0.284
[0.262; 0.301]
0.0130
[0.0120; 0.0138]
Taux en
vigueur (%)
[2.00; 2.50]
[2.00; 2.50]
2.00
2.00
[2.50; 3.13]
[2.50; 3.13]
Taux de
variation
83% &
99.22% &
88.45% &
99.47% &
88.64 &
99.48 &
Table 2 – Estimation des taux de prime selon les classes de risques en VOL&VOL PARTIEL.
Le risque de VOL&VOL PARTIEL selon la catégorie d’usage est plus élevé chez les
propriétaires relativement aux non-propriétaires.
Toutefois, ces différents taux restent largement en dessous des taux en vigueur.
DOUANLA Frédéric Hermann ©2014
7
Memoire de Master de Statistique Appliquée, UYI-ENSP
Résumé Exécutif
***DOMMAGE COLLISION
USAGE
CAT 1
CAT 2
DOMMAGE COLLISION
Taux (%)
Taux en
IC (95%)
estimé
vigueur (%)
0.442
[0.367; 0.514]
1.00
0.382
[0.341; 0.421]
1.50
Taux de
variation
55.8% &
74.53% &
Table 3 – Estimation des taux de prime selon les classes de risques en Dommage par Collision.
Les différents taux de prime en adéquation avec la sinistralité actuelle restent inférieurs aux
taux en vigueur.
***BRIS DE GLACES
USAGE
PROP.
CAT 1
O
N
O
N
O
N
CAT 2
CAT 8G
BRIS DE GLACES
Taux (%)
IC (95%)
estimé
0.0321
[0.0284; 0.0354]
0.1027
[0.0907; 0.1131]
0.0321
[0.0321; 0.0321]
0.1027
[0.103; 0.103]
0.0290
[0.0249; 0.0337]
0.0929
[0.0796; 0.1079]
Taux en
vigueur (%)
0.50
0.50
0.50
0.50
[0.60; 0.75]
[0.60; 0.75]
Taux de
variation
93.58% &
79.46% &
93.58% &
79.46% &
95.16% &
84.51% &
Table 4 – Estimation des taux de prime selon les classes de risques en garantie Bris de Glaces.
Les taux de prime sont plus élevés chez les non-propriétaires. Cependant, ces taux restent
inférieurs aux taux en vigueur.
***ASSISTANCE À LA REPARATION
ÂGE.VEH.G
≤ 5ans
> 5ans
ASSISTANCE À LA REPARATION
Taux (%)
Taux en
Proportion
IC (95%)
estimé
vigueur (%)
37.3%
3.15
[2.85; 3.39]
2.75
62.7%
1.21
[1.05; 1.29]
2.75
Taux de
variation
14.54% %
61.81% &
Table 5 – Estimation des taux de prime selon les classes de risques en Assistance à la Réparation.
Nous avons obtenu que la classe des véhicules de moins de 5 ans ont une sinistralité plus
élevée que celle des véhicules de plus de 5 ans. Comparativement au taux en vigueur, le taux en
adéquation avec la charge des sinistres est plus élevé pour les véhicules ayant plus de 5 années
de circulation.
DOUANLA Frédéric Hermann ©2014
8
Memoire de Master de Statistique Appliquée, UYI-ENSP
Résumé Exécutif
Recomandations
Dans un premier temps, nos suggestions vont à l’endroit des producteurs de contrats :
• Pour avoir une fiabilité plus significative des données, les différents capitaux doivent être
renseignés avec précaution par les producteurs de contrats. Nous pensons ici à la valeur
à neuf, la valeur vénale ainsi que la valeur agréée ;
• Une attention particulière doit être accordée lors du renseignement du numéro d’immatriculation du véhicule.
• Enfin, un effort doit être fourni pour remplir les champs obligatoires avec des données
fiables.
En ce qui concerne nos résultats, nous faisons les suggestions suivantes :
• Pour la garantie INCENDIE, malgré le fait que la charge des sinistres soit globalement
solvable pour cette garantie, on observe après estimation et vérification des résultats,
une sous-tarification de la garantie notamment dans les classes de risque (INCENDIE,
CAT 1, > 5ans, N), (INCENDIE, CAT 1, ≤ 5ans, N) et (INCENDIE, CAT 1,
> 5ans, N). Par conséquent, il est nécessaire de faire le contrôle de résultats pour toutes
les autres classes de risque afin d’y appliquer les taux estimés qui sont en adéquation avec
leur sinistralité ;
• Pour les garanties Vol&Vol Partiel, Bris de Glaces, Dommage par Collision ainsi
que la garantie Dommage par Accident, les taux estimés sont largement en dessous
des taux existant. Par conséquent, des réductions de prime peuvent être accordées tout
en restant au-dessus de la borne supérieure de l’intervalle de confiance du taux estimé. Il
est à noter qu’un chargement de prime devrait être fait préalablement selon la marge de
rentabilité escomptée par la compagnie afin d’avoir la prime nette applicable.
• Nous suggérons également que des études similaires s’étendent aux autres branches de
risque. Ceci permettrait à la compagnie SAAR d’avoir une idée permanente sur la sinistralité de son portefeuille, afin d’être plus compétitive sur le marché d’assurance camerounais.
DOUANLA Frédéric Hermann ©2014
9
Memoire de Master de Statistique Appliquée, UYI-ENSP
Chapitre Premier
NOTION D’ASSURANCE ET
PRÉSENTATION DES DONNÉES
Avant de procéder à une éventuelle modélisation statistique, il est indispensable de comprendre les données, ainsi que le domaine duquel elles proviennent. Dans ce chapitre, il est
question, dans un premier temps, de présenter la notion de prime d’Assurance, car elle constitue la clé de notre étude. Ensuite, nous faisons la présentation de la branche automobile de la
compagnie SAAR (celle sur laquelle portera notre modélisation statistique de la sinistralité), et
nous terminerons par la présentation générale des données d’étude et des variables impliquées.
1.1
Notion de Prime d’Assurance
La prime payée par l’assuré, pour la couverture d’un risque par l’assureur, se décompose
en trois parties :
• la prime pure ;
• les chargements (frais d’acquisition et de gestion) ;
• les taxes.
Les deux derniers points ne relèvent pas du champ de la présente étude. Notre travail porte
essentiellement sur une modélisation statistique en vue d’une détermination aussi optimale que
possible, à partir du portefeuille présent et passé de la Branche Automobile à la SAAR, de la
prime pure applicable aux différentes Garanties de cette branche de l’activité de la compagnie.
1.1.1
La Prime Pure
Définition 1.1.1 La prime pure est le prix du Risque : il s’agit du montant dont doit disposer
l’assureur pour dédommager (en moyenne) les assurés suite aux Sinistres survenus dans une
classe de risques, sans excédent, ni déficit [4].
La marge de bénéfices de l’assureur ne fait pas partie de la prime pure. Ainsi, la totalité
de l’encaissement pur sera retournée aux assurés sous forme d’indemnité. Donc, la totalité des
primes pures relatives au portefeuille doit permettre à l’assureur de remplir ses obligations de
garanties.
Cadre Théorique de détermination de la Prime Pure
Notons Ω, l’ensemble des polices d’assurances (ou Contrat d’assurance) du portefeuille automobile de la compagnie SAAR S.A. Soit S, la charge totale des sinitres relative à un assuré
DOUANLA Frédéric Hermann ©2014
10
Memoire de Master de Statistique Appliquée, UYI-ENSP
1.1. NOTION DE PRIME D’ASSURANCE
pris au hazard dans le potefeuille au cours d’une période d’assurance. De façon classique, le rôle
de l’assurance est de substituer une constante c (la prime d’assurance) à la variable aléatoire
réelle S (définie sur Ω). Une manière raisonnable de déterminer c serait de choisir la constante
”la plus proche”de la variable aléatoire S. La distance utilisée pour mesurer la proximité entre
S et c doit tenir compte du fait que c doit mettre l’assureur en mesure de dédommager les
sinistres, sans excédent, ni déficit.
Ainsi, la distance doit pénaliser aussi bien les cas où c est inférieure à S (c < S) , que ceux
où c est supérieure à S (c > S) .Une distance pénalisant toute sur-évaluation ou sous-évaluation
de la prime est l’écart quadratique moyen défini par
d2 (S, c) = E (S − c)2 ,
où E [X] désigne l’espérance mathématique ou moyenne de la v.a.r. X.
Maintenant que la mesure d2 de proximité a été donnée, il est question de trouver la constante
c la plus proche de S, c’est-à-dire la valeur de c qui minimise d2 (S, c) . Dans cet objectif, on a :
d2 (S, c) = E (S − c)2
= E (S − E [S] +E [S] − c)2
= E (S − E [S])2 + 2 (E [S] − c) E [S − E [S]] + (E [S] − c)2
{z
}
|
=
0
= (E [S] − c)2 + E (S − E [S])2 .
or le terme E (S − E [S])2 est constant par rapport à c;
d’où l’on déduit que la valeur de c minimisant E (S − c)2 est E [S] .
Donc E [S] est l’évaluation de la prime pure.
Remarquons qu’en prenant c = E [S] , on obtient d2 (S, c) = V [S] . Ici, la variance prend
donc toute son importance, car elle mesure la distance séparant la dépense aléatoire S de
l’assureur sur chaque assuré de la prime pure E [S] qu’il réclame à l’assuré. Il s’agit donc d’une
mesure du risque que prend l’assureur en remplaçant S par E [S] pour les assurés de la police
concernée (au sens de la distance d2 ).
1.1.2
La Prime Nette
En pratique, l’assureur ne se contente pas de la prime pure mais lui ajoute un chargement
de sécurité, supposé corriger les écarts entre la réalité observée et l’approximation induite par
la loi des grands nombres. Par le terme prime nette, On désigne la prime pure à laquelle on
a ajouté le chargement de sécurité. De façon classique, ce chargement de sécurité est exprimé
sous la forme d’un pourcentage de la prime pure, de sorte que
Pnette = (1 + ρ) Ppure ,
(1.1)
où ρ est appelé le taux de chargement de sécurité, avec ρ > 0.
1.1.3
La Prime Commerciale
À la prime nette, viennent s’ajouter la quote-part des frais généraux de la compagnie
d’assurance, plus le bénéfice que l’assureur entend se réserver, ainsi que les taxes reservées à
l’État ; le total donne la prime commerciale1 dont l’assuré doit s’acquitter pour bénéficier
de la couverture proposée par l’assureur. Le mécanisme de fixation de la prime commerciale
1
Ou prime totale ou prime des tarifs
DOUANLA Frédéric Hermann ©2014
11
Memoire de Master de Statistique Appliquée, UYI-ENSP
1.2. ASSURANCE AUTOMOBILE
fait également intervenir des considérations de marketing, alors loin des considérations de notre
étude statistique.
À présent, faisons un pas vers la présentation des données, en décrivant tout d’abord la
branche de risque d’où elles proviennent.
1.2
Assurance Automobile
Définition 1.2.1 L’Assurance Automobile est une assurance qui couvre les dommages causés
«avec» ou «à» un véhicule automobile. Ces dommages peuvent être matériels, immatériels ou
corporels. C’est une assurance obligatoire pour les véhicules terrestres à moteur ainsi que leurs
remorques et semi-remorques (Art. 200 code CIMA).
1.2.1
Branches de risque commercialisées par la SAAR S.A.
La compagnie SAAR Assurances S.A. commercialise plusieurs branches de risque à savoir
la branche :
• Automobile ;
• Maladie / Accidents/Assistance/Evacuation ;
• Transport maritime, terrestre et aérien ;
• Dommages aux biens ;
• Incendie et risques techniques ;
• Responsabilités civiles générales.
Elle commercialise également des Produit spécifiques :
• Saar Assistance automobile ;
• Joker Auto ;
• Saar Assistance Voyage ;
• Joker Familial ;
• Secup 2000 ;
• Joker Santé.
De toutes ces branches, la branche automobile est celle qui produit la plus grande proportion
du chiffre d’affaires de l’entreprise. Considérée comme une branche des risques de masse, elle
revêt une importance particulière dans la mesure où la sinistralité peut varier considérablement
d’une année à l’autre dans le portefeuille automobile ou dans une classe de risque de celui-ci.
DOUANLA Frédéric Hermann ©2014
12
Memoire de Master de Statistique Appliquée, UYI-ENSP
1.2. ASSURANCE AUTOMOBILE
1.2.2
Les différentes garanties en Assurance Automobile
En assurance automobile, on distingue deux groupes de garantie : les garanties obligatoires
qui couvrent les dommages causés aux tiers, et les garanties facultatives, encore appelées garanties dommages, qui couvrent les dommages subis par le véhicule assuré.
A) Les garanties obligatoires
(a) Garantie obligatoire du fait de la loi
• La Responsabilité Civile (RC)
Cette garantie s’applique aux conséquences pécuniaires de la responsabilité civile que
l’assuré peut encourir, en raison des dommages corporels ou matériels causés à autrui
résultant :
– d’accident, d’incendie ou d’explosion causés par le véhicule, les accessoires et produits
servant à son utilisation, les objets et substances qu’il transporte ;
– de la chute de ses accessoires, objets, substances et produits.
• La Responsabilité Tiers Incendie (RTI)
Par celle-ci, la compagnie garantit les conséquences pécuniaires de la responsabilité civile
que l’assuré peut encourir en raison des dommages matériels causés aux tiers par les jets
de flamme, explosions ou incendie provenant du véhicule assuré.
Le tarifaire de ces garanties est fixé par l’État. Les tarifs existants datent de mai 1965, fixés
par l’ex- Ministère de l’Économie et des Finances.
(b) Garanties obligatoires du fait de la politique interne de la SAAR
• La Défense et Recours (DR)
Cette garantie se subdivise en deux garanties :
– La Défense : l’assureur s’engage à pourvoir, à ses frais, à la défense de l’assuré
devant les juridictions compétentes si ce dernier est poursuivi à la suite d’un sinistre
couvert au titre de la garantie Responsabilité Civile ;
– Le Recours : à la suite d’un accident dans lequel le véhicule assuré est impliqué,
l’assureur s’engage à réclamer la réparation des préjudices corporels et matériels
subis par l’assuré à l’amiable, si la faute incombe à un tiers identifié responsable
(fautif, non titulaire du permis de conduire ou ayant utilisé le véhicule à l’insu du
propriétaire).
• Individuelle Personnes Transportées (IPT)
Cette garantie prend en charge le chauffeur et les passagers en cas d’accident. Elle comporte trois sous garanties à savoir :
– Décès : un capital est versé en cas de décès accidentel ;
– Infirmité partielle ou totale ;
– Frais de traitement.
DOUANLA Frédéric Hermann ©2014
13
Memoire de Master de Statistique Appliquée, UYI-ENSP
1.2. ASSURANCE AUTOMOBILE
• Individuelle Accident Chauffeur (IAC)
Cette garantie comporte les trois sous-garanties précédentes, et prend uniquement le
chauffeur en charge en cas d’accident.
Pour ces garanties obligatoires, la fixation des primes ne relève pas de la compétence de la
compagnie. Par conséquent, notre analyse ne portera pas sur ces dernières. Nous présentons, à
présent, les garanties dommage dont la prime pure est fonction du capital assuré et du taux de
prime qui s’y applique.
B) Les garanties Dommage causées au véhicule assuré
Ces garanties sont facultatives et couvrent les dommages subis par le véhicule assuré. Nous
allons d’abord présenter les différentes garanties dommages, avant de mentionner les conditions
particulières, de même que les exclusions qui s’y appliquent.
i. Dommages par accident :
Cette garantie couvre les dommages subis par le véhicule assuré avec les accessoires et
pièces de rechange dont le catalogue du constructeur prévoit la livraison en même temps
que celle du véhicule. Ceci n’est faisable que lorsque ces dommages résultent, soit d’une
collision avec un autre véhicule, soit d’un choc contre un corps fixe ou mobile, soit d’une
chute dans les ravins ou cours d’eau.
La garantie Dommages par accident couvre les garanties Dommage par Collision,
Bris de glaces & Blocs feux. Elle est reservée pour les véhicules dont l’âge n’excède pas
trois ans.
Exclusion : sont exclus de cette garantie les dommages occasionnés par le contenu du
véhicule ; ceux subis par les pneumatiques et chambres à air ; ainsi que ceux causés au
véhicule par les marchandises et objets transportés.
ii. Dommages par collision :
Cette garantie couvre tous les dommages subis par le véhicule assuré, les accessoires et
pièces de rechange dont le catalogue du constructeur prévoit la livraison en même temps
que celle du véhicule. Elle est utilisée lorsque les dommages résultent d’une collision avec
un corps fixe et identifiable.
N.B. Le capital assuré pour chacune de ces Garanties Dommage, par accident et par
collision, est appelé Valeur Neuve du véhicule assuré.
iii. Incendie :
Cette garantie ne vaut que lorsque les dommages résultent soit d’un incendie, soit d’une
chute de foudre, d’une explosion ou une combustion instantanée. Elle couvre alors les
dommages causés au véhicule assuré, avec les accessoires et pièces de rechange dont le
catalogue du constructeur prévoit la livraison en même temps que celle du véhicule.
Exclusions : Sont exclus de cette garantie les dommages liés aux appareils électriques
et qui résultent de leur seul fonctionnement, ainsi que les dommages ne pouvant être
considérés comme provenant d’un incendie.
iv. Vol Total :
Cette garantie couvre les dommages résultant de la disparition ou de la détérioration
du véhicule assuré, soit à la suite d’un vol ou d’une tentative de vol, ainsi que les frais
engagés légitimement par l’assuré avec l’accord de l’assureur pour récupérer le véhicule
assuré volé.
DOUANLA Frédéric Hermann ©2014
14
Memoire de Master de Statistique Appliquée, UYI-ENSP
1.2. ASSURANCE AUTOMOBILE
v. Vol Total & Vol Partiel :
En plus des dommages couverts par la garantie Vol Total, cette garantie couvre les dommages résultant de la disparition d’accessoires et pièces de rechange.
vi. Vol Brigandage :
Cette garantie répare les dommages résultant de la disparition d’accessoires et pièces de
rechange dérobés séparément. Elle s’applique pour les vols par effraction, soit par escalade
dans les remises et garages ou avec violences corporelles.
Exclusions aux garanties Vol : sont exclus de la garantie les vols commis par les
préposés de l’assuré, ou avec leur complicité pendant leur service, de même que ceux
commis par les membres de sa famille, par toute autre personne habitant sous son toit,
ou avec leur complicité.
vii. Bris de Glaces :
La garantie Bris de Glaces couvre exclusivement les dommages accidentels causés aux
glaces latérales et à la lunette arrière.
viii. Pares Brises & Bloc Feux :
Cette garantie couvre les dommages causés au pare-brise, aux phares, aux miroirs, ainsi
qu’aux feux de position.
Exclusions : sont exclus de cette garantie les dommages éprouvés en cours de transport
du véhicule assuré.
ix. Assistance automobile ou Assistance à la réparation :
C’est un produit spécifique de la SAAR assurances. Elle garantit la prise en charge de
la réparation du véhicule avant de rechercher toute responsabilité, ou d’effectuer tout
recours. Le capital assuré pour cette garantie est appelé Valeur Agréée.
Exclusions communes aux Garanties Dommage : sont exclus de toutes ces Garanties
Dommage :
• les dommages occasionnés par un cataclysme ;
• les dommages subis par le véhicule lorsque le conducteur se trouve en état d’ivresse dûment
constaté par les autorités compétentes ;
• les frais de dépannage, de remorquage, de transport, de garage ;
• les dommages indirects tels que la privation de jouissance ou dépréciation.
Le Tableau 1.1 résume les différentes Garanties Dommage en automobile, tout en précisant
les capitaux qui s’y appliquent.
Un souscripteur d’assurance automobile peut, en plus des garanties obligatoires, souscrire à
une ou plusieurs Garanties Dommage. La logique de souscription des garanties facultatives est
la suivante :
• La couverture minimale est l’Incendie ;
• La couverture maximale ou Tous Risques associe les garanties «Dommages par accident,
Incendie, Vol Total & Vol Partiel et Vol Brigandage » pour les véhicules de moins de
trois ans d’âge. Elle associe l’«Assistance automobile, Incendie, Vol Total & Vol Partiel,
Vol Brigandage» pour les véhicules qui ont plus de trois années de circulation.
DOUANLA Frédéric Hermann ©2014
15
Memoire de Master de Statistique Appliquée, UYI-ENSP
1.3. PRÉSENTATION DES DONNÉES
Garanties
Dommages par accident
Dommages par collision
Incendie
Vol Total
Vol Total & Vol Partiel
Vol Brigandage
Bris de Glaces
Pares Brises & Bloc Feux
Assistance automobile
Capitaux
Valeur Neuve
Valeur Neuve
Valeur Vénale
Valeur Vénale
Valeur Vénale
Valeur Vénale
Valeur Neuve
Valeur Neuve
Valeur Agréée
Table 1.1 – Garanties Dommage en assurances automobile
Nous allons maintenant voir les différents paramètres qui entrent en jeu dans la tarification
d’une garantie dommage en assurance automobile.
1.3
Présentation des Données
Dans cette section, nous allons présenter les données de notre étude. L’emphase sera mise
sur leur origine, la procédure d’obtention de la base de données de travail, la description de
l’unité statistique de notre base et, enfin, la présentation des variables impliquées dans l’étude.
1.3.1
Origine des Données
Les données de notre étude proviennent du portefeuille d’assurance automobile de la compagnie SAAR Assurances. Il s’agit d’un certain nombre d’informations dont l’assureur a besoin
lors d’une souscription à une Garantie Dommage donnée. Ces données proviennent de trois
unités opérationnelles (agence qui produit des contrats pour le compte de la compagnie) à savoir un Bureau Direct et deux agences de courtages. Cependant, la compagnie disposait d’une
vingtaine d’unités opérationnelles pendant la période d’étude. Mais dans la plupart de ceux-ci,
les Garanties Dommages sont très faiblement souscrites, et les assurés ne se contentent que des
Garanties obligatoires. Dès lors, nous pensons que les trois unités que nous avons choisies pour
cette étude constituent un échantillon représentatif des unités opérationnelles de la compagnie
SAAR Assurances en ce qui est des Garanties Dommages.
Nous disposons d’une base de données initiale constituée de n = 178 155 lignes et p = 18
colonnes.
Ces données ont étés collectées durant 14 ans, à savoir de 2000 à 2014. Initialement stockées
dans une Base de Données, elles ont étés extraites, et transférées dans un fichier .csv du logiciel
EXCEL, où un travail préliminaire et très déterminant pour la suite de l’étude sera fait. Il
s’agit du formatage de la base de données dont les différentes étapes sont présentées juste après
la présentation des données brutes de la base. Toutefois, notons qu’à l’issue de ce travail de
vérification des données, l’on dispose d’un tableau constitué de n = 110 658 observations et
p = 18 variables.
Ce fichier sera importé plus tard vers le logiciel R, qui sera le logiciel de base pour cette
étude (voir [6] pour son utilisation).
DOUANLA Frédéric Hermann ©2014
16
Memoire de Master de Statistique Appliquée, UYI-ENSP
1.3. PRÉSENTATION DES DONNÉES
1.3.2
Définition de l’Unité Statistique
Le tableau de données de cette étude a n = 110 658 lignes et p = 18 colonnes. Ici, les p = 18
colonnes représentent les variables décrites ci-dessous. Chaque ligne représente un véhicule qui
a eu à souscrire à une garantie dommage pendant un an, durant la période allant de 2000 à
2014. Sur ce véhicule, l’on a observé les réalisations des variables consignées dans le Tableau
1.2. Ainsi, un véhicule sera caractérisé par son immatriculation et une garantie
souscrite. Dès lors, pour un véhicule donné, et pour une année donnée, on aura autant de
lignes que de garanties souscrites par ce véhicule. En somme, nous disposons de 43 215 unités
statistiques.
Variable
ID
ANNEE
UNITE
SEXE
AGE.ASSURE
AGE.PERMIS
CATEG.PERMIS
PROPRIETAIRE
NUM.IMMAT.
AGE.VEH
GARANTIE
ENERGIE
USAGE
CAPITAUX
N.SIN
IND
COUT.SIN
COUT.RELATIF
Description
Identification de l’unité statistique
Année de souscription
Unité de production des contrats.
Sexe du preneur d’assurance
Âge du preneur d’assurance
Âge du permis de conduire
Catégorie du permis de conduire
Propriétaire du véhicule ou non
Immatriculation du véhicule
Âge du véhicule
Garantie souscrite
Source d’énergie du moteur
Catégorie d’usage du véhicule
Capitaux assurés (valeur de l’objet)
Nombre de sinistres
Code sinistre
Coût des sinistres
Coût relatif des sinistres
Table 1.2 – Variables de l’étude
1.3.3
Présentation des Variables
Ces variables sont classées en quatre groupes : celles qui caractérisent l’unité statistique,
celles qui caractérisent le preneur d’assurance, celles qui caractérisent le véhicule assuré et enfin
celles qui caractérisent la sinistralité du véhicule assuré.
1.3.3.1
Caractéristiques de l’unité statistique
i. ID : variable à valeurs entières, qui identifie un véhicule par son immatriculation et une
garantie dommage qu’il a souscrite. Si un véhicule a souscrit à une garantie dommage
pendant n années, alors la modalité de la variable "ID" qui le représente va apparaître
n fois dans le tableau de données.
ii. ANNEE : variable entière qui, à chaque véhicule, donne l’année à laquelle il a souscrit à
sa garantie dommage. Ses modalités sont les années allant de 2000 à 2014.
iii. UNITE : variable qui indique l’agence qui produit des contrats pour le compte de la
compagnie (unités opérationnelles).
DOUANLA Frédéric Hermann ©2014
17
Memoire de Master de Statistique Appliquée, UYI-ENSP
1.3. PRÉSENTATION DES DONNÉES
1.3.3.2
Caractéristiques du preneur d’assurance
i. SEXE : variable qualitative binaire qui indique le sexe du preneur d’assurance. Ses modalités
sont : "M" pour Masculin et "F" pour Féminin.
ii. AGE.ASSURE : variable à valeurs entières qui donne l’âge du preneur d’assurance à la
date de souscription. Cette valeur est obtenue à partir de sa date de naissance et de
l’année de souscription.
iii. AGE.PERMIS : variable entière qui donne l’âge du permis de conduire du preneur d’assurance, à la date de souscription. Cette valeur est obtenue à partir de sa date de délivrance
et de l’année de souscription à la garantie.
iv. CATEG.PERMIS : cette variable indique, pour chaque preneur d’assurance, la catégorie
de son permis de conduire. Elle est représentée par 03 modalités dans le tableau de
données :
• CATEG.A : pour la conduite des cycles et motos cycles ;
• CATEG.B : pour la conduite des véhicules dont la charge totale n’excède pas
3, 5 tonnes avec pas plus de 5 places assises ;
• CATEG.C : pour la conduite des véhicules de transport en commun.
v. PROPRIETAIRE : variable catégorielle binaire, qui indique si le preneur d’assurance est
propriétaire du véhicule ou non. Elle a pour modalités "O" pour Oui et "N" pour Non.
1.3.3.3
Caractéristiques du véhicule assuré
i. NUM.IMMAT. : à un véhicule donné, cette variable associe son numéro d’immatriculation.
ii. AGE.VEH : c’est une variable entière qui donne l’âge du véhicule à la date de souscription.
Cette valeur est obtenue à partir de sa date de première mise en circulation et de l’année
de souscription de la garantie.
iii. GARANTIE : cette variable associe à un véhicule donné une garantie souscrite. Ainsi,
si un preneur d’assurance souscrit à n garanties pour une même année, son véhicule
sera représenté sur n lignes correspondant à la même année. Cette variable comporte 09
modalités listées dans le Tableau 1.3.
GARANTIE
Assistance automobile
Dommages par Accident
Dommages par Collision
Incendie
Bris de Glaces
Pares Brises & Bloc Feux
Vol
Vol & Vol Partiel
Vol par Brigandage
CODE
ASS.AUTO
DOM.ACCIDENT
DOM.COLLISION
INCENDIE
BRIS.GLACE
P.BRISE&BLOC.F
VOL
VOL&V.PARTIEL
BRIGANDAGE
Table 1.3 – Garanties dommages en assurance automobile.
DOUANLA Frédéric Hermann ©2014
18
Memoire de Master de Statistique Appliquée, UYI-ENSP
1.3. PRÉSENTATION DES DONNÉES
iv. ENERGIE : variable qualitative à deux modalités qui indique la source d’énergie du
moteur, Essence (ES) ou Diesel (DS).
v. USAGE : variable qualitative décrivant l’usage ou la catégorie d’usage du véhicule. Les
véhicules sont classés en 13 catégories :
• CAT 1 : véhicules utilisés pour l’exercice d’une profession et pour la promenade ;
• CAT 2 : véhicules utilisés pour le transport des produits ou marchandises appartenant
à l’assuré ;
• CAT 3 : véhicules utilisés pour des transports à titre onéreux de produits ou marchandises appartenant aux tiers ;
• CAT 4A : les taxis de ville ;
• CAT 4B : véhicule de transport public de voyageurs ;
• CAT 4C : autocars de transport des élèves et du personnel à titre gratuit ;
• CAT 5A : véhicules motorisés à deux ou trois roues ;
• CAT 5B : moto taxi ;
• CAT 6 : véhicules automobiles confiés aux garagistes et vendeurs de motos ;
• CAT 7 : véhicules destinés à l’enseignement de la conduite automobile ;
• CAT 8 : véhicules destinés à la location avec ou sans chauffeur ;
• CAT 9 : engins mobiles de chantiers ;
• CAT 10 : véhicules spéciaux (ambulances, corbillards, Fourgons Funèbres, etc.).
vi. CAPITAUX : valeur du véhicule assuré (en F CFA), encore appelée assiette de la
prime.
La valeur assurée en assurance dommage est déterminée et reste constante durant le
contrat d’assurance. Elle est égale à :
• la Valeur Neuve : valeur de remplacement sans vétusté ;
• la Valeur vénale : prix de vente actuel du véhicule ;
• la Valeur agréée : valeur proposée par l’assuré.
Le capital assuré peut résulter soit de la valeur déclarée qui résulte des simples déclarations
de l’assuré, soit de la valeur agréée sur laquelle l’assureur a donné son accord.
Le Tableau 1.1 résume les capitaux qui sont appliqués selon la garantie dommage souscrite.
1.3.3.4
Variables décrivant la sinistralité
i. N.SIN : nombre total de sinistres déclarés par l’assuré à la compagnie sur un an.
ii. IND : occurrence des sinistres, variable binaire obtenue à partir de la variable N.SIN précédente, qui indique si l’assuré a déclaré au moins un sinistre sur l’année.
On la définit par :
1, si N.SIN > 1
IND = I[N.SIN>1] =
0, sinon.
DOUANLA Frédéric Hermann ©2014
19
Memoire de Master de Statistique Appliquée, UYI-ENSP
iii. COUT.SIN, coût des sinistres : c’est la charge totale de tous les sinistres déclarés au cours
d’une année par l’assuré, c’est-à-dire le coût total (en F CFA) mis par l’assuré à la charge
de la compagnie pour le règlement de ses sinistres.
iv. COUT.RELATIF, coût relatif des sinistres : c’est la proportion des capitaux qui a permis
de régler les sinistres subis par l’assuré au cours d’une année. Il se définit par
COUT.RELATIF =
1.3.4
COUT.SIN
.
CAPITAUX
Problématique statistique de l’étude et variables d’intérêt.
Rappelons que, dans cette étude, le problème est celui de savoir si les primes pures évaluées
par la compagnie sont en adéquation avec les règlements des sinistres présents. Il est donc
question, à partir du tableau de données qui vient d’être décrit, d’estimer le taux de prime
adéquat de telle sorte qu’on ait
PRIME PURE = TAUX DE PRIME × CAPITAUX ASSURES.
(1.2)
Or, ce taux de prime est donné par
Taux de prime = Fréquence × Coût relatif moyen des sinistres.
Ainsi, on peut encore écrire
Taux de prime = E[N.SIN] × E[COUT.RELATIF].
(1.3)
L’égalité (1.3) laisse apparaître nos variables d’intérêt, à savoir :
• N.SIN : variable entière qui donne le nombre total de sinistres déclarés par l’assuré à la
compagnie sur une année ;
• COUT.RELATIF : variable qui donne la proportion des capitaux qui a permis de régler
les sinistres subis par un assuré au cours d’une année.
En pratique, le taux de prime représente ce que coûte, en moyenne, à la compagnie, pendant
une année, et par FCFA de capitaux souscrits, un assuré pris au hasard dans le portefeuille de
la Garantie concernée.
Avant de terminer ce chapitre qui a été consacré principalement à la présentation du domaine d’étude, ainsi qu’à la description des variables d’étude, il est important de faire quelques
précisions sur certaines variables : notons que concernant l’estimation du coût relatif moyen
des sinistres, on ne s’intéressera qu’au sous-portefeuille constitué des assurés ayant une valeur
non nulle du COUT.SIN. Par ailleurs, tous les assurés seront considérés dans l’estimation de
la fréquence des sinistres.
Signalons enfin que pour mieux analyser la sinistralité du portefeuille, nous serons aussi
amenés à considérer la fréquence et le coût relatif moyen des sinistres restreints à une catégorie
particulière Ω1 d’assurés (actuels ou potentiels) du portefeuille. Ceci reviendra à s’intéresser
respectivement aux deux espérances conditionnelles :
E[N.SIN|Ω1 ] et E[COUT.RELATIF|Ω1 ].
DOUANLA Frédéric Hermann ©2014
20
Memoire de Master de Statistique Appliquée, UYI-ENSP
Chapitre Deux
ANALYSE DESCRIPTIVE DES
DONNÉES
À titre de rappel, cette étude a pour objectif d’estimer, à partir des données historiques,
le taux de prime pure suffisant pour régler les sinistres pour chaque garantie dommage de
la branche automobile de la SAAR Assurances. Nous avons conclu le chapitre premier en
repositionnant le problème, en celui de l’estimation de la fréquence des sinistres et du coût
relatif moyen des sinistres, car le taux de prime se définit comme le produit de ces derniers.
Dès lors, il est impératif d’effectuer une analyse des variables dont on dispose, afin de procéder
à un premier tri pour la modélisation.
Nous allons débuter ce chapitre en présentant les différents problèmes liés aux données
tout en précisant comment nous y avons fait face. Ensuite, il sera question de faire l’analyse
descriptive univariée, suivie de l’analyse de la sinistralité du portefeuille. Nous terminerons en
faisant un premier tri parmi les variables explicatives.
2.1
Formatage de la base de données
Nous avons particulièrement utilisé le logiciel Excel à travers des tableaux croisés dynamiques pour l’analyse des manquements dans notre base de données.
• Le tableau qui donne la charge des sinistres pour chaque année donne des valeurs nulles
pour les années allant de 2000 à 2004. Cet état traduit des données manquantes, car rien
n’expliquerait le fait qu’une compagnie d’assurances n’ait eu à payer de sinistres sur 4
années consécutives. Vu l’objectif de notre étude, à savoir l’analyse des tarifs, nous avons
restreint la base de données aux années 2005 à 2014. Au total, des 178 155 lignes que
comporte la base initiale, nous avons extrait 147 894 lignes qui correspondent aux années
d’émission de 2005 à 2014.
• Le tableau qui propose la charge des sinistres par garantie donne une charge nulle pour
certaines garanties, à l’exemple du Vol par Brigandage. Celle n’ayant pas de charge nulle
sont listées dans le Tableau 2.1.
Puisque notre objectif est d’estimer les taux de prime en adéquation avec la charge des
sinistres par garantie dommages, on ne saurait faire de même pour des garanties ayant une
charge de sinistres nulle. Par conséquent, nous avons extrait les lignes qui correspondent
aux 8 garanties dommages ayant une charge des sinistres non nulle (121 673 lignes).
• Le Tableau 2.1, qui donne le nombre de coûts relatifs calculés par garantie, nous fait
remarquer que la garantie Vol partiel ne dispose que de 2 observations et la garantie
Pares brise et Blocs feux n’en dispose que de 4 . Ce nombre faible d’observations ne peut
pas nous permettre d’avoir une estimation fiable du coût relatif moyen des sinistres. Par
conséquent, nous avons exclu ces deux autres garanties Dommages (9 678 lignes) de notre
étude.
DOUANLA Frédéric Hermann ©2014
21
Memoire de Master de Statistique Appliquée, UYI-ENSP
2.2. ANALYSE DESCRIPTIVE UNIVARIÉE
GARANTIE
Nombre de COUT.RELATIF
Assistance automobile
162
Bris de Glaces
34
Dommages par Accident
791
Incendie
483
Pares Brises & Bloc Feux
4
Dommages par Collision
14
Vol & Vol Partiel
43
Vol Partiel
2
Table 2.1 – Nombre d’observations du coût relatif par garantie.
• Nous avons constaté la présence des doublons (549 lignes) dans la base, qui par suite, ont
été exclus afin qu’on ait une base de données identifiable ligne par ligne.
• Parmi les garanties ci-dessus citées, nous remarquons que la garantie Assistance Automobile n’a été mise en vente qu’à partir de l’année 2007. Donc, pour cette garantie, la
période d’étude sera restreinte aux années 2007 à 2014.
• Des anomalies liées à l’immatriculation des véhicules ont été constatées. Certaines ont été
résolues à l’aide du numéro de police. Mais, un bon nombre n’a pas pu être déterminé, et
les lignes correspondantes (788 lignes) ont été supprimées de la base des données.
À l’issue de ce travail préliminaire qui a nécessité 60% (3 mois) de notre temps de stage,
ainsi que beaucoup d’attention, et qui nous a permis de comprendre au mieux nos données,
nous disposons d’une base de données de n = 110 658 lignes (correspondant à 43 215
véhicules) et n = 18 colonnes (qui correspondent aux variables décrites dans le Tableau 1.2).
2.2
Analyse descriptive univariée
2.2.1
Analyse descriptive des variables qualitatives
Les variables qualitatives de notre étude, avec la présentation de leurs distributions respectives dans les données, sont les suivantes :
i. Variable UNITE : unité de production des contrats.
UNITE
Nbre.polices
Proportion (%)
COURTIER 1
8 991
8.13%
Bureau Direct
17 865
16.14%
COURTIER 2
83 801
75.73%
Mode :
"COURTIER 2"
Table 2.2 – Répartition du nombre de polices d’assurance souscrites selon l’unité.
On remarque que la plus grande proportion de souscriptions (75.73%) a été faite par le
COURTIER 2.
DOUANLA Frédéric Hermann ©2014
22
Memoire de Master de Statistique Appliquée, UYI-ENSP
2.2. ANALYSE DESCRIPTIVE UNIVARIÉE
ii. Variable ANNEE : année d’émission du contrat d’assurance.
ANNEE
2005 2006
Nbre.polices
6203 4869
Proportion (%) 5.60 4.40
ANNEE
2011
Nbre.polices
12483
Proportion (%)
11.28
Mode :
”2013”
2007
5545
5.01
2012
22425
20.26
2008 2009 2010
6425 6636 10932
5.80 6.00
9.88
2013 2014
24887 10252
22.49
9.26
Table 2.3 – Nombre de polices d’assurance émises selon l’année (pour 2014, période JanvierJuin)
Figure 2.1 – Nombre de polices d’assurance émises selon l’année (pour 2014, période JanvierJuin)
La Figure 2.1 montre une nette évolution du nombre de souscriptions au cours de ces dernières années avec un pic en 2013. Ceci est en adéquation avec le chiffre d’affaires de l’entreprise
qui est en hausse (Cf. [18]). D’ailleurs, depuis 2012, la SAAR S.A. est classée deuxième compagnie du marché camerounais en termes de chiffre d’affaires. Notons que les données de 2014
(prises jusqu’au mois de Juin) ne couvrent pas toute l’année comptable, car celle-ci est encore
en cours.
iii. Variable SEXE : sexe du preneur d’assurance.
On remarque que les femmes, avec une proportion de 1.18%, sont très faiblement représentées
dans ce portefeuille. Par conséquent, prendre en compte le sexe du conducteur n’apporterait
probablement aucun plus dans notre étude. De ce fait, cette variable sera exclue de notre étude.
DOUANLA Frédéric Hermann ©2014
23
Memoire de Master de Statistique Appliquée, UYI-ENSP
2.2. ANALYSE DESCRIPTIVE UNIVARIÉE
SEXE
F
M
Nbre.polices
1 302 109 355
Proportion (%) 1.18% 98.82%
Mode :
"M"
Table 2.4 – Résumé Statistique de la variable SEXE.
iv. Variable CATEG.PERMIS : catégorie de permis de conduire.
CATEG.PERMIS
Nbre.polices
Proportion (%)
Mode :
CATEG.A
CATEG.B CATEG.C
5 846
92 462
12 349
5.28
83.55
11.15
"CATEG.B"
Table 2.5 – Résumé Statistique de la variable CATEG.PERMIS.
La Table 2.5 montre que le permis de catégorie "B" est le plus fréquent. En effet, il caractérise
les conducteurs des véhicules les plus utilisés, tels que les véhicules de tourisme. Les permis de
catégorie A et C étant faiblement représentés, il serait inapproprié de segmenter notre tarifaire
selon la catégorie de permis. Par conséquent, nous ne prendrons pas en compte cette variable
dans nos estimations.
v. Variable PROPRIETAIRE : propriétaire du véhicule assuré.
PROPRIETAIRE
Nbre.polices
Proportion (%)
Mode :
N
O
67 054 31 919
67.75% 32.25%
"N"
Table 2.6 – Résumé Statistique de la variable PROPRIETAIRE.
Le Tableau 2.6 fait remarquer que dans ce portefeuille, les souscripteurs propriétaires du
véhicule assuré sont majoritaires relativement aux non propriétaires. Ceci reflète un portefeuille
dans lequel les véhicules sont beaucoup plus assurés en flotte.
vi. Variable GARANTIE : garantie souscrite.
GARANTIE
Nbre.polices
Proportion (%)
ASS.AUTO
12688
11.46%
DOM.ACCIDENT
14999
13.55%
DOM.COLLISION
4213
3.80%
INCENDIE
44670
40.36%
BRIS.GLACE
4699
4.24%
VOL&V.PARTIEL
29388
26.55%
Mode :
"INCENDIE"
Table 2.7 – Résumé statistique de la variable GARANTIE.
DOUANLA Frédéric Hermann ©2014
24
Memoire de Master de Statistique Appliquée, UYI-ENSP
2.2. ANALYSE DESCRIPTIVE UNIVARIÉE
Rappelons que la garantie "INCENDIE" couvre les dommages subis par le véhicule assuré,
lorsque ceux-ci résultent soit d’un incendie, soit d’une chute de foudre, d’une explosion ou d’une
combustion instantanée. Cette garantie, avec une proportion de 40.36%, est la plus souscrite
des garanties étudiées de ce portefeuille.
vii. Variable ENERGIE : source d’énergie du moteur.
ENERGIE
DS
ES
Nbre.polices
72041
38535
Proportion (%) 65.15% 34.84%
Mode :
"DS"
Table 2.8 – Résumé Statistique de la variable ENERGIE.
En général, l’acquisition d’un véhicule diesel est plus coûteuse que celle d’un véhicule essence.
Pourtant le prix du litre de gasoil est moins élevé par rapport à celui du litre d’essence. C’est
sans doute cette dernière raison qui justifie qu’une proportion de plus de 65% d’usagers utilisent
les véhicules à consommation diesel.
viii. Variable USAGE : usage ou catégorie d’usage du véhicule.
USAGE CAT 1 CAT 2 CAT 3 CAT 4A CAT 4B CAT 4C CAT 5A
effectif
43999
35304
9308
71
1086
860
6962
Prop. (%)
39.76
31.90
8.41
0.06
0.98
0.77
6.29
USAGE CAT 5B CAT 6 CAT 7 CAT 8 CAT 9 CAT 10
effectif
24
795
52
7735
3941
520
Prop. (%)
0.02
0.71
0.05
7.00
3.56
0.47
Mode :
"CAT 1"
Table 2.9 – Résumé Statistique de la variable USAGE.
Il ressort du Tableau 2.9 que les véhicules de tourisme (CAT 1), avec une proportion de
39.76% sont les plus représentés dans ce portefeuille. Les catégories d’usages 2 (véhicule pour
transport des produits de l’assuré), 3 (véhicule pour transport à titre onéreux des produits
des tiers), 5A (véhicule motorisé), 8 (véhicule de location) et 9 (engins mobiles de chantiers)
gagnent également une proportion non négligeable dans ce portefeuille. Par ailleurs, les catégories restantes sont très faiblement représentées. Ainsi, dans nos analyses, nous procéderons au
regroupement de certaines modalités à proportion faible (Cf. Section 2.3).
2.2.2
Analyse descriptive des variables quantitatives
La description des variables quantitatives se fait à l’aide des différents indicateurs empiriques de tendance centrale (moyenne, médiane) et de dispersion (écart-type σ, l’intervalle
interquartiles). Des histogrammes sont associés dans la prochaine section pour confronter chacune des variables avec la sinistralité (i.e. fréquence et coût relatif des sinistres) observée dans
le portefeuille.
i. Variable AGE.ASSURE : âge du preneur d’assurance (en années).
DOUANLA Frédéric Hermann ©2014
25
Memoire de Master de Statistique Appliquée, UYI-ENSP
2.2. ANALYSE DESCRIPTIVE UNIVARIÉE
M in. 1stQu. M edian M ean
18
45
50 47.92
3rdQu. M ax.
σ
52
72 6.73
Table 2.10 – Résumé Statistique de la variable AGE.ASSURE
On constate d’après le Tableau 2.10, qu’environ la moitié des assurés de ce portefeuille a
un âge compris entre 45 et 52 ans. De plus, avec une moyenne d’environ 48 ans et un écarttype de 6.73, on peut conclure que ce portefeuille est constitué des assurés majoritairement
responsables.
ii. Variable AGE.PERMIS : âge du permis de conduire du preneur d’assurance (en années).
M in. 1stQu. M edian M ean
0
10
15 15.89
3rdQu. M ax.
σ
21
54 9.72
Table 2.11 – Résumé Statistique de la variable AGE.PERMIS.
Le Tableau 2.11 fait remarquer qu’environ les 43 des souscripteurs ont un permis âgé
de plus de 10 ans ; ce qui implique que l’on a majoritairement affaire aux conducteurs
expérimentés. Le minimum (0) représente un permis de conduire délivré la même année
que l’année de souscription.
iii. Variable AGE.VEH. : âge du véhicule à la date de souscription (en années).
M in. 1stQu. M edian M ean
0
2
6
7.73
3rdQu. M ax.
σ
12
53 7.03
Table 2.12 – Résumé Statistique de la variable AGE.VEH.
Du Tableau 2.12, il ressort que plus de la moitié des véhicules de ce portefeuille ont plus de
5 années de circulation. De ce fait, on peut considérer avoir autant de véhicules moins vétustes
que de vieux véhicules. Le minimum (0) représente un véhicule dont l’année de la première mise
en circulation correspond à la l’année de souscription.
***Variables décrivant la sinistralité du portefeuille
v. Variable N.SIN : nombre de sinistres.
La fréquence des sinistres pour le portefeuille est de 5.63% durant les 9 dernières années.
Le Tableau 2.13 montre que le nombre maximum de sinistres déclarés par un assuré vaut 9. Au
total, 6237 sinistres ont été déclarés durant cette période.
Ce tableau décrit également l’ajustement de la distribution observée de N.SIN par une
loi de Poisson de paramètre λ identique pour toutes les classes de risque. L’estimateur du
maximum de vraisemblance du paramètre est la moyenne empirique de la distribution et vaut
λ̂ = 0.0563. On constate que l’ajustement est très mauvais, et rejeté par un test du χ2 de
conformité (valeur observée de la statistique du χ2 valant 7866.213, pour 3 degrés de liberté,
pour une p-value inférieure à 10−4 ). Ceci conforte l’idée selon laquelle la fréquence des sinistres
varierait selon des sous-groupes du portefeuille. Une analyse particulière de la sinistralité sera
faite dans la section suivante.
DOUANLA Frédéric Hermann ©2014
26
Memoire de Master de Statistique Appliquée, UYI-ENSP
2.2. ANALYSE DESCRIPTIVE UNIVARIÉE
Nombre
de sinistres
0
1
2
3
4
5
6
7
8
9
≥ 10
Nombre de
Proportion
polices obs.
105868
95.67%
3882
3.50%
652
0.59%
137
0.12%
48
0.04%
28
0.02%
12
0.01%
12
0.01%
10
0.01%
8
0.00%
0
0.00%
Nombre de
polices prédit.
104592.5
5895.18
166.13
3.12
0.044
0.00
0.00
0.00
0.00
0.00
0.00
Table 2.13 – Distribution de la variable N.SIN et ajustement par une loi de Poisson.
vi. Variable IND : occurrence des sinistres.
Rappelons ici qu’une unité statistique est identifiée par l’immatriculation et une garantie
souscrite. Par ailleurs, les observations sur cette unité statistique diffèrent selon l’année de
souscription de la garantie. D’après le Tableau 2.14, sur les 110 658 observations de notre
portefeuille, 105 868 (soit 95.67%) n’ont déclaré aucun sinistre et 4 789 (soit 4.33%) ont fait
jouer la garantie de la compagnie au moins une fois.
IND
Effectif
Prop. (%)
0
1
105 868 4 789
95.67
4.33
Table 2.14 – Distribution de la variable IND dans le portefeuille.
vii. Variable COUT.SIN : coût total des sinistres par police sur l’année (en F CFA).
M in.
5 000
1stQu. M edian M ean
3rdQu.
M ax.
σ
299300
544400 1272000 1117000 60 000 000 2863218
Table 2.15 – Résumé statistique de la variable COUT.SIN
Le plus grand montant (60 000 000 FCFA) déboursé pour régler un sinistre s’est effectué
en 2012, pour un véhicule assuré en garantie VOL&VOL PARTIEL, dont le capital assuré
était de 60 526 500 F CF A. On remarque également un coût moyen des sinistres évalué à
1 272 000 F CF A. Cette valeur moyenne assez élevée reflète la grandeur des capitaux assurés.
viii. Variable COUT.RELATIF : coût relatif des sinistres.
Rappelons que le coût relatif des sinistres pour un assuré, pour une année et une garantie
pour son véhicule est égal au coût total des sinistres dans lesquels son véhicule a été impliqué,
divisé par le capital assuré par ce dernier. En moyenne, le coût des sinistres est évalué à 14.8%
du capital assuré. La valeur maximale > 1 correspond à un assuré qui a fait jouer plus d’une
fois sa garantie au cours de l’année, car le capital correspond au coût maximal du règlement
d’un sinistre.
DOUANLA Frédéric Hermann ©2014
27
Memoire de Master de Statistique Appliquée, UYI-ENSP
2.3. ANALYSE DE LA SINISTRALITÉ DU PORTEFEUILLE
M in. 1stQu. M edian M ean
0.01
0.03
0.06 0.148
3rdQu. M ax.
σ
0.16
1.32 0.22
Table 2.16 – Résumé statistique de la variable COUT.RELATIF
2.3
Analyse de la sinistralité du portefeuille
Dans cette section, il est question de faire une analyse graphique de l’influence des variables
explicatives sur la sinistralité. Notons que nos variables d’intérêt sont :
• le nombre de sinistres (N.SIN), à partir duquel nous estimerons la fréquence des sinistres
(E [N.SIN]) ;
• le coût relatif des sinistres (COUT.RELATIF), à partir de duquel nous obtiendrons une
estimation du coût relatif moyen des sinistres (E [COUT.RELATIF]).
L’étude de la fréquence des sinistres sera faite sur tout le portefeuille, tandis que celle du
coût relatif des sinistres sera restreinte aux assurés qui ont eu à bénéficier d’une prise en charge
(COUT.SIN> 0).
i. Influence du type d’énergie sur la sinistralité
(a)
(b)
(c)
Figure 2.2 – Répartition du portefeuille, fréquence des sinistres et coût relatif moyen des
sinistres par type d’énergie (de gauche à droite), avec ES="Essence" et DS="Diesel".
Notons que la fréquence des sinistres dans une classe du portefeuille est estimée par le
nombre de sinistres enregistrés dans cette classe divisé par l’effectif de la classe.
DOUANLA Frédéric Hermann ©2014
28
Memoire de Master de Statistique Appliquée, UYI-ENSP
2.3. ANALYSE DE LA SINISTRALITÉ DU PORTEFEUILLE
On observe sur la Figure 2.2, que la fréquence, de même que le coût relatif des sinistres,
ne varie pas considerablement selon le type d’énergie utilisé. Dailleurs, un test de Student (cf.
[20]) a été effectué pour comparer les coûts relatifs moyens dans les deux classes de la variable
ENERGIE, afin de savoir si le type d’enegie a une influence sur le coût relatif moyen des
sinistres. Avec une statistique de test de t = −1.34 (pour 1464 degrés de liberté), ce qui donne
une p-valeur égale à 0.178, nous concluons que la variable ENERGIE n’a pas une influence
significative sur le coût relatif moyen des sinistres.
Notons que les tests statistiques nécessaires pour évaluer la significativité de l’influence de
chacune de nos variables explicatives sur la variable N.SIN sera faite dans la section suivante.
ii. Influence du fait d’être propriétaire ou non sur la sinistralité
(a)
(b)
(c)
Figure 2.3 – Répartition du portefeuille, fréquence et coût relatif moyen des sinistres selon la
variable PROPRIETAIRE (de gauche à droite).
La Figure 2.3b révèle une fréquence des sinistres plus élevée chez les souscripteurs qui ne
sont pas propriétaires du véhicule assuré. Ceci peut s’expliquer du fait que le propriétaire d’un
véhicule a tendance à être plus prudent au volant afin de ne pas endommager son automobile
parce qu’il en connaît la valeur. De plus, la Figure 2.3c qui donne la distribution du coût relatif
dans les classes de la variable PROPRIETAIRE laisse voir une plus grande variabilité de
ce coût chez les non propriétaires. Cependant, un T test de Student rejette l’hypothèse nulle
d’une éventuelle influence de la variable PROPRIETAIRE sur le coût relatif des sinistres,
avec une statistique de t = 1.08 (pour 1433 degré de liberté), ce qui donne une p-valeur égale
à 0.276.
iii. Influence de la catégorie d’usage sur la sinistralité
Comme nous l’avons mentionné précédemment, la Figure 2.4a nous montre une faible représentativité de certaines catégories d’usage. Nous allons donc procéder à un regroupement de
catégories suivant des critères liés à l’exposition au risque. Ainsi,
DOUANLA Frédéric Hermann ©2014
29
Memoire de Master de Statistique Appliquée, UYI-ENSP
2.3. ANALYSE DE LA SINISTRALITÉ DU PORTEFEUILLE
(a)
(b)
Figure 2.4 – Répartition du portefeuille par type d’usage, fréquence des sinistres par type
d’usage (de gauche à droite).
• les catégories "4A", "4B", et "4C" seront regroupées en une catégorie "CAT 4" ;
• les catégories "5A" et "5B" seront regroupées en une catégorie "CAT 5" ;
• les catégories "6","7","8" et "10" seront regroupées en une catégorie "CAT 8G".
Après ces regroupements, la variable USAGE n’a plus que les 7 modalités (au lieu de 13)
présentées dans le Tableau 2.17
USAGE CAT 1
CAT 2 CAT 3 CAT 4 CAT 5 CAT 8G CAT 9
effectif
43999
35304
9308
2017
6986
9102 3941
Prop. (%)
39.76
31.90
8.41
1.82
6.31
8.22 3.56
Mode :
"CAT 1"
Table 2.17 – Résumé Statistique de la variable USAGE après regroupement.
La Figure 2.5a présente les différentes proportions par catégorie d’usage après regroupement.
On peut observer à la Figure 2.5b que la fréquence des sinistres est moins élevée chez les
véhicules de catégorie "5". Par contre, la Figure 2.5c décèle un coût relatif moyen des sinistres
plus élevé chez ceux-ci. Ceci peut s’expliquer par le fait que le peu de sinistres subis par les
cycles et motos cycles se révèlent être plutôt graves, comparativement au capital assuré, à
l’exemple du vol.
La Figure 2.5c fait également remarquer que les variances de la variable COUT.RELATIF
sont différentes selon la catégorie d’usage du véhicule. Ainsi, pour tester le lien entre la variable
qualitative USAGE à 7 modalités et la variable numérique COUT.RELATIF, nous allons
utiliser le test non paramétrique de Kruskal Wallis (cf. [9]). La valeur de la statistique du test
nous donne 88.19 (pour 6 degrés de liberté) avec une p − value < 10−4 . Donc, il existe un lien
significatif entre le coût relatif des sinistres et la catégorie d’usage du véhicule.
DOUANLA Frédéric Hermann ©2014
30
Memoire de Master de Statistique Appliquée, UYI-ENSP
2.3. ANALYSE DE LA SINISTRALITÉ DU PORTEFEUILLE
(a)
(b)
(c)
Figure 2.5 – Répartition du portefeuille, fréquence des sinistres et coût relatif moyen des
sinistres par type d’usage (de gauche à droite).
iv. Influence de la garantie souscrite sur la sinistralité
(a)
(b)
(c)
Figure 2.6 – Répartition du portefeuille, fréquence des sinistres et coût relatif moyen des
sinistres par garantie souscrite (de gauche à droite).
Bien que la garantie Incendie soit la plus souscrite, c’est la garantie Dommage par Accident
qui est la plus fréquemment mise en jeu lors des sinistres. Ceci était prévisible du fait que la
garantie Dommage par Accident couvre d’autres garanties telles que la garantie Dommage par
Collision, ainsi que le Bris de Glaces.
La Figure 2.6c fait apparaître une différence de variabilité du coût relatif selon la garantie.
Le test de Kruskal Wallis pour tester le lien entre la variable GARANTIE à 6 modalités et
la variable COUT.RELATIF nous donne une statistique de 282.26 (pour 5 degrés de liberté)
avec une p − value < 10−4 . Donc, le coût relatif des sinistres diffère selon la garantie.
DOUANLA Frédéric Hermann ©2014
31
Memoire de Master de Statistique Appliquée, UYI-ENSP
2.3. ANALYSE DE LA SINISTRALITÉ DU PORTEFEUILLE
v. Influence de l’âge du preneur d’assurance sur la sinistralité
Figure 2.7 – Répartition du portefeuille selon l’âge du preneur d’assurance.
La Figure 2.10 montre que les âges des preneurs d’assurance en garantie automobile de
la SAAR S.A. sont concentrés entre 41 ans et 54 ans. Vu cet intervalle d’âge assez restreint,
aucune segmentation ne se fera sur l’âge.
vi. Influence de l’âge du véhicule sur la sinistralité
Figure 2.8 – Répartition du portefeuille selon l’âge du véhicule.
DOUANLA Frédéric Hermann ©2014
32
Memoire de Master de Statistique Appliquée, UYI-ENSP
2.3. ANALYSE DE LA SINISTRALITÉ DU PORTEFEUILLE
(a)
(b)
Figure 2.9 – (a) Fréquence des sinistres selon l’âge du véhicule. (b) Coût relatif moyen des
sinistres selon l’âge du véhicule, pour les sinistres ayant un coût non nul.
Au regard de la Figure 2.9, on constate que la sinistralité des véhicules dont l’âge est compris
entre 0 et 5 ans se distingue des autres. En effet, ces derniers ont une fréquence des sinistres
un peu plus élevée, mais un coût relatif moyen moins élevé que les autres. Remarquons que les
fréquences observées pour les véhicules dont l’âge excède 25 ans ne saurait biaiser notre analyse,
car ceux-ci sont très faiblement représentés dans ce portefeuille. Ainsi, nous allons catégoriser
la variable AGE.VEH. de la façon suivante :
1 si AGE.VEH ≤ 5ans
AGE.VEH.G =
2 si AGE.VEH > 5ans
Le codage fait, les proportions selon la catégorie d’âge du véhicule sont résumées dans le
Tableau 2.18.
AGE.VEH.G
Nbre.Véhicule
Proportion (%)
Mode :
1
2
53 403 55 487
49.04% 50.95%
"2"
Table 2.18 – Résumé statistique de la variable AGE.VEH.G.
vii. Influence de l’âge du permis de conduire sur la sinistralité
Au regard de la Figure 2.11, aucune structure particulière n’est décelée à l’examen du
graphique de la fréquence des sinistres et coût relatif moyen des sinistres selon l’âge du permis
de conduire. Ceci tend à indiquer que la variable AGES.PERMIS influence peu la sinistralité.
Par conséquent, nous ne prendrons pas en compte cette variable dans la segmentation de notre
tarifaire.
DOUANLA Frédéric Hermann ©2014
33
Memoire de Master de Statistique Appliquée, UYI-ENSP
2.4. PREMIER TRI PARMI LES VARIABLES TARIFAIRES
Figure 2.10 – Répartition du portefeuille selon l’âge du permis.
(a)
(b)
Figure 2.11 – (a) Fréquence des sinistres selon l’âge du permis. (b) Coût relatif moyen des
sinistres selon l’âge du permis, pour les sinistres ayant un coût non nul.
2.4
Premier tri parmi les variables tarifaires
Test d’indépendance du χ2 .
Pour opérer un premier tri parmi les variables à notre disposition, nous allons effectuer
DOUANLA Frédéric Hermann ©2014
34
Memoire de Master de Statistique Appliquée, UYI-ENSP
2.4. PREMIER TRI PARMI LES VARIABLES TARIFAIRES
des tests du χ2 entre la variable IND et chacune des autres variables qualitatives de l’étude,
sur la base des tables de contingence. Pour des raisons d’effectifs, nous travaillons avec IND
plutôt qu’avec N.SIN. En effet, si nous croisons N.SIN avec PROPRIETAIRE, beaucoup
d’effectifs attendus seront inférieurs à 5 ; on ne peut donc pas valablement effectuer de tests du
χ2 sur la base d’une telle table de contingence. Par contre, le croisement de la variable IND et
PROPRIETAIRE nous donne la table de contingence décrite au Tableau 2.19 (les effectifs
attendus sous l’hypothèse nulle d’indépendance sont indiqués entre parenthèses), sur laquelle
nous pouvons baser le test du χ2 . La valeur observée de la statistique du χ2 d’indépendance
vaut 447.47 (pour 1 degré de liberté), ce qui donne une p-valeur inférieure à 10−4 . On constate
(au seuil de 5%) une forte association entre le fait d’être propriétaire ou pas du véhicule assuré
et le fait d’être ou pas sinistré.
IND
PROPRIETAIRE
OUI
NON
31 099
63 306
Pas de sinistre
(30 445.81)
(63 959.19)
Un ou plusieurs
820
3 748
sinistres
(1 473.19)
(3 094.81)
Total
31 919
67 054
p − value < 2.2e − 16
Total
94 405
4 568
98 973
Table 2.19 – Table de contingence croisant IND et PROPRIETAIRE, et test d’indépendance du χ2 .
En croisant successivement toutes les variables tarifaires avec IND, on obtient les résultats
de la Table 2.20.
Variable
GARANTIE
ENERGIE
AGE.VEH.G
USAGE
Val. observée de
la stat. du χ2
4437.23
0.56
578.23
635.88
# dl
p-value
5
1
1
6
< .0001
.4508
< .0001
< .0001
Table 2.20 – Résultats des tests d’indépendance du χ2 sur les tables de contingence croisant
les variables tarifaires et IND.
Nous remarquons que le type de consommation en énergie ne semblent pas influencer la
variable IND. Nous allons également les exclure de la suite de notre étude.
On remarque également l’influence de la garantie souscrite sur la sinistralité. Vu que notre
objectif est celui d’estimer le taux de prime par garantie, notre base sera stratifiée selon les
garanties et de ce fait, dans chaque strate, la variable GARANTIE sera constante. Ainsi, il
nous reviendra de construire un modèle pour chacune des garanties de la branche automobile
de la SAAR. Donc, nous allons de fait, segmenter notre tableau de données en différents tableaux, chaque tableau correspondant à une garantie. Mais alors, l’identifiant de notre unité
statistique qui était le couple (NUM.IMMAT. ; GARANTIE) pourra se restreindre à la
variable NUM.IMMAT. pour chaque tableau de garantie.
Il est important de noter que la variable ANNEE qui précise l’année d’émission du contrat
d’assurance fera partie des variables qui serviront à modéliser la fréquence des sinistres. En
DOUANLA Frédéric Hermann ©2014
35
Memoire de Master de Statistique Appliquée, UYI-ENSP
2.4. PREMIER TRI PARMI LES VARIABLES TARIFAIRES
effet, cette variable nous permettra d’avoir une estimation de la corrélation existante entre les
observations faites sur un même individu, ceci à travers l’écart de temps entre ces observations.
Logiquement, plus deux observations sont éloignées dans le temps, moins elles sont corrélées.
Nous y insisterons davantage dans le prochain chapitre.
Conclusion
Il était question, dans ce chapitre, de faire des analyses descriptives des variables afin d’exhiber celles qui pourraient expliquer au mieux la sinistralité dans le portefeuille. Le Tableau 2.21
résume celles retenues à cette effet. Dès lors, nous pouvons explorer les méthodes statistiques
qui nous permettront d’atteindre notre objectif : l’estimation du taux de prime par la formule
PRIME PURE = TAUX DE PRIME × CAPITAUX ASSURES
variables à
expliquer
N.SIN
COUT.RELATIF
variables
explicatives
PROPRIETAIRE
GARANTIE
USAGE
AGE.VEH.G
GARANTIE
USAGE
Description
Proprietaire ou non du véhicule
Garantie souscrite
Catégorie d’usage du véhicule
Âges du véhicule assuré
Table 2.21 – Variables retenues à l’issue de l’analyse descriptive
DOUANLA Frédéric Hermann ©2014
36
Memoire de Master de Statistique Appliquée, UYI-ENSP
Chapitre Trois
MÉTHODES STATISTIQUES
Auparavant, le modèle linéaire gaussien était utilisé pour quantifier l’effet des variables
explicatives sur un phénomène d’intérêt (fréquence ou coût de sinistres). Or, ce modèle impose
une série de limitations peu conciliables avec la réalité des nombres ou des coûts de sinistres :
densité de probabilité (approximativement) gaussienne, homoscédasticité des résidus.
À la fin du 20ème siècle, des modèles plus appropriés à la réalité de l’assurance sont utilisés.
Il s’agit des modèles linéaires généralisés (GLM, pour Generalized Linear Models) introduits
en statistique par [16]. Ces modèles permettent de s’affranchir de l’hypothèse de normalité, en
traitant de manière unifiée des données auxquelles s’applique une loi faisant partie de la famille
exponentielle linéaire (laquelle compte la loi de Poisson, outil de choix en assurance automobile
pour l’analyse des nombres de sinistres). En général, l’estimation des paramètres du modèle est
basée sur l’indépendance des observations. Cependant, pour éviter d’accorder trop d’importance
à des événements relatifs à une année particulière, le tarif d’assurance est souvent construit
sur la base de plusieurs années d’observations. Ceci a pour conséquence le fait que certaines
des données pourraient ne plus être indépendantes. Par exemple, pour chaque assuré i , on
observe Yi,j , j = 1, ..., ni , le nombre de sinistres subis sur la j ème année. Bien que l’hypothèse
d’indépendance soit raisonnable entre Yi,j et Yi0 ,j 0 pour i 6= i0 (deux assurés différents), les
nombres de sinistres Yi,j et Yi,j 0 , occasionnés dans deux périodes différentes j et j 0 pour un même
assuré i sont fort probablement corrélés. Ce type de données est appelé données logitudinales
ou données de panel. Dès lors, l’approche GEE (Generalized Estimating Equations), proposée
par [14], permet de corriger les estimateurs obtenus dans le modèle GLM afin de prendre en
compte la structure de dépendance des données. En plus, les estimateurs obtenus par cette
méthode sont convergents. Nous présenterons l’approche GEE après présentation des GLM.
Dans la suite, nous nous plaçons dans le portefeuille des assurés de la branche automobile
de la compagnie SAAR, ayant souscrit une même garantie dommage donnée entre 2005 et 2014.
Dans la modélisation à faire, ils sont vus comme un échantillon représentatif de la population
des clients potentiels de la SAAR pour ladite garantie durant la période indiquée.
3.1
3.1.1
Modèles linéaires généralisés pour des données longitudinales
Données longitudinales : notations
Pour un assuré i, Yi,j représente le nombre de sinistres déclarés durant l’année j, i = 1, ..., n,
j = 1, ..., ni , où ni désigne le nombre d’années d’observation pour l’assuré i. On note donc
Yi = (Yi1 , ..., Yini )t , le vecteur des observations de la variable endogène (où d’intérêt) Y sur i.
Nous supposons que nous disposons, par ailleurs, pour l’assuré i, d’une matrice
DOUANLA Frédéric Hermann ©2014
37
Memoire de Master de Statistique Appliquée, UYI-ENSP
3.1. MODÈLES LINÉAIRES GÉNÉRALISÉS POUR DES DONNÉES LONGITUDINALES



Xi = (Xi1 , Xi2, ..., Xini )t = 

t
Xi1
t
Xi2
..
.
t
Xin
i


 
 
=
 
xi11
xi21
..
.
xi12
xi22
..
.
···
···
...
xi12
xi2p
..
.
xini 1 xini 2 · · · xini p



,

de dimension ni × p, où Xij = (xij1 , ..., xijp )t est le vecteur des valeurs des variables exogènes
pour l’année j de l’assuré i. On a ainsi des données longitudinales.
3.1.2
Famille exponentielle linéaire
Définition 3.1.1 Font partie de la classe de la famille exponentielle linéaire, les lois de probabilité à deux paramètres θ et φ dont les densités (discrètes ou continues) peuvent se mettre
sous la forme
yθ − b (θ)
+ c (y, φ) , y ∈ S,
(3.1)
f (y|θ, φ) = exp
φ
où le support S est un sous-ensemble de N ou de R. Le paramètre θ est appelé paramètre naturel
et φ est le paramètre de dispersion.
Souvent, une pondération est nécessaire et on remplace φ par φ/ω, où ω est un poids connu
a priori.
Proposition 3.1.1 Pour une variable aléatoire Y dont la densité est de la forme (3.1), on a
E [Y ] = b0 (θ)
où 0 et
00
et
(3.2)
V ar [Y ] = b00 (θ) φ;
désignent les dérivées première et seconde par rapport à θ.
Démonstration. (Voir 4.3 en annexe)
Dès lors, la variance de Y apparaît comme le produit de deux fonctions : la première, b00 (θ) ,
qui dépend uniquement de θ, est appelée fonction variance ; et la seconde dépend uniquement
de φ. En notant µ = E (Y ) , on voit que le paramètre θ est lié à la moyenne µ. La fonction
variance peut donc être définie en fonction de µ; on la note V (µ) .
Le Tableau 3.1, dont les éléments sont extraits de [5] donne les paramètres qui caractérisent
quelques lois usuelles dont les densités peuvent se mettre sous la forme (3.1), ainsi que leurs
fonctions variance associées.
Loi de probabilité
Normale(µ, σ 2 )
Poisson(µ)
Binomiale(n, p)
S
R
N
N
θ
µ
ln µ
ln {p/ (1 − p)}
b (θ)
θ2 /2
exp θ
n ln (1 + exp (θ))
φ
σ2
1
1
V (µ)
1
µ
µ (1 − µ)
Table 3.1 – Fonction variance et paramètres associés aux lois de probabilité usuelles dont les
densités sont de la forme (3.1).
DOUANLA Frédéric Hermann ©2014
38
Memoire de Master de Statistique Appliquée, UYI-ENSP
3.1. MODÈLES LINÉAIRES GÉNÉRALISÉS POUR DES DONNÉES LONGITUDINALES
3.1.3
Modèle linéaire généralisé pour données longitudinales : Introduction
Dans la suite, on suppose que la distribution marginale de chaque variable endogène Yij
étant donné Xij peut se mettre sous la forme (3.1), c’est-à-dire
yij θij − b (θij )
f (yij |xij ) = exp
+ c (yij , φ) , i = 1, ..., n, j = 1, ..., ni .
(3.3)
φ
De plus, on considère qu’étant donné les variables exogènes, les variables endogènes d’un
vecteur Yi sont indépendantes de celles d’un vecteur Yi0 , pour i 6= i0 .
On suppose que les θij sont fonction d’un vecteur de p+1 paramétres réels β = (β0, β1 , ..., βp )t .
En posant µij la moyenne de Yij |Xij , on suppose que
g (µij ) = β0 +
p
X
βk xijk = Xijt β = ηij
(3.4)
k=1
où la fonction monotone et dérivable g est appelée fonction de lien (qui lie le prédicteur linéaire
ηij = Xijt β à la moyenne µij de Yij |Xij à partir des données (Yi , Xi ) , i = 1, ..., n), et le vecteur
β contient les p + 1 paramètres.
Chacune des lois de probabilité de la famille exponentielle linéaire possède une fonction de
lien spécifique, dite fonction de lien canonique. Ce lien g est tel que g (µij ) = θij , où θij est le
paramètre naturel (voir [15]). Or, µij = b0 (θij ) d’où g −1 = b0 .
Une fois la fonction de lien g spécifiée, (3.4) est la formulation d’un modèle linéaire généralisé
(GLM) pour des données longitudinales.
En pratique, les coefficients de régression β0 , β1 ..., βp et le paramètre de dispersion φ sont
inconnus et doivent donc être estimés à partir des données.
3.1.4
Cas de l’indépendance des observations répétées sur le même
individu
On suppose dans toute cette section 3.1, que pour i = 1, ..., n, les v.a. Yij |Xij , j = 1, ..., ni
sont indépendantes. Cependant, signalons dès ici que, pour une modélisation réaliste de nos
données, il sera important de considérer des modèles qui n’incorporent pas cette hypothèse
peut-être trop optimiste. Ce seront les modèles GEE présentés dans la section 3.2.
3.1.5
Estimation des paramètres βk sous l’indépendance.
Cette estimation va se faire par maximum de vraisemblance conditionnel.
Pour i = 1, ..., n, puisque les variables aléatoires Yij |Xij , j = 1, ..., ni sont indépendantes, le
vecteur aléatoire Yi |Xi a pour densité
f (Yi |Xi ) =
ni
Y
f (yij |xij ) .
j=1
Par ailleurs, les couples (Xi , Yi ) , i = 1, ..., n, étant indépendants, la fonction de vraisemblance
conditionnelle relative aux observations est donnée par :
( n n )
ni
n Y
i
Y
XX
yij θij − b (θij )
+ c (yij , φ) ,
V (β, φ) =
f (yij |xij ) = exp
φ
i=1 j=1
i=1 j=1
DOUANLA Frédéric Hermann ©2014
39
Memoire de Master de Statistique Appliquée, UYI-ENSP
3.1. MODÈLES LINÉAIRES GÉNÉRALISÉS POUR DES DONNÉES LONGITUDINALES
et donc la log-vraisemblance conditionnelle est donnée par :
ni n X
X
yij θij − b (θij )
L (β, φ) = log (V (β, φ)) =
+ c (yij , φ)
φ
i=1 j=1
Il revient donc de maximiser cette log-vraisemblance. Puisque nous sommes dans le cas des
lois qui font partie de la famille exponentielle, la fonction de vraisemblance est régulière. Ainsi,
l’estimateur du maximum de vraisemblance β̂ de β = (β0 , β1 ..., βp )t est solution du système :
∂L (β, φ)
= [0](p+1)×1 ,
(3.5)
∂βk
k=0,1,...,p
avec [0](p+1)×1 qui représente le vecteur colonne nul à p + 1 composantes.
Or, on a :
(
(3.5)⇐⇒
1
φ

(
⇐⇒

ni h
n P
P
i=1 j=1
∂θ
yij ∂βijk − b0 (θij )
∂θij
∂βk

)
i
k=0,1,...,p
i
ni h
n P
P
∂θ ∂η
∂θ ∂η
yij ∂ηijij ∂βijk − b0 (θij ) ∂ηijij ∂βijk
)
i=1 j=1
(
⇐⇒

⇐⇒

ni n P
P
ni
n P
P
i=1 j=1
(p+1)×1

∂θ
∂θ
yij ∂ηijij xijk − µij ∂ηijij xijk
(yij − µij )
= [0](p+1)×1

k=0,1,...,p
∂θij
x
∂ηij ijk
(p+1)×1

)
)
= [0](p+1)×1

k=0,1,...,p
i=1 j=1
(
= [0](p+1)×1

(p+1)×1

= [0](p+1)×1 .

k=0,1,...,p
(p+1)×1
L’écriture matricielle nous donne le vecteur gradient de dimension p + 1 défini par :
déf
Uindep (β) =
n
X
Xit 4i [Yi − µi (β)] = [0](p+1)×1 ,
(3.6)
i=1
où
• Xi = (Xi1 , ..., Xini )t , avec Xij = (1, xij1 , ..., xijp )t ;
• Yi = (Yi1 , ..., Yini )t ;
• µi (β) = (µi1 , ..., µini )t ;
n
o
∂θij
• 4i = Diag ∂ηij , j = 1, ..., ni (matrice diagonale de dimension ni × ni dont l’élément en
position (j, j) est
∂θij
).
∂ηij
On remarque que le paramètre de dispersion φ n’apparaît pas dans l’équation (3.6). Ainsi, la
résolution de cette équation offrirait la possibilité d’estimer les paramètres β0 , β1 ..., βp , à partir
des données, sans se soucier de la valeur inconnue de φ.
Malheureusement, les équations de vraisemblance du système (3.6) ne possèdent, en général,
pas de solution explicite et doivent, de ce fait, être résolues numériquement. On peut utiliser la
DOUANLA Frédéric Hermann ©2014
40
Memoire de Master de Statistique Appliquée, UYI-ENSP
3.1. MODÈLES LINÉAIRES GÉNÉRALISÉS POUR DES DONNÉES LONGITUDINALES
méthode de Newton-Raphson. Pour cette raison, on définit la matrice Hessienne (Hindep (β)),
∂ 2 L(β)
de dimension (p + 1) × (p + 1) dont l’élément (t, k) est défini par ∂β
.
k ∂βt
***Algorithme de Newton-Raphson
La procédure itérative de Newton-Raphson pour obtenir une estimation par maximum de
vraisemblance β̂ de β est alors la suivante :
1. on se donne une valeur initiale β̂ (0) de β̂;
2. on définit la (r + 1)ème valeur approchée β̂ (r+1) de β̂ à partir de la rème β̂ (r) par
−1
β̂ (r+1) = β̂ (r) − Hindep
β̂ (r) Uindep β̂ (r) .
3. on répète la deuxième étape jusqu’à obtenir β̂ (r) − β̂ (r+1) < β̂ (r) , où est la précision
visée sur le résultat (exemple = 10−6 ).
Au sortir, on obtient une estimation de β donnée par β̂ = dernier β̂ (r) , d’où pour
i = 1, ..., n, j = 1, ..., ni , une estimation de µij , est donnée par µ̂ij = exp Xijt β ; et une
estimation de chaque θij est donnée par θ̂ij = g (µ̂ij ) .
3.1.6
Intervalles de confiance pour les paramètres (Méthode de Wald)
Grâce à l’approximation normale pour β̂
de (3.6) ) en tant qu’estimateur du
(solution
maximum de vraisemblance de β, i.e. β̂ ≈ N β, V̂ ; on a
"
#
β̂k − βk
P −z1− α2 ≤ √
≤ z1− α2 ≈ 1 − α ,
vkk
d’où l’intervalle de confiance au niveau de confiance 1 − α pour βj est donné par
h
√ i
β̂k ± z1− α2 vkk
où vkk , élément diagonal (k, k) de V̂ , correspond à la variance estimée de β̂k et z1− α2 représente
le quantile d’ordre 1 − α2 de la loi normale centrée réduite.
***Test sur la valeur de β̂k
H1 : βk =
6 βk0 ou
Pour tester l’hypothèse de la forme H0 : βk = βk0 , vs H1 : βk < βk0 ou ,
H1 : βk > βk0
on procède comme suit :
• choisir le niveau du risque α ∈ ]0; 1[ ;
• calculer sous H0 la valeur de la statistique du test Z0 =
β̂k −βk0
√
;
vkk
• calculer le degré de signification du test

 2P [N (0, 1) ≥ |Z0 |] si H1 : βk 6= βk0
P [N (0, 1) ≤ Z0 ] si H1 : βk < βk0 ;
p − value =

P [N (0, 1) ≥ Z0 ] si H1 : βk > βk0 .
DOUANLA Frédéric Hermann ©2014
41
Memoire de Master de Statistique Appliquée, UYI-ENSP
3.2. UN EXEMPLE DE GLM : LA RÉGRESSION DE POISSON LONGITUDINALE
p − value < α =⇒ Rejet de H0 ;
• conclure le test : si .
p − value ≥ α =⇒ Non rejet de H0 .
3.1.7
Validation du modèle (statistique de Pearson)
Une analyse des résidus permet de découvrir d’où provient l’écart éventuel entre le modèle
et les observations, afin d’améliorer le modèle initial si nécessaire. Les résidus de Pearson sont
définis par
Yij − µ̂ij
r̂ij = r .
b00 θ̂ij
(3.7)
pour i = 1, ..., n, j = 1, ..., ni .
La validation du modèle se fait à partir de la statistique du χ2 de Pearson, notée X 2 . Le
2
X de Pearson correspond à la somme des carrés des écarts à la moyenne. Elle est donnée par
2
X =
ni
n X
X
(r̂ij )2 .
i=1 j=1
Posons N =
n
P
ni , le nombre total d’observations dans l’échantillon, et p le nombre de
i=1
paramètres du modèle. Comme mentionné par [13], si le modèle utilisé ajuste bien les données,
alors cette statistique devrait suivre approximativement une loi du χ2 à N − p − 1 degrés de
liberté.
***Estimation du paramètre de dispersion φ
Une estimation du paramètre de dispersion φ est donnée par
n
n
i
1 XX
X2
(r̂ij )2 .
=
φ̂ =
N −p
N − p i=1 j=1
(3.8)
h i
Considérons â, b̂ , un intervalle de confiance (à 95% par exemple) pour φ.
• si â > 1, alors les données présentent une sur dispersion ;
h i
• si 1 ∈ â, b̂ , alors les données sont équidispersées (ceci traduit l’homogénéité du portefeuille par rapport au risque).
• si b̂ < 1, alors les données présentent une sous dispersion.
3.2
Un exemple de GLM : La régression de Poisson longitudinale
Dans la modélisation d’un processus de comptage, le modèle de Poisson est couramment mis
en œuvre. En effet, dans beaucoup de situations concrètes, la loi de Poisson s’avère appropriée
pour modéliser le nombre d’occurrences d’un événement donné dans une période de temps
fixée. Dans notre étude, il est question de la fréquence des sinistres sur un an. Mais vu que nous
disposons des données de panel, nous considérerons la régression de Poisson longitudinale.
DOUANLA Frédéric Hermann ©2014
42
Memoire de Master de Statistique Appliquée, UYI-ENSP
3.2. UN EXEMPLE DE GLM : LA RÉGRESSION DE POISSON LONGITUDINALE
3.2.1
Hypothèse du modèle
Dans le Tableau (3.1), l’on note que le paramètre de dispersion de la loi de Poisson vaut
φ = 1. Ainsi, le modèle de Poisson serait validé pour la modélisation de la fréquence des sinistres
sur nos données d’études si le φ̂ estimé n’est pas significativement différent de 1.
Prise en compte d’une éventuelle surdispersion : En cas de surdispersion, une modélisation par une loi quasi Poisson serait plus adaptée (comme cela est mentionné par exemple
dans [12]). Notons que la simulation de la loi quasiPoisson se fait en utilisant une approximation
par une loi binomiale négative BN (r,p).
3.2.2
Écriture du modèle et interprétation des paramétres
La fonction de lien canonique pour la loi de Poisson est la fonction logarithme1 , et on a :
ln µij = Xijt β = ηij ⇐⇒ µij = exp (ηij ) .
Concrètement, le modèle log-Poisson longitudinal s’écrit
t
µij = E (Yij |Xij ) = eXij β = e{β0 +β1 xij1 +···+βp xijp } .
Supposons que l’on dispose d’une estimation β̂ = β̂0 , ..., β̂p du paramètre inconu β. Alors β̂0
estime le logarithme naturel de l’espérance de la variable d’intérêt lorsque les p variables exogènes prennent simultanément la valeur nulle. En effet, dans ce cas, on a :
E (Yij |Xij = 0) = eβ̂0 , etdonc β̂0 = ln (E (Yij |Xij = 0)) .
Pour le paramètre β̂l , l ∈ {1, ..., p} , si l’on augmente xijl d’une unité, toutes choses égales
par ailleurs, la valeur moyenne de Yij est multipliée par eβ̂l .
3.2.3
Estimation du paramètre β
Puisque Yij |Xij
P oisson (µij ), sa fonction de probabilité est donnée par :
y
µijij
f (yij |xij ) = exp {−µij }
= exp {yij ln (µij ) − µij − ln (yij !)} , yij ∈ N.
yij !
(3.9)
En posant
θij = ln (µij ) , φ = 1, b (θij ) = exp {θij } = µij et c (yij , φ) = − ln (yij !) ,
cette fonction se met sous la forme (3.3).
Par conséquent, ceci est un cas particulier de loi faisant partie de la famille exponentielle linéaire.
Ainsi, tout ce qui a été dit dans la section 3.1 pour l’estimation des paramètres dans un GLM
longitudinal sous l’hypothèse d’indépendance s’applique ici. Il en sest de même de l’estimation
de paramétres par GEE lorsque cette hypothèse est douteuse pour les données disponibles, et
qui va faire l’objet de la section 3.3 ci-après (Cf. Annexe A2 pour l’obtention de la matrice
gradient et Hessienne).
1
Il est souvent d’usage d’utiliser la fonction de lien logarithmique puisqu’elle présente l’avantage de donner
un modèle multiplicatif, et les coefficients βj ont alors une interprétation en termes d’effet multiplicateur.
DOUANLA Frédéric Hermann ©2014
43
Memoire de Master de Statistique Appliquée, UYI-ENSP
3.3. ESTIMATION DES PARAMÈTRES À L’AIDE DE LA TECHNIQUE GEE
3.3
Estimation des paramètres à l’aide de la technique
GEE
Comme nous l’avons mentionné en introduction, les observations Yi1 , ..., Yini réalisées sur
un même assuré i au cours de ni années sont sans doute dépendantes. Dans cette section, il est
question de prendre en compte cette dépendance.
3.3.1
Prise en compte de l’aspect sériel
Notons que dans le cadre de l’indépendance sérielle du modèle GLM, on avait, compte
tenu de (3.2) et (3.3),
V ar [Yij |Xij ] = b00 (µij ) φ,
(3.10)
avec les variables aléatoires Yij |Xij indépendantes (i = 1, ..., n, j = 1, ..., ni ). Ainsi, la matrice
de variance covariance conditionnelle du vecteur aléatoire Yi |Xi dans ce cadre là est donnée
par
Mi = M atcov (Yi |Xi ) = φAi avec Ai = Diag {b00 (µij ) , j = 1, ..., ni } .
(3.11)
Cette matrice ne rend donc compte de la dépendance sérielle présente dans les données. Si l’on
fait apparaître explicitement la matrice Mi dans (3.6), on obtient
n
X
Dit Mi−1 [Yi − µi (β)] = [0](p+1)×1 ,
(3.12)
i=1
où Di = Ai 4i Xi .
Le principe des GEE consiste à substituer à Mi dans (3.12), un candidat Vi qui prendra
en compte la surdispersion et la corrélation temporelle entre les données. Une estimation de la
matrice de covariance Mi de Yi |Xi est cherchée sous la forme :
1
1
Vi = φAi2 Ri (α) Ai2 ,
où la matrice de corrélation Ri (α) , appelée working correlation matrix, rend compte de la
dépendance sérielle existant entre les composantes de Yi , et dépend d’un certain nombre de
paramètres α. Ainsi, l’on retiendra comme estimateur de β, la solution de :
n
X
Dit Vi−1 [Yi − µi (β)] = [0](p+1)×1 ,
(3.13)
i=1
appelées équations d’estimation généralisées (ou GEE : Generalized Estimating Equations).
Les estimateurs obtenus sont convergents, quel que soit le choix de la matrice Ri (α) [19].
Remarquons que si l’on pose Ri (α) = Ini ×ni , alors l’équation (3.13) se simplifie à l’équation
(3.12). Avant de présenter l’algorithme d’obtention des estimations des solutions de l’équation
(3.13), illustrons quelques choix possibles pour la matrice de corrélation Ri (α).
3.3.2
Spécification et estimation de la "working correlation matrix"
Comme mentionné ci-dessus, c’est la matrice de corrélation Ri (α) , de dimension ni × ni ,
qui tient compte de la dépendance entre les observations relatives à un même assuré. Nous
présentons ici les formes les plus communes pour Ri (α) . Toutefois, une liste plus exhaustive
de formes possibles pour Ri (α) est donnée dans le livre de [10]
DOUANLA Frédéric Hermann ©2014
44
Memoire de Master de Statistique Appliquée, UYI-ENSP
3.3. ESTIMATION DES PARAMÈTRES À L’AIDE DE LA TECHNIQUE GEE
3.3.2.1
Structure d’équicorrélation
Hypothèse :
0
∀i = 1, ..., n, ∀ j, j = 1, ..., ni , corr (Yij , Yij 0 ) =
où α est une constante dans ]−1, 1[ ; d’où, ∀ i = 1, ..., n :

1 α α ···
 α 1 α ···


Ri (α) =  α α 1 · · ·
 . . . .
 .. .. .. . .
α α α ···
α
α
..
.
..
.
1
1 si j = j 0
,
α si j 6= j 0




.


Ce type de corrélation est appelé corrélation échangeable. Cette hypothèse est généralement
appropriée pour des ensembles de données dans lesquelles les mesures répétées n’ont aucune
dépendance temporelle. S’il y a peu d’assurés et beaucoup d’observations par assuré, une telle
matrice de corrélation serait appropriée.
Pour cette structure, il n’y a qu’un seul paramètre (α) à estimer. Pour ce faire, les résidus
de Pearson sont estimés selon (3.7), et l’estimateur de α utilisant ces résidus est donné par
 ni ni

ni
P
P P
2
r̂iu r̂iv −
{r̂iu } 
n
1 X
u=1
u=1 v=1

.
(3.14)
α̂ =


n
(n
−
1)
i
i
φ̂ i=1
où φ̂ est donné par (3.8).
3.3.2.2
Structure de corrélation auto-régressive d’ordre 1 (AR(1))
Hypothèse :
0
∀i = 1, ..., n, ∀ j, j = 1, ..., ni , corr (Yij , Yij 0 ) =
1 si j = j 0
,
0
α|j −j| si j 6= j 0
où α est une constante dans ]−1, 1[ ; d’où, ∀ i = 1, ..., n :

1
α
α2 · · · αni −1
 α
1
α
· · · αni −2

2

α
1
· · · αni −3
Ri (α) =  α
 ..
..
..
..
...
 .
.
.
.
ni −1
ni −2
ni −3
α
α
α
···
1




.


Comme |α| < 1, cette structure implique que la corrélation diminue lorsque l’écart de temps
|j − j| entre deux observations Yij et Yij 0 augmente. Ce type de corrélation est indiqué pour
des données dans lesquelles les mesures répétées ont une dépendance temporelle, j dénotant
l’ordre (chronologique) dans lequel les mesures ont été prises. Comme dans la structure de
corrélation échangeable, on utilise les résidus de Pearson de l’ajustement du modèle pour estimer
les corrélations. L’estimateur de α utilisant ces résidus est :
0
α̂ =
1
ni
n X
X
(K1 − p) φ̂
i=1 j=1
DOUANLA Frédéric Hermann ©2014
45
Memoire de Master de Statistique Appliquée, UYI-ENSP
r̂i,j r̂i,j+1 ,
(3.15)
3.3. ESTIMATION DES PARAMÈTRES À L’AIDE DE LA TECHNIQUE GEE
où K1 =
n
P
(ni − 1) et φ̂ est donné par (3.8).
i=1
3.3.2.3
Corrélation non structurée
Ici, aucune structure particulière n’est imposée à la matrice Ri (α) . Elle est la plus générale
des structures de corrélation discutées, avec 21 ni (ni − 1) paramètres à estimer. On pose ainsi :
1 si j = j 0
0
;
∀i = 1, ..., n, ∀ j, j = 1, ..., ni , corr (Yij , Yij 0 ) =
αj,j 0 si j 6= j 0
d’où, ∀ i = 1, ..., n :

1

 α
Ri (α) =  1,2
 ...
α1ni
α1,2
1
..
.
···
···
...
..
.
αni −1,ni
α1,ni
..
.
αni −1,ni
1



 , avecα = (αij )1≤i≤ni −1,

i+1≤j≤ni
Ce type de matrice de corrélation est convenable lorsque l’on dispose de plusieurs assurés,
mais de peu d’observations par assuré.
Dans ce cadre, on utilise également les estimés des résidus de Pearson de l’ajustement du modèle
pour faire les corrélations. L’estimateur de Ri (α) utilisant ces résidus est :
n
P
R̂i (α) =
i=1
ni
n P
P
i=1 j=1
ni
{r̂ij }2
ni
(3.16)
Gi ,
où

2
g11 r̂i1

 g r̂ r̂
Gi =  21 .i2 i1
..

g12 r̂i1 r̂i2
2
g22 r̂i2
..
.
· · · g1ni r̂i1 r̂ini
..
. g2ni r̂i2 r̂ini
..
...
.
gni 1 r̂ini r̂i1 gni 2 r̂ini r̂i2 · · ·
avec guv



,

2
gni ni r̂in
i
−1
=
I (i, u, v)
, et on définit :
i=1
1 si le panel i a des observations aux indices u et v
I (i, u, v) =
.
0 sinon.
n
P
Malheureusement, la matrice de corrélation ainsi estimée n’est pas nécessairement inversible
et des problèmes numériques peuvent survenir ; particulièrement pour des ensembles de données
non équilibrées, c’est-à-dire le cas où on n’a pas le même nombre d’observations par panel ou
lorsqu’on a des données manquantes.
DOUANLA Frédéric Hermann ©2014
46
Memoire de Master de Statistique Appliquée, UYI-ENSP
3.4. QUANTIFICATION DE L’INCERTITUDE DANS LE MODÈLE : MÉTHODE
"BOOTSTRAP"
3.3.3
Obtention des estimations
L’équation (3.13) est généralement résolue à l’aide d’une méthode du score de Fisher
modifiée pour estimer β, ainsi qu’une estimation des moments pour α (voir [14]). L’algorithme
est le suivant :
1. Partir d’une valeur initiale β̂ 0 , solution du système (3.6) sous l’indépendance ;
2. A partir de l’estimation de β, estimer φ selon (3.8) et α selon (3.14) ou (3.15), et obtenir une
estimation Ri (α̂) de la matrice de corrélation Ri (α) de la forme supposée au préalable ;
3. Obtenir β̂ (k+1) à partir de β̂ (k) par :
n
P t (k) −1 (k) (k) (k) −1
(k+1)
(k)
Di β̂
×
β̂ , α β̂
Vi
β̂
= β̂ +
Di β̂
i=1
n
P
,
Dit β̂ (k) Vi−1 β̂ (k) , α β̂ (k) Si β̂ (k)
i=1
où Di (β) = Ai 4i Xi =
1
∂ηi
,
∂β
1
Vi (β, α (β)) = φ (β) Ai2 Ri (α (β)) Ai2 et S (β) = Yi −µi (β) ;
(k)
(k) (k+1) 4. Itérer les étapes 2 et 3 jusqu’à obtenir β̂ − β̂
< β̂ , où est la précision visée
sur le résultat (exemple = 10−6 ).
5. Prendre comme β̂, le dernier β̂ (k) .
On obtient ainsi une estimation de β qui tient compte des corrélations existant entre les
données.
Si la matrice de corrélation Ri (α) choisie est la vraie structure de corrélation pour Yi , alors
la variance de l’estimateur β̂ de β sera estimée par :
!−1
n
X
t −1
V̂T =
Di Vi Di
α=α̂,φ=φ̂,β=β̂ .
i=1
Mais comme la matrice Ri (α) choisie est probablement fausse, alors on estime la variance
de β̂ par un estimateur de matrice de variance sandwich robuste :
!
n
X
V̂S = V̂T
Dit Vi−1 S (β) S t (β) Vi−1 Di α=α̂,φ=φ̂,β=β̂ V̂T ;
(3.17)
i=1
où S (β) = Yi − µi (β) .
Le terme sandwich vient du fait que dans l’expression (3.17), une correction empirique est
prise en ’sandwich’ entre deux estimateurs de variance basés sur le modèle de travail (voir [8]).
3.4
Quantification de l’incertitude dans le modèle : Méthode "bootstrap"
Etant donné la disponibilité d’outils statistiques pour l’estimation du taux de prime à partir
de notre échantillon d’étude (à savoir le modèle de régression de Poisson longitudinale pour la
DOUANLA Frédéric Hermann ©2014
47
Memoire de Master de Statistique Appliquée, UYI-ENSP
3.4. QUANTIFICATION DE L’INCERTITUDE DANS LE MODÈLE : MÉTHODE
"BOOTSTRAP"
fréquence des sinistres, et la moyenne empirique2 pour l’estimation du coût relatif moyen), il
revient de quantifier l’incertitude dans cette estimation. En effet, il est question d’avoir une
mesure de la dispersion du "vrai" taux de prime pure autour de la valeur estimée. Ceci amène
à explorer la méthodologie de rééchantillonnage bootstrap qui permet d’obtenir les variantes
possibles de notre échantillon, afin d’estimer toute caractéristique d’intérêt de notre taux de
prime estimé.
3.4.1
Principe de la méthode du bootstrap
La méthode du bootstrap, inventée en 1979 par Efron, est très pratique car elle permet de
s’affranchir d’hypothèses parfois contraignantes sur une famille de lois de probabilité.
Soit X, une variable aléatoire de fonction de répartition F . Supposons que l’on dispose d’un
n-échantillon X = (X1 , ..., Xn ) suivant cette loi. On cherche à étudier le comportement de la
fonction T (X1 , ..., Xn ) dépendant des observations.
L’algorithme du bootstrap est le suivant :
1. À partir de X = {X1 , ..., Xn } , on calcule la fonction de répartition empirique Fn , définie
par
n
1X
Fn (x) =
I[X ≤x] ;
n k=1 k
2. Conditionnellement à Fn , on procède, dans X, à N tirages équiprobables avec remise :
X ∗ = {X1∗ , ..., XN∗ } est alors le nouvel échantillon3 ;
3. On définit la statistique bootstrapée T ∗ = T (X1∗ , ..., XN∗ , Fn ) .
On répète alors B fois les étapes 2 et 3, en générant B échantillons X ∗1 , ..., X ∗B , et on observe
alors B valeurs T1∗ , ..., TB∗ de T appelées échantillon bootstrap que l’on peut utiliser pour estimer
toute caractéristique d’intérêt de T. Ainsi, on peut estimer :
• la moyenne de T par m̂ =
• la variance de T par σ̂B2 =
1
B
B
P
Tj∗ ;
j=1
1
B−1
B
P
2
Tj∗ − m̂ .
j=1
Lorsque θ̂ = T (X1 , ..., Xn ) est un estimateur d’un paramètre réel θ, alors on peut estimer :
• le biais de θ̂ par b̂B = m̂− θ̂obs , où θ̂obs = T (x1 , ..., xn ) , valeur observée ;
2
\
• l’erreur quadratique moyenne (la MISE) de θ̂ par M
ISE B = σ̂B2 + b̂B ;
2
Soient X1 , X2 , ..., Xn , un échantillon de variables aléatoires réelles i.i.d.
On appelle moyenne de l’échantillon ou moyenne empirique, la statistique notée X, définie par
n
Xn =
1X
Xi .
n i=1
3
[7] suggéraient de prendre N = n ; toutefois, de meilleurs résultats peuvent être obtenus en souséchantillonnant, et en effectuant des tirages sans remise.
DOUANLA Frédéric Hermann ©2014
48
Memoire de Master de Statistique Appliquée, UYI-ENSP
3.4. QUANTIFICATION DE L’INCERTITUDE DANS LE MODÈLE : MÉTHODE
"BOOTSTRAP"
• un intervalle de confiance de niveau approximatif 1 − α pour θ est donné par
h α
α i
t∗
; t∗ 1 −
,
2
2
où, ∀β ∈ ]0; 1[ , t∗ (β) est le β−quantile empirique de l’échantillon des Tj∗ , (j = 1, ..., B) ,
obtenu par
1
card j = 1, ..., B / t∗j ≤ t∗ (β) ≈ β,
B
d’où t∗ (β) est une estimation du β-quantile de la variable aléatoire réelle θ̂ (méthode du
percentile).
3.4.2
Bootstrap et échantillons corrélés.
Cette partie repose sur une idée développée par [17] et déjà utilisée dans [13].
Tel que présenté, l’échantillonnage bootstrap peut donner des résultats "faux" lorsque les
données ne sont pas indépendantes. En effet, en présence de données longitudinales, un rééchantillonnage bootstrap classique ne convient pas a priori pour reproduire le processus de
production de ces données.
Ici, il est question, en présence de données longitudinales, d’identifier un phénomène lié
aux données qui a été observé de façon i.i.d. Ceci est justifié par le fait que l’idée générale
du bootstrap est de tenter un rééchantillonnage dans les données initiales, tout en essayant de
mimer au plus près le processus ayant produit ces données. Sur cette base, on peut envisager
un rééchantillonnage bootstrap tel que présenté ci-dessus.
En ce qui concerne le tableau de données longitidunales, l’échantillon des individus (dans
notre cas, les véhicules), pris deux à deux distincts, a été observé de façon i.i.d. Ainsi, une
démarche bootstrap appropriée peut se présenter comme il suit :
1. Extraire des données initiales, à partir de la colonne des identifiants, le vecteur V des identifiants deux à deux distincts des assurés. Noter nv sa taille.
2. Faire un tirage équiprobable, avec remise, d’un échantillon V ∗ de taille nv dans V ;
3. Pour j = 1, ..., nv , considérer que l’assuré identifié par la j ème composante V ∗ [j] de V ∗ dans
le tableau initial est, en fait, identifié par j dans le tableau bootstrap.
Ainsi, pour construire une copie bootstrap des données initiales, on procède de la façon
suivante :
Pour j = 1, ..., nv ,
3.1) Inclure dans le tableau bootstrap, et dans le même ordre, toutes les lignes du tableau
initial ayant V ∗ [j] comme identifiant ;
3.2) Identifier toutes ces lignes par j dans le tableau bootstrap.
La particularité ici est que, de prime abord, l’échantillon bootstrap construit n’aura pas le
même nombre de lignes que le jeu de données initiales. Toutefois, la taille des assurés reste la
même.
DOUANLA Frédéric Hermann ©2014
49
Memoire de Master de Statistique Appliquée, UYI-ENSP
Chapitre Quatre
APPLICATION AUX DONNÉES
Ce chapitre présente l’application des outils statistiques aux données d’études. Il s’agit
dans un premier temps de présenter, pour une garantie donnée, la procédure de modélisation
de la fréquence des sinistres, l’estimation du coût relatif moyen des sinistres et l’estimation du
taux de prime. Ensuite, une analyse comparative est faite entre les taux de prime estimés et
ceux du tarifaire actuel de la SAAR. Enfin, des discussions sont faites relativement à l’erreur
d’estimation.
4.1
Estimation des taux de prime en adéquation avec la
sinistralité actuelle.
Dans cette section, nous estimons les différents taux de prime par garantie dommage qui
sont en adéquation avec la sinistralité actuelle du portefeuille de la compagnie. Ce taux de
prime qui correspond à l’importance du risque à garantir est déterminé selon la formule :
Taux de prime = Fréquence × Coût relatif moyen des sinistres .
Nous avons décelé, d’une part, que les variables GARANTIE, PROPRIETAIRE, USAGE
ainsi que la variable AGES.VEH.G ont une influence significative sur la fréquence des sinistres.
D’autre part, le coût relatif moyen des sinistres diffère significativement selon la garantie souscrite de même que la catégorie d’usage du véhicule.
4.1.1
Modélisation de la fréquence des sinistres.
Comme mentionné au chapitre précédent, il s’agit ici de la modélisation d’un processus de
comptage. Cependant, dans beaucoup de situations concrètes, la loi de Poisson s’avère appropriée pour modéliser le nombre d’occurrences d’un événement donné dans une période de temps
fixé. Dans notre étude, il est question de la fréquence des sinistres sur un an. Mais vu que nous
disposons des données longitudinales, nous considérerons la régression de Poisson longitudinale,
cas particulier de modèles GLM présentés au chapitre précédent.
On considère que les variables Yij |Xij
P oisson (µij ) , avec Yij |Xij dépendantes pour i =
1, ..., n, j = 1, ..., ni , où :
• Yi,j , j = 1, ..., ni représente le nombre de sinistres subis sur la j ème année par l’assuré i ;
• Xij = (xij1 , ..., xijp ) représente la valeur des variables exogènes pour l’observation j de
l’assuré i.
Les variables que nous avons retenues pour expliquer la fréquence des sinistres sont : la
catégorie d’usage (à 7 modalités), la strate d’âge du véhicule (à 2 modalités), ainsi que le
DOUANLA Frédéric Hermann ©2014
50
Memoire de Master de Statistique Appliquée, UYI-ENSP
4.1. ESTIMATION DES TAUX DE PRIME EN ADÉQUATION AVEC LA SINISTRALITÉ
ACTUELLE.
fait d’être propriétaire ou non du véhicule assuré. Notons que c’est la variable ANNEE qui
permettra d’estimer les différentes corrélations existantes entre observations.
Le modèle log-Poisson longitudinale pour l’estimation de la fréquence µi des sinistres pour
un individu i s’écrit alors :
log ( µi ) = β0 +
6
P
βk 1U SAGEi =k+1 + β7 1P ROP RIET AIREi =OU I + β8 1AGE.V EHi =2
k=1
+
+
14
P
βk 1U SAGEi =k−7 × 1P ROP RIET AIREi =OU I
k=9
20
P
(4.1)
βk 1U SAGEi =k−13 × 1AGE.V EHi =2
k=15
+β21 1P ROP RIET AIREi =OU I × 1AGE.V EHi =2
Il est question de présenter le processus d’estimation des taux de prime des différentes classes
de risque pour une garantie Dommage (INCENDIE). La même procédure s’adaptera pour les
autres garanties. Notons que l’analyse se fera avec le logiciel statistique R 2.15.1 en utilisant
la fonction geeglm du package geepack (Cf. [11])
DOUANLA Frédéric Hermann ©2014
51
Memoire de Master de Statistique Appliquée, UYI-ENSP
Parameter
Intercept
USAGECAT2
USAGECAT3
USAGECAT4
USAGECAT5
USAGECAT8G
USAGECAT9
PROPRIETAIREO
AGE.VEHG2
USAGECAT2 :PROPRIETAIREO
USAGECAT3 :PROPRIETAIREO
USAGECAT4 :PROPRIETAIREO
USAGECAT5 :PROPRIETAIREO
USAGECAT8G :PROPRIETAIREO
USAGECAT9 :PROPRIETAIREO
USAGECAT2 :AGE.VEH.G2
USAGECAT3 :AGE.VEH.G2
USAGECAT4 :AGE.VEH.G2
USAGECAT5 :AGE.VEH.G2
USAGECAT8G :AGE.VEH.G2
USAGECAT9 :AGE.VEH.G2
PROPRIETAIREO :AGE.VEH.G2
Estimate "Wald 95% Conf Limit"
-3.2518
[-3.46 , -3.04 ]
0.5790
[0.318 , 0.840 ]
-0.9516
[-1.469 , -0.434]
0.1688
[-0.544 , 0.882]
-1.7417
[-2.48 , -1.01]
-0.2352
[-0.60 , 0.129 ]
-2.1839
[-3.34 , -1.03]
0.3769
[0.04 , 0.71 ]
0.1772
[-0.09 , 0.44]
-0.2883
[-0.75 , 0.17]
1.4679
[0.89 , 2.03]
0.7629
[-0.18 , 1.71]
2.3176
[1.13 , 3.51]
0.9506
[0.32 , 1.58]
2.1318
[0.92 , 3.33]
-0.6076
[-0.98 , -0.23]
-0.4916
[-1.10 , 0.12]
-0.1835
[-1.19 , 0.82]
-0.9445
[-2.36 , 0.47]
0.4393
[-0.25 , 1.14]
-0.0209
[-1.30 , 1.26]
-0.7207
[-1.10 , -0.34]
Std.err
0.1075
0.1330
0.2639
0.3637
0.3751
0.1859
0.5890
0.1718
0.1368
0.2378
0.2905
0.4843
0.6066
0.3228
0.6146
0.1930
0.3122
0.5137
0.7253
0.3560
0.6518
0.1943
Wald
915.49
18.95
13.00
0.22
21.55
1.60
13.75
4.81
1.68
1.47
25.53
2.48
14.60
8.67
12.03
9.91
2.48
0.13
1.70
1.52
0.00
13.76
Pr(>|W|)
<2e-16***
1.3e-05***
0.00031***
0.64250
3.4e-06***
0.20586
0.00021***
0.02821*
0.19516
0.22534
4.3e-07***
0.11523
0.00013***
0.00323**
0.00052***
0.00164**
0.11528
0.72089
0.19282
0.21716
0.97447
0.00021***
4.1. ESTIMATION DES TAUX DE PRIME EN ADÉQUATION AVEC LA SINISTRALITÉ
ACTUELLE.
Table 4.1 – Résultat de la régression de Poisson avec approche GEE et structure de dépendance
AR(1)
Le Tableau 4.1 nous donne l’ajustement du modèle (4.1) incluant toutes les interactions
possibles entre variables explicatives. Les estimations ponctuelles des βk sont fournies dans
la deuxième colonne du Tableau 4.1. La colonne "Wald 95% Conf Limit" donne les bornes
inférieure et supérieure des intervalles de confiance pour les paramètres au niveau 95%, calculées
à l’aide de la formule
Coef f βk ± 1.96 Std.errβk ,
DOUANLA Frédéric Hermann ©2014
52
Memoire de Master de Statistique Appliquée, UYI-ENSP
4.1. ESTIMATION DES TAUX DE PRIME EN ADÉQUATION AVEC LA SINISTRALITÉ
ACTUELLE.
où 1.96 est le quantile d’ordre 97.5% de la loi normale centrée réduite et Std.errβk est la
racine du j ème élément diagonal de la matrice de variance-covariance estimée de β̂, donné à la
troisième colonne.
Les colonnes "Wald" et "pr (> |W |) ", qui est la p-valeur associée, permettent de tester si
le coefficient βk correspondant est significativement différent de 0. Ce test est effectué grâce à
la statistique de W ald
(Coef βk )2
,
(Std.errβk )2
qui obéit approximativement à une loi du χ2 à 1 degré de liberté. On rejettera la nullité de βk
lorsque la p − valeur est inférieure à 5%.
Variables
Df
USAGE
6
PROPRIETAIRE
1
AGE.VEH.G
1
USAGE :PROPRIETAIRE
6
USAGE :AGE.VEH.G
6
PROPRIETAIRE :AGE.VEH.G 1
X2 P(>|Chi|)
37.1 1.6e-06***
5.6
0.01787*
19.6 9.7e-06***
74.2 5.5e-14***
12.7 0.04780*
13.8 0.00021***
Table 4.2 – Résultats de l’analyse pour le modèle de base avec approche GEE et structure de
dépendance AR(1).
Le Tableau 4.2 nous donne les résultats de l’examen de chacune des variables par rapport
à un modèle ne la contenant pas. Dans la colonne ”X2” est calculée, pour chaque variable,
2 fois la différence entre la log-vraisemblance obtenue pour le modèle contenant toutes les
variables et la log-vraisemblance du modèle sans la variable en question. Cette statistique est
asymptotiquement distribuée comme un χ2 avec Df degrés de liberté. La dernière colonne nous
fournit la p − valeur associée au test du rapport de vraisemblance ; cela permet d’apprécier la
contribution de cette variable explicative à la modélisation.
On commence par éliminer le croisement entre USAGE et AGE.VEH.G jugé le moins
significatif. Le modèle suivant (résultats non donnés) continue à donner une p − valeur élevée
pour la variable PROPRIETAIRE qui a été exclue. Les résultats du modèle final tenant
compte de toutes ces modifications est repris aux Tableaux 4.3 et 4.4.
DOUANLA Frédéric Hermann ©2014
53
Memoire de Master de Statistique Appliquée, UYI-ENSP
Parameter
Intercept
USAGECAT 2
USAGECAT 3
USAGECAT 4
USAGECAT 5
USAGECAT 8G
USAGECAT 9
AGE.VEH. G2
PROPRIETAIRE O
USAGECAT 2 :PROPRIETAIREO
USAGECAT 3 :PROPRIETAIREO
USAGECAT 4 :PROPRIETAIREO
USAGECAT 5 :PROPRIETAIREO
USAGECAT8G :PROPRIETAIREO
USAGECAT9 :PROPRIETAIREO
AGE.VEH.G2 :PROPRIETAIREO
Estimate "Wald 95% Conf Limit"
-3.08
[-3.22 , -2.94]
0.258
[0.10 , 0.41]
-1.29
[-1.73 , -0.84]
6.11e-02
[-0.52 , 0.65]
-1.18e+05 [-1.2e+06 , 9.72e+05]
-0.622
[-0.93 , -0.31]
-10.6
[-12.90 , -8.23]
-0.164
[-0.31 , -0.01]
-0.187
[-0.45 , 0.07]
-0.514
[-0.90, -0.12]
2.03
[1.49 , 2.58]
1.15
[0.36 , 1.92]
1.18e+05 [-9.7 e+05 , 1.2 e+06]
1.29
[0.58 , 1.99]
9.84
[7.0 , 12.7]
-1.16
[-1.47 , -0.85]
Std.err
Wald
Pr(>|W|)
7.20e-02 1825.38 <2e-16***
8.02e-02
10.32
0.00131**
0.225
32.96
9.4e-09***
0.301
0.04
0.83935
5.58e+05
0.04
0.83296
0.157
15.75
7.2e-05***
1.19
78.71
<2e-16***
7.69e-02
4.53
0.03336*
0.135
1.91
0.16690
0.201
6.55
0.01048*
0.278
53.64
2.4e-13***
0.399
8.26
0.00406**
5.58e+05
0.04
0.83296
0.359
12.96 0.00032***
1.45
46.11
1.1e-11***
0.158
54.33
1.7e-13***
4.1. ESTIMATION DES TAUX DE PRIME EN ADÉQUATION AVEC LA SINISTRALITÉ
ACTUELLE.
Table 4.3 – Ajustement du modèle de régression de Poisson, modèle final.
Définitivement, le modèle retenu pour la modèlisation de fréquence des sinistres en garantie
INCENDIE est le suivant :
DOUANLA Frédéric Hermann ©2014
54
Memoire de Master de Statistique Appliquée, UYI-ENSP
4.1. ESTIMATION DES TAUX DE PRIME EN ADÉQUATION AVEC LA SINISTRALITÉ
ACTUELLE.
Variables
Df
USAGE
6
AGE.VEH.G
1
PROPRIETAIRE
1
USAGE :PROPRIETAIRE
6
AGE.VEH.G :PROPRIETAIRE 1
X2
102.5
60.6
31.4
141.5
54.3
P(>|Chi|)
<2e-16***
6.9e-15***
2.1e-08***
<2e-16***
1.7e-13***
Table 4.4 – Statistiques du rapport de vraisemblance, modèle final.
log ( µ̂i ) = β̂0 + β̂1 1USAGEi =CAT.2 + β̂2 1USAGEi =CAT.3 + β̂3 1USAGEi =CAT.8G
+β̂4 1USAGEi =CAT.9 + β̂5 1AGE.VEHi =2 + β̂6 1USAGEi =CAT.2 × 1PROP.i =OUI
+β̂7 1USAGEi =CAT.3 × 1PROP.i =OUI + β̂8 1USAGEi =CAT.4 × 1PROP.i =OUI
+β̂9 1USAGEi =CAT.8G × 1PROP.i =OUI + β̂10 1USAGEi =CAT.9 × 1PROP.i =OUI
+β̂11 1AGE.VEHi =2 × 1PROP.i =OUI .
(4.2)
où PROP.=PROPRIETAIRE, avec les estimation β̂k , k = 0, 1, ..., 11; contenues dans le
Tableau 4.3.
***Validation du modèle
La validation du modèle se fait à partir de la statistique de Pearson, definie comme somme
des carrés des résidus de Pearson.
Ces résidus sont obtenus par la commande residuals(model, type="pearson") du logiciel R.
On obtient
2
Xobs
=
ni
n X
X
{r̂ij }2 = 37 841.
i=1 j=1
Si le modèle utilisé ajuste bien les données, alors, cette statistique devrait suivre approximativement une loi du χ2 à N − p − 1 = 39 916 degrés de liberté. Pour un seuil de α = 5%,
95%
le quantile d’odre 1 − α d’une loi du X 2 à 39 916 dégrés de liberté donne q39
916 = 40 382 qui
2
est supérieure à la valeur observée Xobs
de la statistique. On peut donc conclure que ce modèle
sied avec les données.
***Estimation du paramètre de Dispersion φ
Une estimation du paramètre de dispersion φ est donnée par
2
37841
Xobs
=
= 0.948,
N −p
39916
avec un écart type de Std.err = 0.153.
Notons que φ̂±1.96.Std.err est un intervalle de confiance de niveau 95% pour φ̂ car pour un
nombre élevé de degrés de liberté, la loi du X 2 peut être assimilée à une loi gaussienne. D’où un
intervalle de confiance de niveau 95% pour φ̂ égale à [0.648; 1.247] . Puisque 1 ∈ [0.648; 1.247] ,
l’on peut conclure que le paramètre de dispersion φ̂ estimé n’est pas significativement différent de 1. Par conséquent, on peut conclure que la modélisation par un modèle de Poisson
longitudinal est bien appropriée.
φ̂ =
***Estimation du paramètre de correlation α
Une estimation du paramètre de corrélation α est donnée par
DOUANLA Frédéric Hermann ©2014
55
Memoire de Master de Statistique Appliquée, UYI-ENSP
4.1. ESTIMATION DES TAUX DE PRIME EN ADÉQUATION AVEC LA SINISTRALITÉ
ACTUELLE.
α̂ =
1
ni
n X
X
(K1 − p) φ̂
i=1 j=1
r̂i,j r̂i,j+1 = 0.107,
avec un écart type de Std.err = 0.0363 d’où un intervalle de confiance de niveau 95% égal à
[0.036; 0.178] .
***Prédiction de la fréquence annuelle des sinistres
Pour l’assurén i caractérisé
par un vecteur de variables explicatives Xij , la fréquence annuelle
o
prédite est exp Xijt β̂ . Ceci sera aussi le cas pour les nouveaux assurés présentant les mêmes
caractéristiques que l’assuré i.
Le Tableau 4.5 donne la fréquence ainsi qu’un intervalle de confiance de niveau 95% de cette
fréquence estimée, des sinistres par classe de risque en ce qui concerne la Garantie Incendie.
INCENDIE
Classes de risque
Fréquences
USAGE ÂGE.VEH. PROP. Estimation
IC (95%)
CAT 1
≤ 5ans
0.0461
[0.040; 0.0529]
> 5ans
O
0.0122
[0.00669; 0.0222]
N
0.0392
[0.0292; 0.0522]
CAT 2
≤ 5ans
O
0.0357
[0.01783; 0.0710]
N
0.0597
[0.0442; 0.0801]
> 5ans
O
0.00946
[0.00299; 0.0298]
N
0.0507
[0.0323; 0.0790]
CAT 3
≤ 5ans
O
0.0972
[0.03140; 0.298]
N
0.0127
[0.00708; 0.0226]
> 5ans
O
0.0258
[0.00526; 0.125]
N
0.0108
[0.00517; 0.0223]
CAT 4
≤ 5ans
O
0.1452
[0.05756; 0.364]
N
0.0461
[0.0400; 0.0529]
> 5ans
O
0.0385
[0.01064; 0.0529]
N
0.0392
[0.0292; 0.0522]
CAT 5
0.0461
[0.040; 0.0529]
CAT 8G
≤ 5ans
O
0.0901
[0.02838; 0.284]
N
0.0248
[0.0158; 0.0386]
> 5ans
O
0.0239
[0.0158; 0.119]
N
0.0210
[0.0115; 0.0381]
CAT 9
≤ 5ans
O
0.0223
[1.09e − 04; 4.62]
N
1.19e − 06 [9.98e − 08; 1.41e − 05]
> 5ans
O
0.0059
[1.83e − 05; 1.94]
N
1.01e − 06 [7.29e − 08; 1.39e − 05]
Table 4.5 – Estimation des fréquences des différentes classes de risque pour la garantie Incendie.
DOUANLA Frédéric Hermann ©2014
56
Memoire de Master de Statistique Appliquée, UYI-ENSP
4.1. ESTIMATION DES TAUX DE PRIME EN ADÉQUATION AVEC LA SINISTRALITÉ
ACTUELLE.
4.1.2
Estimation du coût relatif moyen des sinistres.
Maintenant que nous avons une estimation de la fréquence des sinistres, il reste à estimer
le coût relatif moyen des sinistres. Nous avons vu que le coût relatif varie selon la catégorie
d’usage du véhicule et est par ailleurs donné selon la formule
COUT.SIN
.
CAPITAUX
Notons qu’ici, seules les polices sinistrées et qui ont un montant d’indemnisation non nul
permettent d’évaluer le coût relatif moyen des sinistres. Pour le faire, nous utilisons la moyenne
empirique et les intervalles de confiance de niveau 95% des différents coûts relatifs moyens
sont determinés par rééchantillonnage (méthode bootstrap). Les résultats sont présentés dans
le Tableau 4.6
COUT.RELATIF =
Coût en INCENDIE
USAGE Estimation
IC (95%)
CAT 1
0.145
[0.126; 0.163]
CAT 2
0.160
[0.139; 0.182]
CAT 3
0.040
[0.0224; 0.0643]
CAT 4
0.324
[0.210; 0.469]
CAT 5
0.19
[0.19; 0.19]
CAT 8G
0.0381
[0.0312; 0.0443]
CAT 9
0.190
[0.139; 0.282]
Table 4.6 – Estimation du coût relatif moyen selon l’usage du véhicule en garantie Incendie.
DOUANLA Frédéric Hermann ©2014
57
Memoire de Master de Statistique Appliquée, UYI-ENSP
4.1. ESTIMATION DES TAUX DE PRIME EN ADÉQUATION AVEC LA SINISTRALITÉ
ACTUELLE.
4.1.3
Estimation du taux de prime.
Nous disposons à present des estimations de la fréquence ainsi que celle du coût relatif
moyen des sinistres. Par conséquent, nous pouvons finalement estimer nos différents taux de
prime à travers l’opération :
Taux de prime = Fréquence × Coût relatif moyen des sinistres
Le tableau 4.7 donne les différents taux de prime (pour une assiette de prime de 100) de la
garantie Incendie selon les classes de risque.
Classes de risque
USAGE
ÂGE.VEH.
CAT 1
≤ 5ans
> 5ans
CAT 2
≤ 5ans
> 5ans
CAT 3
≤ 5ans
> 5ans
CAT 4
≤ 5ans
> 5ans
CAT 5
CAT 8G
≤ 5ans
> 5ans
CAT 9
≤ 5ans
> 5ans
PROP.
O
N
O
N
O
N
O
N
O
N
O
N
O
N
O
N
O
N
O
N
O
N
INCENDIE
Taux de Prime (en %)
Taux
IC (95%)
estimé
0.666
[0.611; 0.784]
0.177
[0.161; 0.210]
0.566
[0.522; 0.617]
0.569
[0.514; 0.634]
0.952
[0.854; 1.012]
0.151
[0.129; 0.167]
0.808
[0.717; 0.910]
0.385
[0.1759; 0.6843]
0.0506
[0.0212; 0.0919]
0.103
[0.0516; 0.1834]
0.0430
[0.0188; 0.0738]
4.70
[2.580; 6.41]
1.49
[1.056; 2.16]
1.25
[0.550; 1.89]
1.26
[0.735; 1.72]
0.873
[0.873; 0.876]
0.3415
[0.2820; 0.383]
0.0940
[0.0794; 0.113]
0.0909
[0.0740; 0.104]
0.0798
[0.0645; 0.096]
0.408
[0.198; 0.650]
2.18e − 05 [7.54e − 06; 3.77e − 05]
0.109
[0.0374; 0.187]
1.85e − 05 [6.40e − 06; 3.20e − 05]
Taux en
vigueur
0.25
0.25
0.25
0.25
0.25
0.25
0.25
0.30
0.30
0.30
0.30
0.40
0.40
0.40
0.40
Taux de
variation
166.4% %
29.2% &
126.4% %
127.6% %
280.8% %
39.6% &
223.2% %
28.33% %
83.13% &
65.66% &
85.66% &
1075% %
272.5% %
212.5% %
215% %
[0.30; 0.40]
[0.30; 0.40]
[0.30; 0.40]
[0.30; 0.40]
[0.25; 0.45]
[0.25; 0.45]
[0.25; 0.45]
[0.25; 0.45]
13.83% %
68.66% &
69.7% &
73.4% &
63.2% %
99.99% &
56.4% &
99.99% &
Table 4.7 – Estimation des taux de prime selon les classes de risques en garantie Incendie.
Du Tableau 4.7, on constate que, de manière générale, les taux de prime estimés sont
légèrement plus élevés pour les véhicules âgés de moins de 5 ans. Les véhicules de catégorie 1
(véhicules de tourisme), 2 (véhicules pour transport des produits de l’assuré) ainsi que ceux de
catégorie 4 (taxis de ville (4A), véhicules de transport public de voyageurs (4B) et autocars de
transport des élèves et du personnel à titre gratuit (4C)) sont particulièrement plus exposés au
risque Incendie et les taux de prime corespondants qui excèdent ceux en vigueur.
DOUANLA Frédéric Hermann ©2014
58
Memoire de Master de Statistique Appliquée, UYI-ENSP
4.1. ESTIMATION DES TAUX DE PRIME EN ADÉQUATION AVEC LA SINISTRALITÉ
ACTUELLE.
4.1.4
Estimation des taux de prime pour les autres garanties dommages
On a vu que le coût relatif diffère selon la catégorie d’usage du véhicule. Cependant, le
nombre d’observations de ce coût relatif est très faible pour certaines catégories d’usages, ce
qui ne nous permet pas d’avoir une estimation fiable du coût relatif moyen des sinistres pour
ces catégories là.
Ainsi, dans les tableaux ci-dessous, nous présentons les estimations des différents taux de
prime pour les classes de risque dans lesquelles on dispose de données permettant d’avoir des
estimations fiables. La procédure d’estimation reste la même que celle de la garantie Incendie.
4.1.4.1
DOMMAGE PAR ACCIDENT
USAGE
CAT 1
CAT 2
CAT 3
CAT 4
CAT 8G
CAT 9
DOMMAGE PAR ACCIDENT
Taux(%)
Taux en
PROP.
IC (95%)
estimé
vigueur(%)
O
0.190
[0.186; 0.200]
2.50
N
1.982
[1.94; 2.08]
2.50
O
0.115
[0.111; 0.119]
3.50
N
1.205
[1.16; 1.24]
3.50
O
0.141
[0.135; 0.150]
3.50
N
1.476
[1.94; 1.57]
3.50
O
0.185
[0.173; 0.196]
10.00
N
1.927
[1.81; 2.05]
10.00
O
0.188
[0.182; 0.194]
[8.00; 12.00]
N
1.964
[1.90; 2.03]
[8.00; 12.00]
O
0.041
[0.0353; 0.0468]
[2.10; 2.64]
N
0.428
[0.369; 0.488]
[2.10; 2.64]
Taux de
variation
92.4% &
20.72% &
96.71% &
65.57% &
95.97% &
57.82% &
98.15% &
80.73% &
97.65% &
75.45% &
98.04% &
79.61% &
Table 4.8 – Estimation des taux de prime selon les classes de risques en Dommage par Accident.
La catégorie d’âge du véhicule n’a pas été pertinente dans le modèle d’estimation de la
fréquence des sinistres en Dommage par Accident.
L’analyse du Tableau 4.8 montre que les non-propriétaires ont une sinistralité plus élevé
relativement aux propriétaires. Ceci traduit un risque plus élevée en Dommage par Accident
chez les véhicules assurés en flotte. Cependant, ces taux restent inférieurs aux taux de prime
en vigueur.
DOUANLA Frédéric Hermann ©2014
59
Memoire de Master de Statistique Appliquée, UYI-ENSP
4.1. ESTIMATION DES TAUX DE PRIME EN ADÉQUATION AVEC LA SINISTRALITÉ
ACTUELLE.
4.1.4.2
VOL&VOL PARTIEL
La catégorie d’âge du véhicule n’a pas été pertinente dans le modèle d’estimation de la
fréquence des sinistres en VOL&VOL PARTIEL.
USAGE
PROP.
CAT 1
O
N
O
N
O
N
CAT 2
CAT 8G
VOL&VOL PARTIEL
Taux(%)
IC (95%)
estimé
0.340
[0.295; 0.381]
0.0156
[0.0135; 0.0175]
0.231
[0.195; 0.285]
0.0106
[0.00896; 0.01306]
0.284
[0.262; 0.301]
0.0130
[0.0120; 0.0138]
Taux en
vigueur(%)
[2.00; 2.50]
[2.00; 2.50]
2.00
2.00
[2.50; 3.13]
[2.50; 3.13]
Taux de
variation
83% &
99.22% &
88.45% &
99.47% &
88.64 &
99.48 &
Table 4.9 – Estimation des taux de prime selon les classes de risques en VOL&VOL PARTIEL.
L’analyse du Tableau 4.9 fait remarquer que le risque de vol selon la catégorie d’usage est plus
élevé chez les propriétaires relativement aux non-propriétaires. Ceci traduit une précaution plus
importante au risque VOL&VOL PARTIEL chez les véhicules assurés en flotte. Evidemment,
les véhicules de service sont très souvent mieux sécurisés (dans les parkings des sociétés par
exemple) que les véhicules personnels.
Toutefois, ces différents taux restent largement en dessous des taux en vigueur.
4.1.4.3
DOMMAGE COLLISION
USAGE
CAT 1
CAT 2
DOMMAGE COLLISION
Taux(%)
Taux en
IC (95%)
estimé
vigueur(%)
0.442
[0.367; 0.514]
1.00
0.382
[0.341; 0.421]
1.50
Taux de
variation
55.8% &
74.53% &
Table 4.10 – Estimation des taux de prime selon les classes de risques en Dommage par
Collision.
Ici, la fréquence des sinistres ne varie pas de manière significative selon la catégorie
d’usage. Seule l’estimation du coût relatif moyen a permis de différencier les taux de prime
selon la catégorie d’usage du véhicule. Par conséquent, ces taux ne sont pas influencés par la
catégorie d’âge du véhicule.
Les différents taux de prime en adéquation avec la sinistralité actuelle restent inférieurs aux
taux en vigueur.
DOUANLA Frédéric Hermann ©2014
60
Memoire de Master de Statistique Appliquée, UYI-ENSP
4.1. ESTIMATION DES TAUX DE PRIME EN ADÉQUATION AVEC LA SINISTRALITÉ
ACTUELLE.
4.1.4.4
BRIS DE GLACES
USAGE
PROP.
CAT 1
O
N
O
N
O
N
CAT 2
CAT 8G
BRIS DE GLACES
Taux(%)
IC (95%)
estimé
0.0321
[0.0284; 0.0354]
0.1027
[0.0907; 0.1131]
0.0321
[0.0321; 0.0321]
0.1027
[0.103; 0.103]
0.0290
[0.0249; 0.0337]
0.0929
[0.0796; 0.1079]
Taux en
vigueur(%)
0.50
0.50
0.50
0.50
[0.60; 0.75]
[0.60; 0.75]
Taux de
variation
93.58% &
79.46% &
93.58% &
79.46% &
95.16% &
84.51% &
Table 4.11 – Estimation des taux de prime selon les classes de risques en garantie Bris de
Glaces.
La catégorie d’âge du véhicule n’a pas été pertinente dans le modèle d’estimation de la
fréquence des sinistres en Bris de Glaces.
Les résultats consignés dans le Tableau 4.11 font remarquer des taux de prime plus élevés
chez les non-propriétaires. Cependant, ces taux restent inférieurs aux taux en vigueur.
4.1.4.5
ASSISTANCE À LA REPARATION
USAGE
CAT 1
CAT 2
CAT 8G
ASSISTANCE À
Taux(%)
ÂGE.VEH.
estimé
≤ 5ans
4.23
> 5ans
2.234
≤ 5ans
3.06
> 5ans
0.862
≤ 5ans
6.12
> 5ans
1.887
LA REPARATION
Taux en
IC (95%)
vigueur(%)
[4.09; 4.35]
2.75
[2.16; 2.30]
2.75
[2.80; 3.29]
2.75
[0.790; 0.927]
2.75
[5.70; 6.86]
2.75
[1.76; 2.11]
2.75
Taux de
variation
53.81% %
18.76% &
11.27% %
68.65% &
122.54% %
31.38% &
Table 4.12 – Estimation des taux de prime selon les classes de risques en Assistance à la
Réparation.
La variable PROPRIETAIRE n’a pas été retenue pas le modèle d’estimation de la fréquence des sinistres en Assistance à la Réparation.
Le Tableau 4.12 montre que la catégorie d’âge du véhicule ainsi que sa catégorie d’usage
ont une influence significative sur la sinistralité.
Les véhicules âgés de moins de 5 ans ont un taux de prime assez élevé par rapport à ceux de
plus de 5 ans. Comparativement aux taux en vigueur, ces taux qui sont en adéquation avec la
charge des sinistres sont assez élevés. Cepandant, ces résultats ne reflètent pas ce qui se passe
dans l’entreprise.
Le Tableau 4.13 fait remarquer que les véhicules de catégorie d’usage "CAT 8G" représentent en réalité une très faible proportion d’assurés (3.65%) pour la garantie Assistance à
la Réparation. Puisque dans le modèle précédent, il n’y a pas eu une différence significative
entre les fréquences des sinistres des catégories d’usage CAT 1 et CAT 2, nous allons faire
un modèle qui ne tiend plus en compte la catégorie d’usage du véhicule. L’estimation du coût
relatif moyen des sinistres liés à cette garantie nous donne 0.224.
DOUANLA Frédéric Hermann ©2014
61
Memoire de Master de Statistique Appliquée, UYI-ENSP
4.2. VÉRIFICATION DES RÉSULTATS : ERREUR DE PRÉDICTION
ASSISTANCE À LA REPARATION
USAGE CAT 1 CAT 2 CAT 8G
Proportion 50.24% 46.09%
3.65%
Table 4.13 – Proportion des différentes catégories d’usage en Assistance Auto
ASSISTANCE À LA REPARATION
Taux(%)
Taux en
ÂGE.VEH.G Proportion
IC (95%)
estimé
vigueur(%)
≤ 5ans
37.3%
3.15
[2.85; 3.39]
2.75
> 5ans
62.7%
1.21
[1.05; 1.29]
2.75
Taux de
variation
14.54% %
61.81% &
Table 4.14 – Estimation des taux de prime selon les classes de risques en Assistance à la
Réparation.
Le Tableau 4.14 nous montre que la classe des véhicules de moins de 5ans a une sinistralité
plus élevée que celle des véhicules de plus de 5ans. Comparativement au taux en vigueur, le
taux en adéquation avec la charge des sinistres est plus élevé pour les véhicules ayant plus de
5 années de circulations.
4.2
Vérification des résultats : Erreur de prédiction
Cette section propose une méthodologie de vérification de nos résultats sur les données.
En effet, il s’agit, à partir des taux de prime estimés, de déterminner la masse de prime pure
prédite pour une classe de risque donnée, et de la comparer à la charge des sinistres enrégistrés
dans cette classe de risque. Notre Prime pure Prédite s’obtient grâce à la formule :
Prime pure prédite = Taux de prime estimé × Capitaux assurés
De façon pratique et à titre d’exemple, pour la garantie INCENDIE, le Tableau 4.15 donne
pour trois classes de risques, la prime émise, la charge des sinistres, ainsi que la prime prédite
par nos estimations (en F CFA).
Classes de risque
USAGE ÂGE.VEH.
CAT 1
CAT 2
CAT 2
> 5ans
≤ 5ans
> 5ans
PROP.
N
N
N
INCENDIE
Prime
Charge des
Prime
émise
sinistres
prédite
36 764 181
98 765 722 107 652 829
127 218 046
250 711 238 458 399 211
35 380 008
98 492 027 169 829 089
Table 4.15 – Vérification des résultats sur quelques classes de risque.
Nous constatons qu’effectivement, les variations entre Prime émise (Prime encaissé) et
Charge des sinistres vont dans le même sens que nos prédictions. Toutefois, si pour la classe
(INCENDIE, CAT 1, > 5ans, N), la masse de prime prédite se rapproche effectivement de
la charge des sinistres, il n’en est pas autant pour les deux autres classes de risque où nous
constatons une marge importante entre la charge des sinistres et la masse de prime prédite.
DOUANLA Frédéric Hermann ©2014
62
Memoire de Master de Statistique Appliquée, UYI-ENSP
Conclusion
CONCLUSION
Conclusion
La présente étude a été menée dans l’optique de réviser les tarifs appliqués en garantie
Dommage Automobile à la SAAR Assurances. Il était question d’estimer, à partir de données
présentes et passées du portefeuille automobile de la compagnie, les différents taux de prime
selon les classes de risque en Garanties Dommage, qui sont en adéquation avec la sinistralité
(fréquence et coût relatif moyen des sinistres) actuelle, puis de les comparer aux taux de prime
en vigueur.
Les deux premiers chapitres ont été consacrés à la présentation du domaine d’étude à savoir
l’assurance automobile, ainsi qu’à l’analyse descriptive des variables d’études. A l’issue de cette
partie, il est ressorti que la catégorie d’âge du véhicule, la catégorie d’usage du véhicule, la
garantie souscrite, ainsi que la possession ou non du véhicule assuré sont des facteurs explicatifs
de la fréquence des sinistres. Par ailleurs, le coût relatif moyen n’est influencé que par la catégorie
d’usage du véhicule et la garantie souscrite.
Dans le troisième chapitre, nous avons présenté le modèle adapté pour la modélisation de la
fréquence des sinistres. Il s’agit du modèle de Poisson longitudinale (cas particulier des modèles
GLM (Generalized Linear Models)). Ce choix est justifié par le fait qu’il était question de
modéliser un processus de comptage. L’estimation des paramètres du modèle a été faite par
la technique GEE (Generalized Estmating Equation), pour prendre en compte les corrélations
existant entre les observations. La méthodologie de rééchantillonnage bootstrap a été présentée
pour avoir une estimation de la variabilité du « vrai » taux de prime par rapport au taux de
prime estimés.
L’application de ces outils statistiques à nos données nous a permis d’obtenir les résultats
suivants :
**De manière générale, la sinistralité est plus élevée chez les véhicules âgés de moins de 5
ans ainsi que chez les non-propriétaires des véhicules assurés (ce qui traduit un risque plus élevé
pour les véhicules assurés en flotte).
**Pour les Garanties Dommages par Accident, Dommages par Collision, Vol Total & Vol
Partiel et le Bris de Glaces, les différents taux estimés qui sont en adéquation avec la sinistralité
actuelle restent en dessous des taux de prime en vigueur.
**En ce qui concerne la garantie Incendie, les taux de prime estimés sont plus élevés que
ceux en vigueur dans certaines classes de risque constituées des véhicules de moins de 5 ans
d’âge.
Limites et perspectives
Au début de cette étude, notre objectif était d’estimer les taux de prime en adéquation avec
la sinistralité actuelle et de les comparer aux taux en vigueur. Mais il s’est avéré que les taux
mentionnés dans le tarifaire de la compagnie s’appliquaient avec des pourcentages de réduction
qui diffèrent d’un assuré à l’autre. De ce fait, la suite de cette étude consistera à disposer
DOUANLA Frédéric Hermann ©2014
63
Memoire de Master de Statistique Appliquée, UYI-ENSP
Conclusion
des données dans le but d’estimer les différents taux de prime qui incorporent les réductions
accordées, afin de les comparer aux taux estimés dans la présente étude.
GARANTIE
ASS.AUTO
DOM.ACCIDENT
DOM.COLLISION
INCENDIE
BRIS.GLACE
VOL&V.PARTIEL
Nbr. de police
sinistrée
1023
1947
107
1289
107
217
Nbr. de sinistres
avec COUT.SIN> 0
500
982
14
548
35
45
Proportion (%)
48.87%
50.43%
13.08%
42.51%
32.71%
20.73%
Table 4.16 – Proportion des sinistres ayant un coût de règlement non nul.
Le Tableau 4.16 montre qu’une grande proportion des sinistres déclarés ont un coût de
réglement nul. Or, notre échantillon de travail était constitué majoritairement des garanties
pour lesquelles le coût d’un sinistre subi par un assuré est probablement non nul ( à l’exemple de
l’Assistance à la Réparation). D’autre part, nous observons pour cette garantie un pourcentage
de plus 50% de sinistres avec un coût de règlement nul.
Nous avons également des coûts de sinistres très faibles (à l’exemple de 10 000 FCFA pour
le règlement d’un sinistre en Assistance à la Réparation). Or, nous savons que pour la Garantie
Assistance à la Réparation, la Franchise est de l’ordre de 50 000 FCFA. Dès lors, la question
est celle de savoir si ces montants relativement faibles observés représentent la quote part de
l’assureur pour le règlement du sinistre, ou bien le règlement des honoraires de l’expert. Dans ce
dernier cas, les données seront biaisées dans la mesure où c’est le principal (prix ou évaluation
du prix du risque) qui nous intéresse dans cette étude.
Pour être fixé relativement à cette préoccupation, la suite de cette étude consisterait à tirer
parmi les sinistres ayant un coût de règlement faible (inférieur à 50 000 FCFA par exemple) un
échantillon de contrats, et de faire une vérification physique des dossiers. Sous reserve de cette
vérification, nous faisons les suggestions qui suivent.
Recommandations
Dans un premier temps, nos suggestions vont à l’endroit des producteurs de contrats :
• Pour avoir une fiabilité plus significative des données, les différents capitaux doivent être
renseignés avec précaution par les r. Nous pensons ici à la valeur à neuf, la valeur vénale
ainsi que la valeur agréée ;
• Une attention particulière doit être accordée lors du renseignement du numéro d’immatriculation du véhicule.
• Enfin, un effort doit être fourni pour remplir les champs obligatoires avec des données
fiables.
En ce qui concerne nos résultats, nous faisons les suggestions suivantes :
• Pour la garantie INCENDIE, malgré le fait que la charge des sinistres soit globalement
solvable pour cette garantie, on observe après estimation et vérification des résultats,
une sous-tarification de la garantie notamment dans les classes de risque (INCENDIE,
DOUANLA Frédéric Hermann ©2014
64
Memoire de Master de Statistique Appliquée, UYI-ENSP
Conclusion
CAT 1, > 5ans, N), (INCENDIE, CAT 1, ≤ 5ans, N) et (INCENDIE, CAT 1,
> 5ans, N). Par conséquent, il est nécessaire de faire le contrôle de résultats pour toutes
les autres classes de risque afin d’y appliquer les taux estimés qui sont en adéquation avec
leur sinistralité ;
• Pour les garanties Vol&Vol Partiel, Bris de Glaces, Dommage par Collision ainsi
que la garantie Dommage par Accident, les taux estimés sont largement en dessous
des taux existant. Par conséquent, des réductions de prime peuvent être accordées tout
en restant au-dessus de la borne supérieure de l’intervalle de confiance du taux estimé. Il
est à noter qu’un chargement de prime devrait être fait préalablement selon la marge de
rentabilité escomptée par la compagnie afin d’avoir la prime nette applicable.
• Nous suggérons également que des études similaires s’étendent aux autres branches de
risque. Ceci permettrait à la compagnie SAAR d’avoir une idée permanente sur la sinistralité de son portefeuille, afin d’être plus compétitive sur le marché d’assurance camerounais.
DOUANLA Frédéric Hermann ©2014
65
Memoire de Master de Statistique Appliquée, UYI-ENSP
Annexe
ANNEXE
ANNEXE A : Tables et Démonstrations
ANNEXE A1 : Démonstration des expressions de l’espérance et de la
variance d’une variable aléatoire dont la densité est de la forme (3.1).
Proposition 4.2.1 Pour une variable aléatoire Y dont la densité est de la forme (3.1), on a
E [Y ] = b0 (θ)
où 0 et
00
V [Y ] = b00 (θ) φ ;
et
(4.3)
désignent les dérivées première et seconde par rapport à θ.
Démonstration. Soit Y une variable aléatoire dont la densité peut se mettre sous la forme
(3.1).
∂
∂2
Notons U = ∂θ
ln f (y|θ, φ) , et U 0 = ∂θ
2 ln f (y|θ, φ) de sorte que l’information de Fisher
0
vaut V [U ] = E [−U ] .
R
Le vecteur U est centré, i.e. E [U ] = 0. En effet, partant de R f (y|θ, φ) dy = 1 (Cas continu),
on dérive les deux membres par rapport à θ :
R
∂
f (y|θ, φ) dy
0 = R∂θ
R
∂
= RR ∂θ f (y|θ, φ) dy ∂
ln f (y|θ, φ) f (y|θ, φ) dy
= R ∂θ
∂
ln f (Y |θ, φ) .
= E ∂θ
Il suffit alors de remarquer que
∂
∂
ln f (y|θ, φ) =
∂θ
∂θ
yθ − b (θ)
y − b0 (θ)
+ c (y, φ) =
;
φ
φ
0
(θ)
il s’en suit que E [U ] = E[Y ]−b
= 0,
φ
0
donc E [Y ] = b (θ) .
D’autre part, puisque E [U ] = 0, alors
V [U ] = E U
et
E [U 2 ]
2
"
=E
Y − b0 (θ)
φ
2 #
=
2
R ∂
= RR ∂θ
ln f (y|θ, φ) f (y|θ, φ) dy
∂
∂
= Rh∂θ
ln f (y|θ, φ) ∂θ
fi(y|θ, φ) dy
2
∂
= E − ∂θ
2 ln f (Y |θ, φ)
=
D’où
V [Y ]
,
φ2
b00 (θ)
.
φ
2 b00 (θ)
V [Y ]
=
V
[U
]
=
E
U =
.
φ2
φ
Donc V [Y ] = b00 (θ) φ .
DOUANLA Frédéric Hermann ©2014
66
Memoire de Master de Statistique Appliquée, UYI-ENSP
Annexe
ANNEXE A2 : La régression de Poisson longitudinale : Estimation du
paramètre β (Obtention de la matrice Hessienne)
Nous avons supposé que Yij |Xij
par :
P oisson (µij ). Ainsi, sa fonction de probabilité est donnée
y
−µij
P (Yij = yij |Xij ) = e
µijij
, yij = 0, 1, 2, ...
yij !
Puisque µij = exp (ηij ) , on peut encore écrire
P (Yij = yij |Xij ) = e− exp(ηij )
[exp (ηij )]yij
, yij = 0, 1, 2, ...
yij !
Les observations dans un panel étant indépendantes, alors la probabilité d’un vecteur de
résultats pour le panel i est donnée par :
ni
Y
P (Yi = yi |Xi ) =
P (Yij = yij |xij )
j=1
La log-vraisemblance est donnée par :
L (β) = log (V (β)) =
ni
n X
X
(− ln (yij !) + ηij .yij − exp (ηij ))
i=1 j=1
Le vecteur gradient de dimension p + 1 de cette log-vraisemblance est donnée par :
Uindep (β) =
n
X
Xit 4i (Yi − µi (β)) ,
i=1
où
• Xi = (Xi1 , ..., Xini )t , avec Xij = (1, xij1 , ..., xijp ) ;
• µi (β) = (µi1 (β) , ..., µini (β))t et
• 4i = Diag exp (ηij ) = exp Xijt β , j = 1, ..., ni (matrice diagonale de dimension ni × ni
∂µ
dont l’élément en position (j, j) est exp (ηij ) = ∂ηijij .)
L’élément (t, k) de la matrice Hessienne (Hindep (β)), de dimension (p + 1) × (p + 1) est
donné par :
ni
n
∂ 2 L (β) X X
=
−xijt exp (ηij ) xijk .
∂βk ∂βt
i=1 j=1
D’où, avec les mêmes notations précédentes, la matrice Hessienne dans ce cas est donnée
par :
Hindep (β) =
n
X
i=1
DOUANLA Frédéric Hermann ©2014
67
Memoire de Master de Statistique Appliquée, UYI-ENSP
−Xit 4i Xi .
Annexe
ANNEXE A3 : Tableau donnant les propriétés de dispersion associées
à quelques lois
Loi de la v.a. Y
Espérance
Variance
Binomiale(n, p)
np
np (1 − p)
Binomiale négative(m, p)
m
p
m(1−p)
p2
Poisson(λ)
λ
λ
Propriété
sous dispersion si 0 < p ≤ 1
équidispersion si p = 0
sous dispersion si p > 12
équidispersion si p = 12
sur dispersion si p < 12
équidispersion
Table 4.17 – Propriétés de dispersion associées à quelques lois.
DOUANLA Frédéric Hermann ©2014
68
Memoire de Master de Statistique Appliquée, UYI-ENSP
Annexe
ANNEXE B : Principaux programmes R
##################################
## Fonction R : ident
## ==> Création de la variable ID qui identifie les unités statistiques
##*** Données : - data : base de données contenant une
## variable ID qui identifie les lignes
##*** Résultat : base de données avec la variable ID qui
## identifie cette fois les unités statistiques.
######################################
ident <- function(data)
{
# Dans une Garantie donnée, une unité statistique est caractérisée par l’IMMATRICULATION
IMAT_GAR <- paste(data$IMMATRICULATION,data$GARANTIE)
w <- unique(IMAT_GAR)
ide <- c()
pair <- c()
for(i in 1 :length(w))
{
v <- which(IMAT_GAR==w[i])
pair <- c(pair,v)
ide <- c(ide,rep(i,length(v)))
}
data <- data[pair,]
data$ID <- ide
return(data)
}
######################################
## Fonction R : boot
## ==> Obtenir un échantillon bootstrap des données initiales
## *** Données :
## - data.obs : base de données initiale
## *** Résultat : base de données de rééchantillonnage
######################################
boot <- function(data.obs)
{
v <- unique(data.obs$NUM.IMMAT)
p <- length(v)
ind <- sample(1 :p,size=p,replace=TRUE)
v.b <- v[ind]
ide <- c()
ind.b <- c()
for(i in 1 :p)
{
w <- which(data.obs$NUM.IMMAT==v.b[i])
ind.b<- c(ind.b,w)
ide <- c(ide,rep(i,length(w)))
DOUANLA Frédéric Hermann ©2014
69
Memoire de Master de Statistique Appliquée, UYI-ENSP
Annexe
}
data.b <- data.obs[ind.b,]
data.b$NUM.IMMAT <- ide
return(data.b)
}
###### Importation des données d’EXCEL vers R. ######
data <- read.csv2("data_saar_auto2014_csv2.csv")
###### Pourcentage des données manquantes par variable ######
n <- dim(data)[1]
(sum(is.na(data$variable))/n)*100
###### Analyse descriptive des variables qualitatives #######
## Tableau des fréquences des modalités ##
tab <- table(na.omit(data$variable))
(tab/sum(tab))*100
## Le mode de la variable ##
names(which.max(table(data$variable)))
###### Analyse descriptive des variables quantitatives #######
summary(na.omit(data$variable))
sd(na.omit(data$variable))
###### Analyse graphique de la sinistralité #######
## Fréquence des sinistres par modalités de variable
tab <- table(na.omit(data$variable))
v <- names(tab)
for(i in 1 :length(v)){
tab[i] <- sum(data$NBSINISTRE[which(data$variable ==v[i])])
}
freq <- tab/table(na.omit(data$variable))
windows()
barplot(freq,lwd=1,las=2, xlab="variable", ylab="Fréq.sinistres",
font.lab=2, font = 4,main=”)
###### Distribution du Coût relatif par modalités de variable ######
##Seules les polices sinistrées permettent d’évaluer le coût relatif moyen des sinistres. ##
windows()
v <- which(data$COUT.RELATIF > 0)
boxplot(data$COUT.RELATIF[v]~data$variable[v],las=2,
xlab="",ylab="Coût relatif",font.lab=2, font = 4)
###### Test d’influence sur le coût relatif ######
## T test de Student pour variable à deux modalités ##
** Test de Fischer d’égalité des variances
summary(aov(data$COUT.RELATIF[v]~data$variable[v]))
DOUANLA Frédéric Hermann ©2014
70
Memoire de Master de Statistique Appliquée, UYI-ENSP
Annexe
** T test de Student
t.test(data$COUT.RELATIF[v]~data$variable[v],var.equal=TRUE)
## Test non paramétrique de Kruskal Wallis pour variable à plus de deux modalités ##
kruskal.test(data$COUT.RELATIF[v]~data$variable[v])
###### Test khi-carré d’indépendance ######
chisq.test(data$IND, data$variable)
######################################
##
Modélisation de la fréquence des sinisntres
######################################
### Chargement de package R nécessaire
library(geepack)
require(geepack)
## Extraction de la sous base INCENDIE
data.incendie <- data[which(data$GARANTIE=="INCENDIE"),]
base <- ident(data.incendie)
### On rend catégoriel les variables d’interêts ###
base$AGE.VEH.G <- as.factor(base$AGE.VEH.G)
base$PROPRIETAIRE <- as.factor(base$PROPRIETAIRE)
base$USAGE <- as.factor(base$USAGE)
### On élimine les 1.2/100 des lignes contenant des données manquantes ###
w <- which(is.na(base$PROPRIETAIRE))
base <- base[-w,]
v <- which(is.na(base$AGES.VEH.G))
base <- base[-v,]
### Expression du modèle de base ###
mod.base <- geeglm(formula = NBSINISTRE ~(USAGE + PROPRIETAIRE + AGES.VEH.G)^2,
family = poisson(link = "log"), data = base, id = ID, corstr = "ar1")
summary(mod.col)
anova(mod.col)
res <- residuals(mod.col,type="pearson")
### Expression du modèle final ###
mod.final <- geeglm(formula = NBSINISTRE ~USAGE +
AGES.VEH.G + USAGE * PROPRIETAIRE +
PROPRIETAIRE * AGES.VEH.G, family = poisson(link = "log"),
data = base, id = ID, corstr = "ar1")
### On récupère les coéfficients du model
coef <- mod.final$coefficients
coef <- as.vector(coef) ;
freq <- exp(coef) ; ## Pour interpréter les coefficient en terme de multiplicateur.
#### Taux de prime (en %) pour la CAT 1
DOUANLA Frédéric Hermann ©2014
71
Memoire de Master de Statistique Appliquée, UYI-ENSP
Annexe
mat.F <- matrix(0,nrow=2,ncol=2)
cou=0.145 ## Coût relatif moyen pour la CAT 1
mat.F[1,1] <- cou*freq[1]*100
mat.F[1,2] <- cou*freq[1]*100
mat.F[2,1] <- cou*freq[1]*freq[8]*freq[16]*100
mat.F[2,2] <- cou*freq[1]*freq[8]*100
mat.F
DOUANLA Frédéric Hermann ©2014
72
Memoire de Master de Statistique Appliquée, UYI-ENSP
Bibliographie
BIBLIOGRAPHIE
[1] ASAC (Mai 2014). Magazine de l’Association des Sociétés d’Assurances du Cameroun.
[2] Carlot J.F. (2014). Support de cours de droit des assurances-V/VII : La prime d’assurance.
www.JURISQUES.com.
[3] CIMA (2009). Conférence Interafricaine des Marchés d’Assurances. Annexe du traité instituant la CIMA du 10 juillet 1992.
[4] Denuit M. and Charpentier A. (2005). Mathématiques de l’assurance non-vie. Tome I :
Principes fondamentaux de théorie du risque, Economica.
[5] Denuit M. and Charpentier A. (2005). Mathématiques de l’assurance non-vie. Tome II :
Tarification et Provisionnement, Economica.
[6] Micheaux P.L., Drouilhet R. and Liquet B. (2011). Le logiciel R : Maîtriser le langage,
Effectuer des analyses statistiques. Springer-Verlag France.
[7] Efron B. and Tibshirani R.J. (1994). An Introduction to the Bootstrap. Chapman and Hall,
London.
[8] Fay M.P. and Graubard B.I. (2001). Small-Sample Adjustments for Wald-Type Tests Using
Sandwich Estimators. Biometrics, 57, 1198-1206.
[9] Goodman L. and Kruskal W.L. (1979). Measures of association for cross-classification.
Springer-verlag, New York.
[10] Hardin J. and Hilbe M. (2002). Generaralized Estimating Equations. Chapman and Hall/CRC,
Boca Raton, Florida 33431.
[11] Højsgaard S., Halekoh U. and Yan J. (2006). The R Package geepack for Generalized
Estimating Equations. Journal of Statistical Software 15, 2, pp1–11.
[12] Klaus D. and Schmidt A. (2002). A note on the overdispersed Poisson family. Insurance :
Mathematics and Economics, 30(1) :21 – 25.
[13] Lele Siaka H. (2012). Analyse statistique des tarifs des garanties dommages en assurances
automobile : cas de CHANAS Assurances. Master de Statistique Appliquée, Ecole Polytechnique, Yaoundé.
[14] Lianz K.Y. and Zeger S.L. (1986). Longitudinal data analysis using generalised linear
models. Biometrika 73, 13-22.
[15] McCullagh P. and Nelder J.A. (1989). Generalized linear Models. Chapman and Hall, New
York.
DOUANLA Frédéric Hermann ©2014
73
Memoire de Master de Statistique Appliquée, UYI-ENSP
Bibliographie
[16] Nelder J.A. and Wedderburn R.W.M. (1972). Generalized linear models. Journal of the
Royal Statistical Society Series A 135, 370-384.
[17] Ndong Nguéma E.P. (2014). Cours de Data Mining. Master de Statistique Appliquée, Ecole
Polytechnique, Yaoundé.
[18] SAAR (2002-2009). Rapport annuel de la Société Africaine d’Assurances et de réassurances. BP. 1136 Douala, Cameroun.
[19] Seck Babacar (2006). Estimation pour les modéles linéaires généralisés : Approche marginale, approche conditionnelle et application. Faculté des sciences et de genie, Université
Laval Quebec.
[20] Tchatchueng Mbougua J. (2007). Reponse aux traitements anti-retroviraux en fonction
de la sérologie hépatite B ou C chez les patients VIH+. Master de Statistique Appliquée,
Ecole Polytechnique, Yaoundé.
[21] R Core Team (2012). R : A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria.ISBN 3-900051-07-0, URL http ://www.Rproject.org/.
DOUANLA Frédéric Hermann ©2014
74
Memoire de Master de Statistique Appliquée, UYI-ENSP
Bibliographie
BIBLIOGRAPHIE
[1] ASAC. Magazine de l’association des sociétés d’assurances du cameroun. N° 028 Mai,
2014.
[2] Jean-François CARLOT. Support de cours de droit des assurances-v/vii :la prime d’assurance. www.JURISQUES.com, 2014.
[3] CIMA. Conférence interafricaine des marchés d’assurances. Annexe du traité instituant la
CIMA du 10 juillet 1992, 2009.
[4] M. DENUIT and A.M. CHARPENTIER. Mathématiques de l’assurance non-vie. Tome
I : Principes fondamentaux de théorie du risque, Economica, 2005.
[5] M. DENUIT and A.M. CHARPENTIER. Mathématiques de l’assurance non-vie. Tome
II : Tarification et Provisionnement, Economica, 2005.
[6] Micheaux P.L. Drouilhet, R. and B. Liquet. Le logiciel r : Maîtriser le langage, effectuer
des analyses statistiques. Springer-Verlag France, 2011.
[7] B. EFRON and R.J. TIBSHIRANI. An introduction to the bootstrap. Chapman and Hall,
London., 1994.
[8] M.P. Fay and B.I. Graubard. Small-sample adjustments for wald-type tests using sandwich
estimators. Biometrics, 57, 1198-1206., 2001.
[9] L. GOODMAN and W.L.W. KRUSKAL. Measures of association for cross-classification.
Springer-verlag, New York, 1979.
[10] J. Hardin and M. Hilbe. Generaralized estimating equations. Chapman and Hall/CRC,
Boca Raton, Florida 33431., 2002.
[11] Halekoh U. Højsgaard, S. and J. Yan. The r package geepack for generalized estimating
equations journal of statistical software. 15, 2, pp1–11, 2006.
[12] D. Klaus and A.D. Schmidt. A note on the overdispersed poisson family. Insurance :
Mathematics and Economics, 30(1) :21 – 25., 2002.
[13] H. LELE SIAKA. Analyse statistique des tarifs des garanties dommages en assurances automobile : cas de chanas assurances. Master de Statistique Appliquée, Ecole Polytechnique,
Yaoundé, 2012.
[14] K.Y. LIANZ and S.L. ZEGER. Longitudinal data analysis using generalised linear models.
Biometrika 73, 13-22., 1986.
[15] P. McCullagh and J.A. Nelder. Generalized linear models. Chapman and Hall, New York.,
1989.
[16] J.A. NELDER and R.W.M. WEDDERBURN. Generalized linear models. Journal of the
Royal Statistical Society Series A 135,370-384, 1972.
DOUANLA Frédéric Hermann ©2014
75
Memoire de Master de Statistique Appliquée, UYI-ENSP
BIBLIOGRAPHIE
[17] E. P. NDONG NGUÉMA. Cours de data mining. Master de Statistique Appliquée, Ecole
Polytechnique, Yaoundé, 2014.
[18] SAAR. Rapport annuel de la société africaine d’assurances et de réassurances. BP. 1136
Douala, Cameroun, 2002-2009.
[19] BABACAR SECK. Estimation pour les mod‘eles lin´eaires g´en´eralis´es : Approche marginale, approche conditionnelle et application. Faculté des sciences et de genie ; université
LAVAL QUEBEC, 2006.
[20] J. TCHATCHUENG MBOUGUA. Reponse aux traitements anti-retroviraux en fonction
de la serologie hepatite b ou c chez les patients vih+. Master de Statistique Appliquée,
Ecole Polytechnique, Yaoundé, 2007.
[21] R Core Team. R : A language and environment for statistical computing. r foundation
for statistical computing, vienna, austria. ISBN 3-900051-07-0, URL http ://www.Rproject.org/., 2012.
DOUANLA Frédéric Hermann ©2014
76
Memoire de Master de Statistique Appliquée, UYI-ENSP