Analyse Statistique des Taux de Prime des Garanties Dommages en
Transcription
Analyse Statistique des Taux de Prime des Garanties Dommages en
UNIVERSITÉ DE YAOUNDÉ I UNIVERSITY OF YAOUNDE I ****************** ÉCOLE NATIONALE SUPÉRIEURE POLYTECHNIQUE ****************** DEPARTEMENT DE MATHEMATIQUES ET SCIENCES PHYSIQUES ***************** NATIONAL ADVANCED SCHOOL OF ENGINEERING ****************** DEPARTEMENT OF MATHEMATICS AND PHYSICAL SCIENCES Analyse Statistique des Taux de Prime des Garanties Dommages en assurances automobile : cas de la SAAR Assurances Par DOUANLA Frédéric Hermann Matricule : 12 P 316 Mémoire présenté en vue de l’obtention du Diplôme de Master Recherche Option Statistique Appliquée Sous la direction de Dr Eugène-Patrice NDONG NGUEMA Chargé de cours Devant le jury composé de: Président : Pr Henri GWÉT, Maître de conférences Rapporteur : Dr Eugène-Patrice NDONG NGUEMA, Chargé de cours Membres : Dr Jacques TAGOUDJEU, Chargé de cours ; Dr Wilson TOUSSILE, Assistant ; Mme Liliane MISSOUMA, Cadre à la SAAR Assurances. Année académique 2013-2014 17 Septembre 2014 Dédicaces DÉDICACES Je dédie ce mémoire à Mes chers parents Papa SIMOU Pierre et Maman FOPA Charlotte. DOUANLA Frédéric Hermann ©2014 i Memoire de Master de Statistique Appliquée, UYI-ENSP Remerciements REMERCIEMENTS Je remercie : • le président du jury, Pr Henri GWÉT, ainsi que les membres du jury, • Dr Eugène-Patrice NDONG NGUEMA ; • Dr Jacques TAGOUDJEU ; • Dr Wilson TOUSSILE ; • Mme Liliane MISSOUMA pour leur disponibilité, et plus encore pour leurs remarques et appréciations qui vont contribuer à l’édification et la perfection de ce travail. J’exprime encore une reconnaissance particulière à l’endroit de : • Mon Directeur de mémoire Dr Eugène Patrice NDONG NGUEMA, Chargé de cours à l’ENSP, pour sa rigueur et sa disponibilité ; • Le Pr Henri GWÉT, Maître de conférences, coordonateur du Master de Statistique Appliquée de l’ENSP pour sa contribution dans la formation de la jeunesse africaine et camerounaise en particulier ; • Tous mes enseignants du MASTAT, pour leur engagement et leur dévouement à la formation de leurs étudiants ; • Le conseil d’administration de la compagnie SAAR Assurances, particulièrement le Dr Paul FOKAM KOMMOGNE, président dudit conseil ; • M. Georges Léopold KAGOU, Directeur Général de la SAAR Assurances, pour m’avoir accordé de faire le stage au sein de sa compagnie ; • M. Elvis SOUN SOUN, chef du département des Ressources Humaines, pour avoir facilité mon insertion dans mon lieu de stage ; • Mon encadreur professionnel Mme Liliane MISSOUMA, Chef du Bureau Direct de Douala, qui n’a cessé de me faire apprendre grâce à ses remarques, conseils, et souvent sa fermeté. Merci Madame ! • Tout le personnel de la Direction générale et du Bureau Direct de Douala ; DOUANLA Frédéric Hermann ©2014 ii Memoire de Master de Statistique Appliquée, UYI-ENSP Remerciements • M. Evariste FOSSO DIFFO ; • M&Mme TIOSTE ; • M&Mme TACKOUGANG ; • M&Mme TCHOUATA ; • Particulièrement M. Hernandez LELE SIAKA ; • Mes amis Jackson DOUNTSOP et Alex NGUEBOU ; • Tous mes camarades de la 7ème promotion du MASTAT. Je termine ces remerciements en les addresant à : • À ma chère Vanessa TCHOUATA, pour son accompagnement multiforme ; • Tous mes aimables frères et sœurs. À tous, trouvez en ce travail l’un des premiers résultats de vos efforts, attentions et accompagnement dont vous avez toujours su me gratifier. Merci ! DOUANLA Frédéric Hermann ©2014 iii Memoire de Master de Statistique Appliquée, UYI-ENSP Résumé RÉSUMÉ Ce mémoire propose une méthodologie d’estimation des taux de prime (des garanties dommage) en adéquation avec la sinistralité actuelle du portefeuille automobile de la compagnie SAAR Assurances. Ces garanties sont : Assistance à la Réparation, Dommages par Accident, Dommages par Collision, Incendie, Vol Total & Vol Partiel et Bris de Glaces. L’objectif de cette étude était de déterminer si la charge des sinistres présents est en adéquation avec les taux de prime en vigueur. La démarche utilisée a été la suivante : partant de la charge des sinistres actuelle d’une garantie donnée, le taux de prime qui aurait été appliqué pour régler ces sinistres est estimé. Ensuite, ce taux de prime estimé est comparé à celui appliqué effectivement. À la base de tout ceci, des conclusions sont tirées. Les résultats obtenus révèlent des taux de prime inférieurs aux taux en vigueur, exceptés ceux de la garantie Incendie et l’Assistance à la Réparation où les taux estimés sont un peu supérieurs aux taux en vigueur dans certaines classes de risques. Mots clés : Assurance, Coût relatif des sinistres, Fréquence des sinistres, Taux de prime, Garantie, Risque. DOUANLA Frédéric Hermann ©2014 iv Memoire de Master de Statistique Appliquée, UYI-ENSP Abstract ABSTRACT This dissertation puts forward a methodology of premium rates assessment (damage warranties) in adequacy with the current level of disasters for the automobile portfolio of the Insurance Company SAAR. Those warranties are : Repair assistance, Damages per Accident, Damages per Collision, Fire, Total Robbery & Partial Robbery and Broken Windows. The aim of this study was to determine whether the charge of current disasters is in adequacy with the premium rates in force. We proceeded as follows : Going from the charge of current disasters of a given warranty, the premium rate which would have been applied, in order to settle the disasters is considered. Then, this premium rate is compared to the one actually applied. From what precedes, conclusions are drawn. The results show that premium rates are quite low, compared to the rates in force, except that of the Fire and Repair assistance, where the estimated rates are a bit higher than the rates in force in some risk categories. Key words : Insurance, Relative cost of a disaster, Frequency of disasters, Premium rates, Warranty, Risk. DOUANLA Frédéric Hermann ©2014 v Memoire de Master de Statistique Appliquée, UYI-ENSP Table des matières TABLE DES MATIÈRES Dédicaces i Remerciements ii Résumé iv Abstract v Table des matières vii Liste des figures viii Liste des Tableaux x Sigles des abréviations xi Glossaire xiii Présentation de la SAAR Assurances 1 Introduction 3 Résumé Exécutif 5 1 Notion d’Assurance et Présentation des Données 1.1 Notion de Prime d’Assurance . . . . . . . . . . . . . . . . . . . . 1.1.1 La Prime Pure . . . . . . . . . . . . . . . . . . . . . . . . 1.1.2 La Prime Nette . . . . . . . . . . . . . . . . . . . . . . . . 1.1.3 La Prime Commerciale . . . . . . . . . . . . . . . . . . . . 1.2 Assurance Automobile . . . . . . . . . . . . . . . . . . . . . . . . 1.2.1 Branches de risque commercialisées par la SAAR S.A. . . . 1.2.2 Les différentes garanties en Assurance Automobile . . . . . 1.3 Présentation des Données . . . . . . . . . . . . . . . . . . . . . . 1.3.1 Origine des Données . . . . . . . . . . . . . . . . . . . . . 1.3.2 Définition de l’Unité Statistique . . . . . . . . . . . . . . . 1.3.3 Présentation des Variables . . . . . . . . . . . . . . . . . . 1.3.4 Problématique statistique de l’étude et variables d’intérêt. 2 Analyse Descriptive des Données 2.1 Formatage de la base de données . . . . . . . . . . . 2.2 Analyse descriptive univariée . . . . . . . . . . . . . . 2.2.1 Analyse descriptive des variables qualitatives . 2.2.2 Analyse descriptive des variables quantitatives 2.3 Analyse de la sinistralité du portefeuille . . . . . . . . DOUANLA Frédéric Hermann ©2014 vi Memoire de Master de Statistique Appliquée, UYI-ENSP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 10 10 11 11 12 12 13 16 16 17 17 20 . . . . . 21 21 22 22 25 28 2.4 Premier tri parmi les variables tarifaires . . . . . . . . . . . . . . . . . . . . . . 34 3 Méthodes Statistiques 3.1 Modèles linéaires généralisés pour des données longitudinales . . . . . . . . . 3.1.1 Données longitudinales : notations . . . . . . . . . . . . . . . . . . . . 3.1.2 Famille exponentielle linéaire . . . . . . . . . . . . . . . . . . . . . . . 3.1.3 Modèle linéaire généralisé pour données longitudinales : Introduction 3.1.4 Cas de l’indépendance des observations répétées sur le même individu 3.1.5 Estimation des paramètres βk sous l’indépendance. . . . . . . . . . . 3.1.6 Intervalles de confiance pour les paramètres (Méthode de Wald) . . . 3.1.7 Validation du modèle (statistique de Pearson) . . . . . . . . . . . . . 3.2 Un exemple de GLM : La régression de Poisson longitudinale . . . . . . . . . 3.2.1 Hypothèse du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.2 Écriture du modèle et interprétation des paramétres . . . . . . . . . . 3.2.3 Estimation du paramètre β . . . . . . . . . . . . . . . . . . . . . . . 3.3 Estimation des paramètres à l’aide de la technique GEE . . . . . . . . . . . 3.3.1 Prise en compte de l’aspect sériel . . . . . . . . . . . . . . . . . . . . 3.3.2 Spécification et estimation de la "working correlation matrix" . . . . 3.3.3 Obtention des estimations . . . . . . . . . . . . . . . . . . . . . . . . 3.4 Quantification de l’incertitude dans le modèle : Méthode "bootstrap" . . . . 3.4.1 Principe de la méthode du bootstrap . . . . . . . . . . . . . . . . . . 3.4.2 Bootstrap et échantillons corrélés. . . . . . . . . . . . . . . . . . . . . 4 Application aux Données 4.1 Estimation des taux de prime en adéquation avec la sinistralité actuelle. . 4.1.1 Modélisation de la fréquence des sinistres. . . . . . . . . . . . . . 4.1.2 Estimation du coût relatif moyen des sinistres. . . . . . . . . . . . 4.1.3 Estimation du taux de prime. . . . . . . . . . . . . . . . . . . . . 4.1.4 Estimation des taux de prime pour les autres garanties dommages 4.2 Vérification des résultats : Erreur de prédiction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 37 37 38 39 39 39 41 42 42 43 43 43 44 44 44 47 47 48 49 . . . . . . 50 50 50 57 58 59 62 Conclusion 63 Annexe 66 Bibliographie 73 DOUANLA Frédéric Hermann ©2014 vii Memoire de Master de Statistique Appliquée, UYI-ENSP Liste des figures LISTE DES FIGURES 2.1 Nombre de polices d’assurance émises selon l’année (pour 2014, période JanvierJuin) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Répartition du portefeuille, fréquence des sinistres et coût relatif moyen des sinistres par type d’énergie (de gauche à droite), avec ES="Essence" et DS="Diesel". 2.3 Répartition du portefeuille, fréquence et coût relatif moyen des sinistres selon la variable PROPRIETAIRE (de gauche à droite). . . . . . . . . . . . . . . . . . 2.4 Répartition du portefeuille par type d’usage, fréquence des sinistres par type d’usage (de gauche à droite). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5 Répartition du portefeuille, fréquence des sinistres et coût relatif moyen des sinistres par type d’usage (de gauche à droite). . . . . . . . . . . . . . . . . . . . . 2.6 Répartition du portefeuille, fréquence des sinistres et coût relatif moyen des sinistres par garantie souscrite (de gauche à droite). . . . . . . . . . . . . . . . . . 2.7 Répartition du portefeuille selon l’âge du preneur d’assurance. . . . . . . . . . . 2.8 Répartition du portefeuille selon l’âge du véhicule. . . . . . . . . . . . . . . . . . 2.9 (a) Fréquence des sinistres selon l’âge du véhicule. (b) Coût relatif moyen des sinistres selon l’âge du véhicule, pour les sinistres ayant un coût non nul. . . . . 2.10 Répartition du portefeuille selon l’âge du permis. . . . . . . . . . . . . . . . . . 2.11 (a) Fréquence des sinistres selon l’âge du permis. (b) Coût relatif moyen des sinistres selon l’âge du permis, pour les sinistres ayant un coût non nul. . . . . . DOUANLA Frédéric Hermann ©2014 viii Memoire de Master de Statistique Appliquée, UYI-ENSP 23 28 29 30 31 31 32 32 33 34 34 Liste des tableaux LISTE DES TABLEAUX 1 2 3 4 5 Fiche d’identification de la SAAR Assurances . . . . . . . . . . . . . . . . . . . Estimation des taux de prime selon les classes de risques en VOL&VOL PARTIEL. Estimation des taux de prime selon les classes de risques en Dommage par Collision. Estimation des taux de prime selon les classes de risques en garantie Bris de Glaces. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Estimation des taux de prime selon les classes de risques en Assistance à la Réparation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 7 8 8 8 1.1 1.2 1.3 Garanties Dommage en assurances automobile . . . . . . . . . . . . . . . . . . . 16 Variables de l’étude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 Garanties dommages en assurance automobile. . . . . . . . . . . . . . . . . . . . 18 2.1 2.2 2.3 Nombre d’observations du coût relatif par garantie. . . . . . . . . . . . . . . . . Répartition du nombre de polices d’assurance souscrites selon l’unité. . . . . . . Nombre de polices d’assurance émises selon l’année (pour 2014, période JanvierJuin) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Résumé Statistique de la variable SEXE. . . . . . . . . . . . . . . . . . . . . . . Résumé Statistique de la variable CATEG.PERMIS. . . . . . . . . . . . . . . Résumé Statistique de la variable PROPRIETAIRE. . . . . . . . . . . . . . . Résumé statistique de la variable GARANTIE. . . . . . . . . . . . . . . . . . Résumé Statistique de la variable ENERGIE. . . . . . . . . . . . . . . . . . . . Résumé Statistique de la variable USAGE. . . . . . . . . . . . . . . . . . . . . Résumé Statistique de la variable AGE.ASSURE . . . . . . . . . . . . . . . . Résumé Statistique de la variable AGE.PERMIS. . . . . . . . . . . . . . . . . Résumé Statistique de la variable AGE.VEH. . . . . . . . . . . . . . . . . . . . Distribution de la variable N.SIN et ajustement par une loi de Poisson. . . . . . Distribution de la variable IND dans le portefeuille. . . . . . . . . . . . . . . . . Résumé statistique de la variable COUT.SIN . . . . . . . . . . . . . . . . . . . Résumé statistique de la variable COUT.RELATIF . . . . . . . . . . . . . . . Résumé Statistique de la variable USAGE après regroupement. . . . . . . . . . Résumé statistique de la variable AGE.VEH.G. . . . . . . . . . . . . . . . . . Table de contingence croisant IND et PROPRIETAIRE, et test d’indépendance du χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Résultats des tests d’indépendance du χ2 sur les tables de contingence croisant les variables tarifaires et IND. . . . . . . . . . . . . . . . . . . . . . . . . . . . . Variables retenues à l’issue de l’analyse descriptive . . . . . . . . . . . . . . . . . 2.4 2.5 2.6 2.7 2.8 2.9 2.10 2.11 2.12 2.13 2.14 2.15 2.16 2.17 2.18 2.19 2.20 2.21 22 22 23 24 24 24 24 25 25 26 26 26 27 27 27 28 30 33 35 35 36 3.1 Fonction variance et paramètres associés aux lois de probabilité usuelles dont les densités sont de la forme (3.1). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 4.1 Résultat de la régression de Poisson avec approche GEE et structure de dépendance AR(1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 Résultats de l’analyse pour le modèle de base avec approche GEE et structure de dépendance AR(1). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 4.2 DOUANLA Frédéric Hermann ©2014 ix Memoire de Master de Statistique Appliquée, UYI-ENSP 4.3 4.4 4.5 4.6 4.7 4.8 4.9 4.10 4.11 4.12 4.13 4.14 4.15 4.16 4.17 Ajustement du modèle de régression de Poisson, modèle final. . . . . . . . . . . Statistiques du rapport de vraisemblance, modèle final. . . . . . . . . . . . . . . Estimation des fréquences des différentes classes de risque pour la garantie Incendie. Estimation du coût relatif moyen selon l’usage du véhicule en garantie Incendie. Estimation des taux de prime selon les classes de risques en garantie Incendie. . Estimation des taux de prime selon les classes de risques en Dommage par Accident. Estimation des taux de prime selon les classes de risques en VOL&VOL PARTIEL. Estimation des taux de prime selon les classes de risques en Dommage par Collision. Estimation des taux de prime selon les classes de risques en garantie Bris de Glaces. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Estimation des taux de prime selon les classes de risques en Assistance à la Réparation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Proportion des différentes catégories d’usage en Assistance Auto . . . . . . . . . Estimation des taux de prime selon les classes de risques en Assistance à la Réparation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Vérification des résultats sur quelques classes de risque. . . . . . . . . . . . . . . Proportion des sinistres ayant un coût de règlement non nul. . . . . . . . . . . . Propriétés de dispersion associées à quelques lois. . . . . . . . . . . . . . . . . . DOUANLA Frédéric Hermann ©2014 x Memoire de Master de Statistique Appliquée, UYI-ENSP 54 55 56 57 58 59 60 60 61 61 62 62 62 64 68 Liste des abréviations LISTE DES ABRÉVIATIONS CIMA : Conférence Interafricaine des Marchés d’Assurances. SAAR : Société Africaine d’Assurance et de Réassurance. ASSAC : Association des Sociétés d’Assurances du Cameroun. ENSP : École Nationale Supéieure Polytechnique. N.SIN : Nombre de Sinistres. DOUANLA Frédéric Hermann ©2014 xi Memoire de Master de Statistique Appliquée, UYI-ENSP Glossaire GLOSSAIRE Assurance : Engagement donné par contrat, à un assuré par un assureur , de le garantir en cas de survenance d’un événement incertain affectant sa personne, ses biens ou sa responsabilité. Cette garantie est donnée contre le paiement d’une prime. 10 Assureur : Terme générique utilisé pour désigner des organismes d’assurance. Disposant d’un agrément, ces entités produisent les contrats d’assurance. 3 Assuré (ou souscripteur) : Personne à qui est accordée la garantie prévue par le contrat d’assurance. 3 Branche de risques : Segmentation ou classification des risques. 4 Capitaux assurés : Représente la valeur de l’objet assuré, et correspond au montant maximal d’indemnisation. 17 Classes de risques : Sous-portefeuilles sur lesquels les risques peuvent être considérés comme équivalents. 4 Contrat d’assurance : Document qui constate l’engagement réciproque de l’assureur et de l’assuré. 10 Coût relatif moyen des sinistres : Proportion moyenne des capitaux, nécessaire pour le règlement d’un sinistre dans un portefeuille donné. 3 Dommage : Perte, destruction, atteinte corporelle, manque à gagner. 14 Exclusion : Ce qui n’est pas garanti par un contrat d’assurance. 14 Franchise : Prévue dans un contrat d’assurance, est la somme restant à la charge de l’assuré (donc non indemnisée par l’assureur). 64 Fréquence des sinistres : Nombre moyen d’occurrence des sinistres sur une période (un an) .3 Garantie : Couverture d’un risque par l’assureur en contrepartie d’une cotisation (ou prime) .3 Portefeuille : Ensemble des contrats d’assurances par branche de risque détenus par une compagnie d’assurance. 3 Prime Pure : C’est le prix du risque. 10 Produit : Rassemblement de plusieurs garanties dans une compagnie d’assurance. 12 Risque : Événement incertain (qui n’a pas encore eu lieu) pouvant affecter une personne, ses biens ou sa responsabilité. 3, 10 DOUANLA Frédéric Hermann ©2014 xii Memoire de Master de Statistique Appliquée, UYI-ENSP Glossaire Sinistralité (en assurance automobile) : se mesure en terme de fréquence des accidents et de coût de ces accidents. 4 Sinistres : Réalisation d’un risque créant des dommages. 10 Taux de Prime : Proportion moyenne des capitaux nécessaire pour le règlement des sinistres sur une période (un an) dans un portefeuille donnée. 4 DOUANLA Frédéric Hermann ©2014 xiii Memoire de Master de Statistique Appliquée, UYI-ENSP Présentation de la SAAR Assurances PRÉSENTATION DE LA SAAR ASSURANCES Créée le 27 novembre 1990 avec pour siège social Yaoundé, la Société Africaine d’Assurance et de Réassurance (SAAR Assurances S.A) est une compagnie d’assurance au capital social de 4,2 milliards de F CFA entièrement libéré, qui est régie par ordonnance N85/003 du 31/08/85. La SAAR Assurances est une compagnie dont l’actionnariat est composé de : • SAPA à 51, 02% du capital ; • Afriland First Bank Cameroun à 11, 7% ; une des principales banques camerounaises, avec un capital social de 15,8 Milliards de F CFA ; • Divers investisseurs camerounais à hauteur de 37, 27%. • Raison sociale : Société Africaine d’Assurance et de Réassurance (SAAR) • Forme juridique : Société Anonyme (S.A.) • Siège social : Yaoundé, Hippodrome BP : 11834 Yaoundé Tél : (237) 22 20 66 48 Fax : (237) 22 20 66 50 • Direction Générale : Rue de la Perouse - Bonanjo - Douala BP : 1011 Douala Tél : (237) 33 43 17 60 Fax : (237) 33 43 17 59 Site web : www.saar-assurances.com • Capital social : 4.2 milliards de F CFA • Vision : World Class African Insurance Ambitions : - Hisser la compagnie au standard international dans le domaine de l’assurance en tenant compte des spécificités africaines ; - Offrir aux assurés des produits et services adaptés à leur environnement ; - Participer efficacement au développement de l’Afrique à travers ses actions. Président du Conseil d’Administration : Dr Paul FOKAM KAMMOGNE Directeur Général : M. Georges Léopold KAGOU Table 1 – Fiche d’identification de la SAAR Assurances La SAAR Assurances est la maison mère du groupe SAAR qui a une étendue à l’échelle continentale et regroupe, entre autres : DOUANLA Frédéric Hermann ©2014 1 Memoire de Master de Statistique Appliquée, UYI-ENSP Présentation de la SAAR Assurances Compagnies SAAR SAFAR EGICO SAAR-VIE SAT SAARB CEA SAAR-VIE SAARL Pays Douala-Cameroun (Maison mère) NDjamena-Tchad Malabo-Guinée Equatoriale Dakar-Sénégal Sao Tomé et Principe Cotonou-Bénin Côte d’Ivoire Cameroun Monrovia-Libéria Contact (237)33 43 17 65 (235)22 52 09 80 (240)333 09 3578 (221)33 889 87 87 (239)22 26 161 (229)213002887 +22507727071 (237)99 91 62 79 (231)776 44 35 29 La SAAR Assurances offre des produits d’assurance dans les branches automobile, santé, responsabilité civile, transports, incendie et risques divers. En termes de chiffre d’affaires, le Cameroun est classé deuxième marché d’assurance (après la Côte d’Ivoire) dans l’espace CIMA1 . Les chiffres publiés dans le récent Magazine de l’ASAC2 [1], positionne la SAAR Assurances deuxième compagnie d’assurances au Cameroun en termes de chiffre d’affaires. 1 2 CIMA : Conférence Interafricaine des Marchés d’Assurances ASAC : Association des Sociétés d’Assurances du Cameroun DOUANLA Frédéric Hermann ©2014 2 Memoire de Master de Statistique Appliquée, UYI-ENSP Introduction INTRODUCTION Contexte L’assurance est un engagement donné par contrat, par un Assureur à un Assuré, de le garantir en cas de survenance d’un événement incertain affectant sa personne, ses biens ou sa responsabilité. Cette garantie est donnée contre le paiement d’une prime d’assurance par l’assuré (Cf. [3]). La prime d’assurance se décompose généralement en prime pure, frais d’acquisition et frais de gestion, ainsi que des taxes. Ici, c’est la prime pure qui représente le prix du Risque. Il s’agit du montant dont doit disposer l’assureur pour dédommager (en moyenne) les assurés suite aux sinistres survenus, sans excédent, ni déficit. Toutefois, la charge financière qui pourra être occasionnée par un contrat du Portefeuille est inconnue au début de la période d’assurance alors que la prime doit être réclamée. La prime pure ou technique est fonction de l’assiette des capitaux assurés (qui représente la valeur de l’objet assuré), et du taux de prime selon la formule suivante : PRIME PURE = TAUX DE PRIME × CAPITAUX ASSURÉS Le taux de prime, ainsi que la valeur des capitaux assurés, correspondent à l’importance du risque à garantir. Le taux de prime est déterminé en fonction de la Fréquence des sinistres et du Coût relatif moyen des sinistres (voir [2], [4] ou [13]), sur des bases mathématiques et statistiques, selon la formule suivante : Taux de prime = Fréquence × Coût relatif moyen des sinistres Problématique Dès lors, il est question de déterminer si les primes appliquées en Garantie dommage automobile sont en adéquation avec la sinistralité actuelle du portefeuille de la compagnie SAAR. Puisque nous nous intéressons au montant déboursé par la compagnie pour le règlement des sinistres, il est important d’étudier l’adéquation entre les primes pures évaluées et les règlements des sinistres présents. Face à ce problème, la procédure à suivre, sur la base de données historiques, est la suivante : • Partant de la charge de sinistres actuelle d’une garantie donnée, on estime le taux de prime qui aurait dû être appliqué pour pouvoir régler ces sinistres. • Ensuite, on compare ce taux de prime estimé à celui appliqué effectivement. • Enfin, on tire des conclusions. DOUANLA Frédéric Hermann ©2014 3 Memoire de Master de Statistique Appliquée, UYI-ENSP Introduction Objectif Notre objectif est donc l’estimation des différents Taux de Prime par garantie dommage en assurance automobile, qui sont en adéquation avec la Sinistralité actuelle du portefeuille de la compagnie SAAR Assurances, et de les comparer à ceux appliqués actuellement. Plan de travail Pour ce faire, nous allons adopter le plan de travail suivant : 1. Le premier chapitre introduit les bases nécessaires à la compréhension des données de l’étude. Il est consacré à la présentation de l’assurance automobile ainsi que celle des données. 2. Le deuxième chapitre s’attèle à l’analyse descriptive des variables d’étude. L’objectif visé dans ce chapitre est de partitionner le portefeuille afin de constituer des sous-portefeuilles sur lesquels les risques puissent être considérés comme équivalents : on parle de Classes de risques . Ici, il sera question d’une tarification a priori car il s’agit de classer le risque à partir d’informations déjà disponibles ; contrairement à la tarification a posteriori où l’information sur l’historique des sinistres de l’assuré est prise en considération. Pour ce faire, on aura recours à l’usage des paramètres de dispersion, de tendance centrale, des graphiques, ainsi que de test d’indépendance. 3. Le troisième chapitre met sur pied les bases théoriques des outils de modélisation statistique permettant l’atteinte de l’objectif fixé. Parmi ces outils, on a la régression de Poisson longitudinale qui fait partie des modèles linéaires généralisés (GLM, pour Generalized Linear Models) introduits en statistique par [16]. Ce modèle permettra d’estimer la fréquence des sinistres. Ses paramètres seront estimés avec prise en compte de la dépendance temporelle à l’aide de la technique GEE (Generalized Estimating Equation) proposée par [14]. Par ailleurs, il sera également question d’avoir recours à l’estimateur empirique de la moyenne qui permettra d’estimer le coût relatif moyen des sinistres. Le chapitre s’achèvera avec la présentation de la méthode de rééchantillonnage bootstrap qui va nous permettre d’obtenir les marges de réduction possibles des taux de prime. 4. Le quatrième et dernier chapitre consistera en l’application des méthodes statistiques aux données d’apprentissage (i.e. de l’historique du portefeuille) afin d’obtenir une estimation des différents taux de prime par garantie dommage dans la Branche de risques automobile. Nous terminerons par une conclusion dans laquelle les principaux résultats seront récapitulés, des recommandations seront suggérées et enfin des éventuelles limites de cette étude, ainsi que les perspectives seront faites. Le document s’achèvera par des Annexes portant sur quelques démonstrations de résultats ainsi que les principaux programmes algorithmiques utilisés. Nos analyses et représentations seront effectuées à l’aide du logiciel statistique R 2.15.1 [21], et la fonction geeglm du package geepack sera utilisée (Cf. [11]). DOUANLA Frédéric Hermann ©2014 4 Memoire de Master de Statistique Appliquée, UYI-ENSP Résumé Exécutif RÉSUMÉ EXÉCUTIF Problématique La sinistralité en assurance automobile se mesure en terme de fréquence des accidents et de coût de ces accidents. Dans un marché camerounais qui devient de plus en plus concurrentiel, la SAAR Assurances cherche à déterminer si les taux de prime appliqués en garantie dommage sont en adéquation avec la sinistralité actuelle de son portefeuille automobile. C’est dans cette optique cette étude à été mise sur pied. Dans cette étude, il a été question de s’intéresser au montant déboursé par la compagnie pour le règlement des sinistres ; d’où l’importance d’étudier l’adéquation entre les primes pures évaluées et les règlements des sinistres présents. Notons que la prime pure est le prix du risque : il s’agit du montant dont doit disposer l’assureur pour dédommager (en moyenne) les assurés suite aux sinistres survenus, sans excédent, ni déficit. La marge de bénéfices de l’assureur ne fait pas partie de la prime pure. Ainsi, la totalité de l’encaissement pur sera retournée aux assurés sous forme d’indemnité. La prime pure est fonction des capitaux assurés , et du taux de prime selon la formule suivante : PRIME PURE = TAUX DE PRIME × CAPITAUX ASSURES Le taux de prime qui représente la proportion moyenne des capitaux nécessaire pour le règlement des sinistres sur une année est déterminé en fonction de la fréquence et du coût relatif moyen des sininstres, selon la formule suivante : Taux de prime = Fréquence × Coût relatif moyen des sinistres avec le coût relatif moyen qui représente proportion moyenne des capitaux, nécessaire pour le règlement d’un sinistre. Obejectif Notre objectif était d’estimer les différents taux de prime par garantie dommage qui sont en adéquation avec la sinistralité actuelle du portefeuille de la compagnie SAAR Assurances, et de les comparer à ceux appliqués actuellement. Pour ce faire, la procédure à suivre, sur la base de données historiques, a été la suivante : • Partant de la charge de sinistres actuelle d’une garantie donnée, nous avons estimé les taux de prime par classe de risque qui auraient dû être appliqués pour pouvoir régler ces sinistres ; • Ensuite, on a procédé à une analyse comparative entre ces taux de prime estimés et ceux appliqués actuellement, afin d’en tirer des conclusions objectives. DOUANLA Frédéric Hermann ©2014 5 Memoire de Master de Statistique Appliquée, UYI-ENSP Résumé Exécutif Méthodologie Les données utilisées dans cette étude intègrent un aspect temporelle, car il s’agit des données observées avec répétition sur certains assurés. Ces données font partie de la classe des données longitudinales. En ce qui concerne la modélisation de la fréquence des sinistres, on a observé le nombre de sinistres subis par un assuré sur un an : il est ainsi question d’un processus de comptage sur des données longitudinales. La demarche méthodologique mise en œuvre dans ce mémoire s’est déclinée comme suit : 1. Le premier chapitre a introduit les bases nécessaires à la compréhension des données de l’étude. Il a été consacré à la présentation de l’assurance automobile et à celle des données y afférent . 2. Le deuxième chapitre s’est attelé à l’analyse descriptive des variables d’étude. L’objectif visé dans ce chapitre était de sélectionner les facteurs qui contribuent à expliquer la sinistralité du portefeuille. D’une part, des histogrammes ainsi que de tests du χ2 ont été utilisés pour mettre en évidence l’influence des variables explicatives (toutes catégorielles) sur la fréquence des sinistres. D’autre part, des boîtes à moustache ainsi que de tests de Kruskall-Wallis ont été mis en œuvre pour percevoir l’influence des variables explicatives sur le coût relatif moyen des sinistres. 3. Le troisième chapitre était reservé à la présentation des outils de modélisation statistique qui ont permis d’atteindre l’objectif fixé. Parmi ces outils, on a eu la regression de Poisson longitudinale qui fait partie des modèles linéaires généralisés (GLM, pour "Generalized Linear Models") introduits en statistique par [16]. Ce modèle a permis d’estimer la fréquence des sinistres. Ses paramètres ont été estimés avec prise en compte de la dépendance temporelle à l’aide de la technique GEE ("Generalized Estimating Equation") proposée par ([14]). Ce choix a été justifié par le fait qu’il s’agit de la modélisation d’un processus de comptage d’un événement rare (nombres de sinistres) sur une période fixe (une année). Il a été également question d’avoir recours à l’estimateur empirique de la moyenne qui a permis d’estimer le coût relatif moyen des sinistres. Ce chapitre s’est achevé avec la présentation de la méthode de rééchantillonnage "bootstrap", qui nous a permis d’obtenir les marges de réduction possibles des taux de prime. Ces analyses et représentations ont été effectuées à l’aide du logiciel statistique R 2.15.1 , et la fonction geeglm du package geepack a été utilisée. Résultats De façon générale, nous avons obtenu que : • la Garantie souscrite ; • la catégorie d’usage du véhicule ; • le nombre d’années de mise en circulation du véhicule assuré ; • le fait pour le preneur d’assurance d’être propriétaire ou non du véhicule assuré, DOUANLA Frédéric Hermann ©2014 6 Memoire de Master de Statistique Appliquée, UYI-ENSP Résumé Exécutif sont des indicateurs qui influencent la sinistralité. Il découle également de cette étude que les taux de prime sont légèrement plus élevés pour les véhicules ayant moins de 5 années de circulation. Il en est de même des non-propriétaires du véhicule assuré. Toutefois, les taux de prime restent, de manière sommaire faibles, relativement aux taux mentionnés dans le tarifaire de la compagnie. De façon spécifique, les observations suivantes ont été faites selon la Garantie étudiée : ***Garantie INCENDIE De manière générale, les taux de prime sont légèrement plus élevés pour les véhicules âgés de moins de 5 ans. Les véhicules de catégorie 1 (véhicules de tourisme), 2 (véhicules pour transport des produits de l’assuré) ainsi que ceux de catégorie 4 (taxis de ville (4A), véhicules de transport public de voyageurs (4B) et autocars de transport des élèves et du personnel à titre gratuit (4C)) ; sont particulièrement exposés au risque Incendie avec des taux de prime qui excèdent ceux en vigueur (Voir résultats au chapitre 4). ***DOMMAGE PAR ACCIDENT Nous avons obtenu que les non-propriétaires ont une sinistralité plus élevée relativement aux propriétaires. Ceci traduit un risque plus élevé en Dommage par Accident chez les véhicules assurés en flotte. Cependant, ces taux restent inférieurs aux taux de prime en vigueur (Voir résultats au chapitre 4). ***VOL&VOL PARTIEL USAGE PROP. CAT 1 O N O N O N CAT 2 CAT 8G VOL&VOL PARTIEL Taux (%) IC (95%) estimé 0.340 [0.295; 0.381] 0.0156 [0.0135; 0.0175] 0.231 [0.195; 0.285] 0.0106 [0.00896; 0.01306] 0.284 [0.262; 0.301] 0.0130 [0.0120; 0.0138] Taux en vigueur (%) [2.00; 2.50] [2.00; 2.50] 2.00 2.00 [2.50; 3.13] [2.50; 3.13] Taux de variation 83% & 99.22% & 88.45% & 99.47% & 88.64 & 99.48 & Table 2 – Estimation des taux de prime selon les classes de risques en VOL&VOL PARTIEL. Le risque de VOL&VOL PARTIEL selon la catégorie d’usage est plus élevé chez les propriétaires relativement aux non-propriétaires. Toutefois, ces différents taux restent largement en dessous des taux en vigueur. DOUANLA Frédéric Hermann ©2014 7 Memoire de Master de Statistique Appliquée, UYI-ENSP Résumé Exécutif ***DOMMAGE COLLISION USAGE CAT 1 CAT 2 DOMMAGE COLLISION Taux (%) Taux en IC (95%) estimé vigueur (%) 0.442 [0.367; 0.514] 1.00 0.382 [0.341; 0.421] 1.50 Taux de variation 55.8% & 74.53% & Table 3 – Estimation des taux de prime selon les classes de risques en Dommage par Collision. Les différents taux de prime en adéquation avec la sinistralité actuelle restent inférieurs aux taux en vigueur. ***BRIS DE GLACES USAGE PROP. CAT 1 O N O N O N CAT 2 CAT 8G BRIS DE GLACES Taux (%) IC (95%) estimé 0.0321 [0.0284; 0.0354] 0.1027 [0.0907; 0.1131] 0.0321 [0.0321; 0.0321] 0.1027 [0.103; 0.103] 0.0290 [0.0249; 0.0337] 0.0929 [0.0796; 0.1079] Taux en vigueur (%) 0.50 0.50 0.50 0.50 [0.60; 0.75] [0.60; 0.75] Taux de variation 93.58% & 79.46% & 93.58% & 79.46% & 95.16% & 84.51% & Table 4 – Estimation des taux de prime selon les classes de risques en garantie Bris de Glaces. Les taux de prime sont plus élevés chez les non-propriétaires. Cependant, ces taux restent inférieurs aux taux en vigueur. ***ASSISTANCE À LA REPARATION ÂGE.VEH.G ≤ 5ans > 5ans ASSISTANCE À LA REPARATION Taux (%) Taux en Proportion IC (95%) estimé vigueur (%) 37.3% 3.15 [2.85; 3.39] 2.75 62.7% 1.21 [1.05; 1.29] 2.75 Taux de variation 14.54% % 61.81% & Table 5 – Estimation des taux de prime selon les classes de risques en Assistance à la Réparation. Nous avons obtenu que la classe des véhicules de moins de 5 ans ont une sinistralité plus élevée que celle des véhicules de plus de 5 ans. Comparativement au taux en vigueur, le taux en adéquation avec la charge des sinistres est plus élevé pour les véhicules ayant plus de 5 années de circulation. DOUANLA Frédéric Hermann ©2014 8 Memoire de Master de Statistique Appliquée, UYI-ENSP Résumé Exécutif Recomandations Dans un premier temps, nos suggestions vont à l’endroit des producteurs de contrats : • Pour avoir une fiabilité plus significative des données, les différents capitaux doivent être renseignés avec précaution par les producteurs de contrats. Nous pensons ici à la valeur à neuf, la valeur vénale ainsi que la valeur agréée ; • Une attention particulière doit être accordée lors du renseignement du numéro d’immatriculation du véhicule. • Enfin, un effort doit être fourni pour remplir les champs obligatoires avec des données fiables. En ce qui concerne nos résultats, nous faisons les suggestions suivantes : • Pour la garantie INCENDIE, malgré le fait que la charge des sinistres soit globalement solvable pour cette garantie, on observe après estimation et vérification des résultats, une sous-tarification de la garantie notamment dans les classes de risque (INCENDIE, CAT 1, > 5ans, N), (INCENDIE, CAT 1, ≤ 5ans, N) et (INCENDIE, CAT 1, > 5ans, N). Par conséquent, il est nécessaire de faire le contrôle de résultats pour toutes les autres classes de risque afin d’y appliquer les taux estimés qui sont en adéquation avec leur sinistralité ; • Pour les garanties Vol&Vol Partiel, Bris de Glaces, Dommage par Collision ainsi que la garantie Dommage par Accident, les taux estimés sont largement en dessous des taux existant. Par conséquent, des réductions de prime peuvent être accordées tout en restant au-dessus de la borne supérieure de l’intervalle de confiance du taux estimé. Il est à noter qu’un chargement de prime devrait être fait préalablement selon la marge de rentabilité escomptée par la compagnie afin d’avoir la prime nette applicable. • Nous suggérons également que des études similaires s’étendent aux autres branches de risque. Ceci permettrait à la compagnie SAAR d’avoir une idée permanente sur la sinistralité de son portefeuille, afin d’être plus compétitive sur le marché d’assurance camerounais. DOUANLA Frédéric Hermann ©2014 9 Memoire de Master de Statistique Appliquée, UYI-ENSP Chapitre Premier NOTION D’ASSURANCE ET PRÉSENTATION DES DONNÉES Avant de procéder à une éventuelle modélisation statistique, il est indispensable de comprendre les données, ainsi que le domaine duquel elles proviennent. Dans ce chapitre, il est question, dans un premier temps, de présenter la notion de prime d’Assurance, car elle constitue la clé de notre étude. Ensuite, nous faisons la présentation de la branche automobile de la compagnie SAAR (celle sur laquelle portera notre modélisation statistique de la sinistralité), et nous terminerons par la présentation générale des données d’étude et des variables impliquées. 1.1 Notion de Prime d’Assurance La prime payée par l’assuré, pour la couverture d’un risque par l’assureur, se décompose en trois parties : • la prime pure ; • les chargements (frais d’acquisition et de gestion) ; • les taxes. Les deux derniers points ne relèvent pas du champ de la présente étude. Notre travail porte essentiellement sur une modélisation statistique en vue d’une détermination aussi optimale que possible, à partir du portefeuille présent et passé de la Branche Automobile à la SAAR, de la prime pure applicable aux différentes Garanties de cette branche de l’activité de la compagnie. 1.1.1 La Prime Pure Définition 1.1.1 La prime pure est le prix du Risque : il s’agit du montant dont doit disposer l’assureur pour dédommager (en moyenne) les assurés suite aux Sinistres survenus dans une classe de risques, sans excédent, ni déficit [4]. La marge de bénéfices de l’assureur ne fait pas partie de la prime pure. Ainsi, la totalité de l’encaissement pur sera retournée aux assurés sous forme d’indemnité. Donc, la totalité des primes pures relatives au portefeuille doit permettre à l’assureur de remplir ses obligations de garanties. Cadre Théorique de détermination de la Prime Pure Notons Ω, l’ensemble des polices d’assurances (ou Contrat d’assurance) du portefeuille automobile de la compagnie SAAR S.A. Soit S, la charge totale des sinitres relative à un assuré DOUANLA Frédéric Hermann ©2014 10 Memoire de Master de Statistique Appliquée, UYI-ENSP 1.1. NOTION DE PRIME D’ASSURANCE pris au hazard dans le potefeuille au cours d’une période d’assurance. De façon classique, le rôle de l’assurance est de substituer une constante c (la prime d’assurance) à la variable aléatoire réelle S (définie sur Ω). Une manière raisonnable de déterminer c serait de choisir la constante ”la plus proche”de la variable aléatoire S. La distance utilisée pour mesurer la proximité entre S et c doit tenir compte du fait que c doit mettre l’assureur en mesure de dédommager les sinistres, sans excédent, ni déficit. Ainsi, la distance doit pénaliser aussi bien les cas où c est inférieure à S (c < S) , que ceux où c est supérieure à S (c > S) .Une distance pénalisant toute sur-évaluation ou sous-évaluation de la prime est l’écart quadratique moyen défini par d2 (S, c) = E (S − c)2 , où E [X] désigne l’espérance mathématique ou moyenne de la v.a.r. X. Maintenant que la mesure d2 de proximité a été donnée, il est question de trouver la constante c la plus proche de S, c’est-à-dire la valeur de c qui minimise d2 (S, c) . Dans cet objectif, on a : d2 (S, c) = E (S − c)2 = E (S − E [S] +E [S] − c)2 = E (S − E [S])2 + 2 (E [S] − c) E [S − E [S]] + (E [S] − c)2 {z } | = 0 = (E [S] − c)2 + E (S − E [S])2 . or le terme E (S − E [S])2 est constant par rapport à c; d’où l’on déduit que la valeur de c minimisant E (S − c)2 est E [S] . Donc E [S] est l’évaluation de la prime pure. Remarquons qu’en prenant c = E [S] , on obtient d2 (S, c) = V [S] . Ici, la variance prend donc toute son importance, car elle mesure la distance séparant la dépense aléatoire S de l’assureur sur chaque assuré de la prime pure E [S] qu’il réclame à l’assuré. Il s’agit donc d’une mesure du risque que prend l’assureur en remplaçant S par E [S] pour les assurés de la police concernée (au sens de la distance d2 ). 1.1.2 La Prime Nette En pratique, l’assureur ne se contente pas de la prime pure mais lui ajoute un chargement de sécurité, supposé corriger les écarts entre la réalité observée et l’approximation induite par la loi des grands nombres. Par le terme prime nette, On désigne la prime pure à laquelle on a ajouté le chargement de sécurité. De façon classique, ce chargement de sécurité est exprimé sous la forme d’un pourcentage de la prime pure, de sorte que Pnette = (1 + ρ) Ppure , (1.1) où ρ est appelé le taux de chargement de sécurité, avec ρ > 0. 1.1.3 La Prime Commerciale À la prime nette, viennent s’ajouter la quote-part des frais généraux de la compagnie d’assurance, plus le bénéfice que l’assureur entend se réserver, ainsi que les taxes reservées à l’État ; le total donne la prime commerciale1 dont l’assuré doit s’acquitter pour bénéficier de la couverture proposée par l’assureur. Le mécanisme de fixation de la prime commerciale 1 Ou prime totale ou prime des tarifs DOUANLA Frédéric Hermann ©2014 11 Memoire de Master de Statistique Appliquée, UYI-ENSP 1.2. ASSURANCE AUTOMOBILE fait également intervenir des considérations de marketing, alors loin des considérations de notre étude statistique. À présent, faisons un pas vers la présentation des données, en décrivant tout d’abord la branche de risque d’où elles proviennent. 1.2 Assurance Automobile Définition 1.2.1 L’Assurance Automobile est une assurance qui couvre les dommages causés «avec» ou «à» un véhicule automobile. Ces dommages peuvent être matériels, immatériels ou corporels. C’est une assurance obligatoire pour les véhicules terrestres à moteur ainsi que leurs remorques et semi-remorques (Art. 200 code CIMA). 1.2.1 Branches de risque commercialisées par la SAAR S.A. La compagnie SAAR Assurances S.A. commercialise plusieurs branches de risque à savoir la branche : • Automobile ; • Maladie / Accidents/Assistance/Evacuation ; • Transport maritime, terrestre et aérien ; • Dommages aux biens ; • Incendie et risques techniques ; • Responsabilités civiles générales. Elle commercialise également des Produit spécifiques : • Saar Assistance automobile ; • Joker Auto ; • Saar Assistance Voyage ; • Joker Familial ; • Secup 2000 ; • Joker Santé. De toutes ces branches, la branche automobile est celle qui produit la plus grande proportion du chiffre d’affaires de l’entreprise. Considérée comme une branche des risques de masse, elle revêt une importance particulière dans la mesure où la sinistralité peut varier considérablement d’une année à l’autre dans le portefeuille automobile ou dans une classe de risque de celui-ci. DOUANLA Frédéric Hermann ©2014 12 Memoire de Master de Statistique Appliquée, UYI-ENSP 1.2. ASSURANCE AUTOMOBILE 1.2.2 Les différentes garanties en Assurance Automobile En assurance automobile, on distingue deux groupes de garantie : les garanties obligatoires qui couvrent les dommages causés aux tiers, et les garanties facultatives, encore appelées garanties dommages, qui couvrent les dommages subis par le véhicule assuré. A) Les garanties obligatoires (a) Garantie obligatoire du fait de la loi • La Responsabilité Civile (RC) Cette garantie s’applique aux conséquences pécuniaires de la responsabilité civile que l’assuré peut encourir, en raison des dommages corporels ou matériels causés à autrui résultant : – d’accident, d’incendie ou d’explosion causés par le véhicule, les accessoires et produits servant à son utilisation, les objets et substances qu’il transporte ; – de la chute de ses accessoires, objets, substances et produits. • La Responsabilité Tiers Incendie (RTI) Par celle-ci, la compagnie garantit les conséquences pécuniaires de la responsabilité civile que l’assuré peut encourir en raison des dommages matériels causés aux tiers par les jets de flamme, explosions ou incendie provenant du véhicule assuré. Le tarifaire de ces garanties est fixé par l’État. Les tarifs existants datent de mai 1965, fixés par l’ex- Ministère de l’Économie et des Finances. (b) Garanties obligatoires du fait de la politique interne de la SAAR • La Défense et Recours (DR) Cette garantie se subdivise en deux garanties : – La Défense : l’assureur s’engage à pourvoir, à ses frais, à la défense de l’assuré devant les juridictions compétentes si ce dernier est poursuivi à la suite d’un sinistre couvert au titre de la garantie Responsabilité Civile ; – Le Recours : à la suite d’un accident dans lequel le véhicule assuré est impliqué, l’assureur s’engage à réclamer la réparation des préjudices corporels et matériels subis par l’assuré à l’amiable, si la faute incombe à un tiers identifié responsable (fautif, non titulaire du permis de conduire ou ayant utilisé le véhicule à l’insu du propriétaire). • Individuelle Personnes Transportées (IPT) Cette garantie prend en charge le chauffeur et les passagers en cas d’accident. Elle comporte trois sous garanties à savoir : – Décès : un capital est versé en cas de décès accidentel ; – Infirmité partielle ou totale ; – Frais de traitement. DOUANLA Frédéric Hermann ©2014 13 Memoire de Master de Statistique Appliquée, UYI-ENSP 1.2. ASSURANCE AUTOMOBILE • Individuelle Accident Chauffeur (IAC) Cette garantie comporte les trois sous-garanties précédentes, et prend uniquement le chauffeur en charge en cas d’accident. Pour ces garanties obligatoires, la fixation des primes ne relève pas de la compétence de la compagnie. Par conséquent, notre analyse ne portera pas sur ces dernières. Nous présentons, à présent, les garanties dommage dont la prime pure est fonction du capital assuré et du taux de prime qui s’y applique. B) Les garanties Dommage causées au véhicule assuré Ces garanties sont facultatives et couvrent les dommages subis par le véhicule assuré. Nous allons d’abord présenter les différentes garanties dommages, avant de mentionner les conditions particulières, de même que les exclusions qui s’y appliquent. i. Dommages par accident : Cette garantie couvre les dommages subis par le véhicule assuré avec les accessoires et pièces de rechange dont le catalogue du constructeur prévoit la livraison en même temps que celle du véhicule. Ceci n’est faisable que lorsque ces dommages résultent, soit d’une collision avec un autre véhicule, soit d’un choc contre un corps fixe ou mobile, soit d’une chute dans les ravins ou cours d’eau. La garantie Dommages par accident couvre les garanties Dommage par Collision, Bris de glaces & Blocs feux. Elle est reservée pour les véhicules dont l’âge n’excède pas trois ans. Exclusion : sont exclus de cette garantie les dommages occasionnés par le contenu du véhicule ; ceux subis par les pneumatiques et chambres à air ; ainsi que ceux causés au véhicule par les marchandises et objets transportés. ii. Dommages par collision : Cette garantie couvre tous les dommages subis par le véhicule assuré, les accessoires et pièces de rechange dont le catalogue du constructeur prévoit la livraison en même temps que celle du véhicule. Elle est utilisée lorsque les dommages résultent d’une collision avec un corps fixe et identifiable. N.B. Le capital assuré pour chacune de ces Garanties Dommage, par accident et par collision, est appelé Valeur Neuve du véhicule assuré. iii. Incendie : Cette garantie ne vaut que lorsque les dommages résultent soit d’un incendie, soit d’une chute de foudre, d’une explosion ou une combustion instantanée. Elle couvre alors les dommages causés au véhicule assuré, avec les accessoires et pièces de rechange dont le catalogue du constructeur prévoit la livraison en même temps que celle du véhicule. Exclusions : Sont exclus de cette garantie les dommages liés aux appareils électriques et qui résultent de leur seul fonctionnement, ainsi que les dommages ne pouvant être considérés comme provenant d’un incendie. iv. Vol Total : Cette garantie couvre les dommages résultant de la disparition ou de la détérioration du véhicule assuré, soit à la suite d’un vol ou d’une tentative de vol, ainsi que les frais engagés légitimement par l’assuré avec l’accord de l’assureur pour récupérer le véhicule assuré volé. DOUANLA Frédéric Hermann ©2014 14 Memoire de Master de Statistique Appliquée, UYI-ENSP 1.2. ASSURANCE AUTOMOBILE v. Vol Total & Vol Partiel : En plus des dommages couverts par la garantie Vol Total, cette garantie couvre les dommages résultant de la disparition d’accessoires et pièces de rechange. vi. Vol Brigandage : Cette garantie répare les dommages résultant de la disparition d’accessoires et pièces de rechange dérobés séparément. Elle s’applique pour les vols par effraction, soit par escalade dans les remises et garages ou avec violences corporelles. Exclusions aux garanties Vol : sont exclus de la garantie les vols commis par les préposés de l’assuré, ou avec leur complicité pendant leur service, de même que ceux commis par les membres de sa famille, par toute autre personne habitant sous son toit, ou avec leur complicité. vii. Bris de Glaces : La garantie Bris de Glaces couvre exclusivement les dommages accidentels causés aux glaces latérales et à la lunette arrière. viii. Pares Brises & Bloc Feux : Cette garantie couvre les dommages causés au pare-brise, aux phares, aux miroirs, ainsi qu’aux feux de position. Exclusions : sont exclus de cette garantie les dommages éprouvés en cours de transport du véhicule assuré. ix. Assistance automobile ou Assistance à la réparation : C’est un produit spécifique de la SAAR assurances. Elle garantit la prise en charge de la réparation du véhicule avant de rechercher toute responsabilité, ou d’effectuer tout recours. Le capital assuré pour cette garantie est appelé Valeur Agréée. Exclusions communes aux Garanties Dommage : sont exclus de toutes ces Garanties Dommage : • les dommages occasionnés par un cataclysme ; • les dommages subis par le véhicule lorsque le conducteur se trouve en état d’ivresse dûment constaté par les autorités compétentes ; • les frais de dépannage, de remorquage, de transport, de garage ; • les dommages indirects tels que la privation de jouissance ou dépréciation. Le Tableau 1.1 résume les différentes Garanties Dommage en automobile, tout en précisant les capitaux qui s’y appliquent. Un souscripteur d’assurance automobile peut, en plus des garanties obligatoires, souscrire à une ou plusieurs Garanties Dommage. La logique de souscription des garanties facultatives est la suivante : • La couverture minimale est l’Incendie ; • La couverture maximale ou Tous Risques associe les garanties «Dommages par accident, Incendie, Vol Total & Vol Partiel et Vol Brigandage » pour les véhicules de moins de trois ans d’âge. Elle associe l’«Assistance automobile, Incendie, Vol Total & Vol Partiel, Vol Brigandage» pour les véhicules qui ont plus de trois années de circulation. DOUANLA Frédéric Hermann ©2014 15 Memoire de Master de Statistique Appliquée, UYI-ENSP 1.3. PRÉSENTATION DES DONNÉES Garanties Dommages par accident Dommages par collision Incendie Vol Total Vol Total & Vol Partiel Vol Brigandage Bris de Glaces Pares Brises & Bloc Feux Assistance automobile Capitaux Valeur Neuve Valeur Neuve Valeur Vénale Valeur Vénale Valeur Vénale Valeur Vénale Valeur Neuve Valeur Neuve Valeur Agréée Table 1.1 – Garanties Dommage en assurances automobile Nous allons maintenant voir les différents paramètres qui entrent en jeu dans la tarification d’une garantie dommage en assurance automobile. 1.3 Présentation des Données Dans cette section, nous allons présenter les données de notre étude. L’emphase sera mise sur leur origine, la procédure d’obtention de la base de données de travail, la description de l’unité statistique de notre base et, enfin, la présentation des variables impliquées dans l’étude. 1.3.1 Origine des Données Les données de notre étude proviennent du portefeuille d’assurance automobile de la compagnie SAAR Assurances. Il s’agit d’un certain nombre d’informations dont l’assureur a besoin lors d’une souscription à une Garantie Dommage donnée. Ces données proviennent de trois unités opérationnelles (agence qui produit des contrats pour le compte de la compagnie) à savoir un Bureau Direct et deux agences de courtages. Cependant, la compagnie disposait d’une vingtaine d’unités opérationnelles pendant la période d’étude. Mais dans la plupart de ceux-ci, les Garanties Dommages sont très faiblement souscrites, et les assurés ne se contentent que des Garanties obligatoires. Dès lors, nous pensons que les trois unités que nous avons choisies pour cette étude constituent un échantillon représentatif des unités opérationnelles de la compagnie SAAR Assurances en ce qui est des Garanties Dommages. Nous disposons d’une base de données initiale constituée de n = 178 155 lignes et p = 18 colonnes. Ces données ont étés collectées durant 14 ans, à savoir de 2000 à 2014. Initialement stockées dans une Base de Données, elles ont étés extraites, et transférées dans un fichier .csv du logiciel EXCEL, où un travail préliminaire et très déterminant pour la suite de l’étude sera fait. Il s’agit du formatage de la base de données dont les différentes étapes sont présentées juste après la présentation des données brutes de la base. Toutefois, notons qu’à l’issue de ce travail de vérification des données, l’on dispose d’un tableau constitué de n = 110 658 observations et p = 18 variables. Ce fichier sera importé plus tard vers le logiciel R, qui sera le logiciel de base pour cette étude (voir [6] pour son utilisation). DOUANLA Frédéric Hermann ©2014 16 Memoire de Master de Statistique Appliquée, UYI-ENSP 1.3. PRÉSENTATION DES DONNÉES 1.3.2 Définition de l’Unité Statistique Le tableau de données de cette étude a n = 110 658 lignes et p = 18 colonnes. Ici, les p = 18 colonnes représentent les variables décrites ci-dessous. Chaque ligne représente un véhicule qui a eu à souscrire à une garantie dommage pendant un an, durant la période allant de 2000 à 2014. Sur ce véhicule, l’on a observé les réalisations des variables consignées dans le Tableau 1.2. Ainsi, un véhicule sera caractérisé par son immatriculation et une garantie souscrite. Dès lors, pour un véhicule donné, et pour une année donnée, on aura autant de lignes que de garanties souscrites par ce véhicule. En somme, nous disposons de 43 215 unités statistiques. Variable ID ANNEE UNITE SEXE AGE.ASSURE AGE.PERMIS CATEG.PERMIS PROPRIETAIRE NUM.IMMAT. AGE.VEH GARANTIE ENERGIE USAGE CAPITAUX N.SIN IND COUT.SIN COUT.RELATIF Description Identification de l’unité statistique Année de souscription Unité de production des contrats. Sexe du preneur d’assurance Âge du preneur d’assurance Âge du permis de conduire Catégorie du permis de conduire Propriétaire du véhicule ou non Immatriculation du véhicule Âge du véhicule Garantie souscrite Source d’énergie du moteur Catégorie d’usage du véhicule Capitaux assurés (valeur de l’objet) Nombre de sinistres Code sinistre Coût des sinistres Coût relatif des sinistres Table 1.2 – Variables de l’étude 1.3.3 Présentation des Variables Ces variables sont classées en quatre groupes : celles qui caractérisent l’unité statistique, celles qui caractérisent le preneur d’assurance, celles qui caractérisent le véhicule assuré et enfin celles qui caractérisent la sinistralité du véhicule assuré. 1.3.3.1 Caractéristiques de l’unité statistique i. ID : variable à valeurs entières, qui identifie un véhicule par son immatriculation et une garantie dommage qu’il a souscrite. Si un véhicule a souscrit à une garantie dommage pendant n années, alors la modalité de la variable "ID" qui le représente va apparaître n fois dans le tableau de données. ii. ANNEE : variable entière qui, à chaque véhicule, donne l’année à laquelle il a souscrit à sa garantie dommage. Ses modalités sont les années allant de 2000 à 2014. iii. UNITE : variable qui indique l’agence qui produit des contrats pour le compte de la compagnie (unités opérationnelles). DOUANLA Frédéric Hermann ©2014 17 Memoire de Master de Statistique Appliquée, UYI-ENSP 1.3. PRÉSENTATION DES DONNÉES 1.3.3.2 Caractéristiques du preneur d’assurance i. SEXE : variable qualitative binaire qui indique le sexe du preneur d’assurance. Ses modalités sont : "M" pour Masculin et "F" pour Féminin. ii. AGE.ASSURE : variable à valeurs entières qui donne l’âge du preneur d’assurance à la date de souscription. Cette valeur est obtenue à partir de sa date de naissance et de l’année de souscription. iii. AGE.PERMIS : variable entière qui donne l’âge du permis de conduire du preneur d’assurance, à la date de souscription. Cette valeur est obtenue à partir de sa date de délivrance et de l’année de souscription à la garantie. iv. CATEG.PERMIS : cette variable indique, pour chaque preneur d’assurance, la catégorie de son permis de conduire. Elle est représentée par 03 modalités dans le tableau de données : • CATEG.A : pour la conduite des cycles et motos cycles ; • CATEG.B : pour la conduite des véhicules dont la charge totale n’excède pas 3, 5 tonnes avec pas plus de 5 places assises ; • CATEG.C : pour la conduite des véhicules de transport en commun. v. PROPRIETAIRE : variable catégorielle binaire, qui indique si le preneur d’assurance est propriétaire du véhicule ou non. Elle a pour modalités "O" pour Oui et "N" pour Non. 1.3.3.3 Caractéristiques du véhicule assuré i. NUM.IMMAT. : à un véhicule donné, cette variable associe son numéro d’immatriculation. ii. AGE.VEH : c’est une variable entière qui donne l’âge du véhicule à la date de souscription. Cette valeur est obtenue à partir de sa date de première mise en circulation et de l’année de souscription de la garantie. iii. GARANTIE : cette variable associe à un véhicule donné une garantie souscrite. Ainsi, si un preneur d’assurance souscrit à n garanties pour une même année, son véhicule sera représenté sur n lignes correspondant à la même année. Cette variable comporte 09 modalités listées dans le Tableau 1.3. GARANTIE Assistance automobile Dommages par Accident Dommages par Collision Incendie Bris de Glaces Pares Brises & Bloc Feux Vol Vol & Vol Partiel Vol par Brigandage CODE ASS.AUTO DOM.ACCIDENT DOM.COLLISION INCENDIE BRIS.GLACE P.BRISE&BLOC.F VOL VOL&V.PARTIEL BRIGANDAGE Table 1.3 – Garanties dommages en assurance automobile. DOUANLA Frédéric Hermann ©2014 18 Memoire de Master de Statistique Appliquée, UYI-ENSP 1.3. PRÉSENTATION DES DONNÉES iv. ENERGIE : variable qualitative à deux modalités qui indique la source d’énergie du moteur, Essence (ES) ou Diesel (DS). v. USAGE : variable qualitative décrivant l’usage ou la catégorie d’usage du véhicule. Les véhicules sont classés en 13 catégories : • CAT 1 : véhicules utilisés pour l’exercice d’une profession et pour la promenade ; • CAT 2 : véhicules utilisés pour le transport des produits ou marchandises appartenant à l’assuré ; • CAT 3 : véhicules utilisés pour des transports à titre onéreux de produits ou marchandises appartenant aux tiers ; • CAT 4A : les taxis de ville ; • CAT 4B : véhicule de transport public de voyageurs ; • CAT 4C : autocars de transport des élèves et du personnel à titre gratuit ; • CAT 5A : véhicules motorisés à deux ou trois roues ; • CAT 5B : moto taxi ; • CAT 6 : véhicules automobiles confiés aux garagistes et vendeurs de motos ; • CAT 7 : véhicules destinés à l’enseignement de la conduite automobile ; • CAT 8 : véhicules destinés à la location avec ou sans chauffeur ; • CAT 9 : engins mobiles de chantiers ; • CAT 10 : véhicules spéciaux (ambulances, corbillards, Fourgons Funèbres, etc.). vi. CAPITAUX : valeur du véhicule assuré (en F CFA), encore appelée assiette de la prime. La valeur assurée en assurance dommage est déterminée et reste constante durant le contrat d’assurance. Elle est égale à : • la Valeur Neuve : valeur de remplacement sans vétusté ; • la Valeur vénale : prix de vente actuel du véhicule ; • la Valeur agréée : valeur proposée par l’assuré. Le capital assuré peut résulter soit de la valeur déclarée qui résulte des simples déclarations de l’assuré, soit de la valeur agréée sur laquelle l’assureur a donné son accord. Le Tableau 1.1 résume les capitaux qui sont appliqués selon la garantie dommage souscrite. 1.3.3.4 Variables décrivant la sinistralité i. N.SIN : nombre total de sinistres déclarés par l’assuré à la compagnie sur un an. ii. IND : occurrence des sinistres, variable binaire obtenue à partir de la variable N.SIN précédente, qui indique si l’assuré a déclaré au moins un sinistre sur l’année. On la définit par : 1, si N.SIN > 1 IND = I[N.SIN>1] = 0, sinon. DOUANLA Frédéric Hermann ©2014 19 Memoire de Master de Statistique Appliquée, UYI-ENSP iii. COUT.SIN, coût des sinistres : c’est la charge totale de tous les sinistres déclarés au cours d’une année par l’assuré, c’est-à-dire le coût total (en F CFA) mis par l’assuré à la charge de la compagnie pour le règlement de ses sinistres. iv. COUT.RELATIF, coût relatif des sinistres : c’est la proportion des capitaux qui a permis de régler les sinistres subis par l’assuré au cours d’une année. Il se définit par COUT.RELATIF = 1.3.4 COUT.SIN . CAPITAUX Problématique statistique de l’étude et variables d’intérêt. Rappelons que, dans cette étude, le problème est celui de savoir si les primes pures évaluées par la compagnie sont en adéquation avec les règlements des sinistres présents. Il est donc question, à partir du tableau de données qui vient d’être décrit, d’estimer le taux de prime adéquat de telle sorte qu’on ait PRIME PURE = TAUX DE PRIME × CAPITAUX ASSURES. (1.2) Or, ce taux de prime est donné par Taux de prime = Fréquence × Coût relatif moyen des sinistres. Ainsi, on peut encore écrire Taux de prime = E[N.SIN] × E[COUT.RELATIF]. (1.3) L’égalité (1.3) laisse apparaître nos variables d’intérêt, à savoir : • N.SIN : variable entière qui donne le nombre total de sinistres déclarés par l’assuré à la compagnie sur une année ; • COUT.RELATIF : variable qui donne la proportion des capitaux qui a permis de régler les sinistres subis par un assuré au cours d’une année. En pratique, le taux de prime représente ce que coûte, en moyenne, à la compagnie, pendant une année, et par FCFA de capitaux souscrits, un assuré pris au hasard dans le portefeuille de la Garantie concernée. Avant de terminer ce chapitre qui a été consacré principalement à la présentation du domaine d’étude, ainsi qu’à la description des variables d’étude, il est important de faire quelques précisions sur certaines variables : notons que concernant l’estimation du coût relatif moyen des sinistres, on ne s’intéressera qu’au sous-portefeuille constitué des assurés ayant une valeur non nulle du COUT.SIN. Par ailleurs, tous les assurés seront considérés dans l’estimation de la fréquence des sinistres. Signalons enfin que pour mieux analyser la sinistralité du portefeuille, nous serons aussi amenés à considérer la fréquence et le coût relatif moyen des sinistres restreints à une catégorie particulière Ω1 d’assurés (actuels ou potentiels) du portefeuille. Ceci reviendra à s’intéresser respectivement aux deux espérances conditionnelles : E[N.SIN|Ω1 ] et E[COUT.RELATIF|Ω1 ]. DOUANLA Frédéric Hermann ©2014 20 Memoire de Master de Statistique Appliquée, UYI-ENSP Chapitre Deux ANALYSE DESCRIPTIVE DES DONNÉES À titre de rappel, cette étude a pour objectif d’estimer, à partir des données historiques, le taux de prime pure suffisant pour régler les sinistres pour chaque garantie dommage de la branche automobile de la SAAR Assurances. Nous avons conclu le chapitre premier en repositionnant le problème, en celui de l’estimation de la fréquence des sinistres et du coût relatif moyen des sinistres, car le taux de prime se définit comme le produit de ces derniers. Dès lors, il est impératif d’effectuer une analyse des variables dont on dispose, afin de procéder à un premier tri pour la modélisation. Nous allons débuter ce chapitre en présentant les différents problèmes liés aux données tout en précisant comment nous y avons fait face. Ensuite, il sera question de faire l’analyse descriptive univariée, suivie de l’analyse de la sinistralité du portefeuille. Nous terminerons en faisant un premier tri parmi les variables explicatives. 2.1 Formatage de la base de données Nous avons particulièrement utilisé le logiciel Excel à travers des tableaux croisés dynamiques pour l’analyse des manquements dans notre base de données. • Le tableau qui donne la charge des sinistres pour chaque année donne des valeurs nulles pour les années allant de 2000 à 2004. Cet état traduit des données manquantes, car rien n’expliquerait le fait qu’une compagnie d’assurances n’ait eu à payer de sinistres sur 4 années consécutives. Vu l’objectif de notre étude, à savoir l’analyse des tarifs, nous avons restreint la base de données aux années 2005 à 2014. Au total, des 178 155 lignes que comporte la base initiale, nous avons extrait 147 894 lignes qui correspondent aux années d’émission de 2005 à 2014. • Le tableau qui propose la charge des sinistres par garantie donne une charge nulle pour certaines garanties, à l’exemple du Vol par Brigandage. Celle n’ayant pas de charge nulle sont listées dans le Tableau 2.1. Puisque notre objectif est d’estimer les taux de prime en adéquation avec la charge des sinistres par garantie dommages, on ne saurait faire de même pour des garanties ayant une charge de sinistres nulle. Par conséquent, nous avons extrait les lignes qui correspondent aux 8 garanties dommages ayant une charge des sinistres non nulle (121 673 lignes). • Le Tableau 2.1, qui donne le nombre de coûts relatifs calculés par garantie, nous fait remarquer que la garantie Vol partiel ne dispose que de 2 observations et la garantie Pares brise et Blocs feux n’en dispose que de 4 . Ce nombre faible d’observations ne peut pas nous permettre d’avoir une estimation fiable du coût relatif moyen des sinistres. Par conséquent, nous avons exclu ces deux autres garanties Dommages (9 678 lignes) de notre étude. DOUANLA Frédéric Hermann ©2014 21 Memoire de Master de Statistique Appliquée, UYI-ENSP 2.2. ANALYSE DESCRIPTIVE UNIVARIÉE GARANTIE Nombre de COUT.RELATIF Assistance automobile 162 Bris de Glaces 34 Dommages par Accident 791 Incendie 483 Pares Brises & Bloc Feux 4 Dommages par Collision 14 Vol & Vol Partiel 43 Vol Partiel 2 Table 2.1 – Nombre d’observations du coût relatif par garantie. • Nous avons constaté la présence des doublons (549 lignes) dans la base, qui par suite, ont été exclus afin qu’on ait une base de données identifiable ligne par ligne. • Parmi les garanties ci-dessus citées, nous remarquons que la garantie Assistance Automobile n’a été mise en vente qu’à partir de l’année 2007. Donc, pour cette garantie, la période d’étude sera restreinte aux années 2007 à 2014. • Des anomalies liées à l’immatriculation des véhicules ont été constatées. Certaines ont été résolues à l’aide du numéro de police. Mais, un bon nombre n’a pas pu être déterminé, et les lignes correspondantes (788 lignes) ont été supprimées de la base des données. À l’issue de ce travail préliminaire qui a nécessité 60% (3 mois) de notre temps de stage, ainsi que beaucoup d’attention, et qui nous a permis de comprendre au mieux nos données, nous disposons d’une base de données de n = 110 658 lignes (correspondant à 43 215 véhicules) et n = 18 colonnes (qui correspondent aux variables décrites dans le Tableau 1.2). 2.2 Analyse descriptive univariée 2.2.1 Analyse descriptive des variables qualitatives Les variables qualitatives de notre étude, avec la présentation de leurs distributions respectives dans les données, sont les suivantes : i. Variable UNITE : unité de production des contrats. UNITE Nbre.polices Proportion (%) COURTIER 1 8 991 8.13% Bureau Direct 17 865 16.14% COURTIER 2 83 801 75.73% Mode : "COURTIER 2" Table 2.2 – Répartition du nombre de polices d’assurance souscrites selon l’unité. On remarque que la plus grande proportion de souscriptions (75.73%) a été faite par le COURTIER 2. DOUANLA Frédéric Hermann ©2014 22 Memoire de Master de Statistique Appliquée, UYI-ENSP 2.2. ANALYSE DESCRIPTIVE UNIVARIÉE ii. Variable ANNEE : année d’émission du contrat d’assurance. ANNEE 2005 2006 Nbre.polices 6203 4869 Proportion (%) 5.60 4.40 ANNEE 2011 Nbre.polices 12483 Proportion (%) 11.28 Mode : ”2013” 2007 5545 5.01 2012 22425 20.26 2008 2009 2010 6425 6636 10932 5.80 6.00 9.88 2013 2014 24887 10252 22.49 9.26 Table 2.3 – Nombre de polices d’assurance émises selon l’année (pour 2014, période JanvierJuin) Figure 2.1 – Nombre de polices d’assurance émises selon l’année (pour 2014, période JanvierJuin) La Figure 2.1 montre une nette évolution du nombre de souscriptions au cours de ces dernières années avec un pic en 2013. Ceci est en adéquation avec le chiffre d’affaires de l’entreprise qui est en hausse (Cf. [18]). D’ailleurs, depuis 2012, la SAAR S.A. est classée deuxième compagnie du marché camerounais en termes de chiffre d’affaires. Notons que les données de 2014 (prises jusqu’au mois de Juin) ne couvrent pas toute l’année comptable, car celle-ci est encore en cours. iii. Variable SEXE : sexe du preneur d’assurance. On remarque que les femmes, avec une proportion de 1.18%, sont très faiblement représentées dans ce portefeuille. Par conséquent, prendre en compte le sexe du conducteur n’apporterait probablement aucun plus dans notre étude. De ce fait, cette variable sera exclue de notre étude. DOUANLA Frédéric Hermann ©2014 23 Memoire de Master de Statistique Appliquée, UYI-ENSP 2.2. ANALYSE DESCRIPTIVE UNIVARIÉE SEXE F M Nbre.polices 1 302 109 355 Proportion (%) 1.18% 98.82% Mode : "M" Table 2.4 – Résumé Statistique de la variable SEXE. iv. Variable CATEG.PERMIS : catégorie de permis de conduire. CATEG.PERMIS Nbre.polices Proportion (%) Mode : CATEG.A CATEG.B CATEG.C 5 846 92 462 12 349 5.28 83.55 11.15 "CATEG.B" Table 2.5 – Résumé Statistique de la variable CATEG.PERMIS. La Table 2.5 montre que le permis de catégorie "B" est le plus fréquent. En effet, il caractérise les conducteurs des véhicules les plus utilisés, tels que les véhicules de tourisme. Les permis de catégorie A et C étant faiblement représentés, il serait inapproprié de segmenter notre tarifaire selon la catégorie de permis. Par conséquent, nous ne prendrons pas en compte cette variable dans nos estimations. v. Variable PROPRIETAIRE : propriétaire du véhicule assuré. PROPRIETAIRE Nbre.polices Proportion (%) Mode : N O 67 054 31 919 67.75% 32.25% "N" Table 2.6 – Résumé Statistique de la variable PROPRIETAIRE. Le Tableau 2.6 fait remarquer que dans ce portefeuille, les souscripteurs propriétaires du véhicule assuré sont majoritaires relativement aux non propriétaires. Ceci reflète un portefeuille dans lequel les véhicules sont beaucoup plus assurés en flotte. vi. Variable GARANTIE : garantie souscrite. GARANTIE Nbre.polices Proportion (%) ASS.AUTO 12688 11.46% DOM.ACCIDENT 14999 13.55% DOM.COLLISION 4213 3.80% INCENDIE 44670 40.36% BRIS.GLACE 4699 4.24% VOL&V.PARTIEL 29388 26.55% Mode : "INCENDIE" Table 2.7 – Résumé statistique de la variable GARANTIE. DOUANLA Frédéric Hermann ©2014 24 Memoire de Master de Statistique Appliquée, UYI-ENSP 2.2. ANALYSE DESCRIPTIVE UNIVARIÉE Rappelons que la garantie "INCENDIE" couvre les dommages subis par le véhicule assuré, lorsque ceux-ci résultent soit d’un incendie, soit d’une chute de foudre, d’une explosion ou d’une combustion instantanée. Cette garantie, avec une proportion de 40.36%, est la plus souscrite des garanties étudiées de ce portefeuille. vii. Variable ENERGIE : source d’énergie du moteur. ENERGIE DS ES Nbre.polices 72041 38535 Proportion (%) 65.15% 34.84% Mode : "DS" Table 2.8 – Résumé Statistique de la variable ENERGIE. En général, l’acquisition d’un véhicule diesel est plus coûteuse que celle d’un véhicule essence. Pourtant le prix du litre de gasoil est moins élevé par rapport à celui du litre d’essence. C’est sans doute cette dernière raison qui justifie qu’une proportion de plus de 65% d’usagers utilisent les véhicules à consommation diesel. viii. Variable USAGE : usage ou catégorie d’usage du véhicule. USAGE CAT 1 CAT 2 CAT 3 CAT 4A CAT 4B CAT 4C CAT 5A effectif 43999 35304 9308 71 1086 860 6962 Prop. (%) 39.76 31.90 8.41 0.06 0.98 0.77 6.29 USAGE CAT 5B CAT 6 CAT 7 CAT 8 CAT 9 CAT 10 effectif 24 795 52 7735 3941 520 Prop. (%) 0.02 0.71 0.05 7.00 3.56 0.47 Mode : "CAT 1" Table 2.9 – Résumé Statistique de la variable USAGE. Il ressort du Tableau 2.9 que les véhicules de tourisme (CAT 1), avec une proportion de 39.76% sont les plus représentés dans ce portefeuille. Les catégories d’usages 2 (véhicule pour transport des produits de l’assuré), 3 (véhicule pour transport à titre onéreux des produits des tiers), 5A (véhicule motorisé), 8 (véhicule de location) et 9 (engins mobiles de chantiers) gagnent également une proportion non négligeable dans ce portefeuille. Par ailleurs, les catégories restantes sont très faiblement représentées. Ainsi, dans nos analyses, nous procéderons au regroupement de certaines modalités à proportion faible (Cf. Section 2.3). 2.2.2 Analyse descriptive des variables quantitatives La description des variables quantitatives se fait à l’aide des différents indicateurs empiriques de tendance centrale (moyenne, médiane) et de dispersion (écart-type σ, l’intervalle interquartiles). Des histogrammes sont associés dans la prochaine section pour confronter chacune des variables avec la sinistralité (i.e. fréquence et coût relatif des sinistres) observée dans le portefeuille. i. Variable AGE.ASSURE : âge du preneur d’assurance (en années). DOUANLA Frédéric Hermann ©2014 25 Memoire de Master de Statistique Appliquée, UYI-ENSP 2.2. ANALYSE DESCRIPTIVE UNIVARIÉE M in. 1stQu. M edian M ean 18 45 50 47.92 3rdQu. M ax. σ 52 72 6.73 Table 2.10 – Résumé Statistique de la variable AGE.ASSURE On constate d’après le Tableau 2.10, qu’environ la moitié des assurés de ce portefeuille a un âge compris entre 45 et 52 ans. De plus, avec une moyenne d’environ 48 ans et un écarttype de 6.73, on peut conclure que ce portefeuille est constitué des assurés majoritairement responsables. ii. Variable AGE.PERMIS : âge du permis de conduire du preneur d’assurance (en années). M in. 1stQu. M edian M ean 0 10 15 15.89 3rdQu. M ax. σ 21 54 9.72 Table 2.11 – Résumé Statistique de la variable AGE.PERMIS. Le Tableau 2.11 fait remarquer qu’environ les 43 des souscripteurs ont un permis âgé de plus de 10 ans ; ce qui implique que l’on a majoritairement affaire aux conducteurs expérimentés. Le minimum (0) représente un permis de conduire délivré la même année que l’année de souscription. iii. Variable AGE.VEH. : âge du véhicule à la date de souscription (en années). M in. 1stQu. M edian M ean 0 2 6 7.73 3rdQu. M ax. σ 12 53 7.03 Table 2.12 – Résumé Statistique de la variable AGE.VEH. Du Tableau 2.12, il ressort que plus de la moitié des véhicules de ce portefeuille ont plus de 5 années de circulation. De ce fait, on peut considérer avoir autant de véhicules moins vétustes que de vieux véhicules. Le minimum (0) représente un véhicule dont l’année de la première mise en circulation correspond à la l’année de souscription. ***Variables décrivant la sinistralité du portefeuille v. Variable N.SIN : nombre de sinistres. La fréquence des sinistres pour le portefeuille est de 5.63% durant les 9 dernières années. Le Tableau 2.13 montre que le nombre maximum de sinistres déclarés par un assuré vaut 9. Au total, 6237 sinistres ont été déclarés durant cette période. Ce tableau décrit également l’ajustement de la distribution observée de N.SIN par une loi de Poisson de paramètre λ identique pour toutes les classes de risque. L’estimateur du maximum de vraisemblance du paramètre est la moyenne empirique de la distribution et vaut λ̂ = 0.0563. On constate que l’ajustement est très mauvais, et rejeté par un test du χ2 de conformité (valeur observée de la statistique du χ2 valant 7866.213, pour 3 degrés de liberté, pour une p-value inférieure à 10−4 ). Ceci conforte l’idée selon laquelle la fréquence des sinistres varierait selon des sous-groupes du portefeuille. Une analyse particulière de la sinistralité sera faite dans la section suivante. DOUANLA Frédéric Hermann ©2014 26 Memoire de Master de Statistique Appliquée, UYI-ENSP 2.2. ANALYSE DESCRIPTIVE UNIVARIÉE Nombre de sinistres 0 1 2 3 4 5 6 7 8 9 ≥ 10 Nombre de Proportion polices obs. 105868 95.67% 3882 3.50% 652 0.59% 137 0.12% 48 0.04% 28 0.02% 12 0.01% 12 0.01% 10 0.01% 8 0.00% 0 0.00% Nombre de polices prédit. 104592.5 5895.18 166.13 3.12 0.044 0.00 0.00 0.00 0.00 0.00 0.00 Table 2.13 – Distribution de la variable N.SIN et ajustement par une loi de Poisson. vi. Variable IND : occurrence des sinistres. Rappelons ici qu’une unité statistique est identifiée par l’immatriculation et une garantie souscrite. Par ailleurs, les observations sur cette unité statistique diffèrent selon l’année de souscription de la garantie. D’après le Tableau 2.14, sur les 110 658 observations de notre portefeuille, 105 868 (soit 95.67%) n’ont déclaré aucun sinistre et 4 789 (soit 4.33%) ont fait jouer la garantie de la compagnie au moins une fois. IND Effectif Prop. (%) 0 1 105 868 4 789 95.67 4.33 Table 2.14 – Distribution de la variable IND dans le portefeuille. vii. Variable COUT.SIN : coût total des sinistres par police sur l’année (en F CFA). M in. 5 000 1stQu. M edian M ean 3rdQu. M ax. σ 299300 544400 1272000 1117000 60 000 000 2863218 Table 2.15 – Résumé statistique de la variable COUT.SIN Le plus grand montant (60 000 000 FCFA) déboursé pour régler un sinistre s’est effectué en 2012, pour un véhicule assuré en garantie VOL&VOL PARTIEL, dont le capital assuré était de 60 526 500 F CF A. On remarque également un coût moyen des sinistres évalué à 1 272 000 F CF A. Cette valeur moyenne assez élevée reflète la grandeur des capitaux assurés. viii. Variable COUT.RELATIF : coût relatif des sinistres. Rappelons que le coût relatif des sinistres pour un assuré, pour une année et une garantie pour son véhicule est égal au coût total des sinistres dans lesquels son véhicule a été impliqué, divisé par le capital assuré par ce dernier. En moyenne, le coût des sinistres est évalué à 14.8% du capital assuré. La valeur maximale > 1 correspond à un assuré qui a fait jouer plus d’une fois sa garantie au cours de l’année, car le capital correspond au coût maximal du règlement d’un sinistre. DOUANLA Frédéric Hermann ©2014 27 Memoire de Master de Statistique Appliquée, UYI-ENSP 2.3. ANALYSE DE LA SINISTRALITÉ DU PORTEFEUILLE M in. 1stQu. M edian M ean 0.01 0.03 0.06 0.148 3rdQu. M ax. σ 0.16 1.32 0.22 Table 2.16 – Résumé statistique de la variable COUT.RELATIF 2.3 Analyse de la sinistralité du portefeuille Dans cette section, il est question de faire une analyse graphique de l’influence des variables explicatives sur la sinistralité. Notons que nos variables d’intérêt sont : • le nombre de sinistres (N.SIN), à partir duquel nous estimerons la fréquence des sinistres (E [N.SIN]) ; • le coût relatif des sinistres (COUT.RELATIF), à partir de duquel nous obtiendrons une estimation du coût relatif moyen des sinistres (E [COUT.RELATIF]). L’étude de la fréquence des sinistres sera faite sur tout le portefeuille, tandis que celle du coût relatif des sinistres sera restreinte aux assurés qui ont eu à bénéficier d’une prise en charge (COUT.SIN> 0). i. Influence du type d’énergie sur la sinistralité (a) (b) (c) Figure 2.2 – Répartition du portefeuille, fréquence des sinistres et coût relatif moyen des sinistres par type d’énergie (de gauche à droite), avec ES="Essence" et DS="Diesel". Notons que la fréquence des sinistres dans une classe du portefeuille est estimée par le nombre de sinistres enregistrés dans cette classe divisé par l’effectif de la classe. DOUANLA Frédéric Hermann ©2014 28 Memoire de Master de Statistique Appliquée, UYI-ENSP 2.3. ANALYSE DE LA SINISTRALITÉ DU PORTEFEUILLE On observe sur la Figure 2.2, que la fréquence, de même que le coût relatif des sinistres, ne varie pas considerablement selon le type d’énergie utilisé. Dailleurs, un test de Student (cf. [20]) a été effectué pour comparer les coûts relatifs moyens dans les deux classes de la variable ENERGIE, afin de savoir si le type d’enegie a une influence sur le coût relatif moyen des sinistres. Avec une statistique de test de t = −1.34 (pour 1464 degrés de liberté), ce qui donne une p-valeur égale à 0.178, nous concluons que la variable ENERGIE n’a pas une influence significative sur le coût relatif moyen des sinistres. Notons que les tests statistiques nécessaires pour évaluer la significativité de l’influence de chacune de nos variables explicatives sur la variable N.SIN sera faite dans la section suivante. ii. Influence du fait d’être propriétaire ou non sur la sinistralité (a) (b) (c) Figure 2.3 – Répartition du portefeuille, fréquence et coût relatif moyen des sinistres selon la variable PROPRIETAIRE (de gauche à droite). La Figure 2.3b révèle une fréquence des sinistres plus élevée chez les souscripteurs qui ne sont pas propriétaires du véhicule assuré. Ceci peut s’expliquer du fait que le propriétaire d’un véhicule a tendance à être plus prudent au volant afin de ne pas endommager son automobile parce qu’il en connaît la valeur. De plus, la Figure 2.3c qui donne la distribution du coût relatif dans les classes de la variable PROPRIETAIRE laisse voir une plus grande variabilité de ce coût chez les non propriétaires. Cependant, un T test de Student rejette l’hypothèse nulle d’une éventuelle influence de la variable PROPRIETAIRE sur le coût relatif des sinistres, avec une statistique de t = 1.08 (pour 1433 degré de liberté), ce qui donne une p-valeur égale à 0.276. iii. Influence de la catégorie d’usage sur la sinistralité Comme nous l’avons mentionné précédemment, la Figure 2.4a nous montre une faible représentativité de certaines catégories d’usage. Nous allons donc procéder à un regroupement de catégories suivant des critères liés à l’exposition au risque. Ainsi, DOUANLA Frédéric Hermann ©2014 29 Memoire de Master de Statistique Appliquée, UYI-ENSP 2.3. ANALYSE DE LA SINISTRALITÉ DU PORTEFEUILLE (a) (b) Figure 2.4 – Répartition du portefeuille par type d’usage, fréquence des sinistres par type d’usage (de gauche à droite). • les catégories "4A", "4B", et "4C" seront regroupées en une catégorie "CAT 4" ; • les catégories "5A" et "5B" seront regroupées en une catégorie "CAT 5" ; • les catégories "6","7","8" et "10" seront regroupées en une catégorie "CAT 8G". Après ces regroupements, la variable USAGE n’a plus que les 7 modalités (au lieu de 13) présentées dans le Tableau 2.17 USAGE CAT 1 CAT 2 CAT 3 CAT 4 CAT 5 CAT 8G CAT 9 effectif 43999 35304 9308 2017 6986 9102 3941 Prop. (%) 39.76 31.90 8.41 1.82 6.31 8.22 3.56 Mode : "CAT 1" Table 2.17 – Résumé Statistique de la variable USAGE après regroupement. La Figure 2.5a présente les différentes proportions par catégorie d’usage après regroupement. On peut observer à la Figure 2.5b que la fréquence des sinistres est moins élevée chez les véhicules de catégorie "5". Par contre, la Figure 2.5c décèle un coût relatif moyen des sinistres plus élevé chez ceux-ci. Ceci peut s’expliquer par le fait que le peu de sinistres subis par les cycles et motos cycles se révèlent être plutôt graves, comparativement au capital assuré, à l’exemple du vol. La Figure 2.5c fait également remarquer que les variances de la variable COUT.RELATIF sont différentes selon la catégorie d’usage du véhicule. Ainsi, pour tester le lien entre la variable qualitative USAGE à 7 modalités et la variable numérique COUT.RELATIF, nous allons utiliser le test non paramétrique de Kruskal Wallis (cf. [9]). La valeur de la statistique du test nous donne 88.19 (pour 6 degrés de liberté) avec une p − value < 10−4 . Donc, il existe un lien significatif entre le coût relatif des sinistres et la catégorie d’usage du véhicule. DOUANLA Frédéric Hermann ©2014 30 Memoire de Master de Statistique Appliquée, UYI-ENSP 2.3. ANALYSE DE LA SINISTRALITÉ DU PORTEFEUILLE (a) (b) (c) Figure 2.5 – Répartition du portefeuille, fréquence des sinistres et coût relatif moyen des sinistres par type d’usage (de gauche à droite). iv. Influence de la garantie souscrite sur la sinistralité (a) (b) (c) Figure 2.6 – Répartition du portefeuille, fréquence des sinistres et coût relatif moyen des sinistres par garantie souscrite (de gauche à droite). Bien que la garantie Incendie soit la plus souscrite, c’est la garantie Dommage par Accident qui est la plus fréquemment mise en jeu lors des sinistres. Ceci était prévisible du fait que la garantie Dommage par Accident couvre d’autres garanties telles que la garantie Dommage par Collision, ainsi que le Bris de Glaces. La Figure 2.6c fait apparaître une différence de variabilité du coût relatif selon la garantie. Le test de Kruskal Wallis pour tester le lien entre la variable GARANTIE à 6 modalités et la variable COUT.RELATIF nous donne une statistique de 282.26 (pour 5 degrés de liberté) avec une p − value < 10−4 . Donc, le coût relatif des sinistres diffère selon la garantie. DOUANLA Frédéric Hermann ©2014 31 Memoire de Master de Statistique Appliquée, UYI-ENSP 2.3. ANALYSE DE LA SINISTRALITÉ DU PORTEFEUILLE v. Influence de l’âge du preneur d’assurance sur la sinistralité Figure 2.7 – Répartition du portefeuille selon l’âge du preneur d’assurance. La Figure 2.10 montre que les âges des preneurs d’assurance en garantie automobile de la SAAR S.A. sont concentrés entre 41 ans et 54 ans. Vu cet intervalle d’âge assez restreint, aucune segmentation ne se fera sur l’âge. vi. Influence de l’âge du véhicule sur la sinistralité Figure 2.8 – Répartition du portefeuille selon l’âge du véhicule. DOUANLA Frédéric Hermann ©2014 32 Memoire de Master de Statistique Appliquée, UYI-ENSP 2.3. ANALYSE DE LA SINISTRALITÉ DU PORTEFEUILLE (a) (b) Figure 2.9 – (a) Fréquence des sinistres selon l’âge du véhicule. (b) Coût relatif moyen des sinistres selon l’âge du véhicule, pour les sinistres ayant un coût non nul. Au regard de la Figure 2.9, on constate que la sinistralité des véhicules dont l’âge est compris entre 0 et 5 ans se distingue des autres. En effet, ces derniers ont une fréquence des sinistres un peu plus élevée, mais un coût relatif moyen moins élevé que les autres. Remarquons que les fréquences observées pour les véhicules dont l’âge excède 25 ans ne saurait biaiser notre analyse, car ceux-ci sont très faiblement représentés dans ce portefeuille. Ainsi, nous allons catégoriser la variable AGE.VEH. de la façon suivante : 1 si AGE.VEH ≤ 5ans AGE.VEH.G = 2 si AGE.VEH > 5ans Le codage fait, les proportions selon la catégorie d’âge du véhicule sont résumées dans le Tableau 2.18. AGE.VEH.G Nbre.Véhicule Proportion (%) Mode : 1 2 53 403 55 487 49.04% 50.95% "2" Table 2.18 – Résumé statistique de la variable AGE.VEH.G. vii. Influence de l’âge du permis de conduire sur la sinistralité Au regard de la Figure 2.11, aucune structure particulière n’est décelée à l’examen du graphique de la fréquence des sinistres et coût relatif moyen des sinistres selon l’âge du permis de conduire. Ceci tend à indiquer que la variable AGES.PERMIS influence peu la sinistralité. Par conséquent, nous ne prendrons pas en compte cette variable dans la segmentation de notre tarifaire. DOUANLA Frédéric Hermann ©2014 33 Memoire de Master de Statistique Appliquée, UYI-ENSP 2.4. PREMIER TRI PARMI LES VARIABLES TARIFAIRES Figure 2.10 – Répartition du portefeuille selon l’âge du permis. (a) (b) Figure 2.11 – (a) Fréquence des sinistres selon l’âge du permis. (b) Coût relatif moyen des sinistres selon l’âge du permis, pour les sinistres ayant un coût non nul. 2.4 Premier tri parmi les variables tarifaires Test d’indépendance du χ2 . Pour opérer un premier tri parmi les variables à notre disposition, nous allons effectuer DOUANLA Frédéric Hermann ©2014 34 Memoire de Master de Statistique Appliquée, UYI-ENSP 2.4. PREMIER TRI PARMI LES VARIABLES TARIFAIRES des tests du χ2 entre la variable IND et chacune des autres variables qualitatives de l’étude, sur la base des tables de contingence. Pour des raisons d’effectifs, nous travaillons avec IND plutôt qu’avec N.SIN. En effet, si nous croisons N.SIN avec PROPRIETAIRE, beaucoup d’effectifs attendus seront inférieurs à 5 ; on ne peut donc pas valablement effectuer de tests du χ2 sur la base d’une telle table de contingence. Par contre, le croisement de la variable IND et PROPRIETAIRE nous donne la table de contingence décrite au Tableau 2.19 (les effectifs attendus sous l’hypothèse nulle d’indépendance sont indiqués entre parenthèses), sur laquelle nous pouvons baser le test du χ2 . La valeur observée de la statistique du χ2 d’indépendance vaut 447.47 (pour 1 degré de liberté), ce qui donne une p-valeur inférieure à 10−4 . On constate (au seuil de 5%) une forte association entre le fait d’être propriétaire ou pas du véhicule assuré et le fait d’être ou pas sinistré. IND PROPRIETAIRE OUI NON 31 099 63 306 Pas de sinistre (30 445.81) (63 959.19) Un ou plusieurs 820 3 748 sinistres (1 473.19) (3 094.81) Total 31 919 67 054 p − value < 2.2e − 16 Total 94 405 4 568 98 973 Table 2.19 – Table de contingence croisant IND et PROPRIETAIRE, et test d’indépendance du χ2 . En croisant successivement toutes les variables tarifaires avec IND, on obtient les résultats de la Table 2.20. Variable GARANTIE ENERGIE AGE.VEH.G USAGE Val. observée de la stat. du χ2 4437.23 0.56 578.23 635.88 # dl p-value 5 1 1 6 < .0001 .4508 < .0001 < .0001 Table 2.20 – Résultats des tests d’indépendance du χ2 sur les tables de contingence croisant les variables tarifaires et IND. Nous remarquons que le type de consommation en énergie ne semblent pas influencer la variable IND. Nous allons également les exclure de la suite de notre étude. On remarque également l’influence de la garantie souscrite sur la sinistralité. Vu que notre objectif est celui d’estimer le taux de prime par garantie, notre base sera stratifiée selon les garanties et de ce fait, dans chaque strate, la variable GARANTIE sera constante. Ainsi, il nous reviendra de construire un modèle pour chacune des garanties de la branche automobile de la SAAR. Donc, nous allons de fait, segmenter notre tableau de données en différents tableaux, chaque tableau correspondant à une garantie. Mais alors, l’identifiant de notre unité statistique qui était le couple (NUM.IMMAT. ; GARANTIE) pourra se restreindre à la variable NUM.IMMAT. pour chaque tableau de garantie. Il est important de noter que la variable ANNEE qui précise l’année d’émission du contrat d’assurance fera partie des variables qui serviront à modéliser la fréquence des sinistres. En DOUANLA Frédéric Hermann ©2014 35 Memoire de Master de Statistique Appliquée, UYI-ENSP 2.4. PREMIER TRI PARMI LES VARIABLES TARIFAIRES effet, cette variable nous permettra d’avoir une estimation de la corrélation existante entre les observations faites sur un même individu, ceci à travers l’écart de temps entre ces observations. Logiquement, plus deux observations sont éloignées dans le temps, moins elles sont corrélées. Nous y insisterons davantage dans le prochain chapitre. Conclusion Il était question, dans ce chapitre, de faire des analyses descriptives des variables afin d’exhiber celles qui pourraient expliquer au mieux la sinistralité dans le portefeuille. Le Tableau 2.21 résume celles retenues à cette effet. Dès lors, nous pouvons explorer les méthodes statistiques qui nous permettront d’atteindre notre objectif : l’estimation du taux de prime par la formule PRIME PURE = TAUX DE PRIME × CAPITAUX ASSURES variables à expliquer N.SIN COUT.RELATIF variables explicatives PROPRIETAIRE GARANTIE USAGE AGE.VEH.G GARANTIE USAGE Description Proprietaire ou non du véhicule Garantie souscrite Catégorie d’usage du véhicule Âges du véhicule assuré Table 2.21 – Variables retenues à l’issue de l’analyse descriptive DOUANLA Frédéric Hermann ©2014 36 Memoire de Master de Statistique Appliquée, UYI-ENSP Chapitre Trois MÉTHODES STATISTIQUES Auparavant, le modèle linéaire gaussien était utilisé pour quantifier l’effet des variables explicatives sur un phénomène d’intérêt (fréquence ou coût de sinistres). Or, ce modèle impose une série de limitations peu conciliables avec la réalité des nombres ou des coûts de sinistres : densité de probabilité (approximativement) gaussienne, homoscédasticité des résidus. À la fin du 20ème siècle, des modèles plus appropriés à la réalité de l’assurance sont utilisés. Il s’agit des modèles linéaires généralisés (GLM, pour Generalized Linear Models) introduits en statistique par [16]. Ces modèles permettent de s’affranchir de l’hypothèse de normalité, en traitant de manière unifiée des données auxquelles s’applique une loi faisant partie de la famille exponentielle linéaire (laquelle compte la loi de Poisson, outil de choix en assurance automobile pour l’analyse des nombres de sinistres). En général, l’estimation des paramètres du modèle est basée sur l’indépendance des observations. Cependant, pour éviter d’accorder trop d’importance à des événements relatifs à une année particulière, le tarif d’assurance est souvent construit sur la base de plusieurs années d’observations. Ceci a pour conséquence le fait que certaines des données pourraient ne plus être indépendantes. Par exemple, pour chaque assuré i , on observe Yi,j , j = 1, ..., ni , le nombre de sinistres subis sur la j ème année. Bien que l’hypothèse d’indépendance soit raisonnable entre Yi,j et Yi0 ,j 0 pour i 6= i0 (deux assurés différents), les nombres de sinistres Yi,j et Yi,j 0 , occasionnés dans deux périodes différentes j et j 0 pour un même assuré i sont fort probablement corrélés. Ce type de données est appelé données logitudinales ou données de panel. Dès lors, l’approche GEE (Generalized Estimating Equations), proposée par [14], permet de corriger les estimateurs obtenus dans le modèle GLM afin de prendre en compte la structure de dépendance des données. En plus, les estimateurs obtenus par cette méthode sont convergents. Nous présenterons l’approche GEE après présentation des GLM. Dans la suite, nous nous plaçons dans le portefeuille des assurés de la branche automobile de la compagnie SAAR, ayant souscrit une même garantie dommage donnée entre 2005 et 2014. Dans la modélisation à faire, ils sont vus comme un échantillon représentatif de la population des clients potentiels de la SAAR pour ladite garantie durant la période indiquée. 3.1 3.1.1 Modèles linéaires généralisés pour des données longitudinales Données longitudinales : notations Pour un assuré i, Yi,j représente le nombre de sinistres déclarés durant l’année j, i = 1, ..., n, j = 1, ..., ni , où ni désigne le nombre d’années d’observation pour l’assuré i. On note donc Yi = (Yi1 , ..., Yini )t , le vecteur des observations de la variable endogène (où d’intérêt) Y sur i. Nous supposons que nous disposons, par ailleurs, pour l’assuré i, d’une matrice DOUANLA Frédéric Hermann ©2014 37 Memoire de Master de Statistique Appliquée, UYI-ENSP 3.1. MODÈLES LINÉAIRES GÉNÉRALISÉS POUR DES DONNÉES LONGITUDINALES Xi = (Xi1 , Xi2, ..., Xini )t = t Xi1 t Xi2 .. . t Xin i = xi11 xi21 .. . xi12 xi22 .. . ··· ··· ... xi12 xi2p .. . xini 1 xini 2 · · · xini p , de dimension ni × p, où Xij = (xij1 , ..., xijp )t est le vecteur des valeurs des variables exogènes pour l’année j de l’assuré i. On a ainsi des données longitudinales. 3.1.2 Famille exponentielle linéaire Définition 3.1.1 Font partie de la classe de la famille exponentielle linéaire, les lois de probabilité à deux paramètres θ et φ dont les densités (discrètes ou continues) peuvent se mettre sous la forme yθ − b (θ) + c (y, φ) , y ∈ S, (3.1) f (y|θ, φ) = exp φ où le support S est un sous-ensemble de N ou de R. Le paramètre θ est appelé paramètre naturel et φ est le paramètre de dispersion. Souvent, une pondération est nécessaire et on remplace φ par φ/ω, où ω est un poids connu a priori. Proposition 3.1.1 Pour une variable aléatoire Y dont la densité est de la forme (3.1), on a E [Y ] = b0 (θ) où 0 et 00 et (3.2) V ar [Y ] = b00 (θ) φ; désignent les dérivées première et seconde par rapport à θ. Démonstration. (Voir 4.3 en annexe) Dès lors, la variance de Y apparaît comme le produit de deux fonctions : la première, b00 (θ) , qui dépend uniquement de θ, est appelée fonction variance ; et la seconde dépend uniquement de φ. En notant µ = E (Y ) , on voit que le paramètre θ est lié à la moyenne µ. La fonction variance peut donc être définie en fonction de µ; on la note V (µ) . Le Tableau 3.1, dont les éléments sont extraits de [5] donne les paramètres qui caractérisent quelques lois usuelles dont les densités peuvent se mettre sous la forme (3.1), ainsi que leurs fonctions variance associées. Loi de probabilité Normale(µ, σ 2 ) Poisson(µ) Binomiale(n, p) S R N N θ µ ln µ ln {p/ (1 − p)} b (θ) θ2 /2 exp θ n ln (1 + exp (θ)) φ σ2 1 1 V (µ) 1 µ µ (1 − µ) Table 3.1 – Fonction variance et paramètres associés aux lois de probabilité usuelles dont les densités sont de la forme (3.1). DOUANLA Frédéric Hermann ©2014 38 Memoire de Master de Statistique Appliquée, UYI-ENSP 3.1. MODÈLES LINÉAIRES GÉNÉRALISÉS POUR DES DONNÉES LONGITUDINALES 3.1.3 Modèle linéaire généralisé pour données longitudinales : Introduction Dans la suite, on suppose que la distribution marginale de chaque variable endogène Yij étant donné Xij peut se mettre sous la forme (3.1), c’est-à-dire yij θij − b (θij ) f (yij |xij ) = exp + c (yij , φ) , i = 1, ..., n, j = 1, ..., ni . (3.3) φ De plus, on considère qu’étant donné les variables exogènes, les variables endogènes d’un vecteur Yi sont indépendantes de celles d’un vecteur Yi0 , pour i 6= i0 . On suppose que les θij sont fonction d’un vecteur de p+1 paramétres réels β = (β0, β1 , ..., βp )t . En posant µij la moyenne de Yij |Xij , on suppose que g (µij ) = β0 + p X βk xijk = Xijt β = ηij (3.4) k=1 où la fonction monotone et dérivable g est appelée fonction de lien (qui lie le prédicteur linéaire ηij = Xijt β à la moyenne µij de Yij |Xij à partir des données (Yi , Xi ) , i = 1, ..., n), et le vecteur β contient les p + 1 paramètres. Chacune des lois de probabilité de la famille exponentielle linéaire possède une fonction de lien spécifique, dite fonction de lien canonique. Ce lien g est tel que g (µij ) = θij , où θij est le paramètre naturel (voir [15]). Or, µij = b0 (θij ) d’où g −1 = b0 . Une fois la fonction de lien g spécifiée, (3.4) est la formulation d’un modèle linéaire généralisé (GLM) pour des données longitudinales. En pratique, les coefficients de régression β0 , β1 ..., βp et le paramètre de dispersion φ sont inconnus et doivent donc être estimés à partir des données. 3.1.4 Cas de l’indépendance des observations répétées sur le même individu On suppose dans toute cette section 3.1, que pour i = 1, ..., n, les v.a. Yij |Xij , j = 1, ..., ni sont indépendantes. Cependant, signalons dès ici que, pour une modélisation réaliste de nos données, il sera important de considérer des modèles qui n’incorporent pas cette hypothèse peut-être trop optimiste. Ce seront les modèles GEE présentés dans la section 3.2. 3.1.5 Estimation des paramètres βk sous l’indépendance. Cette estimation va se faire par maximum de vraisemblance conditionnel. Pour i = 1, ..., n, puisque les variables aléatoires Yij |Xij , j = 1, ..., ni sont indépendantes, le vecteur aléatoire Yi |Xi a pour densité f (Yi |Xi ) = ni Y f (yij |xij ) . j=1 Par ailleurs, les couples (Xi , Yi ) , i = 1, ..., n, étant indépendants, la fonction de vraisemblance conditionnelle relative aux observations est donnée par : ( n n ) ni n Y i Y XX yij θij − b (θij ) + c (yij , φ) , V (β, φ) = f (yij |xij ) = exp φ i=1 j=1 i=1 j=1 DOUANLA Frédéric Hermann ©2014 39 Memoire de Master de Statistique Appliquée, UYI-ENSP 3.1. MODÈLES LINÉAIRES GÉNÉRALISÉS POUR DES DONNÉES LONGITUDINALES et donc la log-vraisemblance conditionnelle est donnée par : ni n X X yij θij − b (θij ) L (β, φ) = log (V (β, φ)) = + c (yij , φ) φ i=1 j=1 Il revient donc de maximiser cette log-vraisemblance. Puisque nous sommes dans le cas des lois qui font partie de la famille exponentielle, la fonction de vraisemblance est régulière. Ainsi, l’estimateur du maximum de vraisemblance β̂ de β = (β0 , β1 ..., βp )t est solution du système : ∂L (β, φ) = [0](p+1)×1 , (3.5) ∂βk k=0,1,...,p avec [0](p+1)×1 qui représente le vecteur colonne nul à p + 1 composantes. Or, on a : ( (3.5)⇐⇒ 1 φ ( ⇐⇒ ni h n P P i=1 j=1 ∂θ yij ∂βijk − b0 (θij ) ∂θij ∂βk ) i k=0,1,...,p i ni h n P P ∂θ ∂η ∂θ ∂η yij ∂ηijij ∂βijk − b0 (θij ) ∂ηijij ∂βijk ) i=1 j=1 ( ⇐⇒ ⇐⇒ ni n P P ni n P P i=1 j=1 (p+1)×1 ∂θ ∂θ yij ∂ηijij xijk − µij ∂ηijij xijk (yij − µij ) = [0](p+1)×1 k=0,1,...,p ∂θij x ∂ηij ijk (p+1)×1 ) ) = [0](p+1)×1 k=0,1,...,p i=1 j=1 ( = [0](p+1)×1 (p+1)×1 = [0](p+1)×1 . k=0,1,...,p (p+1)×1 L’écriture matricielle nous donne le vecteur gradient de dimension p + 1 défini par : déf Uindep (β) = n X Xit 4i [Yi − µi (β)] = [0](p+1)×1 , (3.6) i=1 où • Xi = (Xi1 , ..., Xini )t , avec Xij = (1, xij1 , ..., xijp )t ; • Yi = (Yi1 , ..., Yini )t ; • µi (β) = (µi1 , ..., µini )t ; n o ∂θij • 4i = Diag ∂ηij , j = 1, ..., ni (matrice diagonale de dimension ni × ni dont l’élément en position (j, j) est ∂θij ). ∂ηij On remarque que le paramètre de dispersion φ n’apparaît pas dans l’équation (3.6). Ainsi, la résolution de cette équation offrirait la possibilité d’estimer les paramètres β0 , β1 ..., βp , à partir des données, sans se soucier de la valeur inconnue de φ. Malheureusement, les équations de vraisemblance du système (3.6) ne possèdent, en général, pas de solution explicite et doivent, de ce fait, être résolues numériquement. On peut utiliser la DOUANLA Frédéric Hermann ©2014 40 Memoire de Master de Statistique Appliquée, UYI-ENSP 3.1. MODÈLES LINÉAIRES GÉNÉRALISÉS POUR DES DONNÉES LONGITUDINALES méthode de Newton-Raphson. Pour cette raison, on définit la matrice Hessienne (Hindep (β)), ∂ 2 L(β) de dimension (p + 1) × (p + 1) dont l’élément (t, k) est défini par ∂β . k ∂βt ***Algorithme de Newton-Raphson La procédure itérative de Newton-Raphson pour obtenir une estimation par maximum de vraisemblance β̂ de β est alors la suivante : 1. on se donne une valeur initiale β̂ (0) de β̂; 2. on définit la (r + 1)ème valeur approchée β̂ (r+1) de β̂ à partir de la rème β̂ (r) par −1 β̂ (r+1) = β̂ (r) − Hindep β̂ (r) Uindep β̂ (r) . 3. on répète la deuxième étape jusqu’à obtenir β̂ (r) − β̂ (r+1) < β̂ (r) , où est la précision visée sur le résultat (exemple = 10−6 ). Au sortir, on obtient une estimation de β donnée par β̂ = dernier β̂ (r) , d’où pour i = 1, ..., n, j = 1, ..., ni , une estimation de µij , est donnée par µ̂ij = exp Xijt β ; et une estimation de chaque θij est donnée par θ̂ij = g (µ̂ij ) . 3.1.6 Intervalles de confiance pour les paramètres (Méthode de Wald) Grâce à l’approximation normale pour β̂ de (3.6) ) en tant qu’estimateur du (solution maximum de vraisemblance de β, i.e. β̂ ≈ N β, V̂ ; on a " # β̂k − βk P −z1− α2 ≤ √ ≤ z1− α2 ≈ 1 − α , vkk d’où l’intervalle de confiance au niveau de confiance 1 − α pour βj est donné par h √ i β̂k ± z1− α2 vkk où vkk , élément diagonal (k, k) de V̂ , correspond à la variance estimée de β̂k et z1− α2 représente le quantile d’ordre 1 − α2 de la loi normale centrée réduite. ***Test sur la valeur de β̂k H1 : βk = 6 βk0 ou Pour tester l’hypothèse de la forme H0 : βk = βk0 , vs H1 : βk < βk0 ou , H1 : βk > βk0 on procède comme suit : • choisir le niveau du risque α ∈ ]0; 1[ ; • calculer sous H0 la valeur de la statistique du test Z0 = β̂k −βk0 √ ; vkk • calculer le degré de signification du test 2P [N (0, 1) ≥ |Z0 |] si H1 : βk 6= βk0 P [N (0, 1) ≤ Z0 ] si H1 : βk < βk0 ; p − value = P [N (0, 1) ≥ Z0 ] si H1 : βk > βk0 . DOUANLA Frédéric Hermann ©2014 41 Memoire de Master de Statistique Appliquée, UYI-ENSP 3.2. UN EXEMPLE DE GLM : LA RÉGRESSION DE POISSON LONGITUDINALE p − value < α =⇒ Rejet de H0 ; • conclure le test : si . p − value ≥ α =⇒ Non rejet de H0 . 3.1.7 Validation du modèle (statistique de Pearson) Une analyse des résidus permet de découvrir d’où provient l’écart éventuel entre le modèle et les observations, afin d’améliorer le modèle initial si nécessaire. Les résidus de Pearson sont définis par Yij − µ̂ij r̂ij = r . b00 θ̂ij (3.7) pour i = 1, ..., n, j = 1, ..., ni . La validation du modèle se fait à partir de la statistique du χ2 de Pearson, notée X 2 . Le 2 X de Pearson correspond à la somme des carrés des écarts à la moyenne. Elle est donnée par 2 X = ni n X X (r̂ij )2 . i=1 j=1 Posons N = n P ni , le nombre total d’observations dans l’échantillon, et p le nombre de i=1 paramètres du modèle. Comme mentionné par [13], si le modèle utilisé ajuste bien les données, alors cette statistique devrait suivre approximativement une loi du χ2 à N − p − 1 degrés de liberté. ***Estimation du paramètre de dispersion φ Une estimation du paramètre de dispersion φ est donnée par n n i 1 XX X2 (r̂ij )2 . = φ̂ = N −p N − p i=1 j=1 (3.8) h i Considérons â, b̂ , un intervalle de confiance (à 95% par exemple) pour φ. • si â > 1, alors les données présentent une sur dispersion ; h i • si 1 ∈ â, b̂ , alors les données sont équidispersées (ceci traduit l’homogénéité du portefeuille par rapport au risque). • si b̂ < 1, alors les données présentent une sous dispersion. 3.2 Un exemple de GLM : La régression de Poisson longitudinale Dans la modélisation d’un processus de comptage, le modèle de Poisson est couramment mis en œuvre. En effet, dans beaucoup de situations concrètes, la loi de Poisson s’avère appropriée pour modéliser le nombre d’occurrences d’un événement donné dans une période de temps fixée. Dans notre étude, il est question de la fréquence des sinistres sur un an. Mais vu que nous disposons des données de panel, nous considérerons la régression de Poisson longitudinale. DOUANLA Frédéric Hermann ©2014 42 Memoire de Master de Statistique Appliquée, UYI-ENSP 3.2. UN EXEMPLE DE GLM : LA RÉGRESSION DE POISSON LONGITUDINALE 3.2.1 Hypothèse du modèle Dans le Tableau (3.1), l’on note que le paramètre de dispersion de la loi de Poisson vaut φ = 1. Ainsi, le modèle de Poisson serait validé pour la modélisation de la fréquence des sinistres sur nos données d’études si le φ̂ estimé n’est pas significativement différent de 1. Prise en compte d’une éventuelle surdispersion : En cas de surdispersion, une modélisation par une loi quasi Poisson serait plus adaptée (comme cela est mentionné par exemple dans [12]). Notons que la simulation de la loi quasiPoisson se fait en utilisant une approximation par une loi binomiale négative BN (r,p). 3.2.2 Écriture du modèle et interprétation des paramétres La fonction de lien canonique pour la loi de Poisson est la fonction logarithme1 , et on a : ln µij = Xijt β = ηij ⇐⇒ µij = exp (ηij ) . Concrètement, le modèle log-Poisson longitudinal s’écrit t µij = E (Yij |Xij ) = eXij β = e{β0 +β1 xij1 +···+βp xijp } . Supposons que l’on dispose d’une estimation β̂ = β̂0 , ..., β̂p du paramètre inconu β. Alors β̂0 estime le logarithme naturel de l’espérance de la variable d’intérêt lorsque les p variables exogènes prennent simultanément la valeur nulle. En effet, dans ce cas, on a : E (Yij |Xij = 0) = eβ̂0 , etdonc β̂0 = ln (E (Yij |Xij = 0)) . Pour le paramètre β̂l , l ∈ {1, ..., p} , si l’on augmente xijl d’une unité, toutes choses égales par ailleurs, la valeur moyenne de Yij est multipliée par eβ̂l . 3.2.3 Estimation du paramètre β Puisque Yij |Xij P oisson (µij ), sa fonction de probabilité est donnée par : y µijij f (yij |xij ) = exp {−µij } = exp {yij ln (µij ) − µij − ln (yij !)} , yij ∈ N. yij ! (3.9) En posant θij = ln (µij ) , φ = 1, b (θij ) = exp {θij } = µij et c (yij , φ) = − ln (yij !) , cette fonction se met sous la forme (3.3). Par conséquent, ceci est un cas particulier de loi faisant partie de la famille exponentielle linéaire. Ainsi, tout ce qui a été dit dans la section 3.1 pour l’estimation des paramètres dans un GLM longitudinal sous l’hypothèse d’indépendance s’applique ici. Il en sest de même de l’estimation de paramétres par GEE lorsque cette hypothèse est douteuse pour les données disponibles, et qui va faire l’objet de la section 3.3 ci-après (Cf. Annexe A2 pour l’obtention de la matrice gradient et Hessienne). 1 Il est souvent d’usage d’utiliser la fonction de lien logarithmique puisqu’elle présente l’avantage de donner un modèle multiplicatif, et les coefficients βj ont alors une interprétation en termes d’effet multiplicateur. DOUANLA Frédéric Hermann ©2014 43 Memoire de Master de Statistique Appliquée, UYI-ENSP 3.3. ESTIMATION DES PARAMÈTRES À L’AIDE DE LA TECHNIQUE GEE 3.3 Estimation des paramètres à l’aide de la technique GEE Comme nous l’avons mentionné en introduction, les observations Yi1 , ..., Yini réalisées sur un même assuré i au cours de ni années sont sans doute dépendantes. Dans cette section, il est question de prendre en compte cette dépendance. 3.3.1 Prise en compte de l’aspect sériel Notons que dans le cadre de l’indépendance sérielle du modèle GLM, on avait, compte tenu de (3.2) et (3.3), V ar [Yij |Xij ] = b00 (µij ) φ, (3.10) avec les variables aléatoires Yij |Xij indépendantes (i = 1, ..., n, j = 1, ..., ni ). Ainsi, la matrice de variance covariance conditionnelle du vecteur aléatoire Yi |Xi dans ce cadre là est donnée par Mi = M atcov (Yi |Xi ) = φAi avec Ai = Diag {b00 (µij ) , j = 1, ..., ni } . (3.11) Cette matrice ne rend donc compte de la dépendance sérielle présente dans les données. Si l’on fait apparaître explicitement la matrice Mi dans (3.6), on obtient n X Dit Mi−1 [Yi − µi (β)] = [0](p+1)×1 , (3.12) i=1 où Di = Ai 4i Xi . Le principe des GEE consiste à substituer à Mi dans (3.12), un candidat Vi qui prendra en compte la surdispersion et la corrélation temporelle entre les données. Une estimation de la matrice de covariance Mi de Yi |Xi est cherchée sous la forme : 1 1 Vi = φAi2 Ri (α) Ai2 , où la matrice de corrélation Ri (α) , appelée working correlation matrix, rend compte de la dépendance sérielle existant entre les composantes de Yi , et dépend d’un certain nombre de paramètres α. Ainsi, l’on retiendra comme estimateur de β, la solution de : n X Dit Vi−1 [Yi − µi (β)] = [0](p+1)×1 , (3.13) i=1 appelées équations d’estimation généralisées (ou GEE : Generalized Estimating Equations). Les estimateurs obtenus sont convergents, quel que soit le choix de la matrice Ri (α) [19]. Remarquons que si l’on pose Ri (α) = Ini ×ni , alors l’équation (3.13) se simplifie à l’équation (3.12). Avant de présenter l’algorithme d’obtention des estimations des solutions de l’équation (3.13), illustrons quelques choix possibles pour la matrice de corrélation Ri (α). 3.3.2 Spécification et estimation de la "working correlation matrix" Comme mentionné ci-dessus, c’est la matrice de corrélation Ri (α) , de dimension ni × ni , qui tient compte de la dépendance entre les observations relatives à un même assuré. Nous présentons ici les formes les plus communes pour Ri (α) . Toutefois, une liste plus exhaustive de formes possibles pour Ri (α) est donnée dans le livre de [10] DOUANLA Frédéric Hermann ©2014 44 Memoire de Master de Statistique Appliquée, UYI-ENSP 3.3. ESTIMATION DES PARAMÈTRES À L’AIDE DE LA TECHNIQUE GEE 3.3.2.1 Structure d’équicorrélation Hypothèse : 0 ∀i = 1, ..., n, ∀ j, j = 1, ..., ni , corr (Yij , Yij 0 ) = où α est une constante dans ]−1, 1[ ; d’où, ∀ i = 1, ..., n : 1 α α ··· α 1 α ··· Ri (α) = α α 1 · · · . . . . .. .. .. . . α α α ··· α α .. . .. . 1 1 si j = j 0 , α si j 6= j 0 . Ce type de corrélation est appelé corrélation échangeable. Cette hypothèse est généralement appropriée pour des ensembles de données dans lesquelles les mesures répétées n’ont aucune dépendance temporelle. S’il y a peu d’assurés et beaucoup d’observations par assuré, une telle matrice de corrélation serait appropriée. Pour cette structure, il n’y a qu’un seul paramètre (α) à estimer. Pour ce faire, les résidus de Pearson sont estimés selon (3.7), et l’estimateur de α utilisant ces résidus est donné par ni ni ni P P P 2 r̂iu r̂iv − {r̂iu } n 1 X u=1 u=1 v=1 . (3.14) α̂ = n (n − 1) i i φ̂ i=1 où φ̂ est donné par (3.8). 3.3.2.2 Structure de corrélation auto-régressive d’ordre 1 (AR(1)) Hypothèse : 0 ∀i = 1, ..., n, ∀ j, j = 1, ..., ni , corr (Yij , Yij 0 ) = 1 si j = j 0 , 0 α|j −j| si j 6= j 0 où α est une constante dans ]−1, 1[ ; d’où, ∀ i = 1, ..., n : 1 α α2 · · · αni −1 α 1 α · · · αni −2 2 α 1 · · · αni −3 Ri (α) = α .. .. .. .. ... . . . . ni −1 ni −2 ni −3 α α α ··· 1 . Comme |α| < 1, cette structure implique que la corrélation diminue lorsque l’écart de temps |j − j| entre deux observations Yij et Yij 0 augmente. Ce type de corrélation est indiqué pour des données dans lesquelles les mesures répétées ont une dépendance temporelle, j dénotant l’ordre (chronologique) dans lequel les mesures ont été prises. Comme dans la structure de corrélation échangeable, on utilise les résidus de Pearson de l’ajustement du modèle pour estimer les corrélations. L’estimateur de α utilisant ces résidus est : 0 α̂ = 1 ni n X X (K1 − p) φ̂ i=1 j=1 DOUANLA Frédéric Hermann ©2014 45 Memoire de Master de Statistique Appliquée, UYI-ENSP r̂i,j r̂i,j+1 , (3.15) 3.3. ESTIMATION DES PARAMÈTRES À L’AIDE DE LA TECHNIQUE GEE où K1 = n P (ni − 1) et φ̂ est donné par (3.8). i=1 3.3.2.3 Corrélation non structurée Ici, aucune structure particulière n’est imposée à la matrice Ri (α) . Elle est la plus générale des structures de corrélation discutées, avec 21 ni (ni − 1) paramètres à estimer. On pose ainsi : 1 si j = j 0 0 ; ∀i = 1, ..., n, ∀ j, j = 1, ..., ni , corr (Yij , Yij 0 ) = αj,j 0 si j 6= j 0 d’où, ∀ i = 1, ..., n : 1 α Ri (α) = 1,2 ... α1ni α1,2 1 .. . ··· ··· ... .. . αni −1,ni α1,ni .. . αni −1,ni 1 , avecα = (αij )1≤i≤ni −1, i+1≤j≤ni Ce type de matrice de corrélation est convenable lorsque l’on dispose de plusieurs assurés, mais de peu d’observations par assuré. Dans ce cadre, on utilise également les estimés des résidus de Pearson de l’ajustement du modèle pour faire les corrélations. L’estimateur de Ri (α) utilisant ces résidus est : n P R̂i (α) = i=1 ni n P P i=1 j=1 ni {r̂ij }2 ni (3.16) Gi , où 2 g11 r̂i1 g r̂ r̂ Gi = 21 .i2 i1 .. g12 r̂i1 r̂i2 2 g22 r̂i2 .. . · · · g1ni r̂i1 r̂ini .. . g2ni r̂i2 r̂ini .. ... . gni 1 r̂ini r̂i1 gni 2 r̂ini r̂i2 · · · avec guv , 2 gni ni r̂in i −1 = I (i, u, v) , et on définit : i=1 1 si le panel i a des observations aux indices u et v I (i, u, v) = . 0 sinon. n P Malheureusement, la matrice de corrélation ainsi estimée n’est pas nécessairement inversible et des problèmes numériques peuvent survenir ; particulièrement pour des ensembles de données non équilibrées, c’est-à-dire le cas où on n’a pas le même nombre d’observations par panel ou lorsqu’on a des données manquantes. DOUANLA Frédéric Hermann ©2014 46 Memoire de Master de Statistique Appliquée, UYI-ENSP 3.4. QUANTIFICATION DE L’INCERTITUDE DANS LE MODÈLE : MÉTHODE "BOOTSTRAP" 3.3.3 Obtention des estimations L’équation (3.13) est généralement résolue à l’aide d’une méthode du score de Fisher modifiée pour estimer β, ainsi qu’une estimation des moments pour α (voir [14]). L’algorithme est le suivant : 1. Partir d’une valeur initiale β̂ 0 , solution du système (3.6) sous l’indépendance ; 2. A partir de l’estimation de β, estimer φ selon (3.8) et α selon (3.14) ou (3.15), et obtenir une estimation Ri (α̂) de la matrice de corrélation Ri (α) de la forme supposée au préalable ; 3. Obtenir β̂ (k+1) à partir de β̂ (k) par : n P t (k) −1 (k) (k) (k) −1 (k+1) (k) Di β̂ × β̂ , α β̂ Vi β̂ = β̂ + Di β̂ i=1 n P , Dit β̂ (k) Vi−1 β̂ (k) , α β̂ (k) Si β̂ (k) i=1 où Di (β) = Ai 4i Xi = 1 ∂ηi , ∂β 1 Vi (β, α (β)) = φ (β) Ai2 Ri (α (β)) Ai2 et S (β) = Yi −µi (β) ; (k) (k) (k+1) 4. Itérer les étapes 2 et 3 jusqu’à obtenir β̂ − β̂ < β̂ , où est la précision visée sur le résultat (exemple = 10−6 ). 5. Prendre comme β̂, le dernier β̂ (k) . On obtient ainsi une estimation de β qui tient compte des corrélations existant entre les données. Si la matrice de corrélation Ri (α) choisie est la vraie structure de corrélation pour Yi , alors la variance de l’estimateur β̂ de β sera estimée par : !−1 n X t −1 V̂T = Di Vi Di α=α̂,φ=φ̂,β=β̂ . i=1 Mais comme la matrice Ri (α) choisie est probablement fausse, alors on estime la variance de β̂ par un estimateur de matrice de variance sandwich robuste : ! n X V̂S = V̂T Dit Vi−1 S (β) S t (β) Vi−1 Di α=α̂,φ=φ̂,β=β̂ V̂T ; (3.17) i=1 où S (β) = Yi − µi (β) . Le terme sandwich vient du fait que dans l’expression (3.17), une correction empirique est prise en ’sandwich’ entre deux estimateurs de variance basés sur le modèle de travail (voir [8]). 3.4 Quantification de l’incertitude dans le modèle : Méthode "bootstrap" Etant donné la disponibilité d’outils statistiques pour l’estimation du taux de prime à partir de notre échantillon d’étude (à savoir le modèle de régression de Poisson longitudinale pour la DOUANLA Frédéric Hermann ©2014 47 Memoire de Master de Statistique Appliquée, UYI-ENSP 3.4. QUANTIFICATION DE L’INCERTITUDE DANS LE MODÈLE : MÉTHODE "BOOTSTRAP" fréquence des sinistres, et la moyenne empirique2 pour l’estimation du coût relatif moyen), il revient de quantifier l’incertitude dans cette estimation. En effet, il est question d’avoir une mesure de la dispersion du "vrai" taux de prime pure autour de la valeur estimée. Ceci amène à explorer la méthodologie de rééchantillonnage bootstrap qui permet d’obtenir les variantes possibles de notre échantillon, afin d’estimer toute caractéristique d’intérêt de notre taux de prime estimé. 3.4.1 Principe de la méthode du bootstrap La méthode du bootstrap, inventée en 1979 par Efron, est très pratique car elle permet de s’affranchir d’hypothèses parfois contraignantes sur une famille de lois de probabilité. Soit X, une variable aléatoire de fonction de répartition F . Supposons que l’on dispose d’un n-échantillon X = (X1 , ..., Xn ) suivant cette loi. On cherche à étudier le comportement de la fonction T (X1 , ..., Xn ) dépendant des observations. L’algorithme du bootstrap est le suivant : 1. À partir de X = {X1 , ..., Xn } , on calcule la fonction de répartition empirique Fn , définie par n 1X Fn (x) = I[X ≤x] ; n k=1 k 2. Conditionnellement à Fn , on procède, dans X, à N tirages équiprobables avec remise : X ∗ = {X1∗ , ..., XN∗ } est alors le nouvel échantillon3 ; 3. On définit la statistique bootstrapée T ∗ = T (X1∗ , ..., XN∗ , Fn ) . On répète alors B fois les étapes 2 et 3, en générant B échantillons X ∗1 , ..., X ∗B , et on observe alors B valeurs T1∗ , ..., TB∗ de T appelées échantillon bootstrap que l’on peut utiliser pour estimer toute caractéristique d’intérêt de T. Ainsi, on peut estimer : • la moyenne de T par m̂ = • la variance de T par σ̂B2 = 1 B B P Tj∗ ; j=1 1 B−1 B P 2 Tj∗ − m̂ . j=1 Lorsque θ̂ = T (X1 , ..., Xn ) est un estimateur d’un paramètre réel θ, alors on peut estimer : • le biais de θ̂ par b̂B = m̂− θ̂obs , où θ̂obs = T (x1 , ..., xn ) , valeur observée ; 2 \ • l’erreur quadratique moyenne (la MISE) de θ̂ par M ISE B = σ̂B2 + b̂B ; 2 Soient X1 , X2 , ..., Xn , un échantillon de variables aléatoires réelles i.i.d. On appelle moyenne de l’échantillon ou moyenne empirique, la statistique notée X, définie par n Xn = 1X Xi . n i=1 3 [7] suggéraient de prendre N = n ; toutefois, de meilleurs résultats peuvent être obtenus en souséchantillonnant, et en effectuant des tirages sans remise. DOUANLA Frédéric Hermann ©2014 48 Memoire de Master de Statistique Appliquée, UYI-ENSP 3.4. QUANTIFICATION DE L’INCERTITUDE DANS LE MODÈLE : MÉTHODE "BOOTSTRAP" • un intervalle de confiance de niveau approximatif 1 − α pour θ est donné par h α α i t∗ ; t∗ 1 − , 2 2 où, ∀β ∈ ]0; 1[ , t∗ (β) est le β−quantile empirique de l’échantillon des Tj∗ , (j = 1, ..., B) , obtenu par 1 card j = 1, ..., B / t∗j ≤ t∗ (β) ≈ β, B d’où t∗ (β) est une estimation du β-quantile de la variable aléatoire réelle θ̂ (méthode du percentile). 3.4.2 Bootstrap et échantillons corrélés. Cette partie repose sur une idée développée par [17] et déjà utilisée dans [13]. Tel que présenté, l’échantillonnage bootstrap peut donner des résultats "faux" lorsque les données ne sont pas indépendantes. En effet, en présence de données longitudinales, un rééchantillonnage bootstrap classique ne convient pas a priori pour reproduire le processus de production de ces données. Ici, il est question, en présence de données longitudinales, d’identifier un phénomène lié aux données qui a été observé de façon i.i.d. Ceci est justifié par le fait que l’idée générale du bootstrap est de tenter un rééchantillonnage dans les données initiales, tout en essayant de mimer au plus près le processus ayant produit ces données. Sur cette base, on peut envisager un rééchantillonnage bootstrap tel que présenté ci-dessus. En ce qui concerne le tableau de données longitidunales, l’échantillon des individus (dans notre cas, les véhicules), pris deux à deux distincts, a été observé de façon i.i.d. Ainsi, une démarche bootstrap appropriée peut se présenter comme il suit : 1. Extraire des données initiales, à partir de la colonne des identifiants, le vecteur V des identifiants deux à deux distincts des assurés. Noter nv sa taille. 2. Faire un tirage équiprobable, avec remise, d’un échantillon V ∗ de taille nv dans V ; 3. Pour j = 1, ..., nv , considérer que l’assuré identifié par la j ème composante V ∗ [j] de V ∗ dans le tableau initial est, en fait, identifié par j dans le tableau bootstrap. Ainsi, pour construire une copie bootstrap des données initiales, on procède de la façon suivante : Pour j = 1, ..., nv , 3.1) Inclure dans le tableau bootstrap, et dans le même ordre, toutes les lignes du tableau initial ayant V ∗ [j] comme identifiant ; 3.2) Identifier toutes ces lignes par j dans le tableau bootstrap. La particularité ici est que, de prime abord, l’échantillon bootstrap construit n’aura pas le même nombre de lignes que le jeu de données initiales. Toutefois, la taille des assurés reste la même. DOUANLA Frédéric Hermann ©2014 49 Memoire de Master de Statistique Appliquée, UYI-ENSP Chapitre Quatre APPLICATION AUX DONNÉES Ce chapitre présente l’application des outils statistiques aux données d’études. Il s’agit dans un premier temps de présenter, pour une garantie donnée, la procédure de modélisation de la fréquence des sinistres, l’estimation du coût relatif moyen des sinistres et l’estimation du taux de prime. Ensuite, une analyse comparative est faite entre les taux de prime estimés et ceux du tarifaire actuel de la SAAR. Enfin, des discussions sont faites relativement à l’erreur d’estimation. 4.1 Estimation des taux de prime en adéquation avec la sinistralité actuelle. Dans cette section, nous estimons les différents taux de prime par garantie dommage qui sont en adéquation avec la sinistralité actuelle du portefeuille de la compagnie. Ce taux de prime qui correspond à l’importance du risque à garantir est déterminé selon la formule : Taux de prime = Fréquence × Coût relatif moyen des sinistres . Nous avons décelé, d’une part, que les variables GARANTIE, PROPRIETAIRE, USAGE ainsi que la variable AGES.VEH.G ont une influence significative sur la fréquence des sinistres. D’autre part, le coût relatif moyen des sinistres diffère significativement selon la garantie souscrite de même que la catégorie d’usage du véhicule. 4.1.1 Modélisation de la fréquence des sinistres. Comme mentionné au chapitre précédent, il s’agit ici de la modélisation d’un processus de comptage. Cependant, dans beaucoup de situations concrètes, la loi de Poisson s’avère appropriée pour modéliser le nombre d’occurrences d’un événement donné dans une période de temps fixé. Dans notre étude, il est question de la fréquence des sinistres sur un an. Mais vu que nous disposons des données longitudinales, nous considérerons la régression de Poisson longitudinale, cas particulier de modèles GLM présentés au chapitre précédent. On considère que les variables Yij |Xij P oisson (µij ) , avec Yij |Xij dépendantes pour i = 1, ..., n, j = 1, ..., ni , où : • Yi,j , j = 1, ..., ni représente le nombre de sinistres subis sur la j ème année par l’assuré i ; • Xij = (xij1 , ..., xijp ) représente la valeur des variables exogènes pour l’observation j de l’assuré i. Les variables que nous avons retenues pour expliquer la fréquence des sinistres sont : la catégorie d’usage (à 7 modalités), la strate d’âge du véhicule (à 2 modalités), ainsi que le DOUANLA Frédéric Hermann ©2014 50 Memoire de Master de Statistique Appliquée, UYI-ENSP 4.1. ESTIMATION DES TAUX DE PRIME EN ADÉQUATION AVEC LA SINISTRALITÉ ACTUELLE. fait d’être propriétaire ou non du véhicule assuré. Notons que c’est la variable ANNEE qui permettra d’estimer les différentes corrélations existantes entre observations. Le modèle log-Poisson longitudinale pour l’estimation de la fréquence µi des sinistres pour un individu i s’écrit alors : log ( µi ) = β0 + 6 P βk 1U SAGEi =k+1 + β7 1P ROP RIET AIREi =OU I + β8 1AGE.V EHi =2 k=1 + + 14 P βk 1U SAGEi =k−7 × 1P ROP RIET AIREi =OU I k=9 20 P (4.1) βk 1U SAGEi =k−13 × 1AGE.V EHi =2 k=15 +β21 1P ROP RIET AIREi =OU I × 1AGE.V EHi =2 Il est question de présenter le processus d’estimation des taux de prime des différentes classes de risque pour une garantie Dommage (INCENDIE). La même procédure s’adaptera pour les autres garanties. Notons que l’analyse se fera avec le logiciel statistique R 2.15.1 en utilisant la fonction geeglm du package geepack (Cf. [11]) DOUANLA Frédéric Hermann ©2014 51 Memoire de Master de Statistique Appliquée, UYI-ENSP Parameter Intercept USAGECAT2 USAGECAT3 USAGECAT4 USAGECAT5 USAGECAT8G USAGECAT9 PROPRIETAIREO AGE.VEHG2 USAGECAT2 :PROPRIETAIREO USAGECAT3 :PROPRIETAIREO USAGECAT4 :PROPRIETAIREO USAGECAT5 :PROPRIETAIREO USAGECAT8G :PROPRIETAIREO USAGECAT9 :PROPRIETAIREO USAGECAT2 :AGE.VEH.G2 USAGECAT3 :AGE.VEH.G2 USAGECAT4 :AGE.VEH.G2 USAGECAT5 :AGE.VEH.G2 USAGECAT8G :AGE.VEH.G2 USAGECAT9 :AGE.VEH.G2 PROPRIETAIREO :AGE.VEH.G2 Estimate "Wald 95% Conf Limit" -3.2518 [-3.46 , -3.04 ] 0.5790 [0.318 , 0.840 ] -0.9516 [-1.469 , -0.434] 0.1688 [-0.544 , 0.882] -1.7417 [-2.48 , -1.01] -0.2352 [-0.60 , 0.129 ] -2.1839 [-3.34 , -1.03] 0.3769 [0.04 , 0.71 ] 0.1772 [-0.09 , 0.44] -0.2883 [-0.75 , 0.17] 1.4679 [0.89 , 2.03] 0.7629 [-0.18 , 1.71] 2.3176 [1.13 , 3.51] 0.9506 [0.32 , 1.58] 2.1318 [0.92 , 3.33] -0.6076 [-0.98 , -0.23] -0.4916 [-1.10 , 0.12] -0.1835 [-1.19 , 0.82] -0.9445 [-2.36 , 0.47] 0.4393 [-0.25 , 1.14] -0.0209 [-1.30 , 1.26] -0.7207 [-1.10 , -0.34] Std.err 0.1075 0.1330 0.2639 0.3637 0.3751 0.1859 0.5890 0.1718 0.1368 0.2378 0.2905 0.4843 0.6066 0.3228 0.6146 0.1930 0.3122 0.5137 0.7253 0.3560 0.6518 0.1943 Wald 915.49 18.95 13.00 0.22 21.55 1.60 13.75 4.81 1.68 1.47 25.53 2.48 14.60 8.67 12.03 9.91 2.48 0.13 1.70 1.52 0.00 13.76 Pr(>|W|) <2e-16*** 1.3e-05*** 0.00031*** 0.64250 3.4e-06*** 0.20586 0.00021*** 0.02821* 0.19516 0.22534 4.3e-07*** 0.11523 0.00013*** 0.00323** 0.00052*** 0.00164** 0.11528 0.72089 0.19282 0.21716 0.97447 0.00021*** 4.1. ESTIMATION DES TAUX DE PRIME EN ADÉQUATION AVEC LA SINISTRALITÉ ACTUELLE. Table 4.1 – Résultat de la régression de Poisson avec approche GEE et structure de dépendance AR(1) Le Tableau 4.1 nous donne l’ajustement du modèle (4.1) incluant toutes les interactions possibles entre variables explicatives. Les estimations ponctuelles des βk sont fournies dans la deuxième colonne du Tableau 4.1. La colonne "Wald 95% Conf Limit" donne les bornes inférieure et supérieure des intervalles de confiance pour les paramètres au niveau 95%, calculées à l’aide de la formule Coef f βk ± 1.96 Std.errβk , DOUANLA Frédéric Hermann ©2014 52 Memoire de Master de Statistique Appliquée, UYI-ENSP 4.1. ESTIMATION DES TAUX DE PRIME EN ADÉQUATION AVEC LA SINISTRALITÉ ACTUELLE. où 1.96 est le quantile d’ordre 97.5% de la loi normale centrée réduite et Std.errβk est la racine du j ème élément diagonal de la matrice de variance-covariance estimée de β̂, donné à la troisième colonne. Les colonnes "Wald" et "pr (> |W |) ", qui est la p-valeur associée, permettent de tester si le coefficient βk correspondant est significativement différent de 0. Ce test est effectué grâce à la statistique de W ald (Coef βk )2 , (Std.errβk )2 qui obéit approximativement à une loi du χ2 à 1 degré de liberté. On rejettera la nullité de βk lorsque la p − valeur est inférieure à 5%. Variables Df USAGE 6 PROPRIETAIRE 1 AGE.VEH.G 1 USAGE :PROPRIETAIRE 6 USAGE :AGE.VEH.G 6 PROPRIETAIRE :AGE.VEH.G 1 X2 P(>|Chi|) 37.1 1.6e-06*** 5.6 0.01787* 19.6 9.7e-06*** 74.2 5.5e-14*** 12.7 0.04780* 13.8 0.00021*** Table 4.2 – Résultats de l’analyse pour le modèle de base avec approche GEE et structure de dépendance AR(1). Le Tableau 4.2 nous donne les résultats de l’examen de chacune des variables par rapport à un modèle ne la contenant pas. Dans la colonne ”X2” est calculée, pour chaque variable, 2 fois la différence entre la log-vraisemblance obtenue pour le modèle contenant toutes les variables et la log-vraisemblance du modèle sans la variable en question. Cette statistique est asymptotiquement distribuée comme un χ2 avec Df degrés de liberté. La dernière colonne nous fournit la p − valeur associée au test du rapport de vraisemblance ; cela permet d’apprécier la contribution de cette variable explicative à la modélisation. On commence par éliminer le croisement entre USAGE et AGE.VEH.G jugé le moins significatif. Le modèle suivant (résultats non donnés) continue à donner une p − valeur élevée pour la variable PROPRIETAIRE qui a été exclue. Les résultats du modèle final tenant compte de toutes ces modifications est repris aux Tableaux 4.3 et 4.4. DOUANLA Frédéric Hermann ©2014 53 Memoire de Master de Statistique Appliquée, UYI-ENSP Parameter Intercept USAGECAT 2 USAGECAT 3 USAGECAT 4 USAGECAT 5 USAGECAT 8G USAGECAT 9 AGE.VEH. G2 PROPRIETAIRE O USAGECAT 2 :PROPRIETAIREO USAGECAT 3 :PROPRIETAIREO USAGECAT 4 :PROPRIETAIREO USAGECAT 5 :PROPRIETAIREO USAGECAT8G :PROPRIETAIREO USAGECAT9 :PROPRIETAIREO AGE.VEH.G2 :PROPRIETAIREO Estimate "Wald 95% Conf Limit" -3.08 [-3.22 , -2.94] 0.258 [0.10 , 0.41] -1.29 [-1.73 , -0.84] 6.11e-02 [-0.52 , 0.65] -1.18e+05 [-1.2e+06 , 9.72e+05] -0.622 [-0.93 , -0.31] -10.6 [-12.90 , -8.23] -0.164 [-0.31 , -0.01] -0.187 [-0.45 , 0.07] -0.514 [-0.90, -0.12] 2.03 [1.49 , 2.58] 1.15 [0.36 , 1.92] 1.18e+05 [-9.7 e+05 , 1.2 e+06] 1.29 [0.58 , 1.99] 9.84 [7.0 , 12.7] -1.16 [-1.47 , -0.85] Std.err Wald Pr(>|W|) 7.20e-02 1825.38 <2e-16*** 8.02e-02 10.32 0.00131** 0.225 32.96 9.4e-09*** 0.301 0.04 0.83935 5.58e+05 0.04 0.83296 0.157 15.75 7.2e-05*** 1.19 78.71 <2e-16*** 7.69e-02 4.53 0.03336* 0.135 1.91 0.16690 0.201 6.55 0.01048* 0.278 53.64 2.4e-13*** 0.399 8.26 0.00406** 5.58e+05 0.04 0.83296 0.359 12.96 0.00032*** 1.45 46.11 1.1e-11*** 0.158 54.33 1.7e-13*** 4.1. ESTIMATION DES TAUX DE PRIME EN ADÉQUATION AVEC LA SINISTRALITÉ ACTUELLE. Table 4.3 – Ajustement du modèle de régression de Poisson, modèle final. Définitivement, le modèle retenu pour la modèlisation de fréquence des sinistres en garantie INCENDIE est le suivant : DOUANLA Frédéric Hermann ©2014 54 Memoire de Master de Statistique Appliquée, UYI-ENSP 4.1. ESTIMATION DES TAUX DE PRIME EN ADÉQUATION AVEC LA SINISTRALITÉ ACTUELLE. Variables Df USAGE 6 AGE.VEH.G 1 PROPRIETAIRE 1 USAGE :PROPRIETAIRE 6 AGE.VEH.G :PROPRIETAIRE 1 X2 102.5 60.6 31.4 141.5 54.3 P(>|Chi|) <2e-16*** 6.9e-15*** 2.1e-08*** <2e-16*** 1.7e-13*** Table 4.4 – Statistiques du rapport de vraisemblance, modèle final. log ( µ̂i ) = β̂0 + β̂1 1USAGEi =CAT.2 + β̂2 1USAGEi =CAT.3 + β̂3 1USAGEi =CAT.8G +β̂4 1USAGEi =CAT.9 + β̂5 1AGE.VEHi =2 + β̂6 1USAGEi =CAT.2 × 1PROP.i =OUI +β̂7 1USAGEi =CAT.3 × 1PROP.i =OUI + β̂8 1USAGEi =CAT.4 × 1PROP.i =OUI +β̂9 1USAGEi =CAT.8G × 1PROP.i =OUI + β̂10 1USAGEi =CAT.9 × 1PROP.i =OUI +β̂11 1AGE.VEHi =2 × 1PROP.i =OUI . (4.2) où PROP.=PROPRIETAIRE, avec les estimation β̂k , k = 0, 1, ..., 11; contenues dans le Tableau 4.3. ***Validation du modèle La validation du modèle se fait à partir de la statistique de Pearson, definie comme somme des carrés des résidus de Pearson. Ces résidus sont obtenus par la commande residuals(model, type="pearson") du logiciel R. On obtient 2 Xobs = ni n X X {r̂ij }2 = 37 841. i=1 j=1 Si le modèle utilisé ajuste bien les données, alors, cette statistique devrait suivre approximativement une loi du χ2 à N − p − 1 = 39 916 degrés de liberté. Pour un seuil de α = 5%, 95% le quantile d’odre 1 − α d’une loi du X 2 à 39 916 dégrés de liberté donne q39 916 = 40 382 qui 2 est supérieure à la valeur observée Xobs de la statistique. On peut donc conclure que ce modèle sied avec les données. ***Estimation du paramètre de Dispersion φ Une estimation du paramètre de dispersion φ est donnée par 2 37841 Xobs = = 0.948, N −p 39916 avec un écart type de Std.err = 0.153. Notons que φ̂±1.96.Std.err est un intervalle de confiance de niveau 95% pour φ̂ car pour un nombre élevé de degrés de liberté, la loi du X 2 peut être assimilée à une loi gaussienne. D’où un intervalle de confiance de niveau 95% pour φ̂ égale à [0.648; 1.247] . Puisque 1 ∈ [0.648; 1.247] , l’on peut conclure que le paramètre de dispersion φ̂ estimé n’est pas significativement différent de 1. Par conséquent, on peut conclure que la modélisation par un modèle de Poisson longitudinal est bien appropriée. φ̂ = ***Estimation du paramètre de correlation α Une estimation du paramètre de corrélation α est donnée par DOUANLA Frédéric Hermann ©2014 55 Memoire de Master de Statistique Appliquée, UYI-ENSP 4.1. ESTIMATION DES TAUX DE PRIME EN ADÉQUATION AVEC LA SINISTRALITÉ ACTUELLE. α̂ = 1 ni n X X (K1 − p) φ̂ i=1 j=1 r̂i,j r̂i,j+1 = 0.107, avec un écart type de Std.err = 0.0363 d’où un intervalle de confiance de niveau 95% égal à [0.036; 0.178] . ***Prédiction de la fréquence annuelle des sinistres Pour l’assurén i caractérisé par un vecteur de variables explicatives Xij , la fréquence annuelle o prédite est exp Xijt β̂ . Ceci sera aussi le cas pour les nouveaux assurés présentant les mêmes caractéristiques que l’assuré i. Le Tableau 4.5 donne la fréquence ainsi qu’un intervalle de confiance de niveau 95% de cette fréquence estimée, des sinistres par classe de risque en ce qui concerne la Garantie Incendie. INCENDIE Classes de risque Fréquences USAGE ÂGE.VEH. PROP. Estimation IC (95%) CAT 1 ≤ 5ans 0.0461 [0.040; 0.0529] > 5ans O 0.0122 [0.00669; 0.0222] N 0.0392 [0.0292; 0.0522] CAT 2 ≤ 5ans O 0.0357 [0.01783; 0.0710] N 0.0597 [0.0442; 0.0801] > 5ans O 0.00946 [0.00299; 0.0298] N 0.0507 [0.0323; 0.0790] CAT 3 ≤ 5ans O 0.0972 [0.03140; 0.298] N 0.0127 [0.00708; 0.0226] > 5ans O 0.0258 [0.00526; 0.125] N 0.0108 [0.00517; 0.0223] CAT 4 ≤ 5ans O 0.1452 [0.05756; 0.364] N 0.0461 [0.0400; 0.0529] > 5ans O 0.0385 [0.01064; 0.0529] N 0.0392 [0.0292; 0.0522] CAT 5 0.0461 [0.040; 0.0529] CAT 8G ≤ 5ans O 0.0901 [0.02838; 0.284] N 0.0248 [0.0158; 0.0386] > 5ans O 0.0239 [0.0158; 0.119] N 0.0210 [0.0115; 0.0381] CAT 9 ≤ 5ans O 0.0223 [1.09e − 04; 4.62] N 1.19e − 06 [9.98e − 08; 1.41e − 05] > 5ans O 0.0059 [1.83e − 05; 1.94] N 1.01e − 06 [7.29e − 08; 1.39e − 05] Table 4.5 – Estimation des fréquences des différentes classes de risque pour la garantie Incendie. DOUANLA Frédéric Hermann ©2014 56 Memoire de Master de Statistique Appliquée, UYI-ENSP 4.1. ESTIMATION DES TAUX DE PRIME EN ADÉQUATION AVEC LA SINISTRALITÉ ACTUELLE. 4.1.2 Estimation du coût relatif moyen des sinistres. Maintenant que nous avons une estimation de la fréquence des sinistres, il reste à estimer le coût relatif moyen des sinistres. Nous avons vu que le coût relatif varie selon la catégorie d’usage du véhicule et est par ailleurs donné selon la formule COUT.SIN . CAPITAUX Notons qu’ici, seules les polices sinistrées et qui ont un montant d’indemnisation non nul permettent d’évaluer le coût relatif moyen des sinistres. Pour le faire, nous utilisons la moyenne empirique et les intervalles de confiance de niveau 95% des différents coûts relatifs moyens sont determinés par rééchantillonnage (méthode bootstrap). Les résultats sont présentés dans le Tableau 4.6 COUT.RELATIF = Coût en INCENDIE USAGE Estimation IC (95%) CAT 1 0.145 [0.126; 0.163] CAT 2 0.160 [0.139; 0.182] CAT 3 0.040 [0.0224; 0.0643] CAT 4 0.324 [0.210; 0.469] CAT 5 0.19 [0.19; 0.19] CAT 8G 0.0381 [0.0312; 0.0443] CAT 9 0.190 [0.139; 0.282] Table 4.6 – Estimation du coût relatif moyen selon l’usage du véhicule en garantie Incendie. DOUANLA Frédéric Hermann ©2014 57 Memoire de Master de Statistique Appliquée, UYI-ENSP 4.1. ESTIMATION DES TAUX DE PRIME EN ADÉQUATION AVEC LA SINISTRALITÉ ACTUELLE. 4.1.3 Estimation du taux de prime. Nous disposons à present des estimations de la fréquence ainsi que celle du coût relatif moyen des sinistres. Par conséquent, nous pouvons finalement estimer nos différents taux de prime à travers l’opération : Taux de prime = Fréquence × Coût relatif moyen des sinistres Le tableau 4.7 donne les différents taux de prime (pour une assiette de prime de 100) de la garantie Incendie selon les classes de risque. Classes de risque USAGE ÂGE.VEH. CAT 1 ≤ 5ans > 5ans CAT 2 ≤ 5ans > 5ans CAT 3 ≤ 5ans > 5ans CAT 4 ≤ 5ans > 5ans CAT 5 CAT 8G ≤ 5ans > 5ans CAT 9 ≤ 5ans > 5ans PROP. O N O N O N O N O N O N O N O N O N O N O N INCENDIE Taux de Prime (en %) Taux IC (95%) estimé 0.666 [0.611; 0.784] 0.177 [0.161; 0.210] 0.566 [0.522; 0.617] 0.569 [0.514; 0.634] 0.952 [0.854; 1.012] 0.151 [0.129; 0.167] 0.808 [0.717; 0.910] 0.385 [0.1759; 0.6843] 0.0506 [0.0212; 0.0919] 0.103 [0.0516; 0.1834] 0.0430 [0.0188; 0.0738] 4.70 [2.580; 6.41] 1.49 [1.056; 2.16] 1.25 [0.550; 1.89] 1.26 [0.735; 1.72] 0.873 [0.873; 0.876] 0.3415 [0.2820; 0.383] 0.0940 [0.0794; 0.113] 0.0909 [0.0740; 0.104] 0.0798 [0.0645; 0.096] 0.408 [0.198; 0.650] 2.18e − 05 [7.54e − 06; 3.77e − 05] 0.109 [0.0374; 0.187] 1.85e − 05 [6.40e − 06; 3.20e − 05] Taux en vigueur 0.25 0.25 0.25 0.25 0.25 0.25 0.25 0.30 0.30 0.30 0.30 0.40 0.40 0.40 0.40 Taux de variation 166.4% % 29.2% & 126.4% % 127.6% % 280.8% % 39.6% & 223.2% % 28.33% % 83.13% & 65.66% & 85.66% & 1075% % 272.5% % 212.5% % 215% % [0.30; 0.40] [0.30; 0.40] [0.30; 0.40] [0.30; 0.40] [0.25; 0.45] [0.25; 0.45] [0.25; 0.45] [0.25; 0.45] 13.83% % 68.66% & 69.7% & 73.4% & 63.2% % 99.99% & 56.4% & 99.99% & Table 4.7 – Estimation des taux de prime selon les classes de risques en garantie Incendie. Du Tableau 4.7, on constate que, de manière générale, les taux de prime estimés sont légèrement plus élevés pour les véhicules âgés de moins de 5 ans. Les véhicules de catégorie 1 (véhicules de tourisme), 2 (véhicules pour transport des produits de l’assuré) ainsi que ceux de catégorie 4 (taxis de ville (4A), véhicules de transport public de voyageurs (4B) et autocars de transport des élèves et du personnel à titre gratuit (4C)) sont particulièrement plus exposés au risque Incendie et les taux de prime corespondants qui excèdent ceux en vigueur. DOUANLA Frédéric Hermann ©2014 58 Memoire de Master de Statistique Appliquée, UYI-ENSP 4.1. ESTIMATION DES TAUX DE PRIME EN ADÉQUATION AVEC LA SINISTRALITÉ ACTUELLE. 4.1.4 Estimation des taux de prime pour les autres garanties dommages On a vu que le coût relatif diffère selon la catégorie d’usage du véhicule. Cependant, le nombre d’observations de ce coût relatif est très faible pour certaines catégories d’usages, ce qui ne nous permet pas d’avoir une estimation fiable du coût relatif moyen des sinistres pour ces catégories là. Ainsi, dans les tableaux ci-dessous, nous présentons les estimations des différents taux de prime pour les classes de risque dans lesquelles on dispose de données permettant d’avoir des estimations fiables. La procédure d’estimation reste la même que celle de la garantie Incendie. 4.1.4.1 DOMMAGE PAR ACCIDENT USAGE CAT 1 CAT 2 CAT 3 CAT 4 CAT 8G CAT 9 DOMMAGE PAR ACCIDENT Taux(%) Taux en PROP. IC (95%) estimé vigueur(%) O 0.190 [0.186; 0.200] 2.50 N 1.982 [1.94; 2.08] 2.50 O 0.115 [0.111; 0.119] 3.50 N 1.205 [1.16; 1.24] 3.50 O 0.141 [0.135; 0.150] 3.50 N 1.476 [1.94; 1.57] 3.50 O 0.185 [0.173; 0.196] 10.00 N 1.927 [1.81; 2.05] 10.00 O 0.188 [0.182; 0.194] [8.00; 12.00] N 1.964 [1.90; 2.03] [8.00; 12.00] O 0.041 [0.0353; 0.0468] [2.10; 2.64] N 0.428 [0.369; 0.488] [2.10; 2.64] Taux de variation 92.4% & 20.72% & 96.71% & 65.57% & 95.97% & 57.82% & 98.15% & 80.73% & 97.65% & 75.45% & 98.04% & 79.61% & Table 4.8 – Estimation des taux de prime selon les classes de risques en Dommage par Accident. La catégorie d’âge du véhicule n’a pas été pertinente dans le modèle d’estimation de la fréquence des sinistres en Dommage par Accident. L’analyse du Tableau 4.8 montre que les non-propriétaires ont une sinistralité plus élevé relativement aux propriétaires. Ceci traduit un risque plus élevée en Dommage par Accident chez les véhicules assurés en flotte. Cependant, ces taux restent inférieurs aux taux de prime en vigueur. DOUANLA Frédéric Hermann ©2014 59 Memoire de Master de Statistique Appliquée, UYI-ENSP 4.1. ESTIMATION DES TAUX DE PRIME EN ADÉQUATION AVEC LA SINISTRALITÉ ACTUELLE. 4.1.4.2 VOL&VOL PARTIEL La catégorie d’âge du véhicule n’a pas été pertinente dans le modèle d’estimation de la fréquence des sinistres en VOL&VOL PARTIEL. USAGE PROP. CAT 1 O N O N O N CAT 2 CAT 8G VOL&VOL PARTIEL Taux(%) IC (95%) estimé 0.340 [0.295; 0.381] 0.0156 [0.0135; 0.0175] 0.231 [0.195; 0.285] 0.0106 [0.00896; 0.01306] 0.284 [0.262; 0.301] 0.0130 [0.0120; 0.0138] Taux en vigueur(%) [2.00; 2.50] [2.00; 2.50] 2.00 2.00 [2.50; 3.13] [2.50; 3.13] Taux de variation 83% & 99.22% & 88.45% & 99.47% & 88.64 & 99.48 & Table 4.9 – Estimation des taux de prime selon les classes de risques en VOL&VOL PARTIEL. L’analyse du Tableau 4.9 fait remarquer que le risque de vol selon la catégorie d’usage est plus élevé chez les propriétaires relativement aux non-propriétaires. Ceci traduit une précaution plus importante au risque VOL&VOL PARTIEL chez les véhicules assurés en flotte. Evidemment, les véhicules de service sont très souvent mieux sécurisés (dans les parkings des sociétés par exemple) que les véhicules personnels. Toutefois, ces différents taux restent largement en dessous des taux en vigueur. 4.1.4.3 DOMMAGE COLLISION USAGE CAT 1 CAT 2 DOMMAGE COLLISION Taux(%) Taux en IC (95%) estimé vigueur(%) 0.442 [0.367; 0.514] 1.00 0.382 [0.341; 0.421] 1.50 Taux de variation 55.8% & 74.53% & Table 4.10 – Estimation des taux de prime selon les classes de risques en Dommage par Collision. Ici, la fréquence des sinistres ne varie pas de manière significative selon la catégorie d’usage. Seule l’estimation du coût relatif moyen a permis de différencier les taux de prime selon la catégorie d’usage du véhicule. Par conséquent, ces taux ne sont pas influencés par la catégorie d’âge du véhicule. Les différents taux de prime en adéquation avec la sinistralité actuelle restent inférieurs aux taux en vigueur. DOUANLA Frédéric Hermann ©2014 60 Memoire de Master de Statistique Appliquée, UYI-ENSP 4.1. ESTIMATION DES TAUX DE PRIME EN ADÉQUATION AVEC LA SINISTRALITÉ ACTUELLE. 4.1.4.4 BRIS DE GLACES USAGE PROP. CAT 1 O N O N O N CAT 2 CAT 8G BRIS DE GLACES Taux(%) IC (95%) estimé 0.0321 [0.0284; 0.0354] 0.1027 [0.0907; 0.1131] 0.0321 [0.0321; 0.0321] 0.1027 [0.103; 0.103] 0.0290 [0.0249; 0.0337] 0.0929 [0.0796; 0.1079] Taux en vigueur(%) 0.50 0.50 0.50 0.50 [0.60; 0.75] [0.60; 0.75] Taux de variation 93.58% & 79.46% & 93.58% & 79.46% & 95.16% & 84.51% & Table 4.11 – Estimation des taux de prime selon les classes de risques en garantie Bris de Glaces. La catégorie d’âge du véhicule n’a pas été pertinente dans le modèle d’estimation de la fréquence des sinistres en Bris de Glaces. Les résultats consignés dans le Tableau 4.11 font remarquer des taux de prime plus élevés chez les non-propriétaires. Cependant, ces taux restent inférieurs aux taux en vigueur. 4.1.4.5 ASSISTANCE À LA REPARATION USAGE CAT 1 CAT 2 CAT 8G ASSISTANCE À Taux(%) ÂGE.VEH. estimé ≤ 5ans 4.23 > 5ans 2.234 ≤ 5ans 3.06 > 5ans 0.862 ≤ 5ans 6.12 > 5ans 1.887 LA REPARATION Taux en IC (95%) vigueur(%) [4.09; 4.35] 2.75 [2.16; 2.30] 2.75 [2.80; 3.29] 2.75 [0.790; 0.927] 2.75 [5.70; 6.86] 2.75 [1.76; 2.11] 2.75 Taux de variation 53.81% % 18.76% & 11.27% % 68.65% & 122.54% % 31.38% & Table 4.12 – Estimation des taux de prime selon les classes de risques en Assistance à la Réparation. La variable PROPRIETAIRE n’a pas été retenue pas le modèle d’estimation de la fréquence des sinistres en Assistance à la Réparation. Le Tableau 4.12 montre que la catégorie d’âge du véhicule ainsi que sa catégorie d’usage ont une influence significative sur la sinistralité. Les véhicules âgés de moins de 5 ans ont un taux de prime assez élevé par rapport à ceux de plus de 5 ans. Comparativement aux taux en vigueur, ces taux qui sont en adéquation avec la charge des sinistres sont assez élevés. Cepandant, ces résultats ne reflètent pas ce qui se passe dans l’entreprise. Le Tableau 4.13 fait remarquer que les véhicules de catégorie d’usage "CAT 8G" représentent en réalité une très faible proportion d’assurés (3.65%) pour la garantie Assistance à la Réparation. Puisque dans le modèle précédent, il n’y a pas eu une différence significative entre les fréquences des sinistres des catégories d’usage CAT 1 et CAT 2, nous allons faire un modèle qui ne tiend plus en compte la catégorie d’usage du véhicule. L’estimation du coût relatif moyen des sinistres liés à cette garantie nous donne 0.224. DOUANLA Frédéric Hermann ©2014 61 Memoire de Master de Statistique Appliquée, UYI-ENSP 4.2. VÉRIFICATION DES RÉSULTATS : ERREUR DE PRÉDICTION ASSISTANCE À LA REPARATION USAGE CAT 1 CAT 2 CAT 8G Proportion 50.24% 46.09% 3.65% Table 4.13 – Proportion des différentes catégories d’usage en Assistance Auto ASSISTANCE À LA REPARATION Taux(%) Taux en ÂGE.VEH.G Proportion IC (95%) estimé vigueur(%) ≤ 5ans 37.3% 3.15 [2.85; 3.39] 2.75 > 5ans 62.7% 1.21 [1.05; 1.29] 2.75 Taux de variation 14.54% % 61.81% & Table 4.14 – Estimation des taux de prime selon les classes de risques en Assistance à la Réparation. Le Tableau 4.14 nous montre que la classe des véhicules de moins de 5ans a une sinistralité plus élevée que celle des véhicules de plus de 5ans. Comparativement au taux en vigueur, le taux en adéquation avec la charge des sinistres est plus élevé pour les véhicules ayant plus de 5 années de circulations. 4.2 Vérification des résultats : Erreur de prédiction Cette section propose une méthodologie de vérification de nos résultats sur les données. En effet, il s’agit, à partir des taux de prime estimés, de déterminner la masse de prime pure prédite pour une classe de risque donnée, et de la comparer à la charge des sinistres enrégistrés dans cette classe de risque. Notre Prime pure Prédite s’obtient grâce à la formule : Prime pure prédite = Taux de prime estimé × Capitaux assurés De façon pratique et à titre d’exemple, pour la garantie INCENDIE, le Tableau 4.15 donne pour trois classes de risques, la prime émise, la charge des sinistres, ainsi que la prime prédite par nos estimations (en F CFA). Classes de risque USAGE ÂGE.VEH. CAT 1 CAT 2 CAT 2 > 5ans ≤ 5ans > 5ans PROP. N N N INCENDIE Prime Charge des Prime émise sinistres prédite 36 764 181 98 765 722 107 652 829 127 218 046 250 711 238 458 399 211 35 380 008 98 492 027 169 829 089 Table 4.15 – Vérification des résultats sur quelques classes de risque. Nous constatons qu’effectivement, les variations entre Prime émise (Prime encaissé) et Charge des sinistres vont dans le même sens que nos prédictions. Toutefois, si pour la classe (INCENDIE, CAT 1, > 5ans, N), la masse de prime prédite se rapproche effectivement de la charge des sinistres, il n’en est pas autant pour les deux autres classes de risque où nous constatons une marge importante entre la charge des sinistres et la masse de prime prédite. DOUANLA Frédéric Hermann ©2014 62 Memoire de Master de Statistique Appliquée, UYI-ENSP Conclusion CONCLUSION Conclusion La présente étude a été menée dans l’optique de réviser les tarifs appliqués en garantie Dommage Automobile à la SAAR Assurances. Il était question d’estimer, à partir de données présentes et passées du portefeuille automobile de la compagnie, les différents taux de prime selon les classes de risque en Garanties Dommage, qui sont en adéquation avec la sinistralité (fréquence et coût relatif moyen des sinistres) actuelle, puis de les comparer aux taux de prime en vigueur. Les deux premiers chapitres ont été consacrés à la présentation du domaine d’étude à savoir l’assurance automobile, ainsi qu’à l’analyse descriptive des variables d’études. A l’issue de cette partie, il est ressorti que la catégorie d’âge du véhicule, la catégorie d’usage du véhicule, la garantie souscrite, ainsi que la possession ou non du véhicule assuré sont des facteurs explicatifs de la fréquence des sinistres. Par ailleurs, le coût relatif moyen n’est influencé que par la catégorie d’usage du véhicule et la garantie souscrite. Dans le troisième chapitre, nous avons présenté le modèle adapté pour la modélisation de la fréquence des sinistres. Il s’agit du modèle de Poisson longitudinale (cas particulier des modèles GLM (Generalized Linear Models)). Ce choix est justifié par le fait qu’il était question de modéliser un processus de comptage. L’estimation des paramètres du modèle a été faite par la technique GEE (Generalized Estmating Equation), pour prendre en compte les corrélations existant entre les observations. La méthodologie de rééchantillonnage bootstrap a été présentée pour avoir une estimation de la variabilité du « vrai » taux de prime par rapport au taux de prime estimés. L’application de ces outils statistiques à nos données nous a permis d’obtenir les résultats suivants : **De manière générale, la sinistralité est plus élevée chez les véhicules âgés de moins de 5 ans ainsi que chez les non-propriétaires des véhicules assurés (ce qui traduit un risque plus élevé pour les véhicules assurés en flotte). **Pour les Garanties Dommages par Accident, Dommages par Collision, Vol Total & Vol Partiel et le Bris de Glaces, les différents taux estimés qui sont en adéquation avec la sinistralité actuelle restent en dessous des taux de prime en vigueur. **En ce qui concerne la garantie Incendie, les taux de prime estimés sont plus élevés que ceux en vigueur dans certaines classes de risque constituées des véhicules de moins de 5 ans d’âge. Limites et perspectives Au début de cette étude, notre objectif était d’estimer les taux de prime en adéquation avec la sinistralité actuelle et de les comparer aux taux en vigueur. Mais il s’est avéré que les taux mentionnés dans le tarifaire de la compagnie s’appliquaient avec des pourcentages de réduction qui diffèrent d’un assuré à l’autre. De ce fait, la suite de cette étude consistera à disposer DOUANLA Frédéric Hermann ©2014 63 Memoire de Master de Statistique Appliquée, UYI-ENSP Conclusion des données dans le but d’estimer les différents taux de prime qui incorporent les réductions accordées, afin de les comparer aux taux estimés dans la présente étude. GARANTIE ASS.AUTO DOM.ACCIDENT DOM.COLLISION INCENDIE BRIS.GLACE VOL&V.PARTIEL Nbr. de police sinistrée 1023 1947 107 1289 107 217 Nbr. de sinistres avec COUT.SIN> 0 500 982 14 548 35 45 Proportion (%) 48.87% 50.43% 13.08% 42.51% 32.71% 20.73% Table 4.16 – Proportion des sinistres ayant un coût de règlement non nul. Le Tableau 4.16 montre qu’une grande proportion des sinistres déclarés ont un coût de réglement nul. Or, notre échantillon de travail était constitué majoritairement des garanties pour lesquelles le coût d’un sinistre subi par un assuré est probablement non nul ( à l’exemple de l’Assistance à la Réparation). D’autre part, nous observons pour cette garantie un pourcentage de plus 50% de sinistres avec un coût de règlement nul. Nous avons également des coûts de sinistres très faibles (à l’exemple de 10 000 FCFA pour le règlement d’un sinistre en Assistance à la Réparation). Or, nous savons que pour la Garantie Assistance à la Réparation, la Franchise est de l’ordre de 50 000 FCFA. Dès lors, la question est celle de savoir si ces montants relativement faibles observés représentent la quote part de l’assureur pour le règlement du sinistre, ou bien le règlement des honoraires de l’expert. Dans ce dernier cas, les données seront biaisées dans la mesure où c’est le principal (prix ou évaluation du prix du risque) qui nous intéresse dans cette étude. Pour être fixé relativement à cette préoccupation, la suite de cette étude consisterait à tirer parmi les sinistres ayant un coût de règlement faible (inférieur à 50 000 FCFA par exemple) un échantillon de contrats, et de faire une vérification physique des dossiers. Sous reserve de cette vérification, nous faisons les suggestions qui suivent. Recommandations Dans un premier temps, nos suggestions vont à l’endroit des producteurs de contrats : • Pour avoir une fiabilité plus significative des données, les différents capitaux doivent être renseignés avec précaution par les r. Nous pensons ici à la valeur à neuf, la valeur vénale ainsi que la valeur agréée ; • Une attention particulière doit être accordée lors du renseignement du numéro d’immatriculation du véhicule. • Enfin, un effort doit être fourni pour remplir les champs obligatoires avec des données fiables. En ce qui concerne nos résultats, nous faisons les suggestions suivantes : • Pour la garantie INCENDIE, malgré le fait que la charge des sinistres soit globalement solvable pour cette garantie, on observe après estimation et vérification des résultats, une sous-tarification de la garantie notamment dans les classes de risque (INCENDIE, DOUANLA Frédéric Hermann ©2014 64 Memoire de Master de Statistique Appliquée, UYI-ENSP Conclusion CAT 1, > 5ans, N), (INCENDIE, CAT 1, ≤ 5ans, N) et (INCENDIE, CAT 1, > 5ans, N). Par conséquent, il est nécessaire de faire le contrôle de résultats pour toutes les autres classes de risque afin d’y appliquer les taux estimés qui sont en adéquation avec leur sinistralité ; • Pour les garanties Vol&Vol Partiel, Bris de Glaces, Dommage par Collision ainsi que la garantie Dommage par Accident, les taux estimés sont largement en dessous des taux existant. Par conséquent, des réductions de prime peuvent être accordées tout en restant au-dessus de la borne supérieure de l’intervalle de confiance du taux estimé. Il est à noter qu’un chargement de prime devrait être fait préalablement selon la marge de rentabilité escomptée par la compagnie afin d’avoir la prime nette applicable. • Nous suggérons également que des études similaires s’étendent aux autres branches de risque. Ceci permettrait à la compagnie SAAR d’avoir une idée permanente sur la sinistralité de son portefeuille, afin d’être plus compétitive sur le marché d’assurance camerounais. DOUANLA Frédéric Hermann ©2014 65 Memoire de Master de Statistique Appliquée, UYI-ENSP Annexe ANNEXE ANNEXE A : Tables et Démonstrations ANNEXE A1 : Démonstration des expressions de l’espérance et de la variance d’une variable aléatoire dont la densité est de la forme (3.1). Proposition 4.2.1 Pour une variable aléatoire Y dont la densité est de la forme (3.1), on a E [Y ] = b0 (θ) où 0 et 00 V [Y ] = b00 (θ) φ ; et (4.3) désignent les dérivées première et seconde par rapport à θ. Démonstration. Soit Y une variable aléatoire dont la densité peut se mettre sous la forme (3.1). ∂ ∂2 Notons U = ∂θ ln f (y|θ, φ) , et U 0 = ∂θ 2 ln f (y|θ, φ) de sorte que l’information de Fisher 0 vaut V [U ] = E [−U ] . R Le vecteur U est centré, i.e. E [U ] = 0. En effet, partant de R f (y|θ, φ) dy = 1 (Cas continu), on dérive les deux membres par rapport à θ : R ∂ f (y|θ, φ) dy 0 = R∂θ R ∂ = RR ∂θ f (y|θ, φ) dy ∂ ln f (y|θ, φ) f (y|θ, φ) dy = R ∂θ ∂ ln f (Y |θ, φ) . = E ∂θ Il suffit alors de remarquer que ∂ ∂ ln f (y|θ, φ) = ∂θ ∂θ yθ − b (θ) y − b0 (θ) + c (y, φ) = ; φ φ 0 (θ) il s’en suit que E [U ] = E[Y ]−b = 0, φ 0 donc E [Y ] = b (θ) . D’autre part, puisque E [U ] = 0, alors V [U ] = E U et E [U 2 ] 2 " =E Y − b0 (θ) φ 2 # = 2 R ∂ = RR ∂θ ln f (y|θ, φ) f (y|θ, φ) dy ∂ ∂ = Rh∂θ ln f (y|θ, φ) ∂θ fi(y|θ, φ) dy 2 ∂ = E − ∂θ 2 ln f (Y |θ, φ) = D’où V [Y ] , φ2 b00 (θ) . φ 2 b00 (θ) V [Y ] = V [U ] = E U = . φ2 φ Donc V [Y ] = b00 (θ) φ . DOUANLA Frédéric Hermann ©2014 66 Memoire de Master de Statistique Appliquée, UYI-ENSP Annexe ANNEXE A2 : La régression de Poisson longitudinale : Estimation du paramètre β (Obtention de la matrice Hessienne) Nous avons supposé que Yij |Xij par : P oisson (µij ). Ainsi, sa fonction de probabilité est donnée y −µij P (Yij = yij |Xij ) = e µijij , yij = 0, 1, 2, ... yij ! Puisque µij = exp (ηij ) , on peut encore écrire P (Yij = yij |Xij ) = e− exp(ηij ) [exp (ηij )]yij , yij = 0, 1, 2, ... yij ! Les observations dans un panel étant indépendantes, alors la probabilité d’un vecteur de résultats pour le panel i est donnée par : ni Y P (Yi = yi |Xi ) = P (Yij = yij |xij ) j=1 La log-vraisemblance est donnée par : L (β) = log (V (β)) = ni n X X (− ln (yij !) + ηij .yij − exp (ηij )) i=1 j=1 Le vecteur gradient de dimension p + 1 de cette log-vraisemblance est donnée par : Uindep (β) = n X Xit 4i (Yi − µi (β)) , i=1 où • Xi = (Xi1 , ..., Xini )t , avec Xij = (1, xij1 , ..., xijp ) ; • µi (β) = (µi1 (β) , ..., µini (β))t et • 4i = Diag exp (ηij ) = exp Xijt β , j = 1, ..., ni (matrice diagonale de dimension ni × ni ∂µ dont l’élément en position (j, j) est exp (ηij ) = ∂ηijij .) L’élément (t, k) de la matrice Hessienne (Hindep (β)), de dimension (p + 1) × (p + 1) est donné par : ni n ∂ 2 L (β) X X = −xijt exp (ηij ) xijk . ∂βk ∂βt i=1 j=1 D’où, avec les mêmes notations précédentes, la matrice Hessienne dans ce cas est donnée par : Hindep (β) = n X i=1 DOUANLA Frédéric Hermann ©2014 67 Memoire de Master de Statistique Appliquée, UYI-ENSP −Xit 4i Xi . Annexe ANNEXE A3 : Tableau donnant les propriétés de dispersion associées à quelques lois Loi de la v.a. Y Espérance Variance Binomiale(n, p) np np (1 − p) Binomiale négative(m, p) m p m(1−p) p2 Poisson(λ) λ λ Propriété sous dispersion si 0 < p ≤ 1 équidispersion si p = 0 sous dispersion si p > 12 équidispersion si p = 12 sur dispersion si p < 12 équidispersion Table 4.17 – Propriétés de dispersion associées à quelques lois. DOUANLA Frédéric Hermann ©2014 68 Memoire de Master de Statistique Appliquée, UYI-ENSP Annexe ANNEXE B : Principaux programmes R ################################## ## Fonction R : ident ## ==> Création de la variable ID qui identifie les unités statistiques ##*** Données : - data : base de données contenant une ## variable ID qui identifie les lignes ##*** Résultat : base de données avec la variable ID qui ## identifie cette fois les unités statistiques. ###################################### ident <- function(data) { # Dans une Garantie donnée, une unité statistique est caractérisée par l’IMMATRICULATION IMAT_GAR <- paste(data$IMMATRICULATION,data$GARANTIE) w <- unique(IMAT_GAR) ide <- c() pair <- c() for(i in 1 :length(w)) { v <- which(IMAT_GAR==w[i]) pair <- c(pair,v) ide <- c(ide,rep(i,length(v))) } data <- data[pair,] data$ID <- ide return(data) } ###################################### ## Fonction R : boot ## ==> Obtenir un échantillon bootstrap des données initiales ## *** Données : ## - data.obs : base de données initiale ## *** Résultat : base de données de rééchantillonnage ###################################### boot <- function(data.obs) { v <- unique(data.obs$NUM.IMMAT) p <- length(v) ind <- sample(1 :p,size=p,replace=TRUE) v.b <- v[ind] ide <- c() ind.b <- c() for(i in 1 :p) { w <- which(data.obs$NUM.IMMAT==v.b[i]) ind.b<- c(ind.b,w) ide <- c(ide,rep(i,length(w))) DOUANLA Frédéric Hermann ©2014 69 Memoire de Master de Statistique Appliquée, UYI-ENSP Annexe } data.b <- data.obs[ind.b,] data.b$NUM.IMMAT <- ide return(data.b) } ###### Importation des données d’EXCEL vers R. ###### data <- read.csv2("data_saar_auto2014_csv2.csv") ###### Pourcentage des données manquantes par variable ###### n <- dim(data)[1] (sum(is.na(data$variable))/n)*100 ###### Analyse descriptive des variables qualitatives ####### ## Tableau des fréquences des modalités ## tab <- table(na.omit(data$variable)) (tab/sum(tab))*100 ## Le mode de la variable ## names(which.max(table(data$variable))) ###### Analyse descriptive des variables quantitatives ####### summary(na.omit(data$variable)) sd(na.omit(data$variable)) ###### Analyse graphique de la sinistralité ####### ## Fréquence des sinistres par modalités de variable tab <- table(na.omit(data$variable)) v <- names(tab) for(i in 1 :length(v)){ tab[i] <- sum(data$NBSINISTRE[which(data$variable ==v[i])]) } freq <- tab/table(na.omit(data$variable)) windows() barplot(freq,lwd=1,las=2, xlab="variable", ylab="Fréq.sinistres", font.lab=2, font = 4,main=”) ###### Distribution du Coût relatif par modalités de variable ###### ##Seules les polices sinistrées permettent d’évaluer le coût relatif moyen des sinistres. ## windows() v <- which(data$COUT.RELATIF > 0) boxplot(data$COUT.RELATIF[v]~data$variable[v],las=2, xlab="",ylab="Coût relatif",font.lab=2, font = 4) ###### Test d’influence sur le coût relatif ###### ## T test de Student pour variable à deux modalités ## ** Test de Fischer d’égalité des variances summary(aov(data$COUT.RELATIF[v]~data$variable[v])) DOUANLA Frédéric Hermann ©2014 70 Memoire de Master de Statistique Appliquée, UYI-ENSP Annexe ** T test de Student t.test(data$COUT.RELATIF[v]~data$variable[v],var.equal=TRUE) ## Test non paramétrique de Kruskal Wallis pour variable à plus de deux modalités ## kruskal.test(data$COUT.RELATIF[v]~data$variable[v]) ###### Test khi-carré d’indépendance ###### chisq.test(data$IND, data$variable) ###################################### ## Modélisation de la fréquence des sinisntres ###################################### ### Chargement de package R nécessaire library(geepack) require(geepack) ## Extraction de la sous base INCENDIE data.incendie <- data[which(data$GARANTIE=="INCENDIE"),] base <- ident(data.incendie) ### On rend catégoriel les variables d’interêts ### base$AGE.VEH.G <- as.factor(base$AGE.VEH.G) base$PROPRIETAIRE <- as.factor(base$PROPRIETAIRE) base$USAGE <- as.factor(base$USAGE) ### On élimine les 1.2/100 des lignes contenant des données manquantes ### w <- which(is.na(base$PROPRIETAIRE)) base <- base[-w,] v <- which(is.na(base$AGES.VEH.G)) base <- base[-v,] ### Expression du modèle de base ### mod.base <- geeglm(formula = NBSINISTRE ~(USAGE + PROPRIETAIRE + AGES.VEH.G)^2, family = poisson(link = "log"), data = base, id = ID, corstr = "ar1") summary(mod.col) anova(mod.col) res <- residuals(mod.col,type="pearson") ### Expression du modèle final ### mod.final <- geeglm(formula = NBSINISTRE ~USAGE + AGES.VEH.G + USAGE * PROPRIETAIRE + PROPRIETAIRE * AGES.VEH.G, family = poisson(link = "log"), data = base, id = ID, corstr = "ar1") ### On récupère les coéfficients du model coef <- mod.final$coefficients coef <- as.vector(coef) ; freq <- exp(coef) ; ## Pour interpréter les coefficient en terme de multiplicateur. #### Taux de prime (en %) pour la CAT 1 DOUANLA Frédéric Hermann ©2014 71 Memoire de Master de Statistique Appliquée, UYI-ENSP Annexe mat.F <- matrix(0,nrow=2,ncol=2) cou=0.145 ## Coût relatif moyen pour la CAT 1 mat.F[1,1] <- cou*freq[1]*100 mat.F[1,2] <- cou*freq[1]*100 mat.F[2,1] <- cou*freq[1]*freq[8]*freq[16]*100 mat.F[2,2] <- cou*freq[1]*freq[8]*100 mat.F DOUANLA Frédéric Hermann ©2014 72 Memoire de Master de Statistique Appliquée, UYI-ENSP Bibliographie BIBLIOGRAPHIE [1] ASAC (Mai 2014). Magazine de l’Association des Sociétés d’Assurances du Cameroun. [2] Carlot J.F. (2014). Support de cours de droit des assurances-V/VII : La prime d’assurance. www.JURISQUES.com. [3] CIMA (2009). Conférence Interafricaine des Marchés d’Assurances. Annexe du traité instituant la CIMA du 10 juillet 1992. [4] Denuit M. and Charpentier A. (2005). Mathématiques de l’assurance non-vie. Tome I : Principes fondamentaux de théorie du risque, Economica. [5] Denuit M. and Charpentier A. (2005). Mathématiques de l’assurance non-vie. Tome II : Tarification et Provisionnement, Economica. [6] Micheaux P.L., Drouilhet R. and Liquet B. (2011). Le logiciel R : Maîtriser le langage, Effectuer des analyses statistiques. Springer-Verlag France. [7] Efron B. and Tibshirani R.J. (1994). An Introduction to the Bootstrap. Chapman and Hall, London. [8] Fay M.P. and Graubard B.I. (2001). Small-Sample Adjustments for Wald-Type Tests Using Sandwich Estimators. Biometrics, 57, 1198-1206. [9] Goodman L. and Kruskal W.L. (1979). Measures of association for cross-classification. Springer-verlag, New York. [10] Hardin J. and Hilbe M. (2002). Generaralized Estimating Equations. Chapman and Hall/CRC, Boca Raton, Florida 33431. [11] Højsgaard S., Halekoh U. and Yan J. (2006). The R Package geepack for Generalized Estimating Equations. Journal of Statistical Software 15, 2, pp1–11. [12] Klaus D. and Schmidt A. (2002). A note on the overdispersed Poisson family. Insurance : Mathematics and Economics, 30(1) :21 – 25. [13] Lele Siaka H. (2012). Analyse statistique des tarifs des garanties dommages en assurances automobile : cas de CHANAS Assurances. Master de Statistique Appliquée, Ecole Polytechnique, Yaoundé. [14] Lianz K.Y. and Zeger S.L. (1986). Longitudinal data analysis using generalised linear models. Biometrika 73, 13-22. [15] McCullagh P. and Nelder J.A. (1989). Generalized linear Models. Chapman and Hall, New York. DOUANLA Frédéric Hermann ©2014 73 Memoire de Master de Statistique Appliquée, UYI-ENSP Bibliographie [16] Nelder J.A. and Wedderburn R.W.M. (1972). Generalized linear models. Journal of the Royal Statistical Society Series A 135, 370-384. [17] Ndong Nguéma E.P. (2014). Cours de Data Mining. Master de Statistique Appliquée, Ecole Polytechnique, Yaoundé. [18] SAAR (2002-2009). Rapport annuel de la Société Africaine d’Assurances et de réassurances. BP. 1136 Douala, Cameroun. [19] Seck Babacar (2006). Estimation pour les modéles linéaires généralisés : Approche marginale, approche conditionnelle et application. Faculté des sciences et de genie, Université Laval Quebec. [20] Tchatchueng Mbougua J. (2007). Reponse aux traitements anti-retroviraux en fonction de la sérologie hépatite B ou C chez les patients VIH+. Master de Statistique Appliquée, Ecole Polytechnique, Yaoundé. [21] R Core Team (2012). R : A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria.ISBN 3-900051-07-0, URL http ://www.Rproject.org/. DOUANLA Frédéric Hermann ©2014 74 Memoire de Master de Statistique Appliquée, UYI-ENSP Bibliographie BIBLIOGRAPHIE [1] ASAC. Magazine de l’association des sociétés d’assurances du cameroun. N° 028 Mai, 2014. [2] Jean-François CARLOT. Support de cours de droit des assurances-v/vii :la prime d’assurance. www.JURISQUES.com, 2014. [3] CIMA. Conférence interafricaine des marchés d’assurances. Annexe du traité instituant la CIMA du 10 juillet 1992, 2009. [4] M. DENUIT and A.M. CHARPENTIER. Mathématiques de l’assurance non-vie. Tome I : Principes fondamentaux de théorie du risque, Economica, 2005. [5] M. DENUIT and A.M. CHARPENTIER. Mathématiques de l’assurance non-vie. Tome II : Tarification et Provisionnement, Economica, 2005. [6] Micheaux P.L. Drouilhet, R. and B. Liquet. Le logiciel r : Maîtriser le langage, effectuer des analyses statistiques. Springer-Verlag France, 2011. [7] B. EFRON and R.J. TIBSHIRANI. An introduction to the bootstrap. Chapman and Hall, London., 1994. [8] M.P. Fay and B.I. Graubard. Small-sample adjustments for wald-type tests using sandwich estimators. Biometrics, 57, 1198-1206., 2001. [9] L. GOODMAN and W.L.W. KRUSKAL. Measures of association for cross-classification. Springer-verlag, New York, 1979. [10] J. Hardin and M. Hilbe. Generaralized estimating equations. Chapman and Hall/CRC, Boca Raton, Florida 33431., 2002. [11] Halekoh U. Højsgaard, S. and J. Yan. The r package geepack for generalized estimating equations journal of statistical software. 15, 2, pp1–11, 2006. [12] D. Klaus and A.D. Schmidt. A note on the overdispersed poisson family. Insurance : Mathematics and Economics, 30(1) :21 – 25., 2002. [13] H. LELE SIAKA. Analyse statistique des tarifs des garanties dommages en assurances automobile : cas de chanas assurances. Master de Statistique Appliquée, Ecole Polytechnique, Yaoundé, 2012. [14] K.Y. LIANZ and S.L. ZEGER. Longitudinal data analysis using generalised linear models. Biometrika 73, 13-22., 1986. [15] P. McCullagh and J.A. Nelder. Generalized linear models. Chapman and Hall, New York., 1989. [16] J.A. NELDER and R.W.M. WEDDERBURN. Generalized linear models. Journal of the Royal Statistical Society Series A 135,370-384, 1972. DOUANLA Frédéric Hermann ©2014 75 Memoire de Master de Statistique Appliquée, UYI-ENSP BIBLIOGRAPHIE [17] E. P. NDONG NGUÉMA. Cours de data mining. Master de Statistique Appliquée, Ecole Polytechnique, Yaoundé, 2014. [18] SAAR. Rapport annuel de la société africaine d’assurances et de réassurances. BP. 1136 Douala, Cameroun, 2002-2009. [19] BABACAR SECK. Estimation pour les mod‘eles lin´eaires g´en´eralis´es : Approche marginale, approche conditionnelle et application. Faculté des sciences et de genie ; université LAVAL QUEBEC, 2006. [20] J. TCHATCHUENG MBOUGUA. Reponse aux traitements anti-retroviraux en fonction de la serologie hepatite b ou c chez les patients vih+. Master de Statistique Appliquée, Ecole Polytechnique, Yaoundé, 2007. [21] R Core Team. R : A language and environment for statistical computing. r foundation for statistical computing, vienna, austria. ISBN 3-900051-07-0, URL http ://www.Rproject.org/., 2012. DOUANLA Frédéric Hermann ©2014 76 Memoire de Master de Statistique Appliquée, UYI-ENSP