Etude statistique de la probabilite de sinistre en assurance
Transcription
Etude statistique de la probabilite de sinistre en assurance
Astm I3ulletm 12 (198,) 40-56 E T U D E STATISTIQUE DE LA P R O B A B [ L I T ~ DE SINISTRE EN ASSURANCE AUTOMOBILE MARC HALLIN et JEAN-I;RANQOIS INGENBLEEK lnstLtut de Statlst~que, Umvcrslt6 Librc de ]3ruxelles Dans trois dtudes rdcentes (1977a, 1977b, 1979), J. Lemalre a appliqud k un ensemble d'observations du risque automobile quelques mdthodes de sflection fr6quemment utilis6es en analyse de la r6gre~sion. Les variables explzcalaves (trait6es comme variables ind@eladalzles) sont les variables dfcrivant le risque. Les variables 6tudi6es (traltfes comme variables ddpenda~ates d'un mod61e de rdgression) sont les deux variables gfndralement prises en eon~iddration dans ce contexte" le hombre des Slmstres et leur mmatant cumul6 Nous avons d615. souhgnd (HAI.UN, 1977) combten les hypoth6ses qui se trouvent h Ia base de l'analyse de la r6gression - - normaht6, lmmoscddasticit6 et linfarit6 de la rfgression - - sont lore d'Etre remphes dans le contexte de l'assurance automobile. Le montant cumul4 annuel prend la valeur zdro avec une probabilit4 proche de o.91 Le nombrc annuel dc smistres vaut o, l, 2, rarement plus I M~me tr6s approxm~ativement, de telles variables peuvent difficilement 4tre considfrfes comme normales. En outre, la plupart des variables exphcatlves sont de type nominal ou ordinal, ce qm rend ddlicate l'utilisation de mod61es linfaire% les interactions de tous ordres 6tant tr6s mlportantes, ams~ qu'on pourra le eonstater Ces rdserves sont d'ailleurs pr6vues par Jean Lemaire hn-m4me, qm ne propose ses conclusions qu'~ titre de premi6re approximation Les mimes donn6es ont encore 6td soumises (MASURE, Z978) aux m~thodes de l'analyse d~criminante, et les m~me~ rdserves peuvent 4tre fa~tes en ce qui concerne l'utihsation des mdthodes et l'mterprdtation des rdsultats (combmaisons lindaires, etc ). Nous avona propos6 dans HALLIN (1977a, b) un enterable de mfthodes qui, selon les hypoth6ses distnbutionnelles pouvant 6tre faites (et qui vont des hypoth6ses classiques de l'analyse de la variance k celles, beaucoup moins restriet~ves, des lnfthodes de rang~), constituent des gfn4ralisations de celles qui sont utilisfes par Jean Lemaire. En particulier, celle que nous appliquons l c i e s t enti~rement "d~stributio~ free". Ces mfthodes sont 6galement une extension de celle qu'a proposde PITKANEN (t975, 1976). 1 LFESDON N I::ES Nous analysons done ic~ une fois encore les donn6es de Jean Leman'e, qm nous les a aimablement communiqu6es Un questmnnaire a dtd rempli par 3879 souscnpteurs s~lectionn~s au hasard PROBABILITIE DE SINISTRE 41 dans l'ensemble des souscripteurs d'une grande compagnie belge. Chacun de ces questionnaires porte les renseignements smvants: hombre de s z ~ z s r r e s e n d r o l l ~ dge du souscripteur - m v e a u de p m m e (darts l'dchelle de bonus) - cyhndrde du vdh,cule 3 dge du vdhicule 2 - przme effect~vement p a y & 2 hombre de vdhicules possddds par le souscr2pteur - hombre d ' e n f a n t s d , souscr@teur k~lomdlrage annuel total mo),e~ - hilomdtrage m o y e n parcouru p e n d a n t les vaca~ces - h~lomdtrage m o y e n pareom'u p o u r le lrava~l " dmtance habztal~.on-travazl 0- professwn2 - ual~oual~td - i t a t ciwl - - - - - - Un certain hombre de rense~gnements sont fournis par des varmbles dichotomaques. - - - - - usage to~wzsme-affmres / noT1 usage m~xtc / non le so~tscr~pteur est sddentazre / non le souscr~pl, eur est de sexe m a s c u h n [ non le s o u s m p t e u r est de scxe f d m z n i n / non le souscr@teur est une persomze morale / non le soltscr~pteur est de r @ m e h n g m s t z q u e f i ' a ~ f a z s / l e solfscr~pteur est de rdgzme lznguistlque f l a m a n d le so~scr@lem" babble uric wlle dc p l u s de 5 ooo hab~lants / non le souscrTpteur babble une vzlle de p l u s de 40 ooo habitants / 1ton le souscr~p~eur seul est cond2~cteur/lcs mcmbres de sa f a m d l e condu,sent dgalemen~ le vdh, cule assurd Parmi les variables explzcal~ves qui ne sont pas d~jk dmhotomNues, il convient de dlstmga.mr celles qm sont de type sunplement n o m i n a l (6tat cwll, nationahtd, profession . . . . ) de celles qm ont un sens (au morns) ordznal (age du conducteur, niveau de prmle, cylmdrde . . . . ). En rue de l'applicatmn de Au t o u r s des 18 p r e m t e r s mo~s de la p d r m d e ( t r e n t e tools) d ' o b s c r v a t m n 2 Au d d b u t de la p & m d e d ' o b s e r v a t m n 3 Vdlncule assu16 au d d b u t de la l)6node d'~)bservatmn HALLIN ET INGENBLEEK 42 notre procddure de a61ection, il e o n w e n t de t r a d m r e chacune de ces variables par un ensemble de variables dichotomiques Lc d o m a m e de variation des variables ordlnale,~ a etd ddcoupd en un certain noinbre de classes. Amsl, pour la variable dge du souscr@geur, sept classes ont 6t6 envisagde~ (les valeul s sont e x p n m d e s ell nombrcs entmrs d'anndes) 18-2o / 21-25 / 26-30 / 31-4 o / 41-5o / 51-65 / 66 et plus ces sept classes correspondent a~x varmbles dichotmmques X t , . . d6fimes par o si l'Sge a p p a r t i e n t it l'une des clasaes ~, z - 1. . . . , X~ 1 x I al l'gtge a p p a r t m n t h l'une des classe~ ~ + 1, z + 2, ., 7 Un assur~ d'Sge 2 9 ans sera donc repr6sent6 par les valeurs .,,%1 -~ ~2 = l .'U3 -~- X4 = X5 = X6 = O. P o u r les varmbles p u r e m e n t nominales, le codage en varmbles dmhotomiqtms est plus ddhcat La variable dtat civil w e n d , par exemple, les modahtds cdlibala~re-marzd-veuf-s@ard-dzvorcd. I1 ex~ste quatorze partitions de cet ensemble de modahtds en deux soma-ensembles propres; pour &tre complet, ll faudrait par cons~.quent m t r o d u i r e quatorzc variables dmhotomlques. P o u r des rm~ons de volume nous en avons s~lectionn~ six: • I o marid ou cdhbatalre 2 ~ t Xa -~ l ~ sinon 25 -~ t t i sinon 1 SlllOll t o mand, o a(~par~ t I slnorl o mari6 , c6hbatmre ou veuf X4 = t o mari6 ou veuf t l sinon X , = t o divorce t I sinon P a r dichotonusation de toutes les variables explicatlves, nous obtenons un ensemble de 89 variables d m h o t o m l q u e s , /1. chacune d'elles correspond line division cn deux parties de l'6chantillon. Darts la suite, nous les noterons Xi, X2, ., X~, .. , Xs~, rdservant les mmuscules xl, ., xs9 aux valeurs prises par ces vanables. 43 PROBABILITI~ DE SiN~b'rRE 2. LA METItOI)E Pour chacun des s o u s c n p t e u r s mterrog6s, on dispose dgalement, 1)ien entendu, du hombre et du m o n t a n t cumul6 des simstres, et ce pour t r e n t e mois cons6cutifs. Ces deux val-iables a d m e t t e n t c e p e n d a n t des distributions qui se pr~tent real it une analyae statistique. Aussl nous semble-t-il pr6f6rable d'6tu(her s @ a r d m e n t - le m o n t a n t cumul6 des mmstres pour les assmds a y a n t un mmstre au moins la probabiht6 de simstre (probabiht6 de causer un smlstre au moins) C'eat il cette probabihtd que nous nous intdressona 1c~ Le n o m b r e d'obser\'atmn~ dont nous chN~oson~ e~t en effct trop fmble pour q u ' u n e dtude du m o n t a n t cumul~ des sm)stres puisse fitre e n t r e p n s e de fat:on satl~fais,mte. Une modification cle la statist4que 4' utilisde cl-desaous permettra~t c e p e n d a n t cette 6tude, COlnmC il est lnchqu6 dans HALLIN (1977 b). Supposons que ]e varmbles dmhotomiques, notdes X o ) , X(2) . . . . . X(a.) SOlCllt prises en cons~dfratmn. Ces varmblcs d 6 t e r m m e n t un ddcoupage de l'dchalmlloll en m ( ( l ) , (2), . , (k)) celhfles non rides (~Iz ~< 2 e) d'effectifs reapectifs n(xo), . , x(t)) (x m ~ {o, 1}), Somnt d ' a u t r e part p0 (x(o . . . . , x(~)) et no(Xo) . . . . . x(t)) les probabiht4s et les hombres de cas de non-aimstre dans ces cellules L ' i n t r o d u c t l o n d ' u n e varmble suppldmentaire Xa--~) divise chacune des cellules existantes cn dcux sous-eelhlles, attxquelles correspondent les effectffs n(x(o .... xu¢ ), x(a.+~)), JLo(X(t). . . . . X(a-), X ( t + O ) , et les probabilitfis p n ( x o ) , ., x(~.), x(~ ~0) Nou~ dirons q u ' u n e cellule caractdns6e par les valeurs (xo), , x(~)) des k variables de depart est proprcu~en~ d~v~sdc par X(~+ 0 sl n ( x o ) , . . . . x(~>, o) et n ( x o ) , • . , x(~.), ~) sont tous deux pos~tifs; soit /,((k+ ~) ] (~), (2), ., (k)) le notable de cellules p r o p l e m e n t divia6es par X(~_t~) On peut cons~ddrer que chacun des effect~fs no(xo) . . . . . x(~.+~)) a d m e t une d ~ t n b u t i o n bmomiale de param6tre po(xo) . . . . . x(~+O) et d ' e x p o s a n t n(x(o, , x(~-+l)) (conditlonnellement 5. n), sou~ l'hypoth6se h'o (1) po(x(,), . . . , x(~.), o) = p o ( x o ) . . . . . pour route ccllule (X(l), par 5.'(~-4 o, x~), ~) ., x(e)) prol)lement d~visfe la s t a t i s t i q u e ~((le+ I)I (t), (2) .... (I0) = | ~ r:"0(X(|) ..... ~ (It), (.)) HLX~(xO), x(k), o) l ! .oil,,, .... ...!, lz(x(t), , x(~-), l ) / :(=Yo), -oCx.>, •., :..~ x(~__2) ~<~))-,(xc,) ..... ] x..~)J ' 44 HALLIN ET INGENBLEEK oh .... ) = . . . . ) - no( o .... ) ! (la solnme Z s'effecl:uant sur les cellules proprement div~sdes par Xi~+,)) est I a s y m p t o t i q u e m e n t d~strfl)u6e comme une variable X2 &l( (k + 1) ! (~), (2) . . . . . (k)) degr6s de libertd. De fait, nous avons pr6f61"6 utihscr la t r a n s f o r m a t i o n angula~re : q~((k+ 1)I (1), (2) . . . . . ' [( 2 arc E (~)) sill . . ; ~ - ~ - ~ = n°txO)' " " i' x(e___2'1_)/~ :. :, x,,-._2, o_) - 2 arc sin V . ~ - ~ - ~ . . . . x(k), ~) ] O) . . . . x(~-), t / (n(xo), ..1., x,,.), o) + n(x(t,, . '-,x(~,, , ) ) ] ' Ces statlstiques permettent de tester l'hypoth6se (1) contre l'hypoth~se Hi qu'il existe au moins une cellule proprement dlvis6e dormant naissance ~ un couple de probabiht~s po dlff~rentes La procddure de sdlection (ou de seglnentatlon) se ddroule alors de la fa~on suivante Les varlables X sont s61ectionnfies une ~. une, par r6currence, selon le principe des m6thodes du type "pas ~ pas" (stepwise) (cf. DRAPI~Ii and SMITH (1966)) Chaque 6tape de la m6thode comporte deux parties dlstmctes: introduction de la variable dont la contrlbutmn semble la plus signiflcative (conduisant le plus nettement au rejet de (1)), pros 61imination 6ventuelle d'une variable devenue non signlflcative Etape k. (hi. phase d'~utroductzon) : Notons Xo), . . . , X(~_i) les varlablea obtenues 5. la fin de l'6tape prgcddente Remarquons que cet ensemble peut comporter un hombre de varmbles strmtement infdrieur 5. k - I e t que, en ddl)it de la notahon, X m, prem16re variable sdlectionn6e, peut n'en plu~ falre partle Pour chacune des variables X, restantes, considdrons les valeurs ¢~ prises par ¢(~ ] (I) . . . . , (h - I)); k chacuue des ces quantlt6s correspond un niveau de signification q~, valeur en ¢, de la fonction de rdpartltion d'une variable Z2 ~t l(il (I), ., (k- 1)) degrd~ de hbertd Soit q<kl le plus dlev6 de ces niveaux de signification: X(k) est, prowsoirement, la k T M variable sdlectlonn6e. (k2. phase d'dl~mznat~on) : Considdrons k pr6sent, pour chacune des varmbles X(z) s61ectmnnfes (X(k) comprise), la valeur ¢<o prise pat ¢((l) l(1), . , (l - I). (l+ i) . . . . . (k)) A chacune de ces valeurs correspond k nouveau un niveau de signtflcatmn q(w Solt qm le plus has de ces mveaux: PROBABILITE DE SINISTRE 45 (k2a): si qm > l - ~ , on passe ~ l'6tape k + 1 avec {Xo) . . . . . X(k)} pour nouvel ensemble de variables s~lectlonn~es (c~ ~tant un m v e a u de probabiht~ flxd 5. l'avance) (k2b). Sl q,,, <~ 1 -c~, l'hypoth6se Ho" po(x(~), . . . , • .., X(k)) x(m-~), o, x(m+~), . . . , -M X(t), . . , X(m-1), x(~-)) = po(xo) . . . . . X(m+O, • x(m-~), 1, x(m+~), , X(k) ne peut ~tre reletde au m v e a u o:; sl m .¢ k, on pa~se ~ l'dtape k + i avec {X(i) . . . . , X(,,_~), X(,~+i) . . . . X(k)} pour nouvel enaenlble de variables; si m = (k), la proc6dure s'arrfite, l'ensemble final ~tant {Xo), , X(k_~)}. Le cas de la varmble pcrsom~e physique/pcrsomzc morale dolt ~tre consid6r~ sdpardment, une " p e l s o n n e morale" n ' a y a n t m sexe, m h o m b r e d'enfants, ni dtat civil, etc Aussi cette diatlnction dolt-elle fitle i n t r o d m t e a u t o m a t l q u e ment d~s que l'une des variables "personnahsdes" (sexe, dial ctvil, hombre d'cufanls, kdom~lres vacauces, .) est s~lectmnnde, et i n d d p e n d a m m e n t de son nlveau de sigmficatmn 1.ill outre, lots du calcul, en cours d'6tape, de la valeur prise par la s t a t l s t N u e ,5 relative ~ l'une de ces variables " p e r s o n n a hs6es", les "personnes morales" doivent ~tre ao~gneusement omises. Cette m~thode a 6t~ pi'ogramm6e par J -F. Ingenbleek pour une CDC 6600. Les proc6dures prfivues pour les cas de valeurs m a n q u a n t e s et les cellules trop peu peupl6es ont 6t6 am~hoi6es par rapport ~. une version pr6c6dente du prog r a m m e (HztLL~ et I~GENBLEEK, ~979)- P o u r o b t e m r ]es r~sultats qui smvent, nous n'avons consid6r6es comme p r o p r e m e u t diwsdes p a r une variable X ~ que les cellules d o n n a n t naissance, du fait de la valeur o ou ~ prise par X e , ~ deux cellules d'effectlf sup6rieur ou dgal 6. ~5 (['effectif de la cellule d'origine 6tant donc sup6rmur ~. 3o) ; les cellules t~op peu peupl6es n ' e n t r e n t alnsi pas en ligne de c o m p t e dans le calcul des statlstlques q~( I ..). Nous avons apphqu6 aux valeurs m a n q u a n t e s le tra~tement smvant. Supposons que la valeur d ' u n e varmble X, solt m c o n n u e pour un assur6, celui-ci a y a n t real rempli le questionnalre qul lui a 6t6 soum~s. Si X, ne flgur.e pas dans l'ensemble des variables s61ectionn~es en d f b u t d'~tape, cet assur6 constitue, pour le calcul, lors de la phase d ' m t r o d u c t i o n , de t o u s l e s qb(3 I • •. ), j ¢ i, une observatmn p a r f a l t e m e n t vahde. En revanche, lorsque le p r o g r a m m e en vlent 5. envisager l'introduction ~ventuelle, dans le tarff, de X~ et calcule donc $(~ I . . . ) , cet assure! est orals, et ~1 dolt ~tre t e n u c o m p t e de cette omission dans l ' o b t e n t m n du m v e a u de probabiht~ c o r r e s p o n d a n t Au cas off X, figurerait dans l'ensemble des variables dfijlt s~lectmnndes en d6but d'~tape, le m6me assul'6, ne p o u v a n t fitre class6 en fonctmn des varmbles en tarif, dolt ~tre oxms darts t o u s l e s caleuls, et ce jusqu'5. l'~llmmatmn dventuelle de X~ Ces modificatmns et le nombre, h61as riley6 4, des valeurs m a n q u a n t e s pour P o u r l ' 6 g e d u so~¢scr~plem" et l'dge d u vdh~cule a s s u r d , ce h o m b r e a t t e m t p ~ s du tmrs de la tmlle de l'6chant~llonl 46 I l A L L I N ET I N G E N B L E E K certmnea varmbles exphcativea exphquent les dfffdrences de rdsultats entre les deux versmns 3. COMMENTAIRES 3.1. L'apl)hcation de techniques du t y p e "analyse de la variance" 5 des tables de contnNence (variables d @ e n d a n t e s de type binomial ou multinomial) soul6vc toujours un grand nombre de probl&nes, surtout lorsque les fr6quences varlent, comme c'est l c c a s mL de cellule h cellule. 3[drne le cas le plu~ snnplc et le plus classique de la comparaison de deux proportmns nc peut ¢~trc traltd (cf GART, 197~ ) de fa¢on umform&ncnt satisfaisante Dc nombrcuses varmntes aux mdthodes cla~siques, reposant sur des choix de l)ond&atmns et de transformations de variables, ont 6t6 propos6es (CocHIn^N, t943 et 1954, GM~T, 1971 . . . . ) En l'absenee de mod#le liant les proportmns observ6ea aux variables exphcatlves. 11 est cependant mlposslble d'op&er un cholx parml ces m6thodes, ni m&ne de faire appel 5. la notmn de puissance locale Or, dans le cas qm nous occupe, les variables sont beaucoup trop nombreuse% les multmohn6antds et let m t e r a c t m n s beaucoup trop cons~ddrablea, pour qu'un mod61e ~. la lois ~imple et r6aliste pmsse etre construit Le choix de la statiatique 4' sur laquelle repose la sdlection est done en grande partie arbltran e, la notmn m&ne de "medleure statistlque" n ' a y a n t pas de sens Nous avons ndglig6, en outre, les ph4nom6nes de varmtzous dtra,~g~res (extraneous v a m a t ~ o n s - - c f COCm~AN, 1943), nolls bornant /.t eonmd&er les observatmns conlme engendr&s par des processus binommux puts Le mveau de probabflltd des tests effectuds peut pr6senter pat consfquent eertames dtstorsmns, II est plus prudent de se fixer une valeur de o: assez faible (o~ = 1%, par exemple). 3 2. Inddpelldamment du chmx de la statistlque $ utihs6e, notre lndthode qouffrc d'un certain nombre de d6fauta mhdrents /t toutes lea proc6dures de type slepwzsc c o m m u n 4 m e n t utdls6es Les tests 11o11 mddpendants, effectuds en chaine, condmsent ~. un niveau global chffmfle ~ apprdcier, pour certa~nes dtapes, le hombre 6Iev6 de cellules ddpeupl&s provoque, par perte de degr6s de hbertd, un amenuisement de la quant~t4 d'inforlnatmn contenue dans la stat~stlque Ze. Pare. en prdsence d'un large dventafl de variables exphcat~ves, et en ray, on des multmohndarit6s et des interactions m6vitables, ces proe6dures d d b o u c h e . t , Ic plus souvent, sur un cyclage (c'est n o t a m m e n t le cas ~ct pour ,.= Ces rdserves d'ordre thdor~que ont cependant peu de rdlmrcussmns sur les apphcations, et ne dmvent pas masquer Ix richesse des rensmgnements fourniq it chaquc drape ~ ])e route laG'on, commc nou~ l'avons dd}h sott]~g~6 (HALLIN, O1~ hlzt a x e c m t 6 ~ 6 t , it ce s u j e t , les c o m m c n t , u r e s tlU~ a c c o m p a g n e n t l ' 6 t u d e de llt b y s s H l o a c rt, s p ~ r a t o ~ e c h e z los t ~ a v m l l c u r s de l ' m d u s t r m c o t o l u u 6 r e {I-IIGGINS ct 1¢,OCI1, ~977) PROBABIL1TI~ DE SINISTRE 47 1977}, lc p r o b l ~ l n e posd (celui d e la r e c h e r c h e d u " m e f i l e u r " s o u s - e n s e m b l e d e v a r i a b l e s e x p l i c a t i v e s ) cst un p r o b l ~ m e real p o s 6 , a u c u n c n t ~ r e p e r m e t t a n t d e c l a s s e r e n t r e e u x les d i v e r s s o u s - e n s e m b l e s p o s s i b l e s ne s ' n n p o s e d e fa~on a b s o l u e E t , q u a n d bien m 6 m e un tel crit&re e x i s t e r a i t , la v a r i a t i o n , s e l o n l ' d c h a n t i l l o n cons~ddrd, d u s o u L - e n s e m b l e s d l c c t i m m d , cst un p h d n o m ~ n e e s s e n t i c l l e m e n t non q u a n t i f m b l e . T o u t c p x o c d d u r e tle s f l e c t m n , q u e ce s m t d a n s le c a d r e d ' u n e a n a l y s e d e la r d g r c s s m n o u d,a n s le c a d r e p l u s g d n 6 r a l q u e n o u s c o n s ~ d f r o n s ic~, d o l t ~tre a p p h q u 6 e d c fa~on a s s e z h e u r ~ s t N u e , c o m m e une m f t h o d e "applicable", fournissant des ensembles " m t f r e s s a n t s " de variables e x p h c a t w e s Et Its rdsultats intermddmires ausm bien que les r6sultats finals dozvent ~trc examln6s clans une optiquc d'analyse de donndes. 4 LES RI~SULTATS 4.1. / l u m v e a u de p r o b a b z h t d de 0 , 5 % A u m v e a u d c p r o b a b f l l t 6 o~ = o,5% , la p r o c 6 d u r e s ' a r r ~ t e a p r ~ s d l x 6 t a p e s . TABLLAU l~.tape 1 1 Varmble entrante Varmble sortante ntveau de pmme morns de 8o%/8o% ct plus 2 mvcau de pl'113~e 1. 3 zone de garage 4 persoJt~te morale#to~ 5 cyhndrde 6 ,tTveau de przme 7 kzlomdtl age annuel 8 morns de lo ooo kin/an/plus professron Colnmcr~;dnt, ouv~mr, employ6, cadre/au tlcs 9 mveau de pmme naom~ de 7o%/70% et plus morns de 4 ° ooo hal)/plus morns dc 900 cc/plus IrlOlllS de 65 %/65 % ct plus ntveau de p~tme morns de 7o%/7o% eL plus gone de garage morns de 4o ooo hab ]pltts i I morns de 7o%/7o% et plus 10 zone de garage mom~ de 4 ° ooo h a b / p l u s Exprim6 cn pourcentage de la prime totalc. zone de garage : morns de 40 ooo h a b / p i n s STOP 48 HALLIN ET INGENBLEEK Le Tableau 2 cl-dessous donne les 7 variables exphcatives f m a l e m e n t sdlectionn f e s , pour chacune de ces variables, on i n d N u e -- --- la valeur de la statistique q~ p e r m e t t a n t de tester la " s o r t i e " ~ventuelle de cette variable le n o m b r e de degrds de hbert6 de la dmtribution de cette statistique le niveau de signification (probabilitd laiss6e "~. g a u c h e " sou~ l'hypoth~se nulle) Afro de ne pas accorder une influence excessive aux cellules de faible frdquence, un effectif m i n i m u m de q u m z e observations a 6t6 exig6 pour q u ' u n e cellule solt priae en eonsid~ratmn dans le calcul de q5 Si donc une variable d{coupe en deux sous-celhtles d'effectlf supfrieur ou dgal g qumze l'une des cellules constrmtea sur les autres varmbles, cette divtqton apporte un degrd de hbertd b. la statlstique ~ Amsi, les pcv~onnes morales n'6tant pas tt'6s nombreuses dans l'dchantillon, la statistique correspondant it cette variable ne jomt-elle que d'un seul degr6 de hber%. TABLEAU2 Varmble mveaudep~tme" Stattst~que ,~ 65% 7° % 8o% 1)egr6s de hbert6 31,98o2 5 19,48oz 44,0269 5 8 NIvcau de signification 1,ooo o,9984 t,oooo cyhndvde" 900 cc kHomdt~ age mmuel 36, 126 z 13 o,999.1 lo ooo kin/an 37, 1952 14 0,9993 37,ooo 7 14 0.9993 o, 1589 l 0,3098 pro/e~swn commcr~ant, ouvner, employ6, cadre/ alltres per sonne mos ale/non Ces sept variables ddcoupent t h 6 o n q u e m e n t dans l'ensemble dea assur6s 48 cellulcs distinctes. Certames de ces cellules (mveau de prime compris entre 65% et 7 0 % et cylindrfe m f f r i e u r e "a 90o cc) 6tant peu peuplfes, nous en avons r e t e n u 41 Le graphe c~-dessous donne, pour chacune de ces 41 celluIes (reprdsentdes par les sommets t e r m i n a u x de l'arboresccnce), le nolnbre n d'observations, le n o m b r e nt de cas p r f q e n t a n t un sinistre au morns, et, lorsque n est suffisamnlent 61ev6, l'estimatmn # = n,/n de la probabiht6 de ~mlstre (d'un sm~stre au morns sur trente mo, s consdcul2fs). Le sch6ma s m v a n t i n d N u e c o m m e n t dolt ~tre mterpl-ftfe l'arborescence (pour la construire 11 a bien fallu a t t n b u e r un ordre plus oa moins arb~traire aux variables s~lectmnn6es). PROBABILITI~ 49 DE SINISTRE Les hombres qui accompagnent chacun des sommets intermddiares sont i , # tn(nn~ dc 6 5 % COlnlrlCr(~al|l, ouvrlcr, m()ms de 9()0(.c c m p l o y d ou c a d r e Ill()lrl~ (h' 10 000 k i n / a n 165%, 7 0 % ) a t l t r e prolc, s~lofl q(}Oe( et plus p['r~on rK' nlor;iJ¢ 10 000 k m l a n ,,l i)lu '-. [70%, 80%) © 2, @ @ @ z : ~; ~" = ~s @ = Co~me~ga~rgs Toutes les variables s61ectlonn6es sont tr~s significam,es. Le 1~,veau de pm3~e, en particulier, pr6sente de tr~s bonnes performances, puisqu'il d6termine 4 classes d'assurds. I1 semblerait cependant que le "bas" de l'6chelle (de 6o% k 80%) gaggnerait k ~tre raffin6, tandis que, dans le " h a u t " de l'6chelle, une distraction entre les conducteurs de nx\,eau 80% et les conducteurs de niveau 12o%, par exemple, ne paralt pas tr~s jumfl6e. I1 e n e s t de m~me pour les autrcs variables retcnues cflindrde et hilomgrage a~muel Des distinctions tr~s fines ne semblent pas s'lmposer, et une s@aration entre les petites cylindr6es et les moyennes et grosses (900 cc et plus), entre les faibles kilom~.trages et les moyens et gros kflom6trages (lo ooo km et plus) apparalt comme ]arggement suffisante. HALLIN ET INGENBLIZEK 5° © © Q 127,16 126(I Q Q 54,3 11556 I 16,1 37,2 1,0 0625 0541 7J,13 I 49,9 23,4 1,0 1837 173q 17111 1221,178 1458 11)94,162 1481 255,42 1647 [ 118,11 135,31 2,0 0932 2296 839,120 1430 [ 497,64 323,54 19,2 1288 1672 .1053 3t, 7 2121 23,2 24,0 1,0 0870 0000 139,32 72,6 2,0 2302 0833 33,2 0606 67,11 39,12 1,1 .1642 3077 98,14 71,9 2,0 1429 1268 340,115 243,55 9,4 2130 2263 19,3 16,3 1579 1875 33,7 2121 294,47 1599 48,2 O417 261,40 1533 21';.J8 1784 3828,81 I 2119 14(I,26 1857 [ I 33,2 0606 107,24 2245 110J,223 2022 171,2~ 963,197 2046 160,29 181J I 1345 792,174 .2197 [ ~ 36,7 1944 124,22 1774 i 1,1 [ 1210,363 .3000 156,42 26q2 1050,334 .318l 8q4,292 3266 I 83,14 41,8 1687 1951 105,32 50,10 1,0 .3048 2000 611,211 276,78 7,3 3453 2826 m PROBAIIlI.ITI~ DE SINISTRE 51 L ' o r d r e d ' e n t r f e et la sortm 6ventuelle des v a r i a b l e s indique ~galement les d d p e n d a n c c s ct les i n t e r a c t m n s : l ' i n t r o d u c t m n (¢Aape 5) de la c y l i n d r d e prov o q u c lt' r e m p l a c e m e n t du m v c a u de p r i m e 7 o % p a r le n w e a u 6 5 % (6tape 6); et ce dernicr " c h a s a e " la z o n e de g a r a g e au profit du kd, o m d t r a g e a m ~ u c l (6tape 7): s~ len kflom6tres p a r ¢ o m u s en ville sont plus fertfles cn accrochages, le m v e a u de p n m c en trent sufflsamnaent c o m p t e p o u r que la d~stmction entre kflom~tres urbains et non u r b a i n s soit superflue. 0 n r e m a r q u e 6galement que l'effet ndfaqte de la c y h n d l d e et des kilom~tres s'exerce de fa~on b e a u c o u p plus l m p o r t a n t e chez los " m a u v m s " c o n d u c t e u r s (80% et plus) que chez les " b o n s " . Les m e f l l e m s r~squcs sont observfs, c o m m e on pout s ' y a t t e n d r e , dans le h a u t du g r a p h e : " b o n s " conducteurs, roulant peu dans une v o i t u r e de petite c y h n d r 6 e ' /~ = 0,o550 Los plus m a u v m s rlsques, au bas du graphe, a v e c = o,3266 (ndlz = 292/$94, ce q m donne un lntcrvallc de conflance assez bon, nu lllVCakl d c 5/0 o/ [0,2959 0,3573])On pourra~t ains~ lnultq)her Its commenta~res, fl sufflt d ' e x a l n i n e r le graphe. I1 c o n v m n t c e p e n d a n t de ~ester p r u d e n t " l ' e q t i m a t e u r ~ n ' a pas une v a r m n c e n6ghgeable, m 6 m e p o u r un h o m b r e l e l a t w e m e n t 61ev6 d ' o b s e r v a t m n s . 4.2 Au mvcat, dc p r o b a b d z t d de 1 % Au m v e a u de probabflltd de 1% , la v a r m b l e z o n e de g a r a g e ne ressort plus 5. la 1o e ~.tape, et la proc6dure se poursuit de la faq'on s u i v a n t e (Tableau 3). TABLEAU 12tapc \:a~ ruble entrante io z o n e de g a r a g e II hombre d ' c n f a n t s . 3 Vartable sortante molns de 4° ooo hab/plus o, l, 2/3 et plus 12 ~lO]1gbl'c d 'eltfanls : O/l au morns 13 kdomdlrage vacances 14 zone de ga) age J5 n m e a u de p~ zme' O/I k i d D.tl 1110111S morns de 5 ooo hab/plu~ o/ mo,ns de 7°/0/7 ° /Ol o et plus 16 ~ombl e d 'cnfants 17 hdom~trage a m t u e l o, l, a/3 ct plus m,nns (h' to ooo km/an/phts m v e a u de p m m e : morns de 7o%/7o% et plus nomb~ c d 'e~zfants : O, 7, 2/3 a t plus k~lomdtrage a n n u e l : morns de ~o ooo kin/an/plus kdomdtrage vacances : oil km au morns zoTze de garage morns de 5 ooo hab/plus ~t~vea~t de p m m e morns tic 70%/70 % et ])Ins 52 IIALLIN ET INGENBLEEK A la sortie de l'6tape 17, la situation est la m~mc qu'au d6but de l'6tape t 3, ce qui entraine la proc6dure darts un cycle de pfriode 5 @apes, les s61ections de variables correspondant k ces cmq 6tapes prfisentent des quaht~s assez semblables. A titre dMlustration, nous avons choisi de pr6senter, pour l'une des drapes du cycle, une arbo~escence 6quivalente k celle que nous avons donn6e pour l'@ape ~o. Le schema ci-dessous mdNue la Ira;on de lire cette arborescence. ,n.m~ (h f15% t I1101ns (It qOOcc ( Olllll|Ci ~,|I|[, de 40 000 hab o u r ! ICl, molns cmpIoyd, cadre mom~ p,l~ d' dc lO 000 kin/an cnfant~ 900cc el plus plus de 40 000 hab 10 000 km/anl cnlanls el plus ]kin ,'acanc~t:, [70%-80%) morales © I 80% ct plus @ © © @ @ Q ® PROBABILITI 1. DE SINISTRE © © © @ 1221,17~[ 1458 A @ © @ @ 1't6,23 1575 21) '~. 42 157() 53 [ ~ [ 926,128 13112 261,38 • 1456 [ 723:16 IOq 1, I (12 ~28 14111 4'17:18 ~ 1'2q8 2()I ,,1() 15~¢ 3828,811 2119 [ 212'2~1 1 ~h8 I 177.2q 11; 18 II lilt 101 (10} 1(17 20'1() 251,52 667, I't'1 2150 [ 4111,118 2 I'l() - - 817,251 2(.150 330,fi7 7118,217 3065 1050,334 3181 2q3q [ 375,11'1 ( r i [~---[ 1 2'`13,(H 3901 { 11}fi,75 40 ~2 ~l I (), 5(I t 155b I 1 10 1846 21'124 1(}57 1395 11(;7 225~ 1654 2(17(1 2121 1250 2232 2208 ~ 25¢) `1 tl 08 r------ 173!) (12 }~1 140,26 8@12 60,7 71,16 13'`1,22 47,14 66, I,t ,. 111~7 32,4 224'--'----~215,48 (.17,22 6,4 150,34 l(}q,2.1 2202 1257,3( '`1(1110 1250 ()q09 I51'1 2121 [ t 12b0 122~1 (11157 '24(17 IB36 33,7 '.'15,0 60,11 117,18 4(.I, I 1 [ I 1-6, I(I 81 $,16| 2005 127,11') 57,7 t5, I 7'111 54, I:`1 55,9 2,0 '10,5 I 0()() 33, I IlL 18 ]Sq(, 6q, 12 42,1 ()(1211 45,7 230,26 I `1~(1 I ~0,24 15,1'1 11)1J,'$4 160,2 ¢) 61,16 41(,8 77,23 31,5 156,4q 66,20 113,"12 182,59 8(.1,28 3,1 47,18 b7,24 37,14 79, `16 3,1 1~3~'~ 15,18 2245 2267 1813 2h23 16(;7 29117 1613 3141 3030 2832 3242 3500 38 `10 :`15112 3784 45")7 54 HALLIN ET I N G E N B L E E K 4 3. Autras rdsulfals Comparaison avec les conclusions de JEAN LEMAIRE (t979). Ici encore, il est intdressant d'obserw,.r ]a faqon dont len variables s'mtroduisent ct se " c h a s s e n t " m u t u e l l e m e n t Nou~ n'avons pas effectual l'analyse factorielle ou en composantes princq~ales 41~prolmde de ces donndes On peut cependant, h l'examen des drapes 12 h 17, se rlsquer it discerncr, derri6re les dix, er,,t:s variables qm i n t c r v m n n e n t , trois types d'effets ou de facteurs, l'un - chsons f ~ - mesure l'intensltd d'expoaition au risque du vNficule assurd (et n'est pas forcdment proportmnnel au kilomdtrage annuel moyen) ; un second dlsons f 2 - est lid ~t l ' e n v l r o n n e m e n t (plus ou moins urbam) dans lequel est utilisd le vdlucule, le trolsi6me enfln caractdrise l ' a t t l t u d e au volant du cond u c t e u r du vdhmule Chacune des vmiablea apparalsaant au cours des drapes 12 ~. 17 peut ~tre considdrde comme un ~ndex plus ou morns rcpldaentatif de ces trois effets: le notable d'enfants est essentiellement lid ~ f~ (condmte de "p6re de famille"), rams auss~/t f~, 14 zone de gm age ~.f2 ct jq, etc. Ceci explique que le uombre d'enfanls " c h a i s e " la zone dc garage au profit dlt l,'ilomdlragc annucl, et que, it la sortie du ~mmbrc d'e~,fauls, la zol,c de garage revienne se substltuer au kilomdlragc amzud Outre la sdlechon des varmbles, notre ptogr,mmm fournit un grand h o m b r e de renseignemcnt~ c o n c c r n a n t les \'armbles non sdlectlonndcs. P o u r c h a q u e ensemble de variables X(~), X(,.), . , X(k) cona~ddrd en ddbut d'dtape, et pour chaque variable X, # X(l) . . . . , X(k) on dt~po~e des effect~f~ n(xo~ . . . x(~.I x,)etn~(x(tl . . . a(~)xd, d e s e s t m a a t m n s f i ( . . . ) = u~(.. )/n( ),delaatatlstique q~ (, [ (I) (k)), de son h o m b r e de dcgrds de hbertd et de son m v e a u de sigmflcation (probabflitd ~. gauche sous H0) Ain~L lors de 14 premi6re drape (cnaemble sdlectionnd en ddbut d'dtape d)), les varmbles amvantes sont s~gmfmat~vea it I°/o . - - n o m b r e de slnistres en dro~t (o/~ ou phts) niveau de prime (quatre valeur~ 65%, 7o% , 80% et 9 o % , c'est 8o% qm sera sdlectionnd) zone de garage 5.ge du souscriptcur (quatre v a l e m s 26, 3~, 41 et 5 ~ ansi) kilomdtrage annuel (5 ooo, 1o ooo et 15 ooo kin/an) distance h a b i t a t i o n - t r a v a i l (~o kin) dtat c~vil (mar~ds/autres, mar~ds et veufa/autres) On r e m a r q u e r a l'absence, 5. cc mveau, et tr6a sigmflcativemcnt, des variables usage tour, sine et affa~re~ (mvcau de s~gmflcatmn o,23), souscr~pteur sddentmre (dans le t a n f actuel, donne droit :'t une rdductmn de prmae de ~5%, niveau de s~gmhcatmn 0,54 I), ~exe (niveau 0,77), nagzoualitd, profession, dge d~¢ vdhzcule. La cyhudrde n'est prdsente q u ' a v e c une ~eule valeur, 90o cc, qm sera sdlectionnde ~. l'dtape 3, pour ~loo cc, le niveau ch, ~ignificatmn tombe it o,2~. - - - - - - - - - - PROBABILITI'~ DE S[NISTRE 55 Ceci ~cmble bien mdiquer que la "taille" de la voitme agit ~t la fagon d'une variable dichotomique (petites voitures/autres), non 5. la fagon d'un rdgresseur hndalre (la nature de cette rdgression, d'une variable de type binomml en une variable continue, n'dtant guhre prdcisde, d'ailleurs, chez Jean Lemaire). En outre, l ' m t r o d u c t m n du mveau de prlme met en dvidence une interaction: nlveau de 1)II111c < 80% nlvcau de p r i m e ~ 80% c y h n c h d e < 900 cc c y l m d r d e >/ 900 cc p = o, 1617 /~ = o, 1786 p = o,172o p = o,3177 La c3,lz,~drde n'a donc pas d'effet notal)le pour Its "boris" conducteurs La tlolslame drape fournit les m i m e s renselgnements, mais en t e n a n t compte de trms classes de m v e a u de prime (morns de 7o%; [7o%-8o%) ; 80°,/o et plus) Un grand hombre des varmblea qui 6tmcnt slgnifmatlves lors de la prem~6re dtai)e ne le sont plus. hombre d'acc~,denl,s e~ drozt, autres mveaux de prime (i:ous au-dessous d'un nlveau de significatmn de o,68. ce qui mdique bran que l'dchelle de bonus utilisde e~t probablelnent d'une coml)lexltd inutile), dzsga~ce habllatzon4rava~l, dtat c, wl, dge du souscriptcur. I1 est mtdressant, ~t cet dgard, de remarquer que, si, ~ l'4tape l, la valeur la plus signifmative de la variable dge du souscripteur est 26 a n s @ = 0,3292 pour les moins de 26 ans, ~ = 0,2253 pour ]es plus de 26 ans), l'introduction d'un seul mveau de prime (80%) sufflt ~ ddplacer cette valeur 5141 ans (niveau de sigmfmation, o,99 ) • Age < 41 a n s mveau ¢le prime < 80% mveau de prime ~ 80% p = o.1967 p = 0,3389 fi.ge/> 41 a n s p = o,1934 fi = 0,.2375 St, par consdquent, les " j e u n e s " c o n s h t u e n t un moins bon risque que les "morns jcunes", l'utilisation d'unc dchelle de bonus-malus, m~me rudimentaire, s u f h t / t en rendre compte. La franchise de 40oo FB qui, clans le tarif actuel, est s y s t d m a t N u e m e n t infligde {l tout conducteur de morns de 23 ans ne se justifie dollc absolument pas. II est dgalement mtdressant de noter que, pas plus que la cyhndrde m le kilomdtrage, l'fige n'a d'effet i m p o r t a n t sur Its "boris" sousenpteurs En conclusmn, le niveau de pr,me, surtout du c6td de ses basses valeurs, conhrme ses quahtds d'excellent cnt~re de d~scrimmation entre " b o n s " et "morns bons" nsques Seuls conservent mtacte leur signiffmatlvJtd la cyhndr& (touJours ~ 900 cc), la zone de garage el le k~lomdtrage amiuel. I1 faut souhgner, toutefois, que ces remarques et ces conclusions sont relatives ~t la probabilitd de smistre uniquement. I1 est tout 5. f a r possible, et 56 IIALLIN ET INGENBLEEK m 6 m e p r o b a b l e , q u ' u n e x a m e n des m o n t a n t s c u m u l 6 s m a n e 5. des r6sultata fort d d f d r e n t s coflt m o y e n des s m i s t r e s plus 61ev~ chez lea jeunes, d a n a ]es c a n l p a g n e s , chez les c o n d u c t e u r s fa~aant p e u de kilomfitres et t r a n s p o r t a n t d a n s leur v 6 h m u l e u n e n o m b r e u s e famdle, etc M a l h e u r e u a e m e n t , c o m m e n o u s l ' a v o n s cht plus h a u t , le n o m b r e de s m l s t r e s o b s e r v 6 s d a n s l'6chantillon d e n t n o u s diapoaons est t r o p p e u 61evd p o u r q u ' u n e 6tude s6rmuse puisse en ~tre fmte. N o s rd~ultata et ceux de J e a n L e m a i r e , d a n s la m e s u r e o~ ils p e u v c n t ~tre compa~ds, d i v e r g e n t e s s e n t i c l l e m e n t sur trois points" l'dge du souscr~pleur, sa nal~onah/d ct son dial czwl, sdlectmnn6s chez J e a n L e m a i r e , font place au hombre d ' c n f a n t s (du morns ~t p a s d ' e n f a n t / u u e n f a n t au m o t h s - - f o r t e m e n t 1i6 ~. la v a r i a b l e dial c,vil) et kilomc2ragc vacances (encore une v a r i a b l e c a r a c t 6 r e n e t t e m c n t d i e h o t o t m q u e p a s de hm-vacances[~ k m au m o i n s ) . Mms '11 nc faut p a s o u b h e r que, p o u r c h a c u n e de ccs varmbles, chez J e a n L e m a i r e , tous les n i v e a u x s e n t test6s et sdleetionnfs g l o b a l e m e n t . A a u c u n m o m e n t , la p r i m e e f f e c t i v c m e m payde, d o n e le t a r d a c t u e l l e m e n t en v~gueur, n ' a p p r o c h e le seuil de significativ~td. lllf, FEAI LN C ES COCrIRAN, \V G (~943) Analysts of varmnce for percentages based on tnequaI numbers J A S A , 38, 287-3ol COCtIRAN, \V G (1954) Some methods for ~trengthemng tile COIIllllOIl•2 teats B;ometmcs, 10, 4 17-451 .DRAPEI~, N and H S~ttTH (1966) Apphed Regressto~t Analysts Wiley, N Y GART, J. J (1~)71) The comparison of proporbons a revm~ of ~Jgmheance tests, confidence intervals and adjustements fol atlatlhcatton ]?emew of the l**ternattonal Star 11~sltt,tle, 39, 148-69 IiALLtN, M ( 1t~77a) M6thodes Statlstlquea tit. Conatructmn de l'arl[, Bullet1,1 de l'Assocmlion ties Achral~'es Sutsses, 162-175 HALLIN, M (1977b) I~.tude statlstique des facteurs mfluenqant un risque, Bulletin de l'Assocmtzon 17 des Actuatres Beiges, 76-92 HALLIN, M e t J -F INGENBLEEK (1978) l~.tudc stattst,quc des Factems mfluen~ant le Risque atttomobfle, la probabtht~ de smtstrc D~scusslon paper n ° 5, Instttut de Statt~ttque de l'Umvermt6 Llbre de Bruxelles Hmc, tN% ] E and G. G KOCH (1977) Varutble selectmn and generahzed chl-square analysts of categorical data apphed .to a large ctos~-aecttonal occupational health survey [~tterliat,onal Stattslzcal Revtetv, 45, 51-62 LEMAIRE, J (1977a) Selectmn Procedures of Regressmn Analysis applied to Automobile I tl~tt rance, l?ullelln de l '.4 ssociafto~z des A ctua7 re~ Sulsses, 143-160 LEMAIRE, J (1977b) Critique du tanf automobile responsM)flit6 clvfle belge B,dlet~n de l'Assoc~al~o~l R des Actua~res Belges, 93-~o9 LEMAtr~r, J (~970). Selection Procedures of Regressmn Analysts apphed to Automobile Insurance, Part II Sample mqutry and underwriting applications Bulletin de l'As*octal~on des Actua*res Stashes, 6 5 - 7 I MASORE, L (197 8) L'analyse dtscrimmante apphqu6e aux probl~mes dE l'assurance automobile Bulletin de l'Assocmtwn R des Actuatres Belges, 229-5 'PIr~ANEN, P (Iq75) Tartff theory, AsttnBullet, n, 2o4-228 P~Tt~ANEN, P (~976) A theoretzcalapproach to p~em~lm rating Int Congress of Actuarms, Tokyo, 2247-25 2