Etude statistique de la probabilite de sinistre en assurance

Transcription

Etude statistique de la probabilite de sinistre en assurance
Astm I3ulletm 12 (198,) 40-56
E T U D E STATISTIQUE DE LA P R O B A B [ L I T ~
DE SINISTRE EN ASSURANCE AUTOMOBILE
MARC HALLIN et JEAN-I;RANQOIS INGENBLEEK
lnstLtut de Statlst~que, Umvcrslt6 Librc de ]3ruxelles
Dans trois dtudes rdcentes (1977a, 1977b, 1979), J. Lemalre a appliqud k un
ensemble d'observations du risque automobile quelques mdthodes de sflection
fr6quemment utilis6es en analyse de la r6gre~sion. Les variables explzcalaves
(trait6es comme variables ind@eladalzles) sont les variables dfcrivant le risque.
Les variables 6tudi6es (traltfes comme variables ddpenda~ates d'un mod61e de
rdgression) sont les deux variables gfndralement prises en eon~iddration dans
ce contexte" le hombre des Slmstres et leur mmatant cumul6
Nous avons d615. souhgnd (HAI.UN, 1977) combten les hypoth6ses qui se
trouvent h Ia base de l'analyse de la r6gression - - normaht6, lmmoscddasticit6
et linfarit6 de la rfgression - - sont lore d'Etre remphes dans le contexte de
l'assurance automobile. Le montant cumul4 annuel prend la valeur zdro avec
une probabilit4 proche de o.91 Le nombrc annuel dc smistres vaut o, l, 2,
rarement plus I M~me tr6s approxm~ativement, de telles variables peuvent
difficilement 4tre considfrfes comme normales. En outre, la plupart des
variables exphcatlves sont de type nominal ou ordinal, ce qm rend ddlicate
l'utilisation de mod61es linfaire% les interactions de tous ordres 6tant tr6s
mlportantes, ams~ qu'on pourra le eonstater Ces rdserves sont d'ailleurs
pr6vues par Jean Lemaire hn-m4me, qm ne propose ses conclusions qu'~ titre
de premi6re approximation Les mimes donn6es ont encore 6td soumises
(MASURE, Z978) aux m~thodes de l'analyse d~criminante, et les m~me~ rdserves
peuvent 4tre fa~tes en ce qui concerne l'utihsation des mdthodes et l'mterprdtation des rdsultats (combmaisons lindaires, etc ).
Nous avona propos6 dans HALLIN (1977a, b) un enterable de mfthodes qui,
selon les hypoth6ses distnbutionnelles pouvant 6tre faites (et qui vont des
hypoth6ses classiques de l'analyse de la variance k celles, beaucoup moins
restriet~ves, des lnfthodes de rang~), constituent des gfn4ralisations de celles
qui sont utilisfes par Jean Lemaire. En particulier, celle que nous appliquons
l c i e s t enti~rement "d~stributio~ free". Ces mfthodes sont 6galement une
extension de celle qu'a proposde PITKANEN (t975, 1976).
1 LFESDON N I::ES
Nous analysons done ic~ une fois encore les donn6es de Jean Leman'e, qm nous
les a aimablement communiqu6es
Un questmnnaire a dtd rempli par 3879 souscnpteurs s~lectionn~s au hasard
PROBABILITIE DE SINISTRE
41
dans l'ensemble des souscripteurs d'une grande compagnie belge. Chacun de
ces questionnaires porte les renseignements smvants:
hombre de s z ~ z s r r e s e n d r o l l ~
dge du souscripteur
- m v e a u de p m m e (darts l'dchelle de bonus)
- cyhndrde du vdh,cule 3
dge du vdhicule 2
- przme effect~vement p a y & 2
hombre de vdhicules possddds par le souscr2pteur
- hombre d ' e n f a n t s d , souscr@teur
k~lomdlrage annuel total mo),e~
- hilomdtrage m o y e n parcouru p e n d a n t les vaca~ces
- h~lomdtrage m o y e n pareom'u p o u r le lrava~l "
dmtance habztal~.on-travazl 0- professwn2
- ual~oual~td
- i t a t ciwl
-
-
-
-
-
-
Un certain hombre de rense~gnements sont fournis par des varmbles dichotomaques.
-
-
-
-
-
usage to~wzsme-affmres / noT1
usage m~xtc / non
le so~tscr~pteur est sddentazre / non
le souscr~pl, eur est de sexe m a s c u h n [ non
le s o u s m p t e u r est de scxe f d m z n i n / non
le souscr@teur est une persomze morale / non
le soltscr~pteur est de r @ m e h n g m s t z q u e f i ' a ~ f a z s / l e solfscr~pteur est de
rdgzme lznguistlque f l a m a n d
le so~scr@lem" babble uric wlle dc p l u s de 5 ooo hab~lants / non
le souscrTpteur babble une vzlle de p l u s de 40 ooo habitants / 1ton
le souscr~p~eur seul est cond2~cteur/lcs mcmbres de sa f a m d l e condu,sent
dgalemen~ le vdh, cule assurd
Parmi les variables explzcal~ves qui ne sont pas d~jk dmhotomNues, il
convient de dlstmga.mr celles qm sont de type sunplement n o m i n a l (6tat cwll,
nationahtd, profession . . . . ) de celles qm ont un sens (au morns) ordznal (age
du conducteur, niveau de prmle, cylmdrde . . . . ). En rue de l'applicatmn de
Au t o u r s des 18 p r e m t e r s mo~s de la p d r m d e ( t r e n t e tools) d ' o b s c r v a t m n
2 Au d d b u t de la p & m d e d ' o b s e r v a t m n
3 Vdlncule assu16 au d d b u t de la l)6node d'~)bservatmn
HALLIN ET INGENBLEEK
42
notre procddure de a61ection, il e o n w e n t de t r a d m r e chacune de ces variables
par un ensemble de variables dichotomiques Lc d o m a m e de variation des
variables ordlnale,~ a etd ddcoupd en un certain noinbre de classes. Amsl, pour
la variable dge du souscr@geur, sept classes ont 6t6 envisagde~ (les valeul s sont
e x p n m d e s ell nombrcs entmrs d'anndes)
18-2o / 21-25 / 26-30 / 31-4 o / 41-5o / 51-65 / 66 et plus
ces sept classes correspondent a~x varmbles dichotmmques X t , . .
d6fimes par
o si l'Sge a p p a r t i e n t it l'une des clasaes ~, z - 1. . . .
, X~
1
x
I al l'gtge a p p a r t m n t h l'une des classe~ ~ + 1, z + 2,
., 7
Un assur~ d'Sge 2 9 ans sera donc repr6sent6 par les valeurs
.,,%1 -~
~2
=
l
.'U3 -~- X4
=
X5
=
X6
=
O.
P o u r les varmbles p u r e m e n t nominales, le codage en varmbles dmhotomiqtms est plus ddhcat La variable dtat civil w e n d , par exemple, les modahtds
cdlibala~re-marzd-veuf-s@ard-dzvorcd. I1 ex~ste quatorze partitions de cet
ensemble de modahtds en deux soma-ensembles propres; pour &tre complet, ll
faudrait par cons~.quent m t r o d u i r e quatorzc variables dmhotomlques. P o u r
des rm~ons de volume nous en avons s~lectionn~ six:
•
I o marid ou cdhbatalre
2 ~
t
Xa
-~
l ~ sinon
25
-~
t
t i sinon
1 SlllOll
t o mand,
o a(~par~
t I slnorl
o mari6
,
c6hbatmre ou veuf
X4 = t o mari6 ou veuf
t l sinon
X , = t o divorce
t I sinon
P a r dichotonusation de toutes les variables explicatlves, nous obtenons un
ensemble de 89 variables d m h o t o m l q u e s , /1. chacune d'elles correspond line
division cn deux parties de l'6chantillon. Darts la suite, nous les noterons
Xi, X2,
., X~, .. , Xs~, rdservant les mmuscules xl,
., xs9 aux valeurs
prises par ces vanables.
43
PROBABILITI~ DE SiN~b'rRE
2. LA METItOI)E
Pour chacun des s o u s c n p t e u r s mterrog6s, on dispose dgalement, 1)ien entendu,
du hombre et du m o n t a n t cumul6 des simstres, et ce pour t r e n t e mois cons6cutifs. Ces deux val-iables a d m e t t e n t c e p e n d a n t des distributions qui se
pr~tent real it une analyae statistique. Aussl nous semble-t-il pr6f6rable
d'6tu(her s @ a r d m e n t
-
le m o n t a n t cumul6 des mmstres pour les assmds a y a n t un mmstre au moins
la probabiht6 de simstre (probabiht6 de causer un smlstre au moins)
C'eat il cette probabihtd que nous nous intdressona 1c~ Le n o m b r e d'obser\'atmn~ dont nous chN~oson~ e~t en effct trop fmble pour q u ' u n e dtude du
m o n t a n t cumul~ des sm)stres puisse fitre e n t r e p n s e de fat:on satl~fais,mte. Une
modification cle la statist4que 4' utilisde cl-desaous permettra~t c e p e n d a n t cette
6tude, COlnmC il est lnchqu6 dans HALLIN (1977 b).
Supposons que ]e varmbles dmhotomiques, notdes X o ) , X(2) . . . . .
X(a.)
SOlCllt prises en cons~dfratmn. Ces varmblcs d 6 t e r m m e n t un ddcoupage de
l'dchalmlloll en m ( ( l ) , (2), . , (k)) celhfles non rides (~Iz ~< 2 e) d'effectifs
reapectifs n(xo), . , x(t)) (x m ~ {o, 1}), Somnt d ' a u t r e part p0 (x(o . . . . , x(~))
et no(Xo) . . . . . x(t)) les probabiht4s et les hombres de cas de non-aimstre dans
ces cellules
L ' i n t r o d u c t l o n d ' u n e varmble suppldmentaire Xa--~) divise chacune des
cellules existantes cn dcux sous-eelhlles, attxquelles correspondent les effectffs
n(x(o ....
xu¢ ), x(a.+~)), JLo(X(t). . . . .
X(a-), X ( t + O ) , et les probabilitfis p n ( x o ) ,
., x(~.), x(~ ~0) Nou~ dirons q u ' u n e cellule caractdns6e par les valeurs (xo),
, x(~)) des k variables de depart est proprcu~en~ d~v~sdc par X(~+ 0 sl n ( x o ) ,
. . . . x(~>, o) et n ( x o ) , • . , x(~.), ~) sont tous deux pos~tifs; soit /,((k+ ~) ] (~),
(2),
., (k)) le notable de cellules p r o p l e m e n t divia6es par X(~_t~)
On peut cons~ddrer que chacun des effect~fs no(xo) . . . . .
x(~.+~)) a d m e t une
d ~ t n b u t i o n bmomiale de param6tre po(xo) . . . . .
x(~+O) et d ' e x p o s a n t n(x(o,
, x(~-+l)) (conditlonnellement 5. n), sou~ l'hypoth6se
h'o
(1)
po(x(,), . . . ,
x(~.), o) = p o ( x o ) . . . . .
pour route ccllule (X(l),
par 5.'(~-4 o,
x~),
~)
., x(e)) prol)lement d~visfe
la s t a t i s t i q u e
~((le+ I)I (t), (2) ....
(I0) =
|
~
r:"0(X(|) .....
~ (It), (.))
HLX~(xO),
x(k), o)
l
!
.oil,,, ....
...!,
lz(x(t),
, x(~-), l ) /
:(=Yo),
-oCx.>,
•.,
:..~
x(~__2)
~<~))-,(xc,) .....
]
x..~)J '
44
HALLIN ET INGENBLEEK
oh
....
) =
. . . .
) -
no( o
....
)
!
(la solnme Z s'effecl:uant sur les cellules proprement div~sdes par Xi~+,)) est
I
a s y m p t o t i q u e m e n t d~strfl)u6e comme une variable X2 &l( (k + 1) ! (~), (2) . . . . . (k))
degr6s de libertd. De fait, nous avons pr6f61"6 utihscr la t r a n s f o r m a t i o n angula~re :
q~((k+ 1)I (1), (2) . . . . .
' [( 2 arc
E
(~))
sill . . ; ~ - ~ - ~
=
n°txO)' " " i' x(e___2'1_)/~
:. :, x,,-._2, o_) - 2 arc sin V
. ~ - ~ - ~ . . . . x(k), ~) ]
O)
. . . . x(~-),
t
/
(n(xo), ..1., x,,.), o) + n(x(t,, . '-,x(~,, , ) ) ] '
Ces statlstiques permettent de tester l'hypoth6se (1) contre l'hypoth~se Hi
qu'il existe au moins une cellule proprement dlvis6e dormant naissance ~ un
couple de probabiht~s po dlff~rentes
La procddure de sdlection (ou de seglnentatlon) se ddroule alors de la fa~on
suivante Les varlables X sont s61ectionnfies une ~. une, par r6currence, selon le
principe des m6thodes du type "pas ~ pas" (stepwise) (cf. DRAPI~Ii and SMITH
(1966)) Chaque 6tape de la m6thode comporte deux parties dlstmctes: introduction de la variable dont la contrlbutmn semble la plus signiflcative (conduisant le plus nettement au rejet de (1)), pros 61imination 6ventuelle d'une
variable devenue non signlflcative
Etape k.
(hi. phase d'~utroductzon) :
Notons Xo), . . . , X(~_i) les varlablea obtenues 5. la fin de l'6tape prgcddente
Remarquons que cet ensemble peut comporter un hombre de varmbles strmtement infdrieur 5. k - I e t que, en ddl)it de la notahon, X m, prem16re variable
sdlectionn6e, peut n'en plu~ falre partle Pour chacune des variables X,
restantes, considdrons les valeurs ¢~ prises par ¢(~ ] (I) . . . . , (h - I)); k chacuue
des ces quantlt6s correspond un niveau de signification q~, valeur en ¢, de la
fonction de rdpartltion d'une variable Z2 ~t l(il (I),
., (k- 1)) degrd~ de
hbertd Soit q<kl le plus dlev6 de ces niveaux de signification: X(k) est, prowsoirement, la k T M variable sdlectlonn6e.
(k2. phase d'dl~mznat~on) :
Considdrons k pr6sent, pour chacune des varmbles X(z) s61ectmnnfes (X(k)
comprise), la valeur ¢<o prise pat ¢((l) l(1), . , (l - I). (l+ i) . . . . .
(k))
A chacune de ces valeurs correspond k nouveau un niveau de signtflcatmn
q(w Solt qm le plus has de ces mveaux:
PROBABILITE DE SINISTRE
45
(k2a): si qm > l - ~ , on passe ~ l'6tape k + 1 avec {Xo) . . . . .
X(k)} pour
nouvel ensemble de variables s~lectlonn~es (c~ ~tant un m v e a u de probabiht~
flxd 5. l'avance)
(k2b). Sl q,,, <~ 1 -c~, l'hypoth6se
Ho" po(x(~), . . . ,
• ..,
X(k))
x(m-~), o, x(m+~), . . . ,
-M X(t), . .
, X(m-1),
x(~-)) = po(xo) . . . . .
X(m+O,
•
x(m-~), 1, x(m+~),
, X(k)
ne peut ~tre reletde au m v e a u o:; sl m .¢ k, on pa~se ~ l'dtape k + i avec
{X(i) . . . . , X(,,_~), X(,~+i) . . . .
X(k)} pour nouvel enaenlble de variables; si
m = (k), la proc6dure s'arrfite, l'ensemble final ~tant {Xo),
, X(k_~)}.
Le cas de la varmble pcrsom~e physique/pcrsomzc morale dolt ~tre consid6r~
sdpardment, une " p e l s o n n e morale" n ' a y a n t m sexe, m h o m b r e d'enfants, ni
dtat civil, etc Aussi cette diatlnction dolt-elle fitle i n t r o d m t e a u t o m a t l q u e ment d~s que l'une des variables "personnahsdes" (sexe, dial ctvil, hombre
d'cufanls, kdom~lres vacauces,
.) est s~lectmnnde, et i n d d p e n d a m m e n t de
son nlveau de sigmficatmn 1.ill outre, lots du calcul, en cours d'6tape, de la
valeur prise par la s t a t l s t N u e ,5 relative ~ l'une de ces variables " p e r s o n n a hs6es", les "personnes morales" doivent ~tre ao~gneusement omises.
Cette m~thode a 6t~ pi'ogramm6e par J -F. Ingenbleek pour une CDC 6600.
Les proc6dures prfivues pour les cas de valeurs m a n q u a n t e s et les cellules trop
peu peupl6es ont 6t6 am~hoi6es par rapport ~. une version pr6c6dente du prog r a m m e (HztLL~ et I~GENBLEEK, ~979)- P o u r o b t e m r ]es r~sultats qui smvent,
nous n'avons consid6r6es comme p r o p r e m e u t diwsdes p a r une variable X ~ que les
cellules d o n n a n t naissance, du fait de la valeur o ou ~ prise par X e , ~ deux
cellules d'effectlf sup6rieur ou dgal 6. ~5 (['effectif de la cellule d'origine 6tant
donc sup6rmur ~. 3o) ; les cellules t~op peu peupl6es n ' e n t r e n t alnsi pas en ligne
de c o m p t e dans le calcul des statlstlques q~( I ..). Nous avons apphqu6 aux
valeurs m a n q u a n t e s le tra~tement smvant. Supposons que la valeur d ' u n e
varmble X, solt m c o n n u e pour un assur6, celui-ci a y a n t real rempli le questionnalre qul lui a 6t6 soum~s. Si X, ne flgur.e pas dans l'ensemble des variables
s61ectionn~es en d f b u t d'~tape, cet assur6 constitue, pour le calcul, lors de la
phase d ' m t r o d u c t i o n , de t o u s l e s qb(3 I • •. ), j ¢ i, une observatmn p a r f a l t e m e n t
vahde. En revanche, lorsque le p r o g r a m m e en vlent 5. envisager l'introduction
~ventuelle, dans le tarff, de X~ et calcule donc $(~ I . . . ) , cet assure! est orals,
et ~1 dolt ~tre t e n u c o m p t e de cette omission dans l ' o b t e n t m n du m v e a u de
probabiht~ c o r r e s p o n d a n t Au cas off X, figurerait dans l'ensemble des variables
dfijlt s~lectmnndes en d6but d'~tape, le m6me assul'6, ne p o u v a n t fitre class6 en
fonctmn des varmbles en tarif, dolt ~tre oxms darts t o u s l e s caleuls, et ce jusqu'5.
l'~llmmatmn dventuelle de X~
Ces modificatmns et le nombre, h61as riley6 4, des valeurs m a n q u a n t e s pour
P o u r l ' 6 g e d u so~¢scr~plem" et l'dge d u vdh~cule a s s u r d , ce h o m b r e a t t e m t p ~ s du tmrs
de la tmlle de l'6chant~llonl
46
I l A L L I N ET I N G E N B L E E K
certmnea varmbles exphcativea exphquent les dfffdrences de rdsultats entre
les deux versmns
3. COMMENTAIRES
3.1. L'apl)hcation de techniques du t y p e "analyse de la variance" 5 des
tables de contnNence (variables d @ e n d a n t e s de type binomial ou multinomial) soul6vc toujours un grand nombre de probl&nes, surtout lorsque les
fr6quences varlent, comme c'est l c c a s mL de cellule h cellule. 3[drne le cas le
plu~ snnplc et le plus classique de la comparaison de deux proportmns nc peut
¢~trc traltd (cf GART, 197~ ) de fa¢on umform&ncnt satisfaisante
Dc nombrcuses varmntes aux mdthodes cla~siques, reposant sur des choix
de l)ond&atmns et de transformations de variables, ont 6t6 propos6es (CocHIn^N, t943 et 1954, GM~T, 1971 . . . . ) En l'absenee de mod#le liant les proportmns observ6ea aux variables exphcatlves. 11 est cependant mlposslble d'op&er
un cholx parml ces m6thodes, ni m&ne de faire appel 5. la notmn de puissance
locale Or, dans le cas qm nous occupe, les variables sont beaucoup trop
nombreuse% les multmohn6antds et let m t e r a c t m n s beaucoup trop cons~ddrablea, pour qu'un mod61e ~. la lois ~imple et r6aliste pmsse etre construit Le
choix de la statiatique 4' sur laquelle repose la sdlection est done en grande
partie arbltran e, la notmn m&ne de "medleure statistlque" n ' a y a n t pas de sens
Nous avons ndglig6, en outre, les ph4nom6nes de varmtzous dtra,~g~res
(extraneous v a m a t ~ o n s - - c f COCm~AN, 1943), nolls bornant /.t eonmd&er les
observatmns conlme engendr&s par des processus binommux puts Le mveau
de probabflltd des tests effectuds peut pr6senter pat consfquent eertames
dtstorsmns, II est plus prudent de se fixer une valeur de o: assez faible (o~ = 1%,
par exemple).
3 2. Inddpelldamment du chmx de la statistlque $ utihs6e, notre lndthode
qouffrc d'un certain nombre de d6fauta mhdrents /t toutes lea proc6dures de
type slepwzsc c o m m u n 4 m e n t utdls6es Les tests 11o11 mddpendants, effectuds en
chaine, condmsent ~. un niveau global chffmfle ~ apprdcier, pour certa~nes
dtapes, le hombre 6Iev6 de cellules ddpeupl&s provoque, par perte de degr6s de
hbertd, un amenuisement de la quant~t4 d'inforlnatmn contenue dans la
stat~stlque Ze. Pare. en prdsence d'un large dventafl de variables exphcat~ves,
et en ray, on des multmohndarit6s et des interactions m6vitables, ces proe6dures
d d b o u c h e . t , Ic plus souvent, sur un cyclage (c'est n o t a m m e n t le cas ~ct pour
,.=
Ces rdserves d'ordre thdor~que ont cependant peu de rdlmrcussmns sur les
apphcations, et ne dmvent pas masquer Ix richesse des rensmgnements fourniq
it chaquc drape ~ ])e route laG'on, commc nou~ l'avons dd}h sott]~g~6 (HALLIN,
O1~ hlzt a x e c m t 6 ~ 6 t , it ce s u j e t , les c o m m c n t , u r e s tlU~ a c c o m p a g n e n t l ' 6 t u d e de llt
b y s s H l o a c rt, s p ~ r a t o ~ e c h e z los t ~ a v m l l c u r s de l ' m d u s t r m c o t o l u u 6 r e {I-IIGGINS ct 1¢,OCI1,
~977)
PROBABIL1TI~ DE SINISTRE
47
1977}, lc p r o b l ~ l n e posd (celui d e la r e c h e r c h e d u " m e f i l e u r " s o u s - e n s e m b l e d e
v a r i a b l e s e x p l i c a t i v e s ) cst un p r o b l ~ m e real p o s 6 , a u c u n c n t ~ r e p e r m e t t a n t d e
c l a s s e r e n t r e e u x les d i v e r s s o u s - e n s e m b l e s p o s s i b l e s ne s ' n n p o s e d e fa~on
a b s o l u e E t , q u a n d bien m 6 m e un tel crit&re e x i s t e r a i t , la v a r i a t i o n , s e l o n
l ' d c h a n t i l l o n cons~ddrd, d u s o u L - e n s e m b l e s d l c c t i m m d , cst un p h d n o m ~ n e
e s s e n t i c l l e m e n t non q u a n t i f m b l e . T o u t c p x o c d d u r e tle s f l e c t m n , q u e ce s m t
d a n s le c a d r e d ' u n e a n a l y s e d e la r d g r c s s m n o u d,a n s le c a d r e p l u s g d n 6 r a l q u e
n o u s c o n s ~ d f r o n s ic~, d o l t ~tre a p p h q u 6 e d c fa~on a s s e z h e u r ~ s t N u e , c o m m e
une m f t h o d e "applicable", fournissant des ensembles " m t f r e s s a n t s " de
variables e x p h c a t w e s Et Its rdsultats intermddmires ausm bien que les r6sultats finals dozvent ~trc examln6s clans une optiquc d'analyse de donndes.
4 LES RI~SULTATS
4.1. / l u m v e a u de p r o b a b z h t d de 0 , 5 %
A u m v e a u d c p r o b a b f l l t 6 o~ = o,5% , la p r o c 6 d u r e s ' a r r ~ t e a p r ~ s d l x 6 t a p e s .
TABLLAU
l~.tape
1
1
Varmble entrante
Varmble sortante
ntveau de pmme
morns de 8o%/8o% ct plus
2
mvcau de pl'113~e 1.
3
zone de garage
4
persoJt~te morale#to~
5
cyhndrde
6
,tTveau de przme
7
kzlomdtl age annuel
8
morns de lo ooo kin/an/plus
professron Colnmcr~;dnt, ouv~mr,
employ6, cadre/au tlcs
9
mveau de pmme
naom~ de 7o%/70% et plus
morns de 4 ° ooo hal)/plus
morns dc 900 cc/plus
IrlOlllS de 65 %/65 % ct plus
ntveau de p~tme
morns de 7o%/7o% eL plus
gone de garage
morns de 4o ooo hab ]pltts
i
I
morns de 7o%/7o% et plus
10
zone de garage
mom~ de 4 ° ooo h a b / p l u s
Exprim6 cn pourcentage de la prime totalc.
zone de garage :
morns de 40 ooo h a b / p i n s
STOP
48
HALLIN
ET INGENBLEEK
Le Tableau 2 cl-dessous donne les 7 variables exphcatives f m a l e m e n t sdlectionn f e s , pour chacune de ces variables, on i n d N u e
--
---
la valeur de la statistique q~ p e r m e t t a n t de tester la " s o r t i e " ~ventuelle de
cette variable
le n o m b r e de degrds de hbert6 de la dmtribution de cette statistique
le niveau de signification (probabilitd laiss6e "~. g a u c h e " sou~ l'hypoth~se
nulle)
Afro de ne pas accorder une influence excessive aux cellules de faible frdquence, un effectif m i n i m u m de q u m z e observations a 6t6 exig6 pour q u ' u n e
cellule solt priae en eonsid~ratmn dans le calcul de q5 Si donc une variable
d{coupe en deux sous-celhtles d'effectlf supfrieur ou dgal g qumze l'une des
cellules constrmtea sur les autres varmbles, cette divtqton apporte un degrd de
hbertd b. la statlstique ~ Amsi, les pcv~onnes morales n'6tant pas tt'6s nombreuses dans l'dchantillon, la statistique correspondant it cette variable ne
jomt-elle que d'un seul degr6 de hber%.
TABLEAU2
Varmble
mveaudep~tme"
Stattst~que ,~
65%
7° %
8o%
1)egr6s de
hbert6
31,98o2
5
19,48oz
44,0269
5
8
NIvcau de
signification
1,ooo
o,9984
t,oooo
cyhndvde" 900 cc
kHomdt~ age mmuel
36, 126 z
13
o,999.1
lo ooo kin/an
37, 1952
14
0,9993
37,ooo 7
14
0.9993
o, 1589
l
0,3098
pro/e~swn commcr~ant,
ouvner, employ6, cadre/
alltres
per sonne mos ale/non
Ces sept variables ddcoupent t h 6 o n q u e m e n t dans l'ensemble dea assur6s
48 cellulcs distinctes. Certames de ces cellules (mveau de prime compris entre
65% et 7 0 % et cylindrfe m f f r i e u r e "a 90o cc) 6tant peu peuplfes, nous en
avons r e t e n u 41 Le graphe c~-dessous donne, pour chacune de ces 41 celluIes
(reprdsentdes par les sommets t e r m i n a u x de l'arboresccnce), le nolnbre n
d'observations, le n o m b r e nt de cas p r f q e n t a n t un sinistre au morns, et, lorsque
n est suffisamnlent 61ev6, l'estimatmn # = n,/n de la probabiht6 de ~mlstre
(d'un sm~stre au morns sur trente mo, s consdcul2fs).
Le sch6ma s m v a n t i n d N u e c o m m e n t dolt ~tre mterpl-ftfe l'arborescence
(pour la construire 11 a bien fallu a t t n b u e r un ordre plus oa moins arb~traire
aux variables s~lectmnn6es).
PROBABILITI~
49
DE SINISTRE
Les hombres qui accompagnent chacun des sommets intermddiares sont
i
,
#
tn(nn~ dc 6 5 %
COlnlrlCr(~al|l,
ouvrlcr,
m()ms de 9()0(.c
c m p l o y d ou c a d r e
Ill()lrl~ (h'
10 000 k i n / a n
165%, 7 0 % )
a t l t r e prolc, s~lofl
q(}Oe( et plus
p['r~on
rK'
nlor;iJ¢
10 000 k m l a n
,,l i)lu '-.
[70%, 80%)
©
2,
@
@
@
z
:
~;
~"
=
~s
@
=
Co~me~ga~rgs
Toutes les variables s61ectlonn6es sont tr~s significam,es. Le 1~,veau de
pm3~e, en particulier, pr6sente de tr~s bonnes performances, puisqu'il d6termine 4 classes d'assurds. I1 semblerait cependant que le "bas" de l'6chelle
(de 6o% k 80%) gaggnerait k ~tre raffin6, tandis que, dans le " h a u t " de l'6chelle, une distraction entre les conducteurs de nx\,eau 80% et les conducteurs
de niveau 12o%, par exemple, ne paralt pas tr~s jumfl6e. I1 e n e s t de m~me
pour les autrcs variables retcnues cflindrde et hilomgrage a~muel Des distinctions tr~s fines ne semblent pas s'lmposer, et une s@aration entre les petites
cylindr6es et les moyennes et grosses (900 cc et plus), entre les faibles kilom~.trages et les moyens et gros kflom6trages (lo ooo km et plus) apparalt
comme ]arggement suffisante.
HALLIN ET INGENBLIZEK
5°
©
©
Q
127,16
126(I
Q Q
54,3
11556
I
16,1
37,2
1,0
0625
0541
7J,13
I
49,9
23,4
1,0
1837
173q
17111
1221,178
1458
11)94,162
1481
255,42
1647
[
118,11
135,31
2,0
0932
2296
839,120
1430
[
497,64
323,54
19,2
1288
1672
.1053
3t, 7
2121
23,2
24,0
1,0
0870
0000
139,32
72,6
2,0
2302
0833
33,2
0606
67,11
39,12
1,1
.1642
3077
98,14
71,9
2,0
1429
1268
340,115
243,55
9,4
2130
2263
19,3
16,3
1579
1875
33,7
2121
294,47
1599
48,2
O417
261,40
1533
21';.J8
1784
3828,81 I
2119
14(I,26
1857
[
I
33,2
0606
107,24
2245
110J,223
2022
171,2~
963,197
2046
160,29
181J
I
1345
792,174
.2197 [ ~
36,7
1944
124,22
1774
i
1,1
[
1210,363
.3000
156,42
26q2
1050,334
.318l
8q4,292
3266
I
83,14
41,8
1687
1951
105,32
50,10
1,0
.3048
2000
611,211
276,78
7,3
3453
2826
m
PROBAIIlI.ITI~ DE SINISTRE
51
L ' o r d r e d ' e n t r f e et la sortm 6ventuelle des v a r i a b l e s indique ~galement les
d d p e n d a n c c s ct les i n t e r a c t m n s : l ' i n t r o d u c t m n (¢Aape 5) de la c y l i n d r d e prov o q u c lt' r e m p l a c e m e n t du m v c a u de p r i m e 7 o % p a r le n w e a u 6 5 % (6tape 6);
et ce dernicr " c h a s a e " la z o n e de g a r a g e au profit du kd, o m d t r a g e a m ~ u c l (6tape 7):
s~ len kflom6tres p a r ¢ o m u s en ville sont plus fertfles cn accrochages, le m v e a u
de p n m c en trent sufflsamnaent c o m p t e p o u r que la d~stmction entre kflom~tres
urbains et non u r b a i n s soit superflue. 0 n r e m a r q u e 6galement que l'effet
ndfaqte de la c y h n d l d e et des kilom~tres s'exerce de fa~on b e a u c o u p plus
l m p o r t a n t e chez los " m a u v m s "
c o n d u c t e u r s (80% et plus) que chez les " b o n s " .
Les m e f l l e m s r~squcs sont observfs, c o m m e on pout s ' y a t t e n d r e , dans le
h a u t du g r a p h e : " b o n s " conducteurs, roulant peu dans une v o i t u r e de petite
c y h n d r 6 e ' /~ = 0,o550 Los plus m a u v m s rlsques, au bas du graphe, a v e c
= o,3266 (ndlz = 292/$94, ce q m donne un lntcrvallc de conflance assez
bon, nu lllVCakl d c 5/0
o/
[0,2959 0,3573])On pourra~t ains~ lnultq)her Its commenta~res, fl sufflt d ' e x a l n i n e r le graphe.
I1 c o n v m n t c e p e n d a n t de ~ester p r u d e n t " l ' e q t i m a t e u r ~ n ' a pas une v a r m n c e
n6ghgeable, m 6 m e p o u r un h o m b r e l e l a t w e m e n t 61ev6 d ' o b s e r v a t m n s .
4.2
Au
mvcat,
dc p r o b a b d z t d
de 1 %
Au m v e a u de probabflltd de 1% , la v a r m b l e z o n e de g a r a g e ne ressort plus 5.
la 1o e ~.tape, et la proc6dure se poursuit de la faq'on s u i v a n t e (Tableau 3).
TABLEAU
12tapc
\:a~ ruble entrante
io
z o n e de g a r a g e
II
hombre d ' c n f a n t s .
3
Vartable sortante
molns de 4° ooo hab/plus
o, l, 2/3 et plus
12
~lO]1gbl'c d 'eltfanls :
O/l au morns
13
kdomdlrage vacances
14
zone de ga) age
J5
n m e a u de p~ zme'
O/I k i d D.tl 1110111S
morns de 5 ooo hab/plu~
o/
mo,ns de 7°/0/7
° /Ol
o et plus
16
~ombl e d 'cnfants
17
hdom~trage a m t u e l
o, l, a/3 ct plus
m,nns (h' to ooo km/an/phts
m v e a u de p m m e :
morns de 7o%/7o% et plus
nomb~ c d 'e~zfants :
O, 7, 2/3 a t
plus
k~lomdtrage a n n u e l :
morns de ~o ooo kin/an/plus
kdomdtrage vacances :
oil km au morns
zoTze de garage
morns de 5 ooo hab/plus
~t~vea~t de p m m e
morns tic 70%/70 % et ])Ins
52
IIALLIN ET INGENBLEEK
A la sortie de l'6tape 17, la situation est la m~mc qu'au d6but de l'6tape t 3,
ce qui entraine la proc6dure darts un cycle de pfriode 5 @apes, les s61ections
de variables correspondant k ces cmq 6tapes prfisentent des quaht~s assez
semblables.
A titre dMlustration, nous avons choisi de pr6senter, pour l'une des drapes
du cycle, une arbo~escence 6quivalente k celle que nous avons donn6e pour
l'@ape ~o. Le schema ci-dessous mdNue la Ira;on de lire cette arborescence.
,n.m~
(h f15%
t
I1101ns (It
qOOcc
( Olllll|Ci ~,|I|[,
de
40 000 hab
o u r ! ICl,
molns
cmpIoyd, cadre
mom~
p,l~ d'
dc
lO 000 kin/an
cnfant~
900cc
el plus
plus de
40 000 hab
10 000 km/anl
cnlanls
el plus
]kin ,'acanc~t:,
[70%-80%)
morales
©
I 80% ct plus
@
©
©
@
@
Q
®
PROBABILITI 1. DE SINISTRE
©
©
©
@
1221,17~[
1458 A
@ © @
@
1't6,23
1575
21) '~. 42
157()
53
[
~ [
926,128
13112
261,38
•
1456
[
723:16
IOq 1, I (12
~28
14111
4'17:18
~
1'2q8
2()I ,,1()
15~¢
3828,811
2119
[
212'2~1
1 ~h8
I
177.2q
11; 18
II lilt
101
(10} 1(17
20'1()
251,52
667, I't'1
2150
[
4111,118
2 I'l()
- -
817,251
2(.150
330,fi7
7118,217
3065
1050,334
3181
2q3q
[ 375,11'1
(
r
i
[~---[
1
2'`13,(H
3901
{ 11}fi,75
40 ~2
~l
I (), 5(I
t
155b
I 1 10
1846
21'124
1(}57
1395
11(;7
225~
1654
2(17(1
2121
1250
2232
2208
~
25¢) `1
tl 08
r------
173!)
(12 }~1
140,26
8@12
60,7
71,16
13'`1,22
47,14
66, I,t
,. 111~7
32,4
224'--'----~215,48
(.17,22
6,4
150,34
l(}q,2.1
2202
1257,3(
'`1(1110
1250
()q09
I51'1
2121
[
t
12b0
122~1
(11157
'24(17
IB36
33,7
'.'15,0
60,11
117,18
4(.I, I 1
[
I 1-6, I(I
81 $,16|
2005
127,11')
57,7
t5,
I 7'111
54, I:`1
55,9
2,0
'10,5
I 0()()
33,
I IlL 18
]Sq(,
6q, 12
42,1
()(1211 45,7
230,26
I `1~(1 I ~0,24
15,1'1
11)1J,'$4
160,2 ¢)
61,16
41(,8
77,23
31,5
156,4q
66,20
113,"12
182,59
8(.1,28
3,1
47,18
b7,24
37,14
79, `16
3,1
1~3~'~
15,18
2245
2267
1813
2h23
16(;7
29117
1613
3141
3030
2832
3242
3500
38 `10
:`15112
3784
45")7
54
HALLIN ET I N G E N B L E E K
4 3. Autras rdsulfals
Comparaison avec les conclusions de JEAN LEMAIRE
(t979).
Ici encore, il est intdressant d'obserw,.r ]a faqon dont len variables s'mtroduisent ct se " c h a s s e n t " m u t u e l l e m e n t Nou~ n'avons pas effectual l'analyse
factorielle ou en composantes princq~ales 41~prolmde de ces donndes On peut
cependant, h l'examen des drapes 12 h 17, se rlsquer it discerncr, derri6re les
dix, er,,t:s variables qm i n t c r v m n n e n t , trois types d'effets ou de facteurs, l'un - chsons f ~ - mesure l'intensltd d'expoaition au risque du vNficule assurd (et
n'est pas forcdment proportmnnel au kilomdtrage annuel moyen) ; un second
dlsons f 2 - est lid ~t l ' e n v l r o n n e m e n t (plus ou moins urbam) dans lequel est
utilisd le vdlucule, le trolsi6me enfln caractdrise l ' a t t l t u d e au volant du cond u c t e u r du vdhmule Chacune des vmiablea apparalsaant au cours des drapes
12 ~. 17 peut ~tre considdrde comme un ~ndex plus ou morns rcpldaentatif de ces
trois effets: le notable d'enfants est essentiellement lid ~ f~ (condmte de "p6re
de famille"), rams auss~/t f~, 14 zone de gm age ~.f2 ct jq, etc. Ceci explique que
le uombre d'enfanls " c h a i s e " la zone dc garage au profit dlt l,'ilomdlragc annucl,
et que, it la sortie du ~mmbrc d'e~,fauls, la zol,c de garage revienne se substltuer
au kilomdlragc amzud
Outre la sdlechon des varmbles, notre ptogr,mmm fournit un grand h o m b r e
de renseignemcnt~ c o n c c r n a n t les \'armbles non sdlectlonndcs. P o u r c h a q u e
ensemble de variables X(~), X(,.), . , X(k) cona~ddrd en ddbut d'dtape, et pour
chaque variable X, # X(l) . . . . , X(k) on dt~po~e des effect~f~ n(xo~ . . . x(~.I
x,)etn~(x(tl . . . a(~)xd, d e s e s t m a a t m n s f i ( . . . ) = u~(.. )/n(
),delaatatlstique q~ (, [ (I)
(k)), de son h o m b r e de dcgrds de hbertd et de son m v e a u de
sigmflcation (probabflitd ~. gauche sous H0)
Ain~L lors de 14 premi6re drape (cnaemble sdlectionnd en ddbut d'dtape
d)), les varmbles amvantes sont s~gmfmat~vea it I°/o .
- - n o m b r e de slnistres en dro~t (o/~ ou phts)
niveau de prime (quatre valeur~ 65%, 7o% , 80% et 9 o % , c'est 8o% qm
sera sdlectionnd)
zone de garage
5.ge du souscriptcur (quatre v a l e m s 26, 3~, 41 et 5 ~ ansi)
kilomdtrage annuel (5 ooo, 1o ooo et 15 ooo kin/an)
distance h a b i t a t i o n - t r a v a i l (~o kin)
dtat c~vil (mar~ds/autres, mar~ds et veufa/autres)
On r e m a r q u e r a l'absence, 5. cc mveau, et tr6a sigmflcativemcnt, des variables usage tour, sine et affa~re~ (mvcau de s~gmflcatmn o,23), souscr~pteur
sddentmre (dans le t a n f actuel, donne droit :'t une rdductmn de prmae de ~5%,
niveau de s~gmhcatmn 0,54 I), ~exe (niveau 0,77), nagzoualitd, profession, dge
d~¢ vdhzcule.
La cyhudrde n'est prdsente q u ' a v e c une ~eule valeur, 90o cc, qm sera sdlectionnde ~. l'dtape 3, pour ~loo cc, le niveau ch, ~ignificatmn tombe it o,2~.
-
-
-
-
-
-
-
-
-
-
PROBABILITI'~ DE S[NISTRE
55
Ceci ~cmble bien mdiquer que la "taille" de la voitme agit ~t la fagon d'une
variable dichotomique (petites voitures/autres), non 5. la fagon d'un rdgresseur
hndalre (la nature de cette rdgression, d'une variable de type binomml en
une variable continue, n'dtant guhre prdcisde, d'ailleurs, chez Jean Lemaire).
En outre, l ' m t r o d u c t m n du mveau de prlme met en dvidence une interaction:
nlveau de 1)II111c < 80%
nlvcau de p r i m e ~ 80%
c y h n c h d e < 900 cc
c y l m d r d e >/ 900 cc
p = o, 1617
/~ = o, 1786
p = o,172o
p = o,3177
La c3,lz,~drde n'a donc pas d'effet notal)le pour Its "boris" conducteurs
La tlolslame drape fournit les m i m e s renselgnements, mais en t e n a n t
compte de trms classes de m v e a u de prime (morns de 7o%; [7o%-8o%) ; 80°,/o
et plus) Un grand hombre des varmblea qui 6tmcnt slgnifmatlves lors de la
prem~6re dtai)e ne le sont plus. hombre d'acc~,denl,s e~ drozt, autres mveaux de
prime (i:ous au-dessous d'un nlveau de significatmn de o,68. ce qui mdique
bran que l'dchelle de bonus utilisde e~t probablelnent d'une coml)lexltd inutile),
dzsga~ce habllatzon4rava~l, dtat c, wl, dge du souscriptcur.
I1 est mtdressant, ~t cet dgard, de remarquer que, si, ~ l'4tape l, la valeur la
plus signifmative de la variable dge du souscripteur est 26 a n s @ = 0,3292
pour les moins de 26 ans, ~ = 0,2253 pour ]es plus de 26 ans), l'introduction
d'un seul mveau de prime (80%) sufflt ~ ddplacer cette valeur 5141 ans (niveau
de sigmfmation, o,99 ) •
Age < 41 a n s
mveau ¢le prime < 80%
mveau de prime ~ 80%
p = o.1967
p = 0,3389
fi.ge/> 41 a n s
p = o,1934
fi = 0,.2375
St, par consdquent, les " j e u n e s " c o n s h t u e n t un moins bon risque que les
"morns jcunes", l'utilisation d'unc dchelle de bonus-malus, m~me rudimentaire,
s u f h t / t en rendre compte. La franchise de 40oo FB qui, clans le tarif actuel, est
s y s t d m a t N u e m e n t infligde {l tout conducteur de morns de 23 ans ne se justifie
dollc absolument pas. II est dgalement mtdressant de noter que, pas plus que la
cyhndrde m le kilomdtrage, l'fige n'a d'effet i m p o r t a n t sur Its "boris" sousenpteurs
En conclusmn, le niveau de pr,me, surtout du c6td de ses basses valeurs,
conhrme ses quahtds d'excellent cnt~re de d~scrimmation entre " b o n s " et
"morns bons" nsques Seuls conservent mtacte leur signiffmatlvJtd la cyhndr&
(touJours ~ 900 cc), la zone de garage el le k~lomdtrage amiuel.
I1 faut souhgner, toutefois, que ces remarques et ces conclusions sont
relatives ~t la probabilitd de smistre uniquement. I1 est tout 5. f a r possible, et
56
IIALLIN ET INGENBLEEK
m 6 m e p r o b a b l e , q u ' u n e x a m e n des m o n t a n t s c u m u l 6 s m a n e 5. des r6sultata
fort d d f d r e n t s coflt m o y e n des s m i s t r e s plus 61ev~ chez lea jeunes, d a n a ]es
c a n l p a g n e s , chez les c o n d u c t e u r s fa~aant p e u de kilomfitres et t r a n s p o r t a n t
d a n s leur v 6 h m u l e u n e n o m b r e u s e famdle, etc M a l h e u r e u a e m e n t , c o m m e
n o u s l ' a v o n s cht plus h a u t , le n o m b r e de s m l s t r e s o b s e r v 6 s d a n s l'6chantillon
d e n t n o u s diapoaons est t r o p p e u 61evd p o u r q u ' u n e 6tude s6rmuse puisse en
~tre fmte.
N o s rd~ultata et ceux de J e a n L e m a i r e , d a n s la m e s u r e o~ ils p e u v c n t ~tre
compa~ds, d i v e r g e n t e s s e n t i c l l e m e n t sur trois points" l'dge du souscr~pleur,
sa nal~onah/d ct son dial czwl, sdlectmnn6s chez J e a n L e m a i r e , font place au
hombre d ' c n f a n t s (du morns ~t p a s d ' e n f a n t / u u e n f a n t au m o t h s - - f o r t e m e n t
1i6 ~. la v a r i a b l e dial c,vil) et kilomc2ragc vacances (encore une v a r i a b l e
c a r a c t 6 r e n e t t e m c n t d i e h o t o t m q u e p a s de hm-vacances[~ k m au m o i n s ) . Mms
'11 nc faut p a s o u b h e r que, p o u r c h a c u n e de ccs varmbles, chez J e a n L e m a i r e ,
tous les n i v e a u x s e n t test6s et sdleetionnfs g l o b a l e m e n t .
A a u c u n m o m e n t , la p r i m e e f f e c t i v c m e m payde, d o n e le t a r d a c t u e l l e m e n t
en v~gueur, n ' a p p r o c h e le seuil de significativ~td.
lllf, FEAI LN C ES
COCrIRAN, \V G (~943) Analysts of varmnce for percentages based on tnequaI numbers
J A S A , 38, 287-3ol
COCtIRAN, \V G (1954) Some methods for ~trengthemng tile COIIllllOIl•2 teats B;ometmcs,
10, 4 17-451
.DRAPEI~, N and H S~ttTH (1966) Apphed Regressto~t Analysts Wiley, N Y
GART, J. J (1~)71) The comparison of proporbons a revm~ of ~Jgmheance tests, confidence intervals and adjustements fol atlatlhcatton ]?emew of the l**ternattonal
Star 11~sltt,tle, 39, 148-69
IiALLtN, M ( 1t~77a) M6thodes Statlstlquea tit. Conatructmn de l'arl[, Bullet1,1 de l'Assocmlion ties Achral~'es Sutsses, 162-175
HALLIN, M (1977b) I~.tude statlstique des facteurs mfluenqant un risque, Bulletin de
l'Assocmtzon 17 des Actuatres Beiges, 76-92
HALLIN, M e t J -F INGENBLEEK (1978) l~.tudc stattst,quc des Factems mfluen~ant le
Risque atttomobfle, la probabtht~ de smtstrc D~scusslon paper n ° 5, Instttut de
Statt~ttque de l'Umvermt6 Llbre de Bruxelles
Hmc, tN% ] E and G. G KOCH (1977) Varutble selectmn and generahzed chl-square
analysts of categorical data apphed .to a large ctos~-aecttonal occupational health
survey [~tterliat,onal Stattslzcal Revtetv, 45, 51-62
LEMAIRE, J (1977a) Selectmn Procedures of Regressmn Analysis applied to Automobile
I tl~tt rance, l?ullelln de l '.4 ssociafto~z des A ctua7 re~ Sulsses, 143-160
LEMAIRE, J (1977b) Critique du tanf automobile responsM)flit6 clvfle belge B,dlet~n de
l'Assoc~al~o~l R des Actua~res Belges, 93-~o9
LEMAtr~r, J (~970). Selection Procedures of Regressmn Analysts apphed to Automobile
Insurance, Part II Sample mqutry and underwriting applications Bulletin de
l'As*octal~on des Actua*res Stashes, 6 5 - 7 I
MASORE, L (197 8) L'analyse dtscrimmante apphqu6e aux probl~mes dE l'assurance
automobile Bulletin de l'Assocmtwn R des Actuatres Belges, 229-5
'PIr~ANEN, P (Iq75) Tartff theory, AsttnBullet, n, 2o4-228
P~Tt~ANEN, P (~976) A theoretzcalapproach to p~em~lm rating Int Congress of Actuarms,
Tokyo, 2247-25 2