Analyse des durées de survie

Transcription

Analyse des durées de survie
Survie 1
Modèles pour des durées de survie.
Catherine Huber
Partie I
Introduction
1
Quelques exemples
Le terme de durée de survie est employé de manière générale pour désigner le temps
qui s’écoule jusqu’à la survenue d’un événement particulier qui n’est pas forcément la
mort : il peut s’agir par exemple d’une rechute et la durée de survie est, dans ce cas,
un délai de rémission, ou de la guérison, et la durée de survie représente alors le délai
qui sépare le diagnostic de la guérison.
Dans le domaine biomédical, les deux objectifs principaux de l’analyse des durées
de survie sont les suivants:
1. Lors d’un essai thérapeutique, il s’agit de tester l’efficacité d’un nouveau traitement en comparant les durées de survie qu’il permet d’obtenir à celles que donne
le traitement habituel (ou un placebo).
2. Lors d’une étude épidémiologique, il s’agit d’évaluer la valeur pronostique d’un
ou plusieurs facteurs, soit sur la durée de survie, soit sur le délai de survenue d’une
maladie.
Dans un cas comme dans l’autre, les modèles employés et les méthodes correspondantes
sont essentiellement les mêmes.
Exemple 1 (Données de Freireich) :
Freireich, en 1963, a fait un essai thérapeutique ayant pour but de comparer les
durées de rémission, en semaines, de sujets atteints de leucémie selon qu’ils ont reçu
ou non du 6 M-P (le groupe témoin a reçu un placebo et l’essai a été fait en double
C. Huber
Partie I
1 QUELQUES EXEMPLES
Survie 2
aveugle).
Durée de rémission, en semaines, selon le traitement:
6 M-P
9+ , 10, 10+ , 11+ , 13, 16, 17+ ,
6,
6,
6, 6+ , 7,
19+ , 20+ , 22, 23, 25+ , 32+ , 32+ , 34+ , 35+ .
Placebo 1,
8,
1,
11,
2, 2, 3,
11, 12, 12,
4,
15,
4,
17,
5,
22,
5,
23.
8,
8,
8,
Les nombres suivis du signe + correspondent à des patients qui ont été perdus de
vue à la date considérée. Ils sont donc exclus ”vivants” de l’étude et on sait donc
seulement d’eux que leur ”durée de survie” est supérieure à celle indiquée. Par exemple, le quatrième patient traité, par 6 M-P a eu une durée de rémission supérieure à 6
semaines, alors que les trois premiers ont eu une durée de rémission égale à 6 semaines.
On dit que les perdus de vue ont été censurés, et ce problème de la censure
demande un traitement particulier. En effet si l’on se contentait d’éliminer les observations incomplètes c’est-à-dire les 12 patients censurés du groupe traité par le 6 M-P on
perdrait beaucoup d’information car on ne tiendrait pas compte des patients qui ont
justement les durées de rémission les plus longues. Par exemple un test de Wilcoxon
appliqué aux 9 patients restants dans le groupe 6 M-P et aux 21 patients du groupe
Placebo sous-évaluerait l’effet du traitement très visiblement.
Exemple 2 (Données de Embury et al: leucémie) :
Il s’agit d’un essai thérapeutique destiné à vérifier l’efficacité d’un traitement chimiothérapique
d’entretien pour des patients atteints de leucémie aiguë de la moelle épinière (AML
pour Acute Myelogenous Leukemia), conduit à Stanford par Embury et al. Après avoir
atteint un stade de rémission grâce à un traitement chimiothérapique, les patients ont
été randomisés en deux groupes: l’un reçoit un traitement chimiothérapiqe d’entretien,
l’autre un placebo. Les durées de rémission complète, en semaines, sont les suivantes:
Groupe traité:
Groupe non traité:
9, 13, 13+ , 18, 23, 28+ , 31, 34, 45+ , 48, 161+
5, 5, 8,
8, 12, 16+ , 23, 27, 30, 33, 43,
45.
Exemple 3 (Données de Brown: cancer) :
Il s’agit de la comparaison de deux traitements contre un cancer: un essai thérapeutique
a été mené chez des patients atteints de cancer, assignés aléatoirement à deux groupes,
l’un traité par A, l’autre traité par B:
Groupe A :
Groupe B :
3 5
7 9 18
+
12 33 19 20 20+
On remarque que, dans cet exemple il n’y a pas d’ex-aequo. En principe, le temps étant
continu, il ne devrait jamais y avoir d’ex-aequo. Cependant, comme la précision avec
C. Huber
Partie I
2 CINQ FONCTIONS ÉQUIVALENTES
Survie 3
laquelle les durées sont données est limitée, l’unité de mesure étant le jour, la semaine
ou le mois, ou même parfois l’année, en pratique, on a souvent des ex-aequo. Comme
la théorie mathématique (convergence et normalité asymptotique des estimateurs et
des tests), est faite pour le temps continu, il importe de savoir comment traiter ces
ex-aequo. Nous verrons qu’il y a plusieurs façons de le faire.
Deux exemples tests (pour faire les calculs directement) :
La présentation des deux jeux de données suivants est différente. C’est celle qui permet
un traitement mathématique et informatique des données en introduisant une variable
qui est l’indicateur de censure: quand la variable de censure vaut 0, c’est qu’il y a un
”+”, et quand elle vaut 1 c’est qu’il n’y en a pas.
• Exemple test 1:
Dans le premier cas, on a les durées,
de traitement.
temps
censure
traitement
les indicateurs de censure et les indicateurs
1 1 6 6 8 9
1 0 1 1 0 1
1 1 1 0 0 0
• Exemple test 2:
Dans le deuxième cas, on a comme première variable les dates de début et de fin.
temps
(1, 2] (2, 3] (5, 6] (2, 7] (1, 8] (7, 9] (3, 9] (4, 9] (8, 14] (8, 17]
censure
1
1
1
1
1
1
1
0
0
0
traitement 1
0
0
1
0
1
1
1
0
0
2
Cinq fonctions équivalentes
Cinq fonctions équivalentes définissent la loi de la durée: Supposons que la durée de
survie X soit une variable positive ou nulle, et absolument continue. Alors sa loi de
probabilité peut être définie par l’une des fonctions suivantes:
1. La fonction de survie S
Par définition
S(t) = P{X ≥ t},
t ≥ 0;
(1)
Pour t fixé c’est la probabilité de survivre jusqu’à l’instant t.
2. La fonction de répartition F
La fonction de répartition (f.r. ou c.d.f en anglais pour ”cumulative distribution
function) est
F (t) = P{X < t} = 1 − S(t)
(2)
Pour t fixé, c’est la probabilité de mourir avant l’instant t.
C. Huber
Partie I
2 CINQ FONCTIONS ÉQUIVALENTES
Survie 4
Remarque
Il est arbitraire de décider que S(t) = P (X ≥ t) ou S(t) = P (X > t) entraı̂nant
du même coup que F (t) = 1 − S(t) vaut F (t) = P (X < t) ou F (t) = P (X ≤ t).
Lorsque la loi qui régit X est continue, cela n’a aucune importance car ces deux
quantités sont égales: P (X > t) = P (X ≥ t) et P (X < t) = P (X ≤ t).
Cependant, dans les cas où S et donc F ont des sauts, ce qui arrive lorsque le
temps est discret, compté en mois ou en semaines par exemple, on a quelquefois
avantage à adopter la notation suivante qui évite toute ambiguı̈té:
S − (t) = P (X ≥ t)
F − (t) = P (X < t)
S + (t) = P (X > t)
F + (t) = P (X ≤ t)
les limites à gauche (S − et F − ) et à droite (S + et F + ) de ces fonctions. On
remarque que
S− ≥ S+
F− ≤ F+
3. La densité de probabilité f
C’est une fonction f (t) ≥ 0 telle que pour tout t ≥ 0
t
F (t) =
f (s)ds.
(3)
0
Si la fonction de répartition a une dérivée au point t alors
P(t ≤ X < t + dt)
= F (t) = −S (t).
dt→0
dt
f (t) = lim
(4)
Pour t fixé, la densité de probabilité caractérise la probabilité de mourir dans un
petit intervalle de temps après l’instant t.
4. Le taux d’incidence ou risque instantané ) h
Le risque instantané est aussi très souvent appelé ”le taux de hasard” (c’est
un anglicisme) est défini comme
h(t) = lim
dt→0
P(t ≤ X < t + dt|X ≥ t)
f (t)
=
,
dt
S(t)
(5)
pour t fixé, caractérise la probabilité de mourir dans un petit intervalle de temps
après l’instant t, conditionnellement au fait d’avoir survécu jusqu’à l’instant t.
Aussi cela signifie-t-il le risque de mort instantané pour ceux qui ont survécu.
5. Le taux de hasard cumulé H
C’est l’intégrale du taux de hasard h:
t
H(t) =
h(u)du = −ln{S(t)}.
0
C. Huber
Partie I
(6)
3 LES TROIS TYPES DE CENSURE
Survie 5
On peut déduire la fonction de survie du taux de hasard cumulé grâce à la relation:
t
S(t) = exp{−H(t)} = exp{−
h(u)du}.
(7)
0
N’importe laquelle des fonctions ci-dessus peut être obtenue à partir de l’une
quelconque des autres.
Quelques quantités associées à la loi de la survie:
1. Les quantiles de la durée de survie
Pour 0 < p < 1, on définit le quantile tp et la fonction q(p) p ∈ (0, 1) comme
tp ≡ q(p) = inf {t : F (t) ≥ p}.
(8)
Quand F (t) est strictement croissante et continue alors
tp = q(p) = F −1 (p),
0 < p < 1.
(9)
Pour p fixé, le quantile tp est le temps auquel une proportion p de la population
a disparu.
2. Moyenne et variance de la durée de survie
Le temps moyen de survie E(X) ainsi que sa variance Var(X) sont des quantités
importantes:
∞
∞
S(t)dt, Var(X) = 2
tS(t)dt − {E(X)}2 .
E(X) =
0
0
La moyenne et la variance peuvent être déduites de n’importe laquelle des cinq
fonctions ci-dessus (F, S, f, h, H), mais pas vice versa.
3
Les trois types de censure
1. Censure de type I : fixée
Au lieu d’observer les variables X1 , . . . , Xn qui nous intéressent, on n’observe Xi
que lorsque Xi est inférieur ou égal à une durée fixée C, Xi ≤ C, sinon on sait
seulement que Xi est supérieur à C. On note aussi Ti = Xi ∧ C. (le signe ∧
signifie : a ∧ b = min(a, b), la plus petite des deux valeurs a et b).
2. Censure de type II : attente
On décide d’observer les durées de survie des n patients jusqu’à ce que r d’entre
eux soient décédés et d’arrêter l’étude à ce moment là. Si l’on ordonne les durées
de survie X1 , . . . , Xn , soit X(1) la plus petite, X(i) la ième etc... :
X(1) ≤ X(2) ≤ · · · ≤ X(n)
C. Huber
Partie I
3 LES TROIS TYPES DE CENSURE
Survie 6
On dit que les X(i) sont les statistiques d’ordre des Xi . La date de censure est
alors X(r) et on observe:
= X(1)
T(1)
T(2)
= X(2)
T(r)
= X(r)
T(r+1)
= X(r)
................
= X(r)
T(n)
3. Censure de type III : aléatoire
A chaque patient i, associons non seulement son temps de survie Xi mais aussi
son temps de censure Ci . On n’observera évidemment que le plus petit des deux,
c’est-à-dire
Ti = Xi ∧ Ci
Mais on peut supposer que, tout comme les Xi, les Ci sont indépendantes et
équidistribuées (iid) de fonction de répartition G. On fait l’hypothèse que : Ci et
Xi sont indépendantes. Alors pour le ième patient, l’information dont on dispose
peut être résumée par:
- la durée réellement observée Ti - un indicateur Di du fait qu’à l’issue de cette
durée d’observation le patient est : - mort : Di = 1 - censuré : Di = 0.
La censure aléatoire, lors d’un essai thérapeutique peut avoir plusieurs causes:
(a) Perte de vue :
le patient peut décider d’aller se faire soigner ailleurs et on ne le revoit plus.
(b) Arrêt du traitement :
le traitement peut avoir des effets secondaires si désastreux que l’on est
obligé d’arrêter le traitement.
4
patients
6
(c) Fin de l’étude : l’étude se termine alors que certains des patients sont toujours vivants.
A1
B1
B2
2
A2
B3
0
A3
0
2
4
6
8
Temps
C. Huber
Partie I
10
12
14
4 LE PROCESSUS PONCTUEL N (T )
Survie 7
Figure 1: Exemple: 3 patients.
La figure 1 représente le suivi de trois patients. Le premier est entré au début
de l’étude et il est mort à la date X1 = 6. Le deuxième était toujours vivant à
la fin de l’étude, qui a eu lieu au temps 10. Il est donc censuré en t = 10. Et le
troisième patient a été perdu de vue avant la fin de l’étude. Il a donc été censuré
au temps t = 7.
Remarque : L’hypothèse d’indépendance de Xi et de Ci est utile mathématiquement.
Il est important de voir si elle se justifie. Dans les cas où la censure est due à un
arrêt du traitement, elle n’est pas vérifiée.
Notation : Par abus de notation, lorsqu’on ordonne les durées de survie (Ti , Di )
selon les valeurs croissantes des T soit :
T(1) ≤ T(2) ≤ · · · ≤ T(n)
On notera D(i) l’indicateur de censure associé à T(i) .
4
le processus ponctuel N (t)
L’étude des durées de survie peut être abordée d’une autre façon: Au lieu de considérer
X, la durée étudiée, qui est une variable aléatoire réelle positive, généralement continue,
de densité f , fonction de répartition F et fonction de survie S = 1 − F , on représente
l’expérience par le processus ponctuel associé N (t), qui vaut 0 tant que l’événement
n’a pas eu lieu et 1 après, c’est à dire
N (t) = 1{X ≤ t} ,
t ≥ 0.
(10)
La considération de ce processus fait intervenir naturellement les deux fonctions h et
H que nous avons introduites en plus de F , S et f , qui sont respectivement le taux
d’incidence instantané ou ”fonction de risque”, h, et la fonction de risque cumulée H
t
f (t)
h(u)du.
(11)
H(t) =
h(t) =
S(t)
0
Bien que chacune de ces cinq fonctions (F, S, f, h, H) caractérise à elle seule la
loi de N , la plus intéressante est h car elle est une description probabiliste
du futur immédiat du sujet ”encore vivant” et reflète des différences entre les
modèles souvent moins lisibles sur les fonctions de survie, ou fonctions de répartition.
Remarquons que ce taux instantané de mort est déterministe, le taux cumulé H est lui
aussi déterministe.
C. Huber
Partie I
4 LE PROCESSUS PONCTUEL N (T )
Survie 8
Figure 2: Les deux représentations de la durée de survie x.
Considérons maintenant la durée de vie sous l’aspect d’un processus ponctuel, N (t)
qui saute d’une unité au temps t = x lorsque la variable aléatoire X vaut x.
P (dN (t) = 1|N (t− ) = 0) = h(t)dt
P (dN (t) = 1|N (t− ) = 1) = 0
que l’on peut aussi écrire :
P (dN (t) = 1|N (t− )) = h(t)dt avec probabilité S(t)
= 0
avec probabilité 1 − S(t).
L’intensité λ(t) du processus à l’instant t est aléatoire:
λ(t) = Y (t)h(t)
où
Y (t) = 1{t ≤ T }
est l’indicateur de présence du sujet juste avant l’instant t. L’intensité cumulée du
processus ponctuel N est elle aussi une quantité aléatoire qui vaut, en adoptant la
notation usuelle min(t, X) = t ∧ X :
t
t
λ(u)du =
Y (u)h(u)du = H(t ∧ X).
(12)
Λ(t) =
0
0
A chaque instant t et conditionnellement à l’ensemble Ft− des événements du passé
immédiat, c’est à dire ayant eu lieu jusque juste avant t, l’accroissement du processus
N sur un intervalle de temps infinitésimal ]t, t + dt] est une variable de Bernoulli qui
vaut 1 avec la probabilité f (t) = h(t) dt et 0 avec la probabilité q(t) = 1 − h(t) dt :
dN (t) = 1
= 0
C. Huber
avec probabilité f (t) = λ(t) dt = Y (t)h(t) dt
avec probabilité q(t) = 1 − λ(t) dt = 1 − Y (t)h(t) dt .
Partie I
4 LE PROCESSUS PONCTUEL N (T )
Survie 9
Conditionnellement à Ft− , l’espérance de dN (t) est donc λ(t) dt et sa variance est aussi
λ(t) dt car pq = λ(t) dt(1 − λ(t) dt) est équivalent à λ(t) dt.
Exemple. Considérons l’exemple le plus simple qui est celui d’une durée exponentielle de paramètre θ, c’est à dire dont le taux instantané est constant et vaut θ . Alors,
pour tout t ≥ 0
f (t) = θe−θt
S(t) = e−θt
h(t) = θ
H(t) = θt.
L’intensité cumulée (aléatoire) vaut:
Λ(t) = θ(t ∧ X)
et la différence entre le processus ponctuel N et l’intensité cumulée Λ est une martingale M :
N (t) − Λ(t) = M (t)
On appelle Λ le compensateur prévisible” de N car il est déterminé par Ft− alors
que M (t) est un processus qui, conditionnellement à Ft− , est d’accroissement nul en
moyenne : c’est une martingale,
3
3
2
2
1
4
E[dM (t)|Ft− ] = E[dN (t) − h(t)dt|Ft− ] = 0.
1
N(t)
0
processus
H(t)
theta t
1
2
3
M(t)
-1
-2
-1
0
0
1
2
3
temps
Figure 3: Les trois processus N , M et H dans le cas simple exponentiel.
Exemple. Si à l’exemple précédent on ajoute une censure droite C, c’est à dire que l’on
observe, au lieu de X, la durée T = min(X, C) , notée X ∧ C, ainsi que l’indicatrice de
C. Huber
Partie I
4 LE PROCESSUS PONCTUEL N (T )
Survie 10
”mort” D = 1{X ≤ C} , qui est nulle si c’est la censure au lieu de la variable d’intérêt
qui est observée, alors ”l’indicatrice de présence à risque” du sujet est :
Y (t) = 1{ t ≤ X ∧ C}.
Si de plus on a une troncature gauche U , c’est à dire que X n’est observée que si
X excède U , sinon le sujet n’est même pas répertorié, alors l’indicatrice de présence à
risque devient :
Y (t) = 1{U ≤t≤X∧C} .
Notations
Supposons que l’on ait n patients, indexés par i = 1, · · · , n. A chaque patient correspond un indicateur Yi (t) de présence à risque à l’instant t
Yi (t) = 1{Ti ≥ t}
(13)
et un processus ponctuel d’ ”événement” Ni (t),
Ni (t) = 1{Ti ≤ t, Di = 1}
(14)
Si le taux instantané de mort hi (t) du sujet i est le même pour tout i, soit
hi (t) = h(t)
∀t,
(15)
on a un n-échantillon. On note Y la somme des processus Yi (t) de présence à risque,
et N la somme des processus Ni (t) d’événement:
Y (t) =
n
Yi (t).
(16)
Ni (t).
(17)
i=1
N (t) =
n
i=1
C. Huber
Partie I
1 ESTIMATEUR DE NELSON-AALEN
Survie 11
Partie II
Sans Modèle: Approche Non Paramétrique.
Si l’on ne fait aucun modèle, les deux estimateurs les plus importants sont:
• l’estimateur de Nelson-Aalen, H
N A du taux de hasard cumulé,
• l’estimateur de Kaplan-Meier S
KM de la fonction de survie.
1
1.1
Estimateur de Nelson-Aalen du taux cumulé:
Définition
Cet estimateur de H est fondé sur la remarque suivante:
H(s + ds) − H(s) ≈ h(s)ds
= P (événement dans (s, s + ds)| à risque en s)
Il est naturel d’estimer cette quantité par [N (s + ds) − N (s)]/Y (s). En sommant
ces quantités sur les intervalles de (0, t] et en faisant tendre ces intervalles vers 0, de
telle sorte que chacun ne contienne qu’un seul événement, on obtient l’estimateur de
Nelson-Aalen:
t
dN (s)
H(t)
=
(18)
0 Y (s)
qui peut aussi s’écrire, puisqu’il n’y a que des sauts:
H(t)
=
∆N (ti )
Y (ti )
{i:t ≤t}
(19)
i
où ∆N (ti ) ≡ m(ti ) est le nombre des décès à l’instant ti et Y (ti ) ≡ r(ti ) le nombre des
sujets à risque juste avant cet instant. L’estimateur de Nelson-Aalen est une fonction
en escalier qui a un saut de taille m(ti )/r(t−
i ) à chaque instant de mort ti . On choisira
donc la plus simple des trois écritures:
H(t)
=
m(ti )
.
r(ti )
(20)
{i:ti ≤t}
car les trois équations (18), (19), (20) représentent la même quantité. Les deux
premières sont utiles lorsqu’on utilise l’approche des durées de survie par les processus
ponctuels.
C. Huber
Partie II
1 ESTIMATEUR DE NELSON-AALEN
1.2
Survie 12
Exemple 4: les données de Nelson-Aalen
Exemple N-A (Données de Nelson et Aalen) :
Il s’agit de la durée de vie de ventilateurs, en nombre de milliers d’heure de fonctionnement. La question qui se posait était de savoir si la fonction de risque h était
décroissante dans le temps. Les durées sont en milliers d’heures.
durées
4.5
20.3
32.0
46.0
63.0
85.0
censure 1
0
0
1
0
0
4.6
20.3
34.5
48.5
64.5
87.5
0
0
1
0
0
0
11.5
20.3
37.5
48.5
64.5
87.5
1
0
0
0
0
1
11.5
20.7
37.5
48.5
67
87.5
1
1
0
0
0
0
15.6
20.7
41.5
48.5
74.5
94.0
0
1
0
0
0
0
16.0
20.8
41.5
50.0
78.0
99.0
1
1
0
0
0
0
16.6
22.0
41.5
50.0
78.0
101.0
0
0
0
0
0
0
18.5
30.0
41.5
50.0
81.0
101.0
0
0
0
0
0
0
18.5
30.0
43.0
61.0
81.0
101.0
0
0
0
0
0
0
18.5
30.0
43.0
61.0
82.0
115.0
0
0
0
1
0
0
18.5
30.0
43.0
61.0
85.0
18.5
31.0
43.0
61.0
85.0
0
0
0
0
0
0
1
0
0
0
Si on appelle t1 le premier instant de ”mort” (ici: panne), t2 le second, etc.., on calcule
H(t)
, pour t supérieur ou égal à la plus grande valeur observée, qui est de 87 500
heures, comme
H(t)
=
Nombre de pannes en t1
Nombre de ventilateurs à risque en
+
t1
Nombre de pannes en t2
Nombre de ventilateurs à risque en
t2
+etc....
=
=
1.3
Nombre de pannes en 4.5
Nombre de ventilateurs à risque en
4.5
+··· +
Nombre de pannes en 87.5
Nombre de ventilateurs à risque en
1
70
+ ··· +
+
2
68
1
8
87.5
= 0.3368.
Deux interprétations de l’estimateur de Nelson-Aalen
On peut interpréter de deux façons différentes l’estimateur de Nelson-Aalen:
C. Huber
Partie II
1 ESTIMATEUR DE NELSON-AALEN
Survie 13
estime le nombre moyen de pannes pour un élément unique perpétuellement
1. H(t)
à risque sur l’intervalle de temps (0t]. Pour l’exemple des ventilateurs, cela signifie
le nombre moyen de pannes attendu lorsqu’on fait fonctionner un ventilateur
pendant un nombre de milliers d’heures égal à t en le remplaçant chaque fois qu’il
tombe en panne par un autre ventilateur qui a le même taux de panne instantané
que celui qui a été remplacé, c’est à dire qui a déjà fonctionné exactement le
même nombre de milliers d’heures que celui qu’il remplace. (On appelle cela en
fiabilité ”le protocole de réparation minimale”).
estime le risque instantané h. Le problème posé par l’estimation
2. La pente de H(t)
de h est comparable à celui de l’estimation d’une densité: tout comme la fonction
de répartition empirique, l’estimateur H(t)
de H est une fonction en escalier. Il
faut donc la lisser pour estimer h, qui est la pente de cette fonction. L’objectif
initial de l’étude était de se demander si le risque instantané décroı̂t au cours du
temps.
Exercice 1
On fait l’hypothèse que la durée de vie des ventilateurs a un risque instantané constant,
égal à θ.
1. Estimer θ.
2. Tracer sur un même graphique
• l’estimateur non-paramétrique du risque cumulé des ventilateurs.
• l’estimateur du risque cumulé sous l’hypothèse que la durée de vie suit une
loi exponentielle.
1.4
Estimation de la variance de l’estimateur de Nelson-Aalen
L’accroissement ∆t N (t) = N (t + t ) − N (t), qui est le nombre des événements dans un
court intervalle de temps t suit approximativement une loi de Poisson de paramètre
h(t)t . Or, pour une variable aléatoire de Poisson, le nombre moyen des événements
est le produit du taux par le temps et par le nombre à risque. Conditionnellement au
passé, ∆t N (t) est de Poisson de moyenne et de variance toutes les deux égales à
t+t
Y (s)h(s)ds ≈ Y (t)h(t)t .
t
Donc
Var [
C. Huber
∆t N (t)
h(t)t
]≈
Y (t)
Y (t)
Partie II
2 ESTIMATION DE S
qui peut être estimée par
Survie 14
∆t N (s)
∆t N (s)
Var
=
2
Y (s)
Y (s)
ce qui donne finalement pour estimateur de la variance de H(t):
∆N (ti )
=
Var [H(t]]
.
2
i:ti ≤t Y (ti )
(21)
qui peut s’écrire aussi, en utilisant la notation simplifiée précédente (m(ti ) et r(ti ) pour
les nombres de décès et de sujets à risque à l’instant ti ):
m(ti )
=
(22)
Var [H(t]]
2 (t )
r
i
i:t ≤t
i
Exemple des durées de rémission de Freireich pour 6-MP:
Rechutes Durées t terme H(t)
σ(H(t))
1-2-3
6
3/21 0.143 2.571
5
7
1/17 0.201 3.512
7
10
1/15 0.268 4.446
10
13
1/12 0.351 5.362
11
16
1/11 0.442 6.271
15
22
1/7
0.585 7.129
16
23
1/6
0.752 7.962
Exercice 2:
Calculer l’estimateur de Nelson-Aalen du risque cumulé pour les ventilateurs de NelsonAalen et tracer la courbe correspondante en fonction du temps. Faire de même pour
les données d’Embury et celles de Brown.
Exercice 3:
Démontrer que l’estimateur de Nelson-Aalen du risque cumulé a la propriété suivante:
n
n
H(Ti ) =
Ni .
i=1
2
i=1
Estimation de la fonction de survie
Si l’on ne peut pas supposer a priori que la loi de la durée de survie obéit à un modèle
paramétrique, on peut estimer la fonction de survie S grâce à plusieurs méthodes
non-paramétriques dont la plus intéressante est celle de Kaplan-Meier. Nous allons
cependant donner d’abord l’estimateur de Harrington et Fleming car il se déduit
immédiatement de l’estimation du taux cumulé.
C. Huber
Partie II
2 ESTIMATION DE S
2.1
Survie 15
Estimateur de Harrington et Fleming de S:SHF
C’est l’estimateur qui découle de l’estimateur de Nelson-Aalen du risque cumulé H en
utilisant la relation S = exp(−H):
S
HF = exp(−HN A )
(23)
Grâce à la delta-méthode,on rappelle que, sous des conditions de régularité de la fonction f , Var (f (Y )) ≈ f 2 (E(Y ))Var (Y )), on peut obtenir un estimateur de la variance
de cet estimateur:ici la fonction f est l’exponentielle, de dérivée f = f et donc
= S2 Var (H)
Var (S)
Var
SN A (t) = exp(−2
2.2
m(ti ) m(ti )
.
)
r(ti ) i r(ti )2
i
(24)
Estimateur de Kaplan-Meier de S:SKM
Cet estimateur est aussi appelé P-L (Produit-Limite) car il s’obtient comme la limite
d’un produit. Il est fondé sur la remarque suivante : si t < t, la probabilité de survivre
au-delà de l’instant t est égale au produit suivant :
S(t+ ) = P (X > t|X > t ).S(t ).
Si l’on renouvelle l’opération en choisissant une date t” antérieure à t , on aura de
même S(t ) = P (X > t |X > t”)S(t”), et ainsi de suite. Si l’on choisit pour les dates
où l’on conditionne celles où il s’est produit un événement, qu’il s’agisse d’une mort ou
d’une censure, on aura seulement à estimer des quantités de la forme :
P (X > T(i) |X > T(i−1) ) = pi .
Or pi est la probabilité de survivre pendant l’intervalle de temps Ii =]T(i−1) Ti ] quand
on était vivant au début de cet intervalle.
Notant, comme précédemment, Ri le nombre des sujets qui sont vivants (donc ”à
risque” de mourir) juste avant l’instant T(i) , ce qui peut aussi s’écrire:
• # vivants à l’instant T(i) ou
• # sujets de R(T(i) ) en désignant par R(t) l’ensemble des sujets à risque à l’instant
t− .
et Mi le nombre des morts à l’instant T(i) , qi = 1 − pi est la probabilité de mourir
pendant l’intervalle Ii sachant que l’on était vivant au début de cet intervalle. Alors
l’estimateur naturel de qi est
qi =
C. Huber
Mi
.
Ri
Partie II
2 ESTIMATION DE S
Survie 16
Supposons qu’il n’y ait pas d’ex-aequo. Si D(i) = 1, c’est qu’il y a eu un mort en
T(i) et donc Mi = 1. Si D(i) = 0 , c’est qu’il y a eu une censure en T(i) et donc Mi = 0.
Par suite
pi = 1 − R1i en cas de mort en T(i)
= 1 en cas de censure
car il est clair que Ri = n − i + 1. L’estimateur de Kaplan-Meier est donc dans ce cas :
=
S(t)
(1 −
T(i) ≤t
1
)D(i) .
n−i+1
(25)
Exemple 5: cancer des bronches
Sur 10 patients atteints de cancer des bronches on a observé les durées de survie
suivantes, exprimées en mois:
1 3 4+ 5 7+ 8 9 10+ 11 13+
L’estimateur de Kaplan-Meier de la
suivante:
temps Ri
0
10
1
10
3
9
5
7
8
5
9
4
11
2
fonction de survie S(t) se calcule de la manière
mi
0
1
1
1
1
1
1
Survie
1
0.900
0.800
0.686
0.549
0.411
0.206
Intervalle
[0 1[
[1 3[
[3 5[
[5 8[
[8 9[
[9 11[
Exercice 4
Comparer cet estimateur de la survie à celui de Fleming et Harrington.
Dans cet exemple, il n’y a pas d’ex-aequo. Cependant la plupart du temps il y en a,
comme dans le premier exemple qui est celui des données de Freireich.
2.3
Traitement des ex-aequo
Il y a plusieurs configurations possibles pour les ex-aequo:
1. Si ces ex-aequo sont des deux sortes, on considère que les observations non censurées ont lieu juste avant les censurées.
2. Si ces ex-aequo sont tous des morts, la seule différence tient à ce que Mi n’est
plus égal à 1 mais au nombre des morts et l’estimateur de Kaplan-Meier devient:
=
S(t)
(1 −
T(i) ≤t
C. Huber
Partie II
Mi
).
Ri
(26)
2 ESTIMATION DE S
0.0
0.2
0.4
survie
0.6
0.8
1.0
Survie 17
0
2
4
6
8
10
12
temps
Figure 4: Estimateur de Kaplan-Meier de la fonction de survie pour le cancer des
bronches
C. Huber
Partie II
2 ESTIMATION DE S
Survie 18
Exercice 5
Calculer l’estimateur de Kaplan-Meier de la survie pour les données de Freireich,
séparément pour le groupe traité et pour le placebo. Comparer cet estimateur à celui
de Fleming et Harrington.
2.4
Br
Estimateur de Breslow du risque cumulé H:H
On peut estimer H à partir de l’estimateur de Kaplan-Meier de S en utilisant le fait
que H = − log(S):
Br = − log(SKM ).
(27)
H
ce qui donne
Br = −
H
log(1 − qi ).
(28)
i:T(i) ≤t
Pour estimer la variance de cette somme, on remarque que la variance de chaque terme
vaut en première approximation
pi qi
ri (1−qi )2
=
=
mi (ri −mi )ri2
ri3 (ri −mi )2
mi
ri (ri −mi )
De plus, si les qi étaient indépendants, la variance de la somme serait égale à la somme
des variances. Cela donne pour variance de l’estimateur de Breslow:
mi
.
(29)
Var (H(t))
=
ri (ri − mi )
i:T ≤t
(i)
2.5
Estimateur de Greenwood de la variance de S
KM :
L’estimateur de Greenwood de la variance de l’estimateur de Kaplan-Meier de la fonction de survie est obtenu à partir de la précédente
log(SKM (t)) =
log(1 − qi )
i:T(i) ≤t
Cela donne, en employant la delta-méthode qui consiste à considérer que si X est
approximativement égal à µ + σZ , où Z est centré et réduit et σ petit : Var (f (X)) =
Var (f (µ + σZ)) = V ar(f (µ) + σZf (µ)) = σ 2 f (µ)2 , avec f = log:
mi
Var (log(S(t)))
≈
i:T(i) ≤t ri (ri −mi )
1
≈ Var (S(t))
2
S(t)
C. Huber
Partie II
2 ESTIMATION DE S
Survie 19
ce qui donne finalement pour variance de S(t)
2
Var (S(t))
= S(t)
i:T(i)
mi
.
ri (ri − mi )
≤t
(30)
Remarque
Nous avons donc deux estimateurs du risque cumulé. On peut démontrer qu’ils sont
équivalents, et que les estimateurs de leur variance le sont aussi. En fait il existe trois
estimateurs de la variance
m(t)
Variance de Greenwood:
r(t)(r(t)−m(t))
m(t)
Variance de Tsiatis:
2
r(t)
m(t)(r(t)−m(t))
Variance de Klein:
r(t)(r(t))3
Nous avons rencontré les deux premiers.
Exercice
Justifier heuristiquement le troisième estimateur de la variance.
C. Huber
Partie II
2 DÉFINITION D’UNE MARTINGALE
Survie 20
Partie III
Processus Ponctuels.
1
Modélisation du processus ponctuel: l’histoire ou
filtration Ft
Considérons maintenant la durée de vie sous l’aspect d’un processus ponctuel, N (t)
qui saute d’une unité au temps t = x lorsque la variable aléatoire X vaut x.
Pour faire un modèle statistique, on doit préciser sur quelle information il est fondé.
Pour un processus de comptage, cela est fait en spécifiant l’histoire, souvent appelée
filtration, et notée {Ft , t ≥ 0}. Un choix naturel pour {Ft , t ≥ 0} est l’histoire de
l’expérience depuis le début (le temps 0) jusqu’à l’instant t inclus. Quand on a un néchantillon, il faut cependant remarquer que, en fait, ce n’est pas le temps chronologique
qui est utilisé. En effet, chaque patient a un temps 0 qui est celui du début de la durée
qui le concerne. On réaligne donc les processus à risque Yi et de comptage Ni sur une
origine commune des temps.
Jusqu’à présent, nous avons supposé que nous avions un échantillon de patients expérimentant
la même loi de durée de survie, donc le même risque cumulé H que nous avons estimé
par Nelson-Aalen.
Mais il se peut que le risque instantané ne soit pas le même d’un individu à l’autre
car il peut dépendre de certaines caractéristiques du sujet; il peut s’agir par exemple
de taux biologiques, de traits génétiques ou de conditions environnementales du sujet. On appelle ces caractéristiques des ”covariables”. On modélise alors l’effet de ces
différentes covariables sur le risque h.
2
2.1
Définition d’une martingale
Sommes de variables aléatoires indépendantes:
A l’origine, les martingales ont été inventées pour généraliser les sommes de variables
aléatoires indépendantes et centrées. Supposons que nous ayons
n une somme de variables aléatoires indépendantes X1 , X2 , ..., Xk , ...,, soit Sn = k=1 Xk . Alors, on a des
théorèmes sur la limite de ces sommes, convenablement normées quand n tend vers
l’infini : lois des grands nombres (convergence en probabilité ou presque sûre vers un
nombre) et théorèmes limites centraux (approximations normales). Sans restriction de
la généralité, on peut supposer que ces variables sont centrées:
E(Xk ) = 0 pour tout k.
Donc on suppose que X1 , X2 , ..., Xk , ..., sont indépendantes et centrées.
C. Huber
Partie III
2 DÉFINITION D’UNE MARTINGALE
Survie 21
Alors on a, pour tout n, les trois propriétés suivantes
E(Xn+1 |X1 , X2 , ..., Xn ) = E(Xn+1 )
= 0
E(Xn+1 |S1 , S2 , ..., Sn ) = 0
= E(Sn + Xn+1 |S1 , S2 , ..., Sn ) = Sn .
E(Sn+1 |S1 , S2 , ..., Sn )
2.2
(M)
Définition
Définition 1 Lorsque une suite S1 , S2 , ..., Sn , · · · de variables aléatoires vérifie la propriété ,
(M)
E(Sn+1 |S1 , S2 , ..., Sn ) = Sn , pour tout n.
on dit que la suite S1 , S2 , ..., Sn , · · · est une martingale.
Une définition équivalente de la propriété de martingale est la suivante :
Définition 2 Un processus (M1 , M2 , ..., Mn , · · · ) est une martingale à temps discret si
pour tout n ∈ IN
E(|Mn |)
< ∞
(M)
E[Mn+1 |Fn ] = Mn ,
où Fn = σ{M1 , M2 , ..., Mn } est la tribu du passé jusqu’à l’instant n, qui croı̂t avec n.
Remarque :
Si (M) est satisfaite, alors E[Mn |Fk ] = Mk pour tous les entiers k < n car E[Mn |Fk ] =
E[E[Mn |Fn−1 ]|Fk ], ce qui donne, de proche en proche, le résultat.
Définition 3 : Un processus Mt est une martingale à temps continu si E(|Mt |) < ∞,
t ∈ IR et si de plus
(M)
E[Mt |Fs ] = Ms , pour tous 0 < s < t.
(31)
Remarques:
1. Une propriété équivalente à (M) est : pour tous 0 < t1 < t2 < . . . < tn+1 ,
E[Mtn+1 |Mt1 , . . . , Mtn ] = Mtn .
2. La propriété de martingale (M) a pour conséquence que l’espérance de l’accroissement
est nulle, ce qui s’écrit :
E[Mt − Ms |Fs ] = 0 pour tous 0 < s < t.
ou encore dans sa version infinitésimale :
(M ) E[dMt |Ft ] = 0.
C. Huber
Partie III
3 PROPRIÉTÉS D’UNE MARTINGALE
3
3.1
Survie 22
Propriétés d’une martingale
Le compensateur ou processus de variation prévisible <
M > (t) d’une martingale M
La ”somme” < M > des variances conditionnelles d’une martingale centrée M est
caractérisée par la définition suivante qui est issue d’un résultat d’existence et d’unicité:
Définition 4 : Le processus croissant de variation associé à une martingale M est
l’unique processus croissant et prévisible < M > tel que
d < M > (t) = E[(dM (t))2 |Ft− ].
3.2
Le processus de variation quadratique ou de variation optionnelle [M ] d’une martingale M
C’est la limite en probabilité de
{M (ti+1 ) − M (ti )}2
sur une partition de plus en plus fine de l’intervalle [0t]. Il est souvent noté [M ](t) et
appelé pour cela le processus ”à crochets”. Il est continu à droite comme < M > et il
a la propriété que
M 2 − [M ]
est une martingale. Quand M est à trajectoires continues,
[M ] =< M > .
Quand M n’est pas continue, ce qui est le plus souvent le cas, sauf pour le mouvement
Brownien dans ce cours,
∆M (s)2 .
(32)
[M ](t) =
s≤t
où ∆M (s) = M (s) − M (s− ). Aussi, [M ] est il égal à la somme des carrés des sauts de
la martingale.
3.3
Exemples
Exemple :
Survie exponentielle de densité f (x) = θe−θx . La variable X est une durée de vie de
C. Huber
Partie III
3 PROPRIÉTÉS D’UNE MARTINGALE
Survie 23
fonction de risque constante θ,
N (t) = 1{X ≤ t},
dN (t) = Y (t)θdt + dM (t) = h(t)dt + dM (t),
d < M > (t) = E[(dM (t))2 |Ft− ] = E[{dN (t) − 2dN (t)h(t)dt + (h(t)dt)2 }|Ft− ]
= h(t)dt − (h(t)dt)2 h(t)dt = Y (t)θdt,
t
Y (u)θdu = θ(t ∧ X) = H(t)
< M > (t) =
0
Autrement dit, le processus de variation de la martingale M = N − H est identique
au processus d’intensité cumulée H.
Exemples de martingales:
1. Jeu :
Un jeu est dit équitable si, à chaque tour n, l’espérance du gain Xn est égale à
0 : E(Xn ) = 0. Mais, en général, la stratégie du joueur dépend de ce qui s’est
produit jusque là. Donc, si l’on note Sn la somme des gains au temps n, on a
Sn = X1 + X2 + ...Xn−1 + Xn = Sn−1 + Xn
où Sn−1 et Xn ne sont pas nécessairement indépendantes. Cependant, le jeu reste
équitable si
E[Xn |Fn−1 ] = 0.
2. Urne de Polya :
On a dans une urne a boules rouges et b boules noires. On tire au hasard une
boule dans l’urne et on remet ensuite c + 1 boules de la même couleur que celle
qui est sortie. On appelle Mn la proportion des boules noires après n tirages et
M0 la proportion initiale des boules noires, an le nombre de boules rouges et bn
le nombre de boules noires après n tirages. Alors
b
, proportion initiale des noires,
a+b
bn + c
bn
Mn+1 =
,
, avec probabilité
an + b n + c
an + b n
bn
an
bn
=
=
.
, avec probabilité 1 −
an + b n + c
an + b n
an + b n
On en déduit que
bn + c
bn
an
bn
+
E[Mn+1 |Fn ] =
an + b n an + b n + c an + b n + c an + b n
bn
=
= Mn .
an + b n
M0 =
C. Huber
Partie III
3 PROPRIÉTÉS D’UNE MARTINGALE
Survie 24
3. Mouvement Brownien (martingale normale) :
Cet exemple est un exemple fondamental de martingale à temps continu, car
c’est justement vers ce type de processus que convergent les martingales associées à beaucoup de processus et en particulier aux processus ponctuels qui
nous intéressent. On remarquera que nos martingales, associées aux processus
ponctuels, sautent, alors que les trajectoires du mouvement Brownien, ou mouvement Brownien changé de temps, ne sautent pas.
E(B(t))
= 0
pour tout t ≥ 0,
cov(B(s), B(t)) = s ∧ t pour tous s et t ≥ 0.
A l’origine le mouvement Brownien est nul (B(0) = 0) et la loi de n’importe quel
k-uple de réels 0 < t1 < t2 < ... < tk est la loi multinormale ainsi définie :
L(B(t1 ), B(t2 ), ..., B(tk )) = N (m, Σ)
où m est le vecteur de dimension k de composantes nulles et Σ est la matrice de
covariance suivante :
⎡
⎢
⎢
Σ=⎢
⎣
t1 t1
t1 t2
.. ..
. .
t1 t2
⎤
· · · t1
· · · t2 ⎥
⎥
. . . .. ⎥
. ⎦
· · · tk
Figure 5: Exemple de trajectoire d’un mouvement brownien.
C. Huber
Partie III
3 PROPRIÉTÉS D’UNE MARTINGALE
Survie 25
0
s s
En particulier, si s < t, L(B(s), B(t)) = N
;
. Si l’on appelle
0
s t
X = B(s) et Y = B(t) et σs et σt les écarts-types correspondants, on a :
√
σs
= √s
σt
=
t
cov(s, t) = s ∧ t = s
s
=
, notée ρ,
corr(s, t) = √sst
t
la densité de X est celle d’une loi normale N (0, σs2 ) et les densités jointe et
conditionnelles de X et Y sont
x2 2ρ xy y 2
1
1
( −
fX,Y (x, y) =
exp −
+ 2) ,
2(1 − ρ2 ) σs2
σs σt
σt
2π (1 − ρ2 ) σs σt
fX,Y (x, y)
fX (x)
2
1
x
1
1
2ρ xy
y2
= exp
(1 −
)−
)
( −
2σs2
1 − ρ2
2(1 − ρ2 ) σt2
σs σt
2π(1 − ρ2 ) σt
1
1
σt 2
= exp
(y − ρ x ) .
2(1 − ρ2 )σt2
σs
2π(1 − ρ2 ) σt
fY |X (y|x) =
Donc
σt
E[B(t)|B(s) = x] = ρ x =
σs
s
x
t
t
=x
s
Par suite, E(B(t)|B(s)) = B(s) et c’est donc bien une martingale. De plus,
V ar[B(t) − B(s)|B(s)] = (1 − ρ2 )σt2 = t − s
V ar[dB(t)|B(t)] = dt = d < B > (t).
par définition même de < B > , processus de variation associé à B.
Remarques
1. Ici, le processus de variation est déterministe : < B > (t) = t pour tout t. Mais
généralement il ne l’est pas. Il est déterministe en particulier si le processus est
à accroissements indépendants.
2. Que se passe-t-il si l’on fait un changement de temps t = v(u), où v est nulle
en 0 et croissante ? Alors, B(v(u)) = Z(u), est une martingale gaussienne, et
< Z > (t) = v(t).
C. Huber
Partie III
4 CONVERGENCE VERS LA LOI NORMALE:
4
Survie 26
Convergence vers la loi normale:
Théorème 1 (caractérisation des martingales gaussiennes) Soient r fonctions
du temps t, v1 , v2 , . . . , vr croissantes et nulles en 0, fixées. Alors, il existe Z = ( Z1 ,
Z2 , ..., Zr ) processus gaussiens ayant les propriétés suivantes :
(P1) Ils sont:
1. indépendants,
2. à trajectoires continues,
3. à accroissements indépendants,
4. nuls en 0.
(P2) E(Zk (t)) = 0 pour tout k ∈ {1, 2, . . . , r} et pour tout t de IR V ar(Zk (t)) = vk (t)
pour tout k .
Réciproquement : Si Z1 , Z2 , . . . , Zr sont des martingales à trajectoires continues et
telles que < Zi, Zj > (t) soit égale à 0 si j est différent de i et sinon à vi (t) pour des
vi croissantes à partir de 0, alors les Zi sont des processus gaussiens indépendants à
accroissements indépendants.
Théorème 2 (TLC)
Soit Z = (Z1 , Z2 , ..., Zr ) une martingale gaussienne telle que ci-dessus et M (n) =
(n)
(n)
(M1 , . . . , Mr une suite de martingales telle que :
(n)
(P1) Les sauts des Mi deviennent de plus en plus petits, c’est à dire que si M est
décomposée en la somme suivante
M = M + M
où le premier terme est une martingale contenant tous les sauts supérieurs à et le
second est une martingale dont aucun des sauts ne dépasse , alors
−→
(n)
> (t) n → ∞ 0
< Mi
∀teti ∈ {1, 2, . . . , r}
(n)
convergent vers ceux des Zi :
(P2) Les processus de covariance des Mi
(n)
(n)
< Mi , Mj
(n)
(n)
< Mi , Mj
→
>P 0sii = j
→
>P vi (t)sij = i
Alors M (n) tend en loi vers Z quand n tend vers l’infini.
C. Huber
Partie III
5 MARTINGALE ET COMPENSATEUR ASSOCIÉS À UN PROCESSUS
PONCTUEL DE COMPTAGE
Survie 27
5
Martingale et compensateur associés à un processus ponctuel de comptage
Comme nous l’avons vu au chapitre I, le processus ponctuel Ni (t) a la propriété que
E(dNi (t)|Ft− ) = Yi (t)hi (t)dt = λi (t).
Par suite,
Λi (t) =
0
t
Yi (s)hi (s)ds
est le compensateur prévisible du processus ponctuel Ni et
t
Mi (t) = Ni (t) −
Yi (s)hi (s)ds = Ni (t) − Λi (t)
0
est la martingale associée au sujet i. Le compensateur est prévisible car il est l’intégrale
du produit de deux processus prévisibles.
Nous allons maintenant obtenir les processus de variation prévisible et optionnelle (ou
quadratique), < M > et [M ], de la martingale M . Par définition,
d < M > (t) = var(dM (t)|Ft− ).
t
= var(dN (t) − 0 Yi (s)hi (s)ds|Ft− ).
Or, étant donné Ft− , dN (t) est une variable de Poisson dont la moyenne et la variance
sont toutes les deux égales à Yi (s)hi (s)ds|Ft− ). Donc
t
< Mi (t) >=
Yi (s)hi (s)ds = Λi (t).
0
C’est à dire que le processus de variation prévisible de la martingale est égal
au compensateur du processus ponctuel.
Par ailleurs, le processus optionnel est égal par définition, à la limite en probabilité de
la somme des carrés des accroissements de Mi sur une partition de [0 t] de plus en plus
fine:
N
−1
(M (tk+1 ) − M (tk ))2 t1 = 0, tN = t, tk+1 − tk → 0
[M ](t) = lim
P
k=1
Comme on l’a vu au chapitre I, Mi n’est en général pas continue et [M ](t) est la somme
des carrés des sauts de Mi .
∆Mi (s)2 .
[M ](t) =
s≤t
−
où ∆Mi (s) = Mi (s)−Mi (s ). Donc, comme les sauts sont égaux à 1, si le compensateur
est absolument continu,
[Mi ] = Ni .
C. Huber
Partie III
5 MARTINGALE ET COMPENSATEUR ASSOCIÉS À UN PROCESSUS
PONCTUEL DE COMPTAGE
Survie 28
Définition d’une sous-martingale
Un processus Z est une sous-martingale si
1. E(dZ(t)|Ft− )) ≥ 0,
2. E(Z(t)|Fs− ) ≥ Z(s).
[M ] est une sous-martingale qui a < M > pour compensateur. [M ] est l’information
observée tandis que < M > en est la moyenne. On peut vérifier, en utilisant l’inégalité
de Jensen, que le carré de la martingale Mi2 , est aussi une sous-martingale. Tout comme
un processus ponctuel, une sous-martingale peut être décomposée, de manière unique
en la somme d’un compensateur et d’une martingale (théorème de Doob). Quelques
résultats:
1. var(Mi (t)) = E(< Mi > (t) = E(Λi (t),
2. cov(Mi (t), Mi (s)) = var(M (t ∧ s)),
Il y a deux façons importantes d’obtenir des martingales
1. Soient n martingales par rapport à une même filtration Ft , t > 0). Alors M (t) =
i Mi (t) est une martingale par rapport à la même filtration. Ses processus de
variation prévisible < M > et optionnel [M ] sont respectivement
t
(a) < M >= i j 0 d < Mi , Mj > (s)
t
(b) [M ] = i j 0 d[Mi , Mj ](s)
où
< Mi , Mj >= lim
cov[{Mi (tk+1 − Mi (tk )}, {Mj (tk+1 ) − Mj (tk )}]
2. Si M une martingale de moyenne nulle et K(t) un processus prévisible assez
régulier (une condition suffisante est qu’il soit borné), alors le processus
t
K(s)dM (s)
Z(t) =
0
est aussi une martingale de moyenne nulle. En effet, K étant prévisible, il est
Ft− ) mesurable et donc
E{dZ(t)|Ft− )} = E{K(t)dM (t)|Ft− )
= K(t)E{dM (t)|Ft− )}
= K(t) ∗ 0
= 0
C. Huber
Partie III
1 RISQUE INSTANTANÉ CONSTANT
Survie 29
Partie IV
Modèles paramétriques.
Un modèle paramétrique peut être formulé en précisant la forme de l’une ou l’autre des
cinq fonctions équivalentes qui définissent la loi de la durée:λ, H, S, F ou f . Souvent,
cependant, on privilégie le taux d’incidence, ou risque instantané λ.
Quand on analyse des durées de survie, les cinq formes les plus usuelles de risque
instantané sont les suivantes:
• constant,
• monotone (croissant ou décroissant),
• en forme de ∩,
• et en forme de ∪.
La dernière, qu’on appelle aussi la courbe en forme de baignoire, comporte trois périodes
distinctes:
• d’abord, la période de mortalité infantile (ou des ”pannes de jeunesse” dans le
domaine industriel, ”burn in” en anglais),
• ensuite une période de risque instantané relativement bas,
• enfin la période de vieillissement durant laquelle le risque instantané s’accroı̂t.
Commençons par
1
Risque instantané constant
L’unique distribution continue qui admette un risque instantané constant est l’exponentielle.
1.1
La loi exponentielle E(λ)
S(t|λ)
= e−λt ,
t≥0
f (t|λ)
= λe−λt
t ≥ 0;
h(t|λ)
= λ
tp
= − ln(1 − p)/λ;
E(T )
= 1/λ,
Var(T ) = (1/λ)2 .
C. Huber
Partie IV
(λ > 0),
0 < p < 1;
2 RISQUE INSTANTANÉ MONOTONE
Survie 30
Le risque instantané, ou risque instantané est égal au paramètre λ (voir la figure 1.1).
2.5
2
1.5
1
0.5
0
1
2
3
4
5
t
Figure 1.1
2
Risque instantané monotone
Il y a beaucoup de distributions de durées de vie dont le taux est monotone.
2.1
Lois de Weibull W (α, λ)
Ce sont des lois qui généralisent la loi exponentielle (obtenue dans le cas particulier où
le paramètre α est égal à 1), et pour lesquelles le risque instantané est une puissance
du temps.
S(t|α, λ)
= exp {−(λt)α }
(λ, α > 0); t ≥ 0;
h(t|α, λ)
= α(λ)α tα−1 ;
f (t|α, λ)
= (αλ)α tα−1 exp {−(λt)α } ;
tp
=
1
λ
E(T |α, λ)
=
1
Γ(1
λ
(− ln(1 − p))1/α ;
0 < p < 1;
+ 1/α),
Var(T |α, λ) = ( λ1 )2 (Γ(1 + 2/α) − Γ2 (1 + 1/α)) .
Lorsque α = 1, on retrouve la loi exponentielle W (1, λ) = E(λ).
Si 0 < α < 1 (Figure 1.2), le risque instantané est décroissant de ∞ à 0.
C. Huber
Partie IV
2 RISQUE INSTANTANÉ MONOTONE
Survie 31
12
10
8
6
4
2
0
0.2
0.4
0.6
0.8
1
0.8
1
t
Figure 1.2
14
12
10
8
6
4
2
0
0.2
0.4
0.6
t
Figure 1.3
Si α > 1 le risque instantané est croissant de 0 à ∞ (Figure 1.3).
Exercice: Montrer que, si E suit une loi exponentielle de paramètre 1, alors la variable
aléatoire
1
log(X) = a0 + σ log(E) = − log(λ) + log(E)
α
suit une loi de Weibull de paramètres
α = σ1
λ = e−a0
Remarque à propos de Splus: en Splus le paramètre de forme (shape) est alpha et le
paramètre d’échelle (scale) est 1/λ.
C. Huber
Partie IV
2 RISQUE INSTANTANÉ MONOTONE
2.2
Survie 32
Lois Gamma G(θ, ν)
f (t|θ, ν)
= θν Γ(ν)tν−1 e−θt
F (t|θ, ν)
=
1
Γ(ν)
h(t|θ, ν)
=
f (t,θ,ν)
;
1−F (t,θ,ν)
E(T |θ, ν) =
θt
0
t ≥ 0;
(θ, ν > 0);
uν−1 e−u du;
Var(T |θ, ν) =
ν
,
θ
ν
.
θ2
Notons que G(θ, 1) = E(θ).
Si ν > 1 le risque instantané est croissant de 0 à θ (Figure 1.4).
1
0.8
0.6
0.4
0.2
0
20
40
60
80
t
Figure 1.4
Si 0 < ν < 1 le risque instantané est décroissant de ∞ à
C. Huber
Partie IV
1
θ
(Figure 1.5).
2 RISQUE INSTANTANÉ MONOTONE
Survie 33
1.35
1.3
1.25
1.2
1.15
1.1
1.05
1
0
20
40
60
80
100
t
Figure 1.5
Les tests d’adéquation ne permettent de distinguer Weilbull de gamma que lorsque la
taille d’échantillon est très grande.
2.3
Lois de Gompertz-Makeham GM (γ0 , γ1 , γ2 )
S(t|θ)
= exp{−γ0 t −
γ1 −γ2 t
(e
2
− 1)},
f (t|θ, ν) = (γ0 + γ1 e−γ2 t ) exp{−γ0 t −
h(t|θ)
(γ0 , γ1 > 0, γ2 ∈ R);
γ1 −γ2 t
(e
2
= γ0 + γ1 e−γ2 t .
Notons que GM (γ0 , γ1 , 0) = E(γ0 + γ1 ).
3.5
3
2.5
2
1.5
1
0.5
0
2
4
6
t
Figure 1.6
C. Huber
Partie IV
8
10
− 1)};
2 RISQUE INSTANTANÉ MONOTONE
Survie 34
Lorsque γ2 > 0 le risque instantané est décroissant de γ0 + γ1 à γ0 (Figure 1.6).
Si γ2 < 0 le risque instantané est croissant de γ0 + γ1 à ∞ (Figure 1.7).
22
20
18
16
14
12
10
8
6
4
0
0.5
1
1.5
2
t
Figure 1.7
2.4
Mélange de deux distributions exponentielles M E(θ1 , θ2 , p1 )
S(t|θ1 , θ2 , p1 ) = p1 exp{− θt1 } + p2 exp{− θt2 }
f (t|θ1 , θ2 , p1 ) =
p1
θ1
exp{− θt1 } +
p2
θ2
(0 < p1 < 1,
p2 = 1 − p1 , θ2 > θ1 > 0);
exp{− θt2 };
h(t, θ1 , θ2 , p1 ) = f (t, θ1 , θ2 , p1 )/S(t, θ1 , θ2 , p1 );
E(T )
= p 1 θ1 + p 2 θ2 .
Le risque instantané est décroissant de c2 =
C. Huber
p1
θ1
+
Partie IV
p2
θ2
à c1 =
1
θ2
(Figure 1.8).
2 RISQUE INSTANTANÉ MONOTONE
Survie 35
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
2
4
6
8
10
t
Figure 1.8
2.5
Weibull généralisée GW (θ, ν, γ)
t
S(t|θ, ν, γ) = exp 1 − 1 + ( )ν
θ
1/γ ,
(θ, ν, γ > 0);
t ≥ 0;
(33)
ν ν−1
t ν 1/γ−1
) )
t
{1
+
(
;
γθν
θ
h(t|θ, ν, γ) =
tp = θ{(1 − ln(1 − p))γ − 1}1/ν ;
0 < p < 1.
Notons que GW (θ, ν, 1) = W (θ, ν), GW (θ, 1, 1) = E(θ).
La Weibull généralisée a été suggérée par les modèles accélérés. Cette famille de
lois est intéressante car elle comporte les cinq types de risque instantané répertoriés
ci-dessus. De plus, tous ses moments existent.
Pour ν > 1, ν > γ le risque instantané est croissant de 0 à ∞ (Figure 1.9).
3.5
3
2.5
2
1.5
1
0.5
0
0.2
0.4
0.6
t
C. Huber
Partie IV
0.8
1
2 RISQUE INSTANTANÉ MONOTONE
Survie 36
Figure 1.9
Pour ν = 1, γ < 1 le risque instantané est croissant de (γθ)−1 à ∞ (Figure 1.10).
2.6
2.4
2.2
2
1.8
1.6
1.4
0
0.2
0.4
0.6
0.8
1
t
Figure 1.10
Pour 0 < ν < 1, ν < γ le risque instantané est décroissant de ∞ à 0 (Figure 1.11).
20
18
16
14
12
10
8
6
4
2
0
0.2
0.4
0.6
0.8
1
t
Figure 1.11
Pour 0 < ν < 1, ν = γ le risque instantané est décroissant de ∞ à θ−1 (Figure 1.12).
C. Huber
Partie IV
2 RISQUE INSTANTANÉ MONOTONE
Survie 37
100
80
60
40
20
0
0.2
0.4
0.6
0.8
1
t
Figure 1.12
2.6
Weibull exponentiée EW (θ, ν, γ).
1/γ
t ν
S(t|θ, ν, γ) = 1 − 1 − exp[−( ) ]
θ
h(t|θ, ν, γ) =
(θ, ν, γ > 0);
t ≥ 0;
(34)
ν{1 − exp[−( θt )ν ]}(1−γ)/γ exp[−( θt )ν ]( θt )ν−1
γθ{1 − (1 − exp[−( θt )ν ])}1/γ
tp = θ[− ln(1 − pγ )]1/ν ;
0 < p < 1.
Notons que EW (θ, ν, 1) = W (θ, ν), EW (θ, 1, 1) = E(θ).
Cette distribution a été introduite par Efron (1988). Ses propriétés ont été étudiées
par Mudholkar et Srivastava (1995). Tous les moments de cette distribution sont finis.
Pour ν > 1, ν ≥ γ le risque instantané est décroissant de 0 à ∞.
Pour ν = 1, γ ≤ 1 le risque instantané est croissant de (γθ)−1 à ∞.
Pour 0 < ν < 1, ν < γ le risque instantané est décroissant de ∞ à 0.
Pour 0 < ν < 1, ν = γ le risque instantané est décroissant de θ−1 à 0.
En résumé. Pour les valeurs des paramètres pour lesquelles le risque instantané est
croissant on a différentes familles de distributions:
W (θ, ν): h(t) croı̂t de 0 à ∞;
G(θ, ν): h(t) croı̂t de 0 à c > 0;
GM (γ0 , γ1 , γ2 ): h(t) croı̂t de c > 0 à ∞;
GW (θ, ν, γ): h(t) icroı̂t de c ≥ 0 à ∞;
EW (θ, ν, γ): h(t) croı̂t de c ≥ 0 à ∞.
Pour les valeurs des paramètres pour lesquelles le risque instantané est décroissant:
C. Huber
Partie IV
3 RISQUE INSTANTANÉ EN ∩
Survie 38
W (θ, ν): h(t) décroı̂t de ∞ à 0;
G(θ, ν): h(t) décroı̂t de ∞ à c > 0;
M E(θ1 , θ2 , p1 ):h(t) décroı̂t de c2 à c1 , c2 > c1 .
GM (γ0 , γ1 , γ2 ): h(t) décroı̂t de c1 > 0 to c2 : 0 < c2 < c1 ;
GW (θ, ν, γ): h(t) décroı̂t de ∞ à c ≥ 0;
EW (θ, ν, γ): h(t) décroı̂t de 0 < c ≤ ∞ à 0.
3
3.1
Risque instantané en ∩
Lois Lognormales LN (µ, σ)
S(t|µ, σ) = 1 − Φ
ln t − µ
σ
1
f (t|µ, σ) = ϕ
σt
h(t|µ, σ) =
tp = eσΦ
µ+σ 2 /2
E(T ) = e
(µ ∈ R, σ > 0);
,
ln t − µ
σ
(35)
;
f (t, µ, σ)
;
S(t, µ, σ)
−1 (p)+µ
;
Var(T ) = e2µ+σ
,
t ≥ 0;
2 /2
2
(eσ − 1).
Ici Φ est la fonction de répartition de la loi normale standard,
1
2
ϕ(t) = √ e−t /2 = Φ (x).
2π
Le risque instantané croı̂t de 0 à sa valeur maximum puis décroı̂t vers 0, i.e., il est en
forme de ∩ (Figure 1.13).
0.5
0.4
0.3
0.2
0
20
40
60
t
C. Huber
Partie IV
80
100
3 RISQUE INSTANTANÉ EN ∩
Survie 39
Figure 1.13
Si σ est grand, alors le maximum est atteint tôt dans la vie. Par suite, la loi
lognormale est aussi utilisée pour modéliser les situations où le risque de mort est
décroissant.
3.2
Lois Log-logistiques LL(θ, ν)
1
(θ, ν > 0);
1 + ( θt )ν
−1
ν ν−1
t ν
h(t|θ, ν) = ν t
1+( )
;
θ
θ
−2
ν ν−1
t ν
f (t, θ, ν) = ν t
1+( )
;
θ
θ
p 1/ν
tp = θ(
) ; 0 < p < 1.
1−p
S(t|θ, ν) =
(36)
Pour 0 < ν ≤ 1 la moyenne n’existe pas. Pour ν > 1
E(T ) = θ Γ(1 + 1/ν) Γ(1 − 1/ν).
La variance existe pour ν > 2:
Var(T ) = θ2 {Γ(1 + 2/ν) Γ(1 − 2/ν) − Γ2 (1 + 1/ν) Γ2 (1 − 1/ν)}.
Pour ν > 1 le risque instantané croı̂t de 0 à sa valeur maximum puis décroı̂t vers
0, c’est à dire qu’il est en forme de ∩ (Figure 1.14).
0
infinity
t
C. Huber
Partie IV
3 RISQUE INSTANTANÉ EN ∩
Survie 40
Figure 1.14
3.3
Loi gaussienne inverse IG(ν, θ)
√
t
θ
t
θ
−
+ e2ν Φ − ν
+
;
F (t|θ, ν) = Φ
ν
θ
t
θ
t
√ −3/2
√
t
θ
f (t|θ, ν) = νθt
ϕ
ν
−
, (θ, ν > 0); t ≥ 0;
θ
t
√
h(t|θ, ν) =
E(T ) = θ,
(37)
f (t, θ, ν)
;
1 − F (t, θ, ν)
Var(T ) = θ2 /ν.
Le risque instantané croı̂t de 0 à sa valeur maximum puis décroı̂t vers ν/2θ, i.e. qu’il
est en forme de ∩ (Figure 1.15).
1.4
1.2
1
0.8
0.6
0.4
0.2
0
2
4
6
8
10
t
Figure 1.15
3.4
Loi de Birnbaum et Saunders (1969) BS(ν, θ)
t
θ
1
−
(θ, ν > 0); t ≥ 0;
F (t|θ, ν) = Φ
ν
θ
t
1
1
t
θ
t
θ
f (t|θ, ν) =
+
ϕ
−
;
2νt
θ
t
ν
θ
t
C. Huber
Partie IV
4 ADÉQUATION DES MODÈLES
Survie 41
2
θ −1
−1
2
tp =
; 0 < p < 1;
νΦ (p) + 4 + {νΦ (p)}
4
f (t, θ, ν)
h(t, θ, ν) =
;
1 − F (t, θ, ν)
5 2
θ 2
ν2
, Var(T ) = ( ) 1 + ν .
E(T ) = θ 1 +
2
ν
4
Le risque instantané croı̂t de 0 à sa valeur maximum puis décroı̂t vers 1/2θν 2 , i.e.
qu’il est en forme de ∩.
La famille BS est très similaire à la famille inverse gaussienne IG.
3.5
Weibull généralisée GW (θ, ν, γ)
Pour γ > ν > 1 le risque instantané croı̂t de 0 à da valeur maximum
ν
c=
γθ
γ(ν − 1)
γ−ν
ν−1
ν
ν(γ − 1)
γ−ν
1−γ
γ
(38)
puis décroı̂t vers 0, i.e., il est en forme de ∩ (Figure 1.16).
3
2.5
2
1.5
1
0.5
0
0.5
1
1.5
2
t
Figure 1.16
4
Adéquation des modèles
On peut utiliser pour voir graphiquement si un modèle paramétrique donné est convenable les résidus de Cox et Snell. Ces ”résidus” sont fondés sur la remarque
C. Huber
Partie IV
4 ADÉQUATION DES MODÈLES
Survie 42
suivante: si X ∼ H, ce qui signifie que X suit une loi de taux cumulé H, alors la
variable aléaroire Y = H(X) suit une loi exponentielle de paramètre égal à 1. En effet
P (Y ≥ y) = P (H(X) ≥ y) = P (X ≥ H −1 (y)) = e−H(H
−1 (y))
= e−y
car, si X a H pour taux cumulé, il a pour fonction de survie S(x) = P (X ≥ x) = e−H(x) .
On procède donc de la façon suivante:
1. On estime H grâce au modèle paramétrique, ce qui donne H.
i ).
2. A chaque observation Xi , on fait correspondre Yi = H(X
3. On estime non paramétriquement le taux cumulé des Yi , par exemple par l’estimateur
1 cet estimateur.
de Nelson-Aalen. On appelle H
1 devrait être (approximativement) égal au taux
4. Si le modèle était correct, H
cumulé d’une loi exponentielle de paramètre 1, qui est la première bissectrice des
axes.
1 . Si le modèle est correct, ce graphe
5. On trace la courbe représentative de H
devrait être proche de celui d’une droite.
C. Huber
Partie IV
1 DÉFINITION DU MODÈLE
Survie 43
Partie V
Le modèle semi-paramétrique de Cox
Le modèle de Cox est employé lorsqu’on cherche à évaluer l’effet de certains facteurs,
appelés covariables sur la durée de survie.
1
Définition du modèle
Le cadre est le suivant : Les 2n variables X1 , . . . , Xn et C1 , . . . , Cn que sont les durées de
survie et les durées de censure des n individus considérés sont supposées indépendantes.
On observe la suite des n couples de variables (Ti , Di ): Ti date de l’événement terminal
pour le ième individu (en supposant qu’ils sont tous entrés à l’instant 0) Di indicatrice
de la cause de départ ( Di = 1 si c’est l’événement d’intérêt, 0 sinon) Di = 1{X ≤ C}.
Mais on a aussi observé sur chacun des individus une, ou plusieurs (p), facteurs Zi =
(Zi1 , . . . , Zip ) dont dépend la durée de survie Xi . Il peut s’agir de dosages biologiques,
de conditions environnementales ou de caractéristiques génétiques. Ces variables Z
sont généralement appelées covariables. Le modèle des ”hasards proportionnels”, ou
modèle de Cox suppose que
h(t|Z = Zi ) = h0 (t)eβ Z .
(39)
β = (β1 , . . . , βp ) est le vecteur des coefficients de la régression. Il s’agit d’estimer
ces coefficients pour évaluer l’impact de chacun des facteurs sur la durée étudiée. h0 (t)
est le risque instantané de base. C’est une fonction inconnue, qu’il faut estimer
elle aussi.
Remarque 1:
La famille des lois d’un tel modèle est du type suivant: toutes les fonctions de survie
sont égales à une même fonction S0 élevée à des puissances variées :
S = S0θ .
où
(40)
θ = eβ1 Z1 +...+βp Zp
On dit qu’il s’agit d’une famille d’alternatives de Lehmann.
Remarque 2:
Comme le rapport des risques instantanés de deux sujets i et j qui ont les covariables
fixes Zi et Zj vaut
hi (t)
hj (t)
=
=
C. Huber
h0 (t)eβ
Zi
β
h0 (t)e Zi
eβ Zi
eβ Zj
Partie V
3 VRAISEMBLANCE PARTIELLE DE COX:
Survie 44
Remarque 3:
on appelle aussi ce modèle modèle à hasards proportionnels (PH). Cependant, le
modèle (PH) est en fait plus général que le modèle de Cox car le facteur multiplicatif
n’est pas nécessairement une exponentielle d’une fonction linéaire des covariables:
h(t|Z = z, β) = h0 (t)g(z, β).
(41)
Dans ce modèle, g est une fonction spécifiée de la covariable z et du paramètre β.
2
Un exemple simple:un essai clinique
Prenons le cas le plus simple : une seule covariable (p = 1) prenant seulement les
valeurs 0 ou 1. Il peut s’agir par exemple d’un essai clinique (encore appelé essai
thérapeutique) destiné à comparer l’effet d’un nouveau traitement (Z = 1 pour les
patients traités) à celui du traitement habituel ou d’un placebo (Z = 0), sur la durée
de survie. On a alors deux populations de fonctions de survie respectives S0 et S1 :
Si
Si
Z = 0 , S(t|Z = 0) = S0 (t)
β
Z = 1 , S(t|Z = 1) = S1 (t) = S0 (t)e
Le modèle comporte donc un paramètre qui est une fonction, h0 (t), considéré en
général comme nuisible, et p paramètres réels β1 , · · · , βp qui sont les quantités à estimer,
ou à tester, car elles représentent l’effet sur la durée de survie de chacune des covariables
correspondantes.
3
Vraisemblance partielle de Cox:
Pour éliminer le ”paramètre” nuisible totalement inconnu qu’est la fonction de hasard,
ou risque instantané de base h0 , Cox dans son article initial (JRSS B, 1972), considère
la vraisemblance ”partielle” suivante:
n Yi (t)ri (β, t)
{
}dNi (t)
VCox (β) =
Y
(t)r
(β,
t)
k
k k
i=1 t≥0
(42)
où T(1) < T(2) < · · · < T(n) désigne la suite des instants où a lieu un événement
(mort ou censure), et ri (β, t) = h0 (t)eβ Zi . A l’instant T(i) sont observés:
D(i)
la nature de l’événement,
0 (censure) ou 1 (”mort”).
Z(i) la covariable, de dimension p,
de l’individu qui est ”mort”.
R(i) les individus encore à risque à l’instant T(i)
ainsi que la valeur de leurs covariables:
(k)
Z , k ∈ R(i).
C. Huber
Partie V
4 ESTIMATION
Survie 45
On peut montrer que cette vraisemblance partielle a les mêmes propriétés qu’une
vraisemblance ordinaire. En temps continu, l’hypothèse est faite qu’il n’y a aucun
ex-aequo.
Le raisonnement originel et intuitif de Cox est le suivant (Plusieurs auteurs ont
donné depuis des justifications théoriques : Gill et Andersen (AS 1982), Andersen,
Borgan, Gill, Keiding (1993)): Supposons que h0 soit arbitraire. Aucune information
ne peut être donnée sur β par les intervalles de temps durant lesquels aucune ”mort”
(aucun événement) n’a eu lieu, car on peut concevoir que h0 soit identiquement nulle
dans ces intervalles. On devra alors travailler conditionnellement à l’ensemble des
instants où une mort a lieu. Si le temps est discrétisé, on conditionnera aussi sur le
nombre des morts qui ont lieu à un instant donné, car alors il y a des ex-aequo, mais
pour le moment nous travaillons en temps continu, et il n’y a donc pas d’ex-aequo. A
partir du moment où l’on désire une méthode d’analyse valable pour tout h0 , il paraı̂t
inévitable de considérer cette loi conditionnelle.
La probabilité pour qu’une mort se produise dans un petit intervalle de temps
[T(i) ; T(i) + ∆t] vaut à peu près :
p
(k)
e j=1 βj Zj h0 (T(i) )∆t
k∈R(i)
et la probabilité pour que cette mort soit celle de (i) sachant qu’une mort a eu lieu
vaut :
p
e
j=1
(i)
βj Z j
p
k∈R(i)
e
j=1
(k)
βj Z j
Et on reconnaı̂t chacun des termes du produit qui forme la vraisemblance partielle de
Cox VCox .
4
Estimation
On peut montrer que cette vraisemblance partielle a les mêmes propriétés qu’une
vraisemblance exacte. L’estimateur de Cox s’obtient en maximisant Vc . Notant Lc
le logarithme de Vc , on obtient:
Lc (β) =
n i=1
0
∞
[Yi (t)Zi (t)β − log(
Yj (t)rj (β, t))]dNi (t).
(43)
j
Le vecteur des dérivées partielles de Lc par rapport aux composantes de β, ou
vecteur des scores, noté U ≡ DL(β) vaut
U (β) =
n i=1
C. Huber
0
∞
[Zi (s) − Z(β, s)]dNi (s).
Partie V
(44)
4 ESTIMATION
Survie 46
où Z(β, s) est la moyenne pondérée des covariables Z sur les observations encore à
risque à l’instant s:
Yi (s)ri (β, s)Zi (s)
.
(45)
Z(β, s) = Yi (s)ri (β, s)
La matrice d’information est égale à l’espérance de moins la matice des dérivées secondes:
I(β) =
n i=1
0
∞
V (β, s)dNi (s).
(46)
où V est la variance (matrice de variance-covariance dans le cas où p est supérieur à
1) pondérée des covariables Z à l’instant s:
n
i (s) − Z(β, s)][Zi (s) − Z(β, s)]
i=1 Yi (s)ri (β, s)[Z
V (β, s) =
.
(47)
i Yi (s)ri (β, s)
L’estimateur du maximum de vraisemblance partielle est obtenu en résolvant le
système d’équations:
= 0.
U (β)
(48)
Il y a en tout p équations, une pour chacune des p variables : j = 1, 2, . . . , p. En
général, les solutions ne peuvent être obtenues que par itération.
La solution β est consistante et asymptotiquement normale avec pour moyenne β et
pour matrice de variance-covariance [E(I(β)]−1 , l’inverse de l’espérance de la matrice
d’information, notée I. C’est la matrice carrée, p × p , qui a pour termes les dérivées
secondes du logarithme de la vraisemblance. Pour calculer cette espérance il faudrait
avoir la loi de la censure. Or, on ne la connaı̂t pas en général. Aussi la remplace-t-on
de terme général
par I(β)
(k)
(k)
( {k∈R(i)} Zj rk (β))(
{k∈R(i)} Zj rk (β))
.
−
Ijj =
{k∈R(i)}
{k∈R(i)} rk (β)
{i:Di =1}
(49)
Maintenant que l’on dispose de l’estimateur de β de β, on peut estimer le risque cumulé
de base H0 par l’estimateur de Breslow:
t dNi (s)
H
.
(50)
0 (t) =
Yj (s)eβ Zj (s)
0
C. Huber
{k∈R(i)}
(k) (k)
Zj Zj rk (β)
Partie V
5 EXAMEN DES RÉSIDUS
5
Survie 47
Examen des résidus
5.1
Résidus de martingale
Une fois qu’on a estimé les paramètres β et la fonction de base H0 , on peut se demander
si le modèle est adéquat. Pour cela, on considère des résidus, et en particulier les résidus
de martingales. Ces résidus peuvent être utilisés pour évaluer:
1. La forme fonctionnelle de l’influence d’une covariable, dans un modèle qui tient
déjà compte des autres covariables.
2. L’adéquation du modèle en ce qui concerne l’hypothèse de hasards proportionnels.
3. L’efficacité du modèle pour prédire ce qui attend un nouveau sujet.
4. L’influence de chacun des sujets de l’étude sur l’estimation des paramètres.
On prend comme base des résidus la différence entre le processus ponctuel et son
compensateur:
t
Mi (t) = Ni (t) −
Yi (s)eβ Zi (s) dH0 (s) (i = 1, · · · , n)
(51)
0
Mi (t) est la martingale résiduelle associée au sujet i. On en a une estimation en y
remplaçant β et H0 par leurs estimateurs:
t
0 (s) (i = 1, · · · , n)
Mi (t) = Ni (t) −
Yi (s)eβ Zi (s) dH
(52)
0
i . Le résidu peut être interprété comme, à chaque instant
i (∞) simplement M
Notons M
t, la différence sur [0t] entre le nombre d’événements et son espérance conditionnelle,
ou comme ”l’excès de mort”. Les résidus ont quelque unes des propriétés des résidus
du modèle linéaire:
Mi (t) = 0∀t.
1.
i , M
j ) = 0, asymptotiquement.
i ) = cov(M
2. E(M
Pour un modèle de Cox sans covariable dépendant du temps, Ti représentant la durée
d’observation du sujet i et Di le statut final, ce résidu se réduit à la forme simple:
i = Di − H
0 (Ti )eβ Zi .
M
On peut remarquer qu’un résidu de martingale évolue entre −∞ et 1.
C. Huber
Partie V
(53)
5 EXAMEN DES RÉSIDUS
5.2
Survie 48
Résidus des scores
Les scores de la vraisemblance partielle sont le gradient du logarithme de la vraisemblance partielle:
n ∞
c)
[ ∂log(V
]
=
{Zij (s) − Z j (b, s)}dNi (s)
β=b
i=1
∂βj
n 0∞
i (s)
= i=1 0 {Zij (s) − Z j (b, s)}dM
≡
Lij (b, ∞)
où
Z j (b, s) ≡
Yi (s)ri (b, s)Zij (s)
Yi (s)ri (b, s)
(54)
est la moyenne pondérée des covariables des sujets à risque à l’instant s. L’égalité cii ) s’obtient en remplaçant H
0 par l’estimateur de
dessus (remplacement de dNi par dM
.) comme le processus des scores et
Breslow (4) pris au point b. On définit alors Lij (β,
∞) comme le résidu des scores du sujet i et de la jème covariable. Par définition
Lij (β,
la somme de résidus des scores est égale à 0. Les résidus des scores ne sont qu’un
de β,
exemple de la classe des transformés des résidus de martingales.
5.3
Résidus de la déviance
L’un des défauts des résidus de martingale est leur asymétrie (skewness en anglais).
En effet, la valeur maximale d’un tel résidu est 1, alors que sa valeur minimale est
−∞. Le résidu d’un sujet est positif lorsque le sujet expérimente l’événement avant
que son taux de hasard cumulé n’atteigne la valeur 1, sinon il est négatif. On peut
donc effectuer une transformation qui donne une forme plus standard à la loi de ces
résidus. La déviance est définie comme
Dev = 2{log(Vraisemblance du modèle sature) − log(Vc (β))}
(55)
où un modèle dit saturé est un modèle pour lequel β est complètement libre, c’est à
dire que chaque sujet peut avoir son propre β. Il peut aussi y avoir des paramètres
nuisibles qui sont maintenus constants pour l’un et l’autre modèle. Par exemple, dans
le modèle linéaire, le paramètre nuisible est la variance σ 2 . Dans notre modèle, ce sera
le hasard de base cumulé H0 . Le résidu de la déviance du sujet i, noté di , est défini
comme la racine carrée du ième terme de la somme qui définit Dev, précédée du signe
i :
de M
i )[−2{M
i + Di log Di − M
i )1/2
di = sgn(M
(56)
La fonction logarithme augmente les résidus compris entre 0 et 1, tandis que la racine
carrée contracte les valeurs négatives.
C. Huber
Partie V
7 FRAGILITÉ
5.4
Survie 49
résidus de Cox et Snell
Ce sont les ”résidus” qui consistent à
1. calculer, pour chaque observation Xi , Yi = H
i (Xi ),
2. calculer l’estimateur de Nelson-Aalen du taux cumulé des Yi ,
3. comparer la courbe de ce taux cumulé au taux cumulé d’une exponentielle de
paramètre 1, première bissectrice des axes.
6
Modèle de Cox stratifié
Par exemple, au lieu de supposer que l’effet du sexe sur la survie est constant dans
le temps et multiplicatif sur le risque comme dans un modèle de Cox où la covariable
sexe, notée ξ, et égale à 0 pour un homme, et 1 pour une femme introduit un facteur
ebξ dans le risque instantané:
h(t|Ξ = ξ, Z = z) = h0 (t)ebξ+β z
on peut faire l’hypothèse que c’est le risque de base qui est différent chez les hommes
et chez les femmes. On dit alors qu’on a un modèle de Cox stratifié: à chacun des
deux sexes correspond une strate différente. Cependant, on continue de supposer que
les covariables Z agissent de la même manière sur les deux risques instantanés, qui,
eux sont différents:
h(t|ξ = 0, Z = z) = h0 (t)eβ z
h(t|ξ = 1, Z = z) = h1 (t)eβ z
Les deux fonctions h0 et h1 ainsi que le paramètre p-dimensionnel β sont supposés
inconnus dans ce modèle. On utilise aussi la vraisemblance partielle pour estimer les
paramètres de ce modèle.
7
Généralisation: les modèles de fragilité
Les modèles de fragilité sont une généralisation du modèle de Cox. prenons par exemple
un modèle de régression exponentiel:
h(t|Z) = h0 e<β,Z>
où < β, Z > signifie β1 Z1 + β2 Z2 + · · · + βp Zp , et h0 est une constante. On a alors, pour
chaque valeur de Z un risque instantané ”constant”, mais différent. Dans le modèle de
Cox, h0 n’est plus supposé constant mais dépendant du temps: h0 = h0 (t). Alors, si
C. Huber
Partie V
7 FRAGILITÉ
Survie 50
on calcule la fonction de survie, elle vaut:
S(t|Z = z) =
=
=
=
t
e− 0 h(x|z)dx
<β,z> t h (x)dx
0 0
e−e
<β,z>
H0 (t)
e−e
βZ>
(S0 (t))e
Quelle est la raison pour laquelle nous devons généraliser ces modèles ? Les modèles
et méthodes standards supposent que la population est homogène. Or dans cetaines
situations, cette hypothèse n’est pas réalste. Les gens sont différents. Par exemple,
ils peuvent avoir une prédisposition génétique à certaines maladies. On peut essayer
de modéliser cette hétérogénéité en l’introduisant dans le modèle. Aussi introduisons
nous dans le modèle une nouvelle covariable, non observée, Z0 :
h(t|Z, Z0 ) = h0 (t)eβ0 Z0 e<β,Z>
On note
η = e β0 Z 0
où η est une variable aléatoire réelle positive de fonction de répartition Fη (η) appelée
la fragilité, ou ”frailty” en anglais. La fonction de survie s’écrit donc:
t
<β,Z>
S(t|Z, η) = e− 0 h0 (s)ηe
<β,Z> H (t)
0
= e−ηe
Comme η n’est pas observée, la survie doit être moyennée sur η:
∞
<β,Z> H (t)
0
e−ηe
dFη (η).
S(t|Z) =
0
Exemple:
<β,Z>H0 (t)
, où le risque de base est exponentiel, de
Soit un modèle de Cox S(t|Z) = e−e
−e<β,Z>h0 t
telle sorte qu’en fait S(t|Z) = e
. Le choix le plus habituel pour la loi Fη de
la fragilité est la loi gamma de densité:
f (a, b) =
1
a−1 − xb
e .
x
ba Γ(a)
Alors on a:
E(η)
= ab
V ar(η) = ab2
On suppose en général que la moyenne de η est égale à 1 et on prend alors comme
unique paramètre de la loi sa variance, notée c ce qui donne:
E(η)
= ab
= 1
= c
V ar(η) = ab2
η
∼ g(1/c, c)
C. Huber
Partie V
7 FRAGILITÉ
Survie 51
Le paramètre c, qui caractérise la variabilité de la fragilité peut être supposé connu ou
inconnu. Regardons ce que devient la fonction de survie dans ce cas:
∞ <β,Z>H0 (t)
f (η)dη
S(t|Z) = 0 eηe
∞ ηe<β,Z>H0 (t) η 1
η 1/c−1 e−η/c dη
= 0 e
c1/c Γ(1/c)
∞ 1/c−1 −(1/c+e<β,Z> H0 (t))η
1
= c1/c Γ(1/c)
η
e
dη
0
=
(1/c+e<β,Z> H0 (t))−1
1
Γ(1/c) (1/c+e
<β,Z> H (t))1/c−1
c1/c Γ(1/c)
0
(1/c+e<β,Z>H0 (t) )−1/c
c1/c
(1 + ce<β,Z> H0 (t))−1/c
− 1c log(1+ce<β,Z> H0 (t))
=
=
= e
<β,Z> H (t)))1/c
0
= e−(log(1+ce
<β,Z>
)H0 (t))
= e−G(e
On voit donc par ce calcul qu’un modèle de fragilité gamma généralise le modèle de
Cox de la manière suivante: Pour la fragilité gamma, on a le modèle:
<β,Z> H (t))
0
S(t|Z) = e−G(e
avec
G(u) = log((1 + cu)1/c )
alors que pour le modèle de Cox, la fonction G est simplement l’identité: G(u) = u.
On pourra remarquer qu’on obtient la fonction G en prenant moins le logarithme de
la transformée de Laplace de la loi de la variable η de fragilité.
C. Huber
Partie V
1 LE PROBLÈME
Survie 52
Partie VI
Comparaison de deux échantillons.
1
Le problème
Soient deux échantillons A et B de tailles respectives nA et nB de somme n. Les
observations sont de la forme
(Ti , δi , Gi )i=1,2,...,n
où, pour l’individu i, Ti est la durée observée, δi est l’indicateur de mort, qui vaut 1 s’il
y a mort et 0 sinon, et Gi l’indicateur de groupe qui vaut 0 dans A et 1 dans B. Pour
simplifier l’écriture des expressions précédentes dans ce cas, les notations adoptées sont
généralement les suivantes :
RA,i =
1{Tj ≥Ti } , le nombre d’individus à risque de A en Ti ,
j∈A
RB,i =
1{Tj ≥Ti } , le nombre d’individus à risque de B en Ti ,
j∈B
Ri = RA,i + RB,i
=
1{Tj ≥Ti } , le nombre total d’individus à risque en Ti ,
j≤n
Vn désigne la vraisemblance de Cox de l’échantillon, Ln son logarithme, DLn le
vecteur des scores, dérivées premières par rapport au paramètre β, et D2 Ln la matrice
des dérivées secondes de Ln par rapport à β.
Le modèle est le suivant :
hB (t) = hA (t)eθψ(t)
et les hypothèses à tester :
H0 : θ = 0 (hA = hB )
H1 : θ = 0 (ψ ∈ Ψ)).
Sous l’hypothèse nulle, il n’y a aucune différence entre les deux groupes, alors que sous
l’alternative, il y a une différence caractérisée par la famille de fonctions Ψ.
Par exemple
1. Si Ψ est dans l’ensemble des fonctions constantes, l’hypothèse est celle des risques
proportionnels,
C. Huber
Partie VI
2 TESTS FONDÉS SUR LES SCORES
Survie 53
2. Si Ψ est dans l’ensemble des fonctions positives croissantes, et θ positif, B est
pire que A et la situation s’aggrave au cours du temps.
3. Si Ψ est dans l’ensemble des fonctions négatives décroissantes, et θ positif B est
meilleur que A et le gain est de plus en plus grand. Par rapport à la situation
précédente, on a simplement une interversion de A et B.
4. Si Ψ est dans l’ensemble des fonctions croissantes traversant 0, et θ positif, B est
d’abord meilleur puis pire que A.
5. Si Ψ est dans l’ensemble des fonctions croissantes puis décroissantes, et θ positif,
tout dépend des traversées de 0.
Pour tester ces deux hypothèses, nous allons considérer deux classes de tests dont on
montrera qu’elles n’en font qu’une en réalité : les tests fondés sur les scores et les tests
de la classe K. Ce sont tous des tests du log-rank pondérés.
2
Tests fondés sur les scores
La vraisemblance Vn s’écrit avec les notations précédentes :
Vn =
n i=1
hB (Ti )Gi hA (Ti )1−Gi
RB,i hB (Ti )Gi + RA,i hA (Ti )1−Gi
δi
.
Le logarithme de la vraisemblance Ln vaut :
Ln =
n
i=1
hB (Ti ) δi Gi log
δi log(RB,i eθψ(Ti ) + RA,i )
−
hA (Ti ) i=1
n
où le premier logarithme est égal à θψ.
Les scores valent donc :
n
RB,i eθψ(Ti )
DLn (θ) =
δi ψ(Ti ) Gi −
RB,i eθψ(Ti ) + RA,i
i=1
n
RB,i
DLn (0) =
.
δi ψ(Ti ) Gi −
R
+
R
B,i
A,i
i=1
,
On reconnaı̂t ce que l’on appelle les tests du log-rank pondérés, les poids wi étant
ici égaux aux Di ψ(T i). Ces poids peuvent être
déterministes :
wi = 1 donne le test du log-rank
C. Huber
Partie VI
4 TESTS DE LA CLASSE K
Survie 54
aléatoires, et ne dépendant alors que de Ft− :
wi = R(T i)
wi =
wi =
R(T i)
A (t− )S
B (t− )R(t)
S
RA (t)RB (t)
qui correspond au test de Gehan
(Wilcoxon s’il n’y a pas de censure),
intermédiaire entre log-rank et Gehan,
qui est le test d’Efron,
où SA (t− ) est l’estimateur de Kaplan-Meier de la fonction de survie dans A en t− .
3
Utilisation des processus ponctuels
Tous les tests précédents
n
wi G i −
i=1
RB,i
RB,i + RA,i
sont de la forme générale
∞
K(t){
0
dNB (t) dNA (t)
−
}
RB (t)
RA (t)
où K est prévisible. En effet, notons wi = w(Ti ),
RB,i
RB,i
RB,i
=
−
wi G i −
w(Ti ) 1 −
w(Ti )
RB,i + RA,i
RB,i + RA,i
RB,i + RA,i
i:δi =1
i:δi =1,i∈B
i:δi =1,i∈A
∞
RA (t)RB (t) dNB (t) dNA (t)
=
w(t)
−
.
R(t)
RB (t)
RA (t)
0
On prend alors pour K la fonction
K(t) = w(t)
4
RA (t)RB (t)
.
R(t)
Tests de la classe K
Par définition, ce sont des tests fondés sur une statistique de la forme
t
dNB dNA
K{
−
}
W (t) =
RB
RA
0
où K(u) ne dépend que de ce qui s’est passé jusqu’à l’instant u− , donc c’est un processus prévisible.
Les hypothèses qui suivent assurent la normalité asymptotique de la statistique W ,
sous l’hypothèse nulle et sous une alternative contigüe où les fonctions de survie SAn
C. Huber
Partie VI
5 PROPRIÉTÉS DES TESTS DE LA CLASSE K
Survie 55
dans A et SBn dans B convergent vers la fonction de survie S0 de l’hypothèse nulle :
Hypothèses :
(A1 ) Quand n tend vers l’infini, nA et nB tendent vers l’infini de telle sorte que
nA
→ qA ,
n
nB
→ qB .
n
(A2 ) SAn (t) → S0 (t) uniformément sur [0, ∞[ quand n → ∞
SBn (t) → S0 (t) uniformément sur [0, ∞[ quand n → ∞ de telle sorte que
1
1
hnA (t) = h0 (t)[1 + γA (t) √
+ o( √ )],
nqA qB
n
1
1
+ o( √ )];
hnB (t) = h0 (t)[1 + γB (t) √
nqA qB
n
notons γ = γB − γA .
(A3 )
RA (t)
nA
RB (t)
nB
→ rA (t) en probabilité, uniformément sur [0, ∞[ quand n → ∞,
→ rB (t) en probabilité, uniformément sur [0, ∞[ quand n → ∞,
où les fonctions rA et rB sont les queues des durées T observées dans A et B,
rA = STA et rA = STB , elles font par conséquent intervenir la censure, qui n’est
pas forcément supposée de même loi dans A et B.
(A4 )
→ k(t), fonction déterministe, en probabilité quand n → ∞, uniformément
sur les intervalles fermés de I = t : inf{rA (t), rB (t)} > 0.
5
Propriétés des tests de la classe K
√
K(t)
nqA qB
Théorème 3 : (Normalité asymptotique de W ).
Sous les hypothèses (A1, . . . , A4), quand n tend vers l’infini, la loi de W (t) tend
vers la loi normale N (mt , σt2 ) où
t
µt =
k(u)γ(u) h0 (u) du,
0
σt2
C. Huber
=
0
t
qA rA (u) + qB rB (u) 2
k (u) h0 (u) du.
rA (u)rB (u)
Partie VI
5 PROPRIÉTÉS DES TESTS DE LA CLASSE K
Survie 56
Démonstration :
Remarquons que RA (t)/nA est la proportion de ceux qui restent à risque à l’instant
t dans A, c’est à dire aussi l’empirique de la probabilité PA (C ≥ u, X ≥ u) = STA (u),
queue de la distribution de la durée observée dans A.
Remarquons aussi que dNA (t)/RA (t) est l’empirique du taux de mort dans A, c’est
à dire hA (t)dt, et que E[dNA (t)/RA (t)|Ft− ] = hA (t)dt. Autrement dit, c’en est un
estimateur sans biais.
Décomposons W en la somme de trois termes
W =U +V +R
où
dNA (u)
√
k (u) nqA qB
− hA (u) du ,
U (t) =
RA (u)
0
t
dNB (u)
√
k (u) nqA qB
V (t) = −
− hB (u) du ,
RB (u)
0
t
√
R(t) =
k (u) nqA qB {hA (u) − hB (u)} du,
t
0
√
où k = k + o( n), et où RA hA compense dNA et RB hB compense dNB .
Etudions séparément chacun des trois termes en remarquant que c’est R qui constitue la partie principale, il s’écrit en effet
t
γ(u)
√
k(u) nqA qB √
h0 (u) du + o(1) = µt + o(1).
R(t) =
nqA qB
0
Pour U (et V ), nous utilisons l’approximation
dNA (t) − RA (t)hA (t)
dMA (t)
≈
,
RA (t)
nA rA (t)
alors
U (t) ≈
0
t
dMA (u)
√
k(u) nqA qB
=
nA rA (u)
0
t
√
k(u) nA dMA (u)
√ √
n nB rA (u)
U est donc une martingale comme intégrale d’un processus prévisible par rapport à la
martingale MA . Elle est de moyenne nulle et de processus de variation
t 2
k (u) nA RA (u)
hA (u) du.
< U > (t) =
2
n n B rA
(u)
0
Comme RA (u)hA (u) du = d < MA > (u) et E(RA ) = nA rA , le processus de variation de U , < U > converge :
C. Huber
Partie VI
6 EXEMPLE:
Survie 57
< U > (t) →
t
k 2 (u)
0
qB
h0 (u) du.
rA (u)
Comme le comportement de U est tout à fait analogue à celui de V , on a, pour
U +V :
t
qB
qA
k 2 (u)(
+
)h0 (u) du.
< U + V > (t) →
rA (u) rB (u)
0
6
Exemple:
Prenons comme alternative
√
SB = (SA )exp{β/
n}
qui correspond à un changement d’échelle pour la loi de Weibull, et en particulier
pour l’exponentielle. Alors
hB − hA √
nqA qB
hA
√
√
HB = − log SB = eβ/ n (− log SA ) = eβ/ n HA
√
β
β
hB = hA + hA { √ + (eβ/ n − 1 − √ )}
n
n
√
γn → γ = β q A q B .
γn = γ B − γA =
Pour chaque choix de K, on aura un test d’efficacité e(k, t) = (mt /st )2 valant :
t
{ 0 k(u)γ(u) h0 (u) du}2
µt
= ( )2 .
e(k, t) = t q r (u)+q r (u)
A A
B B
σt
k 2 (u) h0 (u) du
rA (u)rB (u)
0
Le problème qui se pose est donc de choisir le test optimal dans cette classe, c’est
à dire la fonction k, et la fonction aléatoire K qui convergera vers k, lorsqu’on connaı̂t
γ et le taux de base h0 . Il faut donc maximiser e(k, t) ci-dessus.
Supposons que k soit de la forme
k=a
γ
+v
ϕ
où a est une constante,
ϕ=
C. Huber
q A rA + q B rB
rA rB
Partie VI
6 EXEMPLE:
Survie 58
et v est orthogonal à γ pour H0 : vγ dH0 = 0. Alors, l’efficacité s’écrit :
t 2
t
+ v)γ dH0 }2
{ 0 aγϕ dH0 }2
{ 0 ( aγ
ϕ
= t a2 γ 2
e(k, t) = t aγ
2 ϕ dH
(
+
v)
( ϕ + v 2 ) dH0
0
0 ϕ
0
qui est maximum pour v = 0. La meilleure fonction k est donc proportionnelle (a
pouvant être quelconque) à
k(t) =
γ(t)
rA (t)rB (t)
= γ(t)
.
ϕ(t)
qA rA (t) + qB rB (t)
Exemple
On doit choisir Kn (t) prévisible tel que Kn (t) → k(t) avec
√
k(t) = β qA qB
C. Huber
rA (t)rB (t)
.
qA rA (t) + qB rB (t)
Partie VI
Survie 59
Partie VII
Exercices.
1. Prouver que la loi gamma de densité:
f (t|α, λ) =
λα α−1 −λt
t e , α > 0, λ > 0
Γ(α)
a un risque instantané croissant pour α > 1 et décroissant pour α < 1. Tracer
ces densités pour diverses valeurs des paramètres λ et α en utilisant le logiciel
Splus.
2. Calculer l’information de Fisher d’une observation d’une loi exponentielle avec
censure droite de type 1.
3. Tracer les fonctions de survie de la loi de Weibull
S(t|α, λ) = e−(λt)
α
pour diverses valeurs des paramètres α et λ en utilisant le logiciel Splus.
4. Calculer la matrice d’information d’un échantillon de n durées de survie suivant
la loi de Weibull de fonction de survie
S(t|α, λ) = e−(λt)
α
souffrant d’une censure droite aléatoire.
5. De février 1998 à février 2001, 29 patients atteints d’une grave hépatite virale ont
été admis dans un essai thérapeutique de 16 semaines sur l’effet d’une thérapie à
base de stérodes. Ils ont été randomisés entre deux groupes, dont l’un recevait le
traitement et l’autre le placebo. Les durées de survie, en semaines, des 14 patients
du groupe traité ont été: 1, 1, 1, 1+ , 4+ , 5, 7, 8, 10, 10+ , 12+ , 16+ , 16+ , 16+ .
(a) On ne fait aucune hypothèse sur la loi de la durée de survie sous le traitement. Estimer la fonction de survie S de la durée de survie sous le traitement
en utilisant:
• Estimer le taux cumulé Λ grâce à l’estimateur de nelson-Aalen,
• Estimer la fonction de survie S de la durée de survie sous le traitement
en utilisant
• L’estimateur de Harrington et Fleming,
• L’estimateur de Kaplan-Meier.
• Tracer ces deux estimateurs sur un même graphe grâce à Slus.
C. Huber
Partie VII
Survie 60
(b) On suppose que la loi de la survie obéit à un modèle exponentiel de paramètre
λ, c’est à dire de risque instantané égal à λ.
• Estimer λ par la méthode du maximum de vraisemblance et construire
un intervalle de confiance de coefficient de confiance 95%.
• Estimer la probabilité de survivre plus de 16 semaines et construire un
intervalle de confiance de confiance 95%.
• Estimer la médiane du temps de survie et construire un intervalle de
confiance de confiance 95%.
(c) Tracer sur un même graphe les trois estimateurs ainsi obtenus pour la fonction de survie. Qu’en pensez vous ?
6. Pour les données de Embury et al sur la durée de rémission de la leucémie aigue,
calculer un estimateur de l’écart type de l’estimateur de Kaplan-Meier de la
fonction de survie.
C. Huber
Partie VII
TABLE DES MATIÈRES
Survie 61
Partie VIII
Quelques références
En Français:
1. ”Analyse Statistique des Données de Survie”, C.Hill, C. Com-Nougué, A. Kramar, T. Moreau, J. O’Quigley, R. Senoussi,Cl. Chastang, Flammarion Sciences,
1996, 3ème édition, 2000.
2. ”Analyse Statistique des Durées de Vie”, C. Carbon, C. Huber, J.P. Lecoutre,
Chr. Gouriéroux,ed. Droesbeke, Fichet, Tassi, Economica, 1989.
En Anglais:
1. ”Accelerated Life Models; Modeling and Statistical Analysis”, V. Bagdonovicius
and Nikulin, 2002, Kluwer Ac. Publ.
2. ”Censored data analysis”, D. Cox,
3. ”Counting Processes and Survival Analysis”, T.R. Fleming and D.P. Harrington,
Wiley series in Probability and Mathematical Statistics, 1991.
4. ”Analysis of Survival Data”. D.R. Cox and D. Oakes, Chapman et Hall, 1984.
Table des matières
I
Introduction
1
1 Quelques exemples
1
2 Cinq fonctions équivalentes
3
3 Les trois types de censure
5
4 le processus ponctuel N (t)
7
II
Sans Modèle: Approche Non Paramétrique.
C. Huber
Partie VIII
11
TABLE DES MATIÈRES
Survie 62
1 Estimateur de Nelson-Aalen
1.1 Définition . . . . . . . . . . . .
1.2 Exemple de Nelson-Aalen . . .
1.3 Interprétation de Nelson-Aalen
1.4 Variance de Nelson-AAlen . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
11
11
12
12
13
2 Estimation de S
2.1 Estimateur de Harrington et Fleming de S:SHF .
2.2 Kaplan-Meier . . . . . . . . . . . . . . . . . . . .
2.3 Traitement des ex-aequo . . . . . . . . . . . . . .
Br .
2.4 Estimateur de Breslow du risque cumulé H:H
2.5 Estimateur de Greenwood de la variance de S
KM :
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
14
15
15
16
18
18
III
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Processus Ponctuels.
20
1 Modélisation du processus ponctuel: l’histoire ou filtration Ft
20
2 Définition d’une martingale
2.1 Sommes de variables aléatoires indépendantes: . . . . . . . . . . . . . .
2.2 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
20
21
3 Propriétés d’une martingale
3.1 Le compensateur ou processus de variation prévisible < M > (t) d’une
martingale M . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Le processus de variation quadratique ou de variation optionnelle [M ]
d’une martingale M . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
4 Convergence vers la loi normale:
26
22
22
22
5 Martingale et compensateur associés à un processus ponctuel de comptage
27
IV
Modèles paramétriques.
29
1 Risque instantané constant
1.1 La loi exponentielle E(λ) . . . . . . . . . . . . . . . . . . . . . . . . . .
29
29
2 Risque instantané monotone
2.1 Lois de Weibull W (α, λ) . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Lois Gamma G(θ, ν) . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3 Lois de Gompertz-Makeham GM (γ0 , γ1 , γ2 ) . . . . . . . . . . . . . . . .
30
30
32
33
C. Huber
Partie VIII
TABLE DES MATIÈRES
2.4
2.5
2.6
Survie 63
Mélange d’exponentielles . . . . . . . . . . . . . . . . . . . . . . . . . .
Weibull généralisée . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Weibull exponentiée . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3 Risque instantané en ∩
3.1 Lois log-normales . . .
3.2 Log-logistiques . . . .
3.3 Gaussienne inverse . .
3.4 Birnbaum et Saunders
3.5 Weibull généralisée . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4 Adéquation des modèles
V
34
35
37
38
38
39
40
40
41
41
Le modèle semi-paramétrique de Cox
43
1 Définition du modèle
43
2 Un exemple simple:un essai clinique
44
3 Vraisemblance partielle de Cox:
44
4 Estimation
45
5 Examen des résidus
5.1 Résidus de martingale
5.2 Résidus des scores . . .
5.3 Résidus de la déviance
5.4 résidus de Cox et Snell
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
47
47
48
48
49
6 Modèle de Cox stratifié
49
7 Fragilité
49
VI
Comparaison de deux échantillons.
52
1 Le problème
52
2 Tests fondés sur les scores
53
3 Utilisation des processus ponctuels
54
4 Tests de la classe K
54
C. Huber
Partie VIII
TABLE DES MATIÈRES
Survie 64
5 Propriétés des tests de la classe K
55
6 Exemple:
57
VII
VIII
Exercices.
59
Quelques références
C. Huber
Partie VIII
61