Analyse des durées de survie
Transcription
Analyse des durées de survie
Survie 1 Modèles pour des durées de survie. Catherine Huber Partie I Introduction 1 Quelques exemples Le terme de durée de survie est employé de manière générale pour désigner le temps qui s’écoule jusqu’à la survenue d’un événement particulier qui n’est pas forcément la mort : il peut s’agir par exemple d’une rechute et la durée de survie est, dans ce cas, un délai de rémission, ou de la guérison, et la durée de survie représente alors le délai qui sépare le diagnostic de la guérison. Dans le domaine biomédical, les deux objectifs principaux de l’analyse des durées de survie sont les suivants: 1. Lors d’un essai thérapeutique, il s’agit de tester l’efficacité d’un nouveau traitement en comparant les durées de survie qu’il permet d’obtenir à celles que donne le traitement habituel (ou un placebo). 2. Lors d’une étude épidémiologique, il s’agit d’évaluer la valeur pronostique d’un ou plusieurs facteurs, soit sur la durée de survie, soit sur le délai de survenue d’une maladie. Dans un cas comme dans l’autre, les modèles employés et les méthodes correspondantes sont essentiellement les mêmes. Exemple 1 (Données de Freireich) : Freireich, en 1963, a fait un essai thérapeutique ayant pour but de comparer les durées de rémission, en semaines, de sujets atteints de leucémie selon qu’ils ont reçu ou non du 6 M-P (le groupe témoin a reçu un placebo et l’essai a été fait en double C. Huber Partie I 1 QUELQUES EXEMPLES Survie 2 aveugle). Durée de rémission, en semaines, selon le traitement: 6 M-P 9+ , 10, 10+ , 11+ , 13, 16, 17+ , 6, 6, 6, 6+ , 7, 19+ , 20+ , 22, 23, 25+ , 32+ , 32+ , 34+ , 35+ . Placebo 1, 8, 1, 11, 2, 2, 3, 11, 12, 12, 4, 15, 4, 17, 5, 22, 5, 23. 8, 8, 8, Les nombres suivis du signe + correspondent à des patients qui ont été perdus de vue à la date considérée. Ils sont donc exclus ”vivants” de l’étude et on sait donc seulement d’eux que leur ”durée de survie” est supérieure à celle indiquée. Par exemple, le quatrième patient traité, par 6 M-P a eu une durée de rémission supérieure à 6 semaines, alors que les trois premiers ont eu une durée de rémission égale à 6 semaines. On dit que les perdus de vue ont été censurés, et ce problème de la censure demande un traitement particulier. En effet si l’on se contentait d’éliminer les observations incomplètes c’est-à-dire les 12 patients censurés du groupe traité par le 6 M-P on perdrait beaucoup d’information car on ne tiendrait pas compte des patients qui ont justement les durées de rémission les plus longues. Par exemple un test de Wilcoxon appliqué aux 9 patients restants dans le groupe 6 M-P et aux 21 patients du groupe Placebo sous-évaluerait l’effet du traitement très visiblement. Exemple 2 (Données de Embury et al: leucémie) : Il s’agit d’un essai thérapeutique destiné à vérifier l’efficacité d’un traitement chimiothérapique d’entretien pour des patients atteints de leucémie aiguë de la moelle épinière (AML pour Acute Myelogenous Leukemia), conduit à Stanford par Embury et al. Après avoir atteint un stade de rémission grâce à un traitement chimiothérapique, les patients ont été randomisés en deux groupes: l’un reçoit un traitement chimiothérapiqe d’entretien, l’autre un placebo. Les durées de rémission complète, en semaines, sont les suivantes: Groupe traité: Groupe non traité: 9, 13, 13+ , 18, 23, 28+ , 31, 34, 45+ , 48, 161+ 5, 5, 8, 8, 12, 16+ , 23, 27, 30, 33, 43, 45. Exemple 3 (Données de Brown: cancer) : Il s’agit de la comparaison de deux traitements contre un cancer: un essai thérapeutique a été mené chez des patients atteints de cancer, assignés aléatoirement à deux groupes, l’un traité par A, l’autre traité par B: Groupe A : Groupe B : 3 5 7 9 18 + 12 33 19 20 20+ On remarque que, dans cet exemple il n’y a pas d’ex-aequo. En principe, le temps étant continu, il ne devrait jamais y avoir d’ex-aequo. Cependant, comme la précision avec C. Huber Partie I 2 CINQ FONCTIONS ÉQUIVALENTES Survie 3 laquelle les durées sont données est limitée, l’unité de mesure étant le jour, la semaine ou le mois, ou même parfois l’année, en pratique, on a souvent des ex-aequo. Comme la théorie mathématique (convergence et normalité asymptotique des estimateurs et des tests), est faite pour le temps continu, il importe de savoir comment traiter ces ex-aequo. Nous verrons qu’il y a plusieurs façons de le faire. Deux exemples tests (pour faire les calculs directement) : La présentation des deux jeux de données suivants est différente. C’est celle qui permet un traitement mathématique et informatique des données en introduisant une variable qui est l’indicateur de censure: quand la variable de censure vaut 0, c’est qu’il y a un ”+”, et quand elle vaut 1 c’est qu’il n’y en a pas. • Exemple test 1: Dans le premier cas, on a les durées, de traitement. temps censure traitement les indicateurs de censure et les indicateurs 1 1 6 6 8 9 1 0 1 1 0 1 1 1 1 0 0 0 • Exemple test 2: Dans le deuxième cas, on a comme première variable les dates de début et de fin. temps (1, 2] (2, 3] (5, 6] (2, 7] (1, 8] (7, 9] (3, 9] (4, 9] (8, 14] (8, 17] censure 1 1 1 1 1 1 1 0 0 0 traitement 1 0 0 1 0 1 1 1 0 0 2 Cinq fonctions équivalentes Cinq fonctions équivalentes définissent la loi de la durée: Supposons que la durée de survie X soit une variable positive ou nulle, et absolument continue. Alors sa loi de probabilité peut être définie par l’une des fonctions suivantes: 1. La fonction de survie S Par définition S(t) = P{X ≥ t}, t ≥ 0; (1) Pour t fixé c’est la probabilité de survivre jusqu’à l’instant t. 2. La fonction de répartition F La fonction de répartition (f.r. ou c.d.f en anglais pour ”cumulative distribution function) est F (t) = P{X < t} = 1 − S(t) (2) Pour t fixé, c’est la probabilité de mourir avant l’instant t. C. Huber Partie I 2 CINQ FONCTIONS ÉQUIVALENTES Survie 4 Remarque Il est arbitraire de décider que S(t) = P (X ≥ t) ou S(t) = P (X > t) entraı̂nant du même coup que F (t) = 1 − S(t) vaut F (t) = P (X < t) ou F (t) = P (X ≤ t). Lorsque la loi qui régit X est continue, cela n’a aucune importance car ces deux quantités sont égales: P (X > t) = P (X ≥ t) et P (X < t) = P (X ≤ t). Cependant, dans les cas où S et donc F ont des sauts, ce qui arrive lorsque le temps est discret, compté en mois ou en semaines par exemple, on a quelquefois avantage à adopter la notation suivante qui évite toute ambiguı̈té: S − (t) = P (X ≥ t) F − (t) = P (X < t) S + (t) = P (X > t) F + (t) = P (X ≤ t) les limites à gauche (S − et F − ) et à droite (S + et F + ) de ces fonctions. On remarque que S− ≥ S+ F− ≤ F+ 3. La densité de probabilité f C’est une fonction f (t) ≥ 0 telle que pour tout t ≥ 0 t F (t) = f (s)ds. (3) 0 Si la fonction de répartition a une dérivée au point t alors P(t ≤ X < t + dt) = F (t) = −S (t). dt→0 dt f (t) = lim (4) Pour t fixé, la densité de probabilité caractérise la probabilité de mourir dans un petit intervalle de temps après l’instant t. 4. Le taux d’incidence ou risque instantané ) h Le risque instantané est aussi très souvent appelé ”le taux de hasard” (c’est un anglicisme) est défini comme h(t) = lim dt→0 P(t ≤ X < t + dt|X ≥ t) f (t) = , dt S(t) (5) pour t fixé, caractérise la probabilité de mourir dans un petit intervalle de temps après l’instant t, conditionnellement au fait d’avoir survécu jusqu’à l’instant t. Aussi cela signifie-t-il le risque de mort instantané pour ceux qui ont survécu. 5. Le taux de hasard cumulé H C’est l’intégrale du taux de hasard h: t H(t) = h(u)du = −ln{S(t)}. 0 C. Huber Partie I (6) 3 LES TROIS TYPES DE CENSURE Survie 5 On peut déduire la fonction de survie du taux de hasard cumulé grâce à la relation: t S(t) = exp{−H(t)} = exp{− h(u)du}. (7) 0 N’importe laquelle des fonctions ci-dessus peut être obtenue à partir de l’une quelconque des autres. Quelques quantités associées à la loi de la survie: 1. Les quantiles de la durée de survie Pour 0 < p < 1, on définit le quantile tp et la fonction q(p) p ∈ (0, 1) comme tp ≡ q(p) = inf {t : F (t) ≥ p}. (8) Quand F (t) est strictement croissante et continue alors tp = q(p) = F −1 (p), 0 < p < 1. (9) Pour p fixé, le quantile tp est le temps auquel une proportion p de la population a disparu. 2. Moyenne et variance de la durée de survie Le temps moyen de survie E(X) ainsi que sa variance Var(X) sont des quantités importantes: ∞ ∞ S(t)dt, Var(X) = 2 tS(t)dt − {E(X)}2 . E(X) = 0 0 La moyenne et la variance peuvent être déduites de n’importe laquelle des cinq fonctions ci-dessus (F, S, f, h, H), mais pas vice versa. 3 Les trois types de censure 1. Censure de type I : fixée Au lieu d’observer les variables X1 , . . . , Xn qui nous intéressent, on n’observe Xi que lorsque Xi est inférieur ou égal à une durée fixée C, Xi ≤ C, sinon on sait seulement que Xi est supérieur à C. On note aussi Ti = Xi ∧ C. (le signe ∧ signifie : a ∧ b = min(a, b), la plus petite des deux valeurs a et b). 2. Censure de type II : attente On décide d’observer les durées de survie des n patients jusqu’à ce que r d’entre eux soient décédés et d’arrêter l’étude à ce moment là. Si l’on ordonne les durées de survie X1 , . . . , Xn , soit X(1) la plus petite, X(i) la ième etc... : X(1) ≤ X(2) ≤ · · · ≤ X(n) C. Huber Partie I 3 LES TROIS TYPES DE CENSURE Survie 6 On dit que les X(i) sont les statistiques d’ordre des Xi . La date de censure est alors X(r) et on observe: = X(1) T(1) T(2) = X(2) T(r) = X(r) T(r+1) = X(r) ................ = X(r) T(n) 3. Censure de type III : aléatoire A chaque patient i, associons non seulement son temps de survie Xi mais aussi son temps de censure Ci . On n’observera évidemment que le plus petit des deux, c’est-à-dire Ti = Xi ∧ Ci Mais on peut supposer que, tout comme les Xi, les Ci sont indépendantes et équidistribuées (iid) de fonction de répartition G. On fait l’hypothèse que : Ci et Xi sont indépendantes. Alors pour le ième patient, l’information dont on dispose peut être résumée par: - la durée réellement observée Ti - un indicateur Di du fait qu’à l’issue de cette durée d’observation le patient est : - mort : Di = 1 - censuré : Di = 0. La censure aléatoire, lors d’un essai thérapeutique peut avoir plusieurs causes: (a) Perte de vue : le patient peut décider d’aller se faire soigner ailleurs et on ne le revoit plus. (b) Arrêt du traitement : le traitement peut avoir des effets secondaires si désastreux que l’on est obligé d’arrêter le traitement. 4 patients 6 (c) Fin de l’étude : l’étude se termine alors que certains des patients sont toujours vivants. A1 B1 B2 2 A2 B3 0 A3 0 2 4 6 8 Temps C. Huber Partie I 10 12 14 4 LE PROCESSUS PONCTUEL N (T ) Survie 7 Figure 1: Exemple: 3 patients. La figure 1 représente le suivi de trois patients. Le premier est entré au début de l’étude et il est mort à la date X1 = 6. Le deuxième était toujours vivant à la fin de l’étude, qui a eu lieu au temps 10. Il est donc censuré en t = 10. Et le troisième patient a été perdu de vue avant la fin de l’étude. Il a donc été censuré au temps t = 7. Remarque : L’hypothèse d’indépendance de Xi et de Ci est utile mathématiquement. Il est important de voir si elle se justifie. Dans les cas où la censure est due à un arrêt du traitement, elle n’est pas vérifiée. Notation : Par abus de notation, lorsqu’on ordonne les durées de survie (Ti , Di ) selon les valeurs croissantes des T soit : T(1) ≤ T(2) ≤ · · · ≤ T(n) On notera D(i) l’indicateur de censure associé à T(i) . 4 le processus ponctuel N (t) L’étude des durées de survie peut être abordée d’une autre façon: Au lieu de considérer X, la durée étudiée, qui est une variable aléatoire réelle positive, généralement continue, de densité f , fonction de répartition F et fonction de survie S = 1 − F , on représente l’expérience par le processus ponctuel associé N (t), qui vaut 0 tant que l’événement n’a pas eu lieu et 1 après, c’est à dire N (t) = 1{X ≤ t} , t ≥ 0. (10) La considération de ce processus fait intervenir naturellement les deux fonctions h et H que nous avons introduites en plus de F , S et f , qui sont respectivement le taux d’incidence instantané ou ”fonction de risque”, h, et la fonction de risque cumulée H t f (t) h(u)du. (11) H(t) = h(t) = S(t) 0 Bien que chacune de ces cinq fonctions (F, S, f, h, H) caractérise à elle seule la loi de N , la plus intéressante est h car elle est une description probabiliste du futur immédiat du sujet ”encore vivant” et reflète des différences entre les modèles souvent moins lisibles sur les fonctions de survie, ou fonctions de répartition. Remarquons que ce taux instantané de mort est déterministe, le taux cumulé H est lui aussi déterministe. C. Huber Partie I 4 LE PROCESSUS PONCTUEL N (T ) Survie 8 Figure 2: Les deux représentations de la durée de survie x. Considérons maintenant la durée de vie sous l’aspect d’un processus ponctuel, N (t) qui saute d’une unité au temps t = x lorsque la variable aléatoire X vaut x. P (dN (t) = 1|N (t− ) = 0) = h(t)dt P (dN (t) = 1|N (t− ) = 1) = 0 que l’on peut aussi écrire : P (dN (t) = 1|N (t− )) = h(t)dt avec probabilité S(t) = 0 avec probabilité 1 − S(t). L’intensité λ(t) du processus à l’instant t est aléatoire: λ(t) = Y (t)h(t) où Y (t) = 1{t ≤ T } est l’indicateur de présence du sujet juste avant l’instant t. L’intensité cumulée du processus ponctuel N est elle aussi une quantité aléatoire qui vaut, en adoptant la notation usuelle min(t, X) = t ∧ X : t t λ(u)du = Y (u)h(u)du = H(t ∧ X). (12) Λ(t) = 0 0 A chaque instant t et conditionnellement à l’ensemble Ft− des événements du passé immédiat, c’est à dire ayant eu lieu jusque juste avant t, l’accroissement du processus N sur un intervalle de temps infinitésimal ]t, t + dt] est une variable de Bernoulli qui vaut 1 avec la probabilité f (t) = h(t) dt et 0 avec la probabilité q(t) = 1 − h(t) dt : dN (t) = 1 = 0 C. Huber avec probabilité f (t) = λ(t) dt = Y (t)h(t) dt avec probabilité q(t) = 1 − λ(t) dt = 1 − Y (t)h(t) dt . Partie I 4 LE PROCESSUS PONCTUEL N (T ) Survie 9 Conditionnellement à Ft− , l’espérance de dN (t) est donc λ(t) dt et sa variance est aussi λ(t) dt car pq = λ(t) dt(1 − λ(t) dt) est équivalent à λ(t) dt. Exemple. Considérons l’exemple le plus simple qui est celui d’une durée exponentielle de paramètre θ, c’est à dire dont le taux instantané est constant et vaut θ . Alors, pour tout t ≥ 0 f (t) = θe−θt S(t) = e−θt h(t) = θ H(t) = θt. L’intensité cumulée (aléatoire) vaut: Λ(t) = θ(t ∧ X) et la différence entre le processus ponctuel N et l’intensité cumulée Λ est une martingale M : N (t) − Λ(t) = M (t) On appelle Λ le compensateur prévisible” de N car il est déterminé par Ft− alors que M (t) est un processus qui, conditionnellement à Ft− , est d’accroissement nul en moyenne : c’est une martingale, 3 3 2 2 1 4 E[dM (t)|Ft− ] = E[dN (t) − h(t)dt|Ft− ] = 0. 1 N(t) 0 processus H(t) theta t 1 2 3 M(t) -1 -2 -1 0 0 1 2 3 temps Figure 3: Les trois processus N , M et H dans le cas simple exponentiel. Exemple. Si à l’exemple précédent on ajoute une censure droite C, c’est à dire que l’on observe, au lieu de X, la durée T = min(X, C) , notée X ∧ C, ainsi que l’indicatrice de C. Huber Partie I 4 LE PROCESSUS PONCTUEL N (T ) Survie 10 ”mort” D = 1{X ≤ C} , qui est nulle si c’est la censure au lieu de la variable d’intérêt qui est observée, alors ”l’indicatrice de présence à risque” du sujet est : Y (t) = 1{ t ≤ X ∧ C}. Si de plus on a une troncature gauche U , c’est à dire que X n’est observée que si X excède U , sinon le sujet n’est même pas répertorié, alors l’indicatrice de présence à risque devient : Y (t) = 1{U ≤t≤X∧C} . Notations Supposons que l’on ait n patients, indexés par i = 1, · · · , n. A chaque patient correspond un indicateur Yi (t) de présence à risque à l’instant t Yi (t) = 1{Ti ≥ t} (13) et un processus ponctuel d’ ”événement” Ni (t), Ni (t) = 1{Ti ≤ t, Di = 1} (14) Si le taux instantané de mort hi (t) du sujet i est le même pour tout i, soit hi (t) = h(t) ∀t, (15) on a un n-échantillon. On note Y la somme des processus Yi (t) de présence à risque, et N la somme des processus Ni (t) d’événement: Y (t) = n Yi (t). (16) Ni (t). (17) i=1 N (t) = n i=1 C. Huber Partie I 1 ESTIMATEUR DE NELSON-AALEN Survie 11 Partie II Sans Modèle: Approche Non Paramétrique. Si l’on ne fait aucun modèle, les deux estimateurs les plus importants sont: • l’estimateur de Nelson-Aalen, H N A du taux de hasard cumulé, • l’estimateur de Kaplan-Meier S KM de la fonction de survie. 1 1.1 Estimateur de Nelson-Aalen du taux cumulé: Définition Cet estimateur de H est fondé sur la remarque suivante: H(s + ds) − H(s) ≈ h(s)ds = P (événement dans (s, s + ds)| à risque en s) Il est naturel d’estimer cette quantité par [N (s + ds) − N (s)]/Y (s). En sommant ces quantités sur les intervalles de (0, t] et en faisant tendre ces intervalles vers 0, de telle sorte que chacun ne contienne qu’un seul événement, on obtient l’estimateur de Nelson-Aalen: t dN (s) H(t) = (18) 0 Y (s) qui peut aussi s’écrire, puisqu’il n’y a que des sauts: H(t) = ∆N (ti ) Y (ti ) {i:t ≤t} (19) i où ∆N (ti ) ≡ m(ti ) est le nombre des décès à l’instant ti et Y (ti ) ≡ r(ti ) le nombre des sujets à risque juste avant cet instant. L’estimateur de Nelson-Aalen est une fonction en escalier qui a un saut de taille m(ti )/r(t− i ) à chaque instant de mort ti . On choisira donc la plus simple des trois écritures: H(t) = m(ti ) . r(ti ) (20) {i:ti ≤t} car les trois équations (18), (19), (20) représentent la même quantité. Les deux premières sont utiles lorsqu’on utilise l’approche des durées de survie par les processus ponctuels. C. Huber Partie II 1 ESTIMATEUR DE NELSON-AALEN 1.2 Survie 12 Exemple 4: les données de Nelson-Aalen Exemple N-A (Données de Nelson et Aalen) : Il s’agit de la durée de vie de ventilateurs, en nombre de milliers d’heure de fonctionnement. La question qui se posait était de savoir si la fonction de risque h était décroissante dans le temps. Les durées sont en milliers d’heures. durées 4.5 20.3 32.0 46.0 63.0 85.0 censure 1 0 0 1 0 0 4.6 20.3 34.5 48.5 64.5 87.5 0 0 1 0 0 0 11.5 20.3 37.5 48.5 64.5 87.5 1 0 0 0 0 1 11.5 20.7 37.5 48.5 67 87.5 1 1 0 0 0 0 15.6 20.7 41.5 48.5 74.5 94.0 0 1 0 0 0 0 16.0 20.8 41.5 50.0 78.0 99.0 1 1 0 0 0 0 16.6 22.0 41.5 50.0 78.0 101.0 0 0 0 0 0 0 18.5 30.0 41.5 50.0 81.0 101.0 0 0 0 0 0 0 18.5 30.0 43.0 61.0 81.0 101.0 0 0 0 0 0 0 18.5 30.0 43.0 61.0 82.0 115.0 0 0 0 1 0 0 18.5 30.0 43.0 61.0 85.0 18.5 31.0 43.0 61.0 85.0 0 0 0 0 0 0 1 0 0 0 Si on appelle t1 le premier instant de ”mort” (ici: panne), t2 le second, etc.., on calcule H(t) , pour t supérieur ou égal à la plus grande valeur observée, qui est de 87 500 heures, comme H(t) = Nombre de pannes en t1 Nombre de ventilateurs à risque en + t1 Nombre de pannes en t2 Nombre de ventilateurs à risque en t2 +etc.... = = 1.3 Nombre de pannes en 4.5 Nombre de ventilateurs à risque en 4.5 +··· + Nombre de pannes en 87.5 Nombre de ventilateurs à risque en 1 70 + ··· + + 2 68 1 8 87.5 = 0.3368. Deux interprétations de l’estimateur de Nelson-Aalen On peut interpréter de deux façons différentes l’estimateur de Nelson-Aalen: C. Huber Partie II 1 ESTIMATEUR DE NELSON-AALEN Survie 13 estime le nombre moyen de pannes pour un élément unique perpétuellement 1. H(t) à risque sur l’intervalle de temps (0t]. Pour l’exemple des ventilateurs, cela signifie le nombre moyen de pannes attendu lorsqu’on fait fonctionner un ventilateur pendant un nombre de milliers d’heures égal à t en le remplaçant chaque fois qu’il tombe en panne par un autre ventilateur qui a le même taux de panne instantané que celui qui a été remplacé, c’est à dire qui a déjà fonctionné exactement le même nombre de milliers d’heures que celui qu’il remplace. (On appelle cela en fiabilité ”le protocole de réparation minimale”). estime le risque instantané h. Le problème posé par l’estimation 2. La pente de H(t) de h est comparable à celui de l’estimation d’une densité: tout comme la fonction de répartition empirique, l’estimateur H(t) de H est une fonction en escalier. Il faut donc la lisser pour estimer h, qui est la pente de cette fonction. L’objectif initial de l’étude était de se demander si le risque instantané décroı̂t au cours du temps. Exercice 1 On fait l’hypothèse que la durée de vie des ventilateurs a un risque instantané constant, égal à θ. 1. Estimer θ. 2. Tracer sur un même graphique • l’estimateur non-paramétrique du risque cumulé des ventilateurs. • l’estimateur du risque cumulé sous l’hypothèse que la durée de vie suit une loi exponentielle. 1.4 Estimation de la variance de l’estimateur de Nelson-Aalen L’accroissement ∆t N (t) = N (t + t ) − N (t), qui est le nombre des événements dans un court intervalle de temps t suit approximativement une loi de Poisson de paramètre h(t)t . Or, pour une variable aléatoire de Poisson, le nombre moyen des événements est le produit du taux par le temps et par le nombre à risque. Conditionnellement au passé, ∆t N (t) est de Poisson de moyenne et de variance toutes les deux égales à t+t Y (s)h(s)ds ≈ Y (t)h(t)t . t Donc Var [ C. Huber ∆t N (t) h(t)t ]≈ Y (t) Y (t) Partie II 2 ESTIMATION DE S qui peut être estimée par Survie 14 ∆t N (s) ∆t N (s) Var = 2 Y (s) Y (s) ce qui donne finalement pour estimateur de la variance de H(t): ∆N (ti ) = Var [H(t]] . 2 i:ti ≤t Y (ti ) (21) qui peut s’écrire aussi, en utilisant la notation simplifiée précédente (m(ti ) et r(ti ) pour les nombres de décès et de sujets à risque à l’instant ti ): m(ti ) = (22) Var [H(t]] 2 (t ) r i i:t ≤t i Exemple des durées de rémission de Freireich pour 6-MP: Rechutes Durées t terme H(t) σ(H(t)) 1-2-3 6 3/21 0.143 2.571 5 7 1/17 0.201 3.512 7 10 1/15 0.268 4.446 10 13 1/12 0.351 5.362 11 16 1/11 0.442 6.271 15 22 1/7 0.585 7.129 16 23 1/6 0.752 7.962 Exercice 2: Calculer l’estimateur de Nelson-Aalen du risque cumulé pour les ventilateurs de NelsonAalen et tracer la courbe correspondante en fonction du temps. Faire de même pour les données d’Embury et celles de Brown. Exercice 3: Démontrer que l’estimateur de Nelson-Aalen du risque cumulé a la propriété suivante: n n H(Ti ) = Ni . i=1 2 i=1 Estimation de la fonction de survie Si l’on ne peut pas supposer a priori que la loi de la durée de survie obéit à un modèle paramétrique, on peut estimer la fonction de survie S grâce à plusieurs méthodes non-paramétriques dont la plus intéressante est celle de Kaplan-Meier. Nous allons cependant donner d’abord l’estimateur de Harrington et Fleming car il se déduit immédiatement de l’estimation du taux cumulé. C. Huber Partie II 2 ESTIMATION DE S 2.1 Survie 15 Estimateur de Harrington et Fleming de S:SHF C’est l’estimateur qui découle de l’estimateur de Nelson-Aalen du risque cumulé H en utilisant la relation S = exp(−H): S HF = exp(−HN A ) (23) Grâce à la delta-méthode,on rappelle que, sous des conditions de régularité de la fonction f , Var (f (Y )) ≈ f 2 (E(Y ))Var (Y )), on peut obtenir un estimateur de la variance de cet estimateur:ici la fonction f est l’exponentielle, de dérivée f = f et donc = S2 Var (H) Var (S) Var SN A (t) = exp(−2 2.2 m(ti ) m(ti ) . ) r(ti ) i r(ti )2 i (24) Estimateur de Kaplan-Meier de S:SKM Cet estimateur est aussi appelé P-L (Produit-Limite) car il s’obtient comme la limite d’un produit. Il est fondé sur la remarque suivante : si t < t, la probabilité de survivre au-delà de l’instant t est égale au produit suivant : S(t+ ) = P (X > t|X > t ).S(t ). Si l’on renouvelle l’opération en choisissant une date t” antérieure à t , on aura de même S(t ) = P (X > t |X > t”)S(t”), et ainsi de suite. Si l’on choisit pour les dates où l’on conditionne celles où il s’est produit un événement, qu’il s’agisse d’une mort ou d’une censure, on aura seulement à estimer des quantités de la forme : P (X > T(i) |X > T(i−1) ) = pi . Or pi est la probabilité de survivre pendant l’intervalle de temps Ii =]T(i−1) Ti ] quand on était vivant au début de cet intervalle. Notant, comme précédemment, Ri le nombre des sujets qui sont vivants (donc ”à risque” de mourir) juste avant l’instant T(i) , ce qui peut aussi s’écrire: • # vivants à l’instant T(i) ou • # sujets de R(T(i) ) en désignant par R(t) l’ensemble des sujets à risque à l’instant t− . et Mi le nombre des morts à l’instant T(i) , qi = 1 − pi est la probabilité de mourir pendant l’intervalle Ii sachant que l’on était vivant au début de cet intervalle. Alors l’estimateur naturel de qi est qi = C. Huber Mi . Ri Partie II 2 ESTIMATION DE S Survie 16 Supposons qu’il n’y ait pas d’ex-aequo. Si D(i) = 1, c’est qu’il y a eu un mort en T(i) et donc Mi = 1. Si D(i) = 0 , c’est qu’il y a eu une censure en T(i) et donc Mi = 0. Par suite pi = 1 − R1i en cas de mort en T(i) = 1 en cas de censure car il est clair que Ri = n − i + 1. L’estimateur de Kaplan-Meier est donc dans ce cas : = S(t) (1 − T(i) ≤t 1 )D(i) . n−i+1 (25) Exemple 5: cancer des bronches Sur 10 patients atteints de cancer des bronches on a observé les durées de survie suivantes, exprimées en mois: 1 3 4+ 5 7+ 8 9 10+ 11 13+ L’estimateur de Kaplan-Meier de la suivante: temps Ri 0 10 1 10 3 9 5 7 8 5 9 4 11 2 fonction de survie S(t) se calcule de la manière mi 0 1 1 1 1 1 1 Survie 1 0.900 0.800 0.686 0.549 0.411 0.206 Intervalle [0 1[ [1 3[ [3 5[ [5 8[ [8 9[ [9 11[ Exercice 4 Comparer cet estimateur de la survie à celui de Fleming et Harrington. Dans cet exemple, il n’y a pas d’ex-aequo. Cependant la plupart du temps il y en a, comme dans le premier exemple qui est celui des données de Freireich. 2.3 Traitement des ex-aequo Il y a plusieurs configurations possibles pour les ex-aequo: 1. Si ces ex-aequo sont des deux sortes, on considère que les observations non censurées ont lieu juste avant les censurées. 2. Si ces ex-aequo sont tous des morts, la seule différence tient à ce que Mi n’est plus égal à 1 mais au nombre des morts et l’estimateur de Kaplan-Meier devient: = S(t) (1 − T(i) ≤t C. Huber Partie II Mi ). Ri (26) 2 ESTIMATION DE S 0.0 0.2 0.4 survie 0.6 0.8 1.0 Survie 17 0 2 4 6 8 10 12 temps Figure 4: Estimateur de Kaplan-Meier de la fonction de survie pour le cancer des bronches C. Huber Partie II 2 ESTIMATION DE S Survie 18 Exercice 5 Calculer l’estimateur de Kaplan-Meier de la survie pour les données de Freireich, séparément pour le groupe traité et pour le placebo. Comparer cet estimateur à celui de Fleming et Harrington. 2.4 Br Estimateur de Breslow du risque cumulé H:H On peut estimer H à partir de l’estimateur de Kaplan-Meier de S en utilisant le fait que H = − log(S): Br = − log(SKM ). (27) H ce qui donne Br = − H log(1 − qi ). (28) i:T(i) ≤t Pour estimer la variance de cette somme, on remarque que la variance de chaque terme vaut en première approximation pi qi ri (1−qi )2 = = mi (ri −mi )ri2 ri3 (ri −mi )2 mi ri (ri −mi ) De plus, si les qi étaient indépendants, la variance de la somme serait égale à la somme des variances. Cela donne pour variance de l’estimateur de Breslow: mi . (29) Var (H(t)) = ri (ri − mi ) i:T ≤t (i) 2.5 Estimateur de Greenwood de la variance de S KM : L’estimateur de Greenwood de la variance de l’estimateur de Kaplan-Meier de la fonction de survie est obtenu à partir de la précédente log(SKM (t)) = log(1 − qi ) i:T(i) ≤t Cela donne, en employant la delta-méthode qui consiste à considérer que si X est approximativement égal à µ + σZ , où Z est centré et réduit et σ petit : Var (f (X)) = Var (f (µ + σZ)) = V ar(f (µ) + σZf (µ)) = σ 2 f (µ)2 , avec f = log: mi Var (log(S(t))) ≈ i:T(i) ≤t ri (ri −mi ) 1 ≈ Var (S(t)) 2 S(t) C. Huber Partie II 2 ESTIMATION DE S Survie 19 ce qui donne finalement pour variance de S(t) 2 Var (S(t)) = S(t) i:T(i) mi . ri (ri − mi ) ≤t (30) Remarque Nous avons donc deux estimateurs du risque cumulé. On peut démontrer qu’ils sont équivalents, et que les estimateurs de leur variance le sont aussi. En fait il existe trois estimateurs de la variance m(t) Variance de Greenwood: r(t)(r(t)−m(t)) m(t) Variance de Tsiatis: 2 r(t) m(t)(r(t)−m(t)) Variance de Klein: r(t)(r(t))3 Nous avons rencontré les deux premiers. Exercice Justifier heuristiquement le troisième estimateur de la variance. C. Huber Partie II 2 DÉFINITION D’UNE MARTINGALE Survie 20 Partie III Processus Ponctuels. 1 Modélisation du processus ponctuel: l’histoire ou filtration Ft Considérons maintenant la durée de vie sous l’aspect d’un processus ponctuel, N (t) qui saute d’une unité au temps t = x lorsque la variable aléatoire X vaut x. Pour faire un modèle statistique, on doit préciser sur quelle information il est fondé. Pour un processus de comptage, cela est fait en spécifiant l’histoire, souvent appelée filtration, et notée {Ft , t ≥ 0}. Un choix naturel pour {Ft , t ≥ 0} est l’histoire de l’expérience depuis le début (le temps 0) jusqu’à l’instant t inclus. Quand on a un néchantillon, il faut cependant remarquer que, en fait, ce n’est pas le temps chronologique qui est utilisé. En effet, chaque patient a un temps 0 qui est celui du début de la durée qui le concerne. On réaligne donc les processus à risque Yi et de comptage Ni sur une origine commune des temps. Jusqu’à présent, nous avons supposé que nous avions un échantillon de patients expérimentant la même loi de durée de survie, donc le même risque cumulé H que nous avons estimé par Nelson-Aalen. Mais il se peut que le risque instantané ne soit pas le même d’un individu à l’autre car il peut dépendre de certaines caractéristiques du sujet; il peut s’agir par exemple de taux biologiques, de traits génétiques ou de conditions environnementales du sujet. On appelle ces caractéristiques des ”covariables”. On modélise alors l’effet de ces différentes covariables sur le risque h. 2 2.1 Définition d’une martingale Sommes de variables aléatoires indépendantes: A l’origine, les martingales ont été inventées pour généraliser les sommes de variables aléatoires indépendantes et centrées. Supposons que nous ayons n une somme de variables aléatoires indépendantes X1 , X2 , ..., Xk , ...,, soit Sn = k=1 Xk . Alors, on a des théorèmes sur la limite de ces sommes, convenablement normées quand n tend vers l’infini : lois des grands nombres (convergence en probabilité ou presque sûre vers un nombre) et théorèmes limites centraux (approximations normales). Sans restriction de la généralité, on peut supposer que ces variables sont centrées: E(Xk ) = 0 pour tout k. Donc on suppose que X1 , X2 , ..., Xk , ..., sont indépendantes et centrées. C. Huber Partie III 2 DÉFINITION D’UNE MARTINGALE Survie 21 Alors on a, pour tout n, les trois propriétés suivantes E(Xn+1 |X1 , X2 , ..., Xn ) = E(Xn+1 ) = 0 E(Xn+1 |S1 , S2 , ..., Sn ) = 0 = E(Sn + Xn+1 |S1 , S2 , ..., Sn ) = Sn . E(Sn+1 |S1 , S2 , ..., Sn ) 2.2 (M) Définition Définition 1 Lorsque une suite S1 , S2 , ..., Sn , · · · de variables aléatoires vérifie la propriété , (M) E(Sn+1 |S1 , S2 , ..., Sn ) = Sn , pour tout n. on dit que la suite S1 , S2 , ..., Sn , · · · est une martingale. Une définition équivalente de la propriété de martingale est la suivante : Définition 2 Un processus (M1 , M2 , ..., Mn , · · · ) est une martingale à temps discret si pour tout n ∈ IN E(|Mn |) < ∞ (M) E[Mn+1 |Fn ] = Mn , où Fn = σ{M1 , M2 , ..., Mn } est la tribu du passé jusqu’à l’instant n, qui croı̂t avec n. Remarque : Si (M) est satisfaite, alors E[Mn |Fk ] = Mk pour tous les entiers k < n car E[Mn |Fk ] = E[E[Mn |Fn−1 ]|Fk ], ce qui donne, de proche en proche, le résultat. Définition 3 : Un processus Mt est une martingale à temps continu si E(|Mt |) < ∞, t ∈ IR et si de plus (M) E[Mt |Fs ] = Ms , pour tous 0 < s < t. (31) Remarques: 1. Une propriété équivalente à (M) est : pour tous 0 < t1 < t2 < . . . < tn+1 , E[Mtn+1 |Mt1 , . . . , Mtn ] = Mtn . 2. La propriété de martingale (M) a pour conséquence que l’espérance de l’accroissement est nulle, ce qui s’écrit : E[Mt − Ms |Fs ] = 0 pour tous 0 < s < t. ou encore dans sa version infinitésimale : (M ) E[dMt |Ft ] = 0. C. Huber Partie III 3 PROPRIÉTÉS D’UNE MARTINGALE 3 3.1 Survie 22 Propriétés d’une martingale Le compensateur ou processus de variation prévisible < M > (t) d’une martingale M La ”somme” < M > des variances conditionnelles d’une martingale centrée M est caractérisée par la définition suivante qui est issue d’un résultat d’existence et d’unicité: Définition 4 : Le processus croissant de variation associé à une martingale M est l’unique processus croissant et prévisible < M > tel que d < M > (t) = E[(dM (t))2 |Ft− ]. 3.2 Le processus de variation quadratique ou de variation optionnelle [M ] d’une martingale M C’est la limite en probabilité de {M (ti+1 ) − M (ti )}2 sur une partition de plus en plus fine de l’intervalle [0t]. Il est souvent noté [M ](t) et appelé pour cela le processus ”à crochets”. Il est continu à droite comme < M > et il a la propriété que M 2 − [M ] est une martingale. Quand M est à trajectoires continues, [M ] =< M > . Quand M n’est pas continue, ce qui est le plus souvent le cas, sauf pour le mouvement Brownien dans ce cours, ∆M (s)2 . (32) [M ](t) = s≤t où ∆M (s) = M (s) − M (s− ). Aussi, [M ] est il égal à la somme des carrés des sauts de la martingale. 3.3 Exemples Exemple : Survie exponentielle de densité f (x) = θe−θx . La variable X est une durée de vie de C. Huber Partie III 3 PROPRIÉTÉS D’UNE MARTINGALE Survie 23 fonction de risque constante θ, N (t) = 1{X ≤ t}, dN (t) = Y (t)θdt + dM (t) = h(t)dt + dM (t), d < M > (t) = E[(dM (t))2 |Ft− ] = E[{dN (t) − 2dN (t)h(t)dt + (h(t)dt)2 }|Ft− ] = h(t)dt − (h(t)dt)2 h(t)dt = Y (t)θdt, t Y (u)θdu = θ(t ∧ X) = H(t) < M > (t) = 0 Autrement dit, le processus de variation de la martingale M = N − H est identique au processus d’intensité cumulée H. Exemples de martingales: 1. Jeu : Un jeu est dit équitable si, à chaque tour n, l’espérance du gain Xn est égale à 0 : E(Xn ) = 0. Mais, en général, la stratégie du joueur dépend de ce qui s’est produit jusque là. Donc, si l’on note Sn la somme des gains au temps n, on a Sn = X1 + X2 + ...Xn−1 + Xn = Sn−1 + Xn où Sn−1 et Xn ne sont pas nécessairement indépendantes. Cependant, le jeu reste équitable si E[Xn |Fn−1 ] = 0. 2. Urne de Polya : On a dans une urne a boules rouges et b boules noires. On tire au hasard une boule dans l’urne et on remet ensuite c + 1 boules de la même couleur que celle qui est sortie. On appelle Mn la proportion des boules noires après n tirages et M0 la proportion initiale des boules noires, an le nombre de boules rouges et bn le nombre de boules noires après n tirages. Alors b , proportion initiale des noires, a+b bn + c bn Mn+1 = , , avec probabilité an + b n + c an + b n bn an bn = = . , avec probabilité 1 − an + b n + c an + b n an + b n On en déduit que bn + c bn an bn + E[Mn+1 |Fn ] = an + b n an + b n + c an + b n + c an + b n bn = = Mn . an + b n M0 = C. Huber Partie III 3 PROPRIÉTÉS D’UNE MARTINGALE Survie 24 3. Mouvement Brownien (martingale normale) : Cet exemple est un exemple fondamental de martingale à temps continu, car c’est justement vers ce type de processus que convergent les martingales associées à beaucoup de processus et en particulier aux processus ponctuels qui nous intéressent. On remarquera que nos martingales, associées aux processus ponctuels, sautent, alors que les trajectoires du mouvement Brownien, ou mouvement Brownien changé de temps, ne sautent pas. E(B(t)) = 0 pour tout t ≥ 0, cov(B(s), B(t)) = s ∧ t pour tous s et t ≥ 0. A l’origine le mouvement Brownien est nul (B(0) = 0) et la loi de n’importe quel k-uple de réels 0 < t1 < t2 < ... < tk est la loi multinormale ainsi définie : L(B(t1 ), B(t2 ), ..., B(tk )) = N (m, Σ) où m est le vecteur de dimension k de composantes nulles et Σ est la matrice de covariance suivante : ⎡ ⎢ ⎢ Σ=⎢ ⎣ t1 t1 t1 t2 .. .. . . t1 t2 ⎤ · · · t1 · · · t2 ⎥ ⎥ . . . .. ⎥ . ⎦ · · · tk Figure 5: Exemple de trajectoire d’un mouvement brownien. C. Huber Partie III 3 PROPRIÉTÉS D’UNE MARTINGALE Survie 25 0 s s En particulier, si s < t, L(B(s), B(t)) = N ; . Si l’on appelle 0 s t X = B(s) et Y = B(t) et σs et σt les écarts-types correspondants, on a : √ σs = √s σt = t cov(s, t) = s ∧ t = s s = , notée ρ, corr(s, t) = √sst t la densité de X est celle d’une loi normale N (0, σs2 ) et les densités jointe et conditionnelles de X et Y sont x2 2ρ xy y 2 1 1 ( − fX,Y (x, y) = exp − + 2) , 2(1 − ρ2 ) σs2 σs σt σt 2π (1 − ρ2 ) σs σt fX,Y (x, y) fX (x) 2 1 x 1 1 2ρ xy y2 = exp (1 − )− ) ( − 2σs2 1 − ρ2 2(1 − ρ2 ) σt2 σs σt 2π(1 − ρ2 ) σt 1 1 σt 2 = exp (y − ρ x ) . 2(1 − ρ2 )σt2 σs 2π(1 − ρ2 ) σt fY |X (y|x) = Donc σt E[B(t)|B(s) = x] = ρ x = σs s x t t =x s Par suite, E(B(t)|B(s)) = B(s) et c’est donc bien une martingale. De plus, V ar[B(t) − B(s)|B(s)] = (1 − ρ2 )σt2 = t − s V ar[dB(t)|B(t)] = dt = d < B > (t). par définition même de < B > , processus de variation associé à B. Remarques 1. Ici, le processus de variation est déterministe : < B > (t) = t pour tout t. Mais généralement il ne l’est pas. Il est déterministe en particulier si le processus est à accroissements indépendants. 2. Que se passe-t-il si l’on fait un changement de temps t = v(u), où v est nulle en 0 et croissante ? Alors, B(v(u)) = Z(u), est une martingale gaussienne, et < Z > (t) = v(t). C. Huber Partie III 4 CONVERGENCE VERS LA LOI NORMALE: 4 Survie 26 Convergence vers la loi normale: Théorème 1 (caractérisation des martingales gaussiennes) Soient r fonctions du temps t, v1 , v2 , . . . , vr croissantes et nulles en 0, fixées. Alors, il existe Z = ( Z1 , Z2 , ..., Zr ) processus gaussiens ayant les propriétés suivantes : (P1) Ils sont: 1. indépendants, 2. à trajectoires continues, 3. à accroissements indépendants, 4. nuls en 0. (P2) E(Zk (t)) = 0 pour tout k ∈ {1, 2, . . . , r} et pour tout t de IR V ar(Zk (t)) = vk (t) pour tout k . Réciproquement : Si Z1 , Z2 , . . . , Zr sont des martingales à trajectoires continues et telles que < Zi, Zj > (t) soit égale à 0 si j est différent de i et sinon à vi (t) pour des vi croissantes à partir de 0, alors les Zi sont des processus gaussiens indépendants à accroissements indépendants. Théorème 2 (TLC) Soit Z = (Z1 , Z2 , ..., Zr ) une martingale gaussienne telle que ci-dessus et M (n) = (n) (n) (M1 , . . . , Mr une suite de martingales telle que : (n) (P1) Les sauts des Mi deviennent de plus en plus petits, c’est à dire que si M est décomposée en la somme suivante M = M + M où le premier terme est une martingale contenant tous les sauts supérieurs à et le second est une martingale dont aucun des sauts ne dépasse , alors −→ (n) > (t) n → ∞ 0 < Mi ∀teti ∈ {1, 2, . . . , r} (n) convergent vers ceux des Zi : (P2) Les processus de covariance des Mi (n) (n) < Mi , Mj (n) (n) < Mi , Mj → >P 0sii = j → >P vi (t)sij = i Alors M (n) tend en loi vers Z quand n tend vers l’infini. C. Huber Partie III 5 MARTINGALE ET COMPENSATEUR ASSOCIÉS À UN PROCESSUS PONCTUEL DE COMPTAGE Survie 27 5 Martingale et compensateur associés à un processus ponctuel de comptage Comme nous l’avons vu au chapitre I, le processus ponctuel Ni (t) a la propriété que E(dNi (t)|Ft− ) = Yi (t)hi (t)dt = λi (t). Par suite, Λi (t) = 0 t Yi (s)hi (s)ds est le compensateur prévisible du processus ponctuel Ni et t Mi (t) = Ni (t) − Yi (s)hi (s)ds = Ni (t) − Λi (t) 0 est la martingale associée au sujet i. Le compensateur est prévisible car il est l’intégrale du produit de deux processus prévisibles. Nous allons maintenant obtenir les processus de variation prévisible et optionnelle (ou quadratique), < M > et [M ], de la martingale M . Par définition, d < M > (t) = var(dM (t)|Ft− ). t = var(dN (t) − 0 Yi (s)hi (s)ds|Ft− ). Or, étant donné Ft− , dN (t) est une variable de Poisson dont la moyenne et la variance sont toutes les deux égales à Yi (s)hi (s)ds|Ft− ). Donc t < Mi (t) >= Yi (s)hi (s)ds = Λi (t). 0 C’est à dire que le processus de variation prévisible de la martingale est égal au compensateur du processus ponctuel. Par ailleurs, le processus optionnel est égal par définition, à la limite en probabilité de la somme des carrés des accroissements de Mi sur une partition de [0 t] de plus en plus fine: N −1 (M (tk+1 ) − M (tk ))2 t1 = 0, tN = t, tk+1 − tk → 0 [M ](t) = lim P k=1 Comme on l’a vu au chapitre I, Mi n’est en général pas continue et [M ](t) est la somme des carrés des sauts de Mi . ∆Mi (s)2 . [M ](t) = s≤t − où ∆Mi (s) = Mi (s)−Mi (s ). Donc, comme les sauts sont égaux à 1, si le compensateur est absolument continu, [Mi ] = Ni . C. Huber Partie III 5 MARTINGALE ET COMPENSATEUR ASSOCIÉS À UN PROCESSUS PONCTUEL DE COMPTAGE Survie 28 Définition d’une sous-martingale Un processus Z est une sous-martingale si 1. E(dZ(t)|Ft− )) ≥ 0, 2. E(Z(t)|Fs− ) ≥ Z(s). [M ] est une sous-martingale qui a < M > pour compensateur. [M ] est l’information observée tandis que < M > en est la moyenne. On peut vérifier, en utilisant l’inégalité de Jensen, que le carré de la martingale Mi2 , est aussi une sous-martingale. Tout comme un processus ponctuel, une sous-martingale peut être décomposée, de manière unique en la somme d’un compensateur et d’une martingale (théorème de Doob). Quelques résultats: 1. var(Mi (t)) = E(< Mi > (t) = E(Λi (t), 2. cov(Mi (t), Mi (s)) = var(M (t ∧ s)), Il y a deux façons importantes d’obtenir des martingales 1. Soient n martingales par rapport à une même filtration Ft , t > 0). Alors M (t) = i Mi (t) est une martingale par rapport à la même filtration. Ses processus de variation prévisible < M > et optionnel [M ] sont respectivement t (a) < M >= i j 0 d < Mi , Mj > (s) t (b) [M ] = i j 0 d[Mi , Mj ](s) où < Mi , Mj >= lim cov[{Mi (tk+1 − Mi (tk )}, {Mj (tk+1 ) − Mj (tk )}] 2. Si M une martingale de moyenne nulle et K(t) un processus prévisible assez régulier (une condition suffisante est qu’il soit borné), alors le processus t K(s)dM (s) Z(t) = 0 est aussi une martingale de moyenne nulle. En effet, K étant prévisible, il est Ft− ) mesurable et donc E{dZ(t)|Ft− )} = E{K(t)dM (t)|Ft− ) = K(t)E{dM (t)|Ft− )} = K(t) ∗ 0 = 0 C. Huber Partie III 1 RISQUE INSTANTANÉ CONSTANT Survie 29 Partie IV Modèles paramétriques. Un modèle paramétrique peut être formulé en précisant la forme de l’une ou l’autre des cinq fonctions équivalentes qui définissent la loi de la durée:λ, H, S, F ou f . Souvent, cependant, on privilégie le taux d’incidence, ou risque instantané λ. Quand on analyse des durées de survie, les cinq formes les plus usuelles de risque instantané sont les suivantes: • constant, • monotone (croissant ou décroissant), • en forme de ∩, • et en forme de ∪. La dernière, qu’on appelle aussi la courbe en forme de baignoire, comporte trois périodes distinctes: • d’abord, la période de mortalité infantile (ou des ”pannes de jeunesse” dans le domaine industriel, ”burn in” en anglais), • ensuite une période de risque instantané relativement bas, • enfin la période de vieillissement durant laquelle le risque instantané s’accroı̂t. Commençons par 1 Risque instantané constant L’unique distribution continue qui admette un risque instantané constant est l’exponentielle. 1.1 La loi exponentielle E(λ) S(t|λ) = e−λt , t≥0 f (t|λ) = λe−λt t ≥ 0; h(t|λ) = λ tp = − ln(1 − p)/λ; E(T ) = 1/λ, Var(T ) = (1/λ)2 . C. Huber Partie IV (λ > 0), 0 < p < 1; 2 RISQUE INSTANTANÉ MONOTONE Survie 30 Le risque instantané, ou risque instantané est égal au paramètre λ (voir la figure 1.1). 2.5 2 1.5 1 0.5 0 1 2 3 4 5 t Figure 1.1 2 Risque instantané monotone Il y a beaucoup de distributions de durées de vie dont le taux est monotone. 2.1 Lois de Weibull W (α, λ) Ce sont des lois qui généralisent la loi exponentielle (obtenue dans le cas particulier où le paramètre α est égal à 1), et pour lesquelles le risque instantané est une puissance du temps. S(t|α, λ) = exp {−(λt)α } (λ, α > 0); t ≥ 0; h(t|α, λ) = α(λ)α tα−1 ; f (t|α, λ) = (αλ)α tα−1 exp {−(λt)α } ; tp = 1 λ E(T |α, λ) = 1 Γ(1 λ (− ln(1 − p))1/α ; 0 < p < 1; + 1/α), Var(T |α, λ) = ( λ1 )2 (Γ(1 + 2/α) − Γ2 (1 + 1/α)) . Lorsque α = 1, on retrouve la loi exponentielle W (1, λ) = E(λ). Si 0 < α < 1 (Figure 1.2), le risque instantané est décroissant de ∞ à 0. C. Huber Partie IV 2 RISQUE INSTANTANÉ MONOTONE Survie 31 12 10 8 6 4 2 0 0.2 0.4 0.6 0.8 1 0.8 1 t Figure 1.2 14 12 10 8 6 4 2 0 0.2 0.4 0.6 t Figure 1.3 Si α > 1 le risque instantané est croissant de 0 à ∞ (Figure 1.3). Exercice: Montrer que, si E suit une loi exponentielle de paramètre 1, alors la variable aléatoire 1 log(X) = a0 + σ log(E) = − log(λ) + log(E) α suit une loi de Weibull de paramètres α = σ1 λ = e−a0 Remarque à propos de Splus: en Splus le paramètre de forme (shape) est alpha et le paramètre d’échelle (scale) est 1/λ. C. Huber Partie IV 2 RISQUE INSTANTANÉ MONOTONE 2.2 Survie 32 Lois Gamma G(θ, ν) f (t|θ, ν) = θν Γ(ν)tν−1 e−θt F (t|θ, ν) = 1 Γ(ν) h(t|θ, ν) = f (t,θ,ν) ; 1−F (t,θ,ν) E(T |θ, ν) = θt 0 t ≥ 0; (θ, ν > 0); uν−1 e−u du; Var(T |θ, ν) = ν , θ ν . θ2 Notons que G(θ, 1) = E(θ). Si ν > 1 le risque instantané est croissant de 0 à θ (Figure 1.4). 1 0.8 0.6 0.4 0.2 0 20 40 60 80 t Figure 1.4 Si 0 < ν < 1 le risque instantané est décroissant de ∞ à C. Huber Partie IV 1 θ (Figure 1.5). 2 RISQUE INSTANTANÉ MONOTONE Survie 33 1.35 1.3 1.25 1.2 1.15 1.1 1.05 1 0 20 40 60 80 100 t Figure 1.5 Les tests d’adéquation ne permettent de distinguer Weilbull de gamma que lorsque la taille d’échantillon est très grande. 2.3 Lois de Gompertz-Makeham GM (γ0 , γ1 , γ2 ) S(t|θ) = exp{−γ0 t − γ1 −γ2 t (e 2 − 1)}, f (t|θ, ν) = (γ0 + γ1 e−γ2 t ) exp{−γ0 t − h(t|θ) (γ0 , γ1 > 0, γ2 ∈ R); γ1 −γ2 t (e 2 = γ0 + γ1 e−γ2 t . Notons que GM (γ0 , γ1 , 0) = E(γ0 + γ1 ). 3.5 3 2.5 2 1.5 1 0.5 0 2 4 6 t Figure 1.6 C. Huber Partie IV 8 10 − 1)}; 2 RISQUE INSTANTANÉ MONOTONE Survie 34 Lorsque γ2 > 0 le risque instantané est décroissant de γ0 + γ1 à γ0 (Figure 1.6). Si γ2 < 0 le risque instantané est croissant de γ0 + γ1 à ∞ (Figure 1.7). 22 20 18 16 14 12 10 8 6 4 0 0.5 1 1.5 2 t Figure 1.7 2.4 Mélange de deux distributions exponentielles M E(θ1 , θ2 , p1 ) S(t|θ1 , θ2 , p1 ) = p1 exp{− θt1 } + p2 exp{− θt2 } f (t|θ1 , θ2 , p1 ) = p1 θ1 exp{− θt1 } + p2 θ2 (0 < p1 < 1, p2 = 1 − p1 , θ2 > θ1 > 0); exp{− θt2 }; h(t, θ1 , θ2 , p1 ) = f (t, θ1 , θ2 , p1 )/S(t, θ1 , θ2 , p1 ); E(T ) = p 1 θ1 + p 2 θ2 . Le risque instantané est décroissant de c2 = C. Huber p1 θ1 + Partie IV p2 θ2 à c1 = 1 θ2 (Figure 1.8). 2 RISQUE INSTANTANÉ MONOTONE Survie 35 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 2 4 6 8 10 t Figure 1.8 2.5 Weibull généralisée GW (θ, ν, γ) t S(t|θ, ν, γ) = exp 1 − 1 + ( )ν θ 1/γ , (θ, ν, γ > 0); t ≥ 0; (33) ν ν−1 t ν 1/γ−1 ) ) t {1 + ( ; γθν θ h(t|θ, ν, γ) = tp = θ{(1 − ln(1 − p))γ − 1}1/ν ; 0 < p < 1. Notons que GW (θ, ν, 1) = W (θ, ν), GW (θ, 1, 1) = E(θ). La Weibull généralisée a été suggérée par les modèles accélérés. Cette famille de lois est intéressante car elle comporte les cinq types de risque instantané répertoriés ci-dessus. De plus, tous ses moments existent. Pour ν > 1, ν > γ le risque instantané est croissant de 0 à ∞ (Figure 1.9). 3.5 3 2.5 2 1.5 1 0.5 0 0.2 0.4 0.6 t C. Huber Partie IV 0.8 1 2 RISQUE INSTANTANÉ MONOTONE Survie 36 Figure 1.9 Pour ν = 1, γ < 1 le risque instantané est croissant de (γθ)−1 à ∞ (Figure 1.10). 2.6 2.4 2.2 2 1.8 1.6 1.4 0 0.2 0.4 0.6 0.8 1 t Figure 1.10 Pour 0 < ν < 1, ν < γ le risque instantané est décroissant de ∞ à 0 (Figure 1.11). 20 18 16 14 12 10 8 6 4 2 0 0.2 0.4 0.6 0.8 1 t Figure 1.11 Pour 0 < ν < 1, ν = γ le risque instantané est décroissant de ∞ à θ−1 (Figure 1.12). C. Huber Partie IV 2 RISQUE INSTANTANÉ MONOTONE Survie 37 100 80 60 40 20 0 0.2 0.4 0.6 0.8 1 t Figure 1.12 2.6 Weibull exponentiée EW (θ, ν, γ). 1/γ t ν S(t|θ, ν, γ) = 1 − 1 − exp[−( ) ] θ h(t|θ, ν, γ) = (θ, ν, γ > 0); t ≥ 0; (34) ν{1 − exp[−( θt )ν ]}(1−γ)/γ exp[−( θt )ν ]( θt )ν−1 γθ{1 − (1 − exp[−( θt )ν ])}1/γ tp = θ[− ln(1 − pγ )]1/ν ; 0 < p < 1. Notons que EW (θ, ν, 1) = W (θ, ν), EW (θ, 1, 1) = E(θ). Cette distribution a été introduite par Efron (1988). Ses propriétés ont été étudiées par Mudholkar et Srivastava (1995). Tous les moments de cette distribution sont finis. Pour ν > 1, ν ≥ γ le risque instantané est décroissant de 0 à ∞. Pour ν = 1, γ ≤ 1 le risque instantané est croissant de (γθ)−1 à ∞. Pour 0 < ν < 1, ν < γ le risque instantané est décroissant de ∞ à 0. Pour 0 < ν < 1, ν = γ le risque instantané est décroissant de θ−1 à 0. En résumé. Pour les valeurs des paramètres pour lesquelles le risque instantané est croissant on a différentes familles de distributions: W (θ, ν): h(t) croı̂t de 0 à ∞; G(θ, ν): h(t) croı̂t de 0 à c > 0; GM (γ0 , γ1 , γ2 ): h(t) croı̂t de c > 0 à ∞; GW (θ, ν, γ): h(t) icroı̂t de c ≥ 0 à ∞; EW (θ, ν, γ): h(t) croı̂t de c ≥ 0 à ∞. Pour les valeurs des paramètres pour lesquelles le risque instantané est décroissant: C. Huber Partie IV 3 RISQUE INSTANTANÉ EN ∩ Survie 38 W (θ, ν): h(t) décroı̂t de ∞ à 0; G(θ, ν): h(t) décroı̂t de ∞ à c > 0; M E(θ1 , θ2 , p1 ):h(t) décroı̂t de c2 à c1 , c2 > c1 . GM (γ0 , γ1 , γ2 ): h(t) décroı̂t de c1 > 0 to c2 : 0 < c2 < c1 ; GW (θ, ν, γ): h(t) décroı̂t de ∞ à c ≥ 0; EW (θ, ν, γ): h(t) décroı̂t de 0 < c ≤ ∞ à 0. 3 3.1 Risque instantané en ∩ Lois Lognormales LN (µ, σ) S(t|µ, σ) = 1 − Φ ln t − µ σ 1 f (t|µ, σ) = ϕ σt h(t|µ, σ) = tp = eσΦ µ+σ 2 /2 E(T ) = e (µ ∈ R, σ > 0); , ln t − µ σ (35) ; f (t, µ, σ) ; S(t, µ, σ) −1 (p)+µ ; Var(T ) = e2µ+σ , t ≥ 0; 2 /2 2 (eσ − 1). Ici Φ est la fonction de répartition de la loi normale standard, 1 2 ϕ(t) = √ e−t /2 = Φ (x). 2π Le risque instantané croı̂t de 0 à sa valeur maximum puis décroı̂t vers 0, i.e., il est en forme de ∩ (Figure 1.13). 0.5 0.4 0.3 0.2 0 20 40 60 t C. Huber Partie IV 80 100 3 RISQUE INSTANTANÉ EN ∩ Survie 39 Figure 1.13 Si σ est grand, alors le maximum est atteint tôt dans la vie. Par suite, la loi lognormale est aussi utilisée pour modéliser les situations où le risque de mort est décroissant. 3.2 Lois Log-logistiques LL(θ, ν) 1 (θ, ν > 0); 1 + ( θt )ν −1 ν ν−1 t ν h(t|θ, ν) = ν t 1+( ) ; θ θ −2 ν ν−1 t ν f (t, θ, ν) = ν t 1+( ) ; θ θ p 1/ν tp = θ( ) ; 0 < p < 1. 1−p S(t|θ, ν) = (36) Pour 0 < ν ≤ 1 la moyenne n’existe pas. Pour ν > 1 E(T ) = θ Γ(1 + 1/ν) Γ(1 − 1/ν). La variance existe pour ν > 2: Var(T ) = θ2 {Γ(1 + 2/ν) Γ(1 − 2/ν) − Γ2 (1 + 1/ν) Γ2 (1 − 1/ν)}. Pour ν > 1 le risque instantané croı̂t de 0 à sa valeur maximum puis décroı̂t vers 0, c’est à dire qu’il est en forme de ∩ (Figure 1.14). 0 infinity t C. Huber Partie IV 3 RISQUE INSTANTANÉ EN ∩ Survie 40 Figure 1.14 3.3 Loi gaussienne inverse IG(ν, θ) √ t θ t θ − + e2ν Φ − ν + ; F (t|θ, ν) = Φ ν θ t θ t √ −3/2 √ t θ f (t|θ, ν) = νθt ϕ ν − , (θ, ν > 0); t ≥ 0; θ t √ h(t|θ, ν) = E(T ) = θ, (37) f (t, θ, ν) ; 1 − F (t, θ, ν) Var(T ) = θ2 /ν. Le risque instantané croı̂t de 0 à sa valeur maximum puis décroı̂t vers ν/2θ, i.e. qu’il est en forme de ∩ (Figure 1.15). 1.4 1.2 1 0.8 0.6 0.4 0.2 0 2 4 6 8 10 t Figure 1.15 3.4 Loi de Birnbaum et Saunders (1969) BS(ν, θ) t θ 1 − (θ, ν > 0); t ≥ 0; F (t|θ, ν) = Φ ν θ t 1 1 t θ t θ f (t|θ, ν) = + ϕ − ; 2νt θ t ν θ t C. Huber Partie IV 4 ADÉQUATION DES MODÈLES Survie 41 2 θ −1 −1 2 tp = ; 0 < p < 1; νΦ (p) + 4 + {νΦ (p)} 4 f (t, θ, ν) h(t, θ, ν) = ; 1 − F (t, θ, ν) 5 2 θ 2 ν2 , Var(T ) = ( ) 1 + ν . E(T ) = θ 1 + 2 ν 4 Le risque instantané croı̂t de 0 à sa valeur maximum puis décroı̂t vers 1/2θν 2 , i.e. qu’il est en forme de ∩. La famille BS est très similaire à la famille inverse gaussienne IG. 3.5 Weibull généralisée GW (θ, ν, γ) Pour γ > ν > 1 le risque instantané croı̂t de 0 à da valeur maximum ν c= γθ γ(ν − 1) γ−ν ν−1 ν ν(γ − 1) γ−ν 1−γ γ (38) puis décroı̂t vers 0, i.e., il est en forme de ∩ (Figure 1.16). 3 2.5 2 1.5 1 0.5 0 0.5 1 1.5 2 t Figure 1.16 4 Adéquation des modèles On peut utiliser pour voir graphiquement si un modèle paramétrique donné est convenable les résidus de Cox et Snell. Ces ”résidus” sont fondés sur la remarque C. Huber Partie IV 4 ADÉQUATION DES MODÈLES Survie 42 suivante: si X ∼ H, ce qui signifie que X suit une loi de taux cumulé H, alors la variable aléaroire Y = H(X) suit une loi exponentielle de paramètre égal à 1. En effet P (Y ≥ y) = P (H(X) ≥ y) = P (X ≥ H −1 (y)) = e−H(H −1 (y)) = e−y car, si X a H pour taux cumulé, il a pour fonction de survie S(x) = P (X ≥ x) = e−H(x) . On procède donc de la façon suivante: 1. On estime H grâce au modèle paramétrique, ce qui donne H. i ). 2. A chaque observation Xi , on fait correspondre Yi = H(X 3. On estime non paramétriquement le taux cumulé des Yi , par exemple par l’estimateur 1 cet estimateur. de Nelson-Aalen. On appelle H 1 devrait être (approximativement) égal au taux 4. Si le modèle était correct, H cumulé d’une loi exponentielle de paramètre 1, qui est la première bissectrice des axes. 1 . Si le modèle est correct, ce graphe 5. On trace la courbe représentative de H devrait être proche de celui d’une droite. C. Huber Partie IV 1 DÉFINITION DU MODÈLE Survie 43 Partie V Le modèle semi-paramétrique de Cox Le modèle de Cox est employé lorsqu’on cherche à évaluer l’effet de certains facteurs, appelés covariables sur la durée de survie. 1 Définition du modèle Le cadre est le suivant : Les 2n variables X1 , . . . , Xn et C1 , . . . , Cn que sont les durées de survie et les durées de censure des n individus considérés sont supposées indépendantes. On observe la suite des n couples de variables (Ti , Di ): Ti date de l’événement terminal pour le ième individu (en supposant qu’ils sont tous entrés à l’instant 0) Di indicatrice de la cause de départ ( Di = 1 si c’est l’événement d’intérêt, 0 sinon) Di = 1{X ≤ C}. Mais on a aussi observé sur chacun des individus une, ou plusieurs (p), facteurs Zi = (Zi1 , . . . , Zip ) dont dépend la durée de survie Xi . Il peut s’agir de dosages biologiques, de conditions environnementales ou de caractéristiques génétiques. Ces variables Z sont généralement appelées covariables. Le modèle des ”hasards proportionnels”, ou modèle de Cox suppose que h(t|Z = Zi ) = h0 (t)eβ Z . (39) β = (β1 , . . . , βp ) est le vecteur des coefficients de la régression. Il s’agit d’estimer ces coefficients pour évaluer l’impact de chacun des facteurs sur la durée étudiée. h0 (t) est le risque instantané de base. C’est une fonction inconnue, qu’il faut estimer elle aussi. Remarque 1: La famille des lois d’un tel modèle est du type suivant: toutes les fonctions de survie sont égales à une même fonction S0 élevée à des puissances variées : S = S0θ . où (40) θ = eβ1 Z1 +...+βp Zp On dit qu’il s’agit d’une famille d’alternatives de Lehmann. Remarque 2: Comme le rapport des risques instantanés de deux sujets i et j qui ont les covariables fixes Zi et Zj vaut hi (t) hj (t) = = C. Huber h0 (t)eβ Zi β h0 (t)e Zi eβ Zi eβ Zj Partie V 3 VRAISEMBLANCE PARTIELLE DE COX: Survie 44 Remarque 3: on appelle aussi ce modèle modèle à hasards proportionnels (PH). Cependant, le modèle (PH) est en fait plus général que le modèle de Cox car le facteur multiplicatif n’est pas nécessairement une exponentielle d’une fonction linéaire des covariables: h(t|Z = z, β) = h0 (t)g(z, β). (41) Dans ce modèle, g est une fonction spécifiée de la covariable z et du paramètre β. 2 Un exemple simple:un essai clinique Prenons le cas le plus simple : une seule covariable (p = 1) prenant seulement les valeurs 0 ou 1. Il peut s’agir par exemple d’un essai clinique (encore appelé essai thérapeutique) destiné à comparer l’effet d’un nouveau traitement (Z = 1 pour les patients traités) à celui du traitement habituel ou d’un placebo (Z = 0), sur la durée de survie. On a alors deux populations de fonctions de survie respectives S0 et S1 : Si Si Z = 0 , S(t|Z = 0) = S0 (t) β Z = 1 , S(t|Z = 1) = S1 (t) = S0 (t)e Le modèle comporte donc un paramètre qui est une fonction, h0 (t), considéré en général comme nuisible, et p paramètres réels β1 , · · · , βp qui sont les quantités à estimer, ou à tester, car elles représentent l’effet sur la durée de survie de chacune des covariables correspondantes. 3 Vraisemblance partielle de Cox: Pour éliminer le ”paramètre” nuisible totalement inconnu qu’est la fonction de hasard, ou risque instantané de base h0 , Cox dans son article initial (JRSS B, 1972), considère la vraisemblance ”partielle” suivante: n Yi (t)ri (β, t) { }dNi (t) VCox (β) = Y (t)r (β, t) k k k i=1 t≥0 (42) où T(1) < T(2) < · · · < T(n) désigne la suite des instants où a lieu un événement (mort ou censure), et ri (β, t) = h0 (t)eβ Zi . A l’instant T(i) sont observés: D(i) la nature de l’événement, 0 (censure) ou 1 (”mort”). Z(i) la covariable, de dimension p, de l’individu qui est ”mort”. R(i) les individus encore à risque à l’instant T(i) ainsi que la valeur de leurs covariables: (k) Z , k ∈ R(i). C. Huber Partie V 4 ESTIMATION Survie 45 On peut montrer que cette vraisemblance partielle a les mêmes propriétés qu’une vraisemblance ordinaire. En temps continu, l’hypothèse est faite qu’il n’y a aucun ex-aequo. Le raisonnement originel et intuitif de Cox est le suivant (Plusieurs auteurs ont donné depuis des justifications théoriques : Gill et Andersen (AS 1982), Andersen, Borgan, Gill, Keiding (1993)): Supposons que h0 soit arbitraire. Aucune information ne peut être donnée sur β par les intervalles de temps durant lesquels aucune ”mort” (aucun événement) n’a eu lieu, car on peut concevoir que h0 soit identiquement nulle dans ces intervalles. On devra alors travailler conditionnellement à l’ensemble des instants où une mort a lieu. Si le temps est discrétisé, on conditionnera aussi sur le nombre des morts qui ont lieu à un instant donné, car alors il y a des ex-aequo, mais pour le moment nous travaillons en temps continu, et il n’y a donc pas d’ex-aequo. A partir du moment où l’on désire une méthode d’analyse valable pour tout h0 , il paraı̂t inévitable de considérer cette loi conditionnelle. La probabilité pour qu’une mort se produise dans un petit intervalle de temps [T(i) ; T(i) + ∆t] vaut à peu près : p (k) e j=1 βj Zj h0 (T(i) )∆t k∈R(i) et la probabilité pour que cette mort soit celle de (i) sachant qu’une mort a eu lieu vaut : p e j=1 (i) βj Z j p k∈R(i) e j=1 (k) βj Z j Et on reconnaı̂t chacun des termes du produit qui forme la vraisemblance partielle de Cox VCox . 4 Estimation On peut montrer que cette vraisemblance partielle a les mêmes propriétés qu’une vraisemblance exacte. L’estimateur de Cox s’obtient en maximisant Vc . Notant Lc le logarithme de Vc , on obtient: Lc (β) = n i=1 0 ∞ [Yi (t)Zi (t)β − log( Yj (t)rj (β, t))]dNi (t). (43) j Le vecteur des dérivées partielles de Lc par rapport aux composantes de β, ou vecteur des scores, noté U ≡ DL(β) vaut U (β) = n i=1 C. Huber 0 ∞ [Zi (s) − Z(β, s)]dNi (s). Partie V (44) 4 ESTIMATION Survie 46 où Z(β, s) est la moyenne pondérée des covariables Z sur les observations encore à risque à l’instant s: Yi (s)ri (β, s)Zi (s) . (45) Z(β, s) = Yi (s)ri (β, s) La matrice d’information est égale à l’espérance de moins la matice des dérivées secondes: I(β) = n i=1 0 ∞ V (β, s)dNi (s). (46) où V est la variance (matrice de variance-covariance dans le cas où p est supérieur à 1) pondérée des covariables Z à l’instant s: n i (s) − Z(β, s)][Zi (s) − Z(β, s)] i=1 Yi (s)ri (β, s)[Z V (β, s) = . (47) i Yi (s)ri (β, s) L’estimateur du maximum de vraisemblance partielle est obtenu en résolvant le système d’équations: = 0. U (β) (48) Il y a en tout p équations, une pour chacune des p variables : j = 1, 2, . . . , p. En général, les solutions ne peuvent être obtenues que par itération. La solution β est consistante et asymptotiquement normale avec pour moyenne β et pour matrice de variance-covariance [E(I(β)]−1 , l’inverse de l’espérance de la matrice d’information, notée I. C’est la matrice carrée, p × p , qui a pour termes les dérivées secondes du logarithme de la vraisemblance. Pour calculer cette espérance il faudrait avoir la loi de la censure. Or, on ne la connaı̂t pas en général. Aussi la remplace-t-on de terme général par I(β) (k) (k) ( {k∈R(i)} Zj rk (β))( {k∈R(i)} Zj rk (β)) . − Ijj = {k∈R(i)} {k∈R(i)} rk (β) {i:Di =1} (49) Maintenant que l’on dispose de l’estimateur de β de β, on peut estimer le risque cumulé de base H0 par l’estimateur de Breslow: t dNi (s) H . (50) 0 (t) = Yj (s)eβ Zj (s) 0 C. Huber {k∈R(i)} (k) (k) Zj Zj rk (β) Partie V 5 EXAMEN DES RÉSIDUS 5 Survie 47 Examen des résidus 5.1 Résidus de martingale Une fois qu’on a estimé les paramètres β et la fonction de base H0 , on peut se demander si le modèle est adéquat. Pour cela, on considère des résidus, et en particulier les résidus de martingales. Ces résidus peuvent être utilisés pour évaluer: 1. La forme fonctionnelle de l’influence d’une covariable, dans un modèle qui tient déjà compte des autres covariables. 2. L’adéquation du modèle en ce qui concerne l’hypothèse de hasards proportionnels. 3. L’efficacité du modèle pour prédire ce qui attend un nouveau sujet. 4. L’influence de chacun des sujets de l’étude sur l’estimation des paramètres. On prend comme base des résidus la différence entre le processus ponctuel et son compensateur: t Mi (t) = Ni (t) − Yi (s)eβ Zi (s) dH0 (s) (i = 1, · · · , n) (51) 0 Mi (t) est la martingale résiduelle associée au sujet i. On en a une estimation en y remplaçant β et H0 par leurs estimateurs: t 0 (s) (i = 1, · · · , n) Mi (t) = Ni (t) − Yi (s)eβ Zi (s) dH (52) 0 i . Le résidu peut être interprété comme, à chaque instant i (∞) simplement M Notons M t, la différence sur [0t] entre le nombre d’événements et son espérance conditionnelle, ou comme ”l’excès de mort”. Les résidus ont quelque unes des propriétés des résidus du modèle linéaire: Mi (t) = 0∀t. 1. i , M j ) = 0, asymptotiquement. i ) = cov(M 2. E(M Pour un modèle de Cox sans covariable dépendant du temps, Ti représentant la durée d’observation du sujet i et Di le statut final, ce résidu se réduit à la forme simple: i = Di − H 0 (Ti )eβ Zi . M On peut remarquer qu’un résidu de martingale évolue entre −∞ et 1. C. Huber Partie V (53) 5 EXAMEN DES RÉSIDUS 5.2 Survie 48 Résidus des scores Les scores de la vraisemblance partielle sont le gradient du logarithme de la vraisemblance partielle: n ∞ c) [ ∂log(V ] = {Zij (s) − Z j (b, s)}dNi (s) β=b i=1 ∂βj n 0∞ i (s) = i=1 0 {Zij (s) − Z j (b, s)}dM ≡ Lij (b, ∞) où Z j (b, s) ≡ Yi (s)ri (b, s)Zij (s) Yi (s)ri (b, s) (54) est la moyenne pondérée des covariables des sujets à risque à l’instant s. L’égalité cii ) s’obtient en remplaçant H 0 par l’estimateur de dessus (remplacement de dNi par dM .) comme le processus des scores et Breslow (4) pris au point b. On définit alors Lij (β, ∞) comme le résidu des scores du sujet i et de la jème covariable. Par définition Lij (β, la somme de résidus des scores est égale à 0. Les résidus des scores ne sont qu’un de β, exemple de la classe des transformés des résidus de martingales. 5.3 Résidus de la déviance L’un des défauts des résidus de martingale est leur asymétrie (skewness en anglais). En effet, la valeur maximale d’un tel résidu est 1, alors que sa valeur minimale est −∞. Le résidu d’un sujet est positif lorsque le sujet expérimente l’événement avant que son taux de hasard cumulé n’atteigne la valeur 1, sinon il est négatif. On peut donc effectuer une transformation qui donne une forme plus standard à la loi de ces résidus. La déviance est définie comme Dev = 2{log(Vraisemblance du modèle sature) − log(Vc (β))} (55) où un modèle dit saturé est un modèle pour lequel β est complètement libre, c’est à dire que chaque sujet peut avoir son propre β. Il peut aussi y avoir des paramètres nuisibles qui sont maintenus constants pour l’un et l’autre modèle. Par exemple, dans le modèle linéaire, le paramètre nuisible est la variance σ 2 . Dans notre modèle, ce sera le hasard de base cumulé H0 . Le résidu de la déviance du sujet i, noté di , est défini comme la racine carrée du ième terme de la somme qui définit Dev, précédée du signe i : de M i )[−2{M i + Di log Di − M i )1/2 di = sgn(M (56) La fonction logarithme augmente les résidus compris entre 0 et 1, tandis que la racine carrée contracte les valeurs négatives. C. Huber Partie V 7 FRAGILITÉ 5.4 Survie 49 résidus de Cox et Snell Ce sont les ”résidus” qui consistent à 1. calculer, pour chaque observation Xi , Yi = H i (Xi ), 2. calculer l’estimateur de Nelson-Aalen du taux cumulé des Yi , 3. comparer la courbe de ce taux cumulé au taux cumulé d’une exponentielle de paramètre 1, première bissectrice des axes. 6 Modèle de Cox stratifié Par exemple, au lieu de supposer que l’effet du sexe sur la survie est constant dans le temps et multiplicatif sur le risque comme dans un modèle de Cox où la covariable sexe, notée ξ, et égale à 0 pour un homme, et 1 pour une femme introduit un facteur ebξ dans le risque instantané: h(t|Ξ = ξ, Z = z) = h0 (t)ebξ+β z on peut faire l’hypothèse que c’est le risque de base qui est différent chez les hommes et chez les femmes. On dit alors qu’on a un modèle de Cox stratifié: à chacun des deux sexes correspond une strate différente. Cependant, on continue de supposer que les covariables Z agissent de la même manière sur les deux risques instantanés, qui, eux sont différents: h(t|ξ = 0, Z = z) = h0 (t)eβ z h(t|ξ = 1, Z = z) = h1 (t)eβ z Les deux fonctions h0 et h1 ainsi que le paramètre p-dimensionnel β sont supposés inconnus dans ce modèle. On utilise aussi la vraisemblance partielle pour estimer les paramètres de ce modèle. 7 Généralisation: les modèles de fragilité Les modèles de fragilité sont une généralisation du modèle de Cox. prenons par exemple un modèle de régression exponentiel: h(t|Z) = h0 e<β,Z> où < β, Z > signifie β1 Z1 + β2 Z2 + · · · + βp Zp , et h0 est une constante. On a alors, pour chaque valeur de Z un risque instantané ”constant”, mais différent. Dans le modèle de Cox, h0 n’est plus supposé constant mais dépendant du temps: h0 = h0 (t). Alors, si C. Huber Partie V 7 FRAGILITÉ Survie 50 on calcule la fonction de survie, elle vaut: S(t|Z = z) = = = = t e− 0 h(x|z)dx <β,z> t h (x)dx 0 0 e−e <β,z> H0 (t) e−e βZ> (S0 (t))e Quelle est la raison pour laquelle nous devons généraliser ces modèles ? Les modèles et méthodes standards supposent que la population est homogène. Or dans cetaines situations, cette hypothèse n’est pas réalste. Les gens sont différents. Par exemple, ils peuvent avoir une prédisposition génétique à certaines maladies. On peut essayer de modéliser cette hétérogénéité en l’introduisant dans le modèle. Aussi introduisons nous dans le modèle une nouvelle covariable, non observée, Z0 : h(t|Z, Z0 ) = h0 (t)eβ0 Z0 e<β,Z> On note η = e β0 Z 0 où η est une variable aléatoire réelle positive de fonction de répartition Fη (η) appelée la fragilité, ou ”frailty” en anglais. La fonction de survie s’écrit donc: t <β,Z> S(t|Z, η) = e− 0 h0 (s)ηe <β,Z> H (t) 0 = e−ηe Comme η n’est pas observée, la survie doit être moyennée sur η: ∞ <β,Z> H (t) 0 e−ηe dFη (η). S(t|Z) = 0 Exemple: <β,Z>H0 (t) , où le risque de base est exponentiel, de Soit un modèle de Cox S(t|Z) = e−e −e<β,Z>h0 t telle sorte qu’en fait S(t|Z) = e . Le choix le plus habituel pour la loi Fη de la fragilité est la loi gamma de densité: f (a, b) = 1 a−1 − xb e . x ba Γ(a) Alors on a: E(η) = ab V ar(η) = ab2 On suppose en général que la moyenne de η est égale à 1 et on prend alors comme unique paramètre de la loi sa variance, notée c ce qui donne: E(η) = ab = 1 = c V ar(η) = ab2 η ∼ g(1/c, c) C. Huber Partie V 7 FRAGILITÉ Survie 51 Le paramètre c, qui caractérise la variabilité de la fragilité peut être supposé connu ou inconnu. Regardons ce que devient la fonction de survie dans ce cas: ∞ <β,Z>H0 (t) f (η)dη S(t|Z) = 0 eηe ∞ ηe<β,Z>H0 (t) η 1 η 1/c−1 e−η/c dη = 0 e c1/c Γ(1/c) ∞ 1/c−1 −(1/c+e<β,Z> H0 (t))η 1 = c1/c Γ(1/c) η e dη 0 = (1/c+e<β,Z> H0 (t))−1 1 Γ(1/c) (1/c+e <β,Z> H (t))1/c−1 c1/c Γ(1/c) 0 (1/c+e<β,Z>H0 (t) )−1/c c1/c (1 + ce<β,Z> H0 (t))−1/c − 1c log(1+ce<β,Z> H0 (t)) = = = e <β,Z> H (t)))1/c 0 = e−(log(1+ce <β,Z> )H0 (t)) = e−G(e On voit donc par ce calcul qu’un modèle de fragilité gamma généralise le modèle de Cox de la manière suivante: Pour la fragilité gamma, on a le modèle: <β,Z> H (t)) 0 S(t|Z) = e−G(e avec G(u) = log((1 + cu)1/c ) alors que pour le modèle de Cox, la fonction G est simplement l’identité: G(u) = u. On pourra remarquer qu’on obtient la fonction G en prenant moins le logarithme de la transformée de Laplace de la loi de la variable η de fragilité. C. Huber Partie V 1 LE PROBLÈME Survie 52 Partie VI Comparaison de deux échantillons. 1 Le problème Soient deux échantillons A et B de tailles respectives nA et nB de somme n. Les observations sont de la forme (Ti , δi , Gi )i=1,2,...,n où, pour l’individu i, Ti est la durée observée, δi est l’indicateur de mort, qui vaut 1 s’il y a mort et 0 sinon, et Gi l’indicateur de groupe qui vaut 0 dans A et 1 dans B. Pour simplifier l’écriture des expressions précédentes dans ce cas, les notations adoptées sont généralement les suivantes : RA,i = 1{Tj ≥Ti } , le nombre d’individus à risque de A en Ti , j∈A RB,i = 1{Tj ≥Ti } , le nombre d’individus à risque de B en Ti , j∈B Ri = RA,i + RB,i = 1{Tj ≥Ti } , le nombre total d’individus à risque en Ti , j≤n Vn désigne la vraisemblance de Cox de l’échantillon, Ln son logarithme, DLn le vecteur des scores, dérivées premières par rapport au paramètre β, et D2 Ln la matrice des dérivées secondes de Ln par rapport à β. Le modèle est le suivant : hB (t) = hA (t)eθψ(t) et les hypothèses à tester : H0 : θ = 0 (hA = hB ) H1 : θ = 0 (ψ ∈ Ψ)). Sous l’hypothèse nulle, il n’y a aucune différence entre les deux groupes, alors que sous l’alternative, il y a une différence caractérisée par la famille de fonctions Ψ. Par exemple 1. Si Ψ est dans l’ensemble des fonctions constantes, l’hypothèse est celle des risques proportionnels, C. Huber Partie VI 2 TESTS FONDÉS SUR LES SCORES Survie 53 2. Si Ψ est dans l’ensemble des fonctions positives croissantes, et θ positif, B est pire que A et la situation s’aggrave au cours du temps. 3. Si Ψ est dans l’ensemble des fonctions négatives décroissantes, et θ positif B est meilleur que A et le gain est de plus en plus grand. Par rapport à la situation précédente, on a simplement une interversion de A et B. 4. Si Ψ est dans l’ensemble des fonctions croissantes traversant 0, et θ positif, B est d’abord meilleur puis pire que A. 5. Si Ψ est dans l’ensemble des fonctions croissantes puis décroissantes, et θ positif, tout dépend des traversées de 0. Pour tester ces deux hypothèses, nous allons considérer deux classes de tests dont on montrera qu’elles n’en font qu’une en réalité : les tests fondés sur les scores et les tests de la classe K. Ce sont tous des tests du log-rank pondérés. 2 Tests fondés sur les scores La vraisemblance Vn s’écrit avec les notations précédentes : Vn = n i=1 hB (Ti )Gi hA (Ti )1−Gi RB,i hB (Ti )Gi + RA,i hA (Ti )1−Gi δi . Le logarithme de la vraisemblance Ln vaut : Ln = n i=1 hB (Ti ) δi Gi log δi log(RB,i eθψ(Ti ) + RA,i ) − hA (Ti ) i=1 n où le premier logarithme est égal à θψ. Les scores valent donc : n RB,i eθψ(Ti ) DLn (θ) = δi ψ(Ti ) Gi − RB,i eθψ(Ti ) + RA,i i=1 n RB,i DLn (0) = . δi ψ(Ti ) Gi − R + R B,i A,i i=1 , On reconnaı̂t ce que l’on appelle les tests du log-rank pondérés, les poids wi étant ici égaux aux Di ψ(T i). Ces poids peuvent être déterministes : wi = 1 donne le test du log-rank C. Huber Partie VI 4 TESTS DE LA CLASSE K Survie 54 aléatoires, et ne dépendant alors que de Ft− : wi = R(T i) wi = wi = R(T i) A (t− )S B (t− )R(t) S RA (t)RB (t) qui correspond au test de Gehan (Wilcoxon s’il n’y a pas de censure), intermédiaire entre log-rank et Gehan, qui est le test d’Efron, où SA (t− ) est l’estimateur de Kaplan-Meier de la fonction de survie dans A en t− . 3 Utilisation des processus ponctuels Tous les tests précédents n wi G i − i=1 RB,i RB,i + RA,i sont de la forme générale ∞ K(t){ 0 dNB (t) dNA (t) − } RB (t) RA (t) où K est prévisible. En effet, notons wi = w(Ti ), RB,i RB,i RB,i = − wi G i − w(Ti ) 1 − w(Ti ) RB,i + RA,i RB,i + RA,i RB,i + RA,i i:δi =1 i:δi =1,i∈B i:δi =1,i∈A ∞ RA (t)RB (t) dNB (t) dNA (t) = w(t) − . R(t) RB (t) RA (t) 0 On prend alors pour K la fonction K(t) = w(t) 4 RA (t)RB (t) . R(t) Tests de la classe K Par définition, ce sont des tests fondés sur une statistique de la forme t dNB dNA K{ − } W (t) = RB RA 0 où K(u) ne dépend que de ce qui s’est passé jusqu’à l’instant u− , donc c’est un processus prévisible. Les hypothèses qui suivent assurent la normalité asymptotique de la statistique W , sous l’hypothèse nulle et sous une alternative contigüe où les fonctions de survie SAn C. Huber Partie VI 5 PROPRIÉTÉS DES TESTS DE LA CLASSE K Survie 55 dans A et SBn dans B convergent vers la fonction de survie S0 de l’hypothèse nulle : Hypothèses : (A1 ) Quand n tend vers l’infini, nA et nB tendent vers l’infini de telle sorte que nA → qA , n nB → qB . n (A2 ) SAn (t) → S0 (t) uniformément sur [0, ∞[ quand n → ∞ SBn (t) → S0 (t) uniformément sur [0, ∞[ quand n → ∞ de telle sorte que 1 1 hnA (t) = h0 (t)[1 + γA (t) √ + o( √ )], nqA qB n 1 1 + o( √ )]; hnB (t) = h0 (t)[1 + γB (t) √ nqA qB n notons γ = γB − γA . (A3 ) RA (t) nA RB (t) nB → rA (t) en probabilité, uniformément sur [0, ∞[ quand n → ∞, → rB (t) en probabilité, uniformément sur [0, ∞[ quand n → ∞, où les fonctions rA et rB sont les queues des durées T observées dans A et B, rA = STA et rA = STB , elles font par conséquent intervenir la censure, qui n’est pas forcément supposée de même loi dans A et B. (A4 ) → k(t), fonction déterministe, en probabilité quand n → ∞, uniformément sur les intervalles fermés de I = t : inf{rA (t), rB (t)} > 0. 5 Propriétés des tests de la classe K √ K(t) nqA qB Théorème 3 : (Normalité asymptotique de W ). Sous les hypothèses (A1, . . . , A4), quand n tend vers l’infini, la loi de W (t) tend vers la loi normale N (mt , σt2 ) où t µt = k(u)γ(u) h0 (u) du, 0 σt2 C. Huber = 0 t qA rA (u) + qB rB (u) 2 k (u) h0 (u) du. rA (u)rB (u) Partie VI 5 PROPRIÉTÉS DES TESTS DE LA CLASSE K Survie 56 Démonstration : Remarquons que RA (t)/nA est la proportion de ceux qui restent à risque à l’instant t dans A, c’est à dire aussi l’empirique de la probabilité PA (C ≥ u, X ≥ u) = STA (u), queue de la distribution de la durée observée dans A. Remarquons aussi que dNA (t)/RA (t) est l’empirique du taux de mort dans A, c’est à dire hA (t)dt, et que E[dNA (t)/RA (t)|Ft− ] = hA (t)dt. Autrement dit, c’en est un estimateur sans biais. Décomposons W en la somme de trois termes W =U +V +R où dNA (u) √ k (u) nqA qB − hA (u) du , U (t) = RA (u) 0 t dNB (u) √ k (u) nqA qB V (t) = − − hB (u) du , RB (u) 0 t √ R(t) = k (u) nqA qB {hA (u) − hB (u)} du, t 0 √ où k = k + o( n), et où RA hA compense dNA et RB hB compense dNB . Etudions séparément chacun des trois termes en remarquant que c’est R qui constitue la partie principale, il s’écrit en effet t γ(u) √ k(u) nqA qB √ h0 (u) du + o(1) = µt + o(1). R(t) = nqA qB 0 Pour U (et V ), nous utilisons l’approximation dNA (t) − RA (t)hA (t) dMA (t) ≈ , RA (t) nA rA (t) alors U (t) ≈ 0 t dMA (u) √ k(u) nqA qB = nA rA (u) 0 t √ k(u) nA dMA (u) √ √ n nB rA (u) U est donc une martingale comme intégrale d’un processus prévisible par rapport à la martingale MA . Elle est de moyenne nulle et de processus de variation t 2 k (u) nA RA (u) hA (u) du. < U > (t) = 2 n n B rA (u) 0 Comme RA (u)hA (u) du = d < MA > (u) et E(RA ) = nA rA , le processus de variation de U , < U > converge : C. Huber Partie VI 6 EXEMPLE: Survie 57 < U > (t) → t k 2 (u) 0 qB h0 (u) du. rA (u) Comme le comportement de U est tout à fait analogue à celui de V , on a, pour U +V : t qB qA k 2 (u)( + )h0 (u) du. < U + V > (t) → rA (u) rB (u) 0 6 Exemple: Prenons comme alternative √ SB = (SA )exp{β/ n} qui correspond à un changement d’échelle pour la loi de Weibull, et en particulier pour l’exponentielle. Alors hB − hA √ nqA qB hA √ √ HB = − log SB = eβ/ n (− log SA ) = eβ/ n HA √ β β hB = hA + hA { √ + (eβ/ n − 1 − √ )} n n √ γn → γ = β q A q B . γn = γ B − γA = Pour chaque choix de K, on aura un test d’efficacité e(k, t) = (mt /st )2 valant : t { 0 k(u)γ(u) h0 (u) du}2 µt = ( )2 . e(k, t) = t q r (u)+q r (u) A A B B σt k 2 (u) h0 (u) du rA (u)rB (u) 0 Le problème qui se pose est donc de choisir le test optimal dans cette classe, c’est à dire la fonction k, et la fonction aléatoire K qui convergera vers k, lorsqu’on connaı̂t γ et le taux de base h0 . Il faut donc maximiser e(k, t) ci-dessus. Supposons que k soit de la forme k=a γ +v ϕ où a est une constante, ϕ= C. Huber q A rA + q B rB rA rB Partie VI 6 EXEMPLE: Survie 58 et v est orthogonal à γ pour H0 : vγ dH0 = 0. Alors, l’efficacité s’écrit : t 2 t + v)γ dH0 }2 { 0 aγϕ dH0 }2 { 0 ( aγ ϕ = t a2 γ 2 e(k, t) = t aγ 2 ϕ dH ( + v) ( ϕ + v 2 ) dH0 0 0 ϕ 0 qui est maximum pour v = 0. La meilleure fonction k est donc proportionnelle (a pouvant être quelconque) à k(t) = γ(t) rA (t)rB (t) = γ(t) . ϕ(t) qA rA (t) + qB rB (t) Exemple On doit choisir Kn (t) prévisible tel que Kn (t) → k(t) avec √ k(t) = β qA qB C. Huber rA (t)rB (t) . qA rA (t) + qB rB (t) Partie VI Survie 59 Partie VII Exercices. 1. Prouver que la loi gamma de densité: f (t|α, λ) = λα α−1 −λt t e , α > 0, λ > 0 Γ(α) a un risque instantané croissant pour α > 1 et décroissant pour α < 1. Tracer ces densités pour diverses valeurs des paramètres λ et α en utilisant le logiciel Splus. 2. Calculer l’information de Fisher d’une observation d’une loi exponentielle avec censure droite de type 1. 3. Tracer les fonctions de survie de la loi de Weibull S(t|α, λ) = e−(λt) α pour diverses valeurs des paramètres α et λ en utilisant le logiciel Splus. 4. Calculer la matrice d’information d’un échantillon de n durées de survie suivant la loi de Weibull de fonction de survie S(t|α, λ) = e−(λt) α souffrant d’une censure droite aléatoire. 5. De février 1998 à février 2001, 29 patients atteints d’une grave hépatite virale ont été admis dans un essai thérapeutique de 16 semaines sur l’effet d’une thérapie à base de stérodes. Ils ont été randomisés entre deux groupes, dont l’un recevait le traitement et l’autre le placebo. Les durées de survie, en semaines, des 14 patients du groupe traité ont été: 1, 1, 1, 1+ , 4+ , 5, 7, 8, 10, 10+ , 12+ , 16+ , 16+ , 16+ . (a) On ne fait aucune hypothèse sur la loi de la durée de survie sous le traitement. Estimer la fonction de survie S de la durée de survie sous le traitement en utilisant: • Estimer le taux cumulé Λ grâce à l’estimateur de nelson-Aalen, • Estimer la fonction de survie S de la durée de survie sous le traitement en utilisant • L’estimateur de Harrington et Fleming, • L’estimateur de Kaplan-Meier. • Tracer ces deux estimateurs sur un même graphe grâce à Slus. C. Huber Partie VII Survie 60 (b) On suppose que la loi de la survie obéit à un modèle exponentiel de paramètre λ, c’est à dire de risque instantané égal à λ. • Estimer λ par la méthode du maximum de vraisemblance et construire un intervalle de confiance de coefficient de confiance 95%. • Estimer la probabilité de survivre plus de 16 semaines et construire un intervalle de confiance de confiance 95%. • Estimer la médiane du temps de survie et construire un intervalle de confiance de confiance 95%. (c) Tracer sur un même graphe les trois estimateurs ainsi obtenus pour la fonction de survie. Qu’en pensez vous ? 6. Pour les données de Embury et al sur la durée de rémission de la leucémie aigue, calculer un estimateur de l’écart type de l’estimateur de Kaplan-Meier de la fonction de survie. C. Huber Partie VII TABLE DES MATIÈRES Survie 61 Partie VIII Quelques références En Français: 1. ”Analyse Statistique des Données de Survie”, C.Hill, C. Com-Nougué, A. Kramar, T. Moreau, J. O’Quigley, R. Senoussi,Cl. Chastang, Flammarion Sciences, 1996, 3ème édition, 2000. 2. ”Analyse Statistique des Durées de Vie”, C. Carbon, C. Huber, J.P. Lecoutre, Chr. Gouriéroux,ed. Droesbeke, Fichet, Tassi, Economica, 1989. En Anglais: 1. ”Accelerated Life Models; Modeling and Statistical Analysis”, V. Bagdonovicius and Nikulin, 2002, Kluwer Ac. Publ. 2. ”Censored data analysis”, D. Cox, 3. ”Counting Processes and Survival Analysis”, T.R. Fleming and D.P. Harrington, Wiley series in Probability and Mathematical Statistics, 1991. 4. ”Analysis of Survival Data”. D.R. Cox and D. Oakes, Chapman et Hall, 1984. Table des matières I Introduction 1 1 Quelques exemples 1 2 Cinq fonctions équivalentes 3 3 Les trois types de censure 5 4 le processus ponctuel N (t) 7 II Sans Modèle: Approche Non Paramétrique. C. Huber Partie VIII 11 TABLE DES MATIÈRES Survie 62 1 Estimateur de Nelson-Aalen 1.1 Définition . . . . . . . . . . . . 1.2 Exemple de Nelson-Aalen . . . 1.3 Interprétation de Nelson-Aalen 1.4 Variance de Nelson-AAlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 11 12 12 13 2 Estimation de S 2.1 Estimateur de Harrington et Fleming de S:SHF . 2.2 Kaplan-Meier . . . . . . . . . . . . . . . . . . . . 2.3 Traitement des ex-aequo . . . . . . . . . . . . . . Br . 2.4 Estimateur de Breslow du risque cumulé H:H 2.5 Estimateur de Greenwood de la variance de S KM : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 15 15 16 18 18 III . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Processus Ponctuels. 20 1 Modélisation du processus ponctuel: l’histoire ou filtration Ft 20 2 Définition d’une martingale 2.1 Sommes de variables aléatoires indépendantes: . . . . . . . . . . . . . . 2.2 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 20 21 3 Propriétés d’une martingale 3.1 Le compensateur ou processus de variation prévisible < M > (t) d’une martingale M . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Le processus de variation quadratique ou de variation optionnelle [M ] d’une martingale M . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 4 Convergence vers la loi normale: 26 22 22 22 5 Martingale et compensateur associés à un processus ponctuel de comptage 27 IV Modèles paramétriques. 29 1 Risque instantané constant 1.1 La loi exponentielle E(λ) . . . . . . . . . . . . . . . . . . . . . . . . . . 29 29 2 Risque instantané monotone 2.1 Lois de Weibull W (α, λ) . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Lois Gamma G(θ, ν) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Lois de Gompertz-Makeham GM (γ0 , γ1 , γ2 ) . . . . . . . . . . . . . . . . 30 30 32 33 C. Huber Partie VIII TABLE DES MATIÈRES 2.4 2.5 2.6 Survie 63 Mélange d’exponentielles . . . . . . . . . . . . . . . . . . . . . . . . . . Weibull généralisée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Weibull exponentiée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Risque instantané en ∩ 3.1 Lois log-normales . . . 3.2 Log-logistiques . . . . 3.3 Gaussienne inverse . . 3.4 Birnbaum et Saunders 3.5 Weibull généralisée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Adéquation des modèles V 34 35 37 38 38 39 40 40 41 41 Le modèle semi-paramétrique de Cox 43 1 Définition du modèle 43 2 Un exemple simple:un essai clinique 44 3 Vraisemblance partielle de Cox: 44 4 Estimation 45 5 Examen des résidus 5.1 Résidus de martingale 5.2 Résidus des scores . . . 5.3 Résidus de la déviance 5.4 résidus de Cox et Snell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 47 48 48 49 6 Modèle de Cox stratifié 49 7 Fragilité 49 VI Comparaison de deux échantillons. 52 1 Le problème 52 2 Tests fondés sur les scores 53 3 Utilisation des processus ponctuels 54 4 Tests de la classe K 54 C. Huber Partie VIII TABLE DES MATIÈRES Survie 64 5 Propriétés des tests de la classe K 55 6 Exemple: 57 VII VIII Exercices. 59 Quelques références C. Huber Partie VIII 61