T - IRMA
Transcription
T - IRMA
PLS regression methods & extended tools Philippe Bastien L’Oreal Research, Clichy, France ([email protected]) 1 Régression et multicolinéarité La multicolinéarité se caractérise par: - Une variabilité très grande des coefficients de régression Une incohérence des signes des coefficients instables d’un échantillon à l’autre Des modèles de régression qui fit bien l’échantillon d’apprentissage mais qui se généralisent très mal. 2 Régression et multicolinéarité y = Xβ +ε βˆOLS = arg min y − X β 2 Si X ′X inversible → βˆOLS = ( X ′X )−1 X ′y C = ( X ′X ) −1 C jj = var ( βˆOLS ) = σ ²( XX ′) −1 1 → ∞ si R 2j → 1 2 1− Rj var ( βˆOLS ) → ∞ 3 Si X ′X est singulière comment l'inverser ? ¾ 1) Diagonaliser X ′X r X = U ΣV ′ = ∑ λi ui v 'i i =1 + ... + λr = λ1 u1 X v'1 ur v'r ( X ′X ) − = V Σ −2V ′ βˆ = ( X ′X ) − X ′y = V Σ −2V ′V ΣU ′y = V Σ −1U ′y Inverse généralisé de Moore-Penrose, solution de norme minimum PCR 4 Si X ′X est singulière comment l'inverser ? 2) Tridiagonaliser X’X Méthode de Lanczos (1950) pour l’approximation des plus grandes valeurs propres de matrices symétriques. Soit b un vecteur et A une matrice symétrique, Lanczos construit une séquence de matrices tridiagonales W jT AW j . Les vecteurs qui composent Wj sont construits par orthogonalisation de Gram-Schmidt de la série de Krylov: K(b,A,j)= (b, Ab, A²b,…, Ajb) En particulier la régression PLS correspond à: b = X ′y et A = X ′X Lanczos C.. (1950). An iterative method for the solution of the eigenvalue problem of linear differential and integral operators. J. Res. Nat. Bur. Standards, Sect B. 5 Si X ′X est singulière comment l'inverser ? Wa = GS K ( X ′y, X ′X , a ) = GS ( X ′y, X ′XX ′y,..., ( X ′X ) a −1 X ′y ) βˆaPLS = Wa (Wa′X ′XWa ) Wa′X ′y −1 βˆ.aPLS = Wa (Wa′AWa ) Wa′Aβˆ OLS −1 OLS Projection A orthogonale de βˆ sur vect (Wa ) Cornelius Lanczos (1893-1974) mathématicien et physicien hongrois Lanczos C.. (1950). An iterative method for the solution of the eigenvalue problem of linear differential and integral operators. J. Res. Nat. Bur. Standards, Sect B. 6 Si X ′X est singulière comment l'inverser ? 3) Une factorisation particulière de X X = URW ′ avec U ′U = W ′W = I et R inversible βˆ = X − y = WR −1U ′y L’algorithme Bidiag2 de Golub et Kahan (1965) construit une matrice R bidiagonale à . droite et donc facilement inversible. u0 = 0 w1 = X ′y / X ′y ui = ki [ Xwi − ui −1 (ui′−1 Xwi )], i ≥ 1 wi +1 = ki′[ X ′ui − wi ( wi′X ′ui )], i ≥ 1 Golub G. and Kahan W. (1965). Calculating the singular values and pseudo-inverse of a matrix, SIAM Journal on Numerical Analysis, 2: 205-224. 7 Exemple: Régression et multicolinéarité 8 Exemple: Régression et multicolinéarité Toutes les variables apparaissent significatives et corrélées positivement avec le prix. 9 Exemple: Régression et multicolinéarité 10 Exemple: Régression et multicolinéarité : PLSR 11 Exemple: Régression et multicolinéarité 12 Exemple: Régression et multicolinéarité: PLSR 13 Exemple: Régression et données manquantes 14 Exemple: Régression et multicolinéarité PLS-NIPALS Var ID constant Coeff (PRIX) -33851,4 CYL 2,6477 PUI 56,8296 LON 44,5767 LAR 122,162 POIDS 6,98538 VITESSE 73,6172 15 Régularisation Nécessité de régularisation afin d’obtenir un modèle prédictif stable - Régularisation par réduction de la dimensionnalité: PCR/PLS - Régularisation par pénalisation L1(Lasso), L2 (Ridge), L1&L2 (Elastic net) Remarques: - Ridge = OLS stabilisé - Elastic net = Lasso stabilisé 16 Régularisation et biais - Théorème de Gauss-Markov: Gauss : 1777-1855 Markov : 1856-1922 βˆOLS est de tous les estimateurs sans biais celui de variance minimale (BLUE) On ne peut diminuer la variance qu’en biaisant l’estimateur Compromis biais-variance 17 Compromis biais-variance ⎡ ⎤ ′ MSE ( βˆ ) = E ⎢ βˆ − β βˆ − β ⎥ ⎣ ⎦ ⎡ ˆ ⎤ ′ ′ ˆ ˆ ˆ ˆ ˆ = E (β ) − β E (β ) − β + E ⎢ β − E (β ) β − E (β ) ⎥ ⎣ ⎦ ( ( )( )( ) ) ( )( ) = biais ² + variance( βˆ ) Quel est le biais de PLS ? PLS shrinks (1995) de Jong, Jounal of Chemometrics 18 Régression biaisée r βˆOLS = ∑ i =1 ui′ y λi r vi = ∑ βˆi i =1 r βˆbiaisé = ∑ f (λi ) βˆi i =1 f (λi ) < 1 → diminution de la variance de la ième composante 19 Régression ridge et biais 2 −1 βˆRR = arg min y − X β + λ β ² → βˆRR = ( X ′X + λ I ) X ′y β β. ˆ r RR =∑ i =1 λi λi + λ βˆi f (λi ) < 1 βˆRR ⎛ ⎜ 1 ⎜ 1 ⎜ ρ 21 = 1+ λ ⎜1+ λ ⎜ ⎜ ρ31 ⎜ ⎝1+ λ ρ12 1+ λ 1 ρ32 1+ λ −1 ρ13 ⎞ 1+ λ ⎟ ⎟ ρ 23 ⎟ X ′y 1+ λ ⎟ ⎟ 1 ⎟⎟ ⎠ Remarque: Un effet subtile de la ridge est de contraindre à tendre vers des valeurs voisines les coefficients associés à des variables corrélées. On retrouve cet effet avec PLS. Hoerl A.E.. and Kennard R.W. (1970). Ridge regression: biased estimation for non orthogonal problems. Technometrics 20 Régression PLS et biais βˆ p ⎛ ⎡ λ = ∑ ⎢1 − ∏ ⎜ 1 − i ⎜ μ i =1 ⎢ = 1 j j ⎝ ⎣ r PLS ⎞⎤ ⎟⎟ ⎥ βˆi ⎠ ⎥⎦ μ j = vecteur de Ritz . = approximation de λ j au sous - espace de Krylov span { X ′y , X ′XX ′y ,..., ( X ′X ) p X ′y} Relation non claire en terme de « shrinkage » car f (λi ) peut aussi être > 1 ! 21 NIPALS (Wold H., 1966) • L’algorithme de régression PLS classique, comme cas particulier de l’approche PLS, est basé sur des développements de l’algorithme NIPALS, acronyme de Nonlinear estimation by Iterative Partial Least Squares. • L’algorithme NIPALS est une méthode robuste pour déterminer de façon itérative les valeurs et vecteurs propres d’une matrice. • Elle permet en particulier de faire de l’analyse en composantes principales en présence de valeurs manquantes. • Cet algorithme est directement inspiré de la méthode de la puissance itérée (Hotelling 1936) Wold H. Estimation of principal components and related models by iterative least squares. In Krishainaah, P.R. (ed), Multivariate Analysis. New Academic Press, New York 1966, pp. 391-420. 22 Méthode de la puissance itérée (Hotelling, 1936) • On initialise l’algorithme avec un vecteur w aléatoire, et on itère jusqu’à convergence : ⎧⎪ w = X ′Xw (1) ⎨ ⎪⎩ w = w / w On obtient ainsi un vecteur w1 vecteur propre de X’X associé à la plus grande valeur propre λ1 ² En effet, soit un vecteur b quelconque que l’on décompose dans la base canonique des vecteurs propres (w1,…wr) sous la forme b = ∑ α i wi ( X ′X ) n b = ∑ α i λin wi → α1λ1n w1 ∝ w1 i avec λ1 > λ2 > ... > λr i w 23 Méthode de la puissance itérée (Hotelling, 1936) • Lorsque l’algorithme convergence, on a la relation : X ′Xw 1 = λ12 w1 2 A partir de laquelle on dérive l’expression de : λ1 = w1(iterration n +1) w1(iterration n ) On déflate ensuite la matrice X’X : ( X ′X )1 = X ′X − λ12 w1w1' i ( X ′X ) = X ′X − ∑ λi2 wi wi' i j =1 Cette méthode extrait ainsi les vecteurs propres l’un après l’autre dans l’ordre décroissant des valeurs propres. 24 Méthode de la puissance itérée: représentation géométrique Soit A( pxp ) une matrice symmétrique ex : A = X ′X Ac = { z / z′Az = c} = ellipsoide en p dimension b = Aa = rotation tangente b = point de tangence entre l'ellipsoide Ac et l'hyperplan ⊥ à a a Aa 25 Algorithme NIPALS • C’est un algorithme inspiré de la méthode de la puissance itérée appliqué à la matrice X, où l’on a remplacé le produit matrice vecteur par des régressions simples. 1) X 0 = X 2) pour h = 1, a 2.1) th = colonne de X h −1 2.2) répéter jusqu'à convergence de ph 2.2.1) ph = X h′ −1th / th′ th t X p’ 2.2.2) ph = ph / ph 2.2.3) th = X h −1 ph / ph′ ph 2.3) X h = X h −1 − th ph′ Wold H. (1966). Estimation of principal components and related models by iterative least squares, in Multivariate Analysis, 26 Krishnaiah P.R.(Ed.), Academic Press, New York, NIPALS et données manquantes L’algorithme peut fonctionner en présence de données manquantes. xh −1,i ph thi = ph′ ph xh-1,i thi * * * * (phj,xh-1,ij) * * * * * * * * * * * * ph Wold H. (1966). Estimation of principal components and related models by iterative least squares, in Multivariate Analysis, 27 Krishnaiah P.R.(Ed.), Academic Press, New York, Sparse PCA Soft thresholding function g λ (x)= ( x − λ )+ sig ( x) 28 Sparse PCA : Algorithme Décompose X=UΣV ′, X 0 = X Pour h = 1, H 1) vold = δ h vh , uold = uh 2) Jusqu ' à convergence de unew et vnew a ) vnew = g λ ( X h′ −1uold ) X b) unew = X h −1vnew / X h −1vnew u c) uold = unew 3) vnew = vnew / vnew ′ 4) X h = X h −1 − δ hunew vnew v’ H. Shen, J.Huang(2008). Sparse principal component analysis via regularized low rank matrix application. Journal of29 multivariate Analysis Algorithme PLS1-NIPALS 1) X , y centrés 2) pour h = 1,a 2.1) wh = X h′ −1 y / y′y 2.2) wh = 1 2.3) th = X h −1wh / wh′ wh 2.4) ph = X h′ −1th / th′ th 2.5) X h = X h −1 − th ph′ 3) T = [t1 ,.., ta ], yˆ PLS = T (T ′T ) −1T ′y yˆ PLS a a yi′ti yi′ti y′t =∑ ti = ∑ X i −1wi = ∑ i i Xwi* i =1 ti′ti i =1 ti′ti i =1 ti′ti a W = W ( P′W ) * −1 ⎛ h-1 ⎞ w = ⎜ ∏ ( I - wi pi′ ) ⎟ wh ⎝ i=1 ⎠ * h W = [ w1 ,..., wa ] P = [ p1 ,..., pa ] 30 Sparse PLS: Algorithme X ′Y = U ΔV ′ 1/ X 0 = X , Y0 = Y 2 / pour i = 1: H a ) décompose X h′−1Yh −1 et extraire la première paire de vecteurs singuliers uold = uh , vold = vh b) jusqu ' à convergence de unew et vnew i ) unew = g λ2 ( X h′ −1Yh −1vold ), unew = 1 ii ) vnew = g λ1 (Yh′−1 X h −1uold ), vnew = 1 X’h-1Yh-1 iii ) uold = unew , vold = vnew ′ unew c) ξ h = X h −1unew / unew u ′ vnew wh = Yh −1vnew / vnew d ) ch = X h′−1ξ h / ξ h′ξ h d h = Yh′−1ξ h / ξ h′ξ h e) X h = X h −1 − ξ h ch′ f ) Yh = Yh −1 − ξ h d h′ v Kim-Anh lë Cao et al. (2008).A sparse PLS for variable selection when integrating Omics data.Statistical applications in genetics and molecular biology 31 Régression PLS et très grande dimension Kernel PLS Quand n >> p ou p >> n des algorithmes rapides ont été proposés dans les années 90 consistant à effectuer l’essentiel des calculs sur des matrices de taille réduite appelées « kernel ». n >> p → w1 premier vecteur propre de X ′YY ′X ( pxp ) p >> n → t1 premier vecteur singulier à gauche de XX ′YY ′ (nxn) De Jong et ter Braak ont proposés lorsque p >> n d’effectuer la régression PLS sur la matrice des composantes principales Z, la régression PLS étant invariante par transformation orthogonale. t1 p XX ′y = ZZ ′y → PLS ( X ) = PLS ( Z ) Lindgren F., Geladi P., and Wold S., (1993). The kernel algorithm for PLS. Journal of chemometrics. Rännar S., Geladi P., Lindgren F., Wold S., (1994). A PLS kernel algorithm for data sets with many variables and fewer objects. Journal of Chemometrics. De Jong, and ter Braak C. (1994). Comments on the PLS kernel algorithm. Journal of Chemometrics. 32 Régression PLS et très grande dimension Canonical PLS Avec l’algorithme « Canonical Partial Least Squares » en 2001, De Jong et al. proposent d’effectuer l’essentiel des calculs dans la base formée par les composantes principales (base canonique). T = (t1 , t2 ,..., ta ) = GS ( XX ′y , ( XX ′) 2 y ,..., ( XX ′) a y ) = GS (ULU ′y,UL2U ′y,...,ULaU ′y ) βˆPLS = VL−1/ 2U ′TT ′y De Jong S., Wise B., and Ricker N., (2001). Canonical partial least squares and continuum power regression. Journal of. Chemometrics, De Jong, (1993). SIMPLS: an alternative approach to partial least squares resgression. Chemometrics and Intelligent Laboratory Systems. 33 Régression PLS et très grande dimension CANPLS CANPLS revient à remplacer la déflation implicite de Canonical PLS résultant de l’orthogonalisation de Gram-Schmidt: (t1 , t2 ,..., ta ) = GS (ULU ′y, UL2U ′y ,..., ULaU ′y ) par une déflation explicite des vecteurs singuliers (t1 , t2 ,..., ta ) ∝ (ULU ' y, U1 LU1′ y,..., U a −1 LU a′ −1 y ) 34 CANPLS algorithm let X = UL1/ 2V ' the SVD of X (or X ′) t1 = ULU ′y = ∑ λi2 (ui′ y )ui i t1 = 1 U h −1 = ( I − th −1th′ −1 )U h − 2 th = U h −1 LU h′−1 y = ∑ λi2 (ui′,h −1 y )ui ,h−1 th = 1 i βˆPLS = VL−1/ 2U ' TT ' y 35 γ Modified Continuum power regression Le compromis réalisé par PLS entre fit et stabilité qui donne le même poids aux deux termes peut être modifié et CanPLS peut être généralisé dans la même logique que la Continuum Power Regression de de Jong et al. r t%1 ∝ UL U ' y = ∑ λiγ (ui' y )ui γ i =1 r t%k ∝ U k −1 L U 'k −1 y = ∑ λiγ (uk' −1,i y )uk ,i γ i =1 36 γ Modified Continuum power regression r t%k ∝ U k −1 L U 'k −1 y = ∑ λiγ (uk' −1,i y )uk ,i γ i =1 Définit une trajectoire entre OLS et PCR OLS for γ = 0, PLS for γ = 1, PCR for γ → ∞ PLS ( X ) = PLS ( Z ) PCR ( X ) = PLS sur un sous ensemble de CP standardisés 37 Régression PLS et très grande dimension Sample-based PLS Bush et Nachbar (1993) ont montré que la régression PLS dépend de la distance entre les observations à travers le produit XX’ plus que des valeurs individuelles des descripteurs. Approche très intéressante lorsque les individus sont difficiles voire même impossibles à caractériser vectoriellement. Bush R. and Nachbar B., (1993). J. Comput.-Aided Mol. Design Lewi, P.J. (1995). Pattern recognition, reflection from a chemometric point of view. Chemometrics and Intelligent laboratory System 38 Sample-based PLS ¾ Torgerson (1952) détermine de manière analytique les coordonnées des points à partir de la distance entre ces points Loi du cosinus cos(θ) = dij2 + dik2 − d2jk 2dijdik bijk = d ij dik cos(θ ) = dij2 + d ik2 − d 2jk 2 Young & Householder 1938 B =UVU ' =U V (U V )' = XX′ k j θ i 39 Sample-based PLS D = ∑ ( X ik − X jk ) 2 ij 2 k ⇒ Cij = −1/ 2 ( Dij2 − Di2. − D.2j + D..2 ) Cij = XX ′ si X centré → SAMPLS algorithm La généralisation à des distances non euclidiennes ouvre la voie vers le non-linéaire Bush R. and Nachbar B., 1993. J. Comput.-Aided Mol. Design 1993, 7, 587) 40 Kernel methods Schölkopf et Smola, Learning with Kernels, MIT Press, 2001 41 Kernel methods Soit x = ( x1 , x2 ) et Φ ( x) = ( x12 , 2 x1 x2 , x22 ) < Φ ( x), Φ ( y ) > = x12 x22 + 2 x1 x2 y1 y2 + y12 y22 = (x1 y1 + x2 y2 ) 2 =< x, y > 2 Noyau polynomial : K ( x, y ) = ( x, y + C ) ⎛ x− y Noyau Gaussien : K ( x, y ) = exp ⎜ − ⎜ 2σ ² ⎝ 2 d ⎞ ⎟ ⎟ ⎠ 42 Régression PLS et optimisation La régression PLS peut aussi être vue comme un problème d’optimisation avec un critère à optimiser, le critère de Tucker. T1 = Xw1 avec w1 solution de max (cov² ( Xw1 , y )) w1′ w1 =1 cov²(Xw1 , y) p var ( Xw1 )cor ²( Xw1 , y ) La solution w1 est le vecteur propre normalisé de X ′yy′X X ′yy′XX ′y ∝ X ′y w1j = cov(x j , y) ∑ cov²(x , y) j j t1 = p 1 p ∑ cov( y, x ) j =1 ∑ cov( y, x ) x 2 j =1 j j j Tucker L.R. (1958). An inter-battery method of factor analysis. Psychometrika. 43 Régression PLS généralisée une réinterprétation de le régression PLS En 99, Michel Tenenhaus a proposé une interprétation des composantes PLS en fonction de simples régressions linéaires dans une approche similaire à celle proposée par Gartwhaite (1994), mais qui permet la prise en compte des valeurs manquantes dans l’esprit de NIPALS y = a1 j xj var ( x j ) cov(y, +ε ) var(x j ) a1 j = = cov(y, x j ) xj var( ) var(x j ) x j = p1 j t1 + p2 j t2 + ... + ph −1 j th −1 + xh −1 j y = c1t1 + c2t2 + ... + ch −1th −1 + ahj xj xh −1 j var ( xh −1 j ) +ε ahj = cov(y, xh −1 j ) PLS GLR Tenenhaus M. (1999). La regression logistique PLS in Proceedings of the 32èmes journées de Statistique de la Société française de Statistique, Fes Garthwaite P.H. (1994). An interpretation of Partial Least Squares. Journal of the American Statistical Association, 425:122-127 44 PLS-GLR algorithm The PLS-GLR algorithm consists of four steps : (1) Computation of the m PLS components th (2) GL regression on the m retained PLS components (3) Expression of PLS-GLR in terms of the original explanatory variables (4) Bootstrap validation of coefficients in the final model . 45 PLS-GLR algorithm a1 j = GLRfit ( x j ) , j = 1, p a2, j = GLRfit ( x j , t1 ) , j = 1, p a w1 = 1 a1 w2 = Xw1 t1 = w1′w1 . a2 a2 x1, j = linfit ( x j / t1 ) , j = 1, p t2 = X 1w2 w2′ w2 ah , j = GLRfit ( x j , t1 , t2 ,..., th −1 ) , j = 1, p wh = ah ah xh −1, j = linfit ( x j / t1 , t2 ,..., th −1 ) , j = 1, p th = X h −1wh wh′ wh 46 PLS-GLR and sparsity By taking advantage from the statistical tests associated with generalized linear regression, it is feasible to select the significant explanatory variables to include in the model. Computation of the PLS components th can thus be simplified by setting to 0 those regression coefficients ah-1,j that show to be not significant at a predefined threshold. . Only significant variables will then contribute to the computation of the PLS components. Moreover, the number m of PLS components to be retained may be chosen by observing that the component tm+1 is not significant because none of the coefficients am,j is significantly different from 0. 47 Soft/HardThresholding Soft thresholding exhibits continuous shrinkage but suffers from substancial biais for large coefficients. Hard thresholding exhibits non continuous shrinkage but does not suffer from such a biais. 48 Régression logistique PLS 49 Ordinal logistic regression • Ordinal logistic regression of quality on the four standardised predictors corresponds to the following model e ak +b1Temperature+b2 Sunshine+b3 heat+b4 Rain Prob(y ≤ k)= 1+ e ak +b1Temperature+b2 Sunshine+b3 heat+b4 Rain Wine quality (k): 1 = good; 2 = average; 3 = poor 50 Ordinal logistic regression 51 Régression logistique PLS Régressions logistiques de la qualité du vin sur chaque prédicteur standardisé: a1 j = GLRfit ( x j ) , j = 1, p Temperature: 3.0117 (p = 0.0002) Sunshine: 3.3401 (p = 0.0002) Heat: 2.1445 (p = 0.0004) Rain: -1.7906 (p = 0.0016) a w1 = 1 a1 t1 = t1 = Xw1 w1′w1 3.0117 * Temperature + 3.3401* Sunshine + 2.1445* Heat − 1.7906* Rain ( 3.0117 ) + ( 3.3401) + ( 2.1445 ) + ( −1.7906 ) 2 2 2 = 0.5688* Temperature + 0.6309* Sunshine + 0.4050* Heat − 0.3282* Rain 52 Régression logistique PLS 53 Régression logistique PLS Détermination de t2 Prob( y ≤ k ) = α k + β1t1 + β 2 j x*j e α k + β1t1 + β 2 j x*j 1+ e → t2 NS Expression du modèle final en fonction des descripteurs standardisés e −2.265+1.53x Temperature+1.70 x Sunshine +1.09 x Heat −0.91x Rain Prob( y = 1) = 1 + e −2.265+1.53x Temperature +1.70 x Sunshine +1.09 x Heat −0.91x Rain = 0.5688 x Temperature + 0.6309 x Sunshine + 0.4050 x Heat − 0.3282 x Rain 54 Régression logistique PLS Balanced Bootstrap CI 55 The Cox proportional hazard model The model assumes the following hazard function for the occurrence of an event at time t in the presence of censoring: λ (t ) = λ0 (t ) exp( X β ) The Cox’s partial likelihood can be written as : exp( β ' xk ) PL( β ) = ∏ k∈D ∑ j∈R exp( β ' x j ) k When p > n, there is no unique β to maximize this partial likelihood. Even when p ≤ n , covariates could be highly correlated and regularization may still be required in order to reduce the variance of the estimates and to improve the prediction performance. Cox D.R. 1972. Journal of the Royal Statistical Society B.; 74: 187-220 56 PLS-Cox regression (Bastien & Tenenhaus, 2001) • Computation of the first PLS component t1 a1i = Coxfit ( xi ) , i = 1, p w1 = t1 = . • a1 a1 Xw1 w1′ w1 Computation of the second PLS component t2 a2,i = Coxfit (t1 , xi ) , i = 1, p w2 = a2 a2 x1,i = linfit ( xi / t1 ) , i = 1, p t2 = X 1w2 w2′ w2 Bastien P., and Tenenhaus M., 2001. Proceedings of the PLS’01 International Symposium 57 PLS-Cox regression Computation of the hth PLS component th • ah ,i = Coxfit (t1 , t2 ,..., th −1 , xh −1,i , ) , i = 1, p wh = ah ah xh −1,i = linfit ( xi / t1 , t2 ,..., th −1 ) , i = 1, p th = . X h −1wh wh′ wh • Coxfit (t1 , t2 ,..., t A ) • Expression of the Cox model in terms of the original explanatory variables • Bootstrap validation 58 L1 penalized Cox regression In the context of censored data, Tibshirani (1997) extended the LASSO procedure to variable selection with the Cox model. p βˆ = argmin - l( β ), subject to∑ β j ≤ s j=1 Tibshirani proposed an iterative procedure which require the minimization of a one-term Taylor series expansion of le log partial likelihood. argmin( z − X β )T A( z − X β ) subject to p ∑β j ≤s j=1 ∂l ∂ 2l with z = η + A μ , η =Xβ , μ = , A=∂η ∂ηη ′ −1 Tibshirani R. (1997). Statistics in Medicine, 16:385-395 59 LARS procedure Efron et al. (2004), proposed a highly efficient procedure, called Least Angle Regression for variable Selection which can be used to perform variable selection with very large matrices. Using the connection between LARS and Lasso, Gui and Li (2005) proposed LARS-Cox for gene selection in high-dimension and low sample size settings. Using a Choleski factorization they transform the minimization in a constrained version of OLS which can be solved by the LARS-Lasso procedure. Efron B., Johnston I., Hastie T., and Tibshirani R., 2004. Annals of Statistics, 32:407-499 60 LARS-Cox arg min( z − X β ) A( z − X β ) subject to T p ∑β j ≤s j=1 arg min( y − Xˆ β ) ( y − Xˆ β ) subject to T p ∑β j ≤s j=1 with y = Tz , Xˆ = TX , et A = TT ′ (Choleski ) However, the IRWLS iterations performed in the LARS-Cox procedure counter balanced the efficiency of the LARS-Lasso algorithm and render the Gui and Li algorithm computationally costly. Gui J. and Li H., (2005). Bioinformatics Penalized Cox regression analysis in the high-dimensional and low-sample size settings, with application to microarray gene expression data. Bioinformatics 61 Cox-Lasso procedure on deviance residuals Segal (2006) showed that the formula to be minimized in the CoxLasso procedure can be approximate, at a first order Taylor approximation by the deviance residual sum of squares : ( z − X β )T A( z − X β ) ≈ RSS(Dˆ ) Mˆ i = δ i − Eˆi = δ i − Hˆ 0 (ti ) exp βˆ ′xi ⎡ ⎡ ⎛ δ i − Mˆ i di = sign( Mˆ i ) * ⎢ 2 ⎢ − Mˆ i − δ i ln ⎜ ⎢⎣ ⎢⎣ ⎝ δi ⎞⎤ ⎤ ⎟⎥ ⎥ ⎠ ⎥⎦ ⎥⎦ 1/ 2 Segal M.R. (2006), Microarray Gene Expression Data with Linked Survival Phenotypes: Diffuse large-B-Cell Lymphoma Revisited, Biostatistics 62 Cox-Lasso procedure on deviance residuals The deviance residual is a measure of excess of death and can therefore be interpreted as a measure of hazard. Segal thus proposed to speed-up the calculations by replacing the survival times by the deviance residuals, a normalized version of Martingal residuals that result from fitting a null (intercept only) Cox regression model. Therneau T.M., Grambasch P.M., and Fleming T.R. (1990). Martingale-based residuals for survival models. Biometrika 63 PLS on deviance residual We have proposed to use the same idea in the setting of Partial Least Squares. A very simple and fast alternative formulation of the PLS-Cox model could be derived by fitting the deviance residuals of a null Cox model with a simple PLS regression. 64 Application en transcriptomique (http://www-stat.standford.edu/∼tibs/superpc/standt.html ) • • • • 240 patients atteints de DLBCL. 138 décès / médiane de survie 2.8 ans / 30% de censure 7399 zones qui représentent 4128 gènes 160 échantillon d’apprentissage / 80 échantillon de test Rosenwald A. et al., 2002. The new England Journal of medicine, 346:1937-1947 Heagerty P.J., Lumley T., and Pepe M. 2000. Biometrics 56,337-344 65 DLBCL Rosenwald (2002) T β > 0 ⇒ High Risk T β < 0 ⇒ Low Risk Wald test, p=0.001 66 plsRcox • • Récemment dans Bioinformatics (2009) Sohn et al. ont proposé un algorithme de type « gardient lasso » qui comme PLS ne requiert pas d’inversion de matrices. Bertrand et al ont montré sur les données de Rosenwald sur des données d’allélotypage que la PLSDR semble surperformer l’approche de Sohn et al. Bertrand F., Maumey-Bertrand M., beau-Faller M., Meyer N. PLSRcox: modèles de Cox en présence d’un grand nombre de variables explicatives. Poster Chimiométrie 2010, ENSPCI PARIS. 67 Packages sous R • Package ‘integrOmics’ : Regularized CCA and Sparse PLS Author Sebastien Dejean, Ignacio Gonzalez and Kim-Anh Le Cao • Package ‘plsRglm’ : Partial least squares Regression for generalized linear models Author Frederic Bertrand <[email protected]>, Nicolas Meyer Package ‘plsRcox’ : Partial least squares Regression for Cox regression Author Frederic Bertrand <[email protected]>, MaumyBertrand, Beau-Faller, Nicolas Meyer • • Package PLSDOF : Degrees of Freedom and Confidence Intervals for Partial Least Squares Regression Author Nicole Kraemer, Mikio L. Braun R Development Core Team : R : A language and environment for statistical computing, R Foundation for Statistical Computing, Vienna, Austria, 2008. http ://www.R-project.org. 68