T - IRMA

Transcription

T - IRMA
PLS regression methods & extended tools
Philippe Bastien
L’Oreal Research, Clichy, France ([email protected])
1
Régression et multicolinéarité
La multicolinéarité se caractérise par:
-
Une variabilité très grande des coefficients de régression
Une incohérence des signes des coefficients instables d’un
échantillon à l’autre
Des modèles de régression qui fit bien l’échantillon d’apprentissage
mais qui se généralisent très mal.
2
Régression et multicolinéarité
y = Xβ +ε
βˆOLS = arg min y − X β
2
Si X ′X inversible → βˆOLS = ( X ′X )−1 X ′y
C = ( X ′X ) −1
C jj =
var ( βˆOLS ) = σ ²( XX ′) −1
1
→ ∞ si R 2j → 1
2
1− Rj
var ( βˆOLS ) → ∞
3
Si X ′X est singulière comment l'inverser ?
¾ 1) Diagonaliser X ′X
r
X = U ΣV ′ = ∑ λi ui v 'i
i =1
+ ... + λr
= λ1
u1
X
v'1
ur
v'r
( X ′X ) − = V Σ −2V ′
βˆ = ( X ′X ) − X ′y = V Σ −2V ′V ΣU ′y = V Σ −1U ′y
Inverse généralisé de Moore-Penrose, solution de norme minimum
PCR
4
Si X ′X est singulière comment l'inverser ?
2) Tridiagonaliser X’X
Méthode de Lanczos (1950) pour l’approximation des plus
grandes valeurs propres de matrices symétriques.
Soit b un vecteur et A une matrice symétrique, Lanczos construit une
séquence de matrices tridiagonales W jT AW j
.
Les vecteurs qui composent Wj sont construits par
orthogonalisation de Gram-Schmidt de la série de Krylov:
K(b,A,j)= (b, Ab, A²b,…, Ajb)
En particulier la régression PLS correspond à: b = X ′y et A = X ′X
Lanczos C.. (1950). An iterative method for the solution of the eigenvalue problem of linear differential and
integral operators. J. Res. Nat. Bur. Standards, Sect B.
5
Si X ′X est singulière comment l'inverser ?
Wa = GS K ( X ′y, X ′X , a ) = GS ( X ′y, X ′XX ′y,..., ( X ′X ) a −1 X ′y )
βˆaPLS = Wa (Wa′X ′XWa ) Wa′X ′y
−1
βˆ.aPLS = Wa (Wa′AWa ) Wa′Aβˆ OLS
−1
OLS
Projection A orthogonale de βˆ sur vect (Wa )
Cornelius Lanczos (1893-1974)
mathématicien et physicien hongrois
Lanczos C.. (1950). An iterative method for the solution of the eigenvalue problem of linear differential and
integral operators. J. Res. Nat. Bur. Standards, Sect B.
6
Si X ′X est singulière comment l'inverser ?
3) Une factorisation particulière de X
X = URW ′ avec U ′U = W ′W = I et R inversible
βˆ = X − y = WR −1U ′y
L’algorithme
Bidiag2 de Golub et Kahan (1965) construit une matrice R bidiagonale à
.
droite et donc facilement inversible.
u0 = 0
w1 = X ′y / X ′y
ui = ki [ Xwi − ui −1 (ui′−1 Xwi )], i ≥ 1
wi +1 = ki′[ X ′ui − wi ( wi′X ′ui )], i ≥ 1
Golub G. and Kahan W. (1965). Calculating the singular values and pseudo-inverse of a matrix, SIAM Journal
on Numerical Analysis, 2: 205-224.
7
Exemple: Régression et multicolinéarité
8
Exemple: Régression et multicolinéarité
Toutes les variables apparaissent significatives et corrélées positivement
avec le prix.
9
Exemple: Régression et multicolinéarité
10
Exemple: Régression et multicolinéarité : PLSR
11
Exemple: Régression et multicolinéarité
12
Exemple: Régression et multicolinéarité: PLSR
13
Exemple: Régression et données manquantes
14
Exemple: Régression et multicolinéarité
PLS-NIPALS
Var ID
constant
Coeff (PRIX)
-33851,4
CYL
2,6477
PUI
56,8296
LON
44,5767
LAR
122,162
POIDS
6,98538
VITESSE
73,6172
15
Régularisation
Nécessité de régularisation afin d’obtenir un modèle prédictif stable
- Régularisation par réduction de la dimensionnalité: PCR/PLS
- Régularisation par pénalisation L1(Lasso), L2 (Ridge), L1&L2 (Elastic net)
Remarques:
- Ridge = OLS stabilisé
- Elastic net = Lasso stabilisé
16
Régularisation et biais
- Théorème de Gauss-Markov:
Gauss : 1777-1855
Markov : 1856-1922
βˆOLS est de tous les estimateurs sans biais celui de variance minimale
(BLUE)
On ne peut diminuer la variance qu’en biaisant l’estimateur
Compromis biais-variance
17
Compromis biais-variance
⎡
⎤
′
MSE ( βˆ ) = E ⎢ βˆ − β βˆ − β ⎥
⎣
⎦
⎡ ˆ
⎤
′
′ ˆ
ˆ
ˆ
ˆ
ˆ
= E (β ) − β E (β ) − β + E ⎢ β − E (β ) β − E (β ) ⎥
⎣
⎦
(
(
)(
)(
)
)
(
)(
)
= biais ² + variance( βˆ )
Quel est le biais de PLS ?
PLS shrinks (1995) de Jong, Jounal of Chemometrics
18
Régression biaisée
r
βˆOLS = ∑
i =1
ui′ y
λi
r
vi = ∑ βˆi
i =1
r
βˆbiaisé = ∑ f (λi ) βˆi
i =1
f (λi ) < 1 →
diminution de la variance de la ième composante
19
Régression ridge et biais
2
−1
βˆRR = arg min y − X β + λ β ² → βˆRR = ( X ′X + λ I ) X ′y
β
β. ˆ
r
RR
=∑
i =1
λi
λi + λ
βˆi
f (λi ) < 1
βˆRR
⎛
⎜ 1
⎜
1 ⎜ ρ 21
=
1+ λ ⎜1+ λ
⎜
⎜ ρ31
⎜
⎝1+ λ
ρ12
1+ λ
1
ρ32
1+ λ
−1
ρ13 ⎞
1+ λ ⎟
⎟
ρ 23 ⎟
X ′y
1+ λ ⎟
⎟
1 ⎟⎟
⎠
Remarque: Un effet subtile de la ridge est de contraindre à tendre vers
des valeurs voisines les coefficients associés à des variables corrélées.
On retrouve cet effet avec PLS.
Hoerl A.E.. and Kennard R.W. (1970). Ridge regression: biased estimation for non orthogonal problems. Technometrics
20
Régression PLS et biais
βˆ
p ⎛
⎡
λ
= ∑ ⎢1 − ∏ ⎜ 1 − i
⎜ μ
i =1 ⎢
=
1
j
j
⎝
⎣
r
PLS
⎞⎤
⎟⎟ ⎥ βˆi
⎠ ⎥⎦
μ j = vecteur de Ritz
.
= approximation de λ j au sous - espace de Krylov
span { X ′y , X ′XX ′y ,..., ( X ′X ) p X ′y}
Relation non claire en terme de « shrinkage » car
f (λi ) peut aussi être > 1 !
21
NIPALS (Wold H., 1966)
•
L’algorithme de régression PLS classique, comme cas particulier de
l’approche PLS, est basé sur des développements de l’algorithme
NIPALS, acronyme de Nonlinear estimation by Iterative Partial Least
Squares.
•
L’algorithme NIPALS est une méthode robuste pour déterminer de
façon itérative les valeurs et vecteurs propres d’une matrice.
•
Elle permet en particulier de faire de l’analyse en composantes
principales en présence de valeurs manquantes.
•
Cet algorithme est directement inspiré de la méthode de la puissance
itérée (Hotelling 1936)
Wold H. Estimation of principal components and related models by iterative least squares. In Krishainaah, P.R. (ed),
Multivariate Analysis. New Academic Press, New York 1966, pp. 391-420.
22
Méthode de la puissance itérée (Hotelling, 1936)
•
On initialise l’algorithme avec un vecteur w aléatoire, et on itère
jusqu’à convergence :
⎧⎪ w = X ′Xw
(1) ⎨
⎪⎩ w = w / w
On obtient ainsi un vecteur w1 vecteur propre de X’X associé à
la plus grande valeur propre λ1 ²
En effet, soit un vecteur b quelconque que l’on décompose dans la
base canonique des vecteurs propres (w1,…wr) sous la forme b = ∑ α i wi
( X ′X ) n b = ∑ α i λin wi → α1λ1n w1 ∝ w1
i
avec λ1 > λ2 > ... > λr
i
w
23
Méthode de la puissance itérée (Hotelling, 1936)
•
Lorsque l’algorithme convergence, on a la relation :
X ′Xw 1 = λ12 w1
2
A partir de laquelle on dérive l’expression de : λ1 =
w1(iterration n +1)
w1(iterration n )
On déflate ensuite la matrice X’X :
( X ′X )1 = X ′X − λ12 w1w1'
i
( X ′X ) = X ′X − ∑ λi2 wi wi'
i
j =1
Cette méthode extrait ainsi les vecteurs propres l’un après l’autre
dans l’ordre décroissant des valeurs propres.
24
Méthode de la puissance itérée:
représentation géométrique
Soit A( pxp ) une matrice symmétrique ex : A = X ′X
Ac = { z / z′Az = c} = ellipsoide en p dimension
b = Aa = rotation tangente
b = point de tangence entre l'ellipsoide Ac
et l'hyperplan ⊥ à a
a
Aa
25
Algorithme NIPALS
•
C’est un algorithme inspiré de la méthode de la puissance itérée
appliqué à la matrice X, où l’on a remplacé le produit matrice vecteur
par des régressions simples.
1) X 0 = X
2) pour h = 1, a
2.1) th = colonne de X h −1
2.2) répéter jusqu'à convergence de ph
2.2.1) ph = X h′ −1th / th′ th
t
X
p’
2.2.2) ph = ph / ph
2.2.3) th = X h −1 ph / ph′ ph
2.3) X h = X h −1 − th ph′
Wold H. (1966). Estimation of principal components and related models by iterative least squares, in Multivariate Analysis,
26
Krishnaiah P.R.(Ed.), Academic Press, New York,
NIPALS et données manquantes
L’algorithme peut fonctionner en présence de données manquantes.
xh −1,i ph
thi =
ph′ ph
xh-1,i
thi
* * *
*
(phj,xh-1,ij)
*
*
* *
*
* * *
* *
*
*
ph
Wold H. (1966). Estimation of principal components and related models by iterative least squares, in Multivariate Analysis,
27
Krishnaiah P.R.(Ed.), Academic Press, New York,
Sparse PCA
Soft thresholding function
g λ (x)= ( x − λ )+ sig ( x)
28
Sparse PCA : Algorithme
Décompose X=UΣV ′, X 0 = X
Pour h = 1, H
1) vold = δ h vh , uold = uh
2) Jusqu ' à convergence de unew et vnew
a ) vnew = g λ ( X h′ −1uold )
X
b) unew = X h −1vnew / X h −1vnew
u
c) uold = unew
3) vnew = vnew / vnew
′
4) X h = X h −1 − δ hunew vnew
v’
H. Shen, J.Huang(2008). Sparse principal component analysis via regularized low rank matrix application. Journal of29
multivariate Analysis
Algorithme PLS1-NIPALS
1) X , y centrés
2) pour h = 1,a
2.1) wh = X h′ −1 y / y′y
2.2) wh = 1
2.3) th = X h −1wh / wh′ wh
2.4) ph = X h′ −1th / th′ th
2.5) X h = X h −1 − th ph′
3) T = [t1 ,.., ta ], yˆ PLS = T (T ′T ) −1T ′y
yˆ
PLS
a
a
yi′ti
yi′ti
y′t
=∑
ti = ∑
X i −1wi = ∑ i i Xwi*
i =1 ti′ti
i =1 ti′ti
i =1 ti′ti
a
W = W ( P′W )
*
−1
⎛ h-1
⎞
w = ⎜ ∏ ( I - wi pi′ ) ⎟ wh
⎝ i=1
⎠
*
h
W = [ w1 ,..., wa ]
P = [ p1 ,..., pa ]
30
Sparse PLS: Algorithme
X ′Y = U ΔV ′
1/ X 0 = X , Y0 = Y
2 / pour i = 1: H
a ) décompose X h′−1Yh −1 et extraire la première paire de vecteurs singuliers
uold = uh , vold = vh
b) jusqu ' à convergence de unew et vnew
i ) unew = g λ2 ( X h′ −1Yh −1vold ), unew = 1
ii ) vnew = g λ1 (Yh′−1 X h −1uold ), vnew = 1
X’h-1Yh-1
iii ) uold = unew , vold = vnew
′ unew
c) ξ h = X h −1unew / unew
u
′ vnew
wh = Yh −1vnew / vnew
d ) ch = X h′−1ξ h / ξ h′ξ h
d h = Yh′−1ξ h / ξ h′ξ h
e) X h = X h −1 − ξ h ch′
f ) Yh = Yh −1 − ξ h d h′
v
Kim-Anh lë Cao et al. (2008).A sparse PLS for variable selection when integrating Omics data.Statistical
applications in genetics and molecular biology
31
Régression PLS et très grande dimension
Kernel PLS
Quand n >> p ou p >> n des algorithmes rapides ont été proposés dans
les années 90 consistant à effectuer l’essentiel des calculs sur des
matrices de taille réduite appelées « kernel ».
n >> p → w1 premier vecteur propre de X ′YY ′X ( pxp )
p >> n → t1 premier vecteur singulier à gauche de XX ′YY ′ (nxn)
De Jong et ter Braak ont proposés lorsque p >> n d’effectuer la régression PLS
sur la matrice des composantes principales Z, la régression PLS étant invariante
par transformation orthogonale.
t1 p XX ′y = ZZ ′y → PLS ( X ) = PLS ( Z )
Lindgren F., Geladi P., and Wold S., (1993). The kernel algorithm for PLS. Journal of chemometrics.
Rännar S., Geladi P., Lindgren F., Wold S., (1994). A PLS kernel algorithm for data sets with many
variables and fewer objects. Journal of Chemometrics.
De Jong, and ter Braak C. (1994). Comments on the PLS kernel algorithm. Journal of Chemometrics.
32
Régression PLS et très grande dimension
Canonical PLS
Avec l’algorithme « Canonical Partial Least Squares » en 2001, De Jong et al.
proposent d’effectuer l’essentiel des calculs dans la base formée par les
composantes principales (base canonique).
T = (t1 , t2 ,..., ta ) = GS ( XX ′y , ( XX ′) 2 y ,..., ( XX ′) a y )
= GS (ULU ′y,UL2U ′y,...,ULaU ′y )
βˆPLS = VL−1/ 2U ′TT ′y
De Jong S., Wise B., and Ricker N., (2001). Canonical partial least squares and continuum power
regression. Journal of. Chemometrics,
De Jong, (1993). SIMPLS: an alternative approach to partial least squares resgression. Chemometrics and
Intelligent Laboratory Systems.
33
Régression PLS et très grande dimension
CANPLS
CANPLS revient à remplacer la déflation implicite de Canonical PLS
résultant de l’orthogonalisation de Gram-Schmidt:
(t1 , t2 ,..., ta ) = GS (ULU ′y, UL2U ′y ,..., ULaU ′y )
par une déflation explicite des vecteurs singuliers
(t1 , t2 ,..., ta ) ∝ (ULU ' y, U1 LU1′ y,..., U a −1 LU a′ −1 y )
34
CANPLS algorithm
let X = UL1/ 2V ' the SVD of X (or X ′)
t1 = ULU ′y = ∑ λi2 (ui′ y )ui
i
t1 = 1
U h −1 = ( I − th −1th′ −1 )U h − 2
th = U h −1 LU h′−1 y = ∑ λi2 (ui′,h −1 y )ui ,h−1
th = 1
i
βˆPLS = VL−1/ 2U ' TT ' y
35
γ
Modified Continuum power regression
Le compromis réalisé par PLS entre fit et stabilité qui donne le
même poids aux deux termes peut être modifié et CanPLS peut être
généralisé dans la même logique que la Continuum Power
Regression de de Jong et al.
r
t%1 ∝ UL U ' y = ∑ λiγ (ui' y )ui
γ
i =1
r
t%k ∝ U k −1 L U 'k −1 y = ∑ λiγ (uk' −1,i y )uk ,i
γ
i =1
36
γ
Modified Continuum power regression
r
t%k ∝ U k −1 L U 'k −1 y = ∑ λiγ (uk' −1,i y )uk ,i
γ
i =1
Définit une trajectoire entre OLS et PCR
OLS for γ = 0,
PLS for γ = 1,
PCR for γ → ∞
PLS ( X ) = PLS ( Z )
PCR ( X ) = PLS sur un sous ensemble de CP standardisés
37
Régression PLS et très grande dimension
Sample-based PLS
Bush et Nachbar (1993) ont montré que la régression PLS dépend
de la distance entre les observations à travers le produit XX’ plus
que des valeurs individuelles des descripteurs.
Approche très intéressante lorsque les individus sont difficiles voire
même impossibles à caractériser vectoriellement.
Bush R. and Nachbar B., (1993). J. Comput.-Aided Mol. Design
Lewi, P.J. (1995). Pattern recognition, reflection from a chemometric point of view. Chemometrics
and Intelligent laboratory System
38
Sample-based PLS
¾ Torgerson (1952) détermine de manière analytique les
coordonnées des points à partir de la distance entre ces points
Loi du cosinus
cos(θ) =
dij2 + dik2 − d2jk
2dijdik
bijk = d ij dik cos(θ ) =
dij2 + d ik2 − d 2jk
2
Young & Householder 1938
B =UVU ' =U V (U V )' = XX′
k
j
θ
i
39
Sample-based PLS
D = ∑ ( X ik − X jk )
2
ij
2
k
⇒ Cij = −1/ 2 ( Dij2 − Di2. − D.2j + D..2 )
Cij = XX ′ si X centré
→ SAMPLS algorithm
La généralisation à des distances non euclidiennes ouvre la voie
vers le non-linéaire
Bush R. and Nachbar B., 1993. J. Comput.-Aided Mol. Design 1993, 7, 587)
40
Kernel methods
Schölkopf et Smola, Learning with Kernels, MIT Press, 2001
41
Kernel methods
Soit x = ( x1 , x2 ) et Φ ( x) = ( x12 , 2 x1 x2 , x22 )
< Φ ( x), Φ ( y ) > = x12 x22 + 2 x1 x2 y1 y2 + y12 y22
= (x1 y1 + x2 y2 ) 2 =< x, y > 2
Noyau polynomial : K ( x, y ) = ( x, y + C )
⎛ x− y
Noyau Gaussien : K ( x, y ) = exp ⎜ −
⎜
2σ ²
⎝
2
d
⎞
⎟
⎟
⎠
42
Régression PLS et optimisation
La régression PLS peut aussi être vue comme un problème d’optimisation
avec un critère à optimiser, le critère de Tucker.
T1 = Xw1 avec w1 solution de max (cov² ( Xw1 , y ))
w1′ w1 =1
cov²(Xw1 , y) p var ( Xw1 )cor ²( Xw1 , y )
La solution w1 est le vecteur propre normalisé de
X ′yy′X
X ′yy′XX ′y ∝ X ′y
w1j =
cov(x j , y)
∑ cov²(x , y)
j
j
t1 =
p
1
p
∑ cov( y, x )
j =1
∑ cov( y, x ) x
2
j =1
j
j
j
Tucker L.R. (1958). An inter-battery method of factor analysis. Psychometrika.
43
Régression PLS généralisée
une réinterprétation de le régression PLS
En 99, Michel Tenenhaus a proposé une interprétation des composantes PLS en
fonction de simples régressions linéaires dans une approche similaire à celle
proposée par Gartwhaite (1994), mais qui permet la prise en compte des valeurs
manquantes dans l’esprit de NIPALS
y = a1 j
xj
var ( x j )
cov(y,
+ε
)
var(x j )
a1 j =
= cov(y, x j )
xj
var(
)
var(x j )
x j = p1 j t1 + p2 j t2 + ... + ph −1 j th −1 + xh −1 j
y = c1t1 + c2t2 + ... + ch −1th −1 + ahj
xj
xh −1 j
var ( xh −1 j )
+ε
ahj = cov(y, xh −1 j )
PLS GLR
Tenenhaus M. (1999). La regression logistique PLS in Proceedings of the 32èmes journées de Statistique de la
Société française de Statistique, Fes
Garthwaite P.H. (1994). An interpretation of Partial Least Squares. Journal of the American Statistical
Association, 425:122-127
44
PLS-GLR algorithm
The PLS-GLR algorithm consists of four steps :
(1) Computation of the m PLS components th
(2) GL regression on the m retained PLS components
(3) Expression of PLS-GLR in terms of the original explanatory variables
(4) Bootstrap validation of coefficients in the final model
.
45
PLS-GLR algorithm
a1 j = GLRfit ( x j ) , j = 1, p
a2, j = GLRfit ( x j , t1 ) , j = 1, p
a
w1 = 1
a1
w2 =
Xw1
t1 =
w1′w1
.
a2
a2
x1, j = linfit ( x j / t1 ) , j = 1, p
t2 =
X 1w2
w2′ w2
ah , j = GLRfit ( x j , t1 , t2 ,..., th −1 ) , j = 1, p
wh =
ah
ah
xh −1, j = linfit ( x j / t1 , t2 ,..., th −1 ) , j = 1, p
th =
X h −1wh
wh′ wh
46
PLS-GLR and sparsity
By taking advantage from the statistical tests associated with
generalized linear regression, it is feasible to select the
significant explanatory variables to include in the model.
Computation of the PLS components th can thus be simplified by
setting to 0 those regression coefficients ah-1,j that show to be not
significant at a predefined threshold.
.
Only significant variables will then contribute to the computation
of the PLS components.
Moreover, the number m of PLS components to be retained may
be chosen by observing that the component tm+1 is not significant
because none of the coefficients am,j is significantly different from
0.
47
Soft/HardThresholding
Soft thresholding exhibits continuous shrinkage but suffers
from substancial biais for large coefficients.
Hard thresholding exhibits non continuous shrinkage but does
not suffer from such a biais.
48
Régression logistique PLS
49
Ordinal logistic regression
•
Ordinal logistic regression of quality on the four standardised predictors
corresponds to the following model
e ak +b1Temperature+b2 Sunshine+b3 heat+b4 Rain
Prob(y ≤ k)=
1+ e ak +b1Temperature+b2 Sunshine+b3 heat+b4 Rain
Wine quality (k): 1 = good; 2 = average; 3 = poor
50
Ordinal logistic regression
51
Régression logistique PLS
Régressions logistiques de la qualité du vin sur chaque prédicteur standardisé:
a1 j = GLRfit ( x j ) , j = 1, p
Temperature: 3.0117 (p = 0.0002)
Sunshine: 3.3401 (p = 0.0002)
Heat: 2.1445 (p = 0.0004)
Rain: -1.7906 (p = 0.0016)
a
w1 = 1
a1
t1 =
t1 =
Xw1
w1′w1
3.0117 * Temperature + 3.3401* Sunshine + 2.1445* Heat − 1.7906* Rain
( 3.0117 ) + ( 3.3401) + ( 2.1445 ) + ( −1.7906 )
2
2
2
= 0.5688* Temperature + 0.6309* Sunshine + 0.4050* Heat − 0.3282* Rain
52
Régression logistique PLS
53
Régression logistique PLS
Détermination de t2
Prob( y ≤ k ) =
α k + β1t1 + β 2 j x*j
e
α k + β1t1 + β 2 j x*j
1+ e
→ t2 NS
Expression du modèle final en fonction des descripteurs standardisés
e −2.265+1.53x Temperature+1.70 x Sunshine +1.09 x Heat −0.91x Rain
Prob( y = 1) =
1 + e −2.265+1.53x Temperature +1.70 x Sunshine +1.09 x Heat −0.91x Rain
= 0.5688 x Temperature + 0.6309 x Sunshine + 0.4050 x Heat − 0.3282 x Rain
54
Régression logistique PLS
Balanced Bootstrap CI
55
The Cox proportional hazard model
The model assumes the following hazard function for the occurrence of
an event at time t in the presence of censoring:
λ (t ) = λ0 (t ) exp( X β )
The Cox’s partial likelihood can be written as :
exp( β ' xk )
PL( β ) = ∏
k∈D ∑ j∈R exp( β ' x j )
k
When p > n, there is no unique β to maximize this partial likelihood.
Even when p ≤ n , covariates could be highly correlated and
regularization may still be required in order to reduce the variance of
the estimates and to improve the prediction performance.
Cox D.R. 1972. Journal of the Royal Statistical Society B.; 74: 187-220
56
PLS-Cox regression
(Bastien & Tenenhaus, 2001)
•
Computation of the first PLS component t1
a1i = Coxfit ( xi ) , i = 1, p
w1 =
t1 =
.
•
a1
a1
Xw1
w1′ w1
Computation of the second PLS component t2
a2,i = Coxfit (t1 , xi ) , i = 1, p
w2 =
a2
a2
x1,i = linfit ( xi / t1 ) , i = 1, p
t2 =
X 1w2
w2′ w2
Bastien P., and Tenenhaus M., 2001. Proceedings of the PLS’01 International Symposium
57
PLS-Cox regression
Computation of the hth PLS component th
•
ah ,i = Coxfit (t1 , t2 ,..., th −1 , xh −1,i , ) , i = 1, p
wh =
ah
ah
xh −1,i = linfit ( xi / t1 , t2 ,..., th −1 ) , i = 1, p
th =
.
X h −1wh
wh′ wh
•
Coxfit (t1 , t2 ,..., t A )
•
Expression of the Cox model in terms of the original explanatory variables
•
Bootstrap validation
58
L1 penalized Cox regression
In the context of censored data, Tibshirani (1997) extended the
LASSO procedure to variable selection with the Cox model.
p
βˆ = argmin - l( β ), subject to∑ β j ≤ s
j=1
Tibshirani proposed an iterative procedure which require the
minimization of a one-term Taylor series expansion of le log partial
likelihood.
argmin( z − X β )T A( z − X β ) subject to
p
∑β
j
≤s
j=1
∂l
∂ 2l
with z = η + A μ , η =Xβ , μ =
, A=∂η
∂ηη ′
−1
Tibshirani R. (1997). Statistics in Medicine, 16:385-395
59
LARS procedure
Efron et al. (2004), proposed a highly efficient procedure, called
Least Angle Regression for variable Selection which can be used to
perform variable selection with very large matrices.
Using the connection between LARS and Lasso, Gui and Li (2005)
proposed LARS-Cox for gene selection in high-dimension and low
sample size settings.
Using a Choleski factorization they transform the minimization in a
constrained version of OLS which can be solved by the LARS-Lasso
procedure.
Efron B., Johnston I., Hastie T., and Tibshirani R., 2004. Annals of Statistics, 32:407-499
60
LARS-Cox
arg min( z − X β ) A( z − X β ) subject to
T
p
∑β
j
≤s
j=1
arg min( y − Xˆ β ) ( y − Xˆ β ) subject to
T
p
∑β
j
≤s
j=1
with y = Tz , Xˆ = TX , et A = TT ′ (Choleski )
However, the IRWLS iterations performed in the LARS-Cox
procedure counter balanced the efficiency of the LARS-Lasso
algorithm and render the Gui and Li algorithm computationally
costly.
Gui J. and Li H., (2005). Bioinformatics Penalized Cox regression analysis in the high-dimensional
and low-sample size settings, with application to microarray gene expression data. Bioinformatics
61
Cox-Lasso procedure on deviance residuals
Segal (2006) showed that the formula to be minimized in the CoxLasso procedure can be approximate, at a first order Taylor
approximation by the deviance residual sum of squares :
( z − X β )T A( z − X β ) ≈ RSS(Dˆ )
Mˆ i = δ i − Eˆi = δ i − Hˆ 0 (ti ) exp βˆ ′xi
⎡ ⎡
⎛ δ i − Mˆ i
di = sign( Mˆ i ) * ⎢ 2 ⎢ − Mˆ i − δ i ln ⎜
⎢⎣ ⎢⎣
⎝ δi
⎞⎤ ⎤
⎟⎥ ⎥
⎠ ⎥⎦ ⎥⎦
1/ 2
Segal M.R. (2006), Microarray Gene Expression Data with Linked Survival Phenotypes: Diffuse
large-B-Cell Lymphoma Revisited, Biostatistics
62
Cox-Lasso procedure on deviance residuals
The deviance residual is a measure of excess of death and can
therefore be interpreted as a measure of hazard.
Segal thus proposed to speed-up the calculations by replacing the
survival times by the deviance residuals, a normalized version of
Martingal residuals that result from fitting a null (intercept only)
Cox regression model.
Therneau T.M., Grambasch P.M., and Fleming T.R. (1990). Martingale-based residuals for survival
models. Biometrika
63
PLS on deviance residual
We have proposed to use the same idea in the setting of Partial
Least Squares.
A very simple and fast alternative formulation of the PLS-Cox
model could be derived by fitting the deviance residuals of a null
Cox model with a simple PLS regression.
64
Application en transcriptomique
(http://www-stat.standford.edu/∼tibs/superpc/standt.html )
•
•
•
•
240 patients atteints de DLBCL.
138 décès / médiane de survie 2.8 ans / 30% de censure
7399 zones qui représentent 4128 gènes
160 échantillon d’apprentissage / 80 échantillon de test
Rosenwald A. et al., 2002. The new England Journal of medicine, 346:1937-1947
Heagerty P.J., Lumley T., and Pepe M. 2000. Biometrics 56,337-344
65
DLBCL Rosenwald (2002)
T β > 0 ⇒ High Risk
T β < 0 ⇒ Low Risk
Wald test, p=0.001
66
plsRcox
•
•
Récemment dans Bioinformatics (2009) Sohn et al. ont proposé un
algorithme de type « gardient lasso » qui comme PLS ne requiert pas
d’inversion de matrices.
Bertrand et al ont montré sur les données de Rosenwald sur des
données d’allélotypage que la PLSDR semble surperformer
l’approche de Sohn et al.
Bertrand F., Maumey-Bertrand M., beau-Faller M., Meyer N. PLSRcox: modèles de Cox en présence
d’un grand nombre de variables explicatives. Poster Chimiométrie 2010, ENSPCI PARIS.
67
Packages sous R
•
Package ‘integrOmics’ : Regularized CCA and Sparse PLS
Author Sebastien Dejean, Ignacio Gonzalez and Kim-Anh Le Cao
•
Package ‘plsRglm’ : Partial least squares Regression for generalized linear
models
Author Frederic Bertrand <[email protected]>, Nicolas
Meyer
Package ‘plsRcox’ : Partial least squares Regression for Cox regression
Author Frederic Bertrand <[email protected]>, MaumyBertrand, Beau-Faller, Nicolas Meyer
•
•
Package PLSDOF : Degrees of Freedom and Confidence Intervals for
Partial Least Squares Regression
Author Nicole Kraemer, Mikio L. Braun
R Development Core Team : R : A language and environment for statistical computing, R Foundation for
Statistical Computing, Vienna, Austria, 2008. http ://www.R-project.org.
68