Les projections Orthogonales en Chimiométrie
Transcription
Les projections Orthogonales en Chimiométrie
Les projections Orthogonales en Chimiométrie Une revue des méthodes Jean-Michel ROGER UMR ITAP - Irstea - SupAgro Montpellier - France Jean-Michel ROGER Les projections Orthogonales en Chimiométrie Plan 1 2 3 4 5 Introduction Pourquoi la chimiométrie ? Pourquoi les projections ? Théorie Row Projections Pour l’analyse de données Pour la sélection de variables Col Projections Pour accroı̂tre la robustesse Pour l’étalonnage Perspectives Une écriture générique Conclusion Jean-Michel ROGER Les projections Orthogonales en Chimiométrie Introduction Row Projection Col Projections Perspectives Conclusion Chimiométrie Projections théorie Plan 1 2 3 4 5 Introduction Pourquoi la chimiométrie ? Pourquoi les projections ? Théorie Row Projections Pour l’analyse de données Pour la sélection de variables Col Projections Pour accroı̂tre la robustesse Pour l’étalonnage Perspectives Une écriture générique Conclusion Jean-Michel ROGER Les projections Orthogonales en Chimiométrie Introduction Row Projection Col Projections Perspectives Conclusion Chimiométrie Projections théorie Pourquoi la chimiométrie ? Les spectres mesurés sont le résultat d’un grand nombre d’influences : Chimiques : Le produit recherché, les autres produits Physiques : La diffusion, la température Mystiques : L’effet opérateur, millésime, etc. Les spectres sont mesurés dans un espace de très grande dimension (typ. > 100) Il y a donc besoin d’outils mathématiques spécifiques pour : Prétraiter les spectres (enlever l’info nuisible) Étalonner des modèles reliant un spectre à une concentration ou une classe Explorer les données Jean-Michel ROGER Les projections Orthogonales en Chimiométrie Introduction Row Projection Col Projections Perspectives Conclusion Chimiométrie Projections théorie Pourquoi les projections ? La chimiométrie se base (presque exclusivement) sur l’algèbre linéaire, car : Les relations fondamentales de la spectrométrie sont linéaires (Beer Lambert) Les spectres sont digitalisés en vecteurs (bien que ce soient des courbes) La multidimensionnalité permet de gérer la complexité La majeure partie des problèmes consistent à identifier des sous espaces vectoriels Les projections (orthogonales) permettent de séparer des sous espaces Jean-Michel ROGER Les projections Orthogonales en Chimiométrie Introduction Row Projection Col Projections Perspectives Conclusion Chimiométrie Projections théorie Une illustration Jean-Michel ROGER Les projections Orthogonales en Chimiométrie Introduction Row Projection Col Projections Perspectives Conclusion Chimiométrie Projections théorie Hypothèses, notations Les données X, (n × p) : n spectres ×p longueurs d’onde Y, (n × q) : les réponses, à estimer à partir de X Les spectres nou splacent dans un cas hautement multivarié, donc : au pire, p > n au mieux, variables corrélées : : mauvais dimensionnement mauvais conditionnement Le véritable espace est beaucoup plus petit que Rp Jean-Michel ROGER Les projections Orthogonales en Chimiométrie Introduction Row Projection Col Projections Perspectives Conclusion Chimiométrie Projections théorie Hypothèses, notations Le modèle Nous ne nous intéresserons qu’aux modèles linéaires, i.e. : b = XB Y Incluant le cas de la régression mono-réponse q = 1 : b = Xb y Jean-Michel ROGER Les projections Orthogonales en Chimiométrie Introduction Row Projection Col Projections Perspectives Conclusion Chimiométrie Projections théorie Deux types de projections L’expression générale d’un projecteur orthogonal à un sous espace engendré par P est : I − P(PT P)−1 PT Selon le point de vue sur X, deux espaces sont considérés, définissant deux types de projection : Les ”Row - projectors” agissent dans Rn : X∗ = (In − P(PT P)−1 PT )X Les ”Column - projectors” agissent dans Rp : X∗ = X(Ip − P(PT P)−1 PT ) Jean-Michel ROGER Les projections Orthogonales en Chimiométrie Introduction Row Projection Col Projections Perspectives Conclusion Chimiométrie Projections théorie Row projections Soit P un Row projector utilisant P P est une base d’un sous espace E de Rn P peut séparer des sources de variances dans les données : Var (X) = Var (P(X)) + Var (X − P(X)) P affecte le rang de X, si n < p puisque P n’est pas dans l’espace du modèle, il est impossible d’appliquer la même projection sur un ensemble de test Les Row projectors sont utilisés pour l’étalonnage Jean-Michel ROGER Les projections Orthogonales en Chimiométrie Introduction Row Projection Col Projections Perspectives Conclusion Chimiométrie Projections théorie Column projections Soit P un Col projector utilisant P P est une base d’un sous espace E de Rp P ne peut pas séparer les sources de variances : Var (X) ≤ Var (P(X)) + Var (X − P(X)) P n’affecte pas le rang de X, si n < p since P est dans l’espace du modèle, il peut être appliqué à un ensemble de test Les Col projectors sont utilisés pour les prétraitements Jean-Michel ROGER Les projections Orthogonales en Chimiométrie Introduction Row Projection Col Projections Perspectives Conclusion Chimiométrie Projections théorie Exemples de Row et Col projections Spectres Visible / VNIR de maı̈s Jean-Michel ROGER Les projections Orthogonales en Chimiométrie Introduction Row Projection Col Projections Perspectives Conclusion Chimiométrie Projections théorie Exemples de Row et Col projections Le centrage classique (en colonne) est une Row projection qui retire l’information constante et permet d’analyser les données autour de leur centre de gravité : X∗ = (In − 1(1T 1)−1 1T )X Jean-Michel ROGER Le centrage des spectres (en lignes) est une Col projection qui retire les lignes de base horizontales : X∗ = X(Ip − 1(1T 1)−1 1T ) Les projections Orthogonales en Chimiométrie Introduction Row Projection Col Projections Perspectives Conclusion analyse de données sélection de variables Plan 1 2 3 4 5 Introduction Pourquoi la chimiométrie ? Pourquoi les projections ? Théorie Row Projections Pour l’analyse de données Pour la sélection de variables Col Projections Pour accroı̂tre la robustesse Pour l’étalonnage Perspectives Une écriture générique Conclusion Jean-Michel ROGER Les projections Orthogonales en Chimiométrie Introduction Row Projection Col Projections Perspectives Conclusion analyse de données sélection de variables Row projections pour l’analyse de données Les Row projections permettent de séparer les sources d’information : implicitement dans une ACP explicitement dans certains algorithmes, tels que NIPALS Le terme de ”déflation” est souvent utilisé dans ce cas Jean-Michel ROGER Les projections Orthogonales en Chimiométrie Introduction Row Projection Col Projections Perspectives Conclusion analyse de données sélection de variables Row projections pour la sélection de variables Les Row projections peuvent être utilisées dans une procédure stepwise, afin que les variables sélectionnées soient complémentaires. SPA (Galvao et al, 2006) la variable de variance maximale est sélectionnée X est projeté orthogonalement à la variable sélectionnée CovSel (Roger et al, 2010) la variable de covariance maximale avec Y est sélectionnée X ET Y sont projetés orthogonalement à la variable sélectionnée Jean-Michel ROGER Les projections Orthogonales en Chimiométrie Introduction Row Projection Col Projections Perspectives Conclusion analyse de données sélection de variables Algorithme CovSel 1 Rechercher la variable la plus proche de la réponse, par : I1 = ArgMaxi xTi YYT xi 2 L’information colinéaire à la variable sélectionnée est enlevée par Row projection de la matrice des prédicteurs et des réponses : X ← (In − xI1 (xTI1 xI1 )−1 xTI1 )X Y ← (In − xI1 (xTI1 xI1 )−1 xTI1 )Y 3 réitération jusqu’à un nombre prédéterminé de variables Jean-Michel ROGER Les projections Orthogonales en Chimiométrie Introduction Row Projection Col Projections Perspectives Conclusion analyse de données sélection de variables Caractéristiques de CovSel CovSel agit exactement comme la PLS, mais sur les variables canoniques au lieu des variables latentes Les variables sélectionnées sont complémentaires Plusieurs réponses peuvent être traitées simultanément La discrimination peut être traitée en plaçant les degrés d’appartenance dans Y L’évolution de la variance expliquée sur X et Y est informative Les calculs sont simples, rapides et déterministes Jean-Michel ROGER Les projections Orthogonales en Chimiométrie Introduction Row Projection Col Projections Perspectives Conclusion analyse de données sélection de variables Exemple de fonctionnement de CovSel CovSel appliqué à un ensemble de spectres NIR de maı̈s vs 4 réponses (eau, huile, amidon et protéine) http ://software.eigenvetor.om/Data/Corn Jean-Michel ROGER Les projections Orthogonales en Chimiométrie Introduction Row Projection Col Projections Perspectives Conclusion analyse de données sélection de variables Exemple de fonctionnement de CovSel Comparaison de CovSel de stepwise MLR appliquées à des spectres d’abricots en regard du degré Brix données : Sylvie BUREAU ; INRA Avignon Jean-Michel ROGER Les projections Orthogonales en Chimiométrie Introduction Row Projection Col Projections Perspectives Conclusion robustesse étalonnage Plan 1 2 3 4 5 Introduction Pourquoi la chimiométrie ? Pourquoi les projections ? Théorie Row Projections Pour l’analyse de données Pour la sélection de variables Col Projections Pour accroı̂tre la robustesse Pour l’étalonnage Perspectives Une écriture générique Conclusion Jean-Michel ROGER Les projections Orthogonales en Chimiométrie Introduction Row Projection Col Projections Perspectives Conclusion robustesse étalonnage Le problème de robustesse d’un point de vue géométrique Dans l’espace des colonnes : x Jean-Michel ROGER Les projections Orthogonales en Chimiométrie Introduction Row Projection Col Projections Perspectives Conclusion robustesse étalonnage Le problème de robustesse d’un point de vue géométrique Dans l’espace des colonnes : x b Jean-Michel ROGER Les projections Orthogonales en Chimiométrie Introduction Row Projection Col Projections Perspectives Conclusion robustesse étalonnage Le problème de robustesse d’un point de vue géométrique Dans l’espace des colonnes : x b xT b kbk Jean-Michel ROGER Les projections Orthogonales en Chimiométrie Introduction Row Projection Col Projections Perspectives Conclusion robustesse étalonnage Le problème de robustesse d’un point de vue géométrique Dans l’espace des colonnes : x yb = xT b b xT b kbk Jean-Michel ROGER Les projections Orthogonales en Chimiométrie Introduction Row Projection Col Projections Perspectives Conclusion robustesse étalonnage Le problème de robustesse d’un point de vue géométrique Dans l’espace des colonnes : δx x yb = xT b b δxT b kbk xT b kbk Jean-Michel ROGER Les projections Orthogonales en Chimiométrie Introduction Row Projection Col Projections Perspectives Conclusion robustesse étalonnage Le problème de robustesse d’un point de vue géométrique Dans l’espace des colonnes : δx x yb = xT b b δxT b kbk δ yb = δxT b xT b kbk Jean-Michel ROGER Les projections Orthogonales en Chimiométrie Introduction Row Projection Col Projections Perspectives Conclusion robustesse étalonnage Le problème de robustesse d’un point de vue analytique Une perturbation δx produit une erreur δ yb = δxT b |δ yb| = kδxk × kbk × | cos(δx, b)| δ yb peut être réduite par la maı̂trise de : kδxk kbk | cos(δx, b)| → → → Jean-Michel ROGER Prétraitements Étalonnage Orthogonalisation Les projections Orthogonales en Chimiométrie Introduction Row Projection Col Projections Perspectives Conclusion robustesse étalonnage Col projections pour améliorer la robustesse principe général Le sous espace contenant δx est estimé La base d’étalonnage est projetée orthogonalement à ce sous espace Un nouveau modèle est construit sur cette nouvelle base Ce modèle est quasi orthogonal à δx, ainsi | cos(δx, b)| est diminué. Jean-Michel ROGER Les projections Orthogonales en Chimiométrie Introduction Row Projection Col Projections Perspectives Conclusion robustesse étalonnage Col projections pour améliorer la robustesse Implémentation Soit D une matrice contenant des exemples de δx Une SVD sur D fournit une base P du sous espace d’influence Les données sont corrigées par : X̃ = X I − PPT Un nouveau modèle est calculé sur X̃ Jean-Michel ROGER Les projections Orthogonales en Chimiométrie Introduction Row Projection Col Projections Perspectives Conclusion robustesse étalonnage Col projections pour améliorer la robustesse Principaux Avantages Le modèle est indépendant de δx Le modèle continue de fonctionner si l’influence disparaı̂t La correction est embarquée dans le modèle Plusieurs influences peuvent être gérées Les loadings P sont informatifs Des bases de données existantes peuvent être traitées, indépendamment du logiciel d’étalonnage Différentes méthodes Correspondant à différentes manière d’identifier δx EPO, TOP, DOP, EROS, ... Jean-Michel ROGER Les projections Orthogonales en Chimiométrie Introduction Row Projection Col Projections Perspectives Conclusion robustesse étalonnage External Parameter Orthogonalization Principe La matrice D est construite par un plan d’expérience dédié Une collection d’échantillons (de composition inconnue) est mesurée à différents niveaux de la grandeur d’influence G Roger, JM, Chauchard, F., Bellon-Maurel V. EPO-PLS : external parameter orthoghonalization of multivariate calibration ; Chemolab, 55-3, 2003, pp 453-567 Jean-Michel ROGER Les projections Orthogonales en Chimiométrie Introduction Row Projection Col Projections Perspectives Conclusion robustesse étalonnage External Parameter Orthogonalization Exemple Application à l’effet de la température sur l’étalonnage de la mesure du Brix des pommes par spectrométrie NIR La variation de température (5 à 40o C) provoque un biais, complètement corrigé par la projection orthogonale. Jean-Michel ROGER Les projections Orthogonales en Chimiométrie Introduction Row Projection Col Projections Perspectives Conclusion robustesse étalonnage Dynamic Orthogonal Projection Principe Initialement dédié au suivi en ligne (projet IRVIN) On suppose que quelques y sont connus Les spectres qui auraient dû être mesurés sont calculés par interpolation sur la base d’étalonnage, en utilisant les y connus La matrice D est calculée comme la différence entre les spectres mesurés et les spectres estimés Zeaiter, M., Roger, JM, Bellon-Maurel V. DOP : external parameter orthoghonalization of multivariate calibration ; Chemolab, 55-3, 2003, pp 453-567 Jean-Michel ROGER Les projections Orthogonales en Chimiométrie Introduction Row Projection Col Projections Perspectives Conclusion robustesse étalonnage Dynamic Orthogonal Projection Exemple Effet année sur la mesure des protéines dans le blé Roger, JM, Chauchard, F., Williams, P.D. : Removing the block effects in calibration by means of dynamic orthogonal projection. Application to the year effect correction for wheat protein prediction. JNIRS, 16-3, 2008, pp 311-315 Jean-Michel ROGER Les projections Orthogonales en Chimiométrie Introduction Row Projection Col Projections Perspectives Conclusion robustesse étalonnage Dynamic Orthogonal Projection Exemple 2 Interférences chimiques en fermentation anaérobie Jean-Michel ROGER Les projections Orthogonales en Chimiométrie Introduction Row Projection Col Projections Perspectives Conclusion robustesse étalonnage Classification by Orthogonal Projection Principe Le sous espace de la LDA est donné par les vecteurs propres de W−1 B COP résout le problème d’inversion de W en la remplaçant par une Col projection orthogonale à W Avantages Produit des modèles plus simples que PLS-DA Produit des vecteurs discriminants orthonormés Est moins sensible au sur-ajustement JM Roger, DN Rutledge ; CAC conference, Budapest, 2012 / En cours de soumission à Chemolab Jean-Michel ROGER Les projections Orthogonales en Chimiométrie Introduction Row Projection Col Projections Perspectives Conclusion Un nouveau modèle Plan 1 2 3 4 5 Introduction Pourquoi la chimiométrie ? Pourquoi les projections ? Théorie Row Projections Pour l’analyse de données Pour la sélection de variables Col Projections Pour accroı̂tre la robustesse Pour l’étalonnage Perspectives Une écriture générique Conclusion Jean-Michel ROGER Les projections Orthogonales en Chimiométrie Introduction Row Projection Col Projections Perspectives Conclusion Un nouveau modèle Décomposition de l’espace de mesure Idée générale L’espace de mesure Rp contient un sous espace USEFUL et un sous espace HARMFUL : X = XU + R + XH Les prétraitements et les étalonnages agissent symétriquement : Le prétraitement identifie l’espace harmful et l’enlève, considérant le reste comme harmless L’étalonnage identifie l’espace useful et l’utilise, considérant le reste comme inutile JC Boulet ; Irstea PhD Thesis, 2010 Jean-Michel ROGER Les projections Orthogonales en Chimiométrie Introduction Row Projection Col Projections Perspectives Conclusion Un nouveau modèle Une écriture générique Soit P une base du sous espace harmful / useful Soit S une métrique de Rp XU et XH sont calculés avec la même projection XU/H = XSP(PT SP)−1 PT Prétraitement Étalonnage X ← X − XH b = T(TT T)−1 TT y T = Xu ; y X ← X(I − SP(PT SP)−1 PT ) b = SP(PT SP)−1 · · · PT SXT y JC Boulet, JM Roger, soumis à TRAC en 2013 Jean-Michel ROGER Les projections Orthogonales en Chimiométrie Introduction Row Projection Col Projections Perspectives Conclusion Un nouveau modèle Implémentations P S Jean-Michel ROGER Les projections Orthogonales en Chimiométrie Introduction Row Projection Col Projections Perspectives Conclusion Un nouveau modèle Implémentations P S I − K(KT K)−1 KT DC k k et K : spectres purs de Y et des autres molécules Jean-Michel ROGER Les projections Orthogonales en Chimiométrie Introduction Row Projection Col Projections Perspectives Conclusion Un nouveau modèle Implémentations P S I − K(KT K)−1 KT DC k C SB (XG XTG )−1 XG contient le bruit non relié à Y Jean-Michel ROGER Les projections Orthogonales en Chimiométrie Introduction Row Projection Col Projections Perspectives Conclusion Un nouveau modèle Implémentations P S I − K(KT K)−1 KT DC k I S BC SR OL (XG XTG )−1 I Même les modèles plus simples obéissent au modèle ... Jean-Michel ROGER Les projections Orthogonales en Chimiométrie Introduction Row Projection Col Projections Perspectives Conclusion Un nouveau modèle Implémentations P S I − K(KT K)−1 KT k DC I S BC SR OL (XG XTG )−1 R PC PPCA I PPCA : loadings d’une ACP sur X Jean-Michel ROGER Les projections Orthogonales en Chimiométrie Introduction Row Projection Col Projections Perspectives Conclusion Un nouveau modèle Implémentations P S I − K(KT K)−1 KT k DC I S BC SR OL (XG XTG )−1 R PPCA PLSR PPLS PC I (XT X)+ PPLS : loadings d’une PLS sur (X, Y) Jean-Michel ROGER Les projections Orthogonales en Chimiométrie Introduction Row Projection Col Projections Perspectives Conclusion Un nouveau modèle Implémentations P S I − K(KT K)−1 KT k DC I S BC SR OL (XG XTG )−1 R PPCA PLSR PPLS PC I (XT X)+ OSC POSC POSC : loadings d’une OSC sur (X, Y) Jean-Michel ROGER Les projections Orthogonales en Chimiométrie Introduction Row Projection Col Projections Perspectives Conclusion Un nouveau modèle Implémentations P S I − K(KT K)−1 KT k DC I S BC SR OL (XG XTG )−1 R PC PPCA L BL Corr I PLSR (XT X)+ OSC PPLS POSC Chaque colonne de i de L contient (1 · · · p)i−1 Jean-Michel ROGER Les projections Orthogonales en Chimiométrie Introduction Row Projection Col Projections Perspectives Conclusion Un nouveau modèle Implémentations P S I − K(KT K)−1 KT k DC I S BC SR OL (XG XTG )−1 R PPCA EPO PEPO PC L BL Corr I PLSR (XT X)+ OSC PPLS POSC PEPO , par SVD sur une matrice de δx Jean-Michel ROGER Les projections Orthogonales en Chimiométrie Introduction Row Projection Col Projections Perspectives Conclusion Un nouveau modèle Implémentations P S I − K(KT K)−1 KT k DC I S BC SR OL NAP BL Corr (XG XTG )−1 I R PC EPO OSC PNAP PEPO L PLSR (XT X)+ PPCA PPLS POSC PNAP , idem POSC , mais obtenu par un algorithme différent Jean-Michel ROGER Les projections Orthogonales en Chimiométrie Introduction Row Projection Col Projections Perspectives Conclusion Un nouveau modèle Implémentations P S I − K(KT K)−1 KT k DC I S BC SR OL NAP BL Corr (XG XTG )−1 I R PC EPO OSC PNAP PEPO L PLSR (XT X)+ PPCA PPLS POSC Mais on peut imaginer d’autres choix pour S et P ... Jean-Michel ROGER Les projections Orthogonales en Chimiométrie Introduction Row Projection Col Projections Perspectives Conclusion Un nouveau modèle Implémentations P S I − K(KT K)−1 KT I DC IDC C SB SR OL NAP BL Corr (XT X)+ OSC I − R(RT R)−1 RT (XG XTG )−1 k I R PC EPO PPCA PNAP PEPO L PLSR PPLS POSC JC Boulet, JM Roger, Improved Direct Calibration, ACA, Vol 668-2, pp 130-136 Jean-Michel ROGER Les projections Orthogonales en Chimiométrie Introduction Row Projection Col Projections Perspectives Conclusion Plan 1 2 3 4 5 Introduction Pourquoi la chimiométrie ? Pourquoi les projections ? Théorie Row Projections Pour l’analyse de données Pour la sélection de variables Col Projections Pour accroı̂tre la robustesse Pour l’étalonnage Perspectives Une écriture générique Conclusion Jean-Michel ROGER Les projections Orthogonales en Chimiométrie Introduction Row Projection Col Projections Perspectives Conclusion Conclusion Les projections orthogonales sont des outils de base pour : L’analyse de données, la sélection de variables, l’amélioration de la robustesse Elles permettent d’introduire des connaissances externes dans l’étalonnage À faire prochainement : coupler les Col projections et la sélection de variables imaginer de nouveaux moyens de produire D dériver de nouvelles méthodes à partir du modèle général Jean-Michel ROGER Les projections Orthogonales en Chimiométrie