Notes - UPMC
Transcription
Notes - UPMC
INTRODUCTION À L’ANALYSE MULTIVARIABLE Yves Desdevises Observatoire Océanologique de Banyuls 04 68 88 73 13 [email protected] http://desdevises.free.fr 1 Généralités • En écologie, on a souvent affaire à des objets caractérisés par un grand nombre de variables Variables = descripteurs = dimensions Objets = éléments Longueur Hauteur L. tête D. oeil Masse ... Variable p Individu 1 Mesure 1,1 Individu 2 Mesure 2,1 Individu 3 ... Mesure i,j Individu n Mesure n,p 2 Analyse multivariable • Problème : visualisation des données en plus de 3 dimensions ? ur te Hau te O Masse O O O Tê Masse O O Longueur l Oei Longueur 3 Types de méthodes • Ordination : recherche de gradients • Groupement : recherche de discontinuités (partitions) dans les ensembles de données 1 n Ce ne sont pas des statistiques : pas de tests 4 Quelques définitions • Objet = observation = élément = unité d’échantillonnage : élément sur lequel on mesure des caractéristiques (variables) • Echantillon : ensemble des objets • Variable = descripteur : caractéristique mesurée ou observée sur les objets. Ex : longueur, température, ... • Paramètre : caractéristique quantitative permettant une représentation condensée d’information contenue dans un ensemble de données. Ex : moyenne, pente, ... • Variance = inertie : somme des carrés des écarts à la moyenne/nombre d’objets (paramètre de dispersion) 5 Différents types de variables • Binaire : 2 états. Ex : présence-absence • Multiple : plus de 2 états • Non-ordonnée = nominale. Ex : couleur • Ordonnée • Semi-quantitative = ordinale = de rang. Ex : classes • Quantitative • Discontinue = discrète. Ex : nombre d’individus • Continue. Ex : longueur 6 Transformations • Il est parfois judicieux (ou nécessaire) de transformer les variables • Standardisation (= centrage et réduction) : rendre les mesures comparables • Normalisation • Linéarisation • Pondération 7 Covariance et corrélation • Covariance : dispersion des 2 variables • “Variance” de 2 variables simultanées • Non bornée • Peut être négative • Pas d’indication sur l’intensité de liaison 8 • Mesure de la liaison linéaire entre 2 variables : corrélation linéaire de Pearson • Covariance sur données centrées-réduites • Même signe que la covariance • Varie entre -1 et 1 9 Matrices d’association Objets Objets Objets Variables Objets X Objets Ressemblance Variables Variables Variables X Variables Dépendance 10 Mesure de similarité • Problème du double zéro • La présence de la valeur 0 dans deux objets implique-t-elle leur ressemblance ? • Oui : indices symétriques • Non : indices asymétriques 11 • Indice de similarité binaires symétriques • Coefficient de simple concordance (S1) Bois Peint > 1 kg Objet 1 1 1 0 Objet 2 1 0 0 Objet 3 0 1 1 Objet 4 1 1 0 S1 entre objets 1 et 2 : & & nombre de descripteurs à valeur identique = 2 nombre total de descripteurs = 3 S1 = 2/3 = 0,67 12 • Matrice de similarité Objet 1 Objet 1 Objet 2 Objet 3 1 0,67 0,33 1 1 0 0,67 1 0,33 Objet 2 Objet 3 Objet 4 Objet 4 1 13 a : nombre de “1” dans les 2 objets b : nombre de “1” dans l’objet 1 c : nombre de “1” dans l’objet 2 d : nombre de “0” dans les 2 objets Objet 2 Objet 1 1 0 1 a c 0 b d a + b + c + d = nombre total de descripteurs a et d : ressemblances b et c : différences • S1 = (a + d)/(a + b + c + d) • S2 = (a + d)/(a + 2b + 2c + d) • S3 = (2a + 2d)/(2a + b + c + 2d) 14 • Indices de similarité binaires asymétriques • Coefficient de communauté de Jaccard (S7) • S7 = a/(a + b + c) Espèce 1 Espèce 2 Espèce 3 Site 1 1 1 0 Site 2 1 0 0 Site 3 0 1 1 Site 4 1 1 0 Site 1 Site 2 Site 3 1 0,5 0,33 1 1 0 0,5 1 0,33 1 Site 1 Site 2 Site 3 Site 4 Site 4 15 • Indices de similarité quantitatifs asymétriques • Coefficient de Steinhaus (S17) sp 1 sp 2 sp 3 sp 4 sp 5 sp 6 A Site 1 70 3 4 5 1 0 83 Site 2 64 4 7 4 3 0 Minima 64 3 4 4 1 0 B W 82 76 S17& = W/((A + B)/2) = 2W/(A + B) Ex : S17 = (2 X 76)/(83 + 82) = 0,921 16 Mesure de distance • Coefficient de distance métrique • Si a = b, D(a,b) = 0 • Si a ≠ b, D(a,b) > 0 • D(a,b) = D(b,a) • D(a,b) + D(b,c) ≥ D(a,c) • Coefficients semi-métriques • N’obéissent pas à la quatrième propriété 17 • Coefficient de distance métriques Fécondité • Distance Euclidienne (D1) Taille (mm) Fécondité Parasite 1 25 70 Parasite 2 12 30 P1 ● 70 D1 30 P2 ● 12 25 D1(P1,P2) = √((T1 - T2)2 + (F1 - F2)2) = √((25 - 12)2 + (70 - 30)2) = 42,1 & & Taille 18 Y1 Y2 X1 Y11 Y21 ... Yi1 Yi X2 Y12 Y22 Yi2 2 • D1& = √(Σ(yi1 - yi2) ) • Problèmes : • D1 est sensible au double-zéro • D1 est sensible à l’échelle des variables • On standardise souvent les variables avant le calcul de D1 19 • D2 = (1/√n)D1 • Distance de corde (D3) et métrique géodésique (D4) • Non affectées par le double-zéro • D3 bornée à √2 • D = arc cos (1 - (D 2 / 2)) 4 3 Espèce 2 1 Echantillon 1 D3 D4 Echantillon 2 1 Espèce 1 20 • Coefficient de distance semi-métriques • Distance de Bray-Curtis (D14) = 1 - S17 • Appelée différence de pourcentage • Très utilisée pour les abondances d’espèces 21 Coefficients de dépendance • Ils existent pour différents types de variables • Quantitatives • Semi-quantitatives • Qualitatives 22 • Coefficients de dépendance pour variables quantitatives • Covariance : dispersion des 2 variables • Corrélation : intensité de la liaison 23 Variables Variables Objets Variables S2 S2,1 S2 S5,2 S2 S 2 S 2 Matrice de dispersion ou de variance-covariance Variables Variables 1 r2,1 1 1 r4,3 Matrice de corrélation 1 1 24 • Coefficients pour variables semi-quantitatives • Basés sur les rangs • ρ de Spearman • Equivalent au r de Pearson calculé sur les rangs des variables originales • Efficacité (/r) = 0,91 • Varie entre -1 et 1 • τ de Kendall • Permet le calcul de corrélations partielles • Varie entre -1 et 1 25 • Coefficient de dépendance pour variables qualitatives • Le χ2 • Tableau de contingence • Exemple Parasites Hôtes Espèce 1 Espèce 1 x11 Espèce 3 x1. x22 Espèce 2 Espèce 3 Espèce 2 xi1 x.1 x.2 x2. xik xi. x.k x.. Certains parasites sont-ils associés à certains hôtes ? 26 • Mesure d’association : χ2 Variable 1 Variable 2 Modalité 1 Modalité 2 Modalité k Modalité 1 x11 Modalité 2 Modalité i x1. x x 22 xi1 x.1 xik x.2 x.k 2. xi. x.. Valeur “espérée” si indépendance des variables E = (x . x )/x i. .k .. 2 2 χ = Σ((O-E) /E) avec O = valeur observée test statistique possible (ν = (i-1)(k-1)) 27 Ordination en espace réduit • Représentation de n objets sur lesquels on a mesuré p variables (avec généralement p < n) • But : passer d’un espace multidimensionnel complexe à un espace comprenant moins de dimensions (2 voire 3) plus simple • L’ensemble des données (objets et/ou variables) sera représenté (ordonné) dans cet espace réduit • Problème : comment choisir ces dimensions ? 28 Le nuage de points • Les points-objets forment dans le repère d’origine (les p dimensions) une hypere"ipsoïde • Si la distribution des objets est multinormale, on connaît certaines propriétés mathématiques du nuage de points (les méthodes d’ordination sont assez robustes) • Ces propriétés vont être utilisées pour choisir les meilleures dimensions représentant la variabilité des données 29 • La forme du nuage de points dépend des relations entre les variables r = 0,7 r = -0,3 r=0 r=1 30 Axes principaux • On peut établir les axes passant par le maximum de variance du nuage de points • Ils s’ajustent au nuage de points selon le critère des moindres carrés • Chaque axe est perpendiculaire aux autres (donc ils sont linéairement indépendants) • Ces axes sont des combinaisons linéaires des variables d’origine • On les appelle les axes principaux (parfois facteurs) 31 Masse Axe Principal 1 Axe Principal 2 Longueur H au te u r 32 Valeur propre et vecteur propre • A chaque axe sont associés une valeur propre et un vecteur propre • Valeur propre (λ) : variance exprimée par l’axe • Vecteur propre (u) : direction de l’axe • La variance exprimée par un plan formé par deux axes principaux est la somme des variances (valeurs propres) exprimées par ces axes • Il y a autant de λ et de u que de variables d’origine : “redécoupage” et hiérarchisation de la variance 33 Coordonnées dans le nouveau système d’axes : composantes principales Axe Principal 1 λ1 = 50 % u 2 u 1 Axe Principal 2 λ2 = 30 % Plan 1 X 2 : 80 % de la variance totale du nuage de points 34 • Passage en espace réduit : projection des points sur le plan exprimant le maximum de variance (1 X 2) • Le plan 1 X 2 peut ne pas suffire, on peut alors utiliser d’autres projections (1 X 3, 2 X 3) Axe 3 Axe 2 ++ ++ + Axe 1 Axe 1 + + + ++ 35 • Mise en évidence des : • Ressemblances entre les objets (observations) • Ressemblances entre les variables • Relations entre les variables et les observations • Ordination sans contrainte : toute la variation du nuage de points (l’hyperellipsoïde) est exprimée puis interprétée a posteriori (analyse indirecte) 36 Analyse en composantes principales (ACP) • Pour des données quantitatives ou semi-quantitatives • Suppose une relation linéaire ou monotone entre les variables • Utilisable avec des abondances d’espèces avec certaines transformations (ex. Legendre & Gallagher 2001) • Transpose un nuage de points-objets, situé dans un espace multidimensionnel complexe, dans un sous-espace plus simple, pour observer graphiquement les relations entre les objets 37 Principales étapes du calcul • Matrice de données de départ : centrage ou centrage et réduction des données • Calcul de la matrice de covariance (= matrice de corrélation si données standardisées, c’est le cas général) • Calcul des valeurs propres et vecteurs propres à partir de cette matrice • Calcul des nouvelles coordonnées des objets dans le repère formé par les axes principaux : ce sont les composantes principales • Projection des points dans un espace réduit, en général les deux premiers axes • Calcul des coordonnées des descripteurs originaux dans le nouveau repère 38 • Diagramme d’ordination : projection sur le plan choisi • Diagramme de double projection dans l’espace réduit (= biplot) : objets et descripteurs II Descripteurs I Objets 39 Interprétation dans l’espace réduit • Position des objets • Proximité des points : préserve la distance Euclidienne • Position des descripteurs • Flèches se terminant sur les points-descripteurs • Angle entre les flèches : covariance ou corrélation • Interpréter les descripteurs ayant suffisamment d’influence sur le plan de projection : dépassant le cercle des contributions équilibrées (longueur des axes si contribution égale à chaque dimension) et proches du cercle de rayon 1 (pour une matrice de corrélation) 40 Cercle des contributions équilibrées II I Cercle de rayon 1 41 • Projection des objets sur les descripteurs : contribution de l’objet à l’axe-descripteur. Plus la projection est loin du centre, plus la valeur est loin de la moyenne II I 42 • Pour un angle α entre deux variables i et j : cosα = rij • Entre une variable i et un axe principal k, l’abscisse de i sur k (projection) est égal à rik, pour des variables centrées-réduites (matrice de corrélation) II α V1 rV1,II I 43 Les deux principaux types d’ACP • Vecteurs propres normés à 1 • Les distances entre les objets sont interprétables • Angles entre descripteurs non interprétables • Vecteurs propres normés à √λ • Angles entre descripteurs = corrélations • Distances entre objets non préservées 44 Exemple Variables Individus II u normés à √λ : angles = corrélations u normés à 1 : proximités = distances Biplot I Variables = descripteurs Individus = objets II Cercle des contributions équilibrées Cercle de rayon 1 I 45 Analyse factorielle de correspondances (AFC) • Même principe que l’ACP • Pour variables qualitatives, binaires, semi-quantitatives et quantitatives • Typiquement : étude des relations entre deux variables nominales • Données sous forme de tableau de contingence : l’analyse cherche à mettre en évidence les correspondances (relations) entre les lignes et les colonnes 46 Variable qualitative (ex : forme) • Tableau de contingence Variable qualitative (ex : couleur) Rouge Rond Fréquence 1,1 Carré Fréquence 2,1 Bleu Vert ... Jaune Triangle ... Fréquence i,j Ovale Fréquence n,p 47 • En écologie : traitement des données d’abondance d’espèces (descripteurs ici) Espèces Stations Trucus S1 Fréquence 1,1 S2 Fréquence 2,1 Machinus Bidulus ... Exempla S3 ... S4 Fréquence i,j Fréquence n,p Idée sous-jacente : expliquer la répartition des stations et/ou des espèces selon des critères écologiques 48 • Préserve la distance du χ2 entre les points • Non affectée par le problème du double-zéro • Suppose une relation unimodale avec les variables environnementales 49 Principales étapes du calcul • Transformation des fréquences absolues en probabilités : fréquences relatives centrées fij Σ = fi. pij = fij/f.. pi. = fi./f.. p.j = f.j/f.. Σ=1 ➡ Σ = f.. Fréquences absolues ➡ Σ = f.j qij Q Fréquences relatives Avec qij = (pij - pi.p.j)/ √pi.p.j soit - centrage (- fréquence théorique) - pondération Fréquences relatives centrées 50 • Calcul de la matrice de covariance à partir de la matrice Q • Calcul des valeurs propres et vecteurs propres à partir de cette matrice de covariance • Calcul des nouvelles coordonnées des objets dans le repère formé par les axes principaux • Projection des points dans un espace réduit, en général les deux premiers axes • On peut placer les lignes et les colonnes du tableau de contingence dans le même espace factoriel 51 • Inertie totale = I = Σλ • On peut effectuer un test d’indépendance des deux variables • Test du χ2, avec (n-1)(p-1) degrés de liberté • χ2 = npI avec np = effectif total • H0 : quelle que soit la station, la distribution des espèces est la même • H0 : quelle que soit l’espèce, la répartition selon les stations est la même 52 Interprétation dans l’espace réduit • Variance du plan liée à celles des valeurs propres • Comme en ACP, on peut ne placer que les sites (objets) ou les espèces (descripteurs) sur le diagramme ; ou les deux (biplot) • Proximité entre objets (stations) et descripteurs (espèces) : ressemblance. Attention, cela est fonction de la variance exprimée par le plan considéré • Plus les points sont proches du centre, plus ils sont proches des caractéristiques moyennes de l’échantillon 53 • Interprétation des axes principaux en terme de facteurs écologiques, en relation avec la projection des objets et des descripteurs (comme ACP) • Relations de type barycentrique. On a deux options pour la projection : • Type I. Placer les lignes (sites) au barycentre (= centroïde) des colonnes (espèces) : meilleure ordination des sites 54 • Type II. L’inverse donne une meilleure ordination des espèces : • Espèces placées au centre de gravité (= barycentre = centroïde) des sites où elles sont présentes • Chaque site est pondéré par la fréquence relative de l’espèce considérée • Les points-espèces sont donc plus proches des points-sites où leur occurrence est la plus forte 55 Fréquence relative du site 8 pour l’espèce 11 : rareté à ce site Espèce 4 Fréquence relative de l’espèce 3 au site 5 : occurrence forte Espèce 2 Site 5 Espèce 11 Espèce 3 Espèce 9 Site 8 Site 12 Site 9 Site 2 Espèce 19 Type I Type II 56 Exemple Descripteurs = espèces II Sites Espèces I Objets = stations 57 Ordination sur matrices de distances • Analyse en coordonnées principales (PCoA) : permet l’utilisation de beaucoup de coefficients. Méthode basée sur les vecteurs propres pour représenter objets ou variables • Nonmetric multidimensional scaling (NMDS) : méthode non basée sur les vecteurs propres, place les objets dans un repère comportant un nombre prédéfini d’axes, en minimisant une fonction de stress (0 à 1, bien si ≤ 0,2). Fonctionne avec des valeurs manquantes. Procédé itératif assez intense en calcul 58 Groupements 1 n • Recherche des discontinuités dans les ensembles de données • Méthodes hiérarchiques (arbre) ou non (groupes) • Méthodes agglomératives (part des objets séparés, ajoutés séquentiellement) ou divisives (part de l'ensemble des objets, divisés en groupes) 59 Exemple • Classification écologique de prélèvements (1-5) sur la base des abondances des espèces présentes • Mesure de distance : D14 • On obtiendrait exactement la même chose avec S17 • Idée sous-jacente : les milieux partageant les mêmes espèces sont “écologiquement proches” 60 Groupement agglomératif à liens • Groupement agglomératif à liens simples • Lien avec un seul élément du groupe ________________________________________ 2 3 4 5 D14 0.0 0.1 0.2 0.3 0.4 Paires formées 1-2 1-3 3-4 2-4 2-3 1-4 2-5 3-5 4-5 1-5 0,20 0,25 0,30 0,35 0,40 0,45 0,50 0,60 0,70 0,80 1 0.20 0.25 0.45 0.80 2 0.40 0.35 0.50 3 0.30 0.60 4 0.70 ________________________________________ 0.5 1 2 3 4 61 5 • Groupement agglomératif à liens complets • Lien avec tous les éléments du groupe ________________________________________ 2 3 4 5 D14 1 0.20 0.25 0.45 0.80 2 0.40 0.35 0.50 3 0.30 0.60 4 0.70 ________________________________________ 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0,20 0,25 0,30 0,35 0,40 0,45 0,50 0,60 0,70 0,80 0.8 1 2 Paires formées 1-2 1-3 3-4 2-4 2-3 1-4 2-5 3-5 4-5 1-5 3 4 5 62 • Liens simples : contracte l’espace entre objets (enchaînements) • Liens complets : dilate l’espace entre les objets (groupes bien séparés) 0.0 0.1 0.2 0.3 0.4 0.5 0.0 0.1 0.2 0.3 0.4 0.5 1 2 3 4 5 0.6 0.7 0.8 1 2 3 4 63 5 • Groupement agglomératif à liens intermédiaires • Lien avec une proportion donnée des éléments du groupe • Proportion = connexité. Varie entre 0 (liens simples) et 1 (liens complets) Connexité = 0,5 0.0 0.1 0.2 0.3 0.4 0.5 1 2 3 4 5 64 Groupement agglomératif moyen • Groupement selon l’association moyenne • UPGMA (unweighted pair-group method using arithmetic average) • Chaque élément du groupe garde le même poids pendant l’analyse • La matrice d’association est reformée à chaque étape (≠ groupement à liens) • Chaque nouveau groupe formé est remplacé par sa valeur moyenne Objets 2 1 1 2 - 0.20 1 - 3 3 4 5 0.25 0.45 0.80 0.40 0.35 0.50 - 0.30 0.60 - 0.70 0.40 0.65 1 0.30 4 5 - 1-2 2 - 0.325 3 0.60 2 0.70 3 5 - 4 - 0.3625 0.65 3-4 0.1 0.2 0.3 0.4 0.5 0.6 5 0.65 5 4 0.0 4 1-2 3 65 - 1-2-3-4 - 0.65 5 - 66 Méthode de Ward • Hiérarchique et agglomérative • Sur données brutes ou matrice de distance • Minimise la somme des carrés des distances au centroïde de chaque groupe (variance à l’intérieur de chaque groupe) si appliquée aux données brutes, ou la somme des carrés des distances entre paires si appliquée à une matrice de distance • Distances Euclidiennes (double zéro) sur données brutes (méthode originale), ou tout type de distance si matrice de distance 67 K-means • Non hiérarchique • Méthode divisive • Nombre de groupes défini par l'utilisateur • Minimise la variance intragroupe des données brutes • Distances Euclidiennes (double zéro) 68 Références • • • Sites web • The Ordination Web Page : http://ordination.okstate.edu/ • Page de Pierre Legendre : http://www.bio.umontreal.ca/legendre/index.html Livres • Legendre P, & Legendre L. 2012. Numerical Ecology. Third English Edition. Developments in Environmental Modelling, 20. Elsevier. 1006 pp. • Borcard D, Gillet F, Legendre P. 2011. Numerical Ecology with R. Springer. 302 pp. • Jongman RHG, ter Braak CJF & van Tongeren OFR. 1995. Data analysis in community and landscape ecology. Cambridge University Press, Cambridge. • Frontier S, Davoult V, Gentilhomme V & Lagadeuc Y. 2001. Statistiques pour les sciences de la vie et de l’environnement. Cours et exercices corrigés. Dunod. 378 pp. 69 Logiciels • R (http://www.r-project.org) • XLStat (http://www.xlstat.com) • Canoco (http://www.canoco.com/) • Logiciels de Pierre Legendre (http://www.bio.umontreal.ca/legendre/index.html#FonctionsR) • ADE-4 (http://pbil.univ-lyon1.fr/ADE-4/) 70