Notes - UPMC

Transcription

Notes - UPMC
INTRODUCTION À
L’ANALYSE
MULTIVARIABLE
Yves Desdevises
Observatoire Océanologique de Banyuls
04 68 88 73 13
[email protected]
http://desdevises.free.fr
1
Généralités
• En écologie, on a souvent affaire à des objets caractérisés
par un grand nombre de variables
Variables = descripteurs = dimensions
Objets = éléments
Longueur
Hauteur
L. tête
D. oeil
Masse
...
Variable p
Individu 1 Mesure 1,1
Individu 2 Mesure 2,1
Individu 3
...
Mesure i,j
Individu n
Mesure n,p
2
Analyse multivariable
• Problème : visualisation des données en plus de 3
dimensions
?
ur
te
Hau
te
O
Masse
O
O
O
Tê
Masse
O
O
Longueur
l
Oei
Longueur
3
Types de méthodes
• Ordination : recherche de gradients
• Groupement : recherche de discontinuités (partitions) dans
les ensembles de données
1
n
Ce ne sont pas des statistiques : pas de tests
4
Quelques définitions
• Objet = observation = élément = unité d’échantillonnage :
élément sur lequel on mesure des caractéristiques
(variables)
• Echantillon : ensemble des objets
• Variable = descripteur : caractéristique mesurée ou
observée sur les objets. Ex : longueur, température, ...
• Paramètre : caractéristique quantitative permettant une
représentation condensée d’information contenue dans un
ensemble de données. Ex : moyenne, pente, ...
• Variance = inertie : somme des carrés des écarts à la
moyenne/nombre d’objets (paramètre de dispersion)
5
Différents types de variables
• Binaire : 2 états. Ex : présence-absence
• Multiple : plus de 2 états
• Non-ordonnée = nominale. Ex : couleur
• Ordonnée
• Semi-quantitative = ordinale = de rang. Ex : classes
• Quantitative
• Discontinue = discrète. Ex : nombre d’individus
• Continue. Ex : longueur
6
Transformations
• Il est parfois judicieux (ou nécessaire) de transformer
les variables
• Standardisation (= centrage et réduction) : rendre
les mesures comparables
• Normalisation
• Linéarisation
• Pondération
7
Covariance et corrélation
• Covariance : dispersion des 2
variables
• “Variance” de 2 variables
simultanées
• Non bornée
• Peut être négative
• Pas d’indication sur l’intensité de
liaison
8
• Mesure de la liaison linéaire entre 2 variables :
corrélation linéaire de Pearson
• Covariance sur données centrées-réduites
• Même signe que la covariance
• Varie entre -1 et 1
9
Matrices d’association
Objets
Objets
Objets
Variables
Objets X Objets
Ressemblance
Variables
Variables
Variables X Variables
Dépendance
10
Mesure de similarité
• Problème du double zéro
• La présence de la valeur 0 dans deux objets
implique-t-elle leur ressemblance ?
• Oui : indices symétriques
• Non : indices asymétriques
11
• Indice de similarité binaires symétriques
• Coefficient de simple concordance (S1)
Bois
Peint
> 1 kg
Objet 1
1
1
0
Objet 2
1
0
0
Objet 3
0
1
1
Objet 4
1
1
0
S1 entre objets 1 et 2 :
&
&
nombre de descripteurs à valeur identique = 2
nombre total de descripteurs = 3
S1 = 2/3 = 0,67
12
• Matrice de similarité
Objet 1
Objet 1
Objet 2
Objet 3
1
0,67
0,33
1
1
0
0,67
1
0,33
Objet 2
Objet 3
Objet 4
Objet 4
1
13
a : nombre de “1” dans les 2 objets
b : nombre de “1” dans l’objet 1
c : nombre de “1” dans l’objet 2
d : nombre de “0” dans les 2 objets
Objet 2
Objet 1
1
0
1
a
c
0
b
d
a + b + c + d = nombre total de descripteurs
a et d : ressemblances
b et c : différences
• S1 = (a + d)/(a + b + c + d)
• S2 = (a + d)/(a + 2b + 2c + d)
• S3 = (2a + 2d)/(2a + b + c + 2d)
14
• Indices de similarité binaires asymétriques
• Coefficient de communauté de Jaccard (S7)
• S7 = a/(a + b + c)
Espèce 1
Espèce 2
Espèce 3
Site 1
1
1
0
Site 2
1
0
0
Site 3
0
1
1
Site 4
1
1
0
Site 1
Site 2
Site 3
1
0,5
0,33
1
1
0
0,5
1
0,33
1
Site 1
Site 2
Site 3
Site 4
Site 4
15
• Indices de similarité quantitatifs asymétriques
• Coefficient de Steinhaus (S17)
sp 1
sp 2
sp 3
sp 4
sp 5
sp 6
A
Site 1
70
3
4
5
1
0
83
Site 2
64
4
7
4
3
0
Minima
64
3
4
4
1
0
B
W
82
76
S17& = W/((A + B)/2) = 2W/(A + B)
Ex : S17 = (2 X 76)/(83 + 82) = 0,921
16
Mesure de distance
• Coefficient de distance métrique
• Si a = b, D(a,b) = 0
• Si a ≠ b, D(a,b) > 0
• D(a,b) = D(b,a)
• D(a,b) + D(b,c) ≥ D(a,c)
• Coefficients semi-métriques
• N’obéissent pas à la quatrième propriété
17
• Coefficient de distance métriques
Fécondité
• Distance Euclidienne (D1)
Taille (mm)
Fécondité
Parasite 1
25
70
Parasite 2
12
30
P1
●
70
D1
30
P2
●
12
25
D1(P1,P2) = √((T1 - T2)2 + (F1 - F2)2)
= √((25 - 12)2 + (70 - 30)2)
= 42,1
&
&
Taille
18
Y1
Y2
X1
Y11
Y21
...
Yi1
Yi
X2
Y12
Y22
Yi2
2
• D1& = √(Σ(yi1 - yi2) )
• Problèmes :
• D1 est sensible au double-zéro
• D1 est sensible à l’échelle des variables
• On standardise souvent les variables avant le calcul de D1
19
• D2 = (1/√n)D1
• Distance de corde (D3) et métrique géodésique (D4)
• Non affectées par le double-zéro
• D3 bornée à √2
• D = arc cos (1 - (D 2 / 2))
4
3
Espèce 2
1
Echantillon 1
D3
D4
Echantillon 2
1
Espèce 1
20
• Coefficient de distance semi-métriques
• Distance de Bray-Curtis (D14) = 1 - S17
• Appelée différence de pourcentage
• Très utilisée pour les abondances d’espèces
21
Coefficients de dépendance
• Ils existent pour différents types de variables
• Quantitatives
• Semi-quantitatives
• Qualitatives
22
• Coefficients de dépendance pour variables
quantitatives
• Covariance : dispersion des 2 variables
• Corrélation : intensité de la liaison
23
Variables
Variables
Objets
Variables
S2 S2,1
S2
S5,2
S2
S
2
S
2
Matrice de dispersion
ou de variance-covariance
Variables
Variables
1
r2,1
1
1
r4,3
Matrice de corrélation
1
1
24
• Coefficients pour variables semi-quantitatives
• Basés sur les rangs
• ρ de Spearman
• Equivalent au r de Pearson calculé sur les rangs des
variables originales
• Efficacité (/r) = 0,91
• Varie entre -1 et 1
• τ de Kendall
• Permet le calcul de corrélations partielles
• Varie entre -1 et 1
25
• Coefficient de dépendance pour variables qualitatives
• Le χ2
• Tableau de contingence
• Exemple
Parasites
Hôtes
Espèce 1
Espèce 1
x11
Espèce 3
x1.
x22
Espèce 2
Espèce 3
Espèce 2
xi1
x.1
x.2
x2.
xik
xi.
x.k
x..
Certains parasites sont-ils associés à certains hôtes ?
26
• Mesure d’association : χ2
Variable 1
Variable 2
Modalité 1 Modalité 2 Modalité k
Modalité 1
x11
Modalité 2
Modalité i
x1.
x
x
22
xi1
x.1
xik
x.2
x.k
2.
xi.
x..
Valeur “espérée” si indépendance des variables
E = (x . x )/x
i. .k ..
2
2
χ = Σ((O-E) /E)
avec O = valeur observée
test statistique possible (ν = (i-1)(k-1))
27
Ordination en espace réduit
• Représentation de n objets sur lesquels on a mesuré p
variables (avec généralement p < n)
• But : passer d’un espace multidimensionnel complexe à
un espace comprenant moins de dimensions (2 voire 3)
plus simple
• L’ensemble des données (objets et/ou variables) sera
représenté (ordonné) dans cet espace réduit
• Problème : comment choisir ces dimensions ?
28
Le nuage de points
• Les points-objets forment dans le repère d’origine (les
p dimensions) une hypere"ipsoïde
• Si la distribution des objets est multinormale, on connaît
certaines propriétés mathématiques du nuage de points
(les méthodes d’ordination sont assez robustes)
• Ces propriétés vont être utilisées pour choisir les
meilleures dimensions représentant la variabilité des
données
29
• La forme du nuage de points dépend des relations entre les
variables
r = 0,7
r = -0,3
r=0
r=1
30
Axes principaux
• On peut établir les axes passant par le maximum de
variance du nuage de points
• Ils s’ajustent au nuage de points selon le critère des
moindres carrés
• Chaque axe est perpendiculaire aux autres (donc ils sont
linéairement indépendants)
• Ces axes sont des combinaisons linéaires des variables
d’origine
• On les appelle les axes principaux (parfois facteurs)
31
Masse
Axe Principal 1
Axe Principal 2
Longueur
H
au
te
u
r
32
Valeur propre et vecteur propre
• A chaque axe sont associés une valeur propre et un
vecteur propre
• Valeur propre (λ) : variance exprimée par l’axe
• Vecteur propre (u) : direction de l’axe
• La variance exprimée par un plan formé par deux axes
principaux est la somme des variances (valeurs propres)
exprimées par ces axes
• Il y a autant de λ et de u que de variables d’origine :
“redécoupage” et hiérarchisation de la variance
33
Coordonnées dans le nouveau
système d’axes : composantes
principales
Axe Principal 1
λ1 = 50 %
u
2
u
1
Axe Principal 2
λ2 = 30 %
Plan 1 X 2 : 80 % de la variance totale du nuage de points
34
• Passage en espace réduit : projection des points sur le
plan exprimant le maximum de variance (1 X 2)
• Le plan 1 X 2 peut ne pas suffire, on peut alors utiliser
d’autres projections (1 X 3, 2 X 3)
Axe 3
Axe 2
++
++
+
Axe 1
Axe 1
+
+ +
++
35
• Mise en évidence des :
• Ressemblances entre les objets (observations)
• Ressemblances entre les variables
• Relations entre les variables et les observations
• Ordination sans contrainte : toute la variation du
nuage de points (l’hyperellipsoïde) est exprimée
puis interprétée a posteriori (analyse indirecte)
36
Analyse en composantes
principales (ACP)
• Pour des données quantitatives ou semi-quantitatives
• Suppose une relation linéaire ou monotone entre les
variables
• Utilisable avec des abondances d’espèces avec certaines
transformations (ex. Legendre & Gallagher 2001)
• Transpose un nuage de points-objets, situé dans un espace
multidimensionnel complexe, dans un sous-espace plus
simple, pour observer graphiquement les relations entre
les objets
37
Principales étapes du calcul
•
Matrice de données de départ : centrage ou centrage et réduction
des données
•
Calcul de la matrice de covariance (= matrice de corrélation si
données standardisées, c’est le cas général)
•
Calcul des valeurs propres et vecteurs propres à partir de cette
matrice
•
Calcul des nouvelles coordonnées des objets dans le repère formé
par les axes principaux : ce sont les composantes principales
•
Projection des points dans un espace réduit, en général les deux
premiers axes
•
Calcul des coordonnées des descripteurs originaux dans le
nouveau repère
38
• Diagramme d’ordination : projection sur le plan choisi
• Diagramme de double projection dans l’espace réduit (=
biplot) : objets et descripteurs
II
Descripteurs
I
Objets
39
Interprétation dans l’espace réduit
• Position des objets
• Proximité des points : préserve la distance Euclidienne
• Position des descripteurs
• Flèches se terminant sur les points-descripteurs
• Angle entre les flèches : covariance ou corrélation
• Interpréter les descripteurs ayant suffisamment
d’influence sur le plan de projection : dépassant le cercle
des contributions équilibrées (longueur des axes si
contribution égale à chaque dimension) et proches du
cercle de rayon 1 (pour une matrice de corrélation)
40
Cercle des contributions
équilibrées
II
I
Cercle de rayon 1
41
• Projection des objets sur les descripteurs :
contribution de l’objet à l’axe-descripteur. Plus la
projection est loin du centre, plus la valeur est loin de
la moyenne
II
I
42
• Pour un angle α entre deux variables i et j : cosα = rij
• Entre une variable i et un axe principal k, l’abscisse
de i sur k (projection) est égal à rik, pour des variables
centrées-réduites (matrice de corrélation)
II
α
V1
rV1,II
I
43
Les deux principaux types d’ACP
• Vecteurs propres normés à 1
• Les distances entre les objets sont interprétables
• Angles entre descripteurs non interprétables
• Vecteurs propres normés à √λ
• Angles entre descripteurs = corrélations
• Distances entre objets non préservées
44
Exemple
Variables
Individus
II
u normés à √λ :
angles
=
corrélations
u normés à 1 :
proximités
=
distances
Biplot
I
Variables
= descripteurs
Individus
= objets
II
Cercle des contributions
équilibrées
Cercle de rayon 1
I
45
Analyse factorielle de
correspondances (AFC)
• Même principe que l’ACP
• Pour variables qualitatives, binaires, semi-quantitatives et
quantitatives
• Typiquement : étude des relations entre deux variables
nominales
• Données sous forme de tableau de contingence : l’analyse
cherche à mettre en évidence les correspondances (relations)
entre les lignes et les colonnes
46
Variable qualitative (ex : forme)
• Tableau de contingence
Variable qualitative (ex : couleur)
Rouge
Rond
Fréquence 1,1
Carré
Fréquence 2,1
Bleu
Vert
...
Jaune
Triangle
...
Fréquence i,j
Ovale
Fréquence n,p
47
• En écologie : traitement des données d’abondance
d’espèces (descripteurs ici)
Espèces
Stations
Trucus
S1
Fréquence 1,1
S2
Fréquence 2,1
Machinus
Bidulus
...
Exempla
S3
...
S4
Fréquence i,j
Fréquence n,p
Idée sous-jacente : expliquer la répartition des stations
et/ou des espèces selon des critères écologiques
48
• Préserve la distance du χ2 entre les points
• Non affectée par le problème du double-zéro
• Suppose une relation unimodale avec les variables
environnementales
49
Principales étapes du calcul
•
Transformation des fréquences absolues en probabilités :
fréquences relatives centrées
fij
Σ = fi.
pij
= fij/f..
pi.
= fi./f..
p.j
= f.j/f..
Σ=1
➡
Σ = f..
Fréquences absolues
➡
Σ = f.j
qij
Q
Fréquences relatives
Avec qij = (pij - pi.p.j)/ √pi.p.j soit
- centrage (- fréquence théorique)
- pondération
Fréquences relatives centrées
50
• Calcul de la matrice de covariance à partir de la matrice Q
• Calcul des valeurs propres et vecteurs propres à partir de
cette matrice de covariance
• Calcul des nouvelles coordonnées des objets dans le
repère formé par les axes principaux
• Projection des points dans un espace réduit, en général les
deux premiers axes
• On peut placer les lignes et les colonnes du tableau de
contingence dans le même espace factoriel
51
• Inertie totale = I = Σλ
• On peut effectuer un test d’indépendance des deux
variables
• Test du χ2, avec (n-1)(p-1) degrés de liberté
• χ2 = npI avec np = effectif total
• H0 : quelle que soit la station, la distribution des
espèces est la même
• H0 : quelle que soit l’espèce, la répartition selon les
stations est la même
52
Interprétation dans l’espace réduit
• Variance du plan liée à celles des valeurs propres
• Comme en ACP, on peut ne placer que les sites (objets) ou
les espèces (descripteurs) sur le diagramme ; ou les deux
(biplot)
• Proximité entre objets (stations) et descripteurs (espèces) :
ressemblance. Attention, cela est fonction de la variance
exprimée par le plan considéré
• Plus les points sont proches du centre, plus ils sont
proches des caractéristiques moyennes de l’échantillon
53
• Interprétation des axes principaux en terme de
facteurs écologiques, en relation avec la projection
des objets et des descripteurs (comme ACP)
• Relations de type barycentrique. On a deux options
pour la projection :
• Type I. Placer les lignes (sites) au barycentre
(= centroïde) des colonnes (espèces) : meilleure
ordination des sites
54
• Type II. L’inverse donne une meilleure ordination
des espèces :
• Espèces placées au centre de gravité (= barycentre
= centroïde) des sites où elles sont présentes
• Chaque site est pondéré par la fréquence relative
de l’espèce considérée
• Les points-espèces sont donc plus proches des
points-sites où leur occurrence est la plus forte
55
Fréquence relative du
site 8 pour l’espèce 11 :
rareté à ce site
Espèce 4
Fréquence relative de
l’espèce 3 au site 5 :
occurrence forte
Espèce 2
Site 5
Espèce 11
Espèce 3
Espèce 9
Site 8
Site 12
Site 9
Site 2
Espèce 19
Type I
Type II
56
Exemple
Descripteurs
= espèces
II
Sites
Espèces
I
Objets =
stations
57
Ordination sur matrices de distances
• Analyse en coordonnées principales (PCoA) : permet
l’utilisation de beaucoup de coefficients. Méthode basée
sur les vecteurs propres pour représenter objets ou
variables
• Nonmetric multidimensional scaling (NMDS) : méthode non
basée sur les vecteurs propres, place les objets dans un
repère comportant un nombre prédéfini d’axes, en
minimisant une fonction de stress (0 à 1, bien si ≤ 0,2).
Fonctionne avec des valeurs manquantes. Procédé itératif
assez intense en calcul
58
Groupements
1
n
• Recherche des discontinuités dans les ensembles de données
• Méthodes hiérarchiques (arbre) ou non (groupes)
• Méthodes agglomératives (part des objets séparés, ajoutés
séquentiellement) ou divisives (part de l'ensemble des
objets, divisés en groupes)
59
Exemple
• Classification écologique de prélèvements (1-5) sur la base
des abondances des espèces présentes
• Mesure de distance : D14
• On obtiendrait exactement la même chose avec S17
• Idée sous-jacente : les milieux partageant les mêmes
espèces sont “écologiquement proches”
60
Groupement agglomératif à liens
• Groupement agglomératif à liens simples
• Lien avec un seul élément du groupe
________________________________________
2
3
4
5
D14
0.0
0.1
0.2
0.3
0.4
Paires formées
1-2
1-3
3-4
2-4
2-3
1-4
2-5
3-5
4-5
1-5
0,20
0,25
0,30
0,35
0,40
0,45
0,50
0,60
0,70
0,80
1
0.20
0.25
0.45
0.80
2
0.40
0.35
0.50
3
0.30
0.60
4
0.70
________________________________________
0.5
1
2
3
4
61
5
• Groupement agglomératif à liens complets
• Lien avec tous les éléments du groupe
________________________________________
2
3
4
5
D14
1
0.20
0.25
0.45
0.80
2
0.40
0.35
0.50
3
0.30
0.60
4
0.70
________________________________________
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0,20
0,25
0,30
0,35
0,40
0,45
0,50
0,60
0,70
0,80
0.8
1
2
Paires formées
1-2
1-3
3-4
2-4
2-3
1-4
2-5
3-5
4-5
1-5
3
4
5
62
• Liens simples : contracte l’espace entre objets
(enchaînements)
• Liens complets : dilate l’espace entre les objets (groupes
bien séparés)
0.0
0.1
0.2
0.3
0.4
0.5
0.0
0.1
0.2
0.3
0.4
0.5
1
2
3
4
5
0.6
0.7
0.8
1
2
3
4
63
5
• Groupement agglomératif à liens intermédiaires
• Lien avec une proportion donnée des éléments du
groupe
• Proportion = connexité. Varie entre 0 (liens simples) et
1 (liens complets)
Connexité = 0,5
0.0
0.1
0.2
0.3
0.4
0.5
1
2
3
4
5
64
Groupement agglomératif moyen
• Groupement selon l’association moyenne
• UPGMA (unweighted pair-group method using
arithmetic average)
• Chaque élément du groupe garde le même poids
pendant l’analyse
• La matrice d’association est reformée à chaque étape
(≠ groupement à liens)
• Chaque nouveau groupe formé est remplacé par sa
valeur moyenne
Objets
2
1
1
2
- 0.20
1
-
3
3
4
5
0.25
0.45
0.80
0.40
0.35
0.50
-
0.30
0.60
-
0.70
0.40
0.65
1
0.30
4
5
-
1-2
2
-
0.325
3
0.60
2
0.70
3
5
-
4
-
0.3625 0.65
3-4
0.1
0.2
0.3
0.4
0.5
0.6
5
0.65
5
4
0.0
4
1-2
3
65
-
1-2-3-4
-
0.65
5
-
66
Méthode de Ward
• Hiérarchique et agglomérative
• Sur données brutes ou matrice de distance
• Minimise la somme des carrés des distances au
centroïde de chaque groupe (variance à l’intérieur de
chaque groupe) si appliquée aux données brutes, ou la
somme des carrés des distances entre paires si appliquée
à une matrice de distance
• Distances Euclidiennes (double zéro) sur données brutes
(méthode originale), ou tout type de distance si matrice
de distance
67
K-means
• Non hiérarchique
• Méthode divisive
• Nombre de groupes défini par l'utilisateur
• Minimise la variance intragroupe des données
brutes
• Distances Euclidiennes (double zéro)
68
Références
•
•
•
Sites web
•
The Ordination Web Page : http://ordination.okstate.edu/
•
Page de Pierre Legendre : http://www.bio.umontreal.ca/legendre/index.html
Livres
•
Legendre P, & Legendre L. 2012. Numerical Ecology. Third English Edition.
Developments in Environmental Modelling, 20. Elsevier. 1006 pp.
•
Borcard D, Gillet F, Legendre P. 2011. Numerical Ecology with R. Springer. 302 pp.
•
Jongman RHG, ter Braak CJF & van Tongeren OFR. 1995. Data analysis in community
and landscape ecology. Cambridge University Press, Cambridge.
•
Frontier S, Davoult V, Gentilhomme V & Lagadeuc Y. 2001. Statistiques pour les
sciences de la vie et de l’environnement. Cours et exercices corrigés. Dunod. 378 pp.
69
Logiciels
•
R (http://www.r-project.org)
•
XLStat (http://www.xlstat.com)
•
Canoco (http://www.canoco.com/)
•
Logiciels de Pierre Legendre (http://www.bio.umontreal.ca/legendre/index.html#FonctionsR)
•
ADE-4 (http://pbil.univ-lyon1.fr/ADE-4/)
70