Classification Ascendante Hiérarchique

Transcription

Classification Ascendante Hiérarchique
CLASSIFICATION
ESIEA 5ème année –
2009/2010
1
Les données
Modèle
____________________
Honda Civic
Renault 19
Fiat Tipo
Peugeot 405
Renault 21
Citroën BX
BMW 530i
Rover 827i
Renault 25
Opel Omega
P
Peugeot
t 405 Break
B
k
Ford Sierra
BMW 325ix
Audi 90 Quattro
Ford Scorpio
Renault Espace
Nissan Vanette
VW Caravelle
Ford Fiesta
Fiat Uno
Peugeot 205
Peugeot
g
205 Rallye
y
Seat Ibiza SXI
Citroën AX Sport
2
Cylindrée
_________
Puissance
_________
Vitesse
________
Poids
________
Longueur
________
Largeur
________
1396
1721
1580
1769
2068
1769
2986
2675
2548
1998
1905
1993
2494
1994
2933
1995
1952
2109
1117
1116
1580
1294
1461
1294
90
92
83
90
88
90
188
177
182
122
125
115
171
160
150
120
87
112
50
58
80
103
100
95
174
180
170
180
180
182
226
222
226
190
194
185
208
214
200
177
144
149
135
145
159
189
181
184
850
965
970
1080
1135
1060
1510
1365
1350
1255
1120
1190
1300
1220
1345
1265
1430
1320
810
780
880
805
925
730
369
415
395
440
446
424
472
469
471
473
439
451
432
439
466
436
436
457
371
364
370
370
363
350
166
169
170
169
170
168
175
175
180
177
171
172
164
169
176
177
169
184
162
155
156
157
161
160
Exemple Auto88
Le premier plan principal
3
Exemple Auto88
Le cercle des corrélations
4
La classification :
« Qui se ressemble
s’assemble
s
assemble »
5
Dendrogramme
18
17
16
15
14
19
7
3
9
5
4
8
61g
2
groups
group
g
pp
Choosing the
“ tti ” level
“cutting”
l
l
x
Definition of
the clusters
6
x
x
Classification ascendante hiérarchique (Méthode de
Ward)
Xp*
* * **
** *g* *
1*
*** *
X1*
* *
* *g2 *
* * *
* *
**
X2*
* g3 **
** *
*
Distance de Ward : D(Gi, Gj) =
7
ni n j
(ni  n j )
d 2 ( gi , g j )
Données centrées-réduites
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
Mean
Std. Dev.
Modèle
Honda Civic
Renault 19
Fiat Tipo
Peugeot 405
Renault 21
Citroën BX
BMW 530i
Rover 827i
Renault 25
Opel Omega
Peugeot 405 Break
Ford Sierra
BMW 325ix
Audi 90 quattro
Ford Scorpio
Renault Espace
Nissan Vanette
VW Caravelle
Ford Fiesta
Fiat Uno
Peugeot 205
Peugeot 205 rallye
Seat Ibiza sxi
Citroën AX sport
Cylindrée*
-.966
-.351
-.618
-.260
.307
-.260
2.046
1.456
1.216
.174
-.002
.165
1.114
.166
1.945
.168
.087
.384
-1.495
-1.497
-.618
-1.160
-.843
-1.160
.000
1.000
Puissance*
-.610
-.559
-.791
-.610
-.662
-.610
1.917
1.633
1.762
.215
.292
.034
1.478
1.195
.937
.163
-.688
-.043
-1.642
-1.435
-.868
-.275
-.352
-.481
.000
1.000
Vitesse*
-.360
-.122
-.519
-.122
-.122
-.043
1.702
1.543
1.702
.274
.433
.076
.988
1.226
.671
-.241
-1.550
-1.352
-1.907
-1.510
-.955
.235
-.083
.036
.000
1.000
Poids*
-1.133
-.633
-.612
-.134
.105
-.221
1.733
1.104
1.039
.626
.040
.344
.821
.474
1.017
.669
1.386
.908
-1.306
-1.437
-1.002
-1.328
-.807
-1.654
.000
1.000
Calculer la distance de Ward entre la BX et la 405 ?
8
Longueur*
-1.272
-.159
-.643
.445
.591
.058
1.220
1.147
1.195
1.244
.421
.712
.252
.421
1.074
.349
.349
.857
-1.224
-1.393
-1.248
-1.248
-1.417
-1.732
.000
1.000
Largeur*
-.370
.022
.152
.022
.152
-.109
.806
.806
1.459
1.067
.283
.414
-.631
.022
.936
1.067
.022
1.982
-.893
-1.807
-1.677
-1.546
-1.023
-1.154
.000
1.000
Tableau des distances entre les voitures
Proximity Matrix
Case
1:Honda Civic
2:Renault 19
3:Fiat Tipo
4:Peugeot 405
5:Renault 21
6:Citroën BX
1:Honda Civic
23:Seat Ibiza sxi
24:Citroën AX sport
2.079
1.119
4.657
6.954
3.270
.
.
.
.713
1 309
1.309
2:Renault 19
2.079
3:Fiat Tipo
1.119
.534
.534
.626
1.567
.252
1.748
3.064
1.100
2.992
5 582
5.582
2.453
4 676
4.676
Squared Euclidean Distance
4:Peugeot
405
5:Renault 21 6:Citroën BX
4.657
6.954
3.270
.626
1.567
.252
1.748
3.064
1.100
.419
.181
.419
.787
.181
.787
5.423
9 283
9.283
7.665
12 400
12.400
...
23:Seat
Ibiza sxi
.713
2.992
2.453
5.423
7.665
3.766
7 183
7.183
This is a dissimilarity matrix
1 1
 .181
181  .0905
0905
D(Citroën BX,
BX Peugeot 405) =
(1  1)
9
24:Citroën
AX sport
1.309
5.582
4.676
9.283
12.400
.964
.964
964
Classification Ascendante Hiérarchique
Etape initiale
Chaque individu forme une classe. On
regroupe les deux individus les plus proches
proches.
Etape courante
A chaque
q étape,
p on regroupe
g p les deux
classes Gi et Gj minimisant le critère de Ward
D(G
( i, Gj)).
10
* * * * * * H I E R A R C H I C A L
Dendrogram using Ward Method
C L U S T E R
A N A L Y S I S * * * * * *
Rescaled
esca ed Distance
sta ce C
Cluster
uste Co
Combine
b e
C A S E
Label
Peugeot 405
Citroën BX
Renault 19
Renault 21
Fiat Tipo
Peugeot 405 Break
Ford Sierra
O l O
Opel
Omega
Renault Espace
Nissan Vanette
VW Caravelle
BMW 325ix
Audi 90 quattro
Rover 827i
Renault 25
BMW 530i
Ford Scorpio
Peugeot 205 rallye
p
Citroën AX sport
Honda Civic
Seat Ibiza sxi
Ford Fiesta
Fiat Uno
Peugeot 205
11
Num
0
5
10
15
20
25
+---------+---------+---------+---------+---------+
4
6
2
5
3
11
12
10
16
17
18
13
14
8
9
7
15
22
24
1
23
19
20
21
òø
òú
òú
òôòòòø
ò÷
ó
òø
ùòòòòòòòòòòòòòòòòòø
òôòø ó
ó
ò ùò÷
òú
ó
ò÷ ó
ó
òûò÷
ùòòòòòòòòòòòòòòòòòòòòòòòòòø
ò÷
ó
ó
òûòø
ó
ó
ò÷ ó
ó
ó
òø ùòòòòòòòòòòòòòòòòòòò÷
ó
òú ó
ó
òôò÷
ó
ò÷
ó
òø
ó
òôòø
ó
òú ó
ó
ò÷ ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷
òø ó
òôò÷
ò÷
Q lité de
Qualité
d la
l typologie
t
l i en K classes
l
12

La somme des carrés expliquée par la
typologie en K classes est égale à la somme
des carrés inter-classes de la typologie en K
classes.
classes

La qualité de la typologie est mesurée par la
part de la somme des carrés totale expliquée
par la typologie.
Décomposition
p
de l’inertie totale
Xp*
* *
* *g1 *
* * *
X1*
K
* * *
* * g2*
*
*
g
*
*
*
* g3 *
* **
ni 2
I( N , g )   d (g i , g ) 
i 1 n
I
Inertie
i totale
l =p
13
=
X2*
K
ni
 I(G i , g i )
i 1 n
I
Inertie
i inter-classes
i
l
+
I
Inertie
i intra-classes
i
l
Coefficient : Somme des carrés
intra-classes de la typologie
yp g en K classes
Résultats SPSS :
Somme des carrés intra-classes
Agglomeration Schedule
Stage
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
14
Cluster Combined
Cluster 1
Cluster 2
4
6
11
12
2
4
8
9
22
24
1
23
10
16
19
20
2
5
7
8
13
14
10
11
1
22
2
3
19
21
7
15
17
18
10
17
1
19
7
13
2
10
2
7
1
2
Coefficients
.09035
.29804
.56054
.82705
1.11486
1.47116
2.00686
2.54783
3.15285
3.88960
4 69472
4.69472
5.53718
6.45948
7.55715
8 91356
8.91356
10.32859
12.76377
17.35471
22 53230
22.53230
27.74035
34.47233
67.34381
138.00000
Distance de Ward(4,6)
Stage Cluster First
Appears
Cluster 1
Cluster 2
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
3
0
0
4
0
0
7
2
6
5
9
0
8
0
10
0
0
0
12
17
13
15
16
11
14
18
21
20
19
22
Next Stage
3
12
9
10
13
13
12
15
14
16
20
18
19
21
19
20
18
21
23
22
22
23
0
Part de somme des carrés
totale expliquée
e pliq ée par la
typologie en K classes :
((138 - Coeff[n-K])/138
[
])
Part de somme des carrés
totale expliquée par la
typologie
yp g en 2 classes :
(138 - 67.344)/138 = 0.512
Somme des carrés
intra-classes ppour
la typologie en K=2 classes
Somme des carrés
totale = p*(n-1)
P
Premier
i plan
l principal
i i l ett typologie
t
l i
2
Peugeot 205 rallye
BMW 325ix
Citroën AX sport
Audi 90 quattro
BMW 530i
Rover 827i
Renault 25
Seat Ibiza sxi
1
Peugeot 205
Honda Civic
Peugeot 405 Break
Fiat Uno
Ford Scorpio
Renault 19
Citroën BX
0
Fiat Tipo Peugeot 405Ford Sierra
Renault 21
Opel Omega
Rena lt Espace
Renault
F d Fiesta
Ford
Fi t
-1
Ward
a d Method
et od
Facte
eur 2
Nissan Vanette
-2
3
VW Caravelle
2
-3
1
-2.0
15
-1.5
Facteur 1
-1.0
-.5
0.0
.5
1.0
1.5
2.0
16
Interprétation des classes
R
Report
t
Mean
Cylindrée
y
Puissance
Vitesse
P id
Poids
Longueur
Largeur
g
17
1
1322.57
82.29
166.71
825.71
365.29
159.57
Ward Method
2
3
1896.27
2605.00
102.18
171.33
175.55
216.00
1162.73
1348.33
437.45
458.17
172.36
173.17
Total
1906.12
113.67
183.08
1110.83
421.58
168.83
Interprétation
e p é a o des classes
c asses
3
VW Caravelle
2
BMW 530i
1
CYLINDREE*
0
PUISSANCE*
Fiat Tipo
VITESSE*
-1
VW Caravelle
Nissan Vanette
-2
POIDS*
Citroën AX sport
LONGUEUR*
LARGEUR*
-3
N=
7
7
7
7
1
18
Ward Method
7
7
11 11 11 11 11 11
2
6
6
6
6
3
6
6