Classification Ascendante Hiérarchique
Transcription
Classification Ascendante Hiérarchique
CLASSIFICATION ESIEA 5ème année – 2009/2010 1 Les données Modèle ____________________ Honda Civic Renault 19 Fiat Tipo Peugeot 405 Renault 21 Citroën BX BMW 530i Rover 827i Renault 25 Opel Omega P Peugeot t 405 Break B k Ford Sierra BMW 325ix Audi 90 Quattro Ford Scorpio Renault Espace Nissan Vanette VW Caravelle Ford Fiesta Fiat Uno Peugeot 205 Peugeot g 205 Rallye y Seat Ibiza SXI Citroën AX Sport 2 Cylindrée _________ Puissance _________ Vitesse ________ Poids ________ Longueur ________ Largeur ________ 1396 1721 1580 1769 2068 1769 2986 2675 2548 1998 1905 1993 2494 1994 2933 1995 1952 2109 1117 1116 1580 1294 1461 1294 90 92 83 90 88 90 188 177 182 122 125 115 171 160 150 120 87 112 50 58 80 103 100 95 174 180 170 180 180 182 226 222 226 190 194 185 208 214 200 177 144 149 135 145 159 189 181 184 850 965 970 1080 1135 1060 1510 1365 1350 1255 1120 1190 1300 1220 1345 1265 1430 1320 810 780 880 805 925 730 369 415 395 440 446 424 472 469 471 473 439 451 432 439 466 436 436 457 371 364 370 370 363 350 166 169 170 169 170 168 175 175 180 177 171 172 164 169 176 177 169 184 162 155 156 157 161 160 Exemple Auto88 Le premier plan principal 3 Exemple Auto88 Le cercle des corrélations 4 La classification : « Qui se ressemble s’assemble s assemble » 5 Dendrogramme 18 17 16 15 14 19 7 3 9 5 4 8 61g 2 groups group g pp Choosing the “ tti ” level “cutting” l l x Definition of the clusters 6 x x Classification ascendante hiérarchique (Méthode de Ward) Xp* * * ** ** *g* * 1* *** * X1* * * * *g2 * * * * * * ** X2* * g3 ** ** * * Distance de Ward : D(Gi, Gj) = 7 ni n j (ni n j ) d 2 ( gi , g j ) Données centrées-réduites 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Mean Std. Dev. Modèle Honda Civic Renault 19 Fiat Tipo Peugeot 405 Renault 21 Citroën BX BMW 530i Rover 827i Renault 25 Opel Omega Peugeot 405 Break Ford Sierra BMW 325ix Audi 90 quattro Ford Scorpio Renault Espace Nissan Vanette VW Caravelle Ford Fiesta Fiat Uno Peugeot 205 Peugeot 205 rallye Seat Ibiza sxi Citroën AX sport Cylindrée* -.966 -.351 -.618 -.260 .307 -.260 2.046 1.456 1.216 .174 -.002 .165 1.114 .166 1.945 .168 .087 .384 -1.495 -1.497 -.618 -1.160 -.843 -1.160 .000 1.000 Puissance* -.610 -.559 -.791 -.610 -.662 -.610 1.917 1.633 1.762 .215 .292 .034 1.478 1.195 .937 .163 -.688 -.043 -1.642 -1.435 -.868 -.275 -.352 -.481 .000 1.000 Vitesse* -.360 -.122 -.519 -.122 -.122 -.043 1.702 1.543 1.702 .274 .433 .076 .988 1.226 .671 -.241 -1.550 -1.352 -1.907 -1.510 -.955 .235 -.083 .036 .000 1.000 Poids* -1.133 -.633 -.612 -.134 .105 -.221 1.733 1.104 1.039 .626 .040 .344 .821 .474 1.017 .669 1.386 .908 -1.306 -1.437 -1.002 -1.328 -.807 -1.654 .000 1.000 Calculer la distance de Ward entre la BX et la 405 ? 8 Longueur* -1.272 -.159 -.643 .445 .591 .058 1.220 1.147 1.195 1.244 .421 .712 .252 .421 1.074 .349 .349 .857 -1.224 -1.393 -1.248 -1.248 -1.417 -1.732 .000 1.000 Largeur* -.370 .022 .152 .022 .152 -.109 .806 .806 1.459 1.067 .283 .414 -.631 .022 .936 1.067 .022 1.982 -.893 -1.807 -1.677 -1.546 -1.023 -1.154 .000 1.000 Tableau des distances entre les voitures Proximity Matrix Case 1:Honda Civic 2:Renault 19 3:Fiat Tipo 4:Peugeot 405 5:Renault 21 6:Citroën BX 1:Honda Civic 23:Seat Ibiza sxi 24:Citroën AX sport 2.079 1.119 4.657 6.954 3.270 . . . .713 1 309 1.309 2:Renault 19 2.079 3:Fiat Tipo 1.119 .534 .534 .626 1.567 .252 1.748 3.064 1.100 2.992 5 582 5.582 2.453 4 676 4.676 Squared Euclidean Distance 4:Peugeot 405 5:Renault 21 6:Citroën BX 4.657 6.954 3.270 .626 1.567 .252 1.748 3.064 1.100 .419 .181 .419 .787 .181 .787 5.423 9 283 9.283 7.665 12 400 12.400 ... 23:Seat Ibiza sxi .713 2.992 2.453 5.423 7.665 3.766 7 183 7.183 This is a dissimilarity matrix 1 1 .181 181 .0905 0905 D(Citroën BX, BX Peugeot 405) = (1 1) 9 24:Citroën AX sport 1.309 5.582 4.676 9.283 12.400 .964 .964 964 Classification Ascendante Hiérarchique Etape initiale Chaque individu forme une classe. On regroupe les deux individus les plus proches proches. Etape courante A chaque q étape, p on regroupe g p les deux classes Gi et Gj minimisant le critère de Ward D(G ( i, Gj)). 10 * * * * * * H I E R A R C H I C A L Dendrogram using Ward Method C L U S T E R A N A L Y S I S * * * * * * Rescaled esca ed Distance sta ce C Cluster uste Co Combine b e C A S E Label Peugeot 405 Citroën BX Renault 19 Renault 21 Fiat Tipo Peugeot 405 Break Ford Sierra O l O Opel Omega Renault Espace Nissan Vanette VW Caravelle BMW 325ix Audi 90 quattro Rover 827i Renault 25 BMW 530i Ford Scorpio Peugeot 205 rallye p Citroën AX sport Honda Civic Seat Ibiza sxi Ford Fiesta Fiat Uno Peugeot 205 11 Num 0 5 10 15 20 25 +---------+---------+---------+---------+---------+ 4 6 2 5 3 11 12 10 16 17 18 13 14 8 9 7 15 22 24 1 23 19 20 21 òø òú òú òôòòòø ò÷ ó òø ùòòòòòòòòòòòòòòòòòø òôòø ó ó ò ùò÷ òú ó ò÷ ó ó òûò÷ ùòòòòòòòòòòòòòòòòòòòòòòòòòø ò÷ ó ó òûòø ó ó ò÷ ó ó ó òø ùòòòòòòòòòòòòòòòòòòò÷ ó òú ó ó òôò÷ ó ò÷ ó òø ó òôòø ó òú ó ó ò÷ ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ òø ó òôò÷ ò÷ Q lité de Qualité d la l typologie t l i en K classes l 12 La somme des carrés expliquée par la typologie en K classes est égale à la somme des carrés inter-classes de la typologie en K classes. classes La qualité de la typologie est mesurée par la part de la somme des carrés totale expliquée par la typologie. Décomposition p de l’inertie totale Xp* * * * *g1 * * * * X1* K * * * * * g2* * * g * * * * g3 * * ** ni 2 I( N , g ) d (g i , g ) i 1 n I Inertie i totale l =p 13 = X2* K ni I(G i , g i ) i 1 n I Inertie i inter-classes i l + I Inertie i intra-classes i l Coefficient : Somme des carrés intra-classes de la typologie yp g en K classes Résultats SPSS : Somme des carrés intra-classes Agglomeration Schedule Stage 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 14 Cluster Combined Cluster 1 Cluster 2 4 6 11 12 2 4 8 9 22 24 1 23 10 16 19 20 2 5 7 8 13 14 10 11 1 22 2 3 19 21 7 15 17 18 10 17 1 19 7 13 2 10 2 7 1 2 Coefficients .09035 .29804 .56054 .82705 1.11486 1.47116 2.00686 2.54783 3.15285 3.88960 4 69472 4.69472 5.53718 6.45948 7.55715 8 91356 8.91356 10.32859 12.76377 17.35471 22 53230 22.53230 27.74035 34.47233 67.34381 138.00000 Distance de Ward(4,6) Stage Cluster First Appears Cluster 1 Cluster 2 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 3 0 0 4 0 0 7 2 6 5 9 0 8 0 10 0 0 0 12 17 13 15 16 11 14 18 21 20 19 22 Next Stage 3 12 9 10 13 13 12 15 14 16 20 18 19 21 19 20 18 21 23 22 22 23 0 Part de somme des carrés totale expliquée e pliq ée par la typologie en K classes : ((138 - Coeff[n-K])/138 [ ]) Part de somme des carrés totale expliquée par la typologie yp g en 2 classes : (138 - 67.344)/138 = 0.512 Somme des carrés intra-classes ppour la typologie en K=2 classes Somme des carrés totale = p*(n-1) P Premier i plan l principal i i l ett typologie t l i 2 Peugeot 205 rallye BMW 325ix Citroën AX sport Audi 90 quattro BMW 530i Rover 827i Renault 25 Seat Ibiza sxi 1 Peugeot 205 Honda Civic Peugeot 405 Break Fiat Uno Ford Scorpio Renault 19 Citroën BX 0 Fiat Tipo Peugeot 405Ford Sierra Renault 21 Opel Omega Rena lt Espace Renault F d Fiesta Ford Fi t -1 Ward a d Method et od Facte eur 2 Nissan Vanette -2 3 VW Caravelle 2 -3 1 -2.0 15 -1.5 Facteur 1 -1.0 -.5 0.0 .5 1.0 1.5 2.0 16 Interprétation des classes R Report t Mean Cylindrée y Puissance Vitesse P id Poids Longueur Largeur g 17 1 1322.57 82.29 166.71 825.71 365.29 159.57 Ward Method 2 3 1896.27 2605.00 102.18 171.33 175.55 216.00 1162.73 1348.33 437.45 458.17 172.36 173.17 Total 1906.12 113.67 183.08 1110.83 421.58 168.83 Interprétation e p é a o des classes c asses 3 VW Caravelle 2 BMW 530i 1 CYLINDREE* 0 PUISSANCE* Fiat Tipo VITESSE* -1 VW Caravelle Nissan Vanette -2 POIDS* Citroën AX sport LONGUEUR* LARGEUR* -3 N= 7 7 7 7 1 18 Ward Method 7 7 11 11 11 11 11 11 2 6 6 6 6 3 6 6