DATAMINING
Transcription
DATAMINING
Vinod SACHIDHANANDAM Salim HAROUAT DATAMINING L’économie des pays et la répartition des richesses dans le monde Table des matières TABLE DES MATIERES 2 1. INTRODUCTION 4 2. ETAT DE L’ART 5 A. PRINCIPE 5 I. LA MODELISATION PREDICTIVE 5 II. LA MODELISATION DESCRIPTIVE 6 III. LES REGLES D’ASSOCIATION 6 B. DOMAINES D’APPLICATION 6 C. LES OUTILS DE DATAMINING 7 3. PROBLEMATIQUE ET PRESENTATION DES DONNEES 12 A. PROBLEMATIQUE 12 B. LES DONNEES 13 I. LA BASE 13 LES INDIVIDUS SONT LES LES PAYS. 13 II. LES REQUETES : 14 4. EXECUTION DES METHODES 15 1. 2. I) II) 3. 4. 5. 6. DB2SO LA METHODE STAT PRESENTATION DE LA METHODE : INTERPRETATION : LA METHODE SCLUST LA METHODE PCM LA METHODE DIV LA METHODE DISS 15 16 16 17 19 19 24 31 5. CONCLUSION 31 1. Introduction Avec la taille croissante des bases de données, il devient problématique de « faire parler » des données. Pour cette opération, on ne peut alors se fier à notre unique intuition. En effet, des règles intuitives n’apparaissent pas. D’autres moins évidentes existent. Le Data mining est donc la science qui se propose de faire parler les données, de voir comment elles sont corrélées. C’est est un processus d'extraction de connaissances valides et exploitables à partir de grands volumes de données. Il a vocation à être utilisé dans un environnement professionnel et se distingue de l'analyse de données et de la statistique par les points suivants : - les techniques utilisées vont au-delà des techniques classiquement utilisées en statistiques : le Data Mining se situe à la croisée des statistiques, de l'intelligence artificielle, des bases de données. - les connaissances extraites par le Data Mining ont vocation à être intégrées dans le schéma organisationnel de l'entreprise ou de l'entité considérée. Le Data Mining impose donc d'être capable d'utiliser de manière opérationnelle les résultats des analyses effectuées, souvent dans des délais très courts. Le processus d'analyse doit permettre à l'organisation une réactivité (très) importante. - les données traitées sont issues des systèmes de stokage en place dans l'organisation et sont ainsi hétérogènes, multiples, plus ou moins structurées... bref dont la raison d'être n'est a priori pas l'analyse. Cela impose de disposer de systèmes performants de préparation ou de manipulation de données. Le Data Mining se propose donc de transformer en connaissance de grands volumes de données qui peuvent être stockées de manière diverse, dans des bases de données relationnelles, dans un (ou plusieurs !) entrepôt de données (datawarehouse), mais qui peuvent aussi être récupérées de sources riches plus ou moins structurées comme internet, ou encore en temps réel (appel à un call center, retrait d'argent dans un distributeur à billets...). Lorsque la source n’est pas directement un entrepôt de données, il s'agira très souvent de construire une base de données ou un entrepôt de données dédié à l'analyse et aux analystes. Cela suppose bien entendu d'avoir à sa disposition une palette d'outils de gestion de données (data management). On peut également structurer les données de l’entrepôt sous forme d’un hypercube OLAP, même si cela est assez rare en matière de Data Mining. 2. Etat de l’art a. Principe De manière générale, on peut définir le datamining comme l'extraction d’informations ou de connaissances originales, auparavant inconnues, potentiellement utiles à partir de gros volumes de données (d’après Frawley et Piateski-Shapiro). Selon SAS-INSTITUTE, il s'agit du processus de sélection, exploration, modification et modélisation de grandes bases de données afin de découvrir des relations entre les données jusqu'alors inconnues. Le Data Mining correspond donc à l'ensemble des techniques et des méthodes qui à partir de données permettent d'obtenir des connaissances exploitables. Son utilité est grande dès lors que l'entreprise possède un grand nombre d'informations stockées sous forme de bases de données. Plus particulièrement, une distinction plus précise s'établit autour du concept de KDD (Knowledge Discovery in Database ou Découverte de Connaissances dans les Bases de Données) et celui de Data Mining. En effet, ce dernier n'est que l'une des étapes du processus de découverte de connaissances correspondant précisément à l'extraction des connaissances à partir des données. Avant de réaliser une étude Data Mining, il faut donc procéder à l'élaboration d'un Data Warehouse (Entrepôt de Données). Un datawarehouse est une collection de données thématiques, intégrées, non volatiles et historisées pour la prise de décisions. En outre, bien qu'utilisant des techniques et une démarche statistique, le Data Mining et ses outils sont appelés à être utilisés par des non-statisticiens praticiens spécialistes du problème à modéliser. Pour cela, le progiciel utilisé doit avoir des caractéristiques spécifiques. Le datamining permet de répondre à de nombreux besoins comme : i. La modélisation prédictive La modélisation prédictive est la principale fonction pour laquelle on a recours aux techniques de Data Mining. Il s'agit, à partir d'une base d'exemples pour lesquels les variables d'entrée et la variable cible sont connues, de construire un modèle permettant de prévoir la valeur de la cible en fonction des seules variables d'entrée. Suivant le type de la variable à modéliser, on parle de : * Classification (la variable à modéliser est une variable catégorielle, le cas le plus fréquent étant celui d'une variable binaire caractérisant la présence ou l'absence d'un état) * Estimation (la variable à modéliser est une variable continue), * Prévision (on introduit de plus une notion temporelle). ii. La modélisation descriptive La modélisation à des fins descriptives a pour objet de comprendre les facteurs principaux de différentiation de la population. Il s'agit de diviser la population initiale en classes disjointes plus homogènes par rapport aux variables d'entrée. Le but est avant tout de rapprocher les éléments ayant des comportements similaires et de séparer les éléments ayant des comportements différents. Cette fonction est principalement utilisée pour établir des typologies de clients. Permettant de structurer les bases de données, elle est souvent mise en œuvre en phase préliminaire à une modélisation prédictive. iii. Les règles d’association Les bases de données peuvent également être explorées pour mettre à jour des associations ou identifier des règles de comportements. En effet à partir des comportements individuels, après étude, on peut voir émerger des tendances plus générales. Ainsi on peut obtenir des règles sous la forme : « 78% des personnes qui ont acheté ce produit A ont aussi acheté le produit B ». Outre cette approche uniquement statistique du datamining, il existe aussi une approche plus élaborée visant à étudier des données plus complexes qu’on appelle données symboliques car elles exprime les variations inéluctables des concepts qu’elles décrivent. L'analyse symbolique consiste à traiter statistiquement ces concepts en étendant les méthodes classiques (analyse factorielles, classification automatique, arbre de décision, etc.) à des données symboliques. Il s’agit donc de « statistique de statistiques ». C’est à cette approche qu’on va s’intéresser dans cette étude. b. Domaines d’application Le domaine majeur où le Data Mining a prouvé son efficacité est la gestion de la relation client (CRM ou Customer Relationship Management). En effet, le Data Mining permet par une meilleure connaissance de la clientèle d'accroître les ventes. Cependant, la décision n'est pas le propre des entreprises commerciales. De ce fait, les techniques de Data Mining ont une multitude d'applications, aussi bien dans le domaine civil que militaire. On peut citer notamment : Dans le domaine civil : * L'industrie et la production, pour le contrôle qualité (anticipation des défauts, identification des sources de produits défectueux…) ou la planification de la charge des usines, * La médecine, pour l'aide au diagnostic en fonction des symptômes des malades ou l'identification de la thérapie la plus appropriée à un individu donné, * Les transports, les télécommunications et l'énergie, pour les prévisions de trafic (routier, réseaux, …) ou de consommations (eau, électricité,…), * La banque et la finance, pour prévoir la défaillance d'un emprunteur ou pour la gestion quantitative de portefeuilles, * La grande distribution, pour déterminer les modèles d'achat des consommateurs, optimiser les réapprovisionnements ou évaluer l'impact des campagnes publicitaires, de promotions, * L'assurance, pour l'analyse des sinistres, la recherche des caractéristiques des clients à haut risque ou la détection des fraudes. Dans le domaine militaire : * La modélisation de phénomènes physiques complexes (dynamique des fluides, propagation électromagnétique, …), * La gestion des essais, * La classification de signaux, pour la discrimination des cibles et des fausses alarmes, * La reconnaissance de forme, pour l'identification de cibles, * Le maintien en condition opérationnelle, pour établir des modèles prévisionnels du nombre de défauts sur une période donnée, déterminer les causes d'un défaut identifié ou encore anticiper une défaillance, * La sécurité des Systèmes d'Information Opérationnel (SIO), pour détecter et prévenir les utilisations frauduleuses, * Le renseignement, pour comprendre et prévoir le comportement de l'adversaire, * La logistique, pour identifier dès le départ la gravité d'une crise et déterminer les moyens à mettre en œuvre pour la résoudre. c. Les outils de datamining SAS Entreprise Miner La solution logicielle intégrée SAS Enterprise Miner TM est un outil très puissant. Il permet des analyses rapides sur de très grosses bases de données. Il est très convivial : il dispose d'une interface composée d'icônes et de flèches permettant une visualisation générale de la totalité du projet. Il est enfin très complet : Enterprise Miner TM dispose d'une grande richesse analytique et permet aussi l'intégration de toutes les méthodes statistiques déjà présentes dans les modules de SAS. http://www.sas.com/offices/europe/france/software/sem.html SPAD Cree en 1985 dans sa version Dos, SPAD est le logiciel francais pionnier dans les analyses exploratoires et le data mining. Connu et reconnu pour sa convivialite et son efficacite, il possede les principales techniques statistiques liees au data mining. Desription automatique de variables, analyse exploratoires multidimensionnelles (ACP, AFC, ACM et Classif), Réseaux de neurones, Analyse discriminante, Segmentation... http://www.spadsoft.com/ Complex Systems Complex Systems est une société d'édition de logiciels data mining. Elle édite notamment le logiciel Datalab spécialisé dans la préparation des données pour le Data Mining. http://www.complex-systems.fr/Pages/Datalab.htm SPSS Clementine, l'atelier de data mining, accompagne l'entreprise dans la gestion de sa relation client. Clementine intègre l'ensemble des techniques statistiques pour la valorisation et la modélisation de vos données. Son interface visuelle et intelligente facilite le processus de data mining et permet à l'utilisateur d'exploiter pleinement ses connaissances métier. Solution globale d'entreprise Clementine permet le déploiement des modèles créés à chaque acteur de l'entreprise. http://www.spss.com/france/product/clementine3.htm STATISTICA Le logiciel STATISTICA, disponible en version française, est un logiciel de statistique pourvu de méthodes datamining. http://www.statsoft.com/datamine.html XLSTAT XLSTAT édité par Addinsoft est un logiciel implémentant dans Microsoft Excel des fonctionnalités d'analyse de données et de statistiques. Le module central, XLSTAT-Pro, comprend plus de 40 outils d'analyse de données et de statistiques. Des modules avancés sont également disponibles ou en cours de développement (tableaux croisés dynamiques, séries chronologiques). . http://www.xlstat.com/indexfr.html NETRAL NETRAL est spécialisée dans les réseaux de neurones et le traitement statistique de données pour la classification, la modélisation et la simulation de procédés nonlinéaires. .. http://www.netral.com/ CORICO CORICO est un logiciel d'aide à la décision fondée sur les corrélations totales et partielles et les "interactions logiques". Une représentation originale "sur une sphère", valable quel que soit le nombre de dimensions, permet l'analyse simultanée des variables qualitatives et quantitatives. Une large gamme de méthodes est proposée dans la version standard (analyse exploratoire, modélisation, segmentation, séries chronologiques, aspects non linéaires, plans d'expériences). http://www.coryent.com/ SmartMiner SmartMiner est un logiciel d'aide à la décision qui permet l'exploration des informations (contenues dans des bases de données commerciales ou d'enquêtes) et d'en extraire l'information. Il permet de réaliser des segmentation (par arbres de décision et classification) ainsi que de la prévision (par séries chronologiques et modélisations). Pertinence Data Intelligence Pertinence Data Intelligence est un éditeur de solutions dédiées à l'amélioration des performances des processus industriels et des systèmes complexes, combinant technologies d’analyse de données et savoir-faire industriel (maximisation du retour d’expérience lors de l'industrialisation des produits et processus). http://www.pertinence.com/homepage_fr.html Set Analyser de Business Objects Business Objects propose un outil d'analyse des données issues de l'e-business et du CRM : Le logiciel Set Analyser. Set Analyzer s'appuie sur les fonctionnalités d'interrogation, de reporting et d'analyse multidimensionnelle OLAP de BusinessObjects et de WebIntelligence. http://www.france.businessobjects.com/produits/set_analyzer.htm Teradata Warehouse Miner L'architecture du logiciel Teradata Warehouse Miner permet de travailler directement sur les bases de données massivement parallèles Teradata et permet d'effectuer de multiples analyses sur de grandes bases… http://www.teradata.com/solutions/dw_mining.asp ALICE d'ISoft Le logiciel ALICE d'ISoft trouve l'information essentielle cachée dans vos données vous permettant de prendre de meilleures décisions. ALICE est un outil de data mining en ligne, cela peut vous apporter des résultats compréhensibles et explicites. Puissant et scalable, il couvre la totalité du cycle du data mining. http://www.isoft.fr SPLUS INSIGTHFUL éditrice des logiciels SPLUS (Analyse de données), INSIGHTFULMINER (data mining), VISIMINE (data mining). http://www.insightful.com/products/default.asp KXEN Société américaine spécialisée dans l'édition de logiciels d'analyse statistique et de Mining. Ses composants Data Mining se basent sur la théorie de VapnikChervonenkis (AT&T Labs) qui permet de contrôler la robustesse (capacité de généralisation) des modèles sans avoir recours à toute la batterie habituelle de tests d'hypothèses de la théorie classique. http://www.kxen.com/ Easyminer Le logiciel Easyminer est un outil de Web Mining intégrant des fonctionnalités de Data Mining. Il permet notamment d'effectuer des classifications automatiques et des analyses tenant compte de la structure hiérarchique du site étudié. http://www.mineit.com WebStat 2.0 Le logiciel WebStat 2.0 s'utilise directement et gratuitement à partir de votre navigateur. Il permet de calculer des statistiques élémentaires ainsi que d'afficher un certain nombre de graphiques. http://www.stat.sc.edu/webstat/version2.0/ MineSet Le Société Silicon Graphics (SGI) développe un logiciel de Visual Data Mining : MineSet. Ce logiciel propose un large éventail de techniques utiles à un processus Data Mining, allant de la manipulation de données (Méthodes de visualisation, ...) à l'analyse statistique (Classification, Régression, Scoring,...). http://mineset.sgi.com/ KnowledgeSEEKER et KnowledgeSTUDIO Angoss propose deux outils de Data Mining : KnowledgeSEEKER et KnowledgeSTUDIO. Le premier logiciel permet l'utilisation des arbre des décision à l'aide des algorithmes CHAID, XAID, K-Means, et Entropy. Le second ajoute à ces algorithmes d'autres méthodes d'analyse des données (réseaux de neurones,...etc...). http ://www.angoss.com Visualmine Il s'agit d'un logiciel de data-mining spécialisé notamment dans la visualisation graphique en 3 dimensions. Une démo du logiciel est proposé en téléchargement. Des exemples en ligne sont proposés. http://www.visualmine.com/ Oracle Data Mining Logiciel de datamining d'Oracle propose la classification, régression, la segmentation, l’association, extraction de caractéristiques et détection d'anomalie. La modélisation, le marquage, et les opérations de gestion de méta-données sont accessibles par l'intermédiaire de l'interface graphique client de d'Oracle data miner, des opérateurs de PL/SQL api, de SQL, et du Java-basé, JSR-73 api conforme. Toute l'exploitation de données se déroule entièrement dans la base de données relationnelle. http://otn.oracle.com/products/bi/9idmining.html Intelligent Miner © d'IBM. Les possibilités d'IBM Intelligent Miner aident à détecter les fraudes, à segmenter vos clients, et à simplifier l'analyse du marché. Les possibilités du logiciel d'IBM intègrent avec les systèmes existants pour fournir une analyse prédictive sans migrer les données dans des plateformes d’extraction de données de propriétaires. http://www-4.ibm.com/software/data/iminer/ SYROKKO SYROKKO est un cabinet de conseil indépendant fondé en 2004 et spécialisé dans l’analyse statistique à des fins marketing, stratégiques, financières, etc. et qui a développé des methodes mathématiques et statistiques AD HOC. Ce logiciel s’appuie sur un logiciel original, SODAS, fruit de sept années de recherche menée par de nombreuses équipes universitaires européennes soutenues par deux projets européens d'EUROSTAT. Ce logiciel utilise les méthodes statistiques les plus connues et les plus utilisées par les professionnels du Datamining. Cependant, SYROKKO va plus loin en offrant la possibilité d’aborder les données d’une manière entièrement nouvelle, à travers la notion de concept et son analyse via la transformation des données classiques en données symboliques. Il propose en effet les opérations suivantes : Segmentation client / produit / service / zone géographique; Création d'indicateurs pertinents pour l'analyse d'un marché; Analyse de performances, analyse de risques, prévision; Détection de pannes, fraudes, comportements atypiques; Détection de risques d'attrition de clients; Evaluation de l'appétece d'un client pour un nouveau produit / service Analyse prospective; Mise en oeuvre de nouveaux leviers d'actions (sur les clients, la concurrence, les salariés, etc.); Analyse géomarketing (classification de zones); Explication de comportements; Définition de scénarios (accidents, risques, choix stratégiques...); Définition de prototypes (zone-type, client-type, comportement-type...); SODAS Conçue par EDWIN DIDAY, la théorie des concepts décrits par des données symboliques a ensuite fait l’objet pendant plusieurs années de développements théoriques et informatiques par des experts issus d’institution reconnues, pour aboutir au logiciel SODAS, dont une version universitaire est consultable sur le site www.ceremade.dauphine.fr . Nous pouvons classer quelque uns de ces logiciels sous la forme suivante, selon les techniques et méthodes implémentées et les plateformes sur lesquelles elles opèrent. Logiciels de Datamining Mono techniques Logiciels Micros DATALAB de complex systems ALICE d'ISoft Salford Systems – CART Neuralware – Predict Gros systèmes SPSS answer tree Multi-techniques INSIGTHFUL éditrice des logiciels SPLUS (Analyse de données), VISIMINE (data mining). Tanagra (gratuit) INSIGHTFULMINER SAS entreprise Miner SPAD de spadsoft STATISTICA de statsoft Clementine de SPSS Analyse symbolique SYROKKO, SODAS 3. Problématique et présentation des données a. Problématique On oppose souvent les pays développés aux pays en voie de développement. Vu sous le prisme géographique, cette opposition est davantage « Nord / Sud ». Si sur le seul critère macro-économique, ce découpage a un sens. Il semble insuffisant pour décrire les disparités démographiques, économiques et sociales au sein même des différents groupes. La problématique que nous nous proposons d’étudier est donc triple : - Peut-on regrouper des pays qui « se ressemblent » ? Si oui, comment ? - Quelles sont les caractéristiques démographiques et économiques de chacun de ces groupes ? - Peut-on lier ces différentes caractéristiques ? Dans un premier temps, nous tenterons de former des groupes de pays en fonction des variables démographiques, économiques et sociales. Nous essaierons ensuite de constater les relations éventuelles entre les différentes variables démographiques, sociales ou économiques. Nous verrons tout d’abord la méthodologie de travail pour faire un projet sous SODAS. Ensuite, nous décrirons la base de données ainsi que les requêtes opérées sur la base. Enfin, nous exposerons pour chaque méthode utilisée une présentation de la méthode, des résultats obtenus et l’interprétation du résultat. b. Les données i. La base Le schéma de la base est le suivant : Les individus sont les les pays. La Table_Pays est la table principale où sont décrits tous les individus. La table Economie contient les caractéristiques économiques. La table continent comprend : 1 Américain 2 Afrique 3 Europe 4 Asie 5 Océanie La table Concept_Geographique comprend : 1 2 3 4 5 6 Amérique du nord Amérique latine Asie du nord Asie du sud Moyen orient Europe de l'est 7 Europe 8 Afrique La table répartition nord/sud comprend : 1 Pays en développement 2 Pays développés ; ii. Les requêtes : Plusieurs requêtes ont était nécessaires pour effectuer cette étude. La requête requete_individus : Cette requête renvoie les individus du premier ordre, c’est à dire les pays et les variables de description. SELECT Table_Pays.Nom_Pays, Table_Pays.Densite, Table_Pays.Population, Table_Pays.population_Urbaine, Table_Pays.Esperance_Vie_H, Table_Pays.Esperance_Vie_F, Table_Pays.taux_natalite, Table_Pays.Taux_Mortalite, Table_Pays.Taux_fecondite, Table_Pays.Taux_analphabete, Table_Pays.Taux_Medecin, Table_Pays.IDH, Economie.PNB, Economie.PNBH, Economie.PIB_Agricole, Economie.PIB_Minière, Economie.PIB_Industrielles, Economie.PIB_Services, Economie.Import, Economie.Export FROM Economie INNER JOIN Table_Pays ON Economie.code_Economie = Table_Pays.Code_Economie; La requête requete_concept : Cette requête renvoie les concepts (les zones géographiques), les variables de classe et les variables de description des concepts : nombre pays. SELECT Concept_Geographique.Zone_geographique, Sum(Table_Pays.Densite) ASommeDeDensite FROM Concept_Geographique INNER JOIN Table_Pays ON Concept_Geographique.Code_Concept_geo = Table_Pays.Code_Concept_geo GROUP BY Concept_Geographique.Zone_geographique; La requete requete_taxo : Pour la taxonomie cette requête reprend les variables «la répartition nord/sud et le continent d’appartenance). SELECT Table_Pays.Nom_Pays, Continent.Nom_Continent FROM Continent INNER JOIN Table_Pays ON Continent.Code_Continent = Table_Pays.Code_Continent; Ce sont ces requêtes que nous allons utiliser par la suite. 4. Exécution des méthodes 1. DB2SO Description du module Figure 1 : présentation de SODAS DB2SO est un élément du logiciel SODAS qui permet à l’utilisateur de construire un ensemble d’assertions à partir de données stockées dans une base de données relationnelle. Il est supposé qu’un ensemble d’individus et stocké dans une base de données et que ces individus sont distribués dans des groupes. Alors, DB2SO peut construire une assertion pour chaque groupe d’individus. Dans ce processus, les variables mère/fille et les taxonomies sur des domaines de variables peuvent aussi être associées à des assertions générées. DB2SO est invoqué à partir de Import dans SODAS file. Après avoir défini la base de données Inegalite_monde.mdb, il s’agit d’exécuter chaque requête de la façon suivante : Après les avoir toutes exécutées, DB2SO nous fournit un récapitulatif reprenant toutes les variables et tous les concepts définis. Il s’agit ensuite d’enregistrer la session en un fichier *.gaj par l’intermédiaire de la commande File/Save. Ensuite, il faut exporter ce fichier (File/Export) pour créer un nouveau fichier SODAS de type *.sds. Ce fichier sera la base de toutes les applications SODAS. 2. La Méthode STAT i) Présentation de la méthode : Cette méthode permet de voir la répartition de la population des objets symboliques par rapport à une variable donnée. STAT étend aux objets symboliques, représentés par leur description, plusieurs statistiques élémentaires aux données conventionnelles. La méthode appliquée dépend du choix de variables, et sont filtrées selon leur nature: 1. fréquences relatives aux variables multinominales 2. fréquences relatives aux variables d’intervalle 3. capacités et min/max/moyenne pour les variables probabilistiques multinominales 4. biplot pour les variables d’intervalle. L’identification de l’objet central est aussi inclus et ne dépend pas des types spécifiques des variables. En appliquant cette methode, on peut obtenir des graphes de fréquences comme ceux-ci-dessous : ii) Interprétation : Sur le premier graphe concernant l’espérance de vie, nous pouvons voir que la majeure partie des pays est constitué de personnes avec une espérance de vie entre 60 et 75 ans. Dans le graphe de séquence suivant, on remarque que près de 56% des pays ont un PNB inférieur à 1500. On voit donc clairement sur la partie droite du graphique qu’une toute petite partie des pays detient 80 % des richesses du monde. Le graphe de la population a à peu près la même allure. On voit donc qu’il y a beaucoup de pays (environ 60 %) qui sont peuplé de moins de 300000000 d’habitants. Il existe donc très peu de pays très peuplés. On devine que les 2 pays les plus peuplé avec plus de 1 milliard d’habitants (la Chine et l’Inde) sont représentés à la droite du graphique. En plus des graphes de fréquence sous forme d’histogrammes, la méthode STAT propose également le tracé de graphe biplots. Par exemple le taux de mortalité par rapport au taux de médecin pratiquant dans le pays : Interprétation : Sur le premier biplot, on distingue clairement que le continent Africain qui possède le plus fort taux de mortalité a aussi le plus faible taux de médecin et que pour l’Europe, c’est strictement l’inverse. On peut donc voir qu’un corps médical important influe sur la santé des habitants du pays. Sur le second biplot, nous avons le taux de natalité en fonction du PNB. On peut noter ici que l’Afrique possède un fort aux de natalité mais avec un PNB faible alors que l’Asie est plus équilibré. Quant à l’Amerique, le PNB est le plus fort mais le taux de natalité est faible. On peut donc supposer que le nombre de naissance ne dépend pas de la richesse du pays. Pour schématiser, les gens ne font pas forcément des enfants quand ils en ont les moyens … 3. La Méthode SCLUST Nous avons mis en ordonnée le taux d’analphabétisme et l’espérance de vie. 4. La Méthode PCM Il s’agit de l’Analyse en Composante Principale classique. Cependant, au lieu de représenter les points sur un plan factoriel, la méthode PCM fourni une visualisation de chaque concept par des rectangles. L’objectif est d’étudier l’importance des liens entre les variables et d’identifier les concepts présentant des caractéristiques plus ou moins proches. La méthode PCM est donc une méthode factorielle de réduction du nombre de caractères permettant des représentations géométriques des individus et des variables. La réduction se fait par la construction de nouveaux caractères synthétiques obtenus en combinant les variables initiales au moyen des « facteurs ». Les éléments de la matrice de données sont des intervalles et chacun décrit la variation de la variable observée (minimum et maximum). La méthode n’accepte que les variables continues. Pour chacune, l’utilisateur choisit ainsi son maximum et son minimum. L’exécution de la méthode donne deux résultats : 1 - Le listing qui contient : la description de la matrice de données par une table : chaque ligne correspond à une classe ; les valeurs propres, le pourcentage d’inertie et les premières composantes principales. Chaque classe est caractérisée d’abord par deux composantes principales et visualisée dans un plan factoriel par un rectangle ; les corrélations entre chaque variable descriptive et les composantes principales. 2 - Une représentation graphique. listing : En fonction des variables humaines : Eigenvalues Explained Cumulated Inertia % % 0-------25%--------50%-------75%-------100% Ev.1 1.58640 77.67981 77.67981 |******************************* Ev.2 0.28969 14.18521 91.86501 |***** Ev.3 0.07828 3.83323 95.69824 Ev.4 0.04627 2.26545 97.96369 Histogram |* | SPCA Coordinates [Min;Max] (8 objs,4 fact)= Objects Factor 1 Factor 4 Europe de l'est [-2.04037; -0.29275] 1.01799] [-0.55187; 0.27018] Asie du nord [-2.45013; 1.49660] 1.50926] [-2.01993; 1.40058] Afrique [-0.99121; 6.11434] 2.72314] [-2.77462; 2.88654] Europe [-2.55932; 0.64078] 1.35327] [-1.17304; 1.30409] Amérique latine [-1.56480; 1.36416] 1.70950] [-0.74622; 1.59424] Asie du sud [-1.67514; 4.23605] 2.47105] [-2.46861; 2.34327] Moyen orient [-2.02640; 2.51383] 2.21370] [-2.19240; 1.80589] Amériq du nord [-1.70089; -1.06474] 0.69114] [-0.32811; 0.65001] Factor 2 Factor 3 [-0.06643; 1.80609] [-0.03574; [-1.73386; 1.80005] [-2.23676; [-3.13152; 4.20872] [-2.94468; [-1.53317; 1.76426] [-1.90338; [-1.66519; 1.17674] [-1.35767; [-2.62642; 2.38695] [-2.39864; [-3.32935; 1.16601] [-1.65455; [-0.68564; 0.46277] [-1.15763; Correlations between variables and factors (8 vars,4 fact)= Variables Factor 1 Factor 2 Factor 3 Factor 4 Esperance_H 0.59240 0.78099 0.82748 0.84786 Esperance_ F 0.41863 0.76497 0.78097 0.81024 taux_natalite 0.98208 0.74502 0.80132 0.80661 Taux_Mortalite 0.88354 0.88024 0.76657 0.79489 Taux_fecondite 0.96069 0.71357 0.78076 0.79398 Taux_analphapete 0.95533 0.71670 0.73210 0.75070 Taux_Medecins 0.43431 0.66005 0.74642 0.69379 IDH 0.66242 0.87108 0.91995 0.84419 On remarque d’après le tableau des corrélations des variables avec les deux premières composantes que les variables taux d’analphabète, taux de natalité, taux de fécondité et taux de mortalité sont très bien corrélées avec la premiere composante PC1, tandis que les variables esperance_H, esperance_F, taux de médecins, et IDH sont bien corrélées avec la deuxième composante. On a choisit de garder uniquement les deux premières composantes car ils expliquent 91% d’inertie. Interprétation : On peut conclure de ce graphique et de l’interprétation des zones géographiques en fonction du nuage des variables, que la zone Afrique tel qu’il est représenté ici, se caractérise par des espérances de vie, un IDH, et un taux de médecins faibles et des taux d’analphabétisme, de natalité et de fécondité forts. Puisque tous ces pays se situent du coté de la variable Morta, on peut conclure qu’ils ont un taux de mortalité plus fort que l’ensemble des pays concernés par l’étude. Viens par la suite les zones géographiques Asie du Sud, et Moyen Orient qui se caractérisent par des taux moyens d’analphabète, de fécondité, de médecins, …. Et finalement, viennent les groupes (Amérique Latine, Europe de l’Est, Europe, Amérique du Nord) en première position qui se caractérisent par des espérances de vie, taux de médecins et IDH forts, et des taux d’analphabétisme, de natalité et de fécondité faibles. Donc plus on se déplace vers la droite, sur l’axe des abscisses, plus le taux d’analphabète, de fécondité, de natalité et de mortalité augmentent. Voyons maintenant la description de ces zones en fonction des variables économiques. - En fonction des variables économiques : Eigenvalues Explained Cumulated Histogram Inertia % % 0-------25%--------50%-------75%-------100% Ev.1 1.63313 63.81168 63.81168 |************************* Ev.2 0.49917 19.50401 83.31569 |******* Ev.3 0.22538 8.80616 92.12185 |*** Ev.4 0.13092 5.11533 97.23717 |** SPCA Coordinates [Min;Max] (8 objs,4 fact) Objects Factor 1 Factor 4 Europe de l'est [ 0.06857; 2.00944] 1.77940; 1.3971] Asie du nord [-2.59081; 1.63757] 1.69078] [-2.38088; 2.1046] Afrique [ 0.13646; 2.83963] 1.91116] [-3.09243; 1.7840] Europe [-3.26038; 1.02768] 2.12930; 1.92125] Amérique latine [-0.17257; 1.57041] 0.86658; 1.46925] Asie du sud [-0.69342; 1.81215] 1.68362] [-1.30103; 1.9115] Moyen orient [-0.66595; 1.66520] 0.98096; 2.17364] Amériqdunord [-4.51635; -0.86763] 1.25263; 1.02174] Factor 2 Factor 3 [-0.40672; 0.36433][-0.36868; 2.07058] [[-0.61666; 1.25685] [-1.59068; [-0.38757; 0.90636] [-3.17265; [-4.36016; 0.87956] [-1.70262; 1.47092] [[-0.18908; 0.48068] [-0.74994; 1.04463] [[-0.44496; 0.53981] [-0.90259; [-0.34484; 0.58245] [-2.36591; 0.96472] [[-0.02012; 1.76008][-0.23965; 0.25631] [- Correlations beetween variables and factors (8 vars,4 fact)= Var. PNB PNBH PIB_Agrico PIB_Minièr PIB_Indust PIB_Servic Import Export Factor 1 Factor 2 Factor 3 Factor 4 0.03682 0.50641 0.28362 0.38914 0.22226 0.57393 0.62860 0.69728 0.78826 0.41724 0.80443 0.75464 0.62263 0.46403 0.66955 0.70629 0.63399 0.50863 0.93139 0.85364 0.32489 0.48374 0.79749 0.87320 0.14084 0.17856 0.24604 0.27960 -0.03982 0.49755 0.27865 0.37605 On constate que la première composante est expliquée par les variables PIB (agricole, minière, industriel) et la deuxième composante principale est expliquée par les variables BNP, PNBH, et exportation. On obtient ainsi les graphes suivants : ********************************************************************* <relance la methode pour faire une autre capture> ****************************************************************** On remarque que les variables concernant les données humaines sont regroupées. On peut donc déduire qu’elles sont corrélés donc pertinent de les étudier ensemble. On obtient par la suite la cartographie suivante : On a choisit de garder uniquement les deux premières composantes car ils expliquent 83% d’inertie. 5. La Méthode DIV DIV est une méthode d’échantillonnage hiérarchique qui partitionne un ensemble d’individus en un nombre fini de classes que l’on défini. Les variables d’échantillonnages sont soit qualitatives (modale) soit quantitatives (numériques) mais en aucun cas les deux à la fois. A chaque étape de l’algorithme une question binaire détermine la subdivision en 2 classes distinctes. Ceci permet d’obtenir un partitionnement optimal conformément au critère d’inertie dont le principe est de maximiser la variance interclasse et de minimiser la variance intra classe. L’algorithme s’arrête au bout de n-1 subdivisions, n étant le nombre de classes fixés au départ. Appliquons maintenant cette méthode pour continuer notre étude sur la répartition des richesses et de l’économie mondiale. Intéressons nous à 2 types de variables : les variables se rapportant à la vie des habitants : THE SELECTED SPLIT-VARIABLES ARE : -------------------------( 4) :Esperance_Vie_H ( 5) :Esperance_Vie_F ( 6) :taux_natalite ( 7) :Taux_Mortalite ( 8) :Taux_fecondite ( 9) :Taux_analphabete ( 10) :Taux_Medecin ( 11) :IDH et les variables économiques : THE SELECTED SPLIT-VARIABLES ARE : -------------------------(3) : Densite ( 12) :PNB ( 13) :PNBH ( 14) :PIB_Agricole ( 15) :PIB_Minière ( 16) :PIB_Industrielles ( 17) :PIB_Services ( 18) :Import ( 19) :Export Exécutons la méthode DIV sur les variables humaines tout d’abord. Commençons en fixant le nombre de classes à 2. On obtient le résultat suivant : PARTITION IN 2 CLUSTERS : -------------------------: Cluster 1 (n=5) : Europe de l'est Asie du nord Europe Amérique latine Amérique du nord Cluster 2 (n=3) : Afrique Asie du sud Moyen orient Explicated inertia : 65.758774 DESCRIPTION OF THE CLUSTERS : -------------------------- Cluster 1 : IF 1- [Taux_fecondite <= 3.500000] IS TRUE Cluster 2 : IF 1- [Taux_fecondite <= 3.500000] IS FALSE THE CLUSTERING TREE : --------------------- the number noted at each node indicates the order of the division - Ng <-> yes and Nd <-> no +---- Classe 1 (Ng=5) ! !----1- [Taux_fecondite <= 3.500000] ! +---- Classe 2 (Nd=3) cet arbre de décision exprime le fait que les individus (qui sont ici des zones géographiques) sont séparés en 2 classes par la question binaire : le taux de fécondité est inférieur à 3,5 ? Si la réponse est oui, alors l’individu se retrouve dans la classe 1 (composé de 5 individus : Europe de l'est, Asie du nord, Europe, Amérique latine et Amérique du nord) et si c’est non, dans la classe 2 composé de 3 individus (Afrique, Asie du sud, Moyen orient). Renouvelons l’opération en faisant varier le nombre de classes. PARTITION IN 3 CLUSTERS : -------------------------: Cluster 1 (n=5) : Europe de l'est Asie du nord Europe Amérique latine Amérique du nord Cluster 2 (n=1) : Moyen orient Cluster 3 (n=2) : Afrique Asie du sud Explicated inertia : 78.857229 PARTITION IN 4 CLUSTERS : -------------------------: Cluster 1 (n=4) : Europe de l'est Europe Amérique latine Amérique du nord Cluster 2 (n=1) : Moyen orient Cluster 3 (n=2) : Afrique Asie du sud Cluster 4 (n=1) : Asie du nord Explicated inertia : 87.939092 PARTITION IN 5 CLUSTERS : -------------------------: Cluster 1 (n=4) : Europe de l'est Europe Amérique latine Amérique du nord Cluster 2 (n=1) : Moyen orient Cluster 3 (n=1) : Afrique Cluster 4 (n=1) : Asie du nord Cluster 5 (n=1) : Asie du sud Explicated inertia : 93.343307 DESCRIPTION OF THE CLUSTERS : -------------------------- Cluster 1 : IF 3- [Taux_analphabete <= 14.500000] IS TRUE AND 1- [Taux_fecondite <= 3.500000] IS TRUE Cluster 2 : IF 2- [Taux_analphabete <= 28.250000] IS TRUE AND 1- [Taux_fecondite <= 3.500000] IS FALSE Cluster 3 : IF 4- [Esperance_Vie_H <= 57.250000] IS TRUE AND 2- [Taux_analphabete <= 28.250000] IS FALSE AND 1- [Taux_fecondite <= 3.500000] IS FALSE Cluster 4 : IF 3- [Taux_analphabete <= 14.500000] IS FALSE AND 1- [Taux_fecondite <= 3.500000] IS TRUE Cluster 5 : IF 4- [Esperance_Vie_H <= 57.250000] IS FALSE AND 2- [Taux_analphabete <= 28.250000] IS FALSE AND 1- [Taux_fecondite <= 3.500000] IS FALSE Ici on peut lire les caractéristiques de chaque classe : Classe 1 : Taux_analphabete <= 14.5 et Taux_fecondite <= 3.5 Classe 2 : Taux_analphabete <= 28.25 et Taux_fecondite <= 3.5 Classe 3 : Taux_analphabete > 28.25 et Taux_fecondite > 3.5 et Esperance _Vie_H <= 57.25 Classe 4 : Taux_analphabete > 14.5 et Taux_fecondite <= 3.5 Classe 5 : Esperance_Vie_H > 57.25 et Taux_analphabete > 28.25 Et Taux_fecondite > 3.5 THE CLUSTERING TREE : --------------------- the number noted at each node indicates the order of the division - Ng <-> yes and Nd <-> no +---- Classe 1 (Ng=4) ! !----3- [Taux_analphabete <= 14.500000] ! ! ! +---- Classe 4 (Nd=1) ! !----1- [Taux_fecondite <= 3.500000] ! ! +---- Classe 2 (Ng=1) ! ! !----2- [Taux_analphabete <= 28.250000] ! ! +---- Classe 3 (Ng=1) ! ! !----4- [Esperance_Vie_H <= 57.250000] ! +---- Classe 5 (Nd=1) Interprétation : On constate que quelque soit le nombre de classes,l’Europe de l'est, l’Asie du nord l’Europe, l’Amérique latine et l’Amérique du nord sont toujours dans la même, ce qui prouvent qu’ils sont très proches en ce qui concerne ces variables. Passons maintenant à l’étude des variables économiques : PARTITION IN 2 CLUSTERS : -------------------------: Cluster 1 (n=6) : Afrique Europe Amérique latine Asie du sud Moyen orient Amérique du nord Cluster 2 (n=2) : Europe de l'est Asie du nord Explicated inertia : 87.485204 DESCRIPTION OF THE CLUSTERS : -------------------------- Cluster 1 : IF 1- [PIB_Industrielles <= 22.000000] IS TRUE Cluster 2 : IF 1- [PIB_Industrielles <= 22.000000] IS FALSE PARTITION IN 3 CLUSTERS : -------------------------: Cluster 1 (n=5) : Afrique Amérique latine Asie du sud Moyen orient Amérique du nord Cluster 2 (n=2) : Europe de l'est Asie du nord Cluster 3 (n=1) : Europe Explicated inertia : 98.137537 DESCRIPTION OF THE CLUSTERS : -------------------------- Cluster 1 : IF 2- [Import <= 140314286.750000] IS TRUE AND 1- [PIB_Industrielles <= 22.000000] IS TRUE Cluster 2 : IF 1- [PIB_Industrielles <= 22.000000] IS FALSE Cluster 3 : IF 2- [Import <= 140314286.750000] IS FALSE AND 1- [PIB_Industrielles <= 22.000000] IS TRUE PARTITION IN 4 CLUSTERS : -------------------------: Cluster 1 (n=3) : Amérique latine Asie du sud Amérique du nord Cluster 2 (n=2) : Europe de l'est Asie du nord Cluster 3 (n=1) : Europe Cluster 4 (n=2) : Afrique Moyen orient Explicated inertia : 99.207203 DESCRIPTION OF THE CLUSTERS : -------------------------- Cluster 1 : IF 3- [PIB_Minière <= 19.250000] IS TRUE AND 2- [Import <= 140314286.750000] IS TRUE AND 1- [PIB_Industrielles <= 22.000000] IS TRUE Cluster 2 : IF 1- [PIB_Industrielles <= 22.000000] IS FALSE Cluster 3 : IF 2- [Import <= 140314286.750000] IS FALSE AND 1- [PIB_Industrielles <= 22.000000] IS TRUE Cluster 4 : IF 3- [PIB_Minière <= 19.250000] IS FALSE AND 2- [Import <= 140314286.750000] IS TRUE AND 1- [PIB_Industrielles <= 22.000000] IS TRUE PARTITION IN 5 CLUSTERS : -------------------------: Cluster 1 (n=3) : Amérique latine Asie du sud Amérique du nord Cluster 2 (n=1) : Europe de l'est Cluster 3 (n=1) : Europe Cluster 4 (n=2) : Afrique Moyen orient Cluster 5 (n=1) : Asie du nord Explicated inertia : 99.697194 DESCRIPTION OF THE CLUSTERS : -------------------------- Cluster 1 : IF 3- [PIB_Minière <= 19.250000] IS TRUE AND 2- [Import <= 140314286.750000] IS TRUE AND 1- [PIB_Industrielles <= 22.000000] IS TRUE Cluster 2 : IF 4- [Densite <= 120.750000] IS TRUE AND 1- [PIB_Industrielles <= 22.000000] IS FALSE Cluster 3 : IF 2- [Import <= 140314286.750000] IS FALSE AND 1- [PIB_Industrielles <= 22.000000] IS TRUE Cluster 4 : IF 3- [PIB_Minière <= 19.250000] IS FALSE AND 2- [Import <= 140314286.750000] IS TRUE AND 1- [PIB_Industrielles <= 22.000000] IS TRUE Cluster 5 : IF 4- [Densite <= 120.750000] IS FALSE AND 1- [PIB_Industrielles <= 22.000000] IS FALSE THE CLUSTERING TREE : --------------------- the number noted at each node indicates the order of the division - Ng <-> yes and Nd <-> no +---- Classe 1 (Ng=3) ! !----3- [PIB_Minière <= 19.250000] ! ! ! +---- Classe 4 (Nd=2) ! !----2- [Import <= 140314286.750000] ! ! ! +---- Classe 3 (Nd=1) ! !----1- [PIB_Industrielles <= 22.000000] ! ! +---- Classe 2 (Ng=1) ! ! !----4- [Densite <= 120.750000] ! +---- Classe 5 (Nd=1) Interprétation : Les classes 2 et 5 sont caractérisés par un PIB_Industrielles > 22,0 et les classes 1, 4 et 3 par un billet inférieur à 22,0. Il s’agit des industrialisés: Europe de l’Est et Asie du nord La classe 2 représente l’Europe de l’Est avec une densité de population inférieur à 120,75 et la classe 5 (l’Asie du Nord) supérieur à 120,75. La classe 3 (l’Europe) a un chiffre d’importation supérieur à 140314286.75. Le moyen orient et l’Afrique qui constituent la classe 4 possèdent un chiffre d’importation inférieur à 140314286.75. et un PIB_minière supérieur à 19,25. Enfin, l’Amérique latine, l’Asie du sud et l’Amérique du nord ont quand à eux un PIB_minière inférieur à 19,25. 6. La Méthode DISS Sources : http://www.web-datamining.net/forum/faq.asp http://eric.univ-lyon2.fr/~ricco/data-mining/ 5. Conclusion Ce projet nous a permis de nous familiariser avec le Datamining. Les connaissances acquises nous permettront d’accroître la valeur de nos diplômes quand nous nous présenterons devant le marché du travail.