DATAMINING

Transcription

DATAMINING
Vinod SACHIDHANANDAM
Salim HAROUAT
DATAMINING
L’économie des pays et la répartition des richesses
dans le monde
Table des matières
TABLE DES MATIERES
2
1.
INTRODUCTION
4
2.
ETAT DE L’ART
5
A.
PRINCIPE
5
I.
LA MODELISATION PREDICTIVE
5
II.
LA MODELISATION DESCRIPTIVE
6
III.
LES REGLES D’ASSOCIATION
6
B.
DOMAINES D’APPLICATION
6
C.
LES OUTILS DE DATAMINING
7
3.
PROBLEMATIQUE ET PRESENTATION DES DONNEES
12
A.
PROBLEMATIQUE
12
B.
LES DONNEES
13
I.
LA BASE
13
LES INDIVIDUS SONT LES LES PAYS.
13
II.
LES REQUETES :
14
4.
EXECUTION DES METHODES
15
1.
2.
I)
II)
3.
4.
5.
6.
DB2SO
LA METHODE STAT
PRESENTATION DE LA METHODE :
INTERPRETATION :
LA METHODE SCLUST
LA METHODE PCM
LA METHODE DIV
LA METHODE DISS
15
16
16
17
19
19
24
31
5.
CONCLUSION
31
1. Introduction
Avec la taille croissante des bases de données, il devient problématique de
« faire parler » des données. Pour cette opération, on ne peut alors se fier à notre unique
intuition.
En effet, des règles intuitives n’apparaissent pas. D’autres moins évidentes existent.
Le Data mining est donc la science qui se propose de faire parler les données, de voir
comment elles sont corrélées.
C’est est un processus d'extraction de connaissances valides et exploitables à partir de
grands volumes de données.
Il a vocation à être utilisé dans un environnement professionnel et se distingue de
l'analyse de données et de la statistique par les points suivants :
- les techniques utilisées vont au-delà des techniques classiquement utilisées en
statistiques : le Data Mining se situe à la croisée des statistiques, de l'intelligence
artificielle, des bases de données.
- les connaissances extraites par le Data Mining ont vocation à être intégrées dans le
schéma organisationnel de l'entreprise ou de l'entité considérée. Le Data Mining impose
donc d'être capable d'utiliser de manière opérationnelle les résultats des analyses
effectuées, souvent dans des délais très courts. Le processus d'analyse doit permettre à
l'organisation une réactivité (très) importante.
- les données traitées sont issues des systèmes de stokage en place dans
l'organisation et sont ainsi hétérogènes, multiples, plus ou moins structurées... bref dont
la raison d'être n'est a priori pas l'analyse. Cela impose de disposer de systèmes
performants de préparation ou de manipulation de données.
Le Data Mining se propose donc de transformer en connaissance de grands volumes de
données qui peuvent être stockées de manière diverse, dans des bases de données
relationnelles, dans un (ou plusieurs !) entrepôt de données (datawarehouse), mais qui
peuvent aussi être récupérées de sources riches plus ou moins structurées comme internet,
ou encore en temps réel (appel à un call center, retrait d'argent dans un distributeur à
billets...).
Lorsque la source n’est pas directement un entrepôt de données, il s'agira très souvent de
construire une base de données ou un entrepôt de données dédié à l'analyse et aux
analystes. Cela suppose bien entendu d'avoir à sa disposition une palette d'outils de gestion
de données (data management). On peut également structurer les données de l’entrepôt
sous forme d’un hypercube OLAP, même si cela est assez rare en matière de Data Mining.
2. Etat de l’art
a. Principe
De manière générale, on peut définir le datamining comme l'extraction
d’informations ou de connaissances originales, auparavant inconnues,
potentiellement utiles à partir de gros volumes de données (d’après Frawley et
Piateski-Shapiro).
Selon SAS-INSTITUTE, il s'agit du processus de sélection, exploration, modification
et modélisation de grandes bases de données afin de découvrir des relations entre
les données jusqu'alors inconnues.
Le Data Mining correspond donc à l'ensemble des techniques et des méthodes qui à
partir de données permettent d'obtenir des connaissances exploitables. Son utilité est
grande dès lors que l'entreprise possède un grand nombre d'informations stockées
sous forme de bases de données.
Plus particulièrement, une distinction plus précise s'établit autour du concept de KDD
(Knowledge Discovery in Database ou Découverte de Connaissances dans les Bases
de Données) et celui de Data Mining. En effet, ce dernier n'est que l'une des étapes
du processus de découverte de connaissances correspondant précisément à
l'extraction des connaissances à partir des données. Avant de réaliser une étude
Data Mining, il faut donc procéder à l'élaboration d'un Data Warehouse (Entrepôt de
Données). Un datawarehouse est une collection de données thématiques, intégrées,
non volatiles et historisées pour la prise de décisions.
En outre, bien qu'utilisant des techniques et une démarche statistique, le Data Mining
et ses outils sont appelés à être utilisés par des non-statisticiens praticiens
spécialistes du problème à modéliser. Pour cela, le progiciel utilisé doit avoir des
caractéristiques spécifiques.
Le datamining permet de répondre à de nombreux besoins comme :
i.
La modélisation prédictive
La modélisation prédictive est la principale fonction pour laquelle on a recours
aux techniques de Data Mining. Il s'agit, à partir d'une base d'exemples pour lesquels
les variables d'entrée et la variable cible sont connues, de construire un modèle
permettant de prévoir la valeur de la cible en fonction des seules variables d'entrée.
Suivant le type de la variable à modéliser, on parle de :
* Classification (la variable à modéliser est une variable catégorielle, le cas le
plus fréquent étant celui d'une variable binaire caractérisant la présence ou l'absence
d'un état)
* Estimation (la variable à modéliser est une variable continue),
* Prévision (on introduit de plus une notion temporelle).
ii.
La modélisation descriptive
La modélisation à des fins descriptives a pour objet de comprendre les
facteurs principaux de différentiation de la population. Il s'agit de diviser la population
initiale en classes disjointes plus homogènes par rapport aux variables d'entrée. Le
but est avant tout de rapprocher les éléments ayant des comportements similaires et
de séparer les éléments ayant des comportements différents. Cette fonction est
principalement utilisée pour établir des typologies de clients. Permettant de structurer
les bases de données, elle est souvent mise en œuvre en phase préliminaire à une
modélisation prédictive.
iii.
Les règles d’association
Les bases de données peuvent également être explorées pour mettre à jour
des associations ou identifier des règles de comportements. En effet à partir des
comportements individuels, après étude, on peut voir émerger des tendances plus
générales. Ainsi on peut obtenir des règles sous la forme : « 78% des personnes qui
ont acheté ce produit A ont aussi acheté le produit B ».
Outre cette approche uniquement statistique du datamining, il existe aussi une
approche plus élaborée visant à étudier des données plus complexes qu’on appelle
données symboliques car elles exprime les variations inéluctables des concepts
qu’elles décrivent. L'analyse symbolique consiste à traiter statistiquement ces
concepts en étendant les méthodes classiques (analyse factorielles, classification
automatique, arbre de décision, etc.) à des données symboliques. Il s’agit donc de
« statistique de statistiques ». C’est à cette approche qu’on va s’intéresser dans cette
étude.
b. Domaines d’application
Le domaine majeur où le Data Mining a prouvé son efficacité est la gestion de
la relation client (CRM ou Customer Relationship Management). En effet, le Data
Mining permet par une meilleure connaissance de la clientèle d'accroître les ventes.
Cependant, la décision n'est pas le propre des entreprises commerciales. De
ce fait, les techniques de Data Mining ont une multitude d'applications, aussi bien
dans le domaine civil que militaire. On peut citer notamment :
Dans le domaine civil :
* L'industrie et la production, pour le contrôle qualité (anticipation des défauts,
identification des sources de produits défectueux…) ou la planification de la charge
des usines,
* La médecine, pour l'aide au diagnostic en fonction des symptômes des malades
ou l'identification de la thérapie la plus appropriée à un individu donné,
* Les transports, les télécommunications et l'énergie, pour les prévisions de trafic
(routier, réseaux, …) ou de consommations (eau, électricité,…),
* La banque et la finance, pour prévoir la défaillance d'un emprunteur ou pour la
gestion quantitative de portefeuilles,
* La grande distribution, pour déterminer les modèles d'achat des consommateurs,
optimiser les réapprovisionnements ou évaluer l'impact des campagnes publicitaires,
de promotions,
* L'assurance, pour l'analyse des sinistres, la recherche des caractéristiques des
clients à haut risque ou la détection des fraudes.
Dans le domaine militaire :
* La modélisation de phénomènes physiques complexes (dynamique des fluides,
propagation électromagnétique, …),
* La gestion des essais,
* La classification de signaux, pour la discrimination des cibles et des fausses
alarmes,
* La reconnaissance de forme, pour l'identification de cibles,
* Le maintien en condition opérationnelle, pour établir des modèles prévisionnels
du nombre de défauts sur une période donnée, déterminer les causes d'un défaut
identifié ou encore anticiper une défaillance,
* La sécurité des Systèmes d'Information Opérationnel (SIO), pour détecter et
prévenir les utilisations frauduleuses,
* Le renseignement, pour comprendre et prévoir le comportement de l'adversaire,
* La logistique, pour identifier dès le départ la gravité d'une crise et déterminer les
moyens à mettre en œuvre pour la résoudre.
c. Les outils de datamining
SAS Entreprise Miner
La solution logicielle intégrée SAS Enterprise Miner TM est un outil très
puissant. Il permet des analyses rapides sur de très grosses bases de données. Il est
très convivial : il dispose d'une interface composée d'icônes et de flèches permettant
une visualisation générale de la totalité du projet. Il est enfin très complet : Enterprise
Miner TM dispose d'une grande richesse analytique et permet aussi l'intégration de
toutes les méthodes statistiques déjà présentes dans les modules de SAS.
http://www.sas.com/offices/europe/france/software/sem.html
SPAD
Cree en 1985 dans sa version Dos, SPAD est le logiciel francais pionnier dans les
analyses exploratoires et le data mining.
Connu et reconnu pour sa convivialite et son efficacite, il possede les principales
techniques statistiques liees au data mining. Desription automatique de variables,
analyse exploratoires multidimensionnelles (ACP, AFC, ACM et Classif), Réseaux de
neurones, Analyse discriminante, Segmentation...
http://www.spadsoft.com/
Complex Systems
Complex Systems est une société d'édition de logiciels data mining. Elle édite
notamment le logiciel Datalab spécialisé dans la préparation des données pour le
Data Mining.
http://www.complex-systems.fr/Pages/Datalab.htm
SPSS
Clementine, l'atelier de data mining, accompagne l'entreprise dans la gestion de sa
relation client. Clementine intègre l'ensemble des techniques statistiques pour la
valorisation et la modélisation de vos données. Son interface visuelle et intelligente
facilite le processus de data mining et permet à l'utilisateur d'exploiter pleinement ses
connaissances métier. Solution globale d'entreprise Clementine permet le
déploiement des modèles créés à chaque acteur de l'entreprise.
http://www.spss.com/france/product/clementine3.htm
STATISTICA
Le logiciel STATISTICA, disponible en version française, est un logiciel de statistique
pourvu de méthodes datamining.
http://www.statsoft.com/datamine.html
XLSTAT
XLSTAT édité par Addinsoft est un logiciel implémentant dans Microsoft Excel
des fonctionnalités d'analyse de données et de statistiques. Le module central,
XLSTAT-Pro, comprend plus de 40 outils d'analyse de données et de statistiques.
Des modules avancés sont également disponibles ou en cours de développement
(tableaux croisés dynamiques, séries chronologiques). .
http://www.xlstat.com/indexfr.html
NETRAL
NETRAL est spécialisée dans les réseaux de neurones et le traitement statistique de
données pour la classification, la modélisation et la simulation de procédés nonlinéaires. ..
http://www.netral.com/
CORICO
CORICO est un logiciel d'aide à la décision fondée sur les corrélations totales
et partielles et les "interactions logiques". Une représentation originale "sur une
sphère", valable quel que soit le nombre de dimensions, permet l'analyse simultanée
des variables qualitatives et quantitatives. Une large gamme de méthodes est
proposée dans la version standard (analyse exploratoire, modélisation, segmentation,
séries chronologiques, aspects non linéaires, plans d'expériences).
http://www.coryent.com/
SmartMiner
SmartMiner est un logiciel d'aide à la décision qui permet l'exploration des
informations (contenues dans des bases de données commerciales ou d'enquêtes) et
d'en extraire l'information. Il permet de réaliser des segmentation (par arbres de
décision et classification) ainsi que de la prévision (par séries chronologiques et
modélisations).
Pertinence Data Intelligence
Pertinence Data Intelligence est un éditeur de solutions dédiées à l'amélioration des
performances des processus industriels et des systèmes complexes, combinant
technologies d’analyse de données et savoir-faire industriel (maximisation du retour
d’expérience lors de l'industrialisation des produits et processus).
http://www.pertinence.com/homepage_fr.html
Set Analyser de Business Objects
Business Objects propose un outil d'analyse des données issues de l'e-business et
du CRM : Le logiciel Set Analyser. Set Analyzer s'appuie sur les fonctionnalités
d'interrogation, de reporting et d'analyse multidimensionnelle OLAP de
BusinessObjects et de WebIntelligence.
http://www.france.businessobjects.com/produits/set_analyzer.htm
Teradata Warehouse Miner
L'architecture du logiciel Teradata Warehouse Miner permet de travailler directement
sur les bases de données massivement parallèles Teradata et permet d'effectuer de
multiples analyses sur de grandes bases…
http://www.teradata.com/solutions/dw_mining.asp
ALICE d'ISoft
Le logiciel ALICE d'ISoft trouve l'information essentielle cachée dans vos données
vous permettant de prendre de meilleures décisions. ALICE est un outil de data
mining en ligne, cela peut vous apporter des résultats compréhensibles et explicites.
Puissant et scalable, il couvre la totalité du cycle du data mining.
http://www.isoft.fr
SPLUS
INSIGTHFUL éditrice des logiciels SPLUS (Analyse de données),
INSIGHTFULMINER (data mining), VISIMINE (data mining).
http://www.insightful.com/products/default.asp
KXEN
Société américaine spécialisée dans l'édition de logiciels d'analyse statistique et de
Mining. Ses composants Data Mining se basent sur la théorie de VapnikChervonenkis (AT&T Labs) qui permet de contrôler la robustesse (capacité de
généralisation) des modèles sans avoir recours à toute la batterie habituelle de tests
d'hypothèses de la théorie classique.
http://www.kxen.com/
Easyminer
Le logiciel Easyminer est un outil de Web Mining intégrant des fonctionnalités de
Data Mining. Il permet notamment d'effectuer des classifications automatiques et des
analyses tenant compte de la structure hiérarchique du site étudié.
http://www.mineit.com
WebStat 2.0
Le logiciel WebStat 2.0 s'utilise directement et gratuitement à partir de votre
navigateur. Il permet de calculer des statistiques élémentaires ainsi que d'afficher un
certain nombre de graphiques.
http://www.stat.sc.edu/webstat/version2.0/
MineSet
Le Société Silicon Graphics (SGI) développe un logiciel de Visual Data Mining :
MineSet. Ce logiciel propose un large éventail de techniques utiles à un processus
Data Mining, allant de la manipulation de données (Méthodes de visualisation, ...) à
l'analyse statistique (Classification, Régression, Scoring,...).
http://mineset.sgi.com/
KnowledgeSEEKER et KnowledgeSTUDIO
Angoss propose deux outils de Data Mining : KnowledgeSEEKER et
KnowledgeSTUDIO. Le premier logiciel permet l'utilisation des arbre des décision à
l'aide des algorithmes CHAID, XAID, K-Means, et Entropy. Le second ajoute à ces
algorithmes d'autres méthodes d'analyse des données (réseaux de neurones,...etc...).
http ://www.angoss.com
Visualmine
Il s'agit d'un logiciel de data-mining spécialisé notamment dans la visualisation
graphique en 3 dimensions. Une démo du logiciel est proposé en téléchargement.
Des exemples en ligne sont proposés.
http://www.visualmine.com/
Oracle Data Mining
Logiciel de datamining d'Oracle propose la classification, régression, la segmentation,
l’association, extraction de caractéristiques et détection d'anomalie. La modélisation,
le marquage, et les opérations de gestion de méta-données sont accessibles par
l'intermédiaire de l'interface graphique client de d'Oracle data miner, des opérateurs
de PL/SQL api, de SQL, et du Java-basé, JSR-73 api conforme. Toute l'exploitation
de données se déroule entièrement dans la base de données relationnelle.
http://otn.oracle.com/products/bi/9idmining.html
Intelligent Miner © d'IBM.
Les possibilités d'IBM Intelligent Miner aident à détecter les fraudes, à segmenter vos
clients, et à simplifier l'analyse du marché. Les possibilités du logiciel d'IBM intègrent
avec les systèmes existants pour fournir une analyse prédictive sans migrer les
données dans des plateformes d’extraction de données de propriétaires.
http://www-4.ibm.com/software/data/iminer/
SYROKKO
SYROKKO est un cabinet de conseil indépendant fondé en 2004 et spécialisé dans
l’analyse statistique à des fins marketing, stratégiques, financières, etc. et qui a
développé des methodes mathématiques et statistiques AD HOC. Ce logiciel
s’appuie sur un logiciel original, SODAS, fruit de sept années de recherche menée
par de nombreuses équipes universitaires européennes soutenues par deux projets
européens d'EUROSTAT.
Ce logiciel utilise les méthodes statistiques les plus connues et les plus utilisées par
les professionnels du Datamining. Cependant, SYROKKO va plus loin en offrant la
possibilité d’aborder les données d’une manière entièrement nouvelle, à travers la





notion de concept et son analyse via la transformation des données classiques en
données symboliques.
Il propose en effet les opérations suivantes :
 Segmentation client / produit / service / zone géographique;
 Création d'indicateurs pertinents pour l'analyse d'un marché;
 Analyse de performances, analyse de risques, prévision;
 Détection de pannes, fraudes, comportements atypiques;
 Détection de risques d'attrition de clients;
 Evaluation de l'appétece d'un client pour un nouveau produit / service
 Analyse prospective;
Mise en oeuvre de nouveaux leviers d'actions (sur les clients, la concurrence, les
salariés, etc.);
Analyse géomarketing (classification de zones);
Explication de comportements;
Définition de scénarios (accidents, risques, choix stratégiques...);
Définition de prototypes (zone-type, client-type, comportement-type...);
SODAS
Conçue par EDWIN DIDAY, la théorie des concepts décrits par des données
symboliques a ensuite fait l’objet pendant plusieurs années de développements
théoriques et informatiques par des experts issus d’institution reconnues, pour aboutir au
logiciel SODAS, dont une version universitaire est consultable sur le site
www.ceremade.dauphine.fr .
Nous pouvons classer quelque uns de ces logiciels sous la forme suivante, selon les
techniques et méthodes implémentées et les plateformes sur lesquelles elles opèrent.
Logiciels de Datamining
Mono techniques
Logiciels Micros
DATALAB de complex systems
ALICE d'ISoft
Salford Systems – CART
Neuralware – Predict
Gros systèmes
SPSS answer tree
Multi-techniques
INSIGTHFUL éditrice des logiciels
SPLUS (Analyse de données),
VISIMINE (data mining).
Tanagra (gratuit)
INSIGHTFULMINER
SAS entreprise Miner
SPAD de spadsoft
STATISTICA de statsoft
Clementine de SPSS
Analyse symbolique
SYROKKO, SODAS
3. Problématique et présentation des données
a. Problématique
On oppose souvent les pays développés aux pays en voie de développement.
Vu sous le prisme géographique, cette opposition est davantage « Nord / Sud ».
Si sur le seul critère macro-économique, ce découpage a un sens. Il semble insuffisant
pour décrire les disparités démographiques, économiques et sociales au sein même des
différents groupes.
La problématique que nous nous proposons d’étudier est donc triple :
- Peut-on regrouper des pays qui « se ressemblent » ? Si oui, comment ?
- Quelles sont les caractéristiques démographiques et économiques de chacun de ces
groupes ?
- Peut-on lier ces différentes caractéristiques ?
Dans un premier temps, nous tenterons de former des groupes de pays en fonction
des variables démographiques, économiques et sociales. Nous essaierons ensuite de
constater les relations éventuelles entre les différentes variables démographiques,
sociales ou économiques.
Nous verrons tout d’abord la méthodologie de travail pour faire un projet sous
SODAS. Ensuite, nous décrirons la base de données ainsi que les requêtes opérées sur
la base. Enfin, nous exposerons pour chaque méthode utilisée une présentation de la
méthode, des résultats obtenus et l’interprétation du résultat.
b. Les données
i.
La base
Le schéma de la base est le suivant :
Les individus sont les les pays.
La Table_Pays est la table principale où sont décrits tous les individus.
La table Economie contient les caractéristiques économiques.
La table continent comprend :
1 Américain
2 Afrique
3 Europe
4 Asie
5 Océanie
La table Concept_Geographique comprend :
1
2
3
4
5
6
Amérique du nord
Amérique latine
Asie du nord
Asie du sud
Moyen orient
Europe de l'est
7 Europe
8 Afrique
La table répartition nord/sud comprend :
1 Pays en développement
2 Pays développés ;
ii. Les requêtes :
Plusieurs requêtes ont était nécessaires pour effectuer cette étude.

La requête requete_individus :
Cette requête renvoie les individus du premier ordre, c’est à dire les pays et les variables de
description.
SELECT Table_Pays.Nom_Pays, Table_Pays.Densite, Table_Pays.Population, Table_Pays.population_Urbaine,
Table_Pays.Esperance_Vie_H, Table_Pays.Esperance_Vie_F, Table_Pays.taux_natalite,
Table_Pays.Taux_Mortalite, Table_Pays.Taux_fecondite, Table_Pays.Taux_analphabete,
Table_Pays.Taux_Medecin, Table_Pays.IDH, Economie.PNB, Economie.PNBH, Economie.PIB_Agricole,
Economie.PIB_Minière, Economie.PIB_Industrielles, Economie.PIB_Services, Economie.Import,
Economie.Export
FROM Economie INNER JOIN Table_Pays ON Economie.code_Economie = Table_Pays.Code_Economie;

La requête requete_concept :
Cette requête renvoie les concepts (les zones géographiques), les variables de classe et les
variables de description des concepts : nombre pays.
SELECT Concept_Geographique.Zone_geographique, Sum(Table_Pays.Densite) ASommeDeDensite
FROM Concept_Geographique INNER JOIN Table_Pays ON Concept_Geographique.Code_Concept_geo =
Table_Pays.Code_Concept_geo
GROUP BY Concept_Geographique.Zone_geographique;

La requete requete_taxo :
Pour la taxonomie cette requête reprend les variables «la répartition nord/sud et le continent
d’appartenance).
SELECT Table_Pays.Nom_Pays, Continent.Nom_Continent
FROM Continent INNER JOIN Table_Pays ON Continent.Code_Continent = Table_Pays.Code_Continent;
Ce sont ces requêtes que nous allons utiliser par la suite.
4. Exécution des méthodes
1. DB2SO
 Description du module
Figure 1 : présentation de SODAS
DB2SO est un élément du logiciel SODAS qui permet à l’utilisateur de construire un
ensemble d’assertions à partir de données stockées dans une base de données
relationnelle. Il est supposé qu’un ensemble d’individus et stocké dans une base de données
et que ces individus sont distribués dans des groupes. Alors, DB2SO peut construire une
assertion pour chaque groupe d’individus. Dans ce processus, les variables mère/fille et les
taxonomies sur des domaines de variables peuvent aussi être associées à des assertions
générées.
DB2SO est invoqué à partir de Import dans SODAS file.
Après avoir défini la base de données Inegalite_monde.mdb, il s’agit d’exécuter chaque
requête de la façon suivante :
Après les avoir toutes exécutées, DB2SO nous fournit un récapitulatif reprenant toutes les variables
et tous les concepts définis.
Il s’agit ensuite d’enregistrer la session en un fichier *.gaj par l’intermédiaire de la commande
File/Save.
Ensuite, il faut exporter ce fichier (File/Export) pour créer un nouveau fichier SODAS de type
*.sds. Ce fichier sera la base de toutes les applications SODAS.
2. La Méthode STAT
i)
Présentation de la méthode :
Cette méthode permet de voir la répartition de la population des objets
symboliques par rapport à une variable donnée. STAT étend aux objets symboliques,
représentés par leur description, plusieurs statistiques élémentaires aux données
conventionnelles. La méthode appliquée dépend du choix de variables, et sont filtrées
selon leur nature:
1. fréquences relatives aux variables multinominales
2. fréquences relatives aux variables d’intervalle
3. capacités et min/max/moyenne pour les variables probabilistiques multinominales
4. biplot pour les variables d’intervalle.
L’identification de l’objet central est aussi inclus et ne dépend pas des types
spécifiques des variables.
En appliquant cette methode, on peut obtenir des graphes de fréquences comme
ceux-ci-dessous :
ii) Interprétation :
Sur le premier graphe concernant l’espérance de vie, nous pouvons voir que
la majeure partie des pays est constitué de personnes avec une espérance de vie
entre 60 et 75 ans.
Dans le graphe de séquence suivant, on remarque que près de 56% des pays
ont un PNB inférieur à 1500. On voit donc clairement sur la partie droite du graphique
qu’une toute petite partie des pays detient 80 % des richesses du monde.
Le graphe de la population a à peu près la même allure. On voit donc qu’il y a
beaucoup de pays (environ 60 %) qui sont peuplé de moins de 300000000
d’habitants. Il existe donc très peu de pays très peuplés. On devine que les 2 pays
les plus peuplé avec plus de 1 milliard d’habitants (la Chine et l’Inde) sont
représentés à la droite du graphique.
En plus des graphes de fréquence sous forme d’histogrammes, la méthode STAT
propose également le tracé de graphe biplots.
Par exemple le taux de mortalité par rapport au taux de médecin pratiquant dans le
pays :
Interprétation :
Sur le premier biplot, on distingue clairement que le continent Africain qui possède le
plus fort taux de mortalité a aussi le plus faible taux de médecin et que pour l’Europe, c’est
strictement l’inverse. On peut donc voir qu’un corps médical important influe sur la santé des
habitants du pays.
Sur le second biplot, nous avons le taux de natalité en fonction du PNB. On peut
noter ici que l’Afrique possède un fort aux de natalité mais avec un PNB faible alors que
l’Asie est plus équilibré. Quant à l’Amerique, le PNB est le plus fort mais le taux de natalité
est faible.
On peut donc supposer que le nombre de naissance ne dépend pas de la richesse du pays.
Pour schématiser, les gens ne font pas forcément des enfants quand ils en ont les moyens
…
3. La Méthode SCLUST
Nous avons mis en ordonnée le taux d’analphabétisme et l’espérance de vie.
4. La Méthode PCM
Il s’agit de l’Analyse en Composante Principale classique. Cependant, au lieu de
représenter les points sur un plan factoriel, la méthode PCM fourni une visualisation de
chaque concept par des rectangles. L’objectif est d’étudier l’importance des liens entre
les variables et d’identifier les concepts présentant des caractéristiques plus ou moins
proches.
La méthode PCM est donc une méthode factorielle de réduction du nombre de
caractères permettant des représentations géométriques des individus et des variables.
La réduction se fait par la construction de nouveaux caractères synthétiques obtenus
en combinant les variables initiales au moyen des « facteurs ».
Les éléments de la matrice de données sont des intervalles et chacun décrit la
variation de la variable observée (minimum et maximum). La méthode n’accepte que
les variables continues. Pour chacune, l’utilisateur choisit ainsi son maximum et son
minimum.
L’exécution de la méthode donne deux résultats :
1 - Le listing qui contient : la description de la matrice de données par une table :
chaque ligne correspond à une classe ; les valeurs propres, le pourcentage d’inertie et
les premières composantes principales. Chaque classe est caractérisée d’abord par
deux composantes principales et visualisée dans un plan factoriel par un rectangle ; les
corrélations entre chaque variable descriptive et les composantes principales.
2 - Une représentation graphique.
listing :
En fonction des variables humaines :
Eigenvalues Explained
Cumulated
Inertia
%
%
0-------25%--------50%-------75%-------100%
Ev.1
1.58640
77.67981
77.67981
|*******************************
Ev.2
0.28969
14.18521
91.86501
|*****
Ev.3
0.07828
3.83323
95.69824
Ev.4
0.04627
2.26545
97.96369
Histogram
|*
|
SPCA Coordinates [Min;Max] (8 objs,4 fact)=
Objects
Factor 1
Factor 4
Europe de l'est
[-2.04037; -0.29275]
1.01799] [-0.55187; 0.27018]
Asie du nord
[-2.45013; 1.49660]
1.50926] [-2.01993; 1.40058]
Afrique
[-0.99121; 6.11434]
2.72314] [-2.77462; 2.88654]
Europe
[-2.55932; 0.64078]
1.35327] [-1.17304; 1.30409]
Amérique latine [-1.56480; 1.36416]
1.70950] [-0.74622; 1.59424]
Asie du sud
[-1.67514; 4.23605]
2.47105] [-2.46861; 2.34327]
Moyen orient
[-2.02640; 2.51383]
2.21370] [-2.19240; 1.80589]
Amériq du nord [-1.70089; -1.06474]
0.69114] [-0.32811; 0.65001]
Factor 2
Factor 3
[-0.06643; 1.80609]
[-0.03574;
[-1.73386; 1.80005]
[-2.23676;
[-3.13152; 4.20872]
[-2.94468;
[-1.53317; 1.76426]
[-1.90338;
[-1.66519; 1.17674]
[-1.35767;
[-2.62642; 2.38695]
[-2.39864;
[-3.32935; 1.16601]
[-1.65455;
[-0.68564; 0.46277]
[-1.15763;
Correlations between variables and factors (8 vars,4 fact)=
Variables
Factor 1 Factor 2 Factor 3
Factor 4
Esperance_H 0.59240
0.78099
0.82748
0.84786
Esperance_ F 0.41863
0.76497
0.78097
0.81024
taux_natalite
0.98208
0.74502
0.80132
0.80661
Taux_Mortalite 0.88354
0.88024
0.76657
0.79489
Taux_fecondite
0.96069
0.71357
0.78076
0.79398
Taux_analphapete
0.95533
0.71670
0.73210
0.75070
Taux_Medecins
0.43431
0.66005
0.74642
0.69379
IDH
0.66242
0.87108
0.91995
0.84419
On remarque d’après le tableau des corrélations des variables avec les deux premières
composantes que les variables taux d’analphabète, taux de natalité, taux de fécondité
et taux de mortalité sont très bien corrélées avec la premiere composante PC1, tandis
que les variables esperance_H, esperance_F, taux de médecins, et IDH sont bien
corrélées avec la deuxième composante.
On a choisit de garder uniquement les deux premières composantes car ils expliquent
91% d’inertie.
Interprétation :
On peut conclure de ce graphique et de l’interprétation des zones géographiques en
fonction du nuage des variables, que la zone Afrique tel qu’il est représenté ici, se
caractérise par des espérances de vie, un IDH, et un taux de médecins faibles et des taux
d’analphabétisme, de natalité et de fécondité forts. Puisque tous ces pays se situent du coté
de la variable Morta, on peut conclure qu’ils ont un taux de mortalité plus fort que l’ensemble
des pays concernés par l’étude.
Viens par la suite les zones géographiques Asie du Sud, et Moyen Orient qui se
caractérisent par des taux moyens d’analphabète, de fécondité, de médecins, ….
Et finalement, viennent les groupes (Amérique Latine, Europe de l’Est, Europe,
Amérique du Nord) en première position qui se caractérisent par des espérances de vie, taux
de médecins et IDH forts, et des taux d’analphabétisme, de natalité et de fécondité faibles.
Donc plus on se déplace vers la droite, sur l’axe des abscisses, plus le taux d’analphabète,
de fécondité, de natalité et de mortalité augmentent.
Voyons maintenant la description de ces zones en fonction des variables économiques.
- En fonction des variables économiques :
Eigenvalues
Explained
Cumulated
Histogram
Inertia
%
%
0-------25%--------50%-------75%-------100%
Ev.1
1.63313
63.81168
63.81168
|*************************
Ev.2
0.49917
19.50401
83.31569
|*******
Ev.3
0.22538
8.80616
92.12185
|***
Ev.4
0.13092
5.11533
97.23717
|**
SPCA Coordinates [Min;Max] (8 objs,4 fact)
Objects
Factor 1
Factor 4
Europe de l'est
[ 0.06857; 2.00944]
1.77940; 1.3971]
Asie du nord
[-2.59081; 1.63757]
1.69078]
[-2.38088; 2.1046]
Afrique
[ 0.13646; 2.83963]
1.91116]
[-3.09243; 1.7840]
Europe
[-3.26038; 1.02768]
2.12930; 1.92125]
Amérique latine [-0.17257; 1.57041]
0.86658; 1.46925]
Asie du sud
[-0.69342; 1.81215]
1.68362]
[-1.30103; 1.9115]
Moyen orient
[-0.66595; 1.66520]
0.98096; 2.17364]
Amériqdunord
[-4.51635; -0.86763]
1.25263; 1.02174]
Factor 2
Factor 3
[-0.40672; 0.36433][-0.36868; 2.07058] [[-0.61666; 1.25685]
[-1.59068;
[-0.38757; 0.90636]
[-3.17265;
[-4.36016; 0.87956] [-1.70262; 1.47092] [[-0.18908; 0.48068] [-0.74994; 1.04463] [[-0.44496; 0.53981]
[-0.90259;
[-0.34484; 0.58245] [-2.36591; 0.96472] [[-0.02012; 1.76008][-0.23965; 0.25631] [-
Correlations beetween variables and factors (8 vars,4 fact)=
Var.
PNB
PNBH
PIB_Agrico
PIB_Minièr
PIB_Indust
PIB_Servic
Import
Export
Factor 1 Factor 2 Factor 3
Factor 4
0.03682
0.50641
0.28362
0.38914
0.22226
0.57393
0.62860
0.69728
0.78826
0.41724
0.80443
0.75464
0.62263
0.46403
0.66955
0.70629
0.63399
0.50863
0.93139
0.85364
0.32489
0.48374
0.79749
0.87320
0.14084
0.17856
0.24604
0.27960
-0.03982
0.49755
0.27865
0.37605
On constate que la première composante est expliquée par les variables PIB (agricole,
minière, industriel) et la deuxième composante principale est expliquée par les variables
BNP, PNBH, et exportation.
On obtient ainsi les graphes suivants :
*********************************************************************
<relance la methode pour faire une autre capture>
******************************************************************
On remarque que les variables concernant les données humaines sont regroupées. On peut
donc déduire qu’elles sont corrélés donc pertinent de les étudier ensemble.
On obtient par la suite la cartographie suivante :
On a choisit de garder uniquement les deux premières composantes car ils expliquent 83%
d’inertie.
5. La Méthode DIV
DIV est une méthode d’échantillonnage hiérarchique qui partitionne un ensemble
d’individus en un nombre fini de classes que l’on défini. Les variables
d’échantillonnages sont soit qualitatives (modale) soit quantitatives (numériques)
mais en aucun cas les deux à la fois.
A chaque étape de l’algorithme une question binaire détermine la subdivision en 2
classes distinctes. Ceci permet d’obtenir un partitionnement optimal conformément au
critère d’inertie dont le principe est de maximiser la variance interclasse et de
minimiser la variance intra classe. L’algorithme s’arrête au bout de n-1 subdivisions, n
étant le nombre de classes fixés au départ.
Appliquons maintenant cette méthode pour continuer notre étude sur la répartition
des richesses et de l’économie mondiale.
Intéressons nous à 2 types de variables :
les variables se rapportant à la vie des habitants :
THE SELECTED SPLIT-VARIABLES ARE :
-------------------------( 4) :Esperance_Vie_H
( 5) :Esperance_Vie_F
( 6) :taux_natalite
( 7) :Taux_Mortalite
( 8) :Taux_fecondite
( 9) :Taux_analphabete
( 10) :Taux_Medecin
( 11) :IDH
et les variables économiques :
THE SELECTED SPLIT-VARIABLES ARE :
-------------------------(3) : Densite
( 12) :PNB
( 13) :PNBH
( 14) :PIB_Agricole
( 15) :PIB_Minière
( 16) :PIB_Industrielles
( 17) :PIB_Services
( 18) :Import
( 19) :Export
Exécutons la méthode DIV sur les variables humaines tout d’abord. Commençons en fixant
le nombre de classes à 2. On obtient le résultat suivant :
PARTITION IN 2 CLUSTERS :
-------------------------:
Cluster 1 (n=5) :
Europe de l'est Asie du nord Europe Amérique latine Amérique du nord
Cluster 2 (n=3) :
Afrique Asie du sud Moyen orient
Explicated inertia : 65.758774
DESCRIPTION OF THE CLUSTERS :
--------------------------
Cluster 1 :
IF 1- [Taux_fecondite <= 3.500000] IS TRUE
Cluster 2 :
IF 1- [Taux_fecondite <= 3.500000] IS FALSE
THE CLUSTERING TREE :
--------------------- the number noted at each node indicates
the order of the division
- Ng <-> yes and Nd <-> no
+---- Classe 1 (Ng=5)
!
!----1- [Taux_fecondite <= 3.500000]
!
+---- Classe 2 (Nd=3)
cet arbre de décision exprime le fait que les individus (qui sont ici des zones géographiques)
sont séparés en 2 classes par la question binaire : le taux de fécondité est inférieur à 3,5 ?
Si la réponse est oui, alors l’individu se retrouve dans la classe 1 (composé de 5 individus :
Europe de l'est, Asie du nord, Europe, Amérique latine et Amérique du nord)
et si c’est non, dans la classe 2 composé de 3 individus (Afrique, Asie du sud, Moyen orient).
Renouvelons l’opération en faisant varier le nombre de classes.
PARTITION IN 3 CLUSTERS :
-------------------------:
Cluster 1 (n=5) :
Europe de l'est Asie du nord Europe Amérique latine Amérique du nord
Cluster 2 (n=1) :
Moyen orient
Cluster 3 (n=2) :
Afrique Asie du sud
Explicated inertia : 78.857229
PARTITION IN 4 CLUSTERS :
-------------------------:
Cluster 1 (n=4) :
Europe de l'est Europe Amérique latine Amérique du nord
Cluster 2 (n=1) :
Moyen orient
Cluster 3 (n=2) :
Afrique Asie du sud
Cluster 4 (n=1) :
Asie du nord
Explicated inertia : 87.939092
PARTITION IN 5 CLUSTERS :
-------------------------:
Cluster 1 (n=4) :
Europe de l'est Europe Amérique latine Amérique du nord
Cluster 2 (n=1) :
Moyen orient
Cluster 3 (n=1) :
Afrique
Cluster 4 (n=1) :
Asie du nord
Cluster 5 (n=1) :
Asie du sud
Explicated inertia : 93.343307
DESCRIPTION OF THE CLUSTERS :
--------------------------
Cluster 1 :
IF 3- [Taux_analphabete <= 14.500000] IS TRUE
AND 1- [Taux_fecondite <= 3.500000] IS TRUE
Cluster 2 :
IF 2- [Taux_analphabete <= 28.250000] IS TRUE
AND 1- [Taux_fecondite <= 3.500000] IS FALSE
Cluster 3 :
IF 4- [Esperance_Vie_H <= 57.250000] IS TRUE
AND 2- [Taux_analphabete <= 28.250000] IS FALSE
AND 1- [Taux_fecondite <= 3.500000] IS FALSE
Cluster 4 :
IF 3- [Taux_analphabete <= 14.500000] IS FALSE
AND 1- [Taux_fecondite <= 3.500000] IS TRUE
Cluster 5 :
IF 4- [Esperance_Vie_H <= 57.250000] IS FALSE
AND 2- [Taux_analphabete <= 28.250000] IS FALSE
AND 1- [Taux_fecondite <= 3.500000] IS FALSE
Ici on peut lire les caractéristiques de chaque classe :
Classe 1 : Taux_analphabete <= 14.5 et Taux_fecondite <= 3.5
Classe 2 : Taux_analphabete <= 28.25 et Taux_fecondite <= 3.5
Classe 3 : Taux_analphabete > 28.25 et Taux_fecondite > 3.5 et
Esperance _Vie_H <= 57.25
Classe 4 : Taux_analphabete > 14.5 et Taux_fecondite <= 3.5
Classe 5 : Esperance_Vie_H > 57.25 et Taux_analphabete > 28.25
Et Taux_fecondite > 3.5
THE CLUSTERING TREE :
--------------------- the number noted at each node indicates
the order of the division
- Ng <-> yes and Nd <-> no
+---- Classe 1 (Ng=4)
!
!----3- [Taux_analphabete <= 14.500000]
! !
! +---- Classe 4 (Nd=1)
!
!----1- [Taux_fecondite <= 3.500000]
!
! +---- Classe 2 (Ng=1)
! !
!----2- [Taux_analphabete <= 28.250000]
!
! +---- Classe 3 (Ng=1)
! !
!----4- [Esperance_Vie_H <= 57.250000]
!
+---- Classe 5 (Nd=1)
Interprétation :
On constate que quelque soit le nombre de classes,l’Europe de l'est, l’Asie du nord
l’Europe, l’Amérique latine et l’Amérique du nord sont toujours dans la même, ce qui
prouvent qu’ils sont très proches en ce qui concerne ces variables.
Passons maintenant à l’étude des variables économiques :
PARTITION IN 2 CLUSTERS :
-------------------------:
Cluster 1 (n=6) :
Afrique Europe Amérique latine Asie du sud Moyen orient Amérique du nord
Cluster 2 (n=2) :
Europe de l'est Asie du nord
Explicated inertia : 87.485204
DESCRIPTION OF THE CLUSTERS :
--------------------------
Cluster 1 :
IF 1- [PIB_Industrielles <= 22.000000] IS TRUE
Cluster 2 :
IF 1- [PIB_Industrielles <= 22.000000] IS FALSE
PARTITION IN 3 CLUSTERS :
-------------------------:
Cluster 1 (n=5) :
Afrique Amérique latine Asie du sud Moyen orient Amérique du nord
Cluster 2 (n=2) :
Europe de l'est Asie du nord
Cluster 3 (n=1) :
Europe
Explicated inertia : 98.137537
DESCRIPTION OF THE CLUSTERS :
--------------------------
Cluster 1 :
IF 2- [Import <= 140314286.750000] IS TRUE
AND 1- [PIB_Industrielles <= 22.000000] IS TRUE
Cluster 2 :
IF 1- [PIB_Industrielles <= 22.000000] IS FALSE
Cluster 3 :
IF 2- [Import <= 140314286.750000] IS FALSE
AND 1- [PIB_Industrielles <= 22.000000] IS TRUE
PARTITION IN 4 CLUSTERS :
-------------------------:
Cluster 1 (n=3) :
Amérique latine Asie du sud Amérique du nord
Cluster 2 (n=2) :
Europe de l'est Asie du nord
Cluster 3 (n=1) :
Europe
Cluster 4 (n=2) :
Afrique Moyen orient
Explicated inertia : 99.207203
DESCRIPTION OF THE CLUSTERS :
--------------------------
Cluster 1 :
IF 3- [PIB_Minière <= 19.250000] IS TRUE
AND 2- [Import <= 140314286.750000] IS TRUE
AND 1- [PIB_Industrielles <= 22.000000] IS TRUE
Cluster 2 :
IF 1- [PIB_Industrielles <= 22.000000] IS FALSE
Cluster 3 :
IF 2- [Import <= 140314286.750000] IS FALSE
AND 1- [PIB_Industrielles <= 22.000000] IS TRUE
Cluster 4 :
IF 3- [PIB_Minière <= 19.250000] IS FALSE
AND 2- [Import <= 140314286.750000] IS TRUE
AND 1- [PIB_Industrielles <= 22.000000] IS TRUE
PARTITION IN 5 CLUSTERS :
-------------------------:
Cluster 1 (n=3) :
Amérique latine Asie du sud Amérique du nord
Cluster 2 (n=1) :
Europe de l'est
Cluster 3 (n=1) :
Europe
Cluster 4 (n=2) :
Afrique Moyen orient
Cluster 5 (n=1) :
Asie du nord
Explicated inertia : 99.697194
DESCRIPTION OF THE CLUSTERS :
--------------------------
Cluster 1 :
IF 3- [PIB_Minière <= 19.250000] IS TRUE
AND 2- [Import <= 140314286.750000] IS TRUE
AND 1- [PIB_Industrielles <= 22.000000] IS TRUE
Cluster 2 :
IF 4- [Densite <= 120.750000] IS TRUE
AND 1- [PIB_Industrielles <= 22.000000] IS FALSE
Cluster 3 :
IF 2- [Import <= 140314286.750000] IS FALSE
AND 1- [PIB_Industrielles <= 22.000000] IS TRUE
Cluster 4 :
IF 3- [PIB_Minière <= 19.250000] IS FALSE
AND 2- [Import <= 140314286.750000] IS TRUE
AND 1- [PIB_Industrielles <= 22.000000] IS TRUE
Cluster 5 :
IF 4- [Densite <= 120.750000] IS FALSE
AND 1- [PIB_Industrielles <= 22.000000] IS FALSE
THE CLUSTERING TREE :
--------------------- the number noted at each node indicates
the order of the division
- Ng <-> yes and Nd <-> no
+---- Classe 1 (Ng=3)
!
!----3- [PIB_Minière <= 19.250000]
! !
! +---- Classe 4 (Nd=2)
!
!----2- [Import <= 140314286.750000]
! !
! +---- Classe 3 (Nd=1)
!
!----1- [PIB_Industrielles <= 22.000000]
!
! +---- Classe 2 (Ng=1)
! !
!----4- [Densite <= 120.750000]
!
+---- Classe 5 (Nd=1)
Interprétation :
Les classes 2 et 5 sont caractérisés par un PIB_Industrielles > 22,0 et les classes 1,
4 et 3 par un billet inférieur à 22,0.
Il s’agit des industrialisés: Europe de l’Est et Asie du nord
La classe 2 représente l’Europe de l’Est avec une densité de population inférieur à
120,75 et la classe 5 (l’Asie du Nord) supérieur à 120,75.
La classe 3 (l’Europe) a un chiffre d’importation supérieur à 140314286.75.
Le moyen orient et l’Afrique qui constituent la classe 4 possèdent un chiffre
d’importation inférieur à 140314286.75. et un PIB_minière supérieur à 19,25.
Enfin, l’Amérique latine, l’Asie du sud et l’Amérique du nord ont quand à eux un
PIB_minière inférieur à 19,25.
6. La Méthode DISS
Sources :
http://www.web-datamining.net/forum/faq.asp
http://eric.univ-lyon2.fr/~ricco/data-mining/
5. Conclusion
Ce projet nous a permis de nous familiariser avec le Datamining. Les connaissances
acquises nous permettront d’accroître la valeur de nos diplômes quand nous nous
présenterons devant le marché du travail.