etude du systeme de geo-business intelligence opensource
Transcription
etude du systeme de geo-business intelligence opensource
G MASTER II : Informatique appliquée aux Systèmes d’information Géographiques ETUDE DU SYSTEME DE GEO-BUSINESS INTELLIGENCE OPENSOURCE GEOKETTLE Projet personnel Géomatique Par: Oukoum Nadjombe Gbatti Juillet 2015 Liste des Figures Figure 1 : Processus détaillé de traitement des données d’un système d’information décisionnel Figure 2 : Interaction entre OLTP et OLAP Figure 3 : Processus de la Géomatique décisionnelle Figure 4 : Types de représentation des dimensions spatiales Figure 5 : Schéma de fonctionnement du logiciel GeoKettle Figure 6: interface de téléchargement de GeoKettle Figure 7 : Schéma d’une transformation simple Figure 8 : Fenêtre des propriétés d’un Step Etude du système de Geo-Business intelligence Opensource GeoKettle, par Gbatti Oukoum - Juillet 2015 1 Acronymes SI : Systèmes d’information SID : Systèmes d’Information Décisionnels BI : Business intelligence GéoBI: Geo-Business intelligence OLTP : On-Line Transaction Processing OLAP : On-Line Analytical Processing SOLAP : Spatial On-Line Analytical Processing SGBD : Système de Gestion de Bases de Données E/S : Entrée/Sortie SRS : Systèmes de Référence Spatiaux WFS : Web Feature Service Etude du système de Geo-Business intelligence Opensource GeoKettle, par Gbatti Oukoum - Juillet 2015 2 Sommaire Introduction ............................................................................................................................................ 4 Chapitre 1 : Business intelligence et données géo-spatiales .................................................................. 5 Définitions ........................................................................................................................................... 5 Intégration de la BI et des données spatiales ..................................................................................... 7 SOLAP (Spatial On Line Analytical Processing) ................................................................................ 8 Chapitre 2 : L’opensource GeoKettle .................................................................................................... 10 Evolution du logiciel .......................................................................................................................... 11 Les caractéristiques de GeoKettle .................................................................................................... 11 Installation ........................................................................................................................................ 11 Les Fonctionnalités de base .............................................................................................................. 12 Les Fonctionnalités spatiales ............................................................................................................ 12 Le Processus de transformation ....................................................................................................... 13 Les tâches ou Jobs ............................................................................................................................. 14 Conclusion ............................................................................................................................................. 15 Etude du système de Geo-Business intelligence Opensource GeoKettle, par Gbatti Oukoum - Juillet 2015 3 Introduction Les nouvelles techniques de stratégie d’entreprise reposent sur la manipulation d’une quantité importante d’informations. L’information constitue la principale "matière première" utilisée pour une meilleure prise de décision, pour l’élaboration des plans stratégiques censés maintenir et accroitre la performance des entreprises. Elle se présente sous diverses formes et provient de sources variées. L’efficacité d’une décision d’entreprise repose sur la mise à disposition d'informations pertinentes et d'outils adaptés. Les entreprises produisent et reçoivent un volume très important d’informations. Afin de supporter la prise de décision, elles doivent trouver les moyens, méthodes et outils pour le traitement de ces grandes quantités d’information, provenant de leurs systèmes opérationnels et de leur environnement extérieur. L’influence constante de l’environnement géographique sur l’entreprise entraine la nécessité d’intégration de données spatiales au système d’information pour aboutir à un système d’information relocalisé. Ces nouvelles exigences ont occasionné l’apparition de nouveaux outils pour la transformation des données consolidées et leur géolocalisation. Le présent document est élaboré suite à l’étude du système de Géo-Business intelligence, notamment de l’opensource GeoKettle qui est développé pour répondre au besoin d’intégration de l’Informatique Décisionnelle et de la Géolocalisation. L’étude constitue notre thème pour le projet personnel géomatique de la formation en Master II en Informatique Appliquée aux Systèmes d’Information Géographiques que nous avons suivi avec l’Université de Douala en partenariat avec l’Ecole Nationale des Sciences Géographiques (ENSG). Notre rapport comporte deux chapitres : - Business intelligence et données géo-spatiales : Dans ce premier chapitre nous ferons une brève présentation de l’informatique décisionnelle et de la géomatique. Il décrit et présente le système d’intégration de la BI et des données spatiales. - L’Opensource GeoKettle : ce deuxième chapitre fait une description technique du logiciel opensource GeoKettle. Etude du système de Geo-Business intelligence Opensource GeoKettle, par Gbatti Oukoum - Juillet 2015 4 Chapitre 1 : Business intelligence et données géo-spatiales L’intégration des données géospatiales aux systèmes d’information décisionnelles ou géo business intelligence ou encore géomatique décisionnelle, représente l’une des plus importantes innovations permettant aux décideurs de disposer de l’ensemble de données indispensables à une bonne prise de décision. Pour aider à mieux comprendre la géomatique décisionnelle, nous définirons d’abord quelques termes fondamentaux de ce nouveau concept. Définitions Informatique décisionnelle L’informatique décisionnelle ou Business intelligence est un ensemble d’outils, de méthodes et de moyens disponibles pour faciliter aux décideurs la prise de décisions. Elle produit un Système d’information comportant toutes les données de l’entreprise et met à la disposition des informations pouvant aider à développer un plan stratégique. Afin de donner une vision plus globale sur l’ensemble de l’entreprise, la BI, grâce à certains outils comme ETL, permet de consolider d’importantes quantités de données provenant de sources hétérogènes dans un entrepôt appelé Datawarehouse. Le schéma1 ci-dessous présente la structure d’un Système d’Information décisionnel : Figure 1 : Processus détaillé de traitement des données d’un système d’information décisionnel 1 Source: http://perso.univ-lyon1.fr/haytham.elghazel/BI/presentation.html Etude du système de Geo-Business intelligence Opensource GeoKettle, par Gbatti Oukoum - Juillet 2015 5 ETL (Extract, Transform and Load) ETL, sigle de Extract, Transform and Load, signifie en français : Extraire, Transformer et Charger. Il permet d’extraire les données de l’entreprise à des différentes bases de données, les nettoyer et les charger dans un entrepôt de données datawarehouse ou datamart. Entrepôts de données Un entrepôt de données, est une consolidation de données de l’entreprise. Elle est également appelée base de données d’Aide à la décision qui se distingue de la base de données opérationnelle de l’entreprise. On distingue 2 sortes d’entrepôts : - La Datawarehouse qui comporte toutes les données de l’entreprise ; La Datamart comporte les données d’un sous-système de l’entreprise. OLAP (On-Line Analytical Processing) Un system d’information peut être subdivisée en deux phases: - La phase transactionnelle : elle regroupe toute les étapes du processus de traitement des opérations. (OLTP) La phase analytique : elle comporte l’étape analytique des données pour la production de l’information. (OLAP) Figure 2 : Interaction entre OLTP et OLAP2 2 Source : http://datawarehouse4u.info/OLTP-vs-OLAP.html Etude du système de Geo-Business intelligence Opensource GeoKettle, par Gbatti Oukoum - Juillet 2015 6 OLAP est un outil qui permet une analyse multidimensionnelle sur les données des entrepôts. Il permet de créer des représentations multidimensionnelles appelées hypercube ou encore cube OLAP. Elle comporte un nombre très limité de requêtes transactionnelles. Cependant elle permet l’exécution de requêtes complexes et agrégées. Les données d’un système OLAP proviennent de différentes sources ou de bases de données OLTP. Les applications OLAP sont le plus souvent utilisées dans les Data Mining et la BI. La géomatique Selon le site de l’ENSG3, la géomatique est un ensemble de technologies utilisées pour modéliser, représenter et analyser le territoire pour en faire des représentations virtuelles : géolocalisation, imagerie spatiale, Systèmes d’Information (Géographique ou non), systèmes décisionnels, technologies du Web. Les données géospatiales Les données géospatiales sont des données utilisées pour la localisation d’objets et d’évènements sur la surface terrestre. Elles constituent l'ensemble des données géométriques, des attributs et des métadonnées. Elles sont regroupées en deux catégories : - les données Raster qui sont composées d’images bitmap d’une zone de la surface terrestre (images satellite par exemple), et les données vecteurs. Intégration de la BI et des données spatiales La géomatique décisionnelle ou GéoBI (Géo Business Intelligence) intègre la dimension spatiale à l’informatique décisionnelle pour fournir aux décideurs un haut degré d’abstraction facilitant le processus décisionnel. Les caractéristiques techniques, logiques et conceptuelles de la géomatique décisionnelle ont été initialement définies par le Professeur Yvan Bedard de l’Université de Laval. La GéoBI permet: - 3 de produire un mapping des indicateurs des activités ; une analyse des activités pas secteur d’activités et/ou par répartition géographique ; l’exécution d’une analyse spatiale des indicateurs pour une meilleure prise de décisions ; un travail collaboratif. http://www.ensg.eu/Geomatique Etude du système de Geo-Business intelligence Opensource GeoKettle, par Gbatti Oukoum - Juillet 2015 7 Figure 3 : Processus de la Géomatique décisionnelle4 SOLAP (Spatial On Line Analytical Processing) Yvan Bedard, définie le SOLAP comme une plate-forme visuelle créée spécialement pour appuyer l’analyse spatio-temporelle rapide et facile et l'exploration de données suivant une approche multidimensionnelle composée de niveaux d'agrégation disponibles dans les affichages cartographiques ainsi que dans les tableaux et diagrammes affiché. Il s’agit d’une combinaison du Système OLAP et des fonctionnalités geospatiales. Figure 4 : Types de représentation des dimensions spatiales5 4 Source : http://www.portailsig.org/content/du-nouveau-dans-le-monde-de-la-geomatique-decisionnelle Rivest, S., Bédard, Y., Proulx, M.-J., Nadeau, M., 2003. SOLAP: a new type of user interface to support spatiotemporal multidimensional data exploration and analysis. Proceedings of the ISPRS Joint Workshop on Spatial, Temporal and Multi-Dimensional Data Modelling and Analysis, Quebec, Canada, October 2-3. 5 Etude du système de Geo-Business intelligence Opensource GeoKettle, par Gbatti Oukoum - Juillet 2015 8 Avec l’avènement de la géomatique décisionnelle, plusieurs logiciels GéoBI. Nous nous intéresserons tout particulièrement à l’Opensource GeoKettle de Pentaho, dont nous présenterons la description technique dans le chapitre suivant. Etude du système de Geo-Business intelligence Opensource GeoKettle, par Gbatti Oukoum - Juillet 2015 9 Chapitre 2 : L’opensource GeoKettle Le logiciel opensource GeoKettle a été développé par le laboratoire GeoSOA du Département des Sciences Géomatiques de l’Université de Laval (Quebec), sous la direction du Professeur Thierry Bedard. Il est sous Licence Publique Générale Limitée GNU (LGPL), faisant de lui un logiciel libre. L’équipe de développement est composée de : • • • • Coordonnateur du projet : Thierry Badard ; Responsable de l’équipe de développement : Etienne Dubé ; Développeurs : Pascal Hobus, Sven Goldinger, Jean Mathieu, Mamadou Ouattara ; Contributeurs : Mathieu Bertrand. Le site spatialitics6 definit GeoKettle comme un puissant outil ETL Spatial dédié à l’intégration de différentes sources de données spatiales pour la constitution et la mise à jour d’entrepôts de données géospatiales. Il permet d’extraire des données des multiples sources, de les transformer afin de corriger les erreurs, de les nettoyer, changer leur structure, de les rendre conforme aux standards définis, ainsi de permettre le chargement (Loading) des données transformées dans un SGBD (en mode OLTP ou OLAP/SOLAP), un fichier SIG ou un Service Web Géospatial. GeoKettle est une version de l’outil ETL générique Pentaho Data Intégration, qui intègre la dimension geospatiale. Il intègre des capacités géospatiales des librairies Open Source, matures, robustes et bien connu comme JTS, GeoTools, deegree, OGR. Figure 5 : Schéma de fonctionnement du logiciel GeoKettle 6 http://www.spatialytics.org/fr/projets/geokettle/ Etude du système de Geo-Business intelligence Opensource GeoKettle, par Gbatti Oukoum - Juillet 2015 10 Evolution du logiciel Mai 2008 : première version (2.5.4-20080531) diffusée en open source Novembre 2008 : version 3.1.0 -20081103 Juin 2009 : version 3.2.0 -20090609 Les caractéristiques de GeoKettle Les principales caractéristiques de l’opensource GeoKettle sont : - Existence et manipulation de données et fonctionnalités de type géométriques ; Accès aux objets géométriques dans JavaScript ; Compatibilité et échange de données avec des systèmes de gestion de base de données spatiales existants (PostGIS, Oracle spatial,…); Utilisation de fichiers shapefile en entrée . Installation Les Packages d’installation du logiciel GeoKettle sont à l’adresse suivante : http://sourceforge.net/projects/geokettle/files/geokettle-2.x/2.5/ . Figure 6: interface de téléchargement de GeoKettle Etude du système de Geo-Business intelligence Opensource GeoKettle, par Gbatti Oukoum - Juillet 2015 11 La version actuelle disponible est la 2.5. Spatialytics propose une documentation détaillée de l’installation de GeoKettle sur le site suivante : http://docs.spatialytics.com/doku.php?id=en:spatialytics_etl. Les Fonctionnalités de base Les fonctionnalités de base de l’Opensource GeoKettle sont celles de Pentaho Data integration (Kettle), initialement conçu par Matt Casters (www.ibridge.be) et disponible en LGPL depuis 2005. Les principales fonctionnalités sont : - Il propose une transformation directe qui ne nécessite pas de génération de codes ; Lecture et écriture de formats variés de fichiers : fichiers Microsoft (MS Access, MS Excel,..), DBF, XML, Texte, etc… ; La transformation se fait par différentes étapes : jointures, calculs, filtrage, démoralisation/normalisation, validation, Scripting, etc… ; GeoKettle supporte une trentaine de bases de données dont : MySQL, PostgreSQL, Oracle, DB2, MSSQL Server. Les Fonctionnalités spatiales En plus des fonctionnalités de base ci-dessus, GeoKettle dispose des fonctionnalités spatiales suivantes : - Support spatial intégré Les géométries vectorielles sont parfaitement intégrées. Le logiciel dispose de type Geometry (JTS- modèle point-ligne-polygone) pour les données. Il permet la conversion entre type de données (Geometry vers String ou Geometry vers Binaire) et est compatible avec les SGBD spatiaux. Un support des SGBD spatiaux est intégré dans le noyau d’E/S pour SGBD (utilisant JDBC). - Entrée/Sorties (E/S) Lecture/écriture de géométries : tous les Steps de bases de données (MySQL, PostGIS, Oracle Spatial,…) ont accès aux colonnes géométriques. Il n’y a pas de steps dédiés. Les fichiers shapefiles sont les fichiers GIS exploitables sous GeoKettle. - Analyses spatiales L’analyse spatiale se fait avec des scripts JavaScript. Les fonctions d’analyse spatiales se regroupent en 2 catégories : les prédicats topologiques qui sont exploitables à partir Etude du système de Geo-Business intelligence Opensource GeoKettle, par Gbatti Oukoum - Juillet 2015 12 des Steps de filtrage et de jointure (intersects, touches, within, …) et les fonctions spatiales accessibles en JavaScript (union, intersection, length, buffer, ..). - SRS et Projections. Le Processus de transformation La Transformation représente le processus de base d’un ETL. Le processus de transformation de GeoKettle s’effectue suivant des étapes (Steps) reliées par des liens (Hops). Des Threads ou exécutions parallèles se lancent pour chaque étape de la transformation. Hops Steps Figure 7 : Schéma d’une transformation simple On distingue les catégories d’Etapes suivantes : - les entrées (Input) : fichiers (texte, CSV, shapefile, …), tables de bases de données,… les sorties (Output) : fichiers, tables, … les transformations (Transform) le contrôle de flux (flow) le Scripting, etc… Les Etapes comportent des paramètres configurables qui permettent de spécifier la connexion à la base de données, le nom du fichier à ouvrir, les critères de filtrage, le code source d’un script,… Figure 8 : Fenêtre des propriétés d’un Step Etude du système de Geo-Business intelligence Opensource GeoKettle, par Gbatti Oukoum - Juillet 2015 13 On distingue 3 types de hops : - la copie, la distribution, la sortie conditionnelle. Dans un Hop, les données circulent de la sortie d’un step vers l’être du step suivant. Les tâches ou Jobs On appelle taches ou job en anglais, une série d’actions à exécuter séquentiellement. Il s’agit: - des transformations, des scripts (JavaScripts), des envois/réceptions de mails, des manipulations de fichiers, des tests conditionnels, etc… Il est à noter que les transformations et les jobs sont normalement stockés dans des fichiers XML (.ktl/.kjb). Cependant les transformations, jobs et paramètres de connexions aux SGBD sont stockes dans une Base de données dédiées. Etude du système de Geo-Business intelligence Opensource GeoKettle, par Gbatti Oukoum - Juillet 2015 14 Conclusion L’informatique décisionnelle s’impose désormais comme un outil indispensable pour une bonne prise de décisions en entreprise. Les recherches effectuées par le Laboratoire GeoSOA du Département des Sciences Géomatiques de l’Université de Laval (Québec) apportent un complément indispensable à la Business Intelligence et offre des perspectives de recherche considérables. Avec les résultats encourageants de ces outils, les entreprises n’hésitent plus à mettre une part de plus en plus importante de leur budget dans la mise en place des Systèmes d’Information décisionnels leur permettant de consolider et de gérer leur Big Data (quantités importantes de leurs données). Le data Mining devient une réalité et une nécessité. Comme il a été publié sur le site de spatialistics, l’opensource GeoKettle constitue un outil qui résume au mieux la GeoBI. Il permet une intégration parfaite de la géomatique aux outils décisionnels. D’autres besoins sont identifiés et exigent une amélioration de GeoKettle pour : - permettre la prévisualisation géographique, assurer l’acceptation de certains formats de fichiers (ex. MapInfo) ; permettre l’accès aux services WFS, Cette étude, que nous comptons poursuivre pour aller au-delà de l’exigence du Master II en IASIG, nous a permis de concilier notre expertise en Business Intelligence acquise avec notre Master II en Systèmes d’Information et Informatique décisionnelle obtenue avec l’Université de Bordeaux 1 et les connaissance en Géomatique que nous recherchons avec le Master II en Informatique Appliquée aux Systèmes d’Information Géographique avec l’université de Douala. Etude du système de Geo-Business intelligence Opensource GeoKettle, par Gbatti Oukoum - Juillet 2015 15 Références Quelques sites de référence : - http://kettle.pentaho.org http://www.geokettle.org http://sourceforge.net/projects/geokettle/ http://www.spatialytics.org Etude du système de Geo-Business intelligence Opensource GeoKettle, par Gbatti Oukoum - Juillet 2015 16
Documents pareils
Vers une solution SOLAP comme outil participatif
sans jamais devoir utiliser un langage d’interrogation. Peu importe le niveau de
complexité de la requête, il suffit de quelques clics de souris et de moins de 10
secondes pour obtenir l’informatio...