Amélioration des connaissances sur l`environnement urbain : intérêt
Transcription
Amélioration des connaissances sur l`environnement urbain : intérêt
Interactions Nature-Société, analyse et modèles. UMR6554 LETG, La Baule 2006 1 Amélioration des connaissances sur l’environnement urbain : intérêt de l’intégration de règles dans les procédures de classification. PUISSANT* A., SHEEREN D.**, WEBER C.***, WEMMERT C.**, GANÇARSKI P.** * GEOSYSCOM, FRE IDEES 2795 CNRS, UCBN, Esplanade de la Paix, F-14032 Caen Cedex, France ** LSIIT- AFD UMR 7005 – CNRS, ULP, Strasbourg, Bd S. Brant, BP 10413, F-67412 Illkirch Cedex, France *** IMAGE ET VILLE, UMR 7011 CNRS, ULP, Strasbourg, 3 rue de l’Argonne, F-67000 Strasbourg, France RESUME La multiplication des capteurs à Très Haute Résolution (spatiale ou spectrale) est une véritable opportunité pour l’identification des objets géographiques en milieu urbain et péri-urbain. Toutefois, l’hétérogénéité des images satellites de résolution métrique perturbe les méthodes de classification classique, dite spectrale, adaptées à l’analyse d’images de résolution décamétrique. Dans ce contexte, l’objectif de cette communication est de montrer que l’introduction de règles de connaissances sur les objets permet d’améliorer les résultats de classification. Dans un premier temps, la construction des règles fondées sur des critères spectraux, géométriques et contextuels est exposée. Dans un second temps, l’approche utilisée pour intégrer cette connaissance dans une procédure de classification est présentée. Les premiers résultats indiquent que ce type d’approche diminue l’incertitude associée à l’identification des objets urbains en améliorant significativement le pourcentage de bon classement. Un exemple sur la ville de Strasbourg est présenté à partir d’une image Quickbird multispectrale. Cette recherche s’insère dans le projet en cours FoDoMust (Fouille de données multistratégie pour extraire et qualifier la végétation urbaine) financé par l’ACI ‘Masse de données’ (20042007). MOTS CLES : environnement urbain, images satellites THRS, règles de connaissances, classification. ABSTRACT The multiplication of Very High Resolution (spatial or spectral) satellite images appears to be an opportunity to identify objects in urban and periurban areas. However, the heterogeneity of these images disturbs per-pixel classification methods adapted to high resolution satellite images. In this context, the objective of this paper is to show that the introduction of knowledge rules allows to improve the classification results. In a first step, the construction of the knowledge rules based on spectral, spatial and contextual criteria is detailed. In the second step, the integration of these rules in a classification procedure is presented. First results prove that the uncertainty associated to the identification of the urban objects decrease and increase the overall accuracy of the classification. A multispectral Quickbird image on the Strasbourg urban area is tested. This study is a part of the research project FoDoMuST (multi-strategies data mining to extract and identify urban elements from remote sensing images database) which is financed by the ACI “Masses de Données” (2004-2007). KEY WORDS : urban environment, VHSR satellite images, knowledge rules, classification. 1. Introduction Une gestion intégrée des questions environnementales pour l’ensemble d’un espace urbain est l’unique moyen de parvenir à un environnement urbain de qualité sur le long terme. Sa mise en œuvre nécessite une mise à disposition, pour l’aménageur et le citoyen, d’une information géographique harmonisée et mise à jour régulièrement. Plus précisément, dans un contexte de planification urbaine, il est nécessaire de favoriser l'identification, la localisation et la formalisation des éléments du tissu urbain (surfaces minéralisées, végétation, eau). Cette identification requiert très souvent une complémentarité des images : saisonnière pour discriminer les surfaces minérales entre elles (zones de cultures ou non), spectrale pour compléter la gamme des réponses spectrales efficaces et enfin spatiale pour tenir compte des grandeurs géographiques étudiées et de l'adéquation entre le pixel de référence et l'objet étudié (par exemple : les zones naturelles irriguées). 2 Puissant, Sheeren, Weber, Wemmert, Gançarski, Intérêt de l’intégration de règles dans la classification. La multiplication des capteurs à Très Haute Résolution (spatiale ou spectrale) est une véritable opportunité pour l’identification des objets urbains. Toutefois, l’hétérogénéité de ces données satellites de résolution métrique (surfaces hétérogènes, ombres portées, etc) perturbe les méthodes de classification classique, dite spectrale, adaptées à l’analyse d’image de résolution décamétrique. La tendance actuelle est au développement de méthodes orientées ‘objets’ où chaque ‘objet’ représente un ensemble de pixels homogènes et est construit sur les caractéristiques élémentaires (spectrale, géométrique) et les relations spatiales entre les objets (texture et relations contextuelles) (Henricsson, 1997 ; Hoofmann, 2001). La principale difficulté réside dans la construction d’une base de règles de connaissances de ces objets. En effet, les experts sont rarement capables de fournir une description explicite des connaissances qui entrent en compte pour l’identification des objets géographiques. De plus, une base de règle unique (mono-formalisation) ne peut à elle seule identifier de manière univoque la multitude d’objets présents dans un espace urbain (Puissant, 2003). Elle doit être adaptée à chaque échelle d’analyse (multi-formalisation). C’est pourquoi, il est indispensable de considérer et d’adapter cette procédure selon des besoins précis en termes d’objets à construire. Une approche prometteuse pour l’utilisation conjointe et simultanée de formalisations multi-niveaux (à diverses échelles) et de données multi-sources (images multi-capteurs) réside dans l’utilisation combinée de différentes méthodes de classification, supervisées ou non. Dans ce contexte, cet article présente les premiers résultats de la construction d’une base de règles de connaissances, fondées sur les caractéristiques intrinsèques des objets (critères géométriques, relationnels) et sur les propriétés de ces objets dans une image satellite à Très Haute Résolution Spatiale – THRS (critères spectraux, spatiaux). Les résultats de l’intégration de ces connaissances dans une procédure de classification sont ensuite présentés et comparés à une classification spectrale. Cette recherche s’insère dans le projet en cours FoDoMust (Fouille de données multi-stratégie pour extraire et qualifier la végétation urbaine) financé par l’ACI ‘Masse de données’ (2004-2007). 2. Formalisation des connaissances et construction d’une base de règles La formalisation de la connaissance occupe une place grandissante en géographie et dans les sciences de l’information géographique (IG). L’intégration de ces connaissances dans des procédures de classification peut se traduire par la construction et l’utilisation d’une ontologie. De manière générale, une ontologie contient un vocabulaire formalisé regroupant pour une discipline donnée, l'ensemble des concepts, et de leurs relations (Roussey et al., 2004). La définition la plus communément admise, dans le domaine de l’ingénierie des connaissances, est celle de (Gruber, 1993) : « une ontologie est une spécification explicite d'une conceptualisation d'un domaine ». La conceptualisation permet d'identifier les concepts essentiels référencés par les termes du domaine et la spécification rend explicite le sens associé à ces concepts en leur associant une définition formelles ou non. Les ‘ontologies spatiales’ correspondent à une direction de recherche récente, nécessaire suite à la révolution numérique que l’IG a connu afin d’assurer l’interopérabilité des données entre les différents acteurs du territoire. Divers projets, comme celui de « Towntology » sur la ville (Roussey et al., 2004) ou « Syscolag » sur le littoral (Barde et al., 2004) illustrent l’émergence de ce besoin, mais aussi l’actualité de la démarche. La réflexion autour de la description des objets géographiques à différentes échelles, de leur formalisation et de leur intégration au sein d’une ontologie requiert à la fois des connaissances en géographie, en aménagement-urbanisme et en environnement mais aussi en informatique afin de trouver le meilleur moyen de rendre cette connaissance cohérente et exploitable dans des procédures d’apprentissage et de fouille de données permettant l’obtention de solutions de classification des images satellites. Dans le cadre du projet de recherche FoDoMust, l’extraction des connaissances est réalisée à partir d’une banque de données d’images satellites multi-capteurs (Quickbird, Spot 1 à 5, Landsat TM et ETM+, Aster, Irs) et d’images hyperspectrales aéroportées (survol CASI – septembre 2006) sur l’agglomération de Strasbourg. Seul le processus d’extraction des connaissances à partir de l’image Quickbird MS (résolution spatiale de 2.8 m ) est exposé ici. La figure 1 présente le processus général d’acquisition de règles en 3 étapes : (1) segmentation de l’image en régions, (2) caractérisation des régions et définition d’exemples d’apprentissage et (3) acquisition de règles de classification par apprentissage automatique supervisé (Mitchell, 1997). La première étape a consisté à segmenter l’image en régions de pixels homogènes et connexes. La méthode de segmentation par croissance de régions proposée par le logiciel eCognition (Defienens, 2005) a été appliquée. Elle est paramétrée afin de créer des régions correspondant à une hiérarchie de classes des objets urbains élémentaires (eau, végétation, sol nu, pelouse, arbre, route, bâtiment, ombre). Les données vecteurs de la BD Topo© IGN (contours des bâtiments) ont été intégrées afin de contraindre l’algorithme de segmentation à créer des régions de forme ‘représentative’ proche de la réalité (Sheeren et al., 2006). Interactions Nature-Société, analyse et modèles. UMR6554 LETG, La Baule 2006 Image Quickbird Définition d’exemples Segmentation Arbre de décision Exemples d’apprentissage Régions 3 Acquisition de règles Water Vegetation Caractérisation des régions Building Road NDVI = 168 Area = 20,5 IM = O,65 Figure 1. Etapes du processus d’extraction des règles La seconde étape est consacrée au recueil d’exemples d’apprentissage. Ceux-ci sont déterminés en sélectionnant des régions représentatives (50 par type d’objets urbains élémentaires). Elles sont ensuite caractérisées selon leurs propriétés intrinsèques (spectrale, spatiale, contextuelle) et labellisées de manière interactive en se fondant sur la connaissance experte de la zone d’étude. La troisième étape a consisté à apprendre des règles de classification automatiquement à partir de ces régions caractérisées et labellisées. Ces règles sont obtenues par l’application d’un algorithme d’apprentissage supervisé symbolique C4.5 (Quinlan, 1993). Ce type d’algorithme a déjà prouvé son efficacité dans le domaine de la télédétection (Pal et Mather, 2003). Il permet d’obtenir un modèle de classification représenté sous forme d’arbre de décision (ou de règles de décision) facilement compréhensible et interprétable. Cette méthode est donc particulièrement utile dans notre contexte puisqu’elle facilite l’acquisition et la constitution de la base de connaissances sur les objets urbains. Plusieurs exemples de règles sont illustrés à la figure 2. Rule 1: IF NDVI < 38.23 and IBS > 14.67 THEN Class = Water ELSE Class = Non Water Rule 2: IF NDVI > 169.14 THEN Class = Vegetation ELSE Class = Non Vegetation Rule 3: IF AREA > 52O3 m² and IM > 0.3 THEN Class = Industrial or Commercial Building IF AREA < 436.8 m² THEN Class = Residential Building IF AREA < 1254.9 m² THEN Class = Collective Building IF PV > 11.9 and AREA < 1803.2 THEN Class = Collective Building IF IS < 0.43 THEN Class = Collective Building ELSE Class = Continuous Built-up Area Figure 2. Exemples de règles d’apprentissage (algorithme C4.5) L’ensemble des connaissances extraites à partir de la banque de données image est ensuite répertorié dans un dictionnaire de données. Cette connaissance est en cours d’intégration dans une ontologie spatiale sous le formalisme de Protegé2000. 3. Intégration des règles dans une procédure de classification : résultats et validation La base de règles de connaissances produite est introduite dans le logiciel de traitement d’images eCognition (Defienens, 2005) afin de classifier l’image Quickbird MS. L’objectif n’est pas d’évaluer la sensibilité du logiciel mais de l’utiliser comme « support informatique » pour valider la base de règles et identifier une stratégie d’intégration adaptée. La méthode de classification proposée se déroule en 3 étapes : (1) segmentation de l’image, (2) introduction des règles de connaissances, et (3) classification. La méthode de segmentation par croissance de région est appliquée sur les 4 canaux de l’image Quickbird avec un paramétrage défini de manière empirique afin obtenir des régions de taille proche des objets à identifier – bâtiments, route, … - (Tableau 1). Paramètre d’échelle Scale factor Critère de forme Shape factor 30 0.2 Critère de couleur – colour factor Critères de compacité Critère de lissage Compactness Smoothness 0.2 0.8 Tableau 1. Paramètres testés pour la segmentation de l’image Quickbird MS dans le logiciel eCognition. 4 Puissant, Sheeren, Weber, Wemmert, Gançarski, Intérêt de l’intégration de règles dans la classification. La méthode de classification est fondée sur la logique floue. Les règles peuvent être transposées en règles floues, à partir d’une hiérarchie de classes d’objets (thèmes) à identifier, par l’intermédiaire d’une interface graphique qui définit des fonctions d’appartenance. Dans notre test, les règles sont introduites de manière ‘binaire’ car l’objectif n’est pas d’évaluer les potentialités de la logique floue. La hiérarchie de classes est composée de 7 types d’objets à identifier (Figure 3). Un masque sur l’eau a été introduit afin d’éviter toute confusion avec l’ombre portée des différents objets. Les premiers tests ont montré que (1) l’ordre d’identification des objets et (2) l’ordre d’application des règles de connaissances influencent les résultats de la classification. Il semble judicieux (et intuitif) d’initier l’attribution des classes par les objets « les plus aisés » à identifier. De plus, la stratégie d’intégration hiérarchique des règles de connaissance des objets (des plus simples aux plus complexes) selon une approche ‘déductive’ permet également d’améliorer le résultat de classification. Cette approche permet de simplifier l’extraction des objets les plus complexes. Figure 3. Hiérarchie de classes d’objets à identifier La classification intégrant la base de règles est ensuite comparée à une classification supervisée par maximum de vraisemblance (Figure 4). La précision des deux classifications est évaluée à partir d’une matrice de confusion et de l’indice de Kappa (Tableau 2). Figure4. Résultats : (a) extrait de l’image Quickbird multispectrale (2.8 m), (b) extrait de la classification spectrale par maximum de vraisemblance et (c) extrait de la classification à base de règles de connaissances. Les résultats montrent que la classification à base de règles de connaissances permet d’augmenter le pourcentage de bon classement global de plus de 5 % par rapport à une classification spectrale ‘classique’. Cette amélioration est particulièrement significative pour les classes de végétation et d’ombre. Des différences significatives apparaissent pour les classes ‘route’, ‘bâtiment’ et ‘sols nus’ où de nombreuses confusions subsistent. La classe ‘bâtiment’ atteint des taux de précision (producteur et utilisateur) plus faibles pour la classification à base de règles en raison du contour des objets plus précis grâce à l’étape de segmentation. Classe d’objets Eau Ombre Arbre Pelouse Bâtiment Route Sol nu / hétérogène Classification spectrale Prec. producteur (%) Prec. utilisateur (%) 100.00 100.00 92.61 98.24 81.95 88.56 80.75 75.36 85.29 95.62 81.12 77.39 78.72 48.38 Précision globale (%) = 76.24 %. Indice de Kappa = 0.72 Classification à base de règles Prec. producteur (%) Prec. utilisateur (%) 100.00 100.00 95.00 99.54 87.60 88.59 85.52 99.83 79.40 63.10 44.64 67.30 78.34 56.53 Précision globale (%) = 81.56% Indice de Kappa = 0.76 Tableau 2. Evaluation de la précision des classifications. Interactions Nature-Société, analyse et modèles. UMR6554 LETG, La Baule 2006 5 5. Conclusion et perspectives Cette recherche démontre la faisabilité de la construction d’une base de règles de connaissances des objets géographiques en milieu urbain et périurbain à partir d’un algorithme d’apprentissage supervisé symbolique C4.5. Les résultats de classification, d’une image Quickbird multispectrale, selon une approche orientée-objets, démontrent également la pertinence des règles acquises. L’incertitude associée à l’identification de certains objets (végétation) diminue significativement (supérieure à 5%). Toutefois, elle reste encore élevée pour des objets ‘complexes’ tels que les bâtiments, les routes. De plus, la qualité des règles de connaissances est dépendante de la méthode de segmentation. Dans ce contexte, l’hypothèse est que la prise en compte simultanée de plusieurs sources de données contribue à améliorer la reconnaissance des objets. Il est envisagé : (1) d’améliorer l’identification des objets en ajoutant d’autres règles de connaissances, extraites selon une approche multi-niveaux ; (2) de tester les méthodes de segmentation existantes, d’identifier la(es) méthode(s) adaptée(s) aux images de résolution spatiale différente et d’approfondir l’intérêt de la segmentation multi-échelle ; Dans le cadre du projet FoDoMust, la technique proposée de construction des règles de connaissances est appliquée à une banque de données images multi-capteurs et à des images hyperspectrales. Les connaissances extraites à plusieurs échelles d’abstraction sont répertoriées dans un dictionnaire de données. Elles sont également en cours d’intégration dans une ontologie spatiale sous le formalisme de Protegé2000. A court terme, il est prévu que cette connaissance soit mise à profit dans le cadre d’une approche de classification dite ‘multistratégie’ et ‘collaborative’ (Wemmert et al., 2000). La méthode proposée consiste à intégrer plusieurs méthodes de classification supervisée ou non et à les faire collaborer dans des phases de raffinement automatique et mutuel de leur résultat. Les premiers tests appliqués sur des images Haute Résolution (Spot) sont prometteurs. Cet algorithme est en cours de développement afin d’intégrer des opérations permettant la comparaison de résultats de classifications construits à partir de données images multi-sources. 6. Bibliographie Barde J., Libourel T et Maurel P., 2004. Ontologies et métadonnées pour le partage d’information géographique. Revue Internationale de Géomatique, vol. 14/2; p. 199-216. Defienens Image GmbH, 2005, eCognition: object-oriented image analysis software, German. Gruber T.R., 1993. A Translation Approach to Portable Ontology Specifications. Knowledge Acquisition, Vol. 5(2), pp. 199-220. Henricsson, O., 1997,. The Role of Color Attributes and Similarity Grouping in 3D Building Reconstruction. Computer Vision and Image Understanding, vol. 72, n°.2, p. 163-184. Hofmann P., 2001. Detecting urban features from IKONOS data using an object-oriented approach. In: Remote Sensing Photogrammetry Society (Editor): Proceedings of the First Annual Conference of the Remote Sensing; Photogrammetry Society 12 – 14 September 2001., p. 28 – 33. Mitchell T. M. 1997. Machine Learning, McGraw-Hill International Editions, 414 p. Pal M. and Mather P.M., 2003. An assessment of the effectiveness of decisoon tree methods for land cover classification, Remote Sensing of Environment, 86, p. 554-564. Puissant A., 2003. Information Géographique et images à très haute résolution : utilité et applications en milieu urbain, Thèse de doctorat en Géographie, Université Louis Pasteur, Strasbourg, 343 p. + annexes. Quinlan J.R. 1993. C4.5: Programs for machine learning (Morgan Kaufmann), 302 p. Roussey C., Laurini R, Beaulieu C et Tardy Y, et Zimmermann M., 2004. Le projet Towntology- Un retour d’expérience pour la construction d’une ontologie urbaine. In Les ontologies spatiales, Hermès Lavoisier, Paris pp 217-237. Sheeren D., Puissant A., Weber C., Gançarski P. and Wemmert C., 2006. Deriving Classification Rules from Multiple Remotely Sensed Urban Data with Data Mining, First Workshop of Earsel-SIG Special Interest Group Urban Remote Sensing, 2-3 march 2006, Berlin, Germany, 9 p. Wemmert C., Gançarski P., Korczak J., 2000. A Collaborative Approach to Combine Multiple Learning Methods, International Journal on Artificial Intelligence Tools, vol. 9, n°1, p.59-78.