Amélioration des connaissances sur l`environnement urbain : intérêt

Transcription

Amélioration des connaissances sur l`environnement urbain : intérêt
Interactions Nature-Société, analyse et modèles. UMR6554 LETG, La Baule 2006
1
Amélioration des connaissances sur l’environnement urbain :
intérêt de l’intégration de règles dans les procédures de classification.
PUISSANT* A., SHEEREN D.**, WEBER C.***, WEMMERT C.**, GANÇARSKI P.**
* GEOSYSCOM, FRE IDEES 2795 CNRS, UCBN, Esplanade de la Paix, F-14032 Caen Cedex, France
** LSIIT- AFD UMR 7005 – CNRS, ULP, Strasbourg, Bd S. Brant, BP 10413, F-67412 Illkirch Cedex, France
*** IMAGE ET VILLE, UMR 7011 CNRS, ULP, Strasbourg, 3 rue de l’Argonne, F-67000 Strasbourg, France
RESUME
La multiplication des capteurs à Très Haute Résolution (spatiale ou spectrale) est une véritable opportunité pour
l’identification des objets géographiques en milieu urbain et péri-urbain. Toutefois, l’hétérogénéité des images satellites
de résolution métrique perturbe les méthodes de classification classique, dite spectrale, adaptées à l’analyse d’images de
résolution décamétrique. Dans ce contexte, l’objectif de cette communication est de montrer que l’introduction de règles
de connaissances sur les objets permet d’améliorer les résultats de classification. Dans un premier temps, la construction
des règles fondées sur des critères spectraux, géométriques et contextuels est exposée. Dans un second temps,
l’approche utilisée pour intégrer cette connaissance dans une procédure de classification est présentée. Les premiers
résultats indiquent que ce type d’approche diminue l’incertitude associée à l’identification des objets urbains en
améliorant significativement le pourcentage de bon classement. Un exemple sur la ville de Strasbourg est présenté à
partir d’une image Quickbird multispectrale. Cette recherche s’insère dans le projet en cours FoDoMust (Fouille de
données multistratégie pour extraire et qualifier la végétation urbaine) financé par l’ACI ‘Masse de données’ (20042007).
MOTS CLES : environnement urbain, images satellites THRS, règles de connaissances, classification.
ABSTRACT
The multiplication of Very High Resolution (spatial or spectral) satellite images appears to be an opportunity to identify
objects in urban and periurban areas. However, the heterogeneity of these images disturbs per-pixel classification
methods adapted to high resolution satellite images. In this context, the objective of this paper is to show that the
introduction of knowledge rules allows to improve the classification results. In a first step, the construction of the
knowledge rules based on spectral, spatial and contextual criteria is detailed. In the second step, the integration of these
rules in a classification procedure is presented. First results prove that the uncertainty associated to the identification of
the urban objects decrease and increase the overall accuracy of the classification. A multispectral Quickbird image on
the Strasbourg urban area is tested. This study is a part of the research project FoDoMuST (multi-strategies data mining
to extract and identify urban elements from remote sensing images database) which is financed by the ACI “Masses de
Données” (2004-2007).
KEY WORDS : urban environment, VHSR satellite images, knowledge rules, classification.
1. Introduction
Une gestion intégrée des questions environnementales pour l’ensemble d’un espace urbain est l’unique moyen de
parvenir à un environnement urbain de qualité sur le long terme. Sa mise en œuvre nécessite une mise à disposition,
pour l’aménageur et le citoyen, d’une information géographique harmonisée et mise à jour régulièrement. Plus
précisément, dans un contexte de planification urbaine, il est nécessaire de favoriser l'identification, la localisation et la
formalisation des éléments du tissu urbain (surfaces minéralisées, végétation, eau). Cette identification requiert très
souvent une complémentarité des images : saisonnière pour discriminer les surfaces minérales entre elles (zones de
cultures ou non), spectrale pour compléter la gamme des réponses spectrales efficaces et enfin spatiale pour tenir
compte des grandeurs géographiques étudiées et de l'adéquation entre le pixel de référence et l'objet étudié (par
exemple : les zones naturelles irriguées).
2
Puissant, Sheeren, Weber, Wemmert, Gançarski, Intérêt de l’intégration de règles dans la classification.
La multiplication des capteurs à Très Haute Résolution (spatiale ou spectrale) est une véritable opportunité pour
l’identification des objets urbains. Toutefois, l’hétérogénéité de ces données satellites de résolution métrique (surfaces
hétérogènes, ombres portées, etc) perturbe les méthodes de classification classique, dite spectrale, adaptées à l’analyse
d’image de résolution décamétrique. La tendance actuelle est au développement de méthodes orientées ‘objets’ où
chaque ‘objet’ représente un ensemble de pixels homogènes et est construit sur les caractéristiques élémentaires
(spectrale, géométrique) et les relations spatiales entre les objets (texture et relations contextuelles) (Henricsson, 1997 ;
Hoofmann, 2001). La principale difficulté réside dans la construction d’une base de règles de connaissances de ces
objets. En effet, les experts sont rarement capables de fournir une description explicite des connaissances qui entrent en
compte pour l’identification des objets géographiques. De plus, une base de règle unique (mono-formalisation) ne peut
à elle seule identifier de manière univoque la multitude d’objets présents dans un espace urbain (Puissant, 2003). Elle
doit être adaptée à chaque échelle d’analyse (multi-formalisation). C’est pourquoi, il est indispensable de considérer et
d’adapter cette procédure selon des besoins précis en termes d’objets à construire. Une approche prometteuse pour
l’utilisation conjointe et simultanée de formalisations multi-niveaux (à diverses échelles) et de données multi-sources
(images multi-capteurs) réside dans l’utilisation combinée de différentes méthodes de classification, supervisées ou non.
Dans ce contexte, cet article présente les premiers résultats de la construction d’une base de règles de connaissances,
fondées sur les caractéristiques intrinsèques des objets (critères géométriques, relationnels) et sur les propriétés de ces
objets dans une image satellite à Très Haute Résolution Spatiale – THRS (critères spectraux, spatiaux). Les résultats de
l’intégration de ces connaissances dans une procédure de classification sont ensuite présentés et comparés à une
classification spectrale. Cette recherche s’insère dans le projet en cours FoDoMust (Fouille de données multi-stratégie
pour extraire et qualifier la végétation urbaine) financé par l’ACI ‘Masse de données’ (2004-2007).
2. Formalisation des connaissances et construction d’une base de règles
La formalisation de la connaissance occupe une place grandissante en géographie et dans les sciences de
l’information géographique (IG). L’intégration de ces connaissances dans des procédures de classification peut se
traduire par la construction et l’utilisation d’une ontologie. De manière générale, une ontologie contient un vocabulaire
formalisé regroupant pour une discipline donnée, l'ensemble des concepts, et de leurs relations (Roussey et al., 2004).
La définition la plus communément admise, dans le domaine de l’ingénierie des connaissances, est celle de
(Gruber, 1993) : « une ontologie est une spécification explicite d'une conceptualisation d'un domaine ». La
conceptualisation permet d'identifier les concepts essentiels référencés par les termes du domaine et la spécification
rend explicite le sens associé à ces concepts en leur associant une définition formelles ou non. Les ‘ontologies spatiales’
correspondent à une direction de recherche récente, nécessaire suite à la révolution numérique que l’IG a connu afin
d’assurer l’interopérabilité des données entre les différents acteurs du territoire. Divers projets, comme celui de
« Towntology » sur la ville (Roussey et al., 2004) ou « Syscolag » sur le littoral (Barde et al., 2004) illustrent
l’émergence de ce besoin, mais aussi l’actualité de la démarche. La réflexion autour de la description des objets
géographiques à différentes échelles, de leur formalisation et de leur intégration au sein d’une ontologie requiert à la
fois des connaissances en géographie, en aménagement-urbanisme et en environnement mais aussi en informatique afin
de trouver le meilleur moyen de rendre cette connaissance cohérente et exploitable dans des procédures d’apprentissage
et de fouille de données permettant l’obtention de solutions de classification des images satellites.
Dans le cadre du projet de recherche FoDoMust, l’extraction des connaissances est réalisée à partir d’une banque de
données d’images satellites multi-capteurs (Quickbird, Spot 1 à 5, Landsat TM et ETM+, Aster, Irs) et d’images
hyperspectrales aéroportées (survol CASI – septembre 2006) sur l’agglomération de Strasbourg. Seul le processus
d’extraction des connaissances à partir de l’image Quickbird MS (résolution spatiale de 2.8 m ) est exposé ici. La
figure 1 présente le processus général d’acquisition de règles en 3 étapes : (1) segmentation de l’image en régions, (2)
caractérisation des régions et définition d’exemples d’apprentissage et (3) acquisition de règles de classification par
apprentissage automatique supervisé (Mitchell, 1997).
La première étape a consisté à segmenter l’image en régions de pixels homogènes et connexes. La méthode de
segmentation par croissance de régions proposée par le logiciel eCognition (Defienens, 2005) a été appliquée. Elle est
paramétrée afin de créer des régions correspondant à une hiérarchie de classes des objets urbains élémentaires (eau,
végétation, sol nu, pelouse, arbre, route, bâtiment, ombre). Les données vecteurs de la BD Topo© IGN (contours des
bâtiments) ont été intégrées afin de contraindre l’algorithme de segmentation à créer des régions de forme
‘représentative’ proche de la réalité (Sheeren et al., 2006).
Interactions Nature-Société, analyse et modèles. UMR6554 LETG, La Baule 2006
Image
Quickbird
Définition
d’exemples
Segmentation
Arbre
de décision
Exemples
d’apprentissage
Régions
3
Acquisition
de règles
Water
Vegetation
Caractérisation
des régions
Building
Road
NDVI = 168
Area = 20,5
IM = O,65
Figure 1. Etapes du processus d’extraction des règles
La seconde étape est consacrée au recueil d’exemples d’apprentissage. Ceux-ci sont déterminés en sélectionnant des
régions représentatives (50 par type d’objets urbains élémentaires). Elles sont ensuite caractérisées selon leurs
propriétés intrinsèques (spectrale, spatiale, contextuelle) et labellisées de manière interactive en se fondant sur la
connaissance experte de la zone d’étude.
La troisième étape a consisté à apprendre des règles de classification automatiquement à partir de ces régions
caractérisées et labellisées. Ces règles sont obtenues par l’application d’un algorithme d’apprentissage supervisé
symbolique C4.5 (Quinlan, 1993). Ce type d’algorithme a déjà prouvé son efficacité dans le domaine de la télédétection
(Pal et Mather, 2003). Il permet d’obtenir un modèle de classification représenté sous forme d’arbre de décision (ou de
règles de décision) facilement compréhensible et interprétable. Cette méthode est donc particulièrement utile dans notre
contexte puisqu’elle facilite l’acquisition et la constitution de la base de connaissances sur les objets urbains. Plusieurs
exemples de règles sont illustrés à la figure 2.
Rule 1: IF NDVI < 38.23 and IBS > 14.67 THEN Class = Water
ELSE Class = Non Water
Rule 2: IF NDVI > 169.14 THEN Class = Vegetation
ELSE Class = Non Vegetation
Rule 3: IF AREA > 52O3 m² and IM > 0.3 THEN Class = Industrial or Commercial Building
IF AREA < 436.8 m² THEN Class = Residential Building
IF AREA < 1254.9 m² THEN Class = Collective Building
IF PV > 11.9 and AREA < 1803.2 THEN Class = Collective Building
IF IS < 0.43 THEN Class = Collective Building
ELSE Class = Continuous Built-up Area
Figure 2. Exemples de règles d’apprentissage (algorithme C4.5)
L’ensemble des connaissances extraites à partir de la banque de données image est ensuite répertorié dans un
dictionnaire de données. Cette connaissance est en cours d’intégration dans une ontologie spatiale sous le formalisme de
Protegé2000.
3. Intégration des règles dans une procédure de classification : résultats et validation
La base de règles de connaissances produite est introduite dans le logiciel de traitement d’images eCognition
(Defienens, 2005) afin de classifier l’image Quickbird MS. L’objectif n’est pas d’évaluer la sensibilité du logiciel mais
de l’utiliser comme « support informatique » pour valider la base de règles et identifier une stratégie d’intégration
adaptée. La méthode de classification proposée se déroule en 3 étapes : (1) segmentation de l’image, (2) introduction
des règles de connaissances, et (3) classification.
La méthode de segmentation par croissance de région est appliquée sur les 4 canaux de l’image Quickbird avec un
paramétrage défini de manière empirique afin obtenir des régions de taille proche des objets à identifier – bâtiments,
route, … - (Tableau 1).
Paramètre d’échelle
Scale factor
Critère de forme
Shape factor
30
0.2
Critère de couleur – colour factor
Critères de compacité
Critère de lissage
Compactness
Smoothness
0.2
0.8
Tableau 1. Paramètres testés pour la segmentation de l’image Quickbird MS dans le logiciel eCognition.
4
Puissant, Sheeren, Weber, Wemmert, Gançarski, Intérêt de l’intégration de règles dans la classification.
La méthode de classification est fondée sur la logique floue. Les règles peuvent être transposées en règles floues, à
partir d’une hiérarchie de classes d’objets (thèmes) à identifier, par l’intermédiaire d’une interface graphique qui définit
des fonctions d’appartenance. Dans notre test, les règles sont introduites de manière ‘binaire’ car l’objectif n’est pas
d’évaluer les potentialités de la logique floue.
La hiérarchie de classes est composée de 7 types d’objets à identifier (Figure 3). Un
masque sur l’eau a été introduit afin d’éviter toute confusion avec l’ombre portée des
différents objets. Les premiers tests ont montré que (1) l’ordre d’identification des objets
et (2) l’ordre d’application des règles de connaissances influencent les résultats de la
classification. Il semble judicieux (et intuitif) d’initier l’attribution des classes par les
objets « les plus aisés » à identifier. De plus, la stratégie d’intégration hiérarchique des
règles de connaissance des objets (des plus simples aux plus complexes) selon une
approche ‘déductive’ permet également d’améliorer le résultat de classification. Cette
approche permet de simplifier l’extraction des objets les plus complexes.
Figure 3. Hiérarchie de
classes d’objets à identifier
La classification intégrant la base de règles est ensuite comparée à une classification
supervisée par maximum de vraisemblance (Figure 4). La précision des deux
classifications est évaluée à partir d’une matrice de confusion et de l’indice de Kappa
(Tableau 2).
Figure4. Résultats : (a) extrait de l’image Quickbird multispectrale (2.8 m), (b) extrait de la classification spectrale par maximum
de vraisemblance et (c) extrait de la classification à base de règles de connaissances.
Les résultats montrent que la classification à base de règles de connaissances permet d’augmenter le pourcentage de bon
classement global de plus de 5 % par rapport à une classification spectrale ‘classique’. Cette amélioration est
particulièrement significative pour les classes de végétation et d’ombre. Des différences significatives apparaissent pour
les classes ‘route’, ‘bâtiment’ et ‘sols nus’ où de nombreuses confusions subsistent. La classe ‘bâtiment’ atteint des taux
de précision (producteur et utilisateur) plus faibles pour la classification à base de règles en raison du contour des objets
plus précis grâce à l’étape de segmentation.
Classe d’objets
Eau
Ombre
Arbre
Pelouse
Bâtiment
Route
Sol nu / hétérogène
Classification spectrale
Prec. producteur (%)
Prec. utilisateur (%)
100.00
100.00
92.61
98.24
81.95
88.56
80.75
75.36
85.29
95.62
81.12
77.39
78.72
48.38
Précision globale (%) = 76.24 %.
Indice de Kappa = 0.72
Classification à base de règles
Prec. producteur (%)
Prec. utilisateur (%)
100.00
100.00
95.00
99.54
87.60
88.59
85.52
99.83
79.40
63.10
44.64
67.30
78.34
56.53
Précision globale (%) = 81.56%
Indice de Kappa = 0.76
Tableau 2. Evaluation de la précision des classifications.
Interactions Nature-Société, analyse et modèles. UMR6554 LETG, La Baule 2006
5
5. Conclusion et perspectives
Cette recherche démontre la faisabilité de la construction d’une base de règles de connaissances des objets
géographiques en milieu urbain et périurbain à partir d’un algorithme d’apprentissage supervisé symbolique C4.5. Les
résultats de classification, d’une image Quickbird multispectrale, selon une approche orientée-objets, démontrent
également la pertinence des règles acquises. L’incertitude associée à l’identification de certains objets (végétation)
diminue significativement (supérieure à 5%). Toutefois, elle reste encore élevée pour des objets ‘complexes’ tels que les
bâtiments, les routes. De plus, la qualité des règles de connaissances est dépendante de la méthode de segmentation.
Dans ce contexte, l’hypothèse est que la prise en compte simultanée de plusieurs sources de données contribue à
améliorer la reconnaissance des objets. Il est envisagé :
(1) d’améliorer l’identification des objets en ajoutant d’autres règles de connaissances, extraites selon une approche
multi-niveaux ;
(2) de tester les méthodes de segmentation existantes, d’identifier la(es) méthode(s) adaptée(s) aux images de
résolution spatiale différente et d’approfondir l’intérêt de la segmentation multi-échelle ;
Dans le cadre du projet FoDoMust, la technique proposée de construction des règles de connaissances est appliquée
à une banque de données images multi-capteurs et à des images hyperspectrales. Les connaissances extraites à plusieurs
échelles d’abstraction sont répertoriées dans un dictionnaire de données. Elles sont également en cours d’intégration
dans une ontologie spatiale sous le formalisme de Protegé2000. A court terme, il est prévu que cette connaissance soit
mise à profit dans le cadre d’une approche de classification dite ‘multistratégie’ et ‘collaborative’ (Wemmert et al.,
2000). La méthode proposée consiste à intégrer plusieurs méthodes de classification supervisée ou non et à les faire
collaborer dans des phases de raffinement automatique et mutuel de leur résultat. Les premiers tests appliqués sur des
images Haute Résolution (Spot) sont prometteurs. Cet algorithme est en cours de développement afin d’intégrer des
opérations permettant la comparaison de résultats de classifications construits à partir de données images multi-sources.
6. Bibliographie
Barde J., Libourel T et Maurel P., 2004. Ontologies et métadonnées pour le partage d’information géographique. Revue
Internationale de Géomatique, vol. 14/2; p. 199-216.
Defienens Image GmbH, 2005, eCognition: object-oriented image analysis software, German.
Gruber T.R., 1993. A Translation Approach to Portable Ontology Specifications. Knowledge Acquisition, Vol. 5(2), pp. 199-220.
Henricsson, O., 1997,. The Role of Color Attributes and Similarity Grouping in 3D Building Reconstruction. Computer Vision and
Image Understanding, vol. 72, n°.2, p. 163-184.
Hofmann P., 2001. Detecting urban features from IKONOS data using an object-oriented approach. In: Remote Sensing
Photogrammetry Society (Editor): Proceedings of the First Annual Conference of the Remote Sensing; Photogrammetry Society
12 – 14 September 2001., p. 28 – 33.
Mitchell T. M. 1997. Machine Learning, McGraw-Hill International Editions, 414 p.
Pal M. and Mather P.M., 2003. An assessment of the effectiveness of decisoon tree methods for land cover classification, Remote
Sensing of Environment, 86, p. 554-564.
Puissant A., 2003. Information Géographique et images à très haute résolution : utilité et applications en milieu urbain, Thèse de
doctorat en Géographie, Université Louis Pasteur, Strasbourg, 343 p. + annexes.
Quinlan J.R. 1993. C4.5: Programs for machine learning (Morgan Kaufmann), 302 p.
Roussey C., Laurini R, Beaulieu C et Tardy Y, et Zimmermann M., 2004. Le projet Towntology- Un retour d’expérience pour la
construction d’une ontologie urbaine. In Les ontologies spatiales, Hermès Lavoisier, Paris pp 217-237.
Sheeren D., Puissant A., Weber C., Gançarski P. and Wemmert C., 2006. Deriving Classification Rules from Multiple Remotely
Sensed Urban Data with Data Mining, First Workshop of Earsel-SIG Special Interest Group Urban Remote Sensing, 2-3 march
2006, Berlin, Germany, 9 p.
Wemmert C., Gançarski P., Korczak J., 2000. A Collaborative Approach to Combine Multiple Learning Methods, International
Journal on Artificial Intelligence Tools, vol. 9, n°1, p.59-78.