Rapport sur le mémoire de thèse de Damien Palacio « Combinaison

Transcription

Rapport sur le mémoire de thèse de Damien Palacio « Combinaison
Bénédicte Bucher
Institut Géographique National
Service de la Recherche
73 avenue de Paris
94 160 Saint Mandé
Université Paris Est Marne La Vallée
Saint Mandé, 22 octobre 2010
Rapport sur le mémoire de thèse de Damien Palacio
« Combinaison de critères par contraintes
pour la Recherche d’Information Géographique »
pour obtenir le grade de
Docteur de l’Université de Pau et des Pays de l’Adour
spécialité informatique
Le travail de thèse de Damien Palacio s’inscrit dans le domaine de la recherche d’information
géographique. Ce domaine est une extension du domaine de la recherche d’information. Les
moteurs de recherche qui s’appuient essentiellement sur les termes trouvés dans les
documents du corpus ou présents dans la requête ne gèrent pas de façon optimale les
caractéristiques spatiales et temporelles de l’information qui ne se résument pas toujours à des
termes clés. De nouvelles méthodes sont donc nécessaires pour doter un moteur de recherche
de capacités spatiales et temporelles. Un parti pris intelligent de ce travail est de vouloir
cependant appliquer au domaine de la recherche d’information géographique les techniques
statistiques qui ont fait leurs preuves en recherche d’information. Ce travail emprunte à une
autre extension du domaine de la recherche d’information qui est celui de la recherche
d’information multimédia. Cela est motivé par le constat que l’information multimédia a en
commun avec l’information géographique le fait que les documents à indexer sont
hétérogènes (le terme « hétérogène » est ici pris au sens très large). Enfin ce travail emprunte
aussi au domaine des systèmes d’aide à la décision. En effet une étape importante est de
combiner les critères en permettant de plus à l’utilisateur de paramétrer l’importance de ces
critères. Globalement, ce travail de thèse relève donc le défi de se situer dans une discipline
principale relativement jeune, la recherche d’information géographique –discipline construite
par des chercheurs en recherche d’information et des chercheurs en géomatique- et dans
plusieurs autres disciplines touchée par le sujet (recherche d’information multimédia,
systèmes d’aide à la décision).
La première moitié de ce mémoire est un état de l’art conséquent qui constitue à lui seul un
apport important de ce travail de thèse. Cet état de l’art traite de nombreux travaux et présente
avec une concision et une pédagogie remarquables les travaux des diverses disciplines.
Damien Palacio décrit d’abord les processus de base de la recherche d’information :
l’extraction d’information dans les documents qui serviront de critères d’indexation puis
l’organisation de ces informations extraites dans les indexes et le traitement de la requête de
façon à identifier tous les documents susceptibles d’être pertinents. L’état de l’art ne s’attarde
pas sur des sujets importants comme les index spatiaux ou spatio-temporels ni sur des
problèmes spécifiques rencontrés lors de l’extraction d’information spatiale comme la
disambiguätion. Cela étant, c’est un choix qui peut se défendre au vu de la diversité des
concepts présentés.
Damien Palacio décrit ensuite les méthodes classiques de calcul de scores de pertinence pour
classer les documents pertinents. C’est une étape souvent cruciale car c’est elle qui décidera
des réponses que l’utilisateur ira effectivement consulter (lorsqu’il y a par exemple 50
documents en réponse à une requête, l’utilisateur consulte rarement au-delà des 10 premiers)
et c’est également un point clé du contexte de ces travaux car l’idée sous-jacente de la
première proposition sera de pouvoir reprendre ces techniques.
Enfin, le processus d’évaluation des systèmes de recherche d’information (SRI) est présenté :
son importance et ses outils. Damien Palacio souligne que pour l’heure il n’existe pas de
collection test dédiée à des systèmes de recherche d’information géographique mettant en
valeur leurs capacités de gestion des caractéristiques spatiales et temporelles de l’information
même si plusieurs méthodes de construction existent dans la littérature pour gérer le
thématique et le spatial.
L’état de l’art traite ensuite des méthodes existantes pour faire de la recherche d’information
sur des documents hétérogènes dont les critères de requêtes et les dimensions de pertinence ne
se comparent pas aisément. Damien Palacio présente à cet égard trois domaines différents.
Il s’agit d’abord de la fusion de critères en recherche d’information multimédia. Cette
approche consiste à extraire des différentes facettes d’un document des caractéristiques dans
un espace homogène. Ces travaux sont donc intéressant dans le contexte de ce travail pour la
phase de construction des indexes.
Il s’agit ensuite de l’agrégation de critères dans les systèmes d’aide à la décision. Ces travaux
sont intéressants dans le contexte de ce travail pour la phase de calcul du score global de
chaque document en fonction d’un score de pertinence spatiale, un score de pertinence
thématique et un score de pertinence temporelle.
Il s’agit enfin de la recherche d’information géographique. Damien Palacio reprend les
systèmes de la littérature et analyse leurs stratégies pour combiner les réponses provenant des
divers indexes.
Enfin, l’état de l’art étudie les travaux existant spécifiquement pour faciliter la combinaison
de critères relativement à la construction des indexes ou au calcul de scores globaux. En
particuliers, ces travaux comportent la création de caractéristiques uniformisées pour décrire
des documents obtenues en généralisant le contenu de chaque document. L’uniformisation
peut aussi porter sur les scores. On distingue des techniques de bornage des scores ou encore,
en aide à la décision, des techniques de standardisation.
La deuxième moitié du mémoire est consacrée aux propositions.
Damien Palacio aborde le problème en considérant que l’information géographique est un cas
particulier d’hétérogénéité de document et reprend donc une approche classique de recherche
d’information multicritère qui consiste à décomposer la requête sur plusieurs critères. La sous
requête spécifique à chaque critère est confrontée à des indexes adaptés à ce critère, dans le
cas de ce travail: des indexes thématiques, des indexes spatiaux et des indexes temporels. Ce
processus reporte le problème d’hétérogénéité à la phase de calcul de la pertinence globale de
chaque document puisqu’il faut alors combiner, pour chaque document, les pertinences
obtenues sur chaque critère.
Pour traiter la phase d’indexation et de recherche des documents candidats en réponse à une
requête, une méthode d’uniformisation générique est proposée. Damien Palacio propose une
méthode d’indexation des documents à l’aide de « termes pivot » qui sont des tuiles.
Autrement dit, au lieu d’associer à un document une empreinte géographique (représentation
géographique dite vecteur du document) il leur est associé soit une coordonnée dans une
partition de l’espace (tuilage construit sur des objets) soit une empreinte dite raster dans une
grille (tuilage qualifié de géométrique dans le mémoire). La même opération est effectuée
avec les caractéristiques temporelles du document. Un soin particulier est apporté à la
pondération des tuiles. Cette approche est extrêmement intéressante car elle permet de
reprendre les méthodes statistiques proposées en recherche d’information en les appliquant
aux tuiles au lieu des termes. Damien Palacio propose également une méthode de pondération
nouvelle appelée TFc (pour TF continu) qui combine la méthode TF avec une mesure
continue de fréquence d’apparition des tuiles dans un document. Cette méthode permet
d’extrapoler également la méthode de recherche de document par calcul de similarité entre un
vecteur représentant la requête dans l’espace des lemmes et un vecteur représentant le
document dans le même espace. Ici l’espace est celui des tuiles. Cette méthode a été
implémentée dans le logiciel de recherche spatiale et temporelle de documents PIV et a
conduit au système PIV2. Cette proposition est présentée avec beaucoup de simplicité et
d’efficacité.
Damien Palacio fait ensuite une proposition pour permettre un paramétrage fin de sa requête
par un utilisateur puisqu’il peut non seulement spécifier l’obligation de présence d’un critère
ou son exclusion mais encore il peut exprimer une préférence positive ou négative.
La suite de la proposition porte sur l’évaluation. Un cadre expérimental est proposé pour
évaluer les systèmes de recherche d’information géographique constitué d’une collection test
et d’indicateurs de performance sélectionnés dans la littérature comportant la mesure de
pertinence graduelle. Une part importante du travail a consisté ensuite à mettre en œuvre la
méthode de construction de la collection. Cette méthode utilise des logiciels SRI existant et
également les implémentations PIV et PIV2 pour le spatial et le temporel. Une interface web
permet aux assesseurs de saisir leurs évaluations de pertinence des documents (PIVasse).
Cette méthode d’évaluation est mise en œuvre pour évaluer l’apport des propositions
précédentes de la thèse. En particulier elle montre la supériorité de la pondération TFc pour
plusieurs types de tuilage et plusieurs types de relations. Elle montre aussi la supériorité dans
ce contexte de la combinaison CmbMNZ. Enfin, l’évaluation conforte l’intérêt de ce travail en
confirmant que la prise en compte des aspects temporels et spatiaux des documents et de la
requête de façon dédiée permet d’améliorer le résultat de la recherche par rapport à une
gestion de ces aspects sous forme de termes.
Le mémoire se conclut sur de nombreuses perspectives auxquelles on aurait envie d’ajouter la
mise à jour de la réponse lorsque la requête évolue ou lorsque les documents évoluent. En
effet, le domaine des documents étudiés dans ce travail est celui des corpus de documents
patrimoniaux et essentiellement les récits de voyage, qui ne se modifient pas tellement. Mais
la portée de la proposition faite dans ce travail dépasse ce contexte et a vocation à s’étendre à
toute recherche sur un corpus textuel portant sur une information spatiotemporelle.
En conclusion, ce travail constitue une contribution significative au domaine de la recherche
d’information géographique et ouvre de nombreuses perspectives pour d’autres progrès
scientifiques dans ce domaine. Cela me conduit tout naturellement à donner un avis très
favorable à la soutenance de cette thèse en vue d’obtenir le titre de docteur en informatique de
l’Université de Pau et des pays de l’Adour.
Bénédicte Bucher