Rapport sur le mémoire de thèse de Damien Palacio « Combinaison
Transcription
Rapport sur le mémoire de thèse de Damien Palacio « Combinaison
Bénédicte Bucher Institut Géographique National Service de la Recherche 73 avenue de Paris 94 160 Saint Mandé Université Paris Est Marne La Vallée Saint Mandé, 22 octobre 2010 Rapport sur le mémoire de thèse de Damien Palacio « Combinaison de critères par contraintes pour la Recherche d’Information Géographique » pour obtenir le grade de Docteur de l’Université de Pau et des Pays de l’Adour spécialité informatique Le travail de thèse de Damien Palacio s’inscrit dans le domaine de la recherche d’information géographique. Ce domaine est une extension du domaine de la recherche d’information. Les moteurs de recherche qui s’appuient essentiellement sur les termes trouvés dans les documents du corpus ou présents dans la requête ne gèrent pas de façon optimale les caractéristiques spatiales et temporelles de l’information qui ne se résument pas toujours à des termes clés. De nouvelles méthodes sont donc nécessaires pour doter un moteur de recherche de capacités spatiales et temporelles. Un parti pris intelligent de ce travail est de vouloir cependant appliquer au domaine de la recherche d’information géographique les techniques statistiques qui ont fait leurs preuves en recherche d’information. Ce travail emprunte à une autre extension du domaine de la recherche d’information qui est celui de la recherche d’information multimédia. Cela est motivé par le constat que l’information multimédia a en commun avec l’information géographique le fait que les documents à indexer sont hétérogènes (le terme « hétérogène » est ici pris au sens très large). Enfin ce travail emprunte aussi au domaine des systèmes d’aide à la décision. En effet une étape importante est de combiner les critères en permettant de plus à l’utilisateur de paramétrer l’importance de ces critères. Globalement, ce travail de thèse relève donc le défi de se situer dans une discipline principale relativement jeune, la recherche d’information géographique –discipline construite par des chercheurs en recherche d’information et des chercheurs en géomatique- et dans plusieurs autres disciplines touchée par le sujet (recherche d’information multimédia, systèmes d’aide à la décision). La première moitié de ce mémoire est un état de l’art conséquent qui constitue à lui seul un apport important de ce travail de thèse. Cet état de l’art traite de nombreux travaux et présente avec une concision et une pédagogie remarquables les travaux des diverses disciplines. Damien Palacio décrit d’abord les processus de base de la recherche d’information : l’extraction d’information dans les documents qui serviront de critères d’indexation puis l’organisation de ces informations extraites dans les indexes et le traitement de la requête de façon à identifier tous les documents susceptibles d’être pertinents. L’état de l’art ne s’attarde pas sur des sujets importants comme les index spatiaux ou spatio-temporels ni sur des problèmes spécifiques rencontrés lors de l’extraction d’information spatiale comme la disambiguätion. Cela étant, c’est un choix qui peut se défendre au vu de la diversité des concepts présentés. Damien Palacio décrit ensuite les méthodes classiques de calcul de scores de pertinence pour classer les documents pertinents. C’est une étape souvent cruciale car c’est elle qui décidera des réponses que l’utilisateur ira effectivement consulter (lorsqu’il y a par exemple 50 documents en réponse à une requête, l’utilisateur consulte rarement au-delà des 10 premiers) et c’est également un point clé du contexte de ces travaux car l’idée sous-jacente de la première proposition sera de pouvoir reprendre ces techniques. Enfin, le processus d’évaluation des systèmes de recherche d’information (SRI) est présenté : son importance et ses outils. Damien Palacio souligne que pour l’heure il n’existe pas de collection test dédiée à des systèmes de recherche d’information géographique mettant en valeur leurs capacités de gestion des caractéristiques spatiales et temporelles de l’information même si plusieurs méthodes de construction existent dans la littérature pour gérer le thématique et le spatial. L’état de l’art traite ensuite des méthodes existantes pour faire de la recherche d’information sur des documents hétérogènes dont les critères de requêtes et les dimensions de pertinence ne se comparent pas aisément. Damien Palacio présente à cet égard trois domaines différents. Il s’agit d’abord de la fusion de critères en recherche d’information multimédia. Cette approche consiste à extraire des différentes facettes d’un document des caractéristiques dans un espace homogène. Ces travaux sont donc intéressant dans le contexte de ce travail pour la phase de construction des indexes. Il s’agit ensuite de l’agrégation de critères dans les systèmes d’aide à la décision. Ces travaux sont intéressants dans le contexte de ce travail pour la phase de calcul du score global de chaque document en fonction d’un score de pertinence spatiale, un score de pertinence thématique et un score de pertinence temporelle. Il s’agit enfin de la recherche d’information géographique. Damien Palacio reprend les systèmes de la littérature et analyse leurs stratégies pour combiner les réponses provenant des divers indexes. Enfin, l’état de l’art étudie les travaux existant spécifiquement pour faciliter la combinaison de critères relativement à la construction des indexes ou au calcul de scores globaux. En particuliers, ces travaux comportent la création de caractéristiques uniformisées pour décrire des documents obtenues en généralisant le contenu de chaque document. L’uniformisation peut aussi porter sur les scores. On distingue des techniques de bornage des scores ou encore, en aide à la décision, des techniques de standardisation. La deuxième moitié du mémoire est consacrée aux propositions. Damien Palacio aborde le problème en considérant que l’information géographique est un cas particulier d’hétérogénéité de document et reprend donc une approche classique de recherche d’information multicritère qui consiste à décomposer la requête sur plusieurs critères. La sous requête spécifique à chaque critère est confrontée à des indexes adaptés à ce critère, dans le cas de ce travail: des indexes thématiques, des indexes spatiaux et des indexes temporels. Ce processus reporte le problème d’hétérogénéité à la phase de calcul de la pertinence globale de chaque document puisqu’il faut alors combiner, pour chaque document, les pertinences obtenues sur chaque critère. Pour traiter la phase d’indexation et de recherche des documents candidats en réponse à une requête, une méthode d’uniformisation générique est proposée. Damien Palacio propose une méthode d’indexation des documents à l’aide de « termes pivot » qui sont des tuiles. Autrement dit, au lieu d’associer à un document une empreinte géographique (représentation géographique dite vecteur du document) il leur est associé soit une coordonnée dans une partition de l’espace (tuilage construit sur des objets) soit une empreinte dite raster dans une grille (tuilage qualifié de géométrique dans le mémoire). La même opération est effectuée avec les caractéristiques temporelles du document. Un soin particulier est apporté à la pondération des tuiles. Cette approche est extrêmement intéressante car elle permet de reprendre les méthodes statistiques proposées en recherche d’information en les appliquant aux tuiles au lieu des termes. Damien Palacio propose également une méthode de pondération nouvelle appelée TFc (pour TF continu) qui combine la méthode TF avec une mesure continue de fréquence d’apparition des tuiles dans un document. Cette méthode permet d’extrapoler également la méthode de recherche de document par calcul de similarité entre un vecteur représentant la requête dans l’espace des lemmes et un vecteur représentant le document dans le même espace. Ici l’espace est celui des tuiles. Cette méthode a été implémentée dans le logiciel de recherche spatiale et temporelle de documents PIV et a conduit au système PIV2. Cette proposition est présentée avec beaucoup de simplicité et d’efficacité. Damien Palacio fait ensuite une proposition pour permettre un paramétrage fin de sa requête par un utilisateur puisqu’il peut non seulement spécifier l’obligation de présence d’un critère ou son exclusion mais encore il peut exprimer une préférence positive ou négative. La suite de la proposition porte sur l’évaluation. Un cadre expérimental est proposé pour évaluer les systèmes de recherche d’information géographique constitué d’une collection test et d’indicateurs de performance sélectionnés dans la littérature comportant la mesure de pertinence graduelle. Une part importante du travail a consisté ensuite à mettre en œuvre la méthode de construction de la collection. Cette méthode utilise des logiciels SRI existant et également les implémentations PIV et PIV2 pour le spatial et le temporel. Une interface web permet aux assesseurs de saisir leurs évaluations de pertinence des documents (PIVasse). Cette méthode d’évaluation est mise en œuvre pour évaluer l’apport des propositions précédentes de la thèse. En particulier elle montre la supériorité de la pondération TFc pour plusieurs types de tuilage et plusieurs types de relations. Elle montre aussi la supériorité dans ce contexte de la combinaison CmbMNZ. Enfin, l’évaluation conforte l’intérêt de ce travail en confirmant que la prise en compte des aspects temporels et spatiaux des documents et de la requête de façon dédiée permet d’améliorer le résultat de la recherche par rapport à une gestion de ces aspects sous forme de termes. Le mémoire se conclut sur de nombreuses perspectives auxquelles on aurait envie d’ajouter la mise à jour de la réponse lorsque la requête évolue ou lorsque les documents évoluent. En effet, le domaine des documents étudiés dans ce travail est celui des corpus de documents patrimoniaux et essentiellement les récits de voyage, qui ne se modifient pas tellement. Mais la portée de la proposition faite dans ce travail dépasse ce contexte et a vocation à s’étendre à toute recherche sur un corpus textuel portant sur une information spatiotemporelle. En conclusion, ce travail constitue une contribution significative au domaine de la recherche d’information géographique et ouvre de nombreuses perspectives pour d’autres progrès scientifiques dans ce domaine. Cela me conduit tout naturellement à donner un avis très favorable à la soutenance de cette thèse en vue d’obtenir le titre de docteur en informatique de l’Université de Pau et des pays de l’Adour. Bénédicte Bucher