Expansion sémantique des requêtes pour un modèle de
Transcription
Expansion sémantique des requêtes pour un modèle de
Expansion sémantique des requêtes pour un modèle de recherche d’information par proximité Bissan AUDEH, Philippe BEAUNE, Michel BEIGBEDER Institut Henri FAYOL Ecole des Mines de Saint Étienne 158 Cours Fauriel 42000 FRANCE {audeh, beaune, mbeig}@emse.fr RÉSUMÉ. L’utilisation d’une ressource lexicale pour reformuler automatiquement les requêtes est une approche d’expansion qui attire souvent les chercheurs. Malheureusement, l’utilité de cette approche, ne peut pas être généralisée à tous les contextes de recherche d’information. Dans cet article, nous prenons le cas d’un modèle de recherche fondé sur la proximité. Ce modèle obtient une très bonne précision dans les campagnes d’évaluation, mais il renvoie peu de résultats. Nous proposons de compléter les résultats des requêtes originales par celles des requêtes étendues, afin d’augmenter le rappel tout en préservant la bonne précision du modèle. Dans nos expériences, nous montrons que dans ce contexte, il est possible d’améliorer à la fois le rappel et la précision tout en utilisant WordNet comme une ressource sémantique pour la désambiguïsation du sens et pour l’extraction de termes d’expansion Using a lexical thesauri to modify queries is an approach of automatic query expansion that often attracts researchers. Unfortunately the usefulness of this approach, on its own, couldn’t be generalized to all information retrieval contexts. In this paper, we take the case of a proximity based retrieval model that has a very high precision but returns few results. Based on the specificity of this model we propose to extend the results of users’ query by results of the expanded query, in order to enhance the recall while preserving the original good precision. In our experiments we show that in this context it is possible to enhance both the recall and the precision while using only WordNet as a semantic resources for word sense disambiguation and for new terms extraction ABSTRACT. MOTS-CLÉS : Expansion sémantique des requêtes, Modèle de recherche par proximité, désambiguïsation, WordNet, Ressource lexicale KEYWORDS: Semantic Query Expansion, Proximity-Based Retrieval Model, WordSense Disambiguation, WordNet, Lexical Thesaurus 1. Introduction La notion de proximité n’est pas nouvelle en recherche d’information. Plusieurs travaux ont trouvé une relation importante entre la proximité entre les mots de la requête dans un document, et la pertinence de ce document. Depuis les années 80 l’opérateur NEAR a été utilisé pour exprimer la proximité entre certains mots de la requête (Salton et McGill, 1986). Le défaut majeur de cet opérateur est qu’il ne peut pas lier plus de deux mots à la fois (Mitchell, 1973). Pour cette raison, d’autres études se fondent sur le calcul des intervalles qui contiennent les termes de la requête dans un document (Hawking et Thistlewaite, 1996; Rasolofo et Savoy, 2003). Ces méthodes permettent de généraliser la notion de proximité pour plusieurs termes en sélectionnant des intervalles de texte contenant les termes de la requête puis en donnant un score à ces intervalles. Beigbeder et al. (Beigbeder et Mercier, 2005) ont proposé un modèle de recherche par proximité qui utilise des requêtes booléennes et la logique floue pour calculer la proximité. Dans cet article, nous cherchons à savoir si l’expansion sémantique des requêtes peut améliorer la performance d’un modèle de recherche basé sur la proximité. Pour cela, nous choisissons le modèle de Beigbeder et al. car ce modèle a une bonne précision mais il renvoie trop peu de documents : il est donc un bon candidat pour l’expansion des requêtes. Nous commençons d’abord par présenter le modèle de recherche par proximité en section 2, puis nous présentons notre proposition en section 3 suivie par nos expériences et résultats. Nous terminons cet article en section 5 par une conclusion et des idées pour nos prochains travaux. 2. Le modèle FPIRM (Fuzzy Proximity Information Retrieval Model) Le modèle de recherche par proximité floue (Beigbeder et Mercier, 2005) profite de la simplicité des requêtes booléennes et de la flexibilité de la logique floue pour interpréter la proximité. Dans les campagnes d’évaluation (TREC2005, CLEF2005 et 2006), FPIRM a réussi à dépasser les modèles précédents fondés sur la proximité. L’idée de ce modèle est de créer une zone d’influence autour de chaque terme de la requête dans le document à évaluer. Pour créer ces zones, une fonction floue est utilisée pour attribuer une valeur réelle dans l’intervalle [0,1] à chaque position dans le document. Cette valeur est maximale dans les positions qui contiennent des mots de la requête, puis décroit progressivement selon la fonction floue utilisée. Selon les opérateurs booléens utilisés entre les termes de la requête, les valeurs d’influence dans chaque position sont combinées en utilisant le min (si l’opérateur est AND) ou le max (si l’opérateur est OR). Le score final du document est la somme des valeurs d’influences à chaque position dans le document. Par défaut, le modèle de proximité floue considère une relation conjonctive entre les termes de la requête si l’opérateur OR n’est pas mentionné explicitement. Pour cette raison, ce modèle est très sélectif, ce qui lui permet d’avoir des réponses très précises par rapport à BM25 pour la première partie de la liste de résultats. Malheureusement, cette haute sélectivité est la raison pour laquelle ce modèle obtient des listes de résultats relativement courtes. Par conséquent, le rappel de ce modèle est faible. Une solution qui permet d’augmenter le nombre de résultats est d’élargir la taille des zones d’influence. Ce choix a un effet direct sur la bonne précision de ce modèle, car il peut remplacer les documents pertinents du début de la liste avec d’autres moins pertinents. Une autre solution est l’approche d’expansion de la requête, qui permet de trouver des documents pertinents même s’ils ne contiennent pas les mots exacts de la requête. Dans cette article nous étudions l’effet de cette approche sur la performance de FPIRM. 3. L’expansion des requêtes pour le modèle FPIRM L’expansion de requêtes est une approche souvent utilisée en recherche d’information pour améliorer le rappel. Plusieures méthodes existent dans la littérature pour effectuer cette approche (Manning et al., 2008). Nous étudions dans ce papier une méthode d’expansion utilisant la ressource sémantique WordNet1 , qui organise les termes en groupes de synonymes appelés les Synsets. Notre processus contient les étapes suivantes : tout d’abord, les termes de la requête sont désambiguïsés afin de choisir un sens unique pour chaque terme de la requête. Une fois que les sens sont choisis, nous cherchons les termes d’expansion liés à chaque sens. Ces termes sont ensuite intégrés à la requête originale tout en essayant d’interpréter correctement les relations booléennes entre eux. Finalement, les résultats de la requête originale sont complétés avec ceux rendus par la requête étendue afin de construire la liste finale de résultats. Dans ce travail, nous désambiguïsons uniquement les mots isolés de la requête car nous supposons que si l’utilisateur a précisé explicitement une phrase ou une expression dans sa requête, c’est qu’il souhaite voir les mots exacts de cette expression dans un document pertinent. 3.1. Désambiguïsation Il existe différentes méthodes de désambiguïsation qui dépendent de l’analyse des documents et des requêtes, comme la classification automatique et les graphes de cooccurence. Dans la présente étude, puisque nous utilisions WordNet pour l’expansion des requêtes, il nous a semblé cohérent d’utiliser aussi WordNet pour la désambiguïsation. Pour cela nous avons adopté une méthode structurelle fondée sur une distance sémantique entre les concepts selon la formule suivante (Navigli, 2009) : X Ŝ = argmaxS∈Senses(wi ) max Score(S, S 0 ) [1] 0 wj ∈T :wi 6=wj S ∈Senses(wj ) où T est l’ensemble des termes de la requête, wi est le terme qu’on souhaite désambiguïser, Senses(wi ) est l’ensemble des concepts candidats pour le terme wi , ce qui correspond dans WordNet aux synsets qui contiennent ce terme, et Score(S, S 0 ) est la fonction utilisée pour mesurer la similarité entre deux concepts S et S 0 . Plusieurs 1. http ://wordnet.princeton.edu/ méthodes existent pour mesurer la similarité entre deux concepts S et S 0 : nous choisissons dans cet article, suite à plusieurs expériences de comparaison, une approche basée sur le parcours des arêtes du graphe (Palmer et Wu, 1994). Cette approche suppose que la similarité entre deux concepts dépend de la profondeur des nœuds concernés et leur ancêtre commun (Least Common Concept)2 par rapport à un noeud racine dans la ressource. Cette mesure de similarité s’applique aux synsets qui se trouvent dans la même taxonomie, ainsi la présence d’un verbe ou d’un adjectif dans la requête, qui est rare pour nos requêtes de test, est ignorée pendant la désambiguïsation des noms. Pour les verbes et adjectifs, nous choisissons le Synset qui signifie le sens le plus fréquent selon WordNet. 3.2. La sélection des termes Une fois faite la désambiguïsation des termes de la requête, l’étape suivante essaie de trouver les termes d’expansion les mieux adaptés pour chaque mot original. Notre première option est de chercher les synonymes dans le Synset sélectionné par l’étape précédente. Dans certains cas, le Synset choisi ne contient aucun terme que celui qu’on essaie d’étendre. Dans ces cas, nous prenons les termes qui se trouvent dans de l’hypéronyme 3 du terme à étendre. 3.3. La reformulation de la requête La performance d’un modèle de recherche d’information est fortement influencée par la qualité de la requête. Bien que la plupart des modèles proposent un langage de requêtes contenant une variété d’opérateurs pour mieux exprimer les besoins d’information, les utilisateurs préfèrent souvent fournir les requêtes sous forme de sac à mots, laissant ainsi le modèle de recherche interpréter les liens entre les termes selon sa conception. Ce comportement est fréquent dans la recherche d’information sur le Web, c’est aussi le cas de la plupart des campagnes d’évaluation comme TREC et INEX qui présentent les titres de leurs besoins d’information sous forme de sac de mots. FPIRM ajoute l’opérateur AND entre les termes de la requête si aucun autre opérateur n’est précisé. Pour cette raison, nous proposons une nouvelle technique qui permet de choisir le « bon » opérateur entre les termes lors de l’intégration des nouveaux termes d’expansion dans la requête. Notre algorithme de sélection vérifie, à chaque fois qu’on essaie d’ajouter un terme, si ce terme a été déjà considéré en tant que synonyme d’un terme déjà traité. Si c’est le cas, nous ne rajoutons pas ce terme à la requête même s’il est un terme original. Cette opération va détecter les termes originaux qui sont synonymes entre eux, et va donc transformer la relation conjonctive implicite entre eux en OR. La version actuelle de cet algorithme traite uniquement les requêtes plates, où l’opérateur AND est l’opérateur par défaut si aucun autre choix 2. Least Common Concept est le premier ascendant commun entre deux nœuds. 3. L’hypéronyme d’un terme est son prédécesseur direct dans la taxonomie IS-A n’est précisé explicitement. Bien que cette technique ne résolve pas le problème d’ambiguïté, elle est quand même utile pour les requêtes longues et moyennes. Par exemple, la requête chemists physicists scientists alchemists table sera interprétée par l’algorithme précédent comme (chemists OR scientist OR physicist) AND (alchemists OR intellect) AND (table OR board). 3.4. Complétion des résultats Dans notre approche, le modèle de RI est exécuté deux fois : une fois avec la requête originale, et la deuxième fois avec la requête reformulée. Les deux listes de résultats de ces deux exécutions sont combinées comme suit : les documents renvoyés par la requête originale sont privilégiés et sont donc mis au début de la liste finale, les documents résultant de la requête reformulée son ajoutés à la liste précédente s’ils n’y sont pas déjà. Les scores des documents de la deuxième liste sont normalisés par rapport au score du dernière document de la première liste en utilisant la formule suivante : score(d0i ) (score(dn ) − λ) [2] newScore(d0i ) = score(d01 ) où d0i est un document dans la liste de résultats de la requête reformulée, d0i est le premier document dans cette liste, et dn est le dernier document renvoyé par la requête originale. Un constante λ est utilisée pour que le première document dans la deuxième liste obtienne un score légèrement inférieur au dernier document de la première liste (le cas où d0i = d01 ). 4. Expériences Pour tester notre approche, nous avons utilisé la collection de test INEX2009 (tâche ad-hoc) qui contient 2 600 000 articles en anglais issus de Wikipedia. Ces documents ont été annotés en utilisant l’ontologie YAGO. 63 requêtes de la tache ad-hoc d’INEX2009 ont été utilisées. Les documents et les requêtes ont été lemmatisées en utilisant l’algorithme de Porter. La largeur de la zone d’influence de FPIRM (Beigbeder et Mercier, 2005) est 300, cette valeur a été choisie après plusieurs expériences avec des valeurs qui varient de 100 à 600 où la longueur moyenne des documents de notre collection est 660. Pour la mesure de similarité entre concepts, nous avons utilisé notre propre implémentation en Java qui a été testée et validée en donnant les mêmes valeurs que la bibliothèque Perl Wordnet::Similarity(Pedersen, 2004). Il est clair que notre approche ne va pas détruire la précision originale du modèle. Elle peut par contre améliorer le rappel, ce qui est le but de ce travail. Pour cette raison, le but de nos expériences n’est pas de voir si nous avons amélioré la performance, mais plutôt de savoir à quel point nous pouvons améliorer le rappel. Ces expériences comparent les trois ensembles de résultats obtenus en utilisant FPIRM comme un modèle de base : MAP FPIRM-Base 0.1155 FPIRM-ExpandQuery 0.1256 FPIRM-ReformulateQuery 0.1309 Tableau 1. Le MAP pour les trois cas de test. Figure 1. La courbe Rappel-Précision de FPIRM-Base et FPIRM-ReformulateQuery – FPIRM-Base : les résultats des requêtes originales sans l’expansion des requêtes (les titres des requêtes INEX2009), – FPIRM-ExpandQuery : les résultats des requêtes originales sont complétées par celles des requêtes étendues. L’expansion dans ce cas se fait en ajoutant les nouveaux termes aux termes orignaux par l’opérateur OR. – FPIRM-ReformulateQuery : comme dans le cas précédent, la liste originale de résultat est complétée avec celle des requêtes étendues. Par contre, dans ce cas les nouveaux termes sont intégrés dans la requête originale en utilisant l’algorithme de la section 4.3 qui modifie la structure booléenne de larequête. 4.1. Résultats En observant le tableau 1 nous constatons que la MAP est amélioré de 8,74% en utilisant l’expansion simple des requêtes, alors que cette amélioration atteint 13.33% en utilisant l’algorithme de reformulation booléen. L’utilisation de FPIRM-Expand Query et FPIRM-ReformulateQuery a amélioré 40 requêtes sur 63 par rapport à FPIRMBase. De l’autre côté, FPIRM-ReformulateQuery a amélioré 7 requêtes uniquement par rapport à FPIRM-ExpandQuery. Ces 7 requêtes ont été améliorées suffisamment pour augmenter de 4,21% le MAP de FPIRM-ExpandQuery. Après la clarification de cette différence entre FPIRM-ExpandQuery and FPIRM-ReformulateQuery, nous comparons par la suite les résultats de FPIRM-Base par rapport à FPIRM-Reformulate Query uniquement. L’analyse de la courbe Rappel-Précision de FPIRM-Base et FPIRMReformulateQuery (cf. Fig. 1) montre une amélioration de 19,97% de la précision interpolée au niveau 10% du rappel, cette amélioration diminue pour les niveaux supérieurs à ce point. Figure 2. La précision aux différentes positions de la liste de résultats pour FPIRMBase, FPIRM-ReformulateQuery et BM25 Pour comprendre le comportement de notre méthode, nous présentons également la courbe de la précision aux différentes positions de la liste de résultats de nos expériences par rapport aux résultats de BM25 sur les requêtes originales. La figure Fig. 2 montre que nous avons réussi à dépasser FPIRM-Base et BM25 pour les 100 premières positions. Après ce point, notre approche est toujours meilleure que FPIRM-Base mais elle devient légèrement moins bien que BM25. 4.2. Discussion Les résultats de la section précédente ont montré que FPIRM-ExpandQuery et FPIRM-ReformulateQuery ont améliorécbhn la MAP de FPIRM-Base. La complétion des résultats de FPIRM-Base a protégé la bonne précision du modèle quand les requêtes originales ont obtenu assez de résultats. Quand les requêtes originales obtiennent peu (ou pas) de résultats, les requêtes transformées se sont bien comportées. Cela peut être constaté par la Figure 3 qui montre que FPIRM-ReformQuery a une meilleure précision que FPIRM-Base pour les 100 premiers documents. D’un autre côté, bien que la transformation des requêtes en utilisant l’algorithme de la section 4.3 n’ait pas amélioré les 63 requêtes, elle était quand même capable d’augmenter le MAP total. Nous pensons que cet algorithme est utile quand les requêtes ne sont pas bien formulées, c’est-à-dire quand un AND est utilisé alors que la vraie relation est OR, ce qui n’était pas souvent le cas pour les requêtes ad-hoc d’INEX2009. L’amélioration importante du MAP en utilisant cette technique, malgré le petit nombre de requêtes améliorées, est générée à cause du fait que cette technique réduit la haute sélectivité du modèle en remplaçant les conjonctions avec des disjonctions dans certains endroits de la requête. Il est important de noter que BM25 n’est pas un modèle conjonctif, il interprète les relations implicites entre les termes de la requête en tant que OR, alors que FPIRM les interprète comme AND. Ce fait explique pourquoi le rappel de notre méthode n’a pas dépassé celui de BM25. 5. Conclusion et perspectives Dans cet article nous avons étudié l’utilisation d’une ressource lexicale pour la désambiguïsation et pour l’expansion automatique des requêtes pour le cas d’un modèle de recherche par proximité FPIRM qui est un modèle très sélectif. Le but de notre approche était d’améliorer la performance du modèle sans prendre le risque de détruire sa bonne précision. Nos expériences ont montré qu’une simple utilisation de WordNet peut améliorer considérablement le MAP et le rappel du modèle. La précision a été également améliorée pour les requêtes qui obtiennent très peu de résultats. La prochaine étape de ce travail sera d’abord de comparer les méthodes de similarité entre concepts pour la phase de désambiguïsation, pour mesurer l’efficacité des méthodes basées sur le contenu en information. Nous pensons tester notre approche avec d’autres collections de test et/ou avec d’autre ressources sémantiques comme YAGO par exemple. Un autre aspect qui nous intéresse est d’intégrer la notion de pondération des termes dans le modèle FPIRM, et d’étudier la différence entre cette idée et l’approche de complétion de résultats présentée dans cet article. Références Beigbeder M., Mercier A., « An information retrieval model using the fuzzy proximity degree of term occurrences », Proceedings of SAC ’05, , 2005, page 1018, ACM Press. Hawking D., Thistlewaite P., « Relevance Weighting Using Distance Between Term Occurrences », rapport, 1996. Manning C. D., Raghavan P., Schütze H., Introduction to Information Retrieval, Cambridge University Press, 2008. Mitchell P. C., « A note about the proximity operators in information retrieval », SIGIR Forum, vol. 9, 1973, p. 177–180, ACM. Navigli R., « Word sense disambiguation : A survey », ACM Computing Surveys, vol. 41, 2009, p. 1-69, ACM Press. Palmer M., Wu Z., « VERB SEMANTICS AND LEXICAL SELECTION », ACL, Association for Computational Linguistics Stroudsburg, PA, USA, 1994. Pedersen T., « WordNet : : Similarity-Measuring the Relatedness of Concepts », Demonstration Papers at HLT-NAACL, , 2004, p. 38-41, Association for Computational Linguistics Stroudsburg, PA, USA. Rasolofo Y., Savoy J., « Term Proximity Scoring for Keyword-Based Retrieval Systems », ECIR’03, Springer-Verlag Berlin, Heidelberg, 2003, p. 207-218. Salton G., McGill M. J., Introduction to Modern Information Retrieval, McGraw-Hill, Inc. New York, 1986.