Traitements de la langue naturelle pour la RI
Transcription
Traitements de la langue naturelle pour la RI
Traitements de la langue naturelle pour la RI Dans cette section, on discute les deux problèmes suivants: - désambiguisation de mots - regroupement des mots en termes composés Désambigusation des mots 1. Problème Un des problème en utilisant des mots comme index est que les mots sont très ambigus, c'est-àdire qu'un mot peut désigner plusieurs sens. La conséquence est qu'un document contenant un mot ne désigne pas nécessairement le même sens que ce même mot dans une requête. Ainsi, c'est une source de bruit. Le but de la désambigusation est de déterminer le sens d'un mot dans un document ou dans une requête. Si on peut déterminer le sens avec une certaine précision, on peut espérer d'avoir une recherche plus précise. 2. Méthodes Utilisation d'un système expert [Small 1982] Au début des années 1980, on tentait d'utiliser un système expert pour déterminer le sens. Les informations utilisées sont les mots qui se trouvent dans le contexte. Un ensemble de règles sont établies manuellement. Par exemple: bank + contexte(river) => river bank bank + contexte(flood) => river bank … bank + contexte(money) => financial institution bank + contexte(loan) => financial institution … Cependant, comme on peut imaginer, il est très difficile d'avoir un ensemble de règles qui a une couverture raisonnable. Les règles établies manuellement ne peuvent couvrir qu'une petite partie de mots ambigus. Utiliser un dictionnaire [Lesk 1988] L'idée d'utiliser un dictionnaire est d'exploiter les informations qui se trouvent dans la définition d'un mot pour déterminer le sens. L'hypothèse est que la définition du sens approprié doit avoir une plus grande affinité avec le contexte du mot dans un texte. Voici un exemple qui illustre ce processus. Soit les deux définitions suivantes: Ash(1): The soft grey powder that remains after something has been burnt. Ash(2): A forest tree common in Britain. Soit la phrase suivante dans un texte: There was ash from the coal fire. On veux savoir si "ash" s'agit de ash(1) ou ash(2). Pour cela, on retrouve les définition des mots dans le contexte (sauf les stopwords): coal, fire: Coal: AS black mineral which is dug from the earth, which can be burnt to give heat. Fire: The condition of burning; flames, light and great heat. Si on compare les mots dans ces deux définitions, on voit qu'il y a plus d'affinité avec ash(1), parce qu'il y a un mot en commun: burnt. Donc ash(1) est choisi. Si on pousse ce processus plus loin, il est facile détablir une relation entre "burning" et burnt" en utilisant une analyse morphologique, ou même avec "flames" en utilisant un thésaurus. Le test de Lesk a montré qu'on peut avoir un taux de réussite de 50-70% pour la détermination de sens. Il faut remarquer que ce taux dépend fortement du dictionnaire utilisé et des mots soumis au test. Mais ce taux de réussite est peut-être insuffisant pour être assez fiable. Le danger est qu'on peut se tromper dans 30-50% des cas, ce qui est très important. Un travail plus récent tente d'utiliser le Longman Dictionary of Contemporary English (LDOCE). Ce travail est essentiellement effectué dans New Mexico State University (CRL). L'idée est aussi d'exploiter la relation entre un mot et ses définition. La particularité de LDOCE est que les mots utilisés dans les définitions sont très restreints, et que la forme de définition est assez standard. Une définition commence généralement par son hypernyme *catégorie supérieure). Voici un exemple: I bank (n) 1. Land along the side of a river, lake 2. Earth which is heaped up in a field or garden, often making a border or division 3. A mass of snow, cloid, mud 4. A slope made at bends in a road or race-track, … 5. Sandbank II. bank (v) 6. … III bank (n) 7. A row of oars in an ancient boat, … IV bank (n) 8. A place in which money is kept, … 9. In a place where … A partir de ces définitions, on suppose donc que bank peut avoir comme hypernymes "land", "earth", "mass", "slope", sandbank", "row", "place", … Une analyse plus poussée permet d'établir les liens entre différents mots. La figure suivante est un extrait des résultats obtenus: amount sum lend lot speed money receipt pay account bank check signature river lake across cross rob Utiliser un thésaurus Dans le thésaurus Roget (1911), les mots sont classés dans des catégories organisées dans une hiérarchie. Les mots qui sont fortement reliés sont mis ensemble. C'est un des premiers thésaurus, dont le but est d'organiser les concepts selon leur relations sémantiques. Un segment de ce thésaurus est comme suit (concernant la relation "similarity"): RELATIONS … 2. CONTINUOUS RELATION … #17. Similarity. -- N. similarity, resemblance, likeness, similitude, semblance; affinity, approximation, parallelism; agreement &c. 23; analogy, analogicalness; correspondence, homoiousia, parity. Un thésaurus développé plus récemment est Wordnet (http://www.cogsci.princeton.edu/~wn/). Vous pouvez essayer en ligne. Ce thésaurus regroupe les synonymes pour un sens ensemble. Un tel groupe de synonymes est appelé synset. Entre les synsets, il y a des relations de hypernymie, hyponymie, etc. Le nombre de termes inclus dans Wordnet est environ 30 000. Il y a plus de 50 000 synsets. [Voorhees93] Voorhees utilise Wordnet comme outil de désambiguisation. L'idée est la suivante: Un mot ambigu correspond à plusieurs synsets dans Wordnet. Pour déterminer le sens d'un mot dans une phrase, on utilise la distance sémantique entre chaque synset possible du mot avec les synsets des autres mots de la phrase. Le synset qui est le plus proche des autres mots est choisi. L'hypothèse est que les sens approprié d'un mot ambigu doit être sémantiquement plus proche aux autres mots du contexte. La distance est calculée selon le nombre de liens entre les synsets (dans l'arbre de hypernymehyponyme ou ISA). Voorhees a expérimenté cette approche sur la RI. Elle compare les deux cas suivants: les mots sans désambigusation, et les mots avec désambiguisation. Dans le second cas, le sens d'un mot est représenté par le numéro du synset choisi. Le résultat montre que la désambiguisation détériore la performance de RI. Une raison possible est que le taux de désambiguisation n'est pas assez élevé. L'utilisation de nombre de liens comme mesure de distance sémantique est aussi mise en cause. Utiliser un apprentissage Dans [Yarowsky], une approche intéressante de désambiguisation est décrite. Cette approche identifie d'abord quelques mots de contexte très indicateur d'un sens pour un mot ambigu. Cela permet de créer deux ensemble d'exemples, qui seront utilisés comme des germes (seeds) dans un processus d'apprentissage. L'approach font les étapes suivantes: 1. Pour un mot ambigu, on créer des concordances (le mot avec le contexte). 2. A prtir des concordances, on identifie manuellement quelques mots qui s'associent à un des sens possible. Par exemple pour "plant", on peut choisir le mot "life" comme indication d'un sens (A), et "manifacturing" pour un autre sens (B). 3. Toutes les occurrences de "plant" qui apparaissent avec "life" sont regroupées dans le sens (A), et celles avec "manifacturing" dans le sens (B). 3a. A partir de ces deux groupes, on essaie d'avoir d'autres mots indicateurs. On peut donc obtenir un ensemble de règles du genre: plant + X => A, poids plant + Y => B, poids où poids correspond à un degré de certitude. Le poids est déterminé selon la statistique sur les deux groupes. 3b. Ces règles sont ensuite utilisées pour la classification de toutes les occurrences de "plant". Si une occurrence est classé dans un sens avec un degré de certitude supérieur à un seuil, cette occurrence est alors considéré comme un exemple de ce sens sur. Elle sera utilisée comme un nouveau germe (seed). 3c. Utiliser l'hypothèse de "un sens par texte" pour choisir un seul sens pour toutes les occurrences de "plant" dans un texte. Certaines erreurs peuvent être corrigées. 3d. répéter 3a-3c. 4. L'entraînement se converge. 5. Le résultat est un ensemble de règles. Ces règles seront utilisées pour déterminer le sens de "plant". Par exemple, l'utilisation des règles peut donner: 10.12 plant + growth => A 9.68 plant + car (within k words) => B 9.64 plant + height => A … Références intéressantes Pour la désambiguisation, Sanderson donne une discussion intéressante dans sa thèse de doctorat. Mais c'est long. Une version agrégée est son article. Les détails de l'approche de Yarowsky se trouve dans son article (Unsupervised word sens disambiguation …) Regroupement des mots en terme composé Par regroupement de mots en terme, on tente de résoudre l'autre problème de mots-clés l'imprécision pour représenter le sens. L'intuition est qu'un terme composé est plus précis et moins ambigu que des mots simples. Ainsi, si on cherche des documents contenant des termes composés, c'est plus précis que de chercher par des mots clés isolés. Approches Approche statistique Le premier groupe d'approches utilise seulement les co-occurrences de mots. C'est une approche "statistique". Le principe est que, si deux mots co-occurrent souvent dans un certain type de contexte, on regroupe ces mots comme un terme. Dans les implantations, le contexte peut varier entre les suivants: le même document, le même paragraphe, la même phrase, ou dans une certaine distance (e.g. 10 mots). Pour juger si les mots doivent être regroupés, on peut utiliser soit une fréquence relative comme: freq(A,B)/Max(freq(A), freq(B)), ou bien utiliser une formule de l'Information Mutuelle: P(A,B)/(P(A)*P(B)). Une autre variante de la formule de l'Information Mutuelle est - P(A,B)*log[P(A,B)/(P(A)*P(B))] Un seuil sera fixé pour choisir les termes parmi les candidats. Approches syntaxiques Par "approches syntaxiques", on réfère à des approches qui utilise certaines informations syntaxiques dans le regroupement des termes. Il y a notamment les approches suivantes qui sont utilisées: - Utiliser des patrons (templates) syntaxique. Par exemple, on peut définir les patrons suivants pour l'anglais: (NN NN), (ADJ NN), … Toues les occurrences de mots correspondant à ces patrons sont extraites comme des termes potentiels. Cela suppose évidemment qu'il y a un taggeur pour déterminer la catégorie syntaxique de mot. Les candidats extraits sont ensuite passé à une analyse statistique. Ceux dont la fréquence d'occurrences dépasse un certain seuil sont choisis comme des termes. - Utiliser une analyse syntaxique partielle C'est une approche qui utilise une analyse syntaxique plus systématique que la précédente. En général, on fait une analyse des groupes nominaux seulement. Des fragments des groupes nominaux sont extraits comme des candidats. Certaines normalisations de forme peuvent être appliquées sur ces candidats. On fait ensuite le même genre d'analyse statistique pour filtrer les termes. Bien que l'utilisation des groupes semble intuitive, on n'a pas encore réussit à prouver, par expérimentation, que cette technique est très utile pour la RI, si on ne juge que sur la performance (précision moyenne). Une des explications avancées est que, en général, si un document contient plusieurs mots de la requête, il y a une forte chance que ces mots forment un terme (si ils doivent former un terme). Donc le regroupement forcé est peut-être superflu. Cependant, il est encore trop tôt pour rejeter cette approche, car il y a des études qui montrent que dans certains cas, le regroupement en terme est bénéfique. Vous pouvez lire les articles de Voorhees et de Lewis&Sparck Jones (dans la section "général" des références) pour une discussion générale sur l'utilisation des traitements de la langue naturelle en RI. La référence souvent cité est la thèse de Fagan, qui compare le regroupement des termes statistique et syntaxique. Son résultat montre que le regroupement statistique (basée sur les cooccurrences des mots) est nettement meilleur que le regroupement syntaxique. Malheureusement, ce document n'est pas disponible en ligne. L'article de Lewis&Croft (Term clustering of syntactic phrases) décrit une approche similaire à Fagan. C'est disponible sur le web. Grefenstette a aussi fait beaucoup de travaux sur le regroupement des termes. Mais les documents pertinents ne sont pas disponibles sur le Web. Certains de ses articles apparaissent dans les actes de conférences ACM-SIGIR. Références Général Voorhees, E. (1999). Natural Language Processing and Information Retrieval, In M. T. Pazienza, (Ed.), Information Extraction: Towards Scalable, Adaptable Systems (pp.32-48). Germany: Springer. (Entry in lecture notes in artificial intelligence 1714) http://www.itl.nist.gov/iaui/894.02/works/papers/nlp_ir.ps David D. Lewis and Karen Sparck Jones. Natural language processing for information retrieval. Communications of the ACM, 39(1):92--101, 1996. http://citeseer.nj.nec.com/86648.html Wilks 97 Y. Wilks (1997). Senses and Texts, in Computers and the Humanities, 31(2). http://citeseer.nj.nec.com/116045.html W. Hersh, www.ohsu.edu/bicc-informatics/ms/minf514/ir9.pdf Désambiguisation de mots: Sanderson, M. Word Sense Disambiguation and Information Retrieval, SIGIR, 1994, http://dis.shef.ac.uk/mark/cv/publications/papers/my_papers/SIGIR94.ps.gz Sanderson, M. Word Sense Disambiguation and Information Retrieval, PhD Thesis, Technical Report (TR-1997-7) of the Department of Computing Science at the University of Glasgow, Glasgow G12 8QQ, UK. http://dis.shef.ac.uk/mark/cv/publications/papers/my_papers/PhD_Thesis.ps.gz (très long - 136 pages) Robert Krovetz and W. Bruce Croft. 1992. Lexical ambiguity and information retrieval. ACM Transactions on Information Systems, 10(2):115-- 141 http://citeseer.nj.nec.com/krovetz92lexical.html (une bonne discussion sur les approches précédentes) Yarowsky, D. 1995. Unsupervised word sense disambiguation rivaling supervised methods. In Proceedings of the 33rd Annual Meeting of the Association for Computational Linguistics, pages 189-- 196, Cambridge, MA. http://citeseer.nj.nec.com/yarowski95unsupervised.html Identification des groupes (termes composés) Lewis, D. and Croft, W. Term clustering of syntactic phrases. In ACM SIGIR-90, pp. 385--404, 1990. http://citeseer.nj.nec.com/lewis90term.html Chengxiang Zhai et al. Evaluation of Syntactic Phrase Indexing --- CLARIT NLP Track Report, http://citeseer.nj.nec.com/zhai97evaluation.html Afzal Ballim, Vincenzo Pallotta, Christian Lieske, Robust Text Analysis: an Overview, http://citeseer.nj.nec.com/ballim99robust.html Dekang Lin. 1997. Using syntactic dependency as local context to resolve word sense ambiguity. In Proceedings of ACL/EACL-97, pages 64--71, Madrid, Spain, July. http://citeseer.nj.nec.com/lin97using.html Bouillon P, Baud, R., Robert G., Ruch P., 2000, Indexing by statistical tagging. In Proceedings of the JADT'2000, Lausanne, http://citeseer.nj.nec.com/bouillon00indexing.html Utilisation des thésaurus / dictionnaires Gonzalo 98 J. Gonzalo, F. Verdejo, I. Chugur and J. Cigarran (1998). Indexing with WordNet synsets can improve Text Retrieval, Proceedings of the COLING/ACL '98 Workshop on Usage of WordNet for NLP, Montreal, http://citeseer.nj.nec.com/gonzalo98indexing.html Voorhees, E. Using WordNet to disambiguate word senses for text retrieval, ACM-SIGIR, 1993, pp. 171-180. Rada Mihalcea and Dan Moldovan , Semantic Indexing using WordNet Senses, http://citeseer.nj.nec.com/417656.html Christof Monz, Computational Semantics and Information Retrieval, http://citeseer.nj.nec.com/383017.html George Demetriou, Eric Atwell, Clive Souter, Using Lexical Semantic Knowledge from Machine Readable Dictionaries for Domain Independent Language Modelling, http://citeseer.nj.nec.com/demetriou00using.html David Yarowsky, Word-Sense Disambiguation using Statistical Models of Roget's Categories Trained on Large Corpora, Proceedings of COLING-92, July, Nantes, France, 454--460,1992. http://citeseer.nj.nec.com/39762.html Autre Philip Resnik and David Yarowsky. 1997. A perspective on word sense disambiguation methods and their evaluation. In Marc Light, editor, Tagging Text with Lexical Semantics: Why, What and How?, pages 79--86, Washington, April. SIGLEX (Lexicon Special Interest Group) of the ACL. http://citeseer.nj.nec.com/resnik97perspective.html A. T. Arampatzis, Th. P. van der Weide, C. H. A. Koster, and P. van Bommel. Linguistically motivated Information Retrieval. In Encyclopedia of Library and Information Science. Marcel Dekker, Inc., New York, Basel, 2000. To appear. Currently available on-line from http://www.cs.kun .nl/_avgerino/encyclopTR.ps.Z Daniel M. Bikel. 2000. A statistical model for parsing and word-sense disambiguation. In Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora, Hong Kong, October. http://citeseer.nj.nec.com/bikel00statistical.html