Traitements de la langue naturelle pour la RI

Transcription

Traitements de la langue naturelle pour la RI
Dans cette section, on discute les deux problèmes suivants:
- désambiguisation de mots
- regroupement des mots en termes composés
Désambigusation des mots
1. Problème
Un des problème en utilisant des mots comme index est que les mots sont très ambigus, c'est-àdire qu'un mot peut désigner plusieurs sens. La conséquence est qu'un document contenant un
mot ne désigne pas nécessairement le même sens que ce même mot dans une requête. Ainsi, c'est
une source de bruit.
Le but de la désambigusation est de déterminer le sens d'un mot dans un document ou dans une
requête. Si on peut déterminer le sens avec une certaine précision, on peut espérer d'avoir une
recherche plus précise.
2. Méthodes
Utilisation d'un système expert [Small 1982]
Au début des années 1980, on tentait d'utiliser un système expert pour déterminer le sens. Les
informations utilisées sont les mots qui se trouvent dans le contexte. Un ensemble de règles sont
établies manuellement. Par exemple:
bank + contexte(river) => river bank
bank + contexte(flood) => river bank
…
bank + contexte(money) => financial institution
bank + contexte(loan) => financial institution
…
Cependant, comme on peut imaginer, il est très difficile d'avoir un ensemble de règles qui a une
couverture raisonnable. Les règles établies manuellement ne peuvent couvrir qu'une petite partie
de mots ambigus.
Utiliser un dictionnaire [Lesk 1988]
L'idée d'utiliser un dictionnaire est d'exploiter les informations qui se trouvent dans la définition
d'un mot pour déterminer le sens. L'hypothèse est que la définition du sens approprié doit avoir
une plus grande affinité avec le contexte du mot dans un texte. Voici un exemple qui illustre ce
processus.
Soit les deux définitions suivantes:
Ash(1): The soft grey powder that remains after something has been burnt.
Ash(2): A forest tree common in Britain.
Soit la phrase suivante dans un texte:
There was ash from the coal fire.
On veux savoir si "ash" s'agit de ash(1) ou ash(2). Pour cela, on retrouve les définition des mots
dans le contexte (sauf les stopwords): coal, fire:
Coal: AS black mineral which is dug from the earth, which can be burnt to give heat.
Fire: The condition of burning; flames, light and great heat.
Si on compare les mots dans ces deux définitions, on voit qu'il y a plus d'affinité avec ash(1),
parce qu'il y a un mot en commun: burnt. Donc ash(1) est choisi.
Si on pousse ce processus plus loin, il est facile détablir une relation entre "burning" et burnt" en
utilisant une analyse morphologique, ou même avec "flames" en utilisant un thésaurus.
Le test de Lesk a montré qu'on peut avoir un taux de réussite de 50-70% pour la détermination de
sens.
Il faut remarquer que ce taux dépend fortement du dictionnaire utilisé et des mots soumis au test.
Mais ce taux de réussite est peut-être insuffisant pour être assez fiable. Le danger est qu'on peut
se tromper dans 30-50% des cas, ce qui est très important.
Un travail plus récent tente d'utiliser le Longman Dictionary of Contemporary English
(LDOCE). Ce travail est essentiellement effectué dans New Mexico State University (CRL).
L'idée est aussi d'exploiter la relation entre un mot et ses définition. La particularité de LDOCE
est que les mots utilisés dans les définitions sont très restreints, et que la forme de définition est
assez standard. Une définition commence généralement par son hypernyme *catégorie
supérieure). Voici un exemple:
I bank (n)
1. Land along the side of a river, lake
2. Earth which is heaped up in a field or garden, often making a border or division
3. A mass of snow, cloid, mud
4. A slope made at bends in a road or race-track, …
5. Sandbank
II. bank (v)
6. …
III bank (n)
7. A row of oars in an ancient boat, …
IV bank (n)
8. A place in which money is kept, …
9. In a place where …
A partir de ces définitions, on suppose donc que bank peut avoir comme hypernymes "land",
"earth", "mass", "slope", sandbank", "row", "place", …
Une analyse plus poussée permet d'établir les liens entre différents mots. La figure suivante est
un extrait des résultats obtenus:
amount
sum
lend
lot
speed
money
receipt
pay
account
bank
check
signature
river
lake
across
cross
rob
Utiliser un thésaurus
Dans le thésaurus Roget (1911), les mots sont classés dans des catégories organisées dans une
hiérarchie. Les mots qui sont fortement reliés sont mis ensemble. C'est un des premiers
thésaurus, dont le but est d'organiser les concepts selon leur relations sémantiques.
Un segment de ce thésaurus est comme suit (concernant la relation "similarity"):
RELATIONS
…
2. CONTINUOUS RELATION
…
#17. Similarity. -- N. similarity, resemblance, likeness, similitude,
semblance; affinity, approximation, parallelism; agreement &c. 23; analogy,
analogicalness; correspondence, homoiousia, parity.
Un thésaurus développé plus récemment est Wordnet (http://www.cogsci.princeton.edu/~wn/).
Vous pouvez essayer en ligne.
Ce thésaurus regroupe les synonymes pour un sens ensemble. Un tel groupe de synonymes est
appelé synset. Entre les synsets, il y a des relations de hypernymie, hyponymie, etc. Le nombre
de termes inclus dans Wordnet est environ 30 000. Il y a plus de 50 000 synsets.
[Voorhees93]
Voorhees utilise Wordnet comme outil de désambiguisation. L'idée est la suivante:
Un mot ambigu correspond à plusieurs synsets dans Wordnet.
Pour déterminer le sens d'un mot dans une phrase, on utilise la distance sémantique entre chaque
synset possible du mot avec les synsets des autres mots de la phrase. Le synset qui est le plus
proche des autres mots est choisi. L'hypothèse est que les sens approprié d'un mot ambigu doit
être sémantiquement plus proche aux autres mots du contexte.
La distance est calculée selon le nombre de liens entre les synsets (dans l'arbre de hypernymehyponyme ou ISA).
Voorhees a expérimenté cette approche sur la RI. Elle compare les deux cas suivants: les mots
sans désambigusation, et les mots avec désambiguisation. Dans le second cas, le sens d'un mot
est représenté par le numéro du synset choisi.
Le résultat montre que la désambiguisation détériore la performance de RI.
Une raison possible est que le taux de désambiguisation n'est pas assez élevé. L'utilisation de
nombre de liens comme mesure de distance sémantique est aussi mise en cause.
Utiliser un apprentissage
Dans [Yarowsky], une approche intéressante de désambiguisation est décrite. Cette approche
identifie d'abord quelques mots de contexte très indicateur d'un sens pour un mot ambigu. Cela
permet de créer deux ensemble d'exemples, qui seront utilisés comme des germes (seeds) dans
un processus d'apprentissage.
L'approach font les étapes suivantes:
1. Pour un mot ambigu, on créer des concordances (le mot avec le contexte).
2. A prtir des concordances, on identifie manuellement quelques mots qui s'associent à un des
sens possible. Par exemple pour "plant", on peut choisir le mot "life" comme indication d'un sens
(A), et "manifacturing" pour un autre sens (B).
3. Toutes les occurrences de "plant" qui apparaissent avec "life" sont regroupées dans le sens
(A), et celles avec "manifacturing" dans le sens (B).
3a. A partir de ces deux groupes, on essaie d'avoir d'autres mots indicateurs. On peut donc
obtenir un ensemble de règles du genre:
plant + X => A, poids
plant + Y => B, poids
où poids correspond à un degré de certitude. Le poids est déterminé selon la statistique sur les
deux groupes.
3b. Ces règles sont ensuite utilisées pour la classification de toutes les occurrences de "plant". Si
une occurrence est classé dans un sens avec un degré de certitude supérieur à un seuil, cette
occurrence est alors considéré comme un exemple de ce sens sur. Elle sera utilisée comme un
nouveau germe (seed).
3c. Utiliser l'hypothèse de "un sens par texte" pour choisir un seul sens pour toutes les
occurrences de "plant" dans un texte. Certaines erreurs peuvent être corrigées.
3d. répéter 3a-3c.
4. L'entraînement se converge.
5. Le résultat est un ensemble de règles. Ces règles seront utilisées pour déterminer le sens de
"plant". Par exemple, l'utilisation des règles peut donner:
10.12 plant + growth => A
9.68 plant + car (within k words) => B
9.64 plant + height => A
…
Références intéressantes
Pour la désambiguisation, Sanderson donne une discussion intéressante dans sa thèse de doctorat.
Mais c'est long. Une version agrégée est son article. Les détails de l'approche de Yarowsky se
trouve dans son article (Unsupervised word sens disambiguation …)
Regroupement des mots en terme composé
Par regroupement de mots en terme, on tente de résoudre l'autre problème de mots-clés l'imprécision pour représenter le sens. L'intuition est qu'un terme composé est plus précis et
moins ambigu que des mots simples. Ainsi, si on cherche des documents contenant des termes
composés, c'est plus précis que de chercher par des mots clés isolés.
Approches
Approche statistique
Le premier groupe d'approches utilise seulement les co-occurrences de mots. C'est une approche
"statistique". Le principe est que, si deux mots co-occurrent souvent dans un certain type de
contexte, on regroupe ces mots comme un terme. Dans les implantations, le contexte peut varier
entre les suivants: le même document, le même paragraphe, la même phrase, ou dans une
certaine distance (e.g. 10 mots).
Pour juger si les mots doivent être regroupés, on peut utiliser soit une fréquence relative comme:
freq(A,B)/Max(freq(A), freq(B)),
ou bien utiliser une formule de l'Information Mutuelle:
P(A,B)/(P(A)*P(B)).
Une autre variante de la formule de l'Information Mutuelle est
- P(A,B)*log[P(A,B)/(P(A)*P(B))]
Un seuil sera fixé pour choisir les termes parmi les candidats.
Approches syntaxiques
Par "approches syntaxiques", on réfère à des approches qui utilise certaines informations
syntaxiques dans le regroupement des termes.
Il y a notamment les approches suivantes qui sont utilisées:
- Utiliser des patrons (templates) syntaxique.
Par exemple, on peut définir les patrons suivants pour l'anglais:
(NN NN),
(ADJ NN),
…
Toues les occurrences de mots correspondant à ces patrons sont extraites comme des termes
potentiels. Cela suppose évidemment qu'il y a un taggeur pour déterminer la catégorie
syntaxique de mot.
Les candidats extraits sont ensuite passé à une analyse statistique. Ceux dont la fréquence
d'occurrences dépasse un certain seuil sont choisis comme des termes.
- Utiliser une analyse syntaxique partielle
C'est une approche qui utilise une analyse syntaxique plus systématique que la précédente.
En général, on fait une analyse des groupes nominaux seulement. Des fragments des groupes
nominaux sont extraits comme des candidats. Certaines normalisations de forme peuvent être
appliquées sur ces candidats. On fait ensuite le même genre d'analyse statistique pour filtrer
les termes.
Bien que l'utilisation des groupes semble intuitive, on n'a pas encore réussit à prouver, par
expérimentation, que cette technique est très utile pour la RI, si on ne juge que sur la
performance (précision moyenne). Une des explications avancées est que, en général, si un
document contient plusieurs mots de la requête, il y a une forte chance que ces mots forment un
terme (si ils doivent former un terme). Donc le regroupement forcé est peut-être superflu.
Cependant, il est encore trop tôt pour rejeter cette approche, car il y a des études qui montrent
que dans certains cas, le regroupement en terme est bénéfique.
Vous pouvez lire les articles de Voorhees et de Lewis&Sparck Jones (dans la section "général"
des références) pour une discussion générale sur l'utilisation des traitements de la langue
naturelle en RI.
La référence souvent cité est la thèse de Fagan, qui compare le regroupement des termes
statistique et syntaxique. Son résultat montre que le regroupement statistique (basée sur les cooccurrences des mots) est nettement meilleur que le regroupement syntaxique. Malheureusement,
ce document n'est pas disponible en ligne.
L'article de Lewis&Croft (Term clustering of syntactic phrases) décrit une approche similaire à
Fagan. C'est disponible sur le web.
Grefenstette a aussi fait beaucoup de travaux sur le regroupement des termes. Mais les
documents pertinents ne sont pas disponibles sur le Web. Certains de ses articles apparaissent
dans les actes de conférences ACM-SIGIR.
Références
Général
Voorhees, E. (1999). Natural Language Processing and Information Retrieval, In M. T.
Pazienza, (Ed.), Information Extraction: Towards Scalable, Adaptable Systems (pp.32-48).
Germany: Springer. (Entry in lecture notes in artificial intelligence 1714)
http://www.itl.nist.gov/iaui/894.02/works/papers/nlp_ir.ps
David D. Lewis and Karen Sparck Jones. Natural language processing for information retrieval.
Communications of the ACM, 39(1):92--101, 1996. http://citeseer.nj.nec.com/86648.html
Wilks 97 Y. Wilks (1997). Senses and Texts, in Computers and the Humanities, 31(2).
http://citeseer.nj.nec.com/116045.html
W. Hersh, www.ohsu.edu/bicc-informatics/ms/minf514/ir9.pdf
Désambiguisation de mots:
Sanderson, M. Word Sense Disambiguation and Information Retrieval, SIGIR, 1994,
http://dis.shef.ac.uk/mark/cv/publications/papers/my_papers/SIGIR94.ps.gz
Sanderson, M. Word Sense Disambiguation and Information Retrieval, PhD Thesis, Technical
Report (TR-1997-7) of the Department of Computing Science at the University of Glasgow,
Glasgow G12 8QQ, UK.
http://dis.shef.ac.uk/mark/cv/publications/papers/my_papers/PhD_Thesis.ps.gz (très long - 136
pages)
Robert Krovetz and W. Bruce Croft. 1992. Lexical ambiguity and information retrieval. ACM
Transactions on Information Systems, 10(2):115-- 141
http://citeseer.nj.nec.com/krovetz92lexical.html
(une bonne discussion sur les approches précédentes)
Yarowsky, D. 1995. Unsupervised word sense disambiguation rivaling supervised methods. In
Proceedings of the 33rd Annual Meeting of the Association for Computational Linguistics, pages
189-- 196, Cambridge, MA. http://citeseer.nj.nec.com/yarowski95unsupervised.html
Identification des groupes (termes composés)
Lewis, D. and Croft, W. Term clustering of syntactic phrases. In ACM SIGIR-90, pp. 385--404,
1990. http://citeseer.nj.nec.com/lewis90term.html
Chengxiang Zhai et al. Evaluation of Syntactic Phrase Indexing --- CLARIT NLP Track Report,
http://citeseer.nj.nec.com/zhai97evaluation.html
Afzal Ballim, Vincenzo Pallotta, Christian Lieske, Robust Text Analysis: an Overview,
http://citeseer.nj.nec.com/ballim99robust.html
Dekang Lin. 1997. Using syntactic dependency as local context to resolve word sense ambiguity.
In Proceedings of ACL/EACL-97, pages 64--71, Madrid, Spain, July.
http://citeseer.nj.nec.com/lin97using.html
Bouillon P, Baud, R., Robert G., Ruch P., 2000, Indexing by statistical tagging. In Proceedings
of the JADT'2000, Lausanne, http://citeseer.nj.nec.com/bouillon00indexing.html
Utilisation des thésaurus / dictionnaires
Gonzalo 98 J. Gonzalo, F. Verdejo, I. Chugur and J. Cigarran (1998). Indexing with WordNet
synsets can improve Text Retrieval, Proceedings of the COLING/ACL '98 Workshop on Usage
of WordNet for NLP, Montreal, http://citeseer.nj.nec.com/gonzalo98indexing.html
Voorhees, E. Using WordNet to disambiguate word senses for text retrieval, ACM-SIGIR, 1993,
pp. 171-180.
Rada Mihalcea and Dan Moldovan , Semantic Indexing using WordNet Senses,
Christof Monz, Computational Semantics and Information Retrieval,
George Demetriou, Eric Atwell, Clive Souter, Using Lexical Semantic Knowledge from
Machine Readable Dictionaries for Domain Independent Language Modelling,
http://citeseer.nj.nec.com/demetriou00using.html
David Yarowsky, Word-Sense Disambiguation using Statistical Models of Roget's Categories
Trained on Large Corpora, Proceedings of COLING-92, July, Nantes, France, 454--460,1992.
Autre
Philip Resnik and David Yarowsky. 1997. A perspective on word sense disambiguation methods
and their evaluation. In Marc Light, editor, Tagging Text with Lexical Semantics: Why, What
and How?, pages 79--86, Washington, April. SIGLEX (Lexicon Special Interest Group) of the
ACL. http://citeseer.nj.nec.com/resnik97perspective.html
A. T. Arampatzis, Th. P. van der Weide, C. H. A. Koster, and P. van Bommel. Linguistically
motivated Information Retrieval. In Encyclopedia of Library and Information Science. Marcel
Dekker, Inc., New York, Basel, 2000. To appear. Currently available on-line from
http://www.cs.kun .nl/_avgerino/encyclopTR.ps.Z
Daniel M. Bikel. 2000. A statistical model for parsing and word-sense disambiguation. In Joint
SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large
Corpora, Hong Kong, October. http://citeseer.nj.nec.com/bikel00statistical.html

Traitements de la langue naturelle pour la RI

Transcription

Documents pareils

Circuit National Cadet

MEETING DE CHALONS EN CHAMPAGNE 27

Virement Bancaire - Camping Val Vert

Devis ABI

NEC MultiSync® V461

releve d`identite bancaire

NEC MultiSync® V461 - NEC Display Solutions Europe

NEC Logiciel Digital Signage - NEC Display Solutions Europe

Powermate ML250

Fiche de réservation

WordNet en XML-HTML 1 Se balader dans WordNet