La plate-forme EXCOM comme outil automatique d
Transcription
La plate-forme EXCOM comme outil automatique d
Colloque « Internet : besoin de communiquer autrement » Sofia, Bulgarie, 25 octobre 2008 L a p la te -fo r m e E X C O M c o m m e o u til a u to m a tiq u e d 'a n n o ta tio n s s é m a n tiq u e s d e s te x te s p o u r la c a té g o r is a tio n d 'in fo r m a tio n s s u r le W e b LaLIC Jean-Pierre Desclés I ana Atanassova L a b o r a to ir e L a L IC « L a n g a g e s , L o g iq u e s , In fo r m a tio n e t C o g n itio n » U n iv e r s ité d e P a r is -S o r b o n n e 25 octobre 2008 Colloque « Internet : besoin de communiquer autrement », Sofia 1 L a r e c h e r c h e d ’in f o r m a t io n s Recherche « à la Google » : quelques limites : Requêtes par mots clés Réponses sous la forme de liste de documents Trop d’informations et trop de bruit Une grande partie des résultats n’est pas pertinente Les résultats ne sont pas toujours fiables 25 octobre 2008 Colloque « Internet : besoin de communiquer autrement », Sofia 2 G o o g le La pertinence d’un document est calculée par des méthodes statistiques Modèle vectoriel, pondération des termes Critère principal : la présence des mots clés dans le document Problèmes : polysémie, synonymie, … Pas d’analyse sémantique. Ordonnancement : PageRank, … 25 octobre 2008 Colloque « Internet : besoin de communiquer autrement », Sofia 3 25 octobre 2008 Colloque « Internet : besoin de communiquer autrement », Sofia 4 25 octobre 2008 Colloque « Internet : besoin de communiquer autrement », Sofia 5 25 octobre 2008 Colloque « Internet : besoin de communiquer autrement », Sofia 6 A p p r o c h e EX C O M 25 octobre 2008 Colloque « Internet : besoin de communiquer autrement », Sofia 7 Recherche selon le point de vue « rencontre » Requête : Sarkozy, point de vue « rencontre » Exemples de phrases retenues : 1. Les deux hommes s'étaient rencontrés en septembre 2006 lorsque Nicolas Sarkozy avait été reçu par le conseiller à la sécurité nationale de George Bush, Steve Hadley. [Annotation : Rencontre, Evénementielle, Individuelle, Réalisée] 1. Selon plusieurs sources, les deux patrons ont évoqué le sujet lors d'un dîner organisé à New York, le 24 septembre, lors du voyage de Nicolas Sarkozy à New York. [Annotation : Rencontre, Evénementielle, Réalisée] 25 octobre 2008 Colloque « Internet : besoin de communiquer autrement », Sofia 8 Recherche selon le point de vue « connexion » 25 octobre 2008 Colloque « Internet : besoin de communiquer autrement », Sofia 9 Recherche selon le point de vue « connexion » Requête : Ségolène Royal, point de vue « connexion » Exemples de phrases retenues : 1. Ségolène Royal sera reçue ce matin à l'Elysée par Nicolas Sarkozy dans le cadre des consultations qu'il mène avant le Conseil européen. [Annotation : Rencontre, Réalisée] 1. Synergie visait ici Joaquin Masanet, considéré comme proche de Ségolène Royal. [Annotation : Proximité] 25 octobre 2008 Colloque « Internet : besoin de communiquer autrement », Sofia 10 P lu s d e s é m a n t iq u e d a n s la re c h e rc h e Comment introduire « plus de sémantique » dans la recherche d’informations ? Quelle sémantique ? 25 octobre 2008 Colloque « Internet : besoin de communiquer autrement », Sofia 11 M é t h o d e d ’e x p lo r a t io n c o n t e x t u e lle La méthode d’exploration contextuelle (Desclés, 1997) est une méthode linguistique et informatique qui permet l’annotation sémantique automatique de segments textuels selon des points de vue de fouille. Exemples de points de vue : « définition », « citation », « hypothèse », « rencontre », « conclusion », … 25 octobre 2008 Colloque « Internet : besoin de communiquer autrement », Sofia 12 P o in t s d e v u e : e xe m p le s Rencontre Nicolas Sarkozy a diné avec le premier ministre bulgare. Le ministre français de l'intérieur est attendu à Bucarest, vendredi 30 août, pour une visite de deux jours. Définition Un triangle est une figure géométrique fournie de 3 côtés et 3 sommets . Une bibliothèque est une collection organisée de livres, généralement accessible au public. Citation Le président a déclaré : « Il est temps de prendre conscience du réchauffement climatique. » Hypothèse Nous supposerons que tout écrit a un début et une fin. Conclusion De tout cela il résulte que l’art est nécessaire pour le développement personnel. 25 octobre 2008 Colloque « Internet : besoin de communiquer autrement », Sofia 13 U n e c a r t e s é m a n t iq u e : organise les points de vue sous forme de graphe de notions; peut être vue comme une ontologie, construite à partir de l'organisation des relations sémantiques exprimées dans des textes et observées dans la diversité des langues (Desclés 2006, 2008). Les nœuds sont des notions et les instances de ces notions sont des marqueurs linguistiques (indicateurs) ; correspond à une tâche de recherche ou analyse sémantique du texte ; est construite par une étude linguistique de corpus. Exemples : « résumé automatique », « citations », « connexion », « bibliosémantique », « définition » 25 octobre 2008 Colloque « Internet : besoin de communiquer autrement », Sofia 14 Exe m p le d e c a r t e s é m a n t iq u e : « r e p é r a g e » (D e s c lé s , 2 0 0 6 ) 25 octobre 2008 Colloque « Internet : besoin de communiquer autrement », Sofia 15 Exe m p le d e c a r t e s é m a n t iq u e : « connexion » Connexion Rencontre Evénementielle Proximité Physique Individuelle Réalisée 25 octobre 2008 Communication Collective Non réalisée Colloque « Internet : besoin de communiquer autrement », Sofia 16 Ex e m p le d e c a r t e s é m a n t iq u e : « résume automatique » Présentation thématique Annonce thématique Objectif Problématique Méthode Remarque technique Evaluation Description Hypothèse Conclusion Remarque conclusive Résultat Conséquence Soulignement Appréciation Opinion Récapitulation Navigation 25 octobre 2008 Reformulation Rappel Colloque « Internet : besoin de communiquer autrement », Sofia 17 Ex p lo r a t io n c o n t e x t u e lle - 1 R è g le d é c le n c h é e : S I In d ic e 1 e t In d ic e 2 s e tr o u v e n t à gauche, E t S I in d ic e 3 s e tr o u v e à d r o it, A L O R S a n n o te r s e lo n le p o in t d e vue. 25 octobre 2008 Colloque « Internet : besoin de communiquer autrement », Sofia 18 Ex p lo r a t io n c o n t e x t u e lle (EC ) - 2 Certaines unités linguistiques identifiables sont les marqueurs de ces points de vue : Indicateurs. Souvent les indicateurs sont polysémiques. L’occurrence d’un indicateur ne suffit pas pour annoter la phrase. L’occurrence d’un indicateur déclenche l’appel à des règles d’EC qui ont pour but de désambigüiser l’emploi de l’indicateur. Les règles d’EC vérifient la présence ou absence d’indices complémentaires dans un contexte de recherche, et effectuent l’annotation. 25 octobre 2008 Colloque « Internet : besoin de communiquer autrement », Sofia 19 Ex p lo r a t io n c o n t e x t u e lle - 3 Exemples : Dans cet article nous insistons sur la différence entre les représentations logiques et les réalisations informatiques. [Annotation : soulignement] Le président s'est entretenu avec les six autres marins rescapés de la collision. [Annotation : rencontre] Nous pouvons conclure en avançant que le manque de stabilité de l’emploi semble essentiellement s’expliquer par un problème de qualification. [Annotation : conclusion] 25 octobre 2008 Colloque « Internet : besoin de communiquer autrement », Sofia 20 Ex p lo r a t io n c o n t e x t u e lle - 4 Les indicateurs et les indices complémentaires sont des formes linguistiques de surface, par ex. morphèmes, mots, expressions. Ils peuvent être discontinus. Indicateur : un marqueur sémantique, qui exprime un point de vue Indices : unités linguistiques qui ont pour fonction de désambigüiser l’occurrence de l’indicateur et donc de confirmer ou d’infirmer l’annotation, ou bien d’affiner l’annotation. Indice positif : active l’annotation Indice négatif : inhibe l’annotation Espace de recherche : phrase, gauche / droit, paragraphe, titre, etc. 25 octobre 2008 Colloque « Internet : besoin de communiquer autrement », Sofia 21 In d ic e s : e xe m p le s Indice positif Dans cet article, l’hypothèse sur le sommeil montre que les processus mentaux survivent sous la forme de rêves. [Annotation : Hypothèse] Indice négatif Le mot hypothèse est d’origine grecque. [Pas d’annotation] Une hypothèse reste toujours conjecturale, tant qu’elle n’a pas été démontrée. [Pas d’annotation] 25 octobre 2008 Colloque « Internet : besoin de communiquer autrement », Sofia 22 L e m o t e u r d ’a n n o t a t io n s EX C O M -2 La plate-forme EXCOM-2 (Alrahabi et Desclés, 2008) est une implémentation de la méthode d’exploration contextuelle, réalisée en Java. Elle effectue : La segmentation automatique des textes en sections, paragraphes et phrases ; L’annotation sémantique des textes selon une carte sémantique. Entrée : fichiers TXT sortie : fichiers XML avec les annotations. 25 octobre 2008 Colloque « Internet : besoin de communiquer autrement », Sofia 23 In t e r f a c e d e d é v e lo p p e m e n t d e r e s s o u r c e s lin g u is t iq u e s 25 octobre 2008 Colloque « Internet : besoin de communiquer autrement », Sofia 24 L a r e c h e r c h e d ’in f o r m a t io n s p a r a n n o t a t io n s s é m a n t iq u e s L’annotation sémantique permet de: Poser des questions précises sur le contenu textuel selon des relations sémantiques ou points de vue de fouille Obtenir des résultats fiables qui ne dépendent pas uniquement des moyens linguistiques employés dans les textes Diminuer le bruit parmi les réponses, en comparaison avec d’autres moteurs de recherche Exploiter la structure discursive du texte (phrases, paragraphes, sections, …) 25 octobre 2008 Colloque « Internet : besoin de communiquer autrement », Sofia 25 P r o c e s s u s d e t r a it e m e n t 25 octobre 2008 Colloque « Internet : besoin de communiquer autrement », Sofia 26 F ic h e s d e s y n t h è s e Une fiche de synthèse organise des informations d’un ou plusieurs documents dans des rubriques catégorisées. Exemple : rechercher toutes les hypothèses dans un corpus d’articles scientifiques. C’est un document structuré, qui catégorise les informations sur un objet donné par exemple : un auteur cité selon différents points de vue – « ses hypothèses », « ses résultats », « les définitions données », « ses déclarations », … 25 octobre 2008 Colloque « Internet : besoin de communiquer autrement », Sofia 27 Exe m p le 25 octobre 2008 Colloque « Internet : besoin de communiquer autrement », Sofia 28 B ib lio g r a p h ie Desclés, J.-P., 1997. Systèmes d'exploration contextuelle. Presses Universitaires de Caen. Blais, A., Desclés, J.-P. et Djioua, B., 2006. Le résumé automatique dans la plateforme EXCOM. Digital Humanities. Desclés J.-P., 2006. "Schèmes sémantico-cognitifs (et Web-sémantiques ?)", "Sémantique, web-sémantique et ontologies", 10e journée de la Cellule de Recherche en Linguistique, Université Paris-Sorbonne, 7 octobre 2006 Desclés, J.-P. et Djioua, B., 2007. « La recherche d’informations par accès aux contenus sémantiques : vers une nouvelle classe de systèmes de recherche d’informations et de moteurs de recherche », Revue roumaine de linguistique, Tome LII, No 1-2, pp. 5-54, Bucuresti Alrahabi, M. et Desclés, J.-P., 2008. Automatic annotation of direct reported speech in Arabic and French, according to a semantic map of ennunciative modalities. 6th International Conference of NLP, GOTAL 2008, Gothenburg, Sweden, 25-27 août Atanassova, I., 2008. A cross-lingual approach to the discourse automatic annotation: application to French and Bulgarian. FLAIRS, Coconut Grove, Floride. Atanassova, I., L’ordonnancement des réponses dans un moteur de recherche basé sur les points de vue annotés, Thèse en cours, Université de Paris-Sorbonne 25 octobre 2008 Colloque « Internet : besoin de communiquer autrement », Sofia 29 M e r c i d e v o t r e a t t e n t io n D é m o n s t r a t io n s : à v o t r e co n ve n a n ce . (Vo ir Ia n a A t a n a s s o v a ) 25 octobre 2008 Colloque « Internet : besoin de communiquer autrement », Sofia 30