La plate-forme EXCOM comme outil automatique d

Transcription

La plate-forme EXCOM comme outil automatique d
Colloque « Internet : besoin de communiquer autrement »
Sofia, Bulgarie, 25 octobre 2008
L a p la te -fo r m e E X C O M c o m m e o u til a u to m a tiq u e
d 'a n n o ta tio n s s é m a n tiq u e s d e s te x te s p o u r la
c a té g o r is a tio n d 'in fo r m a tio n s s u r le W e b
LaLIC
Jean-Pierre Desclés
I ana Atanassova
L a b o r a to ir e L a L IC
« L a n g a g e s , L o g iq u e s , In fo r m a tio n e t C o g n itio n »
U n iv e r s ité d e P a r is -S o r b o n n e
25 octobre 2008
Colloque « Internet : besoin de communiquer autrement », Sofia
1
L a r e c h e r c h e d ’in f o r m a t io n s

Recherche « à la Google » : quelques
limites :
Requêtes par mots clés
Réponses sous la forme de liste de
documents
Trop d’informations et trop de bruit
Une grande partie des résultats n’est pas
pertinente
Les résultats ne sont pas toujours fiables
25 octobre 2008
Colloque « Internet : besoin de communiquer autrement », Sofia
2
G o o g le

La pertinence d’un document est
calculée par des méthodes statistiques
 Modèle vectoriel, pondération des termes
 Critère principal : la présence des mots clés
dans le document



Problèmes : polysémie, synonymie, …
Pas d’analyse sémantique.
Ordonnancement : PageRank, …
25 octobre 2008
Colloque « Internet : besoin de communiquer autrement », Sofia
3
25 octobre 2008
Colloque « Internet : besoin de communiquer autrement », Sofia
4
25 octobre 2008
Colloque « Internet : besoin de communiquer autrement », Sofia
5
25 octobre 2008
Colloque « Internet : besoin de communiquer autrement », Sofia
6
A p p r o c h e EX C O M
25 octobre 2008
Colloque « Internet : besoin de communiquer autrement », Sofia
7
Recherche selon le point de vue
« rencontre »
Requête : Sarkozy, point de vue « rencontre »
Exemples de phrases retenues :
1.
Les deux hommes s'étaient rencontrés en septembre 2006
lorsque Nicolas Sarkozy avait été reçu par le conseiller à
la sécurité nationale de George Bush, Steve Hadley.
[Annotation : Rencontre, Evénementielle, Individuelle,
Réalisée]
1.
Selon plusieurs sources, les deux patrons ont évoqué le
sujet lors d'un dîner organisé à New York, le 24 septembre,
lors du voyage de Nicolas Sarkozy à New York.
[Annotation : Rencontre, Evénementielle, Réalisée]
25 octobre 2008
Colloque « Internet : besoin de communiquer autrement », Sofia
8
Recherche selon le point de vue
« connexion »
25 octobre 2008
Colloque « Internet : besoin de communiquer autrement », Sofia
9
Recherche selon le point de vue
« connexion »
Requête : Ségolène Royal, point de vue
« connexion »
Exemples de phrases retenues :
1.
Ségolène Royal sera reçue ce matin à l'Elysée par
Nicolas Sarkozy dans le cadre des consultations qu'il
mène avant le Conseil européen. [Annotation :
Rencontre, Réalisée]
1.
Synergie visait ici Joaquin Masanet, considéré comme
proche de Ségolène Royal. [Annotation : Proximité]
25 octobre 2008
Colloque « Internet : besoin de communiquer autrement », Sofia
10
P lu s d e s é m a n t iq u e d a n s la
re c h e rc h e


Comment introduire « plus de
sémantique » dans la recherche
d’informations ?
Quelle sémantique ?
25 octobre 2008
Colloque « Internet : besoin de communiquer autrement », Sofia
11
M é t h o d e d ’e x p lo r a t io n
c o n t e x t u e lle

La méthode d’exploration contextuelle
(Desclés, 1997) est une méthode linguistique
et informatique qui permet l’annotation
sémantique automatique de segments
textuels selon des points de vue de fouille.

Exemples de points de vue : « définition »,
« citation », « hypothèse », « rencontre »,
« conclusion », …
25 octobre 2008
Colloque « Internet : besoin de communiquer autrement », Sofia
12
P o in t s d e v u e : e xe m p le s

Rencontre
 Nicolas Sarkozy a diné avec le premier ministre bulgare.
 Le ministre français de l'intérieur est attendu à Bucarest, vendredi 30 août,
pour une visite de deux jours.

Définition
 Un triangle est une figure géométrique fournie de 3 côtés et 3 sommets .
 Une bibliothèque est une collection organisée de livres, généralement
accessible au public.

Citation
 Le président a déclaré : « Il est temps de prendre conscience du
réchauffement climatique. »

Hypothèse
 Nous supposerons que tout écrit a un début et une fin.

Conclusion
 De tout cela il résulte que l’art est nécessaire pour le développement
personnel.
25 octobre 2008
Colloque « Internet : besoin de communiquer autrement », Sofia
13
U n e c a r t e s é m a n t iq u e :




organise les points de vue sous forme de graphe de
notions;
peut être vue comme une ontologie, construite à
partir de l'organisation des relations sémantiques
exprimées dans des textes et observées dans la
diversité des langues (Desclés 2006, 2008). Les
nœuds sont des notions et les instances de ces
notions sont des marqueurs linguistiques
(indicateurs) ;
correspond à une tâche de recherche ou analyse
sémantique du texte ;
est construite par une étude linguistique de corpus.
Exemples : « résumé automatique », « citations »,
« connexion », « bibliosémantique », « définition »
25 octobre 2008
Colloque « Internet : besoin de communiquer autrement », Sofia
14
Exe m p le d e c a r t e s é m a n t iq u e : « r e p é r a g e »
(D e s c lé s , 2 0 0 6 )
25 octobre 2008
Colloque « Internet : besoin de communiquer autrement », Sofia
15
Exe m p le d e c a r t e s é m a n t iq u e :
« connexion »
Connexion
Rencontre
Evénementielle
Proximité
Physique
Individuelle
Réalisée
25 octobre 2008
Communication
Collective
Non réalisée
Colloque « Internet : besoin de communiquer autrement », Sofia
16
Ex e m p le d e c a r t e s é m a n t iq u e : « résume automatique »
Présentation thématique
Annonce
thématique
Objectif
Problématique
Méthode
Remarque
technique
Evaluation
Description
Hypothèse
Conclusion
Remarque
conclusive
Résultat
Conséquence
Soulignement
Appréciation
Opinion
Récapitulation
Navigation
25 octobre 2008
Reformulation
Rappel
Colloque « Internet : besoin de communiquer autrement », Sofia
17
Ex p lo r a t io n c o n t e x t u e lle - 1
R è g le d é c le n c h é e :
S I In d ic e 1 e t In d ic e 2 s e tr o u v e n t à
gauche,
E t S I in d ic e 3 s e tr o u v e à d r o it,
A L O R S a n n o te r s e lo n le p o in t d e
vue.
25 octobre 2008
Colloque « Internet : besoin de communiquer autrement », Sofia
18
Ex p lo r a t io n c o n t e x t u e lle (EC ) - 2
Certaines unités linguistiques identifiables sont
les marqueurs de ces points de vue :
Indicateurs.
 Souvent les indicateurs sont polysémiques.
L’occurrence d’un indicateur ne suffit pas pour
annoter la phrase.
 L’occurrence d’un indicateur déclenche l’appel
à des règles d’EC qui ont pour but de
désambigüiser l’emploi de l’indicateur.
 Les règles d’EC vérifient la présence ou
absence d’indices complémentaires dans
un contexte de recherche, et effectuent
l’annotation.

25 octobre 2008
Colloque « Internet : besoin de communiquer autrement », Sofia
19
Ex p lo r a t io n c o n t e x t u e lle - 3
Exemples :

Dans cet article nous insistons sur la différence entre
les représentations logiques et les réalisations
informatiques. [Annotation : soulignement]

Le président s'est entretenu avec les six autres marins
rescapés de la collision. [Annotation : rencontre]

Nous pouvons conclure en avançant que le manque
de stabilité de l’emploi semble essentiellement
s’expliquer par un problème de qualification.
[Annotation : conclusion]
25 octobre 2008
Colloque « Internet : besoin de communiquer autrement », Sofia
20
Ex p lo r a t io n c o n t e x t u e lle - 4




Les indicateurs et les indices complémentaires sont des
formes linguistiques de surface, par ex. morphèmes, mots,
expressions. Ils peuvent être discontinus.
Indicateur : un marqueur sémantique, qui exprime un point
de vue
Indices : unités linguistiques qui ont pour fonction de
désambigüiser l’occurrence de l’indicateur et donc de
confirmer ou d’infirmer l’annotation, ou bien d’affiner
l’annotation.
Indice positif : active l’annotation
Indice négatif : inhibe l’annotation
Espace de recherche : phrase, gauche / droit, paragraphe,
titre, etc.
25 octobre 2008
Colloque « Internet : besoin de communiquer autrement », Sofia
21
In d ic e s : e xe m p le s
Indice positif
Dans cet article, l’hypothèse sur le sommeil
montre que les processus mentaux survivent sous
la forme de rêves. [Annotation : Hypothèse]
Indice négatif
Le mot hypothèse est d’origine grecque. [Pas
d’annotation]
Une hypothèse reste toujours conjecturale, tant
qu’elle n’a pas été démontrée. [Pas d’annotation]
25 octobre 2008
Colloque « Internet : besoin de communiquer autrement », Sofia
22
L e m o t e u r d ’a n n o t a t io n s
EX C O M -2


La plate-forme EXCOM-2 (Alrahabi et
Desclés, 2008) est une implémentation de la
méthode d’exploration contextuelle, réalisée
en Java.
Elle effectue :
La segmentation automatique des textes en
sections, paragraphes et phrases ;
L’annotation sémantique des textes selon une
carte sémantique.

Entrée : fichiers TXT sortie : fichiers XML
avec les annotations.
25 octobre 2008
Colloque « Internet : besoin de communiquer autrement », Sofia
23
In t e r f a c e d e d é v e lo p p e m e n t d e r e s s o u r c e s lin g u is t iq u e s
25 octobre 2008
Colloque « Internet : besoin de communiquer autrement », Sofia
24
L a r e c h e r c h e d ’in f o r m a t io n s p a r a n n o t a t io n s
s é m a n t iq u e s
L’annotation sémantique permet de:
Poser des questions précises sur le contenu
textuel selon des relations sémantiques ou points
de vue de fouille
Obtenir des résultats fiables qui ne dépendent
pas uniquement des moyens linguistiques
employés dans les textes
Diminuer le bruit parmi les réponses, en
comparaison avec d’autres moteurs de recherche
Exploiter la structure discursive du texte (phrases,
paragraphes, sections, …)
25 octobre 2008
Colloque « Internet : besoin de communiquer autrement », Sofia
25
P r o c e s s u s d e t r a it e m e n t
25 octobre 2008
Colloque « Internet : besoin de communiquer autrement », Sofia
26
F ic h e s d e s y n t h è s e



Une fiche de synthèse organise des
informations d’un ou plusieurs documents
dans des rubriques catégorisées.
Exemple : rechercher toutes les hypothèses
dans un corpus d’articles scientifiques.
C’est un document structuré, qui catégorise
les informations sur un objet donné
par exemple : un auteur cité selon différents
points de vue – « ses hypothèses », « ses
résultats », « les définitions données », « ses
déclarations », …
25 octobre 2008
Colloque « Internet : besoin de communiquer autrement », Sofia
27
Exe m p le
25 octobre 2008
Colloque « Internet : besoin de communiquer autrement », Sofia
28
B ib lio g r a p h ie







Desclés, J.-P., 1997. Systèmes d'exploration contextuelle. Presses Universitaires
de Caen.
Blais, A., Desclés, J.-P. et Djioua, B., 2006. Le résumé automatique dans la plateforme EXCOM. Digital Humanities.
Desclés J.-P., 2006. "Schèmes sémantico-cognitifs (et Web-sémantiques ?)",
"Sémantique, web-sémantique et ontologies", 10e journée de la Cellule de
Recherche en Linguistique, Université Paris-Sorbonne, 7 octobre 2006
Desclés, J.-P. et Djioua, B., 2007. « La recherche d’informations par accès aux
contenus sémantiques : vers une nouvelle classe de systèmes de recherche
d’informations et de moteurs de recherche », Revue roumaine de linguistique,
Tome LII, No 1-2, pp. 5-54, Bucuresti
Alrahabi, M. et Desclés, J.-P., 2008. Automatic annotation of direct reported speech
in Arabic and French, according to a semantic map of ennunciative modalities. 6th
International Conference of NLP, GOTAL 2008, Gothenburg, Sweden, 25-27 août
Atanassova, I., 2008. A cross-lingual approach to the discourse automatic
annotation: application to French and Bulgarian. FLAIRS, Coconut Grove, Floride.
Atanassova, I., L’ordonnancement des réponses dans un moteur de recherche
basé sur les points de vue annotés, Thèse en cours, Université de Paris-Sorbonne
25 octobre 2008
Colloque « Internet : besoin de communiquer autrement », Sofia
29
M e r c i d e v o t r e a t t e n t io n
D é m o n s t r a t io n s : à v o t r e
co n ve n a n ce .
(Vo ir Ia n a A t a n a s s o v a )
25 octobre 2008
Colloque « Internet : besoin de communiquer autrement », Sofia
30