INGENIERIE DES CONNAISSANCES TEXTUELLES

Transcription

INGENIERIE DES CONNAISSANCES TEXTUELLES
INGENIERIE DES CONNAISSANCES
TEXTUELLES
Maîtrise d'Informatique
2ème Année – Semestre 1
Département d'Informatique
Université de Caen Basse-Normandie
https://dias.users.greyc.fr/?op=paginas/ict.html
Session 1: Introduction
Plan
Définition
 Processus Itératif
 Extraction de Concepts
 Extraction de Relations
 Construction de Structures
 Strucutures Existantes
 Retour au Traitement du Langage
 Résumé

Session 1: Introduction
Défintion

A quoi sert la langue?
 A communiquer des informations
Le PSG a battu Benfica 3-0

A communiquer des connaissances
Le PSG a battu Benfica 3-0
Session 1: Introduction
Définition
L'ingénierie des connaissances textuelles est le
processus de découverte d'informations
implicites dans des quantités de textes souvent
de grandes tailles (Big Data)


L'ingénierie textuelle n'est pas
 Fouille de données (données structurées)
 Fouille du Web (données liées)
 Moteurs de Recherche
 Traitement Automatique des Langues
Session 1: Introduction
Processus Itératif

Définir une tâche: clustering de textes
Session 1: Introduction
Processus Itératif

Traiter le texte
Session 1: Introduction
Processus Itératif

Comprendre les attributs
Session 1: Introduction
Processus Itératif

Appliquer des modèles de découverte
Session 1: Introduction
Processus Itératif

Continuer ou arrêter?
Session 1: Introduction
Extraction de Concepts

Quels sont les concepts qui nous entourent?
Francois Hollande visite Florange
Session 1: Introduction
Extraction de Concepts

Extraction d'unités polylexicales
Session 1: Introduction
Extraction de Concepts

Extraction d'entités nommées
Session 1: Introduction
Extraction de Relations

Comment mettre en relation ces concepts?
ex-président
méronymie
Session 1: Introduction
Extraction de Relations

Extraction de Relations Lexico-Sémantiques
Session 1: Introduction
Extraction de Relations

Extraction de Relations Multilingues
Session 1: Introduction
Construction de Structures

Comment construire une structure sémantique?
Session 1: Introduction
Construction de Structures

Construction d'ontologies terminologiques
Session 1: Introduction
Structures Existantes
Session 1: Introduction
Structures Existantes
WordNet est une base de données lexicales de
l'anglais courant
 Wolf est l'équivalent pour le français
 Un synset représente le(s) sens d'un mot

Session 1: Introduction
Structures Existantes
Les synsets sont reliés par des relations
sémantiques

Session 1: Introduction
Structures Existantes

Exemple
Session 1: Introduction
Structures Existantes
S'il existe des structures pourquoi vouloir en
créer automatiquement?

Session 1: Introduction
Retour au TAL

Comprendre le sens
food
animal
eat(cat,mouse)
mammal
mouse
cat
λx.λy.eat(x:animal,y:food)(mouse:mammal)(cat:mammal)
P → GN GV{GV.sem(GN.sem)}
GV → V GN {V.sem(GN.sem)}
GN → DET N {N.sem}
V → mange {λx.λy.eat(x:animal,y:food)}
DET → [le,la] {∅}
N → souris {mouse:mammal}
N → chat {cat:mammal}
λx.λy.eat(x:animal,y:food)(mouse:mammal)
le chat mange la souris
Session 1: Introduction
Retour au TAL

Comprendre le sens
animal
vehicle
bus
food
mammal
mouse
eat(cat,bus)
cat
λx.λy.eat(x:animal,y:food)(bus:vehicle)(cat:mammal)
P → GN GV{GV.sem(GN.sem)}
GV → V GN {V.sem(GN.sem)}
GN → DET N {N.sem}
V → mange {λx.λy.eat(x:animal,y:food)}
DET → [le,la] {∅}
N → bus {bus:vehicle}
N → chat {cat:mammal}
λx.λy.eat(x:animal,y:food)(bus:vehicle)
le chat mange le bus
Session 1: Introduction
Résumé
Définition
 Processus Itératif
 Extraction de Concepts
 Extraction de Relations
 Construction de Structures
 Strucutures Existantes
 Retour au Traitement du Langage

Session 1: Introduction
Prochains Cours
CM: Mesures de Similarités Lexicales
TP: Projet
https://dias.users.greyc.fr/?op=paginas/ict.html
Session 1: Introduction