INGENIERIE DES CONNAISSANCES TEXTUELLES
Transcription
INGENIERIE DES CONNAISSANCES TEXTUELLES
INGENIERIE DES CONNAISSANCES TEXTUELLES Maîtrise d'Informatique 2ème Année – Semestre 1 Département d'Informatique Université de Caen Basse-Normandie https://dias.users.greyc.fr/?op=paginas/ict.html Session 1: Introduction Plan Définition Processus Itératif Extraction de Concepts Extraction de Relations Construction de Structures Strucutures Existantes Retour au Traitement du Langage Résumé Session 1: Introduction Défintion A quoi sert la langue? A communiquer des informations Le PSG a battu Benfica 3-0 A communiquer des connaissances Le PSG a battu Benfica 3-0 Session 1: Introduction Définition L'ingénierie des connaissances textuelles est le processus de découverte d'informations implicites dans des quantités de textes souvent de grandes tailles (Big Data) L'ingénierie textuelle n'est pas Fouille de données (données structurées) Fouille du Web (données liées) Moteurs de Recherche Traitement Automatique des Langues Session 1: Introduction Processus Itératif Définir une tâche: clustering de textes Session 1: Introduction Processus Itératif Traiter le texte Session 1: Introduction Processus Itératif Comprendre les attributs Session 1: Introduction Processus Itératif Appliquer des modèles de découverte Session 1: Introduction Processus Itératif Continuer ou arrêter? Session 1: Introduction Extraction de Concepts Quels sont les concepts qui nous entourent? Francois Hollande visite Florange Session 1: Introduction Extraction de Concepts Extraction d'unités polylexicales Session 1: Introduction Extraction de Concepts Extraction d'entités nommées Session 1: Introduction Extraction de Relations Comment mettre en relation ces concepts? ex-président méronymie Session 1: Introduction Extraction de Relations Extraction de Relations Lexico-Sémantiques Session 1: Introduction Extraction de Relations Extraction de Relations Multilingues Session 1: Introduction Construction de Structures Comment construire une structure sémantique? Session 1: Introduction Construction de Structures Construction d'ontologies terminologiques Session 1: Introduction Structures Existantes Session 1: Introduction Structures Existantes WordNet est une base de données lexicales de l'anglais courant Wolf est l'équivalent pour le français Un synset représente le(s) sens d'un mot Session 1: Introduction Structures Existantes Les synsets sont reliés par des relations sémantiques Session 1: Introduction Structures Existantes Exemple Session 1: Introduction Structures Existantes S'il existe des structures pourquoi vouloir en créer automatiquement? Session 1: Introduction Retour au TAL Comprendre le sens food animal eat(cat,mouse) mammal mouse cat λx.λy.eat(x:animal,y:food)(mouse:mammal)(cat:mammal) P → GN GV{GV.sem(GN.sem)} GV → V GN {V.sem(GN.sem)} GN → DET N {N.sem} V → mange {λx.λy.eat(x:animal,y:food)} DET → [le,la] {∅} N → souris {mouse:mammal} N → chat {cat:mammal} λx.λy.eat(x:animal,y:food)(mouse:mammal) le chat mange la souris Session 1: Introduction Retour au TAL Comprendre le sens animal vehicle bus food mammal mouse eat(cat,bus) cat λx.λy.eat(x:animal,y:food)(bus:vehicle)(cat:mammal) P → GN GV{GV.sem(GN.sem)} GV → V GN {V.sem(GN.sem)} GN → DET N {N.sem} V → mange {λx.λy.eat(x:animal,y:food)} DET → [le,la] {∅} N → bus {bus:vehicle} N → chat {cat:mammal} λx.λy.eat(x:animal,y:food)(bus:vehicle) le chat mange le bus Session 1: Introduction Résumé Définition Processus Itératif Extraction de Concepts Extraction de Relations Construction de Structures Strucutures Existantes Retour au Traitement du Langage Session 1: Introduction Prochains Cours CM: Mesures de Similarités Lexicales TP: Projet https://dias.users.greyc.fr/?op=paginas/ict.html Session 1: Introduction