Construction d`ontologies a partir de texte
Transcription
Construction d`ontologies a partir de texte
Introduction Candidats termes Étiq. morphosyntaxique An. Syntaxique An. distributionnelle Interface Conclusion 09.02.2002 INGÉNIERIE DES CONNAISSANCES CONSTRUCTION D’ONTOLOGIES À PARTIR DE TEXTES (1) Outils de traitement automatique des langues pour la construction d’ontologies à partir de textes Didier BOURIGAULT Equipe de Recherche en Syntaxe et Sémantique CNRS - Université Toulouse le Mirail et Groupe « Terminologie et Intelligence Artificielle » AFIA – GDR I3 [email protected] Ingénierie des connaissances – Constructuction d’ontologies... (D. Bourigault) Introduction Candidats termes Étiq. morphosyntaxique An. Syntaxique An. distributionnelle «‹∞›» Interface 1 Conclusion Plan l l l l l l Introduction et position Les candidats termes L’étiquetage morphosyntaxique L’analyse distributionnelle L’interface Conclusion Ingénierie des connaissances – Constructuction d’ontologies... (D. Bourigault) «‹∞›» 2 1 Introduction Candidats termes Étiq. morphosyntaxique An. Syntaxique An. distributionnelle Interface Conclusion Construction d’ontologie à partir de textes l Les connaissances sont accessibles dans les textes. Les connaissances sont produites, transmises essentiellement dans les textes. Autres sources : – les spécialistes – les ressources existantes : ontologies métier, thesaurus, lexiques, dictionnaires spécialisés, etc. l l Les contextes d’utilisation des ontologies sont (de plus en plus) des applications de traitement de l’information textuelle Ex : recherche d’information, filtrage, résumé, classification de documents, extraction d’information è L’ontologie doit être construite à partir de textes pour permettre un meilleur traitement des textes. Des outils de traitement automatique des langues rendent réalisable la tâche de construction d’ontologie à partir de textes. Ingénierie des connaissances – Constructuction d’ontologies... (D. Bourigault) Introduction Candidats termes Étiq. morphosyntaxique An. Syntaxique An. distributionnelle «‹∞›» Interface 3 Conclusion Le corpus l Corpus : Ensemble de textes que l’ingénieur de la connaissance rassemble pour élaborer l’ontologie Type de textes : documentation technique, transcription d’entretiens, articles scientifiques, ... Construire le corpus est une tâche délicate… spécialistes Ingénieur de la connaissance ressources corpus Ontologie Ingénierie des connaissances – Constructuction d’ontologies... (D. Bourigault) «‹∞›» 4 2 Introduction Candidats termes Étiq. morphosyntaxique An. Syntaxique An. distributionnelle Interface Conclusion Ontologie, ressource terminologique l l Ressource terminologique (RT) : une description du vocabulaire utilisé dans un domaine spécialisé, élaborée pour une application de traitement de l’information (= une représentation des connaissances du domaine) Types de RT – – – – – – – thesaurus pour système d’indexation automatique lexique bilingue pour système d’aide à la traduction lexique sémantique pour système d’extraction d’information réseau lexical pour système de recherche d’information index hypertextuel pour documentation électronique index thématique pour ouvrage « papier » … Ingénierie des connaissances – Constructuction d’ontologies... (D. Bourigault) Introduction Candidats termes Étiq. morphosyntaxique An. Syntaxique An. distributionnelle «‹∞›» Interface 5 Conclusion Postulat : ontologie et point de vue l l l Soit un « domaine », communauté d’acteurs liée à une pratique il n’existe pas UNE ontologie de ce domaine. Il y a autant de ressources terminologiques que de type d’applications. La construction de la ressource terminologique est guidée par un point de vue, celui de l’application cible la sélection des unités (termes, concepts) et le mode de description (structuration) dépendent de l’application cible. IC corpus Application Ressource terminologique Ingénierie des connaissances – Constructuction d’ontologies... (D. Bourigault) «‹∞›» 6 3 Introduction Candidats termes Étiq. morphosyntaxique An. Syntaxique An. distributionnelle Interface Conclusion Outils de traitement automatique des langues (TAL) l Ingénierie des connaissances et TAL L’approche sur corpus n’est possible que parce que des outils et des méthodes d’analyse de corpus sont disponibles. l Outils d’analyse de corpus pour l’aide à la construction de ressources terminologiques à partir de corpus Les outils analysent le corpus et proposent, l’ingénieur de la connaissance dispose et modélise. groupe « Terminologie et intelligence artificielle » (AFIA, GDR I3) corpus Application IC Ressource terminologique Outils de TAL Ingénierie des connaissances – Constructuction d’ontologies... (D. Bourigault) Introduction Candidats termes Étiq. morphosyntaxique An. Syntaxique An. distributionnelle «‹∞›» Interface 7 Conclusion Outils linguistiques l Les outils effectuent des traitements de type linguistique (vs statistique) catégorie grammaticale – nom, verbe, adjectif, … morphologie variation morphologique – genre et nombre pour les noms, les adjectifs – personne, temps, voie pour les verbes groupe syntaxique syntaxe – syntagme nominal – syntagme verbal relation syntaxique – sujet de verbe, complément de verbe ou de nom, épithète Ingénierie des connaissances – Constructuction d’ontologies... (D. Bourigault) (sémantique) «‹∞›» 8 4 Introduction Candidats termes Étiq. morphosyntaxique An. Syntaxique An. distributionnelle Interface Conclusion Exemple : liste de candidats termes l candidats termes (CT) mot ou suite de mots susceptible d’être retenue comme entrée (terme, concept) dans une ressource terminologique Noms Syntagmes nominaux connaissance modèle système concept domaine problème méthodes type cas relation exemple objets niveau tâche terme 1757 924 839 771 713 561 530 514 513 490 482 467 459 451 436 acquisition des connaissances base de connaissances résolution de problème 123 modèle conceptuel ingénierie des connaissances point de vue système d'information 87 modèle d'expertise représentation des connaissances 53 génie logiciel candidat terme structure prédicative 42 gestion des connaissances méthode de résolution de problèmes modélisation des connaissances 40 133 128 122 105 98 55 46 46 41 40 corpus : articles du livre IC200 (Charlet et al. 2000) Ingénierie des connaissances – Constructuction d’ontologies... (D. Bourigault) Introduction Candidats termes Étiq. morphosyntaxique An. Syntaxique An. distributionnelle «‹∞›» Interface 9 Conclusion Structuration de la liste des candidats termes l dépendance syntaxique Chaque terme complexe se décompose en une Tête et une Exapnsion ontologie ~ T ---- disponible ---- définie ---- explicite ---- formelle ---- référentielle ---- régionale ---- résultante ---- spécialisée ---- universelle ~ de base de connaissance E ---- concepteur ---- conception ---- construction ---- maintenance ---- raffinement ---- structure ---- usage ---- validation ---- vérification Ingénierie des connaissances – Constructuction d’ontologies... (D. Bourigault) «‹∞›» 10 5 Introduction Candidats termes Étiq. morphosyntaxique An. Syntaxique An. distributionnelle Interface Conclusion Propositions de liens entre candidats termes l relation syntagmatique exemples : [Nom Propre] est un [SN] Un [SN] est un [SN] LEXTER est un logiciel d'extraction de terminologie . [Assadi] LEXTER logiciel d’extraction de terminologie MANTEX est un logiciel en cours d'expérimentation , dont la fonction est de mettre en évidence dans des textes des regroupements signicatifs de mots [Frath] MANTEX logiciel en cours d’expérimentation Un GC est un graphe bipartie étiqueté , i.e. un graphe utilisant deux types de noeuds ( sommets ) . [Nobécourt] graphe conceptuel Un mécanisme de coordination est un construit, consistant en un protocole de coordination et en un artefact [Roche] mécanisme de coordination graphe bipartie étiqueté construit Ingénierie des connaissances – Constructuction d’ontologies... (D. Bourigault) Introduction Candidats termes Étiq. morphosyntaxique An. Syntaxique «‹∞›» An. distributionnelle Interface 11 Conclusion Regroupement de candidats termes l proximité distributionnelle Deux termes sont rapprochés s’ils apparaissent dans les mêmes contextes syntaxiques. ontologie taxinomie contextes insertion dans ~ classer dans ~ structurer ~ organisation de ~ réaliser ~ Ingénierie des connaissances – Constructuction d’ontologies... (D. Bourigault) «‹∞›» 12 6 Introduction Candidats termes Étiq. morphosyntaxique An. Syntaxique An. distributionnelle Interface Conclusion La première brique : l’étiquetage morphosyntaxique l Étiqueteur : Outil de traitement automatique des langues dont la fonction est d’attribuer à chaque mot d’un texte une catégorie grammaticale (nom, verbe, adjectif, …) En général, les étiqueteurs sont aussi des lemmatiseurs : ils fournissent le lemme des mots. – Lemme : forme canonique du mot (infinitif pour le verbe, la forme au singulier pour le nom, la forme au masculin singulier pour l’adjectif) l Pour le français : Cordial analyseur, Sylex, WinBrill, … Un éqiqueteur est un outil d’ingénierie linguistique dont la fonction chaque mot d ’un texte une catégorie morphosyntaxique. N° mot lemme Catégorie 1 Un un DETIMS 2 étiqueteur étiqueteur NCMS 3 est être VINDP3S 4 un un DETIMS 5 outil outil NCMS 6 d' de PREP 7 ingénierie ingénierie NCFS 8 linguistique linguistique ADJSIG Ingénierie des connaissances – Constructuction d’ontologies... 9 dont dont PRI (D. Bourigault) 10 ... Introduction Candidats termes Étiq. morphosyntaxique An. Syntaxique est d’associer à (déterminant) (nom) (verbe) (déterminant) (nom) (préposition) (nom) (adjectif) « ‹ relatif) ∞›» (pronom An. distributionnelle Interface 13 Conclusion Extraction de candidats termes complexes l Deux techniques simples et robustes, basée sur la structure interne des unités patrons élémentaires NOM de NOM NOM ADJ ADJ NOM expression maximale ADJ? NOM [NOM | ADJ | de]+ [NOM | ADJ] (…) cet outil est un logiciel d’extraction de termes complexes qui (…) logiciel d’extraction extraction de termes termes complexes logiciel d’extraction de termes complexes Ingénierie des connaissances – Constructuction d’ontologies... (D. Bourigault) «‹∞›» 14 7 Introduction Candidats termes Étiq. morphosyntaxique An. Syntaxique An. distributionnelle Interface Conclusion Extraction de candidats termes complexes l Limites : analyse « étroite » sur-génération, sous-génération, pas de structuration restrictif quant aux structures – Prépositions autres que « de », déterminants – Syntagmes verbaux l Nécessité d’une analyse syntaxique « large » Structure syntaxique des phrases logiciel d’extraction de termes complexes logiciel extraction de termes complexes extraction termes complexes termes complexes Ingénierie des connaissances – Constructuction d’ontologies... (D. Bourigault) Introduction Candidats termes Étiq. morphosyntaxique An. Syntaxique An. distributionnelle «‹∞›» Interface 15 Conclusion Analyse syntaxique l identification des relations syntaxiques entre les mots de la phrase: – – – – – – l sujet de verbe complément d’objet direct de verbe complément d’objet indirect de verbe complément de nom complément d’adjectif épithète de nom exercice : Le petit garçon donne une boite pleine de bonbons à la fraise à sa sœur. SUJ ? Ingénierie des connaissances – Constructuction d’ontologies... (D. Bourigault) «‹∞›» 16 8 Introduction Candidats termes Étiq. morphosyntaxique An. Syntaxique An. distributionnelle Interface Conclusion Corrigé Le petit garçon donne une boite pleine de bonbons à la fraise à sa sœur. Régi relation recteur petit épithète de garçon garçon sujet de donne boite complément d’objet de donne pleine épithète de boite de bonbons complément de l’adjectif pleine à la fraise complément du nom bonbons à sa sœur complément d’objet indirect de donne Ingénierie des connaissances – Constructuction d’ontologies... (D. Bourigault) Introduction Candidats termes Étiq. morphosyntaxique An. Syntaxique «‹∞›» An. distributionnelle Interface 17 Conclusion Ambiguïté de rattachement adjectival : 'Nom Prep Nom Adj' ? Contexte (1) La discontinuité est marquée par les réfractions d'ondes séismiques. (2) Il se crée une vague d'érosion remontante qui creuse une gorge. (3) Se constitue ainsi une plaine de bordure karstique. Analyses concurrentes (1) (2) (3) a- réfractions d' [ ondes séismiques ] b- [ réfractions d' ondes ] séismiques a- vague d' [ érosion remontante ] b- [ vague d' érosion ] remontante a- plaine de [ bordure karstique ] b- [ plaine de bordure ] karstique Quelle stratégie de désambiguïsation ? Ingénierie des connaissances – Constructuction d’ontologies... (D. Bourigault) «‹∞›» 18 9 Introduction Candidats termes Étiq. morphosyntaxique An. Syntaxique An. distributionnelle Interface Conclusion Ambiguïté de rattachement prépositionnel : 'Vb Det Nom Adj en Nom' ? Contexte d'extraction (4) L'érosion a disséqué le plateau rocheux en chevrons. (5) On observe une charge importante en trouble dans les rivières (6) Il faut distinguer les roches pauvres en magnésium. Analyses concurrentes (4) a- disséquer [ le plateau [ rocheux en chevron ] ] b- disséquer [ [ le plateau rocheux ] en chevron ] c- [ disséquer [ le plateau rocheux ] ] en chevron (5) a- observer [ une charge [ importante en trouble ] ] b- observer [ [ une charge importante ] en trouble ] c- [ observer [ une charge importante ] ] en trouble (6) a- distinguer [ les roches [ pauvres en magnésium ] ] b- distinguer [ les roches pauvres ] en magnésium ] c- [ distinguer [ les roches pauvres ] ] en magnésium Ingénierie des connaissances – Constructuction d’ontologies... (D. Bourigault) Introduction Candidats termes Étiq. morphosyntaxique An. Syntaxique An. distributionnelle «‹∞›» Interface 19 Conclusion Comment résoudre les ambiguïtés de rattachement l Utiliser des ressources sémantiques externes Des ressources générales ? WordNet, dictionnaires généraux, ontologies universelles, … Non Des ressources spécialisées : dictionnaires spécialisés, thesaurus, ontologies métiers, … Eventuellement l S’appuyer sur le corpus : apprentissage endogène (LEXTER/SYNTEX) Le système acquiert par lui-même les informations susceptibles de lui permettre de résoudre les cas d’ambiguïté de rattachement. Le corpus : – Objet d’analyse – Source d’information Ingénierie des connaissances – Constructuction d’ontologies... (D. Bourigault) «‹∞›» 20 10 Introduction Candidats termes Étiq. morphosyntaxique An. Syntaxique An. distributionnelle Interface Conclusion Où est la sémantique ? Ressources sémantiques (spécialisées/générales) Corpus (d’apprentissage) ici pas là textes... ici IC Outils de TAL RT Système de TI pas là Ingénierie des connaissances – Constructuction d’ontologies... (D. Bourigault) Introduction Candidats termes Étiq. morphosyntaxique An. Syntaxique An. distributionnelle «‹∞›» Interface 21 Conclusion Analyse distributionnelle l l l Principe : Z. Harris Technique : regrouper les termes qui apparaissent dans des contextes syntaxiques identiques concept de « double-clique » Exemple : termes base de connaissance modèle de l’expertise ontologie contextes élaborer ~ utiliser ~ maintenance de ~ structure de ~ construction de ~ Ingénierie des connaissances – Constructuction d’ontologies... (D. Bourigault) «‹∞›» 22 11 Introduction Candidats termes Étiq. morphosyntaxique An. Syntaxique An. distributionnelle Interface Conclusion Exemples de double-cliques termes logiciel méthode modèle outil système contextes ~ permettre utiliser ~ utilisation de ~ construction de ~ validation de ~ développement de ~ développer ~ offrir ~ termes concept entité relation primitive contextes définir ~ type de ~ représenter ~ description de ~ modéliser ~ propriété de ~ nombre de ~ Ingénierie des connaissances – Constructuction d’ontologies... (D. Bourigault) Introduction Candidats termes Étiq. morphosyntaxique An. Syntaxique An. distributionnelle «‹∞›» Interface 23 Conclusion Liste des candidats termes extraits par Lexter d’un article de Biebow & Szulmann Ingénierie des connaissances – Constructuction d’ontologies... (D. Bourigault) «‹∞›» 24 12 Introduction Candidats termes Étiq. morphosyntaxique An. Syntaxique An. distributionnelle Interface Conclusion Liste des candidats termes dont «modèle conceptuel » est en expansion Ingénierie des connaissances – Constructuction d’ontologies... (D. Bourigault) Introduction Candidats termes Étiq. morphosyntaxique An. Syntaxique An. distributionnelle «‹∞›» Interface 25 Conclusion Conclusion l l l l Construire les ontologie à partir de textes C’est une nécessité. C’est une tâche ardue : le « mur des mots » Les outils : Travaillent sur la forme (morphologie, syntaxe), pas le sens Fonction : construire un ensemble structuré de mots et syntagmes Il n’y pas de critères statistiques décisifs pour filtrer, mais l’utilisation de critères numériques permet de guider le travail Les outils permettent une lecture « efficace » du corpus C’est l’ingénieur de la connaissance qui analyse et modélise Compétences en analyse de corpus Il reste à préciser une méthodologie Alternance : – analyse guidée par les résultats des outils d’analyse de corpus (« bottom up ») – Analyse guidée par les spécification de l’application (« top down ») Ingénierie des connaissances – Constructuction d’ontologies... (D. Bourigault) «‹∞›» 26 13