Equipex ORTOLANG (Open Resources and Tools for Language)
Transcription
Equipex ORTOLANG (Open Resources and Tools for Language)
Equipex ORTOLANG (Open Resources and Tools for Language) ORTOLANG (Open Resources and Tools for Language) a pour but de proposer une infrastructure en réseau offrant un réservoir de données (corpus, lexiques, dictionnaires, etc.) et d’outils sur la langue et son traitement clairement disponibles et documentés qui : - permette, au travers d’une véritable mutualisation, à la recherche sur l’analyse, la modélisation et le traitement automatique de notre langue de se hisser au meilleur niveau international ; - facilite l’usage et le transfert des ressources et outils mis en place au sein des laboratoires publics vers les partenaires industriels, en particulier vers les PME qui souvent ne peuvent pas se permettre de développer de telles ressources et outils de traitement de la langue compte tenu de leurs coûts de réalisation ; - valorise le français et les langues de France à travers un partage des connaissances sur notre langue accumulées par les laboratoires publics. Un tel équipement a aussi pour objectif de généraliser et d’assurer la pérennisation des efforts entrepris à travers les Centres de Ressources Numériques sur la langue, CNRTL (Centre de Ressources Textuelles et Lexicales www.cnrtl.fr) et SLDR (Speech and Language Data Repository, http://sldr.org, anciennement CRDO-Aix), mis en place par le CNRS. Il a aussi pour ambition de servir tout à la fois de nœud français et de support à l’engagement de la France au sein de l’infrastructure CLARIN (Common Language Resources and Technology Infrastructure : www.clarin.eu) dont nous fumes partenaires dès le début. Enfin, il servira de plateforme technique sur la langue, écrite et orale, support des actions de coordination menées par le TGE ADONIS et le TGIR Corpus, dans lesquels nos laboratoires et Centres Ressources sont fortement impliqués. Les fonctions envisagées pour cet équipement sont : - L’identification/préparation des données : catalogage des ressources et outils existants à travers un ensemble de métadonnées normalisées ; contrôle et validation des ressources et des outils : accompagnement des auteurs sur les standards, les normes et les recommandations internationales actuelles : XML, TEI, LMF, MAF et SYNAF ; enrichissement de ressources et des outils. - Archivage : stockage, maintenance et curation des ressources et des outils ; archivage pérenne, à travers la solution mise en place par le TGE ADONIS en lien avec le CINES. - Diffusion : aide et accompagnement des utilisateurs et mise en place des procédures permettant à des utilisateurs de la plateforme d‘exploiter les ressources et outils mutualisés sans avoir à se soucier de leur localisation et implantation géographiques. ORTOLANG se propose donc de mettre en place un processus permettant à une donnée linguistique, une fois créée, d’être cataloguée, éventuellement améliorée (voire corrigée), puis diffusée et enfin archivée. Le modèle d’ORTOLANG reprend les entités de base du modèle OAIS en précisant le cycle de correction/ enrichissement des données, rendu possible par l’archivage intermédiaire. ORTOLANG propose d’accompagner les chercheurs en fournissant plusieurs types d’aides : Aide à la création de données : faciliter l’accès à des instruments permettant l’acquisition ou la création de données (par exemple numérisation, chambre sourde, caméra rapide, mouvements oculaires, électro-encéphalographie, articulographe, etc.). Enrichissement de données : plusieurs outils permettent d’enrichir automatiquement les données brutes (étiquetage morphosyntaxique, analyse prosodiques, syntaxiques, etc.). Pour ce faire nous avons choisi de regrouper dans notre consortium des compétences complémentaires en - sciences du langage à travers l’ATILF, le LPL, MODYCO et le LLL, - informatique avec le LORIA et l’INIST mais aussi en partie l’ATILF et le LPL qui demeurent des laboratoires d’interface avec l’informatique - base de données et accès à de l’information scientifique, à travers l’INIST, et à des ressources linguistiques, à travers les deux centre de ressources que sont le CNRTL et le SLDR (ex CRDO Aix). Au-delà de la réunion de ces compétences disciplinaires différentes notre objectif est aussi de fédérer pour cet équipement de mutualisation de ressources et d’outils sur la langue des partenaires représentant la diversité des approches d’étude de la langue : modélisation linguistique (MoDyCo, LPL et ATILF), linguistique expérimentale (LPL, ATILF) , production et de perception du langage (LPL, ModyCo), études diachroniques (ATILF, LLL), sociolinguistique (LLL, ModyCo), traitement Automatique des Langues (LORIA, LPL, ATILF), écrit (ATILF, MoDyCo), oral (LPL, LLL, ModyCo). Cette proposition s’appuie sur une expérience acquise importante des équipes proposant cet équipement d’excellence. A titre illustratif, nous explicitons ci-dessous quelques atouts tant en termes de ressources et outils déjà proposés que d’insertion nationale et internationale. - L’acquis des partenaires, centres de ressources (CNRTL et SLDR) et laboratoires qui alimenteront la version initiale de la plateforme avec un ensemble de ressources et d’outils déjà disponibles en leur sein et dont les compétences recouvrent les trois principaux aspects visés : l’oral, l’écrit et la patrimonialisation des parlers de France. - L’implication et la cohérence avec les TGE et TGIR du domaine que sont ADONIS et CORPUS. Nous sommes partie prenante du TGIR CORPUS à travers nos implications dans les consortiums sur l’écrit (J.M. Pierrel membre du comité de pilotage) et sur l’Oral (Ph. Blache membre du comité de pilotage). Par ailleurs nos centres de ressources sont opérateurs au sein du TGE ADONIS et un partenariat est mis en place pour exploiter la solution d’archivage et de pérennisation à long terme proposée par ADONIS en partenariat avec le CINES. - L’implication et la cohérence avec l’infrastructure européenne CLARIN au sein de laquelle nous travaillons depuis la phase préliminaire et dont notre plateforme se propose de structurer un sous réseau français en concertation avec le TGIR CORPUS qui a en charge de structurer le volet français de cette architecture. - La cohérence avec les efforts menés par la DGLFLF et la BNF sur les aspects patrimonialisation des parlers de France. Contact : Jean-Marie Pierrel, professeur à l'Université de Lorraine Directeur de l'ATILF (Université de Lorraine & CNRS) Analyse et Traitement Informatique de la Langue Française Responsable du CNRTL-CNRS, Centre National de Ressources Textuelles et Lexicales 44, avenue de la Libération BP 30687 54063 Nancy cedex Tél. : 03 54 50 52 85 ou 06 88 38 87 32 [email protected] http://www.atilf.fr http://www.cnrtl.fr
Documents pareils
L`Equipex Ortolang
travers
un
ensemble
de
métadonnées
normalisées
;
§ contrôle
et
validation
des
ressources
et
des
outils
:
accompagnement
des
auteurs
sur...