Ressources informatiques linguistiques pour les langues slaves
Transcription
Ressources informatiques linguistiques pour les langues slaves
Ressources informatiques linguistiques pour les langues slaves Outils informatiques pour le traitement des textes & corpus simples ou alignés Vincent BÉNET Langue et linguistique russe Ressources linguistiques pour les langues slaves Les corpus en ligne Recherche d’occurrences variées Les logiciels de traitement de corpus Recherche d’occurrences, constitution de lexiques Les logiciels d’alignement de corpus Aide à la traduction, à la grammaire contrastive Ressources linguistiques pour les langues slaves Les bibliothèques en ligne Gallica http://gallica.bnf.fr/ Projet Gutenberg http://www.gutenberg.org/ebooks/ Librairie de Moshkow http://lib.ru Pages Internet Recherche d’occurrences variées Attention aux problèmes de codage des textes ! Ressources linguistiques pour les langues slaves Les corpus en ligne Textes avec annotations morphosyntaxiques Textes avec annotations sémantiques Textes parallèles traduits et alignés Recherche d’occurrences variées Inconvénient : on ne peut pas travailler avec ses textes Corpus en ligne pour les langues slaves Ressources linguistiques nationales • • • • • • • • • • • • Bielorussian Ressources http://mova.org Bosnian Texts http://www.tekstlab.uio.no/Bosnian/Korpus2.html Bulgarian National Corpus http://ibl.bas.bg/en/BGNC_en.htm Croatian National Corpus http://www.hnk.ffzg.hr/cnc.htm Czech National Corpus https://korpus.cz Macedonian Corpus http://imj.ukim.edu.mk National Corpus of Polish http://www.nkjp.pl Russian National Corpus http://ruscorpora.ru Serbian Corpus http://metashare.dfki.de/ Slovenian National Corpus http://www.fidaplus.net Slovak National Corpus http://korpus.juls.savba.sk/index_en.html Ukrainian National Corpus http://ulif.org.ua/ BG http://ibl.bas.bg BO http://www.tekstlab.uio.no/Bosnian/Korpus2.html BY mova.org HR http://www.hnk.ffzg.hr CZ https://korpus.cz/ MK http://imj.ukim.edu.mk АМБИЦИОЗЕН ПРОЕКТ НА ИНСТИТУТОТ ЗА МАКЕДОНСКИ ЈАЗИК Електронски јазичен корпус на нашиот јазик за негово популаризирање Јазични корпуси веќе направиле Словенија и Хрватска, а ние веројатно ќе го користиме примерот на Словачка, на која # биле потребни 10 години PL http://www.nkjp.pl PL http://www.nkjp.pl RU http://ruscorpora.ru RU ruscorpora.ru RU ruscorpora.ru RU ruscorpora.ru RU ruscorpora.ru SR http://metashare.dfki.de/ SLO www.fidaplus.net SK http://korpus.juls.savba.sk/ UA http://ulif.org.ua Ressources linguistiques & informatiques pour les langues slaves Logiciel de traitement de texte Travail avec ses propres textes et extraire un lexique ou recherche des occurrences. (livres en ligne, textes Word, pages Internet, ebooks etc.) OPEN OFFICE WRITER et ses extensions Ressources linguistiques & informatiques pour les langues slaves Logiciel de traitement de texte Dictionnaires et Modules linguistiques http://extension.openoffice.org Ressources linguistiques & informatiques pour les langues slaves Logiciel de traitement de texte Dictionnaires et Modules linguistiques http://extension.openoffice.org Ressources linguistiques & informatiques pour les langues slaves Logiciel de traitement de texte Open Office Dictionnaires Ressources linguistiques & informatiques pour les langues slaves Logiciel de traitement de texte Open Office Dictionnaires Ressources linguistiques & informatiques pour les langues slaves Logiciel de traitement de texte Open Office Dictionnaires: Téléchargement du dictionnaire (langue.oxt) et installation automatique Remarque: fichiers .oxt = .zip Accès à la liste de tous les mots Ressources linguistiques & informatiques pour les langues slaves Logiciel de traitement de texte Open Office Contenu des dictionnaires.oxt (zip) Ressources linguistiques & informatiques pour les langues slaves Logiciel de traitement de texte Modules linguistiques http://extension.openoffice.org Ressources linguistiques & informatiques pour les langues slaves Logiciel de traitement de texte Dictionnaires et Modules linguistiques (Addons) Ressources linguistiques & informatiques pour les langues slaves Logiciel de traitement de texte Dictionnaires et Modules linguistiques (Addons) Ressources linguistiques & informatiques pour les langues slaves Logiciel de traitement de texte Dictionnaires et Modules linguistiques (Addons) Ressources linguistiques & informatiques pour les langues slaves Logiciel de traitement de texte Liste de tous les mots avec leur fréquence (possibilité de tri) Ressources linguistiques & informatiques pour les langues slaves Logiciel de traitement de texte OPEN OFFICE WRITER Outil performant relativement complet et gratuit Ressources linguistiques & informatiques pour les langues slaves Les logiciels de traitement de corpus Intex, Nooj http://www.nooj4nlp.net/pages/nooj.html, Unitex, Concordance, Simple Concordance Program Travail avec ses propres textes (livres en ligne, textes Word, pages Internet, ebooks etc.) PRESENTATION DU LOGICIEL NOOJ Téléchargement du logiciel Installation du logiciel Paramétrage pour les langues (russe) Chargement d’un texte Constitution de lexique Désambiguïsation de texte Recherche d’occurrences Ecriture de grammaires Ressources pour Nooj pour la langue russe • NOOJ http://www.nooj4nlp.net/ M. Silbersztein Télécharger NOOJ • NOOJ http://www.nooj4nlp.net/pages/download.html Télécharger NOOJ • http://www.nooj4nlp.net/pages/download.html Télécharger NOOJ • NOOJ http://www.nooj4nlp.net/pages/download.html Ressources linguistiques 7 langues slaves avec ressources pour NOOJ biélorusse bulgare croate polonais serbe slovène russe Télécharger la ressource • NOOJ http://www.nooj4nlp.net/pages/russian.html Extraire les fichiers,copier et organiser les dossiers extraits NoojApp à copier dans C:\ Dossier Ru à copier dans NoojApp On a donc dans C: les dossiers suivants C:\NooJApp\_App C:\ NooJApp\_Misc C:\ NooJApp\FR C:\ NooJApp\EN C:\ NooJApp\RU Le programme Nooj.exe se trouve dans le dossier _App. (faire un raccourci) A la première utilisation, les fichiers sont copiés dans C:\Mes Documents Contenu du dossier ru Fichiers lexique et flexion • Properties.def N_Genre = m | f | n ; N_SGenr = an | inan ; A_Forme = fc | fl | adv; N_Nombre = s | p; A_Genre = m | f | n ; N_Cas = Im | Vi | Ro | R2 | Da | Tv | Pr | P2 | Zv ; A_SGenr = an | inan ; N_Sem = Hum | Forename | Prof | Parent | Body A_Nombre = s | p; Conc | Abstr | Org | Text | A_Cas = Im | Vi | Ro | Da | Tv | Pr | Zv; Animal | Food | Arts | Lit | Music | Sports A_Deg = Comp | Sup ; Topo | Country | River | City | Mount| Lake | Posit | Time | Color ; A_Sem = App | Color | Body; ADV_Deg = Comp; ADV_Sem = Time | Topo | Modal; Fichiers lexique • • • • • • • • • • • • красный,A+Color+FLX=интересный карта,N+f+inan+FLX=карта судьба,N+f+inan+FLX=судьба артист,N+m+an+Arts+FLX=артист стол,N+m+inan+FLX=стол восемьдесят,NUM+card+FLX=восемьдесят жевать,V+ipf+FLX=жевать ходить,V+ipf+Mvt+Indet+FLX=ходить лгать,V+ipf+FLX=лгать водиться,V+ipf+sja+Mvt+Indet+FLX=водиться один,NUM+FLX=один она,PRON+FLX=она Fichiers flexion • новый = <E>/fl+Im+m+s | <E>/fl+Vi+m+s | <B2>ого/fl+Vi+m+an+s | <B2>ого/fl+Ro+m+s | <B2>ому/fl+Da+m+s | <B2>ым/fl+Tv+m+s | <B2>ом/fl+Pr+m+s | <B2>ое/fl+Im+n+s | <B2>ое/fl+Vi+n+s | <B2>ого/fl+Ro+n+s | <B2>ому/fl+Da+n+s | <B2>ым/fl+Tv+n+s | <B2>ом/fl+Pr+n+s | <B2>ая/fl+Im+f+s | <B2>ую/fl+Vi+f+s | <B2>ой/fl+Ro+f+s | <B2>ой/fl+Da+f+s | <B2>ой/fl+Tv+f+s | <B2>ою/fl+Tv+f+s | <B2>ой/fl+Pr+f+s | <B2>ые/fl+Im+m+f+n+p | <B2>ые/fl+Vi+m+f+n+p | <B2>ых/fl+Vi+p | <B2>ых/fl+Ro+p | <B2>ым/fl+Da+p | <B2>ыми/fl+Tv+p | <B2>ых/fl+Pr+p ; Fichiers flexion • карта = <E>/Im+s | <B>у/Vi+s | <B>ы/Ro+s | <B>е/Da+s | <B>ой/Tv+s | <B>ою/Tv+s | <B>е/Pr+s | <B>ы/Im+p | <B>ы/Vi+p | <B>/Ro+p | <B>ам/Da+p | <B>ами/Tv+p | <B>ах/Pr+p ; • судьба = <E>/Im+s | <B>у/Vi+s | <B>ы/Ro+s | <B>е/Da+s | <B>ой/Tv+s | <B>ою/Tv+s | <B>е/Pr+s | <B>ы/Im+p | <B>ы/Vi+p | <B><L><B>е/Ro+p | <B>ам/Da+p | <B>ами/Tv+p | <B>ах/Pr+p ; Utilisation des annotations morphosyntaxiques 57 Fichiers grammaire Trouver les verbes de mouvement dans un texte Fichiers grammaire Trouver les verbes de mouvement déterminés dans un texte Grammaire = liste des verbes Utilisation de fichiers grammaire 60 Fichiers grammaire Désambiguiser HA particule ou préposition Première utilisation de Nooj PARAMÉTRAGE de NOOJ Preferences : - Choix de la langue - Choix des ressources - Choix des grammaires Première utilisation de Nooj CHOIX des TEXTES et paramétrage de NOOJ File ( Fichier) : - Choix du texte ( Open / IMPORT - Choix du codage Travail avec Nooj • - Travail sur un texte • - Analyser un texte • - Mettre en œuvre les ressources lexicales et grammaticales ( + décliner conjuguer) • - Obtenir son lexique • - Afficher des annotations • -Ecrire des grammaires de recherche/ de désambiguïsation Travail avec Nooj Travail avec un texte (sans ressources linguistiques) Travail avec Nooj Travail avec un texte (sans ressources linguistiques) Travail avec Nooj Travail avec un texte (avec ressources linguistiques) Choix des ressources lexicales et grammaticales Travail avec Nooj Travail avec un texte (avec ressources linguistiques) Travail avec Nooj Travail avec un texte (avec ressources linguistiques) Travail avec Nooj Travail avec un texte (avec annotations) Travail avec Nooj Travail avec un texte (liste des ambiguïtés) Travail avec Nooj Travail avec un texte (liste des mots non ambigus) Travail avec Nooj Travail avec un texte (liste des mots inconnus) Travail avec Nooj Travail avec un texte (avec annotations et grammaire de recherche) Travail avec Nooj Travail avec un texte (avec annotations et grammaire de recherche) Travail avec Nooj Ecriture d’une grammaire* File / New / Grammar Graphical Editor / Rule Editor Écrire un nouveau paradigme (nof) Écrire des formations de mots (.nom) (четырехэтажный)… Écrire un élément de syntaxe Travail avec Nooj Locate Pattern with Nooj grammar Travail avec Nooj Ecriture d’une grammaire* File / New / Grammar Graphical Editor / Rule Editor Travail avec Nooj Enrichir le dictionnaire avec des tags sémantiques zelënyj,A+Color+FLX=novyj zelenovatyj,A+ Color+FLX= zelënen’kij, A+Color+FLX=novyj temno-zelënyj, A+Color+FLX=novyj zelen’,N+f+inan+Color+FLX=smes’ zelenet’,V+intr+ipf+Color+FLX=belet’ zazelenet’,V+intr+pf+Color+FLX=belet’ zazelenet’sja,V+sja+pf+Color+FLX=…. Travail avec Nooj Travail avec Nooj • - Travail sur un texte russe • - Analyser un texte • - Mettre en œuvre les ressources lexicales et grammaticales ( + décliner conjuguer) • - Obtenir son lexique • - Afficher des annotations • -Ecrire des grammaires de recherche/ de désambiguïsation Rappel : LES CODAGES Problème de lisibilité des textes: • Caractères spécifiques des langues mal représentés č, Ł, Đ, š, Ť, ů, ż, ź, ž etc. • Codage Occidental 1252 • Codages Est-Européens 1250 et Cyrilliques (1251, 855,866,KOI-8) • Codage Unicode Constituer un corpus aligné ( avec un traitement de texte) Rappel : Codages informatiques du cyrillique ( internet sous Mozilla Firefox Constituer un corpus aligné ( avec un traitement de texte) Convertir si besoin les codages informatiques du cyrillique ( internet et textes) Ressources linguistiques & informatiques pour les langues slaves Les logiciels d’alignement de corpus Avec un traitement de texte ( Word ou Open Office Writer) Hunalign, MkAlign, Parallel Corpus Travail avec ses propres textes et traductions Ressources linguistiques & informatiques pour les langues slaves Constituer un corpus aligné Rechercher des textes traduits Travailler avec ses propres textes et traductions Charte de l’ONU, Déclaration Universelle des Droits de l’Homme, articles de Wikipedia… Ressources linguistiques & informatiques pour les langues slaves Constituer un corpus aligné ( avec un traitement de texte) 26.La société civile n’est pas une panacée. 27.Elle n’est pas non plus une abstraction. 28.Au sein même de cette société civile internationale, il existe des rapports de force comme il en existe dans les relations entre Etats. 26.Гражданское общество не панацея. 27.Но оно и не абстракция. 28. В самом международном гражданском обществе существует соотношение сил, точно также как оно существует в отношениях между государствами. Constituer un corpus aligné ( avec un traitement de texte) Travail préparatoire : téléchargement / codage Ressources linguistiques & informatiques pour les langues slaves Constituer un corpus aligné ( avec MkAlign U. Paris 3) Constituer un corpus aligné ( avec un traitement de texte) Résultat d’un alignement avec MkAlign Ressources linguistiques & informatiques pour les langues slaves Constituer un corpus aligné ( avec MkAlign U. Paris 3) Ressources linguistiques & informatiques pour les langues slaves UTILISER MkAlign paramétrage Ressources linguistiques & informatiques pour les langues slaves UTILISER MkAlign : Aligner un texte Ressources linguistiques & informatiques pour les langues slaves RESULTAT de MkAlign : TEXTE en TABLEAU ( format html) Ressources linguistiques & informatiques pour les langues slaves RESULTAT de MkAlign : MEMOIRE DE TRADUCTION ( format tmx) Ressources linguistiques & informatiques pour les langues slaves UTILISER OmegaT (logiciel de traduction assistée par ordinateur) Ressources linguistiques & informatiques pour les langues slaves UTILISER OmegaT (logiciel de traduction assistée par ordinateur) Ressources linguistiques & informatiques pour les langues slaves UTILISER OmegaT (logiciel de traduction assistée par ordinateur) Ressources linguistiques & informatiques pour les langues slaves UTILISER OmegaT (logiciel de traduction assistée par ordinateur) Ressources linguistiques & informatiques pour les langues slaves UTILISER OmegaT (logiciel de traduction assistée par ordinateur) Ressources linguistiques & informatiques pour les langues slaves LOGICIELS pour le traitement de la langue CORPUS DE TEXTES EN LIGNE OPEN OFFICE (avec LINGUIST) Notepad++ ( conversion de codage) NOOJ (recherches d’occurrences) MKALIGN (alignement de textes) OMEGAT (traduction)