Ressources informatiques linguistiques pour les langues slaves

Transcription

Ressources informatiques linguistiques pour les langues slaves
Ressources
informatiques linguistiques
pour les langues slaves
Outils informatiques pour le traitement
des textes & corpus simples ou alignés
Vincent BÉNET
Langue et linguistique russe
Ressources linguistiques
pour les langues slaves
Les corpus en ligne
Recherche d’occurrences variées
Les logiciels de traitement de corpus
Recherche d’occurrences, constitution de lexiques
Les logiciels d’alignement de corpus
Aide à la traduction, à la grammaire contrastive
Ressources linguistiques
pour les langues slaves
Les bibliothèques en ligne
Gallica http://gallica.bnf.fr/
Projet Gutenberg http://www.gutenberg.org/ebooks/
Librairie de Moshkow http://lib.ru
Pages Internet
Recherche d’occurrences variées
Attention aux problèmes de codage des textes !
Ressources linguistiques
pour les langues slaves
Les corpus en ligne
Textes avec annotations morphosyntaxiques
Textes avec annotations sémantiques
Textes parallèles traduits et alignés
Recherche d’occurrences variées
Inconvénient : on ne peut pas travailler avec ses textes
Corpus en ligne
pour les langues slaves
Ressources linguistiques nationales
•
•
•
•
•
•
•
•
•
•
•
•
Bielorussian Ressources http://mova.org
Bosnian Texts http://www.tekstlab.uio.no/Bosnian/Korpus2.html
Bulgarian National Corpus http://ibl.bas.bg/en/BGNC_en.htm
Croatian National Corpus http://www.hnk.ffzg.hr/cnc.htm
Czech National Corpus https://korpus.cz
Macedonian Corpus http://imj.ukim.edu.mk
National Corpus of Polish http://www.nkjp.pl
Russian National Corpus http://ruscorpora.ru
Serbian Corpus http://metashare.dfki.de/
Slovenian National Corpus http://www.fidaplus.net
Slovak National Corpus http://korpus.juls.savba.sk/index_en.html
Ukrainian National Corpus http://ulif.org.ua/
BG http://ibl.bas.bg
BO
http://www.tekstlab.uio.no/Bosnian/Korpus2.html
BY mova.org
HR http://www.hnk.ffzg.hr
CZ https://korpus.cz/
MK http://imj.ukim.edu.mk
АМБИЦИОЗЕН ПРОЕКТ НА
ИНСТИТУТОТ ЗА МАКЕДОНСКИ
ЈАЗИК
Електронски јазичен корпус на нашиот
јазик за негово популаризирање
Јазични корпуси веќе направиле
Словенија и Хрватска, а ние веројатно ќе
го користиме примерот на Словачка, на
која # биле потребни 10 години
PL http://www.nkjp.pl
PL http://www.nkjp.pl
RU http://ruscorpora.ru
RU
ruscorpora.ru
RU
ruscorpora.ru
RU
ruscorpora.ru
RU
ruscorpora.ru
SR http://metashare.dfki.de/
SLO www.fidaplus.net
SK http://korpus.juls.savba.sk/
UA http://ulif.org.ua
Ressources linguistiques & informatiques
pour les langues slaves
Logiciel de traitement de texte
Travail avec ses propres textes et extraire un lexique
ou recherche des occurrences.
(livres en ligne, textes Word, pages Internet, ebooks
etc.)
OPEN OFFICE WRITER et ses extensions
Ressources linguistiques & informatiques
pour les langues slaves
Logiciel de traitement de texte
Dictionnaires et Modules linguistiques
http://extension.openoffice.org
Ressources linguistiques & informatiques
pour les langues slaves
Logiciel de traitement de texte
Dictionnaires et Modules linguistiques
http://extension.openoffice.org
Ressources linguistiques & informatiques
pour les langues slaves
Logiciel de traitement de texte Open Office
Dictionnaires
Ressources linguistiques & informatiques
pour les langues slaves
Logiciel de traitement de texte Open Office
Dictionnaires
Ressources linguistiques & informatiques
pour les langues slaves
Logiciel de traitement de texte Open Office
Dictionnaires:
Téléchargement du dictionnaire
(langue.oxt) et installation automatique
Remarque: fichiers .oxt = .zip
Accès à la liste de tous les mots
Ressources linguistiques & informatiques
pour les langues slaves
Logiciel de traitement de texte Open Office
Contenu des dictionnaires.oxt (zip)
Ressources linguistiques & informatiques
pour les langues slaves
Logiciel de traitement de texte
Modules linguistiques
http://extension.openoffice.org
Ressources linguistiques & informatiques
pour les langues slaves
Logiciel de traitement de texte
Dictionnaires
et
Modules
linguistiques
(Addons)
Ressources linguistiques & informatiques
pour les langues slaves
Logiciel de traitement de texte
Dictionnaires et Modules linguistiques (Addons)
Ressources linguistiques & informatiques
pour les langues slaves
Logiciel de traitement de texte
Dictionnaires et Modules linguistiques (Addons)
Ressources linguistiques & informatiques
pour les langues slaves
Logiciel de traitement de texte
Liste de tous les mots
avec leur fréquence
(possibilité de tri)
Ressources linguistiques & informatiques
pour les langues slaves
Logiciel de traitement de texte
OPEN OFFICE WRITER
Outil performant relativement complet et gratuit
Ressources linguistiques & informatiques
pour les langues slaves
Les logiciels de traitement de corpus
Intex, Nooj http://www.nooj4nlp.net/pages/nooj.html,
Unitex, Concordance, Simple Concordance Program
Travail avec ses propres textes
(livres en ligne, textes Word, pages Internet, ebooks etc.)
PRESENTATION DU LOGICIEL NOOJ
Téléchargement du logiciel
Installation du logiciel
Paramétrage pour les langues (russe)
Chargement d’un texte
Constitution de lexique
Désambiguïsation de texte
Recherche d’occurrences
Ecriture de grammaires
Ressources pour Nooj
pour la langue russe
• NOOJ http://www.nooj4nlp.net/
M. Silbersztein
Télécharger NOOJ
• NOOJ
http://www.nooj4nlp.net/pages/download.html
Télécharger NOOJ
• http://www.nooj4nlp.net/pages/download.html
Télécharger NOOJ
• NOOJ http://www.nooj4nlp.net/pages/download.html
Ressources linguistiques
7 langues slaves avec ressources pour NOOJ
biélorusse
bulgare
croate
polonais
serbe
slovène
russe
Télécharger la ressource
• NOOJ http://www.nooj4nlp.net/pages/russian.html
Extraire les fichiers,copier et organiser les
dossiers extraits
NoojApp à copier dans C:\
Dossier Ru à copier dans NoojApp
On a donc dans C: les
dossiers suivants
C:\NooJApp\_App
C:\ NooJApp\_Misc
C:\ NooJApp\FR
C:\ NooJApp\EN
C:\ NooJApp\RU
Le programme Nooj.exe se
trouve dans le dossier _App.
(faire un raccourci)
A la première utilisation, les
fichiers sont copiés dans
C:\Mes Documents
Contenu du dossier ru
Fichiers lexique et flexion
• Properties.def
N_Genre = m | f | n ;
N_SGenr = an | inan ;
A_Forme = fc | fl | adv;
N_Nombre = s | p;
A_Genre = m | f | n ;
N_Cas = Im | Vi | Ro | R2 | Da | Tv | Pr | P2 | Zv ;
A_SGenr = an | inan ;
N_Sem = Hum | Forename | Prof | Parent | Body
A_Nombre = s | p;
Conc | Abstr | Org | Text |
A_Cas = Im | Vi | Ro | Da | Tv | Pr | Zv;
Animal | Food | Arts | Lit | Music | Sports
A_Deg = Comp | Sup ;
Topo | Country | River | City | Mount| Lake |
Posit | Time | Color ;
A_Sem = App | Color | Body;
ADV_Deg = Comp;
ADV_Sem = Time | Topo | Modal;
Fichiers lexique
•
•
•
•
•
•
•
•
•
•
•
•
красный,A+Color+FLX=интересный
карта,N+f+inan+FLX=карта
судьба,N+f+inan+FLX=судьба
артист,N+m+an+Arts+FLX=артист
стол,N+m+inan+FLX=стол
восемьдесят,NUM+card+FLX=восемьдесят
жевать,V+ipf+FLX=жевать
ходить,V+ipf+Mvt+Indet+FLX=ходить
лгать,V+ipf+FLX=лгать
водиться,V+ipf+sja+Mvt+Indet+FLX=водиться
один,NUM+FLX=один
она,PRON+FLX=она
Fichiers flexion
• новый = <E>/fl+Im+m+s | <E>/fl+Vi+m+s |
<B2>ого/fl+Vi+m+an+s | <B2>ого/fl+Ro+m+s |
<B2>ому/fl+Da+m+s | <B2>ым/fl+Tv+m+s |
<B2>ом/fl+Pr+m+s | <B2>ое/fl+Im+n+s |
<B2>ое/fl+Vi+n+s | <B2>ого/fl+Ro+n+s |
<B2>ому/fl+Da+n+s | <B2>ым/fl+Tv+n+s |
<B2>ом/fl+Pr+n+s | <B2>ая/fl+Im+f+s |
<B2>ую/fl+Vi+f+s | <B2>ой/fl+Ro+f+s |
<B2>ой/fl+Da+f+s | <B2>ой/fl+Tv+f+s |
<B2>ою/fl+Tv+f+s | <B2>ой/fl+Pr+f+s |
<B2>ые/fl+Im+m+f+n+p | <B2>ые/fl+Vi+m+f+n+p |
<B2>ых/fl+Vi+p | <B2>ых/fl+Ro+p | <B2>ым/fl+Da+p
| <B2>ыми/fl+Tv+p | <B2>ых/fl+Pr+p ;
Fichiers flexion
• карта = <E>/Im+s | <B>у/Vi+s | <B>ы/Ro+s |
<B>е/Da+s | <B>ой/Tv+s | <B>ою/Tv+s |
<B>е/Pr+s | <B>ы/Im+p | <B>ы/Vi+p |
<B>/Ro+p | <B>ам/Da+p | <B>ами/Tv+p |
<B>ах/Pr+p ;
• судьба = <E>/Im+s | <B>у/Vi+s | <B>ы/Ro+s
| <B>е/Da+s | <B>ой/Tv+s | <B>ою/Tv+s |
<B>е/Pr+s | <B>ы/Im+p | <B>ы/Vi+p |
<B><L><B>е/Ro+p | <B>ам/Da+p |
<B>ами/Tv+p | <B>ах/Pr+p ;
Utilisation des annotations
morphosyntaxiques
57
Fichiers grammaire
Trouver les verbes de mouvement dans un texte
Fichiers grammaire
Trouver les verbes de mouvement déterminés dans un texte
Grammaire = liste des verbes
Utilisation de fichiers grammaire
60
Fichiers grammaire
Désambiguiser HA particule ou préposition
Première utilisation de Nooj
PARAMÉTRAGE de NOOJ
Preferences :
- Choix de la langue
- Choix des ressources
- Choix des grammaires
Première utilisation de Nooj
CHOIX des TEXTES et
paramétrage de NOOJ
File ( Fichier) :
- Choix du texte ( Open /
IMPORT
- Choix du codage
Travail avec Nooj
• - Travail sur un texte
• - Analyser un texte
• - Mettre en œuvre les ressources lexicales
et grammaticales ( + décliner conjuguer)
• - Obtenir son lexique
• - Afficher des annotations
• -Ecrire des grammaires de recherche/ de
désambiguïsation
Travail avec Nooj
Travail avec un texte (sans ressources linguistiques)
Travail avec Nooj
Travail avec un texte (sans ressources linguistiques)
Travail avec Nooj
Travail avec un texte (avec ressources linguistiques)
Choix des ressources lexicales et grammaticales
Travail avec Nooj
Travail avec un texte (avec ressources linguistiques)
Travail avec Nooj
Travail avec un texte (avec ressources linguistiques)
Travail avec Nooj
Travail avec un texte (avec annotations)
Travail avec Nooj
Travail avec un texte (liste des ambiguïtés)
Travail avec Nooj
Travail avec un texte (liste des mots non ambigus)
Travail avec Nooj
Travail avec un texte (liste des mots inconnus)
Travail avec Nooj
Travail avec un texte (avec annotations et grammaire de recherche)
Travail avec Nooj
Travail avec un texte (avec annotations et grammaire de recherche)
Travail avec Nooj
Ecriture d’une grammaire*
File / New / Grammar
Graphical Editor / Rule Editor
Écrire un nouveau paradigme
(nof)
Écrire des formations de mots
(.nom) (четырехэтажный)…
Écrire un élément de syntaxe
Travail avec Nooj
Locate Pattern with Nooj grammar
Travail avec Nooj
Ecriture d’une grammaire*
File / New / Grammar
Graphical Editor / Rule Editor
Travail avec Nooj
Enrichir le dictionnaire avec des tags sémantiques
zelënyj,A+Color+FLX=novyj
zelenovatyj,A+ Color+FLX=
zelënen’kij, A+Color+FLX=novyj
temno-zelënyj, A+Color+FLX=novyj
zelen’,N+f+inan+Color+FLX=smes’
zelenet’,V+intr+ipf+Color+FLX=belet’
zazelenet’,V+intr+pf+Color+FLX=belet’
zazelenet’sja,V+sja+pf+Color+FLX=….
Travail avec Nooj
Travail avec Nooj
• - Travail sur un texte russe
• - Analyser un texte
• - Mettre en œuvre les ressources lexicales
et grammaticales ( + décliner conjuguer)
• - Obtenir son lexique
• - Afficher des annotations
• -Ecrire des grammaires de recherche/ de
désambiguïsation
Rappel : LES CODAGES
Problème de lisibilité des textes:
• Caractères spécifiques des langues mal
représentés č, Ł, Đ, š, Ť, ů, ż, ź, ž etc.
• Codage Occidental 1252
• Codages Est-Européens 1250 et
Cyrilliques (1251, 855,866,KOI-8)
• Codage Unicode
Constituer un corpus aligné ( avec un traitement de texte)
Rappel : Codages informatiques du cyrillique ( internet sous Mozilla Firefox
Constituer un corpus aligné ( avec un traitement de texte)
Convertir si besoin les codages informatiques du cyrillique ( internet et
textes)
Ressources linguistiques & informatiques
pour les langues slaves
Les logiciels d’alignement de corpus
Avec un traitement de texte ( Word ou Open Office Writer)
Hunalign, MkAlign,
Parallel Corpus
Travail avec ses propres textes et traductions
Ressources linguistiques & informatiques
pour les langues slaves
Constituer un corpus aligné
Rechercher des textes traduits
Travailler avec ses propres textes et traductions
Charte de l’ONU, Déclaration Universelle des Droits de
l’Homme, articles de Wikipedia…
Ressources linguistiques & informatiques
pour les langues slaves
Constituer un corpus aligné ( avec un traitement de texte)
26.La société civile n’est
pas une panacée.
27.Elle n’est pas non plus
une abstraction.
28.Au sein même de cette
société civile
internationale, il existe
des rapports de force
comme il en existe dans
les relations entre Etats.
26.Гражданское общество не
панацея.
27.Но оно и не абстракция.
28. В самом международном
гражданском обществе
существует соотношение
сил, точно также как оно
существует в отношениях
между государствами.
Constituer un corpus aligné ( avec un traitement de texte)
Travail préparatoire : téléchargement / codage
Ressources linguistiques & informatiques
pour les langues slaves
Constituer un corpus aligné ( avec MkAlign U. Paris 3)
Constituer un corpus aligné ( avec un traitement de texte)
Résultat d’un alignement avec MkAlign
Ressources linguistiques & informatiques
pour les langues slaves
Constituer un corpus aligné ( avec MkAlign U. Paris 3)
Ressources linguistiques & informatiques
pour les langues slaves
UTILISER MkAlign paramétrage
Ressources linguistiques & informatiques
pour les langues slaves
UTILISER MkAlign : Aligner un texte
Ressources linguistiques & informatiques
pour les langues slaves
RESULTAT de MkAlign : TEXTE en TABLEAU ( format html)
Ressources linguistiques & informatiques
pour les langues slaves
RESULTAT de MkAlign :
MEMOIRE DE TRADUCTION ( format tmx)
Ressources linguistiques & informatiques
pour les langues slaves
UTILISER OmegaT (logiciel de traduction assistée par ordinateur)
Ressources linguistiques & informatiques
pour les langues slaves
UTILISER OmegaT (logiciel de traduction assistée par ordinateur)
Ressources linguistiques & informatiques
pour les langues slaves
UTILISER OmegaT (logiciel de traduction assistée par ordinateur)
Ressources linguistiques & informatiques
pour les langues slaves
UTILISER OmegaT (logiciel de traduction assistée par ordinateur)
Ressources linguistiques & informatiques
pour les langues slaves
UTILISER OmegaT (logiciel de traduction assistée par ordinateur)
Ressources linguistiques & informatiques
pour les langues slaves
LOGICIELS pour le traitement de la langue
CORPUS DE TEXTES EN LIGNE
OPEN OFFICE (avec LINGUIST)
Notepad++ ( conversion de codage)
NOOJ (recherches d’occurrences)
MKALIGN (alignement de textes)
OMEGAT (traduction)