Recensement des donnes pour un dictionnaire lectronique des
Transcription
Recensement des donnes pour un dictionnaire lectronique des
RECENSEMENT DES DONNEES POUR UN DICTIONNAIRE ELECTRONIQUE DES TELECOMMUNICATIONS EN ANGLAIS Shirley THOMAS et Carl STORZ Institut National des Télécommunications Les dictionnaires électroniques Le vocabulaire scientifique se compose de vastes champs sémantiques, qui comprennent certains lexèmes totalement inconnus du grand public et d'autres qui existent dans l'usage courant mais qui n'ont pas le même signifié (par exemple le nom "protocol"). C'est un "jargon" en quelque sorte comme les argots, qui s'adresse à un public de spécialistes. L'un de nos objectifs, en créant ce dictionnaire électronique de télécommunications, est de permettre d'accéder à ce monde "spécialisé". Les lexiques scientifiques sont des systèmes ouverts. Ils sont soumis à une création constante, suivant les innovations et progrès scientifiques et également les effets de mode. Si la création ex nihilo est rare, les possibilités de création sont nombreuses. Le recours aux ressources du vocabulaire latin ou grec reste courant, ainsi que l'emploi de néologismes sémantiques. Très en vogue également dans les milieux scientifiques sont les créations lexicales, qui consistent à utiliser le nom propre des inventeurs (par exemple "théorème de Fourier" etc.) Un autre procédé de création de signifiants utilise les diverses méthodes d'abréviation et de formalisation. Souvent les auteurs scientifiques se servent de variantes courtes d'un lexème ou transforment un groupe nominal en sigle, rendant délicat pour le lecteur non initié le repérage du synonymie avec un référent non abrégé. Les dictionnaires classiques peuvent difficilement rendre compte de cette diversité et de cette innovation quasiment perpétuelle. La création d'une base de données où le lexique des télécommunications sera traité automatiquement répond à un besoin précis au sein des services de France Telecom. Elle mettra à la dispposition des utilisateurs non seulement un dictionnaire très complet et à jour, mais permettra également l'association des informations bibliographiques et linguistiques aux termes recensés, ainsi que des informations nécessaires pour la reconnaissance des termes dans les textes informatisés. Nous avons l'occasion de nous servir des dictionnaires électroniques du LADL (Laboratoire d'Automatique Documentaire et Linguistique, associé à l'université Paris VII et à l'université Marne la Vallée) pour le français et l'anglais, ainsi que les programmes informatiques qui les sous-tendent, ce qui fournira une base de départ très solide pour ce dictionnaire spécialisé. 2 Dans le dictionnaire électronique que nous proposons de créer la terminologie technique s'organise autour de domaines (le traitement du signal, la transmission, les radio-communications etc.) Nous proposons non seulement de relever les termes officiels et normalisés fournis par les différents sociétés et organismes de standardisation, mais aussi d'utiliser des textes récents relevant de ces domaines. Il est prévu dans une deuxième étape de fusionner les textes sur support magnétique et les dictionnaires afin de les indexer automatiquement au moyen des programmes de concordance et d'étiquetage qui font partie du système DELA. A l'intérieur d'un domaine donné, l'utilisateur aura donc accès à l'environnement lexical immédiat du terme, ainsi que la référence précise du texte source. L'utilisateur peut vérifier le cas échéant l'emploi exact du terme en fonction du type de texte en question. La question de la typologie des discours scientifiques joue un rôle non négligeable dans toute réflexion sur la composition d'un dictionnaire spécialisé. Il est important de se rappeler par exemple, que dans un texte hautement spécialisé, tout n'est pas défini. Le lexique est supposé connu. Parcontre dans les textes de vulgarisation, les définitions de toutes sortes sont nombreuses, ainsi que les analogies figuratives et emplois métaphoriques. L'éventail de termes techniques varie également en fonction du type de texte. On pourrait penser qu'un discours d'une plus grande spécialisation donnerait lieu à une plus grande abondance de vocabulaire spécifique. En fait, selon A.M LofflerLaurian (Etudes de Linguistique, n° 51, p.13) l'abondance existe au niveau de la vulgarisation bien plus qu'au niveau de la spécialisation. "Cette dernière utilise un petit nombre de termes très spécifiques, relatif au champ couvert par un article de revue - plus le champ du discours est spécialisé, plus le domaine couvert est restreint." Les utilisateurs Il est primordial également dans toute réflexion sur la composition et compilation d'un dictionnaire spécialisé de ce type de ne jamais perdre de vue les utilisateurs potentiels. La partie anglaise d'un dictionnaire de télécommunications sera consultée dans une grande partie par des utilisateurs francophones. Ceux-ci auront peut-être besoin, selon le but de leur recherche, d'avoir accès non seulement à des informations sémantiques et bibliographiques sur les termes en question, mais également sur leurs propriétés morpho-syntaxiques. C'est une chose de comprendre passivement la signification d'un terme technique dans son contexte, mais une autre de pouvoir le réemployer correctement avec la structure grammaticale appropriée. Dans les dictionnaires électroniques du LADL des informations linguistiques sont associées aux termes recensés. En plus d'un code qui classe les termes selon les parties du discours, les noms, 3 adjectifs, verbes et adverbes sont associés à un code qui décrit leur flexion. La collaboration des futurs utilisateurs dans le développement de cette base de données nous permettra de cerner de plus près des modifications éventuelles ou éléments nouveaux à apporter. Le recensement des termes Pour le recensement de termes anglais, aussi bien que français, nous comptons sur l'aide des enseignants chercheurs de la spécialité en question. Leur contribution quant au dépouillement de textes, quant au travail sur les définitions des termes sera évidemment d'une aide très précieuse. Nous envisageons également la participation des élèves ingénieurs dans le cadre de leur formation en anglais scientifique. Le projet de dictionnaire électronique peut servir en effet de carrefour entre ces trois groupes de personnes à l'INT, à savoir: les enseignants chercheurs scientifiques, les professeurs de langue et les étudiants. En y participant chacun peut apporter ses connaissances et aussi apprendre et s'aider mutuellement à apprendre. A l'Institut National des Télécommunications, l'accent dans les cours d'anglais est mis à la fois sur l'acquisition d'un bon niveau d'anglais général et sur la maîtrise d'un anglais professionnel. Dans la troisième année, par exemple, tous les élèves (à l'heure actuelle 2OO élèves à l'école d'ingénieurs et 12O élèves à l'école de gestion) suivent un module consacré à la préparation d'un micro-projet scientifique en anglais. La consigne est la suivante : rédiger un projet de 2.500 mots (10 pages) en anglais sur un sujet ayant trait au domaine des télécommunications. Ce projet doit inclure un plan, une bibliographie et un lexique du vocabulaire utilisé. Le travail est fait en collaboration avec un enseignant chercheur scientifique du domaine qui conseille l'étudiant sur son choix de sujet et sur le documentation en langue anglaise à consulter. Le travail reçoit ainsi une double correction. Il y a une première note du professeur d'anglais, enseignant dans ce programme spécialisé et une deuxième note du spécialiste scientifique ayant accepté d'encadrer le projet. Cette collaboration déjà existante peut être davantage exploitée en ce qui concerne le recensement de termes pour notre dictionnaire électronique. A l'heure actuelle le lexique du vocabulaire fourni par l'élève prend diverses formes. Certains élèves se contentent d'une liste courte de termes accompagnés parfois de leur traduction en français. D'autres élèves fournissent un lexique plus approfondi avec définitions, références et exemples. Nous proposons dans l'avenir de fournir des critères précis pour la constitution de ce lexique. Nous proposons de demander aux élèves d'inclure les informations suivantes. Premièrement les termes relevés doivent être accompagnés de certaines informations morpho-syntaxiques concernant 4 leur structure (partie du discours) et flexion. Dans le cas de noms, il s'agirait de précisions sur leur invariabilité ("count/non-count") ainsi que le cas échéant leur mise au pluriel. histogram, N,C-s-. input layer, input/layer. NN,C-s-. (input layers, *inputs layer) Un autre élément à identifier serait la source (référence exacte de l'article où l'élève a repéré le terme), ainsi que la phrase complète dans laquelle la terme est apparu. Finalement il y aurait une définition du terme en anglais dans son domaine d'application. - input layer (artificial intelligence, Neural networks) . - Déf: the first layer of a neural network on which input data are placed - Ex: "In each step in the training phase, a vector of normalised input data is presented to the input layer of the network." (Chakraborty et al, New York, 1990) La création de fiches techniques normalisées de cette manière nous permettrait d'avoir une source régulière de termes. Tous les élèves travaillent directement sur traitement de texte et nous pourrions ainsi, après dépouillement et vérification, entrer ces données directement dans la banque de terminologie. De cette manière les élèves participeraient activement à la création de ce dictionnaire. L'exemple que nous donnons ici d'un travail terminologique qui pourrait être associé à la rédaction d'un mémoire, n'est qu'une possibilité parmi plusieurs d'éventuelles collaborations avec les élèves. A l'heure actuelle une tendance dans la formation en langues est la création de cours individualisés et de programmes de semi-autonomie. Le développement de projets et programmes sur tous les aspects ayant trait à la question de terminologie se prêterait bien à ce type de formation. La terminologie semble être un pont en quelque sorte entre la formation linguistique et la formation scientifique. Les possibilités d'enrichissement mutuels sur les deux plans sont en effet multiples. Les implications sur le plan didactique sont loin d'être négligeables. En sensibilisant les élèves au cours de leur formation à l'importance de la terminologie et à certains aspects de la morphologie de la langue anglaise, ils seront plus aptes dans leur vie professionnelle à se servir de cet anglais spécialisé. 5 L'organisation des dictionnaires du LADL - la description morphologique. Comment les dictionnaires du LADL sont-ils organisés à l'heure actuelle ? Quelles sont les principales difficultés liées au recensement des termes techniques anglais et leur formalisation sur le plan morphologique ? Dans l'optique de la création d'un dictionnaire électronique nous nous intéressons bien évidemment à la description des unités élémentaires constitutives des phrases, c'est-à-dire les mots eux-mêmes. Cependant la décision de traiter une unité en tant que "mot" n'est pas si simple. Dans un texte scientifiques les termes recensés sont surtout des noms et des syntagmes nominaux. Que faire des noms formés par juxtaposition ou des termes séparés par un trait d'union. S'agit-il d'un mot ou de deux ? Dans les dictionnaires du LADL, à l'heure actuelle, tous les unités du texte (définies sur l'alphabet des codes ASCII ou EBCDIC à 256 caractères) comportant aucune séparation sont considérés comme des mots simples. Cette délimitation purement formelle mène à traiter des termes tels "decode", "inanimate", "monolayer" formés par composition avec des préfixes soudés, ainsi que tous les mots formés par juxtaposition de termes - "database","feedback", "radiocommunications" - en tant que mots simples. La séparation entre mots simples et mots composées est donc purement graphique et nous oblige de rester très vigilant vis-à-vis des variantes orthographiques. Le terme radiocommunications est, ainsi un mot simple représenté dans le dictionnaire DELAS, tandis que sa variante radio-communications ou radio communications est un mot composé représenté dans le DELAC. Chaque entrée du dictionnaire des mots simples (DELAS) est suivie d'un symbole indiquant la partie du discours à laquelle il appartient et d'un code qui décrit sa flexion morphologique. (Ce codage morphologique permet d'engendrer automatiquement toutes les formes conjuguées et fléchies qui constituent le DELAF). En cas d'homographie l'entrée est affectée de plusieurs codes. Pour les noms anglais, il s'agit d'informations sur leur pluriel quand il existe, pour les verbes, d'un code qui renvoie à une conjugaison type et pour les adjectifs et adverbes, d'informations sur leur suffixation comparative et superlative le cas échéant. - spectograph. N1 (nom de flexion 1) Il faut ajouter un s au pluriel. - rich. A2 (adjectif de flexion 2). Les formes comparatives sont "richer" et "richest" - spatial. AO (adjectif invariable) Le comparatif et le superlatif de cet adjectif ne sont pas formés par affixation. 6 Les formes variantes en ce qui concerne les pluriels des noms sont signalés. Ainsi : - formula. N24;1 (le code 24 renvoie au pluriel formulae et le code 1 au pluriel formulas) L'existence de graphies différentes en ce qui concerne l'usage américain ou britannique est signalée également : - conceptualise V4 (UK) Nous devons également être très vigilant dans le traitement des substantifs "invariables", et dans toute question relative à la notion de "count/non-count". Certains substantifs sont invariables et n'ont pas de forme plurielle: - hardware/hardware - (low-cost digital hardware) La politique adoptée dans le DELAS anglais est de les associer à un code spécifique suivi par un "S" accolé au code, par exemple : - software . N2S (nom invariable singulier) - luminance. N2S Certains substantifs ne s'emploient qu'au pluriel (par exemple "fractals"), mais peuvent également prendre une forme adjectivale invariable au sein des collocations et formes composées : - fractal models, fractal-based description Nous trouverions pour "fractals" et "fractal" les entrées suivantes : - fractals .N2P (nom invariable pluriel) - fractal . AO (adjectif invariable) Quelques substantifs anglais sont singuliers même s'ils portent la marque du pluriel et se terminent en "s" : - electronics . N2S - physics . N2S Tous ces aspects de la morphologie anglaise posent des problèmes pour nos élèves. En les sensibilisant à ces difficultés dans la terminologie scientifique au sein d'un projet concret et réel (audelà d'exercices traditionnels de "much/many" etc.) ils vont peut-être mieux se rendre compte de leur importance et acquérir des compétences linguistiques nécessaires à la maîtrise d'une langue de spécialité. Les abréviations et sigles posent également beaucoup de problèmes pour les apprenants. Si le côté référentiel reste la préoccupation dominante, il est également important de connaître les règles morpho-phonologiques, afin de les réemployer avec le déterminant approprié. Si nous rencontrons un nombre d'acronymes, par exemple, ALGOL ou Transpac, nous trouvons également dans les textes 7 scientifiques une quantité considérable de sigles qui doivent être prononcés comme des suites d'initiales : - a DFT - discrete Fourier transform mais - an ADC - analogue to digital converter mais aussi - an FIR - finite impulse response Il est normalement prévu de constituer un dictionnaire à part pour ces termes et il nous semble essentiel d'inclure ce genre d'information morpho-phonologique. Etant donné que les termes abrégés et sigles se trouvent généralement dans le même texte que le référent non-abrégé, il serait également souhaitable d'envisager un système de renvois, afin de les traiter en tant que variantes du terme initial. A côté des codes associés à un composé tel que "discrete cosine transform", par exemple nous trouverions également ses variantes elliptiques et abréviations : - "discrete cosine transform" ou "DCT" ou "cosine transform". C'est cependant dans l'analyse des mots composés, à la fois du point de vue de leur traitement automatique et également du point de vue de leur utilisation dans l'anglais scientifique que nous sommes confrontés à l'analyse la plus complexe. En effet les mots composés sont les bêtes noires parmi les substantifs comme les "phrasal verbs" pour les verbes anglais. Nous rappellerons ici juste quelques idées importantes dans ce domaine. Tout d'abord il faut s'assurer que l'expression est bien figée - il peut s'agir simplement d'une collocation fréquente. Si d'un point de vue de leur traitement automatique la distinction entre les mots simples et les mots composés peut se faire assez facilement à partir de critères purement orthographiques, la distinction entre les mots composés et les séquences libres de mots simples est beaucoup plus difficile à opérer. Une définition purement formelle ne suffit pas. Par exemple les deux groupes nominaux "yellow level" et "grey level" sont structurellement identique (Adjectif Nom), mais tandis que le premier groupe signifie seulement un niveau de couleur jaune, le deuxième peut également représenter dans le domaine du traitement de l'image "le degré de luminosité d'une image", et devrait être traité en tant que composé. Dans les dictionnaires des mots composés (DELAC), il est essentiel d'identifier précisément la structure des composés afin d'assurer la cohérence avec les dictionnaires des mots simples et de permettre la reconnaissance automatique des mots composés dans les textes. Les noms composés sont classés ainsi selon leur structure morphosyntaxique, par exemple : - la classe NN contient des composés Nom Nom, comme "Fourier transform"; - la classe AN contient des composés Adjectif Nom, comme "binary element"; - la classe NPant contient des composés Nom Participe présent, comme "image processing". 8 Tous les composés doivent également être décrits du point de vue de leur nombre et flexion. En anglais dans la plupart des cas c'est l'élément le plus à droite qui porte la flexion (right-hand head rule): - linear conversion properties - *linear conversions properties mais ici encore nous trouvons des exceptions : - least-squares error criterion, emissions sampling Nous devons évidement signaler aussi tous les noms composés "non-comptables", ceux qui n'ont pas de pluriel et ceux qui sont toujours au pluriel : - image processing, image/processing. NPant s (invariable singulier). L'analyse des mots composés techniques est davantage compliquée par le fait que la surcomposition et modification sont très fréquentes. Les composés de deux ou trois termes peuvent être transformés pour en faire de nouveaux noms composés ou des surcomposés: - analog-to-digital convertor, APrepAN -------> (multi-step (analog-to-digital convertor)) multi/step/analog/to/digital/convertor. PFX.N.A.PREP.A.N Devons nous considérer ce terme en tant qu'un seul composé ? Quand nous sommes confrontés à des séries de huit ou neuf termes comportant de composés juxtaposés qui sont eux-mêmes modifiés, toute analyse relative à leur degré de figement devient très délicat : - [relaxed look-ahead] technique - [least mean-squared (LMS)] [adaptive filters] ---------> - [relaxed look-ahead] pipelined [LMS] [adaptive filters] AO V AO V.PP sigle AO N Les variantes orthographiques peuvent également poser problème surtout dans l'emploi souvent optionnel du trait d'union. C'est dans une grande mesure une question du choix personnel. Nous remarquons que dans les cas de groupes composés à nombreux termes, l'emploi du trait d'union peut rendre le composé plus facile à lire : high-order single-stage single-bit oversampling A/D convertor De même l'emploi d'un trait d'union peut permettre d'éviter des ambiguïtés potentielles d'interprétation. Dans l'exemple suivant, par exemple: - narrowband frequency-selective filter 9 en employant un trait d'union entre frequency et selective, le rédacteur signale au lecteur nonspécialisé que narrowband qualifie frequency-selective ou filter, et non pas le terme frequency. L'anglais possède un nombre important de mots composés et dans les textes technico-scientifiques ils sont particulièrement abondant. Pour les apprenants (et non-spécialistes) la compréhension et l'utilisation de ces termes posent énormément de problèmes, surtout quand le composé (ou surcomposé) dépasse trois unités lexicales. Pour les francophones, le problème principal réside peutêtre dans le fait que le génie de la langue anglaise est à l'inverse de celui du français. La lecture se fait de droite a gauche. Les mots complémentaires se placent avant le mot central (ou "head"). Celui qui est le plus proche du "head" donne l'information le plus important ou la moins dissociable. C'est en fait tout une gymnastique mental qui est impliquée, et apprendre à les employer correctement (sans l'aide d'un dictionnaire spécialisé ) présente une réelle difficulté. Si l'on confronte les apprenants au cours de leur formation linguistique avec les composés typiques des textes scientifiques, et si on leur montre leurs structures les plus courantes, ils manieront plus facilement dans l'avenir cet anglais spécialisé. La morphologie de le l'anglais, simple au premier abord, fournit en fait un terrain riche d'intérêt dans le contexte du langage scientifique. Une nouvelle impulsion aux cours LSP La motivation des élèves a souvent tendance à s'estomper quelque peu au cours de leur formation linguistique et la collaboration des élèves à un projet concret de ce genre peut devenir un générateur de motivation. Sensibiliser les élèves aux problèmes de morphologie et de la syntaxe, liés au recensement des termes les rendra évidemment plus aptes à participer fructueusement au projet, mais leur permettra également d'acquérir des compétences linguistiques dans un domaine spécialisé. A partir de ces quelques exemples nous voyons des possibilités multiples d'une éventuelle exploitation en cours de langue, non seulement au niveau du "produit fini" qui pourrait devenir une aide à l'auto-apprentissage, mais également au niveau de son élaboration. Le dialogue entre les différents participants peut avoir lieu dans la langue-cible (ici l'anglais) donnant ainsi l'occasion authentique de communiquer. Ce genre de projet peut facilement jeter les bases d'un cours complet de langue travaillant sur les quatre compétences. Pour les professeurs de langue les avantages sont également multiples. Il est vrai que le professeur de langue n'est pas un spécialiste scientifique. Une telle base de données lui fournira une quantité 10 d'informations surtout lexicales mais aussi langagières à partir desquelles il pourra créer des exercices. C'est par essence un projet multidisciplinaire, et les utilisateurs potentiels auront un rôle primordial à jouer dans la conception et l'élaboration de l'outil. 11 BIBLIOGRAPHIE CHAIGNEAU, K & ENGLISH, K. (1994) Building an electronic bibliography into a terminological database, Communication présentée au Colloque "Gestion électronique de documents", Paris 29 janvaier 1994. COURTOIS, B. (1990) Un système de dictionnaires électroniques pour les mots simples du français, dans Langue Française, N° 87, Larousse. GROSS, M. (1989) La construction des dictionnaires électroniques, dans Ann. Télécommun, 44, N° 1-2. HUCKIN, TN.& OLSEN, A. (1983) English for Science and Technology, McGraw Hill. KOCOUREK, R. (1982) La langue française de la technique et de la science, O. Brandstetter Verlag, Wiesbaden. LOFFLER-LAURIAN, AM. (1983) Typologie des discours scientifiques : deux approches, dans Etudes de Linguistique Appliquée, N° 51, Didier Erudition. McCARTHY, M.(1990) Vocabulary, Oxford University Press. SELKIRK, E. (1982) The syntax of words, Massachusetts Institute of Technology. SILBERZTEIN, M. (1990) Le dictionnaire électronique des mots composés, dans Langue Française, N° 87, Larousse. SOULA, JP et al. (1992) Communiquer en anglais scientifique, Presses Pocket. TRIMBLE, L. (1985) English for science and technology, CUP.