Faisabilite de bases de donnees lexicales
Transcription
Faisabilite de bases de donnees lexicales
Subvention de recherche ROCARE 2008 Étude de la faisabilité de bases de données lexicales pour un enseignement intégré des langues nationales: Le cas du Sénégal Parrain du projet Pr. Souleymane Faye, Centre de Linguistique Appliquée de Dakar Université Cheikh Anta Diop (UCAD) Equipe de recherche Anna Marie Diagne (Chercheur, Laboratoire de Linguistique, IFAN-CAD) Adjaratou Oumar Sall (Chercheur, Laboratoire de Linguistique, IFAN) Sophie Wade (Doctorante, Département de Linguistique, UCAD) Papa Oumar Fall (Doctorant, Département de Linguistique, UCAD) Sénégal Recherche financée par le Réseau Ouest et Centre Africain de Recherche en Education (ROCARE) avec le soutien du projet Centre d’Excellence Régionale UEMOA et du Ministère des Affaires Etrangères des Pays Bas ROCARE / ERNWACA • Tel: (223) 20 21 16 12, Fax: (223) 20 21 21 15 • BP E 1854, Bamako, MALI Bénin • Burkina Faso • Cameroun • Centrafrique •Côte d’Ivoire • Gambie • Ghana • Guinée • Mali • Mauritanie • Niger • Nigeria • Sénégal • Sierra Leone • Togo www.rocare.org Sommaire Introduction ............................................................................ 1 1 Justification de l'étude ....................................................... 2 1.1 Diversité linguistique en Afrique ............................................................................... 2 1.2 Introduction des langues nationales dans les cursus de l'éducation formelle............. 2 1.2.1 Langues maternelles et éducation formelle ........................................................ 2 1.2.2 Eléments sur la gestion linguistique dans la politique éducative au Sénégal..... 3 1.2.2.1 La situation du français .................................................................................. 3 1.2.2.2 Les langues nationales à l'université .............................................................. 4 1.2.2.3 L’alphabétisation des adultes ......................................................................... 4 1.2.3 La nécessité d'une approche intégrée de l'enseignement en langues nationales. 4 1.3 Choix des langues....................................................................................................... 5 1.3.1 Wolof et soninké ................................................................................................ 6 1.3.2 Mënik et laalaa ................................................................................................... 6 1.3.3 Le français .......................................................................................................... 7 1.4 Choix des domaines sémantiques............................................................................... 7 2 Revue des dictionnaires existants sur les langues sénégalaises ............................................................................ 9 3 Méthodes de travail ......................................................... 10 3.1 Ressources humaines................................................................................................ 10 3.1.1 Linguistes ......................................................................................................... 10 3.1.2 Autres ressources humaines ............................................................................. 11 3.2 Matériel .................................................................................................................... 11 3.2.1 Matériel d'enregistrement et de numérisation .................................................. 11 3.3 Élaboration des corpus ............................................................................................. 11 3.3.1 Questionnaires lexicaux ................................................................................... 11 3.3.2 Collecte de textes ............................................................................................. 12 3.3.3 Questions de transcription ................................................................................ 12 3.3.3.1 Orthographe.................................................................................................. 12 3.3.3.2 Phonétique et phonologie ............................................................................. 12 3.4 Instruments utilisés................................................................................................... 12 3.4.1 Toolbox ............................................................................................................ 12 3.4.2 Elan................................................................................................................... 13 3.4.3 IMDI................................................................................................................. 13 3.4.4 Microsoft Keyboard Layout Creator ................................................................ 13 4 Configuration du projet de dictionnaire........................... 15 4.1 Organisation générale............................................................................................... 15 4.2 Bases de données sénégalaises ................................................................................. 16 4.3 Base de données française........................................................................................ 18 4.4 Base de données multilingue.................................................................................... 18 4.4.1 Ordre alphabétique des fiches .......................................................................... 18 4.4.2 Encodage automatisé des données de la base de données multilingue ............ 19 5 Règles de gestion du contenu des bases de données ........ 22 5.1 5.2 5.3 Remplissage de la base de donnée de la langue pivot.............................................. 22 Remplissage des bases de données en langue nationale .......................................... 22 Terminologie grammaticale en langue nationale ..................................................... 24 i 5.4 Élaboration des définitions des lexèmes .................................................................. 24 5.4.1 Définitions à contenu sémantique .................................................................... 24 5.4.2 Définitions à contenu grammatical .................................................................. 25 5.5 Gestion des homonymes, synonymes et expressions dérivées................................. 25 5.6 Cas des termes intraductibles ................................................................................... 26 5.7 Ajouts de termes non prévus au départ et extension des bases de données ............. 26 5.8 Exemplification des lexèmes.................................................................................... 27 6 Configuration du site web du dictionnaire multilingue.... 28 6.1 6.2 6.3 Architecture .............................................................................................................. 28 Possibilités d’interrogation du dictionnaire.............................................................. 29 Sorties papier et sous formats électroniques ............................................................ 30 7 Relations avec d'autres projets......................................... 32 7.1 Conception d’un dictionnaire électronique unilingue wolof et bilingue woloffrançais ................................................................................................................................. 32 7.2 Documentation et description du bëdik (mënik) ...................................................... 33 7.3 Thèses de linguistique sur le mënik et le laalaa ....................................................... 33 8 Retombées pour la recherche........................................... 35 8.1 8.2 Reproduction du modèle de dictionnaire ................................................................. 35 Mise à disposition de corpus .................................................................................... 35 9 Perspectives ..................................................................... 36 9.1 Élaboration de correcteurs orthographiques et de configuration de claviers pour les langues nationales ................................................................................................................ 36 9.2 Extension de la base de données .............................................................................. 36 9.3 Élaboration de dictionnaires illustrés ....................................................................... 37 9.4 Diffusion du dictionnaire sur téléphones portables.................................................. 37 10 Recommandations aux décideurs et aux pouvoirs publics38 10.1 Prise en compte de la dimension d’intégration linguistique dans l’élaboration du matériel didactique ............................................................................................................... 38 10.2 Développement de recherches transnationales sur les langues véhiculaires............ 38 10.3 Réflexion sur les formats de diffusion autour des productions en langues nationales 39 Conclusion ............................................................................ 40 Bibliographie ........................................................................ 41 ii Illustrations Illustration 1: Schéma global du projet de dictionnaire ........................................................... 16 Illustration 2: fiche de base de données en langue nationale ................................................... 17 Illustration 3: Exemple de fiche de la base de données française ............................................ 18 Illustration 4: fiche multilingue avant encodage automatique ................................................. 19 Illustration 5: Fiche multilingue interlinéarisée ....................................................................... 20 Illustration 6 : Données françaises interlinéarisées dans la base mënik................................... 22 Illustration 7 : Insertion du lexème ménik après enquête......................................................... 22 Illustration 8 : Page d’accueil du site ....................................................................................... 28 Illustration 9 : Dossier du site wosomela ................................................................................. 29 Illustration 10 : Page multilingue du dictionnaire en ligne (version provisoire) ..................... 30 iii Remerciements Ce travail a été réalisé grâce à l'appui financier du Réseau Ouest et Centre Africain de Recherche en Education (ROCARE), nous leur exprimons ici nos sincères remerciements. Ces remerciements s'adressent aussi à notre parrain scientifique, le Professeur Souleymane Faye, pour son excellent encadrement, ses conseils, ses critiques, ses suggestions et surtout sa disponibilité de toujours. Nous tenons également à remercier, pour leur appui, la Direction de l'IFAN-CAD, le Chef du Laboratoire de Linguistique de l’IFAN-CAD, Mme Jeanne Lopis Sylla, le Département de Linguistique de la Faculté des lettres et Sciences humaines de l'UCAD, la Direction de l'Alphabétisation et la Direction des Langues nationales A tous nos informateurs et personnes ressources, Almamy Konaté, Mansour Khouma et tant d'autres, nous exprimons nos vifs remerciements pour leur patience, leur disponiblité et tout leur engagement sans faille pour la promotion des langues nationales. Merci également à tous nos collègues et amis de l'IFAN. iv Introduction L’introduction des langues nationales et leur place dans les systèmes éducatifs en Afrique sub-saharienne ont toujours fait l’objet de réflexions, de débats et d'analyses. Au Sénégal, l'expérience qui a recommencé après l'échec des années 80, en 2002, est louable et même si de bons résultats commencent à être perçus, beaucoup d'obstacles restent encore à lever. Le plus évident est le manque criard de documents didactiques. Le problème qui se pose dans l'enseignement des langues nationales est d’ordre méthodologique. Au lieu de développer un système éducatif globalement monolinguiste à l’image de ce qui se fait dans nombre de pays développés, un système bilingue d'éducation, avec le français, langue de l’ancienne puissance coloniale comme langue officielle et langue d’enseignement, demeure en vigueur. Cette méthode d’enseignement qui ne tient pas compte des réalités linguistiques et socioculturelles des milieux dans lesquels elle s’applique, est en grande partie responsable du taux élevé d’échecs et de retards scolaires constaté dans beaucoup d’états africains post-coloniaux. Le problème de la disponibilité d’outils de travail adéquats se pose également dans la traduction impliquant deux ou plusieurs langues nationales. Dans leur pratique de tous les jours, les traducteurs sont obligés de recourir au français pour traduire un document donné d’une langue nationale à une autre. L’étude de faisabilité, que le présent document présente, expose une méthodologie de réalisation de bases de données lexicales permettant de produire des dictionnaires multilingues pour l’enseignement et la traduction. Elle concerne quatre langues sénégalaises, à savoir le wolof, le soninké, le mënik, le laalaa, et une langue européenne, le français. Sur le plan informatique tous les logiciels utilisés sont gratuits et/ou open source. Le présent rapport renferme dix chapitres. Le chapitre 1 la pertinence d’une telle étude en contexte africain. Le chapitre 2 passe en revue les différents dictionnaires existants sur les langues sénégalaises objets de l’étude. Les chapitres 3 à 6 exposent à proprement parler la méthodologie de travail, le déroulement de l’étude de faisabilité ainsi que la réalisation de son site web, qui constitue l’élément majeur de la stratégie de diffusion mise en œuvre. Enfin, les 4 derniers chapitres expliquent les relations nouées par notre équipe avec d’autres projets, les perspectives que notre étude ouvre dans la recherche sur les dictionnaires en langues nationales, avec à terme, un ensemble de recommandations à l’adresse des décideurs et des pouvoirs publics, qui nous l’espérons, trouveront un intérêt dans cette contribution. 1 1 Justification de l'étude 1.1 Diversité linguistique en Afrique L'intégration régionale de l'Afrique n'est possible que si l'on tient compte de la culture de chacun des peuples qui la composent. À l'heure de l'intégration africaine, il est impératif et plus que nécessaire de respecter la diversité linguistique. Si les citoyens africains veulent vivre, travailler ensemble et entretenir des relations économiques, sociales et culturelles les uns avec les autres, ils doivent nécessairement acquérir les compétences leur permettant de communiquer plus efficacement et de mieux se comprendre. Dans une certaine mesure, cet impératif est déjà pris en compte dans le quotidien des Africains. La réalité est que la mobilité des personnes, la dynamique et le brassage de ces différents individus font que ceux-ci réclament plusieurs identités ethniques et acquièrent plusieurs langues vernaculaires. Le fait d'apprendre et de parler d'autres langues est un encouragement à s'ouvrir davantage aux autres, à leur culture et à leurs modes de représentations. Le problème qui se pose cependant est celui de l'enseignement de ces langues vernaculaires compte tenu du manque d'outils linguistiques et pédagogiques adéquats permettant de mener à bien cette entreprise. L'existence des systèmes d'éducation modernes et la nécessité pour nos pays de constituer des ensembles toujours plus grands rendent aujourd'hui impératifs le développement d'outils linguistiques dont l'objectif est de faciliter et de promouvoir le passage d'une langue africaine à une autre. L'élaboration de passerelles linguistiques interafricaines ne doit pas toutefois signifier que l'Afrique va se replier sur elle-même. Les outils élaborés devront servir de passerelles avec des langues non africaines, aussi bien pour les langues européennes qui servent de langues officielles dans nos pays, que pour les autres langues du monde. 1.2 Introduction des langues nationales dans les cursus de l'éducation formelle 1.2.1 Langues maternelles et éducation formelle L’introduction des langues nationales à l’École est aujourd’hui une nécessité primordiale aussi bien sur le plan linguistique que sur le plan psycho-pédagogique. Sur le plan linguistique, l'enseignement des langues nationales permet de valoriser les langues locales, de sauvegarder l'identité culturelle des enfants et de promouvoir la solidarité entre les différentes communautés. 2 Sur le plan psycho-pédagogique, cet enseignement, en plus d'améliorer les performances des élèves permet d'assurer la continuité du développement psycho-moteur, affectif et cognitif de l'enfant. Aussi, l’UNESCO avec son réseau Linguapax, la Banque mondiale et l’Organisation Internationale de la Francophonie (OIF), considèrent l'importance des langues africaines dans le développement des pays africains et font de leur introduction dans l’éducation formelle des facteurs clef du développement des systèmes éducatifs africains. C’est ainsi qu’il a été reconnu que: • l’éducation de base doit faire en sorte que l’individu acquière et maintienne vivante sa langue et sa culture et qu’il reconnaisse en elle des éléments clefs de son appartenance à une société productive et démocratique; • la langue maternelle constitue un instrument de communication personnelle et cela suppose une utilisation efficace de cet outil dans toutes les situations de communication. Cela n’est possible qu'avec la nécessaire implication des linguistes, qui doivent contribuer par leurs travaux à l’élaboration de l’outillage didactique des langues nationales. 1.2.2 Eléments sur la gestion linguistique dans la politique éducative au Sénégal Depuis les années 70, le Sénégal s’est résolument engagé dans une politique d’officialisation des règles d’orthographes des langues reconnues comme nationales. Entre 1975 et 1985, six langues locales ont été choisies et codifiées sur une trentaine et sont considérées comme langues nationales. Dix sept autres langues ont été codifiées entre 2002 et 2008. À ce jour, 19 sur les 23 langues codifiées disposent d’un décret officiel. 1.2.2.1 La situation du français Le français est la langue officielle et d'enseignement au Sénégal. Tout curriculum de gestion des langues dans l'enseignement doit en tenir compte. Dans la situation actuelle, seul le français est enseigné, ce qui pose des problèmes de différentes natures dont les principaux sont les échecs et les retards scolaires. C'est en réaction à cet état de fait qu'il a été décidé de revoir les curricula dans l'optique d'introduire les langues nationales dans le cursus d'enseignement. Des expériences sont en cours. Leur évaluation a montré qu'un des problèmes majeurs est le manque de matériel didactique adéquat. La base de donnée que nous proposons se veut une réponse à la question 3 des outils lexicaux pouvant entrer en jeu dans un environnement africain multilingue semblable à celui du Sénégal. 1.2.2.2 Les langues nationales à l'université Contrairement à la situation qui prévaut pour l’enseignement élémentaire et secondaire, les langues nationales sont depuis plusieurs décennies présentes dans le cursus d’enseignement supérieur. La faculté des lettres et sciences humaines de l’Université Cheikh Anta Diop offre ainsi à ses étudiants la possibilité de choisir une langue nationale comme deuxième langue. Actuellement sont enseignés le wolof, le pulaar, le diola et le sérère. Les autres langues ne sont pas encore représentées en raison du manque d’enseignants spécialistes. 1.2.2.3 L’alphabétisation des adultes Soucieuse de renforcer les capacités de sa population, tout en tenant compte de sa diversité, le Sénégal s’est impliqué tôt dans une politique d’alphabétisation des adultes, afin de donner, à ceux et celles qui étaient trop âgés pour intégrer le système formel d’éducation, l’opportunité d’apprendre à lire, écrire et calculer dans leur propre langue. Un accent particulier a été mis sur la formation des femmes, celles-ci constituant une population particulièrement défavorisée en matière d’alphabétisation. Ainsi le Sénégal dans le cadre du Projet de Développement des Ressources Humaines (PDRH) s’est appuyé sur les groupements féminins pour vaincre l’absentéisme et le manque de motivation des femmes, constatés lors de la mise en ouvre des programmes d’alphabétisation (Faye, 2001). 1.2.3 La nécessité d'une approche intégrée de l'enseignement en langues nationales. La situation linguistique du Sénégal montre que le wolof est la langue la plus parlée au Sénégal. Les statistiques de 1988 (Direction de la Prévision et de la Statistique, 1993) montrent en effet: − Que 49,2% de la population ont comme langue première le wolof ; − Que 22% de la population utilisent le wolof comme seconde langue. Cela indique donc que le wolof ne peut être occulté dans l'enseignement des langues nationales à l'École. On peut donc s'attendre à ce que, quel que soit la composition linguistique d'une agglomération donnée au Sénégal, le wolof fasse obligatoirement partie du curriculum linguistique d’enseignement. 4 Néanmoins dans la majorité des cas, cette langue hégémonique ne saurait être la seule qui entre en jeu. Nous basant toujours sur l'étude statistique citée, on constate que 50,8% de la population sénégalaise a pour première langue une langue autre que le wolof. Un curriculum linguistique qui prend en compte la diversité linguistique nationale et le droit pour chaque individu de pouvoir lire et écrire dans sa langue, doit prendre ce fait en compte et prévoir en plus du wolof, au moins une autre langue d'enseignement qui pourrait varier selon le configuration du milieu concerné. Le fait que des classes puissent être multilingues, implique que les outils didactiques devant entrer dans le curriculum doivent prendre en compte cet aspect. C'est la raison pour laquelle notre base de données intègre 4 langues sénégalaises avec possibilité directe de traduction des termes d'une langue à l'autre. 1.3 Choix des langues Comme la plupart des langues africaines, les quatre langues choisies pour cette étude n'ont pratiquement pas bénéficié jusqu'à présent des avantages découlant des avancées de l'informatique depuis la fin des années 1990 en matière d'universalisation du traitement (Unicode) et d'échange (XML) des données textuelles. La disponibilité des données lexicologiques du projet de recherches sous forme électronique, en conformité avec les standards Unicode et XML, permettra non seulement leur exploitation à long terme par des chercheurs en sciences sociales mais aussi leur réutilisation et leur intégration dans des applications d'ingénierie linguistique tel qu'un vérificateur orthographique. La base de données issue du projet pourra également servir à élaborer des outils de traduction et des modules de didactique à différents niveaux dans chacune des langues impliquées. Le projet de recherches vise en outre à poser les jalons d'une linguistique de corpus par l'élaboration de bases de données au départ linguistiques, disponibles et extensibles pour tout chercheur en sciences sociales qui souhaiterait y contribuer par l'ajout de son propre corpus ou les utiliser pour étudier d'autres aspects des sociétés dont elles sont issues. Le modèle de données qui sera utilisé sera conçu de telle manière à pouvoir être réutilisable pour d'autres projets du même type. L'étude sera axée autour de deux domaines sémantiques, ceux de la santé (paludisme) et de l'éducation (scolarisation des filles). 5 Le nombre de domaines sémantiques de l'étude a volontairement été limité pour permettre une analyse comparative pointilleuse des différences de sens pouvant exister entre les langues pour une même notion. La problématique de l'élaboration d'une définition pour chaque lexème et d'un métalangage grammatical dans chaque langue y bénéficiera d'une attention particulière. Ce projet a en outre pour ambition de contribuer à la sauvegarde des langues en danger par une mise à disposition des données sur le laalaa et le mënik, qui sont des langues menacées, parlées par des minorités ethniques. 1.3.1 Wolof et soninké Le wolof et le soninké sont deux des langues majoritaires au Sénégal et font partie des premières reconnues comme nationales dans ce pays. Le wolof est parlé comme langue première ou seconde par la majorité de la population sénégalaise. Le soninké est parlé essentiellement dans le département de Bakel, à l'est du Sénégal. Ces deux langues ont été choisies en raison de leur statut de langue nationale et de leur diversité typologique et culturelle. Le wolof est une langue ouest-atlantique, de la famille Niger-Congo d'après la classification de Greenberg (1970) tandis que le soninké est une langue mandé ouest (ibid.). Disposer de ces deux langues pour notre étude de faisabilité noua a permis de nous confronter directement aux problèmes d'ordre scriptural et grammatical1. Des problèmes d'ordre sémantique pouvaient également survenir, l'aire culturelle mandé étant différente de celle ouest-atlantique. Les cas de figures qui se sont présentés auraient pu ne pas apparaître si avec le wolof nous avions choisi le pulaar qui est également une langue ouest-atlantique ou si nous avions choisi en plus du soninké, le mandinka, autre langue mandé. 1.3.2 Mënik et laalaa Le mënik et le laalaa sont des langues minoritaires au Sénégal considérées comme des langues en danger. Dans son récent Atlas des langues en danger dans le monde (Moseley, 2009), l’Unesco estime qu’une langue est en péril « lorsque ses locuteurs cessent de l’utiliser, réservent son usage à des domaines de plus en plus restreints, emploient un moins grand nombre de registres et arrêtent de la transmettre à la génération suivante ». Cette situation peut découler de facteurs externes dus à une domination militaire, économique, religieuse, éducationnelle, de l'urbanisation galopante, à la mobilité des populations ou de facteurs 1 Le wolof est une langue à classes nominales, ce qui n'est pas le cas du soninké ; le soninké est une langue à tons, tandis que le wolof n'en comporte pas 6 internes qui se manifestent par une attitude négative de la communauté envers sa propre langue. Le mënik et le laala sont des langues en danger caractérisées par un faible nombre de locuteurs, du fait l'exode rural de ses locuteurs, de la transmission médiocre de la langue aux plus jeunes et de l'évangélisation des populations qui ont tendance à parler le français au détriment de leurs langues. Le mënik a rang de langue nationale du fait qu'il dispose d'un décret régissant son orthographe. La codification du laalaa est en cours mais non encore achevée au moment de la rédaction de ce rapport. La prise en compte de ces deux langues dans le projet se comprend comme la prise en compte de la diversité linguistique pouvant exister dans un milieu donné. Ainsi, dans un village mënik, la possibilité d'avoir une classe multilingue en langue nationale wolof-mënik doit pouvoir exister et par conséquent les outils didactiques correspondant doivent pouvoir être créé. A titre d’exemple, la base de donnée que nous proposons offre ainsi la possibilité de traductions entre le wolof et le mënik, par exemple. La prise en compte de ces langues entre en outre, dans l'entreprise de sauvegarde et de revalorisation des langues minoritaires au Sénégal. 1.3.3 Le français La prise en compte du français dans notre étude se justifie de deux manières: − le français étant la langue officielle et d'enseignement au Sénégal, toute tentative d'élaboration d'outil didactique doit la prendre en considération ; − du point de vue heuristique, le français est la langue pivot du projet, étant donné que c'est la seule qui est comprise par l'ensemble des contributeurs. Nous verrons dans la section sur la configuration de la base de données que c'est la langue qui a servi de point de départ et de coordination de la base de données, bien que dans la présentation finale, elle ne revêt pas un statut particulier. 1.4 Choix des domaines sémantiques La connaissance du vocabulaire et du discours que les peuples tiennent sur l'éducation contribue à une meilleure appréhension des systèmes d'éducation endogènes. La constitution de tels vocabulaires permettra à terme, d'une part, d’élaborer des politiques d'éducation mieux adaptées aux milieux dans lesquelles elles sont sensées s'appliquer, et d'autre part, de limiter 7 le taux d'échec des systèmes d'éducation en général et de permettre des campagnes d'éducation ciblées sur un thème donné, en particulier. Le temps, les moyens limités et le caractère d'étude qualitative du projet ne permettait pas de faire une base de données exhaustive comprenant au moins 6000 entrées lexicales. L'équipe a donc opté pour une sélectivité des domaines sémantiques que la base de données devait couvrir. Après une consultation sommaire basée essentiellement sur les connaissances des contributeurs qui ont tous une expérience d'enquête de terrain dans les milieux concernés, le choix s'est porté sur deux domaines : Le paludisme et la scolarisation des filles. La pratique a cependant très vite mis à jour que le traitement exclusif du lexique de ces domaines serait insuffisant pour la traduction d'un texte sur le paludisme par exemple. Nous avons donc opté pour l'ajout d'un troisième domaine réunissant toutes les entrées qui n'appartiennent à aucun des domaines listés ci-dessus, à savoir, le vocabulaire fondamental 8 2 Revue des dictionnaires existants sur les langues sénégalaises Il existe plusieurs dictionnaires sur les langues nationales sénégalaises. Le wolof est en l’occurrence particulièrement bien doté. La majorité des dictionnaires concernant cette langue sont cependant de type bilingue. Sont disponibles des dictionnaires wolof-français (Dial, pas de date; Diouf, 2003; Fal, Santos, & Doneux, 1990; Faye, 1996), et des dictionnaires wolofanglais, (Gamble, 1991; Kantorek, 2005; Munro & Gaye, 1997). Il n’existe à notre connaissance qu’un seul dictionnaire unilingue wolof, le Sekk bu ndaw de Lamin Kebaa Sekk (1999). En ce qui concerne le soninké, on recense également quelques dictionnaires bilingues avec le français et l’anglais. On peut citer le Lexique soninke (sarakole)-français de Bathily et Meillassoux (1975) parmi les plus anciens, et le Dictionnaire soninké-français de Dantioko (2003) parmi les plus récents. Il existe néanmoins d’autres ouvrages du même type (Dramé, Galtier, & Dantioko, 1977; B. Smeltzer & S. Smeltzer, 1997) ainsi que des glossaires en ligne. Parmi ceux-ci dictionnaire soninké –anglais a été recensé (Hart, pas de date) Pour le mënik, le seul ouvrage recensé est le Thésaurus Tenda. Dictionnaire ethnolinguistique de langues sénégalo-guinéennes (bassari-bedik-konyagi) de M. P Ferry (1991) Quant au laalaa, il ne dispose pas, à notre connaissance, de dictionnaire ou de lexique publié. 9 3 Méthodes de travail 3.1 Ressources humaines 3.1.1 Linguistes Quatre chercheurs – les membres de l'équipe du projet – ont travaillé à réunir les corpus et configurer les bases de données. Chaque chercheur était responsable d'une langue: − Sophie Wade pour le mënik: Étudiante au Département de Linguistique de l'Université de Dakar, elle a soutenu en 2006 un mémoire de maîtrise sur le thème approche syntaxicosémantique du verbe en mënik. Elle poursuit sa spécialisation en analyse discursive et syntaxique des langues Tenda en général et du mënik en particulier dans son projet de doctorat. C’est ainsi que depuis octobre 2007 elle conduit une recherche de doctorat sur le thème les marques discursives et syntaxiques dans la cohérence du discours mënik. Son mémoire de DEA, soutenu en juin 2007 a constitué le premier jalon de cette recherche. − Papa Oumar Fall pour le laalaa: Inscrit en troisième cycle au Département de Linguistique depuis 2007, il prépare une thèse de doctorat sur le thème: Phonologie et morphologie du laala. Ses recherches actuelles sur les langues cangin dont le laala fait partie, font suite à un mémoire de maîtrise: Contribution à la phonologie du laala (2005) et à un mémoire de DEA sur les pronoms en laala (2006). − Adjaratou Oumar Sall pour le wolof : Spécialiste de la syntaxe du wolof, lle a soutenu sa thèse sur la subordination en wolof. Elle est également impliquée dans la recherche sur la didactique des langues et dans la documentation des langues parlées par les minorités ethniques au Sénégal. − Anna Marie Diagne pour le soninké: Spécialiste de cette langue, elle a écrit une thèse sur la phonologie et la morphologie du soninké (Diagne 2006). Elle dispose donc d'un corpus lexical et phrastique assez important et d'une expérience dans le domaine de la gestion de base de donnés lexicales et grammaticales avec Toolbox. Elle a en outre, participé au projet conception d’un dictionnaire électronique unilingue wolof et bilingue woloffrançais (Cissé, Diagne, van Campenhoudt, & Muraille, 2008) sur l'ossature duquel le présent projet est en partie basé. 10 3.1.2 Autres ressources humaines Dans le cadre de la mise au point du site de dictionnaire et de la programmation des différents types de sorties, l'équipe du projet a fait appel à un informaticien du Centre de Calcul Informatique de l’UCAD. Différents informateurs ont participé au projet comme personnes ressources, pour la collecte de corpus et l’élaboration des définitions de lexèmes et de phrases d’illustrations. Ils ont également servi de locuteurs pour l’enregistrement des illustrations sonores de la base de données. 3.2 Matériel 3.2.1 Matériel d'enregistrement et de numérisation Les enregistrements ont été fait en tenant compte des exigences de qualité scientifique exigés en phonétique, ceci afin que les enregistrements effectués puissent servir de manière optimale à tous types d'analyse. Les standards les plus exigeants étant ceux de la phonétique acoustique, sont ceux qui ont été adoptés. Le projet a en outre pris à son compte des directives du consortium des langues en danger (Gippert, Himmelmann, & Mosel, 2006). Le matériel d'enregistrement utilisé est le suivant: − Enregistreur Marrantz PMD 670 ; − Microphone audio-technica AT4041. La totalité du corpus lexical a été enregistré à l'IFAN avec ce matériel. Le Marrantz PMD 670 présente l'avantage de numériser directement le son, avec pour conséquence a une altérité minimale de l'original. Les fichiers sont ensuite récupérés sur ordinateur au moyen d'une simple entrée USB. Une partie du corpus de Sophie Wade pour le mënik a été enregistré avec un matériel moins performant, un dictaphone à cassettes standard. Les enregistrements ont ainsi été effectués en analogique puis ont été numérisés sur ordinateur en format wav. 3.3 Élaboration des corpus 3.3.1 Questionnaires lexicaux Les données principales de la base lexicale ont été collectées à partir de questionnaires lexicaux thématiques concernant les domaines sémantiques retenus. Nous sommes partis de questionnaires identiques pour toutes les langues, dont les items étaient numérotés pour faciliter leur identification. Lors des sessions de travail avec les informateurs, des entrées 11 supplémentaires ont été intégrées, dont certaines étaient spécifiques à une langue donnée. Lors de la mise en commun des données, ces cas particuliers ont été discutés et traités (affiliation d'un numéro d'identification) de manière à avoir des équivalences dans les autres langues. 3.3.2 Collecte de textes Le corpus lexical a été complété par des textes sur les thématiques retenus issus de l'alphabétisation fonctionnelle et de d'enregistrement d'interviews et de récits dans chaque communauté. Les textes ont été transcrits et les lexèmes collectés ont été intégrés à la base de données. Les enregistrements faits dans les mêmes conditions que le corpus lexical ont été documentés selon le système IMDI (voir section 3.4.3). Les descriptions sont disponibles sur le site du projet. Les enregistrements sont archivés à l'IFAN et peuvent être mis à la disposition de la communauté scientifique sur demande. 3.3.3 Questions de transcription 3.3.3.1 Orthographe Pour la transcription orthographique, l'option a été prise de se baser sur les décrets régissant l'orthographe des langues au Sénégal lorsqu'ils existent. C'est le cas pour le wolof, le soninké et le mënik. Le laalaa par contre ne dispose pas encore de décret officiel. Nous nous sommes basé pour son orthographe sur les recherches en phonologie de Papa Oumar Fall, le responsable pour cette langue dans le cadre de ce projet. 3.3.3.2 Phonétique et phonologie En plus de la transcription orthographique, la base de données comprend également des transcriptions phonétique et phonologique des entrées lexicales. Le système de transcription utilisé est celui de l'alphabet phonétique international (International Phonetic Association, 1999) Les règles de transcription phonologique, qui sont le résultats de recherches en linguistique ont pour soubassement les travaux en phonologie des membres du projet: Pour le laalaa (Fall, 2005, 2006) ; pour le mënik (Wade, 2006, 2007) ; pour le soninké (Diagne, 2006) ; pour le wolof, les travaux de Dialo (1983), cités dans Sall (2008). 3.4 Instruments utilisés 3.4.1 Toolbox 12 Toolbox est un logiciel d’analyse morphologique et syntaxique de la Société Internationale de Linguistique (SIL, 2009)Il permet le découpage et l’interlinéarisation de corpus textuels et lexicaux. À partir des corpus encodés, il permet également de configurer un dictionnaire publiable directement. Le programme comporte en effet des définitions de bases données pour un dictionnaire, adaptables au besoin. Toolbox est un logiciel gratuit et a par rapport à son prédécesseur Shoebox, l’avantage d’admettre des polices Unicode. Il admet au moyen d’une feuille de style, un balisage XML des corpus. 3.4.2 Elan Elan est un logiciel d’annotation gratuit du Max Planck Institut for Psycholinguistics (Wittenburg, Brugman, Russel, Klassmann, & Sloetjes, 2006) qui permet de faire des transcriptions temporellement alignées au signal audio ou vidéo avec un ou plusieurs locuteurs. Il permet également de définir et de hiérarchiser, en fonction du signal ou d’un premier champ déjà existant, plusieurs autres champs pour la recherche linguistique, sociolinguistique ou ethnologique. Les textes de transcriptions, traductions ou autres peuvent être extraits et utilisés comme fichiers texte et avec des éditeurs courants comme Word ou OpenOffice. Par ailleurs, un projet défini avec Elan est réutilisable une fois enregistré sous forme de modèle, qui est en fait un fichier XML. 3.4.3 IMDI Le système de métadonnées IMDI (Broeder, Offenga, Willems, & Wittenburg, 2001) a été développé au Max Planck Institut for Psycholinguistics en collaboration avec des linguistes, informaticiens, spécialistes en ingénierie linguistique. Il est formalisé par un schéma XML. Sur la base d’IMDI, un certain nombre d’outils a été développé (éditeur spécifique, navigateur XML, convertisseur HTML, etc.) Pour permettre une indexation pour de la recherche via un navigateur web ou pour faire de l’extraction de sous-corpus. Un développement spécifique a permis de créer un navigateur propre à lire les métadonnées IMDI et qui permet de chercher dans les descriptions de ressources ainsi cataloguées. Le système IMDI est devenu un standard utilisé par plusieurs archives de documentation linguistique à travers le monde. 3.4.4 Microsoft Keyboard Layout Creator Pour faciliter la saisie informatique des items en langues nationales et en IPA, des configurations de clavier permettant de taper directement les caractères absents des claviers 13 conventionnels ont été élaborés. C'est un des rares aspects du projet à ne pas utiliser de logiciel open source. Celui que nous avons utilisé est néanmoins gratuitement mis à disposition par Microsoft. Il s'agit du Microsoft Keyboard Layout Creator (Microsoft, 2007). Ce programme gratuit, complémentaire du système d'exploitation Windows permet de configurer de mettre au point des configurations de claviers selon les besoins des utilisateurs. Les configurations de claviers produites présentent en plus l'avantage d'être facilement intégrable à Toolbox, qui est le programme de base de données que nous avons utilisé. Une configuration de clavier peut en effet être affiliée à un champ particulier ce qui fait que par exemple tous les champs de wolof peuvent être affiliés au clavier wolof et tous les champs de français au clavier français. L'utilisateur a ainsi toujours à disposition, directement sur son clavier, les caractères dont il a besoin sans autre manipulation supplémentaire. Les configurations de claviers mises au point sont disponibles sur le site du projet. 14 4 Configuration du projet de dictionnaire 4.1 Organisation générale L’organisation du dictionnaire a obéit aux contraintes du logiciel Toolbox qui a servi de gestionnaire de bases de données. Pour Toolbox toute entreprise de description linguistique correspond à un projet qui est constitué de bases de données configurées selon les besoins de l’entreprise envisagée. Ainsi notre dictionnaire multilingue constitue le projet Toolbox. Ce projet comprend six bases de données : - Une base pour chacune des langues impliquées : laalaa, soninké, wolof, mënik, français. Les bases en langues nationales ont la même structure en terme de fiches et de contenu (voir section 5.2 ). La base française est différente en ce sens qu’elle ne comporte pas de champs de traduction (voir section 5.1 ) ; - Une base de données multilingue. La structure de la base multilingue est complexe en ce sens qu’elle comporte tous les champs des autres bases de données. Son remplissage se fait de manière automatisée à partir du contenu des autres bases de données ; - un encodage de langue2 par code linguistique utilisé (un pour chaque langue de la base de données + un pour la phonétique/phonologie) ; - des définitions de champs d’encodage des données. Le schéma global du projet se présente comme suit : 2 L’encodage pour une langue donnée comporte tous les paramètres concernant cette langue : ordre alphabétique, caractères permis, configuation de clavier associée. 15 Illustration 1: Schéma global du projet de dictionnaire 4.2 Bases de données sénégalaises Le projet comprend quatre bases de données en langue nationale, c’est-à-dire une pour chacune des langues sénégalaises du projet (wolof, mënik, soninké, laalaa). Ces quatre bases de données ont la même structure. On y distingue : - Un champ d’identification de la fiche (\refid) ; - des champs primaires en langue nationale : il s’agit des champs lexémique (\lex) de définition du lexème (\def), de la phrase díllustration du lexème (\phr) ; - des champs de transcription linguistique : phonétique (\phon) et phonologie (\phol) ; - des champs d’illustration sonore. Il s’agit des liens des fichiers sons du lexème (\fsL) et de la phrase d’illustration du lexème (\fsPhr) ; - des champs de traduction française du lexème, de la définition du lexème (\tradDef) ; (\tradFlex) de la phrase d’illustration (\tradPhr) ; de la catégorie grammaticale de la traduction du lexème (\catF) et du domaine sémantique du lexème (\doSem) ; - des champs de gestion de la fiche lexicale : date de dernière modification (\dat), statut (\statF), commentaire (\cmtF) ; - des champs complémentaires : classe nominale/genre (\clas), catégorie grammaticale du lexème (\cat) ; 16 - des champs facultatifs : variante (\var), homonyme, (\hom) synonyme (\syn), expression dérivée (\exDer) et lexème source de l’expression dérivée (\lexSrc) du lexème ; - des champs d’origine textuelle : source du lexème (\srcL), source de la définition (\srcD), contexte d’attestation (\att), source du contexte d’attestation (\srcA), note d’usage (\nus), corpus associé (\ca ) ; Une fiche lexicale se présente de la manière suivante à l’exemple de la fiche du mot soninke kuuse ‘estomac’ : Illustration 2: fiche de base de données en langue nationale 17 4.3 Base de données française Le français n’étant pas un objectif principal de notre projet, la base de données qui lui est dédiée a été limitée au minimum. La configuration de base de donnée comprend néanmoins, tous les champs recensés pour les bases en langue nationale en dehors de champs de traduction. Pour notre étude de faisabilité, le français a été retenu comme langue pivot, ce qui explique que dans l’illustration ci-dessus, les champs de traduction soient en début de fiche. Les champs suivants ont été concrêtement utilisés dans la base de données française: référence de la fiche (\refid), lexème (\lex), catégorie grammaticale du lexème (\cat), classse nominale/genre (\clas) domaine sémantique du lexème (\doSem) et date de dernière modification de la fiche (\dat). Illustration 3: Exemple de fiche de la base de données française Les quatre premiers champs servent au remplissage automatique des champs correspondants dans les bases de données en langue nationale et dans la base de données multilingue, ce qui permet de limiter le nombre d’erreurs et de faciliter l’harmonisation de l’encodage entre les différents transcripteurs. 4.4 Base de données multilingue 4.4.1 Ordre alphabétique des fiches La configuration de l’ordre alphabétique des bases de données se fait dans le module d’encodage de langue de Toolbox. Pour les bases de données individuelles, la question de l’ordre alphabétique à adopter se règle de manière simple : il s’agit de se conformer à celui édicté dans les différents décrets régissant l’orthographe des langues considérées ou à défaut, comme dans le cas du laalaa, de prendre comme base l’ordre alphabétique de l’alphabet latin 18 et d’insérer les caractères manquants à la suite de ceux de l’alphabet latin de même lieu d’articulation en respectant l’ordre phonétique d’ordonnancement3. Pour la base multilingue, ce principe a été respecté : L’ordonnancement de l’alphabet latin a été pris comme base et les caractères propres aux langues nationales existant dans les différents alphabets de ces langues ont été insérés selon leur ordre phonétique. Cela donne pour l’encodage multilingue de notre projet l’alphabet orthographique suivant : A,a ; B,b ; Ɓ,ɓ ; C,c ; D,d ; Ɗ,ɗ ; E,e ; F,f ; G,g ; H,h ; I,i ; J,j ; K,k ; L,l ; M,m ; N,n ; Ñ,ñ ; Ŋ,ŋ ; O,o ; P,p ; Q,q ; R,r ; S,s ; Ŝ,ŝ ; T,t ; U,u ; W,w ; X,x ; Y,y ; Ƴ,ƴ ; Z,z. 4.4.2 Encodage automatisé des données de la base de données multilingue La base multilingue est une base de données collective constituée des données des autres bases du projet. Son remplissage se fait de manière automatisée. Le seul champ qu’une fiche de cette base comprend au départ est le champ de référence (\refid) : Illustration 4: fiche multilingue avant encodage automatique L’automatisation de l’encodage se fait en utilisation la fonction lookup du module d’interlinéarisation de Toolbox. Cette fonction permet d’insérer dans la base multilingue les données d’une autre base en prenant comme identificateur le marqueur refid. Le résultat du processus d’interlinéarisation est illustré au moyen de la fiche simplifiée suivante (simplifiée pour les besoins de l’illustration) : 3 Celui de l’Alphabet Phonétique International (API) 19 Illustration 5: Fiche multilingue interlinéarisée L’origine des données de chaque langue est reconnaissable par l’extension linguistique finale des champs. Par exemple le champ \lex de la base de données wolof devient dans la base multilingue \lexWo, l’extension pour le wolof étant Wo. Les autres extensions sont So pour le soninke, Me pour le mënik et La pour le laala, ce qui nous donne pour le champ définition du lexème (\def), respectivement \defWo, \defSo, \defMe et \defLa. Dans le souci de permettre une identification visuelle aisée des données de chaque langue, une couleur différente a été affiliée à chaque encodage de langue, comme le montre l’Illustration 5. 20 Lorsqu’un champ est vide dans la base de donnée originelle, le champ correspondant dans la base multilingue est reporté avec des étoiles. Lors de la publication du dictionnaire multilingue tout champ comportant des étoiles ne sera pas publié. C’est par exemple le cas du champ classe nominale soninke (\clasSo). Ce champ est toujours étoilé du fait que le soninké ne comporte pas de classe nominale. Il ne sera donc jamais publié mais est maintenu dans la configuration de la base de donnée à des fins d’harmonisation du schéma. Le contenu du champ de statut de la fiche (\statF) détermine si une fiche dans son ensemble sera publiée ou non. La fiche ne sera publiée que si la valeur ‘ok’ est encodée dans ce champ, par le coordinateur du projet de base de données. 21 5 Règles de gestion du contenu des bases de données 5.1 Remplissage de la base de donnée de la langue pivot La première base à être remplie a été la base de données française, du fait qu’il s’agit de la langue pivot du dictionnaire. Chaque lexème français a ainsi été affilié à un numéro de référence (refid) ayant le format suivant : fr_0000. Ce format permet de prévoir jusqu’à 9999 entrées pour le dictionnaire. Le nombre d’entrées possible peut être augmenté en ajoutant des chiffres supplémentaires au format de base. Les champs nécessaires à la base de données française ont été ensuite ajoutés et remplis pour chaque fiche (voir Illustration 3). 5.2 Remplissage des bases de données en langue nationale Les données des champs correspondants de la base française sont incluses de manière automatisée par interlinéarisation dans les bases de données sénégalaises, comme dans l’illustration suivante : Illustration 6 : Données françaises interlinéarisées dans la base mënik Le champ lexème (\lex) est ensuite rempli sur la base des données obtenues à partir des questionnaires lexicaux : Illustration 7 : Insertion du lexème ménik après enquête La prochaine étape est l’élaboration d’une définition dans la langue considérée pour le lexème en question. Ceci est fait en collaboration avec nos personnes ressources et en nous aidant 22 parfois d’un dictionnaire monolingue français4. Il est à préciser cependant qu’aucune des définitions proposées n’est une traduction des définitions du dictionnaire français utilisé. Ceci dit, il peut arriver que les réalités recouvertes par le mot français et le mot wolof, par exemple, soient identiques et que donc la définition retenue pour le wolof et celle du dictionnaire français soient quasi-identiques. C’est par exemple le cas pour les parties du corps à l’exemple du mot soninké fallinkirime ‘dos : Soninké Dictionnaire français du CNRTL (et traduction de la définition soninke adoptée) fallinkirime Seren faten falle na a wutu kunke ma xoodo partie postérieure de l'homme qui va des épaules aux reins5 Dans certains cas par contre les définitions sont différentes : c’est le cas pour le mot lelle ‘après-midi’ qui est conceptualisé de manière différente en français et en soninké : Francais après-midi Partie de la journée comprise entre le repas de midi et le repas du soir6 Soninké lelle Dimma ya ni na a wutu sallifana katta futuro Moment compris entre la prière de 14 heures et le crépuscule On a en mënik pour le même mot la définition suivante : 4 Nous avons utilisé le dictionnaire en ligne du Centre National des Ressources Textuelles et lexicales du CNRS (www.cnrtl.fr/) 5 Source : www.cnrtl.fr/definition/dos 6 Source : www.cnrtl.fr/definition/apres-midi 23 Mënik ʃambalka gaɓërnëte giñaleŋ Partie de la journée pendant laquelle le soleil décline Dans tous les cas, le principe de simplicité a prévalu dans l’élaboration des définitions. En majorité, les définitions sont constituées de phrases simples. La syntaxe des définitions n’est complexe que lorsque la description du sens du lexème l’exige. 5.3 Terminologie grammaticale en langue nationale Pour le wolof, nous nous sommes basé sur le travail de Dialo & Mbodj (1998). En ce qui concerne le soninké, il n’existe pas à notre connaissance de travaux publiés sur le sujet. Il existe néanmoins une pratique de terminologie grammaticale utilisée dans le cadre de l’alphabétisation que nous avons suivie, aidés en cela par une personne ressource de la direction de l’alphabétisation. Le laalaa et le mënik ne disposent par contre à l’heure actuelle d’aucun travail ou pratique sur lesquels nous aurions pû nous baser. Le champ \cat a donc été rempli dans ces langues en français. Les travaux des membres de l’équipe (Fall, 2005, 2006; Wade, 2006, 2007) ont servi de base pour la catégorisation grammaticale des lexèmes. 5.4 Élaboration des définitions des lexèmes 5.4.1 Définitions à contenu sémantique Au départ chaque responsable de base de données individuelle a travaillé indépendamment des autres. Pour les mots pour lesquels cela a été possible, les définitions ont ensuite été harmonisées lors de réunions de l’équipe. Cela a permis d'avoir une même définition pour un nombre considérable de mots. C’est par exemple le cas pour les doigts de la main. Ainsi pour l’index, la traduction française des définitions dans les quatre langues nationales de l’étude est la suivante : ‘deuxième doigt de la main à partir du pouce’ Il y a des cas en revanche dans lesquels une telle harmonisation n’a pas été possible. Dans de tels cas la variété des définitions a été retenue comme telle. On peut citer le cas du mot ‘année’ qui a une définition différente en mënik et en soninké : 24 Soninké siine Wucce be ga gemme 365 bito maxa xasu 12 Période de 365 jours ou 12 mois Mënik bëëli Gon rik uʃa ngë uʃa Période entre deux hivernages 5.4.2 Définitions à contenu grammatical Sont concernés par ce type de définition les lexèmes grammaticaux, tels que les pronoms, les articles ou encore les conjonctions. Nous avons également été confrontés aux cas d’équivalences linguistiques dans le cadre de l’approche multilingue entre lexèmes/morphèmes grammaticaux dont le découpage grammatical n’est pas le même d’une langue à l’autre. Par exemple le wolof n’a pas à proprement parler de pronom personnel sujet identifiable en tant que tel. La notion de pronom personnel est toujours amalgamée dans cette langue à l’aspect et au mode. Le soninké, par contre possède une classe lexémique de pronom personnel. Ce type de cas pose un problème en termes d’équivalents dans une optique de dictionnaire multilingue. 5.5 Gestion des homonymes, synonymes et expressions dérivées Dans le cas où l’entrée lexémique a un ou plusieurs homonymes, synonymes ou expressions dérivées, ceux-ci sont entrés dans les champs prévus à cet effet (\syn, \hom, \exDer) dans les bases individuelles. L’ajout dans la base multilingue se fait par voie d’ínterlinéarisation. Ces données font ensuite l’objet d’une fiche propre, même si le lexème en question n’avait pas été prévu au départ. Dans le cas de l’étude de faisabilité, cette consigne n’a pas été respectée systématiquement, compte tenu de la durée restreinte du projet. On trouvera cependant quelques exemples pour lesquels seuls le lexème et son équivalent en français ont été encodés. La base de données étant évolutive, les fiches concernées pourront être mises à jour ultérieurement. 25 5.6 Cas des termes intraductibles Il y a des termes ou des expressions qui, dans notre approche, ont rang d’entrée lexémique mais qui sont tellement spécifiques à une culture donnée qu’il ne nous a pas été possible d’une part d’en proposer une définition sémantique dans la langue même, et d’autre part d’en proposer un équivalent, tant dans les autres langues sénégalaises objets de cette étude qu’en français. C’est par exemple le cas du lexème ndeysaan du wolof. Dans de tel cas nous avons proposé une explication méta-linguistique du terme : wolof ndeysaan baat buy tekki yërmaande expression de compassion Pour les langues dans lesquelles un équivalent à ndeysaan n’a pas été proposé, la fiche lexémique est maintenue. Elle ne contient cependant pas d’entrée lexémique. La définition wolof est traduite dans ces langues afin que le mot wolof puisse trouver une explication dans les autres langues. 5.7 Ajouts de termes non prévus au départ et extension des bases de données Pour que le processus d’ínterlinéarisation puisse se faire de manière correcte, les nouvelles entrées non prévues au départ, qu’il s’agisse synonymes, d’homonymes, d’expressions dérivées ou d’ajouts tout à fait nouveaux, doivent recevoir de la part de leur transcripteur un numéro d’identification (refid) provisoire. Ceci permet au coordinateur de la base multilingue de les reconnaître lorsque la base de données individuelle lui sera transmise et de leur affilier un numéro normatisé définitif (de la forme fr_0000). Dans le cadre de cette étude, les formats suivants de numéros d’identification provisoire ont été convenus : Wolof Wo_0000 Soninké So_0000 Mënik Me_0000 Laalaa La_0000 26 Toutes les bases de données sont ensuite harmonisées manuellement par leurs responsables respectifs en termes de refids et de contenu. La mise à jour de la base de données multilingue peut ensuite se faire. Le dictionnaire peut ainsi, au-delà de cette étude de faisabilité, être augmenté de manière quasi-infinie. L’actualisation du dictionnaire en ligne peut ensuite se faire de manière simple en postant le fichier étendu sur le site du projet. 5.8 Exemplification des lexèmes Les phrases d’illustration ont été conçues de manière à ce qu’elles constituent un complément d’explication à la définition proposée pour le lexème auquel elle se réfère. Dans la mesure du possible, il a été choisi d’utiliser des phrases simples. Les phrases complexes n’ont été utilisées que lorsque le type de lexème à exemplifier l’exigeait (par exemple pour une conjonction de subordination) ou lorsqu’aucune des phrases simples proposées ne convenait. Une autre option qui aurait pû prévaloir dans le choix des phrases d’illustration des lexèmes, est de les tirer des œuvres en langues nationales qui existent, par exemple dans la littérature en wolof. Cela aurait en outre eu l’avantage de contribuer à la visibilité de ces œuvres. Cependant tant pour la constitution du corpus que pour le choix des phrases d’illustration cette option a finalement été délaissée en raison des questions de droits d’auteur qu’elle soulève, que nous n’aurions pas pu résoudre compte tenu des délais et des ressources restreints de notre étude. Dans l’optique que ces contraintes puissent être vaincues, la configuration de la base de donnée intègre les champs nécessaires à la référenciation des œuvres. 27 6 Configuration du site web du dictionnaire multilingue Afin d’assurer la diffusion des résultats du projet un site web a été configuré et mis en ligne sur les serveurs du Centre de Calcul Informatique de l’UCAD. Le site restera sur ces serveurs jusqu’à ce qu’il soit terminé. La mise en ligne définitive se fera sur les serveurs de la Direction de l’Informatique de l’UCAD. L’adresse provisoire du site du projet est http://ifan-wosomela.cci.ucad.sn. 6.1 Architecture Le site comprend plusieurs pages web. Une page introductive explique la genèse du projet ainsi que les ressources qui y sont disponibles. Sur la page ressource seront publiés les articles, les configurations de bases de données ainsi que les liens des logiciels qui ont été utilisés. Le site a été conçu de manière à ce qu’aucun de ses utilisateurs pressentis ne soit lésé à cause de sa méconnaissance d’une des langues de l’étude. Les informations de la page d’accueil seront disponibles, à terme, dans chacune des langues du dictionnaire. A titre d’illustration, la page d’accueil en français est présentée ci-dessous7 : Illustration 8 : Page d’accueil du site Du point de vue de son architecture, le site correspond à un répertoire comportant sept dossiers : 7 Le site étant encore n cours de réalisation au moment de la rédaction du présent rapport les captures d’écran que nous proposons à titre d’illustration peuvent encore évoluer . 28 - Le dossier apps comporte l’application dewpalyer permettant de lire les fichiers sons du site ; - Les dossiers img et sons comportent respectivement les fichiers images et sons d’illustration ; - le dosier xml comporte les exportations XML de la base de données à partir de Toolbox ainsi que les fichiers XML régissant les combinaisons de langues à afficher ; - les dossiers xls et css comprennent les fichiers régissant l’apparence du site ; - Le dossier html comprend les textes des pages d’accueil et de ressources. Illustration 9 : Dossier du site wosomela 6.2 Possibilités d’interrogation du dictionnaire La page d’accueil donne accès au dictionnaire multilingue proprement dit. Le dictionnaire peut être affiché de plusieurs manières : - en version monolingue pour chacune des langues sénégalaises ; - en version multilingue avec deux, trois, quatre ou cinq langues. L’illustration ci-dessus montre l’affichage avec les cinq langues 29 Illustration 10 : Page multilingue du dictionnaire en ligne (version provisoire) L’illustration ci-dessus comporte une barre des tâches comportant trois menus déroulants régissant les différentes modalités d’affichage. Ainsi les données lexicales peuvent être filtrées par domaine sémantique au moyen du second menu déroulant contenant les différents domaines sémantiques du dictionnaire. Le menu situé à droite règle le nombre de langue devant être affiché. Il est possible d’afficher un dictionnaire monolingue, bilingue ou autre de son choix, toutes les combinaisons étant possibles dans la limite des cinq langues prévues. Dans la version finale du dictionnaire en ligne, un effort sera fait pour que les indications métalinguistiques telles que ‘définition (du lexème)’, ‘synonyme’ ou ‘phrase d’illustration’ soient affichées dans chacune des langues du projet. On trouvera par exemple pour ‘définition’ (def_fr) dans l’Illustration 10), maana en wolof et wure en soninké. Les lexèmes et les phrases d’illustration du dictionnaire sont accompagnés de fichiers son. Il est donc possible d’en écouter la prononciation en cliquant sur le petit triangle vert juxtaposé à la transcription phonétique des lexèmes et aux phrases d’illustration qui leur correspond. 6.3 Sorties papier et sous formats électroniques La mise à disposition sur Internet du dictionnaire multilingue constitue la sortie majeure de cette étude. Nous avons néanmoins prévu que tout ou partie du dictionnaire soit disponible dans d’autres formats. 30 Le dictionnaire peut ainsi être imprimé en format PDF. L’utilisateur a la possibilité de choisir la quantité d’information qu’il souhaite imprimer en faisant usage des différents filtres proposés par le site. Une page de garde comportant les caractéristiques du filtrage et la date d’impression du document est automatiquement générée. Le fichier PDF peut ensuite être imprimé ou sauvegardé sur CD, par exemple. L’ensemble du dictionnaire et de son interface peut également être téléchargé sur clé USB ou sur tout autre support électronique de stockage. La version portable du dictionnaire comporte la version portable du navigateur Firefox (Mozilla Europe & Mozilla Foundation, 2009). Le dictionnaire est ainsi consultable et questionnable directement à partir d’une clé USB sans qu’une connexion Internet soit nécessaire. Les capacités de sortie PDF sont également disponibles sous cette version. 31 7 Relations avec d'autres projets L’étude que nous présentons a des connections avec d’autres projets en cours. Les projets qui vont être présentés ci-dessous ont échangé avec le notre des procédures de recherches et du corpus. 7.1 Conception d’un dictionnaire électronique unilingue wolof et bilingue wolof-français La présente étude de faisabilité est en grande partie basée sur l’expérience acquise par A. M. Diagne au sein du projet Conception d’un dictionnaire électronique unilingue wolof et bilingue wolof-français dont le maître d’œuvre est le Département de linguistique de l’Université de Dakar en collaboration avec le Centre de recherche TERMISTI (Institut supérieur de traducteurs et interprètes, Haute École de Bruxelles)8. Le projet, financé par l’Agence Universitaire de la Francophonie (AUF), a pour ambition de proposer 6000 entrées lexicales en ligne. Le dictionnaire est consultable à l’adresse : http://flsh-dico-wolof.ucad.sn La structure du dictionnaire électronique unilingue wolof et bilingue wolof-français a servi de point de départ à la conception de notre structure de bases de données. Cependant, ce modèle s’est vite montré inadapté, dès lors que plus d’une langue africaine entrait en jeu, en plus du français. Notre équipe a ainsi remanié la structure proposée par ce projet novateur pour aboutir à un modèle pouvant prendre en compte plus de deux langues tout en tenant compte des limitations de l’outil Toolbox qui n’est pas un système de gestion de bases de données. Les propositions faites par notre équipe ont donné lieu à des échanges avec les membres du projet Conception d’un dictionnaire électronique unilingue wolof et bilingue wolof-français, qui ont abouti au remaniement du modèle initial de base de données que ce dernier avait adopté. Ainsi l'universalité de la solution technique qu’il avait mise au point a été complétée par un schéma des données « modulaire », au sein duquel chacune des langues du dictionnaire possède une base de donnée structurellement identique, la dimension multilingue étant prise en compte par une base indépendante via le module d’interlinéarisation de Toolbox, tel que exposé en 4.4.2 8 Les chercheurs du Projet sont: Mame Thierno Cissé, Marc van Canpenhoudt, Paul Muraille et A.M. Diagne 32 7.2 Documentation et description du bëdik (mënik) Ce projet de recherches est conduit par Adjaratou Oumar Sall qui est partie prenante de la présente étude de faisabilité. Il s’inscrit dans le cadre du Programme de Sauvegarde des Langues menacées du Hans Rausing Endangered Languages Project (HRELP) géré par la SOAS (School of Oriental and African Studies 9. Le but de ce projet est de faire une description et une documentation de la langue : - par la création d’un corpus de textes et de vidéo recueillis et enregistrés dans divers contextes de production sur les pratiques linguistiques et les traditions. - par la description grammaticale de la langue ; - et par la création d’un dictionnaire bilingue bëdik-francais. Les techniques d’archivage de corpus de notre étude de faisabilité trouvent leur origine dans les procédures recommandées par le HRELP avec l’ELAR (Endangered Languages Archive qui est reconnu sur le plan international comme l'un des meilleures archives digitalisés des langues en danger. Cela pourra garantir une bonne accessibilité des données électroniques aux personnes qui en auront besoin. Le travail sur le mënik effectué dans le cadre de notre étude sera une contribution à l’œuvre de sauvegarde de la langue et de la culture bëdik entreprise par A.O. Sall 7.3 Thèses de linguistique sur le mënik et le laalaa Une étude sur la phonologie et la morphologie du laalaa est conduite par Papa Oumar Fall, dans le cadre de son doctorat en linguistique. Le but de cette étude est de faire, tout en présentant les règles et les contraintes morphophonologiques, une description générale du laalaa. Cette étude devra permettre de concevoir des manuels scolaires et des dictionnaires qui faciliteront une alphabétisation ciblée et plus adaptée des Laalaa, à partir de leur propre langue, et non plus du wolof comme c’est actuellement le cas. Elle participera en outre dans le domaine de la sauvegarde et de la protection du patrimoine immatériel local, à combler la rareté pour ne pas dire l’absence de documentation sur le laalaa. Le travail de P.O Fall s’inscrit dans une perspective globale de collecte, d’analyse et de traitement de textes tirés du patrimoine culturel laalaa dans la perspective de la création d’une base de données accessible sur Internet. 9 http://www.hrelp.org/ 33 Une étude sur la cohérence dans le discours mënik : les marques discursives et syntaxiques est, également dans le cadre de son doctorat en linguistique, menée par Sophie Wade. Son travail porte sur l’analyse des marques syntaxiques introduites dans le discours en mënik. Le corpus de cette étude originale est constitué de chants sacrés et de contes en mënik. A terme, l’étude permettra de savoir quels sont les facteurs qui aident à marquer la cohérence dans le discours mënik. Une description syntaxique de la langue ainsi qu’une présentation de la culture bëdik constitueront un préalable à l’analyse discursive. La thèse de S. Wade sera complétée par un volume réunissant l’ensemble du corpus qu’elle aura réuni afin de servir à d’autres types d’études. Les travaux pré-doctoraux et en cours de ces deux chercheurs ont servi de référence pour la transcription du laalaa et du mënik. Les contributions que la présente étude de faisabilité fait sur ces langues, en termes de mise à disposition de corpus et de bases de données, permettront à ces deux doctorants membres de notre équipe de tester leurs premières hypothèses de recherches. L’expérience qu’ils ont acquise lors des enquêtes de terrain et des réunions périodiques de travail, est une contribution certaine au renforcement de leurs capacités de chercheur. 34 8 Retombées pour la recherche 8.1 Reproduction du modèle de dictionnaire Les configurations de bases de données du projet Toolbox ainsi que les fichiers de configuration du site de diffusion du dictionnaire sont mis à disposition sur la page ressource du site. La documentation sur les procédures à suivre pour mener à bien le même type de projet viendront compléter ce dispositif. 8.2 Mise à disposition de corpus Le corpus de notre étude est constitué de listes lexicales qui serviront en premier lieu aux linguistes intéressés par la morphologie et la lexicologie des langues concernées. Il comporte en outre des enregistrements de récits et d’interviews sur les thèmes du paludisme et de la scolarisation des filles, qui pourront servir de point de départ à divers types d’études en sciences sociales. Tous les corpus ont été enregistrés en tenant compte des standards préconisés par des organisations telles que la HRELP, l'Institut Max Planck pour la Psycholinguistique (MPI) de Nijmegen pour les projets sur les langues en danger tel que le DoBeS (Documentation Bedrohter Sprachen) dans le cadre de la sauvegarde et de la revitalisation des langues en danger. Du point de vue de l’archivage, tous les corpus ont été catalogués via le système IMDI. Les données sont disponibles sur le site du projet. Les fichiers audio sont en partie disponibles via le dictionnaire, en illustration sonore des lexèmes et des phrases d’illustration, en format mp3. Les fichiers originaux en format wav pourront être obtenus sur demande au Laboratoire de Linguistique de l’IFAN-CAD. 35 9 Perspectives La possibilité de créer des dictionnaires multilingues dans les langues nationales ouvre des perspectives variées dans le domaine de l’ingénierie linguistique ainsi que pour le développement de la lexicologie et des outils pédagogiques et lexicographiques dans les langues nationales. La suite de ce chapitre présente quelques unes de ces pistes. 9.1 Élaboration de correcteurs orthographiques et de configuration de claviers pour les langues nationales Les langues nationales sont de plus en plus présentes dans le paysage journalistique au Sénégal. Des journaux entièrement en langues nationales ont fait leur apparition tels que Lasli/njëlbéen10. Tout en saluant cette prise en compte croissante de nos langues dans les paysages audio-visuel et de la presse écrite, les acteurs oeuvrant dans le domaine de la promotion des langues sénégalaises ont déploré le non respect des règles d’orthographe et de grammaire dans les productions de la presse écrite, dans les slogans publicitaires ou sur différents supports tels que les pochettes de cassettes musicales ou les titres des pièces de théâtre. Il est possible à partir de bases de données lexicales informatisées telles que celle que nous proposons, d’élaborer des correcteurs orthographiques pour langues nationales. La suite bureautique open source OpenOffice11 permet aux différents contributeurs qui participent à son développement, d’élaborer des correcteurs orthographiques facilement intégrables dans les outils du logiciel. OpenOffice est un logiciel gratuit et les outils élaborés sont diffusés via son site. 9.2 Extension de la base de données Notre projet n’étant qu’une étude de faisabilité limitée en moyen et en temps, nous nous sommes volontairement arrêtés à la recherche de vocabulaire sur deux domaines sémantiques en plus d’une partie du vocabulaire fondamental de chaque langue. Il est à espérer qu’à l’avenir la base de données multilingue soit élargie à d’autres domaines sémantiques et qu’à terme la possibilité d’encodage de 9999 entrées offerte par notre configuration puisse être atteinte. Cela demande cependant la formation d’une équipe plus large et de plus de temps. La base de données multilingue pourrait en outre être élargie à d’autres langues. 10 Lasli/njëlbéen est un journal mensuel écrit en wolof et en pulaar. Il a été créé en mars 1998, et est édité par la maison d'éditions en langues nationales Papyrus Afrique. Le journal est tiré à 3000 exemplaires et est lu dans tout le pays ainsi que dans la sous région. 11 www.openoffice.org 36 9.3 Élaboration de dictionnaires illustrés Une possibilité qui n’a pas été exploitée plus avant lors de notre étude, est le développement d’un dictionnaire illustré. Cela pourrait se faire de manière simple, de la même façon que l’introduction du matériel sonore pour les lexèmes et les phrases d’illustration. Un champ image du lexème (\img) a été prévu dans la configuration de la base de données. Les fichiers images (dessins ou photos) seraient ensuite sauvegardés dans un dossier ‘img’et serait affiché en face du lexème sur le site du dictionnaire. 9.4 Diffusion du dictionnaire sur téléphones portables En marge des discussions sur la configuration et la recherche de contenus pour le dictionnaire, notre équipe s’est également penchée sur la question de savoir, quelle serait la meilleure manière de diffuser le dictionnaire dans le contexte du Sénégal. Il nous est apparu que si les sorties sur Internet et PDF que nous avons prévues sont intéressantes, la majorité des utilisateurs potentiels du dictionnaire n’ont pas un accès facile à ce genre de technologie. L’accès au site présuppose un accès Internet ; Quant à la portabilité sur clé USB, même si elle libère de la nécessité d’une connection Internet, elle requière tout-de-même l’accès à un ordinateur et, pour l’impression d’un fichier PDF, à une imprimante. Il nous est ainsi venu à l’esprit que la meilleure manière de diffuser le dictionnaire et d’en faire un outil réellement utilisé, serait de le rendre disponible sur téléphone portable. Il est en effet possible d’élaborer une application java qui serait visualisable sur tout téléphone possédant cette technologie, ce qui est le cas de la majorité des téléphones de dernière génération. L’application serait téléchargeable de la même manière que les sonneries ou les jeux, ce que la majorité des usagers de téléphones portables savent faire. Nous pensons qu’une équipe de recherche, dans laquelle des informaticiens, spécialistes de la programmation en java feraient partie pourrait se pencher sur cette question et qu’un modèle économique de diffusion de cet outil pourrait se faire en collaboration avec des éditeurs en langues nationales et des opérateurs de téléphonie mobile. 37 10 Recommandations aux décideurs et aux pouvoirs publics 10.1 Prise en compte de la dimension d’intégration linguistique dans l’élaboration du matériel didactique Le concept d’intégration linguistique, dont nous avons tenté de montrer la pertinence en 1.2.3, devrait être pris en compte dans les politiques éducatives en langues nationales dans les pays qui possèdent des langues véhiculaires. En ce qui concerne le Sénégal, il nous semble que le wolof serait un bon candidat comme langue véhiculaire. Il devrait donc faire partie de tout curriculum d’éducation en langues nationales avec une ou plusieurs autres langues dont l’identité serait déterminée par une étude du milieu. La tendance évolue aujourd'hui, au plan international, vers l’éducation multilingue, et cela est conforme aux recommandations de l’UNESCO sur la protection et la promotion de la diversité des expressions culturelles. Des outils pédagogiques ayant la potentialité de prendre encompte la dimension d’intégration linguistique tels que le dictionnaire développé dans notre étude, doivent être encouragés à cette fin. 10.2 Développement de recherches transnationales sur les langues véhiculaires Il existe en Afrique, et le Sénégal n'est pas en reste, plusieurs langues transfrontalières dont le wolof. Beaucoup d'études ont été faites sur ces langues mais aussi sur des langues véhiculaires non transfrontalières et sur des langues vernaculaires. Cependant les données sont dispersées et les chercheurs ont une méconnaissance du travail fait quelques fois sur la même langue ou dans le même domaine. Il serait intéressant que les décideurs au niveau universitaire et dans les institutions de promotion des langues nationales, travaillent à la promotion de réseaux permettant de mutualiser les efforts de recherche et les échanges entre chercheurs, afin que la recherche avance plus vite. Internet peut à cette fin se révéler un outil stratégique. Pour prendre le cas de notre étude, les bases de données que nous avons commencé à élaborer pourraient être alimentées par les corpus d’autres chercheurs travaillant sur ces langues, si notre travail venait au moyen d’un réseau de chercheurs à être connu. Une meilleure accessibilité à nos modèles de bases de données pourrait également permettre le développement rapide et l’amélioration des solutions proposées, pour d’autres dictionnaires monolingues ou multilingues. 38 10.3 Réflexion sur les formats de diffusion autour des productions en langues nationales Le développement d’outils en langues nationales est très souvent coûteux en termes de temps, de recherche et de ressources humaines et financières. Tout en continuant à insister sur la qualité des outils élaborés une réflexion doit être initiée sur la meilleure façon de mettre ces outils à la disposition des usagers potentiels. Comme pour le choix des langues à utiliser dans une approche intégrée, une étude du milieu doit être faite afin de savoir, compte tenu de l’objectif visé par l’outil et le type d’usager auquel il s’adresse, quel est le format de publication ou de diffusion le plus adéquat. 39 Conclusion Malgré les problèmes rencontrés et les moyens limités du projet, cette étude de faisabilité s'est révélée intéressante et a mis en exergue la richesse et les particularités des langues et des cultures investiguées. L’équipe du projet a essayé de proposer une solution à chacun des problèmes techniques, sémantiques et d’harmonisation terminologique que la réalisation de la base de données a suscitées. Bien que le projet soit officiellement terminé, notre équipe continuera à travailler sur l’optimisation du schéma de base de données ainsi que sur une meilleure convivialité du site web qui lui est consacré. En ce qui concerne la configuration du schéma de base de données, nous chercherons à éliminer l’étape de l’interlinéarisation, dans une optique de simplification du processus d’actualisation des données publiables. Cela aurait comme avantage, de faciliter la tâche du coordinateur de la base de données et de permettre d’actualiser plus rapidement le site. Notre équipe continuera également à enrichir la base de données, afin de parvenir à terme, à une base de données de 500 entrées. Cet objectif nous semble raisonnable compte tenu du caractère qualitatif de notre étude. Nous clôturerons nos travaux au mois de mai 2009, en espérant que ce projet aura suscité suffisamment d’intérêt, tant au niveau des décideurs qu’au niveau des acteurs scientifiques et pédagogiques, pour qu’une suite de plus grande envergure puisse être envisagée. 40 Bibliographie Bathily, A. & Meillassoux, C. (1975). Lexique soninke (sarakole)-français. Centre de linguistique appliquée de Dakar. Broeder, D., Offenga, F., Willems, D. & Wittenburg, P. (2001). The IMDI Metadata Set, Its Tools and Accessible Linguistic Databases. Proceedings of the IRCS Workshop on Linguistic Databases, Philadelphia, 11-13. Cissé, M. T., Diagne, A. M., van Campenhoudt, M. & Muraille, P. (2008). Mise au point d'une base de données lexicale multifonctionnelle : le dictionnaire unilingue wolof et bilingue wolof-français. Revue électronique Texte et corpus, (3), 163-170. Diagne, A. M. (2006). Phonologie et Morphologie du soninke. Une analyse non linéaire. Johannes Gutenberg Universität. Dial, P. A. (pas de date). Dictionnaire Wolof-Francais / Francais-Wolof. Duexième édition revue et corrigée. Mots et expressions usuels, simples et courants. Dialo, A. (1983). Eléments systématiques du wolof contemporain. Les langues nationales du Sénégal (Vol. 24). Dakar, Université Cheikh Anta Diop: CLAD. Dialo, A. & Mbodj, C. (1998). Terminologie linguistique et grammaticale wolof = Turalinu làmmiñal róofoo-gi-baat ci wolof. Dakar / Nouakchott: Centre de linguistique appliquée de Dakar (CLAD) / Institut des langues nationales de Nouakchott (ILN). Diouf, J. (2003). Dictionnaire bilingue wolof-français. Paris: Karthala. Direction de la Prévision et de la Statistique. (1993). Recensement général de la population et de l'habitat de 1988. Rapport national (Résultats définitifs). Ministère de l'Economie des Finances et du Plan. Dramé, Z., Galtier, G., & Dantioko, M. (1977). Lexique soninké-français. Bamako: DNAFLA et ACCT. Fal, A., Santos, R. & Doneux, J. (1990). Dictionnaire wolof - français. Paris: Karthala. Fall, P. O. (2005). Contribution a la phonologie laalaa. Mémoire de maitrise, Université Cheikh Anta Diop. Fall, P. O. (2006). Les pronoms en laalaa . Mémoire de DEA, Université Cheikh Anta Diop. Faye, S. (1996). Dictionnaire usuel, francais-wolof:" micro dico". Laboratoire de littérature et civilisation africaines. IFAN-CAD. Ferry, M. P. (1991). Thesaurus tenda. Dictionnaire ethnolinguistique de langues sénégaloguinéennes (bassari-bedik-konyagi). Peeters. Gamble, D. P. (1991). Gambian Wolof-English dictionary. Gippert, J., Himmelmann, N. P., & Mosel, U. (2006). Essentials of Language Documentation. Mouton De Gruyter. Greenberg, J. H. (1970). The Languages of Africa. Research Institute for Inner Asian Studies. Hart, K. (pas de date). Dictionnaire Soninké-Anglais. Retrouvé Mars 9, 2009, de http://www.soninkara.org/langue-soninke/dictionnaire-soninke-anglais.php. International Phonetic Association. (1999). Handbook of the International Phonetic Association. Cambridge University Press. Kantorek, N. (2005). Wolof-English/English-Wolof Dictionary And Phrasebook. Broché. 41 Microsoft. (pas de date). Microsoft Keyboard Layout Creator. Microsoft. Moseley, C. (Éd.). (2009). Atlas UNESCO des langues en danger dans le monde. UNESCO. Retrouvé de http://www.unesco.org/culture/fr/endangeredlanguages/atlas. Mozilla Europe. & Mozilla Foundation. (pas de date). Firefox. Mozilla Foundation. Retrouvé de http://www.mozilla-europe.org/fr/. Munro, P. & Gaye, D. (1997). Ay Baati Wolof - A Wolof Dictionary. (Revised edition). Occasional Papers in Linguistics (Vol. 19). Los Angeles: UCAL, Department of Linguistics. Oudiary Makan, D. (2003). Dictionnaire soninké-français. Bamako: Editions Jamana. Sall, A. O. (2008). Les phrases complexes en wolof, une étude descriptive. VDM Verlag. Sekk, L. K. (1999). Sekk bu ndaw (Dictionnaire). Dakar: Edité avec le concours du Projet Alphabétisation Priorité Femmes. SIL. (pas de date). The Field Linguist’s Toolbox. SIL International. Retrouvé de http://www.sil.org/computIng/toolbox/. Smeltzer, B. & Smeltzer, S. (1997). Lexique Soninké- Français. Bamako : Société Internationale de Linguistique. Wade, S. (2006). Approche syntaxico-sémantique du verbe et des personnels de la langue mënik . Mémoire de maitrise, Université Cheikh Anta Diop. Wade, S. (2007). Temps, aspect et mode en mënik.. Mémoire de DEA, Université Cheikh Anta Diop. Wittenburg, P., Brugman, H., Russel, A., Klassmann, A. & Sloetjes, H. (2006). ELAN: a Professional Framework for Multimodality Research. Language, 1556-1559. 42