Faisabilite de bases de donnees lexicales

Transcription

Faisabilite de bases de donnees lexicales
Subvention de recherche ROCARE 2008
Étude de la faisabilité de bases de données lexicales
pour un enseignement intégré des langues nationales:
Le cas du Sénégal
Parrain du projet
Pr. Souleymane Faye, Centre de Linguistique Appliquée de Dakar
Université Cheikh Anta Diop (UCAD)
Equipe de recherche
Anna Marie Diagne (Chercheur, Laboratoire de Linguistique, IFAN-CAD)
Adjaratou Oumar Sall (Chercheur, Laboratoire de Linguistique, IFAN)
Sophie Wade (Doctorante, Département de Linguistique, UCAD)
Papa Oumar Fall (Doctorant, Département de Linguistique, UCAD)
Sénégal
Recherche financée par le
Réseau Ouest et Centre Africain de Recherche en Education (ROCARE)
avec le soutien du projet Centre d’Excellence Régionale UEMOA
et du Ministère des Affaires Etrangères des Pays Bas
ROCARE / ERNWACA • Tel: (223) 20 21 16 12, Fax: (223) 20 21 21 15 • BP E 1854, Bamako, MALI
Bénin • Burkina Faso • Cameroun • Centrafrique •Côte d’Ivoire • Gambie • Ghana • Guinée • Mali • Mauritanie • Niger •
Nigeria • Sénégal • Sierra Leone • Togo
www.rocare.org
Sommaire
Introduction ............................................................................ 1
1 Justification de l'étude ....................................................... 2
1.1
Diversité linguistique en Afrique ............................................................................... 2
1.2
Introduction des langues nationales dans les cursus de l'éducation formelle............. 2
1.2.1
Langues maternelles et éducation formelle ........................................................ 2
1.2.2
Eléments sur la gestion linguistique dans la politique éducative au Sénégal..... 3
1.2.2.1 La situation du français .................................................................................. 3
1.2.2.2 Les langues nationales à l'université .............................................................. 4
1.2.2.3 L’alphabétisation des adultes ......................................................................... 4
1.2.3
La nécessité d'une approche intégrée de l'enseignement en langues nationales. 4
1.3
Choix des langues....................................................................................................... 5
1.3.1
Wolof et soninké ................................................................................................ 6
1.3.2
Mënik et laalaa ................................................................................................... 6
1.3.3
Le français .......................................................................................................... 7
1.4
Choix des domaines sémantiques............................................................................... 7
2 Revue des dictionnaires existants sur les langues
sénégalaises ............................................................................ 9
3 Méthodes de travail ......................................................... 10
3.1
Ressources humaines................................................................................................ 10
3.1.1
Linguistes ......................................................................................................... 10
3.1.2
Autres ressources humaines ............................................................................. 11
3.2
Matériel .................................................................................................................... 11
3.2.1
Matériel d'enregistrement et de numérisation .................................................. 11
3.3
Élaboration des corpus ............................................................................................. 11
3.3.1
Questionnaires lexicaux ................................................................................... 11
3.3.2
Collecte de textes ............................................................................................. 12
3.3.3
Questions de transcription ................................................................................ 12
3.3.3.1 Orthographe.................................................................................................. 12
3.3.3.2 Phonétique et phonologie ............................................................................. 12
3.4
Instruments utilisés................................................................................................... 12
3.4.1
Toolbox ............................................................................................................ 12
3.4.2
Elan................................................................................................................... 13
3.4.3
IMDI................................................................................................................. 13
3.4.4
Microsoft Keyboard Layout Creator ................................................................ 13
4 Configuration du projet de dictionnaire........................... 15
4.1
Organisation générale............................................................................................... 15
4.2
Bases de données sénégalaises ................................................................................. 16
4.3
Base de données française........................................................................................ 18
4.4
Base de données multilingue.................................................................................... 18
4.4.1
Ordre alphabétique des fiches .......................................................................... 18
4.4.2
Encodage automatisé des données de la base de données multilingue ............ 19
5 Règles de gestion du contenu des bases de données ........ 22
5.1
5.2
5.3
Remplissage de la base de donnée de la langue pivot.............................................. 22
Remplissage des bases de données en langue nationale .......................................... 22
Terminologie grammaticale en langue nationale ..................................................... 24
i
5.4
Élaboration des définitions des lexèmes .................................................................. 24
5.4.1
Définitions à contenu sémantique .................................................................... 24
5.4.2
Définitions à contenu grammatical .................................................................. 25
5.5
Gestion des homonymes, synonymes et expressions dérivées................................. 25
5.6
Cas des termes intraductibles ................................................................................... 26
5.7
Ajouts de termes non prévus au départ et extension des bases de données ............. 26
5.8
Exemplification des lexèmes.................................................................................... 27
6 Configuration du site web du dictionnaire multilingue.... 28
6.1
6.2
6.3
Architecture .............................................................................................................. 28
Possibilités d’interrogation du dictionnaire.............................................................. 29
Sorties papier et sous formats électroniques ............................................................ 30
7 Relations avec d'autres projets......................................... 32
7.1
Conception d’un dictionnaire électronique unilingue wolof et bilingue woloffrançais ................................................................................................................................. 32
7.2
Documentation et description du bëdik (mënik) ...................................................... 33
7.3
Thèses de linguistique sur le mënik et le laalaa ....................................................... 33
8 Retombées pour la recherche........................................... 35
8.1
8.2
Reproduction du modèle de dictionnaire ................................................................. 35
Mise à disposition de corpus .................................................................................... 35
9 Perspectives ..................................................................... 36
9.1
Élaboration de correcteurs orthographiques et de configuration de claviers pour les
langues nationales ................................................................................................................ 36
9.2
Extension de la base de données .............................................................................. 36
9.3
Élaboration de dictionnaires illustrés ....................................................................... 37
9.4
Diffusion du dictionnaire sur téléphones portables.................................................. 37
10 Recommandations aux décideurs et aux pouvoirs publics38
10.1 Prise en compte de la dimension d’intégration linguistique dans l’élaboration du
matériel didactique ............................................................................................................... 38
10.2 Développement de recherches transnationales sur les langues véhiculaires............ 38
10.3 Réflexion sur les formats de diffusion autour des productions en langues nationales
39
Conclusion ............................................................................ 40
Bibliographie ........................................................................ 41
ii
Illustrations
Illustration 1: Schéma global du projet de dictionnaire ........................................................... 16
Illustration 2: fiche de base de données en langue nationale ................................................... 17
Illustration 3: Exemple de fiche de la base de données française ............................................ 18
Illustration 4: fiche multilingue avant encodage automatique ................................................. 19
Illustration 5: Fiche multilingue interlinéarisée ....................................................................... 20
Illustration 6 : Données françaises interlinéarisées dans la base mënik................................... 22
Illustration 7 : Insertion du lexème ménik après enquête......................................................... 22
Illustration 8 : Page d’accueil du site ....................................................................................... 28
Illustration 9 : Dossier du site wosomela ................................................................................. 29
Illustration 10 : Page multilingue du dictionnaire en ligne (version provisoire) ..................... 30
iii
Remerciements
Ce travail a été réalisé grâce à l'appui financier du Réseau Ouest et Centre Africain de
Recherche en Education (ROCARE), nous leur exprimons ici nos sincères remerciements.
Ces remerciements s'adressent aussi à notre parrain scientifique, le Professeur Souleymane
Faye, pour son excellent encadrement, ses conseils, ses critiques, ses suggestions et surtout sa
disponibilité de toujours.
Nous tenons également à remercier, pour leur appui, la Direction de l'IFAN-CAD, le Chef du
Laboratoire de Linguistique de l’IFAN-CAD, Mme Jeanne Lopis Sylla, le Département de
Linguistique de la Faculté des lettres et Sciences humaines de l'UCAD, la Direction de
l'Alphabétisation et la Direction des Langues nationales
A tous nos informateurs et personnes ressources, Almamy Konaté, Mansour Khouma et tant
d'autres, nous exprimons nos vifs remerciements pour leur patience, leur disponiblité et tout
leur engagement sans faille pour la promotion des langues nationales.
Merci également à tous nos collègues et amis de l'IFAN.
iv
Introduction
L’introduction des langues nationales et leur place dans les systèmes éducatifs en Afrique
sub-saharienne ont toujours fait l’objet de réflexions, de débats et d'analyses. Au Sénégal,
l'expérience qui a recommencé après l'échec des années 80, en 2002, est louable et même si de
bons résultats commencent à être perçus, beaucoup d'obstacles restent encore à lever. Le plus
évident est le manque criard de documents didactiques. Le problème qui se pose dans
l'enseignement des langues nationales est d’ordre méthodologique. Au lieu de développer un
système éducatif globalement monolinguiste à l’image de ce qui se fait dans nombre de pays
développés, un système bilingue d'éducation, avec le français, langue de l’ancienne puissance
coloniale comme langue officielle et langue d’enseignement, demeure en vigueur. Cette
méthode d’enseignement qui ne tient pas compte des réalités linguistiques et socioculturelles
des milieux dans lesquels elle s’applique, est en grande partie responsable du taux élevé
d’échecs et de retards scolaires constaté dans beaucoup d’états africains post-coloniaux.
Le problème de la disponibilité d’outils de travail adéquats se pose également dans la
traduction impliquant deux ou plusieurs langues nationales. Dans leur pratique de tous les
jours, les traducteurs sont obligés de recourir au français pour traduire un document donné
d’une langue nationale à une autre.
L’étude de faisabilité, que le présent document présente, expose une méthodologie de
réalisation de bases de données lexicales permettant de produire des dictionnaires
multilingues pour l’enseignement et la traduction. Elle concerne quatre langues sénégalaises,
à savoir le wolof, le soninké, le mënik, le laalaa, et une langue européenne, le français. Sur le
plan informatique tous les logiciels utilisés sont gratuits et/ou open source.
Le présent rapport renferme dix chapitres. Le chapitre 1 la pertinence d’une telle étude en
contexte africain. Le chapitre 2 passe en revue les différents dictionnaires existants sur les
langues sénégalaises objets de l’étude. Les chapitres 3 à 6 exposent à proprement parler la
méthodologie de travail, le déroulement de l’étude de faisabilité ainsi que la réalisation de son
site web, qui constitue l’élément majeur de la stratégie de diffusion mise en œuvre. Enfin, les
4 derniers chapitres expliquent les relations nouées par notre équipe avec d’autres projets, les
perspectives que notre étude ouvre dans la recherche sur les dictionnaires en langues
nationales, avec à terme, un ensemble de recommandations à l’adresse des décideurs et des
pouvoirs publics, qui nous l’espérons, trouveront un intérêt dans cette contribution.
1
1 Justification de l'étude
1.1 Diversité linguistique en Afrique
L'intégration régionale de l'Afrique n'est possible que si l'on tient compte de la culture de
chacun des peuples qui la composent. À l'heure de l'intégration africaine, il est impératif et
plus que nécessaire de respecter la diversité linguistique. Si les citoyens africains veulent
vivre, travailler ensemble et entretenir des relations économiques, sociales et culturelles les
uns avec les autres, ils doivent nécessairement acquérir les compétences leur permettant de
communiquer plus efficacement et de mieux se comprendre. Dans une certaine mesure, cet
impératif est déjà pris en compte dans le quotidien des Africains. La réalité est que la mobilité
des personnes, la dynamique et le brassage de ces différents individus font que ceux-ci
réclament plusieurs identités ethniques et acquièrent plusieurs langues vernaculaires. Le fait
d'apprendre et de parler d'autres langues est un encouragement à s'ouvrir davantage aux
autres, à leur culture et à leurs modes de représentations.
Le problème qui se pose cependant est celui de l'enseignement de ces langues vernaculaires
compte tenu du manque d'outils linguistiques et pédagogiques adéquats permettant de mener à
bien cette entreprise. L'existence des systèmes d'éducation modernes et la nécessité pour nos
pays de constituer des ensembles toujours plus grands rendent aujourd'hui impératifs le
développement d'outils linguistiques dont l'objectif est de faciliter et de promouvoir le passage
d'une langue africaine à une autre.
L'élaboration de passerelles linguistiques interafricaines ne doit pas toutefois signifier que
l'Afrique va se replier sur elle-même. Les outils élaborés devront servir de passerelles avec
des langues non africaines, aussi bien pour les langues européennes qui servent de langues
officielles dans nos pays, que pour les autres langues du monde.
1.2 Introduction des langues nationales dans les cursus de
l'éducation formelle
1.2.1 Langues maternelles et éducation formelle
L’introduction des langues nationales à l’École est aujourd’hui une nécessité primordiale
aussi bien sur le plan linguistique que sur le plan psycho-pédagogique.
Sur le plan linguistique, l'enseignement des langues nationales permet de valoriser les langues
locales, de sauvegarder l'identité culturelle des enfants et de promouvoir la solidarité entre les
différentes communautés.
2
Sur le plan psycho-pédagogique, cet enseignement, en plus d'améliorer les performances des
élèves permet d'assurer la continuité du développement psycho-moteur, affectif et cognitif de
l'enfant.
Aussi, l’UNESCO avec son réseau Linguapax, la Banque mondiale et l’Organisation
Internationale de la Francophonie (OIF), considèrent l'importance des langues africaines dans
le développement des pays africains et font de leur introduction dans l’éducation formelle des
facteurs clef du développement des systèmes éducatifs africains. C’est ainsi qu’il a été
reconnu que:
•
l’éducation de base doit faire en sorte que l’individu acquière et maintienne vivante sa
langue et sa culture et qu’il reconnaisse en elle des éléments clefs de son appartenance
à une société productive et démocratique;
•
la langue maternelle constitue un instrument de communication personnelle et cela
suppose une utilisation efficace de cet outil dans toutes les situations de
communication.
Cela n’est possible qu'avec la nécessaire implication des linguistes, qui doivent contribuer par
leurs travaux à l’élaboration de l’outillage didactique des langues nationales.
1.2.2 Eléments sur la gestion linguistique dans la politique éducative au
Sénégal
Depuis les années 70, le Sénégal s’est résolument engagé dans une politique d’officialisation
des règles d’orthographes des langues reconnues comme nationales. Entre 1975 et 1985, six
langues locales ont été choisies et codifiées sur une trentaine et sont considérées comme
langues nationales. Dix sept autres langues ont été codifiées entre 2002 et 2008. À ce jour, 19
sur les 23 langues codifiées disposent d’un décret officiel.
1.2.2.1 La situation du français
Le français est la langue officielle et d'enseignement au Sénégal. Tout curriculum de gestion
des langues dans l'enseignement doit en tenir compte. Dans la situation actuelle, seul le
français est enseigné, ce qui pose des problèmes de différentes natures dont les principaux
sont les échecs et les retards scolaires.
C'est en réaction à cet état de fait qu'il a été décidé de revoir les curricula dans l'optique
d'introduire les langues nationales dans le cursus d'enseignement. Des expériences sont en
cours. Leur évaluation a montré qu'un des problèmes majeurs est le manque de matériel
didactique adéquat. La base de donnée que nous proposons se veut une réponse à la question
3
des outils lexicaux pouvant entrer en jeu dans un environnement africain multilingue
semblable à celui du Sénégal.
1.2.2.2 Les langues nationales à l'université
Contrairement à la situation qui prévaut pour l’enseignement élémentaire et secondaire, les
langues nationales sont depuis plusieurs décennies présentes dans le cursus d’enseignement
supérieur. La faculté des lettres et sciences humaines de l’Université Cheikh Anta Diop offre
ainsi à ses étudiants la possibilité de choisir une langue nationale comme deuxième langue.
Actuellement sont enseignés le wolof, le pulaar, le diola et le sérère. Les autres langues ne
sont pas encore représentées en raison du manque d’enseignants spécialistes.
1.2.2.3 L’alphabétisation des adultes
Soucieuse de renforcer les capacités de sa population, tout en tenant compte de sa diversité, le
Sénégal s’est impliqué tôt dans une politique d’alphabétisation des adultes, afin de donner, à
ceux et celles qui étaient trop âgés pour intégrer le système formel d’éducation, l’opportunité
d’apprendre à lire, écrire et calculer dans leur propre langue. Un accent particulier a été mis
sur la formation des femmes, celles-ci constituant une population particulièrement défavorisée
en matière d’alphabétisation. Ainsi le Sénégal dans le cadre du Projet de Développement des
Ressources Humaines (PDRH) s’est appuyé sur les groupements féminins pour vaincre
l’absentéisme et le manque de motivation des femmes, constatés lors de la mise en ouvre des
programmes d’alphabétisation (Faye, 2001).
1.2.3 La nécessité d'une approche intégrée de l'enseignement en langues
nationales.
La situation linguistique du Sénégal montre que le wolof est la langue la plus parlée au
Sénégal. Les statistiques de 1988 (Direction de la Prévision et de la Statistique, 1993)
montrent en effet:
−
Que 49,2% de la population ont comme langue première le wolof ;
−
Que 22% de la population utilisent le wolof comme seconde langue.
Cela indique donc que le wolof ne peut être occulté dans l'enseignement des langues
nationales à l'École. On peut donc s'attendre à ce que, quel que soit la composition
linguistique d'une agglomération donnée au Sénégal, le wolof fasse obligatoirement partie du
curriculum linguistique d’enseignement.
4
Néanmoins dans la majorité des cas, cette langue hégémonique ne saurait être la seule qui
entre en jeu. Nous basant toujours sur l'étude statistique citée, on constate que 50,8% de la
population sénégalaise a pour première langue une langue autre que le wolof. Un curriculum
linguistique qui prend en compte la diversité linguistique nationale et le droit pour chaque
individu de pouvoir lire et écrire dans sa langue, doit prendre ce fait en compte et prévoir en
plus du wolof, au moins une autre langue d'enseignement qui pourrait varier selon le
configuration du milieu concerné.
Le fait que des classes puissent être multilingues, implique que les outils didactiques devant
entrer dans le curriculum doivent prendre en compte cet aspect. C'est la raison pour laquelle
notre base de données intègre 4 langues sénégalaises avec possibilité directe de traduction des
termes d'une langue à l'autre.
1.3 Choix des langues
Comme la plupart des langues africaines, les quatre langues choisies pour cette étude n'ont
pratiquement pas bénéficié jusqu'à présent des avantages découlant des avancées de
l'informatique depuis la fin des années 1990 en matière d'universalisation du traitement
(Unicode) et d'échange (XML) des données textuelles.
La disponibilité des données lexicologiques du projet de recherches sous forme électronique,
en conformité avec les standards Unicode et XML, permettra non seulement leur exploitation
à long terme par des chercheurs en sciences sociales mais aussi leur réutilisation et leur
intégration
dans
des
applications
d'ingénierie
linguistique
tel
qu'un
vérificateur
orthographique. La base de données issue du projet pourra également servir à élaborer des
outils de traduction et des modules de didactique à différents niveaux dans chacune des
langues impliquées.
Le projet de recherches vise en outre à poser les jalons d'une linguistique de corpus par
l'élaboration de bases de données au départ linguistiques, disponibles et extensibles pour tout
chercheur en sciences sociales qui souhaiterait y contribuer par l'ajout de son propre corpus ou
les utiliser pour étudier d'autres aspects des sociétés dont elles sont issues. Le modèle de
données qui sera utilisé sera conçu de telle manière à pouvoir être réutilisable pour d'autres
projets du même type.
L'étude sera axée autour de deux domaines sémantiques, ceux de la santé (paludisme) et de
l'éducation (scolarisation des filles).
5
Le nombre de domaines sémantiques de l'étude a volontairement été limité pour permettre une
analyse comparative pointilleuse des différences de sens pouvant exister entre les langues
pour une même notion. La problématique de l'élaboration d'une définition pour chaque
lexème et d'un métalangage grammatical dans chaque langue y bénéficiera d'une attention
particulière.
Ce projet a en outre pour ambition de contribuer à la sauvegarde des langues en danger par
une mise à disposition des données sur le laalaa et le mënik, qui sont des langues menacées,
parlées par des minorités ethniques.
1.3.1 Wolof et soninké
Le wolof et le soninké sont deux des langues majoritaires au Sénégal et font partie des
premières reconnues comme nationales dans ce pays. Le wolof est parlé comme langue
première ou seconde par la majorité de la population sénégalaise. Le soninké est parlé
essentiellement dans le département de Bakel, à l'est du Sénégal. Ces deux langues ont été
choisies en raison de leur statut de langue nationale et de leur diversité typologique et
culturelle. Le wolof est une langue ouest-atlantique, de la famille Niger-Congo d'après la
classification de Greenberg (1970) tandis que le soninké est une langue mandé ouest (ibid.).
Disposer de ces deux langues pour notre étude de faisabilité noua a permis de nous confronter
directement aux problèmes d'ordre scriptural et grammatical1. Des problèmes d'ordre
sémantique pouvaient également survenir, l'aire culturelle mandé étant différente de celle
ouest-atlantique. Les cas de figures qui se sont présentés auraient pu ne pas apparaître si avec
le wolof nous avions choisi le pulaar qui est également une langue ouest-atlantique ou si nous
avions choisi en plus du soninké, le mandinka, autre langue mandé.
1.3.2 Mënik et laalaa
Le mënik et le laalaa sont des langues minoritaires au Sénégal considérées comme des
langues en danger. Dans son récent Atlas des langues en danger dans le monde (Moseley,
2009), l’Unesco estime qu’une langue est en péril « lorsque ses locuteurs cessent de l’utiliser,
réservent son usage à des domaines de plus en plus restreints, emploient un moins grand
nombre de registres et arrêtent de la transmettre à la génération suivante ». Cette situation
peut découler de facteurs externes dus à une domination militaire, économique, religieuse,
éducationnelle, de l'urbanisation galopante, à la mobilité des populations ou de facteurs
1
Le wolof est une langue à classes nominales, ce qui n'est pas le cas du soninké ; le soninké est une langue à
tons, tandis que le wolof n'en comporte pas
6
internes qui se manifestent par une attitude négative de la communauté envers sa propre
langue.
Le mënik et le laala sont des langues en danger caractérisées par un faible nombre de
locuteurs, du fait l'exode rural de ses locuteurs, de la transmission médiocre de la langue aux
plus jeunes et de l'évangélisation des populations qui ont tendance à parler le français au
détriment de leurs langues. Le mënik a rang de langue nationale du fait qu'il dispose d'un
décret régissant son orthographe. La codification du laalaa est en cours mais non encore
achevée au moment de la rédaction de ce rapport.
La prise en compte de ces deux langues dans le projet se comprend comme la prise en compte
de la diversité linguistique pouvant exister dans un milieu donné. Ainsi, dans un village
mënik, la possibilité d'avoir une classe multilingue en langue nationale wolof-mënik doit
pouvoir exister et par conséquent les outils didactiques correspondant doivent pouvoir être
créé. A titre d’exemple, la base de donnée que nous proposons offre ainsi la possibilité de
traductions entre le wolof et le mënik, par exemple.
La prise en compte de ces langues entre en outre, dans l'entreprise de sauvegarde et de
revalorisation des langues minoritaires au Sénégal.
1.3.3 Le français
La prise en compte du français dans notre étude se justifie de deux manières:
−
le français étant la langue officielle et d'enseignement au Sénégal, toute tentative
d'élaboration d'outil didactique doit la prendre en considération ;
−
du point de vue heuristique, le français est la langue pivot du projet, étant donné que c'est
la seule qui est comprise par l'ensemble des contributeurs. Nous verrons dans la section
sur la configuration de la base de données que c'est la langue qui a servi de point de départ
et de coordination de la base de données, bien que dans la présentation finale, elle ne revêt
pas un statut particulier.
1.4 Choix des domaines sémantiques
La connaissance du vocabulaire et du discours que les peuples tiennent sur l'éducation
contribue à une meilleure appréhension des systèmes d'éducation endogènes. La constitution
de tels vocabulaires permettra à terme, d'une part, d’élaborer des politiques d'éducation mieux
adaptées aux milieux dans lesquelles elles sont sensées s'appliquer, et d'autre part, de limiter
7
le taux d'échec des systèmes d'éducation en général et de permettre des campagnes
d'éducation ciblées sur un thème donné, en particulier.
Le temps, les moyens limités et le caractère d'étude qualitative du projet ne permettait pas de
faire une base de données exhaustive comprenant au moins 6000 entrées lexicales. L'équipe a
donc opté pour une sélectivité des domaines sémantiques que la base de données devait
couvrir. Après une consultation sommaire basée essentiellement sur les connaissances des
contributeurs qui ont tous une expérience d'enquête de terrain dans les milieux concernés, le
choix s'est porté sur deux domaines : Le paludisme et la scolarisation des filles.
La pratique a cependant très vite mis à jour que le traitement exclusif du lexique de ces
domaines serait insuffisant pour la traduction d'un texte sur le paludisme par exemple.
Nous avons donc opté pour l'ajout d'un troisième domaine réunissant toutes les entrées qui
n'appartiennent à aucun des domaines listés ci-dessus, à savoir, le vocabulaire fondamental
8
2 Revue des dictionnaires existants sur les langues
sénégalaises
Il existe plusieurs dictionnaires sur les langues nationales sénégalaises. Le wolof est en
l’occurrence particulièrement bien doté. La majorité des dictionnaires concernant cette langue
sont cependant de type bilingue. Sont disponibles des dictionnaires wolof-français (Dial, pas
de date; Diouf, 2003; Fal, Santos, & Doneux, 1990; Faye, 1996), et des dictionnaires wolofanglais, (Gamble, 1991; Kantorek, 2005; Munro & Gaye, 1997).
Il n’existe à notre connaissance qu’un seul dictionnaire unilingue wolof, le Sekk bu ndaw de
Lamin Kebaa Sekk (1999).
En ce qui concerne le soninké, on recense également quelques dictionnaires bilingues avec le
français et l’anglais. On peut citer le Lexique soninke (sarakole)-français de Bathily et
Meillassoux (1975) parmi les plus anciens, et le Dictionnaire soninké-français de Dantioko
(2003) parmi les plus récents. Il existe néanmoins d’autres ouvrages du même type (Dramé,
Galtier, & Dantioko, 1977; B. Smeltzer & S. Smeltzer, 1997) ainsi que des glossaires en ligne.
Parmi ceux-ci dictionnaire soninké –anglais a été recensé (Hart, pas de date)
Pour le mënik, le seul ouvrage recensé est le Thésaurus Tenda. Dictionnaire ethnolinguistique
de langues sénégalo-guinéennes (bassari-bedik-konyagi) de M. P Ferry (1991)
Quant au laalaa, il ne dispose pas, à notre connaissance, de dictionnaire ou de lexique publié.
9
3 Méthodes de travail
3.1 Ressources humaines
3.1.1 Linguistes
Quatre chercheurs – les membres de l'équipe du projet – ont travaillé à réunir les corpus et
configurer les bases de données. Chaque chercheur était responsable d'une langue:
−
Sophie Wade pour le mënik: Étudiante au Département de Linguistique de l'Université de
Dakar, elle a soutenu en 2006 un mémoire de maîtrise sur le thème approche syntaxicosémantique du verbe en mënik. Elle poursuit sa spécialisation en analyse discursive et
syntaxique des langues Tenda en général et du mënik en particulier dans son projet de
doctorat. C’est ainsi que depuis octobre 2007 elle conduit une recherche de doctorat sur le
thème les marques discursives et syntaxiques dans la cohérence du discours mënik. Son
mémoire de DEA, soutenu en juin 2007 a constitué le premier jalon de cette recherche.
−
Papa Oumar Fall pour le laalaa: Inscrit en troisième cycle au Département de Linguistique
depuis 2007, il prépare une thèse de doctorat sur le thème: Phonologie et morphologie du
laala. Ses recherches actuelles sur les langues cangin dont le laala fait partie, font suite à
un mémoire de maîtrise: Contribution à la phonologie du laala (2005) et à un mémoire de
DEA sur les pronoms en laala (2006).
−
Adjaratou Oumar Sall pour le wolof : Spécialiste de la syntaxe du wolof, lle a soutenu sa
thèse sur la subordination en wolof. Elle est également impliquée dans la recherche sur la
didactique des langues et dans la documentation des langues parlées par les minorités
ethniques au Sénégal.
−
Anna Marie Diagne pour le soninké: Spécialiste de cette langue, elle a écrit une thèse sur
la phonologie et la morphologie du soninké (Diagne 2006). Elle dispose donc d'un corpus
lexical et phrastique assez important et d'une expérience dans le domaine de la gestion de
base de donnés lexicales et grammaticales avec Toolbox. Elle a en outre, participé au
projet conception d’un dictionnaire électronique unilingue wolof et bilingue woloffrançais (Cissé, Diagne, van Campenhoudt, & Muraille, 2008) sur l'ossature duquel le
présent projet est en partie basé.
10
3.1.2 Autres ressources humaines
Dans le cadre de la mise au point du site de dictionnaire et de la programmation des différents
types de sorties, l'équipe du projet a fait appel à un informaticien du Centre de Calcul
Informatique de l’UCAD.
Différents informateurs ont participé au projet comme personnes ressources, pour la collecte
de corpus et l’élaboration des définitions de lexèmes et de phrases d’illustrations. Ils ont
également servi de locuteurs pour l’enregistrement des illustrations sonores de la base de
données.
3.2 Matériel
3.2.1 Matériel d'enregistrement et de numérisation
Les enregistrements ont été fait en tenant compte des exigences de qualité scientifique exigés
en phonétique, ceci afin que les enregistrements effectués puissent servir de manière optimale
à tous types d'analyse. Les standards les plus exigeants étant ceux de la phonétique
acoustique, sont ceux qui ont été adoptés. Le projet a en outre pris à son compte des directives
du consortium des langues en danger (Gippert, Himmelmann, & Mosel, 2006). Le matériel
d'enregistrement utilisé est le suivant:
−
Enregistreur Marrantz PMD 670 ;
−
Microphone audio-technica AT4041.
La totalité du corpus lexical a été enregistré à l'IFAN avec ce matériel. Le Marrantz PMD 670
présente l'avantage de numériser directement le son, avec pour conséquence a une altérité
minimale de l'original. Les fichiers sont ensuite récupérés sur ordinateur au moyen d'une
simple entrée USB.
Une partie du corpus de Sophie Wade pour le mënik a été enregistré avec un matériel moins
performant, un dictaphone à cassettes standard. Les enregistrements ont ainsi été effectués en
analogique puis ont été numérisés sur ordinateur en format wav.
3.3 Élaboration des corpus
3.3.1 Questionnaires lexicaux
Les données principales de la base lexicale ont été collectées à partir de questionnaires
lexicaux thématiques concernant les domaines sémantiques retenus. Nous sommes partis de
questionnaires identiques pour toutes les langues, dont les items étaient numérotés pour
faciliter leur identification. Lors des sessions de travail avec les informateurs, des entrées
11
supplémentaires ont été intégrées, dont certaines étaient spécifiques à une langue donnée.
Lors de la mise en commun des données, ces cas particuliers ont été discutés et traités
(affiliation d'un numéro d'identification) de manière à avoir des équivalences dans les autres
langues.
3.3.2 Collecte de textes
Le corpus lexical a été complété par des textes sur les thématiques retenus issus de
l'alphabétisation fonctionnelle et de d'enregistrement d'interviews et de récits dans chaque
communauté. Les textes ont été transcrits et les lexèmes collectés ont été intégrés à la base de
données. Les enregistrements faits dans les mêmes conditions que le corpus lexical ont été
documentés selon le système IMDI (voir section 3.4.3). Les descriptions sont disponibles sur
le site du projet. Les enregistrements sont archivés à l'IFAN et peuvent être mis à la
disposition de la communauté scientifique sur demande.
3.3.3 Questions de transcription
3.3.3.1 Orthographe
Pour la transcription orthographique, l'option a été prise de se baser sur les décrets régissant
l'orthographe des langues au Sénégal lorsqu'ils existent. C'est le cas pour le wolof, le soninké
et le mënik. Le laalaa par contre ne dispose pas encore de décret officiel. Nous nous sommes
basé pour son orthographe sur les recherches en phonologie de Papa Oumar Fall, le
responsable pour cette langue dans le cadre de ce projet.
3.3.3.2 Phonétique et phonologie
En plus de la transcription orthographique, la base de données comprend également des
transcriptions phonétique et phonologique des entrées lexicales. Le système de transcription
utilisé est celui de l'alphabet phonétique international (International Phonetic Association,
1999) Les règles de transcription phonologique, qui sont le résultats de recherches en
linguistique ont pour soubassement les travaux en phonologie des membres du projet: Pour le
laalaa (Fall, 2005, 2006) ; pour le mënik (Wade, 2006, 2007) ; pour le soninké (Diagne,
2006) ; pour le wolof, les travaux de Dialo (1983), cités dans Sall (2008).
3.4 Instruments utilisés
3.4.1 Toolbox
12
Toolbox est un logiciel d’analyse morphologique et syntaxique de la Société Internationale de
Linguistique (SIL, 2009)Il permet le découpage et l’interlinéarisation de corpus textuels et
lexicaux. À partir des corpus encodés, il permet également de configurer un dictionnaire
publiable directement. Le programme comporte en effet des définitions de bases données pour
un dictionnaire, adaptables au besoin. Toolbox est un logiciel gratuit et a par rapport à son
prédécesseur Shoebox, l’avantage d’admettre des polices Unicode. Il admet au moyen d’une
feuille de style, un balisage XML des corpus.
3.4.2 Elan
Elan est un logiciel d’annotation gratuit du Max Planck Institut for Psycholinguistics
(Wittenburg, Brugman, Russel, Klassmann, & Sloetjes, 2006) qui permet de faire des
transcriptions temporellement alignées au signal audio ou vidéo avec un ou plusieurs
locuteurs. Il permet également de définir et de hiérarchiser, en fonction du signal ou d’un
premier champ déjà existant, plusieurs autres champs pour la recherche linguistique,
sociolinguistique ou ethnologique.
Les textes de transcriptions, traductions ou autres peuvent être extraits et utilisés comme
fichiers texte et avec des éditeurs courants comme Word ou OpenOffice. Par ailleurs, un
projet défini avec Elan est réutilisable une fois enregistré sous forme de modèle, qui est en fait
un fichier XML.
3.4.3 IMDI
Le système de métadonnées IMDI (Broeder, Offenga, Willems, & Wittenburg, 2001) a été
développé au Max Planck Institut for Psycholinguistics en collaboration avec des linguistes,
informaticiens, spécialistes en ingénierie linguistique. Il est formalisé par un schéma XML.
Sur la base d’IMDI, un certain nombre d’outils a été développé (éditeur spécifique, navigateur
XML, convertisseur HTML, etc.) Pour permettre une indexation pour de la recherche via un
navigateur web ou pour faire de l’extraction de sous-corpus.
Un développement spécifique a permis de créer un navigateur propre à lire les métadonnées
IMDI et qui permet de chercher dans les descriptions de ressources ainsi cataloguées. Le
système IMDI est devenu un standard utilisé par plusieurs archives de documentation
linguistique à travers le monde.
3.4.4 Microsoft Keyboard Layout Creator
Pour faciliter la saisie informatique des items en langues nationales et en IPA, des
configurations de clavier permettant de taper directement les caractères absents des claviers
13
conventionnels ont été élaborés. C'est un des rares aspects du projet à ne pas utiliser de
logiciel open source. Celui que nous avons utilisé est néanmoins gratuitement mis à
disposition par Microsoft. Il s'agit du Microsoft Keyboard Layout Creator (Microsoft, 2007).
Ce programme gratuit, complémentaire du système d'exploitation Windows permet de
configurer de mettre au point des configurations de claviers selon les besoins des utilisateurs.
Les configurations de claviers produites présentent en plus l'avantage d'être facilement
intégrable à Toolbox, qui est le programme de base de données que nous avons utilisé. Une
configuration de clavier peut en effet être affiliée à un champ particulier ce qui fait que par
exemple tous les champs de wolof peuvent être affiliés au clavier wolof et tous les champs de
français au clavier français. L'utilisateur a ainsi toujours à disposition, directement sur son
clavier, les caractères dont il a besoin sans autre manipulation supplémentaire. Les
configurations de claviers mises au point sont disponibles sur le site du projet.
14
4 Configuration du projet de dictionnaire
4.1 Organisation générale
L’organisation du dictionnaire a obéit aux contraintes du logiciel Toolbox qui a servi de
gestionnaire de bases de données.
Pour Toolbox toute entreprise de description linguistique correspond à un projet qui est
constitué de bases de données configurées selon les besoins de l’entreprise envisagée.
Ainsi notre dictionnaire multilingue constitue le projet Toolbox. Ce projet comprend six bases
de données :
-
Une base pour chacune des langues impliquées : laalaa, soninké, wolof, mënik,
français. Les bases en langues nationales ont la même structure en terme de fiches et
de contenu (voir section 5.2 ). La base française est différente en ce sens qu’elle ne
comporte pas de champs de traduction (voir section 5.1 ) ;
-
Une base de données multilingue. La structure de la base multilingue est complexe en
ce sens qu’elle comporte tous les champs des autres bases de données. Son
remplissage se fait de manière automatisée à partir du contenu des autres bases de
données ;
-
un encodage de langue2 par code linguistique utilisé (un pour chaque langue de la base
de données + un pour la phonétique/phonologie) ;
-
des définitions de champs d’encodage des données.
Le schéma global du projet se présente comme suit :
2
L’encodage pour une langue donnée comporte tous les paramètres concernant cette langue : ordre alphabétique,
caractères permis, configuation de clavier associée.
15
Illustration 1: Schéma global du projet de dictionnaire
4.2 Bases de données sénégalaises
Le projet comprend quatre bases de données en langue nationale, c’est-à-dire une pour
chacune des langues sénégalaises du projet (wolof, mënik, soninké, laalaa). Ces quatre bases
de données ont la même structure. On y distingue :
-
Un champ d’identification de la fiche (\refid) ;
-
des champs primaires en langue nationale : il s’agit des champs lexémique (\lex)
de définition du lexème (\def), de la phrase díllustration du lexème (\phr) ;
-
des champs de transcription linguistique : phonétique (\phon) et phonologie (\phol) ;
-
des champs d’illustration sonore. Il s’agit des liens des fichiers sons du lexème (\fsL)
et de la phrase d’illustration du lexème (\fsPhr) ;
-
des champs de traduction française du lexème, de la définition du lexème (\tradDef) ;
(\tradFlex) de la phrase d’illustration (\tradPhr) ; de la catégorie grammaticale de la
traduction du lexème (\catF) et du domaine sémantique du lexème (\doSem) ;
-
des champs de gestion de la fiche lexicale : date de dernière modification (\dat), statut
(\statF), commentaire (\cmtF) ;
-
des champs complémentaires : classe nominale/genre (\clas), catégorie grammaticale
du lexème (\cat) ;
16
-
des champs facultatifs : variante (\var), homonyme, (\hom) synonyme (\syn),
expression dérivée (\exDer) et lexème source de l’expression dérivée (\lexSrc) du
lexème ;
-
des champs d’origine textuelle : source du lexème (\srcL), source de la définition
(\srcD), contexte d’attestation (\att), source du contexte d’attestation (\srcA), note
d’usage (\nus), corpus associé (\ca ) ;
Une fiche lexicale se présente de la manière suivante à l’exemple de la fiche du mot
soninke kuuse ‘estomac’ :
Illustration 2: fiche de base de données en langue nationale
17
4.3 Base de données française
Le français n’étant pas un objectif principal de notre projet, la base de données qui lui est
dédiée a été limitée au minimum. La configuration de base de donnée comprend néanmoins,
tous les champs recensés pour les bases en langue nationale en dehors de champs de
traduction. Pour notre étude de faisabilité, le français a été retenu comme langue pivot, ce qui
explique que dans l’illustration ci-dessus, les champs de traduction soient en début de fiche.
Les champs suivants ont été concrêtement utilisés dans la base de données française:
référence de la fiche (\refid), lexème (\lex), catégorie grammaticale du lexème (\cat), classse
nominale/genre (\clas) domaine sémantique du lexème (\doSem) et date de dernière
modification de la fiche (\dat).
Illustration 3: Exemple de fiche de la base de données française
Les quatre premiers champs servent au remplissage automatique des champs correspondants
dans les bases de données en langue nationale et dans la base de données multilingue, ce qui
permet de limiter le nombre d’erreurs et de faciliter l’harmonisation de l’encodage entre les
différents transcripteurs.
4.4 Base de données multilingue
4.4.1 Ordre alphabétique des fiches
La configuration de l’ordre alphabétique des bases de données se fait dans le module
d’encodage de langue de Toolbox. Pour les bases de données individuelles, la question de
l’ordre alphabétique à adopter se règle de manière simple : il s’agit de se conformer à celui
édicté dans les différents décrets régissant l’orthographe des langues considérées ou à défaut,
comme dans le cas du laalaa, de prendre comme base l’ordre alphabétique de l’alphabet latin
18
et d’insérer les caractères manquants à la suite de ceux de l’alphabet latin de même lieu
d’articulation en respectant l’ordre phonétique d’ordonnancement3.
Pour la base multilingue, ce principe a été respecté : L’ordonnancement de l’alphabet latin a
été pris comme base et les caractères propres aux langues nationales existant dans les
différents alphabets de ces langues ont été insérés selon leur ordre phonétique. Cela donne
pour l’encodage multilingue de notre projet l’alphabet orthographique suivant :
A,a ; B,b ; Ɓ,ɓ ; C,c ; D,d ; Ɗ,ɗ ; E,e ; F,f ; G,g ; H,h ; I,i ; J,j ; K,k ; L,l ; M,m ; N,n ; Ñ,ñ ;
Ŋ,ŋ ; O,o ; P,p ; Q,q ; R,r ; S,s ; Ŝ,ŝ ; T,t ; U,u ; W,w ; X,x ; Y,y ; Ƴ,ƴ ; Z,z.
4.4.2 Encodage automatisé des données de la base de données multilingue
La base multilingue est une base de données collective constituée des données des autres
bases du projet. Son remplissage se fait de manière automatisée. Le seul champ qu’une fiche
de cette base comprend au départ est le champ de référence (\refid) :
Illustration 4: fiche multilingue avant encodage automatique
L’automatisation de l’encodage se fait en utilisation la fonction lookup du module
d’interlinéarisation de Toolbox. Cette fonction permet d’insérer dans la base multilingue les
données d’une autre base en prenant comme identificateur le marqueur refid. Le résultat du
processus d’interlinéarisation est illustré au moyen de la fiche simplifiée suivante (simplifiée
pour les besoins de l’illustration) :
3
Celui de l’Alphabet Phonétique International (API)
19
Illustration 5: Fiche multilingue interlinéarisée
L’origine des données de chaque langue est reconnaissable par l’extension linguistique finale
des champs. Par exemple le champ \lex de la base de données wolof devient dans la base
multilingue \lexWo, l’extension pour le wolof étant Wo. Les autres extensions sont So pour le
soninke, Me pour le mënik et La pour le laala, ce qui nous donne pour le champ définition du
lexème (\def), respectivement \defWo, \defSo, \defMe et \defLa. Dans le souci de permettre
une identification visuelle aisée des données de chaque langue, une couleur différente a été
affiliée à chaque encodage de langue, comme le montre l’Illustration 5.
20
Lorsqu’un champ est vide dans la base de donnée originelle, le champ correspondant dans la
base multilingue est reporté avec des étoiles. Lors de la publication du dictionnaire
multilingue tout champ comportant des étoiles ne sera pas publié. C’est par exemple le cas du
champ classe nominale soninke (\clasSo). Ce champ est toujours étoilé du fait que le soninké
ne comporte pas de classe nominale. Il ne sera donc jamais publié mais est maintenu dans la
configuration de la base de donnée à des fins d’harmonisation du schéma.
Le contenu du champ de statut de la fiche (\statF) détermine si une fiche dans son ensemble
sera publiée ou non. La fiche ne sera publiée que si la valeur ‘ok’ est encodée dans ce champ,
par le coordinateur du projet de base de données.
21
5 Règles de gestion du contenu des bases de données
5.1 Remplissage de la base de donnée de la langue pivot
La première base à être remplie a été la base de données française, du fait qu’il s’agit de la
langue pivot du dictionnaire. Chaque lexème français a ainsi été affilié à un numéro de
référence (refid) ayant le format suivant : fr_0000. Ce format permet de prévoir jusqu’à 9999
entrées pour le dictionnaire. Le nombre d’entrées possible peut être augmenté en ajoutant des
chiffres supplémentaires au format de base. Les champs nécessaires à la base de données
française ont été ensuite ajoutés et remplis pour chaque fiche (voir Illustration 3).
5.2 Remplissage des bases de données en langue nationale
Les données des champs correspondants de la base française sont incluses de manière
automatisée par interlinéarisation dans les bases de données sénégalaises, comme dans
l’illustration suivante :
Illustration 6 : Données françaises interlinéarisées dans la base mënik
Le champ lexème (\lex) est ensuite rempli sur la base des données obtenues à partir des
questionnaires lexicaux :
Illustration 7 : Insertion du lexème ménik après enquête
La prochaine étape est l’élaboration d’une définition dans la langue considérée pour le lexème
en question. Ceci est fait en collaboration avec nos personnes ressources et en nous aidant
22
parfois d’un dictionnaire monolingue français4. Il est à préciser cependant qu’aucune des
définitions proposées n’est une traduction des définitions du dictionnaire français utilisé. Ceci
dit, il peut arriver que les réalités recouvertes par le mot français et le mot wolof, par exemple,
soient identiques et que donc la définition retenue pour le wolof et celle du dictionnaire
français soient quasi-identiques. C’est par exemple le cas pour les parties du corps à
l’exemple du mot soninké fallinkirime ‘dos :
Soninké
Dictionnaire
français
du
CNRTL
(et
traduction de la définition soninke adoptée)
fallinkirime
Seren faten falle na a wutu kunke ma xoodo
partie postérieure de l'homme qui va des
épaules aux reins5
Dans certains cas par contre les définitions sont différentes : c’est le cas pour le mot lelle
‘après-midi’ qui est conceptualisé de manière différente en français et en soninké :
Francais
après-midi
Partie de la journée comprise entre le repas
de midi et le repas du soir6
Soninké
lelle
Dimma ya ni na a wutu sallifana katta futuro
Moment compris entre la prière de 14 heures
et le crépuscule
On a en mënik pour le même mot la définition suivante :
4
Nous avons utilisé le dictionnaire en ligne du Centre National des Ressources Textuelles et lexicales du CNRS
(www.cnrtl.fr/)
5
Source : www.cnrtl.fr/definition/dos
6
Source : www.cnrtl.fr/definition/apres-midi
23
Mënik
ʃambalka
gaɓërnëte giñaleŋ
Partie de la journée pendant laquelle le soleil
décline
Dans tous les cas, le principe de simplicité a prévalu dans l’élaboration des définitions. En
majorité, les définitions sont constituées de phrases simples. La syntaxe des définitions n’est
complexe que lorsque la description du sens du lexème l’exige.
5.3 Terminologie grammaticale en langue nationale
Pour le wolof, nous nous sommes basé sur le travail de Dialo & Mbodj (1998). En ce qui
concerne le soninké, il n’existe pas à notre connaissance de travaux publiés sur le sujet. Il
existe néanmoins une pratique de terminologie grammaticale utilisée dans le cadre de
l’alphabétisation que nous avons suivie, aidés en cela par une personne ressource de la
direction de l’alphabétisation. Le laalaa et le mënik ne disposent par contre à l’heure actuelle
d’aucun travail ou pratique sur lesquels nous aurions pû nous baser. Le champ \cat a donc été
rempli dans ces langues en français. Les travaux des membres de l’équipe (Fall, 2005, 2006;
Wade, 2006, 2007) ont servi de base pour la catégorisation grammaticale des lexèmes.
5.4 Élaboration des définitions des lexèmes
5.4.1 Définitions à contenu sémantique
Au départ chaque responsable de base de données individuelle a travaillé indépendamment
des autres. Pour les mots pour lesquels cela a été possible, les définitions ont ensuite été
harmonisées lors de réunions de l’équipe. Cela a permis d'avoir une même définition pour un
nombre considérable de mots. C’est par exemple le cas pour les doigts de la main. Ainsi pour
l’index, la traduction française des définitions dans les quatre langues nationales de l’étude est
la suivante :
‘deuxième doigt de la main à partir du pouce’
Il y a des cas en revanche dans lesquels une telle harmonisation n’a pas été possible. Dans de
tels cas la variété des définitions a été retenue comme telle. On peut citer le cas du mot
‘année’ qui a une définition différente en mënik et en soninké :
24
Soninké
siine
Wucce be ga gemme 365 bito maxa xasu 12
Période de 365 jours ou 12 mois
Mënik
bëëli
Gon rik uʃa ngë uʃa
Période entre deux hivernages
5.4.2 Définitions à contenu grammatical
Sont concernés par ce type de définition les lexèmes grammaticaux, tels que les pronoms, les
articles ou encore les conjonctions.
Nous avons également été confrontés aux cas d’équivalences linguistiques dans le cadre de
l’approche multilingue entre lexèmes/morphèmes grammaticaux dont le découpage
grammatical n’est pas le même d’une langue à l’autre. Par exemple le wolof n’a pas à
proprement parler de pronom personnel sujet identifiable en tant que tel. La notion de pronom
personnel est toujours amalgamée dans cette langue à l’aspect et au mode. Le soninké, par
contre possède une classe lexémique de pronom personnel. Ce type de cas pose un problème
en termes d’équivalents dans une optique de dictionnaire multilingue.
5.5 Gestion des homonymes, synonymes et expressions dérivées
Dans le cas où l’entrée lexémique a un ou plusieurs homonymes, synonymes ou expressions
dérivées, ceux-ci sont entrés dans les champs prévus à cet effet (\syn, \hom, \exDer) dans les
bases individuelles. L’ajout dans la base multilingue se fait par voie d’ínterlinéarisation. Ces
données font ensuite l’objet d’une fiche propre, même si le lexème en question n’avait pas été
prévu au départ. Dans le cas de l’étude de faisabilité, cette consigne n’a pas été respectée
systématiquement, compte tenu de la durée restreinte du projet. On trouvera cependant
quelques exemples pour lesquels seuls le lexème et son équivalent en français ont été encodés.
La base de données étant évolutive, les fiches concernées pourront être mises à jour
ultérieurement.
25
5.6 Cas des termes intraductibles
Il y a des termes ou des expressions qui, dans notre approche, ont rang d’entrée lexémique
mais qui sont tellement spécifiques à une culture donnée qu’il ne nous a pas été possible
d’une part d’en proposer une définition sémantique dans la langue même, et d’autre part d’en
proposer un équivalent, tant dans les autres langues sénégalaises objets de cette étude qu’en
français. C’est par exemple le cas du lexème ndeysaan du wolof.
Dans de tel cas nous avons proposé une explication méta-linguistique du terme :
wolof
ndeysaan
baat buy tekki yërmaande
expression de compassion
Pour les langues dans lesquelles un équivalent à ndeysaan n’a pas été proposé, la fiche
lexémique est maintenue. Elle ne contient cependant pas d’entrée lexémique. La définition
wolof est traduite dans ces langues afin que le mot wolof puisse trouver une explication dans
les autres langues.
5.7 Ajouts de termes non prévus au départ et extension des bases
de données
Pour que le processus d’ínterlinéarisation puisse se faire de manière correcte, les nouvelles
entrées non prévues au départ, qu’il s’agisse synonymes, d’homonymes, d’expressions
dérivées ou d’ajouts tout à fait nouveaux, doivent recevoir de la part de leur transcripteur un
numéro d’identification (refid) provisoire. Ceci permet au coordinateur de la base multilingue
de les reconnaître lorsque la base de données individuelle lui sera transmise et de leur affilier
un numéro normatisé définitif (de la forme fr_0000).
Dans le cadre de cette étude, les formats suivants de numéros d’identification provisoire ont
été convenus :
Wolof
Wo_0000
Soninké
So_0000
Mënik
Me_0000
Laalaa
La_0000
26
Toutes les bases de données sont ensuite harmonisées manuellement par leurs responsables
respectifs en termes de refids et de contenu. La mise à jour de la base de données multilingue
peut ensuite se faire.
Le dictionnaire peut ainsi, au-delà de cette étude de faisabilité, être augmenté de manière
quasi-infinie. L’actualisation du dictionnaire en ligne peut ensuite se faire de manière simple
en postant le fichier étendu sur le site du projet.
5.8 Exemplification des lexèmes
Les phrases d’illustration ont été conçues de manière à ce qu’elles constituent un complément
d’explication à la définition proposée pour le lexème auquel elle se réfère.
Dans la mesure du possible, il a été choisi d’utiliser des phrases simples. Les phrases
complexes n’ont été utilisées que lorsque le type de lexème à exemplifier l’exigeait (par
exemple pour une conjonction de subordination) ou lorsqu’aucune des phrases simples
proposées ne convenait.
Une autre option qui aurait pû prévaloir dans le choix des phrases d’illustration des lexèmes,
est de les tirer des œuvres en langues nationales qui existent, par exemple dans la littérature en
wolof. Cela aurait en outre eu l’avantage de contribuer à la
visibilité de ces œuvres.
Cependant tant pour la constitution du corpus que pour le choix des phrases d’illustration
cette option a finalement été délaissée en raison des questions de droits d’auteur qu’elle
soulève, que nous n’aurions pas pu résoudre compte tenu des délais et des ressources
restreints de notre étude. Dans l’optique que ces contraintes puissent être vaincues, la
configuration de la base de donnée intègre les champs nécessaires à la référenciation des
œuvres.
27
6 Configuration du site web du dictionnaire multilingue
Afin d’assurer la diffusion des résultats du projet un site web a été configuré et mis en ligne
sur les serveurs du Centre de Calcul Informatique de l’UCAD. Le site restera sur ces serveurs
jusqu’à ce qu’il soit terminé. La mise en ligne définitive se fera sur les serveurs de la
Direction de l’Informatique de l’UCAD. L’adresse provisoire du site du projet est
http://ifan-wosomela.cci.ucad.sn.
6.1 Architecture
Le site comprend plusieurs pages web. Une page introductive explique la genèse du projet
ainsi que les ressources qui y sont disponibles. Sur la page ressource seront publiés les
articles, les configurations de bases de données ainsi que les liens des logiciels qui ont été
utilisés. Le site a été conçu de manière à ce qu’aucun de ses utilisateurs pressentis ne soit lésé
à cause de sa méconnaissance d’une des langues de l’étude. Les informations de la page
d’accueil seront disponibles, à terme, dans chacune des langues du dictionnaire. A titre
d’illustration, la page d’accueil en français est présentée ci-dessous7 :
Illustration 8 : Page d’accueil du site
Du point de vue de son architecture, le site correspond à un répertoire comportant sept
dossiers :
7 Le site étant encore n cours de réalisation au moment de la rédaction du présent rapport les captures d’écran que nous proposons à titre
d’illustration peuvent encore évoluer
.
28
-
Le dossier apps comporte l’application dewpalyer permettant de lire les fichiers sons
du site ;
-
Les dossiers img et sons comportent respectivement les fichiers images et sons
d’illustration ;
-
le dosier xml comporte les exportations XML de la base de données à partir de
Toolbox ainsi que les fichiers XML régissant les combinaisons de langues à afficher ;
-
les dossiers xls et css comprennent les fichiers régissant l’apparence du site ;
-
Le dossier html comprend les textes des pages d’accueil et de ressources.
Illustration 9 : Dossier du site wosomela
6.2 Possibilités d’interrogation du dictionnaire
La page d’accueil donne accès au dictionnaire multilingue proprement dit. Le dictionnaire
peut être affiché de plusieurs manières :
-
en version monolingue pour chacune des langues sénégalaises ;
-
en version multilingue avec deux, trois, quatre ou cinq langues.
L’illustration ci-dessus montre l’affichage avec les cinq langues
29
Illustration 10 : Page multilingue du dictionnaire en ligne (version provisoire)
L’illustration ci-dessus comporte une barre des tâches comportant trois menus déroulants
régissant les différentes modalités d’affichage. Ainsi les données lexicales peuvent être
filtrées par domaine sémantique au moyen du second menu déroulant contenant les différents
domaines sémantiques du dictionnaire. Le menu situé à droite règle le nombre de langue
devant être affiché. Il est possible d’afficher un dictionnaire monolingue, bilingue ou autre de
son choix, toutes les combinaisons étant possibles dans la limite des cinq langues prévues.
Dans la version finale du dictionnaire en ligne, un effort sera fait pour que les indications
métalinguistiques telles que ‘définition (du lexème)’, ‘synonyme’ ou ‘phrase d’illustration’
soient affichées dans chacune des langues du projet. On trouvera par exemple pour
‘définition’ (def_fr) dans l’Illustration 10), maana en wolof et wure en soninké.
Les lexèmes et les phrases d’illustration du dictionnaire sont accompagnés de fichiers son. Il
est donc possible d’en écouter la prononciation en cliquant sur le petit triangle vert juxtaposé
à la transcription phonétique des lexèmes et aux phrases d’illustration qui leur correspond.
6.3 Sorties papier et sous formats électroniques
La mise à disposition sur Internet du dictionnaire multilingue constitue la sortie majeure de
cette étude. Nous avons néanmoins prévu que tout ou partie du dictionnaire soit disponible
dans d’autres formats.
30
Le dictionnaire peut ainsi être imprimé en format PDF. L’utilisateur a la possibilité de choisir
la quantité d’information qu’il souhaite imprimer en faisant usage des différents filtres
proposés par le site. Une page de garde comportant les caractéristiques du filtrage et la date
d’impression du document est automatiquement générée. Le fichier PDF peut ensuite être
imprimé ou sauvegardé sur CD, par exemple.
L’ensemble du dictionnaire et de son interface peut également être téléchargé sur clé USB ou
sur tout autre support électronique de stockage. La version portable du dictionnaire comporte
la version portable du navigateur Firefox (Mozilla Europe & Mozilla Foundation, 2009). Le
dictionnaire est ainsi consultable et questionnable directement à partir d’une clé USB sans
qu’une connexion Internet soit nécessaire. Les capacités de sortie PDF sont également
disponibles sous cette version.
31
7 Relations avec d'autres projets
L’étude que nous présentons a des connections avec d’autres projets en cours. Les projets qui
vont être présentés ci-dessous ont échangé avec le notre des procédures de recherches et du
corpus.
7.1 Conception d’un dictionnaire électronique unilingue wolof et
bilingue wolof-français
La présente étude de faisabilité est en grande partie basée sur l’expérience acquise par A. M.
Diagne au sein du projet Conception d’un dictionnaire électronique unilingue wolof et
bilingue wolof-français dont le maître d’œuvre est le Département de linguistique de
l’Université de Dakar en collaboration avec le Centre de recherche TERMISTI (Institut
supérieur de traducteurs et interprètes, Haute École de Bruxelles)8. Le projet, financé par
l’Agence Universitaire de la Francophonie (AUF), a pour ambition de proposer 6000 entrées
lexicales en ligne. Le dictionnaire est consultable à l’adresse : http://flsh-dico-wolof.ucad.sn
La structure du dictionnaire électronique unilingue wolof et bilingue wolof-français a servi de
point de départ à la conception de notre structure de bases de données. Cependant, ce modèle
s’est vite montré inadapté, dès lors que plus d’une langue africaine entrait en jeu, en plus du
français.
Notre équipe a ainsi remanié la structure proposée par ce projet novateur pour aboutir à un
modèle pouvant prendre en compte plus de deux langues tout en tenant compte des limitations
de l’outil Toolbox qui n’est pas un système de gestion de bases de données. Les propositions
faites par notre équipe ont donné lieu à des échanges avec les membres du projet Conception
d’un dictionnaire électronique unilingue wolof et bilingue wolof-français, qui ont abouti au
remaniement du modèle initial de base de données que ce dernier avait adopté. Ainsi
l'universalité de la solution technique qu’il avait mise au point a été complétée par un schéma
des données « modulaire », au sein duquel chacune des langues du dictionnaire possède une
base de donnée structurellement identique, la dimension multilingue étant prise en compte par
une base indépendante via le module d’interlinéarisation de Toolbox, tel que exposé en 4.4.2
8
Les chercheurs du Projet sont: Mame Thierno Cissé, Marc van Canpenhoudt, Paul Muraille et A.M. Diagne
32
7.2 Documentation et description du bëdik (mënik)
Ce projet de recherches est conduit par Adjaratou Oumar Sall qui est partie prenante de la
présente étude de faisabilité. Il s’inscrit dans le cadre du Programme de Sauvegarde des
Langues menacées du Hans Rausing Endangered Languages Project (HRELP) géré par la
SOAS (School of Oriental and African Studies 9.
Le but de ce projet est de faire une description et une documentation de la langue :
- par la création d’un corpus de textes et de vidéo recueillis et enregistrés dans divers
contextes de production sur les pratiques linguistiques et les traditions.
- par la description grammaticale de la langue ;
- et par la création d’un dictionnaire bilingue bëdik-francais.
Les techniques d’archivage de corpus de notre étude de faisabilité trouvent leur origine dans
les procédures recommandées par le HRELP avec l’ELAR (Endangered Languages Archive
qui est reconnu sur le plan international comme l'un des meilleures archives digitalisés des
langues en danger. Cela pourra garantir une bonne accessibilité des données électroniques aux
personnes qui en auront besoin.
Le travail sur le mënik effectué dans le cadre de notre étude sera une contribution à l’œuvre
de sauvegarde de la langue et de la culture bëdik entreprise par A.O. Sall
7.3 Thèses de linguistique sur le mënik et le laalaa
Une étude sur la phonologie et la morphologie du laalaa est conduite par Papa Oumar Fall,
dans le cadre de son doctorat en linguistique. Le but de cette étude est de faire, tout en
présentant les règles et les contraintes morphophonologiques, une description générale du
laalaa. Cette étude devra permettre de concevoir des manuels scolaires et des dictionnaires qui
faciliteront une alphabétisation ciblée et plus adaptée des Laalaa, à partir de leur propre
langue, et non plus du wolof comme c’est actuellement le cas. Elle participera en outre dans le
domaine de la sauvegarde et de la protection du patrimoine immatériel local, à combler la
rareté pour ne pas dire l’absence de documentation sur le laalaa. Le travail de P.O Fall
s’inscrit dans une perspective globale de collecte, d’analyse et de traitement de textes tirés du
patrimoine culturel laalaa dans la perspective de la création d’une base de données accessible
sur Internet.
9
http://www.hrelp.org/
33
Une étude sur la cohérence dans le discours mënik : les marques discursives et syntaxiques
est, également dans le cadre de son doctorat en linguistique, menée par Sophie Wade. Son
travail porte sur l’analyse des marques syntaxiques introduites dans le discours en mënik. Le
corpus de cette étude originale est constitué de chants sacrés et de contes en mënik. A terme,
l’étude permettra de savoir quels sont les facteurs qui aident à marquer la cohérence dans le
discours mënik. Une description syntaxique de la langue ainsi qu’une présentation de la
culture bëdik constitueront un préalable à l’analyse discursive. La thèse de S. Wade sera
complétée par un volume réunissant l’ensemble du corpus qu’elle aura réuni afin de servir à
d’autres types d’études.
Les travaux pré-doctoraux et en cours de ces deux chercheurs ont servi de référence pour la
transcription du laalaa et du mënik.
Les contributions que la présente étude de faisabilité fait sur ces langues, en termes de mise à
disposition de corpus et de bases de données, permettront à ces deux doctorants membres de
notre équipe de tester leurs premières hypothèses de recherches. L’expérience qu’ils ont
acquise lors des enquêtes de terrain et des réunions périodiques de travail, est une contribution
certaine au renforcement de leurs capacités de chercheur.
34
8 Retombées pour la recherche
8.1 Reproduction du modèle de dictionnaire
Les configurations de bases de données du projet Toolbox ainsi que les fichiers de
configuration du site de diffusion du dictionnaire sont mis à disposition sur la page ressource
du site. La documentation sur les procédures à suivre pour mener à bien le même type de
projet viendront compléter ce dispositif.
8.2 Mise à disposition de corpus
Le corpus de notre étude est constitué de listes lexicales qui serviront en premier lieu aux
linguistes intéressés par la morphologie et la lexicologie des langues concernées.
Il comporte en outre des enregistrements de récits et d’interviews sur les thèmes du paludisme
et de la scolarisation des filles, qui pourront servir de point de départ à divers types d’études
en sciences sociales.
Tous les corpus ont été enregistrés en tenant compte des standards préconisés par des
organisations telles que la HRELP, l'Institut Max Planck pour la Psycholinguistique (MPI) de
Nijmegen pour les projets sur les langues en danger tel que le DoBeS (Documentation
Bedrohter Sprachen) dans le cadre de la sauvegarde et de la revitalisation des langues en
danger.
Du point de vue de l’archivage, tous les corpus ont été catalogués via le système IMDI. Les
données sont disponibles sur le site du projet. Les fichiers audio sont en partie disponibles via
le dictionnaire, en illustration sonore des lexèmes et des phrases d’illustration, en format mp3.
Les fichiers originaux en format wav pourront être obtenus sur demande au Laboratoire de
Linguistique de l’IFAN-CAD.
35
9 Perspectives
La possibilité de créer des dictionnaires multilingues dans les langues nationales ouvre des
perspectives variées dans le domaine de l’ingénierie linguistique ainsi que pour le
développement de la lexicologie et des outils pédagogiques et lexicographiques dans les
langues nationales. La suite de ce chapitre présente quelques unes de ces pistes.
9.1 Élaboration de correcteurs orthographiques et de
configuration de claviers pour les langues nationales
Les langues nationales sont de plus en plus présentes dans le paysage journalistique au
Sénégal. Des journaux entièrement en langues nationales ont fait leur apparition tels que
Lasli/njëlbéen10. Tout en saluant cette prise en compte croissante de nos langues dans les
paysages audio-visuel et de la presse écrite, les acteurs oeuvrant dans le domaine de la
promotion des langues sénégalaises ont déploré le non respect des règles d’orthographe et de
grammaire dans les productions de la presse écrite, dans les slogans publicitaires ou sur
différents supports tels que les pochettes de cassettes musicales ou les titres des pièces de
théâtre.
Il est possible à partir de bases de données lexicales informatisées telles que celle que nous
proposons, d’élaborer des correcteurs orthographiques pour langues nationales. La suite
bureautique open source OpenOffice11 permet aux différents contributeurs qui participent à
son développement, d’élaborer des correcteurs orthographiques facilement intégrables dans
les outils du logiciel. OpenOffice est un logiciel gratuit et les outils élaborés sont diffusés via
son site.
9.2 Extension de la base de données
Notre projet n’étant qu’une étude de faisabilité limitée en moyen et en temps, nous nous
sommes volontairement arrêtés à la recherche de vocabulaire sur deux domaines sémantiques
en plus d’une partie du vocabulaire fondamental de chaque langue. Il est à espérer qu’à
l’avenir la base de données multilingue soit élargie à d’autres domaines sémantiques et qu’à
terme la possibilité d’encodage de 9999 entrées offerte par notre configuration puisse être
atteinte. Cela demande cependant la formation d’une équipe plus large et de plus de temps. La
base de données multilingue pourrait en outre être élargie à d’autres langues.
10
Lasli/njëlbéen est un journal mensuel écrit en wolof et en pulaar. Il a été créé en mars 1998, et est édité par la
maison d'éditions en langues nationales Papyrus Afrique. Le journal est tiré à 3000 exemplaires et est lu dans
tout le pays ainsi que dans la sous région.
11
www.openoffice.org
36
9.3 Élaboration de dictionnaires illustrés
Une possibilité qui n’a pas été exploitée plus avant lors de notre étude, est le développement
d’un dictionnaire illustré. Cela pourrait se faire de manière simple, de la même façon que
l’introduction du matériel sonore pour les lexèmes et les phrases d’illustration. Un champ
image du lexème (\img) a été prévu dans la configuration de la base de données. Les fichiers
images (dessins ou photos) seraient ensuite sauvegardés dans un dossier ‘img’et serait affiché
en face du lexème sur le site du dictionnaire.
9.4 Diffusion du dictionnaire sur téléphones portables
En marge des discussions sur la configuration et la recherche de contenus pour le dictionnaire,
notre équipe s’est également penchée sur la question de savoir, quelle serait la meilleure
manière de diffuser le dictionnaire dans le contexte du Sénégal. Il nous est apparu que si les
sorties sur Internet et PDF que nous avons prévues sont intéressantes, la majorité des
utilisateurs potentiels du dictionnaire n’ont pas un accès facile à ce genre de technologie.
L’accès au site présuppose un accès Internet ; Quant à la portabilité sur clé USB, même si elle
libère de la nécessité d’une connection Internet, elle requière tout-de-même l’accès à un
ordinateur et, pour l’impression d’un fichier PDF, à une imprimante.
Il nous est ainsi venu à l’esprit que la meilleure manière de diffuser le dictionnaire et d’en
faire un outil réellement utilisé, serait de le rendre disponible sur téléphone portable. Il est en
effet possible d’élaborer une application java qui serait visualisable sur tout téléphone
possédant cette technologie, ce qui est le cas de la majorité des téléphones de dernière
génération. L’application serait téléchargeable de la même manière que les sonneries ou les
jeux, ce que la majorité des usagers de téléphones portables savent faire. Nous pensons
qu’une équipe de recherche, dans laquelle des informaticiens, spécialistes de la
programmation en java feraient partie pourrait se pencher sur cette question et qu’un modèle
économique de diffusion de cet outil pourrait se faire en collaboration avec des éditeurs en
langues nationales et des opérateurs de téléphonie mobile.
37
10 Recommandations aux décideurs et aux pouvoirs
publics
10.1 Prise en compte de la dimension d’intégration linguistique
dans l’élaboration du matériel didactique
Le concept d’intégration linguistique, dont nous avons tenté de montrer la pertinence en 1.2.3,
devrait être pris en compte dans les politiques éducatives en langues nationales dans les pays
qui possèdent des langues véhiculaires. En ce qui concerne le Sénégal, il nous semble que le
wolof serait un bon candidat comme langue véhiculaire. Il devrait donc faire partie de tout
curriculum d’éducation en langues nationales avec une ou plusieurs autres langues dont
l’identité serait déterminée par une étude du milieu. La tendance évolue aujourd'hui, au plan
international, vers l’éducation multilingue, et cela est conforme aux recommandations de
l’UNESCO sur la protection et la promotion de la diversité des expressions culturelles. Des
outils pédagogiques ayant la potentialité de prendre encompte la dimension d’intégration
linguistique tels que le dictionnaire développé dans notre étude, doivent être encouragés à
cette fin.
10.2 Développement de recherches transnationales sur les langues
véhiculaires
Il existe en Afrique, et le Sénégal n'est pas en reste, plusieurs langues transfrontalières dont le
wolof. Beaucoup d'études ont été faites sur ces langues mais aussi sur des langues
véhiculaires non transfrontalières et sur des langues vernaculaires. Cependant les données
sont dispersées et les chercheurs ont une méconnaissance du travail fait quelques fois sur la
même langue ou dans le même domaine. Il serait intéressant que les décideurs au niveau
universitaire et dans les institutions de promotion des langues nationales, travaillent à la
promotion de réseaux permettant de mutualiser les efforts de recherche et les échanges entre
chercheurs, afin que la recherche avance plus vite. Internet peut à cette fin se révéler un outil
stratégique.
Pour prendre le cas de notre étude, les bases de données que nous avons commencé à élaborer
pourraient être alimentées par les corpus d’autres chercheurs travaillant sur ces langues, si
notre travail venait au moyen d’un réseau de chercheurs à être connu. Une meilleure
accessibilité à nos modèles de bases de données pourrait également permettre le
développement rapide et l’amélioration des solutions proposées, pour d’autres dictionnaires
monolingues ou multilingues.
38
10.3 Réflexion sur les formats de diffusion autour des productions
en langues nationales
Le développement d’outils en langues nationales est très souvent coûteux en termes de temps,
de recherche et de ressources humaines et financières. Tout en continuant à insister sur la
qualité des outils élaborés une réflexion doit être initiée sur la meilleure façon de mettre ces
outils à la disposition des usagers potentiels. Comme pour le choix des langues à utiliser dans
une approche intégrée, une étude du milieu doit être faite afin de savoir, compte tenu de
l’objectif visé par l’outil et le type d’usager auquel il s’adresse, quel est le format de
publication ou de diffusion le plus adéquat.
39
Conclusion
Malgré les problèmes rencontrés et les moyens limités du projet, cette étude de faisabilité s'est
révélée intéressante et a mis en exergue la richesse et les particularités des langues et des
cultures investiguées. L’équipe du projet a essayé de proposer une solution à chacun des
problèmes techniques, sémantiques et d’harmonisation terminologique que la réalisation de la
base de données a suscitées.
Bien que le projet soit officiellement terminé, notre équipe continuera à travailler sur
l’optimisation du schéma de base de données ainsi que sur une meilleure convivialité du site
web qui lui est consacré. En ce qui concerne la configuration du schéma de base de données,
nous chercherons à éliminer l’étape de l’interlinéarisation, dans une optique de simplification
du processus d’actualisation des données publiables. Cela aurait comme avantage, de faciliter
la tâche du coordinateur de la base de données et de permettre d’actualiser plus rapidement le
site. Notre équipe continuera également à enrichir la base de données, afin de parvenir à
terme, à une base de données de 500 entrées. Cet objectif nous semble raisonnable compte
tenu du caractère qualitatif de notre étude. Nous clôturerons nos travaux au mois de mai 2009,
en espérant que ce projet aura suscité suffisamment d’intérêt, tant au niveau des décideurs
qu’au niveau des acteurs scientifiques et pédagogiques, pour qu’une suite de plus grande
envergure puisse être envisagée.
40
Bibliographie
Bathily, A. & Meillassoux, C. (1975). Lexique soninke (sarakole)-français. Centre de
linguistique appliquée de Dakar.
Broeder, D., Offenga, F., Willems, D. & Wittenburg, P. (2001). The IMDI Metadata Set, Its
Tools and Accessible Linguistic Databases. Proceedings of the IRCS Workshop on
Linguistic Databases, Philadelphia, 11-13.
Cissé, M. T., Diagne, A. M., van Campenhoudt, M. & Muraille, P. (2008). Mise au point
d'une base de données lexicale multifonctionnelle : le dictionnaire unilingue wolof et
bilingue wolof-français. Revue électronique Texte et corpus, (3), 163-170.
Diagne, A. M. (2006). Phonologie et Morphologie du soninke. Une analyse non linéaire.
Johannes Gutenberg Universität.
Dial, P. A. (pas de date). Dictionnaire Wolof-Francais / Francais-Wolof. Duexième édition
revue et corrigée. Mots et expressions usuels, simples et courants.
Dialo, A. (1983). Eléments systématiques du wolof contemporain. Les langues nationales du
Sénégal (Vol. 24). Dakar, Université Cheikh Anta Diop: CLAD.
Dialo, A. & Mbodj, C. (1998). Terminologie linguistique et grammaticale wolof = Turalinu
làmmiñal róofoo-gi-baat ci wolof. Dakar / Nouakchott: Centre de linguistique
appliquée de Dakar (CLAD) / Institut des langues nationales de Nouakchott (ILN).
Diouf, J. (2003). Dictionnaire bilingue wolof-français. Paris: Karthala.
Direction de la Prévision et de la Statistique. (1993). Recensement général de la population et
de l'habitat de 1988. Rapport national (Résultats définitifs). Ministère de l'Economie
des Finances et du Plan.
Dramé, Z., Galtier, G., & Dantioko, M. (1977). Lexique soninké-français. Bamako: DNAFLA
et ACCT.
Fal, A., Santos, R. & Doneux, J. (1990). Dictionnaire wolof - français. Paris: Karthala.
Fall, P. O. (2005). Contribution a la phonologie laalaa. Mémoire de maitrise, Université
Cheikh Anta Diop.
Fall, P. O. (2006). Les pronoms en laalaa . Mémoire de DEA, Université Cheikh Anta Diop.
Faye, S. (1996). Dictionnaire usuel, francais-wolof:" micro dico". Laboratoire de littérature et
civilisation africaines. IFAN-CAD.
Ferry, M. P. (1991). Thesaurus tenda. Dictionnaire ethnolinguistique de langues sénégaloguinéennes (bassari-bedik-konyagi). Peeters.
Gamble, D. P. (1991). Gambian Wolof-English dictionary.
Gippert, J., Himmelmann, N. P., & Mosel, U. (2006). Essentials of Language Documentation.
Mouton De Gruyter.
Greenberg, J. H. (1970). The Languages of Africa. Research Institute for Inner Asian Studies.
Hart, K. (pas de date). Dictionnaire Soninké-Anglais. Retrouvé Mars 9, 2009, de
http://www.soninkara.org/langue-soninke/dictionnaire-soninke-anglais.php.
International Phonetic Association. (1999). Handbook of the International Phonetic
Association. Cambridge University Press.
Kantorek, N. (2005). Wolof-English/English-Wolof Dictionary And Phrasebook. Broché.
41
Microsoft. (pas de date). Microsoft Keyboard Layout Creator. Microsoft.
Moseley, C. (Éd.). (2009). Atlas UNESCO des langues en danger dans le monde. UNESCO.
Retrouvé de http://www.unesco.org/culture/fr/endangeredlanguages/atlas.
Mozilla Europe. & Mozilla Foundation. (pas de date). Firefox. Mozilla Foundation. Retrouvé
de http://www.mozilla-europe.org/fr/.
Munro, P. & Gaye, D. (1997). Ay Baati Wolof - A Wolof Dictionary. (Revised edition).
Occasional Papers in Linguistics (Vol. 19). Los Angeles: UCAL, Department of
Linguistics.
Oudiary Makan, D. (2003). Dictionnaire soninké-français. Bamako: Editions Jamana.
Sall, A. O. (2008). Les phrases complexes en wolof, une étude descriptive. VDM Verlag.
Sekk, L. K. (1999). Sekk bu ndaw (Dictionnaire). Dakar: Edité avec le concours du Projet
Alphabétisation Priorité Femmes.
SIL. (pas de date). The Field Linguist’s Toolbox. SIL International. Retrouvé de
http://www.sil.org/computIng/toolbox/.
Smeltzer, B. & Smeltzer, S. (1997). Lexique Soninké- Français. Bamako : Société
Internationale de Linguistique.
Wade, S. (2006). Approche syntaxico-sémantique du verbe et des personnels de la langue
mënik . Mémoire de maitrise, Université Cheikh Anta Diop.
Wade, S. (2007). Temps, aspect et mode en mënik.. Mémoire de DEA, Université Cheikh
Anta Diop.
Wittenburg, P., Brugman, H., Russel, A., Klassmann, A. & Sloetjes, H. (2006). ELAN: a
Professional Framework for Multimodality Research. Language, 1556-1559.
42