Analyse Morphologique du Texte Arabe pour Son

Transcription

Analyse Morphologique du Texte Arabe pour Son
République Algérienne Démocratique et Populaire
Ministère de l’Enseignement Supérieur et de la Recherche Scientifique
Université des Sciences et de la Technologie - Mohamed Boudiaf - Oran
Mémoire présentée en vue de l'obtention du diplôme de Magistère en Informatique
Option : Reconnaissance des Formes et Intelligence Artificielle.
Analyse Morphologique du Texte Arabe pour
Son Indexation Sémantique.
Présentée par :
BENZATER Nebia.
Composition du jury :
Président
Mohamed BENYETTOU
Professeur
USTO-MB
Rapporteur
Abdelkader BENYETTOU
Professeur
USTO-MB
Examinatrice
Hafida BELBACHIR
Professeur
USTO-MB
Examinatrice
Hadria FIZAZI
Professeur
USTO-MB
Invité
Abderrezak BRAHMI
Maître de conf."B"
Année universitaire 2014-2015
Univ. Mostaganem
Remerciements
En préambule à ce mémoire, la grande louange à ‫ هللا‬qui m’aide et me donne la bonne santé, la
patience et le courage durant l’élaboration de ce modeste travail.
Je tiens tout d’abord à remercier sincèrement
mon encadreur monsieur BENYETTOU
Abdelkader, professeur à l’Université de l’USTO et le directeur de laboratoire SIMPA, de
me fait confiance, avoir accueilli au sein de son Laboratoire et encadré ce mémoire.
Je lui suis particulièrement reconnaissante de m’avoir laissé une grande liberté scientifique
tout au long de mon travail dans ce mémoire.
J’aimerai particulièrement adresser mes remerciements les plus vifs et ma reconnaissance à
mon Co-encadreur , Monsieur Abderrezak BRAHMI maître des conférences à l’Université
de Mostaganem, pour son suivi de mon mémoire, l’attention qu’il y a porté ,sa disponibilité,
ses conseils,
ses orientations judicieuses
et ses qualités scientifiques m’ont permis
d’améliorer la qualité de ce mémoire.
J’exprime également tous mes respects au professeur BENYETTOU Mohamed, professeur à
l’Université de l’USTO et le directeur de Laboratoire LAMOSI, pour m’avoir fait l’honneur
de présider mon jury.
De même, j’adresse des remerciements chaleureux à Madame BELBACHIR Hafida,
professeur à l’Université de l’USTO, et à Madame FIZAZI Hadria, professeur à l’Université
de l’USTO, qui m’ont fait l’honneur d’accepter d’examiner ce travail.
Je profite l’occasion pour remercier mes plus chères amies : AMOKRANE Souad, MECHTA
Chahinez pour leurs encouragements.
‫اهداء‬
‫إنٗ يٍ ال ‪ًٚ‬كٍ نهكهًاث أٌ تٕف‪ ٙ‬حقًٓا’ ٔال نألزقاو أٌ تحص‪ ٙ‬فضائهًٓا’ٔال نهح‪ٛ‬اة أٌ تُكس تعبًٓا ’ٔال‬
‫نهُجاح أٌ ‪ٚ‬كتًم إالّ بدعٕاتًٓا ٔصالتًٓا’ إنٗ ٔاند٘ انعص‪ٚ‬ص‪ ٍٚ‬أدايًٓا هللا ن‪.ٙ‬‬
‫إنٗ يٍ صبس عه‪ ٙ‬ف‪ ٙ‬نحظاث شقائ‪ ٔ ٙ‬ساَدَ‪ ٙ‬ف‪ ٙ‬أٔقاث ش ّدت‪ٔ ٙ‬شجعُ‪ ٙ‬ف‪ ٙ‬ساعاث حصَ‪ ’ٙ‬إنٗ انر٘‬
‫برل كم جٓ ٍد ٔعطاء ألصم إنٗ ْرِ انهحظت ’إنٗ شٔج‪ ٙ‬انغان‪’ ٙ‬حفظّ هللا يٍ ك ّم أذٖ‪.‬‬
‫إنٗ انصفحت انب‪ٛ‬ضاء ٔانقهب انطاْس ’قسة ع‪ٔٔ ُٙٛ‬زدة ح‪ٛ‬ات‪’ ٙ‬إنٗ ابُت‪ ٙ‬انصغ‪ٛ‬سة فاد‪ٚ‬ا’حًاْا هللا ن‪. ٙ‬‬
‫إنٗ خانت‪ٔ ٙ‬حًات‪ ٙ‬انعص‪ٚ‬صة ’إنٗ شسكائ‪ ٙ‬ف‪ ٙ‬انعائهت ’إنٗ إخٕت‪ٔ ٙ‬أخٕات‪ٔ ٙ‬عائالتٓى‪.‬‬
‫إنٗ كم عائهت بٍ شعتس ’بهعباض ٔطٕ‪ٚ‬م‪.‬‬
Sommaire
Introduction Général
Chapitre I :
Nature de
du Texte Arabe
Nature
Arabe
I.
Introduction : ..............................................................................................................................1
II.
Historique : .................................................................................................................................1
1.
Les variétés de la langue arabe : .................................................................................................1
2.
L’origine du mot ‘’arabe’’: .........................................................................................................2
III.
Les caractéristiques de la langue arabe : .....................................................................................2
L’Alphabet arabe : ......................................................................................................................2
1.
IV.
1.
Les consonnes: .......................................................................................................................3
2.
Les voyelles : ..........................................................................................................................3
3.
Les autres signes diacritiques : ...............................................................................................5
Le lexique arabe : .......................................................................................................................5
1.
Verbe : ........................................................................................................................................6
2.
Nom :..........................................................................................................................................6
3.
Particule : ...................................................................................................................................6
V.
Grammaire arabe : ......................................................................................................................7
1.
La Morphologie)‫ (الصّرف‬: ..........................................................................................................7
1.1 Morphologie dérivationnelle .............................................................................................7
1.2 Morphologie flexionnelle .................................................................................................7
2.
Syntaxe )‫ (النحو‬: ...........................................................................................................................8
1.
Morphologie dérivationnelle : ....................................................................................................8
1.1. Mécanisme de dérivation : ......................................................................................................8
1.2. Verbe : ....................................................................................................................................9
1.3. Nom :.................................................................................................................................... 12
2.
Morphologie flexionnelle : ....................................................................................................... 14
2.1. Verbe : .................................................................................................................................. 14
2.2. Nom :.................................................................................................................................... 15
VI.
Structure d’un mot arabe : ........................................................................................................ 16
VII.
Les problèmes de traitement automatique de texte arabe:......................................................... 18
1.
L’Agglutination : ...................................................................................................................... 19
2.
Nature du Texte Arabe
Les mots homographiques : ......................................................................................................
20
3.
La phrase arabe :....................................................................................................................... 21
4.
Rôle du niveau phonologique dans la morphologie : ................................................................ 21
5.
Le système numérique arabe: ................................................................................................... 22
VIII.
Conclusion : ............................................................................................................................. 22
Chapitre II :
Méthodes d’Analyse du Texte Arabe
I.
Introduction :…………………………………………………….……………………24
II.
Historique :……………………………………………………………………………24
III.
Les analyses morphologiques à base de dictionnaire:………………………………...26
1.
Les analyseurs à base de racine :…………………………………………….…...26
1.1 Le système de Shereen Khoja (Khoja’s Stemmers) :…………..……………26
1.2 Le système d’extraction des racines trilitères et quaternaires de Shalabi :......27
1.3
L’analyseur morphologique Sakhr :…………… …………………………..28
1.4
L’analyseur morphologique de XEROX:………….……………………….28
1.5
L’analyseur morphologique ALPNET de Darwish:………….………...….29
1.6
L’analyseur morphologique Sebawai de Darwish……………………...…..29
2. Les analyseurs à base de lemme :…………………………………………….…. 29
2.1
L’analyseur morphologique DIINAR : ...................................................... 29
2.3
L’analyseur morphologique ASVM : ......................................................... 30
2.4
L’analyseur morphologique de Buckwalter : ............................................. 30
2.5
L’analyseur morphologique BBw: ............................................................. 32
2.6
L’analyseur morphologique d’AL-Khalil:…...………………….…... ….32
IV.
La lemmatisation légère (light stemming): ................................................................... 33
1. Lemmatisation effective à base linguistique (Effective stemming) :…...…………...... ..35
2. La lemmatisation légère de Chen :………………………………………………………36
3. La lemmatisation sans utilisation de dictionnaire des racines (Arabic Stemming
Nature du Texte Arabe
Without A Root Dictionary ISRI) :…………………………………………..........................36
4. Le lemmatiseur léger ANEA : ANEW ENHANCED APPROACH………………. ….38
4.1. Suffixe-préfixe SP :…………………………………………………………………38
4.2. Suffixe-Préfixe-Suffixe SPS :………………………………………………………38
4.3. Suffixe-Préfixe sans Alef-Lam SPWOAL :………………………………...………38
4.4. Suffixe-Préfixe-Suffixe sans Alef-Lam SPSWOAL :……………………..………38
4.5. Suffixe-Préfixe avec Alef-Lam SPAL :……………………………………………39
4.6. Suffixe-Préfixe-Suffixe avec Alef-Lam SPSAL : …………………………………39
Les méthodes statistiques :…………………………………………………………….39
V.
1 . Les méthodes n-grams : ………………………………..……………………………41
1.1 N-Grams de McNamee :
…………………………………………………41
2. Les méthodes de n-classes :……………………………………………………….....42
2.1 Les n-classes de Fares :……………………………………………………...…..42
2.2 Les n-classes par MTA de Chen et Gey :………………………………………..43
Les Métriques d’évaluation de performance d’une méthode d’analyse:……………...43
VI.
1. Temps d’exécution(TCPU) : .........................................................................................43
2. Consommation RAM(CRAM) : ……………………………………...………………43
3. Nombre de mot par une classe de fusionnement (WC): (words per conflation class)..43
4. Facteur de compression d’index (ICF) :(Index Compression Factor)…………….….43
5. Les erreurs de lemmatisation:………...………………………………………………44
VII.
Comparaison théorique entre les grandes classes de méthodes d’analyses :…………45
VIII. Conclusion :………………………………………………………………………….46
Chapitre III :
L’Indexation Sémantique En RI
I.
Introduction : ............................................................................................................................ 48
II.
Indexation sémantique : ............................................................................................................ 48
1.
Nature du Texte Arabe
Place de la terminologie : .......................................................................................................
48
2.
Définition : ............................................................................................................................... 49
3.
La différence entre descripteurs et mot clés :............................................................................ 50
4.
Les langages d’indexation : ...................................................................................................... 50
4.1. Le langage libre : .................................................................................................................. 50
4.2. Le langage contrôlé : ............................................................................................................ 51
5.
III.
L’Indexation manuelle et Indexation automatique :.................................................................. 51
Les Ressources Linguistiques (langages documentaires) : ....................................................... 52
1.
Liste d’autorité-matière : .......................................................................................................... 53
2.
Thésaurus : ............................................................................................................................... 53
3.
Taxonomie : ............................................................................................................................. 54
4.
Les ontologies : ........................................................................................................................ 54
IV.
1.
Les modèles d’indexation sémantique: .................................................................................... 55
Les modèles classiques : ........................................................................................................... 55
1.1 Le modèle booléen : ............................................................................................................. 55
1.2 Le modèle vectoriel : ............................................................................................................. 56
1.3 Le modèle probabiliste : ........................................................................................................ 59
1.4 Les Modèles de langue (Le modèle N-gram) : ....................................................................... 60
2.
Les Modèles Sémantiques : ...................................................................................................... 62
2.1. Le modèle LSI (Latent Semantic Indexing) : ........................................................................ 62
2.2. Le modèle DSIR (Distributional Semantics based Information Retrieval) ........................... 64
V.
Web Sémantique: ..................................................................................................................... 66
1.
Le tagging : .............................................................................................................................. 66
2.
Folksonomie : ........................................................................................................................... 66
2.1. Les limites de l’indexation collaborative : ............................................................................ 67
2.2. Les avantages : ..................................................................................................................... 67
VI.
Métrique d’évaluation d’un système de recherche d’Information :………………………67
1.
Précision & Rappel:…………………………………………………………………………67
2.
courbe de précision interpolée :……………………………………………………………68
3.
du Texte Arabe
courbe de moyenne des précisionsNature
à 11 points:…………………………………………..68
4.
APQ (Average Precision Quries):………………………………………………………….68
5.
La précision moyenne MAP (Mean Average Precision):………………………………….69
6.
La précision exacte ou R-précision :……………………………………………………….69
7.
F-mesure :……………………………………………………………………………………69
VII.
Conclusion :………………………………………………………………………………….69
Chapitre IV
Nouvelle Méthode d’Analyse Morphologique Arabe
I.
Introduction : ............................................................................................................................ 71
II.
L’analyseur morphologique de Buckwalter : ............................................................................ 71
1.
Construction des fichiers de lexique : ....................................................................................... 72
1.1 Dictionnaire des préfixes : ...................................................................................................... 73
1.2 Dictionnaire des stems : ......................................................................................................... 73
1.3 Dictionnaire des suffixes : ...................................................................................................... 76
2.
Simulation de fichiers de compatibilités : ................................................................................. 77
3.
Les étapes de l’algorithme d’analyse des textes : ..................................................................... 77
3.1. Tokenisation : ....................................................................................................................... 78
3.2. Segmentation de tokens : ...................................................................................................... 78
3.3. La première vue dans le dictionnaire : .................................................................................. 79
3.4. Vérification de comptabilité : ............................................................................................... 79
3.5. Rapport d’analyse : Ce rapport contient : ............................................................................. 79
3.6. Correction orthographiques : ................................................................................................ 79
III.
1.
Pourquoi Une Nouvelle Analyseur Morphologique Arabe : ..................................................... 80
Des raisons structurelles :…………………………………………………………………...80
2.
Des raisons morphologiques:………………………………………………………………80
3.
Des raisons grammaticales :………………………………………………………………..80
4.
Des raisons de loi de l'offre et de la demande :…………………………………………..81
5.
Des raisons de coût :………………………………………………………………………..81
IV.
1.
Nature du Texte
Nouvelle version d’analyseur morphologique
arabe Arabe
:…………………………………….81
La description de trois dictionnaires :………………………………………………………82
1.1 Catégorie grammaticale :………………………………………………………………….82
1.2 Les dictionnaires:………………………………………………………………………….84
Les catégories morphologiques des stems……………………………….………………85
2.
Le processus d’analyse dans NAMA :…………………………………………………….92
2.1. Tokenisation:……………………………………………………………………………..92
2.2. Normalisation :……………………………………………………………………………92
2.3. Segmentation des tokens :………………………………………………………………..92
2.4. Vérification des dictionnaires:…………………………………………………………..93
2.5. Les variantes orthographiques :………………………………………………………….93
3.
L’Algorithme de L’Analyseur Morphologique Proposé………………..…………………94
4.
L’organigramme associé à NAMA :………………………………………………………..96
V.
Conclusion……………………………………………………………………………………..98
Chapitre V
Implémentation et Evaluation
I.
Introduction…………………………………………………………………………….101
II.
Environnement des expérimentations………………………………………………….101
1.
Matériel………………………………………………………………………………101
2.
Logiciels……………………………………………………………………………..101
2.1 Total-Commander………………………………………………………………….101
2.2 MoEjam El-Logha El-Arabiya El-Moeasira………………………………………..102
3.
Description des corpus de test……………………………………………………….102
III.
Etude expérimentale sur le prétraitement linguistique……………………………….103
1.
Extraction des racines………………………………………..………………………103
2.
Extraction des stems………………………………………………………………….104
3.
Extraction des lemmes et lexèmes…………………………………...………………105
Nature du Texte Arabe
Evaluation de performance des analyseurs sur des groupes de concepts :………..…106
IV.
V.
Etude expérimentale des analyseurs linguistiques pour la recherche ad-hoc………….111
V.2.
Evaluation de la recherche ad-hoc selon le modèle LSI :…………………………112
V.2.
Evaluation de la recherche ad-hoc selon le modèle Uni-gramme :………………..115
VI.
Analyse sur l’efficacité des analyseurs dans l’indexation en RI :……………………120
VII.
Conclusion………………………………………..………………………………….121
Conclusion Générale
Bibliographie
Liste des Tableaux
Tableau I.1 :L’Alphabet arabe dans toutes les positions. ......................................................... 4
Tableau I.2 : Les voyelles longues ........................................................................................... 5
Tableau I.3 : Les différents signes diacritiques. ....................................................................... 5
Tableau I.4 : Les schèmes de verbes augmentés arabe ........................................................... 12
Tableau I.5 : Les différentes catégories des noms arabes ....................................................... 14
Tableau I.6 : Les rôles des particules unitaires dans un mot arabe ......................................... 18
Tableau I.7 : illustration d’un exemple de plusieurs segmentations d’un mot ....................... 19
Tableau I.8 : La règle de remplacement ................................................................................. 22
Tableau I.9 : Le système numérique arabe. ............................................................................ 22
Tableau II.1 : Les chaines enlevées par light stemming en arabe .......................................... 34
Tableau II.2 :Les chaines enlevé par la lemmatisation effective ............................................ 35
Tableau II.4 : Les schèmes et leurs racines proposé par ISRI ................................................ 38
Tableau II.5 : Les chaines de préfixes et de suffixes proposé par ANEA .............................. 39
Tableau II.7 : Les avantages et les inconvénients des méthodes d’analyse morphologique .. 46
Tableau III.1 : Quelques relations liant les mots, les termes et les concepts……………….49
Tableau III.2 : Matrice terme-document. ............................................................................... 57
Tableau III.3 : Les différentes fonctions tf et idf ................................................................... 58
Tableau IV.1 : Les préfixes proposés par Buckwalter ............................................................ 73
Tableau IV.2 : Les catégories morphologiques les plus utilisés par Buckwalter ……....…..75
Tableau IV.3 : Les suffixes proposés par Buckwalter ............................................................ 76
Tableau IV.4 : Segmentation du mot ktab avec Buckwalter .................................................. 78
Tableau IV.5 : Les changements quantitatifs………………………………………………82
Tableau IV.6 : Les notations générales utilisées pour un stem arabe………………………85
Tableau IV.7 : Les catégories morphologiques utilisé pour les stems .................................. 86.
Tableau IV.8 : exemple sur l’entrée de dictionnaire de préfixes……………………………91
Tableau IV.9 : exemple sur l’entrée de dictionnaire de suffixes…………………………...91
Tableau IV.10 : Segmentation du mot ktab avec la méthode proposée. ................................. 92
Tableau V.1 : Caractéristiques des corpus Echorouk et Reteurs………………...…………102
Tableau V.2 : Les résultats d’extraction des racines………………………………………. 103
Tableau V.3 : Les résultats d’extraction des stems…………………………………………104
Tableau V.4 : Les résultats d’extraction des stems…………………………………………107
Tableau V.5 : Les résultats d’extraction des stems ………………………………………...107
Tableau V.6 : Les erreurs de stemming…………………………………………………….108
Tableau V.7 : Le nombre de documents pertinents de chaque requête ……………………112
Tableau V.8 : la valeur de K choisi pour chaque corpus…………………………………112
Tableau V.9 : Performance de la recherche avec la méthode LSI sur le corpus Echorouk...113
Tableau V.11 : Performance de la recherche avec la méthode uni-gramme sur le corpus
Echorouk …………………………………………………………………………………..116
Tableau V.12 : Performance de la recherche avec la méthode uni-gramme sur le corpus
Reuters ……………………………………………………………………………………117
Tableau V.13 : Performance de la recherche avec la méthode bi-gramme sur le corpus
Echorouk…………………………………………………………………………………. 118
Tableau V.14 : Performance de la recherche RI avec la méthode bi-gramme sur le corpus
Reuters…………………………………………………………………………………… 119
Liste des Figures
Figure I.1 : La structure d’un mot arabe selon David Cohen ...................................................... 17
Figure II.1 : différentes type de méthode d’analyse morphologique arabe ............................... 26
Figure II.2 : exemplaire d’un résultat d’analyse de mots hada par Al-Khalil ........................... 33
Figure II.3 : La comparaison entre les méthodes de light stemming .......................................... 34
Figure III.1 : Système d’indexation sémantique .......................................................................... 50
Figure III.2 : Représentation des documents dans un espace vectoriel des termes. ................. 57
Figure III.3 : Représentation de la décomposition et de la réduction de matrice x ................. 64
Figure IV.1 : Schéma de partie de discours proposés par khoja ................................................. 83
Figure IV.2 : Schéma proposé de partie de discours par NAMA …………….…………. ….84
Figure IV.3 : L’Organigramme de NAMA ………………………………………..………..98
Figure V.1 : Article proposé pour le test ...................................................................................... 100
Figure V.2 : Description d’un lexème extrait d’Almuajm Alwaset …………………………..105
Figure V.3 : La fenêtre d’affichage de l’analyse de NAMA………………………………..106
Figure V.4 : Le graphe des erreurs de sous-stemming UI ………………………..……….109
Figure V.5 : Le graphe des erreurs de stemming OI. ………………………………..…….109
Figure V.6 : Les graphes des erreurs de stemming ............................................................... 110
Figure V.7 : Le graphe de cumul des erreurs de stemming UI+OI…………….…………..110
Figure V.5 : Les mots vides arabes ....................................................................................... 111
Figure V.8 : courbe de moyenne des précisions à 11 points de rappel obtenue pour l’ensemble
des requêtes de corpus Echorouk avec la méthode LSI……………………………………..114
Figure V.9 : courbe de moyenne des précisions à 11 points de rappel obtenue pour l’ensemble
des requêtes de corpus Reuters avec la méthode LSI……………………………………….115
Figure V.10 : courbe de moyenne des précisions à 11 points de rappel obtenue pour
l’ensemble des requêtes de corpus Echorouk avec la méthode uni-gramme………………117
Figure V.11 : courbe de moyenne des précisions à 11 points de rappel obtenue pour
l’ensemble des requêtes de corpus Reuters avec la méthode uni-gramme…………………118
Figure V.12 : courbe de moyenne des précisions à 11 points de rappel obtenue pour
l’ensemble des requêtes de corpus Echorouk avec la méthode bi-gramme…………………119
Figure V.13 : courbe de moyenne des précisions à 11 points de rappel obtenue pour
l’ensemble des requêtes de corpus Reuteurs avec la méthode bi-gramme……………..….120
Introduction
Générale
Introduction générale
La recherche d’informations (RI) vise à retrouver des documents dont le contenu peut être
du texte, des images ou tout autre produit multimédia traitant d’un ou plusieurs sujets
d’information. L’objectif de répondre au besoin, d’un utilisateur en information, nécessitent
d’une part de comprendre au mieux ce besoin, exprimé le plus souvent par une requête libre,
et d’une autre part, requiert une organisation adéquate du fond documentaire, concrétisée par
une construction de l’index.
Dans le contexte de la recherche d’information documentaire (textes non structurés), les
techniques de traitement automatique des langues naturelles sont trop sollicitées et souvent
intégrées dans le processus d’indexation. Le traitement automatique des langues (TAL)
s’intéresse aux traitements informatisés des langues ; il consiste en l'application des
programmes et des techniques informatiques à tous les aspects du langage humain : analyse
des textes, génération de textes, traduction automatique; correction orthographique et
grammaticale. La recherche d’information documentaire épuise du TAL ses techniques de
traitements de la morphologie des mots, de leur variation typographique, de leur syntaxe, de
leurs relations structurelles et de leur sémantique. Les processus d’indexation et de recherche
seront plus efficaces par l’unification en une seule entrée des mots de même sens.
Dans un langage à haute morphologie dérivationnelle telle que l’arabe, la détection des
unités lexicales dans un texte électronique devient une tâche assez complexe. Certaines
méthodes de stemming, par simple troncature des affixes ou par extraction des racines plus
abstraites, ont été développées et validées pour des tâches classiques de la recherche
d’information. Toutefois, ces techniques de stemming risquent d’induire une caractérisation
ambiguë du texte arabe pour des modèles à base d’indexation sémantique.
L’objectif du présent travail est d’élaborer une étude comparative de différentes approches
de stemming et d’étudier la faisabilité d’utiliser l’une ou l’autre de ces méthodes pour les
modèles d’indexation sémantique des textes arabes. Il s’agit aussi de développer un analyseur
morphologique pour l’extraction des racines et des lemmes arabes et de l’évaluer sur des
corpus textuels réels.
Ce mémoire présente l’étude que nous avons menée avec une répartition sur cinq chapitres.
Le premier chapitre décrit la langue arabe, ces propriétés dérivationnelles et flexionnelles
ainsi que ses difficultés du traitement. Le deuxième chapitre trace un état de l’art relatif aux
différentes méthodes de traitement automatique de la langue arabe.
Nous exposons dans le troisième chapitre les principales approches d’indexation
sémantique, les modèles et les ressources logicielles qui lui sont associées ainsi que leurs
domaines d’utilisation. Le quatrième chapitre sera consacré à la description des différentes
méthodes, d’analyse morphologique arabe, implémentées et testées dans notre travail ; en
particulier, nous détaillons notre nouvel analyseur morphologique arabe (NAMA).
Le dernier chapitre présente les résultats des différentes expérimentations menées sur deux
axes : Le premier consiste en la comparaison des différents analyseurs arabes selon des
métriques standards sur un article de presse Echorouk et un corpus de concepts. Sur le
deuxième axe, nous présentons une analyse de performance de ces analyseurs dans
l’indexation sémantique pour la recherche d’information arabe sur deux corpus réels de textes
arabes.
Chapitre I
Nature de Texte Arabe
Chapitre I
I.
Nature du Texte Arabe
Introduction :
La langue arabe est la langue officielle, d’enseignement et de communication, de près de
22 pays avec plus de 450 millions de locuteurs [Web 3]. Elle appartient au groupe des
langues sémitiques parlées depuis la plus haute antiquité. Ces langues sont qualifiées de
« sémitiques » en référence au nom du biblique Sem, fils de Noé .Ce groupe de langues est
caractérisé par la prédominance de racines trilittères et par l’usage de consonnes gutturales et
emphatiques constituant leur squelette. Parmi les langues sémitiques contemporaines on cite
l’arabe, l’amharique, l’hébreu, le tigrinya...etc.
II.
Historique :
L'origine de la langue arabe remonte au IIème siècle [Kas, 05], dans la péninsule Arabique
avec des origines bien antérieures de la reine de Saba, l'ancien Yémen ainsi que des tribus
arabes disparues auraient parlé cette langue dans une forme plus ancienne. Les premières
traces de l'écriture arabe, telle qu'on la connaît de nos jours, remontent au IIIe siècle [Web1].
Du 4ème jusqu’au 7ème siècle, l’arabe était parlée par certaines tribus nomades des
déserts de l'Arabie et après le 7ème siècle se transformant dans un immense empire à travers
des conquêtes militaires au début de l’expansion de l’Islam [Web 2]. L’arabe déborde ses
déserts et recouvre la bordure méditerranéenne de Sicile, Malte, de l’Espagne, de l’Afrique,
tout comme le Proche-Orient. Et intègre les vieilles civilisations du Proche-Orient qui font de
l’arabe la langue d’un nombre considérable de savants et d’écrivains du pourtour
méditerranéen jusqu’en Asie centrale.
Du 13ème jusqu’au 19ème siècle l’utilisation de l’arabe littéraire est dégradées avec les
mouvements politiques du monde musulman, ce qui a conduit à la création des livres de
grammaire arabe pour garder les règles fondamentales de la langue, surtout celles
morphosyntaxiques. Ce n’est qu’à partir du 19ème siècle que fût la Renaissance de l’arabe
moderne et de ses dialectes [Web2].
1. Les variétés de la langue arabe :
La langue arabe est passée dans l’histoire par plusieurs variétés [Web1] :

L’arabe littéraire ancien : est celui de la poésie préislamique, se retrouve dans un
nombre restreint des documents d’aujourd’hui.
1
Chapitre I

Nature du Texte Arabe
L’arabe littéraire classique : représente une autre étape de l’évolution de la langue. Elle
apparaît avec la naissance de l’Islam. Cet arabe évoluée a utilisé les règles de base de
la langue du Coran et a ajouté une grammaire considérée comme une norme idéale.

l’arabe standard moderne (l’ASM) : une forme un peu différenciée de l’arabe classique
constitue la langue écrite de tous les pays arabophones [Web 4]. L’ASM reste la
langue de la presse et de la littérature, alors que l’arabe classique appartient au
domaine religieux et est pratiqué par les membres du clergé.

les dialectes arabes : malgré l’existence d’une langue officielle commune, chaque pays
a développé son propre dialecte. On peut regrouper ces dialectes en quatre groupes
[Bou, 08] :
1. Les dialectes arabes parlés dans la Péninsule Arabique : dialectes du Golfe, najd,
yéménite
2. Les dialectes maghrébins : algérien, marocain, tunisien, hassaniya de Mauritanie ;
3. Les dialectes proche-orientaux : égyptien, soudanais, syro-libano-palestinien, irakien;
4. La langue maltaise est également considérée comme un dialecte arabe.
2. L’origine du mot ‘’arabe’’:
L’origine du mot Arabe reste inconnue, malgré des nombreuses recherches. Selon Toufik
Fahd, le radical arab, en arabe, désigne le désert, c’est un mot araméen "arâbâh". Le mot
arabe peut dériver de la racine sémitique Abhar "se déplacer". Mais l’étymologie arabe
considère que le mot arabe dérive du verbe "exprimer" [Web3].
Ibn Khaldoun limite le terme Arabe à ceux dont les origines remontent aux anciens
habitants de la péninsule arabique. Il distingue entre bédouins (synonyme de arabe) et citadins
ou sédentaires. Les premiers mènent une vie purement nomade comme éleveurs de chameaux
tandis que les derniers commencent à s’acheminer vers la civilisation [Ben, 10].
III.
Les caractéristiques de la langue arabe :
1. L’Alphabet arabe :
L’alphabet arabe est une abjad s’écrit et se lit de droite à gauche, comprend consonnes,
voyelles, et plusieurs signes diacritiques. La plupart des lettres s’attachent entre elles ce qui
forme l’agglutination, leur graphie diffère selon leur position dans le mot : au début, au milieu
ou à la fin comme le montre le tableau 1.
2
Chapitre I
Nature du Texte Arabe
a. Les consonnes:
Il existe 28 consonnes arabes fondamentales, mais il y a des auteurs qui traitent la lettre alif
( ‫ ) ا‬comme la vingt-neuvième consonne. L’alif se comporte comme une voyelle longue qu’on
ne trouve jamais en tant que consonne de la racine [Dou, 04].
Il y a deux symboles waw, yah (ٌ٫ ‫ )و‬qui sont des semi-consonnes (glides), autrement dit,
ils peuvent être considérés comme des consonnes ou des voyelles longues.
Toutes les consonnes se lient entre elles sauf waw,reh,zain,dal,thal (‫ ذ‬٫ ‫ د‬٫ ‫ ش‬٫ ‫ ز‬٫ ‫ )و‬celles
qui ne se joignent jamais à gauche. De plus certaines lettres comme ‫ ا‬Alef peuvent symboliser
le ah ‫آ‬,A ‫ أ‬ou I ‫ ;إ‬de même que pour les lettres ‫ ي‬et ‫ ه‬qui symbolisent respectivement yah ٌ
et teh marbouta ‫ج‬.
b. Les voyelles :
Les voyelles jouent un rôle important dans les mots arabes, non seulement parce qu’elles
lèvent l’ambiguïté, mais aussi parce qu’elles donnent la fonction grammaticale d’un mot
indépendamment de sa position dans la phrase. Autrement dit, les voyelles ont une double
fonction : l’une est morphologique ou sémantique et l’autre est syntaxique [Khe, 06].
Les voyelles sont de deux types : les voyelles brèves et les voyelles longues. Elles sont
nécessaires à la lecture et à la compréhension correcte d’un texte et permettent de différencier
des mots ayant les mêmes consonnes.
Forme
de
Graphie selon la position
lettre
Isolée
Initiale
Médiane
Finale
Alef ‫ء‬
‫بئز‬،‫ئ‬،‫ؤ‬،‫إ‬،‫أ‬،‫ء‬
‫بئز‬،‫ئ‬، ‫إ‬،‫أ‬،‫ؤ‬
‫ ء‬،‫ئ‬، ‫إ‬،‫أ‬،‫ؤ‬
Beh ‫ب‬
‫بب‬
‫ـثـ‬
‫ب‬-
Teh ‫خ‬
‫خخ‬
‫ـرـ‬
‫م ج‬،‫خ‬-
Theh ‫ز‬
‫زز‬
‫ـثـ‬
‫ز‬-
Jeem ‫ج‬
‫جز‬
‫جز‬-
‫خج‬
Hah ‫ح‬
‫حز‬
‫حز‬-
‫نح‬
Khah ‫ر‬
‫رز‬
‫رز‬-
‫لر‬
Dal ‫د‬
‫د‬
‫د‬-،‫د‬
3
Chapitre I
Nature du Texte Arabe
Thal ‫ذ‬
‫ذ‬
‫ذ‬-،‫ذ‬
Reh ‫ز‬
‫ز‬
‫ز‬-،‫ز‬
Zain ‫ش‬
‫ش‬
‫ش‬-،‫ش‬
Seen ‫ض‬
‫ضض‬
‫ضض‬-
‫ض‬-
Sheen ‫ش‬
‫شش‬
‫شش‬-
‫ش‬-
Sad ‫ص‬
‫صص‬
‫صص‬-
‫ص‬-
Dad ‫ع‬
‫عع‬
‫عع‬-
‫ع‬-
TAh ‫ط‬
‫ط‬
‫ط‬-
Zah ‫ظ‬
‫ظ‬
‫ظ‬-
Ain ‫ع‬
‫عض‬
‫ععز‬
‫عع‬
Ghain ‫غ‬
ٌ‫غ‬
‫بغل‬
‫لغ‬
Feh ‫ؾ‬
‫ؾ‬
‫ه‬
‫ؾ‬
‫ ز‬-‫ل‬
‫ؾ‬-
Qaf ‫ق‬
‫قص‬
‫قق‬-
‫ق‬-
Kaf ‫ن‬
‫نل‬
‫نل‬-
‫ن‬-
Lam ‫ل‬
‫لل‬
‫لل‬-
‫ل‬-
Meem ‫م‬
‫مم‬
‫م م‬-
‫م‬-
Noon ‫ن‬
‫نن‬
‫نن‬-
‫ن‬-
Hah ‫ه‬
‫هه‬
‫ه هه‬
‫هه‬
Waw ‫و‬
‫و‬
‫و‬،‫و‬-
‫و‬-
Yeh ٌ
ٌٌ
ٌٌ-
ٌ-
Tableau I.1 :L’Alphabet arabe dans toutes les positions.

Les voyelles brèves :
Les voyelles brèves (Fatha َ ,Damma ُ ,Kasra ِ
) sont ajoutées au-dessus ou au-dessous
des consonnes. Lorsque la consonne n’a aucune voyelle, on marquera une absence de voyelle
représentée en arabe par une voyelle muette ( Sukun ْ ).

Les voyelles longues :
Les voyelles longues sont des lettres prolongées, elles sont formées par une des voyelles
brèves suivis d’une des lettres correspondantes suivantes :Alef,waw,yeh (‫ا‬, ‫و‬, ٌ) [Khe, 06].
Voyelles longues
‫َ_ا‬
‫و‬-ُ
ٌ-ِ
Tableau I.2 : Les voyelles longues
4
Chapitre I

Nature du Texte Arabe
Les autres signes diacritiques :
Šadda : est un signe qui peut être placé au-dessus d’une consonne mais qui ne peut pas être
à la position initiale du mot. La consonne surmontée de ce signe est analysée comme une
séquence de deux consonnes identiques géminées, la première avec une voyelle
brève :Fatha,Damma ou Kasra ( َ , ُ , ِ
) dite motaharik ,et la deuxième sans voyelle avec
sukun ( ْ ) .par exemple Mada ~ ‫( م ّد‬donner) est analysé comme Madad ‫م َد ْد‬.
Tanwin : ou bien La désinence ( ً an, ٌ
un , ٍ
in) considéré par quelques auteurs comme
étant le double de même voyelles brèves, il est ajouté seulement à la fin des mots
indéterminés, par conséquent il n’apparaît jamais avec l’article de détermination AL (‫) ال‬. Le
signe du tanwin Fathatan« ً » (à l’accusatif) est suivi toujours par ‫ ا‬alif.
Illustration en arabe
Nom de signe
Prononciation et fonction
Voyelle brève
َ
Fathatun
a/ signe d’accusatif
__ُ
Damatun
u/signe de nominatif
ِ
Kasratun
i/signe de génétive
Voyelles casuelles (Tanwin)
ً
ٌ
ٍ
FathatAni
An
DamatAni
Un
KasratAni
In
Signes de syllabation
ْ
ّ
Sukun
/aucune voyelle
shadda
Doublement de consonne
Tableau I.3 : Les différents signes diacritiques.
IV.
Le lexique arabe :
Le lexique de la langue arabe comprend trois catégories grammaticales de mots : verbe,
nom et particule.
5
Chapitre I
A.
Nature du Texte Arabe
Verbe :
Unité lexicale référant à un état ou une action exprimant un sens dépendant du temps
comme : Eamila َ ِ َ (travailler),dahaba ‫َة‬
َ ‫( َذ‬partir)
[Ham, 05].Nous pouvons classer les
verbes arabes selon plusieurs critères [Gla, 07] :

Selon le critère de temps, il existe trois types : l’accompli, inaccompli, impératif.

Selon leur sens et leur transitivité de sujet au complément aux deux types :
Intransitive, transitive.

Selon leurs modes aux deux types : la voix passive et la voix active.

Selon le nombre des consonnes de la racine, la majorité des verbes a peu prés de 85%
sont formés sur 3 lettres et le reste entre les racines de 4 et 5 lettres. Ces racines
peuvent donner plusieurs schèmes avec des transformations morphologiques.

Selon le schème et le nombre de consonnes qui constituent la structure verbale, nous
avons soit des verbes nus (Mojarad ‫)مجسّد‬, soit des verbes augmentés (Mazid ‫)مصَد‬.

Selon leur conjugaison il existe : le conjugué et le non conjugué ou bien invariant.

Il existe aussi les verbes d’exclamation ainsi les verbes panégyrique et les verbes de
diatribe.
B.
Nom :
Toute unité lexicale référant à un sens indépendant du temps [Ham, 05], regroupent :
Les adjectifs ; féminin et masculin ; les noms démérites, les noms prolongés ainsi que les
noms réduits ; les noms communs et les noms propres ; les pronoms et leurs types (connectés
et séparés) ; les pronoms relatifs ; les pronoms démonstratifs ; les noms d’interrogations ; les
noms déterminés et non déterminés ; les noms de périphrases ; les noms du verbe ; les noms
de voix ; les semblables des verbes de noms [Gla, 07].
C.
Particule :
Entité invariable
contient un
exprimant un sens dépendant de compréhension. La langue arabe
nombre limité ne dépasse pas 80 éléments, ils se nommaient en arabe les
particules de sens ( ٍ‫)دسوؾ ال عان‬, par contre l’alphabet arabe se nommait les particules de
construction (ٍ‫[ )دسوؾ ال ثان‬Gla, 07].
Les particules de sens sont de type : unitaire, binaire, tertiaire, quaternaire ou quintette,
Elles jouent un rôle important dans l’articulation et l’interprétation de la phrase ainsi la
cohérence et l'enchaînement d'un texte.
6
Chapitre I
Nature du Texte Arabe
Les particules sont classées selon leur sémantique et leur fonction dans la phrase. Il existe
deux classes selon leur fonction (active, inactive) et 31 classes de particules selon leur sens,
parmi lesquels on peut citer [Gla, 07]:

Particules de préposition : exemple MaEa,ILA,Fi,Ka,Bi ( َ ‫ َم‬،ًَ‫إِل‬،ٍِ‫ـ‬،َ‫ن‬،‫ب‬
ِ )
Particules de coordination : exemple Wa,Voma,Fa,Aaw ( ْ‫أَو‬، ‫ُ َّم‬،، َ‫ؾ‬،‫)و‬
َ

Particules interrogatives : exemple Aa,MaA,Hal ( ْ َ ،‫ َما‬، َ‫)أ‬

Particules d’affirmation : exemple LaA,NaEam,Bala,Ajal( ْ َ َ‫أ‬،ًَ َ‫ت‬، ْ ‫نَ َع‬، )


Particules de négation : exemple Lame,LaA,Lane( ْ َ‫ل‬،َ ، ْ َ‫)ل‬
Particules distinctive : exemple Aye( ٌَْ‫)أ‬

Particules relatives : exemple MaA(‫) َما‬

Particules de future : exemple Sa,Sawefa,Lane,Aan (‫أَ ْن‬، ْ َ‫ل‬، َ‫ظَىْ ؾ‬،‫)ض‬
َ

Particules conditionnelles : exemple Ine,Aaw ( ْ‫لَى‬،‫)إِ ْن‬

Particule d’appel :YaA,Aa,AalaA(َ َ‫ أ‬،َ‫ أ‬،‫(ََا‬

V.
Grammaire arabe :
La grammaire traditionnelle se divise en : Morphologie et Syntaxe.
i.
La Morphologie)‫الصزف‬
ّ ( :
La morphologie arabe est une science étudiant la structure du mot arabe et ses
changements par l’ajout des particules pour former des dérivés et des formes flexionnelles.
La morphologie se divise en deux types [Kas, 05] :

Morphologie dérivationnelle :al-ichtikak (‫)ا شرماق‬, qui étudie la dérivation des mots
par un autre mot et leur transformation selon le sens voulu ; autrement dit, la
dérivation morphologique est décrite sur une base morpho-sémantique : d’une même
racine, se dérivent des mots différents, siyar (‫)طُػ‬.

Morphologie flexionnelle : comprenant d’une part la flexion IiEerab (‫ساب‬
‫)ا‬,
concerné le changement de marquage casuel selon le changement des facteurs qui
précède, et d’autre part, la non conjugué BinaAe (‫)الثناء‬, qui concerne la stabilité de
marquage casuel même avec les changements des facteurs qui précède.
Cette morphologie est dirigée par plusieurs facteurs comme : le temps, les indices, l’aspect,
le genre, le nombre qui sont en général des suffixes et préfixes.
7
Chapitre I
Nature du Texte Arabe
Syntaxe)‫ (النحو‬:
ii.
Étudie la formation correcte des phrases par l’analyse de :

Position des unités lexicales les unes par rapport aux autres pour déterminer l’ordre
des unités lexicales.

Marquage casuel des unités lexicales de la phrase, Ainsi, la fonction syntaxique de
chaque unité qu’est déterminée en s’appuyant sur la morphophonologie [Khe, 06] .
A. Morphologie dérivationnelle :
a. Mécanisme de dérivation :
En arabe, la majorité des mots sont construits sur la base d’une racine tout en respectant un
schème pour créer des lexèmes et des lemmes: ceci concerne notamment les verbes et les
noms.
La racine Al-Jidre ‫الجذر‬:
Une racine est purement consonantique, elle est formée par une suite de trois ou quatre (ou
même cinq pour les noms) consonnes formant la base du mot. La racine est un élément
important dans les langues dérivationnelles. En effet, à chaque racine correspond un champ
sémantique et à l’aide de différents schèmes, on peut générer une famille de mots appartenant
à ce champ sémantique.
Le schème Al-Wazen:‫الوسن‬
Le schème est un mot composé de trois consonnes ‫ ؾ‬, ‫ع‬, et ‫ ل‬, qui sont vocalisées et qui
peuvent être augmentées par d’autres lettres (préfixe, suffixe et infixe). Le schème joue un
rôle très important dans le processus de génération des formes dérivées à partir d’une racine.
Ce processus de génération consiste à remplacer la racine du schème par les consonnes de la
racine en question, tout en gardant les mêmes voyelles et les mêmes lettres augmentées et en
respectant le même ordre des consonnes, autrement dit le schème peut être considéré comme
un moule sur laquelle coule la racine.
8
Chapitre I
Nature du Texte Arabe
On peut classer les schèmes en deux catégories : des schèmes verbaux et des schèmes
nominaux. Ainsi, à partir d’une racine, on peut générer des noms et des verbes selon la
catégorie du schème utilisé,
Le lemme Al-Mofrada Al-MaEejamiya : (‫(المفزدة المعجمية‬
Le lemme est l’entrée lexicale dans un lexique ou dans un dictionnaire. Il s’agit d’une
forme entièrement vocalisée. Chaque mot est rapporté à son lemme qui est sa forme
canonique qui dépend toujours de la catégorie grammaticale de ce mot, si c’est un nom il doit
être au singulier et si c’est un verbe il doit être à l’accompli de la troisième personne du
singulier...etc. Un lemme peut être formé par un mot simple ou un mot composé.
Nous remarquons que les particules gardent toujours leur représentation de base. Pour les
autres catégories le lemme permet de regrouper les mots ayant la même racine, le même
schème original et le même sens. Ce regroupement aide à réduire le nombre d’entrées
lexicales.
Le lexème Al-WiHeda Tarekibiyatu:‫الوحدة التركيبية‬
Le lexème est le plus petit morphème appelé aussi unité minimale dans un mot graphique,
il est non dérivationnel, ni fonctionnel, donc il ne constitue pas des clitiques et des affixes de
conjugaison et de déclinaison [Mes, 08] .par exemple le lexème : ( ‫ ذم‬,*am) n’attache à aucun
affixe, il possède plusieurs lemmes : (condamné ‫( ) مرمىم‬condamné ‫( )مرم‬reproche ‫ذمُ ح( )مرمح‬
blâme)( ‫ ذمائ‬blâmes)( répréhensible
ُ‫( )ذم‬détention ‫( )ذمام‬détentions ‫( )أذمح‬invective
ٍ‫()ذم‬Citoyen non musulman ٍ‫( ) ذم‬protection ‫()ذمح‬protections ‫( )ذم‬invective ‫( )ذم‬invectiver
‫ ()ذم‬réprimander ‫ )ذم‬qui peuvent attacher aux affixes de conjugaison et de déclinaison.
Le stem (tige) sAk : ‫الساق‬
Le stem est le radical d’un mot, il correspond à la partie du mot restante une fois que l’on a
supprimé son préfixe et son suffixe, il représente le noyau lexical et il
ne correspond
généralement pas à un mot réel. Les techniques utilisées pour extraire le stem reposent
généralement sur une liste d’affixes (suffixes, préfixes, postfixes, antéfixes) de la langue
considérée et sur un ensemble de règles de désuffixation construites a priori.
9
Chapitre I
Nature du Texte Arabe
b. Verbe :
Les verbes nus :
Qui est tous leurs lettres sont originaux et ne changent pas durant la conjugaison sauf les
lettres de défectuosité, il a une base à trois consonnes correspondre au schème FaEala ( ‫)ـع‬
ou bien de quatre consonnes correspondre au schème ( FaEelal ‫)ـع‬.
Si le verbe ne contient aucune lettre longue on dit qu’il est correct (‫ طذُخ‬Sahihe) et se
diviser en trois types [Gla, 07] :

Le verbe sain (SAlim ‫)ظال‬:qui ne contient aucune lettre radicale défectueuse, ni lettre
hamza, ni lettre redoublée.

Le verbe de lettre Alif (Mahmuz‫ )مه ىش‬: qui contient une lettre radical hamza comme :
Interroger (SaAla ‫)ظأل‬, Lire (karaAa.‫) لسأ‬.

Le verbe redoublé (MudaEaaf‫) مضعّؿ‬:la présence de deux consonnes identiques dans
la deuxième et troisième position du radical de verbe nus trilitère et son augmenté
comme : passer (Maraa ‫ )م ّس‬ou la première et la troisième lettre identique dans le verbe
quadrilatère comme : commotionner (Zalzala ‫[ ) شلصل‬Ham, 05].
Sinon le verbe est défectueux et contient une ou deux lettres longues ou bien défectueuses
qui causent des altérations importantes au cours de la conjugaison, ce type est distingué en 4
catégories:

Verbe assimilé (MivAl ; ‫ ) مثال‬: la première consonne est une longue voyelle, il est
nommé comme ça parce qu’il a assimilé le verbe sain dans leur conjugaison au passé.
Exemple : promesse (WaEada-‫[ ) و د‬Mes ,08].

Verbe creux (Ajwaf ; ‫ ) أ ىؾ‬: la deuxième consonne est une longue voyelle, il est
nommé comme ça parce que leur cavité est vidée d’une lettre saine ; par
exemple :kAl(‫لال‬, dire) [Mes ,08] .

Verbe incomplet (NaAkis ‫) نالض‬:la troisième consonne est une longue voyelle, il est
nommé comme ça parce que dans leur conjugaison on supprime cette lettre comme :
conquérir (RazA,‫) ؼصا‬.

Verbe Ramas (‫ لفُؿ‬Lafif): il contient deux longues voyelles au même temps, il est
divisé en deux selon leur position :
Ramas séparé )‫ لفُؿ مفسوق‬Lafif Mafruwk ) : la première et la troisième consonne sont
des voyelles longues.
Ramas collé )‫ لفُؿ ممسون‬Lafif makruwn) : la deuxième et la troisième consonne sont
des voyelles longues.
10
Chapitre I
Nature du Texte Arabe
Verbes augmenté :
Comme le montre le tableau 4, ils sont dérivés de racine de trois ou quatre consonnes, par
insertion d’une lettre ou plusieurs sur sa composition originale. Les verbes dérivés se
conjuguent avec les mêmes préfixes et suffixes que le verbe nu. Les verbes trilitères peuvent
être augmentés au maximum par trois lettres et les verbes quadrilatères par deux lettres. Alors,
la longueur maximale d’un verbe arabe est de 6 lettres [Mes ,08].
On peut aussi indiquer que le verbe impératif est dérivé de l’inaccompli, et l’inaccompli de
l’accompli, et l’accompli de l’origine (‫مظدز‬Masdar).
Les verbes nus
Schèmes
Les types des opérations Morphologique
augmenté
‫ـ ّع‬
Verbe trilitères
(FaEal ‫)ـع‬
FaEa ~l Redoublement de deuxième consonne
‫ ـا‬FaAEil
L’allongement de la première consonne par l’ajout d’alif
َ ‫ أَ ْـ َع‬AafeEal
Adjonction d’une alef hamza ‫ أ‬au début de la racine
َ ‫ اِ ْن َف َع‬InefaEal
Adjonction d’un morphème In ‫ اِ ْن‬au début de la racine
َ ‫ اِ ْـرَ َع‬IfetaEal
Adjonction d’une alef ‫ ا‬au début de la racine +insertion
de ‫ خ‬a la suite de 1ère consonne
‫ اِ ْـ َع َّم‬IfeEal~a
Adjonction d’une alef
‫ ا‬au début de la racine
+redoublement de la 3ème consonne
َ ‫ ذَفَ َّمع‬TafaEa~l
Adjonction de ta ‫ خ‬au début de la racine+redoublement
de 2eme consonne
َ َ ‫ذَفَا‬
Adjonction de ta
TafaAEal
L’allongement de la première consonne par l’ajout d’alif
َ ‫اِ ْظرَ ْف َع‬
َ ‫ اِظ‬au début de la racine
Adjonction d’un morphème ‫ْد‬
‫ خ‬au début de la racine+
IsetafeEal
َ َ ْ‫اِ ْـعَى‬
Adjonction d’une alef ‫ ا‬au début de la racine+insertion
IfeEawelal
de waw a la suite de la 2ème consonne+insertion de meme
2ème consonne a la suite de waw.
‫اِ ْـ َعا َّمل‬
Adjonction d’une alef ‫ ا‬au début de la racine+insertion
IfeEaAl~
de alef a la suite de la 2ème consonne+redoublement de
3ème consonne
‫اِ ْـ َع ّى َل‬
Adjonction d’une alef ‫ ا‬au début de la racine+insertion
11
Chapitre I
Nature du Texte Arabe
IfeEawa~l
de waw a la suite de la 2ème consonne+redoublement de
ce waw.
َ َ ‫ذَفَ ْع‬
Verbe quadrilatère
Adjonction de ta ‫ خ‬au début de la racine
TafaEelal
(FaEelal ‫)ـع‬
ْ َ َ‫اِ ْـ َعن‬
Adjonction d’une alef ‫ ا‬au début de la racine+insertion
IfeEanalal~
de nun a la suite de la 2ème consonne
‫اِ ْـ َع َ َّم‬
Adjonction
IfeEalala~
d’une
alef
racine+redoublement de 3
ème
‫ا‬
au
début
de
la
consonne.
Tableau I.4 : Les schèmes de verbes augmentés arabe
c. Nom :
Nous pouvons distinguer deux classes de noms : la première regroupe les noms
conjugables ou semi conjugables qui peuvent avoir la forme duelle, plurielle etc et qui ne
peuvent pas rattacher à des racines verbales [Kas, 05]. La deuxième classe regroupe les noms
non conjugables qui gardent la forme quel que soit le contexte (les pronoms personnels, les
pronoms démonstratifs et relatifs, les noms conditionnels et d’interrogations, et les noms de
verbe et voix).
Les noms conjugables sont soit des noms invariants (Isem Jamid ‫امد‬
‫ )اظ‬qui échappent à
toute dérivation comme ‫[ كثش‬kab$un] (bélier), et aux noms dérivationnels (‫ )اظ مشرك‬qui sont
formés à partir d’une racine verbale comme ‫[ مدزظح‬madrasatun] (école) de la racine ‫[ د ز ض‬d r
s] [Khe, 06].
Il existe dix types de noms dérivationnels : participe passif, participe actif, adjectif
qualificatif, exagérateur de participe passif, le nom de prédilection, le nom de temps, le nom
de lieu, l’origine (Masdar) Mimi, l’origine de verbe trilitère nus supérieure de trois consonnes,
le nom d’instrument.
12
Chapitre I
Nature du Texte Arabe
Type de nom
Conjugaison
Catégorie de nom
Nom non
Conjugable
Adverbe
Dérivationnel
(MoEeraba ‫)معستح‬
(Jamid ‫) امد‬
(Mabeniya ‫) مثنُح‬
(Invariable ‫ؼُسمرظسؾ‬
Rayer Motasarifa)
َ ‫(لَ ْث‬Kabla)
Nom de voix
‫ ط‬،‫( كز‬kaxe,has)
Nom de verbe
َ َُ (hayehaAta)
،‫ْهاخ‬
Pronom
Non conjugable
Exemples
‫نِ ْز‬،‫ِك ْز‬
Personnel ُ‫ه‬،َ‫ن‬،‫ ُ َى‬،‫أَنَا‬
(affixé ou isolé)
(Ana,howa,ka,hu)
Pronom interrogatif
َ‫( َك ُْؿ‬kayefa)
Pronom conditionnel
‫( إِ َذا‬I*A)
Pronom allusif
Pronom relatif
ْ ‫( َك‬Kam)
ٌ‫( الّر‬Al-*iy)
Nom de nombre
‫ َوا ِد ٌد‬، (Wahidun)
Pronom démonstratif
،‫( َ َرا‬Ha*A)
Nom propre
‫( ُم َذ َ ٌد‬Mohamadun)
Nom commun
ٌ ُ ‫ز‬،(Rajolun)
َ
Nom
Conjugable
Origine ou Masdar
ً ‫(ـسدا‬farahanA)
dérivationnel
(MoEeraba ‫)معستح‬
Participe actif
ْ‫ َكاذِة‬، (KaAtib)
(Mo$etak
Participe passif
ُ ‫( َم ْك‬Maktoubun)
ٌ‫دوب‬
‫)مشرك‬
Adjectif qualificatif
ْ‫( أَدْ َ س‬Ahmar)
Nom d’une fois
ً‫( ـَسْ َدح‬farhatun)
Nom de manière
َ َ َ ، (Eamala)
ٌ‫( َم ْ رَة‬Maketabun)
Nom de lieu
Nom de temps
Nom d’instrument
ْ‫( َم ْؽ ِسب‬Mageribe)
ٌ‫( ـَأْض‬FaAesun)
Elatif
ٌ‫( َ ِ ُ َح‬Jamiylatun)
ْ َ ْ َ‫( أ‬Ajemal)
Nom diminutif
، ٌ‫( ُكرَُِّية‬kutayibun)
Nom de relation
ٍ
ٌ ‫( َ َس ِت‬Earabiyun)
‫( َلرَّما ٌل‬kata ~ Alun)
Adjectif
Intensif
Tableau I.5 : Les différentes catégories des noms arabes
13
Chapitre I
Nature du Texte Arabe
Ainsi on peut distinguer les noms conjugables nus de trois et quatre ou de cinq lettres, et
les noms augmentés d’une lettre ,de deux lettres, de trois lettres, et au maximum de quatre
lettres, c’est pour cela la longueur maximale d’un noms ne dépasse sept lettres[Gla, 07].
Les noms qui sont moins de trois lettres sont des noms qui ont retiré de ces lettres comme :
main ‫( َد‬yadun), père(Aabun) ‫[ أب‬Gla, 07].
B. Morphologie flexionnelle :
a. Verbe :
Comme on a dit on peut classer les verbes selon leur aspect aux trois types :
Accompli : indique que l’action est achevée ce qui est implique le passé [Ham, 05]. C’est
l’aspect le plus simple qui est utilisé avec la troisième personne du singulier pour représenter
un verbe à l’infinitif, il se caractérise par une suffixation des marques.
Inaccompli : indique que l’action est en train de se réaliser, ce qui est implique le présent
[Ham, 05]. Il permet la modification des lettres principales du verbe par une préfixation de
ces éléments avec les lettres (‫ أنُد‬Anyt) ainsi des infixations sous forme de duplication de
lettre dans le cas de verbe redoublé ou de substitution d’une voyelle dans le cas d’un verbe
défectueux. Par exemple '‫( 'ش ّد‬$ada ~ ,se souquer) se conjuguer avec le pronom elles par
'‫('َشددن‬ya$edodena ~ , elles souquent).
L’inaccompli se caractérise par trois modes flexionnelles:

L’inaccompli indicatif : employé dans une proposition principale ou isolée. Il se
caractérise par une désinence ( ُ ‫[(ض ّ ح‬dammat] et par des flexions longues.

L’inaccompli subjonctif : utilisé en proposition subordonnée s’il est précèdé par une
particule de subjonctif, il se caractérise par une désinence (َ ‫[ ) َ فتحة‬fathat] et par des
flexions courtes. [Mes ,08].

L’inaccompli apocopé : il précède par une particule d’apocopé, Il se caractérise par
l’absence de désinence ( ْ ‫[ )سكون‬sukun] et par des flexions courtes.
Impératif : indique l’ordre ou la demande [Ham, 05]. Il est conjugué seulement avec les
pronoms de deuxièmes personnes. Généralement, il faut ajouter un hamza au début du verbe
et terminer celui-ci par la voyelle muette ( ْ ‫( )سكون‬sukun).
14
Chapitre I
Nature du Texte Arabe
Nous pouvons mentionner que la détermination du temps, dans la langue arabe, ne se
limite pas à l’analyse du verbe seulement, encore faut-il analyser toute la phrase.
Les verbes sont conjugués à ces aspects selon plusieurs facteurs [Khe, 06] :

Le nombre du sujet (singulier, duel, pluriel).

Le genre du sujet (masculin, féminin).

La personne (première, deuxième et troisième)

La voix (actif, passif).

type de verbe : sain, mahmouz, redoublé, assimilé, creux, incomplet, ramas.
Normalement tous les verbes sont non conjugables (‫مثنُح‬,Mabeniya) sauf le verbe
inaccompli qui ne relit pas à nun de femme, et le nun d’assertion qui est conjugué.
b. Nom :
La déclinaison des noms comporte trois cas: nominative, accusatif, et génitif suivant leur
fonction dans la phrase (sujet, complément..), il est affecté par un marquage casuel ou par une
particule selon le genre et le nombre de nom [Gla, 07].
Les noms qui ont un marquage casuel sont : le nom singulier, le pluriel brisé, le pluriel
féminin sain [Gla, 07].
Les noms qui ont des particules sont : le dual, le pluriel masculin sain, et les cinq noms
[Gla, 07].

Le nom singulier :
Dans le cas le plus fréquent, les noms au singulier prennnent le signe dammat(u)
comme une marque de nominatif, fatha(a) comme une marque de l’accusatif, et
kasra(i) de génitif .si le nom est indéfini ; le tanwin est apparu dans les trois cas.
Dans les moindres cas, les noms qui n’acceptent pas de tanwin prennent la marque
fatha en génitif et en accusatif, parmi ces noms, il existe les noms féminins qui se
terminent par ‫ اء‬et
‫ ي‬comme (ً ‫دث‬،‫ طذساء‬SahraA’,HoblaAY), ainsi les adjectifs de
couleur masculins et féminins de schèmes ‫أـع‬,‫ ـعالء‬.

Le pluriel brisé :
La forme du nom au pluriel se différencier de leur singulier par infixation, ou par
diminution de son origine, et se classer en deux groupes :
15
Chapitre I
Nature du Texte Arabe
Le pluriel de petit nombre : indique que le nombre de pluriel est entre 3 et 10 comme :
‫أد ال‬
(AHemaAle,Charges),
ses
schèmes
est
quatre :ٌ‫ـِ ْع َح‬،ٌ‫أَ ْـ ِع َح‬،ٌ‫أَ ْـ َعال‬، ْ ‫أَ ْـ ُع‬
(AafeEole,AafeEaAlun,AfeEilatun,FiEelatun)
Le pluriel collectif : caractérise un nombre supérieur de 3 à l’infinité comme : ‫د ىل‬
(Humuwlun,Charges).Il existe 16 schèmes pour ce type. [Gla, 07]

Le pluriel féminin sain : ce pluriel est formé par l’ajout d’un suffixe ‫ اخ‬au singulier
sans changement dans la structure de mot.

Le dual : c’est un nom conjugable, caractérise deux choses ou deux personnes par
l’insertion de ‫( ان‬An) en cas de nominatif, et
َ (yn) en cas de l’accusatif et génitif.
Dans le cas des noms défectueux ou qui se termine par ‫(و‬w) ou ‫( ي‬Y); la terminaison
se transforme devant la suffixation de dual, par exemple ‫( مجسي‬MajeraY, chemin) se
transforme en ‫( مجسَان‬MajerayaAne, chemins).

Le pluriel masculin sain : comme le pluriel féminin sain, il caractérise par l’ajout d'un
suffixe ‫ ون‬en cas nominatif, et َ en cas d’accusatif et génitif.

Les cinq noms : sont des noms bilitères qui leur voyelle finale se prolonger quand ils
sont définis par un complément :‫ذو‬،‫ـى‬، ‫د‬،‫أر‬،‫( أب‬Aabun,Aaxun,Hamun,fuw,*uw ,père ,
frère, le beau père , bouche , propriétaire).

Remarque : Toutes les particules arabes sont non déclinables (‫ مثنُح‬Mabeniya) et non
dérivables.
VI.
Structure d’un mot arabe :
En arabe un mot peut signifier toute une phrase grâce à sa structure composée qui forme
une agglutination d’éléments de grammaire, ceci définit le mot graphique arabe ; cette
appellation est désignée par David Cohen à un mot décomposable aux proclitiques, forme
fléchies, enclitique avec la forme fléchie représente le noyau lexical.
La représentation suivante schématise une structure possible d’un mot. Notons que la
lecture et l'écriture d'un mot se font de droite vers la gauche.
Post fixé
Suffixe
Enclitique
Corps schématique
Forme fléchie
Préfixe
Antéfixe
Proclitique
Figure I.1 : La structure d’un mot arabe selon David Cohen
16
Chapitre I
Nature du Texte Arabe
Les proclitiques : Les proclitiques sont des antéfixes et des préfixes, les antéfixes sont des
prépositions ou des conjonctions et les préfixes sont les traits grammaticaux dépendus de
l’aspect verbal dans le cas des verbes, et de déclinaison dans le cas des noms et déverbaux
(nombre, genre, personne,…) [You, 08].Quelques exemples de proclitiques [Mes ,08]:

Les proclitique réservé aux noms : l’article de définition '‫( 'ال‬Al) (préfixes).
La préposition '‫ب‬
ِ ' (bi) (Antéfixes).

Les proclitique réservé aux verbes : La particule de subjonctif '‫( ' ِل‬li) (Antéfixe).
La particule de futur '‫( 'ض‬sa) (Antéfixe)
La particule de l’apocopé ِ'‫( 'ل‬li)

Les proclitique réservé aux verbes et noms : L’article d’interrogation '‫( 'أ‬Aa) (Antéfixe)
Les conjonctions de coordination '‫'و‬et '‫( 'ؾ‬wa,fa)(Antéfixe)
La particule d’ affirmation '‫( ' َل‬la) (Antéfixe)
On peut indiquer qu’il existe plusieurs ambigüités dans le rôle d’un proclitique, par
exemple : la particule ‫ و‬est utilisé dans la majoritaire des cas comme une particule de
coordination, dans des moindres cas comme particule d’accompagnement, et rarement une
particule de serment.
Les enclitiques : Représentent les suffixes et les post fixés, les suffixes sont des traits
grammaticaux par contre les post fixés sont des pronoms personnels. Dans le cas des noms et
en mode non déterminé, les noms acceptent toutes les enclitiques, par contre les noms qui se
terminent par ‫( ي‬Y) ou par
ٌ (y) nécessitent des transformations morphologiques avant leur
suffixation comme dans le cas du mot 'ً‫( 'مثن‬MAbenaY, immeuble) qui est transformé par
changement de ‫( ي‬Y) au (A) ‫ ا‬et l’ajout d’un suffixe comme ‫(ه‬h) , le mot donc devenir :
‫(مثناه‬MabenaAh, ses immeuble )[Mes ,08].Dans le cas des verbes, les enclitiques sont varis
selon leur aspect et pronom personnel.
Le tableau suivant indique toutes les
particules unitaires qui ont exprimé soit des
proclitiques soit des enclitiques du verbe ou nom.
17
Chapitre I
Nature du Texte Arabe
La particule
Le sens de particule
‫)>( أ‬
Antéfixe de Question, appel, égalité
‫( ا‬A)
Suffixe de l’exclamation, et de secours
‫( ب‬b)
Antéfixe de préposition
‫( خ‬t)
Antéfixe de serment, et suffixe de féminin
‫( ض‬s)
Antéfixe de futur
‫( ؾ‬f)
Antéfixe de conjonction
‫( ن‬k)
Antéfixe de préposition
‫( ل‬l)
Antéfixe
de
préposition
pour
les
noms
et
d’affirmation pour les verbes
‫( م‬m)
Suffixe d’indication de pluriel masculin
‫( ن‬n)
Préfixes de l’inaccompli et suffixe d’affirmation
‫( ه‬h)
Post fixe de l’absence
‫( و‬w)
Antéfixe de conjonction
ٌ (y)
Préfixe de l’inaccompli
Tableau I.6 : Les rôles des particules unitaires dans un mot arabe
Dans notre travail nous avons considéré que tous les proclitiques et les enclitiques sont des
préfixes et des suffixes.
VII.
Les problèmes de traitement automatique de texte arabe:
Le traitement automatique des langues(TAL) est la conception de logiciels ou programmes,
capables de traiter de façon automatique des données linguistiques (textes) exprimées dans
une langue dite « naturelle». Le TAL arabe rencontre plusieurs défis dépendant de l'absence
fréquente des voyelles courtes dans le texte arabe et d’autres phénomènes morphologiques et
syntaxiques
cités au-dessous, ce qui risque de générer une certaine ambiguïté à deux
niveaux:
 Sens du mot
 Difficulté à identifier sa fonction dans la phrase (différence entre le sujet et le
complément,…).
18
Chapitre I
Nature du Texte Arabe
Les phénomènes qui ont des effets sur le parcours des méthodes de TALA et leurs
résultats sont :
L’Agglutination :
A.
Le phénomène d’agglutination de mot arabe est lié aux clitiques rattachés aux verbes et
noms, ils sont définis comme une liste d’affixes (suffixes, préfixes, postfixes, antéfixes). Ces
clitiques génèrent certains problèmes d’ambigüité spécifiques à la segmentation d’un mot , ce
qui permet d’avoir plusieurs formes comme dans l’exemple suivant :
Antéfixe
préfixe
َ‫أ‬:article
‫ َو‬:conjonction de
Forme fléchie
‫ط َّم‬
َ :verbe
‫( أوط ى‬AwSlwhm) :
suffixe
a
Post fixé
‫و‬:suffixe
ْ ُ :pronom
d’interrogation coordination
l’accompli
verbal
(>a)
prière(Sala~u)
exprime le nom(hum)
(wa)
complément
de
pluriel (w)
َ‫أ‬:article
‫ط‬
َ ‫ َو‬:verbe
a
‫و‬:suffixe
ْ ُ :pronom
d’interrogation
l’accompli
verbal
(>a)
arriver (waSala)
pluriel (w)
nom (hum)
‫و‬:suffixe
ْ ُ :pronom
‫ط‬
َ ْ‫;أَو‬verbe
a
de complément
l’inaccompli
verbal
faire arriver
pluriel (w)
du complément
de
de
nom (hum)
(>aweSala)
Tableau I.7 : illustration d’un exemple de plusieurs segmentations d’un mot
La bonne représentation du mot est indiquée par une analyse morpho-lexical puissant pour
affecter les catégories grammaticales justes suivant les règles d’agglutination des proclitiques
et des enclitiques parmi les il existe :
 La relation d’ordre : il faut toujours respecter l’ordre des proclitiques entre eux ainsi
les enclitiques selon la catégorie grammaticale de chacun pour former le bon sens
d’un mot par exemple l’article d’interrogation ‫ أ‬se précède toujours les proclitiques
du verbe de l’inaccompli : ‫أ‬, ‫خ‬,‫ ن‬,ٌ (>,n,t,y) .
 La compatibilité entre les proclitiques et les enclitiques : pour former la bonne
expression
d’un mot arabe, il faut aussi respecter la compatibilité entre les
proclitiques et les enclitiques, pour cela il existe plusieurs contraintes
grammaticales pour gérer leurs enchainements, et diriger les analyses
morphologiques.
19
Chapitre I
Nature du Texte Arabe
 Les contraintes grammaticales pour les verbes [Mes ,08]:

L’article d’interrogation ‫ أ‬ne peut pas être collé avec un verbe conjugué à l’impératif
ou subjonctif.

La particule ‫ ض‬ne peut pas joindre qu’a un verbe conjugué à l’inaccompli (active ou
passive).

Les pronoms personnels ne se collent ni aux
verbes intransitifs, ni aux verbes
conjugués à la voix passive.

Lorsqu’un verbe est conjugué avec les premiers et les deuxièmes pronoms personnels
alors il ne peut pas agglutiner avec un pronom de la même personne.
 Les contraintes grammaticales pour les noms :

L’article de définition '‫('ال‬Al) ne peut être compatible avec les enclitiques de pronoms
personnels, ni avec tanwin.
B.
Les mots homographiques :
C’est tous les mots qui ont les mêmes formes orthographiques mais la prononciation est
déférente [Mes ,08], ils ont apparait dans la majorité des cas dans les textes non vocalisés et
qui ont causé des ambigüités lexicales et syntaxiques. (Sens du mot et la difficulté à identifier
sa fonction dans la phrase) [You, 08].
Le lexique arabe contient plusieurs mots homographies qui ont des significations et des
catégories grammaticales différentes comme :
Il a plusieurs sens :
ٌ َ َ :drapeau
( Ealamun)
ً ْ ِ :science
ََِ
(Eilemun)
:savoir
(Ealima)
Aussi les verbes défectueux peuvent générer des mots graphiques lors de modifications de la
lettre défectueux, ainsi l’existence de chadda en leur conjugaison comme : ‫َعد‬
Il a plusieurs sens :
‫ َُ ِع ُد‬: prépare (le verbe ‫)أَ َ َّمد‬
(yuEidu~)
‫ ََ ُع ُد‬: compte(le verbe ‫) َ َّمد‬
(yaEudu~)
(Eada~)
(>aEada~)
‫ ََ ُع ْد‬: revient(le verbe ‫) َا َد‬
( yaEude)
(EaAda)
‫ََ ِع ُد‬
: promesse(le verbe ‫) َو َ َد‬
(yaEido)
(waEada)
‫ َُ ِع ْد‬: refait(le verbe ‫)أَ َا َد‬
(yuEide)
(>aEaAda)
20
Chapitre I
Nature du Texte Arabe
Le pluriel et le dual sont aussi des mots graphiques dans le cas génitif et accusatif comme :
ُ ‫( ال ماذ‬Al-MokaAtilyn, les combattants) soit ِ ُْ َ ‫( ال ماذ‬Al-MokaAtilayeni, deux combattants) ou
َ ُِ ‫ ( ال ماذ‬Al-MokaAtiliyna , plus de deux combattants).
C.
La phrase arabe :
Il existe deux types de phrase en arabe : la phrase verbale et la phrase nominative.
L’ordre des mots dans une phrase arabe déterminent son type : si la phrase est débutée par
un verbe alors on dit qu’il est verbal par exemple :
‫ال دزظح‬
Al-Madrasap,Ecole
Nom génitif
ً‫إل‬
‫الر ُر‬
Ila ,à
Al-tilmi*u, élève
Particule génitif
sujet
‫ذ ة‬
*ahaba, aller
verbe
Si la phrase est débutée par un nom ou par une particule on dit qu’il est nominatif
‫ال دزظح‬
Nom génitif
D.
ً‫إل‬
‫ذ ة‬
‫الر ُر‬
Particule génitif
verbe
sujet
‫الر ُر‬
‫ذ ة‬
Sujet
verbe
‫ال دزظح‬
Nom génitif
ً‫إل‬
Particule génitif
Rôle du niveau phonologique dans la morphologie :
L’application des règles phonologiques est un phénomène fréquent qui influence sur la
morphologie arabe, ils ont basé sur les opérations de conservation, remplacement et
élimination. Ces règles sont liées surtout à la lettre hamza, aux lettres défectueuses et aux
lettres dupliquées [Khe, 06] . Généralement, elles sont utilisées pour alléger la prononciation.
A titre d’exemple, nous présentons la règle phonologique spécifique pour les lettres
défectueuses : '‫ 'ل ة دسؾ الع ح ألفا‬qui permet de remplacer une lettre défectueuse (‫ و‬ou ٌ) par alif
"‫"ا‬, si la voyelle précédente est fatha ( َ ) et sa voyelle n’est pas sukûn ( ْ ْ ( .
Cette règle est illustrée par le tableau suivant dont le premier montre les conditions
d’appliquer cette règle à la forme abstraite générée par le mécanisme de dérivation. Dans le
deuxième exemple, la voyelle de la lettre défectueuse est sukûn, alors on n’applique pas la
règle car ses conditions ne sont pas vérifiées [Khe, 06].
21
Chapitre I
Nature du Texte Arabe
Racine
Schème
Forme abstraite
lemme
َ ‫( ـَ َع‬FaEala)
‫( لَ َى َل‬Qawala)
‫( لَا َل‬QaAla)
(Qawel,Dire) َ ‫( ـَ ْع‬FaEela)
‫( لَىْ َل‬Qawela)
‫( لَىْ َل‬Qawela)
‫قول‬
Tableau I.8 : La règle de remplacement
E.
Le système numérique arabe:
En observant les écrits arabes, on remarque une double norme dans l’usage des chiffres
selon le pays. Ainsi, les pays d’Afrique du Nord utilisent les chiffres arabes dans leurs formes
arabes, alors que cet usage est différent dans la plupart des pays arabes du Moyen-Orient, de
l’Egypte et de l’Arabie Saoudite où l’usage des anciens chiffres arabes dits indiens est en
vigueur [Zag, 09].
Au niveau de la lecture, le nombre est lu en commençant par la plus petite valeur comme
21 se lit un et vingt. Les nombres sont appartenus à la catégorie des noms.
Type
Exemple
Chiffres arabes standards (Tunisie, Algérie, Maroc). 0 1 2 3 4 5 6 7 8 9
Chiffres arabes variantes occidentales (Égypte, ٓ ٔ ٕ ٖ ٗ ٘ ٙ ٧ ٨ ٩
Syrie, Palestine.)
Tableau I.9 : Le système numérique arabe.
VIII.
Conclusion :
Dans ce chapitre, nous avons présenté les caractéristiques du texte arabe qui sont
différentes par rapport à d’autres langues indo-européennes. L’Arabe se distingue par le lien
étroit entre ses différents niveaux linguistiques : phonologique, morphologique, syntaxique et
sémantique. Ces caractéristiques ont été traitées par différentes applications de traitement
automatique de la langue arabe comme le résumé automatique et la traduction des textes
arabes, …etc. De telles applications reposent sur des fonctions communes d’analyse
syntaxique et morphologique que nous verrons dans le chapitre suivant.
22
Chapitre II
Méthodes d’Analyse du Texte Arabe
Chapitre II
I.
Méthodes d’analyse du texte arabe
Introduction :
Aujourd'hui, la surcharge d’information est devenue de plus en plus un défi que les
systèmes d’information doivent prendre en charge. Par conséquent, il serait intéressant de
mettre en place des outils permettant d'automatiser les traitements des langues liées à la
recherche de l'information, de faciliter l'accès à celle-ci, de diminuer la surcharge
d'information, etc.
Jusqu'à là, le marché de l'informatique essaie de répondre à cette problématique en
développant des outils spécifiques traitant les différentes langues du monde tel que : les
moteurs de recherche, les systèmes de Question/Réponse, les systèmes d'extraction
d'information, les analyseurs morphologiques et syntaxiques, etc.
II.
Historique :
Par ses propriétés morphologiques et syntaxiques, la langue arabe est considérée comme
une langue difficile à maîtriser dans le domaine du traitement automatique des langues. Les
premières études reviennent aux essais de David Cohen qui a proposé une analyse
automatique dès 1961 (Cohen, 1961/1970) [Mes, 08]. Ces études proposèrent notamment une
analyse morphologique minimaliste, basée sur la traduction de toute forme linguistique en
schème et racine. Les recherches vont se développer plus tard sur le lexique et la morphologie
jusqu’à la mise au point d’analyseurs automatiques arabes, de systèmes d’indexation, de
correcteurs, etc. De nombreux projets sont en cours de développement et il existe des bases de
données disponibles proposant des corpus divers sous forme électronique.
Le traitement automatique de la langue arabe est devenu un domaine important dans la
recherche d’informations puisque tout système de recherche d'informations vise à aligner le
maximum possible le besoin d'information de l'utilisateur, exprimé en termes libres, avec le
contenu documentaire cible. Pour cela il existe trois approches principales d’analyses
et d’extraction de la forme réduite d’un mot arabe [Lar, 06]:

L'analyse morphologique à base de dictionnaire.

La lemmatisation légère (Light stemming)

L'analyse statistique.
La réduction du mot arabe à sa forme primitive est une tâche indispensable pour
l’indexation de texte, la recherche d’information et
l’organisation des dictionnaires.
24
Chapitre II
Méthodes d’analyse du texte arabe
L’analyse morphologique de l’arabe s’intéresse, comme pour les autres langues, aux formes
des mots. Pour l’arabe, vu la richesse du mot graphique et la présence d’agglutination, cette
analyse s'avère assez délicate, elle consiste à extraire la forme la plus complète associée à la
variation de vocalisation et à la reconnaissance des schèmes de dérivation. C’est un outil de
recherche et de travail pour une autre application comme les moteurs de recherche, les
systèmes d’indexation et de traduction, il se base sur des listes préparées manuellement, parmi
ces listes il existe [Saw et al, 08]:

Une liste de tous les préfixes possibles

Une liste de tous les suffixes possibles

Une liste de tous les schèmes possibles si c’est un analyseur à base de racine.

Une liste de toutes les racines ou lemmes si c’est un analyseur à base de dictionnaire.
Les analyseurs morphologiques acceptent les textes et les mots unitaires (vocalisés
entièrement ou partiellement ou non vocalisés). Le texte est segmenté aux : mots arabes,
chiffres et signes de numérotation.
On peut distinguer trois catégories d’analyseurs selon les types de sortie :
 Les analyseurs à base de lemme (Morphologie Lemma-Based)
 Les analyseurs à base de racine. (Morphologie Root-Based).
 Les analyseurs à base de stem (tige). (Morphologie stem-Based).
25
Méthodes d’analyse du texte arabe
Chapitre II
Analyse Morphologique
Analyseur morphologique
Lemmatisation légère
Analyse statistique
à base de dictionnaire
Sortie stem (tige)
Light stemming
Sortie racine
ISRI
Sortie lemme
Khoja stemmer
AraMorph
n-grams
Effective stemming
Shalabi
Alkhalil
n-classes
ANEA
Stemmer
BBW
Sakhr
DIINAR
Sebawai
ASVM
ALPNet
Shammari
XEROX
Figure II.1 : différents types de méthodes d’analyse morphologique arabes
III.
Les analyses morphologiques à base de dictionnaire:
A.
Les analyseurs à base de racine :
1. Le système de Shereen Khoja (Khoja’s Stemmers) :
Il essaye de trouver des racines pour les mots arabes qui sont plus abstraites que les
lemmes. D'abord, il élimine les préfixes et les suffixes les plus longs, ensuite il compare le
reste du mot avec les listes des schèmes des noms et des verbes pour extraire la racine à partir
de la forme réduite. Pour ce faire, il comporte 19 listes partagées entre : les racines trilitères,
les schèmes trilitères, les suffixes, les mots étrangers, les mots fonctionnels (une liste
contenant 168 éléments : comme laysa, ina, fi…etc), les racines quaternaires, les
ponctuations(les signes mathématiques et les ponctuations de l’écriture) et bien d'autres listes
26
Méthodes d’analyse du texte arabe
Chapitre II
de certaines formes particulières. L'analyseur Khoja est développé sous C++ et Java et est
disponible librement sur Internet; il traite plusieurs difficultés :

Si la racine est contient de longues voyelles (alif,waw,yah), la forme de cette lettre
peut changer durant la dérivation[Kho, 01].

Certains mots n’ont pas de racines comme les pronoms personnels donc l’analyseur ne
donne aucun résultat.

La lettre de racine peut être éliminée durant la dérivation. L’analyseur tente de détecter
la lettre pour reconstituer la bonne racine.

Si la racine contient la lettre hamza, ce hamza peut changer sa forme durant la
dérivation, l’analyseur détectera ça et retournera la forme originale d’hamza.
Cet analyseur est utilisé comme partie composante du système de recherche
d’informations de plusieurs langues développé à l'université du Massachusetts pour TREC-10
en 2001. Ce système a donné de bons résultats et a prouvé ses performances malgré certaines
erreurs sur les racines produites.
2. Le système d’extraction des racines trilitères et quaternaires de Shalabi :
Le système présente trois caractéristiques principales :

Il donne tous les exemples d’un mot à analyser par l’utilisateur.

Il donne la forme spécifiée avec le type de mot (personne, nombre et genre),
indispensable pour un système de génération de textes.

Il analyse le mot en entré pour obtenir l’étiqueteur grammatical avec sa racine,
nécessaire pour un système de recherche d’informations [Sha].
Pour retrouver la racine trilitère d’un mot donné, la démarche de l’algorithme se résume
par : la suppression de tous les préfixes les plus longs possible, et à spécifier les trois lettres
de racine existera dans le reste du mot qui doivent se trouver dans quelque caractère de la
première à la quatrième ou cinquième position du reste du mot [Sha et al, 98].
La première lettre du reste du mot constitue le début de racine qui va être complétée en
vérifiant le reste des bigrammes selon un ordre déterminé.
L’analyse n'est basée sur aucune liste préparée manuellement pour les racines quaternaires,
mais sur des calculs mathématiques en fonction des coefficients des lettres d’un mot et la
multiplication de ces coefficients par la position de ces lettres [Sha et al, 98].
27
Méthodes d’analyse du texte arabe
Chapitre II
Pour tester l’algorithme, l'auteur a préparé deux fichiers : le premier pour les racines, et
l'autre pour les préfixes. La sortie du programme donnait les racines et les schèmes pour
chacun des mots en entrée. Le corpus de test contenait 19,167 mots dont 16,775 à racines de
trois lettres, 1,124 à racines de quatre lettres et 1,268 mot invariable (noms non dérivables)
[Sha et al, 98]. L'avantage principal de cet algorithme résidait dans l’exécution rapide par
rapport à d’autres algorithmes antérieurs. Néanmoins, il exige un espace mémoire
considérable.
3. L’analyseur morphologique Sakhr :
Le Multi-Mode Morphological Processor (MMMP) de la compagnie Sakhr est un
analyseur synthétiseur morphologique développé par Shalabi, qui fournit l'analyse de base
pour tout mot de la langue arabe classique et moderne. Il identifie toutes les formes de
lemmes possibles d’un mot et extrait la racine de base et le schème morphologique approprié
après l’extraction des suffixes et préfixes pour donner toutes les solutions possibles.
Malheureusement, on ne trouve pas de version d’essai pour cet analyseur [Web 2,11].
Avec un traitement profond aux niveaux syntaxique et sémantique, le MMMP synthétise
en mode inverse pour générer la forme linguistique correcte pour les formes finales d’un mot.
La synthèse est l’outil clé pour générer la sortie demandée dans les traducteurs automatiques
et dans les applications de génération de textes tels que le résumé automatique [Web 2,11].
4. L’analyseur morphologique de XEROX :
En 1996; Kenneth Beesly évalua l’analyseur morphologique Xerox pour l’utiliser comme
assistant dans l’enseignement et le traitement des langues naturelles. Il utilisa la technologie
de transducteur à état finis « finite state technology : FST ». Une version d’essai se trouve sur
le site de XEROX [Mou et al, 08] . Ses bases de données furent créées manuellement en
collaboration avec Lauri Karttunen, il donna pour chaque mot arabe une liste de toutes les
caractéristiques morphologiques possibles. Le système fut constitué de deux niveaux : un pour
les racines et les schèmes et le deuxième pour les antéfixes, les particules de liaison et les
prépositions. Il utilisa un dictionnaire de 4930 racines [Mes ,08].
La segmentation de la phrase en unités lexicales est réalisée par un transducteur à états
finis, ce transducteur découpe la chaîne d’entrée en une séquence d’unités lexicales qui
peuvent correspondre à une forme fléchie, une marque de ponctuation, etc. La deuxième étape
28
Méthodes d’analyse du texte arabe
Chapitre II
est l’analyse morphologique des unités lexicales produites par la segmentation de la première
phrase. Cette étape est aussi réalisée par un transducteur qui relie la forme fléchie à la forme
lexicale (et vice-versa). La forme lexicale est une séquence comprenant la représentation
canonique de l’unité lexicale (le lemme), un ensemble d’étiquettes représentant le
comportement morphologique de l’unité lexicale et sa catégorie syntaxique [Bou, 08].
5. L’analyseur morphologique ALPNET de Darwish:
Karim Darwish avait conçu, en 2002, l'analyseur morphologique pour la langue arabe.
ALPNET permet d’extraire les racines possibles des mots arabes selon deux modèles:
Le modèle constructif : il utilise des listes des paires de racines de mots comme une entrée
pour l’extraction des listes des préfixes et des suffixes afin de calculer la probabilité
d’apparition de ces antéfixes.
Le modèle de détection de racine : il calcule la probabilité de combinaison des racines et
des antéfixes comme une seule unité lexicale, néanmoins le nombre de mots générés est trop
élevé dont une bonne partie sans aucun sens. Ce problème a été résolu par la recherche de ces
combinaisons dans les listes de dictionnaire ou bien par la vérification manuelle. ALPNET
permettait d’extraire jusqu'à 40,000 mot/seconde, mais il aucune version de test n'est
disponible.
6. L’analyseur morphologique Sebawai de Darwish:
Sebawai est un autre analyseur morphologique pour la langue arabe développé par Darwish
en 2003, il permet de trouver les racines des mots arabes avec un taux de réussite de 84%. Ce
système est utilisé dans une application de recherche d’information [Mou et al, 08].
B.
Les analyseurs à base de lemme :
1. L’analyseur morphologique DIINAR :
C’est une ressource linguistique très efficace de l’arabe, structurée comme une base de
données, et opérant au niveau du mot graphique qu’on peut le dire le
niveau
morphologique. Leur nom complet est DIctionnaire INformatisé de l’ARabe, acronyme
arabe «Ma‘âlî Mu‘jam al-‘Arabiyya » " ‫" مـعـالــي معجم العرتية اآللي‬. La première version a été
développée conjointement à Tunis et Lyon entre 1998 et 2000 .
29
Méthodes d’analyse du texte arabe
Chapitre II
A chaque entrée sont associés des spécificateurs morphosyntaxiques. L’analyse
morphologique peut ainsi traiter des entrées non-vocalisées, et la génération
morphologique produit des formes entièrement vocalisées, partiellement ou non vocalisée,
selon le besoin. Le nombre total des entrées de la ressource linguistique DIINAR.1 est
actuellement de 121.522 mot, pour 6,546 racines. Le nombre des entrées inclut 445 motsoutils relevant de diverses catégories grammaticales (prépositions, conjonctions, etc.) et le
prototype d’une base de données des noms propres est de 1.384 entrées. Ces deux types
d’entrées comportent leurs propres jeux de spécificateurs morphosyntaxiques [Dic et al,
08].
La version actuelle (DIINAR1) a été retirée du catalogue, elle est remplacée par une
version DIINAR2 en 2010 [Web 1,11].
2. L’analyseur morphologique ASVM :
L’analyseur ASVM de Mona Diab est un logiciel libre, développé en Perl par l’équipe de
Mona à l’université de Leland Stanford Junior en 2004. Il s’agit d’une adaptation à l’arabe
du système anglais YamCha basé sur les Support Vector Machines. Les données
probabilistes ont été acquises pendant une phase d’entrainement sur le corpus annoté
Arabic TreeBank [Bou, 08].
L'équipe de Diab développa des outils pour les analyses morphologiques arabes dont
l’apprentissage des mots, la lemmatisation, l’assignement de syntaxe et la segmentation de
phrase sont désignés par l’utilisation de SVM (support vector machine). Cet outil fut
entrainé sur la base de TreeBank, dont la partie de la base AFP (Agence France Presse) fut
traitée par l’analyseur morphologique de Buckwalter.
Les résultats obtenus était très
encourageantes; près de 99% de mots corrects et 95.49% de syntaxes correctes.
3. L’analyseur morphologique de Buckwalter :
L’analyseur morphologique de Tim Buckwalter est différent par rapport à d’autres
algorithmes, en donnant en sortie un lemme et non pas une racine [Mou, 08]. Il est basé sur
un ensemble de dictionnaires de préfixes (299 entrées), suffixes (618 entrées), lemmes
(82,158 entrées) construits manuellement. Les lexiques sont complétés par trois tables de
compatibilité entre les : préfixes-suffixes (1648 entrées), préfixes-stem (1285 entrées) et
suffixes-stem (598 entrées) pour indiquer leurs combinaisons correcte et bien gérer les
30
Chapitre II
Méthodes d’analyse du texte arabe
analyses. Il considère que le lemme est une forme de base et produit des informations sur les
racines, et inclut des marques de voyelles brèves et des signes diacritiques en plus du
glossaire anglais et l’étiqueteur grammatical.
L'analyseur est développé par LDC (Linguistic Data Consortium) et est téléchargeable à
partir de son site à l’adresse http://www.nongnu.org/aramorph/french/, il utilise son étiqueteur
de Penn Arabic Treebank, et le Prague Arabic Dependency Treebank. Il est le plus célèbre
parmi les analyseurs arabes et est considéré comme la ressource lexicale la plus respectable
dans son genre.
Le texte en entrée doit être translittéré en ASCII avant tout traitement avec le système de
translitération de Buckwalter, et le résultat doit être reconverti en Arabe pour que ça soit
compréhensible, il permet de segmenter chaque unité lexicale en une séquence du type
préfixe-stem-suffixe. Le préfixe est une combinaison de 0 à 4 caractères, le suffixe est
composé de 0 à 6 caractères et le stem comprend un ou plusieurs caractères.
La première version de Buckwalter avait été programmée en langage Perl, avant que
Brihaye développe en 2003 AraMorph, une version sous Java. AraMorph est un package de
classes Java pour la lemmatisation des mots arabes basé sur l’analyse morphologique de
Buckwalter, il propose plusieurs solution pour chaque mot.
Ses avantages sont :
 extensibilité pour développer de nouvelles applications selon le besoin.
 Chaque mot est un entrée manuelle, après chaque entré, toute les formes qui ont la
même désignation que l’entré à différents niveaux sont listés.
 Adéquation parfaite avec la langue Arabe.
 L‘existence d‘une telle plateforme ouverte, offrant les bases d’intégration des solutions
de traitement de la langue arabe, est à notre sens une voie efficace pour la
standardisation, l'optimisation des efforts, la collaboration et l‘accélération des
développements dans le domaine.
Ses inconvénients sont :

Ce système ne permet pas l’analyse des textes contenant des chiffres 0..9 ou bien des
marques de numérotation parce qu’elle a désigné par des lettres dans ces bases.

La difficulté de mélangé l’abjad arabe avec les lettres latin.
31
Méthodes d’analyse du texte arabe
Chapitre II

Une deuxième version d’AraMorph existe mais elle n’est pas téléchargeable. Elle a été
développée entre 2004 au 2006, et inclut des dictionnaires plus riches.
4. L’analyseur morphologique BBw:
Brahmi a développé un autre analyseur nommé Brahmi-BuckWalter (BBw) basé sur le
lemme déduit de l'analyse morphologique de Buckwalter. L'apport de BBw réside dans les
deux phases de pré/post-Buckwalter. Il procède par un prétraitement de normalisation du texte
en entrée avant de les analyser morphologiquement. Le post-traitement consiste à définir des
critères de sélection du lemme approprié pour l'indexation du texte [Bra, 11].
Dans cette deuxième étape, trois cas peuvent exister :

Une solution unique est attribué au mot analysé auquel est associé a un schème
spécifique.

Des solutions multiples sont trouvées correspondantes à plusieurs schèmes et entrées
du
lexique. BBw traite toutes les solutions proposées comme un ensemble de
solutions uniques séparées et garde tous les stem-lemme non vocalisés

Aucune solution trouvée pour le mot; dans ce cas différentes raison peuvent exister :
o L’entrée est erronée et ne correspond à aucun lemme.
o L’entrée correspond à un nom propre et ne possède aucune entrée dans le
dictionnaire.
o L’entrée est un mot arabe correcte mais il n’existe pas dans le dictionnaire de
Buckwalter, dans ce cas l’entré est considérée comme une solution à ajouter
comme un nouveau mot au dictionnaire [Bra, 11].
5. L’analyseur morphologique d’AL-Khalil:
L’analyseur morphologique d’Al-Khalil est un fruit de coopération entre l’organisation
arabe pour l’éducation et culture et science au Saudia et l’université du premier Mohamed au
Maroc. C’est le deuxième logiciel gratuitement téléchargé après l’analyseur de Buckwalter
mais il est plus profond avec l’extraction des racines et des schèmes d’un lexème tout en
gérant les entrées et les sorties en deux langues anglaise et arabe.
Al-Khalil analyse le mot arabe aux composants principaux comme : la racine, le schème et
le lemme ainsi les préfixes et les suffixes, la vocalisation de mot et le type. La priorité qui est
utilisé pour sortir des résultats associés au type de mot est définie d’une façon algorithmique
[Kha, 10]. Il est développé sous java et produit des résultats comme dans (Figure II-2).
32
Méthodes d’analyse du texte arabe
Chapitre II
Figure II.2 : exemplaire d’un résultat d’analyse de mots hada par Al-Khalil
IV.
La lemmatisation légère (light stemming):
La lemmatisation légère est un processus de suppression des antéfixes d’un mot, et la
réduction des mots à ces tiges ou stem pour les utiliser dans la compression, la segmentation
de la parole, la recherche d’information, et les analyses du texte.
1. Light-stemming de Larkey:
Les Light-stemmers de Larkey consistaient à enlever un petit nombre de préfixes et de
suffixes sans toucher les infixes pour reconnaitre la forme et trouver le stem [Lar et al, 06].
L'équipe de Larkey avaient développé plusieurs versions de light-stemmer suivant des listes
des préfixes et des suffixes à supprimer (voir Tableau II-1, mais avant toute suppression, il
faut normaliser les corpus et les requêtes pour faciliter le traitement des mots [Lar et al,03].
Light 1
Light 2
Light 3
Light 8
Light 10
Suppression de préfixes
‫ فال‬، ‫ كال‬، ‫ تال‬، ‫ َال‬، ‫ال‬
َ،‫ فال‬، ‫ كال‬، ‫ تال‬، ‫ َال‬، ‫ال‬
َ،‫ فال‬، ‫ كال‬، ‫ تال‬، ‫ َال‬، ‫ال‬
َ،‫ فال‬، ‫ كال‬، ‫ تال‬، ‫ َال‬، ‫ال‬
‫لل‬،َ،‫ فال‬، ‫ كال‬، ‫ تال‬، ‫ َال‬، ‫ال‬
Suppression de suffixes
Aucun suffixe à supprimer
Aucun suffixe à supprimer
‫ة‬،‫ي‬
‫ي‬،‫ية‬،ً‫ي‬،‫يه‬،‫َن‬،‫ات‬،‫ان‬،‫ٌا‬،‫ة‬،‫ي‬
‫ي‬،‫ية‬،ً‫ي‬،‫يه‬،‫َن‬،‫ات‬،‫ان‬،‫ٌا‬،‫ة‬،‫ي‬
Tableau II.1 : Les chaines enlevées par light stemming en arabe
33
Méthodes d’analyse du texte arabe
Chapitre II
Ces versions ont été testées en recherche d’informations sur le corpus TREC-2001, aussi
nommé AFP-ARB contenant 383,872 articles arabes. La figure II-3 montre les résultats de
cette comparaison selon les métriques d’évaluation (précision et rappel) [Lark et al, 02].
Figure II.3 : La comparaison entre les méthodes de light-stemming de Larkey.
L'avantage principale de cette approche réside dans la facilité de réalisation et la vitesse
d’exécution avec minimisation d’espace mémoire.
Nous retenons pour notre implémentation de test la version Light-10. La méthode se
résume par les étapes suivantes :

Normaliser le mot en entrée comme suit :
Supprimer les ponctuations
Supprimer les diacritiques courtes
Supprimer les caractères qui ne sont pas des lettres arabes
Remplacer les lettres ( ‫ آ‬, ‫ أ‬, ‫ ) إ‬par la lettre ( ‫)ا‬.
Remplacer la dernière lettre ِ par la lettre ‫ي‬.
Remplacer la dernière lettre ‫ ة‬par la lettre ‫ي‬.

Supprimer la lettre waw si la longueur de mot dépasse trois lettres

Supprimer l’article de définition ‘‫ ’ال‬si la longueur de mot dépasse deux lettres

Supprimer les suffixes indiqués dans le tableau 1 si la longueur de mot dépasse deux
lettres
34
Méthodes d’analyse du texte arabe
Chapitre II

Supprimer les préfixes montrés dans le tableau 1 si la longueur de mot dépasse deux
lettres.
2. Lemmatisation effective à base linguistique (Effective stemming) :
Kadri et al. avaient proposé une nouvelle technique de lemmatisation arabe pour
déterminer le lemme d’un mot arabe. Cette approche s'inspire de la composition des mots
arabes qui sont habituellement formés d'une séquence de {antéfixe, préfixe, noyau, suffixe,
postfixe}. Elle essai se remédier aux insuffisances du light-stemming de Larkey : par exemple
les mots ‫ تسحان‬،‫ َلدان‬contient la même terminaison ‫ ان‬qui est réellement un suffixe pour l'un
mais pas pour l'autre. Les auteurs avaient proposés une bonne stratégie de lemmatisation
basée sur l'indexation des mots par leur noyau, et ces index vont encoder la sémantique de
base dans la langue arabe.
Une première approche tente de tronquer les antéfixes d’un mot indiqué dans le tableau 2
de différentes façons et de comparer les résultats avec les mots de la collection, et garder
seulement le lemme le plus fréquent dans la collection. Cette méthode choisit généralement
les formes des mots non lemmatisées parce que ces formes sont plus fréquentes que les
lemmes ou les racines dans la collection [Kad et al, 06].
Une deuxième approche plus efficace essaye de construire d'abord un lexique de tous les
lemmes possibles pour tous les mots de la collection. Pour ce faire, chaque mot de la
collection subit différentes décompositions pour obtenir tous les lemmes possibles pour ce
mot. Ainsi pour tous les mots, nous construisons un corpus de lemmes avec leurs fréquences
d'occurrence dans la collection. Quand un mot est soumis à la lemmatisation, nous générons
un ensemble de lemmes candidats pour ce mot; ensuite nous choisissons le lemme le plus
fréquent dans la collection [Kad, 08].
Antéfixes
Préfixes
‫َلل‬،‫كال‬،‫فال‬،‫تال‬،‫َتال‬،‫ت َال‬،‫ي‬،‫ن‬،‫ا‬
،‫فس‬،‫لل‬،‫َل‬،‫َب‬،‫ال‬،‫فة‬
‫ل‬،‫ب‬،َ،‫ف‬،‫ك‬،‫َس‬،‫فل‬
Suffixes
Postfixe
،‫َن‬،‫ان‬،‫ات‬،‫جان‬،‫جيه‬،‫يُن‬،‫ جما‬،‫ٌا‬،‫جي‬،‫ٌه‬،‫كه‬،‫ٌما‬،‫كما‬
َ،‫ي‬،‫ا‬،‫ن‬،‫ت‬،‫وا‬،‫جه‬،‫جم‬،‫جا‬،‫َا‬،‫ي يه‬،‫ي‬،‫ك‬،‫كم‬،‫ٌم‬،‫وا‬
Tableau II.2 : Les chaines enlevées par la lemmatisation effective
35
Méthodes d’analyse du texte arabe
Chapitre II
3. La lemmatisation légère de Chen :
Aitao Chen, Fredric Gey avaient introduit un Light-stemmer similaire à Light-10, mais
avec des listes d'affixes plus riches. C’est une méthode effective identifie deux listes : une
pour les suffixes et une pour les préfixes qui devrait être enlevés en se basant sur leur
fonctions grammaticales et leur fréquence [Che et al, 03].
La fréquence pour un suffixe donné est comptée par le nombre de mots arabes qui ont
terminés par ce suffixe. Ils avaient identifié :
-
9 préfixes de trois lettres et 14 de deux lettres et 3 d’une seule,
-
18 suffixes de deux lettres, 4 d’une seule lettre.
Ces listes devraient être enlevées dans le processus de lemmatisation appliqué
récursivement [Che et al, 03].
4. La lemmatisation sans dictionnaire des racines (ISRI) :
ISRI (The Information Science Research Institute), est un lemmatiseur léger arabe à
plusieurs caractéristiques issues de l’analyseur de Khoja mais celui-ci n’utilise pas le
dictionnaire des racines mais un ensemble des schèmes (voir Tableau II-4). Avec un ensemble
de marques diacritiques et un ensemble des antéfixes à enlever, l’algorithme général peut être
décrit comme suit [Kaz et al, 03]:
Pour chaque mot W :
1. Supprimer les diacritiques
2. Normaliser les lettres ( ‫ ؤ‬, ‫ ئ‬, ‫ ) ء‬par la lettre ‫ أ‬.
3. Supprimer les préfixes de longueur 3 et de longueur 2 dans cet ordre.
4. Si les deux lettres initiales de mot W sont ََ alors supprimer le connecteur initiale َ.
5. Normaliser si nécessaire les lettres initial ( ‫ آ‬, ‫ أ‬, ‫ ) إ‬par la lettre ‫ا‬.
6. Retourner la racine si la longueur du mot est inferieure ou égale à trois lettres.
7. Si aucun résultat, tenter de trouver la racine selon quatre cas :
a. Si la longueur du mot trouvé est égale à 4 et sa forme correspondant aux schèmes
de forme PR4 (voir
tableau II-3) alors extraire la racine approprié.
Sinon
supprimer les suffixes et les préfixes de longueur 1 de S1 et P1 dans cet ordre, à
condition que le mot ne soit pas inférieur à longueur de trois et retourner la racine.
b. Si la longueur du mot trouvé est égale à 5 et sa forme correspondant aux schèmes
de forme PR5 alors extraire la racine trilitère de ce mot. si aucune n'est adaptée,
36
Méthodes d’analyse du texte arabe
Chapitre II
essayer de retirer les suffixes et les préfixes et retourner la racine trilittère. Si la
longueur du mot est encore de cinq caractères, comparer le avec les schèmes de
PR54 et retourner la racine de longueur quatre si elle est trouvé.
c. Si la longueur de mot est égale à 6 alors extraire la racine trilitère si son forme est
associé aux schèmes de forme PR63. Dans le cas contraire, supprimer les suffixes.
Si un suffixe est éliminé et la longueur du terme résultant est de cinq caractères,
envoyer ce terme à l'étape précédente 7b.si aucun résultat alors supprimer les
préfixes de longueur 1, et en cas de succès,
retourner le mot a
l’étape
précédente7b. Si la longueur du mot est encore de six caractères, comparer le
avec les schèmes de PR64 et retourner la racine de longueur quatre si elle est
trouvé.
d. Si la longueur de mot est égale à 7 alors tente de supprimer les suffixes de
longueur 1 et envoyer le terme résultant à l'étape précédente 7c. Si aucun résultat
alors supprimer les préfixes de longueur 1 et retourner le mot à l’étape 7c.
Pour les tests de comparaison dans notre travail, nous implémenterons l'algorithme ISRI.
Le
type
l’ensemble
Diacritiques
Préfixes
Suffixes
de
Description
P3
P2
P1
S1
S2
Les
diacritiques
de
vocalisation
Les préfixes de longueur 3
Les préfixes de longueur 2
Les préfixes de longueur 1
Les suffixes de longueur 3
Les suffixes de longueur 2
S3
Les suffixes de longueur 1
Leur contenu proposé
ّ ٍ ٌ ً ْ ُ ِ ََ
‫َلل َال كال تال‬
‫ال‬
‫لل‬
‫ ل‬,‫ ب‬,‫ س‬,َ ,‫ ف‬, ‫ ي‬, ‫ ت‬, ‫ن‬,‫ا‬
‫جمل‬, ‫ ٌمل‬, ‫ جان‬, ‫ جيه‬, ‫كمل‬
‫َن‬, ‫ ات‬, ‫ ان‬, ‫ يه‬, ‫ جه‬, ‫ كم‬, ‫ ٌه‬,‫ وا‬,
‫يا‬, ‫ ٌا‬, ‫ جم‬, ‫ جه‬, ‫ وي‬, ‫ َا‬, ‫ ما‬, ‫ٌم‬
‫ة‬, ‫ ي‬, ‫ي‬, ‫ك‬,‫ ت‬,‫ ا‬,‫ن‬
Tableau II.3 : Les ensembles des antéfixes proposé par ISRI
37
Méthodes d’analyse du texte arabe
Chapitre II
Le type de Description
l’ensemble
PR4
Les schèmes de longueur 4
PR53
Les schèmes de longueur 5
et racine de longueur 3
PR54
Les schèmes de longueur 5
et racine de longueur 4
Les schèmes de longueur 6
et racine de longueur 3
Les schèmes de longueur 6
et racine de longueur 4
PR63
PR64
Leur contenu proposé
‫فاعل فعُل فعلة فعال فعيل مفعل‬
‫جفاعل افحعل افعال افاعل فعالة فعالن‬
‫فعُلة جفعلة جفعيل مفعلة مفعُل‬
‫فاعُل فُاعل مفعال مفعيل افعلة‬
‫فعائل مىفعل مفحعل فاعلة مفاعل‬
‫فمالع يفحعل جفحعل فعالي اوفعل‬
‫جفعلل افعلل مفعلل فعللة فعالن‬
‫فعالل‬
‫اسحفعل مفعالة افحعال افعُعل اوفعال‬
‫مسحفعل‬
‫افحعلل افعالل محفعلل‬
Tableau II.4 : Les schèmes et leurs racines proposé par ISRI
5. Le lemmatiseur léger ANEA : ANEW ENHANCED APPROACH
Partant de l'analyse des analyseurs proposés lors de la conférence TREC-2002, Les auteurs
proposèrent deux approches principales : La première (SP) traite l’ensemble des affixes
prédéfinis de TREC. La deuxième approche (SPS) consiste à enlever un suffixe après
l’application de l’approche SP. Ces deux approches principales sont distribuées sur 6
algorithmes selon les étapes de traitement des préfixes et des suffixes [Hay et al, 05]. Dans
les listes des préfixes, des nouveaux termes sont ajoutés, ils incluent un seul préfixe de 4
lettres et 13 préfixes de trois lettres, 17 préfixes de deux lettres et 3 préfixes d’une seule lettre,
par contre Les listes des suffixes contiennent 20 suffixes de deux lettres et 8 suffixes d’une
seule lettre. Chaque algorithme est détaillé comme suit :
1. Suffixe-préfixe SP :

Supprimer les ponctuations

Supprimer les diacritiques

Tant qu'il existe des suffixes, supprimer-les récursivement en débutant de gauche à
droite.

Supprimer les préfixes non récursivement en débutant du plus à droite.
2. Suffixe-Préfixe-Suffixe SPS :

Supprime un suffixe de plus grand longueur en choisissant de droite à gauche.

Supprimer un préfixe de plus grand longueur en débutant du plus à droite.

S’il reste un autre suffixe supprimer-le, en procédant par le plus long et de droite à
gauche.
38
Méthodes d’analyse du texte arabe
Chapitre II
3. Suffixe-Préfixe sans Alef-Lam SPWOAL :

Supprimer le déterminant ‘‫’ال‬.

Tant qu’il existe des suffixes, supprimer-les récursivement de gauche à droite.

Supprimer les préfixes non récursivement en débutant du plus à droite.
4. Suffixe-Préfixe-Suffixe sans Alef-Lam SPSWOAL :

Supprimer le déterminant ‘‫’ال‬.

Supprime un suffixe de plus grand longueur en choisissant de droite à gauche.

Supprimer un préfixe de plus grand longueur en débutant du plus à droite.

S’il reste un autre suffixe supprimer-le, en procédant par le plus long et de droite à
gauche.
5. Suffixe-Préfixe avec Alef-Lam SPAL :

Aucune normalisation des mots.

Tant qu’il existe des suffixes, supprimer-les récursivement de gauche à droite.

Supprimer les préfixes non récursivement en débutant de plus droite à gauche.
6. Suffixe-Préfixe-Suffixe avec Alef-Lam SPSAL :

Aucune normalisation des mots.

Supprimer le suffixe le plus long en procédant de droite à gauche.

Supprimer un préfixe le plus long en débutant de plus droite à gauche.

S’il reste un autre suffixe supprimer-le, en procédant par le plus long et de droite à
gauche.
Préfixe 1
‫ي ن ت‬
Les préfixes proposés
Préfixe 2
Préfixe 3
‫ال لل سي سا‬
‫َال تال َال فال‬
‫سث سه كا فا‬
‫كال َلل َسي‬
‫تا تل لي لث له‬
‫َسث َسه َسا‬
‫فث في فه‬
‫َلي َلث َله‬
Préfixe 4
‫َتال‬
Les suffixes proposés
Suffixe 1
Suffixe 2
َ ‫ان يه َن ات ي ة ك‬
‫ٌم ٌه ٌا كم ي ن ا‬
‫ت‬
‫كه وا َا جم‬
ً‫وي جه جً ي‬
‫ما يا جا جك‬
Tableau II.5 : Les chaines de préfixes et de suffixes proposé par ANEA
V.
Les méthodes statistiques :
L'approche statistique est très utile dans les algorithmes d’extraction des racines ou de
lexèmes des mots. Son principe est fondé sur le calcul des fréquences des mots et les antéfixes
en se basant sur les mesures de similarité. Parmi ses modèles appliqués pour l’analyse
morphologique de l’arabe, on trouve : les modèles de n-grammes et les modèles de n-classes.
39
Chapitre II
Méthodes d’analyse du texte arabe
Certains algorithmes sont basés sur la technique de choix du plus fréquent des racines ou
des antéfixes, d’autres considèrent que les terminaisons les plus fréquentes des mots sont des
antéfixes, mais ces algorithmes ne donnent pas souvent le bon résultat parce que la dérivation
des mots arabes n'est pas toujours basés sur l’ajout des antéfixes.
a. Les méthodes n-grams :
Un n-gramme est une sous-séquence de n éléments construite à partir d'une séquence
donnée. L'idée semble provenir des travaux de Claude Shannon en théorie de l'information en
1948. Son idée était qu’à partir d'une séquence de lettres données (par exemple "par
exemple") il est possible d'obtenir la fonction de vraisemblance de l'apparition de la lettre
suivante. À partir d'un corpus d'apprentissage, il est facile de construire une distribution de
probabilité pour la prochaine lettre avec un historique de taille n. Cette modélisation
correspond en fait à un modèle de Markov d'ordre n où seules les n dernières observations
sont utilisés pour la prédiction de la lettre suivante. Ainsi un bi-gramme est un modèle de
Markov d'ordre 2 [Web 1,11] .
Un n-gramme est une séquence de n caractères consécutifs. Pour un document quelconque,
l’ensemble des n-grammes (en général n prend les valeurs 2 ou 3) qu’on peut générer est le
résultat qu’on obtient en déplaçant une fenêtre de n cases sur le corps de texte. Ce
déplacement se fait par étapes, une étape correspond à un caractère, ensuite on compte les
fréquences des n-grammes trouvés. Par exemple la phrase "La nourrice nourrit le nourrisson"
se représente par 3-grammes : [la_=1, a_n=1, _no=3, nou=3, our=3, urr=3, rri=3, ric=1, ice=1,
_ce=1, e_n=2, rit=1, it_=1, t_l=1, _le=1, le_=1, ris=1, iss=1, sso=1, son=1] [Jal et al, 02].
N-Grams de McNamee :
McNamee utilise les n-grammes de longueurs multiples (3, 4, 5, 6) pour indexer les mots.
Un mot est indexé par plusieurs de ses n-grammes possibles [Lar et al, 06]. Par exemple, si
on tente d'indexer le mot ‫تىحٍم‬. (Leur fille) par ses 3-grammes, le résultat serait : ‫تىث‬,ً‫ وح‬, ‫جٍم‬
Avec cette méthode, malgré qu'on arrive toujours à identifier les bons index, d'autres index
erronés peuvent s'infiltrer. Dans l'exemple du mot précédent ‫ تىحٍم‬, le bon index ‫( تىث‬fille) est
identifié, mais un autre index erroné ‫( جٍم‬accusations) est introduit. Le résultat de cet index
erroné est qu'un système de RI appliquant une lemmatisation n-grammes retourne beaucoup
de documents qui ne sont pas forcément pertinents et la précision sera pénalisée. L'autre
inconvénient de cette méthode est la production d'un fichier d'index de taille exorbitante. Par
40
Chapitre II
Méthodes d’analyse du texte arabe
exemple, pour indexer la collection TREC de 383 872 textes, on crée un fichier d'index d'une
capacité de 441 MB en utilisant les 3-grammes et de 1,691 MB en utilisant les 6-grammes
[kad, 08].
b. Les méthodes de n-classes :
Il est possible de regrouper les mots en classes pour trouver une méthode maximisant la
quantité d'information utile. En effet, si l'on prend l'exemple d'un nom commun masculin
singulier, sa probabilité d'apparaître après la préposition un est la même que celle d'un autre
nom commun identique en genre et en nombre. Cependant, ces classes ne sont pas forcément
de type syntaxique (nom commun, verbe, préposition, etc.), elles peuvent être d'autre nature,
par exemple des classes obtenues avec des méthodes de classification automatique. Les
modèles obtenus avec cette approche se nomment modèles n-classes 2 [Vau, 02].
Dans le cas de certains mots, il est très difficile de déduire à coup sûr quelle est la classe
d'un mot en fonction d'un historique de taille réduite. Pour cela, les modèles POS (Part Of
Speech), utilisent, pour le calcul de score d'apparition d'un mot, la moyenne des probabilités
conditionnelles d'apparition de ce mot dans cette position, dans chacune de ses classes
d'appartenance. Les modèles morphologiques sont une extension de ce modèle POS. Ils
incluent aussi les probabilités de la suite des lemmes, déduits des mots, dans la séquence
[Vau, 02].
Pour la n-classe en arabe, la classification des mots par le filtrage de mot est passée après
le calcul de mesure de similarité morphologique des mots pour trouver les classes qui
contient les mêmes racines, et ils ont appliqués cette méthode après l’élimination des voyelles,
préfixes et des suffixes.
1. Les n-classes de Fares :
Al-Fares et DeRoek utilisent n-classe sur les mots arabes pour trouver les classes des mots
qui ont la même racine, leur classification est fondée sur la similarité morphologique
appliquée après la suppression d’un nombre inférieur de préfixes et de suffixes remarquables.
La classification basés sur la racine peut substituer les dictionnaires dans l’indexation de
recherche d’information, Les auteurs ont évalué un nouvel algorithme (variante de
l’algorithme d’Adamson et Boreham, 1974) : Ils opèrent à deux niveaux : l’application de
41
Chapitre II
Méthodes d’analyse du texte arabe
light stemming, et la mesure de similarité des mots pairs utilisant une
technique
correspondant à la morphologie arabe et une mesure d’Adamson modifiée [ROEK et al, 05].
Ils ont retenu le bi-gramme par un dépassement d’un seul caractère, mais l’insertion des
limites blanches entre les mots rend les bi-grammes uniques isolés. Ils ont assigné un poids de
0.25 pour les mots qui contiennent des voyelles longues dans ces antéfixes, 0.5 pour les mots
qui ne contiennent pas, 1 pour le reste [ROEK et al, 05]. Les mots qui ont été dérivés de la
même racine sont reliés sémantiquement, la classification peut implémenter comme une
dimension d’index et évaluée dynamiquement par le texte et sans maintenance spécifique. La
méthode a été appliquée sur le texte de l’arabe moderne sans signes diacritiques.
L’incertitude de classification basée sur la racine, donne des racines équivalentes dans
leurs consones avec l’utilisation de l’algorithme d’Adamson et sa mesure :
SC (Dice) = 2*(nombre de n-grams unique partager) / (somme de n-grams unique)
Il est à noter que si le SC est trop élevé alors la classification est terminée, sinon c'est que
les mots se ressemblent et doivent être groupés dans la même classe. La mesure est évaluée
dans cet algorithme comme suit :
SC (Jac) =
n-grams unique partager / (somme de n-grams unique dans chaque chaine partager).
Les tests ont donné un taux de performance de 94.06% sur un échantillon de texte arabe, mais
leur limite est reliée au développement de light stemming [ROEK et al, 05].
2. Les n-classes par MTA de Chen et Gey :
Chen et Gey avaient proposés un lemmatiseur arabe basé sur les classes de mots groupés
selon leur traduction lemmatisée en anglais. Ils avaient appliqué la traduction automatique du
mot arabe vers l'anglais par le système Ajeeb [Che et al, 03].Après la suppression des mots
fonctionnels, les mots arabes, dont la traduction anglaise dérive de la même racine, avaient été
groupés dans la même classe. La racine la plus probable est le plus court mot dans la classe,
c’est une classification indirecte. Les adjectives et les verbes sont lemmatisé de la même
façon. Ce lemmatiseur est changé la forme pluriel de mot arabe à son forme singulier [Che et
al, 03].
42
Chapitre II
VI.
Méthodes d’analyse du texte arabe
Les Métriques d’évaluation de performance d’une méthode d’analyse:
Diverses mesures ont été introduites pour évaluer la performance d’un analyseur
morphologique et son efficacité incluant : la rapidité de algorithme (TCPU), la consommation
d’espace mémoire, le nombre de mots par classe fusionnée (WC), la compression des mots
pour l’indexation (ICF), l'index de sous-stemming (UI), l'index de sur-stemming (OI) et le
rapport entre ces deux métriques d’erreurs : le poids d’analyse (SW). Par ailleurs, une autre
approche consiste à évaluer la performance de la tâche utilisant le produit d'un lemmatiseur,
par exemple pour la recherche d’information on calcule la F-measure.
1. Temps d’exécution(TCPU) : Un lemmatiseur robuste doit exploiter l’unité de
contrôle et traitement en un temps faible, cette mesure est calculée sur tous les
documents du corpus à lemmatiser selon la formule suivante : TE/Nbre de documents
(secondes/document)
2. Consommation RAM(CRAM) : Un lemmatiseur robuste est évalué, comme tout
autre algorithme, par l'espace mémoire requis pour son fonctionnement.
3. Nombre de mot par une classe de fusionnement (WC): (words per conflation
class) :C’est la taille moyenne d’un groupe de mots fusionnés correctement à un stem
particulier. Par exemple si les mots : " ‫ " طفل‬, " ‫" أطفال‬, " ‫" طفُلة‬, sont lemmatisé
au stem " ‫" طفل‬, alors la taille de la classe de fusionnement est trois. Ainsi, Si le
fusionnement de 1000 mots différents résulte 250 stems distincts, alors le nombre de
mot par classe de fusionnement sera 4. Cette mesure est clairement dépendante du
nombre de mots traités, plus sa valeur soit élevée meilleure soit la performance du
lemmatiseur. Cette mesure peut être calculées comme suit :
MWC=N/S
N : Nombre de mots uniques avant la lemmatisation.
S : Nombre de stems uniques après la lemmatisation.
4. Facteur de compression d’index (ICF) :(Index Compression Factor)
Puisque la réduction de la taille du vocabulaire est l'un des principaux objectifs de
lemmatisation, la capacité de réduire la taille du corpus pour l’indexation est important. Le
facteur de compression d’Index (ICF) a été introduit comme une mesure capable d'évaluer les
analyseurs morphologiques et les performances de compression. ICF prend en compte
seulement la collection des mots compressés par le lemmatiseur, donc la plus haute valeur
d’ICF représente un lemmatiseur plus efficace :
43
Chapitre II
Méthodes d’analyse du texte arabe
ICF=(N-S)/N
N : Nombre de mots uniques avant la lemmatisation.
S : Nombre de stems uniques après la lemmatisation.
Si touts les mots sont lemmatisés à des stems totalement différents alors : N=S et ICF=0
donc pas de compression d’index.
5. Les erreurs de lemmatisation:
Un groupe-concept est un groupe de mots reliés morphologiquement et sémantiquement.
Ainsi, un lemmatiseur doit pouvoir produire le même stem pour les mots du même groupeconcept. Paice avait proposé de mesurer la performance d'un lemmatiseur en calculant les
erreurs de sur-stemming (OI) et de sous-stemming (UI) [Pai, 94] :

UI : Il s'agit des mots qui devraient être regroupés en même groupe, mais ne le sont
pas. Cela rend un concept unique réparti sur différents stems, ce qui tendra à diminuer
le rappel dans la recherche d’information (IR).

OI : Il s'agit des mots qui ne devraient pas être regroupés, mais le sont. Cela provoque
les significations des stems d'être étendue, ce qui affectera la précision en IR.
UI et OI sont calculés à l’aide de quatre paramètres :

DMT : total des fusions souhaitées : c’est le nombre de différentes paires de forme
d’un mot possible dans un groupe particulier : DMT = 0,5 ng ( ng -1 ) Ou : n : est le
nombre de mots dans ce groupe [Pai, 94].

DNT : total des non-fusions souhaitées : un lemmatiseur parfait ne doit pas fusionner
tout membre du groupe-concept actuel avec un mot d'un autre groupe. Ainsi, pour
chaque groupe, il ya un : DNTg = 0.5ng ( w – ng ) ou W : est le nombre total de mots.
Chaque équation contient un facteur 0,5 pour compenser le double comptage de paires au
cours de la sommation [Pai, 94].
En additionnant ces deux totaux sur tous les groupes de mot dans l’échantillon, nous
obtenons GDMT et GDNT.

UMT : Total de fusion inachevée: Après l'application d'un lemmatiseur à l’échantillon,
il est possible de trouver un certains groupes encore contenir deux ou plusieurs stems
distinctes. Dans ces groupes, il ya des erreurs under-stemrning à compter.
En supposant qu'un groupe-concept de taille ng contiennent des stems distincts après
lemmatisation, et que le nombre des instances de ces stems sont u1,u2,..u s , Le nombre
d'erreurs under-stemming pour le groupe «Total de fusion inachevée » UMTg ) est donné par
[Sham et al, 08] :
44
Méthodes d’analyse du texte arabe
Chapitre II
UMT =0.5
𝑖…𝑠 𝑢𝑖(𝑛𝑔
− 𝑢𝑖)
Additionnant cette quantité pour tous les groupes, nous obtenons GUMT ; under-stemming
Index est maintenant donnée par le rapport :
UI=GUMT / GDMT.

WMT : total d’erreur-fusionnée Global : Après lemmatisation, nous voulons aussi
trouver des cas où le même stem se produit dans deux ou plusieurs groupes de
concepts. La procédure ici est de rassembler tous les cas particuliers d’un stem en un
«groupe de stem », maintenant tout groupe de stems dont les membres sont issus de
deux ou plusieurs groupes de concepts différents contient over-stemming d’erreurs qui
doivent être comptés [Pai, 94].
Considérons un groupe de stem qui contient ns items qui sont dérivés de différents groupes
de concepts, et supposons que le nombre de représentants de ces groupes de concepts sont vl ,
v.2 , ... vt . Le nombre d'erreurs over-stemming pour ce groupe de stem est représenté par :
WMT = 0, .5
𝑖…𝑡
𝑣𝑖(𝑛𝑠 − 𝑣𝑖)
Additionnant cette quantité pour tous les groupes de stems, nous obtenons le «total global
d’erreurs fusionnées» GWMT ; L'index d'Over-stemming est maintenant donné par le
rapport :
OI=GWMT / GDNT
Le rapport de ces deux grandeurs peut donc être considéré comme une mesure de poids
d’analyse SW [Pai, 94] :
SW = OI / UI
Le lemmatiseur idéal doit être capable d’associer (groupe) les mots liés au même stem à
des UI et OI faibles. À ce stade, de petites augmentations de rappel sont obtenues au
détriment d'une perte importante de précision [Pai, 94].
VII.
Comparaison théorique entre les grandes classes de méthodes d’analyses :
Chacune des méthodes d’analyse morphologique de l'arabe, étudiées dans ce chapitre,
offrent des avantages mais aussi souffrent de certains inconvénients. Nous en résumons dans
ce qui suit les principales caractéristiques par classe de méthode:
45
Méthodes d’analyse du texte arabe
Chapitre II
Approche
Avantages
Inconvénients
Analyse
Morphologique
à base de
Dictionnaire
- Basée sur des listes établies
préalablement
- Sortie soit un lemme ou racine
- Traitant tous types des mots arabes
- Résultats précis
- Adéquate pour l’apprentissage
- Simple à implémenter
- Sortie soit stem (tige) ou racine
- Pas besoin de grandes listes
préalablement établies
- Facile à gérer
- Adéquate pour la recherche
d’information
- Faible espace mémoire
- Gourmande en espace mémoire
- Charge CPU élevée.
Lemmatisation
Légère
- Non adéquate à la recherche
d’information
- Résultats inexacts.
- Traitant seulement les préfixes
et les suffixes
- Pas besoin de grande
connaissance linguistique.
Analyse
Statistique
-Basé seulement sur les calcules et
la classification
- Simple à implémenter
- Pas besoin des grandes listes
préalablement établies
- Facile à gérer
- Difficulté de trouver des seuils
de calcul
- Résultats inexacts
- Erreurs élevées pour le surstemming et le sous-stemming
- Faible espace mémoire
Tableau II.7 : Les avantages et les inconvénients des méthodes d’analyse morphologique
VIII.
Conclusion :
Les méthodes de traitement automatique de la langue arabe sont en évolution incessante
notamment celles qui s’intéressent la morphologie des mots arabes. Ces déférentes méthodes
ont donné de bons résultats et moins bonne pour certaines, néanmoins les travaux investis
dans ce domaine ont contribué remarquablement au développement de la recherche
d’information en langue arabe. Quelques insuffisances restent à combler dans cet axe de
recherche surtout en ce qui concerne le traitement de pluriel irrégulier et les changements du
niveau phonologique dans la morphologie.
Le processus de recherche en langue arabe s’appuie non seulement sur le traitement
automatique de la langue arabe mais aussi sur le principe de l’indexation sémantique qui sera
exposé dans le chapitre suivant.
46
Chapitre III
L’Indexation Sémantique En RI
Chapitre III
I.
L’Indexation Sémantique En RI
Introduction :
La quantité d’information stockée au format électronique est en augmentation incessante,
il est devenu difficile de gérer les documents et de les exploiter. Il fait de plus en plus malaisé
de retrouver un ensemble d’information contenu dans un document, au sein d’une base de
documents appelé corpus. Cette difficulté est étroitement liée à la structuration de ces
documents et donc difficilement accessible voire identifiable.
Pour régler ce problème, un système de recherche d’information doit inclure deux
processus : un processus de représentation et un autre pour la recherche. Dans une première
étape, les documents et la requête sont représentés par des descripteurs regroupés pour
refléter au mieux le contenu des documents et construire un index ; cette étape est appelée
l’indexation, celle qui précède le processus de recherche.
II.
Indexation sémantique :
a. Place de la terminologie :
Un texte peut être vu comme une succession de mots. Un mot est reconnu comme étant
une succession de lettres, délimitées par des caractères de ponctuation, des espaces ou tout
autre séparateur. L’unité lexicale est un élément du vocabulaire de la langue, auquel sont
associées des règles syntaxiques de construction de phrase. Le terme est une unité lexicale
correspondant à une unité sémantique, il dénote une notion précise dont le terme est la
désignation d’un concept dans un contexte précis. Le concept est composé, au moins, d’un
mot, mais n’a pas de limite sur son nombre de mots ; par exemple, le terme «être vivants» se
compose de deux mots, mais représente un seul concept [Cat ,10]. La relation entre terme et
concept est une relation ambiguë. En effet, un concept peut être représenté par plusieurs
termes et un même terme suivant le contexte peut représenter des concepts différents. Pour
illustrer un peu cette ambiguïté, la table 1 représente les différentes relations entre les mots,
les termes et les concepts [Cat ,10].
Un traitement sémantique prend en compte la sémantique
du mot en plus de sa
morphologie. La sémantique est le sens qu’un être humain peut le comprendre de ce terme.
Donc le terme n’est pas une simple chaîne de caractères, mais aussi un sens associé grâce à
une ressource linguistique externe.
48
L’Indexation Sémantique En RI
Chapitre III
Relation
Mot
Terme
Concept
Homographie
Car
Car : conjonction de Introduit une explication
coordination
Car : nom masculin Grand automobile de transport
singulier
Synonymie
Cours
cours :
collectif, routier ou touristique
nom Enseignement diffusé dans un
masculin
Leçon
leçon :
domaine donné ou relatif à un
nom niveau scolaire précis
masculin singulier
Polysémie
Cours
Cours :
masculin
nom
Écoulement
continu
d'un
liquide, d'une rivière
Enseignement diffusé dans un
domaine donné ou relatif à un
niveau scolaire précis
Tableau III.1 : Quelques relations liant les mots, les termes et les concepts.
b. Définition :
L’indexation sémantique est une phase préliminaire de recherche d’information, elle
consiste à identifier chaque document par des concepts qui serviront de clés pour retrouver ce
document au sein d’une collection. Pour cela il faut tout d’abord une liste de concepts cibles
pour pouvoir transformer le mot en concept. Le choix des unités de représentation (appelées
aussi unités d’index ou descripteurs) du document est crucial, il influence sur la qualité de
l’indexation [GAS,10]. L’ensemble de ces unités constitue le vocabulaire d’indexation, ce
vocabulaire peut être libre ou contrôlé.
L’indexation est une analyse documentaire qui a pour objet de normaliser la codification
du contenu des documents et de produire une représentation réduite et formalisée.
Au sens informatique, l'indexation est la création d'un fichier inversé ou index
d'interrogation ordonnée des termes interrogeables assortis des références permettant de
retrouver l'information.
49
L’Indexation Sémantique En RI
Chapitre III
c. La différence entre descripteurs et mot clés :
Mot-clé : c’est le mot choisi dans le titre ou le texte d'un document, sans référence à un
lexique ou à un
thésaurus, caractérisant son contenu et permettant la recherche de ce
document.
Descripteur : est le mot ou groupe de mots retenus dans un thésaurus ou lexique de
référence, ils sont choisi parmi un ensemble de termes équivalents pour représenter sans
ambiguïté une notion contenue dans un document ou dans une demande de recherche
documentaire.
thesaurus
Pages web
Extraction
de terme
Formes bien
formés et
fréquences
pondérés
Génération
des concepts
candidats
Ontologie du domaine
Elaboration
de l’index
structuré
Index et leur
représentativité
Calcul de la
représentativité
des concepts
Index
structuré
Figure III.1 : Système d’indexation sémantique
d. Les langages d’indexation
1. Le langage libre
Le langage libre est un langage évolutif, proche de notre langue naturelle (LN). Son
vocabulaire est l’ensemble des éléments qui composent le langage, il est choisi à posteriori et
n’est pas limité par un contrôle. Le vocabulaire est donc composé de tous les descripteurs
choisis librement pour indexer les documents [GAS, 10]. Le langage libre n'est pas régi par
une syntaxe car aucune contrainte n'est spécifiée à priori. Par conséquent, le vocabulaire
50
Chapitre III
L’Indexation Sémantique En RI
évolue rapidement et peut contenir des synonymes, polysémiques etc. Ce qui entraîne des
incohérences et diminue les performances du système de recherche d’information [Cat ,10].
2. Le langage contrôlé
Le langage contrôlé ou langage documentaire est un langage normalisé, il sert à éviter les
problèmes d’ambiguïté (dû à l’homonymie et à la polysémie de certains termes) ainsi que les
problèmes de redondance (synonymie, etc.) du langage libre. Une liste de termes d'indexation
est définie ; cette liste appelée liste d'autorité, ainsi un terme d'indexation ne possède qu'un
seul sens et inversement un sens n'est associé qu'à un seul terme d'indexation donc les
descripteurs retenus seront les seuls mots clés acceptés lors de la requête [Cat ,10].
L’indexation en langage contrôlé réduit le nombre de représentations possibles d’un
document. Cela n’empêche pas l’indexation d’être subjective si elle est réalisée par un sujet
humain, même si les sens et les termes sont bien délimités.
e. Indexation manuelle et indexation automatique
L'indexation automatique et l'indexation humaine, aussi appelée indexation manuelle, se
différencient par l'agent mettant en œuvre le processus d'indexation des documents :
 Dans le cas d'une indexation humaine, c'est le documentaliste qui effectue l'analyse du
document, pour identifier son contenu et construire une représentation de ce contenu.
L'indexation manuelle est très souvent critiquée pour son coût. En effet, la personne
chargée de l'analyse des documents doit posséder les connaissances minimales à la
compréhension des centres d'intérêt du document, sous risque d'obtenir une indexation
incorrecte. Une autre caractéristique fréquemment soulignée de l'indexation humaine est
sa variabilité. En effet, même si l'indexation s'appuie sur un langage documentaire, des
descripteurs différents peuvent être proposés pour représenter un même document suivant
l'interprétation faite sur le contenu du document [Cat ,10].
Cette variabilité a été repérée aussi bien dans des situations où plusieurs personnes
indexaient que dans des situations où une même personne indexait un même document à
deux moments différents.
 Dans le cas d'une indexation automatique, c'est le système de recherche d'information
qui génère les index des documents. L’indexation automatique présente l'avantage d'une
régularité du processus, car elle fournit toujours le même index pour le même document,
ce qui constitue une qualité du système. En effet, l'indexation automatique est caractérisée
51
Chapitre III
L’Indexation Sémantique En RI
par son incapacité à interpréter un texte et son manque d'adaptation à de nouveaux
vocabulaires. Par exemple, si le système n'a aucune connaissance lui permettant de lever
les ambiguïtés des termes, il génèrera des erreurs d'interprétation du sens ce qui entraînera
des incohérences dans la base [Cat ,10]. L’indexation automatique est basée sur quatre
méthodes [Mus,05] :

des méthodes statistiques et probabilistes : pour sélectionner les termes d’index, ces
méthodes combinent les critères distributionnels (fréquence, cooccurrence de mots),
positionnels (la partie du document dans laquelle un mot apparaît : titre, corps du texte,
sommaire) et surtout quantitatif (longueur du texte considéré).

des méthodes linguistiques : lexicographiques et morphosyntaxiques. Ce sont les
techniques employées dans le traitement automatique des langues naturelles.

des méthodes informatiques (telles que : algorithmes de recherche, langages évolués
spécifiques, etc.) utilisées aussi bien dans le traitement automatique des langues qu’en
documentation automatique.
 L’indexation semi-automatique est une combinaison des deux méthodes précédentes
dont les indexeurs utilisent un vocabulaire contrôlé et le choix final des termes
d’indexation ce fait à partir de ce vocabulaire par un indexeur humain spécialiste du
domaine [Fat, 08].
III.
Les Ressources linguistiques
Indexer consiste donc à analyser le contenu d’un document et de le transcrire dans un
langage documentaire. Un langage documentaire est un langage contrôlé utilisé pour codifier
le contenu d’un document et constituer par des termes choisis pouvant appartenir au langage
naturel et par un système de relations entre ces termes, il se caractérise également par une
syntaxe en reprenant les règles de construction du langage [Dom, 11]. Il existe deux types :
(1) les langages à structure hiérarchique (classificatoires : Taxonomie et Ontologies), qui
utilisent des indices symboliques et, (2) les langages à structure combinatoires (thésaurus et
listes d’autorité), qui utilisent les mots du langage naturel [DEN, 03].
1. Liste d’autorité-matière
Une liste d'autorité est une liste présentant en ordre alphabétique un ensemble de termes
normalisés qui doivent être obligatoirement utilisés pour l'indexation. La liste contient
également l'ensemble des formes rejetées. Conçue comme un outil d'aide à l'indexation, pour
52
L’Indexation Sémantique En RI
Chapitre III
être efficace, ne doit pas contenir de termes polysémiques ou synonymiques. C’est une liste
encyclopédique dont les termes sont liés les uns aux autres par une syntaxe particulière. Elle
est avant tout conçue pour les bibliothèques dans un objectif de catalogage de leur fonds.
Le répertoire de vedettes-matière est un ensemble d'un ou plusieurs descripteurs (termes)
exprimant et précisant le sujet d'un document. Chaque vedette-matière correspond à un seul
sujet, simple ou complexe. Un même document peut avoir plusieurs sujets donnants lieux à la
rédaction de plusieurs vedettes-matières [TAR, 05].
2.
Thésaurus
Un thésaurus est une liste organisée de termes contrôlés et normalisés (descripteurs et nondescripteurs) servant à l’indexation des documents et des requêtes
dans un système
documentaire. Les termes sont reliés entre eux par des relations de synonymie
(terme
équivalent), de hiérarchie (terme générique et terme spécifique) et d'association
(terme
associé) [DEN, 03] ; chaque terme appartient à une catégorie ou domaine. Le thésaurus évite
ainsi les risques induits par les synonymies, les homonymies et les polysémies présentent
dans le langage naturel.
Le thésaurus est un outil d'indexation combinatoire à vocabulaire contrôlé, c'est-à-dire, les
termes qui le constituent sont sélectionnés et ne peuvent être modifiés, sauf lors des mises à
jour. C'est un langage post-coordonné car les descripteurs définissant les concepts peuvent
être combinés ou associés à posteriori lors de la recherche d'information.
Trois types de termes composent un thésaurus [Dom, 11] :

les descripteurs : il s'agit de l'ensemble des mots autorisés pour indexer ;

les non-descripteurs : Ils sont utilisés lors de la recherche.

les mots outils : ce sont des descripteurs qui ne peuvent être utilisés seuls, vu qu'ils
sont coordonnés avec au moins un autre descripteur.
Un thésaurus s'élabore, soit manuellement par la voie d'une ou plusieurs personnes, grâce
à une intelligence humaine, soit de manière automatique, par le biais de
l'intelligence
artificielle, grâce à des logiciels de construction automatique de thésaurus, soit
par un
mélange de l'approche humaine et automatique. Des systèmes de traitement automatique de
textes (indexation automatique) permettent l'extraction des termes les plus fréquents d'un
corpus et dans une certaine mesure facilitent l'émergence de leurs relations sémantiques.
Il existe trois méthodes de constitution d'un thésaurus :
53
L’Indexation Sémantique En RI
Chapitre III

analytique (à priori) : à partir des mots clefs de l'indexation ;

synthétique (à posteriori) : à partir de listes de mots-clés préétablies à l'aide de
dictionnaires, lexiques, glossaires etc.

mixte.
3. Taxonomie
La taxinomie est la science qui a pour finalité de décrire des objets et de les regrouper en
entités appelées taxons dans l'intention de les identifier puis les nommer, et enfin les classer.
Elle complète la systématique qui est la science qui organise le classement des taxons et leurs
relations.
Par extension, le mot taxinomie est utilisé pour désigner des systèmes ou des méthodes de
classification hiérarchiques permettant d'inventorier des objets, des concepts, des informations
d'un domaine donné selon les caractères qu'ils ont en commun, des plus généraux aux plus
particuliers en vue de : décider du comportement à adopter face à un objet donné, prédire le
comportement d’un objet et comprendre un phénomène dans l’objectif de pouvoir ensuite
agir [Dom, 11].
4. Les ontologies
Le terme «ontologie» couvre plusieurs champs de la science. En philosophie, l'ontologie
est la branche de la métaphysique concernant l'étude de l'être ; en médecine, l'ontologie
s'intéresse à la genèse des maladies; en informatique, une ontologie est un système de
représentation des connaissances [Dom, 11].
Le terme renvoie alors à la « théorie de l’existence », c’est-à-dire la théorie qui tente
d’expliquer les concepts qui existent dans le monde et comment ces concepts s’imbriquent et
s’organisent pour donner du sens.
Les ontologies permettent, d’une part de décrire les connaissances d’un domaine spécifique
et d’autre part de représenter des relations complexes entre les concepts, ainsi que des
axiomes et règles qui manquaient aux réseaux sémantiques.
On peut dire qu’il existe des relations entre ces quatre types des langages documentaires
représentées sous forme d’équations [Dom, 11] :

Cercle de synonymes +termes choisis = liste d’autorité
54
L’Indexation Sémantique En RI
Chapitre III

Liste d’autorité + Termes génériques/termes spécifiques = taxonomie

Taxonomie + Termes reliés = thésaurus

Thésaurus + Relations sémantiques entre les concepts = ontologie.
Les modèles d’indexation sémantique
IV.
Plusieurs modèles sont implémentés dans les systèmes de recherche d’information. On
présente les plus connus à savoir.
A. Les modèles classiques
1. Le modèle booléen
Le modèle booléen tire son nom des opérateurs booléens utilisés pour formuler une
requête. En effet, une requête est une formule logique, combinant des descripteurs et les
opérateurs : et, ou, non. Evidemment, les documents sont représentés par une liste de
descripteurs. Ces descripteurs peuvent appartenir à un langage libre ou contrôlé. Ils peuvent
être extraits automatiquement des documents ou choisis par des documentalistes. Les index
sont stockés dans un fichier inverse où, à chaque descripteur correspond la liste des
documents contenant ce descripteur dans leur index [Cat ,10]. La fonction de comparaison
retrouve les documents dont les index valident la formule logique de la requête. Donc la base
de documents est séparée en deux, les documents qui correspondent à la requête et ceux qui
ne correspondent pas. L’inconvénient majeur de ce modèle est l’absence d’ordonnancement
des documents résultants de la fonction de comparaison.
Ce modèle est le plus simple des modèles de RI, il repose sur l’algèbre de Boole. Un
document est représenté par une conjonction de termes (non pondérés) : d = t1
t2
…. tn.
Une requête est une expression logique de termes en utilisant les opérateurs AND ( ), OR (
) et NOT (¬), par exemple q = (t1
il faut que l’implication d
t2)
t3. Pour qu’un document corresponde à une requête,
q soit valide [HAR, 09].
La correspondance entre le terme et la requête est déterminée de la manière suivante [Zar
,10] :

corr(d,qi) = 1 si qi ∈ d

corr(d, q1
q2) = 1 si corr(d, q1) = 1 ET corr(d, q2) = 1 , 0 sinon.

corr(d, q1
q2) = 1 si corr(d,q1) = 1 OU corr(d, q2) = 1 , 0 sinon.

corr(d, ¬q1) = 1 si corr(d, q1) = 0 ; 0 sinon.
55
L’Indexation Sémantique En RI
Chapitre III
Les documents retournés par le système sont considérés à pertinence égale. La conjonction
est très contraignante et la disjonction très permissive. Les termes dans le document ou la
requête ont une pondération binaire (1 si présent et 0 si absent), il n’est pas possible
d’exprimer qu’un terme est plus important qu’un autre. De plus, la formulation booléenne des
requêtes complexes n’est pas évidente pour des utilisateurs non expérimentés.
Toutes ces raisons font que le modèle booléen standard est rarement utilisé de nos jours,
mais il existe leur extensions proposées pour corriger ses lacunes, parmi ces modèles le
modèle booléen pondéré ainsi que le modèle p-norme (qui combine le modèle vectoriel et le
modèle booléen) qui seront présenté brièvement dans la suite.
2. Le modèle vectoriel :
Le modèle vectoriel (VSM : Vector Space Model) est le fondement de très nombreux SRI.
Ce modèle représente un document ou une requête par un vecteur dans un espace de termes.
Les coordonnées des vecteurs sont les poids indiquant l’importance du descripteur par rapport
au document. L’ensemble des coordonnées des vecteurs est contenu dans une matrice.
Un document Di contient un ensemble de descripteurs Tk (T1,..,Tn) ou les descripteurs
peuvent être des mots simples ou complexes. A chaque descripteur est assignée une
pondération wi,k. Le document est alors représenté par un vecteur de poids des descripteurs
[Zar ,10] :
𝐷𝑖= (wi1, wi2,…,win)
La requête est aussi représentée par un vecteur de poids des termes recherchés :
𝑞= (q1; q2,…, qm)
Où qi représente le poids des termes recherchés par la requête. Ces termes recherchés
doivent correspondre à des descripteurs d’indexation [Zar ,10].
La fonction de comparaison
implémente les mesures de similarité entre vecteurs
(document et requête) ce qui permet de classer les résultats [Cat ,10]. Le schéma suivant
illustre cette méthode.
56
L’Indexation Sémantique En RI
Chapitre III
W13
D1
T3
D2
T2
W11
T1
W12
Figure III.2 : Représentation des documents dans un espace vectoriel des termes.
La matrice représentant ce corpus de deux documents s’appelle «matrice
terme-
document» et s’écrit de la manière suivante [Cat ,10] :
D1
D2
T1
w1, 1
w2, 1
T2
w1, 2
w2, 2
T3
w1, 3
w2, 3
Tableau III.2 : Matrice terme-document.
Le poids des termes est souvent calculer par l’un des méthodes illustré dans le tableau 3.
Pour chaque vecteur document un score est calculés en utilisant une mesure de
correspondance avec la requête, les documents sont ordonnés par rapport à ce score et sont
retournés par ordre décroissant de leur similarité. L’évaluation de la correspondance entre un
document et une requête peut être un simple calcul de produit scalaire [Zar ,10] :
produit =
𝑚
𝑖=1 𝑞𝑖
∗ 𝑤𝑖
La mesure la plus connue est le cosinus de l’angle des vecteurs qui donne une valeur
normalisée entre [0, 1] [Zar ,10] :
𝑐𝑜𝑠𝑖𝑛𝑢𝑠 𝑞, 𝑑 =
𝑞∗𝑑
𝑞 ∗ ||𝑑 ||
=
𝑚
𝑖=1 𝑞𝑖
𝑚
2
𝑖=1 𝑞𝑖
.
∗ 𝑤𝑖
𝑚
2
𝑖=1 𝑤𝑖
Où qi et wi représentent respectivement les poids des termes indexés dans la requête et le
document et
𝑚
2
𝑖=1 𝑞𝑖
𝑒𝑡
𝑚
2
𝑖=1 𝑤𝑖
sont les normes euclidiennes des vecteurs𝑑 et 𝑞.
Les avantages d’un tel modèle est le calcul de pertinence d’un document par rapport aux
poids de ses termes et ceux de la requête. Si un terme n’apparaît pas dans un document, la
57
L’Indexation Sémantique En RI
Chapitre III
pertinence de ce dernier par rapport à la requête en sera amoindrie. La principale limite est
que l’ajout d’un document oblige à recalculer tous les poids de ses termes.
Les coordonnées des vecteurs sont calculées à partir de la fréquence des mots dans les
documents par la formule TF IDF [Zar ,10].
TF : Une pondération locale qui détermine l’importance d’un terme dans un document.
IDF : Une pondération globale qui détermine la distribution du terme dans la base
documentaire. Elle est, généralement, représentée par l’inverse de la fréquence des documents
qui contiennent le terme. Plusieurs formules sont proposées pour le calcul du tf et idf.
Les différentes fonctions tf
Les différentes fonctions idf
Formule
Intervalle Formule
Intervalle
f(d; t)
[0, + ∞]
[1/|D| ,1]
f(d; t)/𝑚𝑎𝑥𝑡 f(d; 𝑡)
[0, 1]
log(1+𝑚𝑎𝑥𝑑 ,𝑡 f(d; 𝑡)/ df(t))
[log(2) ,log(1+cste)]
1/2+1/2 f(d; t)/𝑚𝑎𝑥𝑡 f(d; 𝑡)
[1/2, 1]
log(1+|D|/ df(t))
[log(2), log(|D| + 1)]
1+ log(f(d; t))
[0, + ∞]
Log(|D|/ df(t))
[0, log(|D|)]
1/df(t)
Tableau III.3 : Les différentes fonctions tf et idf
Avec :
f(d; t) : la fréquence du terme dans le document.
df(t) : le nombre de documents ayant au moins une occurrence du terme t.
Les fonctions tf dénotent une monotonie croissante et df une monotonie décroissante [Zar
,10].
3. Le modèle probabiliste :
Ce modèle, basé sur la théorie des probabilités, considère la recherche d’information
comme un espace d’évènements possibles. Un évènement peut être le jugement de pertinence
porté par l’utilisateur sur un document par rapport à une requête ou l’association d’un
descripteur à document.
Le but de ce modèle est de calculer la probabilité qu’un document soit pertinent par rapport
à la requête.
En utilisant le théorème de Bayes, les probabilités de pertinence (P(R\d)) et de non
pertinence (P(NR\d)) d’un document sont calculées par :
P(R\d) = (P(d\R)*P(R))/P(d)
58
L’Indexation Sémantique En RI
Chapitre III
P(NR\d) = (P(d\NR)*P(NR))/P(d)
Où : P(d\R) : la probabilité que d fasse partie de l’ensemble de documents pertinents.
P(d\NR) : la probabilité que d fasse partie de l’ensemble de documents non pertinents.
P(R) : la probabilité de pertinence d’un document quelconque du corpus.
P(NR) : la probabilité de non pertinence d’un document quelconque du corpus.
P(d) : la probabilité que le document d soit choisi.
La fonction de correspondance évalue la pertinence d’un document par rapport à la
requête :
P = P(R\d)/P(NR\d) ≈P(d\R)/P(d\NR)
Si on considère que : P(R) et P (d\NR) sont des constantes cela nous ramène à l’estimation
de P(djR) et P(djNR) et si on considère que les termes sont indépendants cela donne:
(P d\R) =
P(d\NR) =
𝑡 𝑖 ∈𝑑 𝑃(𝑡𝑖 \𝑅)
𝑡 𝑖 ∈𝑑 𝑃(𝑡𝑖 \𝑁𝑅)
Avec P(ti\R) (respectivement P(ti\NR)) la probabilité de l’apparition du terme t i dans un
document pertinent (respectivement non pertinent) [Zar ,10] .
Pour calculer ces probabilités, on peut procéder par échantillonnage, en choisissant deux
ensembles de documents pertinents ou non pertinents. Ils peuvent aussi être calculés pour
chaque terme en utilisant les retours arrière sur pertinence. Les poids sont modifies par rapport
à la distribution du terme dans les documents pertinents ou non pertinents [Zar ,10] .
Pour évaluer les différentes probabilités du système, il nous faut un jeu de données
initiales. Ces systèmes fonctionnent donc en deux étapes : Une première étape
d'apprentissage calcule les probabilités des évènements à partir d'un jeu de données. Une
seconde étape de test répond à une nouvelle requête. Les données nécessaires au calcul des
probabilités peuvent être :
1. La fréquence du mot dans le document,
2. Un ensemble de jugement de pertinence de documents par rapport à des requêtes,
généralement obtenues par retour de pertinence ou « relevance feedback » ce qui
permet de faire évoluer le système au cours de son utilisation,
3. Un corpus de documents préalablement indexés manuellement et un jeu de test
contenant des requêtes et leurs documents résultats, etc.
Ces systèmes sont utilisables autant pour l’indexation automatique que pour l'indexation
humaine, même si l'indexation automatique est la plus couramment utilisée dans ces
systèmes. En indexation automatique, la probabilité qu'un descripteur soit représentatif du
59
L’Indexation Sémantique En RI
Chapitre III
document est évaluée à partir d'un jeu de données. En indexation humaine, l'événement
d'attribution d'un descripteur à un document est connu donc sa probabilité d'apparition n'a pas
besoin d'être évaluée. Dans ce cas, la représentation des documents est une indexation à plat.
D'un autre point de vue, les systèmes de
type probabiliste peuvent autant utiliser une
indexation en langage contrôlé qu’en langage libre, tout dépend du jeu de données utilisé au
départ pour évaluer les probabilités [Cat ,10].
L’avantage du modèle probabiliste est l’amélioration dynamique des performances du
système, mais la mise à jour du système est très coûteuse.
4. Les modèles de langue (Le modèle N-gram)
Le modèle n-gram est un modèle de langue en linguistique informatique, il désigne une
fonction de probabilité P qui assigne une probabilité P(s) à un mot ou à une séquence de mots
s dans une langue. Une fois cette fonction définie, il est possible d’estimer la probabilité d’une
séquence de mots quelconque dans la langue, ou d’un point de vue générative, d’estimer la
probabilité de générer cette séquence de mots à partir du modèle de la langue. Considérons la
séquence s composée des mots suivants : t1, t2,…, tn. La probabilité P(s) peut être calculée
comme suit [Boug et al,03] :
P(s)= ∏ P(ti / t1…ti-1)
On utilise, dans ce cas, un modèle de langue n-gramme. En particulier, les modèles souvent
utilisés sont les modèles uni-gramme et bi-gramme comme suit :
Le modèle uni-gramme ne considère aucune interdépendance ni aucun ordre sur les termes
d’un texte.
P(s) = ∏ P(ti ) =p(t1)p(t2)….p(tn)
L’altération de cette hypothèse, en considérant une dépendance binaire entre chaque paire
de termes successifs, engendre une nouvelle formulation d’un autre modèle appelé le modèle
de langage bi-gramme :
P(s) = ∏ P (ti /ti-1) =p (t1)p(t2 /t1) p(t3 /t2)…. p(tn /tn-1) = ∏ P(ti-1 /ti) /p(ti-1)
Selon les fréquences d’occurrence d’un n-gramme O dans un corpus de textes C, sa
probabilité (O/C) peut être directement estimée comme suit :
60
L’Indexation Sémantique En RI
Chapitre III
P(O)=|O| / ∑OjɞC |Oj|=|O| / |C|
Où | O | est la fréquence d’occurrence du n-gramme α dans ce corpus, αi est un n-gramme
de la même longueur que α, et |C| est la taille du corpus (c’est-à-dire le nombre total
d’occurrences de mots). Ces estimations sont appelées les estimations de vraisemblance
maximale (Miximum Likelihood, ou ML). On désignera aussi ces estimations par PML.
4.a Lissage
Le principe de lissage peut être résumé ainsi : Au lieu de distribuer la totalité de masse de
probabilité sur les n-grammes vus dans le corpus d’entraînement, on enlève une partie de cette
masse et la redistribue aux n-grammes non vus dans le corpus. De cette façon, les n-grammes
absents du corpus vont recevoir une probabilité non-nulle.
Il y a une série de méthodes proposées dans la littérature. Ici, nous présentons quelquesunes.
4.b Lissage de Laplace
Le lissage de Laplace consiste à ajouter la fréquence 1 à tous les n-grammes. Cette
méthode est aussi appelée la méthode « ajouter-un ». Pour un n-gramme O, sa probabilité est
estimée comme suit (où V est l’ensemble du vocabulaire d’indexes) [Boug et al,03] :
P(O)=|O|+1 / ∑OjɞC (|Oj|+1)
On peut remarquer que cette méthode simple a un problème fatal : Si le corpus ne contient
qu’une petite portion des n-grammes parmi tous les n-grammes possibles (et c’est souvent le
cas dans la pratique, même pour un grand corpus), la majeure partie de la masse de probabilité
sera distribuée uniformément sur les n-grammes non vus dans le corpus. Les n-grammes vus
dans le corpus ne joueront qu’un rôle mineur dans la définition du modèle. On ne peut donc
pas s’attendre à une très bonne performance (c’est-à-dire de reconnaître les phrases autorisées
d’une langue correctement).
61
L’Indexation Sémantique En RI
Chapitre III
4.c Lissage de Dirichlet
Dans cette méthode, la fréquence d’un mot ti dans le document D est incrémentée de
μPML(ti|D), où μ. est paramètre appelé pseudo-fréquence. La probabilité PML(ti|D), d’un mot
selon le modèle de langue du document devient la suivante [Boug et al,03] :
PDir(ti|D)=tf(ti,D)+ μ PML(ti\C)/|D|+ μ
où |D| est la taille du document (le nombre total d’occurrences de mots), et tf(ti, D) est la
fréquence du mot ti dans D.
4.d Le processus de recherche
Le processus de recherche avec un modèle de langage s’articule sur trois étapes principales

Un modèle de langage est estimé pour chaque document de la collection,

Une probabilité de la séquence des termes de la requête est calculée,

Un classement des documents est établi selon leur valeur de probabilité.
B. Les Modèles Sémantiques
1. Le modèle LSI (Latent Semantic Indexing)
L’indexation en sémantique latente est une technique d’indexation s’inspirant de la LSA
(Latent Semantic Analysis) développées au début des années 1990 [Elg,04] . Ce modèle fut
conçu comme une nouvelle approche de l’indexation et de la récupération automatique
d’informations dans des bases de données constituées de documents textuels. En effet, la LSI
permet de résoudre les problèmes de synonymie et de polysémie.
Grâce à une analyse statistique, le sens de chaque mot est caractérisé par un vecteur dans
un espace de grande dimension [Elg, 04]. L’angle formé par deux vecteurs correspondra à la
proximité sémantique de ces mots.
Cette analyse consiste à construire une matrice
d’occurrences qui sera réduite pour faire ressortir les relations sémantiques « latentes » entre
mots ou entre textes. Cette matrice X (terme-document) est composée des vecteurs de termes
et de documents (comme pour le VSM). Elle utilise la technique de décomposition à valeur
singulière afin d’approximer la matrice terme-document par des combinaisons linéaires et
permet donc de créer un nouvel espace vectoriel [Zar ,10] :
62
L’Indexation Sémantique En RI
Chapitre III
Xt*d = T0t*m * S0m*m * 𝐷0′ m*d
Où : T0 est la matrice orthogonale des vecteurs singuliers de gauche telque (T0𝑇0′ =I),
D0 est la matrice contenant les colonnes orthogonales des vecteurs singuliers de droit
(𝐷0 𝐷0′ =I)
𝐷0′ est le transposé de la matrice D0
S0 est la matrice diagonale (triée) des valeurs singulières
t est le nombre de lignes dans X
d est le nombre de colonnes dans X
m est le rang de X tel que (m ≤ min(t, d)).
Il est prouvé qu’il existe une seule décomposition de cette manière.
Cette matrice est par la suite réduite par la matrice Xh contenant les plus grandes valeurs
singulières k (k ≤m) [Zar ,10] :
′
Xhk*d = Tt*k * Sk*k * 𝐷𝑘∗𝑑
Xh ne garde que les k premières valeurs et permet donc de représenter les documents dans
un espace de dimension k
dont laquelle la proximité sémantique entre deux mots est
déterminée par le cosinus de leur angle.
La requête est aussi traduite dans ce nouvel espace, elle est transformée en pseudodocument et suivi aussi ce même processus. La requête est traduite en :
Dq = 𝑋𝑞′ * T * S-1
Où Xq est le vecteur de mots clés de la requête.
Documents
T
e
r
m
x
=
rang
T
e
r
SVD
m
X
T0
e
s
e
s
t*d
rang
X
r
a
n
g
*
S0*
*
m*m
t*m
r
a
X n
g
Documents
𝐷0′
m*d
63
L’Indexation Sémantique En RI
Chapitre III
Réduction
Documents
T
e
r
m
Xh
rang
T
e
r
m
T
e
s
e
s
k*d
rang
x
r
a
n
g
*
S*
*
x
r
a
n
g
k*k
Documents
𝐷′
k*d
t*k
Figure III.3 : Représentation de la décomposition et de la réduction de matrice x
Le pseudo-document est rajouté à la matrice D (comme un nouveau document) et le calcul
de similarité se fait par :
𝑋ℎ′ *Xh = D * S² * 𝐷 ′
La recherche d’information du modèle LSI peut se faire à trois niveaux :

Comparer deux termes : Xh = T *S2* 𝑇 ′

Comparer deux documents : 𝑋ℎ′ *Xh = D * S² * 𝐷 ′

Comparer un terme et un document : Xh = T * S * 𝐷 ′
Une phase d’apprentissage permet de calculer la matrice X. Les documents qui n’ont pas
servi à la phase d’apprentissage sont ajoutés à cet espace réduit en approximant leur position
suivant le vecteur contenant le vocabulaire qui le caractérise. Ce qui suppose que l’espace LSI
créé au départ caractérise bien les dimensions importantes de similarité pour pouvoir
approximer un nouveau terme ou un nouveau document dans la collection.
2. Le modèle DSIR (Distributional Semantics based Information Retrieval)
Le modèle DSIR est un modèle vectoriel reposant sur la notion de sémantique
distributionnelle et permettant d’intégrer des informations sémantiques supplémentaires par
l’utilisation de co-occurrences. Cette approche suppose l’existence d’une corrélation forte
entre la co-occurrence des mots et leur sen. Les contextes dans lesquels apparaissent les mots
apportent suffisamment d’information pour identifier leur sen. La définition d’un contexte
(positionnel, documentaire, syntaxique [RAJ et al] ) d’un mot est alors une étape cruciale
64
L’Indexation Sémantique En RI
Chapitre III
puisqu’elle influence directement sur le sens qui peut être attribué à un terme pour cela ce
modèle DSIR repose sur le contexte syntaxique .
Le modèle DSIR est aussi fondé sur la notion d’unités linguistiques par rapport aux termes
retenus pour l’indexation. Les unités linguistiques sont les lemmes des noms, verbes et
adjectifs, les termes d’indexation sont les unités linguistiques retenues pour leur
"représentativité" des documents [Zar ,10] .
Dans le cadre de ce modèle, les unités linguistiques u i considérées sont représentées par un
vecteur ci = (ci1,…, cin), appelé profil de co-occurrence, dont chaque composante cij est la
fréquence de co-occurrence de l’unité linguistique ui avec un terme d’indexation tj, n étant le
nombre de termes retenus pour l’indexation. L’ensemble des unités linguistiques est donc
représenté par une matrice de co-occurrences de dimension m* n (où m est le nombre d’unités
𝑐11 ⋯ 𝑐1𝑛
⋱
⋮
linguistiques choisies) :
C= ⋮
𝑐𝑚1 ⋯ 𝑐𝑚𝑛
Un document d est alors représenté comme la somme pondérée des profils de cooccurrence des unités linguistiques qu’il contient, c’est-à-dire par un vecteur : d = (d1,…, dn)
où chaque dj est défini par :
dj =
𝑢 𝑖 ∈𝑑
𝑤𝑖 ∗ 𝑐𝑖𝑗 .
La pondération wi est définie de la même manière que le modèle vectoriel,
La collection de document est alors représentée par le produit matriciel : D= F*C
Où C est la matrice de co-occurrences déjà présentée et F est une matrice qui représente les
documents et les unités linguistiques.
Les termes explicitement présents dans le document ne sont pris en compte que par le biais
de leur profil de co-occurrence car généralement cii étant nul, l’information concernant la
présence d’un terme est perdue. Pour tenir compte de la présence d’un terme dans un
document, un modèle DSIR hybride est proposé pour intégrer à la fois les occurrences et les
co-occurrences des termes dans le document. Dans ce modèle, un document est toujours
représenté par (d1,…, dn) où:
dj = ɑ wj + (1 - ɑ)
𝑢 𝑖 ∈𝑑
𝑤𝑖 ∗ 𝑐𝑖𝑗 ; et ɑ (0 ≤ɑ ≤ 1)
65
L’Indexation Sémantique En RI
Chapitre III
dj représente le facteur d’hybridation permettant de contrôler l’importance relative dans
l’hybridation du modèle DSIR par rapport au modèle VSM standard [Zar ,10] .
L’ensemble des documents est alors représenté par :
D = ɑ𝐹 ′ + (1 - ɑ)F * C ; Où
F0 : est la matrice F de dimension réduite au nombre de termes. Elle correspond donc au
modèle vectoriel standard.
V.
Web Sémantique
La croissance de la masse d'information sur le web rend l'indexation automatique et
humaine insuffisantes pour indexer l'ensemble des ressources disponibles. D’autres méthodes
d’indexation plus efficace sont apparues comme une solution basée sur la conversion du rôle
de l’utilisateur comme consommateur passif à celui d’acteur à part entière sous le nom
d’indexation collaborative [Mic et al ,10].
1. Le tagging
Le tag peut désigner en fait un mot-clé, une catégorie ou une métadonnée. Le mot anglais
tag signifie en français : étiquette de balisage, étiquetage, fléchage ou marquage. Les tags
sont typiquement utilisés sur le web dans des taxonomies dynamiques, flexibles, générées
automatiquement pour des ressources en ligne comme les fichiers informatiques, les pages
web, les images numériques, et des sites de partage de signets. Chaque tag est présenté sous la
forme d'un lien hypertexte pointant vers une page d'index répertoriant toutes les pages qui
l'utilisent. Cela permet à un lecteur de trouver rapidement toutes les pages associées [Dom,
11].
Ce processus de marquage de l’information se matérialise par un système flottant de
catégorisation par étiquettes, personnel et partagé, permettant un repérage individualisé de
ressources hétérogènes publiées sur le web. L’ensemble des mots-clés générés par les
utilisateurs est appelé : «folksonomy» [Mic et al ,10] .
2. Folksonomie :
Les folksonomies constituent la possibilité pour l’utilisateur d’indexer des documents afin
qu’il puisse plus aisément les retrouver grâce à un système de mots-clés. Les mots-clés
proposés dans les folksonomies correspondent aux besoins des utilisateurs, qui peuvent ainsi
66
L’Indexation Sémantique En RI
Chapitre III
arriver plus facilement aux ressources dans lesquelles sont « greffés » un certain nombre de
tags. Le terme folksonomie est un mot-valise combinant les mots « folk » (le peuple, les gens,
les utilisateurs) et « taxonomy »
(la taxinomie) [Dom, 11].
Plusieurs
complémentaires existent afin de rapprocher les folksonomies et les ontologies
gestion des connaissances partagées par
approches
pour la
l’élaboration de folksontologies ou ontologies
collaboratives [Mic et al ,10].
a. Les limites de l’indexation collaborative
Contrairement à l’indexation réalisée à l’aide d’un langage documentaire, l’indexation
collaborative ne gère pas les problèmes liés à la polysémie et à la synonymie, ni les autres
problèmes linguistiques habituellement pris en charge par les thésaurus documentaires [Mic
et al ,10].
b. Les avantages
L’intérêt des tags paraît indéniable : une fois assignés, les tags sont immédiatement
accessibles aux internautes et exploitables dans le cadre de recherches d’information. Un
nombre croissant de sites web permet aux utilisateurs de taguer des photographies, des vidéos
ou encore de la musique. Le choix des termes est totalement libre, il ne repose sur aucun
vocabulaire contrôlé [Dom, 11].
VI.
Métrique d’évaluation d’un système de recherche d’Information
L’évaluation consiste à mesurer la différence entre un résultat attendu et un résultat obtenu,
pour cela il existe trois métriques leurs valeurs entre 0 et 1 pour faciliter l’interprétation :
précision, rappel, F-mesure.
1. Précision & Rappel
Les deux principales métriques d'évaluation en recherche d'information sont la précision et
le rappel. Ces métriques reflètent sur la comparaison des réponses d'un système pour
l'ensemble des requêtes avec les réponses idéales (liste de références). Plus précisément, ces
métriques sont définies comme suit :
Précision : La précision mesure le pourcentage des documents pertinents retrouvés parmi
tous les documents retrouvés par le système.
Précision = nombre de documents pertinents retrouvés / nombre de documents retrouvés
67
Chapitre III
L’Indexation Sémantique En RI
Rappel : Le rappel mesure le pourcentage des documents pertinents retrouvés parmi tous
les documents pertinents dans la base.
Rappel = nombre de documents pertinents retrouvés / total de documents pertinents.
L'idéal pour un système de RI est d'avoir de bons taux de précision et de rappel en même
temps (l'algorithme trouve la totalité des documents pertinents - rappel - et ne fait aucune
erreur - précision). Les deux métriques ne sont pas indépendantes, il y a une forte relation
entre elles. Un système qui retourne tous les documents de la base aura un rappel de 100%
mais la précision sera très faible. D'un autre côté, un système retrouvant peu de documents
aura sûrement une précision élevée, mais le rappel souffrira. Il faut donc utiliser les deux
métriques ensemble.
Il faut des analyses plus fines des résultats avec les courbes de rappel/précision, ces courbes
représentent l’évolution de la précision et du rappel avec des résultats triés.
2. courbe de précision interpolée :
Les courbes de précision interpolées consistent à calculer la précision pour des valeurs
prédéfinies du rappel, de 0 ,0.1 …. 1 par pas de 0.1. En pratique ces valeurs du rappel
peuvent ne pas être atteintes exactement : les valeurs de la précision doivent donc être
interpolées. La règle d'interpolation est la suivante : valeur interpolée de la précision pour un
niveau de rappel i est la précision maximale obtenue pour un rappel supérieur ou égal à i.
Cette règle d'interpolation définit donc également une précision pour un rappel nul alors
qu'une telle valeur n'existe pas.
3. courbe de moyenne des précisions à 11 points:
La précision moyenne sur 11 points consiste simplement à moyenner les 11 précisions
interpolées obtenues pour les seuils de rappels fixes définis, de 0 à 1 par pas de 0.1 de
plusieurs requêtes pour traiter l’évaluation d’un système de recherche sur ces requêtes.
4. APQ (Average Precision Quries):
Elle est la moyenne des précisions obtenues chaque fois qu’un document pertinent est
retrouvé pour chaque requête.
68
L’Indexation Sémantique En RI
Chapitre III
5. La précision moyenne MAP (Mean Average Precision):
La précision moyenne est une mesure de performance globale. elle est la moyenne des
précisions APQ d’un ensemble de requêtes:
MAP = (APQ1+ APQ2…….+ APQn)/n
6. La précision exacte ou R-précision :
La R-précision est la précision à n quand n est égal au nombre total de documents
pertinents. Cette mesure est plus réaliste pour l’étude de l’ordonnancement en tête de la liste
des documents restitués, mais pour l’obtenir, il est nécessaire de connaître au préalable le
nombre de documents pertinents disponibles dans le corpus pour une requête donnée.
Une R-précision de 1.0 signifie une précision et un rappel optimaux.
7. F-mesure :
La précision est globalement décroissante au fur et à mesure que le SRI restitue des
documents, alors que le rappel est globalement croissant. On peut choisir la mesure F comme
valeur synthétique exploitant la précision et le rappel. Elle est calculée comme suit :
F =2.(precision.rappel)/(precision+rappel)
VII.
Conclusion
L’indexation sémantique est devenue une l’approche incontournable dans tout système de
recherche d’information pour n’importe quelle langue. Elle représente une démarche
organisée de méthodes et de modèles. Elle débute par une analyse statistique suivi par
l’extraction des termes et descripteurs selon un libre choix d’une ressource linguistique
appropriés (liste d’autorité, taxonomie, thesaurus et ontologies). Chaque modèle, par la suite,
se caractérise par la fonction d’appariement entre ces descripteurs et la requête demandé par
l’utilisateur.
Cependant, les méthodes d’extraction des termes et des descripteurs sont basées sur une
analyse morphosyntaxique par l’utilisation de différentes méthodes de lemmatisation et de
stemming. Le chapitre suivant traite ce point pour l’indexation sémantique des pages web
arabe.
69
Chapitre IV
Nouvelle Méthode d’Analyse
Morphologique Arabe
Chapitre IV
I.
Nouvelle Méthode d’Analyse Morphologique Arabe
Introduction
Au cours des dernières décennies, l’utilisation des analyseurs morphologiques arabes a vu
une vaste diversité dans la recherche scientifique à travers le monde. Cette diversité donne la
cause d’apparition de nombreux types d'applications dans plusieurs domaines et à différentes
caractéristiques. Par exemple, les analyseurs légers ont les propriétés de simplicité et rapidité
ce qui les favorise le domaine de recherche d’informations ; par contre les analyseurs à base
de dictionnaire ont les propriétés d’efficacité et d’exactitude convenant ainsi mieux aux
applications relevant de l’apprentissage et du traitement automatique de langue arabe mais
aussi pour certains modèles sémantique de recherche d’information . Au cours de ce chapitre,
on va décrire notre analyseur arabe à base de dictionnaire construit à partir de l’analyseur
morphologique de Buckwalter.
L’analyseur morphologique de Buckwalter
II.
Buckwalter avait proposé un analyseur morphologique arabe à base de dictionnaires [Buc
,02]. Il est le plus connu et le plus utilisé dans les domaines de traitement automatique de
langue arabe et dans la recherche d’information mono-linguistique et multilinguistiques. C’est
le premier analyseur de cette catégorie morphologique, et de haut niveau de traitement
automatique de texte arabe, librement téléchargeable dans le package AraMorph.
Avant tout traitement, le texte en entrée doit être translittéré en ASCII suivant les
dictionnaires qui sont écrits dans ce codage, et le résultat doit être reconverti en Arabe pour
que ça soit adéquat à la forme de l’entrée et compréhensible. Cette opération de translitération
est appelé la translitération de Bucwalter.
Cet analyseur adopte un système procédural pour la représentation de différentes
ressources linguistiques et certaines règles orthographiques nécessaires. Ce système d’analyse
est établi en trois étapes principales :

Construction des fichiers de lexique.

Simulation des fichiers de comptabilité.

Développement de l’algorithme d’analyse des textes.
71
Nouvelle Méthode d’Analyse Morphologique Arabe
Chapitre IV
A. Construction des fichiers de lexique
Les fichiers de lexique de cet analyseur sont les dictionnaires de préfixes, stems (tiges) et
suffixes. Ces dictionnaires, considérés comme le noyau de l’analyseur, ils sont construit
manuellement, et leurs
entrées sont traitées par la translitération de Buckwalter ; cette
dernière substitue les lettres arabes par des lettres latines ou des caractères spéciaux comme le
stem « ‫ » ًرة‬qui est translittéré en « ktb ». Chaque entrée des trois dictionnaires contient
cinq champs :

l’entrée sans vocalisation.

L’entrée avec vocalisation.

Catégorie morphologique.

Glossaire anglais.

Catégorie grammaticale.
Seuls
les 3 premiers champs sont nécessaires pour l’analyse morphologique. Ces
dictionnaires sont liés par des tables de correspondances via le champ de catégorie
morphologique.
A.1 Dictionnaire des préfixes
Le dictionnaire de préfixes contient 78 préfixes distribués sur le 299 entré, cet énormément
des entrées sont atteintes selon deux causes principales qui autour sur le préfixe: la
vocalisation, et le rôle grammatical, par exemple pour le même préfixe l « ٍ » on est
plusieurs entrées :
 deux entrées selon la vocalisation la,li « ٍ‫ ِل‬,ٍ‫ » َل‬.
 Trois entrées selon le rôle grammatical: « ٍ‫ ِل‬, li »: particule de préposition, «ٍ‫ َل‬, la» :
particule d’affirmation ‫ذ‬٤ًٞ‫ذ‬, «ٍ‫ َل‬, la» : particule de réponse d’une condition.
Ce dictionnaire contient aussi des informations sur les incompatibilités des préfixes avec
les suffixes, il est écrit d’une façon ordonnée et claire, il contient le plus grand nombre de
préfixes à traiter .Ces préfixes vont apparaitre dans le tableau suivant :
Les préfixes proposés par Bucwalter
‫ا‬ٝ ٢‫ ك‬١ٝ ٖ‫ٕ ك‬ٝ ‫خ كد‬ٝ ‫سآ كسآ‬ٝ ‫آ كآ سآ‬ٝ ‫ ف‬ٝ ‫ ا ٍ ب ى‬١ ٕ ‫آ أ خ‬
‫ كسؤ كسد‬٢‫س‬ٝ ٖ‫س‬ٝ ‫سد‬ٝ ‫سؤ‬ٝ ٢‫ب كة سؤ سد سٖ س‬ٝ ‫ى كي‬ٝ َ‫ٍ ك‬ٝ ‫كا‬
ُٖ ‫ ال ُد‬٥ ٥ ٍ‫ًاٍ كٌا‬ٝ ٍ‫تاٍ كثا‬ٝ َِ‫َُ كَِ ك‬ٝ ٍ‫اٍ كا‬ٝ ٍ‫ اٍ َُ تاٍ ًا‬٢‫كسٖ كس‬
‫سا كسا‬ٝ ‫أ كؤ سا‬ٝ ٢ُٝ ُٖٝ ‫ُد‬ٝ ‫ال‬ٝ ٥ٝ ٧ٝ ٢ِ‫ كال كِد كِٖ ك‬٨‫ ك‬٦‫ ك‬٢ُ
72
Nouvelle Méthode d’Analyse Morphologique Arabe
Chapitre IV
Tableau IV.1 : Les préfixes proposés par Buckwalter
Un exemple sur l’entrée de dictionnaire de préfixes après la translitération :
w
wa
Pref-Wa
and <pos>wa/CONJ+</pos>
A.2 Dictionnaire des stems
Ce dictionnaire contient 82,158 lemmes et leurs stems adéquats ainsi il existe des lemmes
qui ont leurs racines et d’autres non, ci pour cela ce dictionnaire est considéré comme un
dictionnaire des lemmes et stems uniquement .Un exemple sur l’entrée de ce dictionnaire de
stem après la translitération :
;--- ktb
Une racine
;; katab-u_1
Un lemme
ktb
katab PV
write
ktb
kotub IV
write
Stem
A.2.1 Les catégories morphologiques
Chaque catégorie morphologique de stem arabe est assignée par une des notations
suivantes :
 Mot fonctionnel: FW.
 Les noms : N
 Les noms : des cas spéciaux.
 Les verbes : V
 Les verbes : des cas spéciaux
a. Mot fonctionnel :
Sont des particules ou pronoms ou tout autre mot qui n’a pas de fonction de nom ou de
verbe, ils ont encadré en trois types : qui ont accepté les préfixes de conjonctions seulement
par exemple (wa-huwa, fa-min) et qui ont acceptent les préfixes de conjonctions et de
prépositions en parallèle (wa-li->ay~, fa-bi-man).Les mnémoniques utilisées pour ces deux
types de catégorie morphologique sont: "FW-Wa" et "FW-WaBi" par contre la troisième
catégorie est assignée par "FW",elle est utilisé pour les mots qui n’acceptent aucun préfixe
73
Nouvelle Méthode d’Analyse Morphologique Arabe
Chapitre IV
comme les interjections et les abréviations et le deuxième mot dans les noms propres comme
( laHom, dans le mot "bayot laHom).
Les préfixes bi et
li attachent directement les pronoms de suffixes hu –hum sans
l’intervention de stem, cette combinaison est entré directement comme des mots fonctionnels
dans le lexique de stem :
bh
bihi
FW-Wa
with/by + it/him
<pos>bi/PREP+hi/PRON_3MS</pos
b. Les noms :
La
catégorie morphologique assignée pour les stems de type nom est une notation
représente les suffixes flexionnels.
Les suffixes flexionnels sont : Masculin dual (-Ani, -ayoni,-A, -ayo), Masculin pluriel (Ani, -ayoni,-A, -ayo), Féminin singulier (-ap), Féminin dual (-atAni,-atayoni,-atA,-atayo) et
Féminin pluriel (-At) .
Les détailles sur ces notations vont apparaitre dans le tableau suivant:
74
Nouvelle Méthode d’Analyse Morphologique Arabe
Chapitre IV
Nom
Nall : le nom prend
tous
les
suffixes
flexionnels ci-dessous
N/ap:comme
Nall
sauf
le
pluriel
masculin
N-ap : comme N/ap
sauf
le
pluriel
féminin
NduAt: prendre les
suffixes
de
dual
masculin et féminin
pluriel
Ndu: prendre les
suffixes de dual
N/At : prendre les
suffixes de féminin
pluriel
N : les noms qui
n’acceptent
aucun
suffixe.
NapAt: prendre les
suffixes
de
dual
féminin et féminin
pluriel
Napdu: prendre les
suffixes
de
dual
féminin
Nap:
les
noms
féminins
non
conjugables
Nat:
prendre
les
suffixes de féminin
pluriel
NF :
prendre
les
suffixes ‫اًا‬
Npair : prendre les
suffixes de masculin
dual
Nel:nom
elative
prendre les suffixes de
masculin dual
Ndip:nom
non
conjugable
Nprop : Nom propre
Numb : nombre
Des spécial cas
N_L: les noms qui
débutent avec la
lettre l et qui
acceptent le préfixe
li.
N0_Nh : les noms
qui possède des
variations
orthographiques au
cours
de
conjugaison
et
n’acceptent aucun
suffixe
et
les
suffixes :h
Nh:
comme
précédente et les
noms acceptent les
suffixes : h
Nhy :
comme
précédente et les
noms acceptent les
suffixes : h et y
Verbe
PV : verbe accompli
IV :
verbe
inaccompli
CV : verbe impératif
PV_intr :
verbe
accompli intransitif
IV_intr :
verbe
inaccompli
intransitif
CV_intr :
verbe
impératif intransitif
IV_yu:
verbe
inaccompli
qui
acceptent
les
préfixes :yu,tu,nu
IV_intr_yu : verbe
inaccompli
intransitif
qui
acceptent
les
préfixes :yu,tu,nu,Au
PV_Pass:
verbe
accompli à la voix
passive.
IV_Pass:
verbe
inaccompli à la voix
passive.
Des spécial cas
PV-n: verbe accompli qui
se termine par n et
accepte le suffixe n
IV-n: verbe inaccompli
Comme précédente
PV-t: verbe accompli qui
se termine par t et accepte
le suffixe t.
PV_V: verbe accompli
redoublé
ou
creux
acceptent les suffixes
voyelles
PV_C: verbe accompli
redoublé ou défectueux
acceptent les suffixes
consonnes
PV_Ct:
comme
précédente
mais
se
termine par t.
PV_Cn:
comme
précédente
mais
se
termine par n.
PV->: verbe accompli qui
se termine par A
PV-| : verbe accompli qui
se termine par |
PV_w: verbe accompli
qui se termine par w
PV_0,PV_h,PV_Atn
PV_ttAw,PV_0h,PV_w:
Tous ces types sont des
verbes
incomplets
accomplis acceptant des
suffixes différents.
PV_no-w:
verbes
incomplets
accomplis
n’acceptent
pas
les
préfixes w
IV_0hAnn,IV_0hwnyn
IV_0,IV_h,IV_Ann:
sont
des
verbes
incomplets
accomplis
acceptent des suffixes
différents.
Tableau IV.2 : Les catégories morphologiques les plus utilisés par Buckwalter
75
Nouvelle Méthode d’Analyse Morphologique Arabe
Chapitre IV
A.2.2 Les catégories grammaticales:
La catégorie grammaticale du préfixe et du suffixe est simulée explicitement par contre
pour le stem est assignée quand le dictionnaire est en cours d’exécution en basant sur la
catégorie morphologique de chaque entrée.
En tous les cas, ces catégories grammaticales sont résumées en sous les hypothèses
suivantes :

Si cat==FW alors on assigne FW (mot fonctionnel).

Si cat==IV alors on assigne IV (verbe inaccompli).

Si cat==PV alors on assigne IV (verbe accompli).

Si cat==CV alors on assigne CV (verbe impératif).

Si cat==N et le glossaire est débuté par un des caractères A-Z
alors on assigne
NOUN_PROP (Nom proportionnel).

Si cat==N et la vocalisation est terminée par iy~ on label manuellement.

Si cat==N on assigne N (Nom).
La catégorie grammaticale est assignée explicitement
dans le cas ou le mot est
fonctionnel de type : PREP, ADV, CONJ, INTERJ, DEM_PRON, et NEG_PART.
A.3 Dictionnaire des suffixes :
Buckwalter propose aussi 206 suffixes distribués sur 618 entrées de ce dictionnaire, ils
vont apparaitre dans le tableau suivant :
Les suffixes proposés par Bucwalter
‫ٖ آذي‬ٜ‫ْ آذ‬ٜ‫ٔا آذ‬ٜ‫ا آذ‬ٜ‫ آذ‬ٚ‫ اذ٘ا آخ آذ‬٢‫ٖ اذي اذٌٔا اذٌْ اذٌٖ اذ‬ٜ‫ْ اذ‬ٜ‫ٔا اذ‬ٜ‫ا اذ‬ٜ‫ اذ‬ٚ‫ا اخ اذ‬
‫ اٗ٘ا اٗي‬٢٘ٗ‫ا‬
‫ اٗا‬٢ٗ‫ٖ إ ا‬ٛ‫ْ ا‬ٛ‫ٔا ا‬ٛ‫ا ا‬ٛ‫ ا‬ٙ‫ آذ٘ا اى أًا اًْ اًٖ ا‬٢‫آذٌٔا آذٌْ آذٌٖ آذ‬
ٖ‫ٖ ذ‬ٛٞٔ‫ْ ذ‬ٛ‫ٔا ذٔا‬ٛ‫ا ذٔا‬ٛ‫ ذٔا‬ٙ‫ٗا ذٔا‬ٞٔ‫ ذ‬٢ٗٞٔ‫اٌٗٔا اٌْٗ اٌٖٗ ج خ ذإ ذٔا ذْ ذٖ ذ‬
ٙ‫ٖ ذا ذا‬ٜ‫ْ ذ‬ٜ‫ٔا ذ‬ٜ‫ا ذ‬ٜ‫ ذ‬ٚ‫ ذي ذٌٔا ذٌْ ذٌٖ ذ‬٢٘٘‫ٖ ذ‬ٜ٘‫ْ ذ‬ٜ٘‫ٔا ذ‬ٜ٘‫ا ذ‬ٜ٘‫ ذ‬ٚ٘‫ ذ‬٢٘‫ذ٘ا ذ‬
‫ٔا‬ٜ٤‫ا ذ‬ٜ٤‫ ذ‬ٚ٤‫٘ا ذ‬٤‫ٖ ذ‬٤‫ ذ‬٢‫ ذاٗا ذ‬١‫ٖ ذاى ذأًا ذاًْ ذاًٖ ذا‬ٛ‫ذا‬
ْٛ‫ٔا ذا‬ٛ‫ا ذا‬ٛ‫ذا‬
‫ا‬ٛٞٓ ٙٞٓ ‫ٗا‬ٞٓ ٢ٗٞٓ ‫ّ ٓا‬
ًٖ ًْ ‫ٌٖ ى ًٔا‬٤‫ٌْ ذ‬٤‫ٌٔا ذ‬٤‫ي ذ‬٤‫ٖ ذ‬ٜ٤‫ْ ذ‬ٜ٤‫ذ‬
ٚٗ ٌٖٗ ‫ٖ ٗاى ٗاًْ ٗاًٖ ٗي ٌْٗ ٌٗٔا‬ٛ‫ْ ٗا‬ٛ‫ا ٗا‬ٛ‫ ٗا‬ٙ‫ٖ ٕ ٗا ٗا‬ٛٞٓ ْٛٞٓ ‫ٔا‬ٛٞٓ
‫ا‬ٛٝ ٙٝ ًٖٝ ًْٝ ‫ًٔا‬ٝ ‫ى‬ٝ ٕٝ ‫ا‬ٝ ٝ ٖٛ ْٛ ‫ٔا‬ٛ ‫ا‬ٛ ٙ ‫ ٗ٘ا‬٢٘ٗ ٢ٗ ٖٜٗ ْٜٗ ‫ٔا‬ٜٗ ‫ا‬ٜٗ
٢ٗٝ ‫ٗا‬ٝ ٖٜٗٝ ْٜٗٝ ‫ٔا‬ٜٗٝ ‫ا‬ٜٗٝ ٚٗٝ ٌٖٗٝ ٌْٗٝ ‫ٌٗٔا‬ٝ ‫ٗي‬ٝ ٢٘ٗٝ ‫ٗ٘ا‬ٝ ٖٛٝ ْٛٝ ‫ٔا‬ٛٝ
‫٘اًٖ ذا‬٣ ًْ‫٘ا‬٣ ‫٘أًا‬٣ ‫٘اى‬٣ ٖٛ‫٘ا‬٣ ْٛ‫٘ا‬٣ ‫ٔا‬ٛ‫٘ا‬٣ ‫ا‬ٛ‫٘ا‬٣ ٙ‫٘ا‬٣ ٖٜ٣ ‫ٔا‬ٜ٣ ْٜ٣ ‫ا‬ٜ٣ ٚ٣ ٖ٣ ١
‫ا‬ٛٞٔ‫ ذ‬ٙٞٔ‫ ٓاٗا ذ‬٢ٗ‫ٖ ٓا‬ٛ‫ْ ٓا‬ٛ‫ٔا ٓا‬ٛ‫ا ٓا‬ٛ‫ ٓا‬ٙ‫ ذاٗا ٓا‬٢ٗ‫ ذٔاٗا ذا‬٢ٗ‫ٖ ذٔا‬ٛ‫ ذٔا‬١‫ا‬
ٖٜ٘٣ ‫ا‬ٜ٘٣ ْٜ٘٣ ‫ٔا‬ٜ٘٣ ٚ٘٣ ‫٘٘ا‬٣ ٢٘٘٣ ‫٘ا‬٣ ٢٘٣ ٖٛٞٔ‫ْ ذ‬ٛٞٔ‫ٔا ذ‬ٛٞٔ‫ذ‬
Tableau IV.3 : Les suffixes proposés par Buckwalter
76
Nouvelle Méthode d’Analyse Morphologique Arabe
Chapitre IV
Un exemple sur l’entrée de dictionnaire de suffixes après translitération :
p
ap
NSuff-ap
[fem.sg.]
<pos>+ap/NSUFF_FEM_SG</pos>
B. Simulation des fichiers de compatibilités :
Comme on a dit au-dessus les fichiers de compatibilités lient les dictionnaires entre eux à
l’aide de l’utilisation de catégorie morphologique telle que chaque table de compatibilité liste
des paires de catégories morphologiques compatibles. Par exemple la table de compatibilité
AB liste les paires de catégories morphologiques de préfixe et les catégories morphologiques
de stem compatibles comme le préfixe de nom « «ٍ‫ا‬-Al », il est compatible avec toutes les
stems de catégorie morphologique nom, ceci est écrit dans la table AB comme suit: NPref-Al
N, cette table contient 1648 paires.
La table de compatibilité AC liste les compatibilités entre les catégories morphologiques
de préfixe et catégories morphologiques de suffixe comme: NPref-Al
Suff-0, ceci indique
que le préfixe « Al » est incompatible avec tous les suffixes, c’est-à-dire que le mot qui
débute par « Al », ne termine pas par un suffixe, cette table contient 1285 paires.
La table de compatibilité BC liste les compatibilités entre les catégories morphologiques de
stem et catégories morphologiques de suffixe comme: PV
PVSuff-a, ceci indique que le
stem de catégorie morphologique PV (verbe accompli) est compatible avec le suffixe
fatha « a », cette table contient 598 paires.
Ces tables sont établies pour indiquer les combinaisons correctes et gérer les analyses.
C. Les étapes de l’algorithme d’analyse des textes :
Ce système d’analyse à base de lemmes utilise un algorithme d’analyse assez simple
puisque toutes les décisions sont codées dans le lexique et les tables de compatibilités, ainsi
lorsqu’il s’agit de l’analyse de forme agglutinée, les segmentations ne seraient valables que si
les différentes composantes existaient dans le lexique et sont triplement compatibles (préfixestem, préfixe-suffixe et stem-suffixe).L’algorithme d’analyse des textes est réalisé en six
étapes :
77
Nouvelle Méthode d’Analyse Morphologique Arabe
Chapitre IV
1. Tokenisation :

Segmenter le texte en token et supprimer les ponctuations.

Vérifier si le mot est un mot arabe : si le mot est arabe alors il passe à l’étape suivant
sinon il le déclare comme un mot non arabe.

Supprimer les diacritiques

Supprimer Alef wasla et alef mad( ٰ )
2. Segmentation de tokens :

Fragmenter chaque token en 3 segments tels que :

La longueur de premier segment est entre 0 et 4 caractères (préfixe).

La longueur de deuxième segment est entre 1 à l’infini de caractères (lemme).

La longueur de troisième segment est entre 0 et 6 caractères (suffixe).
Cette segmentation est faite selon le tableau suivant, Il rendre toutes les décompositions
correctes de chaque mot pour les analyser.
Préfixe
Radical
Suffixe
ktAb
ktA
ktA
kt
kt
kt
K
K
K
K
Ø
Ø
Ø
Ø
Ø
Ø
b
Ø
Ab
A
Ø
tAb
tA
t
Ø
ktAb
ktA
kt
k
Ø
Ø
Ø
b
Ø
b
b
Ø
b
Ab
tAb
Ø
b
Ab
tAb
ktAb
Tableau IV.4 : Segmentation du mot ktab avec Buckwalter
78
Nouvelle Méthode d’Analyse Morphologique Arabe
Chapitre IV
3. La première vue dans le dictionnaire :

Vérifier si chaque segment trouvé est existé dans leur dictionnaire correspondant
4. Vérification de comptabilité :

Contrôler la compatibilité entre les catégories morphologiques de préfixes-stem (1648
entrées).

Contrôler la compatibilité entre les catégories morphologiques préfixes-suffixes (598
entrées).

Contrôler la compatibilité entre les catégories morphologiques stem-suffixes (1285
entrées).

Si les trois catégories sont trouvées respectivement dans les tables alors les trois
composants sont compatibles et la segmentation est validée.
5. Rapport d’analyse : Ce rapport contient :

Les statistiques des dictionnaires : ces statistiques sont des constant apparues dans
toutes les analyses.

les résultats de l’analyse : le token traité, leur translitération, les solutions d’analyse
directe de chaque token, le numéro de solution, le lemme, vocalisation, morphologie,
catégorie grammaticale, glossaire.

les statistiques d’analyse: le nombre des lignes de texte, le nombre de tokens arabe, le
nombre de tokens non arabe, le nombre de mots trouvés avec le taux de succès, et le
nombre de mots non trouvés avec le taux d’échecs.

Si aucun résultat trouvé alors faire des :
6.
Correction orthographique :
En cas d’échec d’analyse d’un mot, on applique une seconde vérification des
dictionnaires : on contrôle l’orthographe du mot en entrée pour créer une liste des spellings
alternatives basées sur les hypothèses suivantes :
79
Chapitre IV
III.
Nouvelle Méthode d’Analyse Morphologique Arabe

Remplacer la lettre finale ‫ء‬ٟ par ‫ء‬١

Remplacer la lettre finale ‫ء‬١ par ‫ئ‬

Remplacer la lettre finale ٟ par ‫ئ‬

Remplacer la lettre finale ٟ par ١

Remplacer la lettre finale ٙ par ‫ج‬

Remplacer la lettre médiante ‫ء‬ٝ par ‫إ‬

Remplacer la lettre médiante ٟ par ١
Pourquoi Un Nouvel Analyseur Morphologique Arabe :
Durant notre étude, on a apporté un intérêt particulier à AraMorph. Plusieurs recherches
ont été menées sur son système d’analyse. Ceci nous a permis de recenser les avantages
comme les insuffisances de l’analyseur morphologique de Buckwalter et par conséquent,
proposer un nouvel analyseur morphologique arabe (NAMA) partant d’AraMorph. Les
changements effectués ont touché la structure générale d’AraMorph tout en gardant le modèle
d’analyse. Les raisons pour lesquelles a été conçu l’analyseur NAMA peuvent être citées cidessous :
1. Des raisons structurelles :
 Notre analyseur est une ressource arabe de ce fait, il faut construire les dictionnaires en
arabe pour garder la structure de notre langue et améliorer les ressources automatiques
arabes.
 Les mots doivent être compréhensibles pour les Arabes sans l’utilisation de transformation
de Buckwalter et sans aucun besoin d’autres liens comme la lettre ou la langue latine.
2. Des raisons morphologiques:
 AraMorph souffre d’insuffisances dans le traitement des préfixes et des suffixes arabes
indispensables dans l’automatisation de la langue arabe et dans la recherche
d’information.
80
Chapitre IV
Nouvelle Méthode d’Analyse Morphologique Arabe
 Il existe plusieurs préfixes dans le Coran qui n’existe pas dans l’analyseur de Buckwalter,
comme le préfixe : «ٍ‫ » أكثا‬dans le verset suivant : «ٕٞ٘ٓ‫ئ‬٣ َ‫»أكثاُثاط‬, et le suffixe « ٌْٜ٣»
dans le verset suivant : «‫ْ هللا‬ٌٜ٤‫ٌل‬٤‫»كس‬.
 L’avantage de rassembler toutes les terminologies linguistiques «lemme, stem, racine,
lexème» dans le même analyseur et le rendre de plusieurs sorties.
 L’utilisation pour la première fois de lexème arabe comme sortie dans un analyseur arabe.
3. Des raisons grammaticales :
 La possibilité d’évaluation d’un analyseur qui traite les deux types de la morphologie
arabe : morphologie flexionnelle et morphologie dérivationnelle.
 Le manque de traitement des catégories de la morphologie flexionnelle comme le pluriel
brisé et le verbe irrégulier.
4. Des raisons de loi de l'offre et de la demande :
 Augmentation des besoins d’utilisation des analyseurs morphologiques arabes.
 L'utilisation fréquente d’AraMorph.
 Manque d’analyseurs morphologiques arabes à base de dictionnaire dans les domaines
d’automatisation des langues et dans la recherche d’information.
5. Des raisons de coût :
 Minimiser le coût d’utilisation d’espace mémoire par l’enlèvement des tables des
correspondances d’AraMorph.
IV.
Nouvelle version d’analyseur morphologique arabe :
Dans le but d’enrichir les ressources électroniques pour le traitement automatique de la
langue arabe et, suite à l’étude des différents analyseurs existants, notamment celui de
Buckwalter, nous proposons de développer un nouvel analyseur morphologique arabe à base
de dictionnaire. Notre algorithme suit dans l’ensemble la même démarche d’AraMorph avec
différentes amélioration sur plusieurs niveaux.
81
Nouvelle Méthode d’Analyse Morphologique Arabe
Chapitre IV
Les dictionnaires sont modifiés qualitativement et quantitativement, au niveau de qualité,
ils sont codés en langue arabe sans aucune translitération intermédiaire. Les dictionnaires des
préfixes et suffixes contiennent de nouvelles formes et de nouveaux champs, ces derniers
sont ajoutés pour alléger la structure complexe induite par les tables de correspondance
(préfixes-stem, préfixe-suffixe et stem-suffixe).
Notre analyseur possède quatre sorties selon le choix de l’utilisateur et suivant la structure
de dictionnaire de lemmes qui contient toutes les terminologies linguistiques d’une entrée
(lexème, lemme, racine et stem). Par ailleurs, l’algorithme manipule deux types de
morphologie : flexionnelle et dérivationnelle. Ces deux types sont intégrés dans le
dictionnaire des lemmes par les catégories morphologiques et grammaticales des entrées
successivement.
Les changements quantitatifs consistent à augmenter le nombre de préfixes, suffixes et
catégories morphologiques de stems.
Les changements quantitatifs
AraMorph NAMA
# préfixe
106
78
# suffixe
206
252
# catégories morphologique du nom
20
24
# catégories morphologique du verbe
22
27
Tableau IV.5 : Les changements quantitatifs.
Notre analyseur contient trois fichiers de lexique arabe: préfixes, lemmes et suffixes.
Chaque entrée de ces dictionnaires possède
cinq champs : L’entrée sans vocalisation,
L’entrée avec vocalisation, Catégorie morphologique, Glossaire anglais, Catégorie
grammaticale. Les trois dictionnaires ont vu des modifications avec l’ajout de deux nouveaux
champs pour le dictionnaire de préfixes : Champ de contrôle de compatibilité préfixe-suffixe
et champ de contrôle de compatibilité préfixe-stem. Un seul
champ est ajouté pour le
dictionnaire de suffixes : Champ de contrôle de compatibilité suffixe-stem. Chaque champ de
compatibilité liste les catégories morphologiques adéquates avec cette entrée. Le dictionnaire
des lemmes a vu un ajout de deux champs: le champ de racine et le champ de lexème.
82
Nouvelle Méthode d’Analyse Morphologique Arabe
Chapitre IV
A. La description de trois dictionnaires :
A.1 Catégorie grammaticale :
La catégorie grammaticale1 de chaque entrée de dictionnaire est inspirée du schéma des
POS arabes proposé par Khoja comme dans la figure suivante [Kho et al, 01]:
Mot
Verbe
Accompli
Inaccompli
Nom
Particule
Impérative
Résiduel
Nom non arabe
Ponctuation
Abréviation
Formule Mathématique
Nom
Commun
Nom
Propre
Pronom
personnel
Adjective
Pronom
personnel
Pronom
Relatif
Pronom
démonstratif
Nombre
Cardinal
Spécifique
Préposition
s
Interrogat
ion
Adverbe
Réponse
Ordinal
Adjectif
Numérique
Commun
Prépositions
Interjection
Exception
Négative
Explication
Figure IV.1 : Schéma des catégories grammaticales (POS) proposé par Khoja
Cette classification de Khoja suppose que le discours arabe est réparti sur cinq catégories :
nom, verbe, particule, additif (symboles et formules mathématique, les abréviations …etc) et
1
C’est le terme qu’on adopte pour le concept anglais (part of speech) ou tout simplement l’acronyme (POS)
83
Nouvelle Méthode d’Analyse Morphologique Arabe
Chapitre IV
ponctuation. Cependant, les linguistes ne reconnaissent que trois grandes classes : nom, verbe
et particule où chaque classe dérive vers d’autres sous-classes.
Dans ce travail, nous nous sommes basés sur la morphologie dérivationnelle pour
concevoir le schéma de POS de notre analyseur NAMA. Pour cela nous avons éliminé les
sous-classes des verbes (accompli, inaccompli, impérative) car elles sont considérées comme
des catégories flexionnelles. La figure suivante montre le schéma de POS adopté pour cette
étude :
Mot
Verbe
Nom
Nom
Pronom
Particule
Temps
Pronom
personnel
Nombre
Adverbe
Pronom
Relatif
Place
Ordinal
Cardinal
Pronom
démonstratif
Commu
n
Spécifique
Adjectif
Numérique
Adjectif
Nom de
relation
Nom non
arabe
Nom
propre
Préposition
s
Interrogation
Nom
Invariant
Réponse
Nom
commun
Condition
Nom
commun
Interjection
Exception
Négative
Figure IV.2 : Schéma de POS proposé pour NAMA
84
Nouvelle Méthode d’Analyse Morphologique Arabe
Chapitre IV
A.2 Les dictionnaires:
A.2 .1 Dictionnaire des lemmes et stems :
Ce dictionnaire est le plus grand parmi les trois utilisés par NAMA. il contient tous les
lemmes arabes les plus utilisés actuellement. Le dictionnaire il inscrit pour chaque entrée
(mot) une description linguistique comme la racine, le lexème et le stem ; mais aussi d’autres
champs comme : la vocalisation d’un stem, sa catégorie morphologique, son glossaire anglais
et sa catégorie grammaticale (POS). On a ajouté le lexème et la racine des mots à ce
dictionnaire pour rendre plus flexible l’exploitation ultérieure selon le besoin analytique et/ou
linguistique.
Souvent, un mot arabe est composé de préfixe, stem et suffixe et chaque lemme est dérivé
morphologiquement depuis une racine, et prend sa signification depuis le sens global d’un
lexème.

Les catégories morphologiques des stems
Chaque catégorie morphologique d’un stem arabe dans notre dictionnaire est décrite par
une notation précise :
Notation
Signification
exemple
.ٝ.‫ى‬
Mot fonctionnel
‫م‬ٞ‫‘ ك‬sur’
.‫ا‬
Nom
‫‘ ٓذسسح‬école’
‫ف‬
Verbe
٠‫‘ أػط‬donner’
Tableau IV.6 : Les notations générales utilisées pour un stem arabe.
Les catégories morphologiques utilisées sont du type flexionnel, ceci permet de distinguer
les différents changements des formes d’un mot dans n’importe quelle position dans la phrase.
Par exemple :
‫ُص‬٣.‫ٓز‬.ّ.‫ ا‬:‫ز‬٤ِٔ‫ذ‬
, ‫ص‬.ْٓ.‫ذي‬.‫ج‬.‫ ا‬:‫ز‬٤ٓ‫ذال‬
La première indique que le mot est un nom masculin singulier acceptant n’importe quelle
conjugaison, c’est-à-dire toutes les suffixations de flexion possible d’un nom ; par contre le
deuxième mot est un pluriel brisé inconjugable.
85
Nouvelle Méthode d’Analyse Morphologique Arabe
Chapitre IV
Notre analyseur NAMA inclut de nouvelles catégories morphologiques (par rapport à
celles prise en charge dans AraMorph) telles que le pluriel brisé2 (‫ذي‬.‫ج‬.‫ )ا‬pour les noms et les
verbes défectueux3 (‫ٓؼد‬.‫ٓا‬.‫)ف‬
Un exemple sur l’entrée de dictionnaire de stem:
;--- ‫ًرة‬
un lexème
;; ‫َلًرَلة‬
un lemme
‫ًرة‬
‫َلًرَلة‬
‫ًرة‬
‫ٓا‬.‫ف‬
write ‫ف‬/‫َلًرَلة‬
‫ًرة‬
‫ًْرُة‬
‫ًرة‬
‫ٓض‬.‫ ف‬write ‫ف‬/‫ًْرُة‬
une racine
un stem
Le tableau suivant résume les catégories flexionnelles du nom, verbe et mot fonctionnel :
2
3
Pluriel irrégulier
Verbe contenant une longue voyelle
86
Nouvelle Méthode d’Analyse Morphologique Arabe
Chapitre IV
Nom
‫ُص‬٣.‫ٓز‬.ّ.‫ا‬
‫ٓز‬.‫ج‬.‫ال‬.‫ٓز‬.ّ.‫ا‬
‫ٓئ‬.‫ج‬.‫ٓز‬.‫ج‬.‫ال‬.‫ٓز‬.ّ.‫ا‬
‫ٓئ‬.‫ج‬.‫ٓز‬.‫ٓس‬.‫ن‬٣.‫ٓز‬.ّ.‫ا‬
‫ٓز‬.‫ٓس‬.‫ن‬٣.‫ٓز‬.ّ.‫ا‬
‫ٓئ‬.‫ج‬.‫ن‬٣.‫ٓز‬.ّ.‫ا‬
‫ا‬
‫ٓئ‬.‫ج‬.‫ٓس‬.‫ن‬٣.‫ٓئ‬.ّ.‫ا‬
‫ٓئ‬.‫ٓس‬.‫ن‬٣.‫ٓئ‬.ّ.‫ا‬
‫ُص‬٣.‫ال‬.‫ٓئ‬.ّ.‫ا‬
‫ٓئ‬.‫ج‬.‫ن‬٣.‫ٓئ‬.ّ.‫ا‬
‫ٓئ‬.‫ج‬.‫ا‬
‫كد‬.‫ن‬٣.‫ٓغ‬.‫ؽ‬.‫ا‬
‫ًس‬.‫ن‬٣.‫ٓغ‬.‫ؽ‬.‫ا‬
‫ذق‬.‫ا‬
‫ص‬.ْٓ.‫ا‬
‫ع‬.‫ا‬
‫ػذد‬
‫ذي‬.‫ج‬.‫ا‬
‫ص‬.ْٓ.‫ذي‬.‫ج‬.‫ا‬
‫ص‬.ْٓ.‫ع‬.‫ا‬
‫ُص‬٣.‫ال‬.‫ٓئ‬.‫ذي‬.‫ج‬.‫ا‬
‫ٓئ‬.‫ج‬.‫ن‬٣.‫ٓز‬.‫ذي‬.‫ج‬.‫ا‬
‫ٓئ‬.‫ج‬.‫ٓس‬.‫ن‬٣.‫ٓئ‬.‫ذي‬.‫ج‬.‫ا‬
‫ص‬.ْٓ.‫ٓئ‬.‫ذي‬.‫ج‬.‫ا‬
Verbe
‫ٓا‬.‫ف‬
‫ٓض‬.‫ف‬
‫أ‬.‫ف‬
‫الص‬.‫ٓا‬.‫ف‬
‫الص‬.‫ٓض‬.‫ف‬
‫الص‬.‫أ‬.‫ف‬
١
ُ _‫ٓض‬.‫ف‬
١
ُ _‫الص‬.‫ٓض‬.‫ف‬
‫ٓج‬.‫ٓة‬.‫ٓا‬.‫ف‬
‫ٓج‬.‫ٓة‬.‫ٓض‬.‫ف‬
‫حي‬.‫ٓا_ذؾ‬.‫ف‬
‫حي‬.‫ٓض_ذؾ‬.‫ف‬
‫حق‬.‫ٓا_ذؾ‬.‫ف‬
‫حق‬.‫ٓض_ذؾ‬.‫ف‬
Mot fonctionnel
ٝ.‫ى‬
‫ع‬.‫_ح‬ٝ.‫ى‬
‫ج‬.‫ح‬-‫ع‬.‫_ح‬ٝ.‫ى‬
‫ٓؼد‬.‫ٓا‬.‫ف‬
‫ٓؼد‬.‫ٓض‬.‫ف‬
‫الص‬.‫ٓؼد‬.‫ٓا‬.‫ف‬
‫الص‬.‫ٓؼد‬.‫ٓض‬.‫ف‬
١
ُ _‫ٓؼد‬.‫ٓض‬.‫ف‬
١
ُ _‫الص‬.‫ٓؼد‬.‫ٓض‬.‫ف‬
‫ٓج‬.‫ٓة‬.‫ٓؼد‬.‫ٓا‬.‫ف‬
‫ٓج‬.‫ٓة‬.‫ٓؼد‬.‫ٓض‬.‫ف‬
‫حي‬.‫ٓؼد_ذؾ‬.‫ٓا‬.‫ف‬
‫حي‬.‫ٓؼد_ذؾ‬.‫ٓض‬.‫ف‬
‫حق‬.‫ٓؼد_ذؾ‬.‫ٓا‬.‫ف‬
‫حق‬.‫ٓؼد_ذؾ‬.‫ٓض‬.‫ف‬
Tableau IV.7 : Les catégories morphologiques utilisées pour les stems
‫ُص‬٣.‫ٓز‬.ّ.‫ ا‬: nom masculin singulier acceptant
n’importe quelle conjugaison. Typiquement,
ce
exemple :
sont
les noms
rationnelles (par
ٌّ ٞ‫ ُُ َلـ ِل‬lugawiy ~, ٢ٌّ ٗ‫ ُُثْ٘ا ِل‬lubonAniy
١
~), et les participes actifs de toutes les formes trilitères et quadrilatères
(par exemple:
murAsil َ‫شاس‬
‫ ُٓ ِل‬, Qadir ‫ها ِلدس‬, mutarojim ْ‫) ُٓرَلشْ ِلج‬. Donc le nom de cette catégorie peut prendre
toutes les suffixes flexionnels nominaux suivants :
masc.du. (-Ani ٕ‫ ا‬, -ayoni ْٖ‫ ِل‬٣‫ َل‬, -A ‫ ا‬, -ayo ْ١ ‫) َل‬
masc.pl. (-uwna ‫َٕل‬ُٝ , -iyna ‫َٖل‬٣‫ ِل‬, -uw ُٝ , -iy ١‫) ِل‬
87
Chapitre IV
Nouvelle Méthode d’Analyse Morphologique Arabe
fem.sg. (-ap ‫) َلج‬
fem.du. (-atAni ٕ‫َلذا‬
‫ ِل‬, -atayoni ْٖ‫ ِل‬٤‫ َلذَل‬, Ata ‫ اخَل‬, -atayo ٢‫) َلذ َْل‬
fem.pl. (-Au ُ‫) ا‬
‫ٓز‬.‫ج‬.‫ال‬.‫ٓز‬.ّ.‫ا‬: nom masculin singulier acceptant n’importe quelle conjugaison sauf le pluriel
masculin, il peut prendre toutes les suffixes flexionnels possibles expliquées ci-dessus à
l'exception du masculin pluriel. Cette catégorie de suffixation est typique des noms ayant la
forme trilitère faEiyl ‘ َ٤‫ ‘ كؼ‬et normalement prendre un pluriel brisé pour le masculin et le
pluriel féminin pour le féminin. comme : jadiyd,‫ذ‬٣‫( جذ‬. Pl judud,‫ ) ُجذُد‬.
‫ٓئ‬.‫ج‬.‫ٓز‬.‫ج‬.‫ال‬.‫ٓز‬.ّ.‫ ا‬: nom masculin singulier peut prendre toutes les suffixes flexionnels possibles
expliquées ci-dessus à l'exception des suffixes de masculin pluriel et de féminin pluriel.
Typiquement, ce sont les noms qui fonctionnent comme adjectifs. Exemples: mufahoras
‫ َلْشس‬ٜ‫ ُٓلَل‬, taEoliymiy ~ ٢ٌّ ٔ‫ ِل‬٤ِ‫ذَل ْؼ ِل‬.
‫ٓئ‬.‫ج‬.‫ٓز‬.‫ٓس‬.‫ن‬٣.‫ٓز‬.ّ.‫ا‬: nom masculin singulier
n’accepte
aucune conjugaison sauf le dual
masculin et le pluriel féminin .Typiquement, ce sont les noms verbaux dénombrables de
formes dérivées trilitères et quadrilatères. Exemples: taloxiyS ‫ص‬٤‫ذَل ِْ ِلخ‬, AimotiHAn ٕ‫اِل ْٓ ِلرحا‬.
‫ٓز‬.‫ٓس‬.‫ن‬٣.‫ٓز‬.ّ.‫ا‬: nom masculin singulier n’accepte aucune conjugaison sauf le dual masculin, il
ne prend que les suffixes flexionnels du dual masculin citées ci-dessus. Les noms de cette
catégorie sont conjugués au pluriel brisé. Exemples: masokan ٌٖ‫ َلٓ ْس َل‬, lafoZ ‫ َُل ْلظ‬.
‫ٓئ‬.‫ج‬.‫ن‬٣.‫ٓز‬.ّ.‫ ا‬: nom masculin singulier n’accepte aucune conjugaison sauf le féminin pluriel.
Typiquement, ce sont les noms verbaux «semi-quantitatif» de formes dérivées trilitères et
quadrilatères. Exemples: Tasar ~ uf ‫صشُّف‬
‫ذَل َل‬, taEAwun ُٕٝ ‫ذَلؼا‬.
‫ٓئ‬.‫ج‬.‫ن‬٣.‫ٓز‬.‫ذي‬.‫ج‬.‫ ا‬: nom masculin de pluriel brisé n’accepte aucune conjugaison sauf le féminin
pluriel. Typiquement, ce sont les formes dites "au pluriel-de-pluriel". Exemples: buHuwv
‫ز‬ُٞ‫تُح‬.
‫ا‬: indique les noms qui ne infléchissent pas pour le nombre. Typiquement, ce sont des noms verbaux
(par exemple, Tarok ‫ذَلشْ ى‬, HuSuwl ٍُٞ‫ ) ُحص‬.
‫ذي‬.‫ج‬.‫ا‬: nom de pluriel brisé qui ne infléchissent pas pour le nombre. Typiquement, ce sont des
tripode de pluriels brisés (par exemple, suk ~ Un ٕ‫ ُس ٌّا‬, $ uEuwb ‫ب‬ُٞ‫) ُشؼ‬.
88
Chapitre IV
Nouvelle Méthode d’Analyse Morphologique Arabe
Les noms qui provient de ces deux catégorie d'inflexion " ‫ ا‬, ‫ذي‬.‫ج‬.‫ " ا‬ne prenez pas les suffixes
flexionnels.
‫ٓئ‬.‫ج‬.‫ٓس‬.‫ن‬٣.‫ٓئ‬.ّ.‫ا‬: nom féminin singulier n’accepte aucune conjugaison sauf le dual féminin et
le pluriel féminin, donc ne prend que les suffixes flexionnels du féminin singulier, de dual et
de féminin pluriel citées ci-dessus .Les noms de cette catégorie d'inflexion prennent rarement
le pluriel brisé. Exemples: Lahoz-ap ‫َُلحْ ظَلح‬,> usor-ap ‫أُس َلْشج‬, mubAdal-ap ‫ ُٓثادَلُح‬.
‫ٓئ‬.‫ج‬.‫ٓس‬.‫ن‬٣.‫ٓئ‬.‫ذي‬.‫ج‬.‫ا‬: nom féminin de pluriel brisé n’accepte aucune conjugaison sauf le dual
féminin et le pluriel féminin, donc ne prend que les suffixes flexionnels du féminin singulier,
de dual et féminin pluriel citées ci-dessus. Exemple : sAdap ‫سادَلج‬
‫ٓئ‬.‫ٓس‬.‫ن‬٣.‫ٓئ‬.ّ.‫ا‬: nom féminin singulier n’accepte aucune conjugaison sauf le dual féminin, il
ne prendre que les suffixes flexionnels du dual féminin citées ci-dessus. Noms de cette
catégorie d'inflexion prennent le pluriel brisé exemples: <Ujor-ap ‫أُجْ َلشج‬, maso> al-ap ‫ َلٓسْؤَلَُلح‬,
gurof-ap ‫ ُؿشْ كَلح‬.
‫ُص‬٣.‫ال‬.‫ٓئ‬.ّ.‫ا‬: nom féminin singulier ne pas infléchir pour le nombre. Typiquement, ils sont des
noms verbaux de forme verbale trilittérale et quadrilatérale (par exemple : sayoTar-ap ‫طَل َلشج‬٤ْ ‫ ) َلس‬.
‫ُص‬٣.‫ال‬.‫ٓئ‬.‫ذي‬.‫ج‬.‫ا‬: nom féminin de pluriel brisé
ne pas infléchir pour le nombre. Typiquement, ils
sont tripode de pluriel brisé (par exemple : > alobis-ap ‫ أَل ُْثِل َلسح‬, EamAliq-ap ‫) ػَلٔاُِلوح‬.
Les noms qui provient de ces deux dernières catégories d'inflexion " ‫ُص‬٣.‫ال‬.‫ٓئ‬.ّ.‫ ا‬,‫ُص‬٣.‫ال‬.‫ٓئ‬.‫ذي‬.‫ج‬.‫ " ا‬ne
prenez que les suffixes flexionnels du féminin singulier:
‫ٓئ‬.‫ج‬.‫ا‬: nom de féminin pluriel qui ne prend que les suffixes flexionnels du féminin pluriel:
Exemples: muxAbar-A ‫ ُٓخاتَلشاخ‬.
‫كد‬.‫ن‬٣.‫ٓغ‬.‫ؽ‬.‫ا‬: indique le nom qui acquière un sens lexical indépendant quand il fonctionne
comme un adverbe ou un interjection .Un nom provient de cette catégorie ne prend que le
marqueur d’accusatif en cas de suffixe indéterminée: (-AF ‫)اًا‬.
‫ًس‬.‫ن‬٣.‫ٓغ‬.‫ؽ‬.‫ا‬: indique les noms qui prennent le marqueur génitif (K ٍ ). Exemples:‫آآ‬
ٍ ‫ذَل‬
‫ذق‬.‫ا‬: désigne le nom élatif masculin, qui infléchit généralement pour le dual seulement, il ne
prend que les suffixes flexionnels du dual masculin. Exemples:> akobar ‫ أَل ًْثَلش‬.
89
Nouvelle Méthode d’Analyse Morphologique Arabe
Chapitre IV
‫ع‬.‫ا‬: les noms propres, qui n'ont généralement infléchissent pas , ni prennent suffixes (par
exemple, miSor ‫) ِلٓصْ ش‬. Le nom provient de la cette catégorie ne prend pas les suffixes
flexionnels.
‫ص‬.ْٓ.‫ا‬: nom de diptote. Le nom provient de cette
catégorie ne prend pas les suffixes
flexionnels .Exemple : |*Ar ‫آراس‬.
‫ص‬.ْٓ.‫ذي‬.‫ج‬.‫ا‬: nom masculin de pluriel brisé de diptote . Nom de cette catégorie de suffixation
inclure plusieurs formes de pluriels brisées, comme la forme trilittérale mafAEil,َ٤‫( َلٓلا ِلػ‬par
exemple, majalis
‫ ) َلٓجا ِلُس‬et faeA}il َ‫( كَلؼا ِلئ‬par exemple, Qaba} il
َ‫)هَلثا ِلئ‬, et les formes
quadrilatères faEAliyl َ٤ُ‫( كَلؼا ِل‬par exemple, jamAhiyr ‫ش‬٤ٛ‫ ) َلجٔا ِل‬et faEAlil َُ‫( كَلؼا ِل‬par exemple, ,
jamArik ‫ٔاسى‬
‫) َلج ِل‬. Le nom provient de cette catégorie ne prend pas les suffixes flexionnels.
‫ص‬.ْٓ.‫ٓئ‬.‫ذي‬.‫ج‬.‫ا‬: nom feminin de pluriel brisé de diptote .Exemple :Axebiyatun ‫َلح‬٤‫أَل ْخ ِلث‬.
‫ص‬.ْٓ.‫ع‬.‫ا‬: nom propre de diptote. Exemple : IsTanbul .ٍُٞ‫اِل ْسطَل ْ٘ث‬
‫ ػذد‬: nom de nombre. Exemple :xamesap ‫ َلخ ْٔ َلسح‬. Nom provient de cette catégorie d'inflexion
peut prendre deux suffixes :
En cas de nominatif :(-uwna ‫َٕل‬ٝ ُ )
En cas de génitif ou accusatif (-iyna ‫َٖل‬٣‫) ِل‬
‫ٓا‬.‫ف‬: verbe accompli.
‫ٓض‬.‫ف‬: verbe inaccompli.
‫أ‬.‫ ف‬: verbe impérative.
‫الص‬.‫ٓا‬.‫ف‬: verbe accompli intransitive, qui n’a pas besoin d’un complément d’objet .
‫الص‬.‫ٓض‬.‫ف‬: verbe inaccompli intransitive, qui n’a pas besoin d’un complément d’objet .
‫الص‬.‫أ‬.‫ف‬: verbe impérative intransitive, qui n’a pas besoin d’un complément d’objet .
١
ُ _‫ٓض‬.‫ف‬: verbe inaccompli qui son préfixe débute par la lettre yu ١
ُ
١
ُ _‫الص‬.‫ٓض‬.‫ف‬: verbe inaccompli intransitive qui son préfixe débute par la lettre yu ١
ُ
‫ٓج‬.‫ٓة‬.‫ٓا‬.‫ف‬: verbe accompli de voie passive.
‫ٓج‬.‫ٓة‬.‫ٓض‬.‫ف‬: verbe inaccompli de voie passive.
‫حي‬.‫ٓا_ذؾ‬.‫ف‬: verbe accompli qui leur suffixes débutent par une voyelle.
‫حي‬.‫ٓض_ذؾ‬.‫ف‬: verbe inaccompli qui leur suffixes débutent par une voyelle.
90
Chapitre IV
Nouvelle Méthode d’Analyse Morphologique Arabe
‫حق‬.‫ٓا_ذؾ‬.‫ف‬: verbe accompli qui leur suffixes débutent par une consonne.
‫حق‬.‫ٓض_ذؾ‬.‫ف‬: verbe inaccompli qui leur suffixes débutent par une consonne.
‫ٓؼد‬.‫ٓا‬.‫ف‬: verbe accompli défectueux.
‫ٓؼد‬.‫ٓض‬.‫ف‬: verbe inaccompli défectueux.
‫الص‬.‫ٓؼد‬.‫ٓا‬.‫ف‬: verbe accompli intransitive défectueux.
‫الص‬.‫ٓؼد‬.‫ٓض‬.‫ ف‬: verbe inaccompli intransitive défectueux.
١
ُ _‫ٓؼد‬.‫ٓض‬.‫ف‬: verbe inaccompli défectueux qui son préfixe débute par la lettre yu ١
ُ
١
ُ _‫الص‬.‫ٓؼد‬.‫ٓض‬.‫ف‬: : verbe inaccompli intransitive défectueux qui son préfixe débute par la
lettre yu ١
ُ
‫ٓج‬.‫ٓة‬.‫ٓؼد‬.‫ٓا‬.‫ف‬: verbe accompli défectueux à la voie passive.
‫ٓج‬.‫ٓة‬.‫ٓؼد‬.‫ٓض‬.‫ف‬: verbe inaccompli défectueux à la voie passive.
‫حي‬.‫ٓؼد_ذؾ‬.‫ٓا‬.‫ف‬: verbe accompli défectueux qui leur suffixes débutent par une voyelle.
‫حي‬.‫ٓؼد_ذؾ‬.‫ٓض‬.‫ ف‬: verbe inaccompli défectueux qui leur suffixes débutent par une voyelle.
‫حق‬.‫ٓؼد_ذؾ‬.‫ٓا‬.‫ف‬: verbe accompli défectueux qui leur suffixes débutent par une consonne.
‫حق‬.‫ٓؼد_ذؾ‬.‫ٓض‬.‫ف‬: verbe inaccompli défectueux qui leur suffixes débutent par une consonne.
ٝ.‫ى‬: Mot fonctionnel comme les particules ou les pronoms ou d’autre nom qui n’a pas de
fonction d’une verbe ou nom et qui ne prennent aucune préfixe comme les interjection et les
abréviations .
‫ع‬.‫_ح‬ٝ.‫ى‬: Mot fonctionnel qui accepte le préfixe de conjonction wa et fa comme :wa-huwa
ُٞ‫ َل‬ٛٝ‫ َل‬,famin ٖٔ‫) كَل ِل‬
‫ج‬.‫ح‬-‫ع‬.‫_ح‬ٝ.‫ى‬: Mot fonctionnel qui accepte les préfixes de conjonction et les préfixes de
préposition bi et li comme fabiman ٖٔ‫كَل ِلث َل‬.
A.2.2 Dictionnaire de préfixes :
Pour gagner en espace mémoire, nous proposons d’éviter le stockage des translitérations de
Buckwalter et de supprimer les tables de correspondances. Deux champs sont rajoutés dans
les dictionnaires pour les correspondances préfixe-suffixe et préfixe-stem.
91
Nouvelle Méthode d’Analyse Morphologique Arabe
Chapitre IV
Le nombre des entrées du lexique de préfixes est de 106 entrées avec l’ajout de 28
particules
définies
comme
suit :(
,َِ‫أك‬,َُٝ‫أ‬,ٍ‫أكثا‬,ٍ‫تا‬ٝ‫ أ‬,ٖ‫س‬ٝ‫أ‬,‫سد‬ٝ‫أ‬,‫أُد‬,٢ُٝ‫أ‬,ُٖ‫أ‬,‫أخ‬,
‫أف‬,ٝ‫أ‬,ُٖٝ‫أ‬,‫ُد‬ٝ‫أ‬,ٕٝ‫أ‬,١ٝ‫أ‬,‫خ‬ٝ‫أ‬,٢‫أس‬,‫أسد‬,ٕ‫أ‬,١‫أ‬,ٖ‫أكس‬,‫أكسد‬,ٖ‫أك‬,٢‫أك‬,‫أكد‬,٢‫س‬ٝ‫ أ‬٢ُ‫أ‬,٢ُٝ,ُٖٝ,‫ُد‬ٝ,٢‫)أكس‬.
Un exemple sur l’entrée de dictionnaire de préfixes:
Préfix
e
Vocalisé Catégorie
Morphologiq
ue
glossair
e
ٝ
ٝ‫َل‬
and
ٝ.‫س‬
Catégorie
Champ de corgrammatical respondance
e
Préfixesuffixes
‫ع‬.‫ح‬/ٝ‫َل‬
ٍ.‫ال‬
‫ِل‬-‫ا‬.ٍ
Champ de correspondance
Préfixe- stems
‫ٓئ‬.‫ج‬.‫ٓز‬.‫ج‬.‫ال‬.‫ٓز‬.ّ.‫ا‬
‫ٓز‬.‫ج‬.‫ال‬.‫ٓز‬.ّ.‫ا‬
Tableau IV.8 : exemple sur l’entrée de dictionnaire de préfixes.
A.3.3 Dictionnaire de suffixes :
Le champ ajouté dans ce dictionnaire c’est le champ de correspondance suffixe-stem et le
nombre des entrées du lexique de suffixes est de 252 entrées avec l’ajout de 46 particules
définies
comme
suit
:(
ٕ‫را‬٤ٗ,ٕ‫ا‬٤ٗ,ٕٞ٤ٗ,ًٖٛٞٔ,‫ٔا‬ًٛٞٔ,‫ا‬ًٛٞٔ,ًٙٞٔ,ًْٛٞٔ,ًٖٜ,‫ٔا‬ًٜ,‫ا‬ًٜ,ًٚ,ًْٜ,‫ئز‬
١,‫ٔا‬ٛ‫٘ا‬٣,‫ا‬ٛ‫٘ا‬٣,ٙ‫٘ا‬٣,ٖٜ‫ر‬٣,ْٜ‫ر‬٣,‫ٔا‬ٜ‫ر‬٣,ٚ‫ر‬٣,ٌٖ٘٣,ٌْ٘٣,‫ٌ٘ٔا‬٣,‫٘ي‬٣,ٕ‫را‬٣,ٖٜٗ‫ا‬,‫ا‬ٜٗ‫ا‬,ْٜٗ‫ا‬,‫ٔا‬ٜٗ‫ا‬,‫ا‬ٜٗ‫ا‬,ٚٗ‫ا‬,‫اٗ٘ا‬,٢٘ٗ‫ا‬,‫ح‬٣,ٕٞ٣,ٕ‫ا‬٣,‫ا‬ٞ٣,‫ا‬٣,
ًٖ‫٘ا‬٣,ًْ‫٘ا‬٣,‫٘أًا‬٣,‫٘اى‬٣,ٖٛ‫٘ا‬٣,ْٛ‫)ٗا‬.
Un exemple sur l’entrée de dictionnaire de suffixes :
Suffix
e
‫اى‬
Vocalisé Catégorie
Morphologiq
ue
‫ى‬
‫اى‬-‫ٓض‬.‫ف‬.ٍ
‫ا َل‬
glossair Catégorie
e
grammatical
e
you
ّ.‫ٓض‬.‫ف‬.ٍ/‫ا‬
.‫ف‬.ٍ/‫ى‬
‫ َل‬+‫ؽ‬.‫ز‬
+‫ٓخ‬.‫ٓز‬.ّ.‫ٓض‬
Champ de correspondance
suffixe- stems
‫ا‬.‫س‬.‫ٕ_ال‬-‫ٓض‬.‫ف‬
١
ُ _ٕ-‫ٓض‬.‫ف‬
Tableau IV.9 : exemple sur l’entrée de dictionnaire de suffixes.
B. Le processus d’analyse dans NAMA :
1. Tokenisation:
L’étape de tokenisation consiste à segmenter le texte aux mots par la suppression des
espaces, des marques de ponctuation et des signes mathématiques. Après la segmentation,
chaque mot obtenu est traité à part, si c’est un mot arabe alors passer à l’étape suivante sinon
le rejeter. Dans cette étape il existe deux compteurs qui calculent le nombre de mots arabes, et
le nombre de mots non arabes rejetés.
92
Nouvelle Méthode d’Analyse Morphologique Arabe
Chapitre IV
2. Normalisation
Cette étape n’est pas considérée dans l’analyseur de Buckwalter. Pour chaque token arabe
en entrée, elle consiste à :

Supprimer les diacritiques,

Remplacer maddah ( ٰ ) ou alef waslah (‫ )ٱ‬par alef bar (‫)ا‬

Remplacer deux bars alef (‫ )اا‬par alef madde ( ‫) آ‬.
3. Segmentation des tokens
La segmentation des tokens arabes en préfixes, suffixes et stems est une étape essentielle
de l’analyse, elle suit les contraintes suivantes :

La longueur du préfixe ne dépasse pas 5 lettres

La longueur du suffixe ne dépasse pas 6 lettres

La longueur du stem est au minimum 2 lettres.
Le choix de deux lettres est parvenu de la longueur minimale d’un mot arabe qui est deux
lettres comme ‫ذ‬٣.
Préfixe
Ø
Ø
Ø
‫ى‬
‫ًد‬
‫ًد‬
Radical
‫ًراب‬
Suffixe
‫ًرا‬
Ø
‫ب‬
‫ًد‬
‫اب‬
‫ذاب‬
‫ذا‬
‫اب‬
Ø
‫ب‬
Ø
Tableau IV.10 : Schémas de segmentation préalable du mot ktab par NAMA.
4. Vérification des dictionnaires
Cette étape est la plus importante dans le processus de segmentation car elle tente de
valider chaque schéma de segmentation ; elle doit passer par les vérifications suivantes :

Vérifier si les segments de (préfixes, stems, suffixes) sont trouvés dans chaque
dictionnaire correspondant.

Retourner toutes les segmentations valables
93
Chapitre IV

Nouvelle Méthode d’Analyse Morphologique Arabe
Pointer sur le préfixe trouvé dans le dictionnaire des préfixes et contrôler si la
catégorie morphologique du stem existe dans son champ de correspondance.

Pointer sur le préfixe trouvé dans le dictionnaire des préfixes et contrôler si la
catégorie morphologique du suffixe existe dans le champ de correspondance des
suffixes.

Pointer sur le suffixe trouvé dans le dictionnaire des suffixes et contrôler si la
catégorie morphologique du stem existe dans le champ de correspondance des stems
de ce suffixe.
Un schéma de segmentation est rejeté dès l’échec dans l’une de ces phases de vérification
des dictionnaires sans passer à la phase suivante.
5. Les variantes orthographiques
En cas d’échec d’analyse d’un mot arabe est le cas où on ne trouve aucune segmentation
où on ne valide aucune segmentation d’un mot arabe, elle consiste à contrôler l’orthographe
du mot en entrée selon les hypothèses suivantes :

Remplacer Alef initiale ( ‫ أ‬ou ‫ ) ا‬par ‫ا‬

Remplacer la finale ‫ء‬ٟ par ‫ء‬١

Remplacer la finale ‫ء‬١ par ‫ئ‬

Remplacer la finale ٟ par ١

Remplacer la finale ١ par ٟ

Remplacer la finale ٙ par ‫ج‬

Remplacer la finale ‫ ج‬par ٙ

Remplacer le médian ‫ء‬ٝ par ‫إ‬

Remplacer le médian ٟ par ١
Cette phase est caractérisée par l’ajout de deux hypothèses principales : Remplacer Alef
initiale ( ‫ أ‬ou ‫ ) ا‬par ‫ ا‬et Remplacer la finale ‫ ج‬par ٙ .
94
Nouvelle Méthode d’Analyse Morphologique Arabe
Chapitre IV
C. L’Algorithme de L’Analyseur Morphologique Proposé
-
-
Entrée : B, texte brut avec encodage UTF-8
Sortie : Sortie : S, liste d’une listes, liste des Mot
analysés et chaque mot analysé à une liste des schémas de
segmentation valides,si,n=(moti,prei,n,sufi,n,stmi,n,lemi,n,lexi,n)
 S(i). N=#S est la cardinalité de l’ensemble.
T :liste des mots ou tokens {ti}. #T est la cardinalité de
l’ensemble.
-
TN : liste des mots ou tokens non analysé {tni}. #TN est la
cardinalité de l’ensemble.
-
SP : liste des schémas de segmentation préalables {spj}. #SP
est la cardinalité de l’ensemble.
SV : liste des schémas de segmentation valables {svk}. #SV
est la cardinalité de l’ensemble.
PRF : dictionnaire des préfixes.
SFX : dictionnaire des suffixes.
STM : dictionnaire des stems.
-
Début
Entrer le texte B à analyser
S
Ø
Segmenter le
texte
Pour tout ti dans
SV
Ø
SP
Ø
en tokens
ti
T faire
Si le mot ti est arabe alors
Normaliser le mot
ti
(2)
Segmenter le mot ti en schéma de segments préalables
spj
Pour toute
Si le segment
segmentation spj dans SP faire
spj
est dans les dictionnaires PRF, SFX,
STM alors
SV
SV+ spj
FinSi
FinPour
95
Nouvelle Méthode d’Analyse Morphologique Arabe
Chapitre IV
Si
SV==Ø alors
TN
TN+ti
Sinon
Pour toute
Si
segmentation svk dans SV faire
la catégorie de stem est trouvée dans
le
dictionnaire de préfixes alors
Si
la catégorie de suffixe est trouvée dans
le
dictionnaire de préfixes alors
Si
la catégorie de stem est trouvée dans
le
dictionnaire de suffixes alors
S(i)
S(i)+svk
FinSi
FinSi
FinSi
FinPour
Si
S(i)==Ø alors
TN
TN+ti
Sinon
S
S+S(i)
FinSi
FinSi
FinPour
FinSi
Si TN≠Ø
Pour tout mot tnm dans TN faire
Corriger L’orthographe
96
Nouvelle Méthode d’Analyse Morphologique Arabe
Chapitre IV
Retourner à l’étape (2)
FinSi
FinPour
Fin
D. L’organigramme associé à NAMA :
Début
entrer le texte B
Segmenter le texte B en #T mots
Prendre un Mot ti
Le mot est arabe
Oui
Normaliser le mot
Segmenter le mot ti en #SP schémas
Oui
Prendre le schéma spj
Segmentation j
j<#SP
Non
Les segments existés
Oui
SV
j=j+1
SV+spj
Prendre le schéma svk
Oui
k<#SV
97
Nouvelle Méthode d’Analyse Morphologique Arabe
Chapitre IV
Vérifier la catégorie de stem dans le dictionnaire de préfixe
Non
La catégorie de stem existé
Oui
Vérifier la catégorie de suffixe dans le dictionnaire de préfixe
Non
La catégorie de suffixe existé
Oui
Vérifier la catégorie de stem dans le dictionnaire de suffixe
Non
La catégorie de suffixe existé
Oui
S (i)
k=k+1
S(i)+svk
Non
S
S+S(i)
S(i)==Ø
Oui
TN
TN+ti
i=i+1
Oui
i<#T
Non
Oui
TN≠Ø
Non
Prendre un Mot tnd de TN
98
Chapitre IV
Nouvelle Méthode d’Analyse Morphologique Arabe
Corriger L’orthographe
d=d+1
Oui
d<#TN
Non
Afficher les résultats d’analyse de texte
Fin
Figure IV.3 : L’Organigramme de NAMA
V.
Conclusion
Ce chapitre était consacré à la description détaillée de notre méthode NAMA proposée
pour le traitement automatique de la morphologie arabe. Partant de l’étude des analyseurs
existants, en particulier ceux de Buckwalter et de Khoja, notre contribution prend les aspects
suivant :
-
Encodage arabe des dictionnaires,
-
Enrichissement des trois dictionnaires (stems, préfixes et suffixes),
-
Prise en charge de certaines formes irrégulières de flexion,
-
Elargissement des schémas de segmentation possibles,
-
Traitement des formes verbales voyellées,
-
Intégration du processus de normalisation,
-
Algorithme d’analyse plus pratique.
Dans le chapitre suivant, nous mettant en application l’algorithme NAMA pour l’analyse et
l’indexation des documents arabe en vue d’une recherche d’information sémantique. Afin
d’apprécier l’efficacité de notre approche, nous menons une série de comparaisons sur
plusieurs niveaux avec d’autres méthodes d’analyse du texte arabe.
99
Chapitre V
Implémentation et Evaluation
Chapitre V
I.
Implémentation et Evaluation
Introduction
Après avoir exposé les différents aspects théoriques relatifs à l’analyse automatique du
texte arabe, nous décrivons dans ce chapitre l’implémentation et les expérimentations de ces
approches étudiées. Cette étude suivra deux parcours :
Le premier consiste en la comparaison des différents analyseurs arabes selon des métriques
standard sur un article de presse Echorouk et un corpus de concepts. Ceci nous permettra de
découvrir dans quel domaine notre analyseur proposé est-il plus efficace : dans le domaine
d’extraction des racines ou des stems ou bien dans le domaine d’extraction des lemmes et des
lexèmes.
Dans le deuxième parcours, nous présentons une analyse de performance de ces analyseurs
dans l’indexation sémantique pour la recherche d’information arabe sur deux corpus de
données. Il s’agit d’apprécier la faisabilité et l’utilité d’un un analyseur morphologique à base
de dictionnaires dans l’indexation sémantique des textes et des pages web arabes. Les
méthodes d’indexation sémantique expérimentées dans ce travail sont de deux modèles : le
premier est algébrique (méthode d’indexation sémantique latente), le deuxième relève des
modèles de langues (méthodes d’uni-grammes et de bi-grammes).
II.
Environnement des expérimentations
a. Matériel
Notre application est exécuté sur un ordinateur de type Acer d’un :
Processeur Intel(R) Core(TM) i3, vitesse 2.40 GHz.
Espace mémoire de 4 GB, type DDR3.
Disque dur de 500 GB.
b. Logiciels
L’environnement de travail choisi consiste en le langage Java NetBeans IDE version 6.9.1
installé sous le système d’exploitation Windows-7 professionnel 2009, ainsi que deux autres
logiciels ; le premier est Total-Commander pour la gestion des fichiers, et le deuxième est
MoEjam El-Logha El-Arabiya El-Moeasira pour le traitement automatique de la langue arabe.
b.1 Total-Commander
Total-Commander, est un gestionnaire de fichiers pour Windows (TM) développé
avec Delphi, il est similaire à Windows Explorer, mais ce logiciel utilise différentes approches
pour la recherche. Il a deux fenêtres visibles à côté l’une de l’autre et accepte les onglets pour
101
Chapitre V
Implémentation et Evaluation
afficher les fichiers ou des informations sur les fichiers. Avant 2002, le produit
s'appelait Windows Commander, mais pendant l'été 2002, Microsoft a réclamé un
changement de nom Windows ; il est alors devenu Total-Commander. Cette application
comporte de nombreuses fonctionnalités telles que copier, déplacer, renommer, glisserdéposer, supprimer.
b.2 MoEjam El-Logha El-Arabiya El-Moeasira
Le programme est un glossaire de la langue arabe actuelle établi par une équipe de
chercheurs arabes égyptiens. Il contient un dictionnaire évalué par le linguiste Ahmed
Mokhtar. Ce logiciel fournit les possibilités de recherche par racines, par entrée, par dérivés,
par expressions de recherche contextuelle ou par recherche libre dans le panneau du lexique.
c. Description des corpus de test
Pour les différents protocoles de test, nous utiliserons trois corpus de texte arabe :
1- Le premier corpus est un sous-ensemble, de 300 groupes de concepts, tiré du corpus
développé par A. Brahmi pour le calcul des erreurs de stemming selon les mesures de
Paice [Pai, 94]. L’ensemble original des « groupes-concepts » contient 13.142 mots
répartis sur 689 groupes dont chacun contient 10 mots au moins [Bra et al, 11].
2- Les deux
autres corpus sont des articles de presse réels (le quotidien algérien
Echorouk et l’agence de presse internationales Reuters) extraits de deux corpus plus
grands qui ont été construits et testés dans la modélisation par thème pour la recherche
d’information sémantique [Bra et al, 11]. Ces deux corpus contiennent des articles
web de période 2007-2009. Nous avons pris seulement un sous ensemble des deux
corpus pour la validation de notre travail ; chaque article est enregistré sous
l’encodage UTF-8.
Ech
Nbr des articles
346
Nbr de mots
125945
Nbr de caractères 672480
Rtr
596
175712
922993
Tableau V.1 : Caractéristiques des corpus Echorouk et Reteurs.
102
‫‪Chapitre V‬‬
‫‪Implémentation et Evaluation‬‬
‫‪Etude expérimentale sur le prétraitement linguistique‬‬
‫‪III.‬‬
‫‪a. Extraction des racines‬‬
‫‪Dans le but de découvrir la performance de notre méthode proposée (NAMA) dans‬‬
‫‪l’extraction des racines arabes, nous l’avons comparée avec les méthodes de racinisation vues‬‬
‫‪précédemment (Khoja et ISRI). L’article de test est tiré du journal Echorouk (voir Figure‬‬
‫‪V.1). Les résultats sont présentés dans le (Tableau V.2).‬‬
‫رزغجت ف‪ 70 ٟ‬ثبٌّبئخ ِٓ اٌغشائُ اإلٌىزش‪١ٔٚ‬خ‪ :‬رغ‪٠ٛ‬ك ثشاِظ رغغّظ ‪ٚ‬رخش‪٠‬ت ف‪ ٟ‬أع‪ٙ‬ضح ئػالَ آٌ‪ ٟ‬ثبٌغضائش‬
‫وشف اٌذوز‪ٛ‬س ِبٌ‪١‬ه ع‪ِ ٟ‬ؾّذ‪ ،‬سئ‪١‬ظ اٌذ‪ٛ٠‬اْ ثبٌّغٍظ اٌ‪ٛ‬طٕ‪ ٟ‬االلزصبد‪ٚ ٞ‬االعزّبػ‪ ٟ‬أْ ‪ 70‬ثبٌّبئخ ِٓ اٌغشائُ‬
‫اإلٌىزش‪١ٔٚ‬خ رؾذس ٔز‪١‬غخ ػذَ ر‪ٛ‬خ‪ ٟ‬االؽز‪١‬بطبد اٌالصِخ ٌزأِ‪ ٓ١‬اٌؾ‪ٛ‬اع‪١‬ت اٌشخص‪١‬خ ‪ٚ‬إٌظبَ اٌّؼٍ‪ِٛ‬بر‪ٌٍّ ٟ‬إعغبد‬
‫‪.‬اٌغضائش‪٠‬خ ِب ‪٠‬غؼٍ‪ٙ‬ب ػشضخ ٌالخزشاق‬
‫‪ٚ‬أ‪ٚ‬ضؼ أِظ‪ ،‬اٌذوز‪ٛ‬س وّبي ػذ‪ِ ،ٞ‬ذ‪٠‬ش ِخجش األثؾبس اٌّؼٍ‪ِٛ‬بر‪١‬خ ف‪ ٟ‬عبِؼخ و‪١‬جه ثىٕذا خالي رذخٍٗ ف‪ ٟ‬اٌ‪َٛ١‬‬
‫اٌذساع‪ ٟ‬ؽ‪ٛ‬ي اٌغشائُ اإلٌىزش‪١ٔٚ‬خ ثفٕذق األ‪ٚ‬ساع‪ٚ ٟ‬إٌّظّخ ِٓ لجً ِإعغخ "أ‪٠‬جبد" أْ أع‪ٙ‬ضح "اٌجالن ث‪١‬ش‪ٟ٘ "ٞ‬‬
‫األوضش ػشضخ ألٔظّخ اٌزغغظ ‪ٚ‬اٌزخش‪٠‬ت اٌّجشِظ‪ ،‬ؽ‪١‬ش رشزغً ٘زٖ األع‪ٙ‬ضح ‪ٚ‬فك رمٕ‪١‬بد ِؼٍ‪ِٛ‬بر‪١‬خ دل‪١‬مخ ‪ِٚ‬ؼمذ‬
‫رغّؼ ثادِبط أٔظّخ رغغظ ‪ٚ‬رخش‪٠‬ت ِجشِغخ لجً رغ‪٠ٛ‬م‪ٙ‬ب ‪ٚ‬رُؾ‪ ٓ١‬ثصفخ د‪ٚ‬س‪٠‬خ ثّغشد ئعشاء ِىبٌّبد ٘برف‪١‬خ أ‪ٚ‬‬
‫االرصبي ثبٌشجىخ اٌؼٕىج‪ٛ‬ر‪١‬خ‪ِ ،‬إوذا أْ عّ‪١‬غ اٌّإعغبد ‪ٚ‬اٌ‪١ٙ‬ئبد ف‪ ٟ‬اٌغضائش ػشضخ ٌٍغشائُ اإلٌىزش‪١ٔٚ‬خ‪ ،‬ؽ‪١‬ش ال‬
‫ر‪ٛ‬عذ أ‪ِ ٞ‬إعغخ ِؾّ‪١‬خ ئٌىزش‪١ٔٚ‬ب‬
‫‪ٚ‬اشبس اٌّزؾذس ئٌ‪ ٝ‬أْ اٌزشش‪٠‬ؼبد ‪ٚ‬اٌم‪ٛ‬أ‪ ٓ١‬اٌّزؼٍمخ ثبٌغشائُ اإلٌىزش‪١ٔٚ‬خ غ‪١‬ش وبف‪١‬خ ٌّ‪ٛ‬اع‪ٙ‬خ ٘زا إٌ‪ٛ‬ع ِٓ اٌغشائُ‬
‫ف‪ ٟ‬ظً رؼم‪١‬ذ اٌغش‪ّ٠‬خ اإلٌىزش‪١ٔٚ‬خ اٌز‪ ٟ‬ال ‪٠‬زشن ِشرىج‪ٙ‬ب أ‪ ٞ‬أصش‪ ،‬وّب أْ ِؾبسثخ اٌّ‪ٛ‬الغ اٌز‪ ٟ‬رٕشش أفىبسا رطشف‪١‬خ ‪ٚ‬‬
‫ئس٘بث‪١‬خ ػٍ‪ ٝ‬اٌشجىخ اٌؼٕىج‪ٛ‬ر‪١‬خ ‪٠‬صؼت ِؾبسثز‪ٙ‬ب ‪ٚ‬رؼط‪ٍٙ١‬ب‪ ،‬ؽ‪١‬ش ال ‪٠‬زطٍت رغ‪١١‬ش اٌّ‪ٛ‬لغ ئال ‪ 10‬دلبئك فضال ػٓ‬
‫ؽ‪ ً١‬اٌزّ‪ ٗ٠ٛ‬اإلٌىزش‪ِ ٟٔٚ‬ب ‪ُ٠‬ؼمذ ِٓ ػٍّ‪١‬خ اٌزؾم‪١‬ك ‪ٚ‬رؾذ‪٠‬ذ ٘‪٠ٛ‬خ اٌغ‪ٙ‬بد اٌؾم‪١‬م‪١‬خ اٌّغ‪١‬شح ٌ‪ٙ‬زٖ اٌّ‪ٛ‬الغ‬
‫‪Figure V.1 : L’article d’Echorouk utilisé dans les tests.‬‬
‫‪NAMA ISRI‬‬
‫‪Khoja‬‬
‫‪Nbr de mots‬‬
‫‪200‬‬
‫‪200‬‬
‫‪200‬‬
‫‪Nbr de racines justes‬‬
‫‪178‬‬
‫‪107‬‬
‫‪135‬‬
‫‪Taux de reconnaissance‬‬
‫‪89% 53.50% 67.50%‬‬
‫‪Tableau V.2 : Les résultats d’extraction des racines‬‬
‫‪Afin de valider ces résultats, nous avons comparés manuellement les résultats trouvés par‬‬
‫‪notre analyseur par avec celles du dictionnaire arabe El-Misbaho-El-Mounir le taux de‬‬
‫‪reconnaissance obtenu pour NAMA était le même.‬‬
‫‪103‬‬
Chapitre V
Implémentation et Evaluation
Discussion
Une analyse séparée des analyseurs montre la cause des défaillances de Khoja et ISRI.
Alors que Khoja confonde certains mots avec les mots fonctionnels, donc interprétés comme
mots vides, tels que (‫ء‬ٟ‫ف‬-ٟ‫ ف‬،ِٕٓ-ِٓ). En plus, il donne des racines inexacts comme (‫سِظ‬-‫)ثشاِظ‬
( ٟ١ٌ– ٌٟ‫طأ ( ) آ‬ٚ - ٟٕ‫ط‬ٌٛ‫ لٕأ( ) ا‬- ‫بد‬١ٕ‫ ) رم‬et ( ْٛ‫ ل‬- ٓ١ٔ‫ا‬ٛ‫اٌم‬ٚ). Pour la méthode ISRI, les racines
des mots fonctionnels trouvés ont la même forme de mot d’entrée, mais il existe trop de
formes trouvées erronées comme : (‫سِظ‬-‫ ِبح ( )ثشاِظ‬- ‫ظ ) ) ثبٌّبئخ‬٠‫ س‬- ‫ظ‬١‫ ) )سئ‬ٛ٠‫ د‬- ْ‫ا‬ٛ٠‫) د‬.
Par ailleurs, ces défaillances sont automatiquement remédiés par notre analyseur NAMA,
par exemple (‫ثشِظ‬-ٌٟ‫أ‬-ٓ‫ط‬ٚ-ٓ‫رم‬-ٕٓ‫ل‬- ْٚ‫د‬-‫سءط‬-ٞ‫) َء‬. Mais il faut reconnaitre qu’il est incapable
de reconnaitre les racines des mots non arabes comme (‫بد‬١ٔٚ‫ ; )اٌىزش‬ce mot ne possède pas une
racine mais un stem ou une tige en français parce que ce mot appartient aux mots intrus dans
l’Arabe. Les mots non analysés par NAMA sont des symboles, chiffres mathématiques ou
noms propres n’existant pas dans le dictionnaire de lemmes:
b. Extraction des stems
Pour voir le comportement de la méthode proposée pour l’extraction des stems arabes,
nous l’avons comparé avec le lemmatiseur assoupli (light stemming) et le nouveau stemmer
(ANEA) sur le même article. Le tableau suivant montre le résultat des tests :
Ana
Nbr de mots
200
Nbr de stems 180
justes
Taux
de 90%
reconnaissance
light
SP
SPS
SPW
AL
200
119
SPSWA
L
200
149
200
130
200
119
200
149
65%
59.5% 74.5% 59.5% 74.5%
SPWO
AL
200
119
SPSWO
AL
200
149
59.5%
74.5%
Tableau V.3 : Les résultats d’extraction des stems
Discussion
Comme il a été expliqué dans le chapitre précédent, le stem est le noyau lexical d’un mot.
On remarque que le nouvel analyseur a donné des bons résultats, il élimine les préfixes et les
suffixes flexionnels selon les besoins d’extraction du stem par exemple le suffixe yah n’a pas
été supprimé parce que s’il est éliminé, le sens se diffère comme : ‫ –عضائش‬ٞ‫اٌغضائش‬. La première
indique une nationalité et la deuxième indique un pays.
104
Chapitre V
Implémentation et Evaluation
Le deuxième stemmer SPS donne des bons résultats surtout par rapport au light stemmer
mais leurs résultats sont identiques aux résultats de SPSWAL et SPSWOAL malgré les
différences de prétraitement. Le processus de suppression de tous les suffixes suivi par la
suppression des préfixes à un effet sur les résultats d’analyse les moins bons de SP, et ça
donne la supériorité à SPS contre SP.
Donc on peut conclure dans cette étude que malgré le même ensemble de suffixes et de
préfixes, on obtient des résultats différents si on permute seulement les étapes d’exécution.
c. Extraction des lemmes et lexèmes
Le nouvel analyseur arabe extrait aussi les lemmes et les lexèmes arabes à l’aide d’un
dictionnaire arabe nommé : Almuajm Alwaset, ce dictionnaire donne pour un lexème arabe
tous les lemmes appropriés (voir l’exemple de la Figure V.2).
) ٗ‫( أث‬
Lexème arabe
ٚ ٗ‫ ؽمبسر‬ٚ‫ٌٗ أ‬ّٛ‫ٗ ٌخ‬١ٌ‫ٍزفذ ئ‬٠ ‫ ال‬ٚ ٗ‫ؾزفً ث‬٠ ‫ ثٗ ال‬ٚ‫إثٗ ٌٗ أ‬٠ ‫ء ال‬ٟ‫مبي ش‬٠ ٚ ٗ‫ رٕج‬ٚ ٌٗ ٓ‫ب فط‬ٙ‫ ثٗ أث‬ٚ ٌٗ
ٗ‫ّٗ ث‬ٙ‫فالٔب ثىزا ار‬
Lemme arabe
ٗ‫ب أث‬ٙ‫ثٗ أث‬ٚ ٌٗ ) ٗ‫( أث‬
ٗ‫ّٗ ث‬ٙ‫ فالٔب ثىزا ار‬ٚ ٗ١ٌ‫ٗ ئ‬ٙ‫( أثٗ ) فالٔب ٌىزا ٔج‬
‫ رشفغ‬ٚ ٖ‫ ػٕٗ رٕض‬ٚ ‫ٗ رىجش‬١ٍ‫ ػ‬ٚ ٗٙ‫ع أث‬ٚ‫( رأثٗ ) ِطب‬
ٖ‫اؤ‬ٚ‫ س‬ٚ ٗ‫خ اٌغٍطبْ ػظّز‬ٙ‫ٗ أث‬١ٍ‫مبي ػ‬٠ ٚ ‫اء‬ٚ‫ اٌش‬ٚ ‫خ ) اٌؼظّخ‬ٙ‫( األث‬
‫مبي‬٠ ٚ ‫ح صبس أثب‬ٚ‫ ئثب‬ٚ ‫ح‬ٛ‫( أثب ) أث‬
ٛ‫أث‬١ٌ ٗٔ‫مبي ئ‬٠ ‫خ‬١‫ اٌزشث‬ٚ ‫خ‬٠‫ اٌزغز‬ٟ‫ وبْ ٌٗ وبألة ف‬ٚ ‫ فالٔب صبس ٌٗ أثب‬ٚ ‫ح‬ٕٛ‫ق ِغ اٌج‬ٛ‫ اٌؼم‬ٚ ‫ح‬ٛ‫اٌجش ِغ األث‬
‫ّب‬١‫ز‬٠
‫ فالٔب أثب ارخزٖ أثب‬ٚ ‫ فالٔب ارخزٖ أثب‬ٚ ‫ ) أثب ارخز أثب‬ٝ‫( رأث‬
ٖ‫ فالٔب رأثب‬ٚ ‫ أثب‬ٝ‫ ) أثب رأث‬ٝ‫( اعزأث‬
ٚ‫ء أ‬ٟ‫غبد ش‬٠‫ ئ‬ٟ‫ ِٓ وبْ عججب ف‬ٍٝ‫ ػ‬ٚ ‫ء‬ٟ‫ صبؽت اٌش‬ٍٝ‫ ػ‬ٚ ُ‫ اٌؼ‬ٍٝ‫طٍك ػ‬٠ ٚ ‫اٌغذ‬ٚ ‫اٌذ‬ٌٛ‫( األة ) ا‬
‫ح‬ٛ‫رٗ أث‬ٛ‫مبي أث‬٠ ٚ ( ٟ‫ارجؼذ ٍِخ آثبئ‬ٚ ) ‫ض‬٠‫ً اٌؼض‬٠‫ اٌزٕض‬ٟ‫ ف‬ٚ ‫ح‬ٛ‫ أث‬ٚ ٛ‫ أث‬ٚ ‫ ئصالؽٗ ( ط ) آثبء‬ٚ‫سٖ أ‬ٛٙ‫ظ‬
ٚ ٖ‫ٗ ئرا شبثٗ أثب‬١‫ فالْ اثٓ أث‬ٚ ‫ّب ِطؼبِب‬٠‫بف ئرا وبْ وش‬١‫ األض‬ٛ‫ أث‬ٚ ‫ف‬١‫ اٌض‬ٛ‫مبي فالْ أث‬٠ ٚ ٖ‫صذق آثبؤ‬
ٚ ‫اضغ اٌزؼغت‬ِٛ ٟ‫مبي ال أة ٌٗ ف‬٠ ٚ ٟ‫ه ثأث‬٠‫ أٔذ أفذ‬ٟ‫ ثأث‬ٚ ‫ اٌزؼغت‬ٚ ‫ ِؼشض اٌّذػ‬ٟ‫ن ف‬ٛ‫مبي هلل أث‬٠
‫ اٌضعش‬ٚ ‫اٌؾش‬
‫ األة‬ٟ‫س ٌغخ ف‬ٛ‫( األثب ) ِمص‬
Figure V.2 : Description d’un lexème extrait d’Almuajm Alwaset.
La figure ci-dessous indique l’affichage des résultats d’analyse de deux mots « ‫اٌزوبء‬
ٟ‫ » اٌصٕبػ‬par notre nouvel analyseur, cette fenêtre contient toutes les informations sur les
mots ainsi les statistiques d’analyse.
105
Chapitre V
Implémentation et Evaluation
Figure V.3 : La fenêtre d’affichage de l’analyse NAMA
IV.
Evaluation de performance des analyseurs sur des groupes de concepts :
Afin de mesurer les erreurs de stemming selon Paice, nous utilisons dans cette section le
corpus de groupes de concepts contenant 300 groupes. Chaque groupe est considéré comme
une entrée d’analyse pour les méthodes : ISRI, Light, SP, SPS, SPSWAL, SPSWOAL, SPWAL,
SPWOAL. La sortie est une ligne représentant les mots bruts avec leurs stems. Pour comparer
les résultats de ces méthodes, on a calculé les métriques de rapidité de CPU et la capacité
mémoire allouée par chaque méthode CRAM ainsi la moyenne de nombre de stems par classe
MWC et les facteurs d’indexation ICF. Le tableau suivant indique ces résultats tel que:
ISRI : Racinisation sans dictionnaire des racines.
LIGHT : Stemming léger.
NAMAR : Le nouvel analyseur morphologique et la sortie est racine.
NAMAS : Le nouvel analyseur morphologique et la sortie est stem.
NAMAX : Le nouvel analyseur morphologique et la sortie est lexème.
SP : Stemming basé sur la suppression de tous les suffixes et préfixes.
SPS : Stemming basé sur la suppression d’une seul suffixe et de tous les préfixes et le reste
des suffixes.
SPWAL: Stemming avec SP mais avec le traitement de l’article « AL,‫» اي‬.
SPWOAL: Stemming avec SP mais sans traitement de l’article « AL,‫» اي‬.
SPSWAL: Stemming avec SPS mais avec le traitement de l’article « AL,‫» اي‬.
SPSWOAL : Stemming avec SPS mais sans traitement de l’article « AL,‫» اي‬.
106
Chapitre V
Implémentation et Evaluation
N
13831
ISRI
LIGHT 13831
NAMAR 13831
NAMAS 13831
13831
SP
13831
SPS
SPSWAL 13831
SPSWOAL 13831
SPWAL 13831
SPWOAL 13831
S MWC ICF TCPU
1358 10.19 0.90 2. 90 s
9039 1.54 0.35 3.40s
553 25.02 0.97 6.25h
1323 10.45 0.90 6.25h
8788 1.57 0.36 2.38s
3526 3.93 0.74 4.34s
3526 3.93 0.74 7.67s
3526 3.93 0.74 2.37s
8788 1.57 0.36 5.94s
8723 1.58 0.37 2.37s
CRAM
20.70Ko
5.58Ko
7.87Mo
7.87Mo
1.70Ko
2.10Ko
2.40Ko
2.20Ko
1.90Ko
1.80Ko
Tableau V.4 : Les résultats d’extraction des stems
Discussion
L’un des objectifs de l’analyse est la réduction de la taille d’un n’importe quel vocabulaire par
la réduction de différentes formes d’un mot en une seule entrée d’un index représentée par un
stem, racine ou lemme. Ce tableau montre que NAMAR est le seul analyseur qui donne un
nombre minimum de stems, il a réduit le nombre de mots de 13831 à 553 racines ce qui
indique que la plupart des mots ont les mêmes racines (valeur élevée de MWC et de ICF). La
méthode ISRI a donné des résultats proches de NAMAS avec un ICF de 0.90, par contre light
est la méthode qui donne un grand nombre de stems avec un ICF faible.
Néanmoins, ces mesures ne suffisent pas pour juger les analyseurs étudiés puisqu’on peut
trouver des racines ou stems mal classés. Nous calculons, dans ce qui suit, les erreurs de surstemming (OI) et de sur-stemming (UI).
GDMT
59177
ISRI
59177
LIGHT
59177
NAMAR
59177
NAMAS
59177
SP
59177
SPS
59177
SPSWAL
SPSWOAL 59177
59177
SPWAL
SPWOAL 59177
GDNT
16001101
16001101
15724594
15724594
16001101
16001101
16001101
16001101
16001101
16001101
CI
41389
3012
57570
31438
3495
18768
18768
18768
3495
3410
DI
15983294
16001111
15702276
15725757
16001099
16000602
16000602
16000602
16060278
16001093
mots
5674
5674
5674
5674
5674
5674
5674
5674
5674
5674
Mots
différents
5668
5668
5619
5619
5668
5668
5668
5668
5668
5668
Des paires de
groupes mots
300
16060278
300
16060278
300
15783771
300
15783771
300
16060278
300
16060278
300
16060278
300
16060278
300
16060278
300
16060278
Tableau V.5 : Les résultats d’extraction des stems
107
Chapitre V
Implémentation et Evaluation
Pour les 300 groupes de concepts, le nombre des paires de mots et le nombre de mots
différents sont identiques pour toutes les méthodes sauf NAMAR et NAMAS qui ont donné
moins des paires de mots ; cela peut indiquer que ces deux méthodes ont bien analysé les mots
et ont bien ramassé les mots identiques et le facteur de CI (Indice d’Appariement) confirme
ceci, tel que NAMAR possède la grande proportion des paires des mots équivalents,
lesquelles sont groupées correctement au même stem. Toutes les méthodes ont le même
GDMT (le total des fusions désiré globale) alors que NAMAR et NAMAS ont des valeurs
moins de GDNT (le total des non-fusions désiré globale) par rapport aux autres et cette
différence revenue de la valeur initiale de paires des mots. On remarque aussi que la méthode
NAMAR possède la valeur minimum de DI (Indice de la distinction), elle a la plus petite
proportion des paires de mots non équivalents qui sont restés distincts après le stemming.
Pour mieux interpréter ces résultats, nous calculons les erreurs de stemming UI , OI et
SW.
UI (× 10-02) OI (× 10-07) SW (× 10-07) UI+OI (× 10-02)
ISRI
LIGHT
NAMAR
NAMAS
SP
SPS
SPSWAL
SPSWOAL
SPWAL
SPWOAL
30.1
94.9
2.72
46.9
94.1
68.3
68.3
68.3
94.1
94.2
11100
-6.25
14200
-740
1.25
312
312
312
1.25
5.00
37000
-6.58
523000
-1580
1.33
457
457
457
1.33
5.31
30.2
94.9
2.86
46.9
94.1
68.3
68.3
68.3
94.1
94.2
Tableau V.6 : Les erreurs de stemming
Selon cette étude, et selon la métrique UI , les résultats de l’algorithme de NAMAR sont les
plus fiables, elle donne la valeur la plus petite d’UI, ce qui indique que les 553 groupes de
racines trouvés de concepts contiennent des formes uniques dans la plupart des cas. Alors
que les algorithmes de LIGHT et SP ont les valeurs les plus elevées parmi les méthodes
appliquées ce qui interprète des erreurs importantes en «sous-lemmatisation» ; c’est-à-dire
qu’il ne réduit pas suffisamment et trouve donc des formes encore différentes pour des mots
attachés au même concept (voir Figure V.4) :
108
Chapitre V
Implémentation et Evaluation
UI
1.00E+00
8.00E-01
6.00E-01
4.00E-01
2.00E-01
0.00E+00
Figure V.4 : Le graphe des erreurs de sous-stemming UI
À l'inverse des valeurs d’UI, les valeurs d’OI montrent que LIGHT est un stemmer puissant
avec les autres méthodes de SP,NAMAS,SPS. Cependant, les valeurs de NAMAR et ISRI
sont moins précis que ceux apportés par LIGHT, elles ont produit plutôt des erreurs OI un peu
plus élevées, c’est-à-dire qu’elles ont réduit les mots de concepts distincts à la même forme.
Par conséquents, nous aurons lors de l’indexation certains groupes de concepts confondus à
une forme unique de racine ce qui présente une source potentielle de "bruit" dans un système
de RI. C’est les fusions indésirables.
OI
1.50E-03
1.00E-03
5.00E-04
0.00E+00
5.00-E-04
Figure V.5 : Le graphe des erreurs de stemming OI.
Comme compromis entre les indices UI et OI, on peut prendre le rapport entre les deux (la
métrique SW) comme un indicateur général de la performance des chaque méthode. Les tests
montrent que les méthodes à base de stem sont les meilleures.
109
Chapitre V
Implémentation et Evaluation
SW
6.00E-02
5.00E-02
4.00E-02
3.00E-02
2.00E-02
1.00E-02
0.00E+00
1.00-E-02
Figure V.6 : Le graphe d’erreurs de stemming SW
Par ailleurs, on peut tout simplement additionner les deux métriques précédentes UI et OI
pour apprécier le cumul d’erreurs de stemming. De ce point de vue, l’avantage est attribué aux
analyseurs NAMAR et ISRI.
UI+OI
1.00E+00
8.00E-01
6.00E-01
4.00E-01
2.00E-01
0.00E+00
Figure V.7 : Le graphe de cumul des erreurs de stemming UI+OI
Les métriques utilisées nous donnent une appréciation à priori de la qualité de chaque
analyseur dans le texte arabe. L’évaluation pratique, de ces métodes dans des contextes bien
précis, nous permettra de mieux comprendre leur comportement et
leur efficacité. En
particulier, nous nous interressons à evaluer ces algorithmes dans l’indexation sématique des
textes arabes pour la recherche d’information. La section suivante expose les résultats de cette
étude.
110
Chapitre V
V.
Implémentation et Evaluation
Etude expérimentale des analyseurs linguistiques pour la recherche ad-hoc
Pour la tâche de recherche d’information ad-hoc ou par requête libre, nous procédons par un
prétraitement linguistique des documents arabes en vue de créer un index sémantique sur le
corpus en question. Deux méthodes d’indexation sont appliquées : la première est algébrique
consiste en l’indexation sémantique latente, et la deuxième est probabiliste comprenant
celles d’uni-gramme et de bi-gramme.
Trois requêtes sont appliquées pour comparer la performance de chaque modèle
d’indexation. Nous calculons la précision et le rappel pour les dix premiers documents
retournés et sur la totalité des documents. En plus, nous calculons la précisons interpolée de
chaque requête, la précision interpolée moyenne des trois requêtes et la précision moyenne
(MAP).
Notre implémentation de ces approches est faite après l’analyse morphologique des
documents de deux corpus suivant les méthodes décrites au-dessus, mais avant toute analyse
on doit supprimer les mots vides qui n’ont aucun rôle dans la recherche d’information arabe et
dans le but de réduction de la matrice initiale des occurrences.
‫ب‬ٙ١‫ٓ ف‬١‫ث‬ٚ ٟ‫وبْ رٍه وزٌه اٌز‬ٚ ٍٝ‫ظ أؽذ ػ‬١ٌٚ ٗ‫ْ ث‬ٛ‫ى‬٠ ٛ٘ٚ ٝ‫ ِٓ ؽز‬ٟ‫ ف‬ٌٝ‫ ا‬ٍٟ٠ ‫اْ ثؼذ ضذ‬
ْٚ‫ي د‬ٛ‫ ِب ػٕٗ ؽ‬ٞ‫وبٔذ أ‬ٚ ‫غت‬١ٌ ‫ِٓ ال‬ٚ ٓ١‫ أِب ؽ‬ٞ‫ظ ِٕز اٌز‬١ٌ ‫ ٌىٓ ػٓ ِغبء‬ٍٝ‫ػ‬ٚ ْ‫ب ئ‬ٙ١ٍ‫ػ‬
‫َ ٌُ ٘إالء‬ٛ١ٌ‫ُ ألْ ا‬ٌٙ ْ‫ وب‬ٛ‫ٓ عذا ٌٓ ٔؾ‬١‫ْ لذ ث‬ٛ‫ فمظ صُ ٘زٖ أٔٗ رى‬ٟ‫اٌز‬ٚ ‫ٌىٓ ٌٗ ٘زا‬ٚ ٕٗ‫ِغ ٌى‬
ٚ‫ب أ‬ٌٙ ‫ رؾذ‬ٛٙ‫ ف‬ٟ‫ف‬ٚ ‫ب‬ٙ‫ب ِٕٗ ث‬ٕٙ‫ ػ‬ٛ٘ ً‫ِغ فمذ ث‬ٚ ْ‫ أ‬ٟ‫ص‬ٚ ٜ‫ٓ وً ثذ ٌذ‬٠‫ ػٕذ اٌٍز‬ٌٛ ‫ٗ رٌه‬١‫فاْ ف‬
ٚ‫ ارا ا‬ٟ٘ ‫ش‬١‫ ئرا ً٘ ؽ‬ٌٝ‫ب ئ‬ِٕٙ َٛ٠ ٗ‫لذ وبٔذ ٌزٌه أِبَ ٕ٘بن لجً ِؼ‬ٚ ‫ف ٕ٘ب‬١‫ٗ وّب و‬١ٍ‫ ػ‬ٍٟ‫ئر ػ‬
‫ ظً ِبثشػ‬ٝ‫ اضؾ‬ٝ‫ أضؾ‬ٝ‫ اِغ‬ٝ‫ضاي اصجؼ أصجؼ أِغ‬٠‫ضاي ِب‬٠‫ ِبصاي الصاي ال‬ٌٟ‫ ئ‬ٌٟ‫ ِب ال ا‬ٚ
‫ ثذال‬ٞ‫ٌٗ راد ا‬ٚ ‫ي‬ٚ‫ ضّٓ ا‬ٌٟ‫ضاي اٌؾب‬٠‫ال‬ٚ ‫ّب‬١‫ذ ٌؼً الع‬١ٌ ْ‫ظ ئْ وأ‬١ٌ ‫ِبفزئ ِبأفه ثبد صبس‬
ٞ‫زا ٌذ‬ٙ‫ّىٓ ث‬٠ ٗ١ٌ‫ ا‬ٞ‫ ثاْ اٌز‬ٛ‫ْ ِّب أث‬ٛ‫زا اال فىبْ عزى‬ٌٙ ‫٘زا‬ٚ ٞ‫اٌز‬ٚ ْ‫ا‬ٚ ٗٔ‫ٓ فب‬٠‫ب أٗ اٌز‬ٙ١ٌ‫ا‬
ٜ‫ ٘ٓ اٌز‬ٞ‫ آي اٌز‬ٛ‫أث‬ٚ ٟ٘ٚ ْ‫أ‬ٚ
Figure V.8 : Les mots vides arabes
V.1. Description des requêtes et jugements de référence :
Pour chaque corpus de test, nous utiliserons trois
requêtes pour des sujets différents. Les
trois requêtes utilisées pour le corpus Echorouk sont pour des sujet (sport, politique, société) :
« َ‫ ٌىشح اٌمذ‬ٞ‫ » إٌّزخت اٌغضائش‬, « ‫مخ‬١ٍ‫رف‬ٛ‫ض ث‬٠‫ظ ػجذ اٌؼض‬١‫ »اٌشئ‬et « ٟ‫»اٌّغشة اٌؼشث‬، et les trois autres
111
Chapitre V
Implémentation et Evaluation
requête utilisées pour le corpus Reuters sont pour des sujet (culture, sport, économie): « ‫اٌٍغخ‬
‫خ‬١‫ »اٌؼشث‬, «َ‫ » وأط اٌؼبٌُ ٌىشح اٌمذ‬et «ٌّٟ‫»أخجبس االلزصبد اٌؼب‬.
Le logiciel Total-Commander contient une commande de recherche des fichier selon une
requête donnée. Dans notre recherche avec ce logiciel, chaque requête a donnée un ensemble
de fichier ou de document pertinent qui contenant cette requête .les résultats de recherche de
nombre de document pertinent pour chaque requête avec ce logiciel sont comme suit :
Requêtes pour Ech
Nbr de DocP
Requêtes pour Rtr
Nbr de DocP
«َ‫ ٌىشح اٌمذ‬ٞ‫» إٌّزخت اٌغضائش‬
18
«‫خ‬١‫»اٌٍغخ اٌؼشث‬
6
«‫مخ‬١ٍ‫رف‬ٛ‫ض ث‬٠‫ظ ػجذ اٌؼض‬١‫»اٌشئ‬
6
«َ‫» وأط اٌؼبٌُ ٌىشح اٌمذ‬
19
«ٟ‫»اٌّغشة اٌؼشث‬
9
«ٌّٟ‫»أخجبس االلزصبد اٌؼب‬
12
Tableau V.7 : Le nombre de documents pertinents de chaque requête
Pour évaluer et comparer notre méthode, nous nous baserons sur les différentes mesures de RI
que nous avons présentées dans le chapitre trois : la précision, le rappel, la mesure F à dix
documents retrouvés , la R- précision et la MAP que nous noterons P@10, R@10, F@10 Rprec, APQ (Average Precision Qurie) et la courbe de moyenne de précision à 11 points de
rappel d’un ensemble de requêtes.
V.2.
Evaluation de la recherche ad-hoc selon le modèle LSI :
Cette analyse consiste à construire une matrice d’occurrences qui sera réduite pour faire
ressortir les relations sémantiques « latentes » entre mots ou entre textes. Le choix de valeur
de réduction k a un grand effet sur les résultats de cette méthode. Dans notre travail et après
plusieurs essai, nous avons choisi k= la taille de matrice initiale/2 ce qui rend à chaque corpus
son valeur de K comme se montre le tableau suivant:
Corpus Ech Corpus Rtr
La valeur de K
173
298
Tableau V.8 : la valeur de K choisi pour chaque corpus.
Le trie des documents se fait d’une façon décroissante selon le résultat de pertinence
requête-document j. Le tableau suivant présente P@10, R@10, F@10, R- prec, APQ pour
112
Chapitre V
Implémentation et Evaluation
chauqe requête et les moyennes PM@10, RM@10, FM@10 de trois requêtes ainsi que la moyenne
des R-précisions RM- prec et la MAP.
Méthodes/
Métrique
P1@10
R1@10
F1@10
R1-Prec
APQ1
ISRI
LIGHT NAMAR NAMAS SP
SPS
NAMAL NAMAX
0.2
0.11
0.14
0.22
0.06
0.3
0.16
0.21
0.33
0.15
0.6
0.33
0.42
0.38
0.26
0.2
0.11
0.14
0.27
0.05
0.4
0.22
0.28
0.38
0.11
0.3
0.16
0.16
0.27
0.11
0.4
0.22
0.28
0.22
0.12
0.4
0.22
0.28
0.33
0.15
P2@10
R2@10
F2@10
R2-Prec
APQ2
P3@10
R3@10
F3@10
R3-Prec
APQ3
0.1
0.16
0.125
0.16
0.16
0.2
0.22
0.21
0.22
0.09
0.1
0.16
0.125
0.16
0.16
0.3
0.33
0.31
0.33
0.33
0.1
0.16
0.125
0.16
0.05
0.2
0.22
0.21
0.22
0.09
0.2
0.33
0.25
0.16
0.19
0.4
0.44
0.42
0.44
0.33
0.4
0.66
0.5
0.33
0.36
0.4
0.44
0.42
0.44
0.26
0.2
0.33
0.33
0.16
0.20
0.3
0.33
0.33
0.33
0.18
0.4
0.66
0.5
0.5
0.35
0.2
0.22
0.21
0.22
0.18
0.1
0.16
0.125
0.16
0.08
0.2
0.22
0.21
0.22
0.083
PM@10
RM@10
FM@10
RM-Prec
MAP
0.16
0.16
0.15
0.3
0.10
0.23
0.21
0.215
0.27
0.213
0.3
0.23
0.256
0.253
0.13
0.26
0.29
0.27
0.29
0.19
0.4
0.44
0.4
0.38
0.24
0.26
0.41
0.27
0.25
0.16
0.33
0.36
0.33
0.31
0.216
0.23
0.2
0.205
0.23
0.104
Tableau V.9 : Performance de la recherche avec la méthode LSI sur le corpus Echorouk
Ces résultats préliminaires montre que
la méthode NAMAR donne les meilleures
performances pour la première requête, par contre le NAMAL est la plus appropriée pour la
deuxième requête, mais pour la troisième requête le NAMAS est la plus convenable. Les
moyennes des p@10, F@10 placent la méthode SP devant NAMAL, lui-même devant
NAMAS et SPS qui sont devant NAMAR, lui-même devant light et NAMAX et en dernier
ISRI. Le SP obtient néanmoins la meilleure moyenne des R-précisions et de MAP devant
toutes les autres méthodes.
Pour avoir une idée générale en termes de précision et de rappel des résultats obtenus par
les huit méthodes, nous traçons la courbe de moyenne des précisions à 11 points de rappel
obtenue pour l’ensemble des requêtes.
113
Chapitre V
Implémentation et Evaluation
Résulats de pertinence
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
Light
ISRI
SP
SPS
NAMAR
NAMAS
NAMAL
NAMAX
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Figure V.8 : courbe de moyenne des précisions à 11 points de rappel obtenue pour
l’ensemble des requêtes de corpus Echorouk avec la méthode LSI
La figure 8 montre que les trois méthodes light, SP et SPS obtiennent des meilleurs scores
quand le rappel est inférieur à 20 %.Le NAMAL obtient des meilleurs résultats quand le taux
de rappel est entre 20 % et 50 %.La méthode SP est à nouveau obtient des meilleurs résultats
quand le taux de rappel est entre 50 % et 90 %,après ce taux les deux méthodes SP et
NAMAL ont les même scores.
Analysons maintenant les résultats des moyennes de P@10, R@10, F@10, RM-Prec et
MAP de trois requêtes obtenus par la méthode LSI sur le corpus Reuters :
Méthodes/ Métrique ISRI LIGHT NAMAR NAMAS SP
PM@10
RM@10
FM@10
RM-Prec
MAP
0.2
0.18
0.17
0.16
0.12
0.2
0.11
0.14
0.16
0.049
0.13
0.14
0.12
0.14
0.09
0.23
0.27
0.23
0.27
0.18
0.16
0.11
0.14
0.15
0.048
SPS
NAMAL NAMAX
0.2
0.21
0.21
0.23
0.12
0.16
0.09
0.12
0.15
0.06
0.1
0.08
0.08
0.09
0.06
Tableau V.10 : Performance de la recherche avec la méthode LSI sur le corpus Reuters
Le tableau 10 positionne, en termes de toutes les mesures, notre méthode NAMAS en premier devant
les autres méthodes.
114
Chapitre V
Implémentation et Evaluation
Examinons la courbe de moyenne des précisions à 11 points de rappel obtenue pour les trois
requêtes sur Reuters :
Résulats de pertinence
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
Light
ISRI
SP
SPS
NAMAR
NAMAS
NAMAL
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
NAMAX
Figure V.9 : courbe de moyenne des précisions à 11 points de rappel obtenue pour
l’ensemble des requêtes de corpus Reuters avec la méthode LSI
La figure 9 montre que la méthode NAMAS obtient les meilleurs scores quand le rappel
est inférieur à 23 % et quand le taux de rappel est entre 68 % et 83 %.Le NAMAX obtient les
meilleurs résultats quand le taux de rappel est entre 23 % et 47 %.la méthode SPS a des
meilleurs scores quand le taux de rappel est entre 47% et 68%. Après le taux 83 % la
méthode NAMAL obtient les meilleurs scores.
V.2.
Evaluation de la recherche ad-hoc selon le modèle Uni-gramme :
Dans cette implémentation, on a considéré le corpus comme étant un langage des mots, et on
a suivi la démarche suivante :

Analyser le langage avec l’une des méthodes décrites au-dessus.

Construire la matrice des occurrences des mots de langage analysés (corpus analysé).

Transférer cette matrice en matrice de probabilité par la formule suivante :
Occurrence/ nb.terme

Analyser la requête avec la même méthode d’analyse de langage.

Calculer la probabilité de pertinence de séquence des termes de requête analysée avec
les documents de corpus selon les conditions suivantes :
Si un terme de requête analysé appartient à la matrice d’occurrence (terme/document)
alors : P (si)=P (si-1)*P (terme/document).
115
Chapitre V
Implémentation et Evaluation
Sinon : P(si)=0

Trier les probabilités de pertinence pour chaque document par ordre décroissant.
Le tableau suivant présente la moyenne de précision, rappel et la F-mesure, ainsi que la moyenne
des R-précisions RM- prec et la MAP. La méthode uni-gramme est appliquée pour le corpus
Echorouk avec comme base de calcul les dix documents restitués de trois requêtes .
Méthodes/ Métrique ISRI LIGHT NAMAR NAMAS SP
0.4
0.49
0.42
0.42
0.38
PM@10
RM@10
FM@10
RM-Prec
MAP
0.56
0.66
0.59
0.57
0.55
0.33
0.38
0.34
0.35
0.17
0.5
0.59
0.52
0.53
0.50
SPS NAMAL NAMAX
0.53
0.62
0.55
0.53
0.53
0.46
0.57
0.49
0.49
0.44
0.5
0.59
0.52
0.57
0.49
0.4
0.49
0.42
0.46
0.37
Tableau V.11 : Performance de la recherche avec la méthode uni-gramme sur le corpus
Echorouk
Discussion :
Les résultats obtenus par tous les mesures montre que light est la méthode la plus
performante suivi par SP qui lui-même suivi par NAMAS et NAMAL qui lui-même suivi par
SPS qui lui-même suivi par ISRI et NAMAX et en dernier la méthode NAMAR.
Étudions maintenant la courbe de moyenne des précisions à 11 points de rappel obtenue
pour les trois requêtes sur Echorouk avec la méthode uni-gramme :
Résulats de pertinence
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
Light
ISRI
SP
SPS
NAMAR
NAMAS
NAMAL
NAMAX
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
116
Chapitre V
Implémentation et Evaluation
Figure V.10 : courbe de moyenne des précisions à 11 points de rappel obtenue pour
l’ensemble des requêtes de corpus Echorouk avec la méthode uni-gramme
Discussion :
La figure montre que les méthodes light, SP et NAMAL obtiennent les meilleurs scores
quand le rappel est inférieur à 40 %. Quand le taux de rappel est entre 40 % et 68 % le
NAMAL reste la seule méthode qui obtient la meilleure précision. Quand le taux de rappel
est entre 70 % et 80 % la méthode NAMAX a des meilleurs scores. Après le taux 83 % la
méthode SP obtient les meilleurs scores.
Analysons maintenant les résultats des moyennes de P@10, R@10, F@10, RM-Prec et
MAP de trois requêtes obtenus par la méthode uni-gramme sur le corpus Reuters :
Méthodes/ Métrique ISRI LIGHT NAMAR NAMAS SP
PM@10
RM@10
FM@10
RM-Prec
MAP
0.56
0.53
0.5
0.56
0.5
0.53
0.5
0.47
0.55
0.5
0.53
0.48
0.46
0.58
0.45
0.53
0.5
0.47
0.55
0.48
0.33
0.17
0.22
0.26
0.17
SPS
NAMAL NAMAX
0.53
0.5
0.47
0.54
0.49
0.53
0.5
0.47
0.55
0.48
0.53
0.48
0.46
0.58
0.45
Tableau V.12 : Performance de la recherche avec la méthode uni-gramme sur le corpus
Reuters
Discussion :
Les moyennes des p@10, p@10, F@10 et MAP placent la méthode ISRI en premier
devant light et NAMAS. Le NAMAR obtient la meilleure moyenne des R-précisions avec
NAMAX devant le reste des méthodes.
Étudions maintenant la courbe de moyenne des précisions à 11 points de rappel obtenue
pour les trois requêtes sur Reuters avec la méthode uni-gramme :
117
Chapitre V
Implémentation et Evaluation
Résulats de pertinence
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
Light
ISRI
SP
SPS
NAMAR
NAMAS
NAMAL
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
NAMAX
Figure V.11 : courbe de moyenne des précisions à 11 points de rappel obtenue pour
l’ensemble des requêtes de corpus Reuters avec la méthode uni-gramme.
Discussion :
La figure montre que toutes les méthodes obtiennent les mêmes précisions quand le taux
de rappel est inferieur de 80 %, ils sont quasi identiques sauf pour la méthode SP qui a des
scores faibles. Quand le taux de rappel est supérieur de 80 % la méthode NAMAL a des
meilleurs scores.
V.3.
Evaluation de la recherche ad-hoc selon le modèle Bi-gramme
Le tableau suivant présente la moyenne de
précision, rappel et la mesure F quand dix
documents restitués de trois requête ainsi que la moyenne des R-précisions RM- prec et la
MAP avec la méthode bi-gramme sur le corpus Echorouk.
Méthodes/ Métrique ISRI LIGHT NAMAR NAMAS SP
PM@10
RM@10
FM@10
RM-Prec
MAP
0.5
0.55
0.51
0.49
0.5
0.46
0.53
0.48
0.48
0.48
0.5
0.55
0.51
0.49
0.5
0.5
0.55
0.51
0.49
0.5
0.46
0.53
0.48
0.48
0.48
SPS
NAMAL NAMAX
0.5
0.55
0.51
0.49
0.5
0.5
0.55
0.51
0.49
0.51
0.5
0.55
0.51
0.49
0.5
Tableau V.13 : Performance de la recherche avec la méthode bi-gramme sur le corpus
Echorouk
118
Chapitre V
Implémentation et Evaluation
Discussion :
Les résultats obtenus par tous les mesures montre que NAMAL est la méthode la plus
performante suivi par NAMAS, NAMAR , NAMAX, SPS et ISRI qui ont suivi par Light et
SP .
Étudions maintenant la courbe de moyenne des précisions à 11 points de rappel obtenue pour
les trois requêtes sur Echorouk avec la méthode bi-gramme :
Résulats de pertinence
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
Light
ISRI
SP
SPS
NAMAR
NAMAS
NAMAL
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
NAMAX
Figure V.12 : courbe de moyenne des précisions à 11 points de rappel obtenue pour
l’ensemble des requêtes de corpus Echorouk avec la méthode bi-gramme
Discussion :
Les résultats de précisions obtenus par tous les méthodes deviennent quasi identiques
lorsque le nombre des documents restitués augmente.
Analysons
maintenant les résultats des moyennes de P@10, R@10, F@10, RM-Prec et
MAP de trois requêtes obtenus par la méthode bi-gramme sur le corpus Reuters :
Méthodes/ Métrique ISRI LIGHT NAMAR NAMAS SP
PM@10
RM@10
FM@10
RM-Prec
MAP
0.3
0.38
0.31
0.38
0.37
0.3
0.38
0.31
0.38
0.37
0.3
0.38
0.31
0.33
0.36
0.3
0.38
0.31
0.33
0.36
0.1
0.05
0.06
0.05
0.04
SPS
NAMAL NAMAX
0.3
0.38
0.31
0.38
0.37
0.3
0.38
0.31
0.33
0.36
0.3
0.38
0.31
0.33
0.36
Tableau V.14 : Performance de la recherche RI avec la méthode bi-gramme sur le corpus
Reuters
119
Chapitre V
Implémentation et Evaluation
Discussion :
Le tableau 14 montre que toutes les méthodes sauf SP ont des résultats identiques selon les
mesures PM@10 et RM@10,mais pour les deux autres mesures RM-Prec et MAP ont donnent
la supériorité aux méthodes Light, SPS et ISRI.
Étudions maintenant la courbe de moyenne des précisions à 11 points de rappel obtenue pour
les trois requêtes sur Reuters avec la méthode bi-gramme :
Résulats de pertinence
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
Light
ISRI
SP
SPS
NAMAR
NAMAS
NAMAL
NAMAX
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Figure V.13 : courbe de moyenne des précisions à 11 points de rappel obtenue pour
l’ensemble des requêtes de corpus Reuteurs avec la méthode bi-gramme
Les résultats de précisions obtenus par tous les méthodes deviennent quasi identiques
lorsque les valeurs de rappel augmentent sauf la méthode SP qui a des scores inferieurs.
VI.
Analyse sur l’efficacité des analyseurs dans l’indexation en RI :
En récapitulant les différents résultats de nos expérimentation sur la performance de
chaque analyseur dans l’indexation en RI, il est intéressant de noter les faits suivant :
Bien que la méthode NAMAR était la meilleure pour produire les racines correctes, son
efficacité diminue dans l’indexation en RI. La racine, qui fait perdre la richesse sémantique du
mot, paraît moins significative par rapport au simple stem qui garde, plus ou moins, la
discrimination sémantique ; par exemple les deux mots (l’Algérie ‫ اٌغضائش‬,‫ اٌغضس‬le carotte) ont
120
Chapitre V
Implémentation et Evaluation
la même racine (‫)عضس‬, Par contre leurs stems successivement sont ( ‫)عضس عضائش‬, cela permet
d’entrer deux mots à la matrice d’occurrences et non seulement un.
Avec le modèle des bi-grammes, la performance de la recherche est significative pour les
requête contenant des termes fortement liés comme pour les deux premières : « ‫خ‬١‫» اٌٍغخ اٌؼشث‬
pour le corpus Echorouk, et la requête « ٟ‫ » اٌّغشة اٌؼشث‬pour le corpus Reuters. On a trouvé
tous les documents avec une R-précision égale à 1 avec toutes les méthodes d’analyse.
La méthode d’analyse NAMAL a donné des bons résultats avec toutes les méthodes
d’indexation et cela signifie que l’indexation par lemme convient globalement pour les
modèles de recherche d’information.
La combinaison de la méthode LSI avec la méthode d’analyse NAMAS, les performances
étaient significativement améliorées. Ceci montre que NAMAS donne des stems adéquats
pour la recherche d’information basée sur la sémantique latente.
La méthode d’indexation sémantique latente LSI a donné des résultats encourageants dans
les deux corpus Echorouk et Reuters et pour les trois requêtes. Ceci peut être expliqué par son
aptitude à capturer, en même temps, la sémantique et la morphologie des mots. Les méthodes
n-grammes manipulent uniquement la morphologie issue de l’analyseur en prétraitement.
Par comparaison entre les résultats des tests de ces méthodes d’indexation, on peut dire que
la méthode la plus efficace pour l’indexation sémantique dans notre étude est LSI. Il faut
souligner, que la dimension de la matrice d’occurrences (nombre des termes) dépend plutôt de
la méthode d’analyse morphologique, et non pas du modèle d’indexation en RI. Cette
dimension va être réduite dans le modèle LSI selon un paramètre K de la méthode SVD.
VII.
Conclusion
Toutes les méthodes d’analyse morphologique arabe procèdent par la suppression d’un
grand nombre de préfixes et suffixes. Chacune utilise ses propres listes et sa propre procédure
de suppression. Bien que ces listes ont une influence imminente sur la sortie finale, mais reste
la façon du traitement aussi décisive même avec des listes identiques.
Les méthodes d’analyse morphologique basés sur les dictionnaires sont les méthodes les
plus adaptées et les plus conformes pour tous les changements morphologiques des mots
arabes. Néanmoins, le coût de réalisation reste élevé et leur exécution prend une charge CPU
121
Chapitre V
Implémentation et Evaluation
plus importante. Par contre, les méthodes de lemmatisation assouplie ou light-stemming sont
plus simples à réaliser et leur temps de réponse, lors de la mise en œuvre, est plus rapide.
Les méthodes d’analyse les plus efficaces pour la recherche d’informations sont les
méthodes qui sont basées sur l’extraction des stems (light, NAMAS). Avec le modèle LSI,
cette efficacité est plus significative. Par ailleurs, l’indexation par lemme (NAMAL) est plus
robuste et donne presque les meilleures performances pour tous les modèles d’indexation
appliqués dans cette étude.
122
Conclusion
Générale
Conclusion générale
Pour la recherche d’information documentaire, les techniques de traitement automatique
des langues naturelles sont requises dans le processus d’indexation et d’analyse des requêtes
des utilisateurs. L’objectif, de répondre au besoin en information de l’utilisateur, peut être
réalisé par la prise en charge de la sémantique dans les modèles de représentation et
d’indexation des textes. Les méthodes d’analyse morphologique des langues hautement
dérivationnelles et flexionnelles représentent l’approche linguistique pour une recherche
d’information efficace.
Le présent travail s’intéresse à l’étude des méthodes de traitement automatique de la
morphologie arabe et leur efficacité dans l’indexation sémantique des textes arabes non
structurés. Nous avons conçu et implémenté un Nouvel Analyseur Morphologique Arabe
(NAMA). Un dictionnaire arabe a été construit est intégré. L’algorithme propose quatre types
de sortie (stem, racine, lemme et lexème). D’autre analyseurs ont été implémentées et
expérimentées. Par ailleurs, trois modèles d’indexation en RI (uni-gramme, bi-gramme et
LSI) ont été implémentés et appliqués pour la recherche ad-hoc dans deux corpus arabes.
Notre étude montre que pour la tâche de recherche d’information ad-hoc, les méthodes
d’analyse du texte arabe basées sur l’extraction des stems sont les plus appropriés. Leur
efficacité est plus significative avec les modèles de sémantique latente. Par ailleurs, et bien
qu’elle soit plus coûteuse, l’indexation par lemme reste plus robuste et donne des
performances équivalentes pour la plupart des modèles d’indexation en RI. Les lemmatiseurs
à base de dictionnaires sont plus sollicités dans les tâches plus complexes de traitement
automatique de la langue naturelle telles que le résumé et la traduction automatiques.
Comme perspective, on suggère d’améliorer notre analyseur morphologique NAMA à base
de dictionnaires par l’insertion de niveau sémantique en indiquant les synonymes, les opposés
et les polysémies. Ceci est essentiel pour améliorer le niveau de traitement automatique de la
langue arabe et faciliter l’apprentissage dans un contexte didacticiel. Pour la recherche
d’information, il est faut extraire des règles linguistiques arabes robustes pour l’extraction de
stem et améliorer les listes des préfixes et suffixes ainsi que le processus de traitement de ces
listes. La prise en charge des entités nommées (personnes, endroits, …) peut aussi améliorer
la qualité de l’analyse morphologique et, par conséquent, améliorer les résultats de recherche.
Bibliographies
Bibliographie :
[Bou, 08] : Siham Boulaknadel, "Traitement Automatique des Langues et Recherche
d’Information en langue arabe dans un domaine de spécialité : Apport des connaissances
morphologiques et syntaxiques pour l'indexation ", thèse de Doctorat présenté en 18 Octobre
2008, Laboratoire: LABORATOIRE D'INFORMATIQUE DE NANTES ATLANTIQUE.
[Khe, 06] : Aïda KHEMAKHEM,"ArabicLDB : une base lexicale normalisée pour la langue
arabe" mémoire présenté en vue de l’obtention du diplôme de MASTER en Systèmes
d’Information et Nouvelles Technologies en 2 Novembre 2006, Université de Sfax, Faculté des
Sciences Economique et de Gestion, Tunisie.
[You, 08] : Atef Ben Youssef," Méthodes Mixtes pour la Traduction Automatique Statistique
" mémoire présenté en vue de l’obtention du diplôme de MASTER 2 en Modélisation et
traitements automatique en Industries De la Langue : parole, écrit, apprentissage Orientation
Recherche en 01 juillet 2008, Université STENDHALGrenoble3, Laboratoire d’informatique de
Grenoble Équipe GETALP.
[Mes ,08] : Slim MESFAR, " Analyse Morpho-Syntaxique Automatique et Reconnaissance
des entités nommées En Arabe Standard", thèse de Doctorat présenté en 24 Novembre 2008,
Université De Franche-Comté.
[Dou, 04] : Fouad Soufiane Douzidia, " Résumé automatique de texte arabe" ,Mémoire
présenté à la Faculté des études supérieures en vue de l’obtention du grade de M.Scen
informatique en Septembre 2004,Université de Montréal.
[Zag, 09] : Wajdi Zaghouani," Le repérage automatique des entités nommées dans la langue
arabe : vers la création d'un système à base de règles", Mémoire présenté à la Faculté des
études supérieures en vue de l’obtention du grade de M.A. en linguistique en Mars 2008,
Université de Montréal.
[Kas, 05] : Dina EL KASSAS, " UNE ETUDE CONTRASTIVE DE L’ARABE ET DU
FRANÇAIS DANS UNE PERSPECTIVE DE GENERATION MULTILINGUE ", thèse de
Doctorat présenté en soutenue le 16 décembre 2005. UNIVERSITE PARIS 7 – DENIS
DIDEROT, UFR Linguistique.
[Ben, 10] : Mohamed Benitto, "LES RELATIONS RACIALES EN GRANDE-
BRETAGNE : LA COMMUNAUTE ARABE DE LONDRES ET LA
QUESTION INTERCULTURELLE (2001-2008)" thèse de Doctorat présenté en
12 Novembre 2010,Discipline : Etudes Anglophones.
[Mes ,08] : Slim MESFAR, " Analyse Morpho-Syntaxique Automatique et Reconnaissance
des entités nommées En Arabe Standard", thèse de Doctorat présenté en 24 Novembre 2008,
Université De Franche-Comté.
[kad, 08]: Kadri Youssef, « Recherche d'Information Translinguistique sur les Documents en
Arabe », Thèse présentée à la Faculté des études supérieures en vue de l'obtention du grade de
Philosophiæ Doctor (Ph.D.) en informatique, Département d’informatique et de recherche
opérationnelle Faculté des arts et des sciences, Université de Montréal, présenté au
Septembre, 2008.
[Bou, 08] : Siham Boulaknadel, "Traitement Automatique des Langues et Recherche
d’Information en langue arabe dans un domaine de spécialité : Apport des connaissances
morphologiques et syntaxiques pour l'indexation ", thèse de Doctorat présenté en 18 Octobre
2008, Laboratoire: LABORATOIRE D'INFORMATIQUE DE NANTES ATLANTIQUE.
[Kad et al, 06]: Kadri Youssef, & Jian-Yun
Nie, « Effective Stemming for Arabic
Information Retrieval ». Le Challenge de l’Arabie pour NLP/MT, International Conf. at the
British Computer Society (BCS), pp. 68-74, London, UK, publier en 2006.
[Lark et al, 02]: Larkey, L. S., Ballesteros, L., & Connell, M. E, « Improving stemming for
Arabic information retrieval: Light stemming and co-occurrence analysis ». En Proceedings
de SIGIR 2002, pp. 275-282, Tampere, Finlande, publier en 2002.
[Che et al, 03]: Aitao Chen, Fredric Gey, « Building an Arabic Stemmer for Information
Retrieval » l’école des systèmes de management d’information, Université de Californie au
Berkeley, USA, publier en 2003.
[Kaz et al, 03]: Kazem Taghva, Rania Elkhoury, JeÌrey Coombs, « Arabic Stemming
Without A Root Dictionary », institut de recherché d’information des sciences, Université de
Nevada, Las Vegas, USA.
[Hay et al, 05]: Hayder K. Al Ameed, Shaikha O. Al Ketbi, Amna A. Al Kaabi, Khadija S.
Al Shebli,Naila F. Al Shamsi, Noura H. Al Nuaimi, Shaikha S. Al Muhairi, «ARABIC
LIGHT STEMMER: ANEW ENHANCED APPROACH»,département d’informatique
College of Technologie d’Information, UAE Université ,Al-Ain, UAE, article publier pour le
2eme conférence international sur l’innovation de la technologie d’information en 2005.
[ROEK et al, 05]: Anne N. DE ROECK, Waleed AL-FARES, « A Morphologically
Sensitive Clustering Algorithm for Identifying Arabic Roots».
[Lar et al, 06]: Larkey L. S., Ballesteros, L, & Connell, M. E « Light Stemming for Arabic
Information Retrieval Center for Intelligent Information Retrieval and in part by
SPAWARSYSCENSD ».
[Lar et al, 03]: Larkey Leah S, Margaret E. Connell, « Arabic Information Retrieval at
UMass in TREC-10 Centre de
recherché d’information Département de l’informatique,
Université de Massachusetts ».
[Dic et al, 08]: Joseph Dichy, Ramzi Abbès, « Extraction automatique de fréquences lexicales
en arabe et analyse d’un corpus journalistique avec le logiciel AraConc et la base de
connaissances DIINAR.1», Université Lumière Lyon 2, ICAR-CNRS JADT 2008 : 9eme
Journées internationales d’Analyse statistique des Données Textuelles.
[Bra et al, 11]: Abderrezak Brahmi, Ahmed Ech-Cherif, Abdelkader Benyettou, « Arabic
texts analysis for topic modeling evaluation », Department d’Informatique, USTO, publier en
Springer le 23 May 2011.
[Kho et al, 01]: Shreen Khoja, Porger Garside, and Gerry Knowles « A tagset for the
morphosynactic tagging of Arabic ».Article présenté en corpus linguistique 2001, Université
de Lancaster, UK, Mars 2001.
[Mou et al, 08] : Mourad Mars, Georges Antoniadis, Mounir Zrigui « NOUVELLES
RESSOURCES ET NOUVELLES PRATIQUES PEDAGOGIQUES AVEC LES OUTILS »
TAL : 2008.
[Kho et al, 01]: Shreen Khoja, «APT: Arabic Part-of-speech Tagger ». Université de
Carnegie Mellon, Pittsburgh, Pennsylvania, Juin 2001.
[Sha et al, 98]: Riyad AI-Shalabi, « A Computational Morphology System for Arabic »
Martha Evens, département d’informatique et application mathématique, Institut d’Illinois de
Technologie Chicago.
[Pai, 94] : Chris D. Paice, « An Evaluation Method for Stemming Algorithms» ; Département
d’Informatique, Université de Bailrigg, Lancaster, Le royaume unie, 1994.
[Sham et al, 08]: Eiman Tamah Al-Shammari, Jessica Lin, Ph.D. « Towards an Error-Free
Arabic Stemming»,iNEWS’08, October 30, 2008, Napa Valley, California, USA
[Jal et al, 02]: Radwan Jalam, Jean-Hugues Chauchat, «Pourquoi les n-grammes permettent
de classer des textes?Recherche de mots-clefs pertinents à l’aide des n-grammes
caractéristiques », Laboratoire ERIC, Université de lyon2, France.
[Cat ,10] : Catherine Roussey, "Une méthode d'indexation sémantique adaptée aux corpus
multilingues ", thèse de Doctorat
présenté en 10 décembre 2010, Laboratoire d'Ingénierie
des Systèmes d'Information (LISI) de l'INSA de Lyon.
[Zar ,10] : Haïfa Zargayouna, "Indexation sémantique de documents XML", thèse
Doctorat
de
présenté en 15 Décembre 2005, Université Paris XI.
[Dom, 11] : Domingos Ruiz Lepores, "Des grandes classifications au Web de données et
l’émergence de l’indexation sémantique: le cas du tagging sémantique dans le portail»,
mémoire
présenté pour obtenir le
Titre professionnel "Chef de projet en ingénierie
documentaire" INTD
niveau I en
8 décembre 2011, École Management et Société-
Département CITS, INTD.
[Elg,04] : Haytham Elghazel, "Approches textuelles pour la recherche d’images ", mémoire
présenté en vue d’obtention de Diplôme d’Etudes Approfondies en 6 juillet 2004, L’Institut
Nationale des Sciences Appliquées de Lyon.
[GAS,10] : GASMI Mounira, " Utilisation des ontologies pour l’indexation automatique des
sites Web en Arabe ", Mémoire Présenté pour l’obtention du diplôme de MAGISTER en 27
mai 2009 ,Spécialité : Informatique, UNIVERSITE KASDI MERBAH OUARGLA.
[DEN, 03] : Alina IVANCIUC DENIAU, " Moteurs de recherche et restitution de
l’information dans les grandes entreprises : ", mémoire
DESS EN SCIENCES DE L’INFORMATION
présenté en vue d’obtention LE
ET DE LA DOCUMENTATION
SPÉCIALISÉES en 25 novembre 2003.
[TAR, 05] : Gaëlle LE TARGAT, " Langages classificatoires et recherche d’information sur
les portails d’entreprise : quels apports pour les utilisateurs ? ", mémoire
présenté en vue
d’obtention DESS en Sciences de l’information et de la documentation spécialisées en 13
Octobre 2005.
[Fat, 08] : Fatiha BOUBEKEUR-AMIROUCHE "Contribution à la définition de modèles de
recherche d'information flexibles basés sur les CP-Nets", thèse de Doctorat
présenté en
01/ 07/ 2008, spécialité : Informatique, Université Toulouse III - Paul Sabatier.
[HAR, 09] : Farah HARRATHI "Extraction de concepts et de relations entre concepts à
partir des documents multilingues : Approche statistique et ontologique ", thèse de Doctorat
présenté en 28 Septembre 2009, Institut Nationale des Sciences Appliquées de Lyon.
[RAJ et al] : Martin RAJMAN, Romaric BESANÇON,Jean-Cédric CHAPPELIER, " LE
MODÈLE DSIR: UNE APPROCHE À BASE DE SÉMANTIQUE DISTRIBUTIONNELLE
POUR LA RECHERCHE DOCUMENTAIRE" ,Article de Laboratoire d’Intelligence
Artificielle, Département Informatique, École Polytechnique Fédérale de Lausanne.
[Mic et al ,10] : Michèle Hudon, Widad Mustapha El Hadi, " ORGANISATION DES
CONNAISSANCES
ET DES RESSOURCES DOCUMENTAIRES ".Article publier en
2010 à paris.
[Mus, 05] : Mustapha El Hadi Widad, " INDEXATION HUMAINE ET INDEXATION
AUTOMATISÉE :
LA PLACE DU TERME ET DE SON ENVIRONNEMENT ".Article
publier de Lille 3, France, en 2005.
[Boug et al, 03] : Mohand Boughanem, Wessel Kraaij , Jian-Yun Nie , " Modèles de langue
pour la recherche d’information ".Article publier en 2003.
[Buc, 02] :Tim BUCKWALTER," Buckwalter Arabic Morphological Analyzer Version 1.0.
" , le numéro de catalogue est LDC2002L49. Rapport interne ISBN 1-58563-257-0 en 2002.
[Web1] :http://fr.wikipedia.org/wiki/Arabe.Dernière modification de cette page le 29 juin
2011 à 18:23, consulté le 1 juillet 2011.
[Web
2]:
http://www.lesitedeslangues.com/apprendre_larabe/histoire_de_larabe.htm,
consulté le 1 juillet 2011.
[Web 3]:
http://www.agoravox.fr/actualites/religions/article/la-langue-arabe-son-histoire-
son-77459 Dernière modification de cette page le 25 juin 2011, consulté le 1 juillet 2011.
[Web 4]: http://www.les-hiboux.rasama.org/langue-arabe.html, Dernière modification le
samedi 24 avril 2010 consulté le 1 juillet 2011.
[Web 1] :www.wikipidia.com,consulter en 12/11/2011.
[Web 2] :www.Sakhr.com , consulter en 14/12/2011.
Les références arabes :
[Gla, 07] : Mostapha Al-Glayini, "‫"جامع انذروس انعزبية‬
Lebanon.
, livre édité
en 2007 en Bierut,
ّ ‫"شذا انعزف في‬, livre publié en 17 décembre 2005.
[Ham, 05] : Ahmed Al-hamlawi, "‫فن انصّزف‬
[Kha et al, 10]: Khalil El-Basri, «‫»بزنامج انخهيم انصّزفي دنيم االستعمال‬,2010.
[Bra et al, 11]: Abderrezak Brahmi, Ahmed Ech-Cherif, Abdelkader Benyettou,
«
‫» تحهيم انذالالت انكامنة في اننصوص انعزبية بواسطة انتحهيم انصزفي و اننمذجة بانمواضيع‬, Département
d’Informatique, USTO, 2011.
[Saw et al,08]: Majdi Sawalha, Eric Atwell, « ‫» توظيف قواعذ اننحو وانصزف في بناء محهم نهغة انعزبية‬,
Université de Leeds,UK.
Résumé
Le traitement automatique de la langue arabe est un domaine très vaste
dans le cadre de
l’évaluation des méthodes de recherche d’information et du TextMining, il consiste à traiter
les niveaux morphologiques, syntaxiques, phonologiques et lexicaux
. Avec le peu des
travaux dans le domaine, il s’avère primordial de disposer d’outils d’analyse efficaces afin de
promouvoir les travaux de recherche en arabe sur le Web. Dans un langage à haute
morphologie dérivationnelle telle que l’arabe, la détection des unités lexicales dans un texte
électronique n’est guère une tâche triviale. Certaines méthodes de stemming, par simple
troncature des affixes ou par extraction des racines plus abstraites, ont été développées et
validées pour des tâches classiques de la recherche d’informations (catégorisation, clustering,
ordonnancement, …etc.). Toutefois, ces techniques de stemming risquent d’induire une
caractérisation ambiguë du texte arabe pour des modèles à base d’indexation sémantique.
Par ailleurs, l’analyse morphologique s’appuie sur des ressources linguistiques combinant un
vocabulaire prédéfini, des schémas de construction
et des règles strictes de dérivation,
cependant, la non-disponibilité libre de telles ressources reste une entrave majeure devant le
développement des modèles sémantiques pour le texte arabe.
L’objectif de ce projet est d’élaborer une étude comparative des différentes approches de
stemming et d’étudier la faisabilité d’utiliser l’une ou l’autre pour les modèles d’indexation
sémantique des textes arabes. Il s’agit aussi de développer un analyseur morphologique pour
l’extraction des racines et des lemmes arabes et de l’évaluer sur des corpus textuels réels.
Mots
clés :
Arabe,
Recherche
d’Information,
Indexation
Sémantique,
Analyse
Morphologique, lemmatisation.
Abstract :
Automatic analysis of Arabic text is an essential step in information retrieval; it is based on
several methods of morphological analysis, among them: stemming methods and
morphological analysis based dictionaries methods. In this work we develop a new Arabic
morphological analyzer based on dictionaries by adding a large numbers of prefixes and
suffixes. We attempt to extract the accuracy semantic roots, stems, lexemes and lemmas of
Arabic words. This method is compared with four different stemming approaches: Light
stemming of Larkey which truncates a word by simple rules, Khoja analyzer, Arabic
Stemming without a root dictionary and Light stemming ANEA : a new enhanced approach.
Keywords: Morphological Analyzer, Arabic Language, dictionaries, Stemming.