Analyse Morphologique du Texte Arabe pour Son
Transcription
Analyse Morphologique du Texte Arabe pour Son
République Algérienne Démocratique et Populaire Ministère de l’Enseignement Supérieur et de la Recherche Scientifique Université des Sciences et de la Technologie - Mohamed Boudiaf - Oran Mémoire présentée en vue de l'obtention du diplôme de Magistère en Informatique Option : Reconnaissance des Formes et Intelligence Artificielle. Analyse Morphologique du Texte Arabe pour Son Indexation Sémantique. Présentée par : BENZATER Nebia. Composition du jury : Président Mohamed BENYETTOU Professeur USTO-MB Rapporteur Abdelkader BENYETTOU Professeur USTO-MB Examinatrice Hafida BELBACHIR Professeur USTO-MB Examinatrice Hadria FIZAZI Professeur USTO-MB Invité Abderrezak BRAHMI Maître de conf."B" Année universitaire 2014-2015 Univ. Mostaganem Remerciements En préambule à ce mémoire, la grande louange à هللاqui m’aide et me donne la bonne santé, la patience et le courage durant l’élaboration de ce modeste travail. Je tiens tout d’abord à remercier sincèrement mon encadreur monsieur BENYETTOU Abdelkader, professeur à l’Université de l’USTO et le directeur de laboratoire SIMPA, de me fait confiance, avoir accueilli au sein de son Laboratoire et encadré ce mémoire. Je lui suis particulièrement reconnaissante de m’avoir laissé une grande liberté scientifique tout au long de mon travail dans ce mémoire. J’aimerai particulièrement adresser mes remerciements les plus vifs et ma reconnaissance à mon Co-encadreur , Monsieur Abderrezak BRAHMI maître des conférences à l’Université de Mostaganem, pour son suivi de mon mémoire, l’attention qu’il y a porté ,sa disponibilité, ses conseils, ses orientations judicieuses et ses qualités scientifiques m’ont permis d’améliorer la qualité de ce mémoire. J’exprime également tous mes respects au professeur BENYETTOU Mohamed, professeur à l’Université de l’USTO et le directeur de Laboratoire LAMOSI, pour m’avoir fait l’honneur de présider mon jury. De même, j’adresse des remerciements chaleureux à Madame BELBACHIR Hafida, professeur à l’Université de l’USTO, et à Madame FIZAZI Hadria, professeur à l’Université de l’USTO, qui m’ont fait l’honneur d’accepter d’examiner ce travail. Je profite l’occasion pour remercier mes plus chères amies : AMOKRANE Souad, MECHTA Chahinez pour leurs encouragements. اهداء إنٗ يٍ ال ًٚكٍ نهكهًاث أٌ تٕف ٙحقًٓا’ ٔال نألزقاو أٌ تحص ٙفضائهًٓا’ٔال نهحٛاة أٌ تُكس تعبًٓا ’ٔال نهُجاح أٌ ٚكتًم إالّ بدعٕاتًٓا ٔصالتًٓا’ إنٗ ٔاند٘ انعصٚص ٍٚأدايًٓا هللا ن.ٙ إنٗ يٍ صبس عه ٙف ٙنحظاث شقائ ٔ ٙساَدَ ٙف ٙأٔقاث ش ّدتٔ ٙشجعُ ٙف ٙساعاث حصَ ’ٙإنٗ انر٘ برل كم جٓ ٍد ٔعطاء ألصم إنٗ ْرِ انهحظت ’إنٗ شٔج ٙانغان’ ٙحفظّ هللا يٍ ك ّم أذٖ. إنٗ انصفحت انبٛضاء ٔانقهب انطاْس ’قسة عٔٔ ُٙٛزدة حٛات’ ٙإنٗ ابُت ٙانصغٛسة فادٚا’حًاْا هللا ن. ٙ إنٗ خانتٔ ٙحًات ٙانعصٚصة ’إنٗ شسكائ ٙف ٙانعائهت ’إنٗ إخٕتٔ ٙأخٕاتٔ ٙعائالتٓى. إنٗ كم عائهت بٍ شعتس ’بهعباض ٔطٕٚم. Sommaire Introduction Général Chapitre I : Nature de du Texte Arabe Nature Arabe I. Introduction : ..............................................................................................................................1 II. Historique : .................................................................................................................................1 1. Les variétés de la langue arabe : .................................................................................................1 2. L’origine du mot ‘’arabe’’: .........................................................................................................2 III. Les caractéristiques de la langue arabe : .....................................................................................2 L’Alphabet arabe : ......................................................................................................................2 1. IV. 1. Les consonnes: .......................................................................................................................3 2. Les voyelles : ..........................................................................................................................3 3. Les autres signes diacritiques : ...............................................................................................5 Le lexique arabe : .......................................................................................................................5 1. Verbe : ........................................................................................................................................6 2. Nom :..........................................................................................................................................6 3. Particule : ...................................................................................................................................6 V. Grammaire arabe : ......................................................................................................................7 1. La Morphologie) (الصّرف: ..........................................................................................................7 1.1 Morphologie dérivationnelle .............................................................................................7 1.2 Morphologie flexionnelle .................................................................................................7 2. Syntaxe ) (النحو: ...........................................................................................................................8 1. Morphologie dérivationnelle : ....................................................................................................8 1.1. Mécanisme de dérivation : ......................................................................................................8 1.2. Verbe : ....................................................................................................................................9 1.3. Nom :.................................................................................................................................... 12 2. Morphologie flexionnelle : ....................................................................................................... 14 2.1. Verbe : .................................................................................................................................. 14 2.2. Nom :.................................................................................................................................... 15 VI. Structure d’un mot arabe : ........................................................................................................ 16 VII. Les problèmes de traitement automatique de texte arabe:......................................................... 18 1. L’Agglutination : ...................................................................................................................... 19 2. Nature du Texte Arabe Les mots homographiques : ...................................................................................................... 20 3. La phrase arabe :....................................................................................................................... 21 4. Rôle du niveau phonologique dans la morphologie : ................................................................ 21 5. Le système numérique arabe: ................................................................................................... 22 VIII. Conclusion : ............................................................................................................................. 22 Chapitre II : Méthodes d’Analyse du Texte Arabe I. Introduction :…………………………………………………….……………………24 II. Historique :……………………………………………………………………………24 III. Les analyses morphologiques à base de dictionnaire:………………………………...26 1. Les analyseurs à base de racine :…………………………………………….…...26 1.1 Le système de Shereen Khoja (Khoja’s Stemmers) :…………..……………26 1.2 Le système d’extraction des racines trilitères et quaternaires de Shalabi :......27 1.3 L’analyseur morphologique Sakhr :…………… …………………………..28 1.4 L’analyseur morphologique de XEROX:………….……………………….28 1.5 L’analyseur morphologique ALPNET de Darwish:………….………...….29 1.6 L’analyseur morphologique Sebawai de Darwish……………………...…..29 2. Les analyseurs à base de lemme :…………………………………………….…. 29 2.1 L’analyseur morphologique DIINAR : ...................................................... 29 2.3 L’analyseur morphologique ASVM : ......................................................... 30 2.4 L’analyseur morphologique de Buckwalter : ............................................. 30 2.5 L’analyseur morphologique BBw: ............................................................. 32 2.6 L’analyseur morphologique d’AL-Khalil:…...………………….…... ….32 IV. La lemmatisation légère (light stemming): ................................................................... 33 1. Lemmatisation effective à base linguistique (Effective stemming) :…...…………...... ..35 2. La lemmatisation légère de Chen :………………………………………………………36 3. La lemmatisation sans utilisation de dictionnaire des racines (Arabic Stemming Nature du Texte Arabe Without A Root Dictionary ISRI) :…………………………………………..........................36 4. Le lemmatiseur léger ANEA : ANEW ENHANCED APPROACH………………. ….38 4.1. Suffixe-préfixe SP :…………………………………………………………………38 4.2. Suffixe-Préfixe-Suffixe SPS :………………………………………………………38 4.3. Suffixe-Préfixe sans Alef-Lam SPWOAL :………………………………...………38 4.4. Suffixe-Préfixe-Suffixe sans Alef-Lam SPSWOAL :……………………..………38 4.5. Suffixe-Préfixe avec Alef-Lam SPAL :……………………………………………39 4.6. Suffixe-Préfixe-Suffixe avec Alef-Lam SPSAL : …………………………………39 Les méthodes statistiques :…………………………………………………………….39 V. 1 . Les méthodes n-grams : ………………………………..……………………………41 1.1 N-Grams de McNamee : …………………………………………………41 2. Les méthodes de n-classes :……………………………………………………….....42 2.1 Les n-classes de Fares :……………………………………………………...…..42 2.2 Les n-classes par MTA de Chen et Gey :………………………………………..43 Les Métriques d’évaluation de performance d’une méthode d’analyse:……………...43 VI. 1. Temps d’exécution(TCPU) : .........................................................................................43 2. Consommation RAM(CRAM) : ……………………………………...………………43 3. Nombre de mot par une classe de fusionnement (WC): (words per conflation class)..43 4. Facteur de compression d’index (ICF) :(Index Compression Factor)…………….….43 5. Les erreurs de lemmatisation:………...………………………………………………44 VII. Comparaison théorique entre les grandes classes de méthodes d’analyses :…………45 VIII. Conclusion :………………………………………………………………………….46 Chapitre III : L’Indexation Sémantique En RI I. Introduction : ............................................................................................................................ 48 II. Indexation sémantique : ............................................................................................................ 48 1. Nature du Texte Arabe Place de la terminologie : ....................................................................................................... 48 2. Définition : ............................................................................................................................... 49 3. La différence entre descripteurs et mot clés :............................................................................ 50 4. Les langages d’indexation : ...................................................................................................... 50 4.1. Le langage libre : .................................................................................................................. 50 4.2. Le langage contrôlé : ............................................................................................................ 51 5. III. L’Indexation manuelle et Indexation automatique :.................................................................. 51 Les Ressources Linguistiques (langages documentaires) : ....................................................... 52 1. Liste d’autorité-matière : .......................................................................................................... 53 2. Thésaurus : ............................................................................................................................... 53 3. Taxonomie : ............................................................................................................................. 54 4. Les ontologies : ........................................................................................................................ 54 IV. 1. Les modèles d’indexation sémantique: .................................................................................... 55 Les modèles classiques : ........................................................................................................... 55 1.1 Le modèle booléen : ............................................................................................................. 55 1.2 Le modèle vectoriel : ............................................................................................................. 56 1.3 Le modèle probabiliste : ........................................................................................................ 59 1.4 Les Modèles de langue (Le modèle N-gram) : ....................................................................... 60 2. Les Modèles Sémantiques : ...................................................................................................... 62 2.1. Le modèle LSI (Latent Semantic Indexing) : ........................................................................ 62 2.2. Le modèle DSIR (Distributional Semantics based Information Retrieval) ........................... 64 V. Web Sémantique: ..................................................................................................................... 66 1. Le tagging : .............................................................................................................................. 66 2. Folksonomie : ........................................................................................................................... 66 2.1. Les limites de l’indexation collaborative : ............................................................................ 67 2.2. Les avantages : ..................................................................................................................... 67 VI. Métrique d’évaluation d’un système de recherche d’Information :………………………67 1. Précision & Rappel:…………………………………………………………………………67 2. courbe de précision interpolée :……………………………………………………………68 3. du Texte Arabe courbe de moyenne des précisionsNature à 11 points:…………………………………………..68 4. APQ (Average Precision Quries):………………………………………………………….68 5. La précision moyenne MAP (Mean Average Precision):………………………………….69 6. La précision exacte ou R-précision :……………………………………………………….69 7. F-mesure :……………………………………………………………………………………69 VII. Conclusion :………………………………………………………………………………….69 Chapitre IV Nouvelle Méthode d’Analyse Morphologique Arabe I. Introduction : ............................................................................................................................ 71 II. L’analyseur morphologique de Buckwalter : ............................................................................ 71 1. Construction des fichiers de lexique : ....................................................................................... 72 1.1 Dictionnaire des préfixes : ...................................................................................................... 73 1.2 Dictionnaire des stems : ......................................................................................................... 73 1.3 Dictionnaire des suffixes : ...................................................................................................... 76 2. Simulation de fichiers de compatibilités : ................................................................................. 77 3. Les étapes de l’algorithme d’analyse des textes : ..................................................................... 77 3.1. Tokenisation : ....................................................................................................................... 78 3.2. Segmentation de tokens : ...................................................................................................... 78 3.3. La première vue dans le dictionnaire : .................................................................................. 79 3.4. Vérification de comptabilité : ............................................................................................... 79 3.5. Rapport d’analyse : Ce rapport contient : ............................................................................. 79 3.6. Correction orthographiques : ................................................................................................ 79 III. 1. Pourquoi Une Nouvelle Analyseur Morphologique Arabe : ..................................................... 80 Des raisons structurelles :…………………………………………………………………...80 2. Des raisons morphologiques:………………………………………………………………80 3. Des raisons grammaticales :………………………………………………………………..80 4. Des raisons de loi de l'offre et de la demande :…………………………………………..81 5. Des raisons de coût :………………………………………………………………………..81 IV. 1. Nature du Texte Nouvelle version d’analyseur morphologique arabe Arabe :…………………………………….81 La description de trois dictionnaires :………………………………………………………82 1.1 Catégorie grammaticale :………………………………………………………………….82 1.2 Les dictionnaires:………………………………………………………………………….84 Les catégories morphologiques des stems……………………………….………………85 2. Le processus d’analyse dans NAMA :…………………………………………………….92 2.1. Tokenisation:……………………………………………………………………………..92 2.2. Normalisation :……………………………………………………………………………92 2.3. Segmentation des tokens :………………………………………………………………..92 2.4. Vérification des dictionnaires:…………………………………………………………..93 2.5. Les variantes orthographiques :………………………………………………………….93 3. L’Algorithme de L’Analyseur Morphologique Proposé………………..…………………94 4. L’organigramme associé à NAMA :………………………………………………………..96 V. Conclusion……………………………………………………………………………………..98 Chapitre V Implémentation et Evaluation I. Introduction…………………………………………………………………………….101 II. Environnement des expérimentations………………………………………………….101 1. Matériel………………………………………………………………………………101 2. Logiciels……………………………………………………………………………..101 2.1 Total-Commander………………………………………………………………….101 2.2 MoEjam El-Logha El-Arabiya El-Moeasira………………………………………..102 3. Description des corpus de test……………………………………………………….102 III. Etude expérimentale sur le prétraitement linguistique……………………………….103 1. Extraction des racines………………………………………..………………………103 2. Extraction des stems………………………………………………………………….104 3. Extraction des lemmes et lexèmes…………………………………...………………105 Nature du Texte Arabe Evaluation de performance des analyseurs sur des groupes de concepts :………..…106 IV. V. Etude expérimentale des analyseurs linguistiques pour la recherche ad-hoc………….111 V.2. Evaluation de la recherche ad-hoc selon le modèle LSI :…………………………112 V.2. Evaluation de la recherche ad-hoc selon le modèle Uni-gramme :………………..115 VI. Analyse sur l’efficacité des analyseurs dans l’indexation en RI :……………………120 VII. Conclusion………………………………………..………………………………….121 Conclusion Générale Bibliographie Liste des Tableaux Tableau I.1 :L’Alphabet arabe dans toutes les positions. ......................................................... 4 Tableau I.2 : Les voyelles longues ........................................................................................... 5 Tableau I.3 : Les différents signes diacritiques. ....................................................................... 5 Tableau I.4 : Les schèmes de verbes augmentés arabe ........................................................... 12 Tableau I.5 : Les différentes catégories des noms arabes ....................................................... 14 Tableau I.6 : Les rôles des particules unitaires dans un mot arabe ......................................... 18 Tableau I.7 : illustration d’un exemple de plusieurs segmentations d’un mot ....................... 19 Tableau I.8 : La règle de remplacement ................................................................................. 22 Tableau I.9 : Le système numérique arabe. ............................................................................ 22 Tableau II.1 : Les chaines enlevées par light stemming en arabe .......................................... 34 Tableau II.2 :Les chaines enlevé par la lemmatisation effective ............................................ 35 Tableau II.4 : Les schèmes et leurs racines proposé par ISRI ................................................ 38 Tableau II.5 : Les chaines de préfixes et de suffixes proposé par ANEA .............................. 39 Tableau II.7 : Les avantages et les inconvénients des méthodes d’analyse morphologique .. 46 Tableau III.1 : Quelques relations liant les mots, les termes et les concepts……………….49 Tableau III.2 : Matrice terme-document. ............................................................................... 57 Tableau III.3 : Les différentes fonctions tf et idf ................................................................... 58 Tableau IV.1 : Les préfixes proposés par Buckwalter ............................................................ 73 Tableau IV.2 : Les catégories morphologiques les plus utilisés par Buckwalter ……....…..75 Tableau IV.3 : Les suffixes proposés par Buckwalter ............................................................ 76 Tableau IV.4 : Segmentation du mot ktab avec Buckwalter .................................................. 78 Tableau IV.5 : Les changements quantitatifs………………………………………………82 Tableau IV.6 : Les notations générales utilisées pour un stem arabe………………………85 Tableau IV.7 : Les catégories morphologiques utilisé pour les stems .................................. 86. Tableau IV.8 : exemple sur l’entrée de dictionnaire de préfixes……………………………91 Tableau IV.9 : exemple sur l’entrée de dictionnaire de suffixes…………………………...91 Tableau IV.10 : Segmentation du mot ktab avec la méthode proposée. ................................. 92 Tableau V.1 : Caractéristiques des corpus Echorouk et Reteurs………………...…………102 Tableau V.2 : Les résultats d’extraction des racines………………………………………. 103 Tableau V.3 : Les résultats d’extraction des stems…………………………………………104 Tableau V.4 : Les résultats d’extraction des stems…………………………………………107 Tableau V.5 : Les résultats d’extraction des stems ………………………………………...107 Tableau V.6 : Les erreurs de stemming…………………………………………………….108 Tableau V.7 : Le nombre de documents pertinents de chaque requête ……………………112 Tableau V.8 : la valeur de K choisi pour chaque corpus…………………………………112 Tableau V.9 : Performance de la recherche avec la méthode LSI sur le corpus Echorouk...113 Tableau V.11 : Performance de la recherche avec la méthode uni-gramme sur le corpus Echorouk …………………………………………………………………………………..116 Tableau V.12 : Performance de la recherche avec la méthode uni-gramme sur le corpus Reuters ……………………………………………………………………………………117 Tableau V.13 : Performance de la recherche avec la méthode bi-gramme sur le corpus Echorouk…………………………………………………………………………………. 118 Tableau V.14 : Performance de la recherche RI avec la méthode bi-gramme sur le corpus Reuters…………………………………………………………………………………… 119 Liste des Figures Figure I.1 : La structure d’un mot arabe selon David Cohen ...................................................... 17 Figure II.1 : différentes type de méthode d’analyse morphologique arabe ............................... 26 Figure II.2 : exemplaire d’un résultat d’analyse de mots hada par Al-Khalil ........................... 33 Figure II.3 : La comparaison entre les méthodes de light stemming .......................................... 34 Figure III.1 : Système d’indexation sémantique .......................................................................... 50 Figure III.2 : Représentation des documents dans un espace vectoriel des termes. ................. 57 Figure III.3 : Représentation de la décomposition et de la réduction de matrice x ................. 64 Figure IV.1 : Schéma de partie de discours proposés par khoja ................................................. 83 Figure IV.2 : Schéma proposé de partie de discours par NAMA …………….…………. ….84 Figure IV.3 : L’Organigramme de NAMA ………………………………………..………..98 Figure V.1 : Article proposé pour le test ...................................................................................... 100 Figure V.2 : Description d’un lexème extrait d’Almuajm Alwaset …………………………..105 Figure V.3 : La fenêtre d’affichage de l’analyse de NAMA………………………………..106 Figure V.4 : Le graphe des erreurs de sous-stemming UI ………………………..……….109 Figure V.5 : Le graphe des erreurs de stemming OI. ………………………………..…….109 Figure V.6 : Les graphes des erreurs de stemming ............................................................... 110 Figure V.7 : Le graphe de cumul des erreurs de stemming UI+OI…………….…………..110 Figure V.5 : Les mots vides arabes ....................................................................................... 111 Figure V.8 : courbe de moyenne des précisions à 11 points de rappel obtenue pour l’ensemble des requêtes de corpus Echorouk avec la méthode LSI……………………………………..114 Figure V.9 : courbe de moyenne des précisions à 11 points de rappel obtenue pour l’ensemble des requêtes de corpus Reuters avec la méthode LSI……………………………………….115 Figure V.10 : courbe de moyenne des précisions à 11 points de rappel obtenue pour l’ensemble des requêtes de corpus Echorouk avec la méthode uni-gramme………………117 Figure V.11 : courbe de moyenne des précisions à 11 points de rappel obtenue pour l’ensemble des requêtes de corpus Reuters avec la méthode uni-gramme…………………118 Figure V.12 : courbe de moyenne des précisions à 11 points de rappel obtenue pour l’ensemble des requêtes de corpus Echorouk avec la méthode bi-gramme…………………119 Figure V.13 : courbe de moyenne des précisions à 11 points de rappel obtenue pour l’ensemble des requêtes de corpus Reuteurs avec la méthode bi-gramme……………..….120 Introduction Générale Introduction générale La recherche d’informations (RI) vise à retrouver des documents dont le contenu peut être du texte, des images ou tout autre produit multimédia traitant d’un ou plusieurs sujets d’information. L’objectif de répondre au besoin, d’un utilisateur en information, nécessitent d’une part de comprendre au mieux ce besoin, exprimé le plus souvent par une requête libre, et d’une autre part, requiert une organisation adéquate du fond documentaire, concrétisée par une construction de l’index. Dans le contexte de la recherche d’information documentaire (textes non structurés), les techniques de traitement automatique des langues naturelles sont trop sollicitées et souvent intégrées dans le processus d’indexation. Le traitement automatique des langues (TAL) s’intéresse aux traitements informatisés des langues ; il consiste en l'application des programmes et des techniques informatiques à tous les aspects du langage humain : analyse des textes, génération de textes, traduction automatique; correction orthographique et grammaticale. La recherche d’information documentaire épuise du TAL ses techniques de traitements de la morphologie des mots, de leur variation typographique, de leur syntaxe, de leurs relations structurelles et de leur sémantique. Les processus d’indexation et de recherche seront plus efficaces par l’unification en une seule entrée des mots de même sens. Dans un langage à haute morphologie dérivationnelle telle que l’arabe, la détection des unités lexicales dans un texte électronique devient une tâche assez complexe. Certaines méthodes de stemming, par simple troncature des affixes ou par extraction des racines plus abstraites, ont été développées et validées pour des tâches classiques de la recherche d’information. Toutefois, ces techniques de stemming risquent d’induire une caractérisation ambiguë du texte arabe pour des modèles à base d’indexation sémantique. L’objectif du présent travail est d’élaborer une étude comparative de différentes approches de stemming et d’étudier la faisabilité d’utiliser l’une ou l’autre de ces méthodes pour les modèles d’indexation sémantique des textes arabes. Il s’agit aussi de développer un analyseur morphologique pour l’extraction des racines et des lemmes arabes et de l’évaluer sur des corpus textuels réels. Ce mémoire présente l’étude que nous avons menée avec une répartition sur cinq chapitres. Le premier chapitre décrit la langue arabe, ces propriétés dérivationnelles et flexionnelles ainsi que ses difficultés du traitement. Le deuxième chapitre trace un état de l’art relatif aux différentes méthodes de traitement automatique de la langue arabe. Nous exposons dans le troisième chapitre les principales approches d’indexation sémantique, les modèles et les ressources logicielles qui lui sont associées ainsi que leurs domaines d’utilisation. Le quatrième chapitre sera consacré à la description des différentes méthodes, d’analyse morphologique arabe, implémentées et testées dans notre travail ; en particulier, nous détaillons notre nouvel analyseur morphologique arabe (NAMA). Le dernier chapitre présente les résultats des différentes expérimentations menées sur deux axes : Le premier consiste en la comparaison des différents analyseurs arabes selon des métriques standards sur un article de presse Echorouk et un corpus de concepts. Sur le deuxième axe, nous présentons une analyse de performance de ces analyseurs dans l’indexation sémantique pour la recherche d’information arabe sur deux corpus réels de textes arabes. Chapitre I Nature de Texte Arabe Chapitre I I. Nature du Texte Arabe Introduction : La langue arabe est la langue officielle, d’enseignement et de communication, de près de 22 pays avec plus de 450 millions de locuteurs [Web 3]. Elle appartient au groupe des langues sémitiques parlées depuis la plus haute antiquité. Ces langues sont qualifiées de « sémitiques » en référence au nom du biblique Sem, fils de Noé .Ce groupe de langues est caractérisé par la prédominance de racines trilittères et par l’usage de consonnes gutturales et emphatiques constituant leur squelette. Parmi les langues sémitiques contemporaines on cite l’arabe, l’amharique, l’hébreu, le tigrinya...etc. II. Historique : L'origine de la langue arabe remonte au IIème siècle [Kas, 05], dans la péninsule Arabique avec des origines bien antérieures de la reine de Saba, l'ancien Yémen ainsi que des tribus arabes disparues auraient parlé cette langue dans une forme plus ancienne. Les premières traces de l'écriture arabe, telle qu'on la connaît de nos jours, remontent au IIIe siècle [Web1]. Du 4ème jusqu’au 7ème siècle, l’arabe était parlée par certaines tribus nomades des déserts de l'Arabie et après le 7ème siècle se transformant dans un immense empire à travers des conquêtes militaires au début de l’expansion de l’Islam [Web 2]. L’arabe déborde ses déserts et recouvre la bordure méditerranéenne de Sicile, Malte, de l’Espagne, de l’Afrique, tout comme le Proche-Orient. Et intègre les vieilles civilisations du Proche-Orient qui font de l’arabe la langue d’un nombre considérable de savants et d’écrivains du pourtour méditerranéen jusqu’en Asie centrale. Du 13ème jusqu’au 19ème siècle l’utilisation de l’arabe littéraire est dégradées avec les mouvements politiques du monde musulman, ce qui a conduit à la création des livres de grammaire arabe pour garder les règles fondamentales de la langue, surtout celles morphosyntaxiques. Ce n’est qu’à partir du 19ème siècle que fût la Renaissance de l’arabe moderne et de ses dialectes [Web2]. 1. Les variétés de la langue arabe : La langue arabe est passée dans l’histoire par plusieurs variétés [Web1] : L’arabe littéraire ancien : est celui de la poésie préislamique, se retrouve dans un nombre restreint des documents d’aujourd’hui. 1 Chapitre I Nature du Texte Arabe L’arabe littéraire classique : représente une autre étape de l’évolution de la langue. Elle apparaît avec la naissance de l’Islam. Cet arabe évoluée a utilisé les règles de base de la langue du Coran et a ajouté une grammaire considérée comme une norme idéale. l’arabe standard moderne (l’ASM) : une forme un peu différenciée de l’arabe classique constitue la langue écrite de tous les pays arabophones [Web 4]. L’ASM reste la langue de la presse et de la littérature, alors que l’arabe classique appartient au domaine religieux et est pratiqué par les membres du clergé. les dialectes arabes : malgré l’existence d’une langue officielle commune, chaque pays a développé son propre dialecte. On peut regrouper ces dialectes en quatre groupes [Bou, 08] : 1. Les dialectes arabes parlés dans la Péninsule Arabique : dialectes du Golfe, najd, yéménite 2. Les dialectes maghrébins : algérien, marocain, tunisien, hassaniya de Mauritanie ; 3. Les dialectes proche-orientaux : égyptien, soudanais, syro-libano-palestinien, irakien; 4. La langue maltaise est également considérée comme un dialecte arabe. 2. L’origine du mot ‘’arabe’’: L’origine du mot Arabe reste inconnue, malgré des nombreuses recherches. Selon Toufik Fahd, le radical arab, en arabe, désigne le désert, c’est un mot araméen "arâbâh". Le mot arabe peut dériver de la racine sémitique Abhar "se déplacer". Mais l’étymologie arabe considère que le mot arabe dérive du verbe "exprimer" [Web3]. Ibn Khaldoun limite le terme Arabe à ceux dont les origines remontent aux anciens habitants de la péninsule arabique. Il distingue entre bédouins (synonyme de arabe) et citadins ou sédentaires. Les premiers mènent une vie purement nomade comme éleveurs de chameaux tandis que les derniers commencent à s’acheminer vers la civilisation [Ben, 10]. III. Les caractéristiques de la langue arabe : 1. L’Alphabet arabe : L’alphabet arabe est une abjad s’écrit et se lit de droite à gauche, comprend consonnes, voyelles, et plusieurs signes diacritiques. La plupart des lettres s’attachent entre elles ce qui forme l’agglutination, leur graphie diffère selon leur position dans le mot : au début, au milieu ou à la fin comme le montre le tableau 1. 2 Chapitre I Nature du Texte Arabe a. Les consonnes: Il existe 28 consonnes arabes fondamentales, mais il y a des auteurs qui traitent la lettre alif ( ) اcomme la vingt-neuvième consonne. L’alif se comporte comme une voyelle longue qu’on ne trouve jamais en tant que consonne de la racine [Dou, 04]. Il y a deux symboles waw, yah (ٌ٫ )وqui sont des semi-consonnes (glides), autrement dit, ils peuvent être considérés comme des consonnes ou des voyelles longues. Toutes les consonnes se lient entre elles sauf waw,reh,zain,dal,thal ( ذ٫ د٫ ش٫ ز٫ )وcelles qui ne se joignent jamais à gauche. De plus certaines lettres comme اAlef peuvent symboliser le ah آ,A أou I ;إde même que pour les lettres يet هqui symbolisent respectivement yah ٌ et teh marbouta ج. b. Les voyelles : Les voyelles jouent un rôle important dans les mots arabes, non seulement parce qu’elles lèvent l’ambiguïté, mais aussi parce qu’elles donnent la fonction grammaticale d’un mot indépendamment de sa position dans la phrase. Autrement dit, les voyelles ont une double fonction : l’une est morphologique ou sémantique et l’autre est syntaxique [Khe, 06]. Les voyelles sont de deux types : les voyelles brèves et les voyelles longues. Elles sont nécessaires à la lecture et à la compréhension correcte d’un texte et permettent de différencier des mots ayant les mêmes consonnes. Forme de Graphie selon la position lettre Isolée Initiale Médiane Finale Alef ء بئز،ئ،ؤ،إ،أ،ء بئز،ئ، إ،أ،ؤ ء،ئ، إ،أ،ؤ Beh ب بب ـثـ ب- Teh خ خخ ـرـ م ج،خ- Theh ز زز ـثـ ز- Jeem ج جز جز- خج Hah ح حز حز- نح Khah ر رز رز- لر Dal د د د-،د 3 Chapitre I Nature du Texte Arabe Thal ذ ذ ذ-،ذ Reh ز ز ز-،ز Zain ش ش ش-،ش Seen ض ضض ضض- ض- Sheen ش شش شش- ش- Sad ص صص صص- ص- Dad ع عع عع- ع- TAh ط ط ط- Zah ظ ظ ظ- Ain ع عض ععز عع Ghain غ ٌغ بغل لغ Feh ؾ ؾ ه ؾ ز-ل ؾ- Qaf ق قص قق- ق- Kaf ن نل نل- ن- Lam ل لل لل- ل- Meem م مم م م- م- Noon ن نن نن- ن- Hah ه هه ه هه هه Waw و و و،و- و- Yeh ٌ ٌٌ ٌٌ- ٌ- Tableau I.1 :L’Alphabet arabe dans toutes les positions. Les voyelles brèves : Les voyelles brèves (Fatha َ ,Damma ُ ,Kasra ِ ) sont ajoutées au-dessus ou au-dessous des consonnes. Lorsque la consonne n’a aucune voyelle, on marquera une absence de voyelle représentée en arabe par une voyelle muette ( Sukun ْ ). Les voyelles longues : Les voyelles longues sont des lettres prolongées, elles sont formées par une des voyelles brèves suivis d’une des lettres correspondantes suivantes :Alef,waw,yeh (ا, و, ٌ) [Khe, 06]. Voyelles longues َ_ا و-ُ ٌ-ِ Tableau I.2 : Les voyelles longues 4 Chapitre I Nature du Texte Arabe Les autres signes diacritiques : Šadda : est un signe qui peut être placé au-dessus d’une consonne mais qui ne peut pas être à la position initiale du mot. La consonne surmontée de ce signe est analysée comme une séquence de deux consonnes identiques géminées, la première avec une voyelle brève :Fatha,Damma ou Kasra ( َ , ُ , ِ ) dite motaharik ,et la deuxième sans voyelle avec sukun ( ْ ) .par exemple Mada ~ ( م ّدdonner) est analysé comme Madad م َد ْد. Tanwin : ou bien La désinence ( ً an, ٌ un , ٍ in) considéré par quelques auteurs comme étant le double de même voyelles brèves, il est ajouté seulement à la fin des mots indéterminés, par conséquent il n’apparaît jamais avec l’article de détermination AL () ال. Le signe du tanwin Fathatan« ً » (à l’accusatif) est suivi toujours par اalif. Illustration en arabe Nom de signe Prononciation et fonction Voyelle brève َ Fathatun a/ signe d’accusatif __ُ Damatun u/signe de nominatif ِ Kasratun i/signe de génétive Voyelles casuelles (Tanwin) ً ٌ ٍ FathatAni An DamatAni Un KasratAni In Signes de syllabation ْ ّ Sukun /aucune voyelle shadda Doublement de consonne Tableau I.3 : Les différents signes diacritiques. IV. Le lexique arabe : Le lexique de la langue arabe comprend trois catégories grammaticales de mots : verbe, nom et particule. 5 Chapitre I A. Nature du Texte Arabe Verbe : Unité lexicale référant à un état ou une action exprimant un sens dépendant du temps comme : Eamila َ ِ َ (travailler),dahaba َة َ ( َذpartir) [Ham, 05].Nous pouvons classer les verbes arabes selon plusieurs critères [Gla, 07] : Selon le critère de temps, il existe trois types : l’accompli, inaccompli, impératif. Selon leur sens et leur transitivité de sujet au complément aux deux types : Intransitive, transitive. Selon leurs modes aux deux types : la voix passive et la voix active. Selon le nombre des consonnes de la racine, la majorité des verbes a peu prés de 85% sont formés sur 3 lettres et le reste entre les racines de 4 et 5 lettres. Ces racines peuvent donner plusieurs schèmes avec des transformations morphologiques. Selon le schème et le nombre de consonnes qui constituent la structure verbale, nous avons soit des verbes nus (Mojarad )مجسّد, soit des verbes augmentés (Mazid )مصَد. Selon leur conjugaison il existe : le conjugué et le non conjugué ou bien invariant. Il existe aussi les verbes d’exclamation ainsi les verbes panégyrique et les verbes de diatribe. B. Nom : Toute unité lexicale référant à un sens indépendant du temps [Ham, 05], regroupent : Les adjectifs ; féminin et masculin ; les noms démérites, les noms prolongés ainsi que les noms réduits ; les noms communs et les noms propres ; les pronoms et leurs types (connectés et séparés) ; les pronoms relatifs ; les pronoms démonstratifs ; les noms d’interrogations ; les noms déterminés et non déterminés ; les noms de périphrases ; les noms du verbe ; les noms de voix ; les semblables des verbes de noms [Gla, 07]. C. Particule : Entité invariable contient un exprimant un sens dépendant de compréhension. La langue arabe nombre limité ne dépasse pas 80 éléments, ils se nommaient en arabe les particules de sens ( ٍ)دسوؾ ال عان, par contre l’alphabet arabe se nommait les particules de construction (ٍ[ )دسوؾ ال ثانGla, 07]. Les particules de sens sont de type : unitaire, binaire, tertiaire, quaternaire ou quintette, Elles jouent un rôle important dans l’articulation et l’interprétation de la phrase ainsi la cohérence et l'enchaînement d'un texte. 6 Chapitre I Nature du Texte Arabe Les particules sont classées selon leur sémantique et leur fonction dans la phrase. Il existe deux classes selon leur fonction (active, inactive) et 31 classes de particules selon leur sens, parmi lesquels on peut citer [Gla, 07]: Particules de préposition : exemple MaEa,ILA,Fi,Ka,Bi ( َ َم،ًَإِل،ٍِـ،َن،ب ِ ) Particules de coordination : exemple Wa,Voma,Fa,Aaw ( ْأَو، ُ َّم،، َؾ،)و َ Particules interrogatives : exemple Aa,MaA,Hal ( ْ َ ، َما، َ)أ Particules d’affirmation : exemple LaA,NaEam,Bala,Ajal( ْ َ َأ،ًَ َت، ْ نَ َع، ) Particules de négation : exemple Lame,LaA,Lane( ْ َل،َ ، ْ َ)ل Particules distinctive : exemple Aye( ٌَْ)أ Particules relatives : exemple MaA() َما Particules de future : exemple Sa,Sawefa,Lane,Aan (أَ ْن، ْ َل، َظَىْ ؾ،)ض َ Particules conditionnelles : exemple Ine,Aaw ( ْلَى،)إِ ْن Particule d’appel :YaA,Aa,AalaA(َ َ أ،َ أ،(ََا V. Grammaire arabe : La grammaire traditionnelle se divise en : Morphologie et Syntaxe. i. La Morphologie)الصزف ّ ( : La morphologie arabe est une science étudiant la structure du mot arabe et ses changements par l’ajout des particules pour former des dérivés et des formes flexionnelles. La morphologie se divise en deux types [Kas, 05] : Morphologie dérivationnelle :al-ichtikak ()ا شرماق, qui étudie la dérivation des mots par un autre mot et leur transformation selon le sens voulu ; autrement dit, la dérivation morphologique est décrite sur une base morpho-sémantique : d’une même racine, se dérivent des mots différents, siyar ()طُػ. Morphologie flexionnelle : comprenant d’une part la flexion IiEerab (ساب )ا, concerné le changement de marquage casuel selon le changement des facteurs qui précède, et d’autre part, la non conjugué BinaAe ()الثناء, qui concerne la stabilité de marquage casuel même avec les changements des facteurs qui précède. Cette morphologie est dirigée par plusieurs facteurs comme : le temps, les indices, l’aspect, le genre, le nombre qui sont en général des suffixes et préfixes. 7 Chapitre I Nature du Texte Arabe Syntaxe) (النحو: ii. Étudie la formation correcte des phrases par l’analyse de : Position des unités lexicales les unes par rapport aux autres pour déterminer l’ordre des unités lexicales. Marquage casuel des unités lexicales de la phrase, Ainsi, la fonction syntaxique de chaque unité qu’est déterminée en s’appuyant sur la morphophonologie [Khe, 06] . A. Morphologie dérivationnelle : a. Mécanisme de dérivation : En arabe, la majorité des mots sont construits sur la base d’une racine tout en respectant un schème pour créer des lexèmes et des lemmes: ceci concerne notamment les verbes et les noms. La racine Al-Jidre الجذر: Une racine est purement consonantique, elle est formée par une suite de trois ou quatre (ou même cinq pour les noms) consonnes formant la base du mot. La racine est un élément important dans les langues dérivationnelles. En effet, à chaque racine correspond un champ sémantique et à l’aide de différents schèmes, on peut générer une famille de mots appartenant à ce champ sémantique. Le schème Al-Wazen:الوسن Le schème est un mot composé de trois consonnes ؾ, ع, et ل, qui sont vocalisées et qui peuvent être augmentées par d’autres lettres (préfixe, suffixe et infixe). Le schème joue un rôle très important dans le processus de génération des formes dérivées à partir d’une racine. Ce processus de génération consiste à remplacer la racine du schème par les consonnes de la racine en question, tout en gardant les mêmes voyelles et les mêmes lettres augmentées et en respectant le même ordre des consonnes, autrement dit le schème peut être considéré comme un moule sur laquelle coule la racine. 8 Chapitre I Nature du Texte Arabe On peut classer les schèmes en deux catégories : des schèmes verbaux et des schèmes nominaux. Ainsi, à partir d’une racine, on peut générer des noms et des verbes selon la catégorie du schème utilisé, Le lemme Al-Mofrada Al-MaEejamiya : ((المفزدة المعجمية Le lemme est l’entrée lexicale dans un lexique ou dans un dictionnaire. Il s’agit d’une forme entièrement vocalisée. Chaque mot est rapporté à son lemme qui est sa forme canonique qui dépend toujours de la catégorie grammaticale de ce mot, si c’est un nom il doit être au singulier et si c’est un verbe il doit être à l’accompli de la troisième personne du singulier...etc. Un lemme peut être formé par un mot simple ou un mot composé. Nous remarquons que les particules gardent toujours leur représentation de base. Pour les autres catégories le lemme permet de regrouper les mots ayant la même racine, le même schème original et le même sens. Ce regroupement aide à réduire le nombre d’entrées lexicales. Le lexème Al-WiHeda Tarekibiyatu:الوحدة التركيبية Le lexème est le plus petit morphème appelé aussi unité minimale dans un mot graphique, il est non dérivationnel, ni fonctionnel, donc il ne constitue pas des clitiques et des affixes de conjugaison et de déclinaison [Mes, 08] .par exemple le lexème : ( ذم,*am) n’attache à aucun affixe, il possède plusieurs lemmes : (condamné ( ) مرمىمcondamné ( )مرمreproche ذمُ ح( )مرمح blâme)( ذمائblâmes)( répréhensible ُ( )ذمdétention ( )ذمامdétentions ( )أذمحinvective ٍ()ذمCitoyen non musulman ٍ( ) ذمprotection ()ذمحprotections ( )ذمinvective ( )ذمinvectiver ()ذمréprimander )ذمqui peuvent attacher aux affixes de conjugaison et de déclinaison. Le stem (tige) sAk : الساق Le stem est le radical d’un mot, il correspond à la partie du mot restante une fois que l’on a supprimé son préfixe et son suffixe, il représente le noyau lexical et il ne correspond généralement pas à un mot réel. Les techniques utilisées pour extraire le stem reposent généralement sur une liste d’affixes (suffixes, préfixes, postfixes, antéfixes) de la langue considérée et sur un ensemble de règles de désuffixation construites a priori. 9 Chapitre I Nature du Texte Arabe b. Verbe : Les verbes nus : Qui est tous leurs lettres sont originaux et ne changent pas durant la conjugaison sauf les lettres de défectuosité, il a une base à trois consonnes correspondre au schème FaEala ( )ـع ou bien de quatre consonnes correspondre au schème ( FaEelal )ـع. Si le verbe ne contient aucune lettre longue on dit qu’il est correct ( طذُخSahihe) et se diviser en trois types [Gla, 07] : Le verbe sain (SAlim )ظال:qui ne contient aucune lettre radicale défectueuse, ni lettre hamza, ni lettre redoublée. Le verbe de lettre Alif (Mahmuz )مه ىش: qui contient une lettre radical hamza comme : Interroger (SaAla )ظأل, Lire (karaAa.) لسأ. Le verbe redoublé (MudaEaaf) مضعّؿ:la présence de deux consonnes identiques dans la deuxième et troisième position du radical de verbe nus trilitère et son augmenté comme : passer (Maraa )م ّسou la première et la troisième lettre identique dans le verbe quadrilatère comme : commotionner (Zalzala [ ) شلصلHam, 05]. Sinon le verbe est défectueux et contient une ou deux lettres longues ou bien défectueuses qui causent des altérations importantes au cours de la conjugaison, ce type est distingué en 4 catégories: Verbe assimilé (MivAl ; ) مثال: la première consonne est une longue voyelle, il est nommé comme ça parce qu’il a assimilé le verbe sain dans leur conjugaison au passé. Exemple : promesse (WaEada-[ ) و دMes ,08]. Verbe creux (Ajwaf ; ) أ ىؾ: la deuxième consonne est une longue voyelle, il est nommé comme ça parce que leur cavité est vidée d’une lettre saine ; par exemple :kAl(لال, dire) [Mes ,08] . Verbe incomplet (NaAkis ) نالض:la troisième consonne est une longue voyelle, il est nommé comme ça parce que dans leur conjugaison on supprime cette lettre comme : conquérir (RazA,) ؼصا. Verbe Ramas ( لفُؿLafif): il contient deux longues voyelles au même temps, il est divisé en deux selon leur position : Ramas séparé ) لفُؿ مفسوقLafif Mafruwk ) : la première et la troisième consonne sont des voyelles longues. Ramas collé ) لفُؿ ممسونLafif makruwn) : la deuxième et la troisième consonne sont des voyelles longues. 10 Chapitre I Nature du Texte Arabe Verbes augmenté : Comme le montre le tableau 4, ils sont dérivés de racine de trois ou quatre consonnes, par insertion d’une lettre ou plusieurs sur sa composition originale. Les verbes dérivés se conjuguent avec les mêmes préfixes et suffixes que le verbe nu. Les verbes trilitères peuvent être augmentés au maximum par trois lettres et les verbes quadrilatères par deux lettres. Alors, la longueur maximale d’un verbe arabe est de 6 lettres [Mes ,08]. On peut aussi indiquer que le verbe impératif est dérivé de l’inaccompli, et l’inaccompli de l’accompli, et l’accompli de l’origine (مظدزMasdar). Les verbes nus Schèmes Les types des opérations Morphologique augmenté ـ ّع Verbe trilitères (FaEal )ـع FaEa ~l Redoublement de deuxième consonne ـاFaAEil L’allongement de la première consonne par l’ajout d’alif َ أَ ْـ َعAafeEal Adjonction d’une alef hamza أau début de la racine َ اِ ْن َف َعInefaEal Adjonction d’un morphème In اِ ْنau début de la racine َ اِ ْـرَ َعIfetaEal Adjonction d’une alef اau début de la racine +insertion de خa la suite de 1ère consonne اِ ْـ َع َّمIfeEal~a Adjonction d’une alef اau début de la racine +redoublement de la 3ème consonne َ ذَفَ َّمعTafaEa~l Adjonction de ta خau début de la racine+redoublement de 2eme consonne َ َ ذَفَا Adjonction de ta TafaAEal L’allongement de la première consonne par l’ajout d’alif َ اِ ْظرَ ْف َع َ اِظau début de la racine Adjonction d’un morphème ْد خau début de la racine+ IsetafeEal َ َ ْاِ ْـعَى Adjonction d’une alef اau début de la racine+insertion IfeEawelal de waw a la suite de la 2ème consonne+insertion de meme 2ème consonne a la suite de waw. اِ ْـ َعا َّمل Adjonction d’une alef اau début de la racine+insertion IfeEaAl~ de alef a la suite de la 2ème consonne+redoublement de 3ème consonne اِ ْـ َع ّى َل Adjonction d’une alef اau début de la racine+insertion 11 Chapitre I Nature du Texte Arabe IfeEawa~l de waw a la suite de la 2ème consonne+redoublement de ce waw. َ َ ذَفَ ْع Verbe quadrilatère Adjonction de ta خau début de la racine TafaEelal (FaEelal )ـع ْ َ َاِ ْـ َعن Adjonction d’une alef اau début de la racine+insertion IfeEanalal~ de nun a la suite de la 2ème consonne اِ ْـ َع َ َّم Adjonction IfeEalala~ d’une alef racine+redoublement de 3 ème ا au début de la consonne. Tableau I.4 : Les schèmes de verbes augmentés arabe c. Nom : Nous pouvons distinguer deux classes de noms : la première regroupe les noms conjugables ou semi conjugables qui peuvent avoir la forme duelle, plurielle etc et qui ne peuvent pas rattacher à des racines verbales [Kas, 05]. La deuxième classe regroupe les noms non conjugables qui gardent la forme quel que soit le contexte (les pronoms personnels, les pronoms démonstratifs et relatifs, les noms conditionnels et d’interrogations, et les noms de verbe et voix). Les noms conjugables sont soit des noms invariants (Isem Jamid امد )اظqui échappent à toute dérivation comme [ كثشkab$un] (bélier), et aux noms dérivationnels ( )اظ مشركqui sont formés à partir d’une racine verbale comme [ مدزظحmadrasatun] (école) de la racine [ د ز ضd r s] [Khe, 06]. Il existe dix types de noms dérivationnels : participe passif, participe actif, adjectif qualificatif, exagérateur de participe passif, le nom de prédilection, le nom de temps, le nom de lieu, l’origine (Masdar) Mimi, l’origine de verbe trilitère nus supérieure de trois consonnes, le nom d’instrument. 12 Chapitre I Nature du Texte Arabe Type de nom Conjugaison Catégorie de nom Nom non Conjugable Adverbe Dérivationnel (MoEeraba )معستح (Jamid ) امد (Mabeniya ) مثنُح (Invariable ؼُسمرظسؾ Rayer Motasarifa) َ (لَ ْثKabla) Nom de voix ط،( كزkaxe,has) Nom de verbe َ َُ (hayehaAta) ،ْهاخ Pronom Non conjugable Exemples نِ ْز،ِك ْز Personnel ُه،َن، ُ َى،أَنَا (affixé ou isolé) (Ana,howa,ka,hu) Pronom interrogatif َ( َك ُْؿkayefa) Pronom conditionnel ( إِ َذاI*A) Pronom allusif Pronom relatif ْ ( َكKam) ٌ( الّرAl-*iy) Nom de nombre َوا ِد ٌد، (Wahidun) Pronom démonstratif ،( َ َراHa*A) Nom propre ( ُم َذ َ ٌدMohamadun) Nom commun ٌ ُ ز،(Rajolun) َ Nom Conjugable Origine ou Masdar ً (ـسداfarahanA) dérivationnel (MoEeraba )معستح Participe actif ْ َكاذِة، (KaAtib) (Mo$etak Participe passif ُ ( َم ْكMaktoubun) ٌدوب )مشرك Adjectif qualificatif ْ( أَدْ َ سAhmar) Nom d’une fois ً( ـَسْ َدحfarhatun) Nom de manière َ َ َ ، (Eamala) ٌ( َم ْ رَةMaketabun) Nom de lieu Nom de temps Nom d’instrument ْ( َم ْؽ ِسبMageribe) ٌ( ـَأْضFaAesun) Elatif ٌ( َ ِ ُ َحJamiylatun) ْ َ ْ َ( أAjemal) Nom diminutif ، ٌ( ُكرَُِّيةkutayibun) Nom de relation ٍ ٌ ( َ َس ِتEarabiyun) ( َلرَّما ٌلkata ~ Alun) Adjectif Intensif Tableau I.5 : Les différentes catégories des noms arabes 13 Chapitre I Nature du Texte Arabe Ainsi on peut distinguer les noms conjugables nus de trois et quatre ou de cinq lettres, et les noms augmentés d’une lettre ,de deux lettres, de trois lettres, et au maximum de quatre lettres, c’est pour cela la longueur maximale d’un noms ne dépasse sept lettres[Gla, 07]. Les noms qui sont moins de trois lettres sont des noms qui ont retiré de ces lettres comme : main ( َدyadun), père(Aabun) [ أبGla, 07]. B. Morphologie flexionnelle : a. Verbe : Comme on a dit on peut classer les verbes selon leur aspect aux trois types : Accompli : indique que l’action est achevée ce qui est implique le passé [Ham, 05]. C’est l’aspect le plus simple qui est utilisé avec la troisième personne du singulier pour représenter un verbe à l’infinitif, il se caractérise par une suffixation des marques. Inaccompli : indique que l’action est en train de se réaliser, ce qui est implique le présent [Ham, 05]. Il permet la modification des lettres principales du verbe par une préfixation de ces éléments avec les lettres ( أنُدAnyt) ainsi des infixations sous forme de duplication de lettre dans le cas de verbe redoublé ou de substitution d’une voyelle dans le cas d’un verbe défectueux. Par exemple '( 'ش ّد$ada ~ ,se souquer) se conjuguer avec le pronom elles par '('َشددنya$edodena ~ , elles souquent). L’inaccompli se caractérise par trois modes flexionnelles: L’inaccompli indicatif : employé dans une proposition principale ou isolée. Il se caractérise par une désinence ( ُ [(ض ّ حdammat] et par des flexions longues. L’inaccompli subjonctif : utilisé en proposition subordonnée s’il est précèdé par une particule de subjonctif, il se caractérise par une désinence (َ [ ) َ فتحةfathat] et par des flexions courtes. [Mes ,08]. L’inaccompli apocopé : il précède par une particule d’apocopé, Il se caractérise par l’absence de désinence ( ْ [ )سكونsukun] et par des flexions courtes. Impératif : indique l’ordre ou la demande [Ham, 05]. Il est conjugué seulement avec les pronoms de deuxièmes personnes. Généralement, il faut ajouter un hamza au début du verbe et terminer celui-ci par la voyelle muette ( ْ ( )سكونsukun). 14 Chapitre I Nature du Texte Arabe Nous pouvons mentionner que la détermination du temps, dans la langue arabe, ne se limite pas à l’analyse du verbe seulement, encore faut-il analyser toute la phrase. Les verbes sont conjugués à ces aspects selon plusieurs facteurs [Khe, 06] : Le nombre du sujet (singulier, duel, pluriel). Le genre du sujet (masculin, féminin). La personne (première, deuxième et troisième) La voix (actif, passif). type de verbe : sain, mahmouz, redoublé, assimilé, creux, incomplet, ramas. Normalement tous les verbes sont non conjugables (مثنُح,Mabeniya) sauf le verbe inaccompli qui ne relit pas à nun de femme, et le nun d’assertion qui est conjugué. b. Nom : La déclinaison des noms comporte trois cas: nominative, accusatif, et génitif suivant leur fonction dans la phrase (sujet, complément..), il est affecté par un marquage casuel ou par une particule selon le genre et le nombre de nom [Gla, 07]. Les noms qui ont un marquage casuel sont : le nom singulier, le pluriel brisé, le pluriel féminin sain [Gla, 07]. Les noms qui ont des particules sont : le dual, le pluriel masculin sain, et les cinq noms [Gla, 07]. Le nom singulier : Dans le cas le plus fréquent, les noms au singulier prennnent le signe dammat(u) comme une marque de nominatif, fatha(a) comme une marque de l’accusatif, et kasra(i) de génitif .si le nom est indéfini ; le tanwin est apparu dans les trois cas. Dans les moindres cas, les noms qui n’acceptent pas de tanwin prennent la marque fatha en génitif et en accusatif, parmi ces noms, il existe les noms féminins qui se terminent par اءet يcomme (ً دث، طذساءSahraA’,HoblaAY), ainsi les adjectifs de couleur masculins et féminins de schèmes أـع, ـعالء. Le pluriel brisé : La forme du nom au pluriel se différencier de leur singulier par infixation, ou par diminution de son origine, et se classer en deux groupes : 15 Chapitre I Nature du Texte Arabe Le pluriel de petit nombre : indique que le nombre de pluriel est entre 3 et 10 comme : أد ال (AHemaAle,Charges), ses schèmes est quatre :ٌـِ ْع َح،ٌأَ ْـ ِع َح،ٌأَ ْـ َعال، ْ أَ ْـ ُع (AafeEole,AafeEaAlun,AfeEilatun,FiEelatun) Le pluriel collectif : caractérise un nombre supérieur de 3 à l’infinité comme : د ىل (Humuwlun,Charges).Il existe 16 schèmes pour ce type. [Gla, 07] Le pluriel féminin sain : ce pluriel est formé par l’ajout d’un suffixe اخau singulier sans changement dans la structure de mot. Le dual : c’est un nom conjugable, caractérise deux choses ou deux personnes par l’insertion de ( انAn) en cas de nominatif, et َ (yn) en cas de l’accusatif et génitif. Dans le cas des noms défectueux ou qui se termine par (وw) ou ( يY); la terminaison se transforme devant la suffixation de dual, par exemple ( مجسيMajeraY, chemin) se transforme en ( مجسَانMajerayaAne, chemins). Le pluriel masculin sain : comme le pluriel féminin sain, il caractérise par l’ajout d'un suffixe ونen cas nominatif, et َ en cas d’accusatif et génitif. Les cinq noms : sont des noms bilitères qui leur voyelle finale se prolonger quand ils sont définis par un complément :ذو،ـى، د،أر،( أبAabun,Aaxun,Hamun,fuw,*uw ,père , frère, le beau père , bouche , propriétaire). Remarque : Toutes les particules arabes sont non déclinables ( مثنُحMabeniya) et non dérivables. VI. Structure d’un mot arabe : En arabe un mot peut signifier toute une phrase grâce à sa structure composée qui forme une agglutination d’éléments de grammaire, ceci définit le mot graphique arabe ; cette appellation est désignée par David Cohen à un mot décomposable aux proclitiques, forme fléchies, enclitique avec la forme fléchie représente le noyau lexical. La représentation suivante schématise une structure possible d’un mot. Notons que la lecture et l'écriture d'un mot se font de droite vers la gauche. Post fixé Suffixe Enclitique Corps schématique Forme fléchie Préfixe Antéfixe Proclitique Figure I.1 : La structure d’un mot arabe selon David Cohen 16 Chapitre I Nature du Texte Arabe Les proclitiques : Les proclitiques sont des antéfixes et des préfixes, les antéfixes sont des prépositions ou des conjonctions et les préfixes sont les traits grammaticaux dépendus de l’aspect verbal dans le cas des verbes, et de déclinaison dans le cas des noms et déverbaux (nombre, genre, personne,…) [You, 08].Quelques exemples de proclitiques [Mes ,08]: Les proclitique réservé aux noms : l’article de définition '( 'الAl) (préfixes). La préposition 'ب ِ ' (bi) (Antéfixes). Les proclitique réservé aux verbes : La particule de subjonctif '( ' ِلli) (Antéfixe). La particule de futur '( 'ضsa) (Antéfixe) La particule de l’apocopé ِ'( 'لli) Les proclitique réservé aux verbes et noms : L’article d’interrogation '( 'أAa) (Antéfixe) Les conjonctions de coordination ''وet '( 'ؾwa,fa)(Antéfixe) La particule d’ affirmation '( ' َلla) (Antéfixe) On peut indiquer qu’il existe plusieurs ambigüités dans le rôle d’un proclitique, par exemple : la particule وest utilisé dans la majoritaire des cas comme une particule de coordination, dans des moindres cas comme particule d’accompagnement, et rarement une particule de serment. Les enclitiques : Représentent les suffixes et les post fixés, les suffixes sont des traits grammaticaux par contre les post fixés sont des pronoms personnels. Dans le cas des noms et en mode non déterminé, les noms acceptent toutes les enclitiques, par contre les noms qui se terminent par ( يY) ou par ٌ (y) nécessitent des transformations morphologiques avant leur suffixation comme dans le cas du mot 'ً( 'مثنMAbenaY, immeuble) qui est transformé par changement de ( يY) au (A) اet l’ajout d’un suffixe comme (هh) , le mot donc devenir : (مثناهMabenaAh, ses immeuble )[Mes ,08].Dans le cas des verbes, les enclitiques sont varis selon leur aspect et pronom personnel. Le tableau suivant indique toutes les particules unitaires qui ont exprimé soit des proclitiques soit des enclitiques du verbe ou nom. 17 Chapitre I Nature du Texte Arabe La particule Le sens de particule )>( أ Antéfixe de Question, appel, égalité ( اA) Suffixe de l’exclamation, et de secours ( بb) Antéfixe de préposition ( خt) Antéfixe de serment, et suffixe de féminin ( ضs) Antéfixe de futur ( ؾf) Antéfixe de conjonction ( نk) Antéfixe de préposition ( لl) Antéfixe de préposition pour les noms et d’affirmation pour les verbes ( مm) Suffixe d’indication de pluriel masculin ( نn) Préfixes de l’inaccompli et suffixe d’affirmation ( هh) Post fixe de l’absence ( وw) Antéfixe de conjonction ٌ (y) Préfixe de l’inaccompli Tableau I.6 : Les rôles des particules unitaires dans un mot arabe Dans notre travail nous avons considéré que tous les proclitiques et les enclitiques sont des préfixes et des suffixes. VII. Les problèmes de traitement automatique de texte arabe: Le traitement automatique des langues(TAL) est la conception de logiciels ou programmes, capables de traiter de façon automatique des données linguistiques (textes) exprimées dans une langue dite « naturelle». Le TAL arabe rencontre plusieurs défis dépendant de l'absence fréquente des voyelles courtes dans le texte arabe et d’autres phénomènes morphologiques et syntaxiques cités au-dessous, ce qui risque de générer une certaine ambiguïté à deux niveaux: Sens du mot Difficulté à identifier sa fonction dans la phrase (différence entre le sujet et le complément,…). 18 Chapitre I Nature du Texte Arabe Les phénomènes qui ont des effets sur le parcours des méthodes de TALA et leurs résultats sont : L’Agglutination : A. Le phénomène d’agglutination de mot arabe est lié aux clitiques rattachés aux verbes et noms, ils sont définis comme une liste d’affixes (suffixes, préfixes, postfixes, antéfixes). Ces clitiques génèrent certains problèmes d’ambigüité spécifiques à la segmentation d’un mot , ce qui permet d’avoir plusieurs formes comme dans l’exemple suivant : Antéfixe préfixe َأ:article َو:conjonction de Forme fléchie ط َّم َ :verbe ( أوط ىAwSlwhm) : suffixe a Post fixé و:suffixe ْ ُ :pronom d’interrogation coordination l’accompli verbal (>a) prière(Sala~u) exprime le nom(hum) (wa) complément de pluriel (w) َأ:article ط َ َو:verbe a و:suffixe ْ ُ :pronom d’interrogation l’accompli verbal (>a) arriver (waSala) pluriel (w) nom (hum) و:suffixe ْ ُ :pronom ط َ ْ;أَوverbe a de complément l’inaccompli verbal faire arriver pluriel (w) du complément de de nom (hum) (>aweSala) Tableau I.7 : illustration d’un exemple de plusieurs segmentations d’un mot La bonne représentation du mot est indiquée par une analyse morpho-lexical puissant pour affecter les catégories grammaticales justes suivant les règles d’agglutination des proclitiques et des enclitiques parmi les il existe : La relation d’ordre : il faut toujours respecter l’ordre des proclitiques entre eux ainsi les enclitiques selon la catégorie grammaticale de chacun pour former le bon sens d’un mot par exemple l’article d’interrogation أse précède toujours les proclitiques du verbe de l’inaccompli : أ, خ, ن,ٌ (>,n,t,y) . La compatibilité entre les proclitiques et les enclitiques : pour former la bonne expression d’un mot arabe, il faut aussi respecter la compatibilité entre les proclitiques et les enclitiques, pour cela il existe plusieurs contraintes grammaticales pour gérer leurs enchainements, et diriger les analyses morphologiques. 19 Chapitre I Nature du Texte Arabe Les contraintes grammaticales pour les verbes [Mes ,08]: L’article d’interrogation أne peut pas être collé avec un verbe conjugué à l’impératif ou subjonctif. La particule ضne peut pas joindre qu’a un verbe conjugué à l’inaccompli (active ou passive). Les pronoms personnels ne se collent ni aux verbes intransitifs, ni aux verbes conjugués à la voix passive. Lorsqu’un verbe est conjugué avec les premiers et les deuxièmes pronoms personnels alors il ne peut pas agglutiner avec un pronom de la même personne. Les contraintes grammaticales pour les noms : L’article de définition '('الAl) ne peut être compatible avec les enclitiques de pronoms personnels, ni avec tanwin. B. Les mots homographiques : C’est tous les mots qui ont les mêmes formes orthographiques mais la prononciation est déférente [Mes ,08], ils ont apparait dans la majorité des cas dans les textes non vocalisés et qui ont causé des ambigüités lexicales et syntaxiques. (Sens du mot et la difficulté à identifier sa fonction dans la phrase) [You, 08]. Le lexique arabe contient plusieurs mots homographies qui ont des significations et des catégories grammaticales différentes comme : Il a plusieurs sens : ٌ َ َ :drapeau ( Ealamun) ً ْ ِ :science ََِ (Eilemun) :savoir (Ealima) Aussi les verbes défectueux peuvent générer des mots graphiques lors de modifications de la lettre défectueux, ainsi l’existence de chadda en leur conjugaison comme : َعد Il a plusieurs sens : َُ ِع ُد: prépare (le verbe )أَ َ َّمد (yuEidu~) ََ ُع ُد: compte(le verbe ) َ َّمد (yaEudu~) (Eada~) (>aEada~) ََ ُع ْد: revient(le verbe ) َا َد ( yaEude) (EaAda) ََ ِع ُد : promesse(le verbe ) َو َ َد (yaEido) (waEada) َُ ِع ْد: refait(le verbe )أَ َا َد (yuEide) (>aEaAda) 20 Chapitre I Nature du Texte Arabe Le pluriel et le dual sont aussi des mots graphiques dans le cas génitif et accusatif comme : ُ ( ال ماذAl-MokaAtilyn, les combattants) soit ِ ُْ َ ( ال ماذAl-MokaAtilayeni, deux combattants) ou َ ُِ ( ال ماذAl-MokaAtiliyna , plus de deux combattants). C. La phrase arabe : Il existe deux types de phrase en arabe : la phrase verbale et la phrase nominative. L’ordre des mots dans une phrase arabe déterminent son type : si la phrase est débutée par un verbe alors on dit qu’il est verbal par exemple : ال دزظح Al-Madrasap,Ecole Nom génitif ًإل الر ُر Ila ,à Al-tilmi*u, élève Particule génitif sujet ذ ة *ahaba, aller verbe Si la phrase est débutée par un nom ou par une particule on dit qu’il est nominatif ال دزظح Nom génitif D. ًإل ذ ة الر ُر Particule génitif verbe sujet الر ُر ذ ة Sujet verbe ال دزظح Nom génitif ًإل Particule génitif Rôle du niveau phonologique dans la morphologie : L’application des règles phonologiques est un phénomène fréquent qui influence sur la morphologie arabe, ils ont basé sur les opérations de conservation, remplacement et élimination. Ces règles sont liées surtout à la lettre hamza, aux lettres défectueuses et aux lettres dupliquées [Khe, 06] . Généralement, elles sont utilisées pour alléger la prononciation. A titre d’exemple, nous présentons la règle phonologique spécifique pour les lettres défectueuses : ' 'ل ة دسؾ الع ح ألفاqui permet de remplacer une lettre défectueuse ( وou ٌ) par alif ""ا, si la voyelle précédente est fatha ( َ ) et sa voyelle n’est pas sukûn ( ْ ْ ( . Cette règle est illustrée par le tableau suivant dont le premier montre les conditions d’appliquer cette règle à la forme abstraite générée par le mécanisme de dérivation. Dans le deuxième exemple, la voyelle de la lettre défectueuse est sukûn, alors on n’applique pas la règle car ses conditions ne sont pas vérifiées [Khe, 06]. 21 Chapitre I Nature du Texte Arabe Racine Schème Forme abstraite lemme َ ( ـَ َعFaEala) ( لَ َى َلQawala) ( لَا َلQaAla) (Qawel,Dire) َ ( ـَ ْعFaEela) ( لَىْ َلQawela) ( لَىْ َلQawela) قول Tableau I.8 : La règle de remplacement E. Le système numérique arabe: En observant les écrits arabes, on remarque une double norme dans l’usage des chiffres selon le pays. Ainsi, les pays d’Afrique du Nord utilisent les chiffres arabes dans leurs formes arabes, alors que cet usage est différent dans la plupart des pays arabes du Moyen-Orient, de l’Egypte et de l’Arabie Saoudite où l’usage des anciens chiffres arabes dits indiens est en vigueur [Zag, 09]. Au niveau de la lecture, le nombre est lu en commençant par la plus petite valeur comme 21 se lit un et vingt. Les nombres sont appartenus à la catégorie des noms. Type Exemple Chiffres arabes standards (Tunisie, Algérie, Maroc). 0 1 2 3 4 5 6 7 8 9 Chiffres arabes variantes occidentales (Égypte, ٓ ٔ ٕ ٖ ٗ ٘ ٙ ٧ ٨ ٩ Syrie, Palestine.) Tableau I.9 : Le système numérique arabe. VIII. Conclusion : Dans ce chapitre, nous avons présenté les caractéristiques du texte arabe qui sont différentes par rapport à d’autres langues indo-européennes. L’Arabe se distingue par le lien étroit entre ses différents niveaux linguistiques : phonologique, morphologique, syntaxique et sémantique. Ces caractéristiques ont été traitées par différentes applications de traitement automatique de la langue arabe comme le résumé automatique et la traduction des textes arabes, …etc. De telles applications reposent sur des fonctions communes d’analyse syntaxique et morphologique que nous verrons dans le chapitre suivant. 22 Chapitre II Méthodes d’Analyse du Texte Arabe Chapitre II I. Méthodes d’analyse du texte arabe Introduction : Aujourd'hui, la surcharge d’information est devenue de plus en plus un défi que les systèmes d’information doivent prendre en charge. Par conséquent, il serait intéressant de mettre en place des outils permettant d'automatiser les traitements des langues liées à la recherche de l'information, de faciliter l'accès à celle-ci, de diminuer la surcharge d'information, etc. Jusqu'à là, le marché de l'informatique essaie de répondre à cette problématique en développant des outils spécifiques traitant les différentes langues du monde tel que : les moteurs de recherche, les systèmes de Question/Réponse, les systèmes d'extraction d'information, les analyseurs morphologiques et syntaxiques, etc. II. Historique : Par ses propriétés morphologiques et syntaxiques, la langue arabe est considérée comme une langue difficile à maîtriser dans le domaine du traitement automatique des langues. Les premières études reviennent aux essais de David Cohen qui a proposé une analyse automatique dès 1961 (Cohen, 1961/1970) [Mes, 08]. Ces études proposèrent notamment une analyse morphologique minimaliste, basée sur la traduction de toute forme linguistique en schème et racine. Les recherches vont se développer plus tard sur le lexique et la morphologie jusqu’à la mise au point d’analyseurs automatiques arabes, de systèmes d’indexation, de correcteurs, etc. De nombreux projets sont en cours de développement et il existe des bases de données disponibles proposant des corpus divers sous forme électronique. Le traitement automatique de la langue arabe est devenu un domaine important dans la recherche d’informations puisque tout système de recherche d'informations vise à aligner le maximum possible le besoin d'information de l'utilisateur, exprimé en termes libres, avec le contenu documentaire cible. Pour cela il existe trois approches principales d’analyses et d’extraction de la forme réduite d’un mot arabe [Lar, 06]: L'analyse morphologique à base de dictionnaire. La lemmatisation légère (Light stemming) L'analyse statistique. La réduction du mot arabe à sa forme primitive est une tâche indispensable pour l’indexation de texte, la recherche d’information et l’organisation des dictionnaires. 24 Chapitre II Méthodes d’analyse du texte arabe L’analyse morphologique de l’arabe s’intéresse, comme pour les autres langues, aux formes des mots. Pour l’arabe, vu la richesse du mot graphique et la présence d’agglutination, cette analyse s'avère assez délicate, elle consiste à extraire la forme la plus complète associée à la variation de vocalisation et à la reconnaissance des schèmes de dérivation. C’est un outil de recherche et de travail pour une autre application comme les moteurs de recherche, les systèmes d’indexation et de traduction, il se base sur des listes préparées manuellement, parmi ces listes il existe [Saw et al, 08]: Une liste de tous les préfixes possibles Une liste de tous les suffixes possibles Une liste de tous les schèmes possibles si c’est un analyseur à base de racine. Une liste de toutes les racines ou lemmes si c’est un analyseur à base de dictionnaire. Les analyseurs morphologiques acceptent les textes et les mots unitaires (vocalisés entièrement ou partiellement ou non vocalisés). Le texte est segmenté aux : mots arabes, chiffres et signes de numérotation. On peut distinguer trois catégories d’analyseurs selon les types de sortie : Les analyseurs à base de lemme (Morphologie Lemma-Based) Les analyseurs à base de racine. (Morphologie Root-Based). Les analyseurs à base de stem (tige). (Morphologie stem-Based). 25 Méthodes d’analyse du texte arabe Chapitre II Analyse Morphologique Analyseur morphologique Lemmatisation légère Analyse statistique à base de dictionnaire Sortie stem (tige) Light stemming Sortie racine ISRI Sortie lemme Khoja stemmer AraMorph n-grams Effective stemming Shalabi Alkhalil n-classes ANEA Stemmer BBW Sakhr DIINAR Sebawai ASVM ALPNet Shammari XEROX Figure II.1 : différents types de méthodes d’analyse morphologique arabes III. Les analyses morphologiques à base de dictionnaire: A. Les analyseurs à base de racine : 1. Le système de Shereen Khoja (Khoja’s Stemmers) : Il essaye de trouver des racines pour les mots arabes qui sont plus abstraites que les lemmes. D'abord, il élimine les préfixes et les suffixes les plus longs, ensuite il compare le reste du mot avec les listes des schèmes des noms et des verbes pour extraire la racine à partir de la forme réduite. Pour ce faire, il comporte 19 listes partagées entre : les racines trilitères, les schèmes trilitères, les suffixes, les mots étrangers, les mots fonctionnels (une liste contenant 168 éléments : comme laysa, ina, fi…etc), les racines quaternaires, les ponctuations(les signes mathématiques et les ponctuations de l’écriture) et bien d'autres listes 26 Méthodes d’analyse du texte arabe Chapitre II de certaines formes particulières. L'analyseur Khoja est développé sous C++ et Java et est disponible librement sur Internet; il traite plusieurs difficultés : Si la racine est contient de longues voyelles (alif,waw,yah), la forme de cette lettre peut changer durant la dérivation[Kho, 01]. Certains mots n’ont pas de racines comme les pronoms personnels donc l’analyseur ne donne aucun résultat. La lettre de racine peut être éliminée durant la dérivation. L’analyseur tente de détecter la lettre pour reconstituer la bonne racine. Si la racine contient la lettre hamza, ce hamza peut changer sa forme durant la dérivation, l’analyseur détectera ça et retournera la forme originale d’hamza. Cet analyseur est utilisé comme partie composante du système de recherche d’informations de plusieurs langues développé à l'université du Massachusetts pour TREC-10 en 2001. Ce système a donné de bons résultats et a prouvé ses performances malgré certaines erreurs sur les racines produites. 2. Le système d’extraction des racines trilitères et quaternaires de Shalabi : Le système présente trois caractéristiques principales : Il donne tous les exemples d’un mot à analyser par l’utilisateur. Il donne la forme spécifiée avec le type de mot (personne, nombre et genre), indispensable pour un système de génération de textes. Il analyse le mot en entré pour obtenir l’étiqueteur grammatical avec sa racine, nécessaire pour un système de recherche d’informations [Sha]. Pour retrouver la racine trilitère d’un mot donné, la démarche de l’algorithme se résume par : la suppression de tous les préfixes les plus longs possible, et à spécifier les trois lettres de racine existera dans le reste du mot qui doivent se trouver dans quelque caractère de la première à la quatrième ou cinquième position du reste du mot [Sha et al, 98]. La première lettre du reste du mot constitue le début de racine qui va être complétée en vérifiant le reste des bigrammes selon un ordre déterminé. L’analyse n'est basée sur aucune liste préparée manuellement pour les racines quaternaires, mais sur des calculs mathématiques en fonction des coefficients des lettres d’un mot et la multiplication de ces coefficients par la position de ces lettres [Sha et al, 98]. 27 Méthodes d’analyse du texte arabe Chapitre II Pour tester l’algorithme, l'auteur a préparé deux fichiers : le premier pour les racines, et l'autre pour les préfixes. La sortie du programme donnait les racines et les schèmes pour chacun des mots en entrée. Le corpus de test contenait 19,167 mots dont 16,775 à racines de trois lettres, 1,124 à racines de quatre lettres et 1,268 mot invariable (noms non dérivables) [Sha et al, 98]. L'avantage principal de cet algorithme résidait dans l’exécution rapide par rapport à d’autres algorithmes antérieurs. Néanmoins, il exige un espace mémoire considérable. 3. L’analyseur morphologique Sakhr : Le Multi-Mode Morphological Processor (MMMP) de la compagnie Sakhr est un analyseur synthétiseur morphologique développé par Shalabi, qui fournit l'analyse de base pour tout mot de la langue arabe classique et moderne. Il identifie toutes les formes de lemmes possibles d’un mot et extrait la racine de base et le schème morphologique approprié après l’extraction des suffixes et préfixes pour donner toutes les solutions possibles. Malheureusement, on ne trouve pas de version d’essai pour cet analyseur [Web 2,11]. Avec un traitement profond aux niveaux syntaxique et sémantique, le MMMP synthétise en mode inverse pour générer la forme linguistique correcte pour les formes finales d’un mot. La synthèse est l’outil clé pour générer la sortie demandée dans les traducteurs automatiques et dans les applications de génération de textes tels que le résumé automatique [Web 2,11]. 4. L’analyseur morphologique de XEROX : En 1996; Kenneth Beesly évalua l’analyseur morphologique Xerox pour l’utiliser comme assistant dans l’enseignement et le traitement des langues naturelles. Il utilisa la technologie de transducteur à état finis « finite state technology : FST ». Une version d’essai se trouve sur le site de XEROX [Mou et al, 08] . Ses bases de données furent créées manuellement en collaboration avec Lauri Karttunen, il donna pour chaque mot arabe une liste de toutes les caractéristiques morphologiques possibles. Le système fut constitué de deux niveaux : un pour les racines et les schèmes et le deuxième pour les antéfixes, les particules de liaison et les prépositions. Il utilisa un dictionnaire de 4930 racines [Mes ,08]. La segmentation de la phrase en unités lexicales est réalisée par un transducteur à états finis, ce transducteur découpe la chaîne d’entrée en une séquence d’unités lexicales qui peuvent correspondre à une forme fléchie, une marque de ponctuation, etc. La deuxième étape 28 Méthodes d’analyse du texte arabe Chapitre II est l’analyse morphologique des unités lexicales produites par la segmentation de la première phrase. Cette étape est aussi réalisée par un transducteur qui relie la forme fléchie à la forme lexicale (et vice-versa). La forme lexicale est une séquence comprenant la représentation canonique de l’unité lexicale (le lemme), un ensemble d’étiquettes représentant le comportement morphologique de l’unité lexicale et sa catégorie syntaxique [Bou, 08]. 5. L’analyseur morphologique ALPNET de Darwish: Karim Darwish avait conçu, en 2002, l'analyseur morphologique pour la langue arabe. ALPNET permet d’extraire les racines possibles des mots arabes selon deux modèles: Le modèle constructif : il utilise des listes des paires de racines de mots comme une entrée pour l’extraction des listes des préfixes et des suffixes afin de calculer la probabilité d’apparition de ces antéfixes. Le modèle de détection de racine : il calcule la probabilité de combinaison des racines et des antéfixes comme une seule unité lexicale, néanmoins le nombre de mots générés est trop élevé dont une bonne partie sans aucun sens. Ce problème a été résolu par la recherche de ces combinaisons dans les listes de dictionnaire ou bien par la vérification manuelle. ALPNET permettait d’extraire jusqu'à 40,000 mot/seconde, mais il aucune version de test n'est disponible. 6. L’analyseur morphologique Sebawai de Darwish: Sebawai est un autre analyseur morphologique pour la langue arabe développé par Darwish en 2003, il permet de trouver les racines des mots arabes avec un taux de réussite de 84%. Ce système est utilisé dans une application de recherche d’information [Mou et al, 08]. B. Les analyseurs à base de lemme : 1. L’analyseur morphologique DIINAR : C’est une ressource linguistique très efficace de l’arabe, structurée comme une base de données, et opérant au niveau du mot graphique qu’on peut le dire le niveau morphologique. Leur nom complet est DIctionnaire INformatisé de l’ARabe, acronyme arabe «Ma‘âlî Mu‘jam al-‘Arabiyya » " " مـعـالــي معجم العرتية اآللي. La première version a été développée conjointement à Tunis et Lyon entre 1998 et 2000 . 29 Méthodes d’analyse du texte arabe Chapitre II A chaque entrée sont associés des spécificateurs morphosyntaxiques. L’analyse morphologique peut ainsi traiter des entrées non-vocalisées, et la génération morphologique produit des formes entièrement vocalisées, partiellement ou non vocalisée, selon le besoin. Le nombre total des entrées de la ressource linguistique DIINAR.1 est actuellement de 121.522 mot, pour 6,546 racines. Le nombre des entrées inclut 445 motsoutils relevant de diverses catégories grammaticales (prépositions, conjonctions, etc.) et le prototype d’une base de données des noms propres est de 1.384 entrées. Ces deux types d’entrées comportent leurs propres jeux de spécificateurs morphosyntaxiques [Dic et al, 08]. La version actuelle (DIINAR1) a été retirée du catalogue, elle est remplacée par une version DIINAR2 en 2010 [Web 1,11]. 2. L’analyseur morphologique ASVM : L’analyseur ASVM de Mona Diab est un logiciel libre, développé en Perl par l’équipe de Mona à l’université de Leland Stanford Junior en 2004. Il s’agit d’une adaptation à l’arabe du système anglais YamCha basé sur les Support Vector Machines. Les données probabilistes ont été acquises pendant une phase d’entrainement sur le corpus annoté Arabic TreeBank [Bou, 08]. L'équipe de Diab développa des outils pour les analyses morphologiques arabes dont l’apprentissage des mots, la lemmatisation, l’assignement de syntaxe et la segmentation de phrase sont désignés par l’utilisation de SVM (support vector machine). Cet outil fut entrainé sur la base de TreeBank, dont la partie de la base AFP (Agence France Presse) fut traitée par l’analyseur morphologique de Buckwalter. Les résultats obtenus était très encourageantes; près de 99% de mots corrects et 95.49% de syntaxes correctes. 3. L’analyseur morphologique de Buckwalter : L’analyseur morphologique de Tim Buckwalter est différent par rapport à d’autres algorithmes, en donnant en sortie un lemme et non pas une racine [Mou, 08]. Il est basé sur un ensemble de dictionnaires de préfixes (299 entrées), suffixes (618 entrées), lemmes (82,158 entrées) construits manuellement. Les lexiques sont complétés par trois tables de compatibilité entre les : préfixes-suffixes (1648 entrées), préfixes-stem (1285 entrées) et suffixes-stem (598 entrées) pour indiquer leurs combinaisons correcte et bien gérer les 30 Chapitre II Méthodes d’analyse du texte arabe analyses. Il considère que le lemme est une forme de base et produit des informations sur les racines, et inclut des marques de voyelles brèves et des signes diacritiques en plus du glossaire anglais et l’étiqueteur grammatical. L'analyseur est développé par LDC (Linguistic Data Consortium) et est téléchargeable à partir de son site à l’adresse http://www.nongnu.org/aramorph/french/, il utilise son étiqueteur de Penn Arabic Treebank, et le Prague Arabic Dependency Treebank. Il est le plus célèbre parmi les analyseurs arabes et est considéré comme la ressource lexicale la plus respectable dans son genre. Le texte en entrée doit être translittéré en ASCII avant tout traitement avec le système de translitération de Buckwalter, et le résultat doit être reconverti en Arabe pour que ça soit compréhensible, il permet de segmenter chaque unité lexicale en une séquence du type préfixe-stem-suffixe. Le préfixe est une combinaison de 0 à 4 caractères, le suffixe est composé de 0 à 6 caractères et le stem comprend un ou plusieurs caractères. La première version de Buckwalter avait été programmée en langage Perl, avant que Brihaye développe en 2003 AraMorph, une version sous Java. AraMorph est un package de classes Java pour la lemmatisation des mots arabes basé sur l’analyse morphologique de Buckwalter, il propose plusieurs solution pour chaque mot. Ses avantages sont : extensibilité pour développer de nouvelles applications selon le besoin. Chaque mot est un entrée manuelle, après chaque entré, toute les formes qui ont la même désignation que l’entré à différents niveaux sont listés. Adéquation parfaite avec la langue Arabe. L‘existence d‘une telle plateforme ouverte, offrant les bases d’intégration des solutions de traitement de la langue arabe, est à notre sens une voie efficace pour la standardisation, l'optimisation des efforts, la collaboration et l‘accélération des développements dans le domaine. Ses inconvénients sont : Ce système ne permet pas l’analyse des textes contenant des chiffres 0..9 ou bien des marques de numérotation parce qu’elle a désigné par des lettres dans ces bases. La difficulté de mélangé l’abjad arabe avec les lettres latin. 31 Méthodes d’analyse du texte arabe Chapitre II Une deuxième version d’AraMorph existe mais elle n’est pas téléchargeable. Elle a été développée entre 2004 au 2006, et inclut des dictionnaires plus riches. 4. L’analyseur morphologique BBw: Brahmi a développé un autre analyseur nommé Brahmi-BuckWalter (BBw) basé sur le lemme déduit de l'analyse morphologique de Buckwalter. L'apport de BBw réside dans les deux phases de pré/post-Buckwalter. Il procède par un prétraitement de normalisation du texte en entrée avant de les analyser morphologiquement. Le post-traitement consiste à définir des critères de sélection du lemme approprié pour l'indexation du texte [Bra, 11]. Dans cette deuxième étape, trois cas peuvent exister : Une solution unique est attribué au mot analysé auquel est associé a un schème spécifique. Des solutions multiples sont trouvées correspondantes à plusieurs schèmes et entrées du lexique. BBw traite toutes les solutions proposées comme un ensemble de solutions uniques séparées et garde tous les stem-lemme non vocalisés Aucune solution trouvée pour le mot; dans ce cas différentes raison peuvent exister : o L’entrée est erronée et ne correspond à aucun lemme. o L’entrée correspond à un nom propre et ne possède aucune entrée dans le dictionnaire. o L’entrée est un mot arabe correcte mais il n’existe pas dans le dictionnaire de Buckwalter, dans ce cas l’entré est considérée comme une solution à ajouter comme un nouveau mot au dictionnaire [Bra, 11]. 5. L’analyseur morphologique d’AL-Khalil: L’analyseur morphologique d’Al-Khalil est un fruit de coopération entre l’organisation arabe pour l’éducation et culture et science au Saudia et l’université du premier Mohamed au Maroc. C’est le deuxième logiciel gratuitement téléchargé après l’analyseur de Buckwalter mais il est plus profond avec l’extraction des racines et des schèmes d’un lexème tout en gérant les entrées et les sorties en deux langues anglaise et arabe. Al-Khalil analyse le mot arabe aux composants principaux comme : la racine, le schème et le lemme ainsi les préfixes et les suffixes, la vocalisation de mot et le type. La priorité qui est utilisé pour sortir des résultats associés au type de mot est définie d’une façon algorithmique [Kha, 10]. Il est développé sous java et produit des résultats comme dans (Figure II-2). 32 Méthodes d’analyse du texte arabe Chapitre II Figure II.2 : exemplaire d’un résultat d’analyse de mots hada par Al-Khalil IV. La lemmatisation légère (light stemming): La lemmatisation légère est un processus de suppression des antéfixes d’un mot, et la réduction des mots à ces tiges ou stem pour les utiliser dans la compression, la segmentation de la parole, la recherche d’information, et les analyses du texte. 1. Light-stemming de Larkey: Les Light-stemmers de Larkey consistaient à enlever un petit nombre de préfixes et de suffixes sans toucher les infixes pour reconnaitre la forme et trouver le stem [Lar et al, 06]. L'équipe de Larkey avaient développé plusieurs versions de light-stemmer suivant des listes des préfixes et des suffixes à supprimer (voir Tableau II-1, mais avant toute suppression, il faut normaliser les corpus et les requêtes pour faciliter le traitement des mots [Lar et al,03]. Light 1 Light 2 Light 3 Light 8 Light 10 Suppression de préfixes فال، كال، تال، َال، ال َ، فال، كال، تال، َال، ال َ، فال، كال، تال، َال، ال َ، فال، كال، تال، َال، ال لل،َ، فال، كال، تال، َال، ال Suppression de suffixes Aucun suffixe à supprimer Aucun suffixe à supprimer ة،ي ي،ية،ًي،يه،َن،ات،ان،ٌا،ة،ي ي،ية،ًي،يه،َن،ات،ان،ٌا،ة،ي Tableau II.1 : Les chaines enlevées par light stemming en arabe 33 Méthodes d’analyse du texte arabe Chapitre II Ces versions ont été testées en recherche d’informations sur le corpus TREC-2001, aussi nommé AFP-ARB contenant 383,872 articles arabes. La figure II-3 montre les résultats de cette comparaison selon les métriques d’évaluation (précision et rappel) [Lark et al, 02]. Figure II.3 : La comparaison entre les méthodes de light-stemming de Larkey. L'avantage principale de cette approche réside dans la facilité de réalisation et la vitesse d’exécution avec minimisation d’espace mémoire. Nous retenons pour notre implémentation de test la version Light-10. La méthode se résume par les étapes suivantes : Normaliser le mot en entrée comme suit : Supprimer les ponctuations Supprimer les diacritiques courtes Supprimer les caractères qui ne sont pas des lettres arabes Remplacer les lettres ( آ, أ, ) إpar la lettre ( )ا. Remplacer la dernière lettre ِ par la lettre ي. Remplacer la dernière lettre ةpar la lettre ي. Supprimer la lettre waw si la longueur de mot dépasse trois lettres Supprimer l’article de définition ‘ ’الsi la longueur de mot dépasse deux lettres Supprimer les suffixes indiqués dans le tableau 1 si la longueur de mot dépasse deux lettres 34 Méthodes d’analyse du texte arabe Chapitre II Supprimer les préfixes montrés dans le tableau 1 si la longueur de mot dépasse deux lettres. 2. Lemmatisation effective à base linguistique (Effective stemming) : Kadri et al. avaient proposé une nouvelle technique de lemmatisation arabe pour déterminer le lemme d’un mot arabe. Cette approche s'inspire de la composition des mots arabes qui sont habituellement formés d'une séquence de {antéfixe, préfixe, noyau, suffixe, postfixe}. Elle essai se remédier aux insuffisances du light-stemming de Larkey : par exemple les mots تسحان، َلدانcontient la même terminaison انqui est réellement un suffixe pour l'un mais pas pour l'autre. Les auteurs avaient proposés une bonne stratégie de lemmatisation basée sur l'indexation des mots par leur noyau, et ces index vont encoder la sémantique de base dans la langue arabe. Une première approche tente de tronquer les antéfixes d’un mot indiqué dans le tableau 2 de différentes façons et de comparer les résultats avec les mots de la collection, et garder seulement le lemme le plus fréquent dans la collection. Cette méthode choisit généralement les formes des mots non lemmatisées parce que ces formes sont plus fréquentes que les lemmes ou les racines dans la collection [Kad et al, 06]. Une deuxième approche plus efficace essaye de construire d'abord un lexique de tous les lemmes possibles pour tous les mots de la collection. Pour ce faire, chaque mot de la collection subit différentes décompositions pour obtenir tous les lemmes possibles pour ce mot. Ainsi pour tous les mots, nous construisons un corpus de lemmes avec leurs fréquences d'occurrence dans la collection. Quand un mot est soumis à la lemmatisation, nous générons un ensemble de lemmes candidats pour ce mot; ensuite nous choisissons le lemme le plus fréquent dans la collection [Kad, 08]. Antéfixes Préfixes َلل،كال،فال،تال،َتال،ت َال،ي،ن،ا ،فس،لل،َل،َب،ال،فة ل،ب،َ،ف،ك،َس،فل Suffixes Postfixe ،َن،ان،ات،جان،جيه،يُن، جما،ٌا،جي،ٌه،كه،ٌما،كما َ،ي،ا،ن،ت،وا،جه،جم،جا،َا،ي يه،ي،ك،كم،ٌم،وا Tableau II.2 : Les chaines enlevées par la lemmatisation effective 35 Méthodes d’analyse du texte arabe Chapitre II 3. La lemmatisation légère de Chen : Aitao Chen, Fredric Gey avaient introduit un Light-stemmer similaire à Light-10, mais avec des listes d'affixes plus riches. C’est une méthode effective identifie deux listes : une pour les suffixes et une pour les préfixes qui devrait être enlevés en se basant sur leur fonctions grammaticales et leur fréquence [Che et al, 03]. La fréquence pour un suffixe donné est comptée par le nombre de mots arabes qui ont terminés par ce suffixe. Ils avaient identifié : - 9 préfixes de trois lettres et 14 de deux lettres et 3 d’une seule, - 18 suffixes de deux lettres, 4 d’une seule lettre. Ces listes devraient être enlevées dans le processus de lemmatisation appliqué récursivement [Che et al, 03]. 4. La lemmatisation sans dictionnaire des racines (ISRI) : ISRI (The Information Science Research Institute), est un lemmatiseur léger arabe à plusieurs caractéristiques issues de l’analyseur de Khoja mais celui-ci n’utilise pas le dictionnaire des racines mais un ensemble des schèmes (voir Tableau II-4). Avec un ensemble de marques diacritiques et un ensemble des antéfixes à enlever, l’algorithme général peut être décrit comme suit [Kaz et al, 03]: Pour chaque mot W : 1. Supprimer les diacritiques 2. Normaliser les lettres ( ؤ, ئ, ) ءpar la lettre أ. 3. Supprimer les préfixes de longueur 3 et de longueur 2 dans cet ordre. 4. Si les deux lettres initiales de mot W sont ََ alors supprimer le connecteur initiale َ. 5. Normaliser si nécessaire les lettres initial ( آ, أ, ) إpar la lettre ا. 6. Retourner la racine si la longueur du mot est inferieure ou égale à trois lettres. 7. Si aucun résultat, tenter de trouver la racine selon quatre cas : a. Si la longueur du mot trouvé est égale à 4 et sa forme correspondant aux schèmes de forme PR4 (voir tableau II-3) alors extraire la racine approprié. Sinon supprimer les suffixes et les préfixes de longueur 1 de S1 et P1 dans cet ordre, à condition que le mot ne soit pas inférieur à longueur de trois et retourner la racine. b. Si la longueur du mot trouvé est égale à 5 et sa forme correspondant aux schèmes de forme PR5 alors extraire la racine trilitère de ce mot. si aucune n'est adaptée, 36 Méthodes d’analyse du texte arabe Chapitre II essayer de retirer les suffixes et les préfixes et retourner la racine trilittère. Si la longueur du mot est encore de cinq caractères, comparer le avec les schèmes de PR54 et retourner la racine de longueur quatre si elle est trouvé. c. Si la longueur de mot est égale à 6 alors extraire la racine trilitère si son forme est associé aux schèmes de forme PR63. Dans le cas contraire, supprimer les suffixes. Si un suffixe est éliminé et la longueur du terme résultant est de cinq caractères, envoyer ce terme à l'étape précédente 7b.si aucun résultat alors supprimer les préfixes de longueur 1, et en cas de succès, retourner le mot a l’étape précédente7b. Si la longueur du mot est encore de six caractères, comparer le avec les schèmes de PR64 et retourner la racine de longueur quatre si elle est trouvé. d. Si la longueur de mot est égale à 7 alors tente de supprimer les suffixes de longueur 1 et envoyer le terme résultant à l'étape précédente 7c. Si aucun résultat alors supprimer les préfixes de longueur 1 et retourner le mot à l’étape 7c. Pour les tests de comparaison dans notre travail, nous implémenterons l'algorithme ISRI. Le type l’ensemble Diacritiques Préfixes Suffixes de Description P3 P2 P1 S1 S2 Les diacritiques de vocalisation Les préfixes de longueur 3 Les préfixes de longueur 2 Les préfixes de longueur 1 Les suffixes de longueur 3 Les suffixes de longueur 2 S3 Les suffixes de longueur 1 Leur contenu proposé ّ ٍ ٌ ً ْ ُ ِ ََ َلل َال كال تال ال لل ل, ب, س,َ , ف, ي, ت, ن,ا جمل, ٌمل, جان, جيه, كمل َن, ات, ان, يه, جه, كم, ٌه, وا, يا, ٌا, جم, جه, وي, َا, ما, ٌم ة, ي, ي, ك, ت, ا,ن Tableau II.3 : Les ensembles des antéfixes proposé par ISRI 37 Méthodes d’analyse du texte arabe Chapitre II Le type de Description l’ensemble PR4 Les schèmes de longueur 4 PR53 Les schèmes de longueur 5 et racine de longueur 3 PR54 Les schèmes de longueur 5 et racine de longueur 4 Les schèmes de longueur 6 et racine de longueur 3 Les schèmes de longueur 6 et racine de longueur 4 PR63 PR64 Leur contenu proposé فاعل فعُل فعلة فعال فعيل مفعل جفاعل افحعل افعال افاعل فعالة فعالن فعُلة جفعلة جفعيل مفعلة مفعُل فاعُل فُاعل مفعال مفعيل افعلة فعائل مىفعل مفحعل فاعلة مفاعل فمالع يفحعل جفحعل فعالي اوفعل جفعلل افعلل مفعلل فعللة فعالن فعالل اسحفعل مفعالة افحعال افعُعل اوفعال مسحفعل افحعلل افعالل محفعلل Tableau II.4 : Les schèmes et leurs racines proposé par ISRI 5. Le lemmatiseur léger ANEA : ANEW ENHANCED APPROACH Partant de l'analyse des analyseurs proposés lors de la conférence TREC-2002, Les auteurs proposèrent deux approches principales : La première (SP) traite l’ensemble des affixes prédéfinis de TREC. La deuxième approche (SPS) consiste à enlever un suffixe après l’application de l’approche SP. Ces deux approches principales sont distribuées sur 6 algorithmes selon les étapes de traitement des préfixes et des suffixes [Hay et al, 05]. Dans les listes des préfixes, des nouveaux termes sont ajoutés, ils incluent un seul préfixe de 4 lettres et 13 préfixes de trois lettres, 17 préfixes de deux lettres et 3 préfixes d’une seule lettre, par contre Les listes des suffixes contiennent 20 suffixes de deux lettres et 8 suffixes d’une seule lettre. Chaque algorithme est détaillé comme suit : 1. Suffixe-préfixe SP : Supprimer les ponctuations Supprimer les diacritiques Tant qu'il existe des suffixes, supprimer-les récursivement en débutant de gauche à droite. Supprimer les préfixes non récursivement en débutant du plus à droite. 2. Suffixe-Préfixe-Suffixe SPS : Supprime un suffixe de plus grand longueur en choisissant de droite à gauche. Supprimer un préfixe de plus grand longueur en débutant du plus à droite. S’il reste un autre suffixe supprimer-le, en procédant par le plus long et de droite à gauche. 38 Méthodes d’analyse du texte arabe Chapitre II 3. Suffixe-Préfixe sans Alef-Lam SPWOAL : Supprimer le déterminant ‘’ال. Tant qu’il existe des suffixes, supprimer-les récursivement de gauche à droite. Supprimer les préfixes non récursivement en débutant du plus à droite. 4. Suffixe-Préfixe-Suffixe sans Alef-Lam SPSWOAL : Supprimer le déterminant ‘’ال. Supprime un suffixe de plus grand longueur en choisissant de droite à gauche. Supprimer un préfixe de plus grand longueur en débutant du plus à droite. S’il reste un autre suffixe supprimer-le, en procédant par le plus long et de droite à gauche. 5. Suffixe-Préfixe avec Alef-Lam SPAL : Aucune normalisation des mots. Tant qu’il existe des suffixes, supprimer-les récursivement de gauche à droite. Supprimer les préfixes non récursivement en débutant de plus droite à gauche. 6. Suffixe-Préfixe-Suffixe avec Alef-Lam SPSAL : Aucune normalisation des mots. Supprimer le suffixe le plus long en procédant de droite à gauche. Supprimer un préfixe le plus long en débutant de plus droite à gauche. S’il reste un autre suffixe supprimer-le, en procédant par le plus long et de droite à gauche. Préfixe 1 ي ن ت Les préfixes proposés Préfixe 2 Préfixe 3 ال لل سي سا َال تال َال فال سث سه كا فا كال َلل َسي تا تل لي لث له َسث َسه َسا فث في فه َلي َلث َله Préfixe 4 َتال Les suffixes proposés Suffixe 1 Suffixe 2 َ ان يه َن ات ي ة ك ٌم ٌه ٌا كم ي ن ا ت كه وا َا جم ًوي جه جً ي ما يا جا جك Tableau II.5 : Les chaines de préfixes et de suffixes proposé par ANEA V. Les méthodes statistiques : L'approche statistique est très utile dans les algorithmes d’extraction des racines ou de lexèmes des mots. Son principe est fondé sur le calcul des fréquences des mots et les antéfixes en se basant sur les mesures de similarité. Parmi ses modèles appliqués pour l’analyse morphologique de l’arabe, on trouve : les modèles de n-grammes et les modèles de n-classes. 39 Chapitre II Méthodes d’analyse du texte arabe Certains algorithmes sont basés sur la technique de choix du plus fréquent des racines ou des antéfixes, d’autres considèrent que les terminaisons les plus fréquentes des mots sont des antéfixes, mais ces algorithmes ne donnent pas souvent le bon résultat parce que la dérivation des mots arabes n'est pas toujours basés sur l’ajout des antéfixes. a. Les méthodes n-grams : Un n-gramme est une sous-séquence de n éléments construite à partir d'une séquence donnée. L'idée semble provenir des travaux de Claude Shannon en théorie de l'information en 1948. Son idée était qu’à partir d'une séquence de lettres données (par exemple "par exemple") il est possible d'obtenir la fonction de vraisemblance de l'apparition de la lettre suivante. À partir d'un corpus d'apprentissage, il est facile de construire une distribution de probabilité pour la prochaine lettre avec un historique de taille n. Cette modélisation correspond en fait à un modèle de Markov d'ordre n où seules les n dernières observations sont utilisés pour la prédiction de la lettre suivante. Ainsi un bi-gramme est un modèle de Markov d'ordre 2 [Web 1,11] . Un n-gramme est une séquence de n caractères consécutifs. Pour un document quelconque, l’ensemble des n-grammes (en général n prend les valeurs 2 ou 3) qu’on peut générer est le résultat qu’on obtient en déplaçant une fenêtre de n cases sur le corps de texte. Ce déplacement se fait par étapes, une étape correspond à un caractère, ensuite on compte les fréquences des n-grammes trouvés. Par exemple la phrase "La nourrice nourrit le nourrisson" se représente par 3-grammes : [la_=1, a_n=1, _no=3, nou=3, our=3, urr=3, rri=3, ric=1, ice=1, _ce=1, e_n=2, rit=1, it_=1, t_l=1, _le=1, le_=1, ris=1, iss=1, sso=1, son=1] [Jal et al, 02]. N-Grams de McNamee : McNamee utilise les n-grammes de longueurs multiples (3, 4, 5, 6) pour indexer les mots. Un mot est indexé par plusieurs de ses n-grammes possibles [Lar et al, 06]. Par exemple, si on tente d'indexer le mot تىحٍم. (Leur fille) par ses 3-grammes, le résultat serait : تىث,ً وح, جٍم Avec cette méthode, malgré qu'on arrive toujours à identifier les bons index, d'autres index erronés peuvent s'infiltrer. Dans l'exemple du mot précédent تىحٍم, le bon index ( تىثfille) est identifié, mais un autre index erroné ( جٍمaccusations) est introduit. Le résultat de cet index erroné est qu'un système de RI appliquant une lemmatisation n-grammes retourne beaucoup de documents qui ne sont pas forcément pertinents et la précision sera pénalisée. L'autre inconvénient de cette méthode est la production d'un fichier d'index de taille exorbitante. Par 40 Chapitre II Méthodes d’analyse du texte arabe exemple, pour indexer la collection TREC de 383 872 textes, on crée un fichier d'index d'une capacité de 441 MB en utilisant les 3-grammes et de 1,691 MB en utilisant les 6-grammes [kad, 08]. b. Les méthodes de n-classes : Il est possible de regrouper les mots en classes pour trouver une méthode maximisant la quantité d'information utile. En effet, si l'on prend l'exemple d'un nom commun masculin singulier, sa probabilité d'apparaître après la préposition un est la même que celle d'un autre nom commun identique en genre et en nombre. Cependant, ces classes ne sont pas forcément de type syntaxique (nom commun, verbe, préposition, etc.), elles peuvent être d'autre nature, par exemple des classes obtenues avec des méthodes de classification automatique. Les modèles obtenus avec cette approche se nomment modèles n-classes 2 [Vau, 02]. Dans le cas de certains mots, il est très difficile de déduire à coup sûr quelle est la classe d'un mot en fonction d'un historique de taille réduite. Pour cela, les modèles POS (Part Of Speech), utilisent, pour le calcul de score d'apparition d'un mot, la moyenne des probabilités conditionnelles d'apparition de ce mot dans cette position, dans chacune de ses classes d'appartenance. Les modèles morphologiques sont une extension de ce modèle POS. Ils incluent aussi les probabilités de la suite des lemmes, déduits des mots, dans la séquence [Vau, 02]. Pour la n-classe en arabe, la classification des mots par le filtrage de mot est passée après le calcul de mesure de similarité morphologique des mots pour trouver les classes qui contient les mêmes racines, et ils ont appliqués cette méthode après l’élimination des voyelles, préfixes et des suffixes. 1. Les n-classes de Fares : Al-Fares et DeRoek utilisent n-classe sur les mots arabes pour trouver les classes des mots qui ont la même racine, leur classification est fondée sur la similarité morphologique appliquée après la suppression d’un nombre inférieur de préfixes et de suffixes remarquables. La classification basés sur la racine peut substituer les dictionnaires dans l’indexation de recherche d’information, Les auteurs ont évalué un nouvel algorithme (variante de l’algorithme d’Adamson et Boreham, 1974) : Ils opèrent à deux niveaux : l’application de 41 Chapitre II Méthodes d’analyse du texte arabe light stemming, et la mesure de similarité des mots pairs utilisant une technique correspondant à la morphologie arabe et une mesure d’Adamson modifiée [ROEK et al, 05]. Ils ont retenu le bi-gramme par un dépassement d’un seul caractère, mais l’insertion des limites blanches entre les mots rend les bi-grammes uniques isolés. Ils ont assigné un poids de 0.25 pour les mots qui contiennent des voyelles longues dans ces antéfixes, 0.5 pour les mots qui ne contiennent pas, 1 pour le reste [ROEK et al, 05]. Les mots qui ont été dérivés de la même racine sont reliés sémantiquement, la classification peut implémenter comme une dimension d’index et évaluée dynamiquement par le texte et sans maintenance spécifique. La méthode a été appliquée sur le texte de l’arabe moderne sans signes diacritiques. L’incertitude de classification basée sur la racine, donne des racines équivalentes dans leurs consones avec l’utilisation de l’algorithme d’Adamson et sa mesure : SC (Dice) = 2*(nombre de n-grams unique partager) / (somme de n-grams unique) Il est à noter que si le SC est trop élevé alors la classification est terminée, sinon c'est que les mots se ressemblent et doivent être groupés dans la même classe. La mesure est évaluée dans cet algorithme comme suit : SC (Jac) = n-grams unique partager / (somme de n-grams unique dans chaque chaine partager). Les tests ont donné un taux de performance de 94.06% sur un échantillon de texte arabe, mais leur limite est reliée au développement de light stemming [ROEK et al, 05]. 2. Les n-classes par MTA de Chen et Gey : Chen et Gey avaient proposés un lemmatiseur arabe basé sur les classes de mots groupés selon leur traduction lemmatisée en anglais. Ils avaient appliqué la traduction automatique du mot arabe vers l'anglais par le système Ajeeb [Che et al, 03].Après la suppression des mots fonctionnels, les mots arabes, dont la traduction anglaise dérive de la même racine, avaient été groupés dans la même classe. La racine la plus probable est le plus court mot dans la classe, c’est une classification indirecte. Les adjectives et les verbes sont lemmatisé de la même façon. Ce lemmatiseur est changé la forme pluriel de mot arabe à son forme singulier [Che et al, 03]. 42 Chapitre II VI. Méthodes d’analyse du texte arabe Les Métriques d’évaluation de performance d’une méthode d’analyse: Diverses mesures ont été introduites pour évaluer la performance d’un analyseur morphologique et son efficacité incluant : la rapidité de algorithme (TCPU), la consommation d’espace mémoire, le nombre de mots par classe fusionnée (WC), la compression des mots pour l’indexation (ICF), l'index de sous-stemming (UI), l'index de sur-stemming (OI) et le rapport entre ces deux métriques d’erreurs : le poids d’analyse (SW). Par ailleurs, une autre approche consiste à évaluer la performance de la tâche utilisant le produit d'un lemmatiseur, par exemple pour la recherche d’information on calcule la F-measure. 1. Temps d’exécution(TCPU) : Un lemmatiseur robuste doit exploiter l’unité de contrôle et traitement en un temps faible, cette mesure est calculée sur tous les documents du corpus à lemmatiser selon la formule suivante : TE/Nbre de documents (secondes/document) 2. Consommation RAM(CRAM) : Un lemmatiseur robuste est évalué, comme tout autre algorithme, par l'espace mémoire requis pour son fonctionnement. 3. Nombre de mot par une classe de fusionnement (WC): (words per conflation class) :C’est la taille moyenne d’un groupe de mots fusionnés correctement à un stem particulier. Par exemple si les mots : " " طفل, " " أطفال, " " طفُلة, sont lemmatisé au stem " " طفل, alors la taille de la classe de fusionnement est trois. Ainsi, Si le fusionnement de 1000 mots différents résulte 250 stems distincts, alors le nombre de mot par classe de fusionnement sera 4. Cette mesure est clairement dépendante du nombre de mots traités, plus sa valeur soit élevée meilleure soit la performance du lemmatiseur. Cette mesure peut être calculées comme suit : MWC=N/S N : Nombre de mots uniques avant la lemmatisation. S : Nombre de stems uniques après la lemmatisation. 4. Facteur de compression d’index (ICF) :(Index Compression Factor) Puisque la réduction de la taille du vocabulaire est l'un des principaux objectifs de lemmatisation, la capacité de réduire la taille du corpus pour l’indexation est important. Le facteur de compression d’Index (ICF) a été introduit comme une mesure capable d'évaluer les analyseurs morphologiques et les performances de compression. ICF prend en compte seulement la collection des mots compressés par le lemmatiseur, donc la plus haute valeur d’ICF représente un lemmatiseur plus efficace : 43 Chapitre II Méthodes d’analyse du texte arabe ICF=(N-S)/N N : Nombre de mots uniques avant la lemmatisation. S : Nombre de stems uniques après la lemmatisation. Si touts les mots sont lemmatisés à des stems totalement différents alors : N=S et ICF=0 donc pas de compression d’index. 5. Les erreurs de lemmatisation: Un groupe-concept est un groupe de mots reliés morphologiquement et sémantiquement. Ainsi, un lemmatiseur doit pouvoir produire le même stem pour les mots du même groupeconcept. Paice avait proposé de mesurer la performance d'un lemmatiseur en calculant les erreurs de sur-stemming (OI) et de sous-stemming (UI) [Pai, 94] : UI : Il s'agit des mots qui devraient être regroupés en même groupe, mais ne le sont pas. Cela rend un concept unique réparti sur différents stems, ce qui tendra à diminuer le rappel dans la recherche d’information (IR). OI : Il s'agit des mots qui ne devraient pas être regroupés, mais le sont. Cela provoque les significations des stems d'être étendue, ce qui affectera la précision en IR. UI et OI sont calculés à l’aide de quatre paramètres : DMT : total des fusions souhaitées : c’est le nombre de différentes paires de forme d’un mot possible dans un groupe particulier : DMT = 0,5 ng ( ng -1 ) Ou : n : est le nombre de mots dans ce groupe [Pai, 94]. DNT : total des non-fusions souhaitées : un lemmatiseur parfait ne doit pas fusionner tout membre du groupe-concept actuel avec un mot d'un autre groupe. Ainsi, pour chaque groupe, il ya un : DNTg = 0.5ng ( w – ng ) ou W : est le nombre total de mots. Chaque équation contient un facteur 0,5 pour compenser le double comptage de paires au cours de la sommation [Pai, 94]. En additionnant ces deux totaux sur tous les groupes de mot dans l’échantillon, nous obtenons GDMT et GDNT. UMT : Total de fusion inachevée: Après l'application d'un lemmatiseur à l’échantillon, il est possible de trouver un certains groupes encore contenir deux ou plusieurs stems distinctes. Dans ces groupes, il ya des erreurs under-stemrning à compter. En supposant qu'un groupe-concept de taille ng contiennent des stems distincts après lemmatisation, et que le nombre des instances de ces stems sont u1,u2,..u s , Le nombre d'erreurs under-stemming pour le groupe «Total de fusion inachevée » UMTg ) est donné par [Sham et al, 08] : 44 Méthodes d’analyse du texte arabe Chapitre II UMT =0.5 𝑖…𝑠 𝑢𝑖(𝑛𝑔 − 𝑢𝑖) Additionnant cette quantité pour tous les groupes, nous obtenons GUMT ; under-stemming Index est maintenant donnée par le rapport : UI=GUMT / GDMT. WMT : total d’erreur-fusionnée Global : Après lemmatisation, nous voulons aussi trouver des cas où le même stem se produit dans deux ou plusieurs groupes de concepts. La procédure ici est de rassembler tous les cas particuliers d’un stem en un «groupe de stem », maintenant tout groupe de stems dont les membres sont issus de deux ou plusieurs groupes de concepts différents contient over-stemming d’erreurs qui doivent être comptés [Pai, 94]. Considérons un groupe de stem qui contient ns items qui sont dérivés de différents groupes de concepts, et supposons que le nombre de représentants de ces groupes de concepts sont vl , v.2 , ... vt . Le nombre d'erreurs over-stemming pour ce groupe de stem est représenté par : WMT = 0, .5 𝑖…𝑡 𝑣𝑖(𝑛𝑠 − 𝑣𝑖) Additionnant cette quantité pour tous les groupes de stems, nous obtenons le «total global d’erreurs fusionnées» GWMT ; L'index d'Over-stemming est maintenant donné par le rapport : OI=GWMT / GDNT Le rapport de ces deux grandeurs peut donc être considéré comme une mesure de poids d’analyse SW [Pai, 94] : SW = OI / UI Le lemmatiseur idéal doit être capable d’associer (groupe) les mots liés au même stem à des UI et OI faibles. À ce stade, de petites augmentations de rappel sont obtenues au détriment d'une perte importante de précision [Pai, 94]. VII. Comparaison théorique entre les grandes classes de méthodes d’analyses : Chacune des méthodes d’analyse morphologique de l'arabe, étudiées dans ce chapitre, offrent des avantages mais aussi souffrent de certains inconvénients. Nous en résumons dans ce qui suit les principales caractéristiques par classe de méthode: 45 Méthodes d’analyse du texte arabe Chapitre II Approche Avantages Inconvénients Analyse Morphologique à base de Dictionnaire - Basée sur des listes établies préalablement - Sortie soit un lemme ou racine - Traitant tous types des mots arabes - Résultats précis - Adéquate pour l’apprentissage - Simple à implémenter - Sortie soit stem (tige) ou racine - Pas besoin de grandes listes préalablement établies - Facile à gérer - Adéquate pour la recherche d’information - Faible espace mémoire - Gourmande en espace mémoire - Charge CPU élevée. Lemmatisation Légère - Non adéquate à la recherche d’information - Résultats inexacts. - Traitant seulement les préfixes et les suffixes - Pas besoin de grande connaissance linguistique. Analyse Statistique -Basé seulement sur les calcules et la classification - Simple à implémenter - Pas besoin des grandes listes préalablement établies - Facile à gérer - Difficulté de trouver des seuils de calcul - Résultats inexacts - Erreurs élevées pour le surstemming et le sous-stemming - Faible espace mémoire Tableau II.7 : Les avantages et les inconvénients des méthodes d’analyse morphologique VIII. Conclusion : Les méthodes de traitement automatique de la langue arabe sont en évolution incessante notamment celles qui s’intéressent la morphologie des mots arabes. Ces déférentes méthodes ont donné de bons résultats et moins bonne pour certaines, néanmoins les travaux investis dans ce domaine ont contribué remarquablement au développement de la recherche d’information en langue arabe. Quelques insuffisances restent à combler dans cet axe de recherche surtout en ce qui concerne le traitement de pluriel irrégulier et les changements du niveau phonologique dans la morphologie. Le processus de recherche en langue arabe s’appuie non seulement sur le traitement automatique de la langue arabe mais aussi sur le principe de l’indexation sémantique qui sera exposé dans le chapitre suivant. 46 Chapitre III L’Indexation Sémantique En RI Chapitre III I. L’Indexation Sémantique En RI Introduction : La quantité d’information stockée au format électronique est en augmentation incessante, il est devenu difficile de gérer les documents et de les exploiter. Il fait de plus en plus malaisé de retrouver un ensemble d’information contenu dans un document, au sein d’une base de documents appelé corpus. Cette difficulté est étroitement liée à la structuration de ces documents et donc difficilement accessible voire identifiable. Pour régler ce problème, un système de recherche d’information doit inclure deux processus : un processus de représentation et un autre pour la recherche. Dans une première étape, les documents et la requête sont représentés par des descripteurs regroupés pour refléter au mieux le contenu des documents et construire un index ; cette étape est appelée l’indexation, celle qui précède le processus de recherche. II. Indexation sémantique : a. Place de la terminologie : Un texte peut être vu comme une succession de mots. Un mot est reconnu comme étant une succession de lettres, délimitées par des caractères de ponctuation, des espaces ou tout autre séparateur. L’unité lexicale est un élément du vocabulaire de la langue, auquel sont associées des règles syntaxiques de construction de phrase. Le terme est une unité lexicale correspondant à une unité sémantique, il dénote une notion précise dont le terme est la désignation d’un concept dans un contexte précis. Le concept est composé, au moins, d’un mot, mais n’a pas de limite sur son nombre de mots ; par exemple, le terme «être vivants» se compose de deux mots, mais représente un seul concept [Cat ,10]. La relation entre terme et concept est une relation ambiguë. En effet, un concept peut être représenté par plusieurs termes et un même terme suivant le contexte peut représenter des concepts différents. Pour illustrer un peu cette ambiguïté, la table 1 représente les différentes relations entre les mots, les termes et les concepts [Cat ,10]. Un traitement sémantique prend en compte la sémantique du mot en plus de sa morphologie. La sémantique est le sens qu’un être humain peut le comprendre de ce terme. Donc le terme n’est pas une simple chaîne de caractères, mais aussi un sens associé grâce à une ressource linguistique externe. 48 L’Indexation Sémantique En RI Chapitre III Relation Mot Terme Concept Homographie Car Car : conjonction de Introduit une explication coordination Car : nom masculin Grand automobile de transport singulier Synonymie Cours cours : collectif, routier ou touristique nom Enseignement diffusé dans un masculin Leçon leçon : domaine donné ou relatif à un nom niveau scolaire précis masculin singulier Polysémie Cours Cours : masculin nom Écoulement continu d'un liquide, d'une rivière Enseignement diffusé dans un domaine donné ou relatif à un niveau scolaire précis Tableau III.1 : Quelques relations liant les mots, les termes et les concepts. b. Définition : L’indexation sémantique est une phase préliminaire de recherche d’information, elle consiste à identifier chaque document par des concepts qui serviront de clés pour retrouver ce document au sein d’une collection. Pour cela il faut tout d’abord une liste de concepts cibles pour pouvoir transformer le mot en concept. Le choix des unités de représentation (appelées aussi unités d’index ou descripteurs) du document est crucial, il influence sur la qualité de l’indexation [GAS,10]. L’ensemble de ces unités constitue le vocabulaire d’indexation, ce vocabulaire peut être libre ou contrôlé. L’indexation est une analyse documentaire qui a pour objet de normaliser la codification du contenu des documents et de produire une représentation réduite et formalisée. Au sens informatique, l'indexation est la création d'un fichier inversé ou index d'interrogation ordonnée des termes interrogeables assortis des références permettant de retrouver l'information. 49 L’Indexation Sémantique En RI Chapitre III c. La différence entre descripteurs et mot clés : Mot-clé : c’est le mot choisi dans le titre ou le texte d'un document, sans référence à un lexique ou à un thésaurus, caractérisant son contenu et permettant la recherche de ce document. Descripteur : est le mot ou groupe de mots retenus dans un thésaurus ou lexique de référence, ils sont choisi parmi un ensemble de termes équivalents pour représenter sans ambiguïté une notion contenue dans un document ou dans une demande de recherche documentaire. thesaurus Pages web Extraction de terme Formes bien formés et fréquences pondérés Génération des concepts candidats Ontologie du domaine Elaboration de l’index structuré Index et leur représentativité Calcul de la représentativité des concepts Index structuré Figure III.1 : Système d’indexation sémantique d. Les langages d’indexation 1. Le langage libre Le langage libre est un langage évolutif, proche de notre langue naturelle (LN). Son vocabulaire est l’ensemble des éléments qui composent le langage, il est choisi à posteriori et n’est pas limité par un contrôle. Le vocabulaire est donc composé de tous les descripteurs choisis librement pour indexer les documents [GAS, 10]. Le langage libre n'est pas régi par une syntaxe car aucune contrainte n'est spécifiée à priori. Par conséquent, le vocabulaire 50 Chapitre III L’Indexation Sémantique En RI évolue rapidement et peut contenir des synonymes, polysémiques etc. Ce qui entraîne des incohérences et diminue les performances du système de recherche d’information [Cat ,10]. 2. Le langage contrôlé Le langage contrôlé ou langage documentaire est un langage normalisé, il sert à éviter les problèmes d’ambiguïté (dû à l’homonymie et à la polysémie de certains termes) ainsi que les problèmes de redondance (synonymie, etc.) du langage libre. Une liste de termes d'indexation est définie ; cette liste appelée liste d'autorité, ainsi un terme d'indexation ne possède qu'un seul sens et inversement un sens n'est associé qu'à un seul terme d'indexation donc les descripteurs retenus seront les seuls mots clés acceptés lors de la requête [Cat ,10]. L’indexation en langage contrôlé réduit le nombre de représentations possibles d’un document. Cela n’empêche pas l’indexation d’être subjective si elle est réalisée par un sujet humain, même si les sens et les termes sont bien délimités. e. Indexation manuelle et indexation automatique L'indexation automatique et l'indexation humaine, aussi appelée indexation manuelle, se différencient par l'agent mettant en œuvre le processus d'indexation des documents : Dans le cas d'une indexation humaine, c'est le documentaliste qui effectue l'analyse du document, pour identifier son contenu et construire une représentation de ce contenu. L'indexation manuelle est très souvent critiquée pour son coût. En effet, la personne chargée de l'analyse des documents doit posséder les connaissances minimales à la compréhension des centres d'intérêt du document, sous risque d'obtenir une indexation incorrecte. Une autre caractéristique fréquemment soulignée de l'indexation humaine est sa variabilité. En effet, même si l'indexation s'appuie sur un langage documentaire, des descripteurs différents peuvent être proposés pour représenter un même document suivant l'interprétation faite sur le contenu du document [Cat ,10]. Cette variabilité a été repérée aussi bien dans des situations où plusieurs personnes indexaient que dans des situations où une même personne indexait un même document à deux moments différents. Dans le cas d'une indexation automatique, c'est le système de recherche d'information qui génère les index des documents. L’indexation automatique présente l'avantage d'une régularité du processus, car elle fournit toujours le même index pour le même document, ce qui constitue une qualité du système. En effet, l'indexation automatique est caractérisée 51 Chapitre III L’Indexation Sémantique En RI par son incapacité à interpréter un texte et son manque d'adaptation à de nouveaux vocabulaires. Par exemple, si le système n'a aucune connaissance lui permettant de lever les ambiguïtés des termes, il génèrera des erreurs d'interprétation du sens ce qui entraînera des incohérences dans la base [Cat ,10]. L’indexation automatique est basée sur quatre méthodes [Mus,05] : des méthodes statistiques et probabilistes : pour sélectionner les termes d’index, ces méthodes combinent les critères distributionnels (fréquence, cooccurrence de mots), positionnels (la partie du document dans laquelle un mot apparaît : titre, corps du texte, sommaire) et surtout quantitatif (longueur du texte considéré). des méthodes linguistiques : lexicographiques et morphosyntaxiques. Ce sont les techniques employées dans le traitement automatique des langues naturelles. des méthodes informatiques (telles que : algorithmes de recherche, langages évolués spécifiques, etc.) utilisées aussi bien dans le traitement automatique des langues qu’en documentation automatique. L’indexation semi-automatique est une combinaison des deux méthodes précédentes dont les indexeurs utilisent un vocabulaire contrôlé et le choix final des termes d’indexation ce fait à partir de ce vocabulaire par un indexeur humain spécialiste du domaine [Fat, 08]. III. Les Ressources linguistiques Indexer consiste donc à analyser le contenu d’un document et de le transcrire dans un langage documentaire. Un langage documentaire est un langage contrôlé utilisé pour codifier le contenu d’un document et constituer par des termes choisis pouvant appartenir au langage naturel et par un système de relations entre ces termes, il se caractérise également par une syntaxe en reprenant les règles de construction du langage [Dom, 11]. Il existe deux types : (1) les langages à structure hiérarchique (classificatoires : Taxonomie et Ontologies), qui utilisent des indices symboliques et, (2) les langages à structure combinatoires (thésaurus et listes d’autorité), qui utilisent les mots du langage naturel [DEN, 03]. 1. Liste d’autorité-matière Une liste d'autorité est une liste présentant en ordre alphabétique un ensemble de termes normalisés qui doivent être obligatoirement utilisés pour l'indexation. La liste contient également l'ensemble des formes rejetées. Conçue comme un outil d'aide à l'indexation, pour 52 L’Indexation Sémantique En RI Chapitre III être efficace, ne doit pas contenir de termes polysémiques ou synonymiques. C’est une liste encyclopédique dont les termes sont liés les uns aux autres par une syntaxe particulière. Elle est avant tout conçue pour les bibliothèques dans un objectif de catalogage de leur fonds. Le répertoire de vedettes-matière est un ensemble d'un ou plusieurs descripteurs (termes) exprimant et précisant le sujet d'un document. Chaque vedette-matière correspond à un seul sujet, simple ou complexe. Un même document peut avoir plusieurs sujets donnants lieux à la rédaction de plusieurs vedettes-matières [TAR, 05]. 2. Thésaurus Un thésaurus est une liste organisée de termes contrôlés et normalisés (descripteurs et nondescripteurs) servant à l’indexation des documents et des requêtes dans un système documentaire. Les termes sont reliés entre eux par des relations de synonymie (terme équivalent), de hiérarchie (terme générique et terme spécifique) et d'association (terme associé) [DEN, 03] ; chaque terme appartient à une catégorie ou domaine. Le thésaurus évite ainsi les risques induits par les synonymies, les homonymies et les polysémies présentent dans le langage naturel. Le thésaurus est un outil d'indexation combinatoire à vocabulaire contrôlé, c'est-à-dire, les termes qui le constituent sont sélectionnés et ne peuvent être modifiés, sauf lors des mises à jour. C'est un langage post-coordonné car les descripteurs définissant les concepts peuvent être combinés ou associés à posteriori lors de la recherche d'information. Trois types de termes composent un thésaurus [Dom, 11] : les descripteurs : il s'agit de l'ensemble des mots autorisés pour indexer ; les non-descripteurs : Ils sont utilisés lors de la recherche. les mots outils : ce sont des descripteurs qui ne peuvent être utilisés seuls, vu qu'ils sont coordonnés avec au moins un autre descripteur. Un thésaurus s'élabore, soit manuellement par la voie d'une ou plusieurs personnes, grâce à une intelligence humaine, soit de manière automatique, par le biais de l'intelligence artificielle, grâce à des logiciels de construction automatique de thésaurus, soit par un mélange de l'approche humaine et automatique. Des systèmes de traitement automatique de textes (indexation automatique) permettent l'extraction des termes les plus fréquents d'un corpus et dans une certaine mesure facilitent l'émergence de leurs relations sémantiques. Il existe trois méthodes de constitution d'un thésaurus : 53 L’Indexation Sémantique En RI Chapitre III analytique (à priori) : à partir des mots clefs de l'indexation ; synthétique (à posteriori) : à partir de listes de mots-clés préétablies à l'aide de dictionnaires, lexiques, glossaires etc. mixte. 3. Taxonomie La taxinomie est la science qui a pour finalité de décrire des objets et de les regrouper en entités appelées taxons dans l'intention de les identifier puis les nommer, et enfin les classer. Elle complète la systématique qui est la science qui organise le classement des taxons et leurs relations. Par extension, le mot taxinomie est utilisé pour désigner des systèmes ou des méthodes de classification hiérarchiques permettant d'inventorier des objets, des concepts, des informations d'un domaine donné selon les caractères qu'ils ont en commun, des plus généraux aux plus particuliers en vue de : décider du comportement à adopter face à un objet donné, prédire le comportement d’un objet et comprendre un phénomène dans l’objectif de pouvoir ensuite agir [Dom, 11]. 4. Les ontologies Le terme «ontologie» couvre plusieurs champs de la science. En philosophie, l'ontologie est la branche de la métaphysique concernant l'étude de l'être ; en médecine, l'ontologie s'intéresse à la genèse des maladies; en informatique, une ontologie est un système de représentation des connaissances [Dom, 11]. Le terme renvoie alors à la « théorie de l’existence », c’est-à-dire la théorie qui tente d’expliquer les concepts qui existent dans le monde et comment ces concepts s’imbriquent et s’organisent pour donner du sens. Les ontologies permettent, d’une part de décrire les connaissances d’un domaine spécifique et d’autre part de représenter des relations complexes entre les concepts, ainsi que des axiomes et règles qui manquaient aux réseaux sémantiques. On peut dire qu’il existe des relations entre ces quatre types des langages documentaires représentées sous forme d’équations [Dom, 11] : Cercle de synonymes +termes choisis = liste d’autorité 54 L’Indexation Sémantique En RI Chapitre III Liste d’autorité + Termes génériques/termes spécifiques = taxonomie Taxonomie + Termes reliés = thésaurus Thésaurus + Relations sémantiques entre les concepts = ontologie. Les modèles d’indexation sémantique IV. Plusieurs modèles sont implémentés dans les systèmes de recherche d’information. On présente les plus connus à savoir. A. Les modèles classiques 1. Le modèle booléen Le modèle booléen tire son nom des opérateurs booléens utilisés pour formuler une requête. En effet, une requête est une formule logique, combinant des descripteurs et les opérateurs : et, ou, non. Evidemment, les documents sont représentés par une liste de descripteurs. Ces descripteurs peuvent appartenir à un langage libre ou contrôlé. Ils peuvent être extraits automatiquement des documents ou choisis par des documentalistes. Les index sont stockés dans un fichier inverse où, à chaque descripteur correspond la liste des documents contenant ce descripteur dans leur index [Cat ,10]. La fonction de comparaison retrouve les documents dont les index valident la formule logique de la requête. Donc la base de documents est séparée en deux, les documents qui correspondent à la requête et ceux qui ne correspondent pas. L’inconvénient majeur de ce modèle est l’absence d’ordonnancement des documents résultants de la fonction de comparaison. Ce modèle est le plus simple des modèles de RI, il repose sur l’algèbre de Boole. Un document est représenté par une conjonction de termes (non pondérés) : d = t1 t2 …. tn. Une requête est une expression logique de termes en utilisant les opérateurs AND ( ), OR ( ) et NOT (¬), par exemple q = (t1 il faut que l’implication d t2) t3. Pour qu’un document corresponde à une requête, q soit valide [HAR, 09]. La correspondance entre le terme et la requête est déterminée de la manière suivante [Zar ,10] : corr(d,qi) = 1 si qi ∈ d corr(d, q1 q2) = 1 si corr(d, q1) = 1 ET corr(d, q2) = 1 , 0 sinon. corr(d, q1 q2) = 1 si corr(d,q1) = 1 OU corr(d, q2) = 1 , 0 sinon. corr(d, ¬q1) = 1 si corr(d, q1) = 0 ; 0 sinon. 55 L’Indexation Sémantique En RI Chapitre III Les documents retournés par le système sont considérés à pertinence égale. La conjonction est très contraignante et la disjonction très permissive. Les termes dans le document ou la requête ont une pondération binaire (1 si présent et 0 si absent), il n’est pas possible d’exprimer qu’un terme est plus important qu’un autre. De plus, la formulation booléenne des requêtes complexes n’est pas évidente pour des utilisateurs non expérimentés. Toutes ces raisons font que le modèle booléen standard est rarement utilisé de nos jours, mais il existe leur extensions proposées pour corriger ses lacunes, parmi ces modèles le modèle booléen pondéré ainsi que le modèle p-norme (qui combine le modèle vectoriel et le modèle booléen) qui seront présenté brièvement dans la suite. 2. Le modèle vectoriel : Le modèle vectoriel (VSM : Vector Space Model) est le fondement de très nombreux SRI. Ce modèle représente un document ou une requête par un vecteur dans un espace de termes. Les coordonnées des vecteurs sont les poids indiquant l’importance du descripteur par rapport au document. L’ensemble des coordonnées des vecteurs est contenu dans une matrice. Un document Di contient un ensemble de descripteurs Tk (T1,..,Tn) ou les descripteurs peuvent être des mots simples ou complexes. A chaque descripteur est assignée une pondération wi,k. Le document est alors représenté par un vecteur de poids des descripteurs [Zar ,10] : 𝐷𝑖= (wi1, wi2,…,win) La requête est aussi représentée par un vecteur de poids des termes recherchés : 𝑞= (q1; q2,…, qm) Où qi représente le poids des termes recherchés par la requête. Ces termes recherchés doivent correspondre à des descripteurs d’indexation [Zar ,10]. La fonction de comparaison implémente les mesures de similarité entre vecteurs (document et requête) ce qui permet de classer les résultats [Cat ,10]. Le schéma suivant illustre cette méthode. 56 L’Indexation Sémantique En RI Chapitre III W13 D1 T3 D2 T2 W11 T1 W12 Figure III.2 : Représentation des documents dans un espace vectoriel des termes. La matrice représentant ce corpus de deux documents s’appelle «matrice terme- document» et s’écrit de la manière suivante [Cat ,10] : D1 D2 T1 w1, 1 w2, 1 T2 w1, 2 w2, 2 T3 w1, 3 w2, 3 Tableau III.2 : Matrice terme-document. Le poids des termes est souvent calculer par l’un des méthodes illustré dans le tableau 3. Pour chaque vecteur document un score est calculés en utilisant une mesure de correspondance avec la requête, les documents sont ordonnés par rapport à ce score et sont retournés par ordre décroissant de leur similarité. L’évaluation de la correspondance entre un document et une requête peut être un simple calcul de produit scalaire [Zar ,10] : produit = 𝑚 𝑖=1 𝑞𝑖 ∗ 𝑤𝑖 La mesure la plus connue est le cosinus de l’angle des vecteurs qui donne une valeur normalisée entre [0, 1] [Zar ,10] : 𝑐𝑜𝑠𝑖𝑛𝑢𝑠 𝑞, 𝑑 = 𝑞∗𝑑 𝑞 ∗ ||𝑑 || = 𝑚 𝑖=1 𝑞𝑖 𝑚 2 𝑖=1 𝑞𝑖 . ∗ 𝑤𝑖 𝑚 2 𝑖=1 𝑤𝑖 Où qi et wi représentent respectivement les poids des termes indexés dans la requête et le document et 𝑚 2 𝑖=1 𝑞𝑖 𝑒𝑡 𝑚 2 𝑖=1 𝑤𝑖 sont les normes euclidiennes des vecteurs𝑑 et 𝑞. Les avantages d’un tel modèle est le calcul de pertinence d’un document par rapport aux poids de ses termes et ceux de la requête. Si un terme n’apparaît pas dans un document, la 57 L’Indexation Sémantique En RI Chapitre III pertinence de ce dernier par rapport à la requête en sera amoindrie. La principale limite est que l’ajout d’un document oblige à recalculer tous les poids de ses termes. Les coordonnées des vecteurs sont calculées à partir de la fréquence des mots dans les documents par la formule TF IDF [Zar ,10]. TF : Une pondération locale qui détermine l’importance d’un terme dans un document. IDF : Une pondération globale qui détermine la distribution du terme dans la base documentaire. Elle est, généralement, représentée par l’inverse de la fréquence des documents qui contiennent le terme. Plusieurs formules sont proposées pour le calcul du tf et idf. Les différentes fonctions tf Les différentes fonctions idf Formule Intervalle Formule Intervalle f(d; t) [0, + ∞] [1/|D| ,1] f(d; t)/𝑚𝑎𝑥𝑡 f(d; 𝑡) [0, 1] log(1+𝑚𝑎𝑥𝑑 ,𝑡 f(d; 𝑡)/ df(t)) [log(2) ,log(1+cste)] 1/2+1/2 f(d; t)/𝑚𝑎𝑥𝑡 f(d; 𝑡) [1/2, 1] log(1+|D|/ df(t)) [log(2), log(|D| + 1)] 1+ log(f(d; t)) [0, + ∞] Log(|D|/ df(t)) [0, log(|D|)] 1/df(t) Tableau III.3 : Les différentes fonctions tf et idf Avec : f(d; t) : la fréquence du terme dans le document. df(t) : le nombre de documents ayant au moins une occurrence du terme t. Les fonctions tf dénotent une monotonie croissante et df une monotonie décroissante [Zar ,10]. 3. Le modèle probabiliste : Ce modèle, basé sur la théorie des probabilités, considère la recherche d’information comme un espace d’évènements possibles. Un évènement peut être le jugement de pertinence porté par l’utilisateur sur un document par rapport à une requête ou l’association d’un descripteur à document. Le but de ce modèle est de calculer la probabilité qu’un document soit pertinent par rapport à la requête. En utilisant le théorème de Bayes, les probabilités de pertinence (P(R\d)) et de non pertinence (P(NR\d)) d’un document sont calculées par : P(R\d) = (P(d\R)*P(R))/P(d) 58 L’Indexation Sémantique En RI Chapitre III P(NR\d) = (P(d\NR)*P(NR))/P(d) Où : P(d\R) : la probabilité que d fasse partie de l’ensemble de documents pertinents. P(d\NR) : la probabilité que d fasse partie de l’ensemble de documents non pertinents. P(R) : la probabilité de pertinence d’un document quelconque du corpus. P(NR) : la probabilité de non pertinence d’un document quelconque du corpus. P(d) : la probabilité que le document d soit choisi. La fonction de correspondance évalue la pertinence d’un document par rapport à la requête : P = P(R\d)/P(NR\d) ≈P(d\R)/P(d\NR) Si on considère que : P(R) et P (d\NR) sont des constantes cela nous ramène à l’estimation de P(djR) et P(djNR) et si on considère que les termes sont indépendants cela donne: (P d\R) = P(d\NR) = 𝑡 𝑖 ∈𝑑 𝑃(𝑡𝑖 \𝑅) 𝑡 𝑖 ∈𝑑 𝑃(𝑡𝑖 \𝑁𝑅) Avec P(ti\R) (respectivement P(ti\NR)) la probabilité de l’apparition du terme t i dans un document pertinent (respectivement non pertinent) [Zar ,10] . Pour calculer ces probabilités, on peut procéder par échantillonnage, en choisissant deux ensembles de documents pertinents ou non pertinents. Ils peuvent aussi être calculés pour chaque terme en utilisant les retours arrière sur pertinence. Les poids sont modifies par rapport à la distribution du terme dans les documents pertinents ou non pertinents [Zar ,10] . Pour évaluer les différentes probabilités du système, il nous faut un jeu de données initiales. Ces systèmes fonctionnent donc en deux étapes : Une première étape d'apprentissage calcule les probabilités des évènements à partir d'un jeu de données. Une seconde étape de test répond à une nouvelle requête. Les données nécessaires au calcul des probabilités peuvent être : 1. La fréquence du mot dans le document, 2. Un ensemble de jugement de pertinence de documents par rapport à des requêtes, généralement obtenues par retour de pertinence ou « relevance feedback » ce qui permet de faire évoluer le système au cours de son utilisation, 3. Un corpus de documents préalablement indexés manuellement et un jeu de test contenant des requêtes et leurs documents résultats, etc. Ces systèmes sont utilisables autant pour l’indexation automatique que pour l'indexation humaine, même si l'indexation automatique est la plus couramment utilisée dans ces systèmes. En indexation automatique, la probabilité qu'un descripteur soit représentatif du 59 L’Indexation Sémantique En RI Chapitre III document est évaluée à partir d'un jeu de données. En indexation humaine, l'événement d'attribution d'un descripteur à un document est connu donc sa probabilité d'apparition n'a pas besoin d'être évaluée. Dans ce cas, la représentation des documents est une indexation à plat. D'un autre point de vue, les systèmes de type probabiliste peuvent autant utiliser une indexation en langage contrôlé qu’en langage libre, tout dépend du jeu de données utilisé au départ pour évaluer les probabilités [Cat ,10]. L’avantage du modèle probabiliste est l’amélioration dynamique des performances du système, mais la mise à jour du système est très coûteuse. 4. Les modèles de langue (Le modèle N-gram) Le modèle n-gram est un modèle de langue en linguistique informatique, il désigne une fonction de probabilité P qui assigne une probabilité P(s) à un mot ou à une séquence de mots s dans une langue. Une fois cette fonction définie, il est possible d’estimer la probabilité d’une séquence de mots quelconque dans la langue, ou d’un point de vue générative, d’estimer la probabilité de générer cette séquence de mots à partir du modèle de la langue. Considérons la séquence s composée des mots suivants : t1, t2,…, tn. La probabilité P(s) peut être calculée comme suit [Boug et al,03] : P(s)= ∏ P(ti / t1…ti-1) On utilise, dans ce cas, un modèle de langue n-gramme. En particulier, les modèles souvent utilisés sont les modèles uni-gramme et bi-gramme comme suit : Le modèle uni-gramme ne considère aucune interdépendance ni aucun ordre sur les termes d’un texte. P(s) = ∏ P(ti ) =p(t1)p(t2)….p(tn) L’altération de cette hypothèse, en considérant une dépendance binaire entre chaque paire de termes successifs, engendre une nouvelle formulation d’un autre modèle appelé le modèle de langage bi-gramme : P(s) = ∏ P (ti /ti-1) =p (t1)p(t2 /t1) p(t3 /t2)…. p(tn /tn-1) = ∏ P(ti-1 /ti) /p(ti-1) Selon les fréquences d’occurrence d’un n-gramme O dans un corpus de textes C, sa probabilité (O/C) peut être directement estimée comme suit : 60 L’Indexation Sémantique En RI Chapitre III P(O)=|O| / ∑OjɞC |Oj|=|O| / |C| Où | O | est la fréquence d’occurrence du n-gramme α dans ce corpus, αi est un n-gramme de la même longueur que α, et |C| est la taille du corpus (c’est-à-dire le nombre total d’occurrences de mots). Ces estimations sont appelées les estimations de vraisemblance maximale (Miximum Likelihood, ou ML). On désignera aussi ces estimations par PML. 4.a Lissage Le principe de lissage peut être résumé ainsi : Au lieu de distribuer la totalité de masse de probabilité sur les n-grammes vus dans le corpus d’entraînement, on enlève une partie de cette masse et la redistribue aux n-grammes non vus dans le corpus. De cette façon, les n-grammes absents du corpus vont recevoir une probabilité non-nulle. Il y a une série de méthodes proposées dans la littérature. Ici, nous présentons quelquesunes. 4.b Lissage de Laplace Le lissage de Laplace consiste à ajouter la fréquence 1 à tous les n-grammes. Cette méthode est aussi appelée la méthode « ajouter-un ». Pour un n-gramme O, sa probabilité est estimée comme suit (où V est l’ensemble du vocabulaire d’indexes) [Boug et al,03] : P(O)=|O|+1 / ∑OjɞC (|Oj|+1) On peut remarquer que cette méthode simple a un problème fatal : Si le corpus ne contient qu’une petite portion des n-grammes parmi tous les n-grammes possibles (et c’est souvent le cas dans la pratique, même pour un grand corpus), la majeure partie de la masse de probabilité sera distribuée uniformément sur les n-grammes non vus dans le corpus. Les n-grammes vus dans le corpus ne joueront qu’un rôle mineur dans la définition du modèle. On ne peut donc pas s’attendre à une très bonne performance (c’est-à-dire de reconnaître les phrases autorisées d’une langue correctement). 61 L’Indexation Sémantique En RI Chapitre III 4.c Lissage de Dirichlet Dans cette méthode, la fréquence d’un mot ti dans le document D est incrémentée de μPML(ti|D), où μ. est paramètre appelé pseudo-fréquence. La probabilité PML(ti|D), d’un mot selon le modèle de langue du document devient la suivante [Boug et al,03] : PDir(ti|D)=tf(ti,D)+ μ PML(ti\C)/|D|+ μ où |D| est la taille du document (le nombre total d’occurrences de mots), et tf(ti, D) est la fréquence du mot ti dans D. 4.d Le processus de recherche Le processus de recherche avec un modèle de langage s’articule sur trois étapes principales Un modèle de langage est estimé pour chaque document de la collection, Une probabilité de la séquence des termes de la requête est calculée, Un classement des documents est établi selon leur valeur de probabilité. B. Les Modèles Sémantiques 1. Le modèle LSI (Latent Semantic Indexing) L’indexation en sémantique latente est une technique d’indexation s’inspirant de la LSA (Latent Semantic Analysis) développées au début des années 1990 [Elg,04] . Ce modèle fut conçu comme une nouvelle approche de l’indexation et de la récupération automatique d’informations dans des bases de données constituées de documents textuels. En effet, la LSI permet de résoudre les problèmes de synonymie et de polysémie. Grâce à une analyse statistique, le sens de chaque mot est caractérisé par un vecteur dans un espace de grande dimension [Elg, 04]. L’angle formé par deux vecteurs correspondra à la proximité sémantique de ces mots. Cette analyse consiste à construire une matrice d’occurrences qui sera réduite pour faire ressortir les relations sémantiques « latentes » entre mots ou entre textes. Cette matrice X (terme-document) est composée des vecteurs de termes et de documents (comme pour le VSM). Elle utilise la technique de décomposition à valeur singulière afin d’approximer la matrice terme-document par des combinaisons linéaires et permet donc de créer un nouvel espace vectoriel [Zar ,10] : 62 L’Indexation Sémantique En RI Chapitre III Xt*d = T0t*m * S0m*m * 𝐷0′ m*d Où : T0 est la matrice orthogonale des vecteurs singuliers de gauche telque (T0𝑇0′ =I), D0 est la matrice contenant les colonnes orthogonales des vecteurs singuliers de droit (𝐷0 𝐷0′ =I) 𝐷0′ est le transposé de la matrice D0 S0 est la matrice diagonale (triée) des valeurs singulières t est le nombre de lignes dans X d est le nombre de colonnes dans X m est le rang de X tel que (m ≤ min(t, d)). Il est prouvé qu’il existe une seule décomposition de cette manière. Cette matrice est par la suite réduite par la matrice Xh contenant les plus grandes valeurs singulières k (k ≤m) [Zar ,10] : ′ Xhk*d = Tt*k * Sk*k * 𝐷𝑘∗𝑑 Xh ne garde que les k premières valeurs et permet donc de représenter les documents dans un espace de dimension k dont laquelle la proximité sémantique entre deux mots est déterminée par le cosinus de leur angle. La requête est aussi traduite dans ce nouvel espace, elle est transformée en pseudodocument et suivi aussi ce même processus. La requête est traduite en : Dq = 𝑋𝑞′ * T * S-1 Où Xq est le vecteur de mots clés de la requête. Documents T e r m x = rang T e r SVD m X T0 e s e s t*d rang X r a n g * S0* * m*m t*m r a X n g Documents 𝐷0′ m*d 63 L’Indexation Sémantique En RI Chapitre III Réduction Documents T e r m Xh rang T e r m T e s e s k*d rang x r a n g * S* * x r a n g k*k Documents 𝐷′ k*d t*k Figure III.3 : Représentation de la décomposition et de la réduction de matrice x Le pseudo-document est rajouté à la matrice D (comme un nouveau document) et le calcul de similarité se fait par : 𝑋ℎ′ *Xh = D * S² * 𝐷 ′ La recherche d’information du modèle LSI peut se faire à trois niveaux : Comparer deux termes : Xh = T *S2* 𝑇 ′ Comparer deux documents : 𝑋ℎ′ *Xh = D * S² * 𝐷 ′ Comparer un terme et un document : Xh = T * S * 𝐷 ′ Une phase d’apprentissage permet de calculer la matrice X. Les documents qui n’ont pas servi à la phase d’apprentissage sont ajoutés à cet espace réduit en approximant leur position suivant le vecteur contenant le vocabulaire qui le caractérise. Ce qui suppose que l’espace LSI créé au départ caractérise bien les dimensions importantes de similarité pour pouvoir approximer un nouveau terme ou un nouveau document dans la collection. 2. Le modèle DSIR (Distributional Semantics based Information Retrieval) Le modèle DSIR est un modèle vectoriel reposant sur la notion de sémantique distributionnelle et permettant d’intégrer des informations sémantiques supplémentaires par l’utilisation de co-occurrences. Cette approche suppose l’existence d’une corrélation forte entre la co-occurrence des mots et leur sen. Les contextes dans lesquels apparaissent les mots apportent suffisamment d’information pour identifier leur sen. La définition d’un contexte (positionnel, documentaire, syntaxique [RAJ et al] ) d’un mot est alors une étape cruciale 64 L’Indexation Sémantique En RI Chapitre III puisqu’elle influence directement sur le sens qui peut être attribué à un terme pour cela ce modèle DSIR repose sur le contexte syntaxique . Le modèle DSIR est aussi fondé sur la notion d’unités linguistiques par rapport aux termes retenus pour l’indexation. Les unités linguistiques sont les lemmes des noms, verbes et adjectifs, les termes d’indexation sont les unités linguistiques retenues pour leur "représentativité" des documents [Zar ,10] . Dans le cadre de ce modèle, les unités linguistiques u i considérées sont représentées par un vecteur ci = (ci1,…, cin), appelé profil de co-occurrence, dont chaque composante cij est la fréquence de co-occurrence de l’unité linguistique ui avec un terme d’indexation tj, n étant le nombre de termes retenus pour l’indexation. L’ensemble des unités linguistiques est donc représenté par une matrice de co-occurrences de dimension m* n (où m est le nombre d’unités 𝑐11 ⋯ 𝑐1𝑛 ⋱ ⋮ linguistiques choisies) : C= ⋮ 𝑐𝑚1 ⋯ 𝑐𝑚𝑛 Un document d est alors représenté comme la somme pondérée des profils de cooccurrence des unités linguistiques qu’il contient, c’est-à-dire par un vecteur : d = (d1,…, dn) où chaque dj est défini par : dj = 𝑢 𝑖 ∈𝑑 𝑤𝑖 ∗ 𝑐𝑖𝑗 . La pondération wi est définie de la même manière que le modèle vectoriel, La collection de document est alors représentée par le produit matriciel : D= F*C Où C est la matrice de co-occurrences déjà présentée et F est une matrice qui représente les documents et les unités linguistiques. Les termes explicitement présents dans le document ne sont pris en compte que par le biais de leur profil de co-occurrence car généralement cii étant nul, l’information concernant la présence d’un terme est perdue. Pour tenir compte de la présence d’un terme dans un document, un modèle DSIR hybride est proposé pour intégrer à la fois les occurrences et les co-occurrences des termes dans le document. Dans ce modèle, un document est toujours représenté par (d1,…, dn) où: dj = ɑ wj + (1 - ɑ) 𝑢 𝑖 ∈𝑑 𝑤𝑖 ∗ 𝑐𝑖𝑗 ; et ɑ (0 ≤ɑ ≤ 1) 65 L’Indexation Sémantique En RI Chapitre III dj représente le facteur d’hybridation permettant de contrôler l’importance relative dans l’hybridation du modèle DSIR par rapport au modèle VSM standard [Zar ,10] . L’ensemble des documents est alors représenté par : D = ɑ𝐹 ′ + (1 - ɑ)F * C ; Où F0 : est la matrice F de dimension réduite au nombre de termes. Elle correspond donc au modèle vectoriel standard. V. Web Sémantique La croissance de la masse d'information sur le web rend l'indexation automatique et humaine insuffisantes pour indexer l'ensemble des ressources disponibles. D’autres méthodes d’indexation plus efficace sont apparues comme une solution basée sur la conversion du rôle de l’utilisateur comme consommateur passif à celui d’acteur à part entière sous le nom d’indexation collaborative [Mic et al ,10]. 1. Le tagging Le tag peut désigner en fait un mot-clé, une catégorie ou une métadonnée. Le mot anglais tag signifie en français : étiquette de balisage, étiquetage, fléchage ou marquage. Les tags sont typiquement utilisés sur le web dans des taxonomies dynamiques, flexibles, générées automatiquement pour des ressources en ligne comme les fichiers informatiques, les pages web, les images numériques, et des sites de partage de signets. Chaque tag est présenté sous la forme d'un lien hypertexte pointant vers une page d'index répertoriant toutes les pages qui l'utilisent. Cela permet à un lecteur de trouver rapidement toutes les pages associées [Dom, 11]. Ce processus de marquage de l’information se matérialise par un système flottant de catégorisation par étiquettes, personnel et partagé, permettant un repérage individualisé de ressources hétérogènes publiées sur le web. L’ensemble des mots-clés générés par les utilisateurs est appelé : «folksonomy» [Mic et al ,10] . 2. Folksonomie : Les folksonomies constituent la possibilité pour l’utilisateur d’indexer des documents afin qu’il puisse plus aisément les retrouver grâce à un système de mots-clés. Les mots-clés proposés dans les folksonomies correspondent aux besoins des utilisateurs, qui peuvent ainsi 66 L’Indexation Sémantique En RI Chapitre III arriver plus facilement aux ressources dans lesquelles sont « greffés » un certain nombre de tags. Le terme folksonomie est un mot-valise combinant les mots « folk » (le peuple, les gens, les utilisateurs) et « taxonomy » (la taxinomie) [Dom, 11]. Plusieurs complémentaires existent afin de rapprocher les folksonomies et les ontologies gestion des connaissances partagées par approches pour la l’élaboration de folksontologies ou ontologies collaboratives [Mic et al ,10]. a. Les limites de l’indexation collaborative Contrairement à l’indexation réalisée à l’aide d’un langage documentaire, l’indexation collaborative ne gère pas les problèmes liés à la polysémie et à la synonymie, ni les autres problèmes linguistiques habituellement pris en charge par les thésaurus documentaires [Mic et al ,10]. b. Les avantages L’intérêt des tags paraît indéniable : une fois assignés, les tags sont immédiatement accessibles aux internautes et exploitables dans le cadre de recherches d’information. Un nombre croissant de sites web permet aux utilisateurs de taguer des photographies, des vidéos ou encore de la musique. Le choix des termes est totalement libre, il ne repose sur aucun vocabulaire contrôlé [Dom, 11]. VI. Métrique d’évaluation d’un système de recherche d’Information L’évaluation consiste à mesurer la différence entre un résultat attendu et un résultat obtenu, pour cela il existe trois métriques leurs valeurs entre 0 et 1 pour faciliter l’interprétation : précision, rappel, F-mesure. 1. Précision & Rappel Les deux principales métriques d'évaluation en recherche d'information sont la précision et le rappel. Ces métriques reflètent sur la comparaison des réponses d'un système pour l'ensemble des requêtes avec les réponses idéales (liste de références). Plus précisément, ces métriques sont définies comme suit : Précision : La précision mesure le pourcentage des documents pertinents retrouvés parmi tous les documents retrouvés par le système. Précision = nombre de documents pertinents retrouvés / nombre de documents retrouvés 67 Chapitre III L’Indexation Sémantique En RI Rappel : Le rappel mesure le pourcentage des documents pertinents retrouvés parmi tous les documents pertinents dans la base. Rappel = nombre de documents pertinents retrouvés / total de documents pertinents. L'idéal pour un système de RI est d'avoir de bons taux de précision et de rappel en même temps (l'algorithme trouve la totalité des documents pertinents - rappel - et ne fait aucune erreur - précision). Les deux métriques ne sont pas indépendantes, il y a une forte relation entre elles. Un système qui retourne tous les documents de la base aura un rappel de 100% mais la précision sera très faible. D'un autre côté, un système retrouvant peu de documents aura sûrement une précision élevée, mais le rappel souffrira. Il faut donc utiliser les deux métriques ensemble. Il faut des analyses plus fines des résultats avec les courbes de rappel/précision, ces courbes représentent l’évolution de la précision et du rappel avec des résultats triés. 2. courbe de précision interpolée : Les courbes de précision interpolées consistent à calculer la précision pour des valeurs prédéfinies du rappel, de 0 ,0.1 …. 1 par pas de 0.1. En pratique ces valeurs du rappel peuvent ne pas être atteintes exactement : les valeurs de la précision doivent donc être interpolées. La règle d'interpolation est la suivante : valeur interpolée de la précision pour un niveau de rappel i est la précision maximale obtenue pour un rappel supérieur ou égal à i. Cette règle d'interpolation définit donc également une précision pour un rappel nul alors qu'une telle valeur n'existe pas. 3. courbe de moyenne des précisions à 11 points: La précision moyenne sur 11 points consiste simplement à moyenner les 11 précisions interpolées obtenues pour les seuils de rappels fixes définis, de 0 à 1 par pas de 0.1 de plusieurs requêtes pour traiter l’évaluation d’un système de recherche sur ces requêtes. 4. APQ (Average Precision Quries): Elle est la moyenne des précisions obtenues chaque fois qu’un document pertinent est retrouvé pour chaque requête. 68 L’Indexation Sémantique En RI Chapitre III 5. La précision moyenne MAP (Mean Average Precision): La précision moyenne est une mesure de performance globale. elle est la moyenne des précisions APQ d’un ensemble de requêtes: MAP = (APQ1+ APQ2…….+ APQn)/n 6. La précision exacte ou R-précision : La R-précision est la précision à n quand n est égal au nombre total de documents pertinents. Cette mesure est plus réaliste pour l’étude de l’ordonnancement en tête de la liste des documents restitués, mais pour l’obtenir, il est nécessaire de connaître au préalable le nombre de documents pertinents disponibles dans le corpus pour une requête donnée. Une R-précision de 1.0 signifie une précision et un rappel optimaux. 7. F-mesure : La précision est globalement décroissante au fur et à mesure que le SRI restitue des documents, alors que le rappel est globalement croissant. On peut choisir la mesure F comme valeur synthétique exploitant la précision et le rappel. Elle est calculée comme suit : F =2.(precision.rappel)/(precision+rappel) VII. Conclusion L’indexation sémantique est devenue une l’approche incontournable dans tout système de recherche d’information pour n’importe quelle langue. Elle représente une démarche organisée de méthodes et de modèles. Elle débute par une analyse statistique suivi par l’extraction des termes et descripteurs selon un libre choix d’une ressource linguistique appropriés (liste d’autorité, taxonomie, thesaurus et ontologies). Chaque modèle, par la suite, se caractérise par la fonction d’appariement entre ces descripteurs et la requête demandé par l’utilisateur. Cependant, les méthodes d’extraction des termes et des descripteurs sont basées sur une analyse morphosyntaxique par l’utilisation de différentes méthodes de lemmatisation et de stemming. Le chapitre suivant traite ce point pour l’indexation sémantique des pages web arabe. 69 Chapitre IV Nouvelle Méthode d’Analyse Morphologique Arabe Chapitre IV I. Nouvelle Méthode d’Analyse Morphologique Arabe Introduction Au cours des dernières décennies, l’utilisation des analyseurs morphologiques arabes a vu une vaste diversité dans la recherche scientifique à travers le monde. Cette diversité donne la cause d’apparition de nombreux types d'applications dans plusieurs domaines et à différentes caractéristiques. Par exemple, les analyseurs légers ont les propriétés de simplicité et rapidité ce qui les favorise le domaine de recherche d’informations ; par contre les analyseurs à base de dictionnaire ont les propriétés d’efficacité et d’exactitude convenant ainsi mieux aux applications relevant de l’apprentissage et du traitement automatique de langue arabe mais aussi pour certains modèles sémantique de recherche d’information . Au cours de ce chapitre, on va décrire notre analyseur arabe à base de dictionnaire construit à partir de l’analyseur morphologique de Buckwalter. L’analyseur morphologique de Buckwalter II. Buckwalter avait proposé un analyseur morphologique arabe à base de dictionnaires [Buc ,02]. Il est le plus connu et le plus utilisé dans les domaines de traitement automatique de langue arabe et dans la recherche d’information mono-linguistique et multilinguistiques. C’est le premier analyseur de cette catégorie morphologique, et de haut niveau de traitement automatique de texte arabe, librement téléchargeable dans le package AraMorph. Avant tout traitement, le texte en entrée doit être translittéré en ASCII suivant les dictionnaires qui sont écrits dans ce codage, et le résultat doit être reconverti en Arabe pour que ça soit adéquat à la forme de l’entrée et compréhensible. Cette opération de translitération est appelé la translitération de Bucwalter. Cet analyseur adopte un système procédural pour la représentation de différentes ressources linguistiques et certaines règles orthographiques nécessaires. Ce système d’analyse est établi en trois étapes principales : Construction des fichiers de lexique. Simulation des fichiers de comptabilité. Développement de l’algorithme d’analyse des textes. 71 Nouvelle Méthode d’Analyse Morphologique Arabe Chapitre IV A. Construction des fichiers de lexique Les fichiers de lexique de cet analyseur sont les dictionnaires de préfixes, stems (tiges) et suffixes. Ces dictionnaires, considérés comme le noyau de l’analyseur, ils sont construit manuellement, et leurs entrées sont traitées par la translitération de Buckwalter ; cette dernière substitue les lettres arabes par des lettres latines ou des caractères spéciaux comme le stem « » ًرةqui est translittéré en « ktb ». Chaque entrée des trois dictionnaires contient cinq champs : l’entrée sans vocalisation. L’entrée avec vocalisation. Catégorie morphologique. Glossaire anglais. Catégorie grammaticale. Seuls les 3 premiers champs sont nécessaires pour l’analyse morphologique. Ces dictionnaires sont liés par des tables de correspondances via le champ de catégorie morphologique. A.1 Dictionnaire des préfixes Le dictionnaire de préfixes contient 78 préfixes distribués sur le 299 entré, cet énormément des entrées sont atteintes selon deux causes principales qui autour sur le préfixe: la vocalisation, et le rôle grammatical, par exemple pour le même préfixe l « ٍ » on est plusieurs entrées : deux entrées selon la vocalisation la,li « ٍ ِل,ٍ » َل. Trois entrées selon le rôle grammatical: « ٍ ِل, li »: particule de préposition, «ٍ َل, la» : particule d’affirmation ذ٤ًٞذ, «ٍ َل, la» : particule de réponse d’une condition. Ce dictionnaire contient aussi des informations sur les incompatibilités des préfixes avec les suffixes, il est écrit d’une façon ordonnée et claire, il contient le plus grand nombre de préfixes à traiter .Ces préfixes vont apparaitre dans le tableau suivant : Les préfixes proposés par Bucwalter اٝ ٢ ك١ٝ ٖٕ كٝ خ كدٝ سآ كسآٝ آ كآ سآٝ فٝ ا ٍ ب ى١ ٕ آ أ خ كسؤ كسد٢سٝ ٖسٝ سدٝ سؤٝ ٢ب كة سؤ سد سٖ سٝ ى كيٝ ٍَ كٝ كا ُٖ ال ُد٥ ٥ ًٍاٍ كٌاٝ ٍتاٍ كثاٝ ََُِ كَِ كٝ ٍاٍ كاٝ ٍ اٍ َُ تاٍ ًا٢كسٖ كس سا كساٝ أ كؤ ساٝ ٢ُٝ ُٖٝ ُدٝ الٝ ٥ٝ ٧ٝ ٢ِ كال كِد كِٖ ك٨ ك٦ ك٢ُ 72 Nouvelle Méthode d’Analyse Morphologique Arabe Chapitre IV Tableau IV.1 : Les préfixes proposés par Buckwalter Un exemple sur l’entrée de dictionnaire de préfixes après la translitération : w wa Pref-Wa and <pos>wa/CONJ+</pos> A.2 Dictionnaire des stems Ce dictionnaire contient 82,158 lemmes et leurs stems adéquats ainsi il existe des lemmes qui ont leurs racines et d’autres non, ci pour cela ce dictionnaire est considéré comme un dictionnaire des lemmes et stems uniquement .Un exemple sur l’entrée de ce dictionnaire de stem après la translitération : ;--- ktb Une racine ;; katab-u_1 Un lemme ktb katab PV write ktb kotub IV write Stem A.2.1 Les catégories morphologiques Chaque catégorie morphologique de stem arabe est assignée par une des notations suivantes : Mot fonctionnel: FW. Les noms : N Les noms : des cas spéciaux. Les verbes : V Les verbes : des cas spéciaux a. Mot fonctionnel : Sont des particules ou pronoms ou tout autre mot qui n’a pas de fonction de nom ou de verbe, ils ont encadré en trois types : qui ont accepté les préfixes de conjonctions seulement par exemple (wa-huwa, fa-min) et qui ont acceptent les préfixes de conjonctions et de prépositions en parallèle (wa-li->ay~, fa-bi-man).Les mnémoniques utilisées pour ces deux types de catégorie morphologique sont: "FW-Wa" et "FW-WaBi" par contre la troisième catégorie est assignée par "FW",elle est utilisé pour les mots qui n’acceptent aucun préfixe 73 Nouvelle Méthode d’Analyse Morphologique Arabe Chapitre IV comme les interjections et les abréviations et le deuxième mot dans les noms propres comme ( laHom, dans le mot "bayot laHom). Les préfixes bi et li attachent directement les pronoms de suffixes hu –hum sans l’intervention de stem, cette combinaison est entré directement comme des mots fonctionnels dans le lexique de stem : bh bihi FW-Wa with/by + it/him <pos>bi/PREP+hi/PRON_3MS</pos b. Les noms : La catégorie morphologique assignée pour les stems de type nom est une notation représente les suffixes flexionnels. Les suffixes flexionnels sont : Masculin dual (-Ani, -ayoni,-A, -ayo), Masculin pluriel (Ani, -ayoni,-A, -ayo), Féminin singulier (-ap), Féminin dual (-atAni,-atayoni,-atA,-atayo) et Féminin pluriel (-At) . Les détailles sur ces notations vont apparaitre dans le tableau suivant: 74 Nouvelle Méthode d’Analyse Morphologique Arabe Chapitre IV Nom Nall : le nom prend tous les suffixes flexionnels ci-dessous N/ap:comme Nall sauf le pluriel masculin N-ap : comme N/ap sauf le pluriel féminin NduAt: prendre les suffixes de dual masculin et féminin pluriel Ndu: prendre les suffixes de dual N/At : prendre les suffixes de féminin pluriel N : les noms qui n’acceptent aucun suffixe. NapAt: prendre les suffixes de dual féminin et féminin pluriel Napdu: prendre les suffixes de dual féminin Nap: les noms féminins non conjugables Nat: prendre les suffixes de féminin pluriel NF : prendre les suffixes اًا Npair : prendre les suffixes de masculin dual Nel:nom elative prendre les suffixes de masculin dual Ndip:nom non conjugable Nprop : Nom propre Numb : nombre Des spécial cas N_L: les noms qui débutent avec la lettre l et qui acceptent le préfixe li. N0_Nh : les noms qui possède des variations orthographiques au cours de conjugaison et n’acceptent aucun suffixe et les suffixes :h Nh: comme précédente et les noms acceptent les suffixes : h Nhy : comme précédente et les noms acceptent les suffixes : h et y Verbe PV : verbe accompli IV : verbe inaccompli CV : verbe impératif PV_intr : verbe accompli intransitif IV_intr : verbe inaccompli intransitif CV_intr : verbe impératif intransitif IV_yu: verbe inaccompli qui acceptent les préfixes :yu,tu,nu IV_intr_yu : verbe inaccompli intransitif qui acceptent les préfixes :yu,tu,nu,Au PV_Pass: verbe accompli à la voix passive. IV_Pass: verbe inaccompli à la voix passive. Des spécial cas PV-n: verbe accompli qui se termine par n et accepte le suffixe n IV-n: verbe inaccompli Comme précédente PV-t: verbe accompli qui se termine par t et accepte le suffixe t. PV_V: verbe accompli redoublé ou creux acceptent les suffixes voyelles PV_C: verbe accompli redoublé ou défectueux acceptent les suffixes consonnes PV_Ct: comme précédente mais se termine par t. PV_Cn: comme précédente mais se termine par n. PV->: verbe accompli qui se termine par A PV-| : verbe accompli qui se termine par | PV_w: verbe accompli qui se termine par w PV_0,PV_h,PV_Atn PV_ttAw,PV_0h,PV_w: Tous ces types sont des verbes incomplets accomplis acceptant des suffixes différents. PV_no-w: verbes incomplets accomplis n’acceptent pas les préfixes w IV_0hAnn,IV_0hwnyn IV_0,IV_h,IV_Ann: sont des verbes incomplets accomplis acceptent des suffixes différents. Tableau IV.2 : Les catégories morphologiques les plus utilisés par Buckwalter 75 Nouvelle Méthode d’Analyse Morphologique Arabe Chapitre IV A.2.2 Les catégories grammaticales: La catégorie grammaticale du préfixe et du suffixe est simulée explicitement par contre pour le stem est assignée quand le dictionnaire est en cours d’exécution en basant sur la catégorie morphologique de chaque entrée. En tous les cas, ces catégories grammaticales sont résumées en sous les hypothèses suivantes : Si cat==FW alors on assigne FW (mot fonctionnel). Si cat==IV alors on assigne IV (verbe inaccompli). Si cat==PV alors on assigne IV (verbe accompli). Si cat==CV alors on assigne CV (verbe impératif). Si cat==N et le glossaire est débuté par un des caractères A-Z alors on assigne NOUN_PROP (Nom proportionnel). Si cat==N et la vocalisation est terminée par iy~ on label manuellement. Si cat==N on assigne N (Nom). La catégorie grammaticale est assignée explicitement dans le cas ou le mot est fonctionnel de type : PREP, ADV, CONJ, INTERJ, DEM_PRON, et NEG_PART. A.3 Dictionnaire des suffixes : Buckwalter propose aussi 206 suffixes distribués sur 618 entrées de ce dictionnaire, ils vont apparaitre dans le tableau suivant : Les suffixes proposés par Bucwalter ٖ آذيْٜ آذٜٔا آذٜا آذٜ آذٚ اذ٘ا آخ آذ٢ٖ اذي اذٌٔا اذٌْ اذٌٖ اذْٜ اذٜٔا اذٜا اذٜ اذٚا اخ اذ اٗ٘ا اٗي٢٘ٗا اٗا٢ٖٗ إ اْٛ اٛٔا اٛا اٛ اٙ آذ٘ا اى أًا اًْ اًٖ ا٢آذٌٔا آذٌْ آذٌٖ آذ ٖٖ ذْٛٞٔ ذٛٔا ذٔاٛا ذٔاٛ ذٔاٙٗا ذٔاٞٔ ذ٢ٗٞٔاٌٗٔا اٌْٗ اٌٖٗ ج خ ذإ ذٔا ذْ ذٖ ذ ٖٙ ذا ذاْٜ ذٜٔا ذٜا ذٜ ذٚ ذي ذٌٔا ذٌْ ذٌٖ ذ٢ٖ٘٘ ذْٜ٘ ذٜ٘ٔا ذٜ٘ا ذٜ٘ ذٚ٘ ذ٢٘ذ٘ا ذ ٔاٜ٤ا ذٜ٤ ذٚ٤٘ا ذ٤ٖ ذ٤ ذ٢ ذاٗا ذ١ٖ ذاى ذأًا ذاًْ ذاًٖ ذاٛذا ْٛٔا ذاٛا ذاٛذا اٛٞٓ ٙٞٓ ٗاٞٓ ٢ٗٞٓ ّ ٓا ًٖ ًْ ٌٖ ى ًٔا٤ٌْ ذ٤ٌٔا ذ٤ي ذ٤ٖ ذٜ٤ْ ذٜ٤ذ ٚٗ ٌٖٗ ٖ ٗاى ٗاًْ ٗاًٖ ٗي ٌْٗ ٌٗٔاْٛ ٗاٛا ٗاٛ ٗاٖٙ ٕ ٗا ٗاٛٞٓ ْٛٞٓ ٔاٛٞٓ اٛٝ ٙٝ ًٖٝ ًْٝ ًٔاٝ ىٝ ٕٝ اٝ ٝ ٖٛ ْٛ ٔاٛ اٛ ٙ ٗ٘ا٢٘ٗ ٢ٗ ٖٜٗ ْٜٗ ٔاٜٗ اٜٗ ٢ٗٝ ٗاٝ ٖٜٗٝ ْٜٗٝ ٔاٜٗٝ اٜٗٝ ٚٗٝ ٌٖٗٝ ٌْٗٝ ٌٗٔاٝ ٗيٝ ٢٘ٗٝ ٗ٘اٝ ٖٛٝ ْٛٝ ٔاٛٝ ٘اًٖ ذا٣ ًْ٘ا٣ ٘أًا٣ ٘اى٣ ٖٛ٘ا٣ ْٛ٘ا٣ ٔاٛ٘ا٣ اٛ٘ا٣ ٙ٘ا٣ ٖٜ٣ ٔاٜ٣ ْٜ٣ اٜ٣ ٚ٣ ٖ٣ ١ اٛٞٔ ذٙٞٔ ٓاٗا ذ٢ٖٗ ٓاْٛ ٓاٛٔا ٓاٛا ٓاٛ ٓاٙ ذاٗا ٓا٢ٗ ذٔاٗا ذا٢ٖٗ ذٔاٛ ذٔا١ا ٖٜ٘٣ اٜ٘٣ ْٜ٘٣ ٔاٜ٘٣ ٚ٘٣ ٘٘ا٣ ٢٘٘٣ ٘ا٣ ٢٘٣ ْٖٛٞٔ ذٛٞٔٔا ذٛٞٔذ Tableau IV.3 : Les suffixes proposés par Buckwalter 76 Nouvelle Méthode d’Analyse Morphologique Arabe Chapitre IV Un exemple sur l’entrée de dictionnaire de suffixes après translitération : p ap NSuff-ap [fem.sg.] <pos>+ap/NSUFF_FEM_SG</pos> B. Simulation des fichiers de compatibilités : Comme on a dit au-dessus les fichiers de compatibilités lient les dictionnaires entre eux à l’aide de l’utilisation de catégorie morphologique telle que chaque table de compatibilité liste des paires de catégories morphologiques compatibles. Par exemple la table de compatibilité AB liste les paires de catégories morphologiques de préfixe et les catégories morphologiques de stem compatibles comme le préfixe de nom « «ٍا-Al », il est compatible avec toutes les stems de catégorie morphologique nom, ceci est écrit dans la table AB comme suit: NPref-Al N, cette table contient 1648 paires. La table de compatibilité AC liste les compatibilités entre les catégories morphologiques de préfixe et catégories morphologiques de suffixe comme: NPref-Al Suff-0, ceci indique que le préfixe « Al » est incompatible avec tous les suffixes, c’est-à-dire que le mot qui débute par « Al », ne termine pas par un suffixe, cette table contient 1285 paires. La table de compatibilité BC liste les compatibilités entre les catégories morphologiques de stem et catégories morphologiques de suffixe comme: PV PVSuff-a, ceci indique que le stem de catégorie morphologique PV (verbe accompli) est compatible avec le suffixe fatha « a », cette table contient 598 paires. Ces tables sont établies pour indiquer les combinaisons correctes et gérer les analyses. C. Les étapes de l’algorithme d’analyse des textes : Ce système d’analyse à base de lemmes utilise un algorithme d’analyse assez simple puisque toutes les décisions sont codées dans le lexique et les tables de compatibilités, ainsi lorsqu’il s’agit de l’analyse de forme agglutinée, les segmentations ne seraient valables que si les différentes composantes existaient dans le lexique et sont triplement compatibles (préfixestem, préfixe-suffixe et stem-suffixe).L’algorithme d’analyse des textes est réalisé en six étapes : 77 Nouvelle Méthode d’Analyse Morphologique Arabe Chapitre IV 1. Tokenisation : Segmenter le texte en token et supprimer les ponctuations. Vérifier si le mot est un mot arabe : si le mot est arabe alors il passe à l’étape suivant sinon il le déclare comme un mot non arabe. Supprimer les diacritiques Supprimer Alef wasla et alef mad( ٰ ) 2. Segmentation de tokens : Fragmenter chaque token en 3 segments tels que : La longueur de premier segment est entre 0 et 4 caractères (préfixe). La longueur de deuxième segment est entre 1 à l’infini de caractères (lemme). La longueur de troisième segment est entre 0 et 6 caractères (suffixe). Cette segmentation est faite selon le tableau suivant, Il rendre toutes les décompositions correctes de chaque mot pour les analyser. Préfixe Radical Suffixe ktAb ktA ktA kt kt kt K K K K Ø Ø Ø Ø Ø Ø b Ø Ab A Ø tAb tA t Ø ktAb ktA kt k Ø Ø Ø b Ø b b Ø b Ab tAb Ø b Ab tAb ktAb Tableau IV.4 : Segmentation du mot ktab avec Buckwalter 78 Nouvelle Méthode d’Analyse Morphologique Arabe Chapitre IV 3. La première vue dans le dictionnaire : Vérifier si chaque segment trouvé est existé dans leur dictionnaire correspondant 4. Vérification de comptabilité : Contrôler la compatibilité entre les catégories morphologiques de préfixes-stem (1648 entrées). Contrôler la compatibilité entre les catégories morphologiques préfixes-suffixes (598 entrées). Contrôler la compatibilité entre les catégories morphologiques stem-suffixes (1285 entrées). Si les trois catégories sont trouvées respectivement dans les tables alors les trois composants sont compatibles et la segmentation est validée. 5. Rapport d’analyse : Ce rapport contient : Les statistiques des dictionnaires : ces statistiques sont des constant apparues dans toutes les analyses. les résultats de l’analyse : le token traité, leur translitération, les solutions d’analyse directe de chaque token, le numéro de solution, le lemme, vocalisation, morphologie, catégorie grammaticale, glossaire. les statistiques d’analyse: le nombre des lignes de texte, le nombre de tokens arabe, le nombre de tokens non arabe, le nombre de mots trouvés avec le taux de succès, et le nombre de mots non trouvés avec le taux d’échecs. Si aucun résultat trouvé alors faire des : 6. Correction orthographique : En cas d’échec d’analyse d’un mot, on applique une seconde vérification des dictionnaires : on contrôle l’orthographe du mot en entrée pour créer une liste des spellings alternatives basées sur les hypothèses suivantes : 79 Chapitre IV III. Nouvelle Méthode d’Analyse Morphologique Arabe Remplacer la lettre finale ءٟ par ء١ Remplacer la lettre finale ء١ par ئ Remplacer la lettre finale ٟ par ئ Remplacer la lettre finale ٟ par ١ Remplacer la lettre finale ٙ par ج Remplacer la lettre médiante ءٝ par إ Remplacer la lettre médiante ٟ par ١ Pourquoi Un Nouvel Analyseur Morphologique Arabe : Durant notre étude, on a apporté un intérêt particulier à AraMorph. Plusieurs recherches ont été menées sur son système d’analyse. Ceci nous a permis de recenser les avantages comme les insuffisances de l’analyseur morphologique de Buckwalter et par conséquent, proposer un nouvel analyseur morphologique arabe (NAMA) partant d’AraMorph. Les changements effectués ont touché la structure générale d’AraMorph tout en gardant le modèle d’analyse. Les raisons pour lesquelles a été conçu l’analyseur NAMA peuvent être citées cidessous : 1. Des raisons structurelles : Notre analyseur est une ressource arabe de ce fait, il faut construire les dictionnaires en arabe pour garder la structure de notre langue et améliorer les ressources automatiques arabes. Les mots doivent être compréhensibles pour les Arabes sans l’utilisation de transformation de Buckwalter et sans aucun besoin d’autres liens comme la lettre ou la langue latine. 2. Des raisons morphologiques: AraMorph souffre d’insuffisances dans le traitement des préfixes et des suffixes arabes indispensables dans l’automatisation de la langue arabe et dans la recherche d’information. 80 Chapitre IV Nouvelle Méthode d’Analyse Morphologique Arabe Il existe plusieurs préfixes dans le Coran qui n’existe pas dans l’analyseur de Buckwalter, comme le préfixe : «ٍ » أكثاdans le verset suivant : «ٕٞ٘ٓئ٣ َ»أكثاُثاط, et le suffixe « ٌْٜ٣» dans le verset suivant : «ْ هللاٌٜ٤ٌل٤»كس. L’avantage de rassembler toutes les terminologies linguistiques «lemme, stem, racine, lexème» dans le même analyseur et le rendre de plusieurs sorties. L’utilisation pour la première fois de lexème arabe comme sortie dans un analyseur arabe. 3. Des raisons grammaticales : La possibilité d’évaluation d’un analyseur qui traite les deux types de la morphologie arabe : morphologie flexionnelle et morphologie dérivationnelle. Le manque de traitement des catégories de la morphologie flexionnelle comme le pluriel brisé et le verbe irrégulier. 4. Des raisons de loi de l'offre et de la demande : Augmentation des besoins d’utilisation des analyseurs morphologiques arabes. L'utilisation fréquente d’AraMorph. Manque d’analyseurs morphologiques arabes à base de dictionnaire dans les domaines d’automatisation des langues et dans la recherche d’information. 5. Des raisons de coût : Minimiser le coût d’utilisation d’espace mémoire par l’enlèvement des tables des correspondances d’AraMorph. IV. Nouvelle version d’analyseur morphologique arabe : Dans le but d’enrichir les ressources électroniques pour le traitement automatique de la langue arabe et, suite à l’étude des différents analyseurs existants, notamment celui de Buckwalter, nous proposons de développer un nouvel analyseur morphologique arabe à base de dictionnaire. Notre algorithme suit dans l’ensemble la même démarche d’AraMorph avec différentes amélioration sur plusieurs niveaux. 81 Nouvelle Méthode d’Analyse Morphologique Arabe Chapitre IV Les dictionnaires sont modifiés qualitativement et quantitativement, au niveau de qualité, ils sont codés en langue arabe sans aucune translitération intermédiaire. Les dictionnaires des préfixes et suffixes contiennent de nouvelles formes et de nouveaux champs, ces derniers sont ajoutés pour alléger la structure complexe induite par les tables de correspondance (préfixes-stem, préfixe-suffixe et stem-suffixe). Notre analyseur possède quatre sorties selon le choix de l’utilisateur et suivant la structure de dictionnaire de lemmes qui contient toutes les terminologies linguistiques d’une entrée (lexème, lemme, racine et stem). Par ailleurs, l’algorithme manipule deux types de morphologie : flexionnelle et dérivationnelle. Ces deux types sont intégrés dans le dictionnaire des lemmes par les catégories morphologiques et grammaticales des entrées successivement. Les changements quantitatifs consistent à augmenter le nombre de préfixes, suffixes et catégories morphologiques de stems. Les changements quantitatifs AraMorph NAMA # préfixe 106 78 # suffixe 206 252 # catégories morphologique du nom 20 24 # catégories morphologique du verbe 22 27 Tableau IV.5 : Les changements quantitatifs. Notre analyseur contient trois fichiers de lexique arabe: préfixes, lemmes et suffixes. Chaque entrée de ces dictionnaires possède cinq champs : L’entrée sans vocalisation, L’entrée avec vocalisation, Catégorie morphologique, Glossaire anglais, Catégorie grammaticale. Les trois dictionnaires ont vu des modifications avec l’ajout de deux nouveaux champs pour le dictionnaire de préfixes : Champ de contrôle de compatibilité préfixe-suffixe et champ de contrôle de compatibilité préfixe-stem. Un seul champ est ajouté pour le dictionnaire de suffixes : Champ de contrôle de compatibilité suffixe-stem. Chaque champ de compatibilité liste les catégories morphologiques adéquates avec cette entrée. Le dictionnaire des lemmes a vu un ajout de deux champs: le champ de racine et le champ de lexème. 82 Nouvelle Méthode d’Analyse Morphologique Arabe Chapitre IV A. La description de trois dictionnaires : A.1 Catégorie grammaticale : La catégorie grammaticale1 de chaque entrée de dictionnaire est inspirée du schéma des POS arabes proposé par Khoja comme dans la figure suivante [Kho et al, 01]: Mot Verbe Accompli Inaccompli Nom Particule Impérative Résiduel Nom non arabe Ponctuation Abréviation Formule Mathématique Nom Commun Nom Propre Pronom personnel Adjective Pronom personnel Pronom Relatif Pronom démonstratif Nombre Cardinal Spécifique Préposition s Interrogat ion Adverbe Réponse Ordinal Adjectif Numérique Commun Prépositions Interjection Exception Négative Explication Figure IV.1 : Schéma des catégories grammaticales (POS) proposé par Khoja Cette classification de Khoja suppose que le discours arabe est réparti sur cinq catégories : nom, verbe, particule, additif (symboles et formules mathématique, les abréviations …etc) et 1 C’est le terme qu’on adopte pour le concept anglais (part of speech) ou tout simplement l’acronyme (POS) 83 Nouvelle Méthode d’Analyse Morphologique Arabe Chapitre IV ponctuation. Cependant, les linguistes ne reconnaissent que trois grandes classes : nom, verbe et particule où chaque classe dérive vers d’autres sous-classes. Dans ce travail, nous nous sommes basés sur la morphologie dérivationnelle pour concevoir le schéma de POS de notre analyseur NAMA. Pour cela nous avons éliminé les sous-classes des verbes (accompli, inaccompli, impérative) car elles sont considérées comme des catégories flexionnelles. La figure suivante montre le schéma de POS adopté pour cette étude : Mot Verbe Nom Nom Pronom Particule Temps Pronom personnel Nombre Adverbe Pronom Relatif Place Ordinal Cardinal Pronom démonstratif Commu n Spécifique Adjectif Numérique Adjectif Nom de relation Nom non arabe Nom propre Préposition s Interrogation Nom Invariant Réponse Nom commun Condition Nom commun Interjection Exception Négative Figure IV.2 : Schéma de POS proposé pour NAMA 84 Nouvelle Méthode d’Analyse Morphologique Arabe Chapitre IV A.2 Les dictionnaires: A.2 .1 Dictionnaire des lemmes et stems : Ce dictionnaire est le plus grand parmi les trois utilisés par NAMA. il contient tous les lemmes arabes les plus utilisés actuellement. Le dictionnaire il inscrit pour chaque entrée (mot) une description linguistique comme la racine, le lexème et le stem ; mais aussi d’autres champs comme : la vocalisation d’un stem, sa catégorie morphologique, son glossaire anglais et sa catégorie grammaticale (POS). On a ajouté le lexème et la racine des mots à ce dictionnaire pour rendre plus flexible l’exploitation ultérieure selon le besoin analytique et/ou linguistique. Souvent, un mot arabe est composé de préfixe, stem et suffixe et chaque lemme est dérivé morphologiquement depuis une racine, et prend sa signification depuis le sens global d’un lexème. Les catégories morphologiques des stems Chaque catégorie morphologique d’un stem arabe dans notre dictionnaire est décrite par une notation précise : Notation Signification exemple .ٝ.ى Mot fonctionnel مٞ‘ كsur’ .ا Nom ‘ ٓذسسحécole’ ف Verbe ٠‘ أػطdonner’ Tableau IV.6 : Les notations générales utilisées pour un stem arabe. Les catégories morphologiques utilisées sont du type flexionnel, ceci permet de distinguer les différents changements des formes d’un mot dans n’importe quelle position dans la phrase. Par exemple : ُص٣.ٓز.ّ. ا:ز٤ِٔذ , ص.ْٓ.ذي.ج. ا:ز٤ٓذال La première indique que le mot est un nom masculin singulier acceptant n’importe quelle conjugaison, c’est-à-dire toutes les suffixations de flexion possible d’un nom ; par contre le deuxième mot est un pluriel brisé inconjugable. 85 Nouvelle Méthode d’Analyse Morphologique Arabe Chapitre IV Notre analyseur NAMA inclut de nouvelles catégories morphologiques (par rapport à celles prise en charge dans AraMorph) telles que le pluriel brisé2 (ذي.ج. )اpour les noms et les verbes défectueux3 (ٓؼد.ٓا.)ف Un exemple sur l’entrée de dictionnaire de stem: ;--- ًرة un lexème ;; َلًرَلة un lemme ًرة َلًرَلة ًرة ٓا.ف write ف/َلًرَلة ًرة ًْرُة ًرة ٓض. فwrite ف/ًْرُة une racine un stem Le tableau suivant résume les catégories flexionnelles du nom, verbe et mot fonctionnel : 2 3 Pluriel irrégulier Verbe contenant une longue voyelle 86 Nouvelle Méthode d’Analyse Morphologique Arabe Chapitre IV Nom ُص٣.ٓز.ّ.ا ٓز.ج.ال.ٓز.ّ.ا ٓئ.ج.ٓز.ج.ال.ٓز.ّ.ا ٓئ.ج.ٓز.ٓس.ن٣.ٓز.ّ.ا ٓز.ٓس.ن٣.ٓز.ّ.ا ٓئ.ج.ن٣.ٓز.ّ.ا ا ٓئ.ج.ٓس.ن٣.ٓئ.ّ.ا ٓئ.ٓس.ن٣.ٓئ.ّ.ا ُص٣.ال.ٓئ.ّ.ا ٓئ.ج.ن٣.ٓئ.ّ.ا ٓئ.ج.ا كد.ن٣.ٓغ.ؽ.ا ًس.ن٣.ٓغ.ؽ.ا ذق.ا ص.ْٓ.ا ع.ا ػذد ذي.ج.ا ص.ْٓ.ذي.ج.ا ص.ْٓ.ع.ا ُص٣.ال.ٓئ.ذي.ج.ا ٓئ.ج.ن٣.ٓز.ذي.ج.ا ٓئ.ج.ٓس.ن٣.ٓئ.ذي.ج.ا ص.ْٓ.ٓئ.ذي.ج.ا Verbe ٓا.ف ٓض.ف أ.ف الص.ٓا.ف الص.ٓض.ف الص.أ.ف ١ ُ _ٓض.ف ١ ُ _الص.ٓض.ف ٓج.ٓة.ٓا.ف ٓج.ٓة.ٓض.ف حي.ٓا_ذؾ.ف حي.ٓض_ذؾ.ف حق.ٓا_ذؾ.ف حق.ٓض_ذؾ.ف Mot fonctionnel ٝ.ى ع._حٝ.ى ج.ح-ع._حٝ.ى ٓؼد.ٓا.ف ٓؼد.ٓض.ف الص.ٓؼد.ٓا.ف الص.ٓؼد.ٓض.ف ١ ُ _ٓؼد.ٓض.ف ١ ُ _الص.ٓؼد.ٓض.ف ٓج.ٓة.ٓؼد.ٓا.ف ٓج.ٓة.ٓؼد.ٓض.ف حي.ٓؼد_ذؾ.ٓا.ف حي.ٓؼد_ذؾ.ٓض.ف حق.ٓؼد_ذؾ.ٓا.ف حق.ٓؼد_ذؾ.ٓض.ف Tableau IV.7 : Les catégories morphologiques utilisées pour les stems ُص٣.ٓز.ّ. ا: nom masculin singulier acceptant n’importe quelle conjugaison. Typiquement, ce exemple : sont les noms rationnelles (par ٌّ ٞ ُُ َلـ ِلlugawiy ~, ٢ٌّ ٗ ُُثْ٘ا ِلlubonAniy ١ ~), et les participes actifs de toutes les formes trilitères et quadrilatères (par exemple: murAsil َشاس ُٓ ِل, Qadir ها ِلدس, mutarojim ْ) ُٓرَلشْ ِلج. Donc le nom de cette catégorie peut prendre toutes les suffixes flexionnels nominaux suivants : masc.du. (-Ani ٕ ا, -ayoni ْٖ ِل٣ َل, -A ا, -ayo ْ١ ) َل masc.pl. (-uwna َٕلُٝ , -iyna َٖل٣ ِل, -uw ُٝ , -iy ١) ِل 87 Chapitre IV Nouvelle Méthode d’Analyse Morphologique Arabe fem.sg. (-ap ) َلج fem.du. (-atAni َٕلذا ِل, -atayoni ْٖ ِل٤ َلذَل, Ata اخَل, -atayo ٢) َلذ َْل fem.pl. (-Au ُ) ا ٓز.ج.ال.ٓز.ّ.ا: nom masculin singulier acceptant n’importe quelle conjugaison sauf le pluriel masculin, il peut prendre toutes les suffixes flexionnels possibles expliquées ci-dessus à l'exception du masculin pluriel. Cette catégorie de suffixation est typique des noms ayant la forme trilitère faEiyl ‘ َ٤ ‘ كؼet normalement prendre un pluriel brisé pour le masculin et le pluriel féminin pour le féminin. comme : jadiyd,ذ٣( جذ. Pl judud, ) ُجذُد. ٓئ.ج.ٓز.ج.ال.ٓز.ّ. ا: nom masculin singulier peut prendre toutes les suffixes flexionnels possibles expliquées ci-dessus à l'exception des suffixes de masculin pluriel et de féminin pluriel. Typiquement, ce sont les noms qui fonctionnent comme adjectifs. Exemples: mufahoras َلْشسٜ ُٓلَل, taEoliymiy ~ ٢ٌّ ٔ ِل٤ِذَل ْؼ ِل. ٓئ.ج.ٓز.ٓس.ن٣.ٓز.ّ.ا: nom masculin singulier n’accepte aucune conjugaison sauf le dual masculin et le pluriel féminin .Typiquement, ce sont les noms verbaux dénombrables de formes dérivées trilitères et quadrilatères. Exemples: taloxiyS ص٤ذَل ِْ ِلخ, AimotiHAn ٕاِل ْٓ ِلرحا. ٓز.ٓس.ن٣.ٓز.ّ.ا: nom masculin singulier n’accepte aucune conjugaison sauf le dual masculin, il ne prend que les suffixes flexionnels du dual masculin citées ci-dessus. Les noms de cette catégorie sont conjugués au pluriel brisé. Exemples: masokan ٌٖ َلٓ ْس َل, lafoZ َُل ْلظ. ٓئ.ج.ن٣.ٓز.ّ. ا: nom masculin singulier n’accepte aucune conjugaison sauf le féminin pluriel. Typiquement, ce sont les noms verbaux «semi-quantitatif» de formes dérivées trilitères et quadrilatères. Exemples: Tasar ~ uf صشُّف ذَل َل, taEAwun ُٕٝ ذَلؼا. ٓئ.ج.ن٣.ٓز.ذي.ج. ا: nom masculin de pluriel brisé n’accepte aucune conjugaison sauf le féminin pluriel. Typiquement, ce sont les formes dites "au pluriel-de-pluriel". Exemples: buHuwv زُٞتُح. ا: indique les noms qui ne infléchissent pas pour le nombre. Typiquement, ce sont des noms verbaux (par exemple, Tarok ذَلشْ ى, HuSuwl ٍُٞ ) ُحص. ذي.ج.ا: nom de pluriel brisé qui ne infléchissent pas pour le nombre. Typiquement, ce sont des tripode de pluriels brisés (par exemple, suk ~ Un ٕ ُس ٌّا, $ uEuwb بُٞ) ُشؼ. 88 Chapitre IV Nouvelle Méthode d’Analyse Morphologique Arabe Les noms qui provient de ces deux catégorie d'inflexion " ا, ذي.ج. " اne prenez pas les suffixes flexionnels. ٓئ.ج.ٓس.ن٣.ٓئ.ّ.ا: nom féminin singulier n’accepte aucune conjugaison sauf le dual féminin et le pluriel féminin, donc ne prend que les suffixes flexionnels du féminin singulier, de dual et de féminin pluriel citées ci-dessus .Les noms de cette catégorie d'inflexion prennent rarement le pluriel brisé. Exemples: Lahoz-ap َُلحْ ظَلح,> usor-ap أُس َلْشج, mubAdal-ap ُٓثادَلُح. ٓئ.ج.ٓس.ن٣.ٓئ.ذي.ج.ا: nom féminin de pluriel brisé n’accepte aucune conjugaison sauf le dual féminin et le pluriel féminin, donc ne prend que les suffixes flexionnels du féminin singulier, de dual et féminin pluriel citées ci-dessus. Exemple : sAdap سادَلج ٓئ.ٓس.ن٣.ٓئ.ّ.ا: nom féminin singulier n’accepte aucune conjugaison sauf le dual féminin, il ne prendre que les suffixes flexionnels du dual féminin citées ci-dessus. Noms de cette catégorie d'inflexion prennent le pluriel brisé exemples: <Ujor-ap أُجْ َلشج, maso> al-ap َلٓسْؤَلَُلح, gurof-ap ُؿشْ كَلح. ُص٣.ال.ٓئ.ّ.ا: nom féminin singulier ne pas infléchir pour le nombre. Typiquement, ils sont des noms verbaux de forme verbale trilittérale et quadrilatérale (par exemple : sayoTar-ap طَل َلشج٤ْ ) َلس. ُص٣.ال.ٓئ.ذي.ج.ا: nom féminin de pluriel brisé ne pas infléchir pour le nombre. Typiquement, ils sont tripode de pluriel brisé (par exemple : > alobis-ap أَل ُْثِل َلسح, EamAliq-ap ) ػَلٔاُِلوح. Les noms qui provient de ces deux dernières catégories d'inflexion " ُص٣.ال.ٓئ.ّ. ا,ُص٣.ال.ٓئ.ذي.ج. " اne prenez que les suffixes flexionnels du féminin singulier: ٓئ.ج.ا: nom de féminin pluriel qui ne prend que les suffixes flexionnels du féminin pluriel: Exemples: muxAbar-A ُٓخاتَلشاخ. كد.ن٣.ٓغ.ؽ.ا: indique le nom qui acquière un sens lexical indépendant quand il fonctionne comme un adverbe ou un interjection .Un nom provient de cette catégorie ne prend que le marqueur d’accusatif en cas de suffixe indéterminée: (-AF )اًا. ًس.ن٣.ٓغ.ؽ.ا: indique les noms qui prennent le marqueur génitif (K ٍ ). Exemples:آآ ٍ ذَل ذق.ا: désigne le nom élatif masculin, qui infléchit généralement pour le dual seulement, il ne prend que les suffixes flexionnels du dual masculin. Exemples:> akobar أَل ًْثَلش. 89 Nouvelle Méthode d’Analyse Morphologique Arabe Chapitre IV ع.ا: les noms propres, qui n'ont généralement infléchissent pas , ni prennent suffixes (par exemple, miSor ) ِلٓصْ ش. Le nom provient de la cette catégorie ne prend pas les suffixes flexionnels. ص.ْٓ.ا: nom de diptote. Le nom provient de cette catégorie ne prend pas les suffixes flexionnels .Exemple : |*Ar آراس. ص.ْٓ.ذي.ج.ا: nom masculin de pluriel brisé de diptote . Nom de cette catégorie de suffixation inclure plusieurs formes de pluriels brisées, comme la forme trilittérale mafAEil,َ٤( َلٓلا ِلػpar exemple, majalis ) َلٓجا ِلُسet faeA}il َ( كَلؼا ِلئpar exemple, Qaba} il َ)هَلثا ِلئ, et les formes quadrilatères faEAliyl َ٤ُ( كَلؼا ِلpar exemple, jamAhiyr ش٤ٛ ) َلجٔا ِلet faEAlil َُ( كَلؼا ِلpar exemple, , jamArik ٔاسى ) َلج ِل. Le nom provient de cette catégorie ne prend pas les suffixes flexionnels. ص.ْٓ.ٓئ.ذي.ج.ا: nom feminin de pluriel brisé de diptote .Exemple :Axebiyatun َلح٤أَل ْخ ِلث. ص.ْٓ.ع.ا: nom propre de diptote. Exemple : IsTanbul .ٍُٞاِل ْسطَل ْ٘ث ػذد: nom de nombre. Exemple :xamesap َلخ ْٔ َلسح. Nom provient de cette catégorie d'inflexion peut prendre deux suffixes : En cas de nominatif :(-uwna َٕلٝ ُ ) En cas de génitif ou accusatif (-iyna َٖل٣) ِل ٓا.ف: verbe accompli. ٓض.ف: verbe inaccompli. أ. ف: verbe impérative. الص.ٓا.ف: verbe accompli intransitive, qui n’a pas besoin d’un complément d’objet . الص.ٓض.ف: verbe inaccompli intransitive, qui n’a pas besoin d’un complément d’objet . الص.أ.ف: verbe impérative intransitive, qui n’a pas besoin d’un complément d’objet . ١ ُ _ٓض.ف: verbe inaccompli qui son préfixe débute par la lettre yu ١ ُ ١ ُ _الص.ٓض.ف: verbe inaccompli intransitive qui son préfixe débute par la lettre yu ١ ُ ٓج.ٓة.ٓا.ف: verbe accompli de voie passive. ٓج.ٓة.ٓض.ف: verbe inaccompli de voie passive. حي.ٓا_ذؾ.ف: verbe accompli qui leur suffixes débutent par une voyelle. حي.ٓض_ذؾ.ف: verbe inaccompli qui leur suffixes débutent par une voyelle. 90 Chapitre IV Nouvelle Méthode d’Analyse Morphologique Arabe حق.ٓا_ذؾ.ف: verbe accompli qui leur suffixes débutent par une consonne. حق.ٓض_ذؾ.ف: verbe inaccompli qui leur suffixes débutent par une consonne. ٓؼد.ٓا.ف: verbe accompli défectueux. ٓؼد.ٓض.ف: verbe inaccompli défectueux. الص.ٓؼد.ٓا.ف: verbe accompli intransitive défectueux. الص.ٓؼد.ٓض. ف: verbe inaccompli intransitive défectueux. ١ ُ _ٓؼد.ٓض.ف: verbe inaccompli défectueux qui son préfixe débute par la lettre yu ١ ُ ١ ُ _الص.ٓؼد.ٓض.ف: : verbe inaccompli intransitive défectueux qui son préfixe débute par la lettre yu ١ ُ ٓج.ٓة.ٓؼد.ٓا.ف: verbe accompli défectueux à la voie passive. ٓج.ٓة.ٓؼد.ٓض.ف: verbe inaccompli défectueux à la voie passive. حي.ٓؼد_ذؾ.ٓا.ف: verbe accompli défectueux qui leur suffixes débutent par une voyelle. حي.ٓؼد_ذؾ.ٓض. ف: verbe inaccompli défectueux qui leur suffixes débutent par une voyelle. حق.ٓؼد_ذؾ.ٓا.ف: verbe accompli défectueux qui leur suffixes débutent par une consonne. حق.ٓؼد_ذؾ.ٓض.ف: verbe inaccompli défectueux qui leur suffixes débutent par une consonne. ٝ.ى: Mot fonctionnel comme les particules ou les pronoms ou d’autre nom qui n’a pas de fonction d’une verbe ou nom et qui ne prennent aucune préfixe comme les interjection et les abréviations . ع._حٝ.ى: Mot fonctionnel qui accepte le préfixe de conjonction wa et fa comme :wa-huwa ُٞ َلٛٝ َل,famin ٖٔ) كَل ِل ج.ح-ع._حٝ.ى: Mot fonctionnel qui accepte les préfixes de conjonction et les préfixes de préposition bi et li comme fabiman ٖٔكَل ِلث َل. A.2.2 Dictionnaire de préfixes : Pour gagner en espace mémoire, nous proposons d’éviter le stockage des translitérations de Buckwalter et de supprimer les tables de correspondances. Deux champs sont rajoutés dans les dictionnaires pour les correspondances préfixe-suffixe et préfixe-stem. 91 Nouvelle Méthode d’Analyse Morphologique Arabe Chapitre IV Le nombre des entrées du lexique de préfixes est de 106 entrées avec l’ajout de 28 particules définies comme suit :( ,َِأك,َُٝأ,ٍأكثا,ٍتاٝ أ,ٖسٝأ,سدٝأ,أُد,٢ُٝأ,ُٖأ,أخ, أف,ٝأ,ُٖٝأ,ُدٝأ,ٕٝأ,١ٝأ,خٝأ,٢أس,أسد,ٕأ,١أ,ٖأكس,أكسد,ٖأك,٢أك,أكد,٢سٝ أ٢ُأ,٢ُٝ,ُٖٝ,ُدٝ,٢)أكس. Un exemple sur l’entrée de dictionnaire de préfixes: Préfix e Vocalisé Catégorie Morphologiq ue glossair e ٝ َٝل and ٝ.س Catégorie Champ de corgrammatical respondance e Préfixesuffixes ع.ح/َٝل ٍ.ال ِل-ا.ٍ Champ de correspondance Préfixe- stems ٓئ.ج.ٓز.ج.ال.ٓز.ّ.ا ٓز.ج.ال.ٓز.ّ.ا Tableau IV.8 : exemple sur l’entrée de dictionnaire de préfixes. A.3.3 Dictionnaire de suffixes : Le champ ajouté dans ce dictionnaire c’est le champ de correspondance suffixe-stem et le nombre des entrées du lexique de suffixes est de 252 entrées avec l’ajout de 46 particules définies comme suit :( ٕرا٤ٗ,ٕا٤ٗ,ٕٞ٤ٗ,ًٖٛٞٔ,ٔاًٛٞٔ,اًٛٞٔ,ًٙٞٔ,ًْٛٞٔ,ًٖٜ,ٔاًٜ,اًٜ,ًٚ,ًْٜ,ئز ١,ٔاٛ٘ا٣,اٛ٘ا٣,ٙ٘ا٣,ٖٜر٣,ْٜر٣,ٔاٜر٣,ٚر٣,ٌٖ٘٣,ٌْ٘٣,ٌ٘ٔا٣,٘ي٣,ٕرا٣,ٖٜٗا,اٜٗا,ْٜٗا,ٔاٜٗا,اٜٗا,ٚٗا,اٗ٘ا,٢٘ٗا,ح٣,ٕٞ٣,ٕا٣,اٞ٣,ا٣, ًٖ٘ا٣,ًْ٘ا٣,٘أًا٣,٘اى٣,ٖٛ٘ا٣,ْٛ)ٗا. Un exemple sur l’entrée de dictionnaire de suffixes : Suffix e اى Vocalisé Catégorie Morphologiq ue ى اى-ٓض.ف.ٍ ا َل glossair Catégorie e grammatical e you ّ.ٓض.ف.ٍ/ا .ف.ٍ/ى َل+ؽ.ز +ٓخ.ٓز.ّ.ٓض Champ de correspondance suffixe- stems ا.س.ٕ_ال-ٓض.ف ١ ُ _ٕ-ٓض.ف Tableau IV.9 : exemple sur l’entrée de dictionnaire de suffixes. B. Le processus d’analyse dans NAMA : 1. Tokenisation: L’étape de tokenisation consiste à segmenter le texte aux mots par la suppression des espaces, des marques de ponctuation et des signes mathématiques. Après la segmentation, chaque mot obtenu est traité à part, si c’est un mot arabe alors passer à l’étape suivante sinon le rejeter. Dans cette étape il existe deux compteurs qui calculent le nombre de mots arabes, et le nombre de mots non arabes rejetés. 92 Nouvelle Méthode d’Analyse Morphologique Arabe Chapitre IV 2. Normalisation Cette étape n’est pas considérée dans l’analyseur de Buckwalter. Pour chaque token arabe en entrée, elle consiste à : Supprimer les diacritiques, Remplacer maddah ( ٰ ) ou alef waslah ( )ٱpar alef bar ()ا Remplacer deux bars alef ( )ااpar alef madde ( ) آ. 3. Segmentation des tokens La segmentation des tokens arabes en préfixes, suffixes et stems est une étape essentielle de l’analyse, elle suit les contraintes suivantes : La longueur du préfixe ne dépasse pas 5 lettres La longueur du suffixe ne dépasse pas 6 lettres La longueur du stem est au minimum 2 lettres. Le choix de deux lettres est parvenu de la longueur minimale d’un mot arabe qui est deux lettres comme ذ٣. Préfixe Ø Ø Ø ى ًد ًد Radical ًراب Suffixe ًرا Ø ب ًد اب ذاب ذا اب Ø ب Ø Tableau IV.10 : Schémas de segmentation préalable du mot ktab par NAMA. 4. Vérification des dictionnaires Cette étape est la plus importante dans le processus de segmentation car elle tente de valider chaque schéma de segmentation ; elle doit passer par les vérifications suivantes : Vérifier si les segments de (préfixes, stems, suffixes) sont trouvés dans chaque dictionnaire correspondant. Retourner toutes les segmentations valables 93 Chapitre IV Nouvelle Méthode d’Analyse Morphologique Arabe Pointer sur le préfixe trouvé dans le dictionnaire des préfixes et contrôler si la catégorie morphologique du stem existe dans son champ de correspondance. Pointer sur le préfixe trouvé dans le dictionnaire des préfixes et contrôler si la catégorie morphologique du suffixe existe dans le champ de correspondance des suffixes. Pointer sur le suffixe trouvé dans le dictionnaire des suffixes et contrôler si la catégorie morphologique du stem existe dans le champ de correspondance des stems de ce suffixe. Un schéma de segmentation est rejeté dès l’échec dans l’une de ces phases de vérification des dictionnaires sans passer à la phase suivante. 5. Les variantes orthographiques En cas d’échec d’analyse d’un mot arabe est le cas où on ne trouve aucune segmentation où on ne valide aucune segmentation d’un mot arabe, elle consiste à contrôler l’orthographe du mot en entrée selon les hypothèses suivantes : Remplacer Alef initiale ( أou ) اpar ا Remplacer la finale ءٟ par ء١ Remplacer la finale ء١ par ئ Remplacer la finale ٟ par ١ Remplacer la finale ١ par ٟ Remplacer la finale ٙ par ج Remplacer la finale جpar ٙ Remplacer le médian ءٝ par إ Remplacer le médian ٟ par ١ Cette phase est caractérisée par l’ajout de deux hypothèses principales : Remplacer Alef initiale ( أou ) اpar اet Remplacer la finale جpar ٙ . 94 Nouvelle Méthode d’Analyse Morphologique Arabe Chapitre IV C. L’Algorithme de L’Analyseur Morphologique Proposé - - Entrée : B, texte brut avec encodage UTF-8 Sortie : Sortie : S, liste d’une listes, liste des Mot analysés et chaque mot analysé à une liste des schémas de segmentation valides,si,n=(moti,prei,n,sufi,n,stmi,n,lemi,n,lexi,n) S(i). N=#S est la cardinalité de l’ensemble. T :liste des mots ou tokens {ti}. #T est la cardinalité de l’ensemble. - TN : liste des mots ou tokens non analysé {tni}. #TN est la cardinalité de l’ensemble. - SP : liste des schémas de segmentation préalables {spj}. #SP est la cardinalité de l’ensemble. SV : liste des schémas de segmentation valables {svk}. #SV est la cardinalité de l’ensemble. PRF : dictionnaire des préfixes. SFX : dictionnaire des suffixes. STM : dictionnaire des stems. - Début Entrer le texte B à analyser S Ø Segmenter le texte Pour tout ti dans SV Ø SP Ø en tokens ti T faire Si le mot ti est arabe alors Normaliser le mot ti (2) Segmenter le mot ti en schéma de segments préalables spj Pour toute Si le segment segmentation spj dans SP faire spj est dans les dictionnaires PRF, SFX, STM alors SV SV+ spj FinSi FinPour 95 Nouvelle Méthode d’Analyse Morphologique Arabe Chapitre IV Si SV==Ø alors TN TN+ti Sinon Pour toute Si segmentation svk dans SV faire la catégorie de stem est trouvée dans le dictionnaire de préfixes alors Si la catégorie de suffixe est trouvée dans le dictionnaire de préfixes alors Si la catégorie de stem est trouvée dans le dictionnaire de suffixes alors S(i) S(i)+svk FinSi FinSi FinSi FinPour Si S(i)==Ø alors TN TN+ti Sinon S S+S(i) FinSi FinSi FinPour FinSi Si TN≠Ø Pour tout mot tnm dans TN faire Corriger L’orthographe 96 Nouvelle Méthode d’Analyse Morphologique Arabe Chapitre IV Retourner à l’étape (2) FinSi FinPour Fin D. L’organigramme associé à NAMA : Début entrer le texte B Segmenter le texte B en #T mots Prendre un Mot ti Le mot est arabe Oui Normaliser le mot Segmenter le mot ti en #SP schémas Oui Prendre le schéma spj Segmentation j j<#SP Non Les segments existés Oui SV j=j+1 SV+spj Prendre le schéma svk Oui k<#SV 97 Nouvelle Méthode d’Analyse Morphologique Arabe Chapitre IV Vérifier la catégorie de stem dans le dictionnaire de préfixe Non La catégorie de stem existé Oui Vérifier la catégorie de suffixe dans le dictionnaire de préfixe Non La catégorie de suffixe existé Oui Vérifier la catégorie de stem dans le dictionnaire de suffixe Non La catégorie de suffixe existé Oui S (i) k=k+1 S(i)+svk Non S S+S(i) S(i)==Ø Oui TN TN+ti i=i+1 Oui i<#T Non Oui TN≠Ø Non Prendre un Mot tnd de TN 98 Chapitre IV Nouvelle Méthode d’Analyse Morphologique Arabe Corriger L’orthographe d=d+1 Oui d<#TN Non Afficher les résultats d’analyse de texte Fin Figure IV.3 : L’Organigramme de NAMA V. Conclusion Ce chapitre était consacré à la description détaillée de notre méthode NAMA proposée pour le traitement automatique de la morphologie arabe. Partant de l’étude des analyseurs existants, en particulier ceux de Buckwalter et de Khoja, notre contribution prend les aspects suivant : - Encodage arabe des dictionnaires, - Enrichissement des trois dictionnaires (stems, préfixes et suffixes), - Prise en charge de certaines formes irrégulières de flexion, - Elargissement des schémas de segmentation possibles, - Traitement des formes verbales voyellées, - Intégration du processus de normalisation, - Algorithme d’analyse plus pratique. Dans le chapitre suivant, nous mettant en application l’algorithme NAMA pour l’analyse et l’indexation des documents arabe en vue d’une recherche d’information sémantique. Afin d’apprécier l’efficacité de notre approche, nous menons une série de comparaisons sur plusieurs niveaux avec d’autres méthodes d’analyse du texte arabe. 99 Chapitre V Implémentation et Evaluation Chapitre V I. Implémentation et Evaluation Introduction Après avoir exposé les différents aspects théoriques relatifs à l’analyse automatique du texte arabe, nous décrivons dans ce chapitre l’implémentation et les expérimentations de ces approches étudiées. Cette étude suivra deux parcours : Le premier consiste en la comparaison des différents analyseurs arabes selon des métriques standard sur un article de presse Echorouk et un corpus de concepts. Ceci nous permettra de découvrir dans quel domaine notre analyseur proposé est-il plus efficace : dans le domaine d’extraction des racines ou des stems ou bien dans le domaine d’extraction des lemmes et des lexèmes. Dans le deuxième parcours, nous présentons une analyse de performance de ces analyseurs dans l’indexation sémantique pour la recherche d’information arabe sur deux corpus de données. Il s’agit d’apprécier la faisabilité et l’utilité d’un un analyseur morphologique à base de dictionnaires dans l’indexation sémantique des textes et des pages web arabes. Les méthodes d’indexation sémantique expérimentées dans ce travail sont de deux modèles : le premier est algébrique (méthode d’indexation sémantique latente), le deuxième relève des modèles de langues (méthodes d’uni-grammes et de bi-grammes). II. Environnement des expérimentations a. Matériel Notre application est exécuté sur un ordinateur de type Acer d’un : Processeur Intel(R) Core(TM) i3, vitesse 2.40 GHz. Espace mémoire de 4 GB, type DDR3. Disque dur de 500 GB. b. Logiciels L’environnement de travail choisi consiste en le langage Java NetBeans IDE version 6.9.1 installé sous le système d’exploitation Windows-7 professionnel 2009, ainsi que deux autres logiciels ; le premier est Total-Commander pour la gestion des fichiers, et le deuxième est MoEjam El-Logha El-Arabiya El-Moeasira pour le traitement automatique de la langue arabe. b.1 Total-Commander Total-Commander, est un gestionnaire de fichiers pour Windows (TM) développé avec Delphi, il est similaire à Windows Explorer, mais ce logiciel utilise différentes approches pour la recherche. Il a deux fenêtres visibles à côté l’une de l’autre et accepte les onglets pour 101 Chapitre V Implémentation et Evaluation afficher les fichiers ou des informations sur les fichiers. Avant 2002, le produit s'appelait Windows Commander, mais pendant l'été 2002, Microsoft a réclamé un changement de nom Windows ; il est alors devenu Total-Commander. Cette application comporte de nombreuses fonctionnalités telles que copier, déplacer, renommer, glisserdéposer, supprimer. b.2 MoEjam El-Logha El-Arabiya El-Moeasira Le programme est un glossaire de la langue arabe actuelle établi par une équipe de chercheurs arabes égyptiens. Il contient un dictionnaire évalué par le linguiste Ahmed Mokhtar. Ce logiciel fournit les possibilités de recherche par racines, par entrée, par dérivés, par expressions de recherche contextuelle ou par recherche libre dans le panneau du lexique. c. Description des corpus de test Pour les différents protocoles de test, nous utiliserons trois corpus de texte arabe : 1- Le premier corpus est un sous-ensemble, de 300 groupes de concepts, tiré du corpus développé par A. Brahmi pour le calcul des erreurs de stemming selon les mesures de Paice [Pai, 94]. L’ensemble original des « groupes-concepts » contient 13.142 mots répartis sur 689 groupes dont chacun contient 10 mots au moins [Bra et al, 11]. 2- Les deux autres corpus sont des articles de presse réels (le quotidien algérien Echorouk et l’agence de presse internationales Reuters) extraits de deux corpus plus grands qui ont été construits et testés dans la modélisation par thème pour la recherche d’information sémantique [Bra et al, 11]. Ces deux corpus contiennent des articles web de période 2007-2009. Nous avons pris seulement un sous ensemble des deux corpus pour la validation de notre travail ; chaque article est enregistré sous l’encodage UTF-8. Ech Nbr des articles 346 Nbr de mots 125945 Nbr de caractères 672480 Rtr 596 175712 922993 Tableau V.1 : Caractéristiques des corpus Echorouk et Reteurs. 102 Chapitre V Implémentation et Evaluation Etude expérimentale sur le prétraitement linguistique III. a. Extraction des racines Dans le but de découvrir la performance de notre méthode proposée (NAMA) dans l’extraction des racines arabes, nous l’avons comparée avec les méthodes de racinisation vues précédemment (Khoja et ISRI). L’article de test est tiré du journal Echorouk (voir Figure V.1). Les résultats sont présentés dans le (Tableau V.2). رزغجت ف 70 ٟثبٌّبئخ ِٓ اٌغشائُ اإلٌىزش١ٔٚخ :رغ٠ٛك ثشاِظ رغغّظ ٚرخش٠ت ف ٟأعٙضح ئػالَ آٌ ٟثبٌغضائش وشف اٌذوزٛس ِبٌ١ه عِ ٟؾّذ ،سئ١ظ اٌذٛ٠اْ ثبٌّغٍظ اٌٛطٕ ٟااللزصبدٚ ٞاالعزّبػ ٟأْ 70ثبٌّبئخ ِٓ اٌغشائُ اإلٌىزش١ٔٚخ رؾذس ٔز١غخ ػذَ رٛخ ٟاالؽز١بطبد اٌالصِخ ٌزأِ ٓ١اٌؾٛاع١ت اٌشخص١خ ٚإٌظبَ اٌّؼٍِٛبرٌٍّ ٟإعغبد .اٌغضائش٠خ ِب ٠غؼٍٙب ػشضخ ٌالخزشاق ٚأٚضؼ أِظ ،اٌذوزٛس وّبي ػذِ ،ٞذ٠ش ِخجش األثؾبس اٌّؼٍِٛبر١خ ف ٟعبِؼخ و١جه ثىٕذا خالي رذخٍٗ ف ٟاٌَٛ١ اٌذساع ٟؽٛي اٌغشائُ اإلٌىزش١ٔٚخ ثفٕذق األٚساعٚ ٟإٌّظّخ ِٓ لجً ِإعغخ "أ٠جبد" أْ أعٙضح "اٌجالن ث١شٟ٘ "ٞ األوضش ػشضخ ألٔظّخ اٌزغغظ ٚاٌزخش٠ت اٌّجشِظ ،ؽ١ش رشزغً ٘زٖ األعٙضح ٚفك رمٕ١بد ِؼٍِٛبر١خ دل١مخ ِٚؼمذ رغّؼ ثادِبط أٔظّخ رغغظ ٚرخش٠ت ِجشِغخ لجً رغ٠ٛمٙب ٚرُؾ ٓ١ثصفخ دٚس٠خ ثّغشد ئعشاء ِىبٌّبد ٘برف١خ أٚ االرصبي ثبٌشجىخ اٌؼٕىجٛر١خِ ،إوذا أْ عّ١غ اٌّإعغبد ٚاٌ١ٙئبد ف ٟاٌغضائش ػشضخ ٌٍغشائُ اإلٌىزش١ٔٚخ ،ؽ١ش ال رٛعذ أِ ٞإعغخ ِؾّ١خ ئٌىزش١ٔٚب ٚاشبس اٌّزؾذس ئٌ ٝأْ اٌزشش٠ؼبد ٚاٌمٛأ ٓ١اٌّزؼٍمخ ثبٌغشائُ اإلٌىزش١ٔٚخ غ١ش وبف١خ ٌّٛاعٙخ ٘زا إٌٛع ِٓ اٌغشائُ ف ٟظً رؼم١ذ اٌغشّ٠خ اإلٌىزش١ٔٚخ اٌز ٟال ٠زشن ِشرىجٙب أ ٞأصش ،وّب أْ ِؾبسثخ اٌّٛالغ اٌز ٟرٕشش أفىبسا رطشف١خ ٚ ئس٘بث١خ ػٍ ٝاٌشجىخ اٌؼٕىجٛر١خ ٠صؼت ِؾبسثزٙب ٚرؼطٍٙ١ب ،ؽ١ش ال ٠زطٍت رغ١١ش اٌّٛلغ ئال 10دلبئك فضال ػٓ ؽ ً١اٌزّ ٗ٠ٛاإلٌىزشِ ٟٔٚب ُ٠ؼمذ ِٓ ػٍّ١خ اٌزؾم١ك ٚرؾذ٠ذ ٘٠ٛخ اٌغٙبد اٌؾم١م١خ اٌّغ١شح ٌٙزٖ اٌّٛالغ Figure V.1 : L’article d’Echorouk utilisé dans les tests. NAMA ISRI Khoja Nbr de mots 200 200 200 Nbr de racines justes 178 107 135 Taux de reconnaissance 89% 53.50% 67.50% Tableau V.2 : Les résultats d’extraction des racines Afin de valider ces résultats, nous avons comparés manuellement les résultats trouvés par notre analyseur par avec celles du dictionnaire arabe El-Misbaho-El-Mounir le taux de reconnaissance obtenu pour NAMA était le même. 103 Chapitre V Implémentation et Evaluation Discussion Une analyse séparée des analyseurs montre la cause des défaillances de Khoja et ISRI. Alors que Khoja confonde certains mots avec les mots fonctionnels, donc interprétés comme mots vides, tels que (ءٟف-ٟ ف،ِٕٓ-ِٓ). En plus, il donne des racines inexacts comme (سِظ-)ثشاِظ ( ٟ١ٌ– ٌٟطأ ( ) آٚ - ٟٕطٌٛ لٕأ( ) ا- بد١ٕ ) رمet ( ْٛ ل- ٓ١ٔاٛاٌمٚ). Pour la méthode ISRI, les racines des mots fonctionnels trouvés ont la même forme de mot d’entrée, mais il existe trop de formes trouvées erronées comme : (سِظ- ِبح ( )ثشاِظ- ظ ) ) ثبٌّبئخ٠ س- ظ١ ) )سئٛ٠ د- ْاٛ٠) د. Par ailleurs, ces défaillances sont automatiquement remédiés par notre analyseur NAMA, par exemple (ثشِظ-ٌٟأ-ٓطٚ-ٓرم-ٕٓل- ْٚد-سءط-ٞ) َء. Mais il faut reconnaitre qu’il est incapable de reconnaitre les racines des mots non arabes comme (بد١ٔٚ ; )اٌىزشce mot ne possède pas une racine mais un stem ou une tige en français parce que ce mot appartient aux mots intrus dans l’Arabe. Les mots non analysés par NAMA sont des symboles, chiffres mathématiques ou noms propres n’existant pas dans le dictionnaire de lemmes: b. Extraction des stems Pour voir le comportement de la méthode proposée pour l’extraction des stems arabes, nous l’avons comparé avec le lemmatiseur assoupli (light stemming) et le nouveau stemmer (ANEA) sur le même article. Le tableau suivant montre le résultat des tests : Ana Nbr de mots 200 Nbr de stems 180 justes Taux de 90% reconnaissance light SP SPS SPW AL 200 119 SPSWA L 200 149 200 130 200 119 200 149 65% 59.5% 74.5% 59.5% 74.5% SPWO AL 200 119 SPSWO AL 200 149 59.5% 74.5% Tableau V.3 : Les résultats d’extraction des stems Discussion Comme il a été expliqué dans le chapitre précédent, le stem est le noyau lexical d’un mot. On remarque que le nouvel analyseur a donné des bons résultats, il élimine les préfixes et les suffixes flexionnels selon les besoins d’extraction du stem par exemple le suffixe yah n’a pas été supprimé parce que s’il est éliminé, le sens se diffère comme : –عضائشٞاٌغضائش. La première indique une nationalité et la deuxième indique un pays. 104 Chapitre V Implémentation et Evaluation Le deuxième stemmer SPS donne des bons résultats surtout par rapport au light stemmer mais leurs résultats sont identiques aux résultats de SPSWAL et SPSWOAL malgré les différences de prétraitement. Le processus de suppression de tous les suffixes suivi par la suppression des préfixes à un effet sur les résultats d’analyse les moins bons de SP, et ça donne la supériorité à SPS contre SP. Donc on peut conclure dans cette étude que malgré le même ensemble de suffixes et de préfixes, on obtient des résultats différents si on permute seulement les étapes d’exécution. c. Extraction des lemmes et lexèmes Le nouvel analyseur arabe extrait aussi les lemmes et les lexèmes arabes à l’aide d’un dictionnaire arabe nommé : Almuajm Alwaset, ce dictionnaire donne pour un lexème arabe tous les lemmes appropriés (voir l’exemple de la Figure V.2). ) ٗ( أث Lexème arabe ٚ ٗ ؽمبسرٌٚٗ أّٛٗ ٌخ١ٌٍزفذ ئ٠ الٚ ٗؾزفً ث٠ ثٗ الٚإثٗ ٌٗ أ٠ ء الٟمبي ش٠ ٚ ٗ رٕجٚ ٌٗ ٓب فطٙ ثٗ أثٚ ٌٗ ّٗٗ ثٙفالٔب ثىزا ار Lemme arabe ٗب أثٙثٗ أثٚ ٌٗ ) ٗ( أث ّٗٗ ثٙ فالٔب ثىزا ارٚ ٗ١ٌٗ ئٙ( أثٗ ) فالٔب ٌىزا ٔج رشفغٚ ٖ ػٕٗ رٕضٚ ٗ رىجش١ٍ ػٚ ٗٙع أثٚ( رأثٗ ) ِطب ٖاؤٚ سٚ ٗخ اٌغٍطبْ ػظّزٙٗ أث١ٍمبي ػ٠ ٚ اءٚ اٌشٚ خ ) اٌؼظّخٙ( األث مبي٠ ٚ ح صبس أثبٚ ئثبٚ حٛ( أثب ) أث ٛأث١ٌ ٗٔمبي ئ٠ خ١ اٌزشثٚ خ٠ اٌزغزٟ وبْ ٌٗ وبألة فٚ فالٔب صبس ٌٗ أثبٚ حٕٛق ِغ اٌجٛ اٌؼمٚ حٛاٌجش ِغ األث ّب١ز٠ فالٔب أثب ارخزٖ أثبٚ فالٔب ارخزٖ أثبٚ ) أثب ارخز أثبٝ( رأث ٖ فالٔب رأثبٚ أثبٝ ) أثب رأثٝ( اعزأث ٚء أٟغبد ش٠ ئٟ ِٓ وبْ عججب فٍٝ ػٚ ءٟ صبؽت اٌشٍٝ ػٚ ُ اٌؼٍٝطٍك ػ٠ ٚ اٌغذٚ اٌذٌٛ( األة ) ا حٛرٗ أثٛمبي أث٠ ٚ ( ٟارجؼذ ٍِخ آثبئٚ ) ض٠ً اٌؼض٠ اٌزٕضٟ فٚ حٛ أثٚ ٛ أثٚ ئصالؽٗ ( ط ) آثبءٚسٖ أٛٙظ ٚ ٖٗ ئرا شبثٗ أثب١ فالْ اثٓ أثٚ ّب ِطؼبِب٠بف ئرا وبْ وش١ األضٛ أثٚ ف١ اٌضٛمبي فالْ أث٠ ٚ ٖصذق آثبؤ ٚ اضغ اٌزؼغتِٛ ٟمبي ال أة ٌٗ ف٠ ٚ ٟه ثأث٠ أٔذ أفذٟ ثأثٚ اٌزؼغتٚ ِؼشض اٌّذػٟن فٛمبي هلل أث٠ اٌضعشٚ اٌؾش األةٟس ٌغخ فٛ( األثب ) ِمص Figure V.2 : Description d’un lexème extrait d’Almuajm Alwaset. La figure ci-dessous indique l’affichage des résultats d’analyse de deux mots « اٌزوبء ٟ » اٌصٕبػpar notre nouvel analyseur, cette fenêtre contient toutes les informations sur les mots ainsi les statistiques d’analyse. 105 Chapitre V Implémentation et Evaluation Figure V.3 : La fenêtre d’affichage de l’analyse NAMA IV. Evaluation de performance des analyseurs sur des groupes de concepts : Afin de mesurer les erreurs de stemming selon Paice, nous utilisons dans cette section le corpus de groupes de concepts contenant 300 groupes. Chaque groupe est considéré comme une entrée d’analyse pour les méthodes : ISRI, Light, SP, SPS, SPSWAL, SPSWOAL, SPWAL, SPWOAL. La sortie est une ligne représentant les mots bruts avec leurs stems. Pour comparer les résultats de ces méthodes, on a calculé les métriques de rapidité de CPU et la capacité mémoire allouée par chaque méthode CRAM ainsi la moyenne de nombre de stems par classe MWC et les facteurs d’indexation ICF. Le tableau suivant indique ces résultats tel que: ISRI : Racinisation sans dictionnaire des racines. LIGHT : Stemming léger. NAMAR : Le nouvel analyseur morphologique et la sortie est racine. NAMAS : Le nouvel analyseur morphologique et la sortie est stem. NAMAX : Le nouvel analyseur morphologique et la sortie est lexème. SP : Stemming basé sur la suppression de tous les suffixes et préfixes. SPS : Stemming basé sur la suppression d’une seul suffixe et de tous les préfixes et le reste des suffixes. SPWAL: Stemming avec SP mais avec le traitement de l’article « AL,» اي. SPWOAL: Stemming avec SP mais sans traitement de l’article « AL,» اي. SPSWAL: Stemming avec SPS mais avec le traitement de l’article « AL,» اي. SPSWOAL : Stemming avec SPS mais sans traitement de l’article « AL,» اي. 106 Chapitre V Implémentation et Evaluation N 13831 ISRI LIGHT 13831 NAMAR 13831 NAMAS 13831 13831 SP 13831 SPS SPSWAL 13831 SPSWOAL 13831 SPWAL 13831 SPWOAL 13831 S MWC ICF TCPU 1358 10.19 0.90 2. 90 s 9039 1.54 0.35 3.40s 553 25.02 0.97 6.25h 1323 10.45 0.90 6.25h 8788 1.57 0.36 2.38s 3526 3.93 0.74 4.34s 3526 3.93 0.74 7.67s 3526 3.93 0.74 2.37s 8788 1.57 0.36 5.94s 8723 1.58 0.37 2.37s CRAM 20.70Ko 5.58Ko 7.87Mo 7.87Mo 1.70Ko 2.10Ko 2.40Ko 2.20Ko 1.90Ko 1.80Ko Tableau V.4 : Les résultats d’extraction des stems Discussion L’un des objectifs de l’analyse est la réduction de la taille d’un n’importe quel vocabulaire par la réduction de différentes formes d’un mot en une seule entrée d’un index représentée par un stem, racine ou lemme. Ce tableau montre que NAMAR est le seul analyseur qui donne un nombre minimum de stems, il a réduit le nombre de mots de 13831 à 553 racines ce qui indique que la plupart des mots ont les mêmes racines (valeur élevée de MWC et de ICF). La méthode ISRI a donné des résultats proches de NAMAS avec un ICF de 0.90, par contre light est la méthode qui donne un grand nombre de stems avec un ICF faible. Néanmoins, ces mesures ne suffisent pas pour juger les analyseurs étudiés puisqu’on peut trouver des racines ou stems mal classés. Nous calculons, dans ce qui suit, les erreurs de surstemming (OI) et de sur-stemming (UI). GDMT 59177 ISRI 59177 LIGHT 59177 NAMAR 59177 NAMAS 59177 SP 59177 SPS 59177 SPSWAL SPSWOAL 59177 59177 SPWAL SPWOAL 59177 GDNT 16001101 16001101 15724594 15724594 16001101 16001101 16001101 16001101 16001101 16001101 CI 41389 3012 57570 31438 3495 18768 18768 18768 3495 3410 DI 15983294 16001111 15702276 15725757 16001099 16000602 16000602 16000602 16060278 16001093 mots 5674 5674 5674 5674 5674 5674 5674 5674 5674 5674 Mots différents 5668 5668 5619 5619 5668 5668 5668 5668 5668 5668 Des paires de groupes mots 300 16060278 300 16060278 300 15783771 300 15783771 300 16060278 300 16060278 300 16060278 300 16060278 300 16060278 300 16060278 Tableau V.5 : Les résultats d’extraction des stems 107 Chapitre V Implémentation et Evaluation Pour les 300 groupes de concepts, le nombre des paires de mots et le nombre de mots différents sont identiques pour toutes les méthodes sauf NAMAR et NAMAS qui ont donné moins des paires de mots ; cela peut indiquer que ces deux méthodes ont bien analysé les mots et ont bien ramassé les mots identiques et le facteur de CI (Indice d’Appariement) confirme ceci, tel que NAMAR possède la grande proportion des paires des mots équivalents, lesquelles sont groupées correctement au même stem. Toutes les méthodes ont le même GDMT (le total des fusions désiré globale) alors que NAMAR et NAMAS ont des valeurs moins de GDNT (le total des non-fusions désiré globale) par rapport aux autres et cette différence revenue de la valeur initiale de paires des mots. On remarque aussi que la méthode NAMAR possède la valeur minimum de DI (Indice de la distinction), elle a la plus petite proportion des paires de mots non équivalents qui sont restés distincts après le stemming. Pour mieux interpréter ces résultats, nous calculons les erreurs de stemming UI , OI et SW. UI (× 10-02) OI (× 10-07) SW (× 10-07) UI+OI (× 10-02) ISRI LIGHT NAMAR NAMAS SP SPS SPSWAL SPSWOAL SPWAL SPWOAL 30.1 94.9 2.72 46.9 94.1 68.3 68.3 68.3 94.1 94.2 11100 -6.25 14200 -740 1.25 312 312 312 1.25 5.00 37000 -6.58 523000 -1580 1.33 457 457 457 1.33 5.31 30.2 94.9 2.86 46.9 94.1 68.3 68.3 68.3 94.1 94.2 Tableau V.6 : Les erreurs de stemming Selon cette étude, et selon la métrique UI , les résultats de l’algorithme de NAMAR sont les plus fiables, elle donne la valeur la plus petite d’UI, ce qui indique que les 553 groupes de racines trouvés de concepts contiennent des formes uniques dans la plupart des cas. Alors que les algorithmes de LIGHT et SP ont les valeurs les plus elevées parmi les méthodes appliquées ce qui interprète des erreurs importantes en «sous-lemmatisation» ; c’est-à-dire qu’il ne réduit pas suffisamment et trouve donc des formes encore différentes pour des mots attachés au même concept (voir Figure V.4) : 108 Chapitre V Implémentation et Evaluation UI 1.00E+00 8.00E-01 6.00E-01 4.00E-01 2.00E-01 0.00E+00 Figure V.4 : Le graphe des erreurs de sous-stemming UI À l'inverse des valeurs d’UI, les valeurs d’OI montrent que LIGHT est un stemmer puissant avec les autres méthodes de SP,NAMAS,SPS. Cependant, les valeurs de NAMAR et ISRI sont moins précis que ceux apportés par LIGHT, elles ont produit plutôt des erreurs OI un peu plus élevées, c’est-à-dire qu’elles ont réduit les mots de concepts distincts à la même forme. Par conséquents, nous aurons lors de l’indexation certains groupes de concepts confondus à une forme unique de racine ce qui présente une source potentielle de "bruit" dans un système de RI. C’est les fusions indésirables. OI 1.50E-03 1.00E-03 5.00E-04 0.00E+00 5.00-E-04 Figure V.5 : Le graphe des erreurs de stemming OI. Comme compromis entre les indices UI et OI, on peut prendre le rapport entre les deux (la métrique SW) comme un indicateur général de la performance des chaque méthode. Les tests montrent que les méthodes à base de stem sont les meilleures. 109 Chapitre V Implémentation et Evaluation SW 6.00E-02 5.00E-02 4.00E-02 3.00E-02 2.00E-02 1.00E-02 0.00E+00 1.00-E-02 Figure V.6 : Le graphe d’erreurs de stemming SW Par ailleurs, on peut tout simplement additionner les deux métriques précédentes UI et OI pour apprécier le cumul d’erreurs de stemming. De ce point de vue, l’avantage est attribué aux analyseurs NAMAR et ISRI. UI+OI 1.00E+00 8.00E-01 6.00E-01 4.00E-01 2.00E-01 0.00E+00 Figure V.7 : Le graphe de cumul des erreurs de stemming UI+OI Les métriques utilisées nous donnent une appréciation à priori de la qualité de chaque analyseur dans le texte arabe. L’évaluation pratique, de ces métodes dans des contextes bien précis, nous permettra de mieux comprendre leur comportement et leur efficacité. En particulier, nous nous interressons à evaluer ces algorithmes dans l’indexation sématique des textes arabes pour la recherche d’information. La section suivante expose les résultats de cette étude. 110 Chapitre V V. Implémentation et Evaluation Etude expérimentale des analyseurs linguistiques pour la recherche ad-hoc Pour la tâche de recherche d’information ad-hoc ou par requête libre, nous procédons par un prétraitement linguistique des documents arabes en vue de créer un index sémantique sur le corpus en question. Deux méthodes d’indexation sont appliquées : la première est algébrique consiste en l’indexation sémantique latente, et la deuxième est probabiliste comprenant celles d’uni-gramme et de bi-gramme. Trois requêtes sont appliquées pour comparer la performance de chaque modèle d’indexation. Nous calculons la précision et le rappel pour les dix premiers documents retournés et sur la totalité des documents. En plus, nous calculons la précisons interpolée de chaque requête, la précision interpolée moyenne des trois requêtes et la précision moyenne (MAP). Notre implémentation de ces approches est faite après l’analyse morphologique des documents de deux corpus suivant les méthodes décrites au-dessus, mais avant toute analyse on doit supprimer les mots vides qui n’ont aucun rôle dans la recherche d’information arabe et dans le but de réduction de la matrice initiale des occurrences. بٙ١ٓ ف١ثٚ ٟوبْ رٍه وزٌه اٌزٚ ٍٝظ أؽذ ػ١ٌٚ ْٗ ثٛى٠ ٛ٘ٚ ٝ ِٓ ؽزٟ فٌٝ اٍٟ٠ اْ ثؼذ ضذ ْٚي دٛ ِب ػٕٗ ؽٞوبٔذ أٚ غت١ٌ ِٓ الٚ ٓ١ أِب ؽٞظ ِٕز اٌز١ٌ ٌىٓ ػٓ ِغبءٍٝػٚ ْب ئٙ١ٍػ َ ٌُ ٘إالءٛ١ٌُ ألْ اٌٙ ْ وبٛٓ عذا ٌٓ ٔؾ١ْ لذ ثٛ فمظ صُ ٘زٖ أٔٗ رىٟاٌزٚ ٌىٓ ٌٗ ٘زاٚ ِٕٗغ ٌى ٚب أٌٙ رؾذٛٙ فٟفٚ بٙب ِٕٗ ثٕٙ ػٛ٘ ًِغ فمذ ثٚ ْ أٟصٚ ٜٓ وً ثذ ٌذ٠ ػٕذ اٌٍزٌٛ ٗ رٌه١فاْ ف ٚ ارا اٟ٘ ش١ ئرا ً٘ ؽٌٝب ئِٕٙ َٛ٠ ٗلذ وبٔذ ٌزٌه أِبَ ٕ٘بن لجً ِؼٚ ف ٕ٘ب١ٗ وّب و١ٍ ػٍٟئر ػ ظً ِبثشػٝ اضؾٝ أضؾٝ اِغٝضاي اصجؼ أصجؼ أِغ٠ضاي ِب٠ ِبصاي الصاي الٌٟ ئٌٟ ِب ال اٚ ثذالٌٞٗ راد اٚ يٚ ضّٓ اٌٟضاي اٌؾب٠الٚ ّب١ذ ٌؼً الع١ٌ ْظ ئْ وأ١ٌ ِبفزئ ِبأفه ثبد صبس ٞزا ٌذّٙىٓ ث٠ ٗ١ٌ اٞ ثاْ اٌزْٛ ِّب أثٛزا اال فىبْ عزىٌٙ ٘زاٚ ٞاٌزٚ ْاٚ ٗٔٓ فب٠ب أٗ اٌزٙ١ٌا ٜ ٘ٓ اٌزٞ آي اٌزٛأثٚ ٟ٘ٚ ْأٚ Figure V.8 : Les mots vides arabes V.1. Description des requêtes et jugements de référence : Pour chaque corpus de test, nous utiliserons trois requêtes pour des sujets différents. Les trois requêtes utilisées pour le corpus Echorouk sont pour des sujet (sport, politique, société) : « َ ٌىشح اٌمذٞ » إٌّزخت اٌغضائش, « مخ١ٍرفٛض ث٠ظ ػجذ اٌؼض١ »اٌشئet « ٟ»اٌّغشة اٌؼشث، et les trois autres 111 Chapitre V Implémentation et Evaluation requête utilisées pour le corpus Reuters sont pour des sujet (culture, sport, économie): « اٌٍغخ خ١ »اٌؼشث, «َ » وأط اٌؼبٌُ ٌىشح اٌمذet «ٌّٟ»أخجبس االلزصبد اٌؼب. Le logiciel Total-Commander contient une commande de recherche des fichier selon une requête donnée. Dans notre recherche avec ce logiciel, chaque requête a donnée un ensemble de fichier ou de document pertinent qui contenant cette requête .les résultats de recherche de nombre de document pertinent pour chaque requête avec ce logiciel sont comme suit : Requêtes pour Ech Nbr de DocP Requêtes pour Rtr Nbr de DocP «َ ٌىشح اٌمذٞ» إٌّزخت اٌغضائش 18 «خ١»اٌٍغخ اٌؼشث 6 «مخ١ٍرفٛض ث٠ظ ػجذ اٌؼض١»اٌشئ 6 «َ» وأط اٌؼبٌُ ٌىشح اٌمذ 19 «ٟ»اٌّغشة اٌؼشث 9 «ٌّٟ»أخجبس االلزصبد اٌؼب 12 Tableau V.7 : Le nombre de documents pertinents de chaque requête Pour évaluer et comparer notre méthode, nous nous baserons sur les différentes mesures de RI que nous avons présentées dans le chapitre trois : la précision, le rappel, la mesure F à dix documents retrouvés , la R- précision et la MAP que nous noterons P@10, R@10, F@10 Rprec, APQ (Average Precision Qurie) et la courbe de moyenne de précision à 11 points de rappel d’un ensemble de requêtes. V.2. Evaluation de la recherche ad-hoc selon le modèle LSI : Cette analyse consiste à construire une matrice d’occurrences qui sera réduite pour faire ressortir les relations sémantiques « latentes » entre mots ou entre textes. Le choix de valeur de réduction k a un grand effet sur les résultats de cette méthode. Dans notre travail et après plusieurs essai, nous avons choisi k= la taille de matrice initiale/2 ce qui rend à chaque corpus son valeur de K comme se montre le tableau suivant: Corpus Ech Corpus Rtr La valeur de K 173 298 Tableau V.8 : la valeur de K choisi pour chaque corpus. Le trie des documents se fait d’une façon décroissante selon le résultat de pertinence requête-document j. Le tableau suivant présente P@10, R@10, F@10, R- prec, APQ pour 112 Chapitre V Implémentation et Evaluation chauqe requête et les moyennes PM@10, RM@10, FM@10 de trois requêtes ainsi que la moyenne des R-précisions RM- prec et la MAP. Méthodes/ Métrique P1@10 R1@10 F1@10 R1-Prec APQ1 ISRI LIGHT NAMAR NAMAS SP SPS NAMAL NAMAX 0.2 0.11 0.14 0.22 0.06 0.3 0.16 0.21 0.33 0.15 0.6 0.33 0.42 0.38 0.26 0.2 0.11 0.14 0.27 0.05 0.4 0.22 0.28 0.38 0.11 0.3 0.16 0.16 0.27 0.11 0.4 0.22 0.28 0.22 0.12 0.4 0.22 0.28 0.33 0.15 P2@10 R2@10 F2@10 R2-Prec APQ2 P3@10 R3@10 F3@10 R3-Prec APQ3 0.1 0.16 0.125 0.16 0.16 0.2 0.22 0.21 0.22 0.09 0.1 0.16 0.125 0.16 0.16 0.3 0.33 0.31 0.33 0.33 0.1 0.16 0.125 0.16 0.05 0.2 0.22 0.21 0.22 0.09 0.2 0.33 0.25 0.16 0.19 0.4 0.44 0.42 0.44 0.33 0.4 0.66 0.5 0.33 0.36 0.4 0.44 0.42 0.44 0.26 0.2 0.33 0.33 0.16 0.20 0.3 0.33 0.33 0.33 0.18 0.4 0.66 0.5 0.5 0.35 0.2 0.22 0.21 0.22 0.18 0.1 0.16 0.125 0.16 0.08 0.2 0.22 0.21 0.22 0.083 PM@10 RM@10 FM@10 RM-Prec MAP 0.16 0.16 0.15 0.3 0.10 0.23 0.21 0.215 0.27 0.213 0.3 0.23 0.256 0.253 0.13 0.26 0.29 0.27 0.29 0.19 0.4 0.44 0.4 0.38 0.24 0.26 0.41 0.27 0.25 0.16 0.33 0.36 0.33 0.31 0.216 0.23 0.2 0.205 0.23 0.104 Tableau V.9 : Performance de la recherche avec la méthode LSI sur le corpus Echorouk Ces résultats préliminaires montre que la méthode NAMAR donne les meilleures performances pour la première requête, par contre le NAMAL est la plus appropriée pour la deuxième requête, mais pour la troisième requête le NAMAS est la plus convenable. Les moyennes des p@10, F@10 placent la méthode SP devant NAMAL, lui-même devant NAMAS et SPS qui sont devant NAMAR, lui-même devant light et NAMAX et en dernier ISRI. Le SP obtient néanmoins la meilleure moyenne des R-précisions et de MAP devant toutes les autres méthodes. Pour avoir une idée générale en termes de précision et de rappel des résultats obtenus par les huit méthodes, nous traçons la courbe de moyenne des précisions à 11 points de rappel obtenue pour l’ensemble des requêtes. 113 Chapitre V Implémentation et Evaluation Résulats de pertinence 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 Light ISRI SP SPS NAMAR NAMAS NAMAL NAMAX 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Figure V.8 : courbe de moyenne des précisions à 11 points de rappel obtenue pour l’ensemble des requêtes de corpus Echorouk avec la méthode LSI La figure 8 montre que les trois méthodes light, SP et SPS obtiennent des meilleurs scores quand le rappel est inférieur à 20 %.Le NAMAL obtient des meilleurs résultats quand le taux de rappel est entre 20 % et 50 %.La méthode SP est à nouveau obtient des meilleurs résultats quand le taux de rappel est entre 50 % et 90 %,après ce taux les deux méthodes SP et NAMAL ont les même scores. Analysons maintenant les résultats des moyennes de P@10, R@10, F@10, RM-Prec et MAP de trois requêtes obtenus par la méthode LSI sur le corpus Reuters : Méthodes/ Métrique ISRI LIGHT NAMAR NAMAS SP PM@10 RM@10 FM@10 RM-Prec MAP 0.2 0.18 0.17 0.16 0.12 0.2 0.11 0.14 0.16 0.049 0.13 0.14 0.12 0.14 0.09 0.23 0.27 0.23 0.27 0.18 0.16 0.11 0.14 0.15 0.048 SPS NAMAL NAMAX 0.2 0.21 0.21 0.23 0.12 0.16 0.09 0.12 0.15 0.06 0.1 0.08 0.08 0.09 0.06 Tableau V.10 : Performance de la recherche avec la méthode LSI sur le corpus Reuters Le tableau 10 positionne, en termes de toutes les mesures, notre méthode NAMAS en premier devant les autres méthodes. 114 Chapitre V Implémentation et Evaluation Examinons la courbe de moyenne des précisions à 11 points de rappel obtenue pour les trois requêtes sur Reuters : Résulats de pertinence 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 Light ISRI SP SPS NAMAR NAMAS NAMAL 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 NAMAX Figure V.9 : courbe de moyenne des précisions à 11 points de rappel obtenue pour l’ensemble des requêtes de corpus Reuters avec la méthode LSI La figure 9 montre que la méthode NAMAS obtient les meilleurs scores quand le rappel est inférieur à 23 % et quand le taux de rappel est entre 68 % et 83 %.Le NAMAX obtient les meilleurs résultats quand le taux de rappel est entre 23 % et 47 %.la méthode SPS a des meilleurs scores quand le taux de rappel est entre 47% et 68%. Après le taux 83 % la méthode NAMAL obtient les meilleurs scores. V.2. Evaluation de la recherche ad-hoc selon le modèle Uni-gramme : Dans cette implémentation, on a considéré le corpus comme étant un langage des mots, et on a suivi la démarche suivante : Analyser le langage avec l’une des méthodes décrites au-dessus. Construire la matrice des occurrences des mots de langage analysés (corpus analysé). Transférer cette matrice en matrice de probabilité par la formule suivante : Occurrence/ nb.terme Analyser la requête avec la même méthode d’analyse de langage. Calculer la probabilité de pertinence de séquence des termes de requête analysée avec les documents de corpus selon les conditions suivantes : Si un terme de requête analysé appartient à la matrice d’occurrence (terme/document) alors : P (si)=P (si-1)*P (terme/document). 115 Chapitre V Implémentation et Evaluation Sinon : P(si)=0 Trier les probabilités de pertinence pour chaque document par ordre décroissant. Le tableau suivant présente la moyenne de précision, rappel et la F-mesure, ainsi que la moyenne des R-précisions RM- prec et la MAP. La méthode uni-gramme est appliquée pour le corpus Echorouk avec comme base de calcul les dix documents restitués de trois requêtes . Méthodes/ Métrique ISRI LIGHT NAMAR NAMAS SP 0.4 0.49 0.42 0.42 0.38 PM@10 RM@10 FM@10 RM-Prec MAP 0.56 0.66 0.59 0.57 0.55 0.33 0.38 0.34 0.35 0.17 0.5 0.59 0.52 0.53 0.50 SPS NAMAL NAMAX 0.53 0.62 0.55 0.53 0.53 0.46 0.57 0.49 0.49 0.44 0.5 0.59 0.52 0.57 0.49 0.4 0.49 0.42 0.46 0.37 Tableau V.11 : Performance de la recherche avec la méthode uni-gramme sur le corpus Echorouk Discussion : Les résultats obtenus par tous les mesures montre que light est la méthode la plus performante suivi par SP qui lui-même suivi par NAMAS et NAMAL qui lui-même suivi par SPS qui lui-même suivi par ISRI et NAMAX et en dernier la méthode NAMAR. Étudions maintenant la courbe de moyenne des précisions à 11 points de rappel obtenue pour les trois requêtes sur Echorouk avec la méthode uni-gramme : Résulats de pertinence 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 Light ISRI SP SPS NAMAR NAMAS NAMAL NAMAX 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 116 Chapitre V Implémentation et Evaluation Figure V.10 : courbe de moyenne des précisions à 11 points de rappel obtenue pour l’ensemble des requêtes de corpus Echorouk avec la méthode uni-gramme Discussion : La figure montre que les méthodes light, SP et NAMAL obtiennent les meilleurs scores quand le rappel est inférieur à 40 %. Quand le taux de rappel est entre 40 % et 68 % le NAMAL reste la seule méthode qui obtient la meilleure précision. Quand le taux de rappel est entre 70 % et 80 % la méthode NAMAX a des meilleurs scores. Après le taux 83 % la méthode SP obtient les meilleurs scores. Analysons maintenant les résultats des moyennes de P@10, R@10, F@10, RM-Prec et MAP de trois requêtes obtenus par la méthode uni-gramme sur le corpus Reuters : Méthodes/ Métrique ISRI LIGHT NAMAR NAMAS SP PM@10 RM@10 FM@10 RM-Prec MAP 0.56 0.53 0.5 0.56 0.5 0.53 0.5 0.47 0.55 0.5 0.53 0.48 0.46 0.58 0.45 0.53 0.5 0.47 0.55 0.48 0.33 0.17 0.22 0.26 0.17 SPS NAMAL NAMAX 0.53 0.5 0.47 0.54 0.49 0.53 0.5 0.47 0.55 0.48 0.53 0.48 0.46 0.58 0.45 Tableau V.12 : Performance de la recherche avec la méthode uni-gramme sur le corpus Reuters Discussion : Les moyennes des p@10, p@10, F@10 et MAP placent la méthode ISRI en premier devant light et NAMAS. Le NAMAR obtient la meilleure moyenne des R-précisions avec NAMAX devant le reste des méthodes. Étudions maintenant la courbe de moyenne des précisions à 11 points de rappel obtenue pour les trois requêtes sur Reuters avec la méthode uni-gramme : 117 Chapitre V Implémentation et Evaluation Résulats de pertinence 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 Light ISRI SP SPS NAMAR NAMAS NAMAL 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 NAMAX Figure V.11 : courbe de moyenne des précisions à 11 points de rappel obtenue pour l’ensemble des requêtes de corpus Reuters avec la méthode uni-gramme. Discussion : La figure montre que toutes les méthodes obtiennent les mêmes précisions quand le taux de rappel est inferieur de 80 %, ils sont quasi identiques sauf pour la méthode SP qui a des scores faibles. Quand le taux de rappel est supérieur de 80 % la méthode NAMAL a des meilleurs scores. V.3. Evaluation de la recherche ad-hoc selon le modèle Bi-gramme Le tableau suivant présente la moyenne de précision, rappel et la mesure F quand dix documents restitués de trois requête ainsi que la moyenne des R-précisions RM- prec et la MAP avec la méthode bi-gramme sur le corpus Echorouk. Méthodes/ Métrique ISRI LIGHT NAMAR NAMAS SP PM@10 RM@10 FM@10 RM-Prec MAP 0.5 0.55 0.51 0.49 0.5 0.46 0.53 0.48 0.48 0.48 0.5 0.55 0.51 0.49 0.5 0.5 0.55 0.51 0.49 0.5 0.46 0.53 0.48 0.48 0.48 SPS NAMAL NAMAX 0.5 0.55 0.51 0.49 0.5 0.5 0.55 0.51 0.49 0.51 0.5 0.55 0.51 0.49 0.5 Tableau V.13 : Performance de la recherche avec la méthode bi-gramme sur le corpus Echorouk 118 Chapitre V Implémentation et Evaluation Discussion : Les résultats obtenus par tous les mesures montre que NAMAL est la méthode la plus performante suivi par NAMAS, NAMAR , NAMAX, SPS et ISRI qui ont suivi par Light et SP . Étudions maintenant la courbe de moyenne des précisions à 11 points de rappel obtenue pour les trois requêtes sur Echorouk avec la méthode bi-gramme : Résulats de pertinence 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 Light ISRI SP SPS NAMAR NAMAS NAMAL 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 NAMAX Figure V.12 : courbe de moyenne des précisions à 11 points de rappel obtenue pour l’ensemble des requêtes de corpus Echorouk avec la méthode bi-gramme Discussion : Les résultats de précisions obtenus par tous les méthodes deviennent quasi identiques lorsque le nombre des documents restitués augmente. Analysons maintenant les résultats des moyennes de P@10, R@10, F@10, RM-Prec et MAP de trois requêtes obtenus par la méthode bi-gramme sur le corpus Reuters : Méthodes/ Métrique ISRI LIGHT NAMAR NAMAS SP PM@10 RM@10 FM@10 RM-Prec MAP 0.3 0.38 0.31 0.38 0.37 0.3 0.38 0.31 0.38 0.37 0.3 0.38 0.31 0.33 0.36 0.3 0.38 0.31 0.33 0.36 0.1 0.05 0.06 0.05 0.04 SPS NAMAL NAMAX 0.3 0.38 0.31 0.38 0.37 0.3 0.38 0.31 0.33 0.36 0.3 0.38 0.31 0.33 0.36 Tableau V.14 : Performance de la recherche RI avec la méthode bi-gramme sur le corpus Reuters 119 Chapitre V Implémentation et Evaluation Discussion : Le tableau 14 montre que toutes les méthodes sauf SP ont des résultats identiques selon les mesures PM@10 et RM@10,mais pour les deux autres mesures RM-Prec et MAP ont donnent la supériorité aux méthodes Light, SPS et ISRI. Étudions maintenant la courbe de moyenne des précisions à 11 points de rappel obtenue pour les trois requêtes sur Reuters avec la méthode bi-gramme : Résulats de pertinence 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 Light ISRI SP SPS NAMAR NAMAS NAMAL NAMAX 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Figure V.13 : courbe de moyenne des précisions à 11 points de rappel obtenue pour l’ensemble des requêtes de corpus Reuteurs avec la méthode bi-gramme Les résultats de précisions obtenus par tous les méthodes deviennent quasi identiques lorsque les valeurs de rappel augmentent sauf la méthode SP qui a des scores inferieurs. VI. Analyse sur l’efficacité des analyseurs dans l’indexation en RI : En récapitulant les différents résultats de nos expérimentation sur la performance de chaque analyseur dans l’indexation en RI, il est intéressant de noter les faits suivant : Bien que la méthode NAMAR était la meilleure pour produire les racines correctes, son efficacité diminue dans l’indexation en RI. La racine, qui fait perdre la richesse sémantique du mot, paraît moins significative par rapport au simple stem qui garde, plus ou moins, la discrimination sémantique ; par exemple les deux mots (l’Algérie اٌغضائش, اٌغضسle carotte) ont 120 Chapitre V Implémentation et Evaluation la même racine ()عضس, Par contre leurs stems successivement sont ( )عضس عضائش, cela permet d’entrer deux mots à la matrice d’occurrences et non seulement un. Avec le modèle des bi-grammes, la performance de la recherche est significative pour les requête contenant des termes fortement liés comme pour les deux premières : « خ١» اٌٍغخ اٌؼشث pour le corpus Echorouk, et la requête « ٟ » اٌّغشة اٌؼشثpour le corpus Reuters. On a trouvé tous les documents avec une R-précision égale à 1 avec toutes les méthodes d’analyse. La méthode d’analyse NAMAL a donné des bons résultats avec toutes les méthodes d’indexation et cela signifie que l’indexation par lemme convient globalement pour les modèles de recherche d’information. La combinaison de la méthode LSI avec la méthode d’analyse NAMAS, les performances étaient significativement améliorées. Ceci montre que NAMAS donne des stems adéquats pour la recherche d’information basée sur la sémantique latente. La méthode d’indexation sémantique latente LSI a donné des résultats encourageants dans les deux corpus Echorouk et Reuters et pour les trois requêtes. Ceci peut être expliqué par son aptitude à capturer, en même temps, la sémantique et la morphologie des mots. Les méthodes n-grammes manipulent uniquement la morphologie issue de l’analyseur en prétraitement. Par comparaison entre les résultats des tests de ces méthodes d’indexation, on peut dire que la méthode la plus efficace pour l’indexation sémantique dans notre étude est LSI. Il faut souligner, que la dimension de la matrice d’occurrences (nombre des termes) dépend plutôt de la méthode d’analyse morphologique, et non pas du modèle d’indexation en RI. Cette dimension va être réduite dans le modèle LSI selon un paramètre K de la méthode SVD. VII. Conclusion Toutes les méthodes d’analyse morphologique arabe procèdent par la suppression d’un grand nombre de préfixes et suffixes. Chacune utilise ses propres listes et sa propre procédure de suppression. Bien que ces listes ont une influence imminente sur la sortie finale, mais reste la façon du traitement aussi décisive même avec des listes identiques. Les méthodes d’analyse morphologique basés sur les dictionnaires sont les méthodes les plus adaptées et les plus conformes pour tous les changements morphologiques des mots arabes. Néanmoins, le coût de réalisation reste élevé et leur exécution prend une charge CPU 121 Chapitre V Implémentation et Evaluation plus importante. Par contre, les méthodes de lemmatisation assouplie ou light-stemming sont plus simples à réaliser et leur temps de réponse, lors de la mise en œuvre, est plus rapide. Les méthodes d’analyse les plus efficaces pour la recherche d’informations sont les méthodes qui sont basées sur l’extraction des stems (light, NAMAS). Avec le modèle LSI, cette efficacité est plus significative. Par ailleurs, l’indexation par lemme (NAMAL) est plus robuste et donne presque les meilleures performances pour tous les modèles d’indexation appliqués dans cette étude. 122 Conclusion Générale Conclusion générale Pour la recherche d’information documentaire, les techniques de traitement automatique des langues naturelles sont requises dans le processus d’indexation et d’analyse des requêtes des utilisateurs. L’objectif, de répondre au besoin en information de l’utilisateur, peut être réalisé par la prise en charge de la sémantique dans les modèles de représentation et d’indexation des textes. Les méthodes d’analyse morphologique des langues hautement dérivationnelles et flexionnelles représentent l’approche linguistique pour une recherche d’information efficace. Le présent travail s’intéresse à l’étude des méthodes de traitement automatique de la morphologie arabe et leur efficacité dans l’indexation sémantique des textes arabes non structurés. Nous avons conçu et implémenté un Nouvel Analyseur Morphologique Arabe (NAMA). Un dictionnaire arabe a été construit est intégré. L’algorithme propose quatre types de sortie (stem, racine, lemme et lexème). D’autre analyseurs ont été implémentées et expérimentées. Par ailleurs, trois modèles d’indexation en RI (uni-gramme, bi-gramme et LSI) ont été implémentés et appliqués pour la recherche ad-hoc dans deux corpus arabes. Notre étude montre que pour la tâche de recherche d’information ad-hoc, les méthodes d’analyse du texte arabe basées sur l’extraction des stems sont les plus appropriés. Leur efficacité est plus significative avec les modèles de sémantique latente. Par ailleurs, et bien qu’elle soit plus coûteuse, l’indexation par lemme reste plus robuste et donne des performances équivalentes pour la plupart des modèles d’indexation en RI. Les lemmatiseurs à base de dictionnaires sont plus sollicités dans les tâches plus complexes de traitement automatique de la langue naturelle telles que le résumé et la traduction automatiques. Comme perspective, on suggère d’améliorer notre analyseur morphologique NAMA à base de dictionnaires par l’insertion de niveau sémantique en indiquant les synonymes, les opposés et les polysémies. Ceci est essentiel pour améliorer le niveau de traitement automatique de la langue arabe et faciliter l’apprentissage dans un contexte didacticiel. Pour la recherche d’information, il est faut extraire des règles linguistiques arabes robustes pour l’extraction de stem et améliorer les listes des préfixes et suffixes ainsi que le processus de traitement de ces listes. La prise en charge des entités nommées (personnes, endroits, …) peut aussi améliorer la qualité de l’analyse morphologique et, par conséquent, améliorer les résultats de recherche. Bibliographies Bibliographie : [Bou, 08] : Siham Boulaknadel, "Traitement Automatique des Langues et Recherche d’Information en langue arabe dans un domaine de spécialité : Apport des connaissances morphologiques et syntaxiques pour l'indexation ", thèse de Doctorat présenté en 18 Octobre 2008, Laboratoire: LABORATOIRE D'INFORMATIQUE DE NANTES ATLANTIQUE. [Khe, 06] : Aïda KHEMAKHEM,"ArabicLDB : une base lexicale normalisée pour la langue arabe" mémoire présenté en vue de l’obtention du diplôme de MASTER en Systèmes d’Information et Nouvelles Technologies en 2 Novembre 2006, Université de Sfax, Faculté des Sciences Economique et de Gestion, Tunisie. [You, 08] : Atef Ben Youssef," Méthodes Mixtes pour la Traduction Automatique Statistique " mémoire présenté en vue de l’obtention du diplôme de MASTER 2 en Modélisation et traitements automatique en Industries De la Langue : parole, écrit, apprentissage Orientation Recherche en 01 juillet 2008, Université STENDHALGrenoble3, Laboratoire d’informatique de Grenoble Équipe GETALP. [Mes ,08] : Slim MESFAR, " Analyse Morpho-Syntaxique Automatique et Reconnaissance des entités nommées En Arabe Standard", thèse de Doctorat présenté en 24 Novembre 2008, Université De Franche-Comté. [Dou, 04] : Fouad Soufiane Douzidia, " Résumé automatique de texte arabe" ,Mémoire présenté à la Faculté des études supérieures en vue de l’obtention du grade de M.Scen informatique en Septembre 2004,Université de Montréal. [Zag, 09] : Wajdi Zaghouani," Le repérage automatique des entités nommées dans la langue arabe : vers la création d'un système à base de règles", Mémoire présenté à la Faculté des études supérieures en vue de l’obtention du grade de M.A. en linguistique en Mars 2008, Université de Montréal. [Kas, 05] : Dina EL KASSAS, " UNE ETUDE CONTRASTIVE DE L’ARABE ET DU FRANÇAIS DANS UNE PERSPECTIVE DE GENERATION MULTILINGUE ", thèse de Doctorat présenté en soutenue le 16 décembre 2005. UNIVERSITE PARIS 7 – DENIS DIDEROT, UFR Linguistique. [Ben, 10] : Mohamed Benitto, "LES RELATIONS RACIALES EN GRANDE- BRETAGNE : LA COMMUNAUTE ARABE DE LONDRES ET LA QUESTION INTERCULTURELLE (2001-2008)" thèse de Doctorat présenté en 12 Novembre 2010,Discipline : Etudes Anglophones. [Mes ,08] : Slim MESFAR, " Analyse Morpho-Syntaxique Automatique et Reconnaissance des entités nommées En Arabe Standard", thèse de Doctorat présenté en 24 Novembre 2008, Université De Franche-Comté. [kad, 08]: Kadri Youssef, « Recherche d'Information Translinguistique sur les Documents en Arabe », Thèse présentée à la Faculté des études supérieures en vue de l'obtention du grade de Philosophiæ Doctor (Ph.D.) en informatique, Département d’informatique et de recherche opérationnelle Faculté des arts et des sciences, Université de Montréal, présenté au Septembre, 2008. [Bou, 08] : Siham Boulaknadel, "Traitement Automatique des Langues et Recherche d’Information en langue arabe dans un domaine de spécialité : Apport des connaissances morphologiques et syntaxiques pour l'indexation ", thèse de Doctorat présenté en 18 Octobre 2008, Laboratoire: LABORATOIRE D'INFORMATIQUE DE NANTES ATLANTIQUE. [Kad et al, 06]: Kadri Youssef, & Jian-Yun Nie, « Effective Stemming for Arabic Information Retrieval ». Le Challenge de l’Arabie pour NLP/MT, International Conf. at the British Computer Society (BCS), pp. 68-74, London, UK, publier en 2006. [Lark et al, 02]: Larkey, L. S., Ballesteros, L., & Connell, M. E, « Improving stemming for Arabic information retrieval: Light stemming and co-occurrence analysis ». En Proceedings de SIGIR 2002, pp. 275-282, Tampere, Finlande, publier en 2002. [Che et al, 03]: Aitao Chen, Fredric Gey, « Building an Arabic Stemmer for Information Retrieval » l’école des systèmes de management d’information, Université de Californie au Berkeley, USA, publier en 2003. [Kaz et al, 03]: Kazem Taghva, Rania Elkhoury, JeÌrey Coombs, « Arabic Stemming Without A Root Dictionary », institut de recherché d’information des sciences, Université de Nevada, Las Vegas, USA. [Hay et al, 05]: Hayder K. Al Ameed, Shaikha O. Al Ketbi, Amna A. Al Kaabi, Khadija S. Al Shebli,Naila F. Al Shamsi, Noura H. Al Nuaimi, Shaikha S. Al Muhairi, «ARABIC LIGHT STEMMER: ANEW ENHANCED APPROACH»,département d’informatique College of Technologie d’Information, UAE Université ,Al-Ain, UAE, article publier pour le 2eme conférence international sur l’innovation de la technologie d’information en 2005. [ROEK et al, 05]: Anne N. DE ROECK, Waleed AL-FARES, « A Morphologically Sensitive Clustering Algorithm for Identifying Arabic Roots». [Lar et al, 06]: Larkey L. S., Ballesteros, L, & Connell, M. E « Light Stemming for Arabic Information Retrieval Center for Intelligent Information Retrieval and in part by SPAWARSYSCENSD ». [Lar et al, 03]: Larkey Leah S, Margaret E. Connell, « Arabic Information Retrieval at UMass in TREC-10 Centre de recherché d’information Département de l’informatique, Université de Massachusetts ». [Dic et al, 08]: Joseph Dichy, Ramzi Abbès, « Extraction automatique de fréquences lexicales en arabe et analyse d’un corpus journalistique avec le logiciel AraConc et la base de connaissances DIINAR.1», Université Lumière Lyon 2, ICAR-CNRS JADT 2008 : 9eme Journées internationales d’Analyse statistique des Données Textuelles. [Bra et al, 11]: Abderrezak Brahmi, Ahmed Ech-Cherif, Abdelkader Benyettou, « Arabic texts analysis for topic modeling evaluation », Department d’Informatique, USTO, publier en Springer le 23 May 2011. [Kho et al, 01]: Shreen Khoja, Porger Garside, and Gerry Knowles « A tagset for the morphosynactic tagging of Arabic ».Article présenté en corpus linguistique 2001, Université de Lancaster, UK, Mars 2001. [Mou et al, 08] : Mourad Mars, Georges Antoniadis, Mounir Zrigui « NOUVELLES RESSOURCES ET NOUVELLES PRATIQUES PEDAGOGIQUES AVEC LES OUTILS » TAL : 2008. [Kho et al, 01]: Shreen Khoja, «APT: Arabic Part-of-speech Tagger ». Université de Carnegie Mellon, Pittsburgh, Pennsylvania, Juin 2001. [Sha et al, 98]: Riyad AI-Shalabi, « A Computational Morphology System for Arabic » Martha Evens, département d’informatique et application mathématique, Institut d’Illinois de Technologie Chicago. [Pai, 94] : Chris D. Paice, « An Evaluation Method for Stemming Algorithms» ; Département d’Informatique, Université de Bailrigg, Lancaster, Le royaume unie, 1994. [Sham et al, 08]: Eiman Tamah Al-Shammari, Jessica Lin, Ph.D. « Towards an Error-Free Arabic Stemming»,iNEWS’08, October 30, 2008, Napa Valley, California, USA [Jal et al, 02]: Radwan Jalam, Jean-Hugues Chauchat, «Pourquoi les n-grammes permettent de classer des textes?Recherche de mots-clefs pertinents à l’aide des n-grammes caractéristiques », Laboratoire ERIC, Université de lyon2, France. [Cat ,10] : Catherine Roussey, "Une méthode d'indexation sémantique adaptée aux corpus multilingues ", thèse de Doctorat présenté en 10 décembre 2010, Laboratoire d'Ingénierie des Systèmes d'Information (LISI) de l'INSA de Lyon. [Zar ,10] : Haïfa Zargayouna, "Indexation sémantique de documents XML", thèse Doctorat de présenté en 15 Décembre 2005, Université Paris XI. [Dom, 11] : Domingos Ruiz Lepores, "Des grandes classifications au Web de données et l’émergence de l’indexation sémantique: le cas du tagging sémantique dans le portail», mémoire présenté pour obtenir le Titre professionnel "Chef de projet en ingénierie documentaire" INTD niveau I en 8 décembre 2011, École Management et Société- Département CITS, INTD. [Elg,04] : Haytham Elghazel, "Approches textuelles pour la recherche d’images ", mémoire présenté en vue d’obtention de Diplôme d’Etudes Approfondies en 6 juillet 2004, L’Institut Nationale des Sciences Appliquées de Lyon. [GAS,10] : GASMI Mounira, " Utilisation des ontologies pour l’indexation automatique des sites Web en Arabe ", Mémoire Présenté pour l’obtention du diplôme de MAGISTER en 27 mai 2009 ,Spécialité : Informatique, UNIVERSITE KASDI MERBAH OUARGLA. [DEN, 03] : Alina IVANCIUC DENIAU, " Moteurs de recherche et restitution de l’information dans les grandes entreprises : ", mémoire DESS EN SCIENCES DE L’INFORMATION présenté en vue d’obtention LE ET DE LA DOCUMENTATION SPÉCIALISÉES en 25 novembre 2003. [TAR, 05] : Gaëlle LE TARGAT, " Langages classificatoires et recherche d’information sur les portails d’entreprise : quels apports pour les utilisateurs ? ", mémoire présenté en vue d’obtention DESS en Sciences de l’information et de la documentation spécialisées en 13 Octobre 2005. [Fat, 08] : Fatiha BOUBEKEUR-AMIROUCHE "Contribution à la définition de modèles de recherche d'information flexibles basés sur les CP-Nets", thèse de Doctorat présenté en 01/ 07/ 2008, spécialité : Informatique, Université Toulouse III - Paul Sabatier. [HAR, 09] : Farah HARRATHI "Extraction de concepts et de relations entre concepts à partir des documents multilingues : Approche statistique et ontologique ", thèse de Doctorat présenté en 28 Septembre 2009, Institut Nationale des Sciences Appliquées de Lyon. [RAJ et al] : Martin RAJMAN, Romaric BESANÇON,Jean-Cédric CHAPPELIER, " LE MODÈLE DSIR: UNE APPROCHE À BASE DE SÉMANTIQUE DISTRIBUTIONNELLE POUR LA RECHERCHE DOCUMENTAIRE" ,Article de Laboratoire d’Intelligence Artificielle, Département Informatique, École Polytechnique Fédérale de Lausanne. [Mic et al ,10] : Michèle Hudon, Widad Mustapha El Hadi, " ORGANISATION DES CONNAISSANCES ET DES RESSOURCES DOCUMENTAIRES ".Article publier en 2010 à paris. [Mus, 05] : Mustapha El Hadi Widad, " INDEXATION HUMAINE ET INDEXATION AUTOMATISÉE : LA PLACE DU TERME ET DE SON ENVIRONNEMENT ".Article publier de Lille 3, France, en 2005. [Boug et al, 03] : Mohand Boughanem, Wessel Kraaij , Jian-Yun Nie , " Modèles de langue pour la recherche d’information ".Article publier en 2003. [Buc, 02] :Tim BUCKWALTER," Buckwalter Arabic Morphological Analyzer Version 1.0. " , le numéro de catalogue est LDC2002L49. Rapport interne ISBN 1-58563-257-0 en 2002. [Web1] :http://fr.wikipedia.org/wiki/Arabe.Dernière modification de cette page le 29 juin 2011 à 18:23, consulté le 1 juillet 2011. [Web 2]: http://www.lesitedeslangues.com/apprendre_larabe/histoire_de_larabe.htm, consulté le 1 juillet 2011. [Web 3]: http://www.agoravox.fr/actualites/religions/article/la-langue-arabe-son-histoire- son-77459 Dernière modification de cette page le 25 juin 2011, consulté le 1 juillet 2011. [Web 4]: http://www.les-hiboux.rasama.org/langue-arabe.html, Dernière modification le samedi 24 avril 2010 consulté le 1 juillet 2011. [Web 1] :www.wikipidia.com,consulter en 12/11/2011. [Web 2] :www.Sakhr.com , consulter en 14/12/2011. Les références arabes : [Gla, 07] : Mostapha Al-Glayini, ""جامع انذروس انعزبية Lebanon. , livre édité en 2007 en Bierut, ّ "شذا انعزف في, livre publié en 17 décembre 2005. [Ham, 05] : Ahmed Al-hamlawi, "فن انصّزف [Kha et al, 10]: Khalil El-Basri, «»بزنامج انخهيم انصّزفي دنيم االستعمال,2010. [Bra et al, 11]: Abderrezak Brahmi, Ahmed Ech-Cherif, Abdelkader Benyettou, « » تحهيم انذالالت انكامنة في اننصوص انعزبية بواسطة انتحهيم انصزفي و اننمذجة بانمواضيع, Département d’Informatique, USTO, 2011. [Saw et al,08]: Majdi Sawalha, Eric Atwell, « » توظيف قواعذ اننحو وانصزف في بناء محهم نهغة انعزبية, Université de Leeds,UK. Résumé Le traitement automatique de la langue arabe est un domaine très vaste dans le cadre de l’évaluation des méthodes de recherche d’information et du TextMining, il consiste à traiter les niveaux morphologiques, syntaxiques, phonologiques et lexicaux . Avec le peu des travaux dans le domaine, il s’avère primordial de disposer d’outils d’analyse efficaces afin de promouvoir les travaux de recherche en arabe sur le Web. Dans un langage à haute morphologie dérivationnelle telle que l’arabe, la détection des unités lexicales dans un texte électronique n’est guère une tâche triviale. Certaines méthodes de stemming, par simple troncature des affixes ou par extraction des racines plus abstraites, ont été développées et validées pour des tâches classiques de la recherche d’informations (catégorisation, clustering, ordonnancement, …etc.). Toutefois, ces techniques de stemming risquent d’induire une caractérisation ambiguë du texte arabe pour des modèles à base d’indexation sémantique. Par ailleurs, l’analyse morphologique s’appuie sur des ressources linguistiques combinant un vocabulaire prédéfini, des schémas de construction et des règles strictes de dérivation, cependant, la non-disponibilité libre de telles ressources reste une entrave majeure devant le développement des modèles sémantiques pour le texte arabe. L’objectif de ce projet est d’élaborer une étude comparative des différentes approches de stemming et d’étudier la faisabilité d’utiliser l’une ou l’autre pour les modèles d’indexation sémantique des textes arabes. Il s’agit aussi de développer un analyseur morphologique pour l’extraction des racines et des lemmes arabes et de l’évaluer sur des corpus textuels réels. Mots clés : Arabe, Recherche d’Information, Indexation Sémantique, Analyse Morphologique, lemmatisation. Abstract : Automatic analysis of Arabic text is an essential step in information retrieval; it is based on several methods of morphological analysis, among them: stemming methods and morphological analysis based dictionaries methods. In this work we develop a new Arabic morphological analyzer based on dictionaries by adding a large numbers of prefixes and suffixes. We attempt to extract the accuracy semantic roots, stems, lexemes and lemmas of Arabic words. This method is compared with four different stemming approaches: Light stemming of Larkey which truncates a word by simple rules, Khoja analyzer, Arabic Stemming without a root dictionary and Light stemming ANEA : a new enhanced approach. Keywords: Morphological Analyzer, Arabic Language, dictionaries, Stemming.