PériCulture2 : utilisation du péritexte pour l`indexation
Transcription
PériCulture2 : utilisation du péritexte pour l`indexation
Élaine Ménard Lyne Da Sylva James M Turner École de bibliothéconomie et des sciences de l’information, Université de Montréal, C.P. 6128, succ. Centre -ville, Montréal (QC) H3C 3J7 PériCulture2 : utilisation du péritexte pour l’indexation automatique des objets multimédias Abstract: This paper presents the results of the project PériCulture2. The main goal of this project is to study indexing methods for Web-based non-textual cultural content. The results give an idea of the quality of the automatic indexing obtained using the ancillary text associated with multimedia objects, specifically video and sound. Résumé : Cette communication présente les résultats du projet PériCulture2, dont le principal objectif est d’étudier les méthodes d’indexation du contenu numérique non textuel à caractère culturel en environnement réseauté. Les résultats permettent d’estimer la qualité de l’indexation automatique obtenue à l’aide du péritexte des objets multimédias, plus particulièrement vidéo et son. 1. Énoncé du problème Depuis quelques années, on assiste à une explosion de l’information, générée par l’avènement du web. Cet essor extraordinaire véhicule de nouveaux problèmes auxquels la recherche d’information n’a jamais vraiment été confrontée : collections gigantesques, dynamiques et changeantes de documents, surabondance sans précédent de l’information mais surtout, développement de bases de données et de collections composées de différents types de documents textuels ou multimédias, ce qui complexifie également le processus d’indexation et de repérage. Le terme « multimédia » désigne toute application utilisant au moins un média spécifique. L’objet multimédia peut se définir comme un ensemble d'informations pouvant être inséré dans un autre document et manipulé au moyen de ses propriétés multimédias (textuelles, visuelles et sonores). Pour le présent projet, l’image fixe, qui fait également partie des objets multimédias, n’a pas été prise en considération puisque ce type de document a déjà fait l’objet d’une recherche antérieure (Da Sylva et Turner, sous presse) Le repérage des objets dans les collections multimédias ne se fait pas de la même façon que le repérage de documents textuels. Ainsi, certains éléments du repérage tels que la manière dont les requêtes sont formulées, la méthode utilisée pour le repérage, la manière dont la pertinence est évaluée, la participation de l’utilisateur au processus de recherche et les différences cognitives fondamentales d’interprétation du matériel visuel ou sonore se distinguent de la recherche textuelle proprement dite. Jusqu’à maintenant, peu d’études ont examiné le processus de repérage de l’objet multimédia (Jansen, Goodrum et Spink, 2000; Goodrum et Spink, 2001; Spink et Jansen, 2004). Ce qui ressort de ces travaux de recherche est que, d’une part, les requêtes multimédias sont généralement exprimées avec davantage de mots clés que les requêtes habituelles conduites sur le web. D’autre part, en général, les requêtes pour des fichiers sonores sur le web sont plus fréquentes que les requêtes pour des images ou des fichiers vidéo (Spink et Jansen, 2004). Le processus d’indexation de l’objet multimédia doit s’adapter à cette nouvelle réalité. En effet, devant la surabondance d’objets multimédias maintenant disponibles sur le web, il devient nécessaire d’élaborer et de construire des mécanismes donnant la possibilité d'extraire rapidement et efficacement le contenu sémantique d'un document donné. L’approche d’indexation automatique semble donc tout à fait indiquée pour remplir cette mission. Au cours des dernières décennies, l’indexation automatique a fait l’objet de multiples études. Ce type d’indexation, malgré la promesse d’un avenir glorieux, a connu sa part de problèmes et n’est toujours pas pleinement fonctionnel. En raison de ses faiblesses évidentes, il faut admettre que l’approche automatique remplace difficilement l’humain pour la tâche d’indexation, mais elle permet tout de même d’économiser du temps. En outre, ce type d’indexation est intéressant en raison des coûts élevés et de la subjectivité associés inévitablement à l’indexation humaine. Le projet PériCulture2 1 visait à étudier l’information multimédia numérique à caractère culturel en environnement réseauté. Son objectif était de proposer et développer des stratégies de description de contenu culturel canadien multimédia sur le web, en s’appuyant sur les ressources textuelles présentes sur les pages web (appelé dorénavant le péritexte). Notre hypothèse de recherche était la suivante : que le texte se trouvant en périphérie (péritexte) d’un objet multimédia peut être utilisé pour l’attribution automatique de descripteurs aux objets multimédias contenus dans les pages web. L’algorithme d’indexation élaboré pour cette recherche utilise donc le péritexte, constitué du texte significatif se trouvant en périphérie d’un lien pointant vers un objet multimédia. Le texte apparaissant à la figure 1 donne un parfait d’exemple de péritexte pouvant être utilisé pour l’indexation automatique de l’objet multimédia 2 . Figure 1 - Exemple de péritexte pouvant être utilisé pour l'indexation En effet, je film porte sur la navire Bluenose et la dernière course qui l’opposa au Gertrude L. Thebaud. On trouve dans le voisinage du fichier MPEG les expressions Bluenose, Gertrude L. Thebaud, voilier, équipage, etc. qui seront indexées par le robot et pourront être utilisées efficacement pour la recherche éventuelle de l’objet multimédia. Toutefois, le cas d’autres objets multimédias semble un peu plus problématique, comme on peut le voir à la figure 2, où le péritexte n’offre que très peu d’informations utiles pour 2 une indexation de qualité3 . La page web contient plusieurs extraits d’entrevues données par Céline Dion et Franco Dragone au sujet du spectacle A New Day. Pour les objets multimédias dans cette page, le péritexte ne décrit pas vraiment les objets à visionner (Céline parle du spectacle A New Day… et de ce grand rêve enfin devenu réalité), ni les propos tenus par la chanteuse ou le metteur en scène lors de leurs entrevues respectives. À part le nom du spectacle, aucun des détails exprimés dans la vidéo n’est mentionné explicitement sur la page à la figure 2. De plus, on remarque dans la périphérie des objets multimédias des informations techniques (par exemple : Format : WindowsMedia Connexion Internet: Haute | Lente) qui seront également indexées par le robot et qui n’ont que peu d’intérêt pour la recherche de ces objets multimédias. Figure 2 - Exemple de péritexte pouvant difficilement servir pour l’indexation Devant ce deuxième exemple, on peut se demander s’il convient d’utiliser un algorithme d’extraction de mots du péritexte pour effectuer l’indexation des objets multimédias. Il semble pourtant évident, en général, que le texte entourant les objets multimédias renferme un contexte d’une valeur inestimable où le robot collecteur peut puiser les informations nécessaires à la description des objets, puisque les pages web d’où ces objets proviennent contiennent, dans la majorité des cas, du texte décrivant d’une manière quelconque ce que les individus peuvent voir et/ou entendre en cliquant sur le lien associé aux objets multimédias. De plus, le principal avantage pouvant être associé à ce type d’indexation est le fait que le robot utilisera, en principe, la même terminologie utilisée dans un fichier vidéo par exemple. C’est le cas lorsque le texte périphérique contient la transcription du texte que l’on peut entendre dans un fichier vidéo (voir figure 1). Nous faisons donc l’hypothèse que cette information riche se trouvant à l’intérieur même des pages web, dans les légendes, les titres et de nombreuses balises HTML, devrait pouvoir être utilisée pour améliorer le repérage des objets multimédias. Le projet PériCulture2 comportait un nombre de sous-projets, dont certains sont esquissés dans la méthodologie, ci-dessous, et dont les objectifs étaient les suivants : 1. Identifier un corpus de sites web contenant du contenu culturel canadien en termes de vidéo et/ou de son 2. Étudier la terminologie utilisée dans ces pages web afin de mieux comprendre le vocabulaire appartenant au péritexte des objets multimédia. 3 3. Identifier des ressources lexicales et terminologiques qui pourraient être utilisées pour décrire le contenu de ces pages web (ressources bilingues si possible). 4. Analyser le contenu textuel des pages web afin d’identifier les meilleures sources de péritexte pour indexer les objets multimédia. 5. Sur la base des résultats précédents, développer un algorithme d’extraction automatique du péritexte des pages web pour l’utiliser dans l’indexation des objets. 6. Développer, si nécessaire, un thésaurus adapté à notre collection pour combler les lacunes de l’indexation automatique. 7. Évaluer l’utilité de l’indexation automatique, en la comparant à une indexation humaine. Le présent article porte sur le sous-projet 7, soit la comparaison des résultats obtenus par les deux types d’indexation. 2. Objectifs de l’étude Deux objectifs ont été définis pour cette recherche : 1. Établir des critères de comparaison entre une indexation humaine avec l’indexation automatique 2. Émettre un diagnostic relativement au succès de l’approche La réalisation de ces objectifs a permis de se faire une idée de la qualité de l’indexation automatique obtenue à l’aide du péritexte des objets multimédias. Ces informations sont d’une grande valeur pour l’amélioration du processus d’indexation automatique. Finalement, ce projet de recherche a permis le développement éventuel de nouvelles technologies de gestion de l'information multimédia. 3. Méthodologie 3.1 Travaux préalables Des étapes préalables à cette évaluation ont été d’une part de constituer un corpus de pages web contenant des objets multimédias, et d’autre part de développer un prototype d’indexation automatique. Étant donné le contexte de cette recherche, nous avons circonscrit le champ de notre étude aux objets multimédias numériques à caractère culturel canadien. Nous avons considéré comme outils utilisables les sources d’objets multimédias qui répondaient à ces critères. Par sources d’objets multimédias, nous entendons toute page web qui comprend un ou des objets multimédias ou encore un ou des lien(s) directs vers des objets multimédias. Nous nous sommes assurés que les sources utilisées avaient un lien direct avec le Canada, que ce soit par une commandite, un thème, un lieu, une personnalité, etc. Le caractère culturel comprend des thèmes très larges tels l’histoire, le patrimoine, l’art (musique, peinture, etc.), etc. Ce sont les critères thématiques. Pour ce qui est des critères formels, nous avons recherché des objets numériques en environnement réseauté (accessibles en ligne), représentés par des éléments vidéo et/ou son, appelés ici objets multimédias (OMs). Nous avons conservé uniquement les sources d’OMs dont le codage et le contenu étaient en HTML, sans Flash, cadres ou Javascript; ils devaient de plus contenir un minimum de texte significatif (plus que simplement un titre) pouvant être considéré du péritexte. Nous avons gardé uniquement les sites bilingues (anglais-français) puisque nous nous intéressons à la question de sites bilingues et multilingues. Un total de 10 283 objets multimédias a initialement été recensé pendant l’été 2005 par trois assistants de recherche, parmi lesquels nous avons fait une sélection pour limiter le travail d’analyse. Nous avons ainsi identifié 454 pages web (227 dans 4 chaque langue) contenant au moins un OM chacun. Pour un sous-ensemble de ces derniers, nous avons lancé en parallèle deux opérations : l’indexation manuelle et l’indexation automatique, à l’aide d’un prototype de robot collecteur développé dans le cadre du projet. Les détails de chaque type d’indexation sont donnés ci-dessous. 3.2 L’étape d’évaluation Afin de rencontrer les objectifs susmentionnés, les trois questions de recherche suivantes ont été formulées : • Question 1 : Comment un indexeur humain décrirait- il les objets multimédias à l’étude ? • Question 2 : En quoi les termes produits par chacun des deux types d’indexation correspondent-ils ? En quoi sont- ils différents ? • Question 3 : Quelles leçons peut-on en tirer pour l’exploitation plus efficace des termes extraits automatiquement du péritexte ? Afin de répondre à ces questions de recherche, nous avons circonscrit un nombre d’OMs qui seraient soumis à l’indexation humaine et dont les résultats seraient comparés à ceux de l’indexation automatique. Un ensemble de critères (quantitatifs et qualitatifs) ont été définis pour répondre à la question 2. La première tâche a été de délimiter l’ensemble d’OMs soumis à la comparaison. Étant donné la difficulté pour un indexeur francophone d’indexer des OMs dont le contenu est en anglais et, surtout, la période limitée de temps alloué pour l’indexation humaine, il n’était pas possible de procéder à l’indexation humaine de tous les OMs recensés. Il a donc été décidé que tous les OMs français seraient indexés de manière humaine, c’est-àdire un total de 498 OMs. Lors de l’indexation humaine, il a parfois été impossible d’accéder au contenu de certains OMs (certains liens étant défectueux au moment de l'accès); ces objets ont été exclus de l’évaluation. De plus, un certain nombre d’OMs ont été indexés, mais ensuite éliminés du fichier d’évaluation car il s’agissait de doublons (même contenu d’un objet multimédia, donc même termes d’indexation). Le nombre total d’OMs dont l’indexation humaine et automatique a été comparée est finalement de 370. Les OMs ont également été indexés de manière automatique à l’aide du robot d’indexation. Ce robot se servait du péritexte pour extraire les termes d’indexation. D’abord, le robot extrait tout le péritexte d’un OM. Ce texte se compose du titre du document, du texte du lien qui mène vers l’OM, du texte adjacent et du titre précédent (c’est-à-dire, le contenu de la dernière balise HTML <h1>, ou <h2>, etc. avant l’objet multimédia). Le texte adjacent est celui qui se trouve immédiatement à droite et à gauche de l’OM. La limite est donnée par des bornes présentes dans le code HTML du document telles que <p>, <form>, <hr> et <a href=…>, etc. Ces balises indiquent une rupture dans le texte. La précision du péritexte correspond au nombre de balises franchies par le robot. Ainsi, pour une précision de niveau 1, on cherche un paragraphe à droite et à gauche, pour une précision de niveau 2, on cherche deux paragraphes à droite et deux à gauche de l’OM. Chaque OM a été analysé par le robot collecteur pour extraire les groupes nominaux contenus dans le péritexte. Tous les termes d’indexation ont ensuite été normalisés, c’està-dire que chacun des mots a été ramené à une forme singulier (masculin pour les adjectifs; infinitif pour les verbes). Il y a donc lemmatisation, et aussi une transformation pour les expressions complexes. En effet, les articles ont été retirés des expressions alors que certaines combinaisons (préposition + article) ont été transformées lors de l’indexation. Par exemple, l’expression « compagnons d’arme » devient « compagnon de le arme ». Cette solution a été utilisée pour faciliter l’indexation automatique des expressions, ainsi que la comparaison et l’appariement des termes au moment de la 5 recherche avec un moteur de recherche (avec l’idée que la requête de l’utilisateur est soumise à la même normalisation). Chaque groupe nominal est ensuite pondéré en fonction de sa fréquence d’apparition dans la page et de sa répartition dans le corpus. Finalement, certains termes et expressions sont exclus des termes d’indexation. Il s’agit, dans la plupart des cas, de certains termes décrivant plutôt la procédure que le contenu intrinsèque de l’objet multimédia. Par exemple, des termes ou expressions comme « téléchargement », « media player », « son », « windows », « quicktime », « cliquer », « mp3 », « clip », etc. ont été exclus des termes d’indexation attribués automatiquement. L’indexation humaine des OMs a été faite en français, par un seul indexeur de langue maternelle française. Il s’agissait d’un titulaire d’une maîtrise en sciences de l’information. Une politique d’indexation a été définie pour encadrer le travail de l’indexeur. Selon cette politique, il a été décidé que l’indexation se ferait en vocabulaire libre (compatible avec l’approche par extraction du moteur d’indexation automatique). Le nombre de descripteurs a été fixé entre deux et cinq. De plus, la politique d’indexation propose de faire l’analyse de contenu des objets multimédias avec la méthode suivante : (1) identification de la thématique générale (sujet principal et des aspects retenus) et (2) s’il y a plus d’un sujet : identification des thématiques particulières (sujets particuliers et autres aspects retenus). Le processus d’indexation compte quatre étapes principales qui ont pour objectif de représenter le plus fidèlement possible les OMs de notre échantillon : la visualisation des OMs de type vidéo ou l’écoute des fichiers sonores, l’analyse du contenu, la sélection des sujets et la traduction des sujets retenus en termes d’indexation. Péritexte utilisé pour l’indexation automatique Termes d’indexation Automatique : • enrôlement • chiasson • traversée • transcription Humaine : • enrôlement • lieu d’entraînement • début dans l’armée canadienne Péritexte extrait par le robot : Titre: Page Détail - Anciens Combattants Canada Href : http://ram.canadacast.ca/asxgen/vac/Chiasson_E1_Dual.wmv Paragraphes Adjacents Gauches: Paragraphes Adjacents Droits: Intitulé précédent: Enrôlement Lien Objet: Groupe nominaux: enrôlement - chiasson - enrôlement - transcription - 6 Péritexte utilisé pour l’indexation automatique Termes d’indexation traversée Tableau 1 - Exemple de péritexte et de termes d'indexation automatique attribués Le tableau 1 présente un exemple d‘OM4 (dont on ne voit pas la source), son péritexte (extrait avec un logiciel développé pour le projet) de même que les termes d’indexation attribués par le robot collecteur et par l’indexeur humain. On voit que les paragraphes immédiatement à gauche et à droite n’ont produit aucun terme d’indexation, puisque de part et d’autre du lien vers l’OM il n’y a que des mots comme « jouer une vidéo avec » ou « Windows Media Player ». Les mots potentiellement utiles ont été puisés au titre de la page (« anciens combattants »), à l’intitulé précédent (« enrôlement ») et aux paragraphes plus éloignés dans le code source (ici, le paragraphe «M. Chiasson raconte son enrôlement et sa traversée » est à une distance de 2 paragraphes dans le code HTML). Ils sont donc inclus dans l’indexation. Remarquons que le mot « chiasson » n’est pas reconnu comme un nom propre, ce qui empêche malheureusement de l’exclure sur la base de cette information. Critères Présence de doublons Présence de termes faisant référence à la procédure plutôt qu’au contenu Présence d’unitermes Présence d’expressions Description • Présence de mots qui se répètent dans 2 ou plusieurs termes d’indexation. • Exemples : orphelin de le après-guerre après-guerre orphelin • Présence de termes « visiblement » reliés au format du document. • Exemples : transcription film audio - musique • Plus petit élément significatif d'un langage documentaire utilisé pour représenter une notion spécifique dans un système d'indexation. • Exemples : recrutement enfance classe • Chaîne de mots reliés grammaticalement, ne comportant pas de verbe à un mode fini, et ayant une unité de signification. • Exemples : soldat canadien ligne chronologique 7 Critères Présence de noms propres de personnes Présence de noms propres de lieux géographiques Présence de verbes Présence d’adjectifs Présence d’erreurs terminologiques Pertinence Description manque de professionnalisme • Mot ou expression qui réfère à l’identité individuelle. • Exemples : chiasson paulin gauthier • Mot ou expression qui réfère à un lieu géographique. • Exemples : kigali montréal valcartier • Mot qui exprime une action, un état, etc. • Exemples : été blessé envoyé landry nous fait • Mot qui exprime une qualité, un rapport, etc. Exemples : plus jeune • Mot ou expression qui n’a aucune signification en français. • Exemples : uvre louis i #8211 Jugement personnel de l’indexeur humain sur l’indexation automatique. 1 = Très satisfaisant 2 = Satisfaisant 3 = passable 4 = Peu satisfaisant 5 = Insatisfaisant Tableau 2 - Critères d’évaluation qualitative de l’indexation automatique Une fois l’indexation automatique effectuée, nous l’avons comparée à l’indexation humaine pour les 370 OMs retenus. Les taux de rappel et de précision ont été calculés, de même que le F-Score (mesure combinant la précision et le rappel où F = (2 × P × R) / (P + R)) pour chaque objet recensé. L’indexation automatique pour les OMs a également été évaluée de manière qualitative à l’aide de la grille d’évaluation comprenant 10 critères (voir le tableau 2). Notons que la présence de verbes ou d’adjectifs parmi les termes d’indexation proposés par le prototype s’explique par ses limites quant au repérage d’expressions : comme « été » peut être un nom (dans « été meurtrier », par exemple), il n’est pas exclu d’office. Un meilleur algorithme d’extraction de termes aurait repéré ici qu’il s’agit bel et bien du verbe être au participe passé. La section suivante présente les principaux résultats obtenus lors de la comparaison des deux types d’indexation. 4. Observations et analyse Les 370 OMs qui ont été indexés de manière humaine et automatique se présentent sous 10 types de formats (voir le tableau 3). Une première série de calculs nous a permis de calculer le nombre de termes attribués par l’indexation automatique (TIA) et l’indexation humaine (TIH) pour l’ensemble des OMs, de même que le nombre de termes identiques (TII) pour chaque type de fichier numérique (voir la figure 3). Format .wmv Nom complet Widows Media Video File .ram Real Audio Media Type de données Fichier vidéo que l’on peut visualiser à l'aide de Windows Media Player. Fichier son et/ou vidéo très répandu sur Internet notamment grâce à sa possibilité de "streaming" (lecture en direct sur Internet). 8 Format .rm .mp3 Nom complet Real Media MPEG 2 Layer 3 Type de données Fichier son et/ou vidéo. Format de fichier sonore que l’on trouve sur Internet. Ce type de fichier prend peu de place et la perte de qualité par rapport au son obtenu d'un CD-Audio n'est pas audible par l'oreille humaine. Extension de nom de fichier en 3 lettres pour MPEG. Les activités de MPEG couvrent la standardisation de toutes les technologies nécessaires à l'interopérabilité multimédia et comprennent, entre autres, le codage des médias (audio, vidéo, graphique). Fichier flash compilé pour les animations que l’on peut visualiser avec un navigateur de type « Flash Player » téléchargeable gratuitement. Fichier vidéo compressé pour le lecteur Windows Media Player. .mpg .swf ShockWave Flash .asx .wav Advanced Stream Redirector WAVeform .aif Audio Interchange Format .mov Movie Fichier son relativement lourd (40 Mo pour 3 minutes) servant notamment pour la gravure de CD's audios. Ce fichier peut être ouvert par la plupart des lecteurs audios tel que winamp, ou Windows Media Player. Format de fichier sonore issu du monde Apple, mais lisible sous Windows avec Windows Media Player. Format de fichier d'animation vidéo relié à la norme de QuickTime (technologie multimédia d'Apple Computer créée en 1989). Tableau 3 - Formats des objets multimédias On voit que le robot d’indexa tion attribue un grand nombre de mots et expressions, comparativement à l’humain. À l’aide de ces résultats, nous avons calculé le taux de rappel, de précision, de même que le F- Score. Le tableau 4 présente ces statistiques pour l’ensemble des 370 OMs, par type de format de fichier numérique. Comme on peut le constater, le taux de rappel de l’indexation automatique y est assez faible, mais demeure quand même constant d’un type d’OM à un autre. Si on examine le taux de précision par rapport au format d’OM, on remarque cette fois un peu plus de variation. On peut donc penser que le type de format n’a que peu d’incidence sur le rappel, mais a un impact un peu plus marqué sur la précision. On remarque également que la précision est bien supérieure au rappel, par un facteur de 10 ou 20 dans bien des cas. 80 70 60 50 TIA 40 TIH 30 TII 20 10 0 .wmv .ram .rm .mp3 .mpg .swf .asx .wav .aif .mov Figure 3 - Nombre de termes d'indexation par format de fichier numérique Format de fichier .wvm Nombre total d’objets (%) 226 (61,09) Moyenne des termes d’indexation automatique 14,07 Moyenne des termes d’indexation humaine 3,12 Moyenne de termes identiques Taux de rappel Taux de précision F Score 0,54 0,04 0,19 0,07 9 Format de fichier .ram .rm .mp3 .mpg .swf .asx .wav .aif .mov Total Nombre total d’objets (%) 56 (15,13) 10 (2,70) 26 (7,03) 12 (3,24) 1 (0,27) 9 (2,43) 24 (6,49) 5 (1,35) 1 (0,27) 370 (100,00) Moyenne des termes d’indexation automatique 37,93 40,10 32,00 34,67 42,00 10,89 79,83 72,20 51,00 25,36 Moyenne des termes d’indexation humaine 2,38 4,00 2,04 2,33 2,00 3,67 2,83 3,40 2,00 2,92 Moyenne de termes identiques Taux de rappel Taux de précision F Score 0,80 0,40 0,65 0,75 1,00 0,11 1,35 1,20 1,00 0,63 0,02 0,01 0,02 0,02 0,02 0,01 0,02 0,01 0,02 0,02 0,37 0,10 0,33 0,33 0,50 0,04 0,43 0,29 0,50 0,24 0,04 0,02 0,04 0,03 0,05 0,01 0,03 0,03 0,04 0,06 Tableau 4 : Statistiques générales par type de format de fichier numérique Il importe ici de souligner que les comparaisons sont faites à l’identique : on évalue si des expressions exactes sont utilisées par l’humain et extraites par la machine. Un exemple comme celui du tableau 5 fait ressortir la limite de cette comparaison. Objet multimédia http://www.collectionscanada.ca/obj/h30/f3/m000000236.ram http://www.collectionscanada.ca/obj/h30/f3/m000000239.ram http://www.collectionscanada.ca/obj/h30/f3/m000000231.ram Indexation humaine • visite royale • politique • sifflement de train Indexation automatique • visite du roi • politique • politique du chef • train • train de voyageurs Tableau 5 - Comparaison de termes d'indexation humaine et automatique On voit que, dans ces cas, une certaine flexibilité dans la comparaison serait favorable à l’indexation automatique (ou plutôt, à la cohérence entre les deux indexations). C’est une conséquence de travailler en vocabulaire libre. L’analyse qualitative de l’indexation automatique a été faite en deux étapes. D’abord, nous avons examiné chaque OM et tenté d’identifier la présence de doublons, de termes se rapportant au format de l’objet, d’unitermes, d’expressions, de noms propres, de noms de lieux géographiques, de verbes, d’adjectifs, et d’erreurs terminologiques (pour une description de ces critères, voir le tableau 2). Le tableau 6 présente ces statistiques pour l’ensemble des OMs. Critères Présence % Doublons 97,6 Termes reliés au contenant 90,0 Unitermes 100,0 Expressions 96,5 Noms propres de personnes 86,5 Noms propres géographiques 71,9 Verbes 52,2 Adjectifs 66,5 Erreurs terminologiques 29,2 Tableau 6 - Présence des critères dans l’indexation automatique 10 Une deuxième analyse a été effectuée pour calculer le nombre d’unitermes, d’expressions, d’expressions ou mots anglais, de noms propres, de noms géographiques, de verbes et d’adjectifs qualificatifs apparaissant dans les termes d’indexation automatique. Ces éléments ont donc été calculés manuellement à partir de l’indexation des 370 OMs. Les résultats de ces calculs apparaissent au tableau 7. Format de fichier Nombre total d’objets (%) .wvm 226 (61,09) .ram 56 (15,13) .rm 10 (2,70) .mp3 26 (7,03) .mpg 12 (3,24) .swf 1 (0,27) .asx 9 (2,43) .wav 24 (6,49) .aif 5 (1,35) .mov 1 (0,27) Total 370 (100,00) Unitermes Expressions de + d'un terme Mots ou expressions en anglais 2272 1260 233 512 241 25 71 1218 214 34 6080 907 867 168 352 175 17 28 618 122 17 3271 75 449 87 227 66 7 27 96 29 1 1064 Noms propres de personnes 321 223 14 97 35 3 28 192 34 4 951 Noms géographiques Verbes Adjectifs 373 149 35 59 43 4 0 106 16 1 786 274 133 13 55 11 1 3 84 11 2 587 357 390 66 178 123 13 23 224 50 4 1428 Tableau 7 - Nombre d'occurrences selon les critères d'évaluation Il a également été décidé que l’indexeur ferait une évaluation « globale » de l’indexation automatique pour chacun des 370 OMs. Cette évaluation se fait sur la base d’un jugement de valeur et tente de déterminer si pour un OM donné, l’ensemble des termes attribués lors du processus d’indexation automatique semble « acceptable » pour un humain (il s’agit donc d’une évaluation a posteriori de l’indexation automatique, alors que l’indexation humaine qui a servi à l’évaluation ci-dessus avait été faite a priori). Les résultats de cette évaluation sont présentés au tableau 8. Jugement de l’indexeur Très satisfaisant Satisfaisant Passable Peu satisfaisant Insatisfaisant Total Nombre d’objets % 0 160 165 39 6 370 0,0 43,2 44,6 10,5 1,6 100,0 Tableau 8 - Évaluation de la pertinence de l'indexation automatique Comme on peut le constater, l’indexeur considère que l’indexation automatique de 160 OMs a obtenu la note « satisfaisante » (43,2 %), alors que les 210 autres OMs (56,8 %) ont reçu des notes allant de «passable » à « insatisfaisant ». L’indexation automatique d’aucun OM n’a reçu la note de «très satisfaisant ». Ces chiffres laissent supposer que l’indexation automatique effectuée à l’aide du péritexte semble un peu décevante du point de vue de l’humain. L’évaluation qualitative suggère également de nouvelles pistes de recherche, notamment d’améliorer l’algorithme de reconnaissance de multitermes et de modifier le robot d’indexation de manière à mieux identifier et à éliminer les termes relatifs au contenant. 11 5. Discussion 5.1 Commentaires sur l’évaluation humaine L’indexation humaine qui a été effectuée, bien que tout à fait dans les règles et rigoureusement fidèle à la politique d’indexation explicite, n’a pas pu bénéficier d’un indexeur expert en musique. La description des fichiers de musique s’en seraient vue probablement modifiée. Là où l’indexeur a utilisé seulement les termes « musique » et « piano », un expert aurait peut-être reconnu l’air et même son compositeur, ou aurait pu ajouter des termes descriptifs de la musique en question. Il pourrait être intéressant d’explorer cette possibilité à l’avenir. En général, notre évaluation aurait profité de la mise à contribution de plusieurs experts humains. Nous aurions pu identifier les termes d’indexation qui semblaient faire consensus parmi un panel d’experts, et ainsi contourner en partie les problèmes – notoires – liés à la subjectivité de chaque indexeur et à l’absence de cohérence observée entre plusieurs indexeurs. Les ressources allouées au projet ne nous ont pas permis de procéder à ce type d’évaluation, mais nous reconnaissons qu’elle serait grandement utile. 5.2 Utilité observée des différents types de péritexte Dans le cadre d’un autre sous-projet (sous-projet 4 identifié à la section 1), un échantillonnage de 97 OMs provenant de 62 pages web a été examiné à la loupe ; on y a recensé la présence ou l’absence de différents types de péritexte, ainsi que la pertinence ou l’utilité des mots qu’ils contiennent en tant que termes d’indexation. Les statistiques principales sont présentées au tableau 9 (les pourcentages sont donnés en termes de nombre d’OMs, pour ces pages qui contenaient 1 ou 2 OMs). Groupe Élément Balises HTML Texte visuellement proche Paragraphes adjacents gauches Paragraphes adjacents droits Occurrences Pourcentage relatif utiles / total Titre de la page 83 / 97 85,6% HREF 25 / 97 25,8% <alt> Intitulé précédent 10 / 97 29 / 97 10,3% Légende Contenant des mots pertinents Nombre de mots significatifs en moyenne Contenant des mots pertinents Nombre de mots significatifs en moyenne 56 / 58 5 72 / 97 29,9% 96,6% 74,2% 7,6 57 / 97 58,8% 5,4 Tableau 9 – Présence et utilité des différents types de péritexte On remarque notamment que les sources de péritexte n’ont pas toutes la même probabilité de fournir des termes d’indexation intéressants. Il est clair que les mots et expressions extraites du péritexte devraient être pondérés en regard de ces statistiques. Par exemple, un terme d’indexation issu du titre a plus de poids que s’il provient de la balise <alt>. Et la légende, lorsqu’elle est présente, est presque toujours pertinente (56 cas sur 58). Malheureusement, ces données statistiques ont été compilées en parallèle de l’élaboration du robot d’indexation, et l’échéance du projet n’a pas permis d’intégrer cette pondération. On ne peut que faire l’hypothèse que certains termes d’indexation proposés par le robot disparaîtraient (parce que jugés sans doute non pertinents). Ceci augmenterait la précision 12 de l’indexation (en éliminant du bruit), mais ne changerait rien au rappel, puisqu’on n’introduirait aucun terme nouveau. 5.3 Nouvelle évaluation Une des lacunes de la comparaison à l’identique provient du fait que le robot d’indexation effectue une normalisation des termes : « compagnons d’armes » devient « compagnon de le arme ». Cette transformation masque l’identité entre les termes retenus par l’humaine et par la machine, dans des cas comme ceux donnés au tableau 5 (puisés à notre corpus). Pour tenter d’évaluer l’impact de cette différence, nous avons soumis les termes de l’indexation humaine à la même normalisation. Le tableau 10 montre des exemples où les termes de l’indexation humaine ont été transformés, ce qui a augmenté le taux de rappel calculé pour l’indexation automatique, à cause des correspondances additionnelles permises. Cette transformation a été effectuée sur des OMs différents de ceux traités par l’indexation humaine (à cause de contraintes méthodologiques liées à la façon dont le recensement des OMs a été fait). Pour cette raison, nous n’offrons que timidement ces nouveaux résultats en comparaison aux précédents. Il se trouve que, à la suite de cette opération, les calculs de rappel et de précision sur un ensemble de 225 OMs de format .wmv se présentent comme au tableau 11. Le rappel s’est amélioré de beaucoup (un facteur de 10 environ) mais la précision est demeurée basse, malgré l’augmentation du nombre de mots clés attribués à l’indexation humaine, étant donné le nombre élevé de termes extraits par le robot. Cette augmentation du rappel serait vraisemblablement observée pour les 370 OMs étudiés ci-dessus. Cependant, cela ne résout pas le problème des taux de rappel et précision plutôt bas observés. Indexation humaine Termes initiale Transformés Indexation Automatique Correspondances additionnelles lettre de soldat échange avec les Allemands lettre 1 allemand 1 lettre lettre de soldat soldat allemand échange échange avec le allemand (plus bon nombre de mots et termes non pertinents) CW Jefferys illustrateur historique aquarelle scène animée dessin bataille de Lundy's lane cw jefferys historique illustrateur illustrateur historique aquarelle scène scène animer dessin bataille bataille de lundy bataille de lundy's lane historique illustrateur illustrateur historique aquarelle scène scène animer dessin bataille 1 1 1 1 1 (plus bon nombre de mots et termes non pertinents) Tableau 10 – Transformer l’indexation humaine pour mieux comparer 13 Rappel Précision F-score 20,85% 10,22% 13,72% Tableau 11 – Rappel et précision – deuxième évaluation (fichiers .wmv) 5.4 Propriétés des OMs Nous avons déjà mentionné qu’un projet précédent, semblable à celui-ci, avait porté sur l’étude de pages web contenant des images fixes (Da Sylva et Turner, sous presse). Dans le cadre de celui-ci, les jugements humains sur l’utilité de chaque source de péritexte, pour 117 images, sont différents ; nous les reprenons au tableau 12 (les données sur les intitulés précédents ne sont pas disponibles, et les données relatives aux paragraphes adjacents ne distinguent pas la gauche de la droite). Types Présent/total Pourcentage Titre de la page HREF 116/117 39/117 77/117 24/113 116/119 Attribut “alt” Légende Paragraphes adjacents Pourcentage Utile/total Pourcentage 99.1 Utile/total présents 94/116 81.0 94/117 80,3 33,3 65.8 21.2 97.5 39/39 36/77 24/24 113/116 94.9 46.8 100.0 97.4 39/117 36/117 24/113 113/119 33,3 30,8 21,2 95,0 Tableau 12 – Présence et utilité des types de péritexte pour projet antérieur (images) On observe ainsi que l’utilité du titre de la page est comparable (85,6 % vs. 81,0 %), et que c’est le cas aussi pour la légende (96,8 % vs. 100 %), quand elle est présente. La balise <alt> est beaucoup moins souvent significative (10,3 %) qu’elle ne l’était pour les images (30,8 %). Cependant cette balise est associée surtout aux images fixes. Par ailleurs, même avec les images fixes, son utilisation est sous-exploitée, comme l'observent Da Sylva et Turner. Pour les paragraphes adjacents, on a remarqué pour les OMs une utilité moyenne de 66,5 %, comparativement à 95,0 % pour les images. 6. Conclusion et avenues de recherche Nous avons noté dans nos observations et analyses plusieurs façons dont l'algorithme du robot collecteur pourrait être révisé pour améliorer la performance. Une expérimentation et une analyse plus profondes en révéleraient sans doute d'autres. Toutefois, dans son état actuel il arrive quand même à des résultats jugés satisfaisants 43,2% du temps, ce qui approche la moyenne d'environ 50% qu'on trouve dans la littérature de l'indexation, toutes situations confondues. Lorsqu'on ajoute le score pour l'indexation jugée passable (44,6% du temps), on peut dire que 87,8% du temps, les résultats de l'indexation automatique avec cet algorithme sont satisfaisants ou passables. Or, ce chiffre semble généreux à la lumière des nombreux problèmes que nous avons repérés. Il s'agit quand même d'une approximation automatique de l'indexation humaine qui n'est pas si mal en termes du rapport coût-bénéfice, bien qu'il soit clair que les usagers seraient mieux servis si on pouvait affecter des humains à l'indexation du web. Nos résultats indiquent qu'on ne se trompe pas en investissant davantage dans le développement d'algorithmes d'indexation. En continuant à identifier le s corrections à faire et en poursuivant nos expérimentations avec les versions améliorées, on peut se 14 permettre d'espérer arriver à un jour où la performance d'un robot comme celui qui a indexé les sites que nous avons étudiés sera améliorée de façon significative. Lorsqu'on considère qu'il est très peu probable qu'on affecte au web les ressources nécessaires pour l'indexation humaine de ses pages déjà très nombreuses et chaque jour plus nombreuses encore, on voit assez facilement le besoin de poursuivre ces travaux. Si un jour le rêve du web sémantique devient réalité, ce sera en partie parce qu'on aura réussi à réaliser l'automatisation de l'indexation des sites. Nous sommes persuadés que des travaux comme les nôtres sur le péritexte représentent l'approche la plus fructueuse en ce moment, malgré les nombreux défauts du texte. L'arrivée en ligne de plus d'outils d'organisation du vocabulaire, tels des thésaurus spécialisés ou autres réseaux sémantiques, contribueront à augmenter les possibilités de réussite. De tels outils permettraient le filtrage automatique de requêtes et de résultats et l'évaluation à la lumière d'informations plus riches que celles actuellement disponibles pour l'analyse automatique. Cette situation mènera à son tour à de l'indexation automatique plus satisfaisante que ce que les robots actuels peuvent offrir. L'avenir nous dira si d'autres approches, par exemple l'analyse automatique des fichiers multimédias mêmes ou encore l'analyse des balises des fichiers RDF ou XML, dont peuvent être composés des sites web à caractère culturel, apporteront des résultats intéressants qui contribueront à améliorer la qualité de l'indexation. Il est clair que les possibilités sont loin d'être épuisées. Il s'agit de continuer à générer toujours de nouvelles idées et de continuer à les explorer. Remerciements Cette recherche a été réalisée grâce à une subvention de Patimoine canadien administré par CoRIMedia, un consortium de recherche à l'université de Sherbrooke. Nous remercions nos assistants de recherche Frédéric Doll (qui a développé le robot collecteur), Suzanne Mathieu, Myriam Beauchemin, Sylvie Gastonguay et Stéphane Boivin. Références Da Sylva, Lyne ; Turner, James M. Using ancillary text to index web-based multimedia objects. Literature and Linguistic Computing, Special Issue of the best papers of the ACH-ALLC 2005 conference (sous presse) [http://llc.oxfordjournals.org/cgi/content/abstract/fql018?ijkey=7ZEiAAzd1hnzCZm&keyty pe=ref]. Goodrum, A. et A. Spink. 2001. Image searching on the Excite search engine. Information Processing & Management : 37 (2), 295-311. Jansen, B.J., A. Goodrum et A. Spink. 2000. Searching for multimedia: video, audio, and image Web queries. World Wide Web Journal : 3 (4), 249-54. Disponible à : <http://jimjansen.tripod.com/academic/pubs/mm00.html>, visité le 06-01-20. Spink, A. et B. J. Jansen. 2004. Web search: public searching of the Web. Boston: Kluwer Academic Publishers. 1 Périculture vient de la contraction entre les termes péritexte (texte entourant les objets multimédias) et culture puisque le principal objet de cette recherche est la gestion du contenu numérique à caractère culturel canadien. 2 Ce fichier vidéo se trouve à l’adresse http://www.gov.ns.ca/nsarm/virtual/bluenose/films/bluenose1.mpg. 15 3 Les fichiers vidéos de cette page web peuvent être consultés à partir de l’adresse : http://www.celinedion.com/anewday/francais/phovid_videos.html. 4 L’objet multimédia indexé au tableau 1 se trouve à l’adresse suivante : http://ram.canadacast.ca/asxgen/vac/Chiasson_E1_Dual.wmv . 5 Ici, on calcule le pourcentage par rapport au nombre de légendes recensées, soit 58 parmi les 97 OMs examinés. Pour les autres types de péritexte, les statistiques sur les fréquences d’occurrence ne sont pas disponibles; nous n’avons que le nombre d’occurrences jugées utiles pour chacun des 97 OMs. 16