PériCulture2 : utilisation du péritexte pour l`indexation

Transcription

PériCulture2 : utilisation du péritexte pour l`indexation
Élaine Ménard
Lyne Da Sylva
James M Turner
École de bibliothéconomie et des sciences de l’information, Université de Montréal,
C.P. 6128, succ. Centre -ville, Montréal (QC) H3C 3J7
PériCulture2 : utilisation du péritexte pour l’indexation
automatique des objets multimédias
Abstract: This paper presents the results of the project PériCulture2. The main goal of this project
is to study indexing methods for Web-based non-textual cultural content. The results give an idea
of the quality of the automatic indexing obtained using the ancillary text associated with
multimedia objects, specifically video and sound.
Résumé : Cette communication présente les résultats du projet PériCulture2, dont le principal
objectif est d’étudier les méthodes d’indexation du contenu numérique non textuel à caractère
culturel en environnement réseauté. Les résultats permettent d’estimer la qualité de l’indexation
automatique obtenue à l’aide du péritexte des objets multimédias, plus particulièrement vidéo et
son.
1. Énoncé du problème
Depuis quelques années, on assiste à une explosion de l’information, générée par
l’avènement du web. Cet essor extraordinaire véhicule de nouveaux problèmes auxquels
la recherche d’information n’a jamais vraiment été confrontée : collections gigantesques,
dynamiques et changeantes de documents, surabondance sans précédent de l’information
mais surtout, développement de bases de données et de collections composées de
différents types de documents textuels ou multimédias, ce qui complexifie également le
processus d’indexation et de repérage.
Le terme « multimédia » désigne toute application utilisant au moins un média spécifique.
L’objet multimédia peut se définir comme un ensemble d'informations pouvant être inséré
dans un autre document et manipulé au moyen de ses propriétés multimédias (textuelles,
visuelles et sonores). Pour le présent projet, l’image fixe, qui fait également partie des
objets multimédias, n’a pas été prise en considération puisque ce type de document a déjà
fait l’objet d’une recherche antérieure (Da Sylva et Turner, sous presse)
Le repérage des objets dans les collections multimédias ne se fait pas de la même façon
que le repérage de documents textuels. Ainsi, certains éléments du repérage tels que la
manière dont les requêtes sont formulées, la méthode utilisée pour le repérage, la manière
dont la pertinence est évaluée, la participation de l’utilisateur au processus de recherche et
les différences cognitives fondamentales d’interprétation du matériel visuel ou sonore se
distinguent de la recherche textuelle proprement dite. Jusqu’à maintenant, peu d’études
ont examiné le processus de repérage de l’objet multimédia (Jansen, Goodrum et Spink,
2000; Goodrum et Spink, 2001; Spink et Jansen, 2004). Ce qui ressort de ces travaux de
recherche est que, d’une part, les requêtes multimédias sont généralement exprimées avec
davantage de mots clés que les requêtes habituelles conduites sur le web. D’autre part, en
général, les requêtes pour des fichiers sonores sur le web sont plus fréquentes que les
requêtes pour des images ou des fichiers vidéo (Spink et Jansen, 2004). Le processus
d’indexation de l’objet multimédia doit s’adapter à cette nouvelle réalité.
En effet, devant la surabondance d’objets multimédias maintenant disponibles sur le web,
il devient nécessaire d’élaborer et de construire des mécanismes donnant la possibilité
d'extraire rapidement et efficacement le contenu sémantique d'un document donné.
L’approche d’indexation automatique semble donc tout à fait indiquée pour remplir cette
mission. Au cours des dernières décennies, l’indexation automatique a fait l’objet de
multiples études. Ce type d’indexation, malgré la promesse d’un avenir glorieux, a connu
sa part de problèmes et n’est toujours pas pleinement fonctionnel. En raison de ses
faiblesses évidentes, il faut admettre que l’approche automatique remplace difficilement
l’humain pour la tâche d’indexation, mais elle permet tout de même d’économiser du
temps. En outre, ce type d’indexation est intéressant en raison des coûts élevés et de la
subjectivité associés inévitablement à l’indexation humaine.
Le projet PériCulture2 1 visait à étudier l’information multimédia numérique à caractère
culturel en environnement réseauté. Son objectif était de proposer et développer des stratégies de description de contenu culturel canadien multimédia sur le web, en s’appuyant
sur les ressources textuelles présentes sur les pages web (appelé dorénavant le péritexte).
Notre hypothèse de recherche était la suivante : que le texte se trouvant en périphérie
(péritexte) d’un objet multimédia peut être utilisé pour l’attribution automatique de
descripteurs aux objets multimédias contenus dans les pages web. L’algorithme
d’indexation élaboré pour cette recherche utilise donc le péritexte, constitué du texte
significatif se trouvant en périphérie d’un lien pointant vers un objet multimédia.
Le texte apparaissant à la figure 1 donne un parfait d’exemple de péritexte pouvant être
utilisé pour l’indexation automatique de l’objet multimédia 2 .
Figure 1 - Exemple de péritexte pouvant être utilisé pour l'indexation
En effet, je film porte sur la navire Bluenose et la dernière course qui l’opposa au
Gertrude L. Thebaud. On trouve dans le voisinage du fichier MPEG les expressions
Bluenose, Gertrude L. Thebaud, voilier, équipage, etc. qui seront indexées par le robot et
pourront être utilisées efficacement pour la recherche éventuelle de l’objet multimédia.
Toutefois, le cas d’autres objets multimédias semble un peu plus problématique, comme
on peut le voir à la figure 2, où le péritexte n’offre que très peu d’informations utiles pour
2
une indexation de qualité3 . La page web contient plusieurs extraits d’entrevues données
par Céline Dion et Franco Dragone au sujet du spectacle A New Day. Pour les objets
multimédias dans cette page, le péritexte ne décrit pas vraiment les objets à visionner
(Céline parle du spectacle A New Day… et de ce grand rêve enfin devenu réalité), ni les
propos tenus par la chanteuse ou le metteur en scène lors de leurs entrevues respectives. À
part le nom du spectacle, aucun des détails exprimés dans la vidéo n’est mentionné
explicitement sur la page à la figure 2. De plus, on remarque dans la périphérie des objets
multimédias des informations techniques (par exemple : Format : WindowsMedia
Connexion Internet: Haute | Lente) qui seront également indexées par le robot et qui n’ont
que peu d’intérêt pour la recherche de ces objets multimédias.
Figure 2 - Exemple de péritexte pouvant difficilement servir pour l’indexation
Devant ce deuxième exemple, on peut se demander s’il convient d’utiliser un algorithme
d’extraction de mots du péritexte pour effectuer l’indexation des objets multimédias. Il
semble pourtant évident, en général, que le texte entourant les objets multimédias
renferme un contexte d’une valeur inestimable où le robot collecteur peut puiser les
informations nécessaires à la description des objets, puisque les pages web d’où ces objets
proviennent contiennent, dans la majorité des cas, du texte décrivant d’une manière
quelconque ce que les individus peuvent voir et/ou entendre en cliquant sur le lien associé
aux objets multimédias. De plus, le principal avantage pouvant être associé à ce type
d’indexation est le fait que le robot utilisera, en principe, la même terminologie utilisée
dans un fichier vidéo par exemple. C’est le cas lorsque le texte périphérique contient la
transcription du texte que l’on peut entendre dans un fichier vidéo (voir figure 1). Nous
faisons donc l’hypothèse que cette information riche se trouvant à l’intérieur même des
pages web, dans les légendes, les titres et de nombreuses balises HTML, devrait pouvoir
être utilisée pour améliorer le repérage des objets multimédias.
Le projet PériCulture2 comportait un nombre de sous-projets, dont certains sont esquissés
dans la méthodologie, ci-dessous, et dont les objectifs étaient les suivants :
1. Identifier un corpus de sites web contenant du contenu culturel canadien en termes
de vidéo et/ou de son
2. Étudier la terminologie utilisée dans ces pages web afin de mieux comprendre le
vocabulaire appartenant au péritexte des objets multimédia.
3
3. Identifier des ressources lexicales et terminologiques qui pourraient être utilisées
pour décrire le contenu de ces pages web (ressources bilingues si possible).
4. Analyser le contenu textuel des pages web afin d’identifier les meilleures sources
de péritexte pour indexer les objets multimédia.
5. Sur la base des résultats précédents, développer un algorithme d’extraction automatique du péritexte des pages web pour l’utiliser dans l’indexation des objets.
6. Développer, si nécessaire, un thésaurus adapté à notre collection pour combler les
lacunes de l’indexation automatique.
7. Évaluer l’utilité de l’indexation automatique, en la comparant à une indexation
humaine.
Le présent article porte sur le sous-projet 7, soit la comparaison des résultats obtenus par
les deux types d’indexation.
2. Objectifs de l’étude
Deux objectifs ont été définis pour cette recherche :
1. Établir des critères de comparaison entre une indexation humaine avec
l’indexation automatique
2. Émettre un diagnostic relativement au succès de l’approche
La réalisation de ces objectifs a permis de se faire une idée de la qualité de l’indexation
automatique obtenue à l’aide du péritexte des objets multimédias. Ces informations sont
d’une grande valeur pour l’amélioration du processus d’indexation automatique.
Finalement, ce projet de recherche a permis le développement éventuel de nouvelles
technologies de gestion de l'information multimédia.
3. Méthodologie
3.1 Travaux préalables
Des étapes préalables à cette évaluation ont été d’une part de constituer un corpus de
pages web contenant des objets multimédias, et d’autre part de développer un prototype
d’indexation automatique. Étant donné le contexte de cette recherche, nous avons circonscrit le champ de notre étude aux objets multimédias numériques à caractère culturel
canadien. Nous avons considéré comme outils utilisables les sources d’objets multimédias
qui répondaient à ces critères. Par sources d’objets multimédias, nous entendons toute
page web qui comprend un ou des objets multimédias ou encore un ou des lien(s) directs
vers des objets multimédias. Nous nous sommes assurés que les sources utilisées avaient
un lien direct avec le Canada, que ce soit par une commandite, un thème, un lieu, une
personnalité, etc. Le caractère culturel comprend des thèmes très larges tels l’histoire, le
patrimoine, l’art (musique, peinture, etc.), etc. Ce sont les critères thématiques.
Pour ce qui est des critères formels, nous avons recherché des objets numériques en
environnement réseauté (accessibles en ligne), représentés par des éléments vidéo et/ou
son, appelés ici objets multimédias (OMs). Nous avons conservé uniquement les sources
d’OMs dont le codage et le contenu étaient en HTML, sans Flash, cadres ou Javascript; ils
devaient de plus contenir un minimum de texte significatif (plus que simplement un titre)
pouvant être considéré du péritexte. Nous avons gardé uniquement les sites bilingues
(anglais-français) puisque nous nous intéressons à la question de sites bilingues et
multilingues. Un total de 10 283 objets multimédias a initialement été recensé pendant
l’été 2005 par trois assistants de recherche, parmi lesquels nous avons fait une sélection
pour limiter le travail d’analyse. Nous avons ainsi identifié 454 pages web (227 dans
4
chaque langue) contenant au moins un OM chacun. Pour un sous-ensemble de ces
derniers, nous avons lancé en parallèle deux opérations : l’indexation manuelle et
l’indexation automatique, à l’aide d’un prototype de robot collecteur développé dans le
cadre du projet. Les détails de chaque type d’indexation sont donnés ci-dessous.
3.2 L’étape d’évaluation
Afin de rencontrer les objectifs susmentionnés, les trois questions de recherche suivantes
ont été formulées :
• Question 1 : Comment un indexeur humain décrirait- il les objets multimédias à
l’étude ?
• Question 2 : En quoi les termes produits par chacun des deux types
d’indexation correspondent-ils ? En quoi sont- ils différents ?
• Question 3 : Quelles leçons peut-on en tirer pour l’exploitation plus efficace
des termes extraits automatiquement du péritexte ?
Afin de répondre à ces questions de recherche, nous avons circonscrit un nombre d’OMs
qui seraient soumis à l’indexation humaine et dont les résultats seraient comparés à ceux
de l’indexation automatique. Un ensemble de critères (quantitatifs et qualitatifs) ont été
définis pour répondre à la question 2.
La première tâche a été de délimiter l’ensemble d’OMs soumis à la comparaison. Étant
donné la difficulté pour un indexeur francophone d’indexer des OMs dont le contenu est
en anglais et, surtout, la période limitée de temps alloué pour l’indexation humaine, il
n’était pas possible de procéder à l’indexation humaine de tous les OMs recensés. Il a
donc été décidé que tous les OMs français seraient indexés de manière humaine, c’est-àdire un total de 498 OMs. Lors de l’indexation humaine, il a parfois été impossible d’accéder au contenu de certains OMs (certains liens étant défectueux au moment de l'accès);
ces objets ont été exclus de l’évaluation. De plus, un certain nombre d’OMs ont été
indexés, mais ensuite éliminés du fichier d’évaluation car il s’agissait de doublons (même
contenu d’un objet multimédia, donc même termes d’indexation). Le nombre total d’OMs
dont l’indexation humaine et automatique a été comparée est finalement de 370.
Les OMs ont également été indexés de manière automatique à l’aide du robot d’indexation. Ce robot se servait du péritexte pour extraire les termes d’indexation. D’abord, le
robot extrait tout le péritexte d’un OM. Ce texte se compose du titre du document, du
texte du lien qui mène vers l’OM, du texte adjacent et du titre précédent (c’est-à-dire, le
contenu de la dernière balise HTML <h1>, ou <h2>, etc. avant l’objet multimédia). Le
texte adjacent est celui qui se trouve immédiatement à droite et à gauche de l’OM. La
limite est donnée par des bornes présentes dans le code HTML du document telles que
<p>, <form>, <hr> et <a href=…>, etc. Ces balises indiquent une rupture dans le texte. La
précision du péritexte correspond au nombre de balises franchies par le robot. Ainsi, pour
une précision de niveau 1, on cherche un paragraphe à droite et à gauche, pour une
précision de niveau 2, on cherche deux paragraphes à droite et deux à gauche de l’OM.
Chaque OM a été analysé par le robot collecteur pour extraire les groupes nominaux
contenus dans le péritexte. Tous les termes d’indexation ont ensuite été normalisés, c’està-dire que chacun des mots a été ramené à une forme singulier (masculin pour les
adjectifs; infinitif pour les verbes). Il y a donc lemmatisation, et aussi une transformation
pour les expressions complexes. En effet, les articles ont été retirés des expressions alors
que certaines combinaisons (préposition + article) ont été transformées lors de
l’indexation. Par exemple, l’expression « compagnons d’arme » devient « compagnon de
le arme ». Cette solution a été utilisée pour faciliter l’indexation automatique des
expressions, ainsi que la comparaison et l’appariement des termes au moment de la
5
recherche avec un moteur de recherche (avec l’idée que la requête de l’utilisateur est
soumise à la même normalisation). Chaque groupe nominal est ensuite pondéré en
fonction de sa fréquence d’apparition dans la page et de sa répartition dans le corpus.
Finalement, certains termes et expressions sont exclus des termes d’indexation. Il s’agit,
dans la plupart des cas, de certains termes décrivant plutôt la procédure que le contenu
intrinsèque de l’objet multimédia. Par exemple, des termes ou expressions comme
« téléchargement », « media player », « son », « windows », « quicktime », « cliquer »,
« mp3 », « clip », etc. ont été exclus des termes d’indexation attribués automatiquement.
L’indexation humaine des OMs a été faite en français, par un seul indexeur de langue
maternelle française. Il s’agissait d’un titulaire d’une maîtrise en sciences de
l’information. Une politique d’indexation a été définie pour encadrer le travail de
l’indexeur. Selon cette politique, il a été décidé que l’indexation se ferait en vocabulaire
libre (compatible avec l’approche par extraction du moteur d’indexation automatique). Le
nombre de descripteurs a été fixé entre deux et cinq. De plus, la politique d’indexation
propose de faire l’analyse de contenu des objets multimédias avec la méthode suivante :
(1) identification de la thématique générale (sujet principal et des aspects retenus) et
(2) s’il y a plus d’un sujet : identification des thématiques particulières (sujets particuliers
et autres aspects retenus). Le processus d’indexation compte quatre étapes principales qui
ont pour objectif de représenter le plus fidèlement possible les OMs de notre échantillon :
la visualisation des OMs de type vidéo ou l’écoute des fichiers sonores, l’analyse du
contenu, la sélection des sujets et la traduction des sujets retenus en termes d’indexation.
Péritexte utilisé pour l’indexation automatique
Termes d’indexation
Automatique :
• enrôlement
• chiasson
• traversée
• transcription
Humaine :
• enrôlement
• lieu d’entraînement
• début dans l’armée
canadienne
Péritexte extrait par le robot :
Titre: Page Détail - Anciens Combattants Canada
Href : http://ram.canadacast.ca/asxgen/vac/Chiasson_E1_Dual.wmv
Paragraphes Adjacents Gauches:
Paragraphes Adjacents Droits:
Intitulé précédent: Enrôlement
Lien Objet:
Groupe nominaux: enrôlement - chiasson - enrôlement - transcription -
6
Péritexte utilisé pour l’indexation automatique
Termes d’indexation
traversée
Tableau 1 - Exemple de péritexte et de termes d'indexation automatique attribués
Le tableau 1 présente un exemple d‘OM4 (dont on ne voit pas la source), son péritexte
(extrait avec un logiciel développé pour le projet) de même que les termes d’indexation
attribués par le robot collecteur et par l’indexeur humain. On voit que les paragraphes immédiatement à gauche et à droite n’ont produit aucun terme d’indexation, puisque de part
et d’autre du lien vers l’OM il n’y a que des mots comme « jouer une vidéo avec » ou
« Windows Media Player ». Les mots potentiellement utiles ont été puisés au titre de la
page (« anciens combattants »), à l’intitulé précédent (« enrôlement ») et aux paragraphes
plus éloignés dans le code source (ici, le paragraphe «M. Chiasson raconte son enrôlement et sa traversée » est à une distance de 2 paragraphes dans le code HTML). Ils sont
donc inclus dans l’indexation. Remarquons que le mot « chiasson » n’est pas reconnu
comme un nom propre, ce qui empêche malheureusement de l’exclure sur la base de cette
information.
Critères
Présence de doublons
Présence de termes
faisant référence à la
procédure plutôt qu’au
contenu
Présence d’unitermes
Présence d’expressions
Description
• Présence de mots qui se répètent dans 2 ou plusieurs termes d’indexation.
• Exemples : orphelin de le après-guerre
après-guerre
orphelin
• Présence de termes « visiblement » reliés au format du document.
• Exemples : transcription
film
audio - musique
• Plus petit élément significatif d'un langage documentaire utilisé pour
représenter une notion spécifique dans un système d'indexation.
• Exemples : recrutement
enfance
classe
• Chaîne de mots reliés grammaticalement, ne comportant pas de verbe à un
mode fini, et ayant une unité de signification.
• Exemples : soldat canadien
ligne chronologique
7
Critères
Présence de noms propres
de personnes
Présence de noms propres
de lieux géographiques
Présence de verbes
Présence d’adjectifs
Présence d’erreurs
terminologiques
Pertinence
Description
manque de professionnalisme
• Mot ou expression qui réfère à l’identité individuelle.
• Exemples : chiasson
paulin
gauthier
• Mot ou expression qui réfère à un lieu géographique.
• Exemples : kigali
montréal
valcartier
• Mot qui exprime une action, un état, etc.
• Exemples : été blessé
envoyé
landry nous fait
• Mot qui exprime une qualité, un rapport, etc.
Exemples : plus jeune
• Mot ou expression qui n’a aucune signification en français.
• Exemples : uvre
louis i
#8211
Jugement personnel de l’indexeur humain sur l’indexation automatique.
1 = Très satisfaisant
2 = Satisfaisant
3 = passable
4 = Peu satisfaisant
5 = Insatisfaisant
Tableau 2 - Critères d’évaluation qualitative de l’indexation automatique
Une fois l’indexation automatique effectuée, nous l’avons comparée à l’indexation
humaine pour les 370 OMs retenus. Les taux de rappel et de précision ont été calculés, de
même que le F-Score (mesure combinant la précision et le rappel où F = (2 × P × R) / (P
+ R)) pour chaque objet recensé. L’indexation automatique pour les OMs a également été
évaluée de manière qualitative à l’aide de la grille d’évaluation comprenant 10 critères
(voir le tableau 2). Notons que la présence de verbes ou d’adjectifs parmi les termes
d’indexation proposés par le prototype s’explique par ses limites quant au repérage
d’expressions : comme « été » peut être un nom (dans « été meurtrier », par exemple), il
n’est pas exclu d’office. Un meilleur algorithme d’extraction de termes aurait repéré ici
qu’il s’agit bel et bien du verbe être au participe passé.
La section suivante présente les principaux résultats obtenus lors de la comparaison des
deux types d’indexation.
4. Observations et analyse
Les 370 OMs qui ont été indexés de manière humaine et automatique se présentent sous
10 types de formats (voir le tableau 3). Une première série de calculs nous a permis de
calculer le nombre de termes attribués par l’indexation automatique (TIA) et l’indexation
humaine (TIH) pour l’ensemble des OMs, de même que le nombre de termes identiques
(TII) pour chaque type de fichier numérique (voir la figure 3).
Format
.wmv
Nom complet
Widows Media Video File
.ram
Real Audio Media
Type de données
Fichier vidéo que l’on peut visualiser à l'aide de Windows Media
Player.
Fichier son et/ou vidéo très répandu sur Internet notamment
grâce à sa possibilité de "streaming" (lecture en direct sur
Internet).
8
Format
.rm
.mp3
Nom complet
Real Media
MPEG 2 Layer 3
Type de données
Fichier son et/ou vidéo.
Format de fichier sonore que l’on trouve sur Internet. Ce type de
fichier prend peu de place et la perte de qualité par rapport au
son obtenu d'un CD-Audio n'est pas audible par l'oreille
humaine.
Extension de nom de fichier en 3 lettres pour MPEG. Les
activités de MPEG couvrent la standardisation de toutes les
technologies nécessaires à l'interopérabilité multimédia et
comprennent, entre autres, le codage des médias (audio, vidéo,
graphique).
Fichier flash compilé pour les animations que l’on peut visualiser
avec un navigateur de type « Flash Player » téléchargeable
gratuitement.
Fichier vidéo compressé pour le lecteur Windows Media Player.
.mpg
.swf
ShockWave Flash
.asx
.wav
Advanced Stream
Redirector
WAVeform
.aif
Audio Interchange Format
.mov
Movie
Fichier son relativement lourd (40 Mo pour 3 minutes) servant
notamment pour la gravure de CD's audios. Ce fichier peut être
ouvert par la plupart des lecteurs audios tel que winamp, ou
Windows Media Player.
Format de fichier sonore issu du monde Apple, mais lisible sous
Windows avec Windows Media Player.
Format de fichier d'animation vidéo relié à la norme de
QuickTime (technologie multimédia d'Apple Computer créée en
1989).
Tableau 3 - Formats des objets multimédias
On voit que le robot d’indexa tion attribue un grand nombre de mots et expressions,
comparativement à l’humain. À l’aide de ces résultats, nous avons calculé le taux de
rappel, de précision, de même que le F- Score. Le tableau 4 présente ces statistiques pour
l’ensemble des 370 OMs, par type de format de fichier numérique. Comme on peut le
constater, le taux de rappel de l’indexation automatique y est assez faible, mais demeure
quand même constant d’un type d’OM à un autre. Si on examine le taux de précision par
rapport au format d’OM, on remarque cette fois un peu plus de variation. On peut donc
penser que le type de format n’a que peu d’incidence sur le rappel, mais a un impact un
peu plus marqué sur la précision. On remarque également que la précision est bien
supérieure au rappel, par un facteur de 10 ou 20 dans bien des cas.
80
70
60
50
TIA
40
TIH
30
TII
20
10
0
.wmv
.ram
.rm
.mp3
.mpg
.swf
.asx
.wav
.aif
.mov
Figure 3 - Nombre de termes d'indexation par format de fichier numérique
Format
de
fichier
.wvm
Nombre
total
d’objets (%)
226 (61,09)
Moyenne
des termes
d’indexation
automatique
14,07
Moyenne
des termes
d’indexation
humaine
3,12
Moyenne
de termes
identiques
Taux
de
rappel
Taux de
précision
F
Score
0,54
0,04
0,19
0,07
9
Format
de
fichier
.ram
.rm
.mp3
.mpg
.swf
.asx
.wav
.aif
.mov
Total
Nombre
total
d’objets (%)
56 (15,13)
10 (2,70)
26 (7,03)
12 (3,24)
1 (0,27)
9 (2,43)
24 (6,49)
5 (1,35)
1 (0,27)
370 (100,00)
Moyenne
des termes
d’indexation
automatique
37,93
40,10
32,00
34,67
42,00
10,89
79,83
72,20
51,00
25,36
Moyenne
des termes
d’indexation
humaine
2,38
4,00
2,04
2,33
2,00
3,67
2,83
3,40
2,00
2,92
Moyenne
de termes
identiques
Taux
de
rappel
Taux de
précision
F
Score
0,80
0,40
0,65
0,75
1,00
0,11
1,35
1,20
1,00
0,63
0,02
0,01
0,02
0,02
0,02
0,01
0,02
0,01
0,02
0,02
0,37
0,10
0,33
0,33
0,50
0,04
0,43
0,29
0,50
0,24
0,04
0,02
0,04
0,03
0,05
0,01
0,03
0,03
0,04
0,06
Tableau 4 : Statistiques générales par type de format de fichier numérique
Il importe ici de souligner que les comparaisons sont faites à l’identique : on évalue si des
expressions exactes sont utilisées par l’humain et extraites par la machine. Un exemple
comme celui du tableau 5 fait ressortir la limite de cette comparaison.
Objet multimédia
http://www.collectionscanada.ca/obj/h30/f3/m000000236.ram
http://www.collectionscanada.ca/obj/h30/f3/m000000239.ram
http://www.collectionscanada.ca/obj/h30/f3/m000000231.ram
Indexation
humaine
• visite royale
• politique
• sifflement de
train
Indexation
automatique
• visite du roi
• politique
• politique du chef
• train
• train de voyageurs
Tableau 5 - Comparaison de termes d'indexation humaine et automatique
On voit que, dans ces cas, une certaine flexibilité dans la comparaison serait favorable à
l’indexation automatique (ou plutôt, à la cohérence entre les deux indexations). C’est une
conséquence de travailler en vocabulaire libre.
L’analyse qualitative de l’indexation automatique a été faite en deux étapes. D’abord,
nous avons examiné chaque OM et tenté d’identifier la présence de doublons, de termes
se rapportant au format de l’objet, d’unitermes, d’expressions, de noms propres, de noms
de lieux géographiques, de verbes, d’adjectifs, et d’erreurs terminologiques (pour une
description de ces critères, voir le tableau 2). Le tableau 6 présente ces statistiques pour
l’ensemble des OMs.
Critères
Présence
%
Doublons
97,6
Termes reliés au contenant
90,0
Unitermes
100,0
Expressions
96,5
Noms propres de personnes
86,5
Noms propres géographiques
71,9
Verbes
52,2
Adjectifs
66,5
Erreurs terminologiques
29,2
Tableau 6 - Présence des critères dans l’indexation automatique
10
Une deuxième analyse a été effectuée pour calculer le nombre d’unitermes, d’expressions,
d’expressions ou mots anglais, de noms propres, de noms géographiques, de verbes et
d’adjectifs qualificatifs apparaissant dans les termes d’indexation automatique. Ces
éléments ont donc été calculés manuellement à partir de l’indexation des 370 OMs. Les
résultats de ces calculs apparaissent au tableau 7.
Format
de
fichier
Nombre
total
d’objets
(%)
.wvm 226 (61,09)
.ram
56 (15,13)
.rm
10 (2,70)
.mp3
26 (7,03)
.mpg
12 (3,24)
.swf
1 (0,27)
.asx
9 (2,43)
.wav
24 (6,49)
.aif
5 (1,35)
.mov
1 (0,27)
Total 370 (100,00)
Unitermes
Expressions
de + d'un
terme
Mots ou
expressions
en anglais
2272
1260
233
512
241
25
71
1218
214
34
6080
907
867
168
352
175
17
28
618
122
17
3271
75
449
87
227
66
7
27
96
29
1
1064
Noms
propres
de
personnes
321
223
14
97
35
3
28
192
34
4
951
Noms
géographiques
Verbes
Adjectifs
373
149
35
59
43
4
0
106
16
1
786
274
133
13
55
11
1
3
84
11
2
587
357
390
66
178
123
13
23
224
50
4
1428
Tableau 7 - Nombre d'occurrences selon les critères d'évaluation
Il a également été décidé que l’indexeur ferait une évaluation « globale » de l’indexation
automatique pour chacun des 370 OMs. Cette évaluation se fait sur la base d’un jugement
de valeur et tente de déterminer si pour un OM donné, l’ensemble des termes attribués
lors du processus d’indexation automatique semble « acceptable » pour un humain (il
s’agit donc d’une évaluation a posteriori de l’indexation automatique, alors que
l’indexation humaine qui a servi à l’évaluation ci-dessus avait été faite a priori). Les
résultats de cette évaluation sont présentés au tableau 8.
Jugement de l’indexeur
Très satisfaisant
Satisfaisant
Passable
Peu satisfaisant
Insatisfaisant
Total
Nombre d’objets
%
0
160
165
39
6
370
0,0
43,2
44,6
10,5
1,6
100,0
Tableau 8 - Évaluation de la pertinence de l'indexation automatique
Comme on peut le constater, l’indexeur considère que l’indexation automatique de 160
OMs a obtenu la note « satisfaisante » (43,2 %), alors que les 210 autres OMs (56,8 %)
ont reçu des notes allant de «passable » à « insatisfaisant ». L’indexation automatique
d’aucun OM n’a reçu la note de «très satisfaisant ». Ces chiffres laissent supposer que
l’indexation automatique effectuée à l’aide du péritexte semble un peu décevante du point
de vue de l’humain.
L’évaluation qualitative suggère également de nouvelles pistes de recherche, notamment
d’améliorer l’algorithme de reconnaissance de multitermes et de modifier le robot
d’indexation de manière à mieux identifier et à éliminer les termes relatifs au contenant.
11
5. Discussion
5.1 Commentaires sur l’évaluation humaine
L’indexation humaine qui a été effectuée, bien que tout à fait dans les règles et
rigoureusement fidèle à la politique d’indexation explicite, n’a pas pu bénéficier d’un
indexeur expert en musique. La description des fichiers de musique s’en seraient vue
probablement modifiée. Là où l’indexeur a utilisé seulement les termes « musique » et
« piano », un expert aurait peut-être reconnu l’air et même son compositeur, ou aurait pu
ajouter des termes descriptifs de la musique en question. Il pourrait être intéressant
d’explorer cette possibilité à l’avenir.
En général, notre évaluation aurait profité de la mise à contribution de plusieurs experts
humains. Nous aurions pu identifier les termes d’indexation qui semblaient faire
consensus parmi un panel d’experts, et ainsi contourner en partie les problèmes – notoires
– liés à la subjectivité de chaque indexeur et à l’absence de cohérence observée entre
plusieurs indexeurs. Les ressources allouées au projet ne nous ont pas permis de procéder
à ce type d’évaluation, mais nous reconnaissons qu’elle serait grandement utile.
5.2 Utilité observée des différents types de péritexte
Dans le cadre d’un autre sous-projet (sous-projet 4 identifié à la section 1), un
échantillonnage de 97 OMs provenant de 62 pages web a été examiné à la loupe ; on y a
recensé la présence ou l’absence de différents types de péritexte, ainsi que la pertinence
ou l’utilité des mots qu’ils contiennent en tant que termes d’indexation. Les statistiques
principales sont présentées au tableau 9 (les pourcentages sont donnés en termes de
nombre d’OMs, pour ces pages qui contenaient 1 ou 2 OMs).
Groupe
Élément
Balises HTML
Texte visuellement proche
Paragraphes adjacents gauches
Paragraphes adjacents droits
Occurrences Pourcentage relatif
utiles / total
Titre de la page
83 / 97
85,6%
HREF
25 / 97
25,8%
<alt>
Intitulé précédent
10 / 97
29 / 97
10,3%
Légende
Contenant des mots pertinents
Nombre de mots significatifs
en moyenne
Contenant des mots pertinents
Nombre de mots significatifs
en moyenne
56 / 58
5
72 / 97
29,9%
96,6%
74,2%
7,6
57 / 97
58,8%
5,4
Tableau 9 – Présence et utilité des différents types de péritexte
On remarque notamment que les sources de péritexte n’ont pas toutes la même probabilité
de fournir des termes d’indexation intéressants. Il est clair que les mots et expressions
extraites du péritexte devraient être pondérés en regard de ces statistiques. Par exemple,
un terme d’indexation issu du titre a plus de poids que s’il provient de la balise <alt>. Et
la légende, lorsqu’elle est présente, est presque toujours pertinente (56 cas sur 58).
Malheureusement, ces données statistiques ont été compilées en parallèle de l’élaboration
du robot d’indexation, et l’échéance du projet n’a pas permis d’intégrer cette pondération.
On ne peut que faire l’hypothèse que certains termes d’indexation proposés par le robot
disparaîtraient (parce que jugés sans doute non pertinents). Ceci augmenterait la précision
12
de l’indexation (en éliminant du bruit), mais ne changerait rien au rappel, puisqu’on
n’introduirait aucun terme nouveau.
5.3 Nouvelle évaluation
Une des lacunes de la comparaison à l’identique provient du fait que le robot d’indexation
effectue une normalisation des termes : « compagnons d’armes » devient « compagnon de
le arme ». Cette transformation masque l’identité entre les termes retenus par l’humaine et
par la machine, dans des cas comme ceux donnés au tableau 5 (puisés à notre corpus).
Pour tenter d’évaluer l’impact de cette différence, nous avons soumis les termes de
l’indexation humaine à la même normalisation. Le tableau 10 montre des exemples où les
termes de l’indexation humaine ont été transformés, ce qui a augmenté le taux de rappel
calculé pour l’indexation automatique, à cause des correspondances additionnelles
permises.
Cette transformation a été effectuée sur des OMs différents de ceux traités par
l’indexation humaine (à cause de contraintes méthodologiques liées à la façon dont le
recensement des OMs a été fait). Pour cette raison, nous n’offrons que timidement ces
nouveaux résultats en comparaison aux précédents. Il se trouve que, à la suite de cette
opération, les calculs de rappel et de précision sur un ensemble de 225 OMs de format
.wmv se présentent comme au tableau 11. Le rappel s’est amélioré de beaucoup (un
facteur de 10 environ) mais la précision est demeurée basse, malgré l’augmentation du
nombre de mots clés attribués à l’indexation humaine, étant donné le nombre élevé de
termes extraits par le robot. Cette augmentation du rappel serait vraisemblablement
observée pour les 370 OMs étudiés ci-dessus. Cependant, cela ne résout pas le problème
des taux de rappel et précision plutôt bas observés.
Indexation humaine Termes
initiale
Transformés
Indexation
Automatique
Correspondances
additionnelles
lettre de soldat
échange avec les
Allemands
lettre
1
allemand
1
lettre
lettre de soldat
soldat
allemand
échange
échange avec le allemand
(plus bon nombre de
mots et termes non
pertinents)
CW Jefferys
illustrateur historique
aquarelle
scène animée
dessin
bataille de Lundy's lane
cw jefferys
historique
illustrateur
illustrateur historique
aquarelle
scène
scène animer
dessin
bataille
bataille de lundy
bataille de lundy's lane
historique
illustrateur
illustrateur historique
aquarelle
scène
scène animer
dessin
bataille
1
1
1
1
1
(plus bon nombre de
mots et termes non
pertinents)
Tableau 10 – Transformer l’indexation humaine pour mieux comparer
13
Rappel
Précision
F-score
20,85%
10,22%
13,72%
Tableau 11 – Rappel et précision – deuxième évaluation (fichiers .wmv)
5.4 Propriétés des OMs
Nous avons déjà mentionné qu’un projet précédent, semblable à celui-ci, avait porté sur
l’étude de pages web contenant des images fixes (Da Sylva et Turner, sous presse). Dans
le cadre de celui-ci, les jugements humains sur l’utilité de chaque source de péritexte,
pour 117 images, sont différents ; nous les reprenons au tableau 12 (les données sur les
intitulés précédents ne sont pas disponibles, et les données relatives aux paragraphes
adjacents ne distinguent pas la gauche de la droite).
Types
Présent/total
Pourcentage
Titre de la
page
HREF
116/117
39/117
77/117
24/113
116/119
Attribut “alt”
Légende
Paragraphes
adjacents
Pourcentage
Utile/total
Pourcentage
99.1
Utile/total
présents
94/116
81.0
94/117
80,3
33,3
65.8
21.2
97.5
39/39
36/77
24/24
113/116
94.9
46.8
100.0
97.4
39/117
36/117
24/113
113/119
33,3
30,8
21,2
95,0
Tableau 12 – Présence et utilité des types de péritexte pour projet antérieur (images)
On observe ainsi que l’utilité du titre de la page est comparable (85,6 % vs. 81,0 %), et
que c’est le cas aussi pour la légende (96,8 % vs. 100 %), quand elle est présente. La
balise <alt> est beaucoup moins souvent significative (10,3 %) qu’elle ne l’était pour les
images (30,8 %). Cependant cette balise est associée surtout aux images fixes. Par
ailleurs, même avec les images fixes, son utilisation est sous-exploitée, comme
l'observent Da Sylva et Turner. Pour les paragraphes adjacents, on a remarqué pour les
OMs une utilité moyenne de 66,5 %, comparativement à 95,0 % pour les images.
6. Conclusion et avenues de recherche
Nous avons noté dans nos observations et analyses plusieurs façons dont l'algorithme du
robot collecteur pourrait être révisé pour améliorer la performance. Une expérimentation
et une analyse plus profondes en révéleraient sans doute d'autres. Toutefois, dans son état
actuel il arrive quand même à des résultats jugés satisfaisants 43,2% du temps, ce qui
approche la moyenne d'environ 50% qu'on trouve dans la littérature de l'indexation,
toutes situations confondues. Lorsqu'on ajoute le score pour l'indexation jugée passable
(44,6% du temps), on peut dire que 87,8% du temps, les résultats de l'indexation
automatique avec cet algorithme sont satisfaisants ou passables.
Or, ce chiffre semble généreux à la lumière des nombreux problèmes que nous avons
repérés. Il s'agit quand même d'une approximation automatique de l'indexation humaine
qui n'est pas si mal en termes du rapport coût-bénéfice, bien qu'il soit clair que les usagers
seraient mieux servis si on pouvait affecter des humains à l'indexation du web. Nos
résultats indiquent qu'on ne se trompe pas en investissant davantage dans le
développement d'algorithmes d'indexation. En continuant à identifier le s corrections à
faire et en poursuivant nos expérimentations avec les versions améliorées, on peut se
14
permettre d'espérer arriver à un jour où la performance d'un robot comme celui qui a
indexé les sites que nous avons étudiés sera améliorée de façon significative.
Lorsqu'on considère qu'il est très peu probable qu'on affecte au web les ressources
nécessaires pour l'indexation humaine de ses pages déjà très nombreuses et chaque jour
plus nombreuses encore, on voit assez facilement le besoin de poursuivre ces travaux. Si
un jour le rêve du web sémantique devient réalité, ce sera en partie parce qu'on aura
réussi à réaliser l'automatisation de l'indexation des sites. Nous sommes persuadés que
des travaux comme les nôtres sur le péritexte représentent l'approche la plus fructueuse en
ce moment, malgré les nombreux défauts du texte. L'arrivée en ligne de plus d'outils
d'organisation du vocabulaire, tels des thésaurus spécialisés ou autres réseaux
sémantiques, contribueront à augmenter les possibilités de réussite. De tels outils
permettraient le filtrage automatique de requêtes et de résultats et l'évaluation à la lumière
d'informations plus riches que celles actuellement disponibles pour l'analyse automatique.
Cette situation mènera à son tour à de l'indexation automatique plus satisfaisante que ce
que les robots actuels peuvent offrir.
L'avenir nous dira si d'autres approches, par exemple l'analyse automatique des fichiers
multimédias mêmes ou encore l'analyse des balises des fichiers RDF ou XML, dont
peuvent être composés des sites web à caractère culturel, apporteront des résultats
intéressants qui contribueront à améliorer la qualité de l'indexation. Il est clair que les
possibilités sont loin d'être épuisées. Il s'agit de continuer à générer toujours de nouvelles
idées et de continuer à les explorer.
Remerciements
Cette recherche a été réalisée grâce à une subvention de Patimoine canadien administré
par CoRIMedia, un consortium de recherche à l'université de Sherbrooke. Nous remercions nos assistants de recherche Frédéric Doll (qui a développé le robot collecteur),
Suzanne Mathieu, Myriam Beauchemin, Sylvie Gastonguay et Stéphane Boivin.
Références
Da Sylva, Lyne ; Turner, James M. Using ancillary text to index web-based multimedia objects.
Literature and Linguistic Computing, Special Issue of the best papers of the ACH-ALLC
2005 conference (sous presse)
[http://llc.oxfordjournals.org/cgi/content/abstract/fql018?ijkey=7ZEiAAzd1hnzCZm&keyty
pe=ref].
Goodrum, A. et A. Spink. 2001. Image searching on the Excite search engine. Information
Processing & Management : 37 (2), 295-311.
Jansen, B.J., A. Goodrum et A. Spink. 2000. Searching for multimedia: video, audio, and image
Web queries. World Wide Web Journal : 3 (4), 249-54. Disponible à :
<http://jimjansen.tripod.com/academic/pubs/mm00.html>, visité le 06-01-20.
Spink, A. et B. J. Jansen. 2004. Web search: public searching of the Web. Boston: Kluwer
Academic Publishers.
1
Périculture vient de la contraction entre les termes péritexte (texte entourant les objets multimédias) et
culture puisque le principal objet de cette recherche est la gestion du contenu numérique à caractère culturel
canadien.
2
Ce fichier vidéo se trouve à l’adresse http://www.gov.ns.ca/nsarm/virtual/bluenose/films/bluenose1.mpg.
15
3
Les fichiers vidéos de cette page web peuvent être consultés à partir de l’adresse :
http://www.celinedion.com/anewday/francais/phovid_videos.html.
4
L’objet multimédia indexé au tableau 1 se trouve à l’adresse suivante :
http://ram.canadacast.ca/asxgen/vac/Chiasson_E1_Dual.wmv .
5
Ici, on calcule le pourcentage par rapport au nombre de légendes recensées, soit 58 parmi les 97 OMs
examinés. Pour les autres types de péritexte, les statistiques sur les fréquences d’occurrence ne sont pas
disponibles; nous n’avons que le nombre d’occurrences jugées utiles pour chacun des 97 OMs.
16