Question de l`indexation et Avenir des langages

Transcription

Question de l`indexation et Avenir des langages
Question de l’indexation et Avenir des langages Documentaires
Plan :
les limites et les inconvénients du web actuel
Principales évolutions : grandes tendances
•
•
•
du côté des outils de recherche
du côté du marché des outils et de celui de l'information
du côté de la structuration et de l'indexation de l'information
Web sémantique : W3C
Objectifs visés : une meilleure structuration du web
Comment ?
Normaliser l'indexation, cad les langages permettant de décrire et d'indexer le
contenu des documents : classifications, ontologies, thésaurus...
Grands travaux de recherche
•
•
Norme d’indexation : les metadonnées (cf. intervention Michel Dumas)
Onthologie et thesaurus partageables
o Ex : onthologie du domaine agricole
o Ex : thesaurus multilingue
o Portail médical Caducee
Avenirs des Langages Documentaires : Evolutions en cours :
1 Indexation et traitement des données
•
•
•
Constitution, taille, objet des index
Nature des ressources indexées
Méthode d’indexation et traitement du Langage Nature
o Traitement linguistique
o Traitement statistique
2 Requêtes : présentation des résultats
o Requêtes
o Langages des requêtes
o Types de requêtes
Ÿ
Présentation du résultat de requête
o Indice de pertinence
Katell Collet / URFIST Bretagne Loire-Atlantique
Comm LD Renadoc
Stage Analyse Documentaire
21/03/03
AvenirLD.doc
o Indice de popularité
o Tri par calcul dynamique
Ÿ Technique de classification et affinement de requête
o Classification automatique
o Ex : logiciel : outil de catégorisation (article
d’Archimag n° 157 et article en ligne de l’ADBS)
Ÿ Exploitation des hyperliens et présentation graphiques des résultats
o Cartographie ou « Mapping »
o Ex : Takoma, Kartoo, Mapstan
Exemples :
Logiciels d’analyse de texte
Moteur de navigation : Easyglider, Askjeeves, Exalead, Teoma,
Wisenut, Mirago
Web invisible
Sociétés
Evolutions technologiques d’Internet
Aspects majeurs
Grandes tendances des usages
Katell Collet / URFIST Bretagne Loire-Atlantique
Comm LD Renadoc
Stage Analyse Documentaire
21/03/03
AvenirLD.doc
2
La Journée d'étude de l'ADBS en avril 2002, intitulée :
"Du thésaurus au web sémantique : les langages documentaires ont-ils encore un
avenir ? "
Constat : Flux croissant d’informations
les limites et les inconvénients du web actuel :
o
o
o
o
o
hétérogénéité des formats (Word, excel, PDF, PHP, ASP..), des
informations (Images, Photos, sons)
absence de description et d'indexation des ressources
imprécision de la recherche d'information
absence de structure explicite globale du web : réseau de noeuds et de
liens, mais pas d'exploitation sémantique des liens hypertexte
web visible et web invisible
Principales évolutions qui vont toucher le web, les technologies de l'information et
de la mémoire, les outils et méthodes de recherche d'information :
Grandes tendances
•
du côté des outils de recherche :
o essor des outils spécialisés sur un domaine, un type de ressources, un
public
o nombreux perfectionnements techniques à attendre dans les capacités
des outils de recherche, notamment par l'intégration des techniques
d'indexation et de traitement du langage naturel
o développement possible, sur le web, des techniques de recherche
d'images par le contenu
•
du côté du marché des outils et de celui de l'information :
o essor des logiques purement commerciales au coeur même des
techniques de recherche (vente de mots-clés, développement des
techniques de positionnement payant, effets pervers de l'indice de
popularité, Spamming...)
o nouveaux risques liés à la propriété intellectuelle dans le domaine
des produits de la recherche d'information : tentatives de certaines
firmes de faire breveter les mots-clés, les concepts, les noms propres,
les classifications... (phénomène comparable à celui de la "brèvetabilité
du vivant")
•
du côté de la structuration et de l'indexation de l'information :
Katell Collet / URFIST Bretagne Loire-Atlantique
Comm LD Renadoc
Stage Analyse Documentaire
21/03/03
AvenirLD.doc
3
mutations les plus profondes, conditionnant toutes les autres : travaux autour
du "web sémantique", XML, les métadonnées, la normalisation, l'essor des
techniques d'indexation...
Avec le Web sémantique : meilleure structuration du web
- rendre explicites les relations sémantiques (les liens) entre les documents du web
- faciliter l'utilisation et la recomposition des ressources par les machines
- ajouter des annotations sémantiques aux ressources du web, décrivant leurs
contenus et leurs fonctionnalités
- permettre une meilleure interopérabilité : des ressources et des machines
- développer une grammaire universelle pour la production, le stockage et l'échange
des données : XML
•
Enjeu : permettre et développer un accès "intelligent" à l'information
Comment ?
Normaliser l'indexation, cad les langages permettant de décrire et d'indexer le
contenu des documents : classifications, ontologies, thésaurus...
Les grands travaux de ce chantier de recherche
§
§
Les outils et les normes d’indexation des documents : les
metadonnées
la construction d'ontologies et de thesaurus partageables :
présence des thésaurus dans les nouvelles problématiques de
l'indexation
Ontologie :
Formalisation d’une conceptualisation : lever les ambiguités
Représentations formelles d'un domaine de connaissance sous la forme de
terminologies dotées de relations sémantiques (non limitées aux relations
sémantiques du thésaurus documentaire). Une ontologie structure les termes d'un
domaine, en établissant des relations de proximité entre eux, du type "partie de". Une
partie du travail de conception et de normalisation, a déjà été réalisé et est fortement
soutenu par le W3C.
Identifier les concepts et les relations conceptuelles d’un domaine ; se mettre
d’accord, au sein d’une communauté, sur les termes employés pour se référer à ces
concepts / relations partitives.
Katell Collet / URFIST Bretagne Loire-Atlantique
Comm LD Renadoc
Stage Analyse Documentaire
21/03/03
AvenirLD.doc
4
Exemple d’ontologie dans le domaine agricole :
http://www.fao.org/agris/aos/aos_fr/default.htm
Projets d’ontologies :
http://www.fao.org/agris/aos/aos_fr/Nouvelles/Nouvelles.htm
Thesaurus :
1 /Article d’Elisabeth Freyre : « Macs délie les langues » paru dans la revue
Archimag n°157, septembre 2002.
Travaux de quatre bibliothèques européennes : Deutsche Bibliothek, BNF,
Bibliothèque Nationale de France, British Library, Bibliothèque nationale
suisse.
Mise en place d’un thésaurus multilingue : établissement de correspondances
entre leurs langages d’indexation.
Consultation en ligne du protopype de Macs : en un seul clic, un internaute
allemand peut accéder à tous les documents pertinents sur
« Strassentheater » du catalogue de la Deutsche Bibliothek mais également des
catalogues des trois autres bibliothèques, indexés selon leurs propres critères
d’indexation et dans leur propre langue. Cette recherche multilingue est
possible grâce au « mapping » effectué entre les trois langages d’indexation
encyclopédiques utilisés par les partenaires : « Strassentheater » = « Théâtre de
rue » = « Street theater »
2 /Thesaurus en format XML :
Présentation tabulaire de Thesaurus et sa source
http://www.ajlsm.com/projets/sdapa/demos/thesaurus.html#xml
Portail :
Par les techniques de description et d'indexation mises en oeuvre et par les services
offerts, Caducee.net est un prototype du Web sémantique.
o
Fonds de ressources médicales accessibles aux professionnels : entre 25
000 et 30 000 documents, accessibles par 500 000 "points de vue"
Katell Collet / URFIST Bretagne Loire-Atlantique
Comm LD Renadoc
Stage Analyse Documentaire
21/03/03
AvenirLD.doc
5
Objectif de Caducee : permettre aux utilisateurs (professionnels santé) de
retrouver une information pertinente avec le moins de "bruit" possible, et par
de nombreux accès (ou "points de vue") : date, auteur, discipline, thème
clinique
Portail de la santé : http://www.caducee.net
http://www.adbs.fr/uploads/journees/572_fr.php
Choix d’une double indexation basée sur :
-
un index générique : Dublin Core, Metadata
un indexe spécifique par mots-clés : MeSH (MEdical Heading
Subject)
un moteur de recherche contextuel
« L’utilisation d’un thésaurus est indispensable pour indexer correctement et
pertinemment du contenu médical. Ces thésaurus doivent être adaptés,
standardisés et maintenus par des organismes professionnels. Seuls les métathesaurus internationaux répondent à ces critères, dont le MeSh choisi par
caducee.net. »
« Il est indispensable de mettre en place une méthodologie stricte en concertation
avec une équipe multidisciplinaire formée à l’indexation : documentalistes,
médecins, biologistes et paramédicaux. L’indexation automatique ou semiautomatique n’est pas une méthode fiable pour la santé. »
Conséquences du web sémantique :
Bouleversements à prévoir dans la production, l'échange et la recherche
d'informations sur le web :
•
•
•
Travail en profondeur dans la trame même des documents et de l'information,
au niveau "micro" des documents ; importance de la notion de "granularité"
de l'information
possibilités inédites de recherche intelligente sur le contenu
nouvelles formes de représentation de l'information : en amont (lors de la
conception avec XML) et en aval (lors de la recherche)
TEI, Text Encoding Initiative
La TEI basée sur le langage SGML, permet l'échange des données
textuelles et d'autres types de données : images ou sons.
Katell Collet / URFIST Bretagne Loire-Atlantique
Comm LD Renadoc
Stage Analyse Documentaire
21/03/03
AvenirLD.doc
6
•
Applications :
publication électronique - analyse littéraire et historique lexicographie - traitement automatique des langues, recherche
documentaire - hypertexte...
RDF, un cadre de description
•
Applications :
- recherche d'information, pour donner aux outils de
recherche des possibilités accrues.
- catalogage : description du contenu et rapports avec les
divers contenus d'un site web
- partage et échange de connaissances, via des agents logiciels
intelligents
Autres système des description : l'identification des documents numériques
DOI ou Document Oriented Interface / Interface Orientée Document.
Le DOI est un identifiant unique et persistant d'un document (texte,
livre, photos, etc.).
C'est à dire que la page peut changer d'adresse mais que le DOI
permettra toujours de la retrouver.
Avenirs des Langages Documentaires : Evolutions en cours :
? L'importance de la question de l'indexation :
la question de l'indexation des ressources électroniques est LA question
centrale de la nouvelle économie du savoir en émergence :
distorsion entre la facilité d'accès au document physique et la faiblesse de
l'accessibilité sémantique : problème n° 1 sur le web : comment trouver
l'information pertinente ?
•
Actuellement, limites des mécanismes d'indexation des outils de
recherche : pas d'indexation sémantique, niveaux souvent frustes
d'indexation...
? Un constat : toutes les formes et tous les modes d'indexation
présents sur Internet :
Katell Collet / URFIST Bretagne Loire-Atlantique
Comm LD Renadoc
Stage Analyse Documentaire
21/03/03
AvenirLD.doc
7
•
•
•
•
•
•
•
•
utilisation des classifications a priori : annuaires
logiciels de classification automatique
indexation du texte intégral
listes de mots clés
indexation par les métadonnées
thésaurus
logiciels de cartographie de l'information : Kartoo.com
...
? Opposition fréquente mais artificielle des deux grands modes
d'indexation :
•
•
indexation documentaire par un langage
indexation automatisée sur le texte intégral
? En fait, complémentarité de plus en plus forte des deux approches,
dans différents systèmes documentaires
L'indexation, et le traitement des données
Rappel du principe de constitution des index
La taille de l'index
Les objets de l'indexation
La nature des ressources indexées
Les méthodes d'indexation et de traitement du langage naturel
Rappel : trois types de moteurs :
• Robot collecteur : module de collecte automatique de données
•
Moteur d’indexation : module d’indexation automatisée de données
•
Moteur de recherche : module de gestion de requêtes, de présentation de
résultats
Principe de constitution des index
A partir des données collectées par un robot explorateur , le module
indexeur construit un index général de recherche des données.
L'index d'un moteur constitue sa base de données ; il est constitué :
- d'un index principal, contenant les millions (voire les milliards) de
pages web et de documents capturés par le robot collecteur
- de fichiers inverses, contenant tous les termes d'accès, renvoyant aux
Katell Collet / URFIST Bretagne Loire-Atlantique
Comm LD Renadoc
Stage Analyse Documentaire
21/03/03
AvenirLD.doc
8
pages web.
Principe des index de recherche :
Fichiers ordonnés, contenant les caractéristiques des documents et les
reliant aux documents traitant des mêmes sujets. L'indexation
automatisée repose sur la notion de fichier inverse :
? Fichier inverse :
fichier organisé par ordre alphabétique de descripteurs,
de mots-clés ou de mots, derrière lesquels figurent les
numéros des notices possédant ces termes. Ce fichier est "
inversé " par rapport au " fichier direct " (ou principal.) Il
est lu en accès direct sur les mots-clés de la question.
Dans les systèmes d'index en texte intégral, les fichiers inverses sont
des fichiers contenant les mots du texte, classés alphabétiquement, avec
l’adresse précise de leur occurrence dans le texte.
Dans les fichiers inverses des moteurs de recherche, chaque terme
pointe vers les URL des pages qui contiennent le terme.
Variations de l'indexation selon les moteurs et les règles suivies
Quatre éléments essentiels à prendre en compte pour le module
d'indexation :
? La taille de l'index : nombre de documents indexés
? Les objets de l'indexation : qu'est-ce qui est indexé (la
totalité, des parties du document...)
? La nature des ressources indexées : format, texte,
image...
? Les méthodes d'indexation et de traitement des
données : traitement linguistique, niveau d'analyse,
utilisation des outils de TALN...
Mises à jour périodiques. Mise à jour de l'ensemble de leur index =
plusieurs semaines (et va en augmentant compte tenu de l'évolution du
web).
La taille de l'index
Katell Collet / URFIST Bretagne Loire-Atlantique
Comm LD Renadoc
Stage Analyse Documentaire
21/03/03
AvenirLD.doc
9
Nombre de pages dans la base de documents du moteur de recherche.
Très variable selon les moteurs : de quelques centaines de milliers de
documents à plusieurs milliards.
Aux débuts des premiers moteurs, comme Alta Vista, objectif de
couverture exhaustive du web : 60 millions de documents indexés par
Alta Vista en juin 97.
Aujourd'hui, la moitié à peine du web serait indexée par les 8 plus
grands moteurs.
Les deux plus gros : All The Web et Google.
Exemple des bases de données des trois principaux
moteurs (nombre de pages web indexées) :
Moteu
rs
Octob
re
2000
Décem
bre
2001
Janvie
r 2003
Goo
gle
AllThe
Web
AltaVi
sta
500
millions
575
millions
350
million
s
3 milliards
630
millions
397
million
s
2 milliards 106
millions
1
milliar
d
689
million
s
3 milliards
33 millions
Aujourd'hui (janvier 2003) , ces 3 moteurs sont suivis par :
- Wisenut
- Hotbot
- MSN
Katell Collet / URFIST Bretagne Loire-Atlantique
Comm LD Renadoc
Stage Analyse Documentaire
21/03/03
AvenirLD.doc
10
- Teoma : 500 millions
Les objets de l'indexation
Tous les moteurs n'indexent pas les mêmes parties d'un document, ni de la
même manière.
Différents champs pris en compte lors de l'indexation :
Le titre des pages web :
§
Titre d'une page web, proposé par le concepteur du site.
Situé entre balises <TITLE> et </TITLE>.
§
Importance du titre :
- titre d'une page web toujours affiché sur le navigateur.
- titre généralement affiché sur la page de résultats du
moteur
- 1er critère de pertinence pour la plupart des moteurs
- longueur du titre prise en compte variable selon les
moteurs
- éviter mots vides
§
Tous les moteurs de recherche indexent le titre
Les métadonnées :
§
Balises de métadonnées, donnant une information sur le
document
Remarques :
- balises méta ne sont pas visibles par l'utilisateur, mais sont dans le
code source de la page. Pas prises en compte par les annuaires
thématique.
- 20 à 30 % des pages web contiendraient des balises META.
- importance des balises META pour le référencement d'un site
web par les moteurs de recherche
- problème et enjeu du "spamming", ennemi n° 1 des moteurs.
§
Deux grands types de métadonnées :
§ Balises META "Description" :
Katell Collet / URFIST Bretagne Loire-Atlantique
Comm LD Renadoc
Stage Analyse Documentaire
21/03/03
AvenirLD.doc
11
<META NAME="description" CONTENT="......">
Permettent de décrire le contenu d'une page, sous forme
de résumé.
Indexation de la Balise Méta Description : très variable
selon les moteurs.
Description affichée par le moteur dans la page de
résultats, pour donner un aperçu du contenu.
Longueur de la balise souvent limitée : 150-200 caractères
Lorsqu'une page web ne contient pas de balise META
« Description », certains moteurs affichent les premiers
mots visibles sur la page
1. Balises META "Keyword" :
<META NAME="keywords" CONTENT="......">
Permettent de caractériser le document par un ou
plusieurs mots-clés, pris en compte ou non par les
moteurs de recherche
Usage des balises Keywords : 100 mots-clés, ou 1000
caractères. Au-delà, balise considérée comme du
spamming et éventuellement pénalisée.
Le corps du texte :
2. Corps "visible" de la page.
§
La plupart des grands moteurs de recherche indexent le texte des
pages web :
§ soit de manière limitée : jusqu'à une certaine taille
du texte (par ex., chez Alta Vista, tout le texte
indexé jusqu'à 100 Ko, seuls les liens indexés audelà de 100 Ko, plus rien au-delà de 4 Mo)
§ soit de manière illimitée : quelque soit la taille du
texte (HotBot, Google..)
§
Quelques variantes dans l'indexation du texte
§ Début du texte et premiers paragraphes souvent
plus importants (Lycos, Northern Light...)
§ pages courtes mieux indexées que pages longues
(HotBot...)
§ indexation égale du texte entier (Google)
Les URL :
§
§
URL considérée comme un champ de recherche interrogable
Presque tous les moteurs aujourd'hui indexent l'URL des pages
web
Katell Collet / URFIST Bretagne Loire-Atlantique
Comm LD Renadoc
Stage Analyse Documentaire
21/03/03
AvenirLD.doc
12
Les frames (cadres) :
§
Frames : pages web divisées en cadres, constituées :
- d'un fichier "mère" : sert uniquement à la description des zones.
Souvent appelé cadre.htm, ou frame.htm. Fichier vide de
données
- de fichiers "fille" : cadre du haut, de gauche et central.
§
Généralement non collectées et non indexées par
les moteurs de recherche.
§
Quatre solutions pour les moteurs :
§ Page web avec frames ignorée :
aucune indexation ; situation la plus
répandue
§ Indexation seulement du fichier
"mère" et ignorance des fichiers
"filles" ; situation assez courante ;
Résultat : le cadre vide est indexé seul
et non les données contenues
§ Indexation des fichiers "mère" et
"filles" comme des fichiers distincts,
sans indexation des liens entre eux.
Résultat : perte du contexte des
frames et affichage des fichiers
isolément
§ Indexation des fichiers "mère" et "fille"
avec leurs liens : solution idéale,
respectant l'organisation des frames.
MAIS pratiquement aucun moteur ne
peut faire cette indexation.
TABLEAU RECAPITULATIF DES CHAMPS
INDEXES
SUR QUELQUES UNS DES PRINCIPAUX
MOTEURS
(Alta Vista, HotBot, InfoSeek, Lycos, Northern
Light,
Google, AlltheWeb, Voilà)
Champs
Titre des
pages web
Katell Collet / URFIST Bretagne Loire-Atlantique
Comm LD Renadoc
Stage Analyse Documentaire
Moteurs
indexant le
champ
Moteurs
n'indexant pas
le champ
Tous
21/03/03
AvenirLD.doc
13
Balises
<META
Description>
Alta Vista,
HotBot,
InfoSeek,
Voilà
Lycos Northern
Light, Google,
AlltheWeb
Balise
<META
Keywords>
Alta Vista,
HotBot,
InfoSeek,
Voilà
Lycos Northern
Light, Google,
AlltheWeb
Corps du texte
Tous (avec
des variantes)
URL
presque tous
-seulement le
fichier "mère"
: Alta Vista,
InfoSeek,
AlltheWeb,
Voilà ; parfois
: HotBot,
Lycos, Google
- fichiers
"mère" et
"filles"
indexés
indépendam
ment :
Alta Vista,
Northern
Light ; parfois
: InfoSeek,
Google,
AlltheWeb,
Voilà
Frames
Lycos,
AlltheWeb
HotBot, Lycos
La nature des ressources indexées
Prédominance des documents textuels dans l'indexation
par les moteurs de recherche
Indexation des documents images et sonores :
Katell Collet / URFIST Bretagne Loire-Atlantique
Comm LD Renadoc
Stage Analyse Documentaire
21/03/03
AvenirLD.doc
14
? Tendance importante, depuis quelques
années : 330 millions d'images sur Google
en 2002
? Mais indexation du texte descriptif des
images et des sons : légende, URL, titre...
Pas encore d'indexation du contenu visuel
ou sonore sur le web : travaux encore
limités à des moteurs de recherche internes
à des entreprises ou des laboratoires
? Nombreux problèmes juridiques
Les méthodes d'indexation et de traitement du
langage naturel
Analyse automatique et recherche d'information sur le langage
naturel sont complexes en raison des caractéristiques du langage
naturel + caractéristiques propres de la recherche d'information
Rappel des difficultés liées
au langage naturel
- éléments de discours
implicite
- synonymie, redondance et
glissements de sens
- sens de base des termes et
rôles complémentaires
- problèmes posés par les
groupes de mots ou mots
composés
Difficultés propres à la
recherche d'informations
- Supports des documents
- Formats de
représentation des textes
- Méthodes
d'interrogation
- Généralité ou précision
de la question
- Profondeur de l'analyse
ou de l'indexation
- Explosion combinatoire
engendrée par la
recherche
Traitement linguistique du langage naturel par les moteurs de recherche :
Analyse morphologique, lexicale, syntaxique et sémantique
Traitement statistique :
Katell Collet / URFIST Bretagne Loire-Atlantique
Comm LD Renadoc
Stage Analyse Documentaire
21/03/03
AvenirLD.doc
15
Principale méthode d'indexation utilisée par les moteurs de recherche,
pour déterminer "l'estimation de la pertinence" (relevance feedback) :
le traitement statistique des mots.
Identification très difficile des opérations de traitement statistique du
langage naturel dans les moteurs de recherche, car ces méthodes,
reposant sur des algorithmes complexes : protection par les brevets
o
o
o
•
La pertinence
la pondération : calcul du "poids" d'un mot, en fonction de différents
facteurs
la similarité : appariement entre un mot du document et un terme de
la requête
Différents critères d'estimation de la pertinence, retenus par les moteurs de
recherche :
o
o
o
o
la fréquence du mot dans le texte : poids d'un mot en fonction du
nombre d'occurrences
§ élimination ou sous-évaluation des mots-vides
§ pondération des mots rares ou peu fréquents
§ ...
la densité du mot : calculée en fonction du rapport entre l'occurrence
du mot dans le document et la taille du document :
§ si deux documents ont la même occurrence pour le même mot,
document plus petit sera favorisé en pondération
§ Exemple : si le mot "bibliothèque" apparaît 10 fois dans
deux documents, l'un de trois pages, l'autre de 50 pages,
le document de trois pages sera jugé plus pertinent
la position du mot dans le texte : pondération plus ou moins grande
du mot selon sa postion :
§ titre, début, fin du texte (Alta Vista, HotBot)
§ mot en majuscule ou en caractère gras à l'intérieur du texte
(Google)
§ mot appartenant à une liste de mots contrôlés
la similarité des mots du document avec les termes de la requête :
§ correspondance exacte des mots : prise en compte de la casse
(typographie, accents)
§ proximité des termes
§ ordre des mots : pris en compte ou non selon les moteurs
§ Exemple : sur les termes "France-Allemagne" :
Katell Collet / URFIST Bretagne Loire-Atlantique
Comm LD Renadoc
Stage Analyse Documentaire
21/03/03
AvenirLD.doc
16
§
§
si l'ordre des mots pris en compte : AllemagneFrance donnera un résultat différent (Alta Vista,
Google, Northern Light...)
si l'ordre des mots non pris en compte : AllemagneFrance identique à France-Allemagne (HotBot, Lycos)
En résumé :
La majorité des moteurs de recherche sur internet ont des méthodes
simples et rapides d'indexation, dépourvues de traitements
linguistiques complexes, fondées essentiellement sur les calculs
statistiques de pertinence.
Aspects négatifs : l'interrogation des sites web par les moteurs de
recherche avec des mots tirés du langage courant, peut donner des
résultats décevants, liés au faible niveau d'indexation réalisée par les
moteurs (0 / 0+), liés aussi au caractère équivoque du langage naturel.
Aspects positifs : Un niveau d'indexation faible (et même sans supprimer
les mots vides) permettra toujours de retrouver sur internet des
passages précis et des expressions littérales.
L'introduction progressive des méthodes de TALN sur les moteurs de
recherche, commencée sur quelques moteurs comme AskJeeves,
Exalead, Alta Vista, constitue l'un des axes majeurs de développement
des outils de recherche, mais aussi l'un des principaux défis, comptetenu de la nature du web actuel.
Les requêtes : présentation des résultats
Katell Collet / URFIST Bretagne Loire-Atlantique
Comm LD Renadoc
Stage Analyse Documentaire
21/03/03
AvenirLD.doc
17
La requête :
Requêtes de plusieurs types :
- thème ou descripteur
- mots du langage courant coordonnés par des opérateurs
- expression en langage naturel
- document entier utilisé comme exemple du sujet sur lequel on veut
d'autres informations
- graphe de concepts
Types de requêtes des moteurs de recherche
La recherche d'information associe indexation et interrogation.
Problème sur internet :
Interrogations brutes à partir de mots du langage courant = beaucoup
de bruit et de silence
Recherche d'information comme processus itératif, mettant en oeuvre
plusieurs requêtes successives permettant
d'affiner les résultats rendus par le système = important sur internet
(recherche simple sur Altavista).
•
Le langage des requêtes
Une syntaxe quasiment commune à la plupart des outils de
recherche :
- Opérateurs booléens
ET - OU - SAUF s'appliquent à la fois à la recherche de mots
combinés dans le texte libre et à la recherche sur champs.
Nécessité de connaître l'opérateur par défaut qui s'applique sur
chaque moteur.
- Opérateurs numériques
consiste sur les moteurs de recherche à prendre en compte la
date de mise à jour du document (et non la date de publication
d'un article par exemple)
- Opérateurs sur le texte intégral : variante sur les mots
Troncature manuelle, automatique
- Recherche d'une expression
Katell Collet / URFIST Bretagne Loire-Atlantique
Comm LD Renadoc
Stage Analyse Documentaire
21/03/03
AvenirLD.doc
18
•
Les différents types de requête sur le web
- Requête par utilisation de mots du langage naturel
- Requête en langage naturel proposée par quelques moteurs de
recherche : Askjeeves – InfoClic = réalisation de traitements
linguistiques du type : suppression de mots vides (articles,
prépositions...);
transformation des mots en leur racine par troncature; la
lemmatisation (identification d'un mot par son
lemme = forme non fléchie)
mais problème d'efficacité lié à la très grande hétérogénéité des
documents du web.
Présentation des résultats de la requête :
Evolution dans l'organisation et le contenu des pages de résultats
(listes).
La page de résultats présente traditionnellement différentes zones
correspondant à différents types d'information :
•
•
•
rappel de la requête
liste des résultats
o résultats d'origine, obtenus automatiquement
o résultats sponsorisés
o type d'information
...
catégories d'un annuaire complémentaire
Les moteurs de recherche se sont enrichis en fonctionnalités, également
en ce qui concerne les résultats des requêtes :
•
•
sous-partie du module de recherche = présentation des résultats
(tri, classement, affinement de la requête, catégorisation)
nouveau composant en aval de la chaîne : le module
d'exploitation des résultats avec les outils de cartographie et de
navigation.
Katell Collet / URFIST Bretagne Loire-Atlantique
Comm LD Renadoc
Stage Analyse Documentaire
21/03/03
AvenirLD.doc
19
Sélection de sites par les hyperliens, méthodes de classement
des moteurs de recherche et analyse de co-citations
o
Notion de pertinence :
Les résultats d'une requête sont classés par pertinence ou
relevance ranking = système,qui est censé faire apparaître en
permier lieu les résultats jugés les plus pertinents.
+ possibilité de générer (manuellement ou automatiquement)
une nouvelle requête plus adaptée, plus fine =
"relevance feedback".
Développements technologiques des moteurs visant à pouvoir
juger de la pertinence des documents retrouvés, avec par
exemple : l'attribution d'un poids aux documents et classement
par pertinence décroissante, classification et enfin recherche par
similarité où le document retrouvé peut être la source d'une
nouvelle requête (Find Similar / Related Pages ou Search).
Développement par les moteurs de recherche de méthodes de tri
automatique des résultats. Variété de ces méthodes.
o
Objectif du classement :
> Vise à afficher dans les 10 à 20 premières réponses les
documents qui en principe répondent le mieux à la question.
3 grandes méthodes de classement :
1. Tri par pertinence / indice de pertinence
Mesure qui est fondée à la fois sur la fréquence d'apparition
des termes de la requête dans la page et sur leurs localisations ;
cet indicateur est utilisé systématiquement par tous les moteurs
de recherche
Critères :
o
Poids d'un mot dans un document en fonction de la place
qu'il occuppe dans ce document : le mot aura un poids
plus grand s'il fait partie du titre ou figure en début de
texte. A l'intérieur du texte, il aura un poids plus
important s'il est écrit en majuscules.
Katell Collet / URFIST Bretagne Loire-Atlantique
Comm LD Renadoc
Stage Analyse Documentaire
21/03/03
AvenirLD.doc
20
Fréquence d'occurrence dans le document par rapport à la
taille du document. Pour un même nombre d'occurrences,
poids supérieur au document le plus petit.
o Poids d'un mot dans la base déterminé par la fréquence
d'occurrence dans toute la base de données. Mots rares
favorisés. Mots vides soit éliminés, soit sous-évalués.
o Expressions : similarité entre expression de la question et
expression dans le document donne au document le poids
le plus élevé.
o
Le degré de proximité des termes dans le document induit un
poids plus élevé.
Introduction des balises Meta dans le calcul du score : balises
TITLE, META keywords et
META description. Mais en fait, peu de moteurs en tiennent
vraiment compte.
Problème :
La méthode de tri par pertinence peut être détournée : répétition
de mots importants dans l'en-tête ou dans le texte = spamming.
Moteurs utilisant le tri par pertinence = AltaVista, Ecila, Excite,
FAST, HotBot, Inktomi, Lokace, Voila...
2. Le tri par popularité / indice de popularité
Pour pallier les inconvénients de tri par pertinence
Prise en compte non plus du contenu, mais de la spécificité du
Web = les hyperliens.
Les liens peuvent être considérés un peu comme des relations
sémantiques : si une page fait un lien sur une
autre, les deux abordent probablement la même thématique.
+ le nombre de liens pointant vers un site constitue un indice de
popularité de celui-ci = tri par popularité.
Les pages web sont ordonnées selon leur notoriété. Ce principe
est directement inspiré des recherches menées en scientométrie.
Katell Collet / URFIST Bretagne Loire-Atlantique
Comm LD Renadoc
Stage Analyse Documentaire
21/03/03
AvenirLD.doc
21
Le tri par popularité recouvre 2 méthodes :
Méthode fondée sur la co-citation
Algorithme d’évaluation de pertinence fondé sur la nature
même du web, cad son hypertextualité : algorithmes vont donc
explorer les réseaux de documents et de liens qui relient les
documents.
cf : le moteur Google, lancé en 1998 à l'Université de Stanford,
utilise le principe mettant en relation liens et
popularité pour le calcul de "Relevance Ranking" et le
classement des pages de résultats.
Classement des pages par une combinaison de plusieurs facteurs
dont le principal = PageRank.
PageRank = les pages affichées en premier sont les pages
référencées de nombreuses fois = celles auxquelles aboutissent
de nombreux liens faits sur une page + importance des sites qui
pointent vers les résultats de recherche.
Les poids des documents sont pré-calculés par cette méthode et
se basent sur leur popularité par le système de liens.
Visibilité de la popularité par les fonctionnalités des moteurs de
recherche : utilisation de la fonction link d'Altavista =
link:www.uhb.fr/page1 -host:www.uhb.fr
Classement indépendant du contenu.
2 problèmes se posent :
- Certaines sociétés ont établi des liens artificiels contre paiement
+ problème de l'auto-citation
Pour contrer la pratique des liens artificiels, Google calcule un
indice de popularité à double niveau : calcul
également de l'IPP (indice de popularité de la page) des pages
qui pointent sur les résultats de recherche = 0
dans le cas de liens artificiels.
Méthode fondée sur la mesure d'audience
cf : DirectHit (fondé en avril 98) propose de trier les pages en
fonction du nombre de visites qu'elles reçoivent = indice de clic.
Katell Collet / URFIST Bretagne Loire-Atlantique
Comm LD Renadoc
Stage Analyse Documentaire
21/03/03
AvenirLD.doc
22
= analyse du comportement de l'internaute lors de la recherche
d'information et de l'utilisation du moteur de
recherche ; vise à trouver les pages les plus populaires.
note quel lien a été cliqué et le rang de ce lien dans la page de
résultats calcule le temps mis par l'utilisateur pour revenir à la
page de résultats, s'il y revient (sinon = document pertinent =
meilleur classement pour les prochaines requêtes). Pénalise les
pages récentes, mais évite le spamming.
3. Tri par calcul dynamique de catégories
Méthode de clustering ou agrégation (proposée par Northern Light) ;
développé en bibliométrie dans les années 80 et appliquée à des corpus
documentaires pour la veille technologique. Actuellement, prise en
compte par les outils de Text Mining ; utilisation de catégories
prédéfinies et de catégories repérées automatiquement.
Les techniques de classification et affinement de la requête
o
Affinement de la requête
Il arrive que les résultats d'une recherche soient
nombreux, même si ma requête est précise et correcte. Les
moteurs de recherche ont développé plusieurs techniques
permettant à l'utilisateur d'affiner sa requête initiale.
= techniques de classification :
- a priori, par des catégories issues d'un annuaire
- a posteriori
Modalités :
- affinement de fait de la question par sélection d'un
cluster
- exploitation des propositions issues de requêtes d'autres
internautes (ex : Altavista constitute une base de données
des termes saisis par les internautes).
o
Classification automatique
= technique exploitée par certains moteurs de recherche
pour organiser le lot de résultats de la recherche et donner
alors la possibilité d'affiner ou d'étendre la requête.
2 types de classification possibles :
Katell Collet / URFIST Bretagne Loire-Atlantique
Comm LD Renadoc
Stage Analyse Documentaire
21/03/03
AvenirLD.doc
23
- classement des éléments dans des classes connues a
priori = "classification par apprentissage supervisé".
ex : Voila propose en recherche approfondie la possibilité
de faire sa requête en la limitant à un ou plus domaines
prédéfinis.
- regroupement a posteriori sur la base de similarités
trouvées dans tout ou partie du document, non définies
au départ (création de groupes homogènes dans le
corpus) ; ensuite affectation des documents aux groupes
créés, avec un tri par pertinence au sein du groupe =
clustering ou "apprentissage non supervisé" =
détermination d'une relation de ressemblance, de
similitude entre documents, fondée sur des
caractéristiques d'ordre statistique et sémantique;
détermination du terme qui donnera son nom au cluster.
> permet, grâce à l'énoncé des classes thématiques,
d'éliminer des corrélations inintéressantes ou au contraire
de détecter des notions nouvelles.
Logiciels :
Article de Michel Remize « Equipez-vous » paru dans la revue Archimag n°157 de
Septembre 2002
Catégorisation :
Pratique du Knowledge Management : pour capitaler les connaissances, il faut
commencer par les classer : outil de catégorisation ou outil Categorizer
Etapes :
1 « comprendre » les textes
2 les analyser pour identifier leurs concepts, sur la base de fréquence de
caractères ;
« chaque texte reçoit une « signature », métadonnées qui lui sont associées ;
grâce à elle, sa correspondance à une catégorie du plan de classement est
évaluée ; chaque nouveau document est automatiquement comparé aux
documents y figurant déjà. Il est possible de régler un « indice de similarité »
pour donner au système plus ou moins de tolérance. En cas de rejet du
document, une boite « non catégorisé » est prévue, qu’il conviendra
d’examiner périodiquement ».
Katell Collet / URFIST Bretagne Loire-Atlantique
Comm LD Renadoc
Stage Analyse Documentaire
21/03/03
AvenirLD.doc
24
Catherine LELOUP : « Catégorisation et classification automatique » Journée
d’étude ABDS http://www.adbs.fr/uploads/journees/571_fr.htm
Ces fonctionnalités peuvent être complétées par une représentation
graphique
Exploitation des hyperliens et présentation graphique des résultats
Elaboration d'une présentation graphique à la place de la
présentation linéaire, à partir des liens établis dynamiquement
entre les documents : cartes de connaissance...
Cartographie :
Cartographie ou « Mapping » : réprésentation de l’information sous forme de
carte.
Carte : interprétation du classement d’une information ; lorsqu’on classe une
information, on la relie à d’autres informations grâce à des liens plus ou moins
flous. Sur une carte, on parvient à représenter le pourçentage d’appartenance
d’une information à plusieurs sujets, matérialisé par la distance entre les
points ou les nœuds.
Mapping : nouveau langage non linguistique du dynamisme du savoir ;
description de la conception intellectuelle du savoir.
Le web et l’hypertextualité du web entraine une modification du monde, du
mode de pensée, de la conception et de la construction du savoir. Le schéma
cartographique permet un accès plus facile à cette représentation.
Les thesaurus sont des outils cartographiques ; Ex : Motbis papier ; langage
linguistique schématique des systèmes de pensée cognitifs ou encore un
typde de classification parmi d’autres.
IM France, entité de la société Takoma, créée pour le développement de la
méthode Information Mapping® en France.
Test de l’efficacité de l’information Mapping :
exercice 1 : recherche une information dans un document non strcuturé ;
exercice chronométré.
exercice 2 : recherche d’une information structurée dans un document
structuré avec IMAP.
http://www.takoma.fr/imap/multimedia/test/index.htm
http://www.takoma.fr/imap/default.htm
Katell Collet / URFIST Bretagne Loire-Atlantique
Comm LD Renadoc
Stage Analyse Documentaire
21/03/03
AvenirLD.doc
25
Ex : Kartoo / Mapstan
Ce sont des moteurs de navigation et non plus des moteurs de recherche.
Travail sur les co-occurrences pour un recherche en texte intégral.
Kartoo : carte dont les noeuds représentent des documents et les liens, des
relations entre ces documents; taille des noeuds proportionnelle au degré de
pertinence du document par rapport à la question.
Recherche du terme Indexation :
http://www.kartoo.com/flash.php3
Représentation cartographqiue des thèmes et liens possibles autour du terme
Indexation.
Mapstan : représentation de type plan de quartier, mais avec principes
similaires, à savoir, les places représentant les documents et les rues les liens
entre les documents (les noeuds peuvent correspondre à un ou plusieurs sites)
Vivisimo : représentation en arborescence
Fonctionnalités complémentaires
Filtrage collaboratif, fondé sur l'utilisation des requêtes
d'autres utilisateurs
o Techniques d'extraction pour l'élaboration de résumés
automatiques des documents retrouvés
o
Exemples :
Logiciels :
Résumé automatique :
http://www.pertinence.net/PMWhitepaper.pdf
Présentation du logiciel Pertinence Summarizer de résumé automatique.
« Pertinence Summarizer résume des documents en quelques secondes ou un livre
de 250 pages en mille fois moins de temps qu'il ne faut pour les feuilleter. Notre
logiciel fait gagner du temps jusqu'à 70% pour acquérir les informations pertinentes
des textes généraux et 80% pour des textes spécialisés. »
Le « logiciel de résumé de texte utilise une technologie unique qui privilégie l'apport
de techniques linguistiques liées à des technologies d'intelligence artificielle très
avancées. Le logiciel Pertinence Summarizer résume le texte en tenant compte de la
Katell Collet / URFIST Bretagne Loire-Atlantique
Comm LD Renadoc
Stage Analyse Documentaire
21/03/03
AvenirLD.doc
26
syntaxe, des dérivations morphologiques (conjugaison, genre-nombre) , de la
nominalisation, de la synonymie... etc. Les mots sont correctement infléchis et mis
dans l'ordre approprié. »
« La qualité du résumé produit tient au fait que <le > moteur de résumé ne s'intéresse
qu'à des techniques purement linguistiques issues de la sémantique et de la
pragmatique. »
Analyse de texte :
Editeur Lingway : logiciel qui facilite la recherche en langage naturel, sur des bases
multilingues et effectuée à la fois à travers une taxinomie et une équation booléenne.
« …..Grâce à la linguistique, des outils se développent, qui permettent d’analyser le texte
quasi-instantanément et d’en faciliter la lecture… »
l’éditeur Lingway « met en place une solution facilitant la recherche en langage naturel… »
Le logiciel « opère un marquage XML en plusieurs « passages ». Dans un premier passage, il
reconnaît la structure du texte : titre, paragraphe, phrase… Le deuxième passage repère
sémantiquement les types d’information : une annonce thématique, un lien causal, une
conclusion… Il décortique la structure rhétorique du texte. Le troisième passage identifie la
nature des objets dont on parle. Par exemple, dans tel brevet, il est question de charrue. A
l’issue de ces trois opérations, on aboutit, selon l’expression de Bernard Normier, P-dg de
Lingway, « à rendre le texte calculable ». Le quatrième et dernier passage procède alors à une
extraction de phrases et propose une contraction du texte, pour dire par exemple qu’il parle
de charrues en termes positifs. Bien sûr, tout ce processus se déroule à la volée de façon
transparente pour l’utilisateur. La sophistication est poussée jusqu’à appliquer un code de
couleurs pour le repérage visuel des niveaux du texte dans le brevet : telle couleur pour
l’objet du brevet, telle autre pour la critique de l’état de l’art, etc. »
Moteur de navigation :
Easyglider
http://www.easyglider.com/accueilfr.htm
»Générateur de liens graphiques et conceptuels, basés sur le contenu des
textes et des images, EasyGlider permet une navigation naturelle pour
l'utilisateur, par associations de concepts ou de contenus entre les
documents écrits et les documents images.
Les solutions de navigation, basées sur des techniques d'indexation
innovantes, facilitent le recherche de documents multimédias et permettent
une consultation efficace de vos documents quelque soit leur format. »
Technologie de Easyglider :
La technologie de ce moteur de navigation est « basée sur des procédés d'
analyse graphique des images et sur l’analyse sémantique des textes.
EasyGlider analyse les caractéristiques visuelles , puis détermine la similitude
entre images, en prenant en compte les textures, les couleurs et les contours.
Katell Collet / URFIST Bretagne Loire-Atlantique
Comm LD Renadoc
Stage Analyse Documentaire
21/03/03
AvenirLD.doc
27
Pour les documents écrits, EasyGlider analyse les concepts puis indexe les
documents à partir de la proximité sémantique.
EasyGlider construit des milliers de liens pertinents entre vos documents
multimédias. Ces liens permettent ainsi de nouveaux modes de navigation,
intuitifs, rapides et efficaces, dans vos bases de données multimédias. »
Adresse de la démo :
http://www.easyglider.com/demo.htm
AskJeeves : Un moteur de questions
http://www.ask.com
Technique assez originale de recherche mise en oeuvre par un moteur : Ask
Jeeves
Principe de Ask Jeeves : construction d’une base de données de questions
souvent posées ; chaque question a fait l’objet d’une recherche sur le web, faite
par des professionnells, et les réponses ont été stockées.
Lors d’une nouvelle question posée, Ask Jeeves va aller chercher dans sa base
de questions la question la plus proche.
> notion de " related searches " ou recherches associées, existant également dans
d’autres moteurs (Alta Vista)
Exalead
http://www.exalead.com
•
Principes technologiques :
- croisement des moteurs de recherche et de l'approche du "text mining" :
o possibilités de recherche identiques à celles des moteurs et
métamoteurs
o possibilité d'analyse statistique des résultats, comme les logiciels de
TALN
•
Fonctionnement :
o lancement d'une requête
o à chaque requête, analyse statistique des résultats et production d'une
synthèse sous forme de rubriques, de mots-clés et d'attributs pertinents
o possibilité d'affinements successifs des requêtes, d'après ces analyses
o possibilité également d'élargir la recherche,à partir d'un attribut, à un
ensemble de documents
Katell Collet / URFIST Bretagne Loire-Atlantique
Comm LD Renadoc
Stage Analyse Documentaire
21/03/03
AvenirLD.doc
28
Teoma
http://www.teoma.com
- propose, outre les liens issus de son index, des sites similaires à ceux qui sont
présentés
- une fonctionnalité originale : liens sélectionnés par des experts, par le biais d'une
approche de recherche dans les communautés scientifiques identifiées
automatiquement.
Wisenut
http://wisenut.com
Utilise plusieurs techniques pour juger de la pertinence d'un document :
- l'analyse du texte de la page,
- l'analyse du texte des liens qui pointent vers cette page ainsi que des termes qui
entourent ces liens, mais également du contenu des pages pointant vers le document
analysé;
Index annoncé de 1,5 milliard de pages (parmi les plus grosses bases de
données actuelles du web); dans ses pages résultats, il tente une catégorisation
des liens proposés assez proche des "Custom Search Folders" du défunt
Northern Light = innovation dans beaucoup de domaines.
Mirago :
http://www.mirago.fr
Un nouveau moteur de recherche francophone
Actuellement en version Beta et doté de fonctionnalités originales : historique,
syntaxe de recherche, page de résultats, critères de pertinence, soumission
d'un site, régionalisation et thématisation des URL, business model.
Web invisible :
Répertoire de plus de 10 000 bases de données, archives.
http://invisibleweb.com
Métamoteur de recherche sur le web invisible : version à télécharger gratuitement ;
valable 30 jours.
http://www.lexibot.com
Sociétés :
Katell Collet / URFIST Bretagne Loire-Atlantique
Comm LD Renadoc
Stage Analyse Documentaire
21/03/03
AvenirLD.doc
29
Lingway :
http://www.lingway.com/
Lexiquest :
http://www.lexiquest.com
Conclusion :
La fonction thésaurale au cœur des systèmes d’information
Bertrand Sajus
Chargé d'études documentaires
« Il est donc urgent de renouveler les normes thésaurales en les
repositionnant par rapport aux nouveaux outils et méthodes de gestion
sémantique. Cette mise à jour devrait orienter le thésaurus non plus vers
l'indexation manuelle mais vers les traitements automatiques et semiautomatiques du langage tout en développant sa fonction heuristique. C'est
dans cette perspective qu'il faut envisager l'avenir de la fonction thésaurale au
cœur des systèmes d'information. »
Evolutions technologiques d’Internet
Web visible : 4 millairds de pages
Web invisible : 450 milliards de docs
Aspects majeurs :
rapidité : « ère d’innovation permanente » B Stiegler, philosophe de la notion
de temps
Raccourcissement des délais entre l’invention et usage d’un nouveau produit.
-
-
Explosion des applications techniques
o Spécialisation de l’informatique
-
Augmentation de la diversité des usages : évolution de l’Internet mobile
-
la profondeur des innovations
o traitement et stockage de données :
§ 2000 : pentium 4 : 42 000 milliers de transistor sur le processeur
§ 2005 : Prévision Intel : 400 000 milliers de transistors sur le
processeur
§ Mémoire vive : 2001 : Windows XP : 128-256 MO
§ 2007 : 512 MO – 1 GO
§ Disque dur : 2001 : 40 GO
Katell Collet / URFIST Bretagne Loire-Atlantique
Comm LD Renadoc
Stage Analyse Documentaire
21/03/03
AvenirLD.doc
30
Disque dur : 2007 : 500 GO à 1TO (TetraOctet : 1000 milliards
d’octets (d’après JM Cornu, Internet. Les technologies de
demain)
o transfert de données, réseaux sans fil, IPV6 : code des adresses des
machines sur 128 bits, au lieu de 32 pour IPV4. Principal avantage :
nombre d’adresses quasi infinie. Conséquences : Développement de
l’internet mobile, Internet à la maison et dans les objets.
o production, structuration des données : XML (accès en profondeur dans
un document), web sémantique
§
Grandes tendances des usages :
•
le moléculaire
o évolution des technologies de l’information vers l’infiniment petit :
« granularité de l’information » ; ex du XML (accès à une partie du
document)
•
la personnalisation
o des services, des applications : « monservicepublic.com » en cours
d’élaboration ; « monYahoo.com » ; Plate-forme d’autoformation EVA
du CNERTA
•
le travail coopératif
o puissance de calcul partagé, travail en réseau
•
La mobilité
o Problèmatique de l’internet AAA (Anyone, anytime, Anywhere) ; ére
de l’interconnexion généralisée.
•
La transparence des techniques
o Dissémination d’internet et de l’informatique dans les appareils, la
maison, les vétements… développement de la Domotique.
Katell Collet / URFIST Bretagne Loire-Atlantique
Comm LD Renadoc
Stage Analyse Documentaire
21/03/03
AvenirLD.doc
31