Pratiquer la veille manuelle ou se doter d`un agent intelligent. Cas

Transcription

Pratiquer la veille manuelle ou se doter d`un agent intelligent. Cas
CONSERVATOIRE NATIONAL DES ARTS ET METIERS
INSTITUT NATIONAL DES TECHNIQUES DE LA
DOCUMENTATION
MEMOIRE
pour obtenir le
DESS en Sciences de l’information et de la documentation spécialisées
présenté et soutenu par
Ewa Dutkiewicz, ép. Dessaignes
le 25 octobre 2004
Pratiquer la veille manuelle ou se doter d’un agent intelligent.
Cas du réseau documentaire des Chambres d’agriculture.
Jury composé de Evelyne Bertin et Marie-Blandine Trayaud
Cycle supérieur Promotion XXXIV
Résumé
Afin de donner des pistes pour le choix entre la veille manuelle et automatique, ce
mémoire fait le point sur la méthodologie et sur les outils de veille sur l’Internet. Il
compare la veille manuelle et automatisée et présente des critères d’évaluation des
logiciels par la suite adaptés au cas particulier du réseau documentaire des Chambres
d’agriculture. Sont également abordés la problématique de la gestion d’un projet de
mise en place d’un agent de veille et son impact sur l’organisation du travail. Des
fiches fonctionnelles et un tableau de comparaison des logiciels de veille donnent un
aperçu synthétique des produits disponibles sur le marché.
Mots-clés : agent de veille, Internet, recherche d’informations, veille automatique,
veille manuelle, web
2
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
Table des matières
Introduction ..............................................................................................................1
Première partie La méthodologie et les outils de veille sur l’Internet ..................5
1.
2.
La veille ............................................................................................................6
1.1.
Définitions de la veille...............................................................................6
1.2.
Panorama informationnel...........................................................................7
1.3.
Typologies de veille. .................................................................................8
1.4.
Etapes dans la mise en place d’un dispositif de veille.................................9
La problématique de la veille sur l’Internet .....................................................13
2.1.
Spécificité du web comme source d’information......................................13
2.1.1.
Information non structurée...............................................................14
2.1.2.
Le web invisible ..............................................................................14
2.1.3.
Constante évolution .........................................................................15
2.1.4.
Qualité et fiabilité de l’information ..................................................15
2.2.
Méthodologie de la veille sur l’Internet. ..................................................16
2.2.1.
La recherche des sources..................................................................17
2.2.2.
La veille sur les pages ......................................................................17
2.2.3.
Le traitement des résultats................................................................17
2.2.4.
L’exploitation des résultats et la diffusion........................................18
2.3.
Les outils.................................................................................................18
2.3.1.
Les outils pour l’identification des sources.......................................19
2.3.2.
Les outils pour le repérage des sources.............................................22
2.3.3.
Les outils pour la surveillance des pages. .........................................23
2.3.4.
Les infologiciels. .............................................................................25
2.4.
Critères d’évaluation des outils................................................................27
2.4.1.
Critères pour évaluer la qualité d’un logiciel ....................................27
2.4.2.
Critères d’évaluation des logiciels de veille......................................29
2.5.
Les outils intelligents : mythe ou réalité...................................................29
3
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
Deuxième partie L’étude de cas : automatisation du processus de veille dans le
réseau documentaire des Chambres d’Agriculture .............................................31
1.
2.
La veille dans le réseau documentaire des Chambres d’Agriculture .................32
1.1.
Le fonctionnement du réseau documentaire des Chambres d’Agriculture.32
1.2.
«Graines de doc mail» : produit issu de la veille sur les sites Internet.......35
1.3.
Description du fonctionnement actuel de la veille. ...................................38
Choix d’un système de veille pour le réseau documentaire des Chambres
d’Agriculture ..........................................................................................................40
2.1.
Choisir entre veille manuelle et veille automatisée...................................40
2.1.1.
Les critères économiques .................................................................41
2.1.2.
Les critères de la qualité de veille ....................................................42
2.1.3.
Les critères de la qualité du traitement de l’information collectée ....42
2.1.4.
Les critères de l’intégration au système d’information existant.........43
2.2.
Conditions requises pour
un déroulement
optimum d’un projet
d’automatisation de la veille................................................................................44
2.2.1.
Implication des futurs utilisateurs.....................................................44
2.2.1.1.
Analyse préalable des besoins ..................................................45
2.2.1.2.
La prise de décision..................................................................45
2.2.1.3.
L’évolution de l’organisation du travail....................................45
2.2.2.
Soutien de la hiérarchie....................................................................46
2.2.3.
Communication autour du projet......................................................46
2.2.4.
Problèmes liés au travail en réseau...................................................47
2.3.
Le choix d’un logiciel et son impact sur l’organisation du travail.............47
2.3.1.
Présentation des logiciels de recherche et de veille sur les pages ......47
2.3.2.
Quelques éléments pour le choix de logiciel.....................................55
Conclusion..............................................................................................................57
Bibliographie ..........................................................................................................59
Annexe 1 : Grille de comparaison des logiciels de veille .....................................72
Annexe 2 : Grille d’analyse de logiciels de veille ................................................77
Annexe 3 : Enquête sur les pratiques de veille sur l’Internet des documentalistes
du réseau documentaire des Chambres d’Agriculture (résultats)..........................80
4
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
Introduction
L’abondance et la croissance extrêmement rapide de l’information accessible via Internet
fait du « réseau des réseaux » une source d’information incontournable. Le suivi de son
évolution est devenu un défi pour les services chargés de veille qui sont aujourd’hui
obligés d’automatiser, au moins partiellement, leur démarche de veille sur l’Internet.
De plus, la grande majorité des documents accessibles via Internet n’est pas structurée.
La recherche et la veille doivent se faire sur le texte intégral et elles sont confrontées à
toutes les difficultés liées au traitement du langage naturel. Il est difficile de limiter sa
veille aux fragments de pages susceptibles de contenir une information utile et d’éliminer
les alertes non pertinentes. A cela s’ajoute la difficulté de l’exploration du web invisible.
L’automatisation de la veille peut être plus ou moins poussée : elle peut concerner une
petite partie ou la presque totalité du processus. Elle peut engager des techniques et des
outils classiques existant depuis la naissance de l’Internet ou des outils très novateur,
utilisant des techniques avancées.
***
Le discours sur les logiciels de veille sur l’Internet est empreint de vocabulaire issu du
domaine de l’intelligence artificielle. Les éditeurs utilisent volontairement le nom d’
« agent intelligent » alors que leurs produits ne correspondent pas à la définition de celuici.
Le discours publicitaire est également trompeur, on constate que les logiciels de veille ne
tiennent pas toujours leurs promesses. Par ailleurs des termes différents sont parfois
utilisés pour décrire les mêmes fonctionnalités et la confusion terminologique rend
difficile la comparaison de l’offre des différents éditeurs.
La problématique de veille est analysée le plus souvent sur des exemples d’entreprises
qui accordent à la veille une place importante dans leur stratégie afin de rester compétitif
dans un environnement en constante évolution. Le cas des organismes professionnels ou
de formation, moins sujets à cette pression, est néanmoins intéressant puisque le rôle de
veilleurs est le même : aider leur public à augmenter leur compétitivité.
2
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
***
Le réseau documentaire des Chambres d’agriculture est une structure destinée à donner à
ses membres la possibilité de partager des outils et un savoir-faire professionnel. Dotés
d’un budget commun, les membres du réseau investissent dans des outils de travail
communs qui permettent aux documentalistes de consacrer leur temps aux tâches à plus
grande valeur ajoutée.
L’éventail des produits documentaires élaborés au sein du réseau est large. Il comporte
en outre une lettre hebdomadaire, fruit de la veille sur l’Internet effectuée par les
documentalistes. Elle présente les nouveautés du web et sert de passerelle vers les
documents primaires. L’élaboration de « Graines de doc mail » implique des tâches
répétitives et sans grande valeur ajoutée. L’idée de l’automatisation d’une partie du
travail des documentalistes-veilleurs s’est donc imposée.
Des questions sont alors apparues : Existent-ils des outils informatiques suffisamment
performants pour remplacer les documentalistes dans leurs tâches ? Leur acquisition estelle justifiée d’un point de vue économique ? Comment assurer la réussite du projet ?
Quel est l’impact sur l’organisation du travail?
Pour répondre à ces questions je vais m’efforcer de présenter d’une manière synthétique
la problématique de veille sur l’Internet. Je vais dresser un panorama de l’offre logicielle
et présenter une démarche de gestion de projet.
***
Dans la première partie du mémoire je vais définir la problématique de veille et plus
spécifiquement de veille sur l’Internet, pour analyser ensuite les différentes phases de la
démarche et présenter ses outils.
Dans la deuxième partie, consacrée à l’analyse du cas particulier du réseau documentaire
des Chambres d’Agriculture, je vais présenter l’organisation actuelle de la veille sur
l’Internet. Je vais analyser la démarche suivie pour l’élaboration du produit documentaire
issu de la veille et préciser les étapes concernées par l’automatisation.
3
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
Ensuite, je vais rappeler les critères de choix entre une démarche de veille manuelle et de
veille automatisée. La partie suivante est consacrée à la problématique de la gestion du
projet dans le cadre de l’acquisition et de la mise en production du logiciel. L’analyse des
critères de sélection d’une solution informatique dans le contexte particulier du réseau
des Chambres d’agriculture va être suivie par la présentation des logiciels qui répondent
le mieux aux critères.. Enfin je vais analyser les conséquences de ce choix pour
l’organisation du travail.
Les annexes comportent une partie de documentation du projet : un tableau de
comparaison de différents types d’outils de veille sur l’Internet, la grille d’analyse des
logiciels et les résultats d’une enquête menée auprès des futurs utilisateurs.
4
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
Première partie
La méthodologie et les outils de veille sur
l’Internet
5
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
1. La veille
1.1. Définitions de la veille.
Les définitions de la veille l’opposent à la recherche ponctuelle de l’information et
mettent en avant son caractère anticipatif et continu. La norme AFNOR qui définit les
« Prestations de veille et prestations de mise en place d'un système de veille » (norme
expérimentale XP X 50-053, avril 1998) parle de « L’activité continue et en grande
partie itérative visant à une surveillance active de l’environnement scientifique,
technologique, juridique, commercial, socio-politique » .
Carlo Revelli [16, p.7] écrit « la veille est la faculté que nous avons d’appréhender notre
environnement ; une sorte d’état d’esprit orienté vers l’extérieur » et continue en
évoquant le passage de cette « attitude naturelle » vers une activité rationnelle et
organisée et en donnant comme caractéristique de la veille, sa fonction d’aide à la
décision : « la veille doit prendre un caractère beaucoup plus rigoureux. On parle donc
de veille ou d’intelligence stratégique à partir du moment où une organisation (où
éventuellement un individu) met en œuvre des dispositifs efficaces afin de collecter,
traiter et diffuser les informations pertinentes et fiables indispensables à la prise de
décision stratégique pour renforcer sa compétitivité. »
La veille est donc définie à travers sa finalité : rendre les organisations plus compétitifs
que ce soit dans un environnement industriel, politique ou de recherche. On trouve cette
définition dans la majorité des publications. Jean Michel [14] écrit : « La veille
informative n'est, somme toute, qu'un dispositif organisé, intégré et finalisé de collecte,
traitement, diffusion et exploitation de l'information qui vise à rendre une entreprise, une
organisation, quelle qu'elle soit, capable de réagir, à différents termes, face à des
évolutions de son environnement. »
6
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
Le même esprit s’exprime dans la terminologie anglo-saxonne qui comporte toujours le
même terme « intelligence » mettant ainsi l’accent sur l’aspect stratégique des activités
de veille. On retrouve ce terme dans différentes dénominations de veille : strategic
intelligence, competitor intelligence, technical intelligence, market intelligence. Le terme
environnement scanning, équivalent anglo-saxon de notre veille informative ou
environnementale, n’est utilisé que rarement.
François Jakobiak [11], donne une définition qui introduit différentes étapes de la veille
et la décrit comme « l'observation et l'analyse de l'environnement suivi de la diffusion
bien ciblée des informations sélectionnées et traitées, utiles à la prise de décision. »
Enfin, Armelle Thomas en analysant les relations entre la veille et l’activité de
documentation générale souligne le ciblage plus précis de la veille, l’exploitation plus
poussée des réseaux humains et son lien plus fort avec les besoins du management
stratégique [20, p.258].
Une autre spécificité de la veille est son rôle dans le repérage des signaux faibles :
informations de caractère qualitatif, incertaines et fragmentaires, peu signifiantes prises
individuellement mais qui deviennent significatives une fois mises en rapport avec
d’autres. Les signaux faibles donnent l’information sur le futur et non sur le passé et
permettent la « détection d’une situation avant qu’elle se soit réellement manifestée » [6].
La veille permet de les repérer et, conjuguée avec une analyse efficace, assure leur
capitalisation.
1.2. Panorama informationnel
La veille peut concerner l’information blanche (publique, accessible à tout le monde et ne
faisant l’objet d’aucune sécularisation particulière), grise (information légale mais
d’accès limité, gratuite ou payante) ou noire (qui fait l’objet d’une sécurisation).
7
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
Elle peut se faire sur des informations formalisées (existant sur un support papier ou
électronique) et informelle (transmise par voie orale et provenant des réseaux de
personnes ou de rencontres professionnelles : conférences, salons ou de sources internes
de l’organisation).
1.3. Typologies de veille.
Les définitions précédentes ont un caractère général ne permettant pas d’identifier les
différents types de veille. On peut pourtant construire plusieurs typologies selon la
fonction principale de l’activité.
Jean Michel [14] distingue dans la veille les grandes composantes fonctionnelles
suivantes :
!
aide à la décision dans des choix à court terme ;
!
orientation optimale des travaux et des investissements à moyen et long terme
!
développement de la capacité de réactivité ;
!
développement de la compréhension des évolutions de l'environnement ;
!
contribution à la culture d'entreprise
Selon le domaine d’intérêt on distingue traditionnellement les types de veille suivants :
# Veille technologique ou scientifique
Ce type de veille est le plus connu et le plus répandu à cause de sa longue tradition et de
son caractère incontournable. Son domaine est l’information scientifique et technique
nécessaire à la croissance des entreprises. Elle collecte, traite et diffuse les informations
de la recherche fondamentale et appliquée, les brevets, les nouveaux matériaux et
technologies. Elle exploite principalement les sources spécialisées et peut être effectuée
par des veilleurs aux connaissances pointus dans le domaine des technologies, des
techniques et du savoir-faire scientifique nécessaires à toutes les étapes de la veille.
8
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
# Veille marketing ou commerciale
Ce type de veille se concentre sur les produits et les marchés. Elle traite les informations
issues des études de marché et de l’observation de ses acteurs : clients, fournisseurs,
sous-traitants et distributeurs. Elle se caractérise par l’utilisation de sources mixtes,
souvent informelles permettant de connaître les choix des concurrents et de détecter les
grandes orientations des sociétés.
# Veille concurrentielle
Nécessaire surtout dans les secteurs de pointe, elle est pratiquée pour observer les
démarches actives des sociétés : actions de développement, déploiement vers d’autres
secteurs, travaux de recherche. Elle permet les comparaisons et donc la réactivité et de
l’anticipation dans un environnement concurrentiel.
# Veille environnementale
La plus généraliste de toutes, elle essaye de saisir « l’air du temps » et procède au
repérage des signaux faibles en analysant les bruits et les rumeurs. Elle s’appuie sur des
sources très variées tant formelles qu’informelles.
1.4. Etapes dans la mise en place d’un dispositif de veille.
Les étapes du processus de veille, représentées ci-dessous, correspondent aux étapes
classiques de la « chaîne documentaire » : la collecte, le traitement et la diffusion de
l’information.
Fig.1. Représentation graphique du processus de la veille selon la norme AFNOR XP X 50-053 [6]
9
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
# Définition des besoins et des axes de veille
Les professionnels de la veille s’accordent à dire que cette phase est décisive pour la
réussite du processus de veille. Le risque principal de la recherche de l’information sur le
web c’est d’être submergé par une quantité trop importante d’informations. Il peut être
minimisé par un ciblage précis qui permet d’extraire les renseignements utiles de la
masse de l’information circulante. Cette phase consiste en la définition des sujets et des
types de sources à surveiller en fonction des buts stratégiques de l’entreprise et doit
impliquer les experts des domaines concernés ainsi que les spécialistes de la veille. Après
l’identification des sources, des équations de recherche doivent être construites pour
différents outils de veille. Cette tache peut être assistée par les outils linguistiques :
lexique contrôlé ou thesaurus.
# Identification des types d’informations, sélection et organisation des
sources
Cette étape nécessite également l’implication des experts du domaine et des spécialistes
de la gestion de l’information. Il faut établir une liste des organismes ou des personnes à
surveiller. Puis il faut définir le type de l’information à collecter : la législation,
l’actualité, les événements. Enfin on recense les sources à considérer : bases de données,
publications papier ou électroniques, sites ou portails Internet. Le paysage informationnel
changeant constamment, ce répertoire doit donc être actualisé dés l’apparition, la
disparition ou le changement de la qualité des sources surveillées pour éliminer
d’éventuelles sources redondantes ou peu performantes. Il doit à tout moment
correspondre à la vision stratégique de l’entreprise.
# Surveillance de l’apparition de nouvelles informations dans les sources
identifiées
C’est une phase d’ observation de l’évolution du contenu des sources sélectionnées. Elle
peut être automatisée pour les sources électroniques par l’utilisation de logiciels de veille
ou par l’abonnement aux services d’alerte.
10
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
# Traitement et analyse des résultats de la veille
Le but de cette phase de la veille est de rendre les informations brutes exploitables par
rapport aux objectifs de la veille. Elle doit également permettre l’évaluation des
informations obtenues afin d’en extraire toute information à valeur ajoutée : fiable,
actuelle et pertinente par rapport au sujet à traiter.
Cette phase consiste au minimum en un classement des résultats dans des dossiers
thématiques ou dans une base de données. On peut également procéder à l’indexation des
résultats et à l’analyse bibliométrique (statistiques de l’apparition de certains sujets,
auteurs, organismes et leur répartition temporelle et géographique). Dans le cas de
documents numériques elle peut être partiellement ou entièrement automatisée avec des
logiciels disposant de fonctions d’analyse statistique et linguistique avancée : data
mining (procédés interactifs permettant de corréler et expliquer des événements, de
prévoir des comportements, valider des hypothèses), text mining, filtrage de résultats et
regroupement des informations provenant des différentes sources, analyse de la causalité,
validation ou élimination des « signaux faibles ».
Cette phase peut aboutir à une présentation intermédiaire de l’information collectée :
tableaux, graphiques ou résumés. Le type de traitement et la forme de présentation des
résultats dépendent des objectifs de la veille et plus directement du type de produit
documentaire qui doit être son résultat.
L’analyse des résultats permet également d’évaluer les étapes précédentes du processus
de veille et servira de base de réflexion pour un ajustement éventuel de l’organisation de
la veille. Elle servira également d’arbitre pour évaluer la qualité de la veille : on fera
attention au bruit ou au silence, signes de dysfonctionnement le plus souvent au niveau
de la sélection des sources, de la formulation des requêtes ou du paramétrage des outils.
11
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
# Synthèse des résultats / mise en perspective
C’est le moment du passage d’un ensemble d’informations sans corellation à un tout
cohérent. La synthèse donne lieu à une interprétation en vue des objectifs prédéfinis et
s’adresse à des destinataires préalablement choisis. Elle engage à nouveau les experts du
domaine.
# Diffusion des résultats
La diffusion peut concerner le document primaire ou bien un produit documentaire à
valeur ajoutée (newsletter, synthèse), elle peut être périodique ou ponctuelle.
Deux modes de diffusion sont possibles. En mode « pull » l’utilisateur entreprend une
démarche active pour obtenir l ‘information (par exemple via un portail spécialisé). Les
usagers peuvent aussi être alertés quand des informations nouvelles les intéressant
apparaissent on peut alors parler d’une solution « pull automatisé ». Dans la diffusion de
type « push » le processus est inversé et c’est l’information qui va vers l’utilisateur. S’il a
défini individuellement les critères de choix des informations qui l’intéressent, on parle
alors de Diffusion Sélective des Informations. La solution « push » personnalisé est
aujourd’hui privilégiée, elle consiste à envoyer à l’utilisateur une information
personnalisée, d’habitude via courrier électronique et lui permet de gagner du temps.
12
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
2. La problématique de la veille sur l’Internet
Internet [2, p.36] est un ensemble de réseaux interconnectés à structure distribuée (sans
centre) utilisant le même protocole de communication (TCP/IP). Il permet différents
usages :
- La communication de documents stockés sur d’autres ordinateurs qui peuvent être
visualisés à l’aide d’un navigateur et grâce au protocole de transmission commun
HTTP.
- L’échange du courrier électronique, grâce auquel fonctionnent les listes de
diffusion, protocoles SMTP (pour l’envoi) et POP3 (pour la réception)
- Les échanges sur les forums de discussion (NNTP)
- Les échanges instantanés (IRC)
- Le transfert de fichiers (FTP)
2.1. Spécificité du web comme source d’information.
La description du web doit unir ses qualités et défauts et démontrer ses paradoxes :
facilité de publication versus difficulté de la recherche d’information, information
structurée qui côtoie une information non-structurée, sources gratuites ou au contraire
payantes, accessibles ou non, normes et modes de codage hétérogène.
L’abondance - en 2003 on a estimé le nombre de pages consultables entre 2 et 4 milliards
et la croissance quotidienne est évaluée à 1 à 7 millions de pages [30] - et l’hétérogénéité
de l’information disponible constituent le trait le plus caractéristique du web. Cette
richesse rend la tâche des outils de recherche difficile et fait qu’ils retournent beaucoup
de bruit et les informations pertinentes sont noyées dans une masse d’informations
inutiles.
13
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
2.1.1. Information non structurée
Il existe deux méthodes pour résoudre les difficultés liées à la recherche de l’information
sur le web.
•
En amont, c’est la structuration des données : les projets de création de nouveaux
modèles, l’amélioration des modèles existants ou la création de normes relatives aux
métadonnées des documents électroniques (comme le format Dublin Core, MARC ou
la « Text Encoding Initiative » qui se développent à l’échelle mondiale). La tendance
actuelle est de les intégrer dans le document primaire facilitant ainsi à la fois la
diffusion et la récupération de l’information. Les grands projets de structuration des
documents électroniques accessibles via Internet étant en cours de réalisation, les
normes concernant les métadonnées sont de plus en plus souvent appliquées mais
cette évolution concerne toujours qu’une partie infime de l’information disponible sur
le web.
•
En aval, c’est le développement des outils de recherche performant i.e. capables de
fournir une information exhaustive et pertinente à partir de données structurées ou
non et qui s’accommodent des sources hétérogènes tant au niveau des formats que du
contenu. De tels outils utilisant des méthodes d’analyse linguistique avancées et
doivent être dotés d’une interface qui rend ces opérations transparentes pour
l’utilisateur. Dans ce cadre de projet d’amélioration du système de veille sur
l’Internet seules les solutions existantes en aval vont nous intéresser.
2.1.2. Le web invisible
Pour rappeler la définition donnée par l’office québécois de la langue française et reprise
par Serge Courrier [2, p.148] le web invisible est « la partie du Web correspondant à
l’ensemble des documents web qui ne sont pas indexés par les outils de recherche
traditionnels. Les données relatives à ces documents constituant le Web invisible peuvent
être dynamiques, non référencées (volontairement ou non), ou de nature non indexable
14
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
(ex. : les animations). Les ressources du Web invisible comprennent, entre autres, les
sites web construits autour d’une base de données (interrogeable uniquement par un
moteur de recherche interne), les pages accessibles par un formulaire de recherche, les
pages protégées par un mot de passe, les pages interdites aux robots d’indexation, les
pages écrites dans des formats propriétaires (Word, Flash, PDF, etc.), les intranets et les
extranets. »
Les éditeurs de moteurs de recherche et des outils de veille ont essayé de répondre au
défi du web invisible en créant des logiciels qui peuvent, plus ou moins bien, y pénétrer.
2.1.3. Constante évolution
L’autre trait caractéristique de l’Internet est le renouvellement rapide de l’information
disponible. Ce renouvellement n’est pas toujours prévisible et ne signifie pas toujours la
disparition de l’information désactualisée. La difficulté de suivre cette évolution est
amplifiée par le fait que l’information publiée est rarement datée et qu’elle peut changer
d’emplacement (URL) sans que l’internaute en soit informé.
2.1.4. Qualité et fiabilité de l’information
A cause de l’extrême facilité de publication sur le web et de part le manque de contrôle
éditorial, la fiabilité de l’information est souvent difficile à évaluer. L’anonymat de
l’Internet fait qu’il est facile d’y mener des actions de désinformation et de propager de
fausses rumeurs.
Le croisement des données provenant de différentes sources reste une méthode classique
pour fiabiliser l’information. On peut le faire en rassemblant dans un tableau des données
provenant de différentes sources ou en présentant d’une manière graphique les relations
entre les différentes sources. [1]
Ces méthodes demandent beaucoup de temps et il est donc souvent préférable d’évaluer
en amont les sources de l’information utilisées régulièrement. Les critères suivants
15
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
peuvent être utilisés pour l’évaluation rapide de la crédibilité d’un site : la réputation de
la source (entreprise, institution, expert), suffixe du nom de domaine (par exemple gov,
edu dont l’attribution est strictement contrôlée), nombre de citations et de liens
hypertexte pointant vers la page.
Christiane de Craecker-Dussart [3] analyse quelques outils d’évaluation de la qualité des
ressources de l’Internet. Par exemple « Détective de l’Internet » décrit les critères de
qualité de l’information concernant le contenu, la forme et le traitement des ressources.
Au niveau du contenu c’est la possibilité de l’identification de l’auteur, la présence d’une
bibliographie, le degré d’achèvement, la qualité éditoriale et le contenu des balises
« meta » qu’il faut prendre en compte. L’aspect formel concerne la facilité de navigation,
la possibilité de contacter le webmestre et la qualité technique du site. Enfin ce sont les
critères de traitement de l’information tels que les mises à jour et la stabilité du site qui
donnent l’information sur sa qualité.
Ismail Timimi et Jacques Rouault [22] distinguent trois niveaux de contrôle de
l’information publiée sur le web. D’abord les sources classiques, les sites web qui
peuvent être publiés sans aucun contrôle par les particuliers et les entreprises. Ensuite les
sources interactives, tels les forums de discussion, les listes de diffusion, les rubriques
FAQ qui sont d’habitude contrôlés par un modérateur. Enfin, les sources cumulatives :
bases de données bibliographiques ou bases de données des brevets qui donnent des
informations hautement fiables car validées par un dépôt légal, puis par un recensement.
2.2. Méthodologie de la veille sur l’Internet.
La veille sur l’Internet reprend les étapes de la veille classique présentées dans le chapitre
1.4. A cause du renouvellement constant de l’information disponible sur l’Internet la
sélection de sources doit être souvent reprise et même devenir elle-même le sujet d’une
veille. On peut donc distinguer deux types de veille, chacun ayant sa méthodologie et ses
outils : la veille sur les recherches (repérage des sources) et la veille sur les pages web
sélectionnées. Les documents électroniques circulant sur le web non seulement peuvent
16
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
être trouvés et
traités automatiquement
mais leur quantité rend
nécessaire
l’automatisation de certaines étapes de la veille.
2.2.1. La recherche des sources
La recherche des sources demande d’abord de définir le sujet de la recherche puis des
types de sources dans lesquelles l’information peut se trouver. Sera-t-on amené à
consulter les informations publiées par les organismes officiels ou celles qui ont un
caractère informel ? Quels sont les formats à considérer ? Les pages sont-elles statiques
ou dynamiques (i.e. reliées à des bases de données ou forums de discussion) ?
Va-t-on explorer les sites officiels (sites des institutions, des organismes divers), les sites
d’actualité (dépêches des agences, périodiques en ligne), les bases de données
bibliographiques ? Les sources gratuites ou payantes ? Un ou plusieurs outils de
recherche peuvent être utilisés : les moteurs de recherche ou les métamoteurs, les
annuaires ou les sélections de sites.
L’étape suivante c’est la définition des termes de recherche (les mots clés et les équations
de recherche) selon des options existantes dans les outils sélectionnés.
2.2.2. La veille sur les pages
La veille sur les pages peut ensuite se faire manuellement : dans ce cas les veilleurs vont
consulter régulièrement les pages sélectionnées afin de repérer les nouveautés. La veille
automatique implique le choix et le paramétrage d’un logiciel. Dans ce cas il est
nécessaire d’identifier les formats des documents surveillés (htm, html pour les pages
web, pdf pour les rapports et études) et les technologies employées (pages statiques ou
dynamiques).
2.2.3. Le traitement des résultats
On entend par traitement de résultats : la classification des documents, leur indexation
libre ou à l’aide d’un thesaurus, l’élaboration des résumés. Les résultats sont ensuite triés
17
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
et présentés sous forme de listes ou de graphiques. Ces tâches impliquent l’utilisation de
méthodes statistiques et linguistiques d’analyse de contenu et peuvent être effectuées
manuellement ou automatiquement.
2.2.4. L’exploitation des résultats et la diffusion
Comme dans la veille classique les résultats peuvent être consultés sur un portail
(diffusion de type « pull ») ou diffusés via courrier électronique (diffusion « push »),
éventuellement par profil d’utilisateur.
2.3. Les outils
L’hétérogénéité de l’information disponible via Internet est à l’origine de deux tendances
dans le développement des outils de recherche et de surveillance. Afin d’améliorer la
performance on cherche d’une part à maximaliser l’étendue des ressources analysées ou
d’autre part à développer des outils spécialisés.
Le marché des outils de recherche et de veille est mondiale, très hétérogène et
dynamique. On y trouve des outils existant depuis le début de l’Internet (utilisant les
méthodes de l’analyse statistique) aussi bien que des produits exploitant des concepts
plus récents (analyse sémantique), conséquences de l’évolution du réseau. Les outils
commercialisés sont développés par les grands éditeurs de solutions très complexes,
performantes et chères ou par des entreprises qui offrent des logiciels aux fonctionnalités
restreintes, souvent quasi ou totalement gratuits. Ce marché évolue sans cesse.
L’apparition et la disparition de nouveaux acteurs et produits doit être elle-même l’objet
d’une veille. L’analyse de marché est difficile. Le vocabulaire utilisé pour la description
des outils varie d’un éditeur à l’autre et l’information disponible (même sur les sites des
éditeurs de logiciels) n’est pas toujours à jour.
18
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
2.3.1. Les outils pour l’identification des sources
Ces outils répondent à plusieurs besoins : la recherche des pages versus la recherche des
sites, la recherche des documents contenant un mot-clé versus la recherche des sites
présélectionnés . On peut les ordonner selon l’axe :
exhaustivité (risque de bruit)
expertise (risque de silence)
# Moteurs de recherche
Le moteur de recherche « permet d’extraire d’une information, principalement textuelle,
les mots ou termes qui la représentent le mieux et de les stocker dans un index : le même
outil parcourt ensuite cet index afin d’identifier les termes les plus pertinents par rapport
à ceux de la question de l’utilisateur, puis de trier les informations pour lui fournir en
retour ». [37, p.17]
Afin de remplir cette tâche les moteurs de recherche : lancent des robots (crawlers,
spiders) qui parcourent le web en suivant les liens hypertexte, ensuite ils aspirent et
indexent le texte intégral de pages rencontrées ainsi que les métadonnées de chaque page.
Pour chaque mot indexé sont notés les propriétés telles que l’occurrence des mots-clés,
l’emplacement dans la page ou la présence/absence dans les métadonnées. Chaque mot
est alors ajouté à un index inversé.
Au moment de la recherche ces indexes sont consultés, les requêtes avancées exigent le
croisement de plusieurs index. Le résultat de la recherche peut être présenté sous forme
d’une liste ou d’une carte de sites organisés en classes et triés selon des critères de
pertinence. Ces critères varient d’un moteur à l’autre, ils peuvent être absolus
(indépendants des recherches) ou relatifs (dépendants des recherches), calculé selon des
méthodes différentes, parfois croisées :
19
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
•
l’analyse statistique basée sur l’occurrence et la cooccurrence des mots, comparés à
leur fréquence moyenne et combiné avec les algorithmes de pondération.
•
l’indice de popularité basé sur le nombre et la provenance (sites personnels versus
institutionnelles) de liens qui pointent vers le site
•
la mesure d’audience évaluée par le nombre de clics reçus quand la page apparaît
dans la page des résultats du moteur
Ces méthodes sont bien adaptées aux recherches généralistes dans de très grands volumes
de données. Pour l’analyse de corpus spécialisés dans un domaine les méthodes de
l’analyse linguistique et sémantique sont plus adaptées. Elles sont efficaces quand
utilisées conjointement avec des outils linguistiques comme les lexiques contrôlés ou les
thesaurus.
Ce qui différencie les moteurs c’est la performance des robots utilisés (elle détermine la
taille et la fraîcheur de l’index) et la pertinence du système de classement des résultats.
Leur performance s’exprime dans le volume de données signalées et dans la précision de
la recherche avancée.
Les imperfections du fonctionnement des moteurs sont multiples :
•
Fréquemment, lors de recherches en texte intégral le bruit est important. Pour palier à
ce défaut les moteurs de recherche proposent parfois d’affiner la requête à l’aide
d’une catégorie (issu d’habitude d’un annuaire) ou de filtres définis par l’utilisateur et
portant sur la langue, la date, le type ou le format de publication de document.
•
Le silence peut être la conséquence d’un traitement linguistique limité, elle peut
survenir dans le cas où le moteur n’indexe qu’une partie d’une page ou s’il n’exploite
pas tous les protocoles de l’Internet et n’indexe pas le web invisible.
•
Les résultats obtenus ne donnent pas l’image du web au moment de la recherche mais
au moment de l’indexation par le robot, ils peuvent donc contenir des pages qui ne
sont plus présentes sur le web.
20
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
Les éditeurs des moteurs sont sans cesse en quête d’améliorations techniques. Ils
proposent des fonctionnalités supplémentaires par exemple le classement ou le filtrage
des résultats selon le territoire, la langue, les dates de mise à jour. Ils développent des
outils linguistiques qui permettront une reformulation de la requête, la correction
orthographique, la traduction automatique de la requête ou du document. D’autre part, ils
améliorent la présentation des résultats en développant les techniques de classification
automatique utilisant des classes déterminées à l’avance ou des classes, parfois
hiérarchisées, créées a posteriori sur la base de similarités trouvées dans les documents
(clustering). Enfin il existe des moteurs spécialisés par domaine ou secteur, par zone
linguistique, par type de fichier ou type de documents.
# Métamoteurs
Les métamoteurs interrogent simultanément plusieurs moteurs de recherche, fusionnent
les résultats, éliminent les doublons, calculent un nouveau taux de pertinence et trient les
résultats. Ils sont souvent dotés de modules d’exploitation de résultats avec des outils de
cartographie. Travaillant sur les résultats fournis par les moteurs de recherche ils
possèdent toutes leurs qualités et tous leurs défauts.
Le point faible des métamoteurs est qu’ils n’utilisent pas les options de recherche
avancée propres à chaque moteur et peuvent donc générer beaucoup de bruit. Ils limitent
également le nombre de réponses récupérées de chaque moteur interrogé.
Les métamoteurs sont performants pour donner un panorama de l’information disponible
sur l’Internet mais peu efficaces pour des recherches précises.
# Annuaires
Les annuaires répertorient des sites web (et non des pages) par l’intermédiaire d’une
intervention humaine. Les sites soumis par leurs administrateurs sont acceptés par les
sélectionneurs de l’annuaire s’ils correspondent à une « charte éditoriale » propre à
chaque annuaire. Les critères de sélection sont d’ordre technique et éditoriale.
21
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
Les sites sont classés par catégories organisées hiérarchiquement, la recherche peut se
faire en naviguant parmi ces catégories ou par mots-clés (appliqués aux noms de
catégories uniquement). Les annuaires n’ont pas la prétention de l’exhaustivité et
recensent seulement une petite partie des ressources présentes sur le web. Leur point
faible est lié à la nécessité de l’intervention humaine et la mise à jour beaucoup moins
fréquente que dans le cas des moteurs de recherche.
# Sélections des sites
Les sélections de sites sont élaborées par les experts d’un domaine donné. Elles doivent
garantir la bonne qualité des sites inclus même si les critères de choix peuvent être
relativement subjectifs. Elles peuvent être généralistes ou spécialisées dans un domaine
et ont de la valeur seulement si elles sont mises à jour régulièrement
# Portails
Les portails spécialisés s’adressent à groupes d’usagers ciblés et constituent un point
d’accès unique à des ressources hétérogènes, tant en terme de nature et de format (bases
de données, pages HTML, listes de diffusion) que de source (internes ou externes au
portail). Les données sont organisées et accessibles via une interface commune à toutes
les ressources. Ils peuvent offrir aux utilisateurs un accès personnalisé et interactif.
2.3.2. Les outils pour le repérage des sources.
# Moteurs et métamoteurs de recherche
Les moteurs et les métamoteurs proposent (en version payante) la possibilité de lancer les
recherches à intervalle régulier et d’afficher les résultats nouveaux par rapport à la
dernière session. Cette fonction supplémentaire peut être utilisée pour la veille sur les
pages des sites mais est particulièrement utile pour surveiller l’apparition de nouvelles
sources d’information sur un sujet donné.
22
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
2.3.3. Les outils pour la surveillance des pages.
# Agents de veille
La surveillance des pages repose sur le principe suivant : les pages sont aspirées (création
d’une copie de page sur un ordinateur local) à intervalle régulier, leurs versions
successives sont enregistrées et comparées.
A cette fonctionnalité de base viennent s’ajouter des fonctions supplémentaires et des
possibilités de paramétrage très variées :
•
programmation de la veille selon une fréquence paramétrable ou lancement manuel
de la veille par l’utilisateur,
•
définition d’une modification selon différents critères (nombre de mots changés,
apparition des mots-clés),
•
formulation des requêtes avancées (avec les opérateurs booléens, la troncature, les
guillemets),
•
mise en évidence des mots-clés ou des fragments modifiés,
•
avertissement de l’utilisateur (ou d’un groupe d’utilisateurs) des modifications et
création d’un rapport de veille,
•
sauvegarde des historiques de recherches,
•
exploration des liens à partir d’une page donnée jusqu’à une profondeur définie par
l’utilisateur (possibilité d’exclure certains URLs),
•
possibilité d’exclure de la veille certains fragments de page (texte inclus entre
certaines expressions), certains formats ou chaînes de caractères
•
import des favoris de différents navigateurs Internet,
•
mise en pause des tâches de veille,
•
archivage de plusieurs versions d’une page,
•
création d’indexes de mots-clés et fonction de recherche avancée dans les résultats,
23
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
•
représentation graphique des relations entre les documents
•
prise en compte du web invisible :
- du moment que l’utilisateur (ou robot) a accès et connaît l’adresse d’une page
HTML, l’aspiration se fait de la même manière que cette page soit statique ou
dynamique puisque dans les deux cas lorsqu’un internaute, ou un programme,
navigue vers une page, c’est toujours du html (ou tout format compatible avec un
navigateur) qui lui est renvoyé. Du point de vue de l’utilisateur, la différence
fondamentale entre une page statique et une page dynamique est l’URL qui
permet d’y accéder : lorsque qu’il s’agit d’une page dynamique, l’adresse est
souvent plus compliquée et peut contenir des paramètres de requête. Par exemple
lors d’une requête http vers le site de l’Institut de l’élevage http://www.instelevage.asso.fr/html1/rubriqueclub.php3?id_rubrique=35 le serveur web va
construire une page au format html à partir d’une base de données des rubriques
en utilisant la rubrique numéro 35. Afin de surveiller les sites protégés par un mot
de passe ou accessibles depuis un formulaire les agents de veille créent donc des
macros contenant les données de la connexion. Les macros sont exécutés pendant
la vérification périodique du site.
- Certains agents sont capables de surveiller les pages utilisant des cadres (html
frames) alors que celles ci ne sont pas toujours indexées par les moteurs de
recherche traditionnels. Pour ce faire chaque cadre dans la page est interrogé
séparément.
- Certains agents peuvent traiter des formats propriétaires : doc, pdf.
La phase de traitement des résultats engage des outils et des technologies complexes :
analyse statistique, linguistique et sémantique qui permettent de désambiguïser les termes
de veille, d’effectuer le contrôle orthographique, la catégorisation des résultats,
l’élaboration automatique des résumés et la représentation cartographique des résultats.
C’est dans les performances de ces fonctionnalités qu’on observe la plus grande
différence entre les logiciels de veille.
24
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
# Logiciels de gestion de favoris
Les logiciels de gestion de favoris permettent d'organiser et de gérer les favoris et de
surveiller les pages sélectionnées. Comme la veille est leur fonction secondaire, leur
paramétrage est moins précis que dans le cas des agents de veille.
***
Indépendamment de la richesse de fonctionnalités présentes dans les logiciels de veille
sur les pages leur capacité de sauvegarder et comparer plusieurs versions d’une page
permet d’automatiser les tâches répétitives et en conséquence une grande économie de
temps.
Indépendamment du choix du logiciel, le succès de la veille automatique repose sur la
qualité du paramétrage qui seul assure des alertes pertinentes. Le paramétrage demande
beaucoup de temps et doit être effectué pour chaque nouvelle source. Il doit être fait pour
chaque page et est primordial dans le cas de pages généralistes ou la veille se fera sur les
mots-clés. La cohérence de paramétrage des différentes pages est également importante,
ainsi que sa réévaluation. Une mise à jour est nécessaire si les résultats de la veille ne
sont pas satisfaisants.
2.3.4. Les infologiciels.
Les infologiciels sont des outils à l'architecture modulaire (on peut acheter les briques
logicielles en fonction de ses besoins) qui permettent de mener des recherches dans le
contenu et de surveiller les résultats des recherches. Ils sont dotés de fonctions
linguistiques avancées et peuvent traiter de très gros volumes de données structurées ou
non-structurées, provenant de sources hétérogènes.
Les infologiciels sont capables de faire de l’analyse statistique et linguistique grâce à un
moteur d’indexation et de recherche sémantique. Ils offrent les fonctionnalités
d’indexation des documents, de recherche sur leur contenu, de classification automatique,
25
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
de représentation cartographique des résultats et d’élaboration automatique de résumés.
Ils peuvent comporter des fonctions de création d’outils de classement et d’indexation
tels que les classifications, lexiques et thesaurus. Ils sont capables d’extraire de
l’information à partir de documents textuels, de la structurer et de la stocker dans des
bases de données relationnelles.
Les infologiciels permettent la classification automatique des résultats dans des
catégories crées en amont ou en aval de la recherche (clustering).
Pour l’indexation automatique du texte intégral les éléments textuels sont extraits et
convertis dans un format exploitable par le moteur de recherche. Ensuite les indexes sont
créés à l’aide de méthodes d'analyse statistique (selon les principes décrits dans le
chapitre 2.3.1.). Pour trier les résultats par pertinence, on utilise ces index. On se sert
également des méthodes de l’analyse linguistique afin de minimaliser les problèmes
d’ambiguïté (fautes de frappe, synonymie, polysémie, paraphrase) et d’outils tels que les
dictionnaires, les antédictionnaires (listes de mots vides), les thesaurus et les grammaires.
C’est la qualité de l’analyse statistique et linguistique qui décide de la pertinence des
résultats obtenus.
Les résultats peuvent être présentés sous forme d’une liste de documents triés par date,
par ordre alphabétique ou par pertinence. La présentation cartographique sous forme de
carte ou de graphes permet d’obtenir une vue d’ensemble, de démontrer les nœuds, les
relations et la hiérarchie entre les documents et de regrouper les mots-clés selon les
concepts communs.
Les infologiciels peuvent être programmés pour effectuer des tâches d’indexation et de
recherche à l’intervalle régulier et de cette manière assurer la veille sur les sources
internes ou externes de l’entreprise. La différence entre la recherche effectuée par les
moteurs de recherche « ordinaires » et par les infologiciels réside dans la pertinence des
résultats obtenus.
26
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
Limites des infologiciels :
•
Performance sémantique toujours limitée, il reste des ambiguïtés impossibles à traiter
par un logiciel
•
Multilinguisme : homographie et relation entre un mot et un concept différente d’une
culture à l’autre
•
Le paramétrage, l’installation et la mise à jour de bases de connaissance sont
coûteuses et demande un temps d’intégration important.
2.4. Critères d’évaluation des outils
2.4.1. Critères pour évaluer la qualité d’un logiciel
On peut évaluer un logiciel sous deux angles : sa performance (est-ce qu’il remplit
correctement ses fonctions) et les caractéristiques de son utilisation (l’ergonomie, les
possibilités d’évolution).
Les travaux de Boehm-McCall [24, p.166] qui développent cette approche ont donné lieu
à la norme ISO9126 qui défini les caractéristiques qualité d’un logiciel. Elle propose
l’analyse de la qualité d’un logiciel selon quatre pointes de vue : fonctionnel, utilisation,
maintenance et économique.
L’aspect fonctionnel comporte les facteurs :
- la pertinence : la capacité de répondre au problème posé,
- l’adéquation : la correspondance entre le logiciel et l’organisation de travail de
l’entreprise, les procédures suivies,
- la généralité : l’aptitude de logiciel à la résolution de problèmes plus larges que le
projet particulier.
27
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
L’aspect utilisation concerne l’exploitation du logiciel. Il comporte les facteurs :
- la maniabilité : la facilité de l’emploi par l’utilisateur auquel il est destiné (la
convivialité de l’interface, degré de paramétrage accessible à l’utilisateur, la
possibilité de l’autoformation,
- la fiabilité : la capacité de remplir ses fonctions pour une durée d’utilisation
donnée,
- l’efficience : l’aptitude à minimiser l’utilisation des ressources disponibles,
- la confidentialité : les protections du logiciel contre l’accès par les personnes non
autorisées,
- l’interopérabilité : la capacité à interagir et échanger des données avec d’autres
systèmes, logiciels ou applications.
L’aspect maintenance concerne l’évolution potentielle du logiciel. Il comporte les
facteurs :
- la maintenabilité : facilité de corriger les erreurs résiduelles,
- l’adaptabilité : l’aptitude à évoluer, modifier ou ajouter de nouvelles
fonctionnalités,
- la portabilité : facilité de transférer le logiciel dans un autre environnement ou
matériel.
L’aspect économique concerne la rentabilité des applications. Il se traduit par la mise en
relation des coûts d’acquisition et d’exploitation du logiciel et des gains réalisés (au
terme de temps) grâce au logiciel.
Certains critères sont antinomiques et dans un contexte particulier il faut les hiérarchiser
pour choisir la solution répondant le mieux aux besoins de l’organisation.
28
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
2.4.2. Critères d’évaluation des logiciels de veille
Les critères fonctionnels :
•
la présence des fonctions essentielles pour une veille efficace (voir chapitre 2.3.3.) :
les options de paramétrage précis, le traitement d’une large gamme de formats, la
facilité du paramétrage et de consultation des résultats.
Critères de qualité de l’information fournie :
•
la pertinence définie comme la corrélation entre une question posée et la réponse
obtenue.
En évaluant la pertinence il faut considérer le sujet de la question, la tâche visée et le
contexte du besoin de l’information. La pertinence de la requête peut être améliorée par
l’utilisation des fonctions linguistiques au moment de la formulation de la requête initiale
ou au moment de son affinement. La pertinence est avant tout le résultat d’une réflexion
préalable à la formulation de la requête et éventuellement de la collaboration entre le
documentaliste et le demandeur de l’information.
•
l’absence de silence
•
l’absence de bruit.
2.5. Les outils intelligents : mythe ou réalité.
La norme AFNOR défini un agent intelligent comme « un objet utilisant les techniques
de l’intelligence artificielle : il adapte son comportement à son environnement et, en
mémorisant
ses
expériences,
se
comporte
comme
un
sous-système
capable
d’apprentissage : il enrichit le système qui l’utilise en ajoutant au cours du temps des
fonctions automatiques de traitement, de contrôle, de mémorisation ou de transfert
d’information. » [20, p.263]
29
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
Les agents intelligents sont définis par plusieurs notions :
•
l’autonomie (fonctionnement automatique, sans intervention humaine)
•
la capacité à coopérer avec d'autres agents, des serveurs, des humains
•
la capacité à apprendre et à s'adapter aux évolutions de son environnement
Il faut constater un décalage existant entre cette définition et les outils vendus sous
l’appellation d’ agent intelligent. Néanmoins ces produits présentent certaines
caractéristiques qui entrent dans le cadre de cette définition : autonomie dans
l’interrogation des bases de données ou sites nécessitant l’identification, capacité de
coopération (l’aide linguistique dans la formulation ou l’affinement de la requête),
capacité à apprendre (fonctions de mémorisation des préférences de l’utilisateur).
Il est plus prudent d’utiliser le terme agent de recherche ou agent de veille qui désignent
des outils qui agissent au nom de l’utilisateur plutôt qu’agent intelligent qui sous-entend
une autonomie d’action large que semble n’offrir aucun des logiciels du marché.
30
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
Deuxième partie
L’étude de cas : automatisation du
processus de veille dans le réseau
documentaire des Chambres
d’Agriculture
31
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
1. La veille dans le réseau documentaire des Chambres
d’Agriculture
1.1. Le fonctionnement du réseau documentaire des Chambres
d’Agriculture.
Le centre de documentation de l’Assemblée Permanente des Chambres d’Agriculture fait
partie du réseau documentaire des Chambres créé en 1990 avec pour objectif l’échange
d’information et le partage des compétences documentaires de ses membres. En 1998 a
été crée le site Internet du réseau documentaire des Chambres d’Agriculture, bientôt
intégré
au
site
Internet
de
l’APCA
et
dénommé
« Graines
de
doc »
(http://resodoc.apca.chambagri.fr).
Le réseau documentaire est géré par un Comité de pilotage constitué de 8 directeurs de
Chambres. Les conditions de son fonctionnement sont définies dans un document
interne : Modalités d'accès et d'utilisation des données documentaires. En échange d'une
cotisation annuelle, les adhérents ont accès aux documents primaires grâce au module
GED et au contenu des bases de données, dont la plus importante est la base de données
bibliographique (aujourd’hui plus de 43 000 notices) gérées par le logiciel Cindoc. Ils
peuvent télécharger les notices bibliographiques ou d’autres notices pour les intégrer à
leurs bases de données locales. Ils ont également accès aux produits documentaires
élaborés au sein du réseau et partagent des outils, entre autres un thesaurus commun, des
guides et des modes d’emploi. Les adhérents peuvent collaborer à l'enrichissement des
bases de données sous conditions de disposer d’équipements et du savoir-faire
nécessaire. Cet apport est rémunéré et diminue le coût d'adhésion au réseau qui par
ailleurs dispose d’un budget commun.
Le travail des membres du réseau est mis en commun au sein de l'APCA où sont
également élaborées les versions définitives de la majorité des produits documentaires.
Pour assurer la bonne qualité des prestations, les membres du réseau ont élaboré des
méthodes de travail communes et ils partagent les moyens techniques. Le Groupe Qualité
32
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
a mis en place un ensemble de procédures et d’outils: des guides de saisie, des fiches de
revues, des listes d'autorité ainsi qu’un thésaurus. D'autres groupes de travail, composés
de documentalistes de l’APCA et des Chambres adhérentes coordonnent d'autres projets
à plus long terme. Le Groupe Prestation développe les nouveaux produits et services, le
Groupe Promotion a pour mission de promouvoir le travail documentaire du réseau et le
site Internet, le Groupe Photothèque a comme objectif la constitution et la gestion d'un
fond d'images. Les groupes de travail, dont l’activité est coordonnée par le Groupe des
Animateurs, sont composés de 4 à 7 documentalistes et travaillent au rythme de 6
réunions par an.
Le centre documentaire de l’APCA est un membre du réseau au même titre que les
centres des autres Chambres adhérentes et il n’a pas de pouvoir d’imposer ses décisions
aux autres. Ceci dit, il dispose de moyens en terme de personnel et d’équipement plus
importants et il est souvent le moteur des changements. Les documentalistes de l'APCA
s’engagent dans l'élaboration d'une méthodologie de travail et d’outils et assurent la
formation et l'assistance téléphonique aux utilisateurs des outils informatiques (logiciels
Cindoc et Superdoc). L'APCA est également le représentant des Chambres d'Agriculture
auprès des prestataires informatiques, elle assure la conception et la maintenance du site
web « Graines de doc », gère l'infrastructure informatique et polygraphique (serveurs
d'hébergement des sites web et intranet, machines d'impression) et elle est responsable de
la mise à jour du site Internet.
Dans une grande majorité, l'information collectée provient du dépouillement de la presse
spécialisée et généraliste (300 titres), ainsi que des ouvrages. D’autres sources sont
exploitées: les annuaires, l'Internet (une sélection de sites), l'Intranet (le forum de
discussion), les banques de données (Juripro). Toute information est indexée et archivée
dans des bases de données gérées par le logiciel Cindoc, à partir desquelles différents
produits documentaires sont élaborés et mis à la disposition des utilisateurs. La diffusion
de l'information se fait par un envoi hebdomadaire de versions imprimées, par envoi de
courrier électronique et par publication sur les sites web et intranet (pages actives gérées
par le module web du Cindoc).
33
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
Produits documentaires destinés aux membres du réseau
Produits
Publication
Diffusion
Bulletin des brèves - questions d'actualité qui n'ont pas fait
l'objet d'un article intégré dans les bases de données du mensuel
réseau documentaire
imprimé,
Internet
Bulletins thématiques - notices bibliographiques des
articles sélectionnés par les documentalistes du réseau:
L'agriculture biologique
La qualité
L'environnement
hebdomadaire
Les bâtiments d'exploitation
ou mensuel
Les bovins et le lait
L'agronomie-équipement
JO Hebdo
Doc Technique
imprimé,
Internet
Graines de doc infos - la lettre d'information du réseau
bimensuel
documentaire
imprimé
Graines de doc mail – notices des articles publiés sur le
hebdomadaire
web avec les hyperliens qui pointent vers les pages www
envoi via
e-mail
Toute la doc de la semaine – sélection des notices des
articles des revues dépouillées par les documentalistes du hebdomadaire
réseau
imprimé,
Internet
Le Zoom – sélection des informations contenues dans les
mensuel
bases de données du réseau
Internet
Produits documentaires tout public
Produits
Actualisation
Diffusion
Annuaire des organismes
-
Internet
Calendrier des manifestations
-
Internet
Glossaire
-
Internet
Sélection des ressources presse
annuelle
Internet
Sélection des ressources sur le web
-
Internet
La direction générale du développement des services du réseau a comme objectif de
rendre les utilisateurs le plus autonome possible. Le passage au « tout numérique »
permet d’accéder à distance aux documents primaires, leur diffusion est automatisée et
passe essentiellement par un portail documentaire intégré au site Internet « Graines de
doc ».
34
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
La publication régulière de toute une gamme de produits élaborés en réseau exige une
très bonne organisation. Les cycles de production hebdomadaires et mensuels
s'interposent et chaque documentaliste a sa part dans l'élaboration des différents produits.
Un planning précis, à l’heure près, est suivi de façon à assurer l’enchaînement des
tâches : dépouillement des publications-sources de l’information, rédaction des notices,
centralisation des notices, scanne des documents, création des liens GED et finalement la
relecture et la validation des publications.
1.2. «Graines de doc mail» : produit issu de la veille sur les sites
Internet.
Le produit "Graines de doc mail" est une "lettre de veille hebdomadaire qui présente des
informations issues du web sous 2 angles : la nouveauté et l’actualité". La fonction
secondaire de « Graines de doc mail » est la promotion du site Internet du réseau
documentaire et des produits documentaires des Chambres d’agriculture. Elle se fait par
le signalement des parties nouvelles, des mises à jour liées à l’actualité.
"Graines de doc mail" s’adresse aux membres des Chambres adhérents du Réseau
documentaire et répondent à trois besoins:
!
indiquer les nouveautés apparues sur le web
!
servir de passerelle vers les documents primaires
!
diffuser l’information sur l’actualité trouvée sur le web
La lettre recense donc des documents électroniques vers lesquelles pointent les liens
inclus dans "Graines de doc mail" et qui doivent être disponibles sur le web pour la
consultation pendant au moins une semaine à partir de l’envoi de la lettre.
Sont pris en compte les sites édités par les institutions européennes (Union européenne :
un guichet Internet unique destiné aux entreprises, Commission européenne, Eurostat),
les ministères (Ministère de l’agriculture, de l’alimentation, de la pêche et des affaires
rurales, Ministère de l’écologie et du développement durable), les organismes de
35
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
recherche (Institut national de la recherche agronomique, Institut de l élevage), les
associations professionnelles (Confédération française de la coopération agricole,
ONIVINS). Plusieurs domaines d’intérêt sont couverts : l’agronomie, l’aménagement et
le développement local, l’environnement, le bois, les cultures fruits, légumes, les grandes
cultures, les industries agroalimentaires, les politiques agricoles, la production animale,
les statistiques et la réglementation dans le domaine agricole. Le dépouillement des sites
permet de sélectionner des sites Internet, listes de discussion, forums, des publications à
télécharger, les informations sur des futures manifestations à signaler dans le produit.
Le contenu de "Graines de doc mail" ne doit pas être redondant par rapport aux autres
produits documentaires du réseau, les informations retenues devrait être nouvelles et
avoir un caractère plutôt généraliste.
Sa structure est toujours la même et comporte :
•
SOMMAIRE du numéro liste de liens hypertexte vers les parties correspondantes du
document.
•
FOCUS consacré à un sujet particulier reflétant l’actualité de la semaine.
•
L’ESSENTIEL contient les notices renvoyant aux informations repérées grâce à la
surveillance partagée des sites Internet. Il est divisé en rubriques thématiques :
Agriculture biologique, Agronomie, Développement rural, Economie et politique,
Enseignement-Formation-Emploi, Environnement, Exploitation agricole, FormationEmploi, Législation, Productions animales, Productions végétales, TransformationIAA.
•
OUTILS est un chapitre contenant les notices des publications, des bases de données,
des graphiques. Il est structuré en rubriques : Annuaires et répertoires, Indicateurs,
Publications, A paraître.
•
AGENDA contient les notices des informations sur les événements dans le monde
agricole (foires, salons, conférences).
•
Les informations éditoriales et pratiques concernant l’abonnement à la lettre
concluent l’envoi
36
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
Fig. 2. Présentation de « Graines de doc mail »
Chaque notice contient un titre qui explicite l’information retenue, un résumé de
quelques lignes, une date de publication, la taille et le poids du document primaire et le
lien hypertexte vers ce document. Un numéro de « Graines de doc mail » contient une
trentaine de notices.
Les pages sélectionnées peuvent être rédigées en français (une grande majorité) ou en
anglais et sont publiés dans les formats suivants :
•
html, htm : pour les pages statiques des sites
•
pdf : pour les études et les dossiers
•
asp, jsp : pour les sites dynamiques
•
php : pour les forums de discussion
37
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
1.3. Description du fonctionnement actuel de la veille.
Pour avoir une image juste du processus de l’élaboration de « Graines de doc mail » j’ai
analysé la fiche du produit, j’ai discuté et observé le travail des documentalistes de
l’APCA, j’ai également mené une enquête auprès des documentalistes-veilleurs (voir
annexe 2).
C’est une véritable chaîne de production qui engage des documentalistes de plusieurs
Chambres en tant que veilleurs ou réalisateurs du produit. Quinze documentalistesveilleurs participant à la production de « Graines de doc mail » surveillent manuellement
l'évolution d'une quarantaine de sites institutionnels. Dans la majorité des cas, ils ne
s’intéressent qu’à certaines rubriques ciblées des sites.
Ils dépouillent les publications électroniques et élaborent les notices destinées à la
publication dans "Graines de doc mail" et les saisissent dans une base de données
temporaire. Les consignes de saisie ont été élaborées par les documentalistes du réseau.
Les messages promotionnels des autres produits du réseau documentaire, qui doivent être
intégrés à la lettre, sont rédigés à l’avance et prêt à l’emploi.
Les documentalistes-réalisateurs encadrent le travail des veilleurs (ils communiquent
l’heure limite de saisie de données, le numéro et la date du bulletin), choisissent le thème
de FOCUS, vérifient la qualité des notices et valident le numéro.
Les documentalistes de L’APCA transfèrent les donnés sur la base définitive de
« Graines de doc mail », fusionnent les notices et réalisent la version définitive du
bulletin. Après la relecture faites par le réalisateur « Graines de doc mail » est envoyé à
tous les destinataires par courrier électronique sans distinction de profils destinataires.
Elle donc diffusée dans le mode « push ».
38
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
Les documentalistes-réalisateurs explorent parfois l’Internet à la recherche des sujets
d’actualité qui pourraient devenir le « Focus » du numéro
D’après une enquête distribuée aux veilleurs participant dans l’élaboration de « Graines
de doc mail » la veille sur les pages leur prend le plus de temps (en moyenne 76 minutes
par semaine) et devrait se faire (au moins pour certains sites) quotidiennement. La saisie
des notices leur prend un peu moins de temps : 65 minutes. La recherche de nouvelles
sources d’information n’est pas une activité régulière des veilleurs, ils pensent pourtant
qu’elle devrait se faire régulièrement tous les mois ou au moins tous les trois mois.
39
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
2. Choix d’un système de veille pour le réseau
documentaire des Chambres d’Agriculture
L’objectif de ce travail est d’étudier s’il est intéressant d’automatiser la totalité ou
certaines étapes de processus de veille. Puis de voir dans quelles conditions et avec quel
outil. L’analyse des logiciels de veille sur l’Internet permettra d’avoir une vision
d’ensemble et de choisir ceux qui répondent le mieux aux besoins du réseau
documentaire des Chambres d’agriculture. Enfin, l’analyse des changements dans
l’organisation de travail qu’imposerait leur utilisation doit aider les responsables dans la
décision concernant une éventuelle acquisition. Mon travail comporte donc plusieurs
volets :
•
l’établissement des critères de choix entre la veille manuelle et la veille semiautomatique,
•
l’analyse technique, fonctionnelle et ergonomique des logiciels de veille,
•
l’analyse de l’organisation du travail actuelle,
•
la formulation des préconisations.
Par la suite j’entend par utilisateurs les documentalistes du réseau participant dans
l’élaboration de « Graines de doc mail » et par destinataires les abonnés à la lettre.
2.1. Choisir entre veille manuelle et veille automatisée
Le choix entre une solution informatique et le travail humain concerne aujourd’hui
presque toutes les tâches documentaires. Dans la majorité de cas c’est un choix entre un
traitement économique et rapide mais de moins bonne qualité et un traitement plus
coûteux mais donnant de meilleurs résultats. Je vais définir les critères de choix entre
veille manuelle et veille automatique pour ensuite les adapter au contexte particulier de la
veille sur l’Internet des documentalistes du réseau documentaire des Chambres
d’agriculture.
40
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
2.1.1. Les critères économiques
Le choix de point de vue économique va se faire par la comparaison du coût de
l’acquisition et de l’exploitation d’une solution informatique avec le coût de travail des
documentalistes-veilleurs.
Certains agents de veille sont gratuits et les prix peuvent aller jusqu’à 200 euros par
licence (tarifs dégressifs chez certains éditeurs); les plateformes en ligne peuvent
également être gratuites ou coûter jusqu’à 20 euros pour 50 mot-clé à surveiller (tarifs
également dégressifs). Ces logiciels (décrits dans le chapitre 2.3.3.) ont toutes les
fonctions nécessaires pour automatiser la surveillance des pages sélectionnées : ils
aspirent et comparent différentes versions d’une page, mettent en évidence les
modifications, envoient les alertes et élaborent les rapports de veille.
Le prix des infologiciels disposant des fonctionnalités d’analyse linguistique avancées
qui permettent d’automatiser non seulement la phase de la surveillance de modifications
mais aussi les étapes du traitement des résultats et de la diffusion est nettement plus
élevée. Il se situe au niveau de 1000-2000 euros par licence client et au minimum de 10
000 euros par serveur (voir la grille de comparaison, annexe 1)
Actuellement, une quinzaine de documentalistes passe en moyenne 76 minutes par
semaine et par personne pour la seule surveillance des modifications des pages web
(environ 600 pages). Après la phase de paramétrage, ce temps pourrait être divisé par
deux s’ils utilisaient un logiciel de veille ce qui donnerait une « économie » d’environ
6500 Euros par an (calcul sur la base d’un salaire moyen annuel brut environ 24 000
euros annuel brut). Même si le gain reste modeste, ce calcul prouve déjà qu’il est
intéressant de se doter d’un logiciel simple qui pourrait partiellement automatiser la
surveillance des pages.
Temps économisé par personne et par semaine
38 minutes
Taux horaire
13.18 Euros
« Economie » réalisée pour 15 personne sur un an
6 514 Euros
Fig. 3. Gain économique de l’automatisation de la surveillance des pages web
41
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
Pour ce qui concerne l’achat d’un infologiciel son acquisition serait justifiée seulement
dans le cas ou la veille sur Internet impliquerait le traitement de volumes de données bien
plus importants que maintenant ou dans le cas de l'insuffisance des ressources humaines,
ce qui n'est pas le cas dans le réseau documentaire des Chambres d'Agriculture.
2.1.2. Les critères de la qualité de veille
La veille manuelle faite par les documentalistes ayant une certaine expertise du domaine
a l’avantage d’être toujours pertinente. Les agents de veille ne sont pas toujours capables
de différencier entre des modifications signifiantes et insignifiantes telles qu’une date ou
des messages publicitaires. Même si certains logiciels offrent la possibilité d’exclure de
la veille certains formats (par exemple les images), des chaînes de caractères (par
exemple les dates) ou des rubriques ce système de restrictions demande un paramétrage
très précis, il n’est pas infaillible et la veille peut apporter du bruit.
En revanche, la veille automatique est plus systématique que celle effectuée par les
humains : il n’y a pas de risque que l’agent « oublie » de vérifier une page ou une
rubrique.
2.1.3. Les critères de la qualité du traitement de l’information collectée
Un traitement performant au niveau sémantique nécessite des outils linguistiques
avancés. L’élaboration automatique des résumés de pages, l’intégration du thesaurus des
Chambres pour les recherches et pour la veille sur les mots clés, la catégorisation
automatique simplifieraient le travail des documentalistes veilleurs. Ces fonctions sont
accessibles dans les infologiciels. Néanmoins, il y a un consensus des spécialistes de
l’information que la qualité du traitement automatique est inférieure à celui effectué par
les documentalistes et demande des corrections avant la diffusion des résultats.
L’intervention des documentalistes est nécessaire au moment du choix des documents à
retenir pour la diffusion et au moment de validation du produit final.
42
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
2.1.4. Les critères de l’intégration au système d’information existant.
L’intégration d’un logiciel de veille monoposte ne présente pas de problèmes au niveau
d’installation. Les paramètres techniques minimaux communs à tous les logiciels
sélectionnés correspondent à l’équipement du réseau documentaire des Chambres
(système d’exploitation minimum : Windows 98, navigateur : Internet Explorer 5.0,
mémoire : RAM 32 Mo). L’abonnement à une plateforme en ligne est d’autant plus facile
car il ne nécessite aucun équipement sauf un navigateur Internet. Les solutions qui
doivent être installées sur le serveur doivent être compatibles avec le système
d’exploitation Solaris.
Un autre critère important est la complexité du paramétrage initial du logiciel et ensuite
du paramétrage de la veille pour chaque page. Il prend beaucoup de temps surtout qu’il
doit être revu régulièrement en fonction des résultats de la veille.
Le critère suivant est le changement éventuel de l’organisation de travail des
documentalistes veilleurs. Deux options principales sont à considérer :
•
Une personne est chargée du paramétrage de la veille pour chaque page surveillée.
Cette solution assurera un paramétrage cohérent (le choix de pages à surveiller, des
requêtes, de la fréquence de la veille) mais n’est pas concordant avec l’esprit du
réseau décentralisé qui privilège l’indépendance de ses membres. Elle est également
difficile à appliquée dans le cas de l’installation de logiciel dans les services de
documentation de différentes Chambres éloignées géographiquement. Les résultats de
la veille (les pages modifiées) peuvent être ensuite envoyés à un ou plusieurs
documentalistes qui procéderont à la sélection des pages à intégrer dans le produit et
au traitement des résultats.
•
Chaque documentaliste paramètre le logiciel pour la surveillance des pages qui lui
sont attribuées et, comme actuellement, effectue le traitement des résultats de veille.
Ce système est plus facile à appliquer, il privilégie l’indépendance des
documentalistes et la flexibilité des changements des paramètres de veille.
43
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
2.2. Conditions requises pour un déroulement optimum d’un projet
d’automatisation de la veille
Les conditions de réussite d’un projet dans le cadre d’amélioration d’un système
d’information ont été analysées par Standish Group [24, p.121]. Dix critères sont
présentés ci-dessous avec chacun un poids différent : la définition des besoins,
l’implication des utilisateurs et l’engagement des décideurs pèsent pour moitié dans le
succès d’un projet.
Critères de réussite
Poids du critère
Implication des utilisateurs
19
Soutien de la hiérarchie
16
Définition claire des besoins
15
Plan de développement correct
11
Attentes réalistes
10
Découpage du projet en petites étapes
9
Compétences dans l’équipe de projet
8
Appropriation du projet par les acteurs du projet
6
Vision claire de la raison d’être et des objectifs du projet
3
Productivité et motivation de l’équipe de projet
3
TOTAL
100
Fig. 3. Conditions de réussite d’un projet système d’information selon Standish Group
2.2.1. Implication des futurs utilisateurs.
Dans le contexte d’automatisation du processus de veille sur l’Internet du réseau
documentaire des Chambres d’Agriculture on peut parler de deux groupes d’utilisateurs :
d’un côté les veilleurs qui vont utiliser les nouveaux outils informatiques, de l’autre les
destinateurs finaux du produit élaboré à l’aide du logiciel. La participation des deux
groupes est importante pour les étapes de la détermination des besoins, de la décision et
du changement de l’organisation de travail.
44
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
2.2.1.1.
Analyse préalable des besoins
L’analyse des besoins permet d’impliquer les futurs utilisateurs dès la première phase du
projet. Les experts du domaine peuvent transmettre aux veilleurs leur connaissance du
domaine et éventuellement indiquer des sources d’information fiable présentes sur le
web. Les veilleurs du réseau ont le rôle important de faire connaître leur méthode de
travail actuelle.
Le risque d’impliquer les futurs utilisateurs dès le début du projet réside dans le fait de
réveiller des attentes par rapport au projet alors que la décision de sa réalisation n’est pas
encore prise. Pour limiter ces effets on peut limiter le nombre de personnes consultées ou
chercher les utilisateurs de solutions similaires à extérieur de l’organisation.
2.2.1.2.
La prise de décision.
Les utilisateurs peuvent être impliqués dans le choix du logiciel en testant différentes
solutions techniques et en exprimant leur avis sur les propositions de nouvelle
organisation du travail. D’une manière générale tous les choix devraient être conseillés
par ceux qui mettront en œuvre des nouvelles solutions. Enfin l’appréciation et
l’engagement des futurs utilisateurs peuvent décider de la poursuite du projet.
2.2.1.3.
L’évolution de l’organisation du travail.
Dans le cas de solutions qui peuvent être contournées par les utilisateurs réticents la
gestion du changement est la phase cruciale du projet. Les utilisateurs engagés dans les
phases précédentes du projet deviennent le groupe phare qui peut influencer le
comportement d’autres utilisateurs et être déterminant pour des changements de
l’organisation du travail.
45
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
Les problèmes qui apparaissent dans cette phase peuvent être dus aux solutions
techniques choisies (insatisfaisantes au niveau fonctionnel, technique ou ergonomique), à
l’attitude individuelle des utilisateurs eux-mêmes (l’inquiétude face aux changements, la
perception négative des solutions choisis) ou à la nouvelle organisation de travail
(modification des conditions de travail, diminution de degré de responsabilité ou
d’autonomie).
2.2.2. Soutien de la hiérarchie
Il est vital que la hiérarchie du réseau documentaire s’implique dans le projet et qu’il soit
constitué un comité de pilotage venant chapeauter l’équipe de projet. Cela confortera les
utilisateurs dans l’idée que le projet est un volet important de la stratégie de
l’organisation et pas seulement le fruit de la volonté d’un groupe restreint d’utilisateurs
au sein de
l’APCA cherchant à imposer leurs méthodes et leurs outils. Toute
communication importante devrait provenir de ce comité.
2.2.3. Communication autour du projet
En amont du projet, les membres du réseau doivent être informés sur les objectifs du
projet de façon qu’il soit clair pour tous que le nouvel outil sera un auxiliaire précieux au
quotidien dans le travail des documentalistes. Il ne remettra pas fondamentalement en
cause les méthodes utilisées actuellement qui sont éprouvées et efficaces. Une
communication claire en ce sens rassurera les utilisateurs qui peuvent craindre de voir
leur quotidien bouleversé.
Au fil du projet une communication régulière assure une implication maximale des
membres, et à l’aboutissement on pourra faire une communication illustrant l’impact
positif de l’outil sur les méthodes de travail et les gains de temps réalisés.
46
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
2.2.4. Problèmes liés au travail en réseau
Le travail en réseau décentralisé est basé sur la liberté d’action de chaque membre qui
peut participer ou pas aux projets communs. Les objectifs et les moyens sont choisis par
tous les membres ou par leur représentant. Dans le contexte ou un des membres est perçu
comme ayant un pouvoir décisionnel plus important (ce qui peut être le cas pour
l’APCA) il faut éviter de créer l’impression que l’initiative vient de lui seul afin de ne
pas créer l’impression d’une centralisation des décisions.
2.3. Le choix d’un logiciel et son impact sur l’organisation du travail
2.3.1. Présentation des logiciels de recherche et de veille sur les pages
L’étude des logiciels de veille sur les recherches et de veille sur les pages Internet s’est
déroulée en deux étapes :
1. L’analyse préliminaire d’une quinzaine de logiciels de différents groupes
(métamoteurs, agents de veille, moteurs de recherche et de veille sémantique) et la
création d’une short liste.
Pour ce faire j’ai consulté la documentation disponible sur les sites des éditeurs ou
obtenue auprès des commerciaux et discuté avec les représentants des éditeurs durant
le salon e-expo et pendant la présentation du logiciel Matchpoint au siège de l’APCA.
J’ai également enquêté auprès des utilisateurs de logiciels de veille (via la liste de
diffusion de l’ADBS), et j’ai suivi une liste de discussion consacrée aux agents
intelligents ([email protected]). Ces activités et
la consultation des
comparaisons existantes m’ont permis d’élaborer une grille d’analyse fonctionnelle.
2. L’analyse détaillée et les tests de six logiciels présélectionnés (tests possibles soit
sur des versions incomplètes soit sur des versions d’évaluation), j’ai également
pris en compte le résultat des tests effectués sur un des logiciels présélectionnés
par une des documentalistes-veilleurs.
Le résultat de l’étude sont des fiches fonctionnelles (ci-après) de deux logiciels destinés à
la recherche de sources et de quatre logiciels de veille sur les pages Internet.
47
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
NOM DU LOGICIEL : Copernic Agent 6.1
EDITEUR : Copernic Technologies, basé au Canada
SITE INTERNET : www.copernic.com
VERSION EVALUEE : version Basic téléchargée gratuitement (ne contient pas des
fonctionnalités de veille présentes uniquement dans la version Professional)
DESCRIPTION
# métamoteur avec fonctions de veille sur les recherches et sur les pages web
# donne accès à plus de 1000 moteurs de recherche organisés en catégories
thématiques et comporte une option de veille (aussi sur les pages sécurisées)
# les requêtes de recherche avancées peuvent être crées avec des opérateurs
booléens et les guillemets
# le traitement de résultats inclus le tri et la catégorisation des pages, l’extraction
des concepts clés et l'élaboration des résumés des pages trouvés
# comporte la fonction de recherche dans les résultats et de sauvegarde de
l’historique des recherches
# possibilité de l'envoi des résultats aux plusieurs destinataires et d’y inclure une
copie de la page modifiée.
FORCES
#
très riche en fonctions, le logiciel répond aux besoins de recherche des sources et
de veille sur les modifications des pages sélectionnées
#
le paramétrage et l'utilisation sont faciles, le logiciel s'intègre dans le navigateur
Internet on peut ajouter une page à surveiller en un click
FAIBLESSES
#
le paramétrage de la veille est moins précis que dans les outils spécifiques
#
il n’y a pas de fonction de veille sur les mots clés
#
la durée de recherche peut aller jusqu'aux 50 secondes
PRIX
Version Basic : plus de 100 moteurs de recherche et 3000 résultats : gratuit
Version Personnal : plus de 1000 moteurs de recherche et 5000 résultats : 30 euros par
poste
Version Professional : plus de 1000 moteurs de recherche et nombre illimité des résultats
+ fonction de veille : 80 euros par poste
48
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
NOM DU LOGICIEL : Google alert
EDITEUR : Gideon Greenspan, basé aux Etats Unis
SITE INTERNET : www.googlealert.com
VERSION EVALUE : version gratuite complète (interrogation jusqu'aux 3 mots-clés et
100 résultats par mot-clé)
DESCRIPTION
# plateforme en ligne de veille sur les recherches, utilise le moteur de recherche
Google
# les requêtes peuvent être lancées manuellement ou automatiquement (1 ou 2 fois
par jour)
# les requêtes avancées utilisent des opérateurs booléens et les guillemets
# il est possible d'exclure certains URL et de limiter le nombre de résultats
# il y a une fonction de l'exploration des liens qui pointent vers une page choisi
# les résultats sont classés selon la requête utilisée et triés selon pertinence (critères
de moteur de recherche Google)
# les résultats peuvent être envoyés par le courrier électronique à 1-10 adresses
FORCES
# un outil simple, très facile de l'utilisation, l’interface claire
# grâce à la possibilité de l'exclusion des URL déjà connus l'outil permet de repérer
facilement des nouveaux sites pour la veille
# peut être utilisé par plusieurs personnes
FAIBLESSES
# payement par mois
# interface en anglais uniquement
PRIX
Jusqu'aux 3 mots-clés et 100 résultats par mot-clé: gratuit
Jusqu'aux 30 mots-clés et 200 résultats par mot-clé: 10 euros
Jusqu'aux 50 mots-clés et 500 résultats par mot-clé: 20 euros
49
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
NOM DU LOGICIEL : Copernic Tracker
EDITEUR : Copernic Technologies, basé au Canada
SITE INTERNET : www.copernic.com
VERSION EVALUEE : version complète téléchargée gratuitement pour le période de 30
jours
DESCRIPTION
# logiciel monoposte de veille sur les pages web
# comporte la fonctionnalité de veille sur les pages nécessitant l’identification
# la veille paramétrée pour chaque page
# la possibilité de définir les modifications comme : changement de la taille de la
page, changement du nombre de mots ou l'apparition des mots-clés
# la définition des requêtes avec des opérateurs : ET/OU/SAUF/PRES, les
parenthèses et les guillemets
# mis en évidence des changements
# le traitement des résultats comporte la possibilité le tri selon différents critères
# archivage de plusieurs versions de chaque page
# l'envoie des résultats de veille vers les destinataires de différents profils
FORCES
# le paramétrage et l'utilisation sont faciles et rapides, l'interface très claire et
personnalisable (possibilité d'ajouter ou d'éliminer les boutons)
# le logiciel s'intègre dans le navigateur Internet : possibilité d’ajouter une page à
surveiller en un click
FAIBLESSES
# paramétrage de veille sur les pages protégées assez complexe
# logiciel archive l’ensemble de la page et non seulement les fragments modifiés (et
utilise donc plus d’espace disque que nécessaire)
# utilisable uniquement avec l’Internet Explorer
PRIX
50 euros par licence
50
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
NOM LOGICIEL : TimelyWeb
EDITEUR : Eldos Corporation
SITE INTERNET : www.timelyweb.com
EVALUATION : version Basic téléchargée gratuitement (incomplète par rapport à la
version Professional)
DESCRIPTION
# outil de veille sur les pages web
# la veille sur les pages nécessitant l’identification ou l’envoie d’une requête
# définition de modification selon nombre de mots changé ou l’apparition d’un
mot-clé
# alerte au cas de modification et mise en évidence des fragments changés (fonction
inactive dans la version Basic)
# l'envoie des résultats par le courrier électronique aux plusieurs adresses
FORCES
# surveillance de bases de données
# choix entre le paramétrage simple et avancé
# intégration dans le navigateur Internet : possibilité d’ajouter une page en un click
FAIBLESSES
# le paramétrage avancée (exclusion de surveillance de dates) complexe
PRIX
35 euros par licence (prix dégressifs)
51
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
NOM DU LOGICIEL : Vigilus Plus 3.0
EDITEUR : Pragtec, basé au Canada
SITE INTERNET : www.pragtec.com
VERSION EVALUEE : version complète téléchargée gratuitement pour le période de 30
jours
DESCRIPTION
# logiciel de navigation off line et de veille sur les pages web et sur les dossiers
locaux
# la veille peut être paramétrée pour un répertoire comportant plusieurs pages ou
pour chaque page
# la veille uniquement sur le texte
# la possibilité de définir les modifications par un changement du nombre de mots
sur la page ou par l'apparition des mots-clés
# les requêtes avancées peuvent être crées avec des opérateurs booléens et les
guillemets
# des modifications ou des mots clés sont mis en évidence
# possibilité de veille sur les pages nécessitant l'identification
# les résultats de la veille (des changements survenus et les pages modifiées)
peuvent être envoyés à 5 destinataires par licence
# archivage de plusieurs versions de chaque page
FORCES
# logiciel comporte toutes les fonctionnalités essentielles, l’interface utilisateur très
claire
FAIBLESSES
# le paramétrage n’est pas très facile
# le logiciel ne traite pas des documents en format pdf
PRIX
200 euros par licence
52
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
NOM DU LOGICIEL : Website Watcher 3.5
EDITEUR : Martin Aignesberger, basé en Autriche
SITE INTERNET : www.aignes.com
VERSION EVALUEE : version complète téléchargée, gratuite pendant 30 jours.
DESCRIPTION
# logiciel très complet de veille sur les pages web
# peut analyser soit l’ensemble de la page, soit le texte uniquement
# explore des liens internes et externes
# la veille peut être paramétrée pour chaque page
# la possibilité de définir les modifications par le changement de la taille de la page,
le changement du nombre de mots ou l'apparition des mots-clés
# possibilité d'exclure de la veille les images, les dates, les liens ou certaines
fragments de texte
# possibilité d’afficher simultanément deux dernières versions d’une page
# la mise en évidence des modifications
# les résultats de la veille peuvent être envoyés aux plusieurs destinataires
# archivage de plusieurs versions de chaque page (format zip)
# possibilité de recherches avancées dans les pages archivées
FORCES
# possibilité de travailler en mode simple ou avancé, interface personnalisable
# en mode avancé paramétrage très précis (définition de fragments de page à
surveiller, exclusion de certains formats ou de pages contenant certaines
expressions)
# le logiciel s'intègre dans le navigateur : possibilité d’ajouter une page à surveiller
en un click
FAIBLESSES
# paramétrage avancé (p.ex. surveillance des pages demandant l’identification ou
des pages à l’URL incluant la date du jour, l’envoi des avertissements via e-mail,
création de modèle pour l’envoie des résultats) complexe
# pour les pages nécessitant l'identification il faut télécharger un autre logiciel de
l’éditeur (gratuit)
PRIX : 79 euros par licence (pour 2-9 licences, prix dégressive)
53
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
NOM DU LOGICIEL : Wysigot 5.4
EDITEUR : Wysigot, basé en France (éditeur des logiciels eCatch et WebCapture)
SITE INTERNET : www.wysigot.com
VERSION EVALUEE : téléchargement d’une version « light » gratuite
DESCRIPTION
# navigateur off line et logiciel de veille sur les pages web
# explore des liens internes et externes (la profondeur de l’exploration
paramétrable), peut capturer des sites entiers
# capture et effectue la veille sur les pages nécessitant l’identification
# archive plusieurs versions de chaque page
# des changements sont mis en évidence
# envoie des résultats de veille par courrier électronique
# la possibilité de définir les modifications par l’apparition ou disparition des motsclés ou la modification des fichiers locaux (seulement dans la version complète)
FORCES
# recherches dans les pages (les requêtes avancées disponibles uniquement dans la
version complète)
# possibilité d’appliquer les mêmes paramètres à un groupe de pages surveillées
# logiciel peut ignorer des changements sans importance (date, nombre de visiteurs
etc.)
# logiciel détecte automatiquement la fréquence de mise à jour des pages
FAIBLESSES
# plusieurs fonctions intéressantes disponibles uniquement dans la version complète
# pas de fonction d’envoie de résultats aux plusieurs destinataires
PRIX
De gratuit (version light) à 38 euros par licence
54
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
2.3.2. Quelques éléments pour le choix de logiciel
Du point de vue de l’organisation du travail les logiciels monoposte ou l'abonnement à
une plateforme en ligne répondent le mieux aux besoins en veille du réseau documentaire
des Chambres d'Agriculture. Ils permettent de garder l’organisation du travail actuelle
qui fonctionne bien et de respecter l’indépendance des documentalistes qui veillent
chacun sur des sites traitants de sujets similaires et qui connaissent bien leurs domaines
de veille respectifs. L’installation d’un logiciel sur le serveur commun situé à l’APCA
pourrait créer le sentiment d’une action venant de la « centrale » contraire au principe de
travail en réseau décentralisé. L’autre solution c’est la veille effectuée sur un seul poste et
paramétrée par une seule personne, avec l'envoi des résultats aux plusieurs
documentalistes.
La facilité de paramétrage est un critère important car un paramétrage trop complexe
pourrait dissuader certains utilisateurs. L’adoption d’un logiciel serveur qui serait
paramétré par un documentaliste bien à l’aise avec l’informatique permettrait de
s’accommoder de la complexité technique du produit.
La pertinence des alertes sera le mieux assurée par les logiciels offrant un paramétrage
précis. Tous les logiciels disposent de la fonction de formulation de requêtes avancées
(dans le cas de veille sur les mots-clés) donc le risque du silence est similaire. Le risque
de bruit est moindre dans le cas de logiciels permettant de définir précisément les
fragments de pages, les formats ou les chaînes de caractères à exclure de la veille.
L'interface utilisateur de tous les logiciels est comparable (plusieurs fenêtres,
organisation hiérarchique des dossiers) et généralement très bonne. La majorité des
logiciels permet une personnalisation des menus et des barres d’outils (l'affichage de
toutes les fonctions ou seulement des fonctions de base, le choix des couleurs).
55
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
La langue de l'interface est un critère important car une partie de documentaliste
n’accepte pas le travail avec un logiciel anglais. Parmi les logiciels présélectionnés toutes
les solutions sauf Google alert sont disponibles en français.
Le support technique des logiciels de veille sélectionnés n'est pas très développé. Il se
limite à une rubrique sur le site de l'éditeur (mode d'emploi, FAQ), une animation de
présentation en ligne ou un mode d'emploi à télécharger et un contact e-mail en cas de
problèmes techniques. L'achat et le support des logiciels se passant en ligne, le lieu de
l'implantation des éditeurs n'a pas d'importance. Quant à la notoriété de l'éditeur, les
produits de Copernic Technologies sont aujourd’hui la référence sur le marché des
métamoteurs et des logiciels de veille.
56
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
Conclusion
57
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
La chaîne de production de "Graines de doc mail" est bien établie et efficace mais les
documentalistes consacrent une partie de leur temps à des tâches répétitives sans valeur
ajoutée. De plus, on a pu observer que la recherche de nouvelles sources à surveiller, une
des étapes du processus classique de veille, n’est pas mise en œuvre. Elle se fait
seulement à l’occasion de la recherche d’un sujet pour la rubrique FOCUS, elle est donc
à chaque fois la réponse à un besoin ponctuel et ne fait pas partie de la procédure de
l’élaboration de « Graines de doc mail ».
Une veille sur l’apparition de nouvelles sources d’information sur le web pourrait se faire
automatiquement avec un logiciel de veille sur les recherches. Dans le cas de l’adoption
d’un tel outil la mise en pratique de la recherche des sources n’augmenterait pas
significativement la charge de travail des documentalistes. De plus, un tel logiciel peut
être gratuit ou quasi gratuit.
La consultation des pages surveillées pour y détecter des modifications éventuelles peut
être automatisée avec un logiciel de veille sur les pages. Là encore, avec un
investissement minimal, les documentalistes du réseau gagneraient du temps, la veille
pourrait être plus systématique et couvrir plus de sites Internet.
L’adoption éventuelle d’un outil informatique s’inscrirait donc dans l’optique de
l’amélioration du processus de veille et d’une meilleure utilisation du potentiel des
documentalistes du réseau. Le but n’est certainement pas de remplacer leur travail
manuel par un outil qui assurerait la presque totalité de tâches liées à la veille sur
l’Internet. La solution la mieux adaptée aux besoins du réseau documentaire des
Chambres d’agriculture est aujourd’hui d’unir les capacités d’un simple outil de
recherche et de veille, même avec des fonctionnalités restreintes, et les capacités
d’analyse des documentalistes du réseau.
Les performances et l’ergonomie des logiciels de veille sélectionnés et décrits dans ce
mémoire sont comparables. Le choix d’un outil particulier dépendra donc de
l’organisation du travail de veille, de la compétence informatique de la personne chargée
du paramétrage ainsi que du budget disponible.
58
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
Bibliographie
59
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
Les références bibliographiques sont organisées selon les thèmes abordés dans le
mémoire. A l’intérieur de chaque partie elles suivent l’ordre alphabétique des auteurs.
La bibliographie a été arrêtée le 30 septembre 2004.
Internet comme source d’information
[1] CONTAL, Philippe. Veille sur l’Internet : Fiabiliser les sources du web. Archimag,
2003, n°164, p. 33-34
L’article aborde le problème de la fiabilité des sources web et propose des méthodes
d’évaluation de la fiabilité.
[2] COURRIER, Serge. Internet pour les journalistes. Pris : Victoires Editions, 2004, 466
p.
Ce guide pratique présente le fonctionnement de l’Internet, la diversité de ses ressources et les
techniques de l’utilisation professionnelle de l’Internet.
[3] CRAECKER-DUSSART, Christiane. La qualité des informations sur Internet.
Cahiers de la documentation, 2003, n°2, p. 37-44
L’auteur aborde la question de l’évaluation de la qualité des informations disponibles sur
l’Internet et indique quelques méthodes et grilles d’évaluation.
[4] FOENIX-RIOU, Béatrice. Guide de la recherche sur Internet. Outils et méthodes.
Paris : Natan Université, 2002, 128 p.
Un guide sommaire, à la fois théorique et pratique, caractérisant l’information disponible sur
l’Internet. Il préconise des façons d’utiliser différents outils de recherche.
[5] FOENIX-RIOU, Béatrice. Recherche et veille sur le web visible et invisible. Paris :
Editions Tec&Doc, 2001, 234 p.
Présentation des outils qui permettent d’aborder le web invisible. L’ouvrage comporte une
analyse des méthodologies de recherche et des fiches de logiciels de recherche sur le web
profond.
60
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
Méthodologie de veille
[6] AFNOR. Norme XP X 50-053 : Prestations de veille et prestations de mise en place
d’un système de veille. Paris : AFNOR, 1998, 23 p
La norme caractérise les prestations de mise en place d’un système de veille, les compétences
requises, les relations clients - prestataires et donne les définitions de différents termes liés à la
veille.
[7] BRANCIER, Christiane. Veille sur le Net : des besoins variés. Décision
Micro&Réseaux, 5 avril 2004, n°587, p. 46-49
L’article présente les avantages et les difficultés liés à l’utilisation des agents de veille sur
l’Internet ainsi que les étapes de la mise en place d’un système de veille.
[8] GASQUET, Corentine. Veille stratégique. Savoir pour agir. Journal du Net, [en
ligne], 2004, [référence du 30 septembre 2004].
< http://management.journaldunet.com/dossiers/040642veille/index.shtml>
Un dossier sur les méthodes de la veille stratégique préparé par les professionnels de la veille qui
aborde la particularité de la veille sur l’Internet. Il présente des études de cas dans des
entreprises françaises et dresse un panorama de l’offre de service des prestataires de veille.
[9] GBELIA, Alice. Portée et limites de l’automatisation de la veille. Mémoire de DESS,
IEP Paris, 2001.
Analyse de la performance et des limites des agents de veille basée sur l’étude et les tests
effectués sur quelques outils du marché.
[10] GHARSALLAH, Mehdi. Surveillance de site web : soyez en alerte. Archimag,
2004, n°170, p. 45-46
[11] JAKOBIAK, François. L’intelligence économique en pratique avec l’apport
d’Internet et des NTIC : comment bâtir son propre système d’intelligence économique.
Paris : Edition d’Organisation, 2001, 299 p.
Cet ouvrage défini le concept d’intelligence économique et analyse le rôle de l’Internet dans
cette activité.
61
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
[12] JANIAUD, Emilie. Sous quelles conditions un service de veille est-il certifiable ? Le
cas du service de veille du Centre technique du bois et de l’ameublement. Mémoire de
DESS, INTD/CNAM, 2003, 101p.
Le mémoire fait le point sur la qualité dans le domaine de la veille et présente les étapes de la
mise en place d’un système qualité en vue d’une certification.
[13] LECOQ, Véronique. Organisation d’une veille concurrentielle. Mémoire de DESS,
INTD/CNAM, 2002, 105 p.
Le mémoire présente les différentes étapes du processus de veille, les méthodes et les outils. Il
propose une réflexion sur le produit documentaire de type veille, sa valeur ajoutée et
l’implication des différents acteurs.
[14] MICHEL, Jean. Veille informative, veille stratégique, intelligence économique…
mais au fond, qu’est-ce que la veille ?. [en ligne], [référence du 30 septembre 2004].
<http://www.enpc.fr/~michel-j/publi/JM318.html>
Cet article propose une typologie de veille basée sur sa fonction principale. Il aborde aussi la
problématique de la gestion de projet autour de la veille.
[15] REBHOLTZ, Patrick. Veille sur Internet : organiser la collecte d’informations sur
le web. Archimag, 2003, n°163, p.31-33
Présentation de différentes étapes du cycle de la veille et des critères de choix d’un outil.
[16] REVELLI, Carlo. Intelligence stratégique sur Internet : Comment développer des
activités de veille et d’intelligence économique sur le web. Paris : Dunod, 2000, 220 p.
Ouvrage classique, il caractérise l’Internet comme une source de l’information, présente les
principes, les méthodes et les outils de veille sur l’Internet et contient les fiches fonctionnelles de
quelques agents de veille.
[17] REVELLI, Carlo. Les astuces pour optimiser la recherche d’informations. Journal
du Net, [en ligne], 2002, [référence du 30 septembre 2004].
<http://www.journaldunet.com/rubrique/veille/veille020412.shtml>
Recueil de conseils donnés par un prestataire de veille pour améliorer la démarche de veille.
62
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
[18] STILLER, Henri. Veille sur Internet : analyse et synthèse de l’information.
Archimag, 2003, n°165, p.40-42
L’article rappelle les phases de la veille définis par la norme AFNOR et analyse en détail la
dernière étape du cycle : analyse de l’information et l’élaboration d’un produit documentaire
destiné à l’aide à la décision.
[19] TONKOVIC, Anne. De la recherche d’informations à la mise en place d’un système
d’intelligence économique : le cas de Finpro France. Mémoire de DESS, INTD/CNAM,
2002, 70 p.
Analysant le concept de veille et de l’intelligence économique ce mémoire présente les sources
de l’information, les outils et les méthodes à mettre en place dans une petite structure de veille.
[20] THOMAS, Armelle. Veille stratégique sur les réseaux. In : Le Moal Jean-Claude
(ed.), La recherche d’information sur les réseaux, Le Bono, 30 septembre-4 octobre 2002.
Paris : ADBS Editions, 2002, p. 257-299
L’analyse de la démarche de veille sur l’Internet, suivi de la présentation des outils de veille
automatique et des conditions de la réussite du processus de veille.
[21] THOMAS, Armelle. Les outils de veille en 7 étapes. Veille Magazine, 2004, n°74, p.
36-39
<http://www.01net.com/article/235483.html>
L’auteur met l’accent sur le respect des étapes de la démarche de veille tout en donnant des
exemples d’outils qui peuvent être mis en œuvre.
[22] TIMIMI, Ismail. La veille sur l’Internet : une avancée dans la recherche de
l’information stratégique. [en ligne], 1999, [référence du 30 septembre 2004].
<http://www.u-grenoble3.fr/les_enjeux/2000/Timimi-Rouault/index.html>
Caractéristique de différents types d’information et des sources présentes sur le web, suivi par
une description des outils de recherche classiques et des logiciels de veille.
63
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
Méthodologie de gestion de projet
[23] CORBEL, Jean-Claude. Management de projet : fondamentaux, méthodes, outils.
Paris : Editions d’Organisation, 2003, 169 p.
Présentation des fondamentaux de la gestion de projet : différentes étapes, outils et méthodes,
facteurs humains à prendre en compte.
[24] MORLEY, Chantal. Management d’un projet système d’information. Paris : Dunod,
2004, 395 p.
La présentation des outils et des méthodes de gestion d’un projet système d’information,
complété par des exercices et des études de cas.
Fonctionnement des outils de recherche et de veille
[25] CHANIAL, Emmanuel. Choisir le bon outil pour améliorer la veille sur Internet.
Décisions Micro&Réseaux, 2000, n°413, p. 54
Le choix d’un outil de veille automatique s’opère d’abord entre les logiciels monoposte ou
client-serveur. Ils répondent à des besoins différents, nécessite un investissement plus ou moins
important et le paramétrage effectué est plus ou moins long.
[26] CHAUMIER, Jacques. Recherche et analyse de l’information textuelle : tendances
des outils linguistiques. Documentaliste – Sciences de l’information, 2003, vol. 40, n°1,
p. 14-24
L’article contient l’analyse fonctionnelle de 19 outils de recherche et d’analyse du contenu. La
présentation des principes d’analyse linguistique est suivie d’une typologie des outils et de
l’analyse de l’offre actuelle.
[27] CHILOTTI, Sandrine. Les moteurs sémantiques toujours plus proches du sens des
mots. Le monde informatique, [en ligne], 2003, n°979, [référence du 30 septembre 2004].
<http://www.weblmi.com/articles_store/979_19/Article_view>
L’auteur présente d’une manière synthétique quelques moteurs de recherche sémantique.
64
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
[28] CROCHET-DAMAIS, Antoine. Les technologies des moteurs de recherche en 10
questions. Journal du Net, [en ligne], 2002, [référence du 30 septembre 2004].
<http://solutions.journaldunet.com/0202/020214_faq_moteur.shtml>
Les explications du fonctionnement des moteurs de recherche classiques et sémantiques via leurs
fonctionnalités et leur mode de fonctionnement.
[29] DALBIN, Sylvie. Instruments de recherche sur le Web. In : Le Moal Jean-Claude
(ed.), La recherche d’information sur les réseaux, Le Bono, 30 septembre-4 octobre 2002.
Paris : ADBS Editions, 2002, p. 11-70
La présentation de différents types d’outils de recherche sur l’Internet, de leurs fonctionnalités et
des technologies utilisées, les critères d’évaluation des sources d’information et les outils de
recherche.
[30] DIERICK, François. Les outils de recherche sur Internet : piste pour une analyse.
Cahiers de la documentation, 2003, n°1, p. 7-22
Une typologie des outils de recherche est suivie par des exemples de grilles d’analyse
fonctionnelles des moteurs et des annuaires des sites.
[31] FERCHAUD, Bernadette. Les outils avancés de veille sur Internet. Documentaliste
– Sciences de l’Information, 2003, vol. 40, n°1, p. 29-32
Ce compte-rendu de la journée d’études SCIP fait le point sur les développements de l’offre des
outils avancés de veille sur l’Internet, les évolutions de leurs fonctionnalités et sur les
changements qu’ils introduisent dans l’organisation du travail.
[32] FOULONNEAUD, Muriel. Les logiciels de veille. [en ligne], Lyon : Enssib, 1999,
[référence du 30 septembre 2004].
http://www.enssib.fr/autres-sites/dessid/dessid99/gedfoulo.pdf
Après une introduction présentant les principes du fonctionnement des agents de veille l’auteur
présente une quinzaine de ces outils.
65
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
[33] FRYER, Donna. Federated search engines. Online, 2004, n°24, p. 16-19
Présentation des moteurs de recherché fédérés capables de parcourir le web invisible.
[34] GONDOUIN, Aurélie. Choix d’un agent intelligent et mise en place d’une
application push. Mémoire de DESS, Institut National Polytechnique de Lorraine, 2000,
48 p.
Le rapport de stage présente la démarche de sélection des agents de veille afin de les intégrer
dans un service de documentation d’une entreprise pharmaceutique. Il contient une typologie des
outils et des grilles d’évaluation.
[35] HENRY, Veronique. Outils de veille stratégique : essai de typologie. DEA en
Sciences de l’information et de la communication. Note de synthèse bibliographique,
ENSSIB, 1998, 32 p.
Cette synthèse de recherches bibliographique présente les outils informatiques utilisables dans le
processus de veille stratégique.
[36] JOUINEAU, Marc. Internet, les agents pas si intelligents. Archimag, 1998, n°119,
p. 30-32
[37] LELOUP, Catherine. Moteurs d’indexation et de recherche : environnements clientserveur, Internet et intranet. Paris : Hermès Sciences Publications, 1998, 285 p.
Cet ouvrage fait le point sur les techniques de recherche d’information et explique le
fonctionnement des moteurs de recherche sémantique. L’analyse générale du marché est suivie
de la présentation des produits.
[38] LESCA, Humbert. Des outils au service de la veille stratégique. Systèmes
d’Information et Management, juin 1997, n°2, p. 101-131
L’article contient les critères d’évaluation d’un système de veille et une présentation des outils
de veille présents sur le marché.
66
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
[39] MIKOLAJCZAK, Marianna. Automatisation des recherches sur l’Internet au moyen
d’agents intelligents. Mémoire de DESS, Institut National Polytechnique de Lorraine,
2000, 70 p.
Ce rapport de stage restitue le processus de mise en place de l’automatisation des recherches sur
l’Internet au moyen d’un agent de veille. Il contient l’analyse fonctionnelle de quelques logiciels
de veille.
[40] MOREL, François. Interview des éditeurs sur les technologies du text mining.
Journal du Net, [en ligne], juillet 2001, [référence du 30 septembre 2004].
<http://solutions.journaldunet.com/itws/010830_it_temis_huotcoupet.shtml>
L’interview donne un aperçu des technologies et des fonctionnalités des logiciels utilisant les
technologies du text mining ainsi que de leurs domaines d’application.
[41] ROBERGET, Olivier. Le marché impose son modèle économique à la recherche sut
Internet. 01 Informatique, [en ligne], 5 septembre 2003, n°1735, [référence du 30
septembre 2004].
<http://www.01net.com/Pdf/01I200309051735006.pdf>
Présentation du marché des moteurs de recherche : positionnement des acteurs et leurs résultats
financiers.
[42] ROUMIEUX, Olivier. Il faut quand même que l’utilisateur ait une certaine
compréhension de la manière dont son système fonctionne. [en ligne], [référence du 30
septembre 2004].
<http://olivier.roumieux.free.fr/articles/139_Dossier1.html>
L’entretien avec Christian Fluhr que présente l’état d’avancement des techniques du traitement
de langage naturel et leurs applications dans la gestion de l’information.
[43] SEBILLOT, Pascale. Traitement automatique des langues et recherche
d’information. In : Le Moal Jean-Claude (ed.), La recherche d’information sur les
réseaux, Le Bono, 30 septembre-4 octobre 2002. Paris : ADBS Editions, 2002, p. 137168
Ce chapitre présente les méthodes d’analyse linguistique du langage naturel et leur application
pour la recherche d’information.
67
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
[44] THOMAS, Armelle. Outils de veille sur Internet. Veille Magazine, février 2003,
n°61, p.10-11
Cet article est un compte rendu de la journée de SCIP sur les outils avancés de veille sur
l’Internet. Il contient des résumés des interventions des éditeurs de logiciels.
[45] VACARIE, Cécile. Etude comparative des moteurs de recherche sémantique : choix
d’un outil pour le service de veille du département informatique de la Société Générale.
Mémoire de DESS, INTD/CNAM, 2001, 135 p.
Après avoir introduit la problématique des moteurs de recherche sémantique, l’auteur analyse en
détail six moteurs en vue de choix d’un outil de recherche pour un intranet.
[46] Zoom sur…moteurs de recherche : 5 acteurs, 95% de recherches. Revueréférencement, [en ligne], avril 2004, [référence du 30 septembre].
<http://www.revue-referencement.com/ZOOM/print_zoom.htm>
Une analyse de l’utilisation des outils de recherche sur l’Internet : répartition de recherches par
le moteur et par le portail d’accès.
Présentation des outils de veille
[47] COURRIER, Serge. KB Crawl 2 : un outil de veille séduisant. 01 Net, [en ligne],
2003, [référence du 30 septembre 2004].
<http://www.01net.com/article/218664.html>
[48] CROCHET-DAMAIS, Antoine. Panorama des outils de recherche. Journal du Net,
[en ligne], 2003, [référence du 30 septembre 2004].
<http://solutions.journaldunet.com/0310/031002_pano_moteur.shtml>
Tableaux de comparaison des moteurs de recherche statistiques et sémantiques et des assistants
de requêtes.
68
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
[49] GUERRE, Luise. Guide d’achat des systèmes d’information. Paris : Groupe Serda,
2003, 160 p.
[50] MESLON, Julie. Copernic Agent Professional Tamise le web. Décision
Micro&Réseaux, [en ligne], janvier 2003, n°535, [référence du 30 septembre 2004].
< http://www.01net.com/Pdf/DMR200301270535016.pdf>
[51] MESLON, Julie. Digimind déniche l’actualité. Décision Micro&Réseaux, [en ligne],
avril 2004, n°590, [référence du 30 septembre 2004].
<http://www.01net.com/Pdf/DMR200404260590014.pdf>
[52] OEHMICHEN, Etienne. Comment rechercher des sites avec Copernic.
L’Ordinateur Individuel, [en ligne], 2003, [référence du 30 septembre 2004].
<http://www.01net.com/article/200977.html>
[53] ORIOL, Marie-Pierre. Logiciels veillez pour nous. Archimag, juin 2004, p. 48
Un tableau de comparaison des agents de veille sur l’Internet.
Sites web des éditeurs des agents de veille
[54]
Active Urls. [référence du 30 septembre 2004], http://activeurls.com
[55]
Arisem. [référence du 30 septembre 2004], http://www.arisem.fr
[56]
BEA Conseil. [référence du 30 septembre 2004], http://www.beaconseil.com
[57]
Copernic
Technologies.
[référence
du
30
septembre
2004],
http://www.copernic.com
[58]
Digimind. [référence du 30 septembre 2004], http://www.digimind.fr
[59]
Eldos Corporation. [référence du 30 septembre 2004], http://www.timelyweb.com
[60]
Gideon
Greenspan.
[référence
du
30
septembre
2004],
http://www.googlealert.com
[61]
Illumix software. [référence du 30 septembre 2004], http://www.illumix.com
[62]
Imorph Inc. [référence du 30 septembre 2004], http://www.infominder.com
[63]
Intelliseek. [référence du 30 septembre 2004], http://www.intelliseek.com
69
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
[64]
Iscope. [référence du 30 septembre 2004], http://www.iscope.fr
[65]
Kartoo. [référence du 30 septembre 2004], http://www.kartoo.net
[66]
Knowings. [référence du 30 septembre 2004], http://www.knowings.com
[67]
Martin Aignesberger. [référence du 30 septembre 2004], http://www.aignes.com
[68]
Pertinence mining. [référence du 30 septembre 2004], http://www.pertinence.net
[69]
Pragtec. [référence du 30 septembre 2004], http://www.pragtec.com
[70]
Triplehop
Technologie.
[référence
du
30
septembre
2004],
http://www.triplehop.com
[71]
Wysigot. [référence du 30 septembre 2004], http://www.wysigot.com
Sites web consultés
[72]
Abondance. [référence du 30 septembre 2004], http://www.abondance.com
[73]
Agentland. [référence du 30 septembre 2004], www.agentland.com
[74]
Cybion. [référence du 30 septembre 2004], http://www.veille.com
[75]
IDF. [référence du 30 septembre 2004], www.idf.net
[76]
Indicateur. [référence du 30 septembre 2004], http://indicateur .com
[77]
Outils froids. [référence du 30 septembre 2004], http://joueb.com/outilsfroids/
[78]
SCIP. [référence du 30 septembre 2004], www.scip.org
[79]
Secrets
de
moteurs.
[référence
du
30
septembre
2004],
http://www.secrets2moteurs.com
[80]
Service de recherche documentaire. [référence du 30 septembre 2004],
http://www.dsi-info.ca
[81]
Strategic
Road.
[référence
du
30
septembre
2004],
www.mayaconcept.com/recherch/agents/agentsfr.htm
[82]
Veille
du
lendemain.
[référence
du
30
septembre
2004],
http://www.veilledulendemain.com
70
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
Annexes
71
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
TYPE D’OUTIL
NOM DU LOGICIEL
INSTALLATION
LANGUE DE
L’INTERFACE
Veille sur les pages web et
navigateur Internet
0-100 euros
non
anglais
non
non
Webspector 2.2
française monoposte 35 euros par
poste
français Monoposte 1240
ou serveur euros/licence
français monoposte 79
non
euros/licence
(tranche 2 – 9
licences)
Veille sur les pages web
TimelyWeb 4.2
VEILLE SUR LES MOTS
CLES
FONCTION DE VEILLE
oui
oui
oui
oui
oui
oui
oui
oui
AGENTS DE VEILLE *
française monoposte 50 euros par non oui
oui
poste
FONCTION DE
RECHERCHE
Website Watcher Veille sur les pages web
3.5
Veille sur les pages web
KB Crawl 2.0
Copernic Tracker Veille sur les pages web
PRIX
Annexe 1 : Grille de comparaison des logiciels de veille
REQUETES AVANCEES
SUR LES MOTS CLES
oui
non
oui
oui
MISE EN EVIDENCE DES
MODIFICATIONS
FREQUENCE
PARAMETRABLE
oui
oui
oui
oui
oui
oui
Oui, 4 oui
calendri
ers
prédéfin
is
oui
oui
TYPE D’ALERTE
e-mail
e-mail,
message
sur le
bureau
e-mail,
message
sur le
bureau
e-mail,
message
sur le
bureau,
SMS
e-mail
oui
-
-
oui
oui
non oui, 1
version
oui
oui
PUSH MAIL GROUPES
(CREATION DES
PROFILS)
SAUVEGARDE DES
PAGES
oui
CATEGORISATION
MANUELLE
oui
oui
oui
EXTRACTION DES
RESULTATS
oui
non
non oui
non non
oui
non
RECHERCHE DANS LES
RESULTATS
Métamoteur avec
fonctionnalités de veille sur
les pages web
Métamoteur avec
français serveur
fonctionnalités de veille sur
les recherches
Moteur de recherche avec anglais
fonctionnalités de veille sur
les recherches
Copernic Agent
Professional
Global Finder
Google alert 2.0
non
FONCTION DE
RECHERCHE
FONCTION DE VEILLE
oui
oui
VEILLE SUR LES MOTS
CLES
oui
non
REQUETES AVANCEES
SUR LES MOTS CLES
oui
oui
FREQUENCE
PARAMETRABLE
oui
oui
oui
oui
MISE EN EVIDENCE DES
MODIFICATIONS
oui
oui
oui
oui
oui
oui
non
oui
e-mail
e-mail
e-mail
e-mail
e-mail,
message
sur le
bureau
e-mail
TYPE D’ALERTE
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
plateforme 20 euros/mois oui
en ligne
oui
Plateforme 20 euros par non oui
oui
oui
oui
oui
en ligne
an par 100
pages
MÉTAMOTEURS ET LOGICIELS DE RECHERCHE PERIODIQUE *
français monoposte 80 euros
oui
oui
oui
oui
oui
oui
anglais
français monoposte 200 euros par non
poste
Plateforme de veille en
ligne
NOM DU LOGICIEL
Infominder
TYPE D’OUTIL
Veille sur les pages web et
navigateur Internet
LANGUE DE
L’INTERFACE
Vigilus
INSTALLATION
Navigateur off-line avec la française monoposte 38 euros par
fonctionnalité de veille
poste
PRIX
Wysigot 5.4
oui
non
Oui, 1
version
non non
-
-
oui
oui
Oui, 99
versions
PUSH MAIL GROUPES
(CREATION DES
PROFILS)
SAUVEGARDE DES
PAGES
-
CATEGORISATION
MANUELLE
oui
oui
oui
non oui
non non
non oui
EXTRACTION DES
RESULTATS
73
non non non
oui
oui
oui
oui
RECHERCHE DANS LES
RESULTATS
NOM DU LOGICIEL
Arisem KM
Server
Entreprise
Discovery Suite
Keywatch
Digimind
évolution
Check&Get 2.0
PUSH MAIL GROUPES
(CREATION DES
PROFILS)
SAUVEGARDE DES
PAGES
TYPE D’ALERTE
MISE EN EVIDENCE DES
MODIFICATIONS
FREQUENCE
PARAMETRABLE
REQUETES AVANCEES
SUR LES MOTS CLES
VEILLE SUR LES MOTS
CLES
FONCTION DE VEILLE
FONCTION DE
RECHERCHE
PRIX
INSTALLATION
LANGUE DE
L’INTERFACE
TYPE D’OUTIL
e-mail
e-mail
e-mail
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
INFOLOGICIELS COMPORTANT UN MODULE VEILLE **
Solution de veille à
français
4900 euros / oui
oui
oui
oui
non
oui
l’architecture modulaire :
an pour 5
recherche des sources,
comptes
veille, traitement et la
diffusion
Outil de veille et de gestion française serveur
150000 par
non oui
oui
oui
oui
de grandes quantités de
serveur
données
Logiciel de recherche, de
serveur
oui
oui
oui
veille et de traitement de
données
français serveur
oui
oui
oui
oui
oui
oui
Solution de gestion de
connaissances à
l’architecture
modulaire avec la
oui
oui
non
Oui (en
ligne)
LOGICIELS DE GESTION DES FAVORIS COMPORTANT UN MODULE VEILLE SUR LES FAVORIS *
Outil de gestion des favoris anglais monoposte 64 par poste non oui
oui
non oui
oui e-mail,
non Oui, 30
et de veille sur les pages
message
versions
sélectionnées
sur le
bureau
CATEGORISATION
MANUELLE
oui
EXTRACTION DES
RESULTATS
oui
oui
oui
74
oui
oui
oui
non oui
RECHERCHE DANS LES
RESULTATS
PRIX
INSTALLATION
LANGUE DE
L’INTERFACE
TYPE D’OUTIL
oui
oui
FONCTION DE
RECHERCHE
oui
FONCTION DE VEILLE
oui
VEILLE SUR LES MOTS
CLES
oui
oui
REQUETES AVANCEES
SUR LES MOTS CLES
oui
oui
FREQUENCE
PARAMETRABLE
oui
oui
MISE EN EVIDENCE DES
MODIFICATIONS
non
oui
e-mail
e-mail
TYPE D’ALERTE
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
fonctionnalité de veille
Recherche, veille et
français serveur
A partir de
traitement avancé
12000 euros
(indexation, résumé,
classement, tri)
Matchpoint 3.0 Moteur de recherche dans français serveur
Jusqu'à 10
les sources internes et
licences :
externes, de l’indexation et
20000 euros
de veille
* en gris : logiciels testés
** la grille est incomplète car seulement Matchpoint 3.0 a pu être testé
NOM DU LOGICIEL
Aperto Libro
oui
oui
oui
PUSH MAIL GROUPES
(CREATION DES
PROFILS)
SAUVEGARDE DES
PAGES
oui
CATEGORISATION
MANUELLE
oui
EXTRACTION DES
RESULTATS
oui
oui
75
oui
oui
RECHERCHE DANS LES
RESULTATS
Annexe 2 : Grille d’analyse de logiciels de veille
NOM LOGICIEL
NOM EDITEUR
SITE WEB
VERSION D’EVALUATION
MATERIEL MINIMUM
PERFORMANCE
INSTALLATION
ERGONOMIE
LANGUE D’INTERFACE
LANGUES DES SOURCES
PRIX
TYPE OUTIL
COMMENTAIRE
RECHERCHE
CRITERES
Recherche automatique (périodique)
Fréquence paramétrable de la recherche
Formats des documents interrogeables
Sources
Pages statiques
interrogées
Bases de données (pages
dynamiques)
Moteurs de recherche
(nombre)
Pages sécurisées / nécessitant
l’identification
Forums de discussion
Mailing lists
Requête simple Désambiguïsation des termes
de recherche
Possibilité de l’intégration
d’un thesaurus
Syntaxe de
Et/ou/sauf
l’interrogation A proximité/ Suivi de
avancée
Troncature
Guillemets
Sauvegarde des paramètres de recherche
Sauvegarde de l’historique des recherches
Gestion des cadres
Arrêt de la recherche automatique
OUI
NON
COMMENTAIRE
VEILLE
OUI
CRITERES
NON
COMMENTAIRE
Veille manuelle
Veille automatique (périodique)
Fréquence paramétrable
Formats des documents surveillés
Sources
Pages statiques
surveillées
Bases de données (pages
dynamiques)
Moteurs de recherche
(nombre)
Pages sécurisées / nécessitant
l’identification
Forums de discussion
Mailing lists
Exploration
Pages du site
des liens
Sites externes
Filtres
exclusion URL
exclusion formats
Indication des pages/sites indisponibles
Ajout manuel des sources
Import des favoris
Définition
Mot-clé trouvé
d’une
Changement du nombre des
modification
mots
Changement d’une image
Changement de paragraphe
précis
Apparition d’une nouvelle
page
Alerte au cas de modifications (type d'alerte)
Mise en évidence des modifications
Extraction des modifications
Arrêt de la veille automatique
78
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
TRAITEMENT ET ANALYSE DES RESULTATS DE RECHERCHE / VEILLE
CRITERES
OUI
NON
COMMENTAIRE
OUI
NON
COMMENTAIRE
Filtrage
Elimination des doublons
Elimination des URLs nonvalides
Présentation
Indication titre/nom
résultats
URL
1ère phrase
Résumé
Heure/date de consultation
Mots-clés trouvés
Nombre/type des changements
Taux de pertinence
Tri des résultats paramétrable
Rapport de recherche/veille
Sauvegarde
Plusieurs versions d’une page
des pages
Choix de format de sauvegarde
Choix de lieu de sauvegarde
Navigation off-line
Extraction des Insertion dans une base de
résultats
données
Choix de format de sauvegarde
Choix de lieu de sauvegarde
Export des résultats
Envoi par e-mail
Recherche
Requêtes simples
dans les
Requêtes avancées
résultats
Recherche multicritère
Possibilité de la catégorisation manuelle
Annotation des résultats
Indexation
Extraction des concepts du
sémantique
document
Extraction de mots-clés
Clusterisation
Analyse
Relations entre les sites
cartographique Relations entre les thèmes
DIFFUSION
CRITERES
Diffusion automatisée
Création des profils
79
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
Annexe 3 : Enquête sur les pratiques de veille sur l’Internet des
documentalistes du réseau documentaire des Chambres
d’Agriculture (résultats)
Combien de temps passez-vous en moyenne par semaine (en minutes)
à la recherche de nouvelles sources
20 30 20 Moyenne : 23
d’information
à la veille sur les pages/sites déjà identifiés
50 90 90 Moyenne : 76
à la saisie des notices
15 120 60 Moyenne : 65
Lesquelles des fonctionnalités proposées par les logiciels de recherche et de
veille sur l’Internet vous semblent-elles utiles ? Veuillez choisir: 1=peu utile,
2=assez utile, 3=très utile
la possibilité de formuler des requêtes avancées 3
3
3
9
la sauvegarde des paramètres des recherches
2
3
2
7
précédentes
la détection de l’apparition d’un mot clé sur des 2
3
3
8
pages prédéfinies
la détection de l’apparition d’un mot clé sur
1
1
1
3
toutes les pages vers lesquelles pointent des
liens partant d’une page prédéfinie
une alerte si des changements sont survenus sur 2
3
3
8
une page prédéfinie
la mise en évidence des modifications survenues 1
3
3
7
l’archivage de plusieurs versions d’une page
1
1
2
4
si la fonction d’archivage est activée, possibilité 2
1
2
5
de limiter l’espace disque utilisé
la classification des pages selon leurs sujets
3
2
2
7
l’extraction de concepts présents dans la page
2
2
2
6
l’élaboration d’un résumé
1
2
1
4
L’accord pour l’interface en langue anglaise
oui non non
non
Selon vous à quelle fréquence faut-il repérer de nouvelles sources d’information
sur l’Internet
tous les mois
1
0
1
2
tous les 3 mois
0
1
0
1
tous les 6 mois
0
0
0
0
Comment formulez-vous vos requêtes de recherche?
mot-clé simple
1
1
1
3
phrase, ex. « développement de l’agriculture
1
0
0
1
raisonnée »
opérateurs et/ou/sauf/suivi de
1
1
1
3
en utilisant uniquement les descripteurs du
0
0
0
0
thesaurus des CA
80
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
Quelles informations voudriez-vous trouver dans le rapport de la recherche ?
titre de la page
1
1
1
3
première phrase de la page
0
0
0
0
requête utilisée
0
1
1
2
indication de l'heure/date de consultation
1
1
1
3
Dans quel ordre devraient être présentés les résultats ?
pertinence par rapport à la requête
1
1
1
3
date d’apparition / modification
0
0
0
0
Majoritairement surveillez-vous …
certaines rubriques
1
0
1
2
certaines pages
0
0
0
0
les sites entiers
0
1
0
1
Combien de pages surveillez-vous au total ?
12 50 40 Moyenne : 34
Dans le cadre de la veille consultez-vous ?
les pages Internet qui nécessitent une
0
1
0
1
identification
les pages d’actualité
1
1
1
3
les forums de discussion
0
0
0
0
les documents diffusés par e-mail (type
1
1
1
3
newsletters)
les bases de données (répertoires, catalogues)
1
0
0
1
Quel sont les formats des documents que vous consultez ?
html
1
1
1
3
xml
0
0
0
0
pdf
1
1
1
3
doc, txt, rtf
1
0
0
1
ppt, pps
0
0
0
0
images (tous formats)
0
0
0
0
Combien de fois par mois sont mis à jour les sites que vous surveillez ?
le plus souvent
30 4
30 Moyenne : 21
le moins souvent
4
1
1
Moyenne : 2
A votre avis combien de fois par mois faudrait-il 60 4
30 Moyenne : 31
consulter des sites ?
Aimeriez-vous être alerté dès que …
une modification quelconque est survenue sur la 1
0
0
1
page surveillée
un nouveau lien apparaît sur la page surveillée
0
0
0
0
le mot-clé choisi apparaît sur la page surveillée 1
1
1
3
une image apparaît ou est modifiée sur la page
0
0
0
0
surveillée
Sous quelle forme aimeriez-vous recevoir les résultats de la veille automatique ?
Classez par ordre de préférence de 1 = la forme préférée à 3 = la forme le moins
souhaitée
une nouvelle version de page accessible off-line 1
2
3
6
un rapport avec les liens vers les pages
3
3
1
7
modifiées
81
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
une base de données des passages contenant les
mots clés trouvés sur les pages nouvelles ou
modifiées, avec les liens
2
1
2
5
82
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004
83
Pratiquer la veille manuelle ou se doter d’un agent intelligent. Cas du réseau documentaire des Chambres d’Agriculture.
Ewa Dessaignes – Mémoire INTD Cycle supérieur – octobre 2004