Les agents de recherche sur Internet
Transcription
Les agents de recherche sur Internet
Les agents de recherche sur Internet Table des matières Définition ................................................................................................................................... 2 Fonctionnalités attendues ....................................................................................................... 2 Pourquoi ce besoin d’agent pour internet................................................................................... 3 Caractéristiques de l’internet.................................................................................................. 3 Modélisation de la structure du web ...................................................................................... 3 Les méta-moteurs ....................................................................................................................... 4 En ligne .................................................................................................................................. 4 Généralistes ........................................................................................................................ 4 Spécialisés .......................................................................................................................... 5 En logiciel .............................................................................................................................. 6 Généraliste.......................................................................................................................... 6 Spécialisé pour les groupes de discussions ........................................................................ 7 Les agents de veille .................................................................................................................... 8 De pages ................................................................................................................................. 8 De sites ................................................................................................................................... 8 Revue de presse...................................................................................................................... 9 De moteurs de recherche ........................................................................................................ 9 Les agents d’alerte des serveurs ............................................................................................. 9 Les aspirateurs.......................................................................................................................... 10 Les analyseurs .......................................................................................................................... 11 Extraction terminologique & résumé ................................................................................... 11 Métamoteur Extracteur et Catégoriseur ............................................................................... 11 Métamoteur Extracteur et Constructeur de Carte................................................................. 11 Les solutions intégrées ............................................................................................................. 12 Références bibliographiques .................................................................................................... 13 Ouvrages............................................................................................................................... 13 Sites web .............................................................................................................................. 13 Les agents de recherche sur Internet Définition Par le terme d'agents de recherche d'informations, nous qualifierons toute la gamme de logiciels intermédiaires entre les moteurs de recherche et les "agents intelligents", consacrés à la recherche d'informations. Leur intérêt réside dans leur capacité à remplir et à automatiser des tâches à la place de l'utilisateur. Ils suivent à la lettre la définition du terme agent : "entité agissant pour le compte de quelqu'un". Cette vague définition admise, les agents de recherche d'informations sont d'une grande diversité, remplissant rarement les mêmes tâches. On peut les distinguer par les fonctions qu'ils remplissent, tout en gardant à l'esprit que nous allons vers des outils de plus en plus complets, intégrant ces diverses fonctionnalités dans un même produit. Fonctionnalités attendues Différentes catégories de recherche (Web, science, Newsgroup…). Pas de limitation du nombre de réponses. Personnalisation d’une catégorie de recherche. Annotation sur les pages. Filtrage des domaines dans la recherche (.edu, .com). Filtrage des domaines dans les résultats. Crawling supplémentaire à partir des liens des pages trouvées. Prise en compte de bases de données telles que Medline, INIST… Option « Résumé » d’une page. Télédéchargement de sites entiers. Filtrage par site. Recherche sur les résultats. Catégorisation des pages selon leur contenu. Cartographie des résultats Veille sur le contenu des pages Planification de la veille des pages. Pourquoi ce besoin d’agent pour internet Caractéristiques de l’internet Information massive Information dynamique Information désorganisée Faiblesse des moteurs de recherche Modélisation de la structure du web Etude conjointe entre AltaVista Company, IBM Almaden Research Center et Compaq Systems Research (Broder A., Kumar R., Maghoul F., Raghavan P., Rajagopalan S., Stata R., Tomkins A., Wierner J., 2000, Graph structure in the web. Actes du Colloque : Proceedings of the 9th International World Wide Web Conference, p. 309-320) Les méta-moteurs Un méta-moteur est « un moteur au-dessus des moteurs ». Dans la pratique, un méta-moteur interroge au moins deux moteurs voire plusieurs centaines de moteurs, pour les plus performants. L'avantage d'un méta-moteur est de permettre de poser une requête en une seule fois et d'obtenir en une interrogation les résultats de plusieurs index. L’avantage de tels outils est la rapidité de recherche : plus besoin d’aller sur chaque outil de recherche, de poser sa requête et d’attendre les résultats. L’inconvénient d’un tel procédé d’interrogation de masse est qu’il ne permet pas d’exploiter toutes les fonctionnalités d’un outil de recherche, et reste limité à des interrogations sommaires, avec les opérateurs booléens les plus courants ET, OU, SAUF. Les méta-moteurs peuvent être dissociés en deux catégories : en ligne et hors-ligne, ou téléchargeables. Les méta-moteurs en ligne interrogent souvent moins de moteurs que leurs confrères téléchargeables et ne disposent pas de toutes les fonctionnalités (en autres d’archivage) offertes par une solution sur poste. On distinguera quatre fonctions principales : Recherche d'informations : celle-ci peut se faire de manière "intelligente" par l'utilisation de méta-moteurs perfectionnés (WebSeeker, Copernic Pro), d'outils d'analyse linguistique des requêtes (Autonomy, DigOut4U) ou par exploration de liens hypertextes à partir d'une URL (adresse d'une page web) donnée, sans utilisation d'un moteur de recherche (DigOut4U) Analyse des informations récupérées : indexation sémantique des résultats (EchoSearch, WebCompass), résumé automatique (EchoSearch, WebCompass, DigOut4U) Filtrage, édition, archivage, mise à jour des résultats (WebSeeker, BullsEye) Navigation off-line parmi des pages ou des sites web téléchargés (WebWhacker, Teleport Pro) En ligne Généralistes Répertoire comparatif des métamoteurs Version Version Métamoteur.net : http://www.meta-moteur.net/ All Metasearch : http://www.allmetasearch.com/ KartOO http://www.kartoo.com/ Ce métamoteur intelligent puise ses résultats dans une quinzaine de moteurs français et anglais (Yahoo, Google, Excite, Nomade...) et affiche les résultats sur une carte thématique. Il propose des fonctionnalités innovantes telles que l’interrogation en langage naturel, l’interprétation booléenne automatique, l’envoi des résultats à un tiers, ... Ixquick http://www.ixquick.com/ Ixquick connaît les moteurs de recherche qui peuvent s’occuper des expressions, de la logique booléenne, des caractères jokers et d’autres commandes de recherche. Ixquick traduira puis expédiera votre recherche, uniquement sur les moteurs qui peuvent gérer la complexité de votre recherche. Mamma http://www.mamma.com/ Mamma interroge simultanément dix des principaux moteurs de recherche après leur avoir adapté le format des mots et la syntaxe. Mamma crée ensuite une base de données virtuelle, organise les résultats, les met dans un format uniforme et les présente selon leur pertinence et leur source MapStan Search http://search.mapstan.net/ Ce méta-moteur de capitalisation des recherches vous offre :une vision synthétique des résultats,des suggestions complétant les résultats,un catalogue dynamique des sites WEB ProFusion http://www.profusion.com Spécialisés http://www.seeq.com/popupwrapper.jsp?referrer=&domain=intelligenc ealert.com&direct=true En logiciel Généraliste Répertoire comparatif des logiciels Métamoteur.net http://www.meta-moteur.net/logiciel/ Copernic http://www.copernic.com/ Copernic Agent , une solution complète de recherche, d’analyse et de veille Info complémentaire http://www.agentland.fr/pages/learn/articles/loupe/loupe_copernicagent.html Strategic finder http://www.strategicfinder.com/ Glooton Glooton est un métamoteur idéal pour les néophytes et les personnes qui veulent se familiariser avec ce type d’outil de recherche. Quant aux utilisateurs avancés, cet agent leur obéira au doigt et au clavier grâce à l’ajout manuel de sources. En effet, bien que Glooton ne permette pas d’ajouter ses propres sources, il est possible, pour ceux qui ont l’âme d’un programmeur, de développer eux-même leurs propres plug-ins en utilisant le langage « Internet Search Interface (ISIL) » disponible à cette adresse http://developer.apple.com/technotes/tn/tn1141.html Info complémentaires http://www.agentland.fr/pages/learn/articles/glooton.html WebSeeker http://www.bluesquirrel.com/products/seeker/ Info complémentaires http://www.agentland.fr/pages/learn/articles/webseeker.html WebFoil http://webfoil.iwarp.com/ FirstStop Websearch http://www.firststopwebsearch.com/index.html Subject Search Spider http://www.kryltech.com/spider.htm WebFerret http://www.ferretsoft.com/ Bullseye N’est plus commercialisé ! Ancien produit de Intelliseek http://www.intelliseek.com/ Spécialisé pour les groupes de discussions répertoire http://www.freedownloadscenter.com/Network_and_Internet/Newsreader_Tools/NewsMonge r.html NewzCrawler http://www.newzcrawler.com/ Les agents de veille De pages http://www.copernic.com/en/products/tracker/index.html http://www.activeurls.com/en/ Info complémentaires http://www.agentland.fr/pages/learn/articles/checkget.html News Watch http://www.xemico.com/newswatch/index.html http://www.wysigot.com/ De sites http://aignes.com/ Info complémentaires http://www.agentland.fr/pages/learn/articles/websitewatcher.html http://www.timelyweb.com Info complémentaires http://www.agentland.fr/pages/learn/articles/timelyweb.html Revue de presse http://www.headlineviewer.com/ http://www.bbc.co.uk/newsline/ De moteurs de recherche Les agents d’alerte des serveurs Les aspirateurs Website Extractor http://www.internet-soft.com/extractor.htm Grab-a-site http://www.bluesquirrel.com/products/grabasite/index.html Subject Search Siter http://www.kryltech.com/siter.htm Subject Search Siter (SSSiter™) permet de rechercher dans un site Web (mots clés, expressions, questions etc.) et de recevoir un rapport avec les liens classés par pertinence et une partie du texte. Il recherche les résultats dans 36 langues (correspondance totale, partielle et approximative). Les analyseurs Extraction terminologique & résumé GuideBeam http://www.guidebeam.com/ Copernic summarizer http://www.copernic.com/en/products/summarizer/download.html Sinope summarizer http://www.sinope.nl/en/sinope/ Subject Search Summarizer SSSummarizer™ http://www.kryltech.com/summarizer.htm Métamoteur Extracteur et Catégoriseur Exalead http://www.exalead.com/cgi/exalead/l=en Vivisimo http://vivisimo.com/ Métamoteur Extracteur et Constructeur de Carte Mapstan search http://search.mapstan.net/ Kartoo http://www.kartoo.com/ Les solutions intégrées Panorama des principales solutions intégrées Editeur Solution Commentaires Alogic Aperto Libro Solution réalisant l’identification et la valorisation des sources d'information ; l’exploration, l’acquisition et le stockage de contenus à exploiter ; la création de bases de connaissances textes et images, d'infothèques mises à jour en permanence propriétaires ou mutualisées. Arisem KM Server / Competitive Intelligence Surveillance du Web en continu, classification de l'information selon des catégories prédéfinies et sous forme d'arborescence, diffusion de l'information en mode alerte. La KM server propose en outre de multiples fonctionnalités de travail coopératif. Datops Pericles 2.0 Suite logicielle modulaire qui se définit comme solution de Business Intelligence. La brique ETL peut capter toute source d’information électronique (Web, presse, intranet, bases de données, mail, newsgroups). La brique InfoWarehouse assure le stockage. La brique InfoMining permet l'analyse lexicale, linguistique ou sémantique ainsi que la catégorisation. Pericles Report met à disposition des utilisateurs des outils de recherches, des tableaux de bords graphiques et des outils interactifs de datamining et d’exploration. Evolution Solution intégrée composée d'une plate-forme de base sur laquelle viennent se greffer des modules additionnels. La surveillance de pages ou de sites Web est possible, ainsi que des alertes par mail en fonction d'un niveau de modification prédéterminé : modification de plus de x % du contenu d'une page, modification des images, des liens par exemple. Le Web invisible, les listes de discussion et les groupes de discussion Usenet sont également surveillables. Intelliseek Marketing intelligence Propose une gamme de solutions permettant de scruter l'information disponible sur le Web, à hauteur de cinq millions de pages par jour. L'information peut concerner la marque de l'entreprise, l'impact d'une campagne de publicité, les avis de consommateurs postés sur des forums, etc. Sinequa Intuition / iInternet Avec le produit iInternet, le moteur de recherche Intuition indexe pages et sites Internet. Avec le produit iPush (développé en collaboration avec Thales TRT), les utilisateurs sont prévenus des résultats de leurs filtrages sélectifs. Verity Verity K2 Enterprise Solution intégrée de recherche et de catégorisation, K2 Entreprise indexe de multiples sources de données textuelles (e-mail, bases de données, sites Web) et référence automatiquement les nouveaux documents. La solution fusionne et catégorise les résultats issus de recherches sur les index de sources d’information Internet telles que Altavista, Factiva, Google, Hoover ou Moreover. Albert AMI Market Intelligence Automatise la collecte et l'analyse d'informations situées sur des sites concurrents, des fichiers, des groupes de discussion, etc. Interface Web. Digimind Références bibliographiques Ouvrages Recherche et veille sur le web visible et invisible. Agents intelligents. Annaires sélectifs. Interfaces des grands serveurs. Portails thématiques. de Riou Foenix Éditeur : Tech.& Doc./Lavoisier (11 avril 2001) ISBN : 2743004509 Intelligence stratégique sur Internet : Comment développer des activités de veille et d’intelligence économique sur le web. Moteurs de recherche, réseaux d’experts, agents intelligents. de Carlo Revelli Éditeur : Dunod (1 mai 2000) Collection : Stratégies et Management ISBN : 2100051547 La recherche intelligente sur l'Internet de Henry Samier, Victor Sandoval Éditeur : Hermes Sciences Publicat. (21 septembre 1999) ISBN : 2746200708 Guide de la recherche sur Internet : Outils et méthodes de Béatrice Foenix-Riou Éditeur : Nathan Université (16 mai 2002) Collection : Collection 128 ISBN : 2091911933 Sites web http://www.agentland.fr/ Ce site consacré aux agents intelligents, est développé par la société Cybion. Agentland, le portail des agents intelligents : agents de veille, agents de recherche d’information sur Internet, comparateurs de prix, shopbots, assistants virtuels, meta moteurs, intelligence artificielle, robots..
Documents pareils
Un astronome joue au «moteur de moteurs»
résumé de pages Web hérité de la technologie «Summarizer»,
programme dédié exclusivement à la tâche de contraction de
texte (voir ci-dessous).
Enfin, dernière nouveauté, Copernic propose également u...
Guide de recherche web
un métachercheur ou un métamoteur est en réalité un outil de recherche qui permet de
solliciter une même requête sur plusieurs moteurs de recherche simultanément .en utilisant
ce type de recherche ...