Guide de recherche web
Transcription
Guide de recherche web
Comment trouver la bonne information sur le WEB.. 1 SOMMAIRE 1. les annuaires ou moteurs de recherche par thèmes 1.1 les principaux annuaires. 2. les moteurs de recherche 2.1 les principaux moteurs 3. le langage des outils ? 3.1. Les mots clés 3.2. Les opérateurs booléens et autres fonctions de recherche A) Les guillemets B) Les opérateurs booléens C) La troncature D) Les combinaisons E) Les parenthèses 4 les métachercheurs 4.1 principaux métachercheurs 4.2 métachercheurs en ligne 4.3 métachercheurs clients 4.4 autres outils 5 les Agents intelligents 5.1 Quelques Agents 5.2 Les agents d’alerte par e-mail 6 Les aspirateurs ou la navigation off ligne 7 Les outils de recherche sur le web invisible 2 1. les annuaires ou moteurs de recherche par thèmes. Ils permettent une recherche sur le web par une classification « intellectuelle » des sites qui sont agencés selon une hiérarchie thématique (thèmes, sous-thèmes, etc. L’enrichissement des répertoires des annuaires se fait essentiellement par deux méthodes : _la première par l’inscription des sites par leurs auteurs et dans ce cas les recherches se font en texte intégrale et non pas sur le contenu des pages web ( à la différence des moteurs), mais sur les indications fournies par les créateurs des site ( titre de la page, commentaires..) _la seconde par la classifications des moteurs de recherche eux mêmes. Celle-ci implique une vérifications des données recueillies par des opérateurs humains afin de valider l’information. Toutefois la majorité des annuaires permettent d’effectuer une recherche globale dans toute la base de données de l’annuaire. Dans le cas de la recherche globale l’annuaire procède à la recherche de l’information selon le mot clé indiqué ; ensuite il classe les résultats par pertinence selon le nombre de mots clés trouvées dans le titre, le commentaires. Ce type de recherche est assez efficace pour trouver des informations générales, son utilisation est simple cependant on peut reprocher aux annuaires un manque d’exhaustivité, et une certaine faiblesse en ce qui concerne des recherches plus précises. A partir de là l’utilisation des moteurs de recherches me paraît indispensable. 3 Les principaux annuaires de recherches : Noms Nombres de thèmes Références indexées Vocation www.yahoo.com Inconnus 1.800.000 International www.looksmart.com 170.000 1.800.000 International www.snap.com 60.000 1.500.000 International www.dmoz.org Inconnus 2.000.000 International www.about.com Inconnus International http://magellan.existe.com* International www.yahoo.fr 95.000 Francophone www.voilà.fr 65.000 Francophone www.nomade.fr 90.000 Francophone http://pre.sympatico.ca Francophone * il s’agit d’un guide Internet. 4 2. les moteurs de recherche l’objectif des moteurs de recherches : indexer l’ensemble des pages Web de façon exhaustive. Cette indexation est opérée de manière totalement automatique par des robots appelés spider qui parcourent l’univers du web en commençant par un certain nombre de pages de départ. De plus leur efficacité ne se limitent pas à l’indexation mais ils testent tous les liens hypertexte qu’ils trouvent. Cette indexation se fait en texte intégrale. Une fois terminé, ils recommencent afin d’opérer une actualisation des anciennes pages indexées. Cette capture d’informations est ensuite stockée dans une base de données appartenant au moteur de recherche. L’utilisateur en soumettant une requête, lance la recherche sur toute la base. 1 le spider parcourt le web et renvoie les informations au serveur 2. Le serveur stocke les informations trouvées par le web. 3.Le serveur web prend en compte les requêtes des utilisateurs et les transmet au serveur d’index qui renvoie les résultats Il faut toutefois relativiser l’information délivrée par ces serveur car celle-ci peut parfois être dépassée : notamment quand il s’agit des informations actualisées en permanence. De plus ces moteurs indexent les pages HTML statiques et ne traitent pas les informations contenues dans les pages dynamiques (le web invisible, les bases de données accessibles par code, par un formulaire, par exemple le serveur du CFCE). Ce web invisible représente une masse d’informations énorme qui nécessite des outils de recherche spécialisés. 5 Les principaux moteurs de recherche. Noms Références indexées Vocation www.altavista.com ou .fr 350 millions de pages International/Francophone.fr www.exicite.com 250 millions de pages International www.google.com 560 millions de pages International www.lycos.com 340 millions de pages International/Francophone.fr www.hotbot.com 500 millions de pages International www.northernlight.com + de 250 millions de pages international www.webtop.com 500 millions de pages International avec une orientation business www.go.com International. 6 3. le langage des outils ? 3.1. Les mots clés Avant de nous lancer dans une recherche hasardeuse et sans savoir exactement quelle est l’information recherchée, nous devenons définir l’axe de notre stratégie de recherche en fonction du sujet. Un mot clé doit être précis et explicites. En effet la qualité de l’information dépend directement de ce choix. Toutefois notre recherche peut se basée par l’emploi de plusieurs mots qui définissent le sujet ou qui cerne le sujet. L’utilisation de mot clé peut parfois se révéler infructueuse, alors l’utilisateur doit définir une nouvelle stratégie de recherche. Attention : conventions à prendre en compte lors de la recherche. Pour un moteur de recherche, un mot est une suite de lettres et/ou de chiffre séparés d’un autres mot par un espace, un signe de ponctuation ou un caractère non alphabétique. Les signes de ponctuations ne sont pas indexés par le moteur. • L’emploi des minuscules et majuscules est important pour certains moteurs Exemple si vous saisissez un mot tout en minuscule la recherche portera indifféremment sur tous les mots sans soucis de case. lyon lyon / Lyon / LYON Lyon Lyon LYON LYON Afin de ne pas restreindre votre champ de recherche, il est recommandé de saisir votre mot clé tout en minuscule. 7 Par ailleurs l’emploi des lettres accentuées a une importance pour la plupart des moteurs de recherche. Certains moteurs en tiennent compte d’autres pas. Par exemple : Yahoo été été / ete ete ete / été pour Hotbot : eté été ete ete 3.2. Les opérateurs booléens et autres fonctions de recherche Les guillemets « » L’emploi des guillemets lors de la saisie d’une suite de mots (mot composé, expression) permet d’effectuer une recherche ciblée définissant les mots contenues dans une expression comme des mots clés. Afin que la recherche porte sur l’expression exacte demandée il faut encadrer l’expression par des doubles guillemets. Exemple : « « évasion fiscale » » la recherche du web portera sur cette expression exacte. 8 Les opérateurs booléens La majorité des outils de recherche fonctionnent selon les principes de recherches booléennes (sauf dans le cas d’une recherche par thèmes hiérarchiques à partir d’un annuaire). Ils reposent sur le OU, le ET, le SAUF. opération Union Exclusion Opérateur equivalents O OR SAUF NOT Intersection ET AND Proximité PROCHE DE NEAR - Leur utilisation : Le « OU » Cette opérateur placé entre deux termes permet de rechercher les pages contenant soit l’un ou l’autre mot soit les deux mots dans une page web. Certains moteurs de recherche l’utilise par défaut, il suffit de taper les deux mots séparés par un espace ; pour les autres moteurs de recherche l’utilisateur doit préciser l’équation de recherche par « OU , OR » lorsqu’il s’agit d’un outil international. Le « SAUF » Lorsqu’on lance une recherche avec l’opérateur « SAUF » entre deux mots clés, la moteur doit trouver les pages contenant le premier terme mais pas le second. Celui-ci peut être remplacé par le signe « _ » ou par le NOT. Le « ET » La recherche cible alors toutes les pages contenant impérativement les deux termes. Evasion + fiscalité soit évasion ET fiscalité soit évasion AND fiscalité 9 La troncature La commande * peut être utilisé pour remplacer une lettre ou une série de lettres. Fisc* fisc/fiscalité/fiscale/…. Les combinaisons Toutes ces opérateurs de recherche peuvent être combinés afin d’affiner le plus possible sa recherche. Les parenthèses L’utilisation des parenthèses permet de regrouper des expressions booléennes complexes. (évasion & fiscalité) & (France) 10 4 les métachercheurs un métachercheur ou un métamoteur est en réalité un outil de recherche qui permet de solliciter une même requête sur plusieurs moteurs de recherche simultanément .en utilisant ce type de recherche on appréciera forcément la démultiplication de la recherche cependant on peut toutefois déplorer un certain manque de contrôle sur le recherche. En effet cette inconvénient provient du fait que les différentes bases interrogées ont des propriétés et des fonctionnalités différentes : notamment en ce qui concerne les opérateurs booléens. De plus des différences existe entre les outils. Certains, encore rudimentaire, posteront leur requête et se contenteront de rapatrier les réponses. Tandis que d’autres plus avancés, permettront à l’utilisateur d’effectuer une sélection des moteurs à solliciter et effectueront un traitement des résultats ( tri par pertinence, suppression des redondances) Il faut noter que certains de ces outils ne sont pas directement en ligne et il faudra les acquérir et les installer sur son poste pour pouvoir les utiliser. Les métachercheurs sont des outils incontournables. 4.1 Principaux métachercheurs 11 4.2 Métachercheurs en ligne Nom www.metacrawler.com Moteurs interrogés Lycos Yahoo InfoSeek Existe Hotbot WebCrawler EINet Galaxy. 24 moteurs. www.savysearch.com www.profusion.com AltaVista Excite Magellan InfoSeek Lycos Yahoo Snap GoTo WebCrawler commentaire MetaCrawler organise les résultats en une liste unique après avoir éliminé les URL en double. On peut choisir entre une recherche de mots composés (phrase), un ET (all) ou bien un OU (any) entre les termes. Les résultats sont triés par pertinence. Disponible en 23 langues dont le français. A partir d’une même requête SavySearch interroge 24 moteur de recherche. Il choisit de les interroger en fonction des critères suivants : _le texte de la question, les sources et types d’information sélectionnés, une estimation du trafic d’Internet _une anticipation des temps de réponse des index, la charge du serveur. Dans le résultats on peut éliminer les doublons et définir le nombre de document à afficher par outil. L’utilisation de profusion est simple; en effet l’utilisateur peut choisir trios moteurs ou laisser ProFusion choisir à sa place. Les doublons sont supprimés et possibilité de vérifier les liens. Il interroge plusieurs moteur en même temps et classe les résultats en catégories : soit les pages canadiennes, soit les sites commerciaux, ect. Métamoteur francophone www.infind.com www.ariane6.com Permet des recherches géographiques. www.dogpile.com www.all4one.com AltaVista Lycos Yahoo Excite Il propose l’utilisation des frames HTML pour afficher simultanément le résultat des recherches. 12 4.3 Métachercheurs clients www.copernic.com www.strategicfinder.com Les recherches sont lancés simultanément sur 32 moteur de recherche et annuaires. Il affiche le résultats au fur et à mesure qu’il les trouve. Pour chacun apparaît le titre, une description, l’URL, le nombre d’occurrences, la date de la recherche, la date de la recherche, « trouvé par », ainsi que l’état (lien valide ou pas) ; les doublons sont éliminés. Pour une consultation hors ligne, il est possible de télécharger tout ou une partie des documents. Un historique détaillé des résultats, classés dans des dossiers, peut être crée et mis à jour au fur et à mesure. Téléchargeable en version démo. Même fonctionnalités. Téléchargeable en version démo. 13 4.4 Autres outils utiles 1. Recherche d’e-mail Bigfoot http://fr.bigfoot.com possibilité de recherches sur le mail, les pages blanches ou les deux. Version mondiale disponible Internet address finder http://www.iaf.net/searchresults.htm Meta Agent Search E-mail http://mesa.rrzn.uni-hannover.de/ 2. Moteurs de recherché géographiques Virtual Tourist http://www.virtualtourist.com 3. revues de Presse Individual Possibilité de se créer sa propre revue de presse en fonction de ses centres d’interêts. http://www.individual.com/ Entry Point Nouvelle version de Pointcast en mode Push. http://www.entrypoint.com/ 14 5 les Agents intelligents selon les professionnelles il s’agit simplement d’outils utilisant l’intelligence artificielle, et qui répondent à certaines caractéristiques : les applications de Autonomie : capacité à s’autogérer en prenant des initiatives et à agir sans l’intervention de l’utilisateur (même quand l’utilisateur est déconnecté) Capacité à communiquer et à coopérer : en vue d’échanger des informations avec d’autres Agents, d’autres serveurs ; et intégrer les nouvelles demandes ou suggestions de l’utilisateur. Raisonner et réagir à son environnement : capacité d’analyse de son environnement et faculté d’adaptation à ses évolutions. Mobilité : dans le but de se déplacer sur le réseau pour accomplir des tâches sur lesquelles l’utilisateur n’a pas de contrôle direct. Actuellement sur le marché aucun agent ne répond à tous ces critères. Les produits actuels sont encore un peu éloignés de l’intelligence Artificielle. Toutefois, ils sont capables de remplir certaines tâches de recherche à la place de l’utilisateur. C’est cette dernière caractérise qui sert actuellement de dénominateur commun pour les applications d’agent. On distingue aujourd’hui sur le marché : Les agents sociables qui ont des applications dans le domaine du commerce électronique parallèlement à la fourniture d’informations, l’agent « apprend » les goûts de l’utilisateur afin de lui proposer des résultats d’avantages pertinents. Ils observent les recherches, notent les choix successifs, les recoupent et en déduisent des centres d’interêt. On retrouvent dans cette catégorie les shopping agents dont les services permettent de comparer les prix de produits proposés en ligne sur le réseau. Les agents pour la recherche d’information regroupent quand à eux les utilitaires spécifiques pour la recherche de l’information et dont les caractéristiques permettent d’automatiser les tâches. La recherche d’information (Copernic _ Webseeker _ Digout4U) : la plupart des agents travaillent en fait sur la base d’un métamoteur qui sollicite plusieurs outils de recherche en même temps. Les recherches sont donc effectuées selon les modalités que nous avons évoquées auparavant. Ils se différencient cependant d’un simple métachercheur par d’avantage de rapidité, des possibilités de fonctionnement plus souples (l’agent fonctionne la nuit) et pour certains une analyse linguistique des requêtes faites en langage naturel qui évite l’usage des opérateurs booléens classique. 15 Ils se différencient cependant d'un simple métachercheur par d'avantage de rapidité, des possibilités de fonctionnement plus souples (l'agent fonctionne durant la nuit) et pour certains, une analyse linguistique des requêtes faites en langage naturel qui évite l'usage des opérateurs booléens classiques. Un classement des résultats peut être fait selon le modèle d’une carte. L'analyse des informations récupérées (DigOut4U, Webcompass) : par l'analyse sémantique (les pages récupérées sont classées par thèmes) ou le résumé automatique (extraction de passages pertinents ou analyse statistique des contenus des pages). Le filtrage, l'édition, l'archivage, la veille et la mise à jour des résultats (Webseeker, Copernic) : les résultats obtenus peuvent être traités de façon à supprimer les doublons, les "liens morts" et les documents non désirés par l'utilisateur. Certains agents proposent aussi de programmer des visites périodiques sur des sources pertinentes afin d'en vérifier le contenu (mises à jour, nouvelles pages, ... ) les résultats peuvent ensuite être archivés ou édités en HTML. La consultation hors ligne : les documents les plus pertinents peuvent être téléchargés en local (sur la poste de travail de l'utilisateur) en vue d'une exploitation ultérieure. Les fonctions automatiques de ces outils sont particulièrement utiles pour la mise à jour de certaines données, compte tenu de leur évolution constante sur le réseau. Leur utilisation se justifie donc par l'automatisation des tâches routinières. Ils restent cependant un outil complémentaire pour la recherche d'informations car ils sont généralement moins performants que les moteurs "traditionnels". Comme pour toute recherche sur le réseau, l'important est de cibler le mieux possible ce que l'on cherche. Les agents interviennent donc soit à priori lorsque l'utilisateur cherche à réaliser un tour d'horizon sur un s 'et particulier, soit à posteriori lorsque les sources pertinentes ont ni été identifiées et qu'il s'agit de les suivre au quotidien (veille). Leur utilisation nécessite donc une bonne connaissance du réseau (afin de savoir si l'information recherchée y est présente, et s'il est par conséquent utile d'engager des recherches) ainsi qu'une bonne maîtrise du fonctionnement des outils "classiques" (annuaires et moteurs) car rappelons-le, les agents reposent en partie sur l'utilisation de ces derniers. 16 Quelques agents : BullsEyes http://intelliseek.com DigOut4U http://arisen.com Net Attache Pro http://tympani.com Plus de 450 sources couvrant le web mondial : Robots, annaires, métamoreurs, banques de données, sites intéressants, … Le logiciel est constitué d’un assistant de recherche et de gestion des résultats ainsi que d’un module disponible uniquement en version professionnelle qui posséde elle des options de veille. Version démo gratuite. Même principe de fonctionnement qu’un métamoteur cependant sa technologie est basée sur le l’analyse sémantique multilingue. Version démo gratuite. A mi-chemin entre le logiciel de recherche et de l’aspirateur de sites. Il permet aussi de surveiller à la fois l’évolution de certains sites ou de certaines questions. Version démo gratuite. 17 Les agents d’alertes par e-mail. Ils vous envoie un courrier électronique chaque fois qu’une page web que vous avez sélectionnée est modifiée ou bien quand une recherche d’informations produits de nouveaux résultats au sein d’un ou plusieurs moteurs. Il est possible de filtrer les changements qui ont eu lieu en choisissant des mots clés appropriés. Les agents : NetMind http://www.netmind.com The informant http://www.informant.darmouth.edu Alerte par e-mail sur la fonction Mind-it. Même système. 18 6 Les aspirateurs ou la navigation off ligne les aspirateurs sont des outils qui permettent de télécharger les pages web de n’importe quel site Internet et de les sauvegarder sur votre disque dur. Le principal argument de ces outils est de pouvoir surfer sur un ou plusieurs sites sans avoir à payer les coûts de connexion. D e plus ils peuvent en outre informer de la mise à jours d’un site. Memoweb http://www.goto.com WebCopier http://www.maximumsoft.com WebZip http://www.spider.com E-Catch http://www.ecatch.com Il télécharge un site sur votre disque dur et vous permet de surfer off line. Téléchargeable gratuitement. Mêmes fonctions. Téléchargeable gratuitement. Très pratiques d’utilisation, il vous permet de programmer ce que vous voulez télécharger. Version démo gratuite. Mêmes fonctions. Téléchargeable gratuitement. 7 Les outils de recherche sur le web invisible comme nous l’avons évoqués précédemment le web invisible représente une source d’information considérable. Les méthodes classiques d’indexation ne permettent pas de répertorier cette masse d’information car il se heurte aux formulaires de recherches propres à chaque site constituant le web invisible. Par « web invisible » on entend généralement : _Les sites diffusant de l’information mais il demande une identification au préalable. _Les banques de données hébergées sur les grands serveurs (Dialog, Datastar, ect.) disposant d’interfaces d’interrogations sur le réseau. _Les sites constitués par une base de données interne. Pour pallier les insuffisances des moteurs classiques, des outils ont été développés et sont aujourd’hui disponibles. Deux sources principalement : Les sites spécialisés qui compilent des adresses de sites pertinents. Ils recensent les différentes base de données existantes. Les outils de recherche spécialisées : la plupart sont conçus selon le principe de annuaires de recherche classiques (description de sites, classement par rubrique et sous-rubriques), à la différence que les sites sont sélectionnées selon des critères rigoureux par des professionnels de l’information, et font l’objet d’une évaluation qualitative. Ils ne retiennent théoriquement que les sites à valeur ajoutée. 19 Les outils de recherche du web invisible 20 21
Documents pareils
Les agents de recherche sur Internet
d’archivage) offertes par une solution sur poste.
On distinguera quatre fonctions principales :
Recherche d'informations : celle-ci peut se faire de manière "intelligente" par l'utilisation de
méta...
Optimiser ses recherches sur Internet
temps. Ils ne possèdent pas leur propre base mais se contentent de transmettre votre requête
sur d’autres moteurs et de vous renvoyer les réponses. Bien entendu, les résultats affichés ne
représent...
Recherches sur internet
mais on dispose maintenant de plusieurs types d'outils :
1. une solution consiste à alimenter une base de données en extrayant les adresses des messages
de News ou des pages des serveurs W3 et en p...