Moteur de recherche: c`est quoi - Association Baccon Informatique
Transcription
Moteur de recherche: c`est quoi - Association Baccon Informatique
Moteur de recherche: c'est quoi ? Un moteur de recherche est une application web permettant de retrouver des ressources (pages web, articles de forums Usenet, images, vidéo, fichiers, etc.) associées à des mots quelconques. Certains sites web offrent un moteur de recherche comme principale fonctionnalité ; on appelle alors moteur de recherche le site lui-même (Google Video par exemple est un moteur de recherche vidéo). Instrument de recherche sur le web constitué de « robots », encore appelés bots, spiders, crawlers ou agents qui parcourent les sites à intervalles réguliers et de façon automatique (sans intervention humaine, ce qui les distingue des annuaires) pour découvrir de nouvelles adresses (URL). Ils suivent les liens hypertextes (qui relient les pages les unes aux autres) rencontrés sur chaque page atteinte. Chaque page identifiée est alors indexée dans une base de données, accessible ensuite par les internautes à partir de mots-clés. Fonctionnement des moteurs de recherche Avant de passer à l’optimisation d’un site Internet pour les moteurs de recherche, il importe dans un premier temps de bien sonder le fonctionnement d’un moteur de recherche. De manière schématique, un moteur de recherche se divise en quatre parties : Un robot (araignée) qui cherche des sites Web sur Internet Un indexeur qui analyse les pages trouvées Une base de données dans laquelle sont stockés les pages et le résultat de l’analyse Un site Internet sur lequel les internautes peuvent consulter la base de données à partir d’un mot clé L’araignée L’araignée (spider), également appelée ‘crawler’ ou ‘robot’ en anglais, est un logiciel qui cherche des sites et pages Web sur Internet. Pour ce faire, le robot suit les liens à partir des sites Internet qu’il a trouvés plus tôt. En suivant les liens il passe d’une page Web à l’autre. Les pages trouvées sont transmises à l’indexeur pour être traitées. L’araignée de Google s’appelle ‘GoogleBot’. L’analyse des statistiques concernant le nombre de visiteurs ou des fichiers historiques d’un site Web permet souvent d’identifier la visite d’une araignée. Le terme ‘GoogleBot’ est dans ce cas indiqué à la place du nom du navigateur Web du visiteur du site. MSNBot et Yahoo sont deux autres araignées bien connues L’araignée cherche non seulement des nouvelles pages Web, mais se rend également régulièrement sur les pages connues pour contrôler si de nouvelles informations ont été ajoutées. Le GoogleBot visite chaque page Web toutes les six semaines environ. Si le site renouvelle régulièrement ses informations, l’araignée y reviendra plus souvent. Les sites d’actualité qui publient chaque jour de nouvelles informations sont par conséquent visités chaque jour (ou presque) par les robots balayeurs. Lors de la visite d’un nouveau site Web, le robot de Google parcourt uniquement la page d’accueil. Ce n’est que quelques jours plus tard qu’il reviendra pour télécharger le reste du site. En d’autres termes, il est normal que, dans un premier temps, seule la page d’accueil de votre nouveau site Internet soit répertoriée dans Google, les autres suivant seulement quelques jours plus tard. Pour savoir si votre site a déjà reçu la visite d’une araignée, le plus simple est d’entrer la requête suivante dans Google : ‘site:www.monsite.be’, www.monsite.be étant l’URL de votre site Internet. Google procédera à l’affichage de toutes les pages Web du site qui ont été trouvées par l’araignée. L’indexeur Commentaire [CD1]: En informatique , une application web (aussi appelée web app, de l'anglais) est une application manipulable grâce à un navigateur web. Commentaire [CD2]: Usenet est un système en réseau de forums, inventé en 1979 Commentaire [CD3]: Un robot d'indexation (ou araignée du Web ; en anglais web crawler ou web spider) est un logiciel qui explore automatiquement le Web Commentaire [CD4]: Un annuaire web, répertoire web, annuaire Internet ou répertoire Internet est un site Web proposant une liste classée de sites Web. Commentaire [CD5]: de l'anglais Uniform Resource Locator désigne une chaîne de caractères utilisée pour désigner une adresse web Commentaire [CD6]: Les hyperliens sont notamment utilisés dans le World Wide Web pour permettre le passage d'une page Web à une autre d'un clic. L’indexeur est le composant le plus puissant d’un moteur de recherche. Après avoir analysé le contenu et le contexte des pages trouvées, il essaie de déterminer les mots clés en rapport avec le contenu de la page Web. Chaque moteur de recherche possède sa propre équipe de mathématiciens qui développent des algorithmes à partir desquels l’indexeur peut analyser le contenu des pages Web. C’est la puissance de cet algorithme qui détermine si le moteur de recherche est en mesure de proposer des résultats pertinents à ses utilisateurs. Inutile de dire qu’un moteur de recherche garde secret le fonctionnement exact de son algorithme et que des adaptations et améliorations ont lieu régulièrement. Une page Web est analysée suivant une liste d’une quarantaine de points afin de trouver les mots clés pertinents : L’URL de la page Le titre de la page La répétition de certains mots clés Les métadonnées de la page Les descriptions des images qui figurent sur la page ... Google et la pertinence des résultats Google utilise un système de classement appelé PageRank pour classer les résultats d'une recherche du site le plus pertinent au moins pertinent. En fait ,plus l'adresse d'un site est répertorié par d'autres sites, plus ce site est pertinent: chaque lien pointant vers une page est considéré comme un vote pour cette page. Ainsi, les premiers résultats affichés par Google ne sont pas toujours les plus pertinents. Aucun moteur de recherche ne prend en compte le contenu réel des sites pour évaluer leur pertinence…ce ne sont que des machines ! Les Opérateurs boléens Les requêtes simples: o Avec Google mais aussi avec la plupart des moteurs de recherche, l’opérateur « AND » ou « ET » peut être résumé par un espace. Exemple : pour obtenir les résultats pour canard et orange : Canard orange o Obtenir une phrase exacte ou un nom propre il suffit de mettre l’expression entre guillemets. Le moteur de recherche comprend alors qu’il doit chercher exactement la même expression que celle décrit entre les guillemets. Il faut donc faire attention aux fautes d’orthographe, et penser en amont à ce qu’aurait pu écrire le webmaster. Exemple : pour obtenir les résultats pour un canard à l’orange : « Canard à l’orange » o Ne pas inclure de mots Lorsque l’on effectue certaines recherches, la nature de certains mots clefs bruite les résultats. Par exemple, lorsque l’on effectue une recherche sur les moteurs de recherche, les sites sur les moteurs de voiture peuvent sortir dans les résultats. Pour éviter cela, il suffit d’inclure l’opérateur – devant le mot à enlever. Exemple : pour obtenir les résultats de moteur de recherche sans voiture: Moteur recherche –voiture Requêtes avancées: o Trouver des synonymes ou des termes approchant Lors de la création d’une requête, il est parfois nécessaire d’utiliser des mots approchants. Pour cela, il est possible d’utiliser l’opérateur ~ qui cherchera les synonymes du mot principal. Exemple : pour obtenir les résultats approchant de beau bateau : Bateau ~beau o Rechercher des alternatives Afin d’avoir dans les résultats le maximum d’informations disponible sur un sujet donné, l’opérateur OR ou | permet de rechercher des alternatives. Exemple : pour obtenir des fraises sauvages ou des fraises des bois Fraises (sauvages OR « des bois ») o Utilisation des parenthèses Les parenthèses, comme en mathématiques, permettent de prioriser des éléments. Dans une requête, elles permettront de mettre en confrontation deux mots ou expression. Exemple : pour obtenir des résultats sur l’intelligence économique ou stratégique : Intelligence (économique OU stratégique) o Rechercher entre deux « périodes » Google permet de rechercher des termes entre deux périodes numériques. Exemple : acheter un vélo entre 150 et 250€. Il faut utiliser l’opérateur « .. » Vélo 150€..250€ Les métamoteurs Un métamoteur (ou méta-moteur) ou un méta-chercheur est un moteur de recherche qui puise ses informations à travers plusieurs moteurs de recherche généralistes. De manière plus précise, le métamoteur envoie ses requêtes à plusieurs moteurs de recherche et retourne les résultats de chacun d'eux. Le métamoteur permet aux utilisateurs de n'entrer le sujet de leur recherche qu'une seule fois tout en accédant aux réponses de plusieurs moteurs de recherche différents. Un métamoteur élimine les résultats similaires ; par exemple, si Google et Yahoo! renvoient sur les deux mêmes liens, le métamoteur ne va l'afficher qu'une seule fois dans la liste des résultats. Enfin, un métamoteur trie les résultats pour fournir en premier les pages fournies par plusieurs moteurs. Certains métamoteurs permettent en outre de mélanger une fonction annuaire (les résultats sont classés par thèmes) et une fonction moteur. Cela permet d'avoir une double vue sur les résultats. Les différents métamoteurs Copernic Agent (logiciel pour Windows) http://www.metamoteur.net/ https://ixquick.fr/ (Métamoteur international avec la possibilité de rechercher en 14 langues. Option pour trouver des fichier MP3, les images et les news.) http://www.seek.fr/ http://mamma.com/ http://www.tinooo.com/index.php?h=fr http://www.startissimo.com/ Commentaire [CD7]: Ixquick, de la société Surfboard Holding BV, est un métamoteur de recherche sur le Web. Sa spécificité est le respect de la vie privée de l'utilisateur : Ixquick affirme ne conserver aucune trace numérique des recherches effectuées1, pas même l'adresse IP2. Commentaire [CD8]: métamoteur personnalisable Commentaire [CD9]: Ce service centralise la recherche depuis une dizaine de moteurs. Option pour trouver des sons et des images. A la fois moteur de recherche et multimoteur.
Documents pareils
Rechercher une information sur l`Internet
Les principaux moteurs de recherche
Son adresse
Ses caractéristiques
www.google.fr
Sobre, il classe les sites par cote de popularité
Ne prend pas en compte les majuscules
Tous les termes d’une expr...