CutePDF Writer, Job 3
Transcription
CutePDF Writer, Job 3
Université de Montpellier II Année Universitaire 2005/2006 Master 2 Informatique Parcours IDI TER Référencement Responsable de formation et tuteur : M. POMPIDOR Auteurs de l’étude : Elizabeth MUNOZ & William GARCIA TER Référencement Remerciements Nous souhaitons remercier M. Pompidor, qui nous a confié cette étude, pour son encadrement. Nous tenons également à remercier l’ensemble des webmestres et des personnes avec qui nous avons pu échanger sur le thème du référencement. TER Référencement Table des matières 1 Introduction __________________________________________________ 5 1.1 1.1.1 1.1.2 1.2 1.2.1 1.2.2 1.2.3 1.3 1.3.1 1.3.2 Types d'outils de recherche et fonctionnements _______________________ 6 Les moteurs de recherche ___________________________________________________ 6 Les méta-moteurs __________________________________________________________ 8 Les annuaires ______________________________________________________________ 8 La domination de Google___________________________________________ 9 Chiffres clés _______________________________________________________________ 9 Le concept de recherche par Google _________________________________________ 10 Objectifs d'un bon référencement __________________________________ 11 1.5 Les acteurs du référencement _____________________________________ 12 Les Les Les Les organismes d’études et association _______________________________________ 12 sites d’information spécialisés ___________________________________________ 12 forums et groupes de discussions _________________________________________ 12 conférences et séminaires professionnels__________________________________ 13 Referencement utilisant des techniques d’optimisation _______________ 14 2.1 Définition (SEO: Search Engine Optimization) ________________________ 14 2.2 Contenu ________________________________________________________ 14 2.2.1 2.2.2 2.3 2.3.1 2.3.2 2.4 2.4.1 2.4.2 3 L’hypertexte ______________________________________________________________ 4 La naissance des moteurs de recherche et annuaires ____________________________ 4 1.4 1.5.1 1.5.2 1.5.3 1.5.4 2 Histoire des outils de recherche_____________________________________ 4 Production d'un contenu qualitatif ___________________________________________ 14 Mise à jour régulière du contenu ____________________________________________ 15 Mots-clés _______________________________________________________ 15 Où placer les mots-clés ? ___________________________________________________ 15 Comment choisir les mots-clés ? _____________________________________________ 19 Stratégie de liens ________________________________________________ 22 Stratégie de liens internes __________________________________________________ 22 Stratégie de liens externes _________________________________________________ 24 2.5 Le fichier robots.txt______________________________________________ 25 2.6 Architecture du site ______________________________________________ 25 2.7 Stratégie de publication __________________________________________ 26 Référencement payant _________________________________________ 27 3.1 Annuaires et soumission payante ___________________________________ 27 3.2 Moteurs de recherche et insertion payante __________________________ 28 TER Référencement 3.3 4 Pratique non recommandées ____________________________________ 30 4.1 4.1.1 4.1.2 4.1.3 4.1.4 4.1.5 4.1.6 4.2 4.2.1 4.2.2 4.2.3 4.2.4 4.2.5 4.2.6 4.2.7 5 Pratiques limitatives _____________________________________________ 30 Utilisation exclusive de Flash ou Java ________________________________________ 30 Utilisation exclusive de Javascript ___________________________________________ 31 Page non valide ___________________________________________________________ 31 Les sites dynamiques_______________________________________________________ 31 Les sites utilisant des cadres (frames) ________________________________________ 32 Autres pratiques limitatives_________________________________________________ 32 Pratiques agressives ______________________________________________ 33 Pénalisations prévues en cas d'abus __________________________________________ 33 Cloaking _________________________________________________________________ 34 Page Jacking______________________________________________________________ 34 Pages Doorway ou Gateway _________________________________________________ 35 Dissimulation de mots-clés ou de contenu_____________________________________ 35 Abus de mots clef (ou keyword stuffing) ______________________________________ 35 Echanges et Ventes de liens_________________________________________________ 36 Outils d'intérêt pour un référencement ____________________________ 37 5.1 5.1.1 5.1.2 Outils de soumission / vérification de référencement _________________ 37 SiteMap de Google_________________________________________________________ 37 Autres outils ______________________________________________________________ 37 5.2 Outils de suivi de positionnement __________________________________ 38 5.3 Outils d’analyse statistiques _______________________________________ 38 5.3.1 5.3.2 6 Le positionnement payant : l'exemple de Google AdWords _____________ 28 Outils analysant l’activité des robots d’indexation sur un site____________________ 38 Outils de mesure d'audience ________________________________________________ 39 Mise en pratique : tests avec un site factice ________________________ 40 6.1 Le site test _____________________________________________________ 40 6.2 Techniques de référencement utilisées _____________________________ 40 6.3 Suivi du référencement ___________________________________________ 41 6.4 Suivi du positionnement __________________________________________ 42 6.5 Comment améliorer le test ? ______________________________________ 43 7 Conclusion___________________________________________________ 44 8 ANNEXE : Glossaire des termes du référencement ____________________ 46 9 ANNEXE : Bilan du sorcier glouton ________________________________ 52 10 ANNEXE : Ressources Web utilisées _______________________________ 56 Remarque : Les mots écrits en gras dans l’étude renvoient vers des définitions inclues dans l’annexe : « Glossaire des termes du référencement». TER Référencement 1 INTRODUCTION 1.1 Histoire des outils de recherche 1.1.1 L’hypertexte Inventé par Tim Berners-Lee, l’hypertexte est un concept simple mais à la fois ingénieux : de la même façon que des autoroutes sont reliées entre elles aujourd’hui pour acheminer des automobilistes, l’hypertexte permet de relier différents documents entre eux pour acheminer un internaute “dans sa pensée”. L’hypertexte permet donc de passer d’une page Web à une autre sans nécessité d’en connaître l’URL, mécanisme transparent et naturel aux yeux d’un internaute. Toutefois depuis les débuts de l’Internet il y a environ 30 ans, l’information véhiculée au sein de chaque page Web est devenue si importante qu’il a été nécessaire d’imaginer des systèmes automatisés capables d’assister l’internaute dans sa recherche d’information. 1.1.2 La naissance des moteurs de recherche et annuaires Loins d’imaginer la portée qu'aurait leur projet, deux étudiants de l'Université Standford (Californie – Etats-Unis), Jerry Yang et David Filo, ont été précurseurs dans ce domaine. En 1994, ils créèrent un site Internet nommé le « Jerry's Guide to World Wide Web » recensant diverses adresses Web en relation avec leurs travaux de l’époque. A leur surprise, le site fut rapidement visité par des centaines d’internautes. Un an plus tard, ils surent développer un modèle économique autour de leur annuaire Web et fondèrent Yahoo!. Le projet acquit donc de la maturité dans le domaine de la recherche généraliste d’informations et fit même une entrée spectaculaire en bourse en 1996 (2,6 millions d'actions à 13 dollars l'unité). 4 TER Référencement Cependant avant l’existence de Yahoo, d’autres personnes eurent l’idée de mettre au point des outils de recherche : Date de Lancement Moteur de recherche 1989 Le Wide Area Information Servers (WAIS) permet déjà de récupérer des informations dans des bases de données réparties dans le monde. 1993 Clearinghouse3, élaboré par des personnes indépendantes et spécialisées dans un domaine spécifique, devient également le premier guide gratuit des meilleures ressources du Web. Ecila, Lycos, Excite, Lokace, Infoseek, Alta Vista. 1995 Durant cette année, AltaVista s’impose comme le plus puissant et avancé des outils : le moteur génère plus de 300 000 visiteurs par jour dès sa mise en ligne, recense six mois plus tard 30 millions de pages Web sur 225 000 serveurs et 14 000 groupes de discussion, et gère 12 millions de requêtes quotidiennes. 1996 et 1997 Nomade et Voilà 1999 Google puis All The Web Tableau 1 : Bref historique des outils de recherche 5 TER Référencement 1.2 Types d'outils de recherche et fonctionnements 1.2.1 Les moteurs de recherche Les moteurs de recherche fonctionnent à l’aide de robots. Ceux-ci : parcourent régulièrement Internet à la recherche de nouvelles pages incluent de manière automatisée ces pages dans leurs bases de données Bien que les robots soient censés réaliser automatiquement ce travail d'indexation, il arrive qu'ils ne parcourent pas un site, c'est pourquoi il est possible en complément de soumettre directement un site auprès d'un moteur. L'objectif est d'accélérer le processus d'indexation par le robot. A titre d'exemple, Google propose aux webmestres deux méthodes pour soumettre directement un site : la rubrique “Pour ajouter ou mettre à jour l'URL d'un site” dans laquelle il suffit de fournir l'URL de la page d'accueil du site et un commentaire http://www.Google.fr/addurl/?continue=/addurl l'outil en ligne Google Sitemap qui permet de soumettre non plus une seule mais plusieurs URL pour un même site (cf. 6. Outils d'intérêt pour un référencement). Lors d'une soumission “manuelle” d'URL auprès d'un moteur, il faut constater que peu d'informations sont demandées : ceci est du au fait que les moteurs sont capables, pour classer une page, d'en lire son contenu et d'en extraire les données utiles automatiquement. Après lecture, le robot associe la page à une série de critères (très dépendants et sans cesse changeants pour chaque moteur de recherche). Le poids affecté à chacun de ces critères permet alors d'ordonner les pages dans un index. Lorsqu'un internaute cherche une information à partir de mots clés, le moteur de recherche et non plus d'indexation propose des résultats déjà ordonnés dans son index. De même, lorsqu'un robot parcoure une page, il est capable d'en suivre les liens internes, c'est aussi pourquoi seule l'URL de la page d'accueil est demandée lors d'une soumission “manuelle”. Enfin, les robots peuvent également revenir postérieurement sur des pages avec pour objectif de disposer de la dernière version actualisée. 6 TER Référencement Il existe deux principales techniques d'indexation1 : l'indexation par lot et le crawler incrémental. L’indexation par lot (ou batch crawling) Le robot récupère dans un fichier des URLs de départ à parcourir. Il indexe (ou crawl) ensuite ces URLs. Il récupère les liens contenus dans ces URLs et les met dans une sorte de liste d'attente, c'est-à-dire un nouveau fichier d'URLs qu'il parcourra ultérieurement. L'inconvénient de cette méthode concerne la fraîcheur des pages indexées : en effet une indexation par lot peut s'avérer relativement longue. Certaines des URLs stockées dans le fichier à parcourir peuvent être mises à jour ou supprimées avant même que le robot n'est finalisé sont indexation : ce phénomène était encore très présent il y a 3 ou 4 années, lorsque certains moteurs renvoyaient des résultats de recherche obsolètes (erreurs HTTP 404). Aujourd'hui, il arrive encore de rencontrer ce phénomène, c'est pourquoi les moteurs associent à chaque résultat de recherche un lien vers la page telle qu'elle était au moment de son indexation (par exemple, lien “En cache” de Google) Le crawler incrémental Le crawler incrémental contourne le problème des pages Internet non mises à jour : celui-ci ne s'arrête en effet jamais, contrairement à l'indexation par lot. Surtout, son objectif n'est plus de recenser toutes les URLs existantes sur Internet mais plutôt de trouver celles susceptibles de changer, et le cas échéant de déterminer leur fréquence de mise à jour. Cette technique optimise donc la période de passage d'un robot sur chaque site. Les moteurs de recherche se démarquant à l'heure actuelle sont Google et MSN Search. 1 Les techniques évoluées d’indexation hub.com/publication/article76.html) dans les moteurs de recherche (http://www.webmaster- 7 TER Référencement 1.2.2 Les méta-moteurs Les méta-moteurs n'ont pas de base de données : pour une recherche donnée, ils combinent les résultats de recherche de quelques moteurs de recherche et annuaires. Le méta-moteur le plus connu est Kartoo (il propose une visualisation graphique de l'information). Il n'existe aucune procédure permettant de s'enregistrer manuellement auprès d'un méta-moteur de recherche. 1.2.3 Les annuaires Les annuaires organisent par catégories les pages Web inclues au sein de leur base de données. A l'intérieur de chaque catégorie, on y trouve des pages Web dédiées à un thème spécifique et unique. Les annuaires sont maintenues par des “humains”, chargés de visiter les sites et d'assurer leur bonne relation avec la catégorie à laquelle ils ont été attribués. Pour enregistrer un site, il faut le soumettre aux administrateurs “humains” de l'annuaire, en spécifiant généralement : la catégorie dans laquelle le site doit apparaître une description du site le nom du site Sous réserve d'acceptation du site, certains annuaires procèdent en retour à un mécanisme de validation par mail de la soumission afin de s'assurer que le site a bien été soumis par son auteur (Mirti par exemple). Les principaux annuaires existants à ce jour sont Yahoo, DMOZ, Voilà et AOL. 8 TER Référencement 1.3 La domination de Google 1.3.1 Chiffres clés Voici la part de trafic généré par quatre principaux moteurs en 2005 : Google 81,21 % Yahoo! 5,04 % Voilà 4,63 % MSN Search 3,69 % TOTAL 95,00% Tableau 2 : baromètre XiTi/1ère Position de novembre 2005 Disponible en version française depuis avril 2000, Google se place déjà en tête au niveau national : Google 30.1 % Yahoo! 23,30 % Voilà 18,10 % Tableau 3 : baromètre XiTi/1ère Position de septembre 2001 En gagnant ainsi progressivement en satisfaction auprès des internautes, Google a su progresser constamment : 54,83% en septembre 2002, 64,19% en septembre 2003, 73,98% en septembre 2004. Cette bonne réputation que s’est forgée Google est sans aucun doute due d’une part à la sobriété de son interface et à sa simplicité d’utilisation, mais surtout à la pertinence et à la rapidité de ses résultats. Selon les dernières études Nielsen/Netratings, 45% des recherches dans le monde sont faites sur Google, soit deux fois plus que sur Yahoo! et quatre fois plus que sur MSN. Google répond à environs 250 millions de requêtes par jour (en moins d'une demi-seconde par requête). 9 TER Référencement 1.3.2 Le concept de recherche par Google Le succès de Google tient en premier lieu au concept clé du moteur de recherche : la notion de classement des informations en fonction de la notoriété des sites sur Internet. Ce concept basé à la fois sur la pertinence de l’information et la popularité d'un site a été inventé en 1998, par les fondateurs de Google, à l'époque étudiants : Larry Page et Sergey Brin (provenant comme les fondateurs de Yahoo! de l'Université de Standford). Google met aujourd'hui ce concept en pratique à travers son algorithme déposé dit algorithme du PageRank 2. De fait, pour parcourir systématiquement à intervalles réguliers, relever, étudier et répertorier le contenu de pages Web, un robot d'indexation se base sur des critères prédéfinis. Le PageRank fait partie de ces critères mais il en existe d'autres3 (localisation d'une page au sein de l'architecture du site, nombre de liens externes pointant vers une page Web, évaluation sémantique, ...). Il existe des algorithmes similaires à l'algorithme du PageRank (l'algorithme HITS4 par exemple), toutefois l'algorithme du PageRank est jugé le plus efficace pour déterminer arbitrairement quelles sont les pages Web répondant le mieux à la requête d'un internaute. Cet algorithme, bien gardé par Google, étudie à la fois le contenu et la structure des liens d’une page Web. Il attribue à chaque page une note de 0 à 10 en fonction de son importance sur Internet. Figure 1 : Google Toolbar (http://toolbar.Google.com/firefox/T3/intl/fr/index.html) Cette popularité est donc gagnée ou perdue à travers un système démocratique : le vote par la communauté internaute, ce qui dans l'esprit des fondateurs de Google est synonyme de pertinence de l'information. 2 3 4 L'algorithme du PageRank expliqué – Sept. 2003 (http://www.webmaster-hub.com/publication/article16.html) Google Ranking Factors (http://www.vaughns-1-pagers.com/internet/Google-ranking-factors.htm) L'algorithme HITS et le projet CLEVER (http://www.webmaster-hub.com/publication/article82.html) 10 TER Référencement 1.4 Objectifs d'un bon référencement Un site Internet peut constituer un formidable vecteur de communication comparable à une presse locale et même s'il n'a pas de vocation commerciale, il doit générer de l'audience. Pour tout annonceur disposant d’un site Web, le référencement s’avère être une opération indispensable. Voici quelques-uns des objectifs poursuivis par un “bon” référencement : Annonceur Organisations à but lucratif (sociétés) Organisations à but non lucratif (chercheurs / communautés OpenSource) particuliers Objectif Informer mettre en avant des rendre des travaux accessibles compétences Communiquer communiquer avec échanger avec d'autres échanger avec d'autres entreprises chercheurs, laboratoires, d'autres particuliers, autour de son activité développeurs, ... experts, organisations commerciales ou non, ... Se démarquer véhiculer l'image de introduire sur Internet l'entreprise standards, des normes,... mettre en avant des compétences des montrer la valeur ajoutée d'un produit Augmenter visibilité la Générer du trafic pour susciter l'intérêt d'un large Générer du trafic attirer des clients public pour un projet donné potentiels, trouver de nouveaux prospects Tableau 4 : Objectifs d’un bon référencement Ce tableau n'est évidemment pas exhaustif : un référencement dépend fortement de la stratégie Web du site Internet. 11 TER Référencement 1.5 Les acteurs du référencement « Il n’existe pas en France d’institution connue concernant le référencement. Certaines organisations tentent toutefois d’organiser la pratique et le métier du référencement. » 1.5.1 Les organismes d’études et association Il existe un certains nombre d’organismes d’études chargés de réaliser des statistiques relatives à différents domaines de l’Internet. Leur technique de sondage repose souvent sur des panels d’internautes. Xiti, Nielsen NetRating en sont les principaux représentants. D’autre part, la SEMA7 (Search Engine Marketing Association : http://www.sema7.org), créée en décembre 2003 est la principale association dédiée au référencement au niveau national. Elle opère dans différents axes en : fournissant un espace de discussion aux référenceurs incitant au respect d’une charte déontologique en sensibilisant les entreprises à l’importance du référencement en tentant de résoudre des litiges professionnels L’association a également pour projet de fournir des stages de formation pour les référenceurs. 1.5.2 Les sites d’information spécialisés Il s’agit de sites spécialisés dans le référencement et la recherche d’information. Parfois nés d’initiatives personnelles de référenceurs, ces sites se sont fait « un nom » dans le domaine au fil d’années d’expérience. En France, les plus connus sont les sites www.abondance.com (d’Olivier Andrieu), www.Webrankinfo.com et le Blog Google. 1.5.3 Les forums et groupes de discussions Les forums et les groupes de discussions sont des lieux d’échanges entre acteurs du référencement de tout bord (référenceurs professionnels ou amateurs, représentants de sociétés productrices d’outils de recherche). Ces rencontres permettent d’établir des échanges sur des problématiques sensibles, d’ouvrir de nouvelles réflexions. Les plus connus sont le Yahoo !Groupe (http://fr.groups.Yahoo.com/group/referencement/) et le forum du site WebRankInfo (http://www.Webrankinfo.com/forums/). 12 TER Référencement 1.5.4 Les conférences et séminaires professionnels Les entreprises spécialistes en dans les domaines du référencement et des outils de recherche organisent ou participent à des conférences et séminaires qui tentent de coordonner des acteurs majeurs nationaux ou européens. Ces rencontres ne débouchent cependant pas sur des publications communes et l’accès y est payant. Le blog PR Weaver (http://www.prweaver.fr/blog/) propose quelques annonces de séminaires sur le référencement. Voir aussi sur le site de la CCIP le séminaire « Comment optimiser son référencement sur Google ? » (http://www.cyber.ccip.fr/imitiki-referencement-Google-a.htm). 13 TER Référencement 2 REFERENCEMENT UTILISANT DES TECHNIQUES D’OPTIMISATION 2.1 Définition (SEO: Search Engine Optimization) Les techniques d'optimisation d'un site permettent d'obtenir gratuitement et naturellement le classement le plus élevé possible dans les résultats d'une recherche d'un ou plusieurs moteurs de recherche. Dans cette partie, nous fournirons une liste de recommandations à suivre pour référencer un site : celles-ci peuvent paraître assez simples mais s'avèrent relativement efficaces si appliquées toutes ensembles et “au pied de la lettre”. 2.2 Contenu 2.2.1 Production d'un contenu qualitatif Il est bon de rappeler que la large majorité des moteurs de recherche se basent sur des algorithmes complexes pour constituer leurs index de pages Web. Pour sélectionner les pages qui figureront ou non dans l'index, ils utilisent des techniques avancées combinant de nombreux critères de façon à s'approcher le plus possible du mode de jugement d'un être humain. Il s'agit donc de déterminer quels sont les contenus d'intérêts et ceux peu pertinents. Tenter d'obtenir une audience solide ne consiste pas seulement à générer du trafic mais aussi à fidéliser des visiteurs, qui pourront eux-mêmes recommander le site à d'autres visiteurs. Voici quelques pratiques à suivre pour obtenir un contenu de qualité : l'originalité : ne pas se contenter de référencer l'information disponibles sur d'autres sites, mais produire l'information ; un thème déterminé : l'idée est que le contenu du site soit attaché à un thème déterminé. Ce thème peut être large mais ce qui importe est son unicité, de façon à ce que les internautes identifie clairement l'objectif du site. Ceci permet au site de vivre tout en étant reconnu de sa cible mais aussi d'autres sites (réseaux de sites). 14 TER Référencement 2.2.2 Mise à jour régulière du contenu Il existe des instructions de “revisit-after” pour demander à un robot d'indexation de passer sur site à une fréquence donnée (en HTML, par exemple la méta-balise revisit-after). Malheureusement ces instructions sont ignorées par la quasi-totalité des robots. Il est donc important d’actualiser un site pour proposer aux robots de nouvelles informations et pages à indexer. Bien que cette fréquence reste “mystérieuse” en fonction de chaque robot5, une mise à jour du contenu permet d'assurer la reconduction du passage du robot. 2.3 Mots-clés Les mots-clés sont des mots choisis en relation avec le contenu du site. Ce sont ces mots qui devront permettre au mieux à un internaute de trouver notre site et à un robot de nous indexer. 2.3.1 Où placer les mots-clés ? La balise HTML TITLE y faire apparaître les mots clés utiliser des titres concis * (tant en nombre de mots qu'en nombre de caractères) utiliser corrects syntaxiquement éviter la répétition d'un même mot (au risque de passer pour du spam pour un robot d'indexation) éviter les caractères spéciaux * Concernant la longueur des titres, il est plutôt difficile de se prononcer, c'est pourquoi nous ne donnons que des chiffres maximum indicatifs : 10 mots et 70 caractères 5 Liste de robots, Script d'identification, autorisation et blocage de robots (http://danzcontrib2.free.fr/pieges.php#capturer) 15 TER Référencement Sans surprise Google.fr accorde toujours une très forte importance au contenu de cette balise. 71% des pages classées par Google dans les 100 premiers résultats ont un titre de document optimisé. Seul le moteur d'AOL France (technologie Exalead) peut donner beaucoup de crédibilité à cette information, seuls 40% des documents présentés ont un titre correspondant à la syntaxe saisie. Le moteur de Microsoft de classe avant dernier, le contenu du titre reste une valeur sure. 89% des pages analysées contenaient une balise titre renseignée, le taux de titres précisément optimisés est donc très significatif. Etude @Position issue de la revue du Référencement (http://www.revuereferencement.com/ETUDES/0410-balises-meta.htm) L'attribut ALT de la balise HTML IMG Au-delà d'être imposé par le standard W3C (pour des raisons d'accessibilité des déficients visuels), l'attribut ALT est pris en compte par une majorité de moteurs de recherche (par exemple, Google), en particulier lorsque l'image est un lien vers une autre page. Les balises HTML META Nous ne décrivons ici que les méta-balises “keywords” et “description”, qui sont quasiment les seules à être prises en compte par les moteurs de recherche. 16 TER Référencement Google a la réputation de ne pas en tenir compte du tout : pourtant, il se sert de la méta-balise “description” (ou snippet) pour décrire chaque résultat de recherche. Figure 2 : extrait d’une recherche (le snippet commence par CV William…) 17 TER Référencement Le classement est très similaire à celui observé pour la balise méta keywords Voila est ici aussi le moteur de recherche qui accorde le plus d'importance à ce résumé. Tout semble indiquer que cette balise peut vous aider pour vos campagnes de référencement sur cet outil. AOL et MSN semblent très peu sensibles à cette optimisation. Etude @Position issue de la revue du Référencement (http://www.revuereferencement.com/ETUDES/0410-balises-meta.htm) * Concernant la longueur des descriptions, il est plutôt difficile de se prononcer, c'est pourquoi nous ne donnons que des chiffres maximum indicatifs : 20 mots et 120 caractères 65% des pages analysées contiennent une balise méta keywords, preuve que cette balise est encore fortement utilisée par les référenceurs et les Webmasteurs . Voila est l'outil de recherche qui accorde le plus d'importance à cette méthode d'optimisation, 50% des pages présentées par Voila contiennent au moins un des mots recherchés dans la liste des mots clefs de la page. AOL/Exalead et MSN sont les moteurs de recherche qui pondèrent le moins fortement cette balise. Cette étude ne permet pas de déterminer si les pages sont pénalisées pour sur-optimisation lorsqu'elles utilisent cette méthode d'optimisation. Google, pourtant réputé pour ne pas lire les balises méta, présente 44% de pages optimisées avec une balise keywords. Il faut voir là des pages optimisées de manière générique pour plusieurs outils de recherche. Etude @Position issue de la revue du Référencement (http://www.revuereferencement.com/ETUDES/0410-balises-meta.htm) 18 TER Référencement URL Nous supposons que les moteurs de recherche donnent un certain poids aux mots clés contenus dans l'URL, c'est pourquoi nous recommandons d'y placer des mots clés. Exemples : pour une page parlant de champagnes français, il conviendra de lui donner un nom de fichier tel que “champagne.htm”. Le nom “champagne-francais.htm” serait à éviter car trop long et contenant des caractères spéciaux. si possible, il est aussi préférable de situer le mot “champagne” dans le nom de domaine du site à savoir “www.champagne.fr” Balises HTML Les moteurs de recherche donnent une grande importance à certaines balises inclues dans le contenu d'une page, en particulier les balises permettant de mettre en valeur du texte. C'est le cas des balises fermantes <H1></H1>, <Hx></Hx>, .. (sous titrage), <B></B> (caractère gras) et <I></I> (italique). 2.3.2 Comment choisir les mots-clés ? Il n'existe pas de méthode miracle pour définir de bons mots si ce n’est un audit sémantique. Nous proposons ici quelques outils en ligne simple d'utilisation aidant au choix de mots-clés. S'inspirer des mots clés les plus recherchés Site Mots clés proposés Buzz Index – Top Yahoo ! Web Mots clés les plus recherchés sur Yahoo! classés par Searches (http://buzz.Yahoo.com/) catégories (top des recherches cinéma, télévision, ...) Zeitgeist Google Mots clés les plus recherchés sur Google par mois et (http://www.Google.com/press/intl- par pays depuis 2001. zeitgeist.html#fr) Jeeves IQ (Interesting Mots clés les plus recherchés sur Teoma classés par Queries)(http://sp.ask.com/docs/abo catégories (top des recherches dans l'actualité, ...) ut/jeevesiq.html) Lycos 50 Daily (http://50.lycos.com/) Report Mots clés les plus recherchés sur Lycos 19 TER Référencement Figure 3 : Zeitgeist Google - résultats France Novembre 2005 Utiliser des outils de suggestion de mots clef Site Fonction KeywordSandbox Outil Google en ligne. Fournit des mots clés (https://adwords.Google.com/select/ s'approchant de celui recherché (outil proposé comme KeywordSandbox) aide pour le programme Google AdWords). MIVA(http://www.miva.com/fr/conte Fournit des mots clés s'approchant de celui recherché nt/advertiser/landing1.asp) ainsi que le nombre de fois où ils ont été recherchés sur les moteurs Keyword Selector Tool Demande un mot clé et fournit le nombre de fois où il (http://inventory.overture.com/d/se a été recherché archinventory/suggestion/) 7Search (http://conversion.7search.com/scrip ts/advertisertools/keywordsuggestion .aspx) Fournit des mots clés s'approchant de celui recherché, le nombre de fois où ils ont été recherchés sur les moteurs, ainsi qu'une estimation de leurs coûts pour être positionnés en 1er dans les résultats Calculer la densité des mots clés pour une page donnée (poids du mots clés par rapport au reste du contenu, nombre de fois où il est répété, ...) Il existe une manière simple de comprendre comment optimiser cette densité : il suffit de noter l'URL du premier résultat de Google pour un mot clé donné et de saisir cette URL dans des outils de calcul de densité tel que Keyword Density Analyzer v1.3 (http://www.searchengineworld.com/cgibin/kwda.cgi). 20 TER Référencement Exemple : cherchons sur Google de l'information sur le mot clé “chef de projet”. Le premier résultat renvoyé est une page du site Chefs-de-projets.enlignefr.com : il ne correspond pas forcément à ce que nous recherchons avec le mot clé “chef de projet” mais nous jugerons ici ce site pertinent. Calculons à présent la densité des mots clés de ce site : pour cela nous utiliserons le Keyword Density Analyzer v1.3. Voici le résultat obtenu : Title: Confiez mission chef projet chefs-de-projets-enligne.com portail emplois, missions stages chefs projets MetaKeywords chef projet, chefs projets, chefs-de-projets, expert, experts, consultant, consultants, enligne, ligne, line, online, portail, portails, chef projet, directeur projet, AMO, MOA, projet, projets, chefs projets, directeurs projets, portail recrutement, indépendants, annuaire, enligne, ligne, portail, réseau, indépendant, MetaDescription service chefs-de-projets-enligne vous permet trouver chefs projets leur confier mission Mots clés simples Nombre d'occurrences Mot clé trouvé Densité 447 enligne 9.83% 180 8226 3.96% 178 projet 3.91% 140 chef 3.08%. Mots clés composés de 2 mots Nombre d'occurrences Mot clé trouvé Densité 128 chef projet 7.55% 44 8226 chef 2.6% 40 8226 consultant 2.36% 20 mise place 1.18% 19 enligne enligne 1.12% 21 TER Référencement Mots clés composés de 3 mots Nombre d'occurrences Mot clé trouvé Densité 41 8226 chef projet 5.7% 13 chef projet 1.81% informatique assistance ouvrage trise 1.67% 12 consultant projet chef 1.67% 12 6 8226 consultant chef 0.83% 6 8226 projet directeur 0.83% Nous observons finalement que les mots “chef” et “projet” ont une très forte densité sur la page http://www.chefs-de-projets.enligne-fr.com/experts.php. Pour obtenir un bon résultat de positionnement avec “chef de projet” sur Google en créant une page, tenter de s'approcher des résultats de densité du site Chef de Projet en Ligne serait une bonne technique. 2.4 Stratégie de liens 2.4.1 Stratégie de liens internes Cette méthode consiste à optimiser la navigabilité interne d'un site, autrement dit ses liens entre pages. Typiquement, la plupart des liens internes entre pages doivent être regroupés au sein du/des menu(s) de navigation. Cette structure a pour objectifs d'offrir à l'internaute une navigation conviviale mais surtout de simplifier le “scannage” des liens par les robots d'indexation. D'une part, il est recommandé de créer des liens internes comportant des combinaisons de mots-clés : 22 TER Référencement <a href="http://www.mon-site.com/pages.html">Libellé du possible le principal mot-clef définissant la page liée</a> lien contenant si Il est évidemment possible de placer ces liens dans le corps de la page (à l'intérieur de la balise HTML Body). D'autre part, lorsque l'on crée des liens internes dans un site, il est indispensable que toutes les pages du site soient reliées entre elles : le but est de permettre au robot une indexation plus profonde du site. Les robots apprécient particulièrement les pages internes renvoyant vers de nouvelles pages internes mais au contraire n'apprécient guère les liens morts (qui peuvent provoquer leur départ, ou diminuer leur fréquence de passage). Il existe des outils permettant de simuler la manière dont les robots d’indexation voit une page. A titre d’exemple, nous avons utiliser l’outil en ligne Sim Spider (http://www.searchengineworld.com/cgi-bin/sim_spider.cgi) et voici le résultat obtenu pour la page http://wgarcia.f2g.net/index.html Figure 4 : Sim Spider - simulation de passage d’un robot Dans la partie « Spider Text », nous constatons que le robot prend en compte 23 TER Référencement l’ensemble du texte contenu dans la page (attribut alt des balises HTML images, titre des rubrique, texte du corps de la page) La partie « Spidered Links » du résultat montre que le robot a détecté plusieurs liens internes : bien que fonctionnant, le test révèle que ces liens sont mal formés (exemple de lien interne mal formé sur http//wgarcia.f2g.net/index.html : http://../index.html). Ceci nous a permis de comprendre que les robots d’indexation ne sont pas capables de traiter les liens internes relatifs : le lien <a href= « ../index.html »>Texte</a> doit donc être corrigé de cette manière : <a href= « http://wgarcia.f2g.net/index.html »>Texte</a> 2.4.2 Stratégie de liens externes Obtenir des liens externes (ou backlinks) vers un site est sans doute la mission la plus importante pour être positionner correctement dans un moteur. Les liens externes sont un critère majeur évalué par l'algorithme du PageRank de Google. Certains arrivent à berner cet algorithme en multipliant les liens externes avec d'autres sites bénéficiant d'un PageRank élevé. Il arrive que l'algorithme détecte ces tentatives (cf. 4 Pratiques non recommandées) mais ce n'est le cas que ponctuellement. La pierre est donc jetée mais mieux vaut ne pas être “omnubilé” par le PageRank de son site : faire des “échanges de liens” avec des sites au contenu hautement qualitatif est la seule solution pour être positionné dans la durée. Pour accroître le positionnement d'un site, il est préférable d'avoir : un nombre élevé de liens externes pointant vers lui un faible nombre de liens externes sur la page qui pointe vers lui des titres de liens externes variés mais ciblés sur des mot clefs Enfin, il est très fortement recommandé d'obtenir des liens externes de manière progressive et non brusque, les moteurs d'indexation tenant compte de ce paramètre. 24 TER Référencement Nous préférons ne donner ici aucun site susceptible d'échanger des liens qu'il soit bon ou mauvais : l'unique façon «sûre et élégante » d'obtenir un lien externe vers son site est de contacter par mail le Webmestre d'un autre site traitant « sérieusement » du même sujet. Cette demande doit être exceptionnelle, entièrement justifiée et se faire dans le total respect de l'autre : « si la personne refuse vos avances, il y a sûrement une raison et mieux vaut ne pas insister ! ». Pour connaître les liens externes (ou backlinks) d'un site à l'aide de Google, utilisez la commande link:[nom du site+page] : ceci renvoie l'ensemble des sites faisant un lien vers un site, ce qui permet de savoir qui a respecté votre autorisation à faire un lien externe vers vous, qui vous apprécie ou on contraire qui tente de vous décrédibiliser... 2.5 Le fichier robots.txt Le fichier robots.txt donne des indications aux robots d'indexation sur : les pages à indexer les pages et répertoires à ne pas indexer Il doit être situé à la racine du site Web ou dans le répertoire contenant la page d'accueil. Pour permettre à tous les robots d'indexer les pages de votre site, il faut y inclure l'instruction suivante : user-agent : * Il est possible également d'interdire l'accès à certains répertoires en utilisant les instructions de restrictions suivantes : Disallow : /[nom du répertoire]/ Disallow : /[nom du répertoire]/[nom de fichier] (exemple Disallow: /404.html) 2.6 Architecture du site Nous pouvons retenir trois conseils en terme d’architecture de sites Web : 25 TER Référencement Plan du site (ou site map) Le plan du site est une classification de toutes les pages d’un site. Il fait l’objet d’une page à part entière. Le plan du site doit également être mis en évidence sur toutes les pages d’un site : sur une page Web, il est judicieux de le placer en début de page (proche de la balise d’ouverture BODY) en tant que premier lien interne. En plus d’être très utile aux robots d’indexation, ce placement permet aux robots de la parcourir prioritairement. Sous-domaines Pour un site traitant de thèmes distincts, il est important de séparer ces thèmes en sous-domaines en mentionnant le mot-clef du thème abordé. Par exemple : www.fnac.com : site officiel de la Fnac spectacles.fnac.com : sous domaine du site Fnac.com dédié à la vente de spectacles (en l’occurrence le mot-clé est « spectacles »). Répertoires Enfin, nous conseillons de nommer les répertoires d’accès aux ressources du site le plus logiquement possible, et dans la mesure du possible en y incluant un mot-clef en relation avec les documents dans le répertoire. Par exemple : http://wgarcia.f2g.net/images/ http://wgarcia.f2g.net/curriculum/ 2.7 Stratégie de publication Cette stratégie de publication consiste à faire connaître un site d’un public donné. Sa mise en place nécessite un fort dynamisme de la part de l’auteur du site : la publication d’articles sur des sites spécialisés, des forums, des blogs ou encore des groupes de discussion permet de générer des liens externes (ou backlinks) et un trafic significatif. 26 TER Référencement 3 REFERENCEMENT PAYANT Le référencement payant est la meilleure méthode pour mettre en relation une marque et un consommateur, quand celui-ci est dans une phase active de recherche de produit, service, ou information. C’est également est un moyen marketing abordable financièrement et très bénéfique pour la marque car l’internaute ne ressent pas (ou moins, par habitude) le discours publicitaire ou promotionnel. 3.1 Annuaires et soumission payante La soumission d'un site à un annuaire est souvent longue (parfois plus de deux mois), c’est pourquoi de plus en plus d’annuaires proposent une offre de soumission payante. La soumission payante permet d'accélérer la durée de traitement d’une soumission mais ne garantie aucune prise en compte du site (et aucun remboursement en cas de refus). Altavista US, Dir.com, Mirago, Voila, Yahoo l’ont inclus dans leurs services. Yahoo propose ce service à partir de 49$ / par an et nom de domaine (http://searchmarketing.Yahoo.com/srchsb/sse_pr.php) : première URL : 49$ 2 à 10 URLs suivantes : 29$ par URL au delà : 10$ par URL Voilà propose un forfait annuel à partir de 199 € : 5 soumissions : 199$ au delà : réduction de 10 à 25 % 27 TER Référencement 3.2 Moteurs de recherche et insertion payante Certains annonceurs (privés ou particuliers) paient pour que leur site soit examiné plus souvent que les autres. L’insertion payante garantit une simple insertion du site dans l’index (ou base de données) de l’outil de recherche, sans promotion particulière. MSN Search propose cette offre. 3.3 Le positionnement payant : l'exemple de Google AdWords Le positionnement payant consiste à payer pour être placé en tête des résultats. Les utilisateurs en sont cependant avertis la plupart du temps par un signe distinctif (En couleur sur Google par exemple) Les Google AdWords fournissent une bonne visibilité sur Google à des sites non optimisés ou souffrant d’une concurrence trop dure sur certains des mots-clés. Ils ouvrent les portes de Google aussi bien aux grandes entreprises qu’aux petites et aux particuliers. Le service n'est pas gratuit : Google vend les mots clés aux enchères. Adwords place dans une rubrique annexe aux résultats de recherche du moteur (intitulée “Liens commerciaux”) l’adresse et description des sites affiliés au programme. L’affichage même de l’annonce est gratuit : l’annonceur ne paie que lorsque l’internaute clique sur son lien. Les annonceurs peuvent gérer précisément ce coût par clic (CPC) en fixant un budget mensuel limite pour le(s) mot clé(s) souhaité(s). La concurrence sur un mot clé se fait avec les autres annonceurs : le site qui paie le plus pour un mot clé donné qui est placé en premier dans les annonces. Un dernier aspect concernant les AdWords Google : certains annonceurs obtiennent un classement parfois plus élevé que des concurrents ayant fixé un CTC plus élevé. En effet, Adwords récompense également les annonces fréquemment consultées (cliquées). 28 TER Référencement Pour créer une annonce AdWords : il suffit de s’inscrire sur le site adwords.Google.com définir un texte pour l’annonce à passer choisir le(s) mots-clé(s) pour lesquels on souhaite être positionné fixer le coût par clic (CPC) de chaque mot clé et son budget maximum alloué 29 TER Référencement 4 PRATIQUE NON RECOMMANDEES 4.1 Pratiques limitatives Comme nous avons pu le voir dans la partie concernant le fonctionnement des robots d'indexation, la première étape d'indexation est la collecte d'URLs à indexer. Si un moteur ne peut pas collecter les URLs d'un site, il ne pourra évidemment pas les indexer. Voici certains motifs pouvant limiter le parcours d'un robot d'indexation. 4.1.1 Utilisation exclusive de Flash ou Java Certains sites n’utilisent pas HTML comme mode de navigation mais des animations Flash ou des applets Java. Or les robots d’indexation sont incapables de détecter les liens ou de lire le texte contenu dans celles-ci. Un moyen d’y remédier est de créer dès le départ deux versions du site, une version HTML et une version Flash / Java. Un autre moyen est de placer du texte, des liens en commentaires HTML comme Flash le fait lors de l’exportation Web d’une animation (cf. site de Macromédia et recommandations Flash d’accessibilité). Exemple : <!—Commentaires HTML IHM Master2 http://wgarcia.f2g.net --> <object classid="clsid:d27cdb6e-ae6d-11cf-96b8-444553540000" codebase="http://fpdownload.macromedia.com/pub/shockwave/cabs/flash/swflash.cab#v ersion=7,0,0,0" width="645" height="355" id="introduction" align="middle"> <param name="allowScriptAccess" value="sameDomain" /> <param name="movie" value="introduction.swf" /> <param name="bgcolor" value="#ffffff" /> <embed src="introduction.swf" quality="high" bgcolor="#ffffff" width="645" height="355" name="introduction" align="middle" allowScriptAccess="sameDomain" type="application/x-shockwave-flash" pluginspage="http://www.macromedia.com/go/getflashplayer" /> </object> 30 TER Référencement 4.1.2 Utilisation exclusive de Javascript Depuis que Javascript est correctement interprété par une majorité de navigateurs, il est devenu commun de l’utiliser pour créer des menus dynamiques sur un site. Les robots d’indexation ont encore du mal à parcourir les liens Javascript (seul Google commence à y parvenir), c’est pourquoi si l’utilisation de menus dynamiques est indispensable (pour des raisons de mise en page, de clarté des rubriques, …) nous recommandons l’utilisation des feuilles de style en cascade (CSS : Cascading Style Sheet). A l’aide de « boîtes » (visibles ou invisibles) et de méthodes de positionnement (flottant, relatif, …), ces dernières permettent de reproduire simplement bon nombre de comportements codés en Javascript. 4.1.3 Page non valide Les navigateurs sont généralement très tolérants quant à la syntaxe du code HTML d’une page, par opposition aux robots d’indexation qui jugent certaines balises HTML indispensables (balises spécifiant le doctype, le charset et la langue, balises <HTML>,<HEAD>,<BODY>). Pour éviter ce problème, il est recommandé d’utiliser les services W3C de validation de page (validation HTML, XHTML, CSS, …). 4.1.4 Les sites dynamiques Les technologies de serveurs (PHP, PERL, ASP, JSP, ..) permettant de générer des pages en fonction de paramètres posent problème aux robots d’indexation. Ceux-ci ne reconnaissent pas les URLs auxquelles sont passées des paramètres via la méthode GET, par exemple : http://wgarcia.f2g.net/index.php?travaux=referencement&annee=master2 Pour contourner le problème, il convient d’exploiter les mécanismes de réécriture complète de l’URL (URL Rewriting) propres à chaque technologie de serveur. Le résultat de cette réécriture peut être le suivant : http://wgarcia.f2g.net/travaux/master2/referencement.htm 31 TER Référencement Ici, le répertoire « master2 » et la page « referencement.htm » ne sont pas des fichiers existant physiquement sur le site mais l’URL Rewriting simule leur existence, ce qui permet aux robots d’indexer le contenu de la page générée dynamiquement. 4.1.5 Les sites utilisant des cadres (frames) En procédant directement à des recherches sur différents outils de recherche, nous avons constaté qu’il n’y a qu’un nombre minime de pages référencées utilisant des cadres6 : nous recommandons donc tout simplement de ne pas les utiliser. 4.1.6 Autres pratiques limitatives Il existe d’autres pratiques pouvant limiter les processus de référencement ou de positionnement. En voici quelques-unes : méta-balise description : description de page identique sur toutes les pages du site balise HTML <title> : titre identique sur toutes les pages du site nom de page / nom de domaine trop long (plus de trois mots) extension de page non standard (différent de htm ou html) page dépassant une taille de 100 ko texte non visible ou non cohérent pour les visiteurs abus de mises en forme autour des mots-clefs : Gras, italique, souligné, couleurs, <Hx> pages vides ou en construction 6 Comment référencer un site utilisant des frames ? (http://www.abondance.com/docs/frames.html) 32 TER Référencement 4.2 Pratiques agressives De plus en plus de Webmestres testent les limites des outils de recherche et trouvent de nouvelles méthodes pour référencer un site. Il arrive ainsi que certains sites arrivent en premières positions d’une recherche bien que leurs contenus n’est peu ou rien à voir avec ce qui est recherché. Certaines communautés organisent même des concours de référencement. Le principe est simple : un organisateur demande à des compétiteurs (des Webmestres) de créer un site et de le placer en tête d’un outil de recherche avec des mots clés imposés. Les compétiteurs sont libres et peuvent utiliser les techniques de référencement de leur choix, le concours s’arrête à une heure fixée par l’organisateur. L’ « annexe 10 : Bilan du sorcier glouton » présente les quelques techniques de référencement utilisées par un participant pour se placer favorablement sur le moteur de recherche de MSN à l’aide des mots clés « sorcier glouton » (cet article que nous diffusons pour les besoins de notre étude n’est disponible en version complète que par mot de passe sur le site www.actulab.com : merci de ne pas le diffuser et de contacter son auteur pour tout renseignement supplémentaire). Les techniques que nous présentons dans cette partie sont interdites pour des raisons de : violation de la propriété intellectuelle concurrence déloyale tromperie de l’internaute 4.2.1 Pénalisations prévues en cas d'abus Afin d’éviter que les internautes cessent d’utiliser leurs services à cause de résultats de recherche peu pertinents, les outils de recherche n’hésitent plus à mettre en place des pénalisations pour les sites utilisant des méthodes de référencement peu scrupuleuses ou allant contre leurs intérêts. Google dispose un ainsi d’un espace informatif consacré aux cas de « spam », dans lequel l’internaute peut « dénoncer » et faire part de ses insatisfactions à l’équipe Google si un site utilise des techniques abusives. Sans aucune justification, Google peut ensuite pénaliser ces sites en les désindexant, en diminuant leur PageRank, en diminuant la fréquence de passage de son robot ou en ne tenant pas compte des liens placés sur une page déterminée. 33 TER Référencement Octobre 2002 : Google diminue le PageRank du site SearchKing, soupconné d’être un 'link farm'. Novembre 2003, Google met en place une série de filtres anti-spam 2004 : Google désindexe (c’est-à-dire met en liste noire) certains prestataires spécialisés en référencement, jugés peu scrupuleux. Les internautes nomment le phénomène « BlackWave Google de 2004 ». 2005 : Google désindexe les clients de ces prestataires (« Blackwave Google de 2005 »). « En annonçant que le traitement des SPAM Reports devient quasi-instantané, Google prend le risque d'une chasse aux sorcières qui, espérons-le, sera bientôt inutile »7. 4.2.2 Cloaking Cette technique a pour but de tromper les robots sur les contenus réels du site en prévoyant deux versions d’une même page Web : une version à destination du robot une version à destination de l’internaute La page à destination du robot peut ainsi être optimisée et ne contenir par exemple que des mots clés. Pour détecter un robot, le cloaking se base essentiellement sur la détection des adresses IP de robots8. 4.2.3 Page Jacking Le page jacking consiste à copier tout ou partie du code source d’une page classée en première position puis à la recréer sur son propre site. En indexant cette page via une technique de cloaking, il est possible d’obtenir un bon positionnement. 7 8 Revue du référencement - Evenements récents dans le monde du référencement : blackwaves (http://www.revuereferencement.com/ENCOURS/referencement_et_referenceurs.htm) Script d'identification de robots (http://danzcontrib2.free.fr/pieges.php#capturer) 34 TER Référencement 4.2.4 Pages Doorway ou Gateway Les pages « doorway » (connues aussi sous le nom de 'gateway pages') sont des pages Web conçues exclusivement pour les robots d’indexation. On y trouve des répétitions de mots clés dans les balises HTML TITLE, H1, etc. Ces pages sont quasi illisibles pour un internaute mais optimales pour certaines recherches. Lorsque un internaute arrive sur la page Doorway, il est redirigé (via JavaScript, généralement) vers une autre page conçue pour lui. Le robot ne reconnaît pas JavaScript, et enregistre ainsi la page Doorway. Les pages DoorWay sont un cas particulier de cloaking mais n’utilisent pas de détection d’adresses IP de robots. 4.2.5 Dissimulation de mots-clés ou de contenu Texte caché Cette technique consiste à insérer du texte dans une page Web (généralement en fin de page) en lui donnant la même couleur que le fond. Ceci permet d’augmenter la densité des mots clés de la page, sans en modifier son aspect visuel ou sans que l’internaute ne s’en aperçoive. Liens cachés Les liens cachés sont une variante du texte caché. Il s’agit d’un moyen pour simuler la présence de backlinks (ou liens externes) entre sites Web. 4.2.6 Abus de mots clef (ou keyword stuffing) L'abus de mots clef consiste à pousser à l’extrême la répétition et le placement de mots clés dans les éléments d’une page Web (TITLE, URL, H1 y H2, liens, ...), et ce, même si les mots clés n’ont de référence vers aucune information. 35 TER Référencement 4.2.7 Echanges et Ventes de liens Ces techniques consistent à échanger des liens (farm links) ou à payer pour obtenir un lien sur un site bénéficiant d’une bonne popularité. Pour Google notamment, cette démarche décrédibilise entièrement le mode de calcul du PageRank. Si un site dispose d’un PageRank élevé (5, 6 et plus), échanger ou vendre des liens devient économiquement intéressant mais Google évolue et sait empêcher la transmission du PageRank de la page connue à la page cherchant à être connue. 36 TER Référencement 5 OUTILS D'INTERET POUR UN REFERENCEMENT Cette partie est consacrée aux outils permettant de procéder à référencement complet de site. Il existe de nombreuses applications logicielles payantes mais nous avons tenu à ne décrire que des outils gratuits et en ligne, bien que moins performants et conçus parfois par des non-professionnels. 5.1 Outils de soumission / vérification de référencement 5.1.1 SiteMap de Google SiteMap est un protocole9 mais surtout un service10 en ligne de Google : il permet de soumettre des URLs à Google et suivre leur indexation en temps réel. Pour s’inscrire, il suffit de https://www.Google.com/Webmestres/sitemaps/ se rendre sur L’installation de l’outil est relativement simple : en premier lieu, il est demandé au webmestre de placer un fichier htm vide avec un nom donné (lors de notre installation, « Googled09d80cb2c3e4d92.htm »). Ceci permet à SiteMap de vérifier qu’un Webmestre ne tente pas d’installer SiteMap sur un site dont il n’est pas responsable. ensuite, il faut créer un fichier « sitemap.txt » à la racine du site. Dans ce fichier, le Webmestre doit spécifier l’ensemble des URLs qu’il souhaite voir indexées par le robot d’indexation de Google. Un exemple : http://wgarcia.f2g.net/index.html http://wgarcia.f2g.net/fr/index_suite.html Extrait d’un fichier sitemap.txt 5.1.2 9 10 Autres outils Description du protocole SiteMap (https://www.Google.com/webmestres/sitemaps/docs/es/protocol.html) WebRankInfo – Informations sur le service Google SiteMap (http://www.webrankinfo.com/Google/sitemaps/index.php) 37 TER Référencement Nom du site Intérêt Outil vérifiant le référencement d'un site Audit technique de référencement Outil vérifiant le référencement d'un site Soumission Manuelle Réseau Abondance Yooda (entreprise montpellié raine) URL http://www.soumission-manuelle.com/ http://audit.abondance.com/ http://www.yooda.com/outils_referencement/su bmit_center_yooda/ 5.2 Outils de suivi de positionnement Intérêt Nom du site Logiciels de suivi de Réseau positionnement Abondance Comparaison de résultats Thumbshots de mots clés sur différents moteurs URL http://ressources.abondance.com/suivipositionnement.html http://ranking.thumbshots.com/ Les outils de suivi du positionnement peuvent être utilisés avec les outils dédiés aux mots-clés présentés précédemment dans la partie « 2.3.2 Comment choisir les motsclé ? » 5.3 Outils d’analyse statistiques 5.3.1 Outils analysant l’activité des robots d’indexation sur un site RobotStats : http://www.robotstats.com 38 TER Référencement 5.3.2 Outils de mesure d'audience Les outils de mesure d’audience donnent une idée précise du trafic d’un site et du comportement de ses visiteurs (provenance géographique, configuration matérielle et logicielle, chemin parcouru sur le site, durée de la visite, provenance Internet (moteur de recherche et mots-clés utilisés, referrer). Google Analytics (inscription gratuite mais attente longue…) Directs-Stats Pour mesurer l'audience du site de test (cf. 6. Mise en pratique : tests avec un site factice), nous utilisons un outil statistique en ligne gratuit : Directs-Stats (http://www.direct-stats.com). Pour établir ses analyses, cet outil utilise une technologie dite de marqueurs. Les marqueurs sont en fait des scripts JavaScript, placés sur chaque page du site que l'on souhaite analyser : <SCRIPT LANGUAGE="Javascript"> <!-function mesure(_MesurePro, _page) { scr_w = screen.width; scr_h = screen.height; color = screen.colorDepth; ref = escape(window.document.referrer); document.write("<IMG src='http://www.direct-stats.com/cgibin/pro/stats/w.garcia/marqueur.pl/"+ "?page="+ _page+ "&n="+ Math.round (Math.random () * 1000000000000000)+ "&reso_w="+ scr_w+ "&reso_h="+ scr_h+ "&color="+ color+ "&referer="+ ref+"' border=0>"); } mesure("Mesure Pro", "Infos"); //--> </script> Marqueur de la page “Informations” du site Cette technologie est la plus répandue pour de nombreuses raisons. Elle permet entre autre: d'avoir des statistiques en temps réel de contourner la non prise en compte de certaines visites (elle prend en compte toute page visitée qu'elle soit en cache de proxy ou de navigateurs, contrairement aux analyseurs de logs) 39 TER Référencement 6 MISE EN PRATIQUE : TESTS AVEC UN SITE FACTICE 6.1 Le site test Pour mettre en pratique les différentes techniques de référencement, bonnes ou mauvaises, vues précédemment, nous avons procédé au référencement d'un site déjà existant (http://wgarcia.f2g.net) Il est important de remarquer que ce site existe depuis maintenant 3 ans mais n'a jamais été référencé, du moins volontairement, jusqu'à fin 2005. Il s'agit d'un site personnel découpé en trois rubriques principales : travaux, portfolio et CV. La partie travaux est la plus importante du site : on y trouve des travaux universitaires sous différents formats (rtf, pdf, ppt, ...). L'objectif du test est de faire référencer le site par différents outils de recherche, étudier les résultats obtenus en terme de positionnement, et fournir quelques éléments de réponses quant au rapport visites / mots-clés. 6.2 Techniques de référencement utilisées Pour référencer le site, nous avons travaillé sur deux principaux sujets : les mots-clés et le contenu. Voici une liste non exhaustive des techniques utilisées, bonnes ou non recommandées : insertion de mots-clés dans le contenu rédaction de commentaires de pages différents sur chaque page copie des mots clés d'entreprises, bénéficiant d'une bonne visibilité nombre élevé de mots-clés mise à jour de pages sans changement du contenu (soit une simple actualisation de la date) mise à jour des pages et de leur contenu utilisation d'un fichier robots.txt interdisant l'accès au répertoire contenant des 40 TER Référencement travaux universitaires (fichiers pdf, ppt, ...) modification des titres des pages : le nom des pages qui était identique sur tout le site est désormais différent pour chaque page et directement en lien avec le contenu utilisation de l'outil Sitemap de Google soumission manuelle du site auprès de Google, Yahoo, DMOZ et Mirti soumission automatique 6.3 Suivi du référencement Pour suivre le référencement du site, nous avons utilisé une méthode simple : celle de taper directement l'adresse du site sur le moteur ou l’annuaire (par exemple, dans Google : site:wgarcia.f2g.net, dans AltaVista : host:wgarcia.f2g.net – les commandes site et host sont très utiles car les moteurs n’y appliquent aucun clustering). Ceci donne déjà une idée des pages qu'un moteur d'indexation parvient à prendre en compte lors de son passage sur le site. Dans un premier temps, Google n'a pu référencer que la page d'accueil du site, ainsi qu'un document PDF lié à cette page grâce à un lien interne. Dans un deuxième temps, après avoir procédé à une modification des titres et commentaires de pages, Google a pu référencer un nombre supérieur de pages et de documents liés à ces pages. Dans un troisième temps, après avoir mis à jour le contenu (mise à jour de pages existantes et création de nouvelles pages) puis inscrit le site auprès de Google, Yahoo et Mirti, nous avons constaté que les robots d'indexation augmentaient leur fréquence de passage sur le site. Continuellement, les pages référencées par chaque moteur n'étaient pas les mêmes d'un jour à l'autre, voire même d'un moment de la journée à un autre. L'interprétation de ce phénomène, très accentué sur Google, pourrait être l'actualisation régulière des indexs (plus communément appelée Google Dance). Enfin, l'utilisation de l'outil SiteMap de Google semble donner un nombre de pages référencées supérieur à auparavant : Google indexe désormais la quasi-totalité des pages HTML et documents du site. Cependant il faut rajouter que les nouvelles pages et documents du site n'ont pas encore été référencées. Résultats de référencement : Notre campagne de référencement a débuté le 27 décembre 2005. Notre premier objectif “référencer le site sur différents moteurs” a été atteint avec succès : le site est rapidement référencé sur Google France, Yahoo France, MSN Search et Altavista 41 TER Référencement sans subir aucun phénomène de sandbox (en moins de 7 jours). Bien que n’ayant aucun lien externe (PageRank de 0), nous avons obtenu nos premières visites depuis ces moteurs le 4 janvier 2006 avec la recherche “CV ColdFusion” sur Yahoo France. 6.4 Suivi du positionnement Position Moteur Mots clés Page d'entrée 4ème page de résultats (positions 30 à 40) Yahoo France CV ColdFusion 2ème et 3ème positionnement Google France cous des Parcours(page contenant camisards+34080+montp un parcours universitaire) ellier 244ème position Google France projet professionnel CV MST (page contenant un CV pour l’année de Maîtrise Info.) projet professionnel (page contenant un projet professionnel) Dans les positions 10ères 10ème position Google France iut informatique grenoble à CV IUT (page contenant un CV pour l’année d’IUT Info.) Google France recherche limoges tic CV MST stage (page contenant un CV pour l’année de Maîtrise Info.) Nous n'apparaissons pas dans Google pour un mot-clé nous intéressant directement tel que “chef de projet “. Nous remarquons également que la page d'accueil n'est pas forcément la plus visitée du site (mettez une Webcam sur une page de votre site et vous verrez votre trafic explosé sur cette page sans pour autant que la page d’accueil soit visitée). D'autre part, nous pensons que nos visiteurs sont tombés sur notre site de façon inattendue. En effet, Direct-Stats nous indique que les visiteurs ne parcourent que rarement les autres pages du site. Cependant nous constatons que les motsclés saisis par le visiteur correspondent, même de loin, au contenu de la page. Enfin, pendant une période donnée, le site est apparu en tête de résultats sur Google, puis a disparu. La recherche “iut informatique a grenoble” nous donnait en effet favoris pendant un moment (c’est-à-dire devant même le site officiel de 42 TER Référencement l’IUT Informatique de Grenoble) : en réessayant à ce jour, le site a brusquement disparu des résultats de Google… 6.5 Comment améliorer le test ? Pour améliorer la partie positionnement du test, il aurait été judicieux de choisir initialement les mots-clés pour lesquels nous souhaitions être référencés appliquer toutes les techniques d’optimisation sur ces mots-clés (mots-clés dans les URLs, le nom de domaine, dans le nom des pages, …) Faute de temps, nous n’avons pas effectuer ces tests. Aussi nous avons compris que le référencement n’a pas été « bon » ou plutôt stratégique dans le sens où le site de test traite de nombreux thèmes, très différents les uns des autres. Ceci « confirme » notre recommandation (partie 2.2.1) quant à l’unicité du contenu. Notre site disposait d’une redirection de http://www.william-garcia.new.fr (adresse n°1) vers http://wgarcia.f2g.net (adresse n°2) où f2g.net est l’hébergeur du site. Il s’avère que l’adresse n°1 n’a jamais été référencée sur aucun outil de recherche : nous pensons que ces derniers l’excluent car ils la considèrent comme une pratique agressive. Nous recommandons donc de n’utiliser aucune redirection http de quelque manière que ce soit (redirections automatique/ par statut http 302/javascript/…). Enfin, l’expérience est loin d’être inutile car elle nous permet de poursuivre nos actions vers une optimisation des mots-clés générant déjà de l’audience sur le site. 43 TER Référencement 7 CONCLUSION Les techniques de référencement Les moteurs de recherche et annuaires sont dirigés par des sociétés : de la même manière qu’une entreprise paie pour figurer dans un journal, il est donc logique qu’un annonceur Internet paie pour être référencé. Le référencement payant est la méthode la plus fiable et immédiate pour être présent sur les outils de recherche. Les techniques de référencement gratuites et plus naturelles garantissent la qualité technique d’un site et simplifient le processus d’indexation des outils de recherche. Etre “populaire” et en relation avec d’autres sites (c’est-à-dire disposer de liens externes) paraît être la technique la plus appréciée des outils de recherche. Ces techniques sont efficaces à moyen et long terme, en particulier lorsqu’elles sont combinées. Malheureusement, aucune d’entre elles n’assure complètement un bon positionnement car les référenceurs utilisent, volontairement ou involontairement, des techniques inappropriées, obsolètes, voire agressives. Aussi, que le référencement soit payant ou gratuit, il devient quasi-indispensable de mettre en place des outils de suivi et de mesure d'audience pour comprendre l’évolution d’un site et construire une stratégie Web pérenne. Les évènements régissant le référencement D’un point de vue plus extérieur, il est primordial de signaler que les évolutions technologiques et économiques des outils de recherche soumettent les spécialistes en référencement à des changements « incontrôlables » dus par exemple à : des modifications des algorithmes d’indexation et de classement des résultats11 des variations de marché (apparition de nouveaux outils, rachats de bases de données, fusions et partenariats) Ceci empêche fortement le référencement de devenir une activité professionnelle reconnue et basée sur des savoir-faire solides. 11 Blog de Matt Cutts / ingénieur chez Google - les mises à jour de Google : Jagger1, Jagger2, Jagger3 (http://www.mattcutts.com/blog) 44 TER Référencement Pour un prestataire spécialisé en référencement, comment justifier auprès d’un client une baisse soudaine dans les résultats d’un moteur ? Comment résoudre rapidement cette baisse ? Les réponses existent mais les seuls à les détenir à ce jour sont sans aucun doute les outils de recherche eux-mêmes. Les enjeux du référencement Si l’on prend l’exemple de Google, il est bon de rappeler que ce moteur n'est populaire que parce qu'il satisfait les internautes en ce moment précis. Cependant, il pourrait être délaissé rapidement s’il modifiait son algorithme en profondeur ou s'il proposait “trop” de résultats payants dans ses résultats naturels, au risque de perdre toute objectivité entre résultats commerciaux et naturels. De même, les concurrents de Google ne sont pour la plupart que des « suiveurs » dans le sens où il n'apportent pas d'innovations particulières et se contentent de copier un modèle. Pour capter les enjeux du référencement, il faut être conscient que la recherche d’information est un domaine qui sera soumis à de prochaines évolutions (c’est déjà le cas avec la recherche sémantique : cf. l’outil de recherche Exalead). Les recommandations faites dans cette étude sont donc valides actuellement mais seront amenées à changer dans un futur proche. 45 TER Référencement 8 ANNEXE : GLOSSAIRE DES TERMES DU REFERENCEMENT Quelques définitions pour la plupart extraites du lexique de WebRankInfo (http://www.Webrankinfo.com/lexique.php), du Dico du Net et du dictionnaire du NEF (http://www.etudes-francaises.net/dico) ACHAT DE MOTS CLES Offre proposée par les outils de recherche permettant à un annonceur d’acheter un emplacement dans une page de résultats relative à une recherche par mot clé. Le contenu de l’emplacement publicitaire peut être graphique ou textuel. Voir aussi Liens promotionnels ALGORITHME DE PERTINENCE Méthode de calcul utilisée par les outils recherche pour associer un site ou une page Web présent dans sa base de données à une requête formulée par un internaute. Chaque outil de recherche utilise un algorithme différent, qui est susceptible de changer régulièrement. La performance de cet algorithme et la taille de la base de données font la pertinence de l’outil de recherche. ANNUAIRE Outil de recherche qui recense des sites Web et les classe par catégories (on parle également de rubriques). Son fonctionnement peut être comparé à un annuaire téléphonique professionnel. Pour y figurer, un site Web est soumis à l’inscription dans la / les catégories souhaitées au travers de fiches descriptives comprenant en général le titre, l’adresse URL et un bref descriptif allant de 15 à 25 mots maximum. Un utilisateur qui effectue une recherche peut taper une requête ou descendre directement dans l’arborescence des catégories. AUDIT TECHNIQUE Analyse ayant pour but d'évaluer la lisibilité d’un site Web par les outils de recherche. Cet audit permet de s’assurer qu’un robot, lors de son passage sur le site, peut en faire ressortir son contenu textuel. Certaines recommandations techniques peuvent alors être appliquées en fonction des algorithmes de chaque moteur pour améliorer le positionnement d’un site Web dans les pages de résultats. AUDIT SEMANTIQUE Analyse ayant pour but de définir les champs lexicaux relatifs au site Web, c’est-à-dire l’ensemble des emplois d'un mot ou terme. Cette démarche permet de faire ressortir les occurrences les plus fortes d’un site Web afin d’établir ensuite une liste de mots clés qui aidera à la formulation des requêtes par lesquelles un site Web sera indexé. BALISE (TAG, MARQUEUR) Commande du langage HTML constituée d'une directive encadrée par les signes inférieur (<) et supérieur (>). Ces commandes se trouvent en général par paires et définissent ainsi des zones spécifiques. Exemple : Toutes les recettes de cuisine sont sur <B>Marmiton.org</B>. Le texte Marmiton.org est alors rendu en gras par les navigateurs Web. INDEX (BASE DE DONNEES) Fait référence à la base de données qui contient les pages Web (ou sites) d'un moteur de recherche ou d'un annuaire. 46 TER Référencement BACKLINK Si la page B fait un lien vers la page A, on dit que B est un backlink de A. Le nombre de backlinks d'une page peut être grossièrement déterminé à l'aide de la commande link: de Google. Le nombre de backlinks est un des critères utilisés par Google. BLACKWAVE Période durant laquelle Google a mis en liste noire (blacklister, c’est-à-dire désindexer) des sites Internet utilisant des techniques de référencement agressives BODY Corps d’une page HTML. La balise <BODY> définit la zone dans laquelle est placé le contenu de la page qui sera affichée. Voir aussi Header CLOAKING Technique permettant de fournir une page différente aux moteurs de recherche qui indexent un site de celle visible par un internaute. Considérée comme du spamdexing, elle est interdite par les moteurs de recherche. CLUSTERING Principe consistant en l'affichage d'une seule page par site Web dans les résultats d’une recherche sur un moteur. Cette technique permet d’éviter qu’un petit nombre de sites occupe toutes les premières positions des résultats. Son intérêt est de rendre plus claire et pertinente la liste de sites affichée. CONTENU DYNAMIQUE Contrairement à un site statique où la navigation s'effectue à travers des pages créées à l'avance, un site en dynamique va générer des pages à partir de gabarit en fonction des demandes de l’internaute depuis, entre autres, le contenu d’une base de données. Il est possible de repérer cette technique si l’extension de la page est par exemple : .asp, .cfm, .cgi, .shtml… COUT PAR CLIC (CPC) Mode d’achat d’espace publicitaire. L’annonceur paie uniquement lorsqu’un internaute clique sur le lien renvoyant sur son site. Voir aussi Liens promotionnels DENSITE DE MOT L’indice de densité d’un mot dans une page est le rapport entre le nombre de répétitions de ce mot et le nombre de mots total de la page. EN-TETE Plusieurs moteurs de recherche donnent plus d'importance et de poids au texte trouvé entre les commandes d'en-tête du fichier html (heading tags en anglais), notamment le titre indiqué dans la balise <Title>. Yahoo prend en compte le contenu des balises <Description> et <keywords> ainsi que celui des balises <alt> (texte associé aux images). GOOGLE / MSN DANCE “mise à jour par Google de son index et de sa formule de recherche”, c'est – adire une période pendant laquelle le classement de certaines pages dans la liste de résultats change selon leur accroissement ou baisse de popularité HEADER (HEAD) La balise <HEAD> définit la zone d'en-tête du document. Certains moteurs de recherche donnent plus d'importance et de poids au texte trouvé entre les commandes d'en-tête car cette zone contient des informations sur le document tels que les balises META et TITLE. Voir aussi META Voir aussi TITLE Voir aussi BODY 47 TER Référencement HTML (HYPERTEXT MARKUP LANGUAGE) Langage de programmation des pages Web composé de balises. On peut ainsi distinguer deux zones principales dans un document HTML, l’entête (HEAD) et le corps (BODY) : <HTML> <HEAD>…</HEAD> <BODY>…</BODY> </HTML> Voir aussi HEADER Voir aussi BODY INDEXATION Enregistrement d'une page Web dans la base de données des moteurs de recherche. Pour ce faire, une page Web peut être proposée aux moteurs par l’intermédiaire d’un formulaire comprenant en général l’adresse URL de la page en question et une adresse e-mail. Ce formulaire est une demande auprès des moteurs d’envoyer leur robot sur le site Web pour le parcourir et l’indexer dans sa base de données. LIENS PROMOTIONNELS (OU LIENS SPONSORISES, POSITIONNEMENT PAYANT) Emplacement publicitaire textuel disponible sur les outils de recherche, présenté généralement en tête de liste des résultats de recherche. Un nombre limité d’annonceurs peut être présent dans cet emplacement. Il existe plusieurs offres qui se différencient par leur fonctionnement, achat de mots clés ou catégories, et également par leur système de paiement, au clic (CPC) ou à l’affichage (CPM). recherche Plus couramment, l'achat de cet espace s'effectue selon un système d'enchères et au CPC, son coût pouvant donc varier de quelques centimes d’euro à beaucoup plus : plus il y aura d’annonceurs désireux d’un même mot clé, plus le CPC sera élevé. En pleine expansion, le marché des liens sponsorisés représente déjà début 2004 le quart du chiffre d'affaires de la publicité en ligne, qui avoisine les 2 milliards de dollars US en 2003. META Les balises META contiennent des informations permettant de qualifier une page Web. Elles sont placées dans l'en-tête du document HTML (Header). Plusieurs balises META sont spécifiques aux robots des moteurs de recherche. Les deux principales sont META "Description" et META "Keywords", permettant de définir le descriptif de la page (affiché dans la liste de résultats) et les mots clés importants. Exemples : DESCRIPTION : Texte de 15 à 25 mots résumant le thème de la page. <META NAME= "Description" CONTENT=" Phrase de résumé"> KEYWORDS : Liste des mots clés par lesquelles le site est indexé. <META NAME="Keywords" CONTENT="mot clé 1, mot clé 2…"> MOT CLE (KEYWORD) Mot ou groupe de mots qui caractérise le contenu d'un document. Voir aussi Requête MOTEUR Outil de recherche qui recense des pages Web. Son mode de fonctionnement est différent de celui des annuaires : un moteur est alimenté par des robots logiciels qui parcourent le Web de lien en lien pour en sauvegarder des pages, constituant ainsi un index. La fréquence de passage d’un robot sur le Web est variable, c’est à cette occasion qu’il rafraîchit sa base et l’enrichit de nouvelles pages. 48 TER Référencement nouvelles pages. Chaque moteur est unique et possède son propre algorithme. MOTEUR HYBRIDE Outil de recherche qui utilise à la fois une base de données de type annuaire et une technologie du type moteur pour effectuer la recherche de l’internaute. NOM DE DOMAINE PROMOTIONNEL Nom(s) de domaine utilisé(s) pour un site en plus de son domaine habituel, permettant ainsi de lui donner plusieurs url. Cette pratique est principalement utilisée pour optimiser un mot clé spécifique en l’intégrant dans cette nouvelle url du site. OPTIMISATION Ensemble des changements opérés par le référenceur sur une page pour améliorer son positionnement dans les Moteurs de Recherche. PAGE DEPORTEE Terme générique regroupant l’ensemble des types de pages créées pour optimiser le référencement d’un site (pages satellites, fantômes, Alias, passerelles…). Ces pages sont physiquement sur le serveur Web du site, elles ne sont pas accessibles par l’internaute depuis l’arborescence, mais uniquement depuis les moteurs de recherche. POPULARITE (INDICE DE) Indice proportionnel au nombre de pages qui ont mis en place un lien vers un autre site Web : plus il y a de pages qui "pointent" vers le site, plus le site est considéré par les moteurs de recherche comme "populaire". Voir aussi PageRank PAGERANK Indice de popularité de page Web mis au point par les fondateurs de Google. Il évalue la pertinence d’une page Web en s’appuyant sur ses liens avec d’autres sites : tout lien pointant de la page A à la page B est considéré comme un vote de la page A en faveur de la page B. D’autre part, la pertinence d’une page est renforcée si le contenu de la page qui la lie présente une qualité (ex : un contenu sur le même sujet ou secteur). Voir aussi Popularité POSITIONNEMENT Processus qui consiste à placer un site ou une page dans la liste des résultats d’une recherche. Le positionnement résulte des algorithmes de pertinence des outils de recherche. REDIRECTION PAR STATUT HTTP 302 (MOVED TEMPORARILY, REDIRECTION SERVEUR) Le statut HTTP 302 est théoriquement retourné par un serveur Web en réponse à une demande de page lorsque celle-ci existe mais est temporairement indisponible car son adresse a été modifiée. L’internaute est alors redirigé directement vers cette nouvelle URL. Les sites Web utilisent aussi ce moyen pour donner l’ordre explicite aux navigateurs Web de se rendre à un emplacement déterminé. REFERENCEMENT AUTOMATIQUE Méthode d’indexation par l’utilisation de logiciel. En général, ces logiciels inscrivent de façon automatique un site Web dans des milliers d’outils de recherche en quelques minutes. Cette technique ne fonctionne pas avec tous les outils de recherche. Si cette méthode à l’avantage de traiter l’aspect quantitatif du référencement c’est au détriment de son aspect qualitatif : elle ne donne pas lieu à une optimisation de pages en fonction des algorithmes de chaque moteur. Le site sera donc présent dans les bases de données mais ne bénéficiera pas d’un bon positionnement. REFERRER (HTTP_REFERRER) 49 TER Référencement Le terme anglais referrer définit la page Web précédant l’actuelle. Plus techniquement, le http_referrer est une variable d'environnement HTTP renvoyée par les navigateurs qui permet à un serveur d’enregistrer l’URL de provenance de l’internaute lorsque celui-ci a utilisé un lien hypertexte pour changer de page/site. L’analyse de cette variable permet, entre autres, d’identifier de quel outil de recherche, et d’après quelle requête l’internaute est venu sur le site. Ex. : http://www.Google.fr/search?q=referencement&hl=fr&lr=&ie=UTF-8&start=10&sa=N REQUETE Mot, expression ou groupe de mots employés pour passer des instructions à un outil de recherche afin de localiser des pages/sites sur le sujet recherché. ROBOT (SPIDER, CRAWLER, BOT) Composante d'un moteur de recherche qui parcourt le Web, afin d'alimenter en données son index. SANDBOX Phénomène censé expliquer pourquoi un site n’est pas immédiatement pris en compte par un moteur lors de son premier référencement. L’effet Sandbox consiste à dire que les moteurs de recherche utilisent une sorte de liste d’attente dans laquelle ils placent certains nouveaux sites avant leur indexation finale. L’attente permettrait ainsi aux moteurs d’étudier le comportement de ces nouveaux sites (leur mise à jour, leur disparition, leur sériosité,..) et de ne mettre à jour leur index dans des conditions optimales. SOUMISSION Action de proposer un site Web à un annuaire de recherche, généralement par le biais d’un formulaire. Les données indiquées (catégorie, titre, description…) et le site sont revus par un surfeur avant enregistrement du site dans la base de données de l’annuaire. SOUMISSION PAYANTE Cf. soumission, lorsque l’annuaire fait payer cette procédure. En France, la majorité des annuaires ont adopté ce principe pour garantir des délais de traitement de la demande (généralement 7 jours). Cependant, cela ne garantit pas l’indexation du site dans la base de données de l’annuaire. SPAMINDEXING (SPAMDEXING) Terme générique désignant l’ensemble des techniques et pratiques abusives de référencement consistant à tromper les moteurs de recherche et les annuaires pour améliorer le positionnement d’un site Web dans les pages de résultats. La technique la plus courante pour forcer le référencement dans les moteurs de recherche est la répétition excessive de mots clés, en blanc ou en clair sur fond blanc ou en caractères minuscules. L’utilisation abusive du cloaking et la mise en place de « faux » liens sont également des méthodes de spamindexing. De plus en plus d’outils de recherche mettent en place des systèmes de détection et les tentatives de spamindexing sont sévèrement réprimées par les outils de recherche lorsqu’elles sont identifiées. Pour éviter les sanctions pouvant aller d'une pénalité sur le classement au placement du site en liste noire, nous vous conseillons de vous rendre sur le site de l’IPEA (association des professionnels du référencement) où une charte de qualité et de déontologie sur le référencement de sites Web a été édictée en association avec les outils de recherche. TEXTE CACHE Texte inséré dans une page Web visible pour les robots des moteurs de recherche mais invisible aux visiteurs (ex. : le texte a la même couleur que le fond). Cette méthode est utilisée pour valoriser le contenu d’un site, mais est considérée comme du spamindexing. Voir aussi Spamindexing TITRE Texte compris entre les deux balises HTML <TITLE> et </TITLE>. Le texte du titre est important car c'est le lien qui sera affiché au niveau des listes de résultats des moteurs de recherche. Les moteurs font particulièrement attention au titre lors de l'indexation d’une page. TRAFIC Volume de données transmises par un site Web. Il est mesuré à l'aide de différents outils statistiques et d'indicateurs de trafic (pages vues, visites, visiteurs uniques, etc…). 50 TER Référencement (pages vues, visites, visiteurs uniques, etc…). VISITE Passage d'un internaute visiteur sur un site Web, correspondant à l'ensemble des requêtes qu'il effectue sur ce même site, à partir du moment où il y accède jusqu'à ce qu'il le quitte. 51 TER Référencement 9 ANNEXE : BILAN DU SORCIER GLOUTON Le concours de référencement « Sorcier Glouton » est fini mais il est possible de s’inscrire au prochain concours « Tiger l'osmose » paru le 5 janvier 2006 (plus d’informations sur le http://www.actulab.com/sommaire.php?categorie=referencement) d’Actulab : Bilan du Sorcier Glouton « Comme expliqué dans la page précédente, cet article dresse un bilan des techniques de référencement dans MSN Search que j'ai testées pendant le concours sorcier glouton auquel j'ai participé de mars à juin 2005 avec cette page. Avertissement préalable Si les concours de référencement sont de formidables occasions de tester les algorithmes des moteurs de recherche à leurs limites, il convient de conserver un regard critique sur les conclusions qu'on peut en tirer, pour les raisons suivantes: • Les algorithmes des moteurs de recherches évoluent en permanence, d'autant plus pour un moteur jeune comme MSN: ce qui était vrai hier (pendant le concours sorcier glouton) ne l'est peut-être plus tout à fait aujourd'hui. • Du fait de la durée limitée d'un concours, il est souvent nécessaire de tester plusieurs techniques d'optimisation en parallèle. D'autant plus quand on joue sur un moteur "lent" comme MSN (j'y reviendrai). Dans ces conditions, il est parfois difficile de distinguer avec certitude les techniques qui ont un effet sur le positionnement de celles qui n'en ont pas. • Pendant un concours, tous les concurrents font en permanence des tests d'optimisation. On ne sait donc jamais avec certitude si un changement de position est l'effet de ses propres optimisations ou de celles de ses concurrents. Enfin il est probable sinon certain que MSN a utilisé le concours comme un laboratoire, en profitant de l'occasion pour tester des algorithmes et filtres, conservés ou abandonnés depuis. Ceci étant précisé, entrons dans le vif du sujet: Comment fonctionne MSN et comment se compare-t'il à Google et Yahoo! ? Indexation De façon générale, MSN s'avère très performant dans l'indexation des nouvelles pages. Certaines pages apparaissent dans son index à peine 12 heures après leur mise en ligne. MSN surpasse fréquemment Google pourtant coutumier des indexations en moins de 48 heures, Yahoo! étant complètement dans les choux sur ce critère. Il faut quand même nuancer cette affirmation: si MSN est rapide comme l'éclair à référencer la page d'accueil et le premier niveau de liens d'un site, il éprouve beaucoup plus de difficultés avec les pages enfouies dans l'arborescence. Sa performance redevient alors Yahoo-esque, c'est à dire bien inférieure à celle de Google. Par ailleurs, si MSN est rapide pour la première indexation, il se classe bon dernier pour le rafraîchissement des pages. Alors qu'une page correctement liée est visitée et rafraîchie tous les jours par Google et Yahoo!, il faut parfois attendre 10 jours pour que ce "refresh" ait lieu sur MSN. C'est évidemment très pénalisant dans un concours de positionnement qui dure 3 mois. Attendre 10 jours pour savoir si une optimisation est efficace représente un sérieux obstacle à l'expérimentation. Cette fréquence des crawls et des updates constitue d'ailleurs un mystère. Tous les sites ne sont pas logés à la même enseigne. Pendant le concours, les pages de certains concurrents étaient rafraîchies presque quotidiennement, alors que d'autres (dont la mienne) devaient souvent subir ce délai d'attente de 10 jours. Ce n'était pourtant pas faute d'avoir des backlinks et de renouveler le contenu. Mon hypothèse: cette faible fréquence de crawl pourrait être une façon pour MSN d'appliquer une pénalité (filtre) sur certaines pages jugées sur-optimisées (j'y reviendrai). Mais ça n'engage que moi. Mises à jour des pages de résultats On le sait, Google met à jour son index tous les jours, ou plutôt toutes les nuits en France. MSN semble 2 fois plus rapide, puisqu'il nous montre un nouveau jeu de résultats toutes les 12 heures. En fait il semble bien que MSN fonctionne lui aussi sur un rythme de 24 heures, mais qu'il joue avec 2 index qu'il nous présente alternativement toutes les 12 heures. Ces 2 index sont différents, même s'ils convergent: d'où l'illusion d'un refresh toutes les 12 heures. Cette manipulation de 2 index par MSN semble assez similaire à ce que fait Yahoo! 52 TER Référencement heures. Cette manipulation de 2 index par MSN semble assez similaire à ce que fait Yahoo! Outre ces updates quotidiens, souvent mineurs même s'ils semblent parfois spectaculaires du fait de l'inégalité des sites face au "refresh" (voir plus haut), il semble bien qu'il existe des mises à jour plus profondes, liées à des changement d'algo ou à des filtres, que je me risquerai à appeler des MSN dances, terme peu adéquat mais qui parle à tout le monde;) Leur fréquence semble mensuelle. L'utilisation ou pas de data-centers à la Google par MSN reste un mystère pour moi. Dommage, l'interrogation de ceux de Google est souvent pleine d'enseignements. Crawls et crawlers En terme d'activité des robots d'indexation, Yahoo Slurp se montre le plus actif (45%) devant GoogleBot (35%) et MSNBot (20%). Mais ces pourcentages généraux ne signifient pas grand chose. Il faut surtout penser fréquence et profondeur d'indexation (critères sur lesquels Google est le meilleur, voir plus haut). Pensez aussi que pour chacun des 3 moteurs, tous les robots ne jouent pas le même rôle. A ce sujet voyez cette discusssion sur Webmaster Hub. Backlinks Les backlinks sont importants pour le positionnement dans MSN. Ce n'est pas une surprise pour un moteur moderne, mais il faut quand même signaler que leur contribution relative au bon positionnement d'une page semble moins importante que dans Google. En d'autre terme le contenu d'une page a plus d'importance relative pour MSN que pour Google. La prise en compte des backlinks par MSN semble quasi immédiate: 24 heures après que MSNBot les ait découverts. Ce qui peut s'avérer au final très long pour des backlinks sur des pages peu crawlées (voir plus haut). Si cette première prise en compte est très rapide, elle n'a pourtant qu'un effet modéré sur le positionnement. Une deuxième prise en compte, plus sensible celle-là, semble intervenir lors des "MSN dances" (voir plus haut). Ce principe semble aussi exister sur Yahoo! Comme pour Google, l'ancre du lien est un élément clé pour le positionnement. Pour aider au positionnement d'une page sur "sorcier glouton" rien de tel qu'un backlink sur le mot "sorcier glouton" ou dans une moindre mesure, sur une expression contenant ce mot-clé (par exemple "sorcier glouton de Jan"). L'attribut "alt" des images utilisées comme liens est lui aussi pris en compte, mais semble moins efficace qu'un bon vieux lien texte. Il semble aussi que MSN privilégie les backlinks placés dans le haut et le corps de la page à ceux fait dans les menus ou le footers. Enfin - soupçon de sémantique - la thématique de la page qui fait le backlink semble importante. Pour une page "sorcier glouton", un backlink dans une page consacrée au thème "sorcier glouton" est plus efficace qu'un backlink dans une page consacrée à la vie sexuelle de Benoît XVI. En résumé, rien de très surprenant de la part de MSN dans la prise en compte des backlinks. Sa philosophie en la matière ressemble à celle de Google, même si ses filtres anti-spamdexing sur les backlinks sont beaucoup moins sophistiqués que ceux de son grand frère. Mot clé dans l’URL Plus que dans Google et comme dans Yahoo! la présence du mot-clé dans le nom de domaine ou sous-domaine facilite énormément le positionnement du site sur ce mot-clé. Autre différence avec Google (et similarité avec Yahoo!), MSN semble accorder moins d'importance à la présence du mot-clé dans le nom de la page que dans le nom de domaine. Balise title Comme dans les autres moteurs, la présence du mot-clé dans le titre est primordiale pour son positionnement. Limitez-vous à un maximum de 2 occurrences du mot-clé dans le titre. Une seule pour ne prendre aucun risque de tomber dans un filtre. Balise meta description Elle semble prise en compte par MSN, avec quand même un poids relativement faible. On était habitué à faire des meta descriptions pour les visiteurs humains et non pour Google, ne changeons rien à nos habitudes. Balise meta keywords Altavista en est mort, Google l' ignorerait, Yahoo! la prendrait en compte, MSN y semble peu sensible. Moi je continue à la renseigner: ça ne mange pas de pain et sait-on jamais ;) Les autres balises meta Telle revisit-after. Mdrrrrr... 53 TER Référencement Mot-clé dans le texte de la page Il en faut évidemment. Le tout est de trouver le bon dosage en terme de densité et de nombre d'occurrence du mot-clé. Pas assez et la page n'est pas optimisée, trop et MSN filtre. Mais il est difficile de donner un pourcentage ou un nombre idéal. Ceuxci semblent varier suivant les pages. Une seule solution: expérimenter au cas par cas pour trouver la limite de ce que supporte MSN. On s'attachera aussi à varier les plaisirs en encapsulant les mots-clés dans des balises hx, b, strong, em, etc... Tous les moteurs aiment;) Liens sortants Un ou deux liens sortants vers des sites bien classés sur le mot-clé visé constituent une aide au positionnement dans Google. Mais MSN ressemble plutôt à Yahoo! sur ce point. Ce n'est pas à coup de 1 ou 2 liens sortants qu'on peut optimiser, mais à coup de 10 ou 30. C'est du moins en procédant ainsi que j'ai effectué ma plus spectaculaire remontée dans MSN. Le fait de coller une quinzaine de liens "sorcier glouton" vers des pages sorcier glouton d'autres concurrents (et amis) dans la mienne a eu pour effet de la propulser de la 4ème à la 1ère page de MSN. J'avais déjà remarqué ce phénomène avec Yahoo! Ces 2 moteurs semblent apprécier les "Hubs" au sens de l’algorithme HITS. Redirections 301 (permanentes) et 302 (temporaires) J'ai eu à jongler avec les redirections pendant le concours. D'abord parce que j'en avais pris l'habitude dans les concours joués sur Google (elles peuvent faire des miracles), mais surtout parce que ma page sorcier glouton a déménagé de actulab.com vers presidentielle-2007.net pendant le concours. Pour les 301, Google s'est, sans surprise, avéré rapide comme l'éclair en transférant le positionnement de la page redirigée à la page cible en 3 à 4 jours. Avec 2 semaines, Yahoo a été un peu plus lent mais en net progrès si l'on considère qu'il y a encore un an il s'obstinait à conserver les URLs redirigées au détriment des URLs cibles. MSN arrive bon dernier sur ce critère puisqu'il aura mis plus d'un mois à faire le transfert. Côté redirections 302, on connait la gestion désastreuse qu'en fait Google (pagejacking). Il n'est donc pas étonnant de voir MSN lui être supérieur sur ce critère, sans pour autant être parfait. Il traite apparemment les 302 comme les 301 (transfert du positionnement vers la page cible). Il ne fait donc pas à priori de différence entre une redirection permanente (301) et un redirection temporaire (302). Cette observation étant un fait isolé, je reste très prudent sur le sujet. De nouveaux tests seraient nécessaires pour confirmer cette conclusion. Sur-optimisation, "triche" (lol) et pénalités MSN a lui aussi un système de filtres visant à déclasser les pages sur-optimisées. Comme sur Yahoo!, les plus spectaculaires entrent en action (et sont levées en cas de suppression de la sur-optimisation) à l'occasion des MSN dances (voir plus haut). Mon sorcier glouton a ainsi été brutalement déclassé en page 3, avant de revenir aussi brutalement de la page 4 à la page 1 pendant le concours. Pour éviter ces filtres, il convient de procéder à des optimisations progressives, par tâtonnement "essai-erreur". A ma connaissance aucun blacklistage à la Google (cad pour une période très longue sinon définitive) n'a eu lieu sur MSN. L'autre façon qu'a MSN d'appliquer indirectement une pénalité pour les cas "moins graves" semblerait être de ralentir la fréquence de passage de ses robots d'indexation (à confirmer, voir plus haut). Pas de déclassement direct dans ce cas, mais un déclassement indirect potentiel par une mise à jour moins fréquente que les pages concurrentes. Pages satellites MSN semble relativement résistant aux pages satellites. En tous cas plus que Google. Veillez à faire suffisamment varier le contenu de vos pages sat' construites sur un "template", faute de quoi, elles seront ignorées par MSN. En revanche spamer MSN à coup de multiplication de sous-domaines semble un vrai plaisir, alors que chez Google les sanctions sont lourdes et la blacklist proche. Cloaking En matière de cloaking la règle est simple: pas vu pas pris;) Mais le jour où les adresses IP des robots changent: gaulé! En prenant soin d'adapter son script de cloaking aux nouveaux bots dans les 2 à 3 jours qui suivent leur apparition, pas de souci chez Google: aucune pénalité ne semble appliquée. MSN et Yahoo! semblent un peu plus sévères. Les 2 ont surpris mon sorcier glouton en flagrant délit de cloak pendant le concours. Même punition même motif, il s'en est suivi un déclassement d'une vingtaine de places, la sanction étant levée à la MSN dance (resp. Yahoo! dance) suivante. 54 TER Référencement Noarchive L'attribut que toute page cloakée qui se respecte se doit de posséder (il interdit la visualisation de la page présente en cache des moteurs) m'a semblé être pénalisé par MSN. Un "délit de sale gueule" un peu surprenant que je devrai toutefois retester dans d'autres conditions pour être catégorique sur son existence. Conclusion MSN Search n'est pas dépourvu de qualités, même s'il s'avère encore un peu instable (pêché de jeunesse). Il ne semble pas aujourd'hui en mesure de détrôner Google grâce à sa seule pertinence. Mais après tout Microsoft nous a habitué à devenir leader sur différents marchés par ses stratégies marketing plus que par sa technologie. Alors son moteur est sans doute promis à un bel avenir. Pour les Webmestres, sauf exception, il ne semble pas indispensable aujourd'hui d'utiliser le cloaking pour positionner correctement une page à la fois dans Google, Yahoo et MSN. Les 3 moteurs sont différents, mais leurs algorithmes restent suffisamment similaires (inspirés de celui de Google) dans leurs grandes lignes pour qu'un site s'y comporte bien sans avoir à en créer une version par moteur. Epilogue Une fois de plus ce concours de positionnement s'est avéré très utile pour la compréhension du fonctionnement des moteurs de recherche. J'espère que cet article vous aura plu. Mais encore une fois soyons prudents. La plupart des observations dont j'ai fait part dans cet article sont plus basées sur des "feelings" que sur des tests scientifiquement irréprochables. Certaines peuvent s'avérer fausses ou obsolètes. Il est même probable que certains d'entre vous soient arrivés à des conclusions radicalement opposées. » 55 TER Référencement 10 ANNEXE : RESSOURCES WEB UTILISEES Liens et documents utilisés pour réaliser cette étude : 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 http://docs.abondance.com/robots.html http://www.google.fr/intl/fr/webmestres/guidelines.html http://www.1ere-position.fr/ http://www.webrankinfo.com/google/toolbar/checksum.php http://www.secrets2moteurs.com/ http://www.7-dragons.com/comment-spammer.htm http://www.7-dragons.com/google-fonctionnement.htm http://www.7-dragons.com/google-conseils.htm http://www.infodunet.com/ http://www.webrankinfo.com/analyses/autres/theorie-sandbox.php http://www.imaginaweb.ch/index.php?pageN=referencement/referencement-positionnementspam http://www.secrets2moteurs.com/chroniques10.html http://www.webrankinfo.com/actualites/200505-strategies-promotion-web.htm http://www.actulab.com/cloaking.php http://www.01net.com/article/192074.html http://www.01net.com/article/267448.html http://www.actulab.com/le-pr-nuit-au-referencement.php http://www.aposition.com/documents/presse_latribune_080905.pdf http://www.revue-referencement.com/ETUDES/0410-referencement-title-h1.htm http://www.revue-referencement.com/CHIFFRESCLES/panorama_juin0405.htm http://www.revue-referencement.com/ENCOURS/referencement_et_referenceurs.htm http://www.revue-referencement.com/ENCOURS/referencement_approche_ou_technique.htm http://www.1ere-position.fr/livre-blanc-referencement-naturel.pdf http://www.up.univ-mrs.fr/wpsycle/Actualites/PDFactualites/Ladage.pdf http://www.adoc.fr/whitepapers/LivreBlanc_adoc_Pourquoi_faire_du_referencement.pdf http://www.qualitrafic.fr/netmarketing-mangeur-de-cigogne.ppt http://www.moteurzine.com/referencement.pdf http://actu.abondance.com/2004-17/these-referencement.pdf http://webpublic.ac-dijon.fr/pedago/cdi/techdoc/telechar/moteurs/refer.pdf http://www.journaldunet.com/livres_blancs/netbooster/netbooster_1.shtml http://www.prweaver.fr/blog/ http://www.webrankinfo.com/forums/index.php?sid=4a923663e24441b0bffb8b0363b51dd2 http://www.amazon.fr/exec/obidos/ASIN/2742936548/webrankinfo-21/171-0532792-2692212 http://www.livre-google.com/2004/09/07/4-sommaire#co http://fr.groups.yahoo.com/group/referencement/ http://www.cyber.ccip.fr/imitiki-referencement-google-a.htm http://www.sema7.org/ http://www.search-marketing-association.com/ http://www.dicodunet.com/definitions/referencement/sandbox.htm http://www.adoc.fr/whitepapers/LivreBlanc_adoc_Les_termes_du_referencement.pdf http://www.webrankinfo.com/lexique-c-68-clustering.htm http://www.webmaster-hub.com/publication/article16.html 56