Search Engine Optimisation

Transcription

Search Engine Optimisation
 Search Engine Optimisation Projet de veille technologique Arthur BONNET Guillaume GOGUELIN 19 mars 2010 [SEARCH ENGINE OPTIMISATION] Introduction L'accès à Internet est aujourd'hui devenu une norme: il est difficilement concevable de travailler sans l'utiliser et de plus en plus d'objets sont connectés offrant par‐là des possibilités qui restent encore à inventer. Devant la taille du web, c'est‐à‐dire le nombre de pages internet disponibles, la fonction assurée par les moteurs de recherche, remonter des sites pertinents pour une requête de mots clés, est indispensable à la navigation. Nous nous intéressons ici au SEO, Search Engine Optimization, ou comment « construire » son site pour que les moteurs de recherche puissent effectuer le mieux possible leur travail. Ces « bonnes pratiques » sont publiées par les moteurs de recherche à destination des webmasters. Il existe aussi des pratiques qui contournent le fonctionnement nominal des moteurs de recherche: elles sont réprimées par les moteurs de recherche et évoluent constamment. Nous chercherons ici à mettre en évidence le fonctionnement des moteurs de recherche en nous axant sur l'aspect fonctionnel plus que technique. Nous pourrons ensuite comprendre en quoi des pratiques de construction de site sont « bonnes » ou « mauvaises » du point de vue des moteurs de recherche. Nous donnerons alors un aperçu des pratiques actuelles, les bonnes et les mauvaises. Puis nous détaillerons une « mauvaise » pratique particulièrement ingénieuse : les pages satellites. Enfin nous nous intéresserons à un support spécifique : les supports mobiles. BONNET ‐ GOGUELIN Page 2 19 mars 2010 [SEARCH ENGINE OPTIMISATION] Qu’est‐ce que le SEO ? Un moteur de recherche est une application très modulaire, seuls les plus importants seront décris ici. Nous introduirons d'abord le fonctionnement général puis nous détaillerons chacune des briques de base qui composent un moteur de recherche. Le fonctionnement d'un moteur de recherche se décompose en trois briques de base : 1. L'exploration ou crawl : de manière à disposer de données à jour, les moteurs de recherche utilisent des robots d’indexation (web crawler). Un robot d’indexation explore la toile et effectue une copie des pages visitées. Cette copie sera ensuite utilisée par la deuxième brique qui compose un moteur de recherche. 2. L'indexation des ressources récupérées consiste à extraire les mots considérés comme significatifs du corpus à explorer, c’est‐à‐dire des pages stockées par les robots d’indexation et des métadonnées associées. Les mots extraits sont enregistrés dans une base de données organisée comme un gigantesque dictionnaire inverse ou, plus exactement, comme l'index terminologique d'un ouvrage, qui permet de retrouver rapidement dans quel chapitre de l'ouvrage se situe un terme significatif donné. Les termes non significatifs s'appellent des mots vides. Les termes significatifs sont associés à une valeur de poids. Ce poids correspond à une probabilité d'apparition du mot dans un document. Le but de cette création d’index est d’optimiser la vitesse et l’efficacité des requêtes de recherches qui constituent la troisième brique. 3. La recherche correspond à la partie requêtes du moteur, qui restitue les résultats. Un algorithme est appliqué pour identifier dans le corpus documentaire (en utilisant l'index), les documents qui correspondent le mieux aux mots contenus dans la requête, afin de présenter les résultats des recherches par ordre de pertinence supposée. Les moteurs plus évoluées mettent en perspective le poids des mots dans une requête avec ceux contenus dans les documents. On classe ces requêtes en trois principaux types : 
Requête informationnelle, elle porte sur un sujet très large (ex : voiture ou science) pour lequel il existe des milliers de résultats pertinants 
Requête navigationnelle, elle recherche un site particulier ou le site d’une entité particulière (ex : ebay ou ECN) 
Requête transactionnelle, elle reflète l’intention de l’utlisateur d’effectuer une action particulière comme acheter un ordinateur ou programmer en prolog. BONNET ‐ GOGUELIN Page 3 19 mars 2010 [SEARCH ENGINE OPTIMISATION] Des modules complémentaires sont souvent utilisés en association avec les trois briques de bases du moteur de recherche. Les plus connus sont les suivants : 
Le correcteur orthographique : il permet de corriger les erreurs introduites dans les mots de la requête, et s'assurer que la pertinence d'un mot sera bien prise en compte sous sa forme canonique. 
Le lemmatiseur : il permet de réduire les mots recherchés à leur lemme et ainsi d'étendre leur portée de recherche. 
L'anti dictionnaire : utilisé pour supprimer à la fois dans l'index et dans les requêtes tous les mots "vides" (tels que "de", "le", "la") qui sont non discriminants et perturbent le score de recherche en introduisant du bruit. 1. Précisions sur la brique exploration Trois caractéristiques d’internet compliquent cette tâche d’exploration : la taille très importante d’internet, les modifications fréquentes et le problème de la bande passante. La quantité importante de pages implique qu’un robot ne peut charger la totalité d’internet dans un temps donné et doit donc prioriser ses visites. La fréquence élevée de modification demande que les visites d’un robot d’indexation soient, elles‐aussi, fréquentes. Enfin étant donné la finitude et le prix de la bande passante, un bon robot d’indexation se doit d’avoir un comportement d’exploration efficace. Figure 1 : Répartition des pages web par fréquence de rafraichissement 2004 BONNET ‐ GOGUELIN Page 4 19 mars 2010 [SEARCH ENGINE OPTIMISATION] Figure 2 : Même répartition en tenant compte du domaine de la page 2004 La technique usuelle d'exploration (crawl) est l'indexation par lots (batch crawling), elle était pratiquée par Google jusqu'en 2003 (et connue sous le nom de deep crawl). On détermine une liste d'URL de départ. On lance les robots sur ces URL, on aspire ces pages et on récupère les liens externes. Tous les liens externes sont ajoutés à une file d'attente qui reste à explorer. L'exploration se termine lorsque la file d'attente est vide. Un gros désavantage de cette méthode d'exploration est la disparité entre la fréquence de modifications des pages et la fréquence d'exploration. Ainsi certains sites dont le contenu n'évolue que très peu ne nécessite pas une exploration fréquente. Aussi avec cette méthode sont seulement explorés les sites auxquels on peut accéder depuis les URL de départ. Des parties entières de l'Internet peuvent ainsi rester dans l'ombre. Dans un souci d'amélioration, le comportement d'un robot d'indexation actuel résulte de la combinaison des principes suivants : 
Un principe de sélection qui définit quelles pages télécharger (ce principe s'appuie principalement sur le PageRank de la page). 
Un principe de re‐visite qui définit quand vérifier s'il y a des changements dans les pages (ce principe tient compte de la probabilité d'obsolescence des pages). 

Un principe de politesse qui définit comment éviter les surcharges de pages web. Un principe de parallélisation qui définit comment coordonner les robots d'indexations distribués (on exécute en parallèle plusieurs méthodes de crawl). On parle ainsi de crawl incrémental.
BONNET ‐ GOGUELIN Page 5 19 mars 2010 [SEARCH ENGINE OPTIMISATION] Néanmoins, le web dit "invisible" n'est pas accessible à ces crawlers. Par invisible on entend la partie de l'Internet qui n'est pas accessible aux robots, et ce pour les raisons suivantes: 


informations illisibles par les robots (textes dans des images) 


pages protégées par des mots de passe zones protégées par un robots.txt code de pages non valides, ou liens en javascript, empêchant les robots de suivre ces liens (n'est plus vrai aujourd'hui) pages accessibles uniquement après avoir complété des formulaires cloaking : les pages vues par les robots ne sont pas celles vues par les internautes Les pistes d'amélioration de ces robots concernent l'optimisation de la fréquence de visite des sites et le crawl du web invisible. 2. Précisions sur la brique recherche La manière la plus simple de rechercher des documents à partir d'une requête est de comparer les mots de la requête avec ceux des documents à l'aide d'opérateurs booléens. La taille de l'Internet rend vite désuète cette méthode. On utilise alors la méthode TF‐IDF (term frequency-inverse document frequency), une mesure statistique permettant d'évaluer l'importance d'un mot par rapport à un document extrait d'une collection. Un terme TF‐IDF est calculé pour un mot donné et un document faisant partie d'un corpus. On pondère alors la fréquence du mot dans le document et la proportion de documents du corpus contenant ce mot (on comprend bien que moins il y a de documents du corpus contenant ce mot, plus la recherche est discriminante). On construit ensuite un vecteur à partir des mots de la requête et des valeurs TF‐IDF et on mesure l'angle entre ces deux vecteurs (voir un exemple de calcul). Cette comparaison d'angles de vecteurs est appelée similarité cosinus. Pour améliorer encore les performances des moteurs de recherche il existe la technique PageRank de Google et l'analyse sémantique latente. L'analyse sémantique latente C'est un procédé de traitement des langues naturelles qui dans le cas des moteurs de recherches sert à réduire les problèmes de synonymie et de polysémie: Etant donné un mot, la recherche sera peut‐être plus pertinente si elle ne contient pas le terme exact de la recherche mais un de ses synonymes. Selon le contexte, un mot peut posséder plusieurs sens. Il convient donc, dans la mesure du possible, de déterminer le sens recherché pour renvoyer des résultats pertinents. BONNET ‐ GOGUELIN Page 6 19 mars 2010 [SEARCH ENGINE OPTIMISATION] 3. PageRank (breveté jusqu'en 2011) Technique éponyme du cofondateur de Google Larry Page, elle participe à l'ordre des résultats de recherche. La description formelle fait intervenir des graphes orientés, des processus de Markov et des algorithmes de valeurs propres (eigenvalue algorithms). Selon Wikipédia: « Le PageRank est alors simplement la probabilité stationnaire d'une chaîne de Markov, c'est‐à‐dire un vecteur de Perron‐Frobenius de la matrice d'adjacence du graphe du Web ». Ne maîtrisant pas ces outils théoriques nous allons proposer la description fourni par Google lui‐même : « Le principe de PageRank est simple : tout lien pointant de la page A à la page B est considéré comme un vote de la page A en faveur de la page B. Toutefois, Google ne limite pas son évaluation au nombre de 'votes' (liens) reçus par la page ; il procède également à une analyse de la page qui contient le lien. Les liens présents dans des pages jugées importantes par Google ont plus de 'poids', et contribuent ainsi à 'élire' d'autres pages. ». Cet algorithme initialement breveté en 2001, a été depuis amélioré et corrigé (de nouveaux brevets ont vu le jour en 2004, 2006 et 2007) et certains contournements de l'attribution du PageRank (comme la création de nombreux liens internes à une page) ne fonctionnent plus aujourd'hui. Le PageRank a entraîné des pratiques visant à augmenter le PageRank : la création massive de liens retours (backlink) soit par échange de liens soit par inscription sur des annuaires. Mais le PageRank est aujourd'hui plus que quantitatif : il analyse les liens selon des critères sémantiques, de confiance (TrustRank) et de comportements des utilisateurs et grâce à des filtres (ex: Sandbox) il sanctionne les liens artificiels. Le TrustRank mesure la distance (en termes de liens) d'un site par rapport à un site humainement identifié comme « de confiance ». Plus un site est éloigné d'un site de confiance plus son TrustRank est faible. BONNET ‐ GOGUELIN Page 7 19 mars 2010 [SEARCH ENGINE OPTIMISATION] Techniques « white hat » Il existe de nombreuses méthodes et techniques pour améliorer le référencement d’un site internet. Nous allons voir ici les techniques « white hat », techniques que les moteurs de recherche encouragent à utiliser pour leur honnêteté (en opposition aux techniques « black hat »). Nous allons tout d’abord faire une liste rapide des bonnes pratiques à avoir pour bien référencer son site puis nous détaillerons certains points de ces bonnes pratiques. 
Tout d’abord, il faut évidemment écrire ses pages web dans un langage lu par les robots des moteurs de recherche. Le langage html est le plus courant et le plus fiable, mais on peut aussi avoir du htm, php, asp, aspx. 
Donner un titre unique à chacune des pages de son site. Le titre est ce qui apparait au niveau des onglets ; même s’il peut sembler plus claire d’appeler toutes ses pages « mon site » afin que l’internaute sache toujours où il est, ceci nuit au référencement. 

Faire une description claire et concise de son site (balise <meta>). 
Utiliser les balises <h> pour structurer le corps de ses pages, ainsi que les balises <strong> et <em> pour mettre en valeur les passages importants. 
Utiliser des outils en ligne pour voir quels sont les mots clés pertinents et recherchés par les internautes (google Adwords …) afin de les mettre en valeur sur son site (par leurs poids dans la page ainsi que par leur densité). 
Avoir une architecture de site bien faite afin que les pageranks de chaque page soient répartis logiquement. 
Faire en sorte que le contenu de son site soit intéressant et original pour inciter les internautes à y faire référence (notamment dans les forums par exemple, ou sur les pages personnelles). 
Faire référence personnellement à son site (sur sa page personnelle d’un réseau social, en signature de ses postes sur un forum …). 
S’inscrire à des annuaires web. Attention cependant à ne pas s’inscrire à n’importe quel annuaire : la valeur de leurs liens a déjà été minimisée depuis quelques temps et les moteurs de recherche sanctionnent même l’inscription à des annuaires non pertinents. Il faut classer son site de manière logique dans l’arborescence de l’annuaire. 
Utiliser un fichier robots.txt, ainsi qu’un sitemap pour faciliter le passage des robots. Toujours utiliser toutes les valeurs des balise <image> (height, width, alt, source), en particulier la valeur alt car c’est elle qui permet de décrire l’image aux robots (sinon l’image est comme invisible pour les robots). BONNET ‐ GOGUELIN Page 8 19 mars 2010 [SEARCH ENGINE OPTIMISATION] 1. Bonne utilisation du html Balise <meta> Les balises <meta> sont des balises situées dans la partie <head> d’une page html. Elles permettent de donner des informations générales sur la page ainsi que de donner quelques instructions particulières aux moteurs de recherche. Si ces balises étaient beaucoup utilisées il y a quelques temps pour le référencement, ce n’est plus vraiment le cas aujourd’hui. Voici une brève description de quelques unes des balises <meta> les plus utilisées. Cette description est faite pour google mais varie peu entre les différents moteurs de recherche (référence : http://googlewebmastercentral.blogspot.com/2007/12/answering‐more‐popular‐picks‐meta‐
tags.html article de google destiné aux webmasters) : 
<meta description> : elle est prise en compte par Google mais uniquement pour l'affichage des résultats. Cette balise n'a en effet aucun impact en termes de positionnement. Par contre, Google la reprend parfois en guise de descriptif de résultat (ce qu'on appelle le snippet) mais cela dépend des requêtes (elle n'est affichée que si Google considère qu'elle correspond bien à la requête). 
<meta keywords> : cette balises était utilisée pour faire la liste des mots clés représentant le site. Mais certainement à cause d’abus, Google ne tient plus compte de cette balise. 
<meta revisit‐after> : cette balise n'est pas prise en compte par Google (ainsi que par les autres principaux moteurs d'après Google). Elle est censée indiquer aux robots au bout de combien de temps ils doivent revenir crawler la page. 
<meta robot> : cette balise est prise en compte par Google (et les autres moteurs). Elle sert à définir des restrictions au robot qui vient crawler la page. Les principaux moteurs de recherche proposent également aux webmasters d'utiliser une balise spécifique (googlebot pour Google, slurp pour Yahoo, etc.) ; dans ces cas, les restrictions concernées ne s'appliquent qu'au moteur spécifié. Différentes valeurs pour la balise <meta robot> :  noindex : indique au robot qu'il ne faut pas indexer la page. Cela ne signifie pas que le robot ne va pas la crawler : pour cela il faut utiliser le fichier robots.txt.  nofollow : indique au robot qu'il ne faut pas suivre les liens dans la page. Cela signifie que Google n'ira pas crawler les pages liées par la page contenant cette balise meta robots.  index : indique au robot qu'il peut indexer la page. Cette valeur étant celle par défaut, il est totalement inutile de l'indiquer.  follow : indique au robot qu'il peut suivre les liens dans la page. Cette valeur étant celle par défaut, il est totalement inutile de l'indiquer.  all : cette valeur est l'équivalent de index,follow. Cette valeur étant celle par défaut, il est totalement inutile de l'indiquer.  none : cette valeur est l'équivalent de noindex,nofollow.  nosnippet : indique au robot qu'il ne faut pas afficher de descriptif (snippet) dans la page de résultats (peu d’intérêt). BONNET ‐ GOGUELIN Page 9 19 mars 2010 [SEARCH ENGINE OPTIMISATION]  noarchive : indique au robot qu'il ne faut pas laisser l'accès à la version en cache. Le lien « En cache » dans la page de résultats ne sera donc pas affiché. Ceci peut servir à ceux qui passent leur contenu d'une version publique accessible à une version archivée payante (sites de journaux par exemple). En conclusion, il faut utiliser les bonnes balises <meta> afin que le site que l’on veut référencer soit indexé. Cependant, si ces balises peuvent empêcher l’indexation, elles n’ont que peu d’influence sur le référencement en lui‐même. Poids des mots clés L’un des facteurs les plus influents sur le référencement est le poids des mots clés. Avant tout, qu’entendons‐nous par mots clés ? Ce sont simplement les mots que l’on pense pertinents pour désigner la page web que l’on veut référencer. Si on fait une liste de tous les mots d’une page web, on peut associer à chacun un poids. Le poids d’un mot dans une page html dépend d’abord du nombre d’occurrence du mot mais aussi des balises qui encadrent le mot à chacune de ses occurrences. Si le mot n’est pas encadré de balises, alors le poids total du mot dans la page est incrémenté de 1. Par contre, s’il est entouré de balises d’importance, alors le poids augmente plus vite (cf tableau ci‐dessous). Balises Bonus au poids <title> 12 <h1> 10 <h2> 8 <strong> 3 (Ces valeurs sont les valeurs par défaut fournies par le pluggin Kgen). Ainsi, plus le poids d’un mot est important dans une page web, plus cette page apparaîtra tôt dans la fenêtre de recherche lorsque l’on effectue une recherche en utilisant ce mot. Une des méthodes de base pour améliorer le référencement d’un site est donc de bien choisir ses mots clés, et d’utiliser correctement le langage html pour mettre ces mots en valeur. En particulier, comme le montre le tableau ci‐dessus, le titre de la page ainsi que les titres contenus dans le corps de la page sont très importants et permettent de faire ressortir très vite les mots clés. Il faut noter que ceci implique qu’il faut bien utiliser les balises de base du langage. En effet, si on utilise une feuille de style css, il faut bien faire attention à changer le style de ces balises plutôt que d’en créer de nouvelles (par exemple, la balise <a> n’ajoute aucun poids au mot qu’elle encadre). BONNET ‐ GOGUELIN Page 10 19 mars 2010 [SEARCH ENGINE OPTIMISATION] 2. Densité des mots clés La densité des mots clés d’une page n’est pas exactement la même chose que leur poids. On parle de densité d’un mot dans un texte pour désigner le nombre d’occurrences de ce mot dans le texte rapporté au nombre de mots total : 𝐷𝑒𝑛𝑠𝑖𝑡é (𝑚𝑜𝑡 𝑋𝑋𝑋) =
𝑜𝑐𝑐𝑢𝑟𝑒𝑛𝑐𝑒𝑠 𝑑𝑢 𝑚𝑜𝑡 𝑋𝑋𝑋
𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑚𝑜𝑡𝑠 𝑡𝑜𝑡𝑎𝑙
Ainsi, en plus d’avoir un poids important dans la page, un mot clé doit être répété plusieurs fois afin de montrer qu’il est important. Cependant, toujours pour éviter les abus, les navigateurs sanctionnent les pages où un mot est répété à outrance. Il est donc préconisé d’avoir une densité entre 5 et 7% pour un mot clé (ces chiffres ne sont pas exacts, ce ne sont que des suppositions faites par des spécialistes du référencement). Une densité de 5% peut paraitre anodine, mais pourtant il est assez difficile de conserver le sens d’un texte ou une certaine légèreté tout en satisfaisant cette condition. 3. Liens pointant vers le site Aux vues de l’algorithme de PageRank, une page est mieux référencée si de nombreux sites extérieurs pointent vers celle‐ci. Ainsi, un webmaster qui veut être bien référencé doit faire en sorte que les autres webmasters qui tomberaient sur son site aient envie de pointer vers celui‐ci. Plus facile à dire qu’à faire … Il faut noter à ce propos que le lien doit être en dur (le lien doit être du texte encadré par les balises <href> plutôt qu’une image par exemple). Ceci donne lieu logiquement à différentes méthodes à la limite du « white hat » (et qui peuvent d’ailleurs être classées dans le technique «gray hat») : 
Un même webmaster peut créer plusieurs sites et faire en sorte que chacun de ses sites pointe vers les autres. Ceci est facile à mettre en place mais il faut garder à l’esprit que le bonus en pagerank dû à un lien dépend du pagerank du site pointeur. 
Plusieurs webmasters peuvent, d’un commun accord, faire un « échange de liens ». cependant un simple «échange entre 2 sites n’est pas très efficace, il vaut mieux faire des schémas un peu plus complexes. 
Un webmaster possédant un site avec un fort pagerank peut vendre des liens partant de son site vers d’autres. Ici on peut dire que l’on sort du white hat… 4. Fichier robots.txt et sitemap Un fichier robots.txt est comme son nom l’indique … un fichier .txt ! Il est à placer à la racine de son site et doit se nommer précisément ainsi : « robots.txt ». Il permet de donner des informations aux robots avant mêmes que ceux‐ci aient commencé à parcourir le site. On peut, BONNET ‐ GOGUELIN Page 11 19 mars 2010 [SEARCH ENGINE OPTIMISATION] à partir de ce fichier, choisir quels moteurs de recherche on autorise à indexer le site, et même plus précisément, quelles pages du site ils peuvent indexer. Il existe 2 commandes dans le fichier robots.txt : 
User‐Agent : qui permet de préciser à quel moteur de recherche s’adresse les directives suivantes 
Disallow : permet d'indiquer les pages à exclure de l'indexation. Chaque page ou chemin à exclure doit être sur une ligne à part et doit commencer par /. La valeur / seule signifie "toutes les pages du site". Par défaut, toutes les pages sont considérées comme à indexer. Exemples de robots.txt : 
Exclusion de toutes les pages : 
Exclusion d'aucune page (équivalent à l'absence de fichier robots.txt, toutes les pages sont visitées) :
User­Agent: * Disallow: / User­Agent: * Disallow: 
Autorisation d'un seul robot : 
Exclusion d'un robot : 
Exclusion de plusieurs pages : User­Agent: nomDuRobot Disallow: User­Agent: * Disallow: / User­Agent: NomDuRobot Disallow: / User­Agent: * Disallow: User­Agent: * Disallow: /repertoire/chemin/page.html Disallow: /repertoire/chemin/page2.html Disallow: /repertoire/chemin/page3.html C’est aussi dans le fichier robots.txt que l’on peut indiquer le sitemap correspondant au site. Pour cela, une seule ligne suffit : Sitemap: http://www.example.com/sitemap.xml Un sitemap est un fichier souvent au format XML qui représente l’architecture du site: il liste simplement toutes les pages du site accessible aux robots et aux internautes. Ceci est très utile pour s’assurer que toutes les pages voulues accessibles le soient, ce qui n’est pas toujours le cas notamment lorsque l’on utilise des animations flash sans liens html en dur. Les balises utilisées dans un sitemap sont au nombre de 6 et sont présentées dans le tableau suivant : BONNET ‐ GOGUELIN Page 12 19 mars 2010 [SEARCH ENGINE OPTIMISATION] éléments requis ? description <urlest> oui Balise indiquant le début du « corps » du sitemap le reste du document après <?xml version> doit être contenu dans cet élément <url> oui Elément parent pour chaque page du site. Les éléments suivants du tableau sont des éléments fils de <url> <loc> oui Donne l’adresse url complète de la page en question <lastmod> non Donne la dernière date de modification de la page <changefreq> non Donne la fréquence de modification de la page. Les différentes valeurs sont : always, hourly, daily, weekly, monthly, yearly, never. Ceci n’est utilisé qu’à titre de guide par les moteurs de recherche et n’impose pas la fréquence d’indexation. <priority> Donne l’importance de la page relativement aux autres pages du site. Elle peut prendre une valeur entre 0 et 1, 1 représentant la page la plus importante. La valeur par défaut est de 0.5. Il est à noter que c’est bien l’importance relativement aux autres pages du site qui est présentée ici : mettre toutes les pages à des priorités élevées est donc inutile. non Exemple de sitemap (pris sur le site de wikipedia) : <?xml version="1.0" encoding="UTF‐8"?> <urlset xmlns="http://www.magnity.com/sitemap/0.9"> <url> <loc>http://www.magnity.com</loc> <lastmod> 2009‐09‐22</lastmod> <changefreq>monthly</changefreq> <priority>0.8</priority> </url> <url> <loc>http://www.magnity.com/?id=who</loc> <lastmod> 2009‐09‐22</lastmod> <changefreq>monthly</changefreq> <priority>0.8</priority> </url> <url> <loc>http://www.magnity.com/?id=what</loc> <lastmod> 2009‐09‐22</lastmod> <changefreq>monthly</changefreq> <priority>0.5</priority> </url> <url> <loc>http://www.magnity.com/?id=how</loc> <lastmod> 2009‐09‐22</lastmod> <changefreq>monthly</changefreq> <priority>0.5</priority> </url> </urlset> BONNET ‐ GOGUELIN Page 13 19 mars 2010 [SEARCH ENGINE OPTIMISATION] Techniques « black hat » From Wikipédia « Dans le folklore de la sécurité informatique, les black hats (pirates au chapeau noir), ou crackers, représentent une famille de hackers. À la différence des white hats, les black hats ont une nette préférence pour les actions illégales. » Dans le cas du SEO, la catégorisation white hat/black hat se fait par référence aux conditions d'utilisation (ToS ou Terms of Service) des moteurs de recherche. Ainsi une méthode allant dans le sens des recommandations des moteurs de recherche est qualifiée de white hat et, à l'inverse, une méthode allant à l'encontre est qualifiée de black hat. Il existe aussi des méthodes dites grey hat qui sont « flous »: les ToS actuelles des moteurs de recherche ne permettent pas de les classer dans l'une ou l'autre des catégories précédemment évoquées. White hat = search engine friendly Black Hat = spamdexing Les méthodes de black hat sont « combattues » par les moteurs de recherches : les sites utilisant ces techniques, une fois identifiés, ne sont plus indexés par les moteurs de recherche. Certaines de ces méthodes sont contournées par les moteurs de recherche tandis que d'autres « faussent » leurs algorithmes. On peut classer ces techniques de spamdexing en trois groupes : 1. celles qui portent sur le contenu des pages 2. celles qui portent sur les liens des pages 3. les autres Les techniques de spamdexing portant sur le contenu des pages 





le keyword stuffing 


la ferme de liens (link farm) le texte caché ou invisible le meta tag stuffing la page sattelite (Gateway ou doorway page) le site scraping l’article spinning Les techniques portant sur les liens des pages le lien caché le Sybil attack BONNET ‐ GOGUELIN Page 14 19 mars 2010 [SEARCH ENGINE OPTIMISATION] 


le blog de spam (spam blog) 



le spam dans les blogs 

les sites mirroirs le piratage de page (page hijacking) l'achat de domaine expiré Les techniques portant sur les pages modifiables (wikis, blogs acceptant les commentaires, …) le spam dans les commentaires le spam dans le wiki le referrer log spamming Les autres techniques le cloacking 1. Techniques portant sur les contenus des pages Ces techniques cherchent à court‐circuiter le vector‐space model (voir page wiki) par opposition au standard boolean model (voir page wiki), utilisé dans les moteurs de recherche. Le keyword stuffing (outdated) Il consiste à surcharger le contenu de la page ou les balises meta des mots clés de la page. Ces mots clés ne sont pas nécessairement dissimulés à l'utilisateur (voir la méthode suivante du texte caché). Autrefois les moteurs de recherche se contentaient de calculer la fréquence des mots clés pour déterminer leur importance. Maintenant la fréquence des mots clés est comparée avec celle de sites de référence et les pages longues sont tronquées en plusieurs pages. On pourrait dire qu'il a été définit une densité de mots clés à ne pas dépasser (en général les webmasters pensent à une densité maximum de 10%). BEAUCOUP DE MOTEURS DE RECHERCHE N'UTILISENT PLUS LES META TAGS POUR L'INDEXATION Le texte caché ou invisible Certaines portions de texte contenant des mots clés très populaires sont dissimulées aux yeux de l'utilisateur mais sont par contre lus par les moteurs de recherche. Plusieurs stratagèmes sont ainsi utilisés parmi lesquels : • l'attribution au texte la même couleur que le fond, de manière à ce que les deux se confondent • la dissimulation de texte derrière des images grâce aux css BONNET ‐ GOGUELIN Page 15 19 mars 2010 [SEARCH ENGINE OPTIMISATION] • le positionnement de texte très loin du centre de la page (grâce au positionnement absolu des feuilles de style) • le placement de texte dans les balises <noscript> (initialement prévu pour afficher le texte dans le cas où le navigateur n'interprète pas les scripts) ou dans l'attribut alt (voir la page wiki pour plus d'informations sur cet attribut) • définir une taille de police égale à zéro • définir des DIV de longueur et largeur nulle Le meta tag stuffing De la même manière que le texte caché on ajoute des mots clés très populaires dans les balises meta (non‐visibles par le visiteur). Les moteurs de recherche ne prenant plus en considération les balises meta, cette méthode n'a plus aucun intérêt. La page satellite ou Gateway(*) Cette technique consiste à créer un ensemble de pages, dite satellites, qui vont chacune renvoyer le visiteur sur une page « centrale ». L'ensemble des pages satellites va constituer un appât, un leurre pour les moteurs de recherche: ces pages seront SEF (Search Engine Friendly) et optimisées chacune pour une certaine expression (dans le sens d'une suite de mots), c'est‐à‐dire qu'elles seront très bien indexées pour l'expression en question. Par contre une fois arrivée sur la page satellite le visiteur sera renvoyé sur la page centrale. La page centrale est donc indexée autant de fois qu'elle comporte de pages satellites. Il existe plusieurs manières de renvoyer le visiteur sur la page centrale à partir de la page satellite. La commande Meta refresh (voir la page wiki pour plus d'informations sur cette commande) est très pratique dans ce cas‐là. On peut aussi citer la redirection au moyen d'un script et la redirection côté serveur (fichier .htaccess ou fichier de configuration serveur). Pour éviter des pénalisations des moteurs de recherche la redirection n'est pas toujours automatique, le visiteur arrivant sur la page satellite sera alors invité à cliquer sur un lien pour arriver à la page centrale. Voir la méthode de Cloacking très proche
Le site scraper (scraper site) REVOIR AdSENSE et web scraping Un scraper site est un site qui tire l'intégralité de son contenu d'autres sites internet en utilisant le web scraping (voir la page wiki pour plus d'informations sur le web scraping). Etant donné les lois sur les droits d'auteurs, les sites à contenu ouvert sont souvent la cible de ces scraper sites. Remarquons au passage que le non respect des licences associées à des contenus même ouverts, est illégal. BONNET ‐ GOGUELIN Page 16 19 mars 2010 [SEARCH ENGINE OPTIMISATION] Les sites ciblés par cette technique sont en général des sites disposant d'un bon classement, les sites scrapers espérant bénéficier de ce bon classement. Les sites scrapers sont souvent utilisés avec des link farm (voir plus bas). L'article spinning Très proche des sites scraper, au lieu de copier du texte préexistant on va ici le réécrire pour éviter les sanctions de duplication de contenu. La réécriture est faite soit manuellement, par des écrivains engagés dans ce but, soit automatiquement. La réécriture automatique est effectuée soit par des réseaux de neurones soit par des bases de données de thésaurus. Une base de données de thésaurus contient des milliers de remplacement de mots par des synonymes. Par exemple on décide de remplacer toutes les occurrences du mot 'texte' par le mot 'document'. De cette manière le texte « réécrit » est substantiellement différent du texte original, ou en tout cas, assez différent pour les moteurs de recherche. 2. Techniques portant sur les liens des pages Ces techniques (voir la page wiki pour une liste plus exhaustive visent directement les algorithmes de classement basés sur les liens à savoir PageRank et ses équivalents mais aussi l'algorithme HITS (voir la page wiki pour plus d'informations sur cet algorithme). En effet nous avons vu qu'avec PageRank le fait que des pages bien classées pointent vers un site améliorera le classement du site en question. On fait parfois référence à ces techniques sous le nom de création népotique de liens (nepotistic links). La ferme de liens ou link farm C'est un groupe de sites au sein duquel chacun des sites pointe vers tous les autres. La création de fermes de liens est généralement automatisée. Aujourd'hui, moins il existe de liens externes sur les sites du groupe, moins cette méthode aura d'effet. Le lien caché (voir le texte caché) De la même manière que pour le texte caché, on peut cacher des liens sur la page. L'attaque Sybil Sybil fait référence à un livre dont le personnage principal est une femme atteinte de schizophrénie et possédant 16 personnalités différentes. Une attaque Sybil n'est en fait pas spécifique au SEO, c'est de manière générale la création mal intentionné de multiples identités numériques. On fait parfois référence à ces fausses identités sous les noms de faux‐nez ou sockpuppet. BONNET ‐ GOGUELIN Page 17 19 mars 2010 [SEARCH ENGINE OPTIMISATION] Dans le cas du SEO, cette technique est très proche du link farm à la différence que l'ensemble des sites est créé par une seule personne. Cette personne crée donc un certain nombre de sites sous différents noms de domaines et les fait tous pointer les uns sur les autres. Le blog de spam (splog) Ce sont des faux blogs qui vantent les mérites d'un site dont on cherche à améliorer le classement. Ce sont souvent des scraper sites. Ils utilisent en général des noms de domaines proches de sites de référence. On estime qu'un blog sur cinq est un splog et que la moitié du ping provient de splogs (on parle alors de sping). Dans le contexte des blogs, le ping est le mécanisme avec lequel un blog fait savoir au serveur que son contenu a été mis à jour. Le page hijacking C'est là une forme de site scraper poussée à l'extrême : au lieu de recopier ou réécrire du texte, on va copier entièrement une page populaire. Ce sont les liens de cette page « d'accueil » qui seront ensuite modifiés pour rediriger le visiteur. Les robots d'indexation détectent la duplication de pages et ne gardent qu'une seule des pages dupliquées. Ainsi l'objectif de cette technique est de devenir la page conservée par Google et donc de voler le PageRank du site qu'ils ont copié. L'achat de domaine ayant expiré On surveille les dates d'expiration de noms de domaine sur les serveurs de noms de domaine (DNS) de manière à acheter très rapidement un nom de domaine fraichement expiré pour profiter de son PageRank. 3. Les techniques portant sur les pages modifiables Ces techniques sont assez simples : elles consistent à utiliser les propriétés des sites modifiables créés par les internautes eux‐mêmes (wikis, blogs etc…). Spamming L’une des techniques les plus simples est de placer des liens vers le site à référencer sur les forums, blogs et wikis ouverts à tous les utilisateurs. Par exemple utiliser les commentaires d’un blog, ou un article de wikipedia… Ceci augmente du coup le nombre de liens pointant vers le site. Bien sûr de telles méthodes peuvent même être automatisées et donc augmenter ce nombre à assez grande échelle. Cependant il est à noter que du coup, de nombreux sites utilisent la balise <nofollow> avec les liens proposés par les utilisateurs afin de décourager les spammers. BONNET ‐ GOGUELIN Page 18 19 mars 2010 [SEARCH ENGINE OPTIMISATION] Referrer log spamming Le referrer log spamming est une méthode de spam plus subtile que la précédente. Certains hébergeurs font une liste des pages référantes (page sur laquelle était un internaute avant d’arriver sur le site) afin de proposer des statistiques aux webmasters. Cette liste peut notamment être conservée sous forme de liens en dur. Une méthode de spamdexing est donc de faire de simuler des visites sur des sites via le site que l’on veut référencer. Ainsi on obtient des liens externes (à faible pagerank cepandant) grâce aux statistiques de l’hebergeurs. 4. Autres techniques Les sites miroirs C’est le fait de créer plusieurs sites web identiques…ou quasiment identiques ! On peut effectivement créer plusieurs sites aux contenus similaires mais avec des url différentes et des mots clés différents. Par exemple faire 2 sites sur Picasso avec dans l’un faire référence à Picasso avec le mot « peintre », et dans l’autre le mot « artiste ». Ainsi on récupère les internautes qui font des recherches sur ces 2 mots. Remarque : est‐ce vraiment du black hat ? Le cloaking Cette technique consiste à présenter un contenu de page web différent suivant que le client distant est un robot de moteur de recherche ou un internaute humain. Cette distinction est réalisée par le serveur web grâce à une reconnaissance de l'adresse IP (par exemple identification d'un moteur de recherche par son IP), ou l'en‐tête HTTP User‐Agent envoyé par le client qui fait une requête sur la page. Quand un client est identifié comme étant un robot de moteur de recherche, un script localisé sur le serveur web délivre une version différente de la page web, une version qui contient des éléments non présents sur la page web « normale » (lisible par un humain). BONNET ‐ GOGUELIN Page 19 19 mars 2010 [SEARCH ENGINE OPTIMISATION] Focus : pages satellites (doorway pages) Les pages satellites sont des pages créées uniquement dans le but d’améliorer le référencement d’un autre site sur certaines combinaisons de mots clés. Il faut donc voir qu’elles ne font pas partie du site en lui‐même : une fois qu’on arrive sur cette page on est redirigé et il n’y a en général pas de moyens pour revenir sur cette page. 1. Les raisons de l’utilisation de pages satellites La création de pages satellites peut être motivée par plusieurs raisons plus ou moins honnêtes : 
Un site constitué presque exclusivement d'images ou de vidéos ne sera pas indexé par les moteurs de recherche (ils sont, pour le moment, incapables d'interpréter une image et de lui attribuer une description). La balise « alt » autorise une description des images mais ne permet pas de travailler réellement sur le référencement. 
Un spécialiste du référencement peut souvent se heurter au problème de l’orthographe ou des synonymes. Les pages satellites permettent de contourner ce problème en créant par exemple une page par synonyme. 
On peut vouloir éviter d’utiliser certains mots sur son site (tabous religieux, politiques, culturels…) mais quand même vouloir être référencé sur ces mots. 
Lorsqu’une société de référencement doit travailler sur un site d’un de ses clients, elle peut vouloir utiliser des pages satellites pour conserver le site en question intact tout en améliorant son référencement. 
Lorsqu’un site est mal conçu techniquement ou inadapté au référencement on peut utiliser des pages satellites afin de s’affranchir de problèmes tels que : 

code trop lourd, susceptible de générer des erreurs d'interprétation et d'être rejeté par les moteurs 
texte inclus à l'intérieur d'un code Javascript, Flash ou DHTML, que les moteurs ne savent pas lire La triche délibérée fait aussi partie des motivations qui poussent certains webmasters à créer des pages satellites. On peut, par exemple, vouloir être retrouvé lors des recherches portant sur le nom d'un concurrent (ce qui est absolument illégal) ou tout simplement sur des mots couramment utilisés mais n’ayant pas de lien direct avec le site. On peut même trouver des sites qui comportent des copies intégrales de pages de sites concurrents, utilisées en tant que pages satellites. Durant plusieurs années, les pages satellites ont été utilisées de façon quasi‐systématique par les sociétés spécialisées dans le référencement. Les lourdes pénalités appliquées de plus en plus fréquemment par Google aux sites optimisés de cette façon tendent désormais à faire disparaître cette technique. BONNET ‐ GOGUELIN Page 20 19 mars 2010 [SEARCH ENGINE OPTIMISATION] 2. Comment ça marche ? La création de la page La première chose à faire lorsque l’on veut améliorer le référencement d’un site via une page satellite est de savoir sur quelles combinaisons de mots clés on veut travailler. Une fois que l’on sait sur quoi on veut travailler, il reste à créer la page et faire en sorte qu’elle soit bien référencée ! En fait les pages satellites ne font que déplacer le problème du référencement et il y a un réel travail à faire sur ces pages. Alors pourquoi faire des pages satellites dans ces conditions ? Nous avons vu des raisons dans la partie précédente mais on pourrait ajouter que cela facilite le travail à réaliser. En effet il est plus facile de référencer une page dédiée à une expression clé qu’un site entier sur toutes les expressions clés en même temps. C’est d’ailleurs pourquoi on peut trouver plusieurs pages satellites par site : 1 par expression clé à référencer. Pour travailler sur le référencement de ces pages les webmasters peuvent utiliser des techniques du white ou du black hat. Cela dépend de la manière de redirection utilisée (voir suite). Cependant on peut remarquer qu’il est fréquent d’utiliser des techniques de texte caché pour faire croire que la page de redirection n’est qu’une page blanche sans intérêt. Le contenu On peut distinguer 2 types de pages satellites : des pages avec contenu visible et des pages en apparence vide. 
En général, on crée une page satellite en apparence vide simplement pour rediriger vers une page avec le contenu qui nous intéresse. Dans ce cas là on peut écrire un contenu en texte caché (voir techniques black hat) optimal pour le référencement de l’expression désiré (répétition des mots clés, mises entre balises <h1> etc…) Exemple : rediriger vers une galerie d’images, page dédiée au référencement de mots « tabous » pour le site… 
Une page satellite avec contenu n’est pas forcément sujette à une redirection immédiate. On peut vouloir créer une page satellite identique à une des pages du site initial mais en remplaçant un mot par son synonyme dans toute la page. Ainsi on référence le site sur les 2 mots plus efficacement. On peut faire la même opération pour les mots avec accent par exemple (écrire avec accent sur une page et sans sur la page satellite) car les moteurs de recherche ne traitent pas les 2 orthographes exactement de la même façon. Dans ce cas là il est inutile de rediriger l’internaute puisque la page est une copie du site initial mais avec des modifications minimes. Par contre une page satellite recopiant une page concurrente va évidemment rediriger automatiquement vers le site que l’on veut référencer… BONNET ‐ GOGUELIN Page 21 19 mars 2010 [SEARCH ENGINE OPTIMISATION] La redirection Nous avons abordé en partie le problème de la redirection précédemment. Ce qu’il faut voir c’est que l’on peut distinguer les pages satellites qui redirigent automatiquement l’internaute des pages satellites qui attendent une action de celui‐ci pour le faire venir sur le site principal. 
Quand on attend une action de la part de l’internaute, un simple lien hypertexte suffit. On peut par exemple penser aux pages blanches avec un unique lien « continuer vers le site ». Autre exemple : si la page est une copie du site initiale, on laisse le moyen de navigation initial qui permet à l’internaute d’arriver sur le site d’une manière qui lui semble naturelle. 
La redirection automatique se fait en général grâce à la balise meta refresh qui rafraichit la page au bout d’un certain temps indiqué (immédiat ou quelques secondes). Ainsi l’internaute arrive sur la page et est immédiatement redirigé sans même voir la page satellite. Il est à noter cependant que certains moteurs de recherche n’acceptent plus les meta refresh immédiats . BONNET ‐ GOGUELIN Page 22 19 mars 2010 [SEARCH ENGINE OPTIMISATION] Le référencement mobile Le web sur mobile est apparu avec la technologie japonaise imode, puis wap pour devenir aujourd'hui 3G et Wifi. De même on peut noter l'évolution des supports et surtout de la taille des écrans. Les téléphones actuels proposant la 3G sont ainsi dotés d'écrans relativement grands permettant une réelle navigation. La navigation sur support mobile est me une tendance lourde actuelle comme le prouvent des objets comme la DS Lite, la PSP ou encore l'iPad. L'expérience de navigation et les conditions d'utilisation étant différents d'une navigation « traditionnelle », les usages sont encore flous mais nous évoquerons ici deux utilisations spécifiques de la connectivité des supports mobiles : la recherche géolocalisée et la recherche temps réel. Les offres d'accès au Web par téléphone portable ‐ pour le grand public ‐ se multiplient. On dénombre aujourd’hui 1 milliard d’internautes… et 4 fois plus d’abonnés au téléphone mobile, soit 4 milliards de mobinautes potentiels. L’enjeu est donc conséquent et évident. Le mobile devient ainsi ‐ pour les entreprises ‐ un média permettant de recruter de nouveaux clients, puis de les fidéliser. Posséder un site "mobile" est donc aujourd'hui indispensable pour les grandes marques. Mais alors, qu’en est‐il du référencement des sites internet au format mobile ? Les balbutiements du référencement mobile Si le passage des sites internet au format mobile se fait de plus en plus couramment et de plus en plus facilement, leur référencement n’est pas encore très poussé. Le référencement sur mobile ne demande pas, pour l'instant du moins, d'optimisation technique poussée du site. Il existe aujourd’hui 3 offres de référencement : 


Sur les portails des opérateurs (Vodafone, Orange World, My NRJ Mobile, …) Sur le moteur Gallery (portail commun aux opérateurs) Sur le « off‐portal » c'est‐à‐dire sans passer par les opérateurs La méthode de référencement est identique pour les portails des opérateurs et pour Gallery et payante pour les 2. Pour figurer dans l'index du moteur, il faut s'adresser à l'opérateur ou au service Gallery et acheter les mots‐clés sur lesquels le site veut ressortir. En France, il faut aussi se déclarer à l’Association Française du Multimedia Mobile qui validera après avoir vérifié la compatibilité du site avec un maximum de téléphones. La méthode de référencement sur « off‐portal » (hors portail) ressemble plus au référencement sur l’internet « fixe » connu. La recherche est fournie par les moteurs de recherche connu (Google, Yahoo…) et permet donc une indexation gratuite (naturelle) et des liens sponsorisés. C’est donc cette dernière méthode qui est en plein essor et c’est sur l’off‐portal que les problèmes de référencement que nous avons vu tout au long de ce dossier vont apparaître. BONNET ‐ GOGUELIN Page 23 19 mars 2010 [SEARCH ENGINE OPTIMISATION] Les changements par rapport à l’internet « fixe » Tout d’abord, il faut savoir qu’il existe aussi une version mobiles de tous les grands moteurs de recherche qui priorisent dans leurs résultats les sites existant sous version mobile. Mais sinon, pour l’instant, les moteurs de recherche n’ont pas réellement changé leurs méthodes d’indexation. Ainsi, tout ce que l’on a pu voir jusqu’ici (PageRank etc…) reste valable pour l’internet mobile. A propos du contenu des pages web destinées au support mobile, il faut préciser qu'il existe un doctype spécifique ainsi qu'une version spéciale d'HTML dénommée XHTML Mobile Profile (XHTML MP) développée par l'Open Mobile Alliance. L'utilisation de ce langage fait partie des recommandations des moteurs de recherche pour sites mobiles. Ces recommandations sont à distinguer de la navigation wap ou imode (technologies pionnières de navigation internet sur mobile). On peut quand même noter un élément majeur à prendre en compte : l’utilisation de l’internet via un mobile est souvent faite dans l’optique de répondre à un besoin lié au contexte dans lequel est placé l’utilisateur. Ainsi, les moteurs de recherche devront rendre les résultats d’une recherche en fonction notamment de la situation géographique de l’utilisateur. On peut penser par exemple à un utilisateur qui taperait « restaurant asiatique » sur son mobile : il devrait s’attendre à recevoir des résultats sur des restaurants asiatiques à proximité de l’endroit où il se trouve. On peut aussi citer la pertinence de la recherche temps réel pour le support mobile. Ce domaine fait actuellement l'objet de nombreuses recherches : comme dans l'onglet Actualités du moteur de recherche Google ou encore les recherches sur tweets. L’évolution de l’internet vers le mobile va donc élever encore d’un cran la complexité du problème du référencement ! BONNET ‐ GOGUELIN Page 24 19 mars 2010 [SEARCH ENGINE OPTIMISATION] Bibliographie et Webographie Cours de mathématiques université Joseph Fourier : http://www‐fourier.ujf‐
grenoble.fr/~eiserm/Enseignement/google.pdf Sergey Brin and Lawrence Page Computer Science Department, Stanford University, Stanford, CA 94305 The Anatomy of a Large‐Scale Hypertextual Web Search Engine http://infolab.stanford.edu/~backrub/google.html Métodes SEO recensées sur wikipédia : http://en.wikipedia.org/wiki/Category:Search_engine_optimization Site Polonais spécialisé dans la SEO ayant développé un moteur de recherche customisé pour ce domaine (lien vers les sources des recherches) : http://szukaj.bluerank.pl/en/resources.html http://www.webrankinfo.com http://www.seobythesea.com http://www.mattcutts.com http://www.webmaster‐hub.com/publication http://seo‐bing.blogspot.com http://www.cuil.com http://www.supinfo‐projects.com http://www.seomoz.org http://www.1ere‐position.fr/blog/algorithme‐google‐devoile http://www.seowhitehats.com BONNET ‐ GOGUELIN Page 25