mémoire sur l`état de l`art du référencement

Transcription

mémoire sur l`état de l`art du référencement
Maîtrise MIAGE du CFA AFIA en apprentissage
à l'IEA de Paris 1 – Panthéon - Sorbonne
Année 2004-2005
MOUHOT
Pierre Etienne
MEMOIRE DE FIN D'ANNEE
Pôle d'accueil : Direction des Systèmes d'Informations du GIE AXA
TECHNIQUES DE REFERENCEMENT
SUR INTERNET
Mots-clés :
Visibilité sur Internet, référencement, positionnement, annuaire,
moteur de recherche, robots, soumission manuelle.
Tutrice Enseignante :
Mme Carine SOUVEYET - Maître de Conférences à l'Université
Paris 1 – Panthéon – Sorbonne.
Maître d'apprentissage :
M. Jean-François MIGNÉ - Responsable du pôle Etudes et
Développement de la DSI du GIE AXA.
« Accord pour diffusion universitaire »
Sommaire
Remerciements .................................................................................................... 3
Préface ............................................................................................................... 4
I.
Introduction au référencement web ou la nécessité d'un bon référencement .......... 4
A.
B.
C.
D.
II.
Classification des outils de recherche................................................................................. 5
Guerre des outils de recherche et futures évolutions du marché ........................................ 11
Différence entre référencement, indexation, positionnement et visibilité. ............................ 13
Différents points de vue du référencement ...................................................................... 14
L'état de l'art du référencement .................................................................... 16
A.
B.
C.
D.
E.
F.
G.
H.
I.
J.
Les éternelles (?) balises META ....................................................................................... 16
Les autres balises .......................................................................................................... 21
Gestion des différents contenus ...................................................................................... 27
L'URL ReWriting ............................................................................................................ 28
Les fichiers robots.txt..................................................................................................... 30
Plan du site................................................................................................................... 31
Redirections .................................................................................................................. 33
Référencer un site multilingue ........................................................................................ 35
Soumission manuelle dans les annuaires.......................................................................... 36
Dernières astuces. ......................................................................................................... 38
III.
Pratiques condamnables .............................................................................. 39
A.
B.
C.
D.
Les pages satellites........................................................................................................ 39
Spamdexing .................................................................................................................. 42
Cloaking ....................................................................................................................... 42
Google Bombing ............................................................................................................ 43
IV.
A.
B.
C.
D.
V.
Les solutions payantes................................................................................. 45
Soumission payante ....................................................................................................... 45
Référencement payant ................................................................................................... 45
Positionnement payant................................................................................................... 45
Référencement par des prestataires ................................................................................ 46
Exemple de référencement........................................................................... 47
Cas du "Mangeur de cigogne".................................................................................................. 47
VI.
A.
B.
C.
IMS-Entreprendre pour la Cité ...................................................................... 49
Présentation.................................................................................................................. 49
Le site .......................................................................................................................... 49
Application .................................................................................................................... 52
VII. Conclusion ................................................................................................. 60
Annexe 1 .......................................................................................................... 62
Annexe 2 .......................................................................................................... 63
2/64
Remerciements
Mes remerciements vont tout d’abord à Jean-François MIGNE, mon maître
d’apprentissage. Je le remercie de m'avoir laissé effectuer mes recherches et rédiger ce
rapport en parfaite autonomie.
Je lui suis extrêmement reconnaissant pour le temps qu'il a su consacrer à la
relecture de ce mémoire et pour les conseils toujours justifiés qu'il aura pu me donner.
Je tenais également à remercier toutes les personnes de l'IMS-Entreprendre pour
la Cité avec qui j'ai eu l'occasion de travailler au cours de la rédaction de ce mémoire.
Ces personnes m'ont fait confiance en me laissant mettre en application les techniques
de référencement sur leur site Internet. Sans leur aide, je n'aurais certainement pas pu
avoir l'approche pratique du référencement que j'ai aujourd'hui.
Merci à Carine SOUVEYET, ma tutrice enseignante, pour m'avoir accordé de son
temps et apporté une aide précieuse lors de la rédaction de ce présent mémoire.
Enfin, merci également à M. DUBUC, directeur du CFA AFIA, pour son suivi
continu durant mes deux années d'apprentissage ainsi que pour les efforts qu'il fournit
pour nous assurer le bon déroulement de notre formation à l'université comme en
entreprise.
3/64
Préface
Etudiant en dernière année d'IUP MIAGE effectué en apprentissage à la fois à
Paris 1 – Panthéon – Sorbonne et au sein de la DSI du GIE AXA, j'ai choisi, pour mon
mémoire de fin d'études, de traiter la question du référencement sur Internet.
En effet, voilà 3 ans que je touche de près ou de loin au développement de sites web
dynamiques pour différentes sociétés or je n'avais jamais eu l'occasion de réfléchir à la
future visibilité sur Internet des sites que je développais.
Pour illustrer ce mémoire par des exemples concrets, j'ai eu la chance de pouvoir
expérimenter ce que j'ai appris au fur et à mesure de mes recherches sur le site web de
l'IMS-Entreprendre pour la cité1. Dans le cadre de mes années d'apprentissage au sein
d'AXA, j'ai eu à faire évoluer le site de cette association de mécénat de solidarité. Il m'a
également été demandé de m'occuper de référencer ce site auprès des principaux outils
de recherche. C'est de là qu'est née l'idée d'utiliser ce thème comme sujet pour mon
mémoire de fin d'année.
I.
Introduction au référencement web ou la
nécessité d'un bon référencement
Cela fait plus de 15 ans qu'Internet existe. D'abord peu utilisé, réservé aux initiés
Américains, il s'est ensuite doucement développé pour enfin véritablement arriver en
France dans les années 1996-1997.
Cependant, on peut dire que les années 2000 ont réellement contribué à la
démocratisation du web en France.
Au cours des quatre dernières années, et principalement parce que des technologies haut
débit sont arrivées sur le marché, le nombre d'internautes français est passé de 10
millions à plus de 24 millions.
La France a aujourd'hui pratiquement comblé son retard en matière de nouvelles
technologies. Elle se situe ainsi dans la moyenne des pays développés.
Il va sans dire que si le nombre d'Internautes a explosé de la sorte, le nombre de
pages et de services sur Internet a fait de même.
En 2005, le nombre mondial d'internautes devrait dépasser un milliard. Et ce nombre ne
va cesser d'augmenter avec l'arrivée des nouveaux pays développés.
Aujourd'hui, la question n'est plus de savoir où l'on va trouver l'information qui
nous intéresse mais plutôt comment est ce qu'on va pouvoir trouver une information
pertinente parmi la multitude des pages qui nous sont proposées.
Partant de ce principe, les différents annuaires et moteurs de recherche ont
développé leurs méthodes pour indexer et référencer le contenu des sites internet.
Il y a encore quelques années, seules les grandes entreprises possédaient leur site
web. Celles-ci n'avaient pas besoin de se pencher sur la question du référencement
puisque les moteurs de recherche et autres annuaires n'étaient que très peu nombreux.
1
Accès au site : http://www.imsentreprendre.com (ou via un moteur de recherche !)
4/64
A cette époque, la grande majorité des connexions sur un site quelconque se faisait par
accès direct (en connaissant l'URLi) ou par liens externes (en suivant des liens
hypertexte).
Aujourd'hui, c'est différent. La majorité des entreprises, petites ou grandes possèdent un
site web.
Si elles ont compris qu'un bon site pouvait étendre considérablement leur zone
d'influence et leurs parts de marché, elles savent aussi qu'il est impératif que leur site
puisse être visible sur la toile.
Des études comparatives montrent que le référencement reste une méthode
moins onéreuse que les méthodes de marketing traditionnelles.ii
A l'heure actuelle, en France, les différents moyens d'accéder à un site sont les suivants :
33%
Moteurs de recherche / annuaires
30%
37%
Liens
Accès direct (liens et favoris)
L'accès par les outils de recherche n'est donc évidemment pas à négliger.
Le principal problème pour ces outils est le nombre monumental de pages à
indexer. Par exemple, Google recense à l'heure actuelle environ 8 milliards de pages au
contenu statique (.html, .doc, .pdf, .ppt, image etc). Or les ordinateurs (serveurs) qu'il
utilise pour l'instant ne lui permettent pas, a priori, d'indexer beaucoup plus de pages
que cela.
En effet, le risque est qu'en voulant indexer encore plus de pages dans sa base de
données, Google soit obligé de gérer des index de 40 bits. Dans ce cas, les temps de
calculs et d'accès aux différents documents seraient beaucoup trop longs.
Google, comme les autres, travaille sur la possibilité de gérer des bases de
données gigantesques avec des machines toujours plus puissantes (serveur 64 bits) iii. En
attendant, il n'est pas rare de voir des pages, jusque là indexées, remplacées par de
nouvelles au contenu plus pertinent. Cela est d'autant plus vrai pour les annuaires qui,
en général, disposent d'un index plus petit et ont des critères de sélection beaucoup plus
stricts.
Ainsi, le classement dans les outils de recherche n'est pas définitif est doit être suivi en
permanence.
A. Classification des outils de recherche
Nous utilisons quotidiennement les outils de recherche qui sont à notre disposition
sur Internet. Cette étape est devenue quasiment obligatoire lorsque l'on recherche des
informations sur le net. Il faut savoir que "plus de 80% des internautes utilisent les outils
de recherche pour trouver le site d'une enseigne qu'ils connaissent"iv. Il est évident que
"la recherche sur les moteurs de recherche est devenu un réflexe pour plus de 90% des
utilisateurs réguliers d'Internet"v.
Nous utilisons donc couramment les outils de recherche mais combien d'entre nous
savent qu'il existe deux principaux types d'outils ?
5/64
Il s'agit des annuaires et des moteurs de recherche. Ils se différencient
principalement par le fait qu'ils n'utilisent pas la même méthode pour indexer leurs
pages.
Cette distinction essentielle n'est pourtant pas celle qui saute aux yeux de l'utilisateur
lambda. Pour lui, la différence s'arrête certainement au mode de recherche et à
l'agencement des résultats.
Plus pratiquement, si on voulait assimiler Internet à un grand un livre, "les
annuaires (ou guides) thématiques en seraient la table des matières, bien partielle, et les
moteurs de recherche un moyen de chercher l'information mot par mot, mais sans bien
savoir le contenu du livre".vi
1. Les annuaires
Les annuaires (ou répertoire) indexent les sites web grâce au travail de
personnes physiques. Ils classent les sites par catégorie et sous catégorie de la plus
générale à la plus spécifique. Les recherches se font donc sur ces catégories et les
résultats sont présentés par ordre alphabétique.
Un webmestre souhaitant enregistrer son site doit le faire au moyen d'un
formulaire électronique généralement accessible depuis la page d'accueil de l'annuaire. Il
renseigne alors ce formulaire avec la description de son site, son adresse, son titre, sa
catégorie et la sous catégorie. Après validation du formulaire, sa demande sera traitée
par une personne physique qui ira regarder le site. Suivant une notation par rapport à
des critères propres à chaque annuaire, cette personne (nommée "netsurfeur") décidera
ou non d'inclure le site dans la base de données de l'annuaire.
Les éléments requis lors d'une demande d'inscription sont très importants car la
recherche au moyen d'un mot-clé est basée sur ces éléments (adresse Web, titre,
description) et non sur le contenu des pages du site en question.
Les avantages
Les inconvénients
Lors
d'une
recherche,
on
obtient
rapidement
une
sélection
de
sites
correspondant à une catégorie précise
Les sites répertoriés doivent être inscrits
manuellement1
Qualité des sites répertoriés
La mise à jour de la base de données est
plus longue que pour un moteur de
recherche
Comme le contenu des sites a été examiné
par des personnes, il y a moins de risques
d'obtenir des résultats erronés
Le classement des résultats se fait par
ordre alphabétique et non par pertinence
Les critères d'acceptation sont souvent
sévères
L'annuaire le plus connu reste sans doute Yahoo!. Il fut le pionnier et, en 1994,
recevait déjà plus de 10 000 visiteurs par jour. Aujourd'hui, c'est plus de 200 millions de
visiteurs par mois.vii Pourtant il reste derrière le moteur de recherche Google. Il est vrai
qu'historiquement, les annuaires sont arrivés avant les moteurs de recherche puisque la
technologie ne permettait pas d'indexer automatiquement les pages. Pour contrer cette
attaque, Yahoo! dispose depuis 2004 d'un moteur de recherche en plus de son annuaire.
1
Soumission manuelle via les formulaires spécifiques à chaque annuaire.
6/64
L'Open Directory Project
"L'Open Directory Project (ou ODP) est le plus grand et le plus complet des
répertoires du Web édités par des êtres humains. Il est développé et maintenu par une
vaste communauté mondiale d'éditeurs bénévoles. […] L'Open Directory a été fondé dans
l'esprit du mouvement Open Source et est le seul répertoire d'importance majeure à être
totalement gratuit."viii
Enfin, pour conclure sur cette partie réservée aux annuaires, l'essentiel à retenir
est que le classement se fait de manière arborescente, suivant des thèmes et des
rubriques et que la classification manuelle permet une approche qualitative.
2. Moteur de recherche
Pour simplifier, on peut voir un moteur de recherche comme une immense base
de données qui recenserait les principaux sujets de chaque page présente sur le web.
Le moteur de recherche propose, contrairement à l'annuaire, une recherche par
mot-clé.
Il est bien évident que lorsque vous faites une requête sur un moteur de
recherche celui-ci ne va pas parcourir "l'ensemble" du web pour vous fournir une réponse
pertinente.
Il se contente d'aller regarder dans sa base de données ce qui correspond le mieux à
votre requête. Cette base de donnée est mise à jour régulièrement afin de référencer les
nouveaux sites qui apparaissent quotidiennement sur la toile.
Cette mise à jour est possible grâce à des "robots"1 qui parcourent en permanence et de
manière automatique l'ensemble des serveurs web.
Lors d'une requête sous forme de mots-clés sur un moteur de recherche, celui-ci consulte
son index pour fournir l'ensemble des résultats. Ces réponses sont triées par ordre
de pertinence suivant un algorithme propre à chaque moteur de recherche.
A titre de comparaison, un moteur de recherche renvoie une liste de pages web alors
qu'un annuaire retourne une liste de sites.
Les avantages
Les inconvénients
Les recherches donnent plus de résultats
car la base de données d'un moteur de
recherche est beaucoup plus importante
que celle d'un annuaire
Les recherches peuvent générer
masse importante de résultats
La base de données est mise à jour plus
fréquemment
Comme le contenu des sites n'est pas
examiné par des humains, la qualité des
résultats peut être moindre
une
Le classement des résultats de recherche
est effectué par pertinence et non par ordre
alphabétique
Je pense qu'il n'est plus nécessaire de vous présenter Google et son index de plus
de huit milliards de pages.
1
"Robots" ou "araignées" ou encore "crawler"
7/64
En revanche, je vais revenir sur certains points particuliers de Google car il fait office de
référence en matière de moteur de recherche. De plus, et bien que nous verrons plus
tard que cela peut changer, beaucoup de gens considèrent qu'un bon référencement
dans Google constitue un référencement suffisant…
a. Les robots – L'exemple du GoogleBot1
Nous avons vu que la mise à jour des bases de données de Google était effectuées
grâce à des robots.
Comprendre comment ils fonctionnent, c'est-à-dire savoir ce qu'ils recherchent
réellement sur nos pages, nous permettra, je pense, de minimiser les risques de passer à
côté d'un bon référencement.
Nous savons qu'ils explorent le web de pages en pages à la recherche
d'informations pertinentes qu'ils enregistreront dans leur gigantesque base de données.
Etant donnée la taille colossale de leur travail, il faut bien comprendre qu'ils ne passent
pas tous les jours sur votre site web. Partez du principe qu'ils passeront 2 à 3 fois par
mois sur un site déjà bien référencé. Mais sachez qu'ils peuvent également ne jamais
passer si rien n'est fait pour les "attirer".
On pourrait penser que les robots sont des monstres de technologie capables de
faire énormément de traitements avec une page web… Il n'en est rien. En réalité, ils se
comportent exactement comme un navigateur de base. Ils fonctionnent en mode texte
comme le fait le navigateur Lynx. C'est-à-dire qu'ils ne gèrent pas les images, les
animations Flash, les différentes polices de caractères, leurs tailles. Les frames2, les
pages à accès restreint (protégées par mot de passe) et les scripts (JavaScript, applets
java, pages dynamiques etc.) sont également ignorés contrairement aux formulaires et
cookies qu'ils savent gérer. Cette gestion très spartiate des pages leur permet par contre
d'être très rapides à la parcourir.
Concrètement, lorsque l'on souhaite accélérer le référencement d'un site, la seule
chose que l'on puisse faire est soumettre l'URL aux moteurs de recherche. Pour Google, il
faut se rendre sur la page (http://www.google.fr/addurl/?hl=fr) et remplir le formulaire.
Cette étape est similaire à la soumission manuelle que l'on ferait avec un annuaire à la
différence que le formulaire est plus sommaire. Ceci a pour unique but de mettre l'URL
en queue de liste des URL que le moteur va devoir analyser.
Une fois le robot arrivé sur votre site, il commence par regarder s'il existe un
fichier "robots.txt" puis analyse la page courante avant de suivre les liens qu'il pourra
trouver dessus. C'est pour cette raison qu'un robot peut arriver sur votre page même si
vous ne lui avez pas demandé explicitement. Par contre, cela risque de lui prendre plus
de temps pour trouver votre site.
NB : Si votre serveur est surchargé ou en panne au moment où un robot essaye de s'y
connecter, le robot est normalement configuré pour réessayer un certain nombre de fois
avant de considérer que le site n'existe plus. Cette sécurité sert à éviter de supprimer
des sites de l'index du moteur alors qu'ils ne sont que momentanément indisponibles. Au
pire, les informations dont dispose le robot sur votre site ne seront pas mises à jour
avant son prochain passage.
1
2
GoogleBot : nom du robot d'indexation développé par Google
Frames : Concept inventé par Netscape. Consiste à afficher le résultat de l'assemblage de plusieurs pages
HTML dans une seule fenêtre du navigateur.
8/64
b. Le PageRank
Google a développé un algorithme pour lui permettre de mesurer la popularité et
la pertinence des pages qu'il retourne en réponse à une requête. Cette note s'appelle le
PageRank.
Le principe de PageRank est simple : tout lien pointant de la page A à la page B1
est considéré comme un vote de la page A en faveur de la page B. Toutefois, Google ne
limite pas son évaluation au nombre de « votes » (liens) reçus par la page ; il procède
également à une analyse de la page qui contient le lien. Les liens présents dans des
pages jugées importantes par Google ont plus de « poids », et contribuent ainsi à
« élire » d'autres pages"ix. Le PageRank est donc très intéressant car on peut supposer
qu'un site populaire soit de meilleure qualité (fiabilité des informations disponibles par
exemple) qu'un autre moins consulté.
Notez cependant que cette technique, telle que je viens de vous la présenter, ne
permet absolument pas d'affirmer que les résultats correspondent à votre requête. C'est
pourquoi le PageRank est complété par d'autres critères plus spécifiques aux mots-clés
par exemple. Le PageRank est mis à jour à chaque GoogleDance.
Google fut le premier à perfectionner ses agents de recherche afin que ceux-ci ne
se contentent plus seulement des balises "META" présentes en entête de chaque page.
Cette technique est certainement à l'origine du succès de Google puisque, dès ses
débuts, il a su proposer des résultats pertinents.
c.
La GoogleDance
Pour répondre plus vite aux requêtes, Google a choisi de répartir ses nombreux
serveurs (environs 40 000) en une dizaine de "Data Center" implantés principalement
aux Etats-Unis et en Europe. Ainsi, les requêtes que vous faites sur www.google.fr sont
traitées par un Data Center choisi en fonction de deux critères :
- votre localisation géographique
- la charge du Data Center le plus proche.
Vous comprendrez que cette architecture ne permet pas de maintenir les bases de
données parfaitement synchronisées d'un Data Center à l'autre.
Sachant cela, on comprend pourquoi des requêtes identiques réalisées depuis un même
poste mais à des moments différents peuvent finalement donner des résultats différents.
Avant d'opter pour une indexation continue, Google mettait à jour sa base de
données une fois par mois. Cette mise à jour majeure mettait les Data-Centers dans des
états profondément différents les uns par rapport aux autres. Ainsi, les résultats
pouvaient beaucoup varier suivant le centre que l'on interrogeait. Ce phénomène fut
baptisé GoogleDance. Elle pouvait durer jusqu'à une semaine. Chaque "dance" était
baptisée… comme le sont les cyclones !
Nous venons de voir ce qu'est une GoogleDance, essayons maintenant de
comprendre ce qu'elle apporte aux webmasters.
Google, avant de rendre accessible son nouvel index, le teste sur deux domaines
particuliers accessibles aux adresses suivantes : www2.google.com et www3.google.com.
Ces domaines publics possèdent, en général, une version de l'index plus à jour
que celle utilisée par le site www.google.xxx. Ils permettent aux webmasters d'avoir un
1
On parle alors de BackLink (BL) de A vers B. Google utilise constamment les BL pour classer ses sites. La
commande link: de Google permet de connaître ces BL.
9/64
aperçu de ce que sera leur position lorsque le nouvel index sera passé. En effet, c'est en
fonction de ce qui apparaîtra dans le nouvel index que Google pourra calculer les
nouvelles valeurs des PageRank.
Ainsi, cette période est utile aux référenceurs pour que ceux-ci peaufinent leur
technique. S'ils ratent la GoogleDance, ils n'auront qu'à attendre le prochain passage du
robot.
3. Les hybrides ou outils mixtes
Ils proposent une méthode de recherche soit sous forme d'annuaire, soit sous
forme de mots-clés.
En général, ils ne disposent que d'une taille d'index assez restreinte. Ils sont utilisés pour
effectuer des recherches au sein d'un même site web.
Un cas concret est celui du site http://www.telecharger.com qui propose de rechercher
un logiciel par son nom ou alors de le retrouver à travers les catégories proposées.
L'objectif est de dégrossir les recherches en sélectionnant les thèmes importants
dans l'annuaire et terminer l'analyse par une recherche plus fine par les mots-clés.
Annuaire
Moteur de recherche
4. Les métamoteurs
Les métamoteurs sont des moteurs de recherche qui basent leurs recherches sur
l'interrogation de plusieurs autres moteurs de recherche. Le plus connu est sûrement
Copernic qui fournit un résultat issu de plus de 100 moteurs différents. Si cela était
intéressant à la fin des années 90, ça n'est plus vraiment le cas aujourd'hui. Surtout
10/64
quand on sait que Google retourne à lui tout seul des milliers de pages pour une
recherche…
C'est pourquoi, les métamoteurs ont dû trouver des moyens de se démarquer des
moteurs de recherche. Outre le fait qu'ils n'aient pas de base de données propre !
Pour cela, ils ont dû proposer des fonctions supplémentaires telles que la suppression des
doublons, des liens morts et la possibilité d'ajouter des filtres pour trier les résultats.
N'utilisant pas de base de données propre, ils ne représentent aucun intérêt du point de
vue du référencement.
B.
Guerre des outils de recherche et futures évolutions du marché
En France, on constate que 73% des recherches se font sur Google. L'hégémonie
de Google dure depuis quelques années et ne semble pour l'instant pas remise en cause.
Pourtant, de nouveaux acteurs tentent de s'implanter sur ce créneau très porteur.
1. La bonne guerre de Yahoo! et Google
Nous connaissons depuis le début la guerre qui oppose Google à Yahoo!. Pourtant,
ces deux outils de recherche ne proposent pas tout à fait les mêmes services. En effet,
Google s'est spécialisé dans le moteur de recherche et ne fait que ça, alors que Yahoo!
est un annuaire (et maintenant depuis peu un moteur de recherche) qui propose aussi un
portail contenant une grande source d'informations immédiatement disponibles.
Pour preuve de la guerre de ces deux géants de la recherche sur Internet, il y a
un an de cela, si on tapait trop vite www.yahoo.fr dans son navigateur, on avait de
grandes chances d'arriver sur le site de Google. Google ayant acheté le nom de domaine
www.yahooo.fr afin de faire une redirection1 sur son propre site. Yahoo! avait alors vite
riposté en achetant www.gooogle.com !
Le 9 Août dernier, Yahoo! annonçait que son index recensait désormais 20
milliards de documents. Google Image a immédiatement répliqué en affirmant que son
moteur de recherche dédié aux image n'indexait plus 1.3 mais 2.2 milliards de photos.
2. Un nouvel acteur : MSN Search
Aujourd'hui la guerre continue mais les choses risquent d'évoluer plus rapidement
avec l'arrivée de Microsoft sur le marché. En effet, le géant de Redmond a décidé de se
lancer dans la recherche sur internet. La différence réside dans le fait que Microsoft
possède des fonds énormes qu'il semble prêt à investir pour s'implanter rapidement sur
ce marché.
Notez que "le chiffre d'affaires annuel de Google ou de Yahoo! ne représente "que" deux
mois de résultat de Microsoft". Ainsi, "ce que Google a mis quatre ans à construire,
Microsoft peut l'obtenir en quelques mois."x
L'avenir nous dira lequel des grands du référencement gagnera mais en attentant, en
France, Google semble particulièrement bien tirer son épingle du jeu.
1
Une redirection est une action, transparente pour l'utilisateur, qui permet de le réacheminer d'une page vers
une autre en changeant automatiquement son URL.
11/64
12%
76%
5%
(Source : http://www.barometre-referencement.com/question_du_mois.htm)
3. La guerre du nombre de pages indexées
Comme je vous l'ai dit, Google se vente d'indexer le plus grand nombre de pages.
Le 3 mars dernier on pouvait trouver sur la page www.google.fr :
Il semblerait pourtant que son index ne fasse pas vraiment la taille indiquée… Il s'agirait
plutôt d'une estimation par interpolation. D'ailleurs, Google a annoncé qu'il avait doublé
la taille de son index (passant ainsi de 4 à 8 milliards de pages) le jour où Microsoft
lançait la version d'essai de MSN Search qui, elle, est sensée indexer 5 milliards de
pages. Bizarre donc…
Si on en croit l'étude "Comptes bidons chez Google ?"xi, on remarque ainsi
quelques incohérences traduisant clairement que Google et les autres se livrent une
guerre acharnée.
A titre d'exemple, le mot anglais "the" permet de faire une recherche sur la
quasi-totalité des pages anglaises. Voici le résultat, dans toutes les langues, de la
recherche sur Google.
Tout juste 8 milliards de résultats… Bref, ce qui est étonnant c'est qu'en ne cherchant
que sur les pages anglaises, on obtient le résultat suivant :
Soit à peu près 1% du résultat précédant ! Sous-entendant par la même occasion que
"the" se trouve dans 99% des cas dans des pages non anglaises…
Pourtant, on ne peut pas dire qu'un moteur qui indexe plus de pages qu'un autre
soit de meilleure qualité qu'un autre.
12/64
En général, nous autres internautes sommes plutôt perdus devant le nombre de
résultats que peut nous renvoyer une recherche.
Le problème est généralement que l'on obtient trop de réponses plutôt que pas
assez ! L'internaute ne s'en rend même pas compte. Il s'en fiche même de savoir que sa
requête sur MSN Search lui retourne 653 125 réponses alors que la même interrogation
de Google lui en retourne le double.
Les statistiques montrent que "91% des internautes changent de requête s'ils sont
insatisfaits des quarante premiers résultats". En allant plus loin, on montre que "les 10
premiers résultats reçoivent 78% de trafic supplémentaire par rapport à ceux qui sont
listés de la onzième à la trentième position."xii
C'est justement en sachant ceci que l'on comprend l'intérêt d'un bon
référencement et plus particulièrement celui d'un bon positionnement. Nous allons tout
de suite définir ces deux termes.
C. Différence entre référencement, indexation, positionnement et visibilité.
Au cours de ce rapport, je vais fréquemment utiliser les quatre termes ci-dessus.
Il est essentiel de bien comprendre la différence entre ces expressions.
Le référencement, dans son acceptation large, peut être défini comme
l'ensemble des actions permettant à un site d'être présent dans les bases de données des
outils de recherche. L'action visant à être répertorié est « l'indexation »xiii
Il y a encore quelques années, l'objectif était uniquement de se faire référencer
par les moteurs de recherche.
On constate qu'aujourd'hui le but reste bien évidemment d'être référencé par le plus de
moteurs de recherches/annuaires possibles mais l'accent est surtout mis sur le
positionnement.
Le positionnement prend appui sur les fondements du référencement. Mais le
terme de positionnement sous entend que l'on évalue le référencement par rapport à
quelque chose. Dans le cas du site web d'une entreprise, on peut comparer sa position
par rapport à celle de ses concurrents. On pourra ainsi estimer le rang auquel apparaîtra
un site dans la liste des résultats retournés par un outil de recherche à la suite d'une
requête précise.
Nous avons déjà vu "que plus de 70% des internautes ne consultent que les deux
premières pages de résultats"xiv. Même au sein de la première page, la compétition est
rude. En effet, "le premier site qui apparaît lors d'une requête reçoit trois fois plus de
clics que le cinquième"xv.
La nécessité d'être bien positionné n'est donc plus à démontrer.
Pour finir, la visibilité d'un site fait plus référence à la stratégie qui sera mise en
place pour cibler le marché et les clients que l'on veut atteindre. L'objectif de la visibilité
étant de se faire connaître des clients et de se distinguer des concurrents.
13/64
D. Différents points de vue du référencement
Avant d'étudier en détail les différentes techniques de référencement, je pense
qu'il est important de bien mettre l'accent sur un point essentiel du référencement.
Ce point concerne la divergence qui réside entre l'objectif des outils de recherche
et celui des webmasters.
En effet, il faut bien comprendre que le but d'un webmaster soucieux de son
référencement est de faire apparaître son site en tête des résultats des moteurs de
recherche (c'est-à-dire être bien positionné).
Par contre, l'objectif des moteurs de recherche et des annuaires est, quant à lui, de
retourner le maximum de résultats pertinents par rapport à une requête faite par un
internaute.
Cette divergence de points de vue entre les deux principaux acteurs du
référencement explique pourquoi les techniques de référencement ont tellement évolué
au cours des dernières années.
Vous l'aurez compris, les webmasters étudient les moteurs de recherche afin de
comprendre comment ils fonctionnent. Grâce à ces informations, ils sont capables de
trouver les failles leur permettant d'atteindre le haut des classements. De leur côté, les
moteurs de recherche sont obligés de réagir rapidement afin de condamner les abus des
référenceurs et ainsi toujours garantir des résultats cohérents.
Ainsi, on peut classer les techniques1 suivant leurs évolutions :
Action des moteurs de recherche
Les balises méta du langage HTML
ont été inventées dans le but de
permettre le référencement des
pages. Les premiers robots ne
prenaient alors en compte QUE ces
balises
Les moteurs ont du riposter en
prenant de moins en moins en
compte ces balises. Ils se sont alors
focalisés sur d'autres balises : title,
Hx, b et alt
La technologie ayant suffisamment
évolué, les robots ont alors étés
capables de rechercher eux-mêmes
les mots pertinents dans le contenu
textuel des pages. Le webmaster ne
devait alors plus pouvoir tromper les
robots
Pour
éviter
d'indexer
de
trop
nombreuses pages satellites, les
moteurs tentent de les repérer et de
les bannir de leurs index
1
sens
Æ
Æ
Æ
Æ
Riposte des webmasters
Du coup, les webmasters en ont profité
pour abuser de ces balises… Ils ont créé
le spamdexing et le "bourrage de
mots-clés"
De la même manière, on a vu
apparaître des pages contenant de
nombreuses répétitions de mots-clés
dans ces balises
Les webmasters ont alors choisi de
créer de nombreuses pages au contenu
optimisé pour les moteurs de recherche.
En couplant ces pages avec une
redirection, ils on inventés les pages
satellites… Pages qui furent rapidement
condamnées par les moteurs de
recherche
Pour limiter le risque de se faire exclure
des moteurs de recherche par une
utilisation abusive des pages satellites,
les webmasters ont développé une
Ce tableau donne le nom et les grandes lignes de quelques techniques. Elles seront explicitées par la suite.
14/64
Pour réduire le risque de cloaking,
certains moteurs changent le nom de
leurs robots
Il semble que les moteurs n'aient pas
encore vraiment réagi à ce sujet. Cela
vient sûrement du fait qu'un bombing
n'est pas facile à mettre en œuvre
puisqu'il
doit
être
réalisé
simultanément par plusieurs milliers
de webmasters.
Æ
nouvelle technique. Celle dite du
cloaking qui permet de présenter un
contenu différent d'une même page
suivant que c'est un internaute qui la
visionne ou un robot qui la parcourt.
Les webmasters ont amélioré leurs
scripts de cloaking pour identifier les
robots en fonction de leur adresse IP et
non plus seulement à partir de leur nom
Une des dernières techniques utilisée
par les webmasters est le bombing.
Å
Ce cycle d'évolution peut se résumer de la manière suivante :
15/64
II. L'état de l'art du référencement
A. Les éternelles (?) balises META
1. Présentation
Historiquement, les premiers moyens mis en œuvre pour référencer un site
étaient simples et efficaces. La raison que l'on a déjà vue est que le nombre de page sur
Internet était bien moindre.
Technologiquement moins performants, les premier "spiders" étaient lents.
Couplés à des bases de données limitées, ils ne pouvaient pas stocker beaucoup
d'information pour chaque site.
Ainsi, pour préparer le travail des robots, les webmasters avaient la possibilité de
leur fournir directement les informations pertinentes en utilisant des balises HTML créer
spécifiquement pour cela. Ces balises META étaient à placer entre les balises HEAD d'un
document HTML.
Invisibles des internautes (à moins bien sûr d'afficher le code source de la page),
elles renseignent sur le nom de l'auteur de la page, sa langue et son contenu (résumé et
les mots-clés).
Cette technique a longuement été le meilleur (voire le seul) moyen de référencer
son site. Quant au positionnement, il se faisait alors en comptant le nombre de mots-clés
identiques entre la recherche et les pages trouvées.
2. Liste exhaustive
Voici une liste quasiment complète des principales balises META avec leur
fonction. Cette liste est classée par ordre d'importance croissante.
Beaucoup de ces balises ne sont plus prises en considération par les robots des moteurs
de recherche pour des raisons que nous verrons par la suite.
Toujours est-il qu'elles sont très simples à mettre en œuvre et qu'il serait
dommage de s'en priver. D'autant plus qu'elles ne peuvent en aucun cas nuire au
référencement tant que l'on ne s'en sert pas pour tromper les robots…
Balises
Fonction / Utilisation
<META NAME="geographie"
CONTENT="Paris, France, 75000">
Localise géographiquement la société détenant le
site. Elle peut servir pour les nouvelles fonctions
des moteurs de recherche qui proposent
maintenant en priorité des réponses "proches" de
l'internaute.
<META NAME="Publisher"
CONTENT="Prénom NOM">
Donne un moyen de faire apparaître le nom de la
société dans le code source de la page. Si l'on
utilise un outil (tel que Deamweaver) pour
générer la page, celui-ci renseigne
automatiquement la balise avec son nom.
16/64
<META NAME="Reply-to"
CONTENT="[email protected](Pierre
Etienne MOUHOT)">
Spécifie une adresse de réponse pour les
utilisateurs avertis qui consulteront le code
source de la page.
Permet également de faire apparaître l'adresse
email dans le code source de la page et donc
augmente les chances d'indexation par les
robots.
Par contre, cette adresse sera aussi repérée par
les robots qui parcourent le web à la recherche
d'adresses mails à spammer…
<META NAME="Copyright"
CONTENT="2001 IMS">
Balise spécifique aux Copyright où l'on peut
encore mettre le nom de l'entreprise.
<META NAME="Subject"
CONTENT="Le référencement des
sites sur internet ">
Permet de définir le thème principal de la page.
<META NAME="Category"
CONTENT="Association">
Permet à un annuaire de savoir dans quelle
rubrique il va pouvoir classer le site. Il est
possible de mettre plusieurs catégories. Elles
doivent être écrites en anglais.
<META HTTP-EQUIV="Pragma"
CONTENT="no-cache">
Spécifie au navigateur qu'il doit recharger toute
la page avant de l'afficher, et ceci même s'il l'a
déjà en cache.
<META NAME="Identifier-URL"
CONTENT="http://www.imsentreprendre.com">
Cette balise permet simplement de faire
apparaître l'URL de la page principale du site
dans le code source de la page
<META NAME="Date-Creationyyyymmdd" content="20041201">
Spécifie la date de création de la page en cours.
<META NAME="Date-Revisionyyyymmdd" content="20050303">
Spécifie la date de dernière modification de la
page en cours.
<META NAME="Revisit-After"
CONTENT="15 days">
Spécifie avec quelle fréquence le robot peut
revenir visiter la page.
<META HTTP-EQUIV="Expires"
CONTENT="Wed, 05 June 2005
12:00:00 GMT">
Donne une indication au robot sur la date jusqu'à
laquelle il doit garder la page en cache.
De même le navigateur n'utilisera pas la page
qu'il pourrait avoir en cache au delà de cette
date.
Cette balise sert essentiellement pour des pages
dont le contenu est souvent mis à jour.
17/64
<META HTTP-EQUIV="refresh"
CONTENT="60;
URL=http://www.humagora.com">
Cette balise redirige automatiquement
l'internaute vers la page spécifiée.
Elle peut être utile en matière de référencement
lors d'un changement d'url. Elle permet ainsi aux
robots de trouver la nouvelle URL du site.
<META NAME="Author"
CONTENT="IMS" lang="fr">
Permet d'indiquer le nom de l'auteur du site ou
de la société. Elle permet d'ajouter une fois de
plus ce nom en question dans le code source de
la page.
<META NAME="Description"
content="phrase de description">
<META NAME="Keywords"
content="mot1, exp2, …">
Cette balise, dont la taille ne doit pas excéder
200 caractères, est (était...) utilisée par les
moteurs de recherche pour afficher un résumé
(snippetsxvi) de la page à l'utilisateur.
Aujourd'hui, bien des moteurs de recherche
génèrent dynamiquement un résumé de la page
contenant les mots-clés de la recherche. Dans ce
cas, le contenu de la balise n'est plus affiché à
l'internaute.
Comme son nom l'indique, cette balise pouvant
contenir jusqu'à 1000 caractères, permet de
lister les mots-clés en rapport avec la page.
Les mots-clés représentent des termes qui se
rapportent directement au sujet de votre page. Il
est important de mettre plusieurs synonymes
(voire même des antonymes) d'un mot-clé
important pour éviter toute ambiguïté. Vos motsclés peuvent également comporter des fautes
d'orthographe volontaires afin de ressortir
comme résultat suite à une recherche
comportant des erreurs de frappe.
Quasiment tous les moteurs de recherche et 65%
des sites utilisent encore cette balise.
1
Le résultat de cette enquête
représente le pourcentage de pages
retournées par un moteur de
recherche et ayant au moins un
mot-clé figurant dans la requête.
Comme quoi, les keywords gardent
une relative importance.
Pour éviter les problèmes de "casse"
(différenciation des lettres minuscules et
majuscules) il est conseillé de mettre tous les
mots-clés en minuscules.
Contrairement à ce que l'on peut penser, répéter
les mots-clés ou en mettre trop peut avoir l'effet
inverse à l'effet souhaité.
Les spiders comprendront alors cette balise
comme une méthode frauduleuse pour
augmenter le positionnement et préféreront ne
pas indexer la page2.
1 L'étude date d'Octobre 2004. Sa version complète est disponible à l'adresse suivante : http://www.revuereferencement.com/ETUDES/0410-referencement-title-h1.htm
2
Le keywords stuffing ou bourrage de mots-clés en français, est banni par les moteurs de recherche
18/64
En revanche, dans le cas de site multi-langues, il
est conseillé de rajouter l'attribut1 lang="" pour
spécifier la langue dans laquelle sont les
mots-clés qui suivent.
On aura ainsi, dans le cas d'un site bilingue,
ceci :
<META name="keywords" lang="en"
content="mots-clés en anglais">
<META name="keywords" lang="fr"
content="mots-clés en français">
<META NAME="Robots"
content="noindex">
<META NAME="Robots"
CONTENT="index, follow">
Cette balise spécifie au robot s'il peut indexer ou
non votre page. En général, elle sert plutôt à
exclure des pages du référencement. Elle sera
donc utile dans le cas d'une page en cours de
réalisation et qui ne doit pas être accessible.
Idem pour une page destinée à un usage
personnel (page de statistiques par exemple).
L'attribut content peut prendre les valeurs
suivantes :
- ALL (défaut) : Indique qu'il faut indexer la
page et suivre les liens hypertextes.
- NONE : Ne pas indexer la page et de ne pas
suivre les liens.
- INDEX : La page peut être indexée par les
robots.
- NOINDEX : Pas d'indexation de la page par les
robots.
- FOLLOW : Donne la permission de suivre les
liens hypertextes.
- NOFOLLOW : Indique qu'il ne faut pas suivre
les liens de la page.
- NOIMAGEINDEX - Pas d'indexation des
images, seulement le texte le sera
- NOIMAGECLICK : Pas d'indexation des liens
des images.
1
Un attribut est une instruction contenue à l'intérieur d'une balise et dont le but est de fournir une information
supplémentaire sur la manière dont cette balise doit être interprétée.
19/64
<META NAME="Robots"
CONTENT="noarchive">
"noarchive" indique aux robots qu'ils ne doivent
pas mettre en cache la page en cours. Par
contre, ils peuvent l'indexer et suivre les liens.
Beaucoup de moteurs de recherche mettent les
pages en cache. Cela permet à l'Internaute de
tout de même pouvoir consulter la page même si
elle a été supprimée ou est momentanément
inaccessible.
Le webmaster pourra lui connaître la date du
dernier passage du robot sur sa page.
Sachez cependant que les moteurs de recherche
mettent un long moment (entre 1 et 6 mois,
dépend du PageRank) avant d'actualiser leur
cache. Ainsi, pour un site ayant un contenu
souvent actualisé (site d'informations par
exemple) il est nécessaire de mettre cette balise.
De même pour un site dont le contenu serait
payant. Sinon, il suffirait d'attendre que Google
l'indexe pour ensuite consulter la page en cache !
3. Limites de ces balises
Si ces balises ont eu leurs heures de gloire lors des débuts du référencement,
elles n'ont plus aujourd'hui qu'une influence très limitée.
Les différentes raisons qui confirment la mort de balises META :
L'évolution technologique qu'a connue le secteur de l'informatique ces dernières
années a bien évidemment profité aux moteurs de recherche.
Les personnes en charge du développement des robots ont alors décidé de baser
leurs indexations sur des mots-clés générés automatiquement. C'est-à-dire que les
informations collectées ne devaient plus uniquement être celles que le webmaster voulait
bien mettre à la disposition des robots via les balises META.
Ce que je veux dire c'est que des serveurs de plus grosse capacité, couplés à des
sipders plus rapides leur permettent d'analyser les pages plus en profondeur. Les
analyses se basent maintenant directement sur le contenu textuel de la page.
Cette nouvelle orientation de la part des moteurs de recherche cherche
uniquement à obtenir des résultats probants. Il faut savoir que de nombreux webmasters
peu scrupuleux avaient trouvé comment générer facilement du trafic sur leurs pages.
Leur but n'était alors pas d'offrir une information de qualité aux internautes de tous
horizons mais de gagner de l'argent grâce aux publicités présentes sur leurs pages.
L'idée était simple et efficace : il leur suffisait d'utiliser comme mots-clés de leurs
pages, la liste la plus exhaustive possible des mots ou expression les plus recherchés
dans les moteurs. Ainsi, la majorité des recherches faites retournait leur site comme
résultat.
Pour illustrer ce phénomène, on peut rappeler qu'en 1998, de nombreux sites Internet
personnels avaient comme mots-clés : Bill Clinton et Monica Lewinsky…
20/64
Aujourd'hui bien connues, ces techniques sont cataloguées comme étant du
spamdexing. Ce barbarisme anglophone se définit comme étant l'ensemble des méthodes
abusives de référencement qui consistent à tromper l'internaute (à travers les moteurs
de recherche) sur le contenu réel de la page.
La compétition qui existe entre les moteurs de recherche les a contraints à passer
d'un objectif quantitatif à un objectif qualitatif.
Pourtant, lorsque l'on compare le nombre de résultats intéressants et le nombre total de
résultats retournés par les moteurs de recherche, on peut se demander s'ils y sont
parvenus.
Toujours est-il que les moteurs actuels ont pris des mesures pour limiter, voire
condamner, le spamdexing. En général, la mesure la plus radicale est de ne pas
référencer les pages concernées. Cela revient à inscrire le site sur une "BlackList". Une
fois sur cette liste noire, le seul moyen pour le webmaster de voir son site ré-indexé par
le moteur est de contacter directement le service concerné de l'outil de recherche dans le
but de lui présenter un site modifié qui réponde à ses critères de sélection.
B. Les autres balises
Les concepteurs de spiders ont dû trouver d'autres moyens de repérer les
informations importantes dans les pages web.
On sait maintenant que d'autres balises présentent plus d'intérêt du point du vue
du référencement que celles qui initialement créées pour cela !
1. Le titre
GoogleBot, par exemple, donne une place très importante au titre des pages.
La balise <TITLE> renseigne en général sur le contenu global de la page.
Une étude datant d'octobre 2004xvii montre à quel point la balise titre est
importante pour les principaux moteurs de recherche. Le graphe ci-dessous montre la
proportion des mots-clés que l'on retrouve, dans la balise <TITLE> des pages
retournées, en réponse à 100 questions posées.
21/64
2. Les paragraphes
De la même manière, on sait que la balise <H1> qui représente les titres des
paragraphes, a également une grande importance.
Malheureusement, comme pour les balises META, il y eu beaucoup d'abus de type
spamdexing. Les moteurs de recherche n'accordent aujourd'hui plus autant d'importance
à ce type de balise (H1 et ses dérivés H2, H3, …) qu'ils n'en ont accordé par le passé.
Si la balise TITLE sert toujours, c'est parce que la taille du texte est limitée. En
revanche, il est possible de mettre autant de commentaire que l'on veut entre une balise
H1 ouvrante et une balise H1 fermante…
Sur cet exemple trivial, on comprend qu'en écrivant une grande quantité de
mots-clés de la même couleur de texte que le fond d'écran, on peut garder une
présentation agréable pour l'Internaute tout en fournissant une grande quantité
d'informations aux robots. Cependant, faites attention aux moteurs de recherche qui
traquent ces abus en comparant systématiquement la couleur de la police avec celle du
fond d'écran.
Enfin, depuis la version 4.0 d'HTML (datant de la fin de l'année 1997), ce langage
supporte les feuilles de style CSS1. Celles-ci ont alors connu un fort développement car
elles permettent aisément de changer l'intégralité de la charte graphique d'un site en ne
modifiant qu'un seul fichier. Je rappelle qu'en HTML, il faut modifier le code de toutes les
pages… De ce fait, la mise en forme via les balises <Hx> n'est plus utilisée que dans un
quart des sites web.
Pour cacher du texte à l'utilisateur tout en s'assurant qu'il restera accessible aux
robots puisque présent dans le code source de la page, on peut utiliser la propriété
suivante des feuilles des styles :
.TextInvisible {visibility:hidden}
ou encore :
.TextInvisible {display:none;}
1
Cascading Style Sheets : Langage permettant de compenser les manques de l'HTML en termes de mise en
forme et de présentation.
22/64
Pour combattre ceci, les moteurs de recherche tiennent compte de toutes les
autres balises de mise en forme HTML telles que <B> (gras), <U> (souligné), <I>
(italique) ainsi que de la taille du texte.
A titre d'exemple, Voila est le moteur de recherche qui utilise le plus cette balise
avec un total de 16% de mots-clés trouvés entre des balises H1 sachant qu'ils étaient
dans la requête.
3. Le texte alternatif des images
Nos premiers pas sur Internet étaient, souvenez vous, très lents… A l'époque, la
connexion 56k était un must.
Pourtant, le langage HTML avait été au début développé pour permettre d'offrir
des documents sous forme textuelle à la consultation. Plus tard, et devant l'essor du
web, on a commencé à inclure des images dans nos documents et donc à alourdir
considérablement les pages, rallongeant ainsi le temps de chargement.
Les deux principaux navigateurs qu'étaient Internet Explorer et Netscape avaient
bien compris ce problème et proposaient tous les deux une option qui servait à charger la
page sans télécharger les images. Apparaissait alors à la place, une brève description de
la photo sous forme de texte. Celle-ci était directement renseignée par le développeur
grâce à l'attribut ALT de la balise IMG. Cet attribut a longtemps permis aux spiders
d'indexer les balises images qu'ils ne savaient pas traiter autrement.
Il s'est donc avéré que ces petites descriptions textuelles associées aux images
étaient recherchées et contribuaient fortement l'indexation du site par les moteurs.
Aujourd'hui, ces balises ne sont quasiment plus utilisées par les développeurs
puisque les connexions que nous avons nous permettent généralement d'afficher
rapidement toutes les photos.
Seuls les webmasters soucieux de leur référencement s'en servent encore.
Notez que nous risquons de voir réapparaître cette balise puisqu'elle fait partie
intégrante des dernières recommandations du W3C1 (plus particulièrement de la WAI2).
Dorénavant, une balise IMG devra forcement contenir un attribut ALT pour être conforme
à la norme.
En effet, cette balise permet de traduire les images en texte. Elle est donc
primordiale pour une accessibilité au site des personnes non voyantes ou mal voyantes.
C'est sur cet attribut que se base leur navigateur pour leur décrire / lire la page.
De la même manière, on peut mettre un texte sous forme d'info bulle sur un lien
en utilisant cette fois ci l'attribut TITLE. Par contre, on ne peut pas affirmer que cette
balise soit réellement prise en compte.
1
2
Word Wilde Web Consortium : Organisme international qui développe et fait évoluer les standards du web.
Web Accessibility Initiative : commission du W3C et référence mondiale pour l'accessibilité des sites web aux
personnes handicapées.
23/64
4. Référencement et cadres
Les cadres (ou frames en anglais) furent inventés par la société Netscape. Ils ont
été intégrés dans la version 4.0 d'HTML.
Les frames permettent d'afficher plusieurs pages HTML dans une même fenêtre de
navigateur. Elles ont révolutionné la gestion des menus dans les pages HTML puisqu'elles
ont permis de faire de véritables barres de navigation. Jusque là, la gestion de la
navigation compliquait beaucoup la conception des pages web.
Avec l'arrivée des frames, on a vu beaucoup de pages construites de la manière
suivante :
24/64
La fenêtre principale (dans notre exemple frame.html) est appelée page mère.
Elle n'a normalement que pour but d'appeler les pages filles (menu.html et droite.html)
Aujourd'hui, les frames sont de moins en moins utilisées pour les raisons suivantes :
-
de nouvelles techniques permettent maintenant de créer des menus plus élégants
et plus dynamiques.
Source : http://www.henri-ruch.ch/referencement/referencement_frames/referencement_frames.asp
-
On ne peut pas enregistrer une page en favoris.
L'impression est souvent très mal gérée.
Mais surtout, elles nuisent au référencement
En effet, face à un site dont la fenêtre principale serait constituée de frames, les
moteurs de recherche ont 4 possibilités :
o
Ignorer les pages et ne pas les indexer du tout. Cette solution radicale est bien
sûr la plus problématique.
25/64
o
Indexer toutes les pages du site indépendamment les unes des autres. Cela a
au moins le mérite de permettre de retrouver, au travers d'une recherche, une
page fille. En revanche, le lien qui apparaîtra dans le snippet du moteur
pointera directement sur la page en question. Ainsi, lors de l'affichage, on
perdra l'intégralité de la barre de navigation.
Illustration :
Page d'accueil normale
Exemple de recherche avec Google
Résultat : la page finale est ouverte
indépendamment du cadre parent
o
Référencer la page mère et les pages filles tout en étant capable de rappeler la
frame parent au cas où l'internaute souhaite afficher une page différente de la
Home. Sachez seulement que très peu de moteurs de recherche font ça (voire
aucun…)
o
Indexer uniquement la page mère. Sachant que les robots fonctionnent en
mode texte, ils ne prennent pas en compte les frames. A l'affichage d'une
page avec des frames, ils ne verront que le texte se trouvant entre les balises
<NOFRAMES>. On se rend compte à quel point ces balises peuvent s'avérer
importantes en terme de référencement.
Notez qu'en général, lorsqu'un moteur de recherche dit supporter les frames
(Google affirme le faire "dans la mesure du possible"…) cela veut simplement
dire qu'il est capable de lire (d'indexer) le contenu de la balise <NOFRAMES>.
Sachant que les frames tendent à disparaître, les moteurs de recherche
affirment ne pas faire d'efforts pour développer des robots supportant mieux
ces structures de pages.
26/64
Quant à Yahoo!, je cite : "Le robot Yahoo! suit les liens HREF. Il ne suit pas les
liens SRC, ce qui signifie qu'il ne recherche pas ou ne classe pas les frames qui
sont pointées par des liens SRC."xviii
Pourtant, comme moi, vous serez peut être un jour confronté à ce problème. Dans
ce cas, plutôt que de laisser les moteurs se débrouiller comme ils peuvent/veulent avec
vos frames, sachez que vous pouvez gérer ce problème vous-même. L'important reste de
bien prendre en compte ce problème dès la conception du site afin de tout de suite
mettre en œuvre la méthode adéquate.
Cette technique est très simple. Elle est basée sur le langage JavaScript. L'idée est
d'inclure, au début de chaque page, une fonction vérifiant que la page en cours est bien
ouverte par l'intermédiaire de la frame. Si ça n'est pas le cas, la frame parent est
automatiquement rechargée.
Voici un exemple de script permettant de faire cela :
<SCRIPT Language="javascript">
if (parent.frames.length==0) parent.location.href="frame.htm";
</SCRIPT>
Cette version extrêmement simpliste présente tout de même un problème majeur.
Imaginez que vous souhaitiez afficher la page : page2.html. Vous l'avez trouvée grâce à
Google qui vous donne le lien suivant : http://lesite.fr/page2.html.
Si la page contient le script donné ci-dessus, en suivant le lien, vous allez finalement
ouvrir la page HTML (donc statique) frame.html.
Malheureusement pour vous, frame.html sert à ouvrir les deux pages suivantes :
menu.html et page1.html.
Conclusion, votre page s'affiche bien dans la frame parent, vous avez bien la barre
de navigation mais vous ne retombez pas sur le page qui vous intéresse !
Pour contrer ce nouveau problème, il existe des solutions qui reposent sur
l'utilisation d'un langage dynamique. Nous utiliserons cette méthode dans la partie de
mise en application de ces concepts.
C. Gestion des différents contenus
Nous savons que le web est constitué de documents de types variés. Pour assurer
un référencement performant, les robots doivent s'adapter à ces différents types.
Aujourd'hui, outre l'HTML, ils sont capables de lire les documents texte, Word,
PowerPoint, PDF, XML.
Par contre, il n'en est pas de même pour les animations Flash1. Ce langage permet
de créer des pages beaucoup plus interactives et graphiquement plus évoluée que ce que
nous pouvons faire pour l'instant avec les langages courants.
En revanche, ces animations écrites dans un langage propriétaire1 ne sont pas
encore prises en compte du point de vue du référencement.
1
Fichier qui peut être inclus dans une page HTML et dont l'extension est .swf. Si tout le site est fait en Flash, le
fichier HTML appelant le Flash est quasiment vide.
27/64
Contrairement aux frames que nous venons de voir, des efforts sont faits pour
indexer le mieux possible ces animations. Ceci vient du fait que la technologie Flash est
récente sur Internet et qu'elle risque d'encore beaucoup se développer dans les années à
venir.
La plupart des sipders se limitent à suivre les liens contenus dans les animations
Flash. Les récentes innovations des robots les autorisent à pouvoir lire le contenu textuel
de ces animations. Pour cela, ils se basent sur un kit qui leur est fourni par Macromedia.
Conscient que ce problème de référencement nuisait à la propagation de son langage,
Macromedia propose en effet un kit qui permettra aux robots de pouvoir interpréter le
langage Flash afin de pouvoir retrouver les parties de texte contenues dans le code des
animations.
Pour l'instant, cette technologie reste peu fiable.
Comme pour les frames, des balises spécifiques permettent d'ignorer le Flash. Ces
balises <noembed> et </noembed> servent à insérer le code HTML qui sera lu par les
navigateurs qui ne supportent pas le Flash.
D. L'URL ReWriting
1. Le problème
Nous savons maintenant que l'adresse a une place importante dans le
référencement. Pour preuve, les moteurs de recherche retournent souvent comme
résultat des sites contenants certains des mots-clés de votre recherche dans leur nom de
domaine.
Sachant cela, on peut se demander comment fait le robot pour gérer les URL
exotiques que l'on obtient en passant les paramètres des pages dynamiques par la
méthode GET.
Ex : http://www.monsite.net/documents/articles/lire.php?id=12&page=2&rubrique=5
La réponse est simple, Google et les autres, le gèrent… mal. Au mieux ils peuvent
indexer des pages ayant des URL contenant jusqu'à deux variables. Mais pas plus.
On sait qu'une URL telle que celle donnée dans l'exemple ci-dessus, appelle
toujours la même page dynamique. Celle-ci va alors chercher dans une base de données
les informations correspondantes à l'article de la page 2, de la rubrique 5 ayant 12
comme identifiant.
Ce qui est dommage c'est que cet article accessible à cette adresse parle
justement d'une technique de référencement qui s'appelle l'URL ReWriting. Mais
comment le deviner juste en regardant cette adresse ?
L'objectif de la méthode de réécriture d'URL est d'arriver à faire croire au robot
qu'il est en présence d'une page statique.
Pour cela, le serveur web devra transformer l'adresse en une URL finale du type :
article_12_2_5.html ou mieux : referencement-12-2-5.html.
1
L'éditeur est Macromedia
28/64
Cela doit rester transparent pour l'utilisateur. Le serveur web Apache quant à lui reçoit
toujours l'adresse sous la forme lire.php?id=12&page=2&rubrique=5.
Pour effectuer cette transformation, le webmaster devra fixer des règles de
réécriture.
2. Mode d'emploi
Pour commencer, il est nécessaire de configurer Apache. Nous prendrons Apache
comme exemple car il s'agit d'un serveur web qui se prête bien à la réécriture d'URL et
qui est très utilisé dans le monde libre.
Ouvrez le fichier "httpd.conf" et retirez les symboles de commentaires (#) devant
les lignes suivantes:
LoadModule rewrite_module modules/mod_rewrite.so
AddModule mod_rewrite.c
Pour vraiment accroître votre référencement, l'idéal serait d'arriver à générer des
adresses sous cette forme :
http://www.monsite.com/articles/ISAPI-rewrite-pour-url-rewriting_12_3.html
C'est-à-dire avec le sujet de l'article contenu dans l'adresse de la page. Les
paramètres réellement utilisés doivent bien sûr également apparaître. Ensuite, il faut
forcer Apache à exécuter toutes les pages dans le répertoire articles comme étant des
pages PHP, et ce, malgré l'extension .HTML.
Cette étape se fait via le fichier texte .htaccess :
<FilesMatch "^articles$">
ForceType application/x-httpd-php
</FilesMatch>
FilesMatch permet à Apache d'analyser le nom de fichier pour y rechercher une
expression régulière.
Nous venons de voir que les règles de réécriture d'URL étaient définies dans le
fichier .htaccess. Cela ne marche donc pas avec le serveur web Microsoft Internet
Information Services (IIS). Pour faire de l'URL-rewriting avec les serveurs web Microsoft,
il est nécessaire d'installer un module additionnel qui propose les mêmes fonctionnalités
que le fichier d'Apache.
Bien que la plupart de ces modules soient payants, il est possible de télécharger
une version allégée de l'outil "ISAPI rewrite"xix. Cet utilitaire est fourni avec un module
permettant de tester vos expressions régulières.
Exemple :
29/64
Voilà ce que l'on obtient (4)
en appliquant la règle de
réécriture (3) à la partie de
l'adresse
de
test
(2)
identifiée par l'expression
régulière (1).
E. Les fichiers robots.txt
Dans la partie II a, je vous disais que la première chose que fait un robot en
arrivant à la racine de votre site est de regarder s'il existe un fichier nommé robots.txt.
Ce simple fichier texte va donner des informations au robot sous forme de commandes.
En l'absence d'un tel fichier, les robots regarderont tout le site (action par défaut).
On constate alors que le seul intérêt d'un fichier robots.txt est d'exclure des
parties de site des spiders. Il est également possible de filtrer les robots autorisés à
indexer le site.
•
•
User-Agent:nom du robot ou * : permet de préciser le robot concerné par les
directives qui suivront. La valeur * désigne tous les spiders.
Disallow:nom du répertoire ou du fichier : permet d'indiquer les pages à
exclure de l'indexation. Chaque page ou dossier à exclure doit être sur une ligne à
part et doit commencer par /. La valeur / seule signifie que cela s'appliquera à
toutes les pages du site.xx
Exemple de fichier type :
Le style de contenu du fichier robots.txt se présente de la façon suivante :
User-agent: *
Disallow: /cgi-bin/
Disallow: /temp/
Disallow: /prive/
Disallow: /admin/statistiques.html
30/64
Clairement, voici la signification du contenu :
- User-agent: * signifie que l'accès est accordé à tous les robots.
- Disallow: /cgi-bin/ : l'accès est refusé aux robots pour tous les fichiers contenus dans le
dossier cgi-bin, temp et prive.
- Disallow: /admin/statistiques.html : l'accès est refusé aux robots pour la page de
statistiques contenu dans le répertoire admin. Les autres fichiers de ce répertoire ne sont
pas concernés.
Attention : Ne laissez jamais de lignes vierges ou blanches (la touche entrée) le
robot l'interprèterait comme étant la fin du fichier.xxi
Remarque : Les fichiers de logs du site de l'IMS (ne disposant pas, pour l'instant, de
fichier robots.txt) nous permettent de tracer l'activité des robots. En effet, une erreur
404 "fichier non trouvé" est enregistrée dans les logs à chaque passage des spiders
puisqu'ils commencent par demander ce fichier. Sur le total du mois de février, ce fichier
a été demandé 742 fois.
Finalement, ce fichier permet d'empêcher les robots d'indexer certaines parties du
site comme des parties privées, des pages de test, des images, des fichiers JavaScript et
autres feuilles de style, etc.
Ma dernière remarque concerne la sécurité. Il est en effet important d'avoir à
l'esprit que ce fichier reste accessible à tout le monde (et non pas seulement aux robots).
Il suffit de taper http://www.NomDeDomaine.fr/robots.txt pour récupérer le fichier de
n'importe quel site. J'ai moi-même utilisé cette méthode pour avoir des exemples de
syntaxe des ces fichiers.
Il peut être dangereux de mettre en clair le chemin d'un fichier ou d'un répertoire
confidentiel. Par exemple la ligne : Disallow: /admin/AjoutDroits.asp peut servir de point
de départ à une personne mal intentionnée pour attaquer votre site.
Dans ce cas, on préférera une balise <META> classique.
F. Plan du site
Encore une page facile à faire et à intégrer qui, en plus de faciliter la navigation
dans des sites ayant un grand nombre de pages et de rubriques, augmente sensiblement
le référencement.
En effet, cette simple page contient un grand nombre de liens internes.
Notez que GoogleBot et les autres spiders ne vont pas analyser les pages qui auraient
une profondeur supérieure à 4. Cela veut dire qu'une page uniquement accessible en
suivant les liens de 3 autres pages précédentes ne sera pas référencée.
Un plan de site permet alors de réduire cette profondeur et de rendre accessible
ce genre de pages.
Début juin 2005, Google a lancé un nouvel outil gratuit basé sur ce principe.
Google SiteMap devrait lui permettre d'indexer plus de pages. La véritable innovation par
rapport au plan de site que nous venons de voir est, qu'avec cet outil, le webmaster est
capable d'indiquer rapidement à GoogleBot qu'il y a de nouvelles pages à indexer ou que
le contenu du site a changé.
Cet outil repose sur un ou plusieurs fichiers qui peuvent avoir des formats
différents. Le format XML reste le plus utilisé car il est plus performant. Ces fichiers ont
pour objectif d'aider Google à référencer toutes les pages et mieux prendre en compte
les évolutions de votre site. Ce fichier est généré par le webmaster.
31/64
Voici la syntaxe type d'un fichier SiteMap.xml xxii :
Le fichier final ne doit pas forcément s'appeler sitemap.xml mais il est préférable de le
nommer ainsi au cas ou d'autre robots décident de s'en servir également.
L'idée est la même que celle d'un plan de site classique, c'est-à-dire de faire des liens
directs vers toutes les pages que l'on souhaite indexer. La nouveauté se traduit par les
informations supplémentaires que l'on trouve dans les balises lastmod, changefreq, et
priority. Ces dernières sont toutes facultatives. Ne pas les utiliser reviendrait à lister les
URL à analyser. Cela ne serait pas beaucoup plus intéressant qu'un plan classique.
•
La balise <changefreq> peut prendre les valeurs suivantes : "always", "hourly",
"daily", "weekly", "monthly", "yearly" ou "never". Google précise tout de même
qu'il ne considère ces balises que comme étant des conseils et qu'une valeur mise
à "always" n'obligera pas le robot à passer plusieurs fois par jour sur la page. De
même, si vous mettez "yearly" ou "never, sachez que le robot visitera quand
même votre page.
•
La balise <lastmodif> permet simplement d'éviter aux robots d'analyser une page
s'il elle n'a pas connu de changement depuis son dernier passage.
•
Enfin, la balise <priority> autorise le développeur à privilégier certaines pages par
rapport à d'autres. Les valeurs de cette balise vont de 0.0 à 1.0. 0.0 étant bien
sûr pour désigner les pages les moins prioritaires. Par défaut, la valeur d'une page
est de 0.5.
Comprenez également que cette balise ne change en rien votre positionnement
dans les pages de résultats. Cela joue simplement sur la probabilité que les pages
que vous considérez comme plus importantes ressortent plus souvent.
Lorsque Google trouve plus de 2 pages d'un même site qui satisfont à une
requête, il procède alors à un clustering. C'est-à-dire que plutôt que d'afficher
32/64
toutes les pages de résultat, il en prendra deux au hasard et ne retournera que
ces deux résultats pour ce site.
Voila ce que l'on retrouve alors à l'écran :
La balise <priority> permettra à Google de privilégier les pages importantes lors
de ce clustering.
Dernière remarque, mettre toutes les pages de son site avec une priorité de 1.0
ne sert absolument à rien puisque cette priorité est relative entre les autres pages
du site. En aucun cas, cette priorité ne s'applique entre des pages de sites
différents.
Lorsque vous avez généré votre fichier XML, il faut l'enregistrer auprès de Google.
Cela peut se faire de deux manières.
La première consiste à indiquer directement l'adresse de votre fichier SiteMap par
le biais d'une requête faite à cette URL :
www.google.com/webmasters/sitemaps/ping?sitemap=http%3A%2F%2Fvotresite.com%2F sitemap.xml
La deuxième solution est d'ouvrir un compte sur Google et d'utiliser les outils que
propose le moteur de recherche. Il s'agit d'un portail permettant de gérer l'insertion, la
mise à jour. Google propose également un outil (sous forme de script) permettant de
générer directement un SiteMap. Afin d'éviter d'utiliser cet outil peu pratique (car écrit
dans le langage Python peu répandu) il est préférable d'utiliser d'autres outils disponibles
sur Internet. Ils permettent par exemple de générer un fichier SiteMap.xml à partir d'un
scan des répertoires de votre site, des fichiers de logs ou d'une extraction de la base de
données.
G. Redirections
Lors de la conception ou de la maintenance d'un site web, vous allez certainement
être, à un moment ou à un autre, obligé d'utiliser une méthode de redirection. Celle-ci
peut être nécessaire pour orienter une personne non reconnue vers une page
d'identification, créer une page d'erreur spécifique ou encore indiquer l'adresse du
nouveau nom de domaine de votre site etc.
Pour cela, il existe plusieurs techniques qui peuvent se faire soit côté serveur, soit
côté client.
Du point de vue du référencement, elles n'ont pas le même impact.
"En effet, pour que les robots des moteurs de recherche interprètent correctement la
redirection, il faut que l'en-tête HTTP envoyé avec la page corresponde au statut de la
page. Par exemple, si une page a changé d'emplacement dans votre site, il faut que
33/64
l'ancienne URL fasse une redirection vers la nouvelle en utilisant un en-tête HTTP qui
précise que cette page a changé définitivement d'adresse (code 301). Cela permettra au
robot de ne plus venir indexer l'ancienne URL, et de mettre à jour sa base de données en
affectant la nouvelle URL à la page.
Si vous ne mettez pas de redirection depuis l'ancienne URL, le robot obtiendra une erreur
404 et ne sera pas forcément au courant de la nouvelle adresse." xxiii
1. Redirection sur le serveur
Il faut se référer à la documentation de votre serveur web car les redirections se
font différemment sous Apache, IIS ou Tomcat…
Sachez cependant que ce type de redirection n'a pas d'effet néfaste sur le
référencement.
2. Url-ReWriting
Nous le savons maintenant, l'URL-ReWriting est une technique particulièrement
efficace en termes de référencement. Dans le cas d'un serveur web Apache, le fichier
.htaccess permet de rediriger facilement vers une page d'erreur.
3. Redirection par un script serveur
autre :
Les langages dynamiques permettent de rediriger facilement une page vers une
PHP : header("Location: http://www.votresite.com/unepage.htm");
ou
ASP : response.addheader "location", "http://www.votre-site.com/"
Cependant, n'oubliez pas de préciser le nouvel en-tête de la page :
PHP : header("Status: 301 Moved Permanently");
ou
ASP : response.status = "301 Moved Permanently"
pour ne pas que cela pose de problème aux robots.
4. Redirection HTML avec balise META
Bien que très pratique et simple d'utilisation,
<META http-equiv="Refresh" content="20;URL=page2.html">
ce type de redirection est à proscrire. Elle fut principalement utilisée dans les pages
satellites pour rediriger l'internaute sur la page principale après un délai de 0 secondes.
Les moteurs n'indexeront donc pas le contenu de la page.
5. Redirection côté client avec JavaScript
Elle s'utilise de la manière suivante :
window.location.replace("http://www.un-site.com/une-page.htm");
En revanche, elle ne modifie pas l'en-tête HTTP.
34/64
Les robots ne lisant pas le JavaScript, ils ne suivront pas ces redirections. Le risque est
donc d'indexer le contenu d'une vieille page alors que la nouvelle ne sera pas vue des
moteurs de recherche.
H. Référencer un site multilingue
Le référencement d'un site multilingue peut poser des problèmes, ou tout du moins
soulever quelques questions auxquelles nous n'avons pas encore répondu. Par exemple :
o Faut-il créer autant de sites que de langues différentes ?
o Est-ce mieux d'avoir autant d'URL que de langues utilisées ?
o L'architecture globale du site est-elle différente ?
Architecture d'un site multilingue :
"La première page n'est pas forcément la page que visitera en premier l'internaute s'il
vient d'un moteur de recherche. Mais c'est une "vitrine" du site qu'il convient
particulièrement de soigner."xxiv
Plusieurs possibilités :
o Page d'accueil propose à l'internaute de choisir sa langue. Cette solution est rapide et
efficace mais pas optimisée en termes de référencement. En effet, elle sous-entend
une page d'accueil quasiment vierge de tout contenu.
o Choisir une langue par défaut et permettre à l'internaute de la changer s'il le
souhaite.
o Détecter la langue de son navigateur afin de choisir une première langue. Il aura la
possibilité de la changer par la suite.
Gestion du paramètre de la langue
Le développeur du site devra prévoir une manière pour conserver la langue choisie
d'une page à l'autre. Plusieurs possibilités sont offertes par les techniques du
développement web : cookie, variable de session, passage du paramètre par la méthode
POST ou la méthode GET (variable dans l'URL).
Les cookies peuvent être intéressants parce qu'ils sont persistants d'une visite à l'autre
tant que l'utilisateur ne supprime pas ses cookies ou qu'ils n'expirent pas. En revanche,
les robots des moteurs de recherche ne les acceptent pas. Il en est de même pour
l'internaute qui a la possibilité de les refuser.
Le passage du paramètre par "variable de session" ou par la méthode POST fonctionne
mais n'apporte rien de plus.
En revanche, la méthode préconisée est celle de la méthode GET. Premièrement parce
qu'elle permet de mettre l'URL en "favori" et donc de conserver cette information.
Deuxièmement parce qu'elle permet aux moteurs de recherche d'enregistrer des
adresses différentes suivant la langue utilisée.
Exemple :
et
http://www.monsite.com?lang=fr
http://www.monsite.com?lang=en
35/64
Dans ce cas, l'architecture du site pourra être identique à celle d'un site monolingue. Il
suffit juste d'inclure au début de chaque page une procédure permettant d'aller chercher
le contenu textuel de la page en fonction du paramètre.
<?php
If ($_GET['lang']=="fr") inclure le fichier francais.inc
Else inclure le fichier english.inc
?>
Enfin, il est toujours intéressant d'établir une règle de réécriture d'URL pour ce
paramètre.
Utilisation de la balise META.
La balise méta <META HTTP-EQUIV="Content-Language" content="fr"> va définir
la langue globale de la page. Ainsi, elle pourra également servir à définir l'orientation (de
droite à gauche) du texte dans la page.
Encodage de la page
Dans le cas d'une page pouvant accueillir plusieurs langues, il ne faut pas oublier
de bien définir l'encodage de la page. Un encodage en UTF-8, "contrairement à d'autres
comme la série ISO 8859, permet de représenter des milliers de caractères de toutes
sortes de langues."xxv
Cas des annuaires :
En ce qui concerne les annuaires, la soumission étant manuelle et contrôlée par
une personne physique, la pertinence du site reste donc de sa responsabilité. Que le site
soit dans une langue ou une autre ne doit rien changer.
La seule chose que vous ayez à faire est de soumettre votre (vos) site(s) sur chaque
version de l'annuaire. Par exemple sur yahoo.fr, yahoo.co.uk, yahoo.it, etc.
Cas des moteurs de recherche :
Nous le savons, le référencement par les robots est automatique. Il n'y a donc
rien de plus à faire. Tant que les mots-clés sont définis dans toutes les langues, et que
vos pages comportent du contenu dans toutes les langues, il ne devrait pas y avoir de
problèmes particuliers.
I.
Soumission manuelle dans les annuaires
Jusqu'à présent, nous avons privilégié les moteurs de recherche. Cependant, il ne
faut pas pour autant oublier la deuxième sorte d'outil de recherche que sont les
annuaires. Il peut être intéressant d'enregistrer manuellement son site dans les
principaux annuaires généralistes tels que Yahoo! et l'Open Directory sans oublier les
plus petits annuaires spécialisés.
A titre d'exemple, je peux vous assurer que le fait d'avoir inscrit mon site
personnel sur un annuaire spécialisé m'apporte beaucoup plus de visites que celles issues
de recherches sur Google.
36/64
En tant que réserviste de la Gendarmerie, j'ai décidé il y a quelques mois de faire
une page racontant mon expérience dans la Gendarmerie. J'ai donc créé quelques pages
sur ma Préparation Militaire Gendarmerie, pages sur lesquelles j'ai inclus un script me
permettant de suivre la fréquentation de mon site. J'ai également pris soin de construire
mes pages sans frames, avec beaucoup de texte et peu d'images, d'y inclure des liens
vers les principaux sites traitant du même sujet, de nommer explicitement mes pages et
renseigner correctement les balises META… Bref, j'ai mis en application tout ce que je
viens de vous expliquer jusque là.
Mes Logs m'ont permis de tracer le passage des robots (GoogleBot et Yahoo!
Slurp entres autres) et au bout de quelques semaines, ma page ressortait déjà en 4ème
position sur les recherches "preparation militaire pmg" ou encore "pmg réserviste
gendarmerie". J'étais loin d'imaginer que j'allais pouvoir me placer à cette position en si
peu de temps… Pourtant les visites sur mon site provenant de Google plafonnaient à 5
par jour. Je trouvais déjà cela pas mal pour un site sans prétention comme le mien mais
bon… Enfin, en regardant de plus près les sites devant le mien, je me suis aperçu qu'un
résultat ressortait toujours au dessus du mien (outre les sites officiels de la
Gendarmerie). Il s'agissait su site www.annugend.com qui n'est en fait qu'un annuaire
des différents sites, officiels ou non, de la Gendarmerie. Ce site a un PageRank de 4 alors
que celui de mon site est nul puisque le PR est mis à jour lors des Googles Dances et que
celles-ci ne se produisent que 2 à 3 fois par an. La dernière a eu lieu avant que je ne
crée mes pages.
J'ai donc décidé d'inscrire mon site sur cet annuaire spécialisé. J'ai préparé un
petit texte d'accroche et je me suis rendu sur le site annugend.com pour compléter le
formulaire d'inscription. Le processus ne m'a pris que 2 minutes en tout. Finalement,
deux jours plus tard, je recevais un courrier électronique du webmaster du site me disant
que mes pages correspondaient parfaitement aux attentes du site et que je faisais
désormais partie de leur base de données. Depuis, la rubrique "Les derniers inscrits" qui
apparaît en haut à gauche de la page principale du site annugend fait un lien vers mon
site. Un lien vers mon site est également proposé dans la sous-catégorie "réserves" de la
catégorie "Gendarmerie Départementale".
Cette inscription m'a permis de multiplier par trois la fréquentation journalière de
mon site…
Comme quoi, les annuaires spécialisés représentent un point d'entrée intéressant
vers votre site.
La soumission dans ce type d'annuaire se fait manuellement et prend donc
nécessairement un peu de temps.
Le choix de l'annuaire est également important. J'ai parallèlement voulu tester un
outil qui, soit-disant, allait automatiquement soumettre mon site à plusieurs dizaines
d'annuaires. Et cela, en ne remplissant qu'un seul formulaire. Ce gain de temps me
paraissait prometteur suite à ma première expérience avec l'annuaire annugend.
Malheureusement, je n'ai pas mis longtemps avant de regretter l'utilisation de cet outil.
Premièrement, lors de son utilisation, il m'a retourné beaucoup d'erreurs (a priori car il
voulait soumettre mon site à des annuaires ayant disparu). Ensuite, j'ai reçu plusieurs
dizaines de mails provenant des annuaires qui me disaient que mon site ne correspondait
pas du tout au thème de leur site. Finalement, les quelques annuaires qui ont accepté
mon site ne m'ont jamais apporté de visite…
37/64
J. Dernières astuces.
Préférez un nom de domaine avec des tirets (-) plutôt que des undescores (_). En
effet, beaucoup de moteurs considèrent le tiret comme un espace. Ainsi, pour un site
comme : http://www.sonneries-de-telephone.com, il ressortira avec comme mots-clés
"sonneries de téléphone" alors que http://www.sonneries_de_telephone.com non. Idem
pour vos noms de page.xxvi
Un site mis à jour régulièrement est généralement mieux référencé. Nous pouvons
constater cela en regardant à quelle vitesse les blogs et les forums sont indexés.
Les pages ne doivent pas être trop lourdes. Une moyenne de 30ko est
recommandée.
Si votre site possède un moteur de recherche interne, il peut être intéressant de
garder une trace de ce qui est recherché afin de voir les sujets les plus convoités par vos
internautes. Dans ce cas, développez-les…
En effet, c'est en regardant la provenance des internautes sur mon site personnel que j'ai
constaté que beaucoup arrivaient sur la page de mon curriculum-vitae suite à une
recherche portant sur ma préparation militaire gendarmerie (ce terme revient à plusieurs
reprises sur mon CV et Google l'avait déjà repéré). C'est cette constatation qui m'a
décidé à créer les pages dont je vous parlais dans le précédent paragraphe.
Contrairement à ce que l'on peut penser, il est préférable de nouer des liens avec
vos partenaires / concurrents. En effet, avoir des liens sur des sites qui traitent
globalement du même sujet que vous vous permet d'avoir une pertinence plus
importante vis-à-vis des moteurs de recherche.
Vérifier que les liens ne sont pas cassés et que les balises ouvertes sont bien
refermées.
Si le nom de votre société apparaît dans son logo (images), réécrivez-le de
manière textuelle. Au minimum, nommez votre image avec le nom de votre société.
Concernant les liens, préférez un lien du style : "accéder à ma page sur ma
préparation militaire gendarmerie" plutôt que "cliquez ici pour accéder à la page sur ma
préparation militaire gendarmerie."
Si toutes les pratiques que nous venons d'entrevoir favorisent le référencement
naturel, d'autres techniques améliorent grandement le positionnement de certains sites.
Ce référencement artificiel fonctionne en général à la limite des outils de recherche.
Malheureusement, cette limite n'étant pas parfaitement définie, il arrive que des
webmasters la dépasse et retrouvent leur site sur les listes noires des moteurs.
En revanche les techniques bien connues utilisant volontairement les failles des robots
restent très périlleuses d'utilisation.
38/64
III. Pratiques condamnables
A. Les pages satellites
Les pages satellites, Miroir, Alias ou Doorway page en anglais, sont des pages qui
ne servent qu'à fournir aux moteurs de recherche des mots-clés à se "mettre sous la
dent"!
Leur contenu est donc optimisé (par des répétitions, des synonymes, de
nombreux liens, etc.) pour un mot-clé donné. Lorsque le moteur la parcourt, il enregistre
ces mots-clés. Il est donc plus facile de trouver ce type de page lors d'une recherche.
Une fois que l'internaute arrive sur un page satellite, celle-ci contient généralement un
lien qui lui permet de retourner sur la page principale du site. C'est pour cela que l'on
appelle ces pages des pages satellites. Elles ne contiennent pas l'information que
recherche l'internaute mais sert juste à l'attirer sur le site.
La redirection peut également être automatique et instantanée (avec la balise <META
refresh> réglée sur 0 seconde par exemple) afin que cela soit complètement transparent
pour l'internaute.
Notez que votre page d'accueil doit avoir un lien (généralement caché) vers
chacune de vos pages satellites afin qu'elles puissent être détectées et donc référencées
par les robots.
Bien que ces pages permettent souvent de combler les problèmes techniques liés au
graphisme (moyen de référencer un site en Flash), elles servent dans beaucoup de cas à
faire du spamdexing.
Par exemple, un vendeur de DVD en ligne peut créer une page par film, et ceci,
qu'il le vende ou non. Lorsque l'utilisateur, suite à une recherche, tombera sur une de ces
pages, il sera automatiquement redirigé vers la page d'accueil.
Les moteurs de recherche cherchent donc à condamner ces pratiques.
Par exemple, nous savons maintenant qu'il est inutile de faire 200 pages satellites avec
un contenu optimisé si c'est pour les faire toutes sur le même principe (trop forte
ressemblance du code HTML) ou avec une redirection de type <META refresh>.
Les moteurs comparent les pages pour déterminer les pages satellites et excluent
systématiquement les pages contenant la balise <META refresh>.
Une redirection côté serveur de type (301 ou 302) est également inutile
puisqu'elle indique au robot que la page a été déplacée. Dans ce cas, le robot ira
directement indexer la page cible.
La technique de redirection la plus utilisée pour les pages satellites est la
redirection client en JavaScript.
<script language="javascript" type="text/javascript">
<!-window.location.replace("http://www.un-site.com/une-page.htm");
-->
</script>
Mais, là encore, les robots sont chargés de traquer ce genre de scripts…
Des solutions équivalentes mais plus difficiles à repérer de façon automatisée existent.
39/64
Pour illustrer cette technique, prenons l'exemple du site http://www.4-6.fr qui utilise les
pages satellites.
La page suivante illustre comment 3 pages différentes redirigent chacune à sa façon vers
la page principale (http://www.3vallées.com/4-6/index2.html). Pour l'internaute non
averti, cette redirection est transparente.
Les redirections se font en JavaScript. Pour voir les pages satellites, il suffit donc tout
simplement de désactiver le JavaScript de notre navigateur.
Notons tout de même que les pages satellites de cet exemple ne cherchent pas à
tromper l'Internaute. En effet, celles-ci son optimisées pour des mots-clés qui restent en
rapport avec le sujet de la page principale.
Ca n'est bien évidement, par le cas de toutes les pages satellites.
40/64
http://www.4-6.fr
http://www.3vallees.com
<script language="JavaScript">
<!-function goToURL() {
var i, args=goToURL.arguments;
for (i=0; i<(args.length-1); i+=2)
eval(args[i]+".location='"+args[i+1]+"'");
}
//-->
</script>
</head>
<body
bgcolor="#FFFFFF"
onLoad="goToURL('parent','http://www.3vallees.com/4-6/index2.html');" >
<p><font color="#3333FF" size="4"><b><font color="#FFFFFF">LES
MENUIRES, LES 3 ...
http://www.3vallees.com/4-6/index.html
http://www.3vallees.com/4-6/index2.html
B. Spamdexing
Nous venons de voir que tout ce qui se rapproche du spamdexing est prohibé par
les robots. On peut toujours utiliser les mots-clés, renseigner judicieusement les balises
TITLE et H1, mais il ne faut pas tenter de tromper les robots… Et c'est précisément là
qu'est la limite. Il est souvent difficile de faire la part des choses entre un site ayant un
référencement trop poussé et un autre ayant une volonté délibérée d'induire en erreur
les robots.
Certains sites passent donc à travers les mailles du filet mais il faut savoir que les robots
se perfectionnent de jour en jour. Il n'est donc pas étonnant de voir des sites bannis des
index pour cette raison.
Vous aurez compris qu'il est dangereux de multiplier les répétitions de mots-clés
dans une même balise. En revanche il est fortement conseillé de répéter ces "keywords"
dans le contenu (titre, texte, liens, etc.) de vos pages.
Rappelez vous que Google (et d'autres) conserve les mots les plus récurrents de
la page et les utilisent comme mots-clés.
Il est même recommandé d'utiliser des synonymes des principaux mots-clés parce
que les moteurs recherchent de plus en plus à connaître le thème principal de la page.
C. Cloaking
La technique dite de cloaking consiste à présenter un contenu différent d'une
même page web suivant qu'il s'agisse d'un Internaute ou bien d'un moteur de recherche.
Cela est très facile à faire car les moteurs de recherche ne font rien pour cacher
leur identité.
Deux méthodes permettent d'identifier les robots :
-
La première identifie le robot par son nom contenu dans le champ User-Agent de l'entête HTTP de la requête.
Exemple d'un script PHP permettant cela :
<?php
$trouve=strpos($_SERVER["HTTP_USER_AGENT"],"Googlebot");
if($trouve!==false){ // le visiteur est Googlebot, lui présenter la page cloakée
?>
<html>
... page cloakée pour Googlebot...
</html>
<?php
}
else{ // le visiteur n'est pas googlebot, lui présenter la page "standard"
?>
<html>
... page HTML "standard"...
</html>
<? } ?>
Cependant, cette technique n'est plus vraiment fiable car, le cloaking étant
condamné par les moteurs de recherche, ceux-ci modifient de plus en plus leur UserAgent pour limiter ce type de repérage.
42/64
-
La seconde technique de cloaking consiste à déterminer l'agent grâce à son adresse
IP. Elle suppose donc que l'on ait une liste exhaustive et à jour des adresses IP des
robots. On peut se procurer ces listes sur des forums spécialisés.
Le script peut alors être :
<?php
$adresseip=strval($_SERVER["REMOTE_ADDR"]);
$google1=strpos($adresseip,"216.239.46");
$google2=strpos($adresseip,"64.68.8");
$google3=strpos($adresseip,"66.249.");
$slurp=strpos($adresseip,"66.196");
if(($google1!==false) || ($google2!==false) || ($google3!==false) || ($slurp!==false)){
// le visiteur est Googlebot ou Slurp, lui présenter la page cloakée
?>
<html>
... page HTML cloakée pour Googlebot et Slurp.
</html>
<?php
}
else{ // le visiteur n'est ni Googlebot ni Slurp, lui présenter la page "standard"
?>
<html>
... page HTML "standard"...
</html>
<?php } ?>
D. Google Bombing
Le Google Bombing est un "référencement sauvage d'un site web sur un mot-clé
péjoratif."xxvii
Le principe est assez simple. Il exploite juste une faille de Google, faille qui a
pourtant fait le succès du moteur de recherche.
Rappelez-vous que Google aime particulièrement les liens HTML classiques de
cette forme :
<a href="adresse">intitulé du lien</a>
Il fut le premier à tenir compte du nombre de liens et de leur intitulé dans le
classement de ses résultats.
Sachant cela, pour mettre en œuvre un Google Bombing, il n'y a plus qu'à trouver
les nombreux partenaires nécessaires pour faire cette attaque massive…
Pour voir les résultats (voire les dégâts !) d'un Google Bombing. Regardez ce que
retourne la recherche "miserable failure"…
43/64
Et pourtant, concrètement, ce Google Bombing ne se résume qu'à cela :
<a href="http://www.whitehouse.gov/president/gwbbio.html">Miserable failure</a>
Ou sur les forums :
[url=http://www.whitehouse.gov/president/gwbbio.html] Miserable failure [/url]
Mais, retrouvant ce lien sur de très nombreux sites, Google associe l'intitulé et le lien luimême.
Pour combattre ce phénomène, les moteurs de recherche et les annuaires essayent de
faire évoluer les normes HTML en déclarant tenir compte d'un nouvel attribut pour les
balises de lien :
<a href="page.html" rel="nofollow">lien</a>
Cet attribut sera particulièrement utile aux modérateurs1 des forums… Il leur
suffira alors d'inclure une seule fois cet attribut dans leur page dynamique et ils seront
sûrs que leur forum ne servira pas de collecteur pour des liens destinés à un bombing.
Nous venons de passer en revue la plupart des méthodes classiques de
référencement. Depuis quelques années, les outils de recherche proposent des solutions
payantes qui peuvent s'avérer rentables dans bien des cas. Elles peuvent également
combler certaines lacunes du référencement traditionnel tel que le besoin de réactivité
pour des événements ponctuels.
1
Modérateur : personne qui suit les discussions d'un forum afin de supprimer les messages irrespectueux, à
caractère social ou raciste etc.
44/64
IV. Les solutions payantes
A. Soumission payante
Pour accélérer la prise en compte de son site par les annuaires, ceux-ci proposent
en général une méthode payante. Elle garantit qu'un salarié de l'annuaire visitera le site
sous X jours. X dépend généralement de l'annuaire et de la solution que vous choisissez.
Attention, cela ne veut en aucun cas dire que le site sera inclus à l'index de
l'annuaire. La personne est tout à fait libre de refuser le site si le contenu ne lui semble
pas pertinent.
B. Référencement payant
Une autre solution est le référencement payant. Dans ce cas, le moteur de
recherche doit obligatoirement indexer le site… mais il ne garantit en aucuns cas un bon
positionnement.
C. Positionnement payant
La dernière solution est de payer pour obtenir un référencement optimal. Cela
revient, ni plus ni moins, qu'à faire de a publicité. Elle correspond à des liens
supplémentaires qui n'apparaissent pas dans la liste des résultats principaux.
Exemple de Google :
Pour Google, cette technique s'appelle "AdWords". Un annonceur peut acheter un
mot-clé aux enchères. Les enchères permettent à Google d'optimiser son profit.
Normalement le nombre total de liens commerciaux qui apparaît lors d'une recherche est
limité à huit. Le coût d'une campagne de publicité de ce type dépend directement du
nombre de clic sur le lien. C'est ce que l'on appelle le Coût Par Clic ou (CPC).
Un autre avantage de cette technique est qu'il est possible de spécifier une zone
géographique dans laquelle les internautes verront la publicité. Ce peut être très
intéressant pour un annonceur qui ne souhaite apparaître que pour les recherches des
utilisateurs résidant dans son périmètre.
45/64
D. Référencement par des prestataires
Conscientes de l'intérêt d'un bon référencement, certaines sociétés qui
développaient des sites Internet se sont spécialisées dans le référencement. Elles
proposent donc un forfait qui peut aller de quelques euros à plusieurs milliers suivant les
prestations.
Les premiers forfaits ne font que soumettre l'URL dans une centaine de moteurs
de recherche et d'annuaires. Ensuite, et en fonction du prix que l'on est prêt à mettre, le
prestataire peut effectuer un audit du site et proposer des mots-clés plus pertinents,
redéfinir les balises META, mettre en place un fichier robots.txt, optimiser le site en
appliquant les techniques que nous venons de voir.
Faites cependant attention aux prestataires qui vous proposent un grand nombre de
backlinks. En général ils disposent de pages web qui ne représentent qu'une longue liste
des adresses des sites de leurs précédents clients. Ils se contenteront alors de rajouter
l'URL de votre site à la liste existante. Si cela marchait bien il y a encore quelques
années, aujourd'hui ces liens ne représentent plus beaucoup d'intérêt pour Google qui
recherche plutôt des liens provenant de sites ayant des sujets principaux communs.
Enfin évitez tous les prestataires qui vous disent qu'ils ont des liens particuliers avec
Google ce qui leur permet d'avoir une position privilégiée. Google ne passe effectivement
aucun partenariat de ce type.
Finalement, vous pouvez même opter pour une garantie contractuelle du positionnement.
Enfin, d'autres sociétés peuvent être payées en fonction de leurs résultats
effectifs. C'est-à-dire qu'elles toucheront une indemnité pour chaque visite du site
provenant d'un moteur de recherche.
Maintenant que nous avons un aperçu assez complet de l'ensemble des techniques
pouvant être mises en œuvre dans un processus de référencement, nous allons voir
concrètement comment celles-ci peuvent être implémentées.
46/64
V.
Exemple de référencement
Nous allons étudier la mise en œuvre du référencement à partir d'un exemple
concret.
Cas du "Mangeur de cigogne"
Les nombreuses recherches que j'ai effectuées pour élaborer ce mémoire m'ont
permis de découvrir qu'il se déroulait régulièrement des concours de référencement… Le
principe est simple : une fois le moteur de recherche désigné, le gagnant est celui qui
place son site en première place du moteur. L'un des derniers concours de ce genre
portait sur la phrase "mangeur de cigognes" et le moteur de recherche Google. Les
candidats avaient 3 mois pour arriver en tête du moteur. Deux gagnants furent
désignés1 : celui qui était en tête à la date du 15 Juin 2004 (date de fin du concours) et
celui qui était resté le plus longtemps en première place de Google sur les 3 mois.
J'ai trouvé intéressant de regarder, ne serait-ce qu'à travers le code source de
leur page, comment ils ont réussi à se placer en tête du moteur.
L'analyse des deux pages principales de chaque site donne :
http://www.actulab.
com/mangeur-decigogne.php
http://www.nonam
e.fr/mangeur-decigogne/
Occurrences de
"mangeur de cigogne" dans la page
67
49
Occurrences du mot "Mangeur"
100
51
Occurrences du mot "cigogne"
98
51
Occurrence dans la balise de titre
1
1
Occurrence dans les balises <H1>
1
1
Occurrence dans les balises <H2>
5
1
2
2
1
1
Occurrence dans les attributs ALT
2
2
Occurrences dans les attributs TITLE
18
13
Occurrences dans les attributs <b>
4
0
Occurrence dans les balises <META
DESCRITPION…>
Occurrence dans les balises <META
KEYWORDS…>
1
Résultat disponible à l'url : http://www.7-dragons.com/mangeur_de_cigogne.htm
47/64
Occurrences dans les attributs <i>
1
7
Occurrences dans les attributs <u>
0
0
Nombre de liens total sortant de la page
32
15
Nombre de liens de la page sur elle-même
11
2
Nombre de liens vers Google
1
1
Frames
non
non
Flash
non
non
Images
1
1
(mangeur-decigogne.png")
Feuille de style
oui
(style1.css)
oui
(mangeur-decigogne.css)
Commentaire
non
oui
Back Link (mars 2005)
204
186
PageRank (mars 2005)
7
5
Ce tableau ne fait que confirmer ce que nous avons vu jusqu'ici. On remarque içi
les BackLinks sont très nombreux pour les deux sites finalistes.
48/64
VI. IMS-Entreprendre pour la Cité
A. Présentation
C'est donc dans le cadre de ma dernière année d'apprentissage au sein du GIE
AXA que j'ai eu l'opportunité de mettre en application sur un cas concret certaines des
techniques que nous venons de voir.
Le site sur lequel j'ai travaillé est accessible à l'adresse suivante :
http://www.imsentreprendre.com
L'Institut du Mécénat de Solidarité (IMS-Entreprendre pour la Cité) est une
association qui a pour vocation de présenter les projets réalisés par des entreprises et
des associations dans le domaine de la responsabilité sociétale. L'institut permet
également de mettre en relation des professionnels et des associations grâce à une
banque de données de projets associatifs concrets.
Lors des mes deux années passées au sein de la DSI du GIE AXA, j'ai eu pour
principale mission de mettre à jour et de faire évoluer le site de l'IMS-Entreprendre pour
la Cité.
L'IMS-Entreprendre pour la Cité m'a demandé de faire une étude de son
référencement en portant une attention toute particulière sur le positionnement du site
dans Google. Cela ne pose pas de gros problème puisqu'un grand nombre de principes
utilisés pour accroître son référencement dans Google fonctionne avec les autres moteurs
de recherche.
B. Le site
Le site a été développé en interne (par l'équipe développement de la DSI du GIE
AXA) pour le salon Humagora de 2001. Jusqu'en 2004, il n'avait pas subi d'évolutions
majeures.
Il repose sur une architecture entièrement Microsoft. C'est-à-dire que les pages
dynamiques développées en ASP3.0 dialoguent, via une DLL en VBScript, avec une base
de données SQL Serveur. Le tout est hébergé sur un serveur web IIS.
1. Audit du site actuel
L'idée était de faire, à la vue des techniques que je viens de vous décrire, une liste
de celles que je pourrai mettre en œuvre dans le cas de l'IMS.
Il n'est évidemment pas question d'utiliser des techniques "douteuses" et, a priori,
nous nous contenterons des solutions gratuites.
49/64
2. Les points positifs pour le référencement
En analysant l'existant, voici ce que je peux d'ores et déjà constater comme
points positifs.
Hébergement
Nom de
domaine
Le site est hébergé en France. Le public visé par le site est principalement
français.
L'hébergement est fiable et les interruptions de service très peu fréquentes
et toujours de courte durée.
Le nom de domaine contient deux mots-clés importants : ims et
entreprendre.
Par le passé, le site a changé deux fois de nom de domaine. De
http://www.humagora.com il est devenu http://www.imsolidarite.com puis
http://www.imsentreprendre.com. Les anciens noms de domaines
fonctionnent toujours et, si l'on regarde les fichiers de logs, on s'aperçoit
que de nombreux visiteurs utilisent encore ces anciennes adresses. Il n'est
donc pas prévu des les supprimer pour l'instant.
En revanche, une redirection sur le nouveau nom de domaine est opérée
par le serveur. Il s'agit d'une redirection permanente de code 301 qui ne
nuit donc pas au référencement.
Nous pouvons constater cela en utilisant un outil disponible sur le site
http://www.webrankinfo.com/
HTTP/1.1 301 OK
Connection: close
Content-Length: 153
Date: Tue, 10 May 2005 13:03:55 GMT
Location: http://www.imsentreprendre.com
Flash /
images
Pop-Up
BackLinks
Site
PageRank
Le site ne contient qu'une seule animation Flash sur la page d'accueil.
Les images ne contiennent pas d'information importante. Celle-ci se trouve
essentiellement sous forme textuelle.
Le site ne contient pas de page de type pop-up. En général, les pages
contenant un grand nombre de pop-up sont moins bien positionnées car
elles contiennent souvent beaucoup de publicité.
La commande : link:http://www.imsentreprendre.com retourne 47
résultats. Cette commande nous retourne le nombre de liens pointant vers
l'URL du site. Elle donne le nombre de BackLinks.
Il est à noter que le site de l'IMS-Entreprendre pour la Cité propose deux
pleines pages de liens vers les sites de ses partenaires. En général, les sites
pointés possèdent également une page de liens avec un BackLink vers celui
de l'IMS.
La commande : site:http://www.imsentreprendre.com retourne 721
résultats. Elle nous renseigne sur le nombre de pages qui sont déjà connues
de Google.
La barre d'outils Google nous permet de connaître la valeur du PageRank
d'une page. La page d'accueil du site de l'IMS possède un PageRank de 6.
Cela est déjà une note très honorable.
50/64
pages
satellites
Le site n'a pas de pages satellites
3. Les points négatifs pour le référencement
Il reste néanmoins de nombreux points noirs sur lesquels je vais pouvoir travailler.
Frames
Le site est fait de 3 cadres différents. Il n'y a pour l'instant aucune balise
<NOFRAMES> de définie.
Les liens n'apparaissent pas clairement sous la forme <a
href="…">…</a> dans la page principale. Les liens se font par appel de
fonction JavaScript.
Liens
Contenu des
pages
Robots.txt
Hormis les quelques pages de présentation, les autres pages contiennent
principalement du texte issu de la base de données. Ces informations sont
recherchées grâce à des paramètres passés par la méthode GET.
Étant donné que le site repose sur un serveur web Microsoft Internet
Information System, nous ne pourrons pas mettre en place une réécriture
d'URL basée sur un fichier .htaccess.
Ce fichier n'existe pas.
Titres
Les balises <TITLE> ne sont pas renseignées
Style
Alt
Le site utilise des feuilles de style. Les styles utilisés ne s'appliquent pas
aux balises reconnues par les robots. C'est-à-dire qu'il n'y a pas de
redéfinition des balises classiques (Hx, B, etc.) de mise en forme dans les
CSS.
Il n'y a pas d'attribut ALT associés aux balises d'image
META
Il n'y a aucune balise META de définie pour le moment
Plan
Il n'y a pas de page de plan de site
A la vue de ces deux analyses, j'ai proposé les solutions suivantes aux personnes
de l'IMS responsables du site :
Domaine
Application
Hébergement
Robots.txt
Restauration du cadre (frame) de la
fenêtre principale
Balise <NOFRAMES>
Plan de site
MapSite
Balise <méta>
Balise <Titre>
Architecture du site
Navigation
Pages HTML
Annuaires
Soumission manuelle
Parmi cette liste il y a des techniques que j'allais pouvoir mettre en œuvre directement et
d'autres où il me fallait une aide de l'IMS-Entreprendre pour la Cité.
51/64
C. Application
1. Création du plan du site HTML.
Dans un premier temps, j'ai choisi de créer une page HTML classique qui servirait
de plan du site. L'intérêt de cette page est essentiellement de faire des liens
<a href="">…</a> vers les principales pages du site.
Techniquement, cette page ne comporte aucune difficulté.
L'important est de ne pas oublier de faire un lien direct dessus pour que les robots
puissent y accéder. J'ai choisi de mettre ce lien dans la balise <NOFRAMES> que j'ai mis
sur la page default.asp qui génère le cadre principal. De cette façon, la page sera
automatiquement détectée par les moteurs de recherche.
Cette page doit également contenir un minimum de texte.
Il peut également être intéressant de remplacer la page d'erreur 404 par défaut
par ce plan. Cela se configure au niveau du serveur web IIS.
52/64
2. Utilisation des balises <NOFRAMES>
Afin de permettre aux divers robots d'accéder à la page d'accueil du site, et ceci
malgré les frames, j'ai utilisé la balise HTML <NOFRAMES>.
Voici donc le code source de la page défault.asp qui génère le cadre.
3. Génération du SiteMap de Google
Le nouvel outil proposé par Google semble prometteur et il m'a paru intéressant
de le tester plus en détail.
J'ai donc décidé de créer un fichier SiteMap.xml et de le soumettre au moteur de
recherche via l'interface web de l'outil.
53/64
Afin de générer ce fichier XML, plusieurs possibilités m'étaient offertes :
1. La première solution qui m'est venue à l'esprit est de générer le fichier à la main !
Si cette option s'avère efficace pour des petits sites statiques, elle ne l'est pas
dans notre cas. En effet, l'essentiel du contenu des pages est extrait de la base de
données. Il serait donc trop long et trop fastidieux d'identifier de manière
exhaustive les différentes URL des pages du site.
2. Pour automatiser un peu la première solution, il sera envisageable de créer un
script qui parcourt récursivement les répertoires du site et qui génère
automatiquement le fichier XML à partir de cela.
Cette solution est efficace dans le cas de sites peu dynamiques mais qui auraient
un grand nombre de pages statiques.
Si le site évolue rapidement, avec l'apparition fréquente de nouvelles pages, la
suppression d'anciennes et la mise à jour de pages existantes, cette possibilité est
sans doute la mieux adaptée. En effet, ce type de script permet, en plus d'avoir
une liste complète de tous les fichiers qui se trouvent en ligne, de récupérer la
date de dernière modification dont on a besoin pour rendre le fichier sitemap.xml
plus pertinent.
Pourtant, dans notre cas, cette solution n'est pas appropriée puisque le nombre de
page est statique… contrairement aux pages elles-mêmes !
3. Réaliser un script capable de récupérer les URL des pages contenues dans les
fichiers de logs du site. Cette solution est acceptable mais le risque est de ne pas
recenser toutes les pages. On peut se retrouver dans un cercle vicieux. En partant
du principe que les pages les moins bien référencées sont également les moins
consultées, il est possible que certaines de celles-ci ne figurent pas dans le fichier
de log. Elles n'apparaîtront donc pas dans le fichier SiteMap.
4. Finalement, la dernière méthode consiste à générer le fichier à l'aide d'un script
ASP qui va chercher les informations nécessaires dans la base de données.
La méthode que j'ai retenue est donc la dernière que j'ai citée car elle me paraît
plus appropriée à notre cas. En effet, l'arborescence du site de l'IMS est figée et il y a
très peu de nouveaux documents. Seules des "lettres d'actualité" sont mises à disposition
régulièrement dans un répertoire spécifique. Les internautes (donc également les robots)
peuvent y avoir accès à partir d'une page dynamique qui va chercher en base de données
le nom des documents pour construire le lien vers ceux-ci.
La grande majorité des pages du site est construite de la même manière. Par exemple,
pour accéder à une Initiative, l'URL est du type :
http://www.imsentreprendre.com/ASP/Cyberjardin/fiche_initiative.asp?init=102
Ce type de lien se prête donc particulièrement bien à une construction du fichier SiteMap
à partir d'une page dynamique.
En effet, il suffit d'aller récupérer tous les identifiants dans la base de données et de
construire le fichier XML.
En revanche, j'ai préféré écrire les URL des pages principales "en dur" dans le fichier
XML. Cela me paraissait plus simple étant donné le petit nombre de ces pages.
54/64
Je pensais également pouvoir récupérer la date de dernière modification dans les
champs datetime de la base de données. Ils devaient me permettre de renseigner les
balises <lastmod> du fichier XML. Malheureusement, il n'existe aucun champ date dans
la base actuelle. Plutôt que de les rajouter dans toutes les tables dont j'ai besoin pour
générer le fichier XML, ce qui sous entend également de modifier les procédures
stockées, j'ai préféré mettre dans la balise <lastmod> la date du jour auquel sera généré
le fichier sitemap.xml. Cela aura au moins l'avantage d'indiquer à Google qu'il y a eu des
modifications récentes.
Le fichier ainsi engendré devra être placé à la racine du site.
En effet, un fichier sitemap ne donne accès qu'aux pages qui se trouvent en dessous
dans l'arborescence. Dans notre cas, le fichier généré sera suffisamment petit pour
pouvoir contenir tous les liens du site.
Je serai donc obligé de le mettre dans le répertoire de plus haut niveau.
Dans le cas d'un fichier contenant plus de 50 000 liens (ou supérieur à 10Mo
décompressé), il est nécessaire de le décomposer en fichiers de taille inférieure qui, eux,
peuvent être placés à n'importe quels emplacements dans l'arborescence du site.
Capture d'écran de la soumission du SiteMap dans Google :
55/64
Après quelques heures, voici la nouvelle capture d'écran :
On remarque par exemple que le fichier ne contient pas d'erreurs et qu'il a bien été
reconnu comme un fichier SiteMap valide.
Les fichiers de Log du mois de juillet montrent que le fichier sitemap.xml a été consulté
104 fois par le robot de Google (et uniquement par ce robot). Sachant que j'ai mis le
fichier en ligne le 6 juillet, cela veut dire qu'il a été téléchargé en moyenne 4 fois par
jour.
Il s'emble qu'a priori, cela ait effectivement permis à Google d'indexer de nombreuses
pages supplémentaires du site.
En effet, la requête suivante :
Site:http://www.imsentreprendre.com
retournait 193 résultats effectifs en au début du mois de juillet contre 695 au 23 août !
4. Reconstruction de la frame parent
Nous venons de mettre en place un fichier qui autorise un accès direct aux pages
du site. C'est-à-dire que les moteurs de recherche, une fois les URL du fichier SiteMap
indexées, seront capables de ressortir ces URL dès qu'une recherche correspondra au
contenu. Concrètement, l'internaute risque d'arriver sur une page du site sans passer par
la page d'index donc sans avoir sa page dans la frame principale. Il est donc nécessaire
de coupler la mise en place du fichier sitemap.xml avec celle d'un script permettant de
reconstruire la barre de navigation.
Le script que je vous ai donné (page 27) ne constitue qu'un point de départ. Il
faut l'enrichir pour permettre aux internautes d'arriver sur la page qu'ils souhaitent et
non pas simplement sur la page d'accueil.
Dans notre cas, voici le script que j'ai utilisé pour rediriger sur la page default.asp
if (window.parent.location==document.location) window.parent.location="/?page="+document.location;
56/64
J'ai donc inclus ce script en entête de toutes pages du site.
Voici ce que contient la page cette page default.asp pour réafficher la bonne page :
<%
…
if request.querystring("page")<>"" then
page=request.querystring("page")
// je récupère l'URL de la page désirée passée en GET
else
// par le script Javascript.
page=""
end if
…
<frameset rows="99,*" …>
<frame name="haut" src="/ASP/Home/haut.asp" …>
<frame name="haut" src="/ASP/Home/haut_com.asp" …>
<frame name="main" src="/ASP/Home/main.asp?page=<%=page%>" ..>
</frameset>
%>
5. Révision des balises META et TITLE
Bien que certainement moins utilisées qu'avant, les balises META sont faciles à
réaliser et ne peuvent en aucun cas nuire au référencement. Il est donc intéressant de
tout de même les utiliser.
Ainsi pour faciliter le travail des personnes de l'IMS, je leur ai fourni un canevas1 à
compléter contenant une liste complète des pages du site avec le contenu des balises
<TITLE> et <META> existantes. Ainsi elles ont pu renseigner ces balises avec des titres,
des mots-clés et des descriptions pertinents.
Ensuite de quoi, je n'ai eu qu'à reprendre les pages et rajouter ou modifier les
balises suivantes :
<META
<META
<META
<META
<META
<META
<META
<META
<META
<META
<META
NAME="keywords" lang="fr" content=" ">
NAME="description" lang="fr" content=" ">
NAME="geographie" CONTENT="paris, france, 75009">
NAME="Publisher" CONTENT="IMS – Entreprendre pour la Cité">
NAME="Copyright" CONTENT="IMS – Entreprendre pour la Cité">
NAME="Subject" CONTENT=" ">
NAME="Category" CONTENT=" ">
NAME="Identifier-URL" CONTENT=" ">
NAME="Revisit-After" CONTENT="7 days">
NAME="Author" CONTENT="IMS – Entreprendre pour la Cité">
NAME="Robots" CONTENT="index, follow">
Ainsi, les informations qui m'ont été fournies par l'IMS-Entreprendre pour la Cité
m'ont permis d'inclure cet en-tête à toutes les pages du site :
Ici l'exemple de la page plan du site : ims-entreprendre-pour-la-cite.html
1
Cf. Annexe 1. Extrait du document remit à l'IMS.
57/64
6. Soumission manuelle
Encore une fois, je pense qu'il est important de soigner cette étape pour les deux
raisons suivantes :
•
Le fait d'apparaître dans un annuaire sous entend qu'un lien existe de l'annuaire
vers votre site. Cela correspond donc implicitement à un BackLink de plus pour
votre site. Cela est d'autant plus important si le PageRank de l'annuaire est
élevé.
•
Les internautes qui viennent sur votre site à partir d'un annuaire spécialisé
n'arrivent en général pas là par hasard. Ils ont pris le temps de bien cibler leur
recherche. Je pense donc qu'en proportion, les annuaires apportent un meilleur
public que celui issu des moteurs de recherche. C'est du moins ce que j'ai pu
observer en analysant le temps moyen passé par les divers internautes qui
visitent mon site personnel. C'est-à-dire que ce public consulte généralement
plus de pages que celui issu d'un moteur de recherche quelconque.
J'imagine que je peux généraliser cette observation à la plupart des sites.
L'essentiel lors de cette étape reste tout de même de sélectionner les bons
annuaires.
Avant même de rechercher dans Google les annuaires spécialisés susceptibles de générer
du trafic sur votre site, il est bon de commencer par une soumission dans l'Open
Directory Project. Je rappelle que l'ODP sert de base à de nombreux outils de recherche
tels que Google, Yahoo! ou encore MSN.
Pour y soumettre votre site, il suffit de vous rendre sur la page d'accueil de l'annuaire
(http://dmoz.org/) et de sélectionner le domaine et les sous-rubriques en rapport avec
votre site. Ensuite il ne reste plus qu'à cliquer sur le lien "proposer un site" qui se trouve
en haut de la page pour accéder au formulaire.
Dans le cas du site web de l'IMS, il se trouve qu'il était déjà inscrit dans cet annuaire. J'ai
souhaité refaire une inscription car l'URL utilisée par l'ODP était : www.humagora.com.
58/64
Une fois la soumission réalisée, voici la capture d'écran que l'on obtient :
On remarque ainsi que la procédure peut prendre un certain temps.
Après cette première étape, j'ai cherché sur Google d'autres annuaires spécialisés dans le
domaine de la responsabilité sociétale et du développement durable.
Je me suis alors retrouvé confronté à une nouvelle difficulté. En effet, pour mon
site personnel, j'avais remarqué que quelques annuaires se retrouvaient
systématiquement devant mon site lorsque je faisais une recherche sur des mots-clés
précis. J'ai donc décidé d'inclure mon site dans ces annuaires.
Dans le cas du site de l'IMS, il se trouve qu'aucun annuaire spécialisé n'apparaît
dans les premières pages de résultats. Ceci vient certainement du fait que les mots-clés
de l'IMS-Entreprendre pour la Cité sont des mots excessivement courants et qu'il existe
une très forte concurrence sur ces mots ou expressions-clés.
Ainsi, les annuaires n'apparaissent pas systématiquement en tête des résultats.
Cela veut dire que toutes les inscriptions que je pourrais faire ne seront certainement pas
source de beaucoup de trafic puisque peu de personnes trouveront les annuaires.
Malgré ce point négatif, nous avons vu qu'une inscription dans un annuaire
apporte systématiquement un (ou plusieurs) BackLink vers votre site. Cela reste donc
une démarche intéressante. C'est pour cette raison que j'ai tout de même souhaité
inscrire le site dans de petits annuaires.
Beaucoup de ces annuaires gratuits proposent d'ajouter votre site à condition que
vous mettiez une banderole publicitaire (ou au minimum un lien) sur votre site. Tous ne
l'exigent pas. Il faut donc sélectionner les annuaires qui vous conviennent.
Le problème que l'on rencontre avec un site comme celui de l'IMS est qu'il touche
à plusieurs grands domaines. Ainsi, il faut définir un thème suffisamment général sous
lequel inscrire le site. En effet, les annuaires ne proposent généralement pas de mettre
un même site dans plusieurs catégories.
59/64
VII. Conclusion
Contrairement à ce que je pensais avant de commencer cette analyse sur les
différents moyens de rendre visible son site sur internet, les techniques de
référencement évoluent sans cesse et de plus en plus rapidement.
Nous pouvons expliquer cela par le décalage qui existe entre ce que recherchent
les webmasters et les contraintes auxquelles doivent faire face les outils de recherche.
C'est également pour cette raison que les moteurs de recherche ne peuvent pas
se permettre de dévoiler comment fonctionnent leurs robots d'indexation. Ils risqueraient
alors de favoriser le spamdexing.
Il faut cependant garder à l'idée que l'ensemble des techniques qui peuvent être
mises en œuvre pour augmenter le positionnement d'un site provient de déductions
empiriques faites par les webmasters. Cette précision explique pourquoi il est si difficile
de connaître le véritable impact qu'a une technique sur une page particulière.
Prenons l'exemple des balises META qui furent longtemps le seul moyen de référencer
efficacement son site Internet. Aujourd'hui, personne n'est capable de mesurer leur réel
impact. Tout le monde s'entend sur le fait qu'elles existent, que leur efficacité décroît
depuis plusieurs années mais qu'il est toujours intéressant de les utiliser.
Notons également que très peu d'outils liés au référencement existent. Les seuls
que j'ai utilisés se trouvent sur Le site webrankinfo. Ils permettent par exemple de suivre
le positionnement d'un site au cours du temps. Tous les autres outils douteux qui vous
proposent d'indexer votre site dans tous les moteurs de recherche sont à proscrire.
Aujourd'hui, on peut dire que les moteurs de recherche préfèrent baser leurs
notations sur des critères off-the-line (informations collectées spécifiquement par les
spiders telles que le nombre de backlinks) plutôt que sur des critères on-the-line (balises
META, occurrences du mot dans la page, position du mot) qui risquent plus facilement de
les tromper.
La solution SiteMap de Google, qui à première vue paraissait innovante et
pratique, autorise effectivement d'indexer de nombreuses pages à la fois. Pourtant, cela
ne semble pas être le cas avec tous les sites. En effet, en consultant des forums
spécialisés sur ce sujet, on s'aperçoit que cette solution a permis à certains webmasters
d'indexer plus de 200 pages en quelques jours alors que pour d'autres sites, cela ne
semble pas avoir eu l'effet escompté. On peut cependant supposer que cela vient du fait
que l'outil reste pour l'instant en phase de test. Probablement que la montée en charge
fait partie des préoccupations de Google sur le sujet.
Toujours est-il qu'une fois de plus Google a devancé ses principaux rivaux. Nous
pensions que les autres moteurs allaient alors utiliser le fichier sitemap.xml initialement
destiné à Google afin de combler leur retard. Finalement Yahoo! a préféré utiliser un
fichier texte nommé urllist.txt. Pourtant, celui-ci semble moins performant que le sitemap
de Google puisqu'il n'utilise pas les possibilités offertes par le XML.
Avant de mettre en œuvre les techniques que nous venons de voir, je pense qu'il est
essentiel de s'assurer que les pages possèdent suffisamment de texte. Cela me parait
être la base d'un bon référencement.
60/64
Avant de conclure cette analyse, je tenais à souligner quelques unes des lacunes
que les moteurs de recherche et autres annuaires vont devoir combler pour réellement se
différencier des autres.
Bien qu'une récente et nette amélioration ait été observée en ce qui concerne la
prise en compte des mots accentués dans les outils de recherche, il n'en est pas de
même pour les recherches sur des mots-clés composés et au pluriel.
Cet exemple montre qu'une recherche avec ou sans accent retourne quasiment les
mêmes résultats. En revanche, les résultats sont très différents pour le terme au
singulier ou au pluriel. Cette constatation faite dans Google s'observe également dans la
grande majorité des outils de recherche.
La prochaine évolution majeure des moteurs de recherche devrait être de pouvoir
formuler des requêtes sous la forme de phrases complexes.
Celles-ci pourraient prendre cette forme : "Où pourrais-je trouver une recette miracle
pour augmenter significativement la visibilité de mon site Internet ?"
Des sites payants proposent déjà ce service. Il s'agit en fait de personnes qui analysent
votre demande pour vous fournir, en général sous 12heures, une réponse. Pour plus
d'informations, consultez le site :
http://www.lesmoteursderecherche.com/moteur-de-recherche-humain.htm
Enfin, pour information, j'attends toujours leur devis…
61/64
Annexe 1
62/64
Annexe 2
Positionnement des compétences : Expert en technologie internet et multimédia
0 : Pas de connaissance dans ce domaine
1 : connaissances universitaires (générales, théoriques)
2 : mise en pratique universitaire de ces connaissances générales théoriques (projets
tutorés)
3 : expérience professionnelle de ces connaissances générales théoriques
4 : maîtrise du domaine décrit permettant d'être autonome
5 : expertise du domaine décrit permettant de juger ou diriger le travail de collaborateurs
Votre niveau de compétence
Savoir-Faire technologiques
Niveau de compétence du métier
Architecture fonctionnelle du SI de l'entreprise (logiciels, applications métiers)
3
Ergonomie et interfaces homme-machine
3
4
Evaluation et maîtrise des risques I&T
Méthode, normes et outils de développement
2
2
2
2
4
Méthodes, normes et outils de développement
2
2
4
Méthodologie de développement d'architecture
5
Normes et procédures associées aux réseaux
2
4
3
Techniques liées aux systèmes de communication
5
Savoir-Faire généraux
Compétences juridiques
2
2
Compréhension de la stratégie de l'entreprise en matière de systèmes d'information
4
Conceptualisation et modélisation du SI
4
4
4
4
5
Connaissance de l'entreprise (processus, environnement, organisation et stratégie)
Aptitudes comportementales
Analyse
Ecoute et communication
3
2
2
2
3
Négociation
2
4
Ouverture d'esprit
2
3
Résistance aux pressions
2
63/64
URL : (Uniform Resource Locator) Adresse Internet exploitée par les navigateurs. C'est l'adressage standard
de n'importe quel document, sur n'importe quel ordinateur en local ou sur Internet. Structure de base d'une
URL : protocole://serveur/répertoire/document.extension
(http://www.dicofr.com/cgi-bin/n.pl/dicofr/definition/20010101005151)
i
ii
iii
http://www.agenceweb.ch/Promotion/Referencement.asp
http://www.revue-referencement.com/ZOOM/google_casse_2.htm
iv
Référencement sur le net – Les nouvelles méthodes gagnantes / Sandrine Saporta / Editions d'Organisation /
p32
v
Référencement sur le net – Les nouvelles méthodes gagnantes / Sandrine Saporta / Editions d'Organisation /
p49
vi
http://histoire.univ-paris1.fr/moteurs.htm § Qu'est-ce qu'un outil de recherches sur le net ?
vii
viii
ix
x
xi
http://fr.download.yahoo.com/rp/h1histy.pdf
http://dmoz.org/World/Fran%C3%A7ais/about.html
http://www.google.fr/intl/fr/why_use.html
http://www.revue-referencement.com/ENCOURS/google_msn_yahoo.htm
Etude complète disponible à l'adresse : http://aixtal.blogspot.com/2005/01/web-comptes-bidons-chezgoogle.html
xii
Référencement sur le net – Les nouvelles méthodes gagnantes / Sandrine Saporta / Editions d'Organisation /
p32
xiii
Référencement sur le net – Les nouvelles méthodes gagnantes / Sandrine Saporta / Editions d'Organisation /
p19
xiv
Référencement sur le net – Les nouvelles méthodes gagnantes / Sandrine Saporta / Editions d'Organisation /
p17
xv
Référencement sur le net – Les nouvelles méthodes gagnantes / Sandrine Saporta / Editions d'Organisation /
p132
xvi
Snippets : C'est le petit texte et les liens retournés par Google pour chaque résultat de recherche
Exemple de deux snippets générés par Google :
xvii
L'optimisation des pages pour le référencement, L'importance de la balise titre et de la balise H1 :
http://www.revue-referencement.com/ETUDES/0410-referencement-title-h1.htm
xviii
http://help.yahoo.com/help/fr/ysearch/slurp/slurp-08.html
xix
xx
xxi
http://www.helicontech.com/download/
http://www.commentcamarche.net/web/robots-txt.php3
xxii
http://www.global-dev.com/dossiers/article.php?id=9
xxiii
https://www.google.com/webmasters/sitemaps/docs/en/protocol.html
http://www.webrankinfo.com/referencement/liens/redirections.php
xxiv
xxv
xxvi
http://www.webrankinfo.com/analyses/autres/multilingues.php
http://fr.wikipedia.org/wiki/UTF-8
xxvii
http://www.7-dragons.com/tiret-underscore.htm
http://www.dicodunet.com/definitions/google/google-bombing.htm
64/64