Recherche et Référencement - Numéro 50 – Juin 2004
Transcription
Recherche et Référencement - Numéro 50 – Juin 2004
© Abondance.com - Lettre "Recherche & Référencement" – Juin 2004 Recherche et Référencement - Numéro 50 – Juin 2004 -- Lettre d'actualité mensuelle sur la recherche d'information et le référencement de sites Web -- Au sommaire ce mois-ci : -> L'astuce du mois : comment trouver les bons mots clés pour un référencement ? -> L'astuce du mois : comment inclure des mots vides dans une recherche Google ? -> Le référencement de sites web dynamiques (1ère partie) -> Les raccourcis de recherche sur Google, Yahoo! et les autres : la fonction calculatrice -> Laurent Baleydier (Kartoo) : "Google ne satisfait pas le cerveau droit" -> PRWeaver, un outil qui affiche le PageRank des résultats de Google -> Bruits et chuchotements -> Les nouveaux entrants dans l'annuaire des outils de recherche régionaux -> Les liens du mois -> Revue d'URL : les meilleurs articles sur les outils de recherche parus sur le Web Le contenu de cette lettre est accessible sur la zone "Abonnés" du site Abondance, à l'adresse : http://abonnes.abondance.com/ La lettre "Recherche & Référencement" paraît aux alentours du 15 de chaque mois (un seul numéro pour les mois de juillet-août) Pour tout renseignement : © Olivier Andrieu, [email protected] Toute l'information contenue de cette lettre est © Abondance / Olivier Andrieu. Toute reproduction ou distribution des informations, données et textes de cette lettre est interdite sans l'autorisation expresse du site Abondance. Toute reproduction ou représentation, intégrale ou partielle de ce contenu, faite sans le consentement de l'auteur, serait illicite. La loi n'autorise, que les copies ou reproductions réservées à l'usage privé du copiste et non destinées à l'utilisation collective, d'une part, et, d'autre part, que les analyses et les courtes citations dans un but d'exemple et d'illustration. Page 1 © Abondance.com - Lettre "Recherche & Référencement" – Juin 2004 L'astuce du mois : Comment trouver les bons mots clés pour un référencement ? Retour au sommaire de la lettre Nous vous proposons une série de "trucs et astuces" qui devraient vous simplifier la vie dans le cadre du référencement de votre site web. Ce mois-ci : comment identifier les mots clés les plus efficaces dans le cadre d'un référencement / positionnement ? Lors de la phase de référencement d'un site web, l'une des étapes les plus cruciales consiste à définir les mots clés pour lesquels les pages web du site vont être optimisées. C'est à ce moment-là que vous allez certainement définir le succès plus ou moins important de votre référencement. Imaginez donc l'importance de cette étape ! Soit les mots clés sont "bien" choisis, et le référencement draînera un trafic qui alliera la quantité à la qualité, soit ils sont mal définis au départ et vous attendrez le client, nonchalamment assis derrière votre comptoir virtuel, à écouter le silence de vos pages vues... Mais que signifie l'expression "bien choisir ses mots clés" ? En fait, il s'agit de prendre en compte, à ce niveau de la réflexion, deux points très importants qui sont totalement complémentaires : - Le potentiel du mot clé : est-il souvent saisi sur les moteurs de recherche par les internautes ? - La faisabilité technique du positionnement : est-il possible de positionner une page de votre site sur ce mot clé ? Ce sont ces deux étapes que nous allons étudier dans cet article. Point 1 : Le potentiel du mot clé Le mot clé que vous envisagez de choisir est-il souvent saisi par les internautes sur les moteurs de recherche ? Question essentielle car il ne sert à rien d'être premier sur Google pour un mot clé donné si personne ne le tape sur les moteurs... Pour cela, le meilleur outil à notre disposition à l'heure actuelle est certainement le générateur de mots clés de la société Overture (prestataire de liens sponsorisés), disponible en plusieurs langues. En Anglais : http://inventory.overture.com/ En Français : http://inventory.fr.overture.com/ Si d'autres langues vous intéressent, essayez de remplacer le "fr" de l'adresse ci-dessus par le code sur deux lettres du pays désiré. Exemple pour l'Espagne : http://inventory.es.overture.com/ Idem avec "de" pour l'Allemagne, etc. L'outil vous propose de saisir un mot clé et vous donne des statistiques à son sujet. Page 2 © Abondance.com - Lettre "Recherche & Référencement" – Juin 2004 Imaginons que vous ayez un hôtel dans la bonne ville d'Arles. Vous tapez le mot clé "arles" (n'hésitez pas à commencer vos recherches par des mots clés très génériques) et l'outil vous donne les résultats suivants : Le générateur de mots clés d'Overture vous indique le nombre de fois où ce terme, ou toute expression le contenant, a été saisie sur le réseau des portails partenaires d'Overture (Yahoo!, MSN.FR, AOL.FR, Voila/Wanado, etc.) au cours du mois précédent. Vous n'avez accès qu'aux informations du mois M-1, pas aux mois antérieurs (ce qui est bien dommage, d'ailleurs). Pour avoir une idée du potentiel du mot clé sur le Web francophone complet (pas uniquement sur le réseau des affiliés d'Overture), multipliez le chiffre fourni par l'outil francophone d'Overture par un facteur 4. Pour avoir une idée du potentiel d'un mot clé en Anglais sur le Web anglophone global, multipliez les informations fournies par l'outil anglophone d'Overture environ par 2. Les outils d'Overture vous donnent deux indications : - Le nombre de requêtes du mot demandé sur un mois. - Les expressions les plus demandées contenant le mot en question. Ces outils sont donc indispensables pour appréhender le potentiel d'un mot clé. En revanche, il est complexe de dire à partir de combien de requêtes un mot clé représente un fort potentiel. Tout dépend du domaine dans lequel vous travaillez... Quelques centaines ou milliers de requêtes seront peut-être très intéressantes, voire inestimables, pour votre activité, même si, évidemment, plus il y en aura, et mieux ça sera... Si un positionnement est possible sur ces termes, bien sûr (voir plus loin dans cet article). Page 3 © Abondance.com - Lettre "Recherche & Référencement" – Juin 2004 Attention : le générateur de mots clés d'Overture ne gère pas les lettres accentuées. Il donnera les mêmes résultats, par exemple, pour les mots clés "hôtel" et "hotel". Vous n'aurez donc pas, par ce biais, la possibilité de savoir quelle occurrence est la plus demandée. De même, une requête sur "voyages" renvoie les résultats pour "voyage". Dommage car cela biaise un peu les résultats... Attention également aux mots clés issus des liens sponsorisés contextuels : sur certains portails, Overture affiche ce type de lien sur des pages de contenu (exemple : des articles de presse), et les liens s'affichent sur la base de mots clés pré-établis par Overture et l'éditeur du portail en question, générant une requête "virtuelle" lors de leur affichage (par exemple : on simule la saisie de mots clés comme "voyage maroc", "tourisme maroc" ou "hôtel maroc" sur les pages de contenu d'une agence de voyage pour afficher des liens sponsorisés contextuels autour de ce thème). Mais cette requête n'est pas issue d'une véritable recherche d'un internaute, après saisie d'un mot clé dans un formulaire de recherche. Cela induit parfois des résultats étranges dans les informations fournies par le générateur de mots clés... Notons qu'il existe d'autres générateurs de mots clés que vous pouvez utiliser : - Ceux d'Espotting : en Français : http://fr.espotting.com/popups/keywordgenbox.asp et en Anglais (Grande-Bretagne plutôt) : http://www.espotting.com/popups/keywordgenbox.asp (notons qu'ils existent également pour chaque pays où Espotting est implanté). Vous pouvez également les utiliser en appoint de ceux d'Overture, mais ils seront, à notre avis, moins efficaces car Espotting axe actuellement sa stratégie essentiellement autour de sites portails affichant des liens sponsorisés contextuels (voir ci-dessus), et est moins présent au niveau du "search" pur. Les données fournies à ce niveau sont donc légèrement biaisées. - Celui de Google : https://adwords.google.com/select/main?cmd=KeywordSandbox Mais celui-ci ne fournit pas, de manière simple, des indications chiffrées fiables sur le nombre d'occurrences de saisies des mots clés sur Google. En revanche, l'outil fournit une liste de termes similaires ou connexes que vous pouvez également prendre en compte dans le cadre de vos réflexions. Bref, une fois que vous avez utilisé ces outils, vous devriez avoir les idées plus claires sur le potentiel des mots clés que vous désirez prendre en compte pour votre référencement. Il est temps de passer à la deuxième étape... Point 2 : La faisabilité technique du positionnement Avoir identifié des mots clés souvent saisis dans le cadre de votre activité est une première étape essentielle mais pas suffisante. Il faut maintenant vérifier qu'il est techniquement possible de positionner une page de votre site sur ce terme ou cette expression. Pour ce faire, nous utilisons Google et tapons le mot clé (ou l'expression) en question dans le formulaire de recherche. - Sur http://www.google.com/ pour les mots clés en Anglais. - Sur http://www.google.fr/ pour les mots clés en Français. Puis, il vous faut regarder le nombre de résultats retourné par Google : L'aspect concurrentiel du mot clé, et donc la faisabilité d'un positionnement sur ce dernier, pourra être fourni par des fourchette de résultats : - Jusqu'à 20 000 résultats : a priori, pas de soucis à se faire, vous devriez pouvoir bien vous positionner sur ce terme en optimisant de façon professionnelle les pages web de votre site : titre, Page 4 © Abondance.com - Lettre "Recherche & Référencement" – Juin 2004 texte visible, liens, balises meta, etc. (voir les articles à ce sujet dans les précédentes éditions de cette lettre professionnelle). - De 20 000 à 100 000 résultats : la concurrence est plus forte, il sera donc plus complexe de positionner vos pages, mais cela reste possible. Cela prendra peut-être plus de temps et demandera une optimisation plus fine, mais vous avez vos chances... - Au dela de 100 000 résultats, l'approche est plus aléatoire. Rien n'est impossible, notez bien, mais peu de garanties sont envisageables... Il vous faudra pas mal de travail et un peu de chance pour arriver au Graal des premières positions dans ce cas... Bien sûr, il existe un facteur supplémentaire non négligeable, qui est l'agressivité de vos concurrents à ce niveau. Plus il y aura d'acteurs qui tentent d'atteindre, par l'optimisation de leurs pages, les dix première places, plus la tâche sera ardue... D'autre part, les fourchettes ci-dessus nous ont été dictées par notre expérience. Elles sont donc empiriques. Vous pouvez avoir d'autres idées au sujet de ces nombres, notamment en fonction du domaine d'activité dans lequel vous travaillez... Un arbitrage entre les deux points Bien choisir vos mots clés pour un référencement consiste donc en un arbitrage entre le potentiel des termes choisis et la faisabilité technique d'un positionnement sur ceux-ci. Bien sûr, si vous gérez un hôtel, vous rêvez certainement d'être premier sur le mot clé "hôtel" sur Google : 183 000 demandes en avril 2004 selon Overture, soit environ 800 000 saisies sur le Web francophone. Une paille... Oui, mais également 20 millions de résultats sur Google ! Oubliez ce mot clé :-) Cet exemple, volontairement caricatural, montre bien l'arbitrage "potentiel / faisabilité" que vous devrez réaliser pour identifier au mieux ces mots clés. N'hésitez pas à y passer le temps nécessaire, car cette étape est absolument capitale dans le déroulement de votre référencement. Si vous n'y prêtez pas l'attention nécessaire, vous pourriez avoir de grosses désillusions par la suite... Le tout n'est pas d'être premier sur un mot ou une expression. Il faut aussi qu'il ramène du trafic ! Page 5 © Abondance.com - Lettre "Recherche & Référencement" – Juin 2004 L'astuce du mois : Comment inclure des "mots vides" dans une recherche Google ? Retour au sommaire de la lettre Nous vous proposons une série de "trucs et astuces" qui devraient vous simplifier la vie dans le cadre de vos recherches sur le Web. Ce mois-ci : comment inclure des "mots vides" (ou "stop words") dans une requête sur Google, alors que ces termes sont éliminés par défaut par le moteur ? Par défaut, le moteur de recherche Google élimine de ses recherches des "mots vides" (ou stop words en anglais) qu'il considère comme trop courants. Exemple en français : le, la, les, du, avec, vous, etc., mais également des mots spécialisés tels que "http" et ".com" ainsi que les lettres/chiffres d'un seul caractère. De même, en anglais, il ignorera les of, the, a, etc. Exemple pour la requête moteur de recherche : Google indique clairement que ""de" étant un mot très courant, il a été ignoré lors de cette recherche." La requête est donc indentique à moteur recherche. Mais il peut vous arriver d'avoir à effectuer une recherche incluant de tels mots. Exemple : vous cherchez des informations sur le film La femme du boulanger et vous désirez inclure les termes "la" et "du" dans votre requête. Vous allez alors utiliser le signe "+" : La recherche comprendra ainsi les pages qui contiennent les mots la femme du boulanger mais pas une page contenant la phrase : "cette femme est allée chez son boulanger" qui aurait pourtant été identifiée par le moteur si le signe "+" n'avait pas été utilisé. Notons également que les signes de ponctuation ne sont, la plupart du temps, pas pris en compte par Google. Ainsi, ces deux requêtes seront identiques pour le moteur : Google ne propose pas de syntaxe, à notre connaissance, pour distinguer ces deux requêtes. +dr. mabuse donne un résultat identique à dr. mabuse, qui donnera elle même le même résultat que dr mabuse. Vous le savez également certainement, par défaut, Google ne tient pas compte de la casse des mots demandés et de leur accentuation. Ainsi, les requêtes suivantes seront identiques pour le moteur : jerome = jérôme = jérome = jerôme Page 6 © Abondance.com - Lettre "Recherche & Référencement" – Juin 2004 ou : Jerome = jerome = JEROME Toute combinaison des formes proposées ci-dessus est également traitée de la même façon : Jérôme = jerome = JéRôme = JEROME = etc. Mais, dans certains cas, vous pouvez être amené à rechercher une orthographe ou une forme spécifique d'un mot. Par exemple, uniquement la version accentuée (donc française) du mot récupération (le même mot, non accentué, existe également en anglais : recuperation). Si vous ne faites rien, Google recherche par défaut les deux orthographes. Pour demander uniquement la version accentuée et exclure de votre recherche la version non accentuée, vous pouvez utiliser le signe "+" à gauche du mot demandé : Dans ce cas, seule la forme demandée du mot saisi sera recherchée, les autres (accentuée ou non) seront éliminées. Attention : le signe + doit "coller" au mot qui est à sa droite, sans espace entre les deux termes. En revanche, un espace doit précéder ce signe. Seule exception : si la requête ne contient qu'un seul mot. Dans ce cas, un espace à gauche du signe n'est pas nécessaire : Il n'en sera pas de même si vous désirez effectuer une recherche spécifiquement sur une orthographe en majuscules ou en minuscules : Dans ce cas, la recherche est censée ignorer les pages contenant des ortographes comme IBM ou Ibm. Mais il faut noter que l'utilisation du signe + spécifiquement sur la casse des lettres donne parfois des résultats assez peu fiables sur Google... Dommage car cela pourrait rendre de nombreux services... Page 7 © Abondance.com - Lettre "Recherche & Référencement" – Juin 2004 Le référencement de sites web dynamiques (1ère partie) Retour au sommaire de la lettre Le référencement de sites web dynamiques est l'une des principales sources d'interrogations des webmasters actuels. Après avoir longtemps été un facteur totalement bloquant pour les moteurs de recherche, la situation s'est assouplie depuis quelques mois. Quels sont les types de pages qui sont compatibles avec les moteurs et ceux qui ne le sont pas ? Comment contourner les obstacles ? Voici quelques éléments de réponse dans cette première partie d'un article consacré à ce vaste sujet... Il existe, et cela est vrai depuis que les moteurs de recherche existent, un certain décalage de temps entre le moment où les techniques de création de sites web sont utilisées et la façon dont les moteurs de recherche les indexent. Cela s'est vérifié pour les frames (souvenez-vous d'Excite qui ignorait totalement les sites ainsi réalisés), puis pour le Flash ou le Javascript, par exemple. Cela se vérifie encore avec les sites web dynamiques, qui ont longtemps représenté un obstacle rédhibitoire pour les moteurs. La situation semble, certes, s'améliorer aujourd'hui, mais elle n'est pas encore parfaite, loin de là. Dans cette série d'articles, nous allons passer en revue les différents obstacles que représente ce type de site pour les moteurs, ainsi que les différentes solutions proposées par les sociétés de référencement, avant de faire un "focus" sur les techniques d'"url rewriting", qui représentent souvent la meilleure solution face à ce phénomène. Qu'est-ce qu'un site dynamique ? Avant d'aller plus loin dans cet article, il est nécessaire de définir ce qu'est un site dynamique, par opposition à un site statique. Le site statique gère des pages créées au préalable. Il va avoir à sa disposition, sur son disque, des pages HTML dites "statiques", qu'il va afficher "telles quelles" dès qu'un internaute les demande. Les pages sont donc créés à l'aide d'un éditeur HTML, puis stockées pour être affichées sous leur forme initiale. Le site dynamique, pour sa part, puise ses informations dans une base de données (qui peut être d'origines diverses) et crée des pages "à la volée", en fonction d'une action ou d'un évènement. Par exemple : une saisie effectuée par un internaute. L'exemple type de site dynamique, est... le moteur de recherche ! En effet, un internaute, lorsqu'il arrive sur un moteur, saisit une requête dans un formulaire et l'outil, sur la base des mots clés demandés, va créer une page de résultats "sur mesure" en fonction des termes demandés. Bien entendu, cette page n'existe pas en tant que tel sur le disque dur du moteur, et elle est donc créée "à la volée". Un moteur de recherche est donc un site "dynamique" ! Il en sera de même avec des sites web d'E-commerce, par exemple dans le cadre d'un catalogue en ligne, mais également la consultation d'archives de presse, etc. Ce qui bloque le plus souvent les moteurs de recherche est représenté par l'url des pages, qui contient, pour ce type de sites, deux caractères spécifiques et représentatifs des sites dynamiques : le point d'interrogation (?) et l'esperluette (&). Format d'une url de site dynamique En effet, l'url d'une page émanant d'un site dynamique est le plus souvent affichée sous une forme du type : http://www.sitedynamique.com/prog.cgi?kw=motcle&langue=fr&zone=france&encodage=ISO8859-1 Page 8 © Abondance.com - Lettre "Recherche & Référencement" – Juin 2004 Cette adresse peut s'interpréter ainsi : "sur le site www.sitedynamique.com, on a lancé le programe nommé prog.cgi en lui passant comme paramètres les variables kw (de valeur "motcle"), langue (de valeur "fr"), zone (de valeur "france") et encodage (de valeur "ISO-8859-1"). Il en est exactement de même sur Google. Si vous allez sur le site http://www.google.fr/ et que vous tapez le mot clé "abondance", l'url de la page de résultat aura comme intitulé : http://www.google.fr/search?q=abondance&ie=ISO-88591&hl=fr&btnG=Recherche+Google&meta= Sur Google, c'est le programme nommé "search" qui a été lancé, avec pour paramètres : - q = abondance (le mot clé) ie = ISO-8859-1 (l'encodage des caractères) hl = fr (la zone lingusitique) btnG = Recherche Google (le nom du bouton de validation de Google) meta = (autre infomation - vide dans ce cas - pour le moteur). Nota : Google utilise pour son formulaire de recherche la méthode "GET" (passage de paramètres dans l'url) contrairement à un moteur comme celui de Free, par exemple, qui utilise, sur sa page d'accueil, la méthode "POST". Dans ce cas, la page de résultat a une url identique quel que soit le mot clé recherché (http://search1-2.free.fr/google.pl). La méthode "POST" est rédhibitoire pour l'indexation des pages dynamiques puisqu'une seule url est proposée aux robots pour chaque page. L'adresse des documents n'est donc plus différentiatrice de leur contenu... Dans une url de site dynamique : - Le point d'interrogation (?) va donc signifier un passage de paramètres à un programme. - L'esperluette (&) va séparer les différents paramètres, et leur valeurs, entre eux. Voici quelques exemples (réels) d'urls dynamiques : http://www.nova-cinema.com/main.php?page=search.en.htm http://canadapost.internic.ca/search.asp?lang=fr http://www.rcsec.org/ns/french/search.cfm?V=search http://www.gladnet.org/index.cfm?fuseaction=research.search&CFID=145633&CFTOKEN=178 http://c.ekzay.org/codemaster/tdj/modules.php?op=modload&name=Search&file=index On pourrait ainsi multiplier les exemples à l'infini. Retenons, pour l'instant, qu'une url dynamique contient un point d'interrogation (?) qui marque le début du passage de paramètres à un programme, chacun des ces paramètres étant séparé par une esperluette (&). Le plus souvent, les sites dynamiques sont créés sur la base de technologies de programmation comme PHP, ASP ou CFM. Mais ils peuvent également être bâtis au travers de produits propriétaires (qui poseront plus ou moins de problèmes supplémentaires) comme Lotus Notes, Vignette, Broadvision, etc. Pourquoi les moteurs de recherche n'indexent-ils pas les sites dynamiques ? Le fait que les urls dynamiques aient un format spécifique ne nous explique pas pourquoi elles sont refusées par les moteurs de recherche. Il y a en fait plusieurs explications à cela : Page 9 © Abondance.com - Lettre "Recherche & Référencement" – Juin 2004 - Tout d'abord, les robots ne savent faire, grosso modo, que deux choses : lire, puis stocker, du code HTML et suivre des liens. Ils ne savent pas taper des mots clés dans des formulaires pour obtenir des pages de résultats. Il sera donc difficile, pour les robots des moteurs, d'indexer des pages de résultats de Google, par exemple, si la seule façon d'afficher ces dernières consiste à taper des mots clés dans un formulaire (en revanche, ils sauront suivre un lien qui pointe sur une de ces pages et contenant, donc, les paramètres de la recherche dans leur url)... - Le nombre de pages créées "à la volée" par un site dynamique peut être quasi infini. En effet, prenez un catalogue du type de ceux d'Amazon ou de la Redoute, multipliez le nombre d'articles par le nombre d'options possibles (délai d'envoi, couleur, taille pour des vêtements, autres possibilités diverses et variées) et vous obtenez rapidement, pour un seul site, plusieurs centaines de milliers, voire millions de pages web potentielles présentant chaque produit de façon unique. Difficile, pour un moteur, de les indexer toutes ou, en cas contraire, de savoir où s'arrêter. - Un site web dynamique a la possibilité de créer, en quelques secondes, des milliers de pages "à la volée". Il s'agit également là d'un système à haut risque pour ce qui concerne le spam contre les moteurs. Dans ce cas, ces derniers "se méfient" et, parfois, optent pour l'option la moins risquée... Ils préfèrent ne prendre en compte aucune page plutôt que de courir le risque de devenir un "réservoir à spam" au travers de techniques de création incessante de pages... un peu trop optimisées... - Une même page, proposant le même contenu, peut être accessible à l'aide de deux urls différentes (ce problème est notamment crucial en ce qui concerne les identifiants de session, voir plus loin). Cela risque d'être problématique pour un moteur, qui devra alors mettre en place des procédures de "dédoublonnage" qui peuvent s'avérer complexes... - La longueur excessive de certaines urls, passant de nombreux paramètres, peut également poser des problèmes aux moteurs. D'autre part, certains caractères apparaissant des ces adresses (#, {, [, |, @, etc.) peuvent également parfois être bloquants, tout comme les lettres accentuées, peu fréquentes dans les urls statiques, qui peuvent causer des soucis de codage. Certains problèmes posés par les sites web dynamiques sont appelés "spider traps" : il s'agit de pages mal reconnues par les "spiders" des moteurs, qui s'y perdent parfois dans des boucles infinies et indexent alors des milliers de documents différents représentatifs de quelques pages web uniquement. Quels formats sont rédhibitoires ? Comment un moteur de recherche réagit-il face à une page dynamique ? Il y a de cela quelques mois, voire quelques années, elles étaient purement et simplement ignorées. Pour certains moteurs, les pages en PHP, ASP ou CFM étaient bannies, quelle que soit leur forme. Heureusement, cette période est aujourd'hui révolue... Le simple fait d'avoir été créée dans l'un de ces langages de programmation n'est plus rédhibitoire. Ouf... En effet, à l'heure actuelle, les moteurs de recherche reconnaissent de façon bien plus optimale les pages dynamiques. Mais la situation n'est pas encore idéale et certains blocages sont encore présents. Globalement, il en existe deux très importants : le nombre de paramètres passés dans l'url et l'identifiant de session. Nombre de paramètres passés dans l'adresse Dans un premier temps, il semblerait que les urls contenant un ou deux paramètres ne posent pas (plus) de problèmes aux moteurs. Exemples d'adresses aujourd'hui acceptées par ces derniers : http://www.sitedynamique.com/search.cgi?kw=motcle http://www.sitedynamique.com/search.cgi?kw=motcle&langue=fr Ce fait est avéré sur des moteurs comme Google et Yahoo!, par exemple. En revanche, jusqu'en 2003, ce type d'url (passage de plus de deux paramètres dans l'adresse) était réfusé : Page 10 © Abondance.com - Lettre "Recherche & Référencement" – Juin 2004 http://www.sitedynamique.com/search.cgi?kw=mc&langue=fr&zone=france http://www.sitedynamique.com/search.cgi?kw=mc&langue=fr&zone=france&codage=ISO-8859-1 Il semblerait, cependant, que la situation s'améliore de ce côté. On voit de plus en plus de pages possédant trois, quatre, voire plus de paramètres dans leur url présentes dans les index respectifs de Google et de Yahoo!. Cependant, même si cette situation est meilleure en 2004, elle reste encore bloquante dans de nombreux cas. Il vous faudra donc en tenir compte lors la mise en place de votre site afin de passer le moins de paramètres possible dans vos adresses. Allez au strict minimum. Pour l'instant, on peut encore estimer que le chiffre de deux paramètres est un maximum... Au delà, il vous faudra envisager une solution technique adéquate (voir nos articles prochains). L'identifiant de session Le site web sur lequel vous naviguez a souvent besoin de vous "tracker", c'est-à-dire de suivre votre navigation au travers de ces pages. Exemple typique : une boutique en ligne qui doit se souvenir en pemanence de ce que vous avez mis dans votre "caddie virtuel". Il existe deux manières principales d'effectuer ce type de mémorisation de vos visites : le cookie et l'identifiant de session. Dans ce dernier cas, celui qui nous intéresse ici, un numéro vous est attribué à un moment donné (ce peut être dès la page d'accueil, mais ce n'est pas obligatoire). Ce numéro, unique, sera représentatif de votre visite et sera répété dans les urls de chacune des pages que vous affichez sur votre navigateur lors de votre visite. Une fois celle-ci terminée, l'identifiant est abandonné. La même page aura donc un identifiant différent, donc une url différente, si vous revenez la voir, par exemple, le lendemain... Cet identifiant est donc attribué à UN internaute donné pour UNE visite donnée. Le paramètre d'identifiant de session, présent dans l'adresse de la page, peut prendre plusieurs noms, comme "id", "session_id", "sessionid", etc. Voici quelques exemples de telles urls : http://delhaizewineworld.belbone.be/.../dossiers/_fr/summary.asp? dosid=24&sessionID=1637237328&language=6 http://www.maporama.com/share/default. asp?language=fr&SESSIONID=125566878 http://achat.webguideauto.com/index.php3?session_ id=484590mJhvygHtE9jUHqQA256GdsiyVSGUTvxs54WSvEtvPJPARpcC0 http://www.luminus.be/Algemeen/FR/ FR?$SESSIONID$=-6471781313463408975 Etc. Ce paramètre est redoutable pour les moteurs, car cela signifie qu'un numéro de session est indiqué dans l'url pour chaque visite, donc pour chaque prise en compte par ses robots. Si Googlebot (le robot de Google) vient chaque jour indexer une même page, un identifiant de session lui sera attribué pour chaque visite, donc une page identique aura, chaque jour, une adresse différente... On comprend que cela pose quelques problèmes, voire quelques casse-tête sérieux, aux moteurs qui préfèrent, la plupart du temps, ignorer totalement ces pages s'ils repèrent dans leur adresse la mention "sessionid" ou un terme approchant, bref s'il y détectent un identifiant de session. On trouve cependant, dans les index des moteurs, quelques-unes de ces pages. Tapez des requêtes comme "inurl:session_id" ou "inurl:sessionid" sur Google et il vous renverra quelques milliers, voire dizaines de milliers de pages. Ceci dit, il est clair que l'identifiant de session est un problème assez important et bloquant pour les moteurs, certainement l'un des plus bloquants à l'heure actuelle. Certains sites contournent le problème, cependant, en adoptant en majorité trois stratégies différentes qui peuvent s'avérer complémentaires : Page 11 © Abondance.com - Lettre "Recherche & Référencement" – Juin 2004 - Le fait d'appliquer un numéro de session le plus tard possible dans la navigation (donc en évitant ce type de système sur la page d'accueil, la page de présentation des produits et en ne l'appliquant - par exemple - qu'à partir du moment où une réelle vente est en cours). - Le fait de plutôt utiliser les cookies, qui permettent également ce type d'action et posent moins de problèmes aux moteurs. Mais cela pose, ou peut l'imaginer, de nombreux problèmes techniques si le site a été réalisé, au départ, en tenant compte des identifiant de session... Il n'est pas toujours simple de revenir en arrière sur ce point. - Le passage à un système d'"url rewriting" qui peut, dans certains cas, résoudre quelques problèmes (voir la troisième partie de cet article). Conclusion On peut dire que, depuis un à deux ans, les moteurs de recherche ont grandement amélioré la prise en compte des pages dynamiques. Cependant, celles-ci restent encore un véritable facteur bloquant dans certains cas (identifiant de sessions, sites en technologies propriétaires, nombre de paramètres trop important dans l'url, etc.). Aussi, il est souvent nécessaire de passer par des stratégies spécifiques pour bien référencer ces sites. Dans la deuxième partie de cet article, nous verrons les différentes solutions proposées par les sociétés de référencement actuelles. Dans la troisième partie, nous ferons un "focus" sur les techniques d'url rewriting, qui résolvent bon nombre de problèmes. Enfin, sachez que nous lançons d'ores et déjà des pistes auprès des moteurs de recherche pour obtenir des réponses les plus précises possibles à ce sujet. Au mois prochain... Page 12 © Abondance.com - Lettre "Recherche & Référencement" – Juin 2004 Les raccourcis de recherche sur Google, Yahoo! et les autres : la fonction calculatrice Retour au sommaire de la lettre Savez-vous que Google, Yahoo! et d'autres outils de recherches proposent de très nombreuses fonctionnalités de recherche sous la forme de raccourcis à saisir dans le formulaire de recherche ? Nous allons les explorer dans cette série d'articles, classifiés par grands domaines d'utilisation. Nous commençons avec la fonction "calculatrice", extrêmement puissante chez Google, un peu moins chez ses concurrents, Yahoo! et AllTheWeb... Les moteurs de recherche Google et Yahoo! vous proposent bon nombre de raccourcis de recherche qui peuvent vous faire gagner du temps, toujours précieux, dans vos investigations sur le Web. Premier exemple avec la fonction "Calculatrice", souvent très puissante dans ses fonctionnalités, notamment chez Google. A notre connaissance, trois moteurs majeurs proposent cette fonctionnalité : Google, Yahoo! et AllTheWeb. Nous allons explorer, dans cet article, les possibilités que ces trois leaders proposent. Les exemples, proposés dans le tableau ci-dessous dans la colonne de droite, doivent être saisis directement dans le formulaire de recherche. Exemple : Voici la liste des fonctionnalités prises en compte par la calculatrice des différents moteurs de recherche présentés : Fonction Infos complémentaires Addition 12+34 12+34 12+34 Soustraction 457-345 457-345 457-345 Division 456/3 456/3 456/3 Multiplication 23*890 23*890 23*890 Exposant Exemple : 45 à la puissance 3 : 45^3 ou 45**3 Pourcentage 12% of 456 Factoriel 5! Racine carrée sqrt 64 ou sqrt(64) Racine 5th root of 32 45^3 Page 13 © Abondance.com - Lettre "Recherche & Référencement" – Juin 2004 Logarithme (base 10) log 100 Logarithme (base 2) lg 1024 Logarithme népérien ln 22 Puissance exp 2 Fonctions trigonométriques : sin, cos, tan, csc, sec, ctn sin(5) Fonctions trigonométriques inverses : arcsin, arccos, arctan, arccsc, arcsec, arcctn arcsin(5) Fonctions trigonométriques hyperboliques : sinh, cosh, tanh sinh(4) Reste d'une division (modulo) 100 mod 8 ou 100 % 8 Utilisation de parenthèses Exemple : (45-6) + (81/9) OUI OUI OUI Premier constat : les calculatrices proposées par Yahoo! (http://search.yahoo.com/) et AllTheWeb (http://www.alltheweb.com/) sont très limitées en fonctionnalités : addition, division, multiplication, soustraction uniquement, plus l'exposant pour AllTheWeb. En tout cas, ces deux outils de recherche ne vont pas plus loin dans leur aide en ligne. Bref, cela ne servira vraiment qu'en cas de dépannage... Notons également que Ask Jeeves (http://www.ask.com/) propose des modules de conversions, qui feront l'objet d'un prochain article, mais pas de calculatrice. Attention également : la calculatrice de Yahoo! n'est disponible que sur le site américain du portail. Le site français (http://search.yahoo.fr/) semble ignorer toute demande de ce type... Il est évident, à la lecture du tableau ci-dessus, que la calculatrice de Google est bien plus sophistiquée que celle de ses concurrents (on sent bien ici que le staff de développement du moteur est truffé de diplômés universitaires avec des CV longs comme le bras... ;-))). Nous n'avons, d'ailleurs, pas indiqué dans ce tableau toutes les possibilités de cette calculatrice. Elle propose également des fonctions statistiques, mathématiques, des constantes comme Pi, etc. Vous pouvez utiliser des nombres en bases décimale, hexadécimale, octale ou binaire. Si vous désirez en savoir plus à ce sujet, explorez l'aide en ligne fournie par Google, elle est très complète : http://www.google.com/help/calculator.html Alors, cette calculatrice est-elle intéressante et ne trouve-t-on pas mieux sur le Web ? Si, certainement, il existe de nombreux logiciels de ce type, téléchargeables le plus souvent gratuitement et qui pourront vous aider pour aller plus loin dans vos calculs, plus ou moins sophistiqués. On en trouve près de 150 sur le site Telecharger.com : http://telecharger.01net.com/windows/Bureautique/calculatrice/ D'autres calculatrices existent en ligne, directement sur le Web, elles sont facilement identifiables (vous en trouverez notamment bon nombre aux adresses http://www.calculator.com/ et http://www.calculator.org/). Page 14 © Abondance.com - Lettre "Recherche & Référencement" – Juin 2004 N'en n'oubliez pas pour autant qu'il existe de très bonnes calculatrices bien moins virtuelles dans le commerce également ;-)) Il n'en reste pas moins vrai que la calculatrice de Google, notamment, est très utile en dépannage, lorsque vous êtes en train de rechercher de l'information sur le Web et que vous avez besoin d'effectuer rapidement un calcul. Un peu comme la calculatrice présente sur votre téléphone portable ou votre PDA, qui vous aide bien lorsque vous faîtes vos courses :-) Si vous avez envie d'en utiliser une, choisissez donc celle de Google, c'est de loin la plus complète ! Page 15 © Abondance.com - Lettre "Recherche & Référencement" – Juin 2004 Laurent Baleydier (Kartoo) : "Google ne satisfait pas le cerveau droit" Retour au sommaire de la lettre Laurent Baleydier, créateur du métamoteur cartographique Kartoo, tente, dans cet article, de mobiliser ses deux hémisphères cérébraux pour nous faire comprendre pourquoi il faut en faire de même pour mieux rechercher l'information sur le Web et pourquoi Google ne s'intéresse qu'à la partie gauche de notre cortex. Un vibrant plaidoyer pour les interfaces cartographiques... Comment mobiliser toutes nos aires cérébrales pour chercher l'information ? Le leader des moteurs de recherche a su imposer une interface simple et dépouillée où le texte est roi. A la base de ce succès, on trouve également la pertinence des résultats et la rapidité d'affichage. Pourtant, ces trois qualités - simplicité, pertinence, rapidité - ne semblent s'adresser qu'à ce que l'on nomme communément " le cerveau gauche ", c'est-à-dire les fonctions cérébrales spécialisées dans la gestion des symboles (chiffres et lettres en particulier), la logique, l'organisation, l'intellect. Convenant à ceux qui utilisent préférentiellement leur cortex cérébral gauche, Google ne satisfera jamais que 50% de la population mondiale des internautes : les cerveaux droits sont oubliés ! Lorsque l'on regarde l'interface de Google, on s'aperçoit qu'elle est parfaitement adaptée aux aires cérébrales gauches : - Seul le logo du moteur vient s'immiscer au milieu du texte et lui-même est constitué de lettres. Le nombre de résultats est mis en valeur et les numéros des pages suivantes occupent le bas de l'écran. Quant au temps de réponse, il est indiqué au centième de seconde près ! - Les paragraphes des résultats sont classés et numérotés, l'organisation de la page est parfaitement régulière, comme dans un tableau. - La saisie des requêtes respecte la logique mathématique booléenne. Je pourrais évoquer aussi la syntaxe avancée, le respect des normes HTML, les raccourcis claviers, etc… on dirait que l'ergonomie a été inventée par un programmeur pur et dur ! Et c'est le cas bien sur ;-) Et ça marche ! La présentation de Google est parfaite… pour les informaticiens car ils font de préférence fonctionner leur cerveau gauche : ils maîtrisent la lecture et sont capables de déplacer rapidement leur regard d'un paragraphe à l'autre pour saisir la phrase qu'ils recherchent ; ils sont habitués aux syntaxes complexes et aux raccourcis claviers qui leur font gagner de précieuses secondes ; tout élément graphique ou de convivialité devient à leur yeux totalement superflu dans la mesure ou ces éléments pourraient perturber l'organisation rigoureuse de la page. En fait, seule la fonction "images" vient réconcilier pas mal de "cerveaux droits" avec Google. Mais comment le moteur aurait-il pu présenter les résultats de ces recherches graphiques autrement qu'avec des vignettes en lignes successives et monotones ? Des feux rouges et des compte-tours pour les moteurs ? Et pourtant, les éléments visuels autres que le texte sont parfois grandement utiles. Lorsque vous arrivez à un carrefour au volant d'une voiture, le système tricolore vert-orange-rouge est tout de même plus pratique que des écriteaux avec des phrases pour nous expliquer qu'il faut s'arrêter… Si l'on poursuit l'analogie avec la voiture, le compte-tours permet de savoir rapidement si le "moulin" va trop vite. Pour un moteur de recherche, on pourrait très bien imaginer un quadrant avec le Page 16 © Abondance.com - Lettre "Recherche & Référencement" – Juin 2004 nombre de résultats trouvés et une zone rouge pour signaler qu'il faut préciser sa recherche. L'information pictographique peut aussi permettre un gain de temps, mais elle doit être accompagnée d'une légende (la bulle d'aide est une bonne solution) ou d'un apprentissage comme pour le code de la route. Les images sont également utiles : les copies d'écrans miniatures d'OpenThumbShots font appel a notre mémoire visuelle… et donc a notre cerveau droit. Une présentation visuo-graphique, et encore mieux visuo-spatiale, condense l'information dans le temps, puisque notre cerveau est alors capable de saisir de nombreuses données en un instant (voir ci-contre un moteur de recherche immobilier). Le temps de chargement est aujourd'hui négligeable avec l'augmentation du débit, surtout avec les technologies d'images vectorielles. Et le temps de réponse du moteur - qui nous a tous impressionné à la première utilisation de Google - peut rester inchangé. Autrement dit, la lecture immédiate des images par notre cerveau droit fait gagner bien plus de temps que l'on peut en perdre lors du chargement. Parfois même, le gain est spectaculaire comme pour les données géographiques : à l'évidence, il est plus aisé d'utiliser un plan d'accès qu'un descriptif de localisation (voir l'excellent map24.com). Autre exemple : lorsqu'on veut décrire dans un rapport écrit une famille plutôt complexe (parents divorcés, remariés plusieurs fois, avec les enfants de chaque foyer), la lecture du paragraphe de présentation devient rapidement rébarbative car c'est tout simplement incompréhensible ! C'est pourquoi a été inventé le "génogramme", schéma spatial ordonné par des règles, un code, qu'on apprend vite et qui permet de visualiser la constellation familiale, même très étendue, d'une façon immédiate. Notre cortex droit est un expert en gain de temps pourvu qu'on lui propose un peu de gymnastique ! Tout est dans la requête... Que dire alors de la pertinence de Google ? Tout d'abord qu'elle relève aujourd'hui du passé car d'autres moteurs de recherche se hissent au niveau du leader. Et même s'ils ne l'ont pas égalé, qui peut faire aujourd'hui la différence entre un outil leader qui propose 63% de bonnes réponses et un challenger qui en propose 60% ? De toutes façons, cette fameuse pertinence dépend de la personne qui fait la recherche, du contexte, des pages déjà consultées, du lieu de connexion, etc… Les moteurs de recherche travaillent donc tous sur la personnalisation (Ujiko, Meceoo, GoogleLabs), la mémorisation (Eurekster), la géolocalisation (Mirago), la thématisation. Mais la pertinence dépend surtout de la requête : si elle est imprécise, le moteur de recherche doit proposer différentes directions pour orienter l'utilisateur (Vivisimo, Exalead). Et c'est là que notre sens de l'orientation - spécialité de notre cerveau droit - a un rôle essentiel à jouer. Pour cela, il suffit de transformer notre liste numérotée en une carte. On passe donc d'une information linéaire que l'on pourrait représenter sur un axe, à une information en deux dimensions. Concrètement, les résultats qui concernent les mêmes thèmes seront très proches sur la carte : on parle de proximité sémantique. Notre hémisphère droit pourra donc nous guider directement vers la "région thématique" sans perdre de temps avec les résultats qui ne concernent pas notre intérêt du moment. Ces systèmes de cartographie d'information, connus du grand public seulement à travers des métamoteurs comme KartOO, intéressent de plus en plus les entreprises. La cartographie est en effet très efficace lorsque les données sont liées par de nombreux critères. Par exemple, dans le domaine des ressources humaines et des CVthèques, il est intéressant d'obtenir des cartes sur lesquelles les CV qui concernent des expériences similaires se retrouvent proches sur l'écran. L'outil peut aussi servir à trouver des réseaux de compétences ou des convergences de Page 17 © Abondance.com - Lettre "Recherche & Référencement" – Juin 2004 motivation car la carte évoque plus la notion d'équipe et de maillage. De même, pour un outil de recherche d'expertise, on peut placer des experts sur la carte et les relier par leurs compétences, par leurs projets ou même des liens de type "qui connaît qui ?". L'intérêt stratégique est de pouvoir trouver LE bon profil par l'intermédiaire d'une ou deux personnes. Dans ces exemples, la cartographie est bien plus qu'une interface originale destinée aux artistes de la toile. Combinée aux gains de visualisation cités plus haut, elle permet d'analyser rapidement l'information disponible et surtout d'orienter les utilisateurs vers les requêtes et les critères qui leur permettront d'affiner leur recherche et de trouver l'information en 2 clics au plus. Les moteurs de recherche actuels ont donc tout intérêt à faire fonctionner notre cerveau en réseau : - L'hémisphère droit pour orienter rapidement l'utilisateur vers ce qui l'intéresse. - L'hémisphère gauche pour analyser en détail les données lorsque la recherche a abouti à un très petit nombre de résultats. Aujourd'hui, ces outils sont conçus et réalisés par des informaticiens. Ils répondent donc parfaitement à leurs préférences et habitudes cérébrales. Google les satisfait surtout par sa syntaxe d'interrogation qu'ils maîtrisent. Ils savent trouver le mot juste ou la bonne combinaison de mots qui va les conduire à un petit nombre de résultats. Les autres utilisateurs ? Ils doivent apprendre à faire la même chose, même s'ils ne possèdent pas les mêmes facilités, le même esprit logique. Mais demain, les leaders d'opinion du web ne seront plus forcément des informaticiens " purs " et les outils visuels (mixtes), cartographiques ou spatiaux, auront un avantage certain ;-) Laurent Baleydier, créateur du métamoteur cartographique Kartoo. Page 18 © Abondance.com - Lettre "Recherche & Référencement" – Juin 2004 PRWeaver, un outil qui affiche le PageRank des résultats de Google Retour au sommaire de la lettre La société française AgentWebRanking, déjà créatrice d'un logiciel de suivi de référencement, va bientôt proposer le logiciel PRWeaver qui allie les résultats de Google au PageRank des liens proposés. Nous avons pu le tester. Voici, en avant-première, des copies d'écran du logiciel ainsi qu'un descriptif de ses principales fonctionnalités. Le logiciel PRWeaver, qui mixe savamment les résultats de Google - au travers de l'API du moteur avec les notions de PageRank (PR pour les intimes...), sera disponible en téléchargement, dans sa version "beta", d'ici quelques semaines. Il a été développé par une équipe comprenant les développeurs des outils et sites AgentWebRanking, Stats-Reports et WebRankInfo. Nous avons pu le tester (merci à ses concepteurs pour nous avoir permis ce pré-test !). Voici, en avant-première, quelques copies d'écran qui vous montreront toutes les possibilités de ce logiciel qui devrait vous être d'une grande utilité, notamment pour vos recherches et échanges de liens... Installation Rien à redire à ce niveau. L'installeur est très simple d'utilisation. Notons cependant que l'outil nécessite de disposer d'une clé API Google. Ces clés sont disponibles gratuitement auprès du moteur de recherche (http://www.google.com/apis/). Il s'agit donc d'une simple démarche administrative qui se règle en quelques minutes. Parmi les pré-requis, vous devez également disposer, sur votre PC, du navigateur Microsoft Explorer équipé de la barre d'outils Google (dans la version qui affiche le PageRank). Enfin, il nécessite une connexion Internet lors de son utilisation. Recherche simple Une fois la clé API saisie, l'interface suivante vous est proposée : - En haut d'écran : l'interface qui va vous permettre d'interroger Google au travers de l'outil. - En bas d'écran : les résultats et rapports de recherche. Première possibilité : la "recherche simple" : Page 19 © Abondance.com - Lettre "Recherche & Référencement" – Juin 2004 L'outil simule ensuite une recherche sur Google au travers des mots clés saisis dans le formulaire ci-dessus. PRWeaver utilise les "Google APIs", bibliothèque de fonctions mise à la disposition des développeurs par Google pour effectuer ce type d'outils. Les résultats sont pris en compte sur un certain nombre de pages de résultats du moteur (ici "3") et peuvent être affichés "tels quels" (tels qu'ils sont renvoyés par Google) ou triés par PageRank décroissant (boîte à cocher optionnelle). Une fois la recherche effectuée, les résultats sont proposés en bas d'écran, par famille de PageRank : Dans notre cas, les 30 premiers résultats de Google contiennent 15 pages ayant un PR de 6, 6 ayant un PR de 5, etc. Un clic sur le lien "recherche simple", en haut d'écran, donnera les résultats suivants, soit la liste de liens fournie par Google, mais à laquelle le logiciel a ajouté le PR de chacune des pages proposées : Page 20 © Abondance.com - Lettre "Recherche & Référencement" – Juin 2004 Petite astuce : si vous saisissez la requête site:www.votresite.com, PR Weaver va vous donner tous les PageRank de vos pages dans Google. Pratique... Recherche avancée La recherche avancée du logiciel permet d'effectuer des requêtes dans le titre et/ou l'url et propose également une fonctionnalité de recherche par PageRank minimum et maximum : Les résultats sont ensuite affichés de façon similaire à ceux de la recherche simple. On peut identifier, au travers de cette zone, une utilisation très intéressante de PRWeaver : Cet outil permet de chercher les pages susceptibles de devenir des nouveaux "backlinks" (voir plus loin). La page "idéale" qui pourrait mettre en place un lien vers votre site est une page à fort PR, traitant du même thème que le vôtre, et qui propose déjà d'autres liens. Voici comment en identifier : - Pour trouver des pages du même thème, il suffit de taper un mot-clé ou une phrase de recherche. - Pour trouver des pages affichant déjà des liens, il suffit par exemple d'indiquer "liens" ou "partenaires" dans le champ "qui contient le mot" et comme emplacement "dans le titre" ou "dans l'URL". - Pour cibler en premier les pages ayant un bon PageRank, il suffit d'indiquer un PageRank minimum. Cette technique vous permet de trouver des pages qui peuvent devenir des nouveaux backlinks, et qui ne sont pas forcément dans les backlinks de vos concurrents. Page 21 © Abondance.com - Lettre "Recherche & Référencement" – Juin 2004 PageRank d'URL Cette fonctionnalité vous affiche le PageRank d'une suite de pages dont vous avez donné l'url. Exemple : Le rapport généré est de la forme : Le PageRank est affiché par groupe (ici, les trois sites demandés ont un PR de 7) ou en liste : Page 22 © Abondance.com - Lettre "Recherche & Référencement" – Juin 2004 Recherche de backlinks Un "backlink" est une page qui a mis en place un lien vers une autre. Exemple : si la page A a mis en place un lien vers la page B, on dit que A est un "backlink" de B. PRWeaver permet d'effectuer une recherche en profondeur sur ces "backlinks" pour une page donnée. Le logiciel fournira alors la liste des pages ayant mis en place un lien vers ce document, avec leur PageRank respectif : Page 23 © Abondance.com - Lettre "Recherche & Référencement" – Juin 2004 Mais également sous forme de listes, plus "classiques" : Recherche avancée de backlinks Ce type de recherche propose également une zone avancée : Page 24 © Abondance.com - Lettre "Recherche & Référencement" – Juin 2004 On peut, là aussi, effectuer des recherches par PageRank décroissant ou non, avec une fourchette de valeurs, mais également ignorer les pages internes du site ou du sous-domaine (actu.votresite.com par exemple). L'affichage est ensuite similaire à celui de la recherche simple. Fonction très intéressante : l'outil peut afficher le texte du lien qui pointe vers vos pages ou le texte alternatif aux images (attribut "alt" des balises "img"). Très utile, notamment si vous êtes la victime d'un Google Bombing (voir lettre R&R du mois de mai 2004)... ;-) Dans ce cas, l'information est fournie sous chaque page de résultat. Exemple : Autres fonctionnalités L'outil PRWeaver permet également d'exporter les résultats et rapports aux formats CSV ou HTML. Il est également possible de configurer un certain nombre de données comme le nombre de recherches simultanées, le délai d'attente, la langue, les options à utiliser sur Google par défaut, etc. Conclusion Le logiciel PRWeaver (ou, tout du moins, la version qui nous a été donnée de tester, qui n'était pas la version finale) est très intéressant et propose des fonctions qui n'existent pas, à notre connaissance, sur le Web actuel, allant bien plus loin que ce que peut proposer un site comme Prog (anciennement Proogle), disponible à l'adresse http://www.webmasterbrain.com/prog/. PRWeaver va incontestablement plus loin que tout ce que nous avons identifié d'approchant pour l'instant sur Page 25 © Abondance.com - Lettre "Recherche & Référencement" – Juin 2004 le Web. Il deviendra certainement un "must" pour tous ceux qui établissent des stratégies avancées d'échanges de liens avec des sites à fort PageRank. Il permet non seulement d'auditer le PageRank des pages de votre site, mais également de celles de vos concurrents, d'identifier de nouveaux "backlinks" potentiels et bien d'autres possibilités encore... D'autre part, le fait qu'il utilise les Google Apis et demande la clé de chaque utilisateur pour fonctionner le rend conforme aux préconisations du moteur. L'outil devrait être disponible gratuitement et prochainement en téléchargement (sur le site http://www.prweaver.com/), pour sa version "beta". La version finale devrait être commercialisée par la suite, mais son coût ne semble pas avoir été encore défini... Page 26 © Abondance.com - Lettre "Recherche & Référencement" – Juin 2004 Bruits et chuchotements Retour au sommaire de la lettre Une rubrique qui regroupe tous les bruits et rumeurs dans le (petit) monde des outils de recherche mondiaux et francophones. Rien n'est obligatoirement vérifié, mais toutes les infos sont données... de source sûre ;-) -> Le procès entre Google et le site "Bourse des Vols" vient d'être renvoyé en appel. Il ne devrait pas y avoir de décision de prise avant 2005 sur ce dossier... - Bientôt le retour d'un grand nom "historique" dans le domaine des moteurs de recherche ? c'est possible. Nos "fins limiers" sont sur la piste :-) Plus d'infos très bientôt... -> Début juin a eu lieu à Londre une conférence SES (Search Engine Strategies) qui a donné l'occasion à Matt Cutts (Google) de fournir quelques indications sur l'algorithme de Google : - L'indice de densité optimal pour un mot clé dans une page oscillerait entre 1,6 et 2%. - Google ne tiendrait compte du texte de l'attribut ALT des balises images que lorsqu'il y aurait un lien sur cette image. - Google ferait actuellement la guerre aux "farm links" (page proposant des multitudes de liens sans rapport les uns avec les autres). - A PageRank (PR) égal, il vaut mieux obtenir un lien depuis un site leader dans son domaine (domaine identique à celui du site "pointé") que depuis un site très généraliste. - Les liens sortants ne pénalisent pas les pages web et leur PR, ils seraient même plutôt bien considérés par Google. - Les sites qui, dès leur lancement, bénéficient de liens textuels très nombreux et identiques risquent d'être pénalisés (tentative de Google Bombing ?). D'autre part, il semblerait que Yahoo! serait capable de lire les feuilles de style, mais pas Google. Vous en trouverez également un résumé, plus développé, ici : http://www.webrankinfo.com/analyses/articles/ses-londres-juin-2004.php -> Findwhat a annoncé qu'il allait lancer une offre de liens sponsorisés en marque blanche aux Etats-Unis et en Europe dans les mois qui viennent. Des portails pourront ainsi vendre des liens sponsorisés à leur nom, sans que la "marque" de Findwhat ou d'Espotting (en Europe) n'apparaisse à l'annonceur. Plusieurs portails ont déjà accepté cette offre. Findwhat envisagerait également l'extension en Europe de son service de Pay-percall lancée aux Etats-Unis en avril dernier (http://actu.abondance.com/2004-15/findwhat.html). D'autre part, il se confirme que la fusion d'Espotting avec Findwhat devrait être effective en juillet prochain. -> Le 30 juin 2004 sera lancé le site http://www.bases-publications.com/. Ce site contiendra notamment, en accès libre, le texte intégral des articles publiés dans les deux lettres BASES et NETSOURCES (depuis 2001 dans un premier temps), avec un "embargo" d'un an. La recherche se fera gratuitement sur tous les articles parus. Le texte intégral des articles de plus d'un an sera visualisable gratuitement. Pour les articles de moins d'un an, seuls le titre et la source seront visualisables. Mais une sélection d'articles récents sera proposée en accès libre. La recherche pourra se faire par les sommaires des numéros, ou par mots sur le texte intégral. Les lettres BASES et NETSOURCES sont deux lettres sur la recherche d'information, notamment sur le Web, éditées par la société FLA Consultant. -> Un nouveau type de Google Bombing ? Au mois de mai, Philipp Lenssen, propriétaire d'un weblog sur Google a essayé de créer, sur son site, des liens vers des sites à fort PageRank, contenant un paramètre dans son url. Son test : http://www.cnn.com/?-gmail-account. Le but était de voir si le site de CNN sortait bien pour l'expression "gmail account". Et il semblerait que cela marche : le site de CNN est ressorti rapidement 14ème pour ces termes sur Google. Le fait de passer un tel paramètre dans l'url ne fausse pas le lien (il pointera toujours vers http://www.cnn.com/) mais permet d'intégrer de "faux paramètres". Plus d'infos ici : http://www.webproworld.com/viewtopic.php?p=103513 -> Connaissez-vous la syntaxe d'interrogation "linkdomain:" sur Yahoo! ? Elle affiche les "backlinks" (liens entrants) pointant sur toutes les pages d'un site. Elle s'intéresse donc à toutes les pages d'un site (ou d'un sous-domaine), là où la syntaxe "link:" ne prend en compte que les liens pointant vers une seule page (par exemple la page d'accueil). Très intéressant pour avoir une vision plus globale de la façon dont votre site est lié au "reste du monde". Exemple : Page 27 © Abondance.com - Lettre "Recherche & Référencement" – Juin 2004 http://search.yahoo.com/search?ei=UTF-8&fr=sfp&p=linkdomain:abondance.com A notre connaissance, Google n'offre pas de syntaxe équivalente... -> L'attribut "title" dans les balises de liens est-il important pour Google ? Les avis divergent sur les forums. Certains disent que ce type de lien donne un "boost" à la page distante, par exemple ici pour l'expression "moteur de recherche" : <a href="http://www.google.com" title="moteur de recherche">Google</a> Une discussion à ce sujet ici : http://www.webproworld.com/viewtopic.php?t=19528 Selon nos renseignements, il n'était pas évident que cet attribut joue un rôle crucial, ni pour la page qui le contient, ni pour la page pointée par le lien... Page 28 © Abondance.com - Lettre "Recherche & Référencement" – Juin 2004 Les nouveaux entrants dans l'annuaire des outils de recherche régionaux Retour au sommaire de la lettre Pour obtenir tous les sites : http://annuaire.abondance.com/ -> Annuaire Corrézien (région Limousin) http://www.annuaire.correzien.com/ -> Dom-Tom (région Dom-Tom) http://www.dom-tom.eu.com/ Les liens du mois (nouveaux outils ou rappel d'outils existants, sites proposant du contenu ou des fonctions intéressantes, logiciels et sites web proposant des fonctionnalités utiles) Retour au sommaire de la lettre -> Site Officiel http://www.siteofficiel.net/ Annuaire des sites officiels. -> DonkeyDo http://www.donkeydo.com/index.php Nouveau métamoteur. -> Recherche par date sur Google http://world.myvasco.com/daterange.htm Nouveau site permettant une recherche par date aisée sur Google. Voir article à ce sujet dans la lettre R&R d'avril 2004. -> Google en patois Wallon http://gogueule.site.voila.fr/gogueule.htm A décoder :-)) -> GoogleGuy en Français http://googleguy-fr.blogspot.com/ Enfin une traduction de ce que dit "GoogleGuy" sur les forums américains... Revue d'URL Retour au sommaire de la lettre -> Advanced Search Syntax with Yahoo News http://www.resourceshelf.com/archives/2004_04_01_resourceshelf_archive.html 108079678144269556 -> Getting a Great Google Description http://www.searchengineguide.com/whalen/2004/0416_jw1.html -> Why Writing Your Own Search Engine is Hard http://www.acmqueue.com/modules.php?name=Content&pa=showpage&pid=143 -> What Is Search Engine Optimization? http://www.searchengineguide.com/whalen/2004/0517_jw1.html -> The Art of Bid Management http://www.searchengineguide.com/sullivan/2004/0517.html -> Les moteurs de recherche (ambassade de France en Israël) http://www.bulletins-electroniques.com/israel/rapports/SMM03_075/ Page 29 © Abondance.com - Lettre "Recherche & Référencement" – Juin 2004 -> Yahoo Reawakens The Paid Inclusion Debate http://searchenginewatch.com/searchday/article.php/3355221 -> Building Nutch: Open Source Search http://www.acmqueue.com/modules.php?name=Content&pa=showpage&pid=144 -> An Insider's View of Microsoft's Longhorn Search http://searchenginewatch.com/searchday/article.php/3356031 -> Interview UJIKO, Nouvel Outil de Recherche http://www.revue-referencement.com/ACTUALITE/interview_ujiko.htm -> Référencement et personnalisation des outils de recherche http://www.revue-referencement.com/ENCOURS/referencement_et_personnalisation.htm -> Future of Search Will Make you Dizzy http://www.internetnews.com/ent-news/article.php/3356831 -> Maintain Your Rankings After a Redesign http://www.searchengineguide.com/whalen/2004/0507_jw1.html -> Optimize Your Entire Site For The Search Engines http://www.webpronews.com/ebusiness/seo/wpn-420040527OptimizeYourEntireSiteForTheSearchEngines.html -> Cloaking By NPR OK At Google http://searchenginewatch.com/sereport/article.php/3360681 -> Dossier Google US : les futurs gagnants, sa stratégie post-IPO, la réplique préparée par Yahoo http://www.atelier.fr/article.php?artid=27623 -> Search engines try to find their sound http://news.com.com/Search+engines+try+to+find+their+sound/2100-1032_3-5221267.html -> A ResourceShelf Interview: 20 Questions with Gary Flake, Head of Yahoo Research Labs http://www.resourceshelf.com/archives/2004_06_01_resourceshelf_archive.html 108619373518642360 -> Les outils pour mettre en place une veille stratégique http://www.zdnet.fr/techupdate/applications/0,39020852,39154629,00.htm -> Tools for Investigative Research http://www.virtualchase.com/tir/ Merci pour votre lecture... Pour toute suggestion : [email protected] Page 30