GOOGLE, UN MOTEUR DE RECHERCHE COMME LES AUTRES ?

Transcription

GOOGLE, UN MOTEUR DE RECHERCHE COMME LES AUTRES ?
M
A S T E R S
EPITA 2004
GOOGLE, UN MOTEUR
DE RECHERCHE
COMME LES AUTRES ?
Groupe 18-3
BARREZ
OUDIN
PHAM
TABLE DES MATIERES
QUI EST GOOGLE ? ...................................................................................................................................... 3
SA MISSION.......................................................................................................................................................... 3
SON POSITIONNEMENT......................................................................................................................................... 3
SES DOMAINES D’ACTIVITES STRATEGIQUES ....................................................................................................... 3
Moteur de recherche....................................................................................................................................... 3
Publicité – AdWords – AdSense ..................................................................................................................... 4
L’HISTOIRE DE GOOGLE........................................................................................................................... 6
L’ENVIRONNEMENT CONCURRENTIEL DE GOOGLE ...................................................................... 9
LES CONCURRENTS DE SON DOMAINE D’ACTIVITE STRATEGIQUE : MOTEUR DE RECHERCHE .............................. 9
Yahoo.............................................................................................................................................................. 9
Lycos............................................................................................................................................................. 10
MSN .............................................................................................................................................................. 10
LES CONCURRENTS DE SON DOMAINE D’ACTIVITE STRATEGIQUE : PUBLICITE – ADWORDS – ADSENSE ........... 11
Overture........................................................................................................................................................ 11
Espotting....................................................................................................................................................... 12
LES PLUS DE GOOGLE SUR LE MARCHE............................................................................................ 14
SES PLUS TECHNIQUES ....................................................................................................................................... 14
Durée de vie d’une requête sur Google ........................................................................................................ 14
Décomposition du processus de recherche................................................................................................... 14
La base technique de Google........................................................................................................................ 15
SES PLUS COMMERCIALES ................................................................................................................................. 18
Google face aux nouvelles technologies Web............................................................................................... 19
LES FACTEURS CLES DE SUCCES DE GOOGLE ................................................................................ 20
UNE SIMPLICITE D’UTILISATION ........................................................................................................................ 20
UN NOMBRE DE PAGES INDEXEES IMPORTANT ................................................................................................... 20
UNE RAPIDITE DES REPONSES ............................................................................................................................ 20
DES RESULTATS PERTINENTS ............................................................................................................................. 20
DES FONCTIONNALITES ORIGINALES ET PRATIQUES .......................................................................................... 20
CONCLUSION............................................................................................................................................... 22
BIBLIOGRAPHIE ......................................................................................................................................... 23
INTERNET .......................................................................................................................................................... 23
REVUES ............................................................................................................................................................. 23
ANNEXE......................................................................................................................................................... 24
Epita 2004 / Google un moteur de recherche comme les autres ?
Groupe 18-3 / BARREZ – OUDIN - PHAM
Page 2
Qui est Google ?
C’est ce que nous allons vous présenter dans ce dossier. Mais avant de commencer,
nous vous invitons à l’observer depuis chez vous ou de tout autre endroit où vous
pouvez vous connecter au réseau mondial : Internet.
Voici son adresse principale : http://www.google.com.
Mais Google dispose de nombreuses adresses, tels que www.google.fr ;
www.google.be; www.google.de . .etc.
Selon les paroles même de l’un de ses fondateurs, Sergey Brin.
« Google, c'est tout d'abord un moteur de recherche, que nous nous efforçons de
rendre le meilleur possible pour les utilisateurs. …».
Source : http://www.journaldunet.com/itws/it_brin.shtml
SA MISSION
La mission de Google est de garantir à ses utilisateurs les solutions de recherche les
plus confortables, les plus complètes et les plus précises.
SON POSITIONNEMENT
Google se positionne comme une société de services. Positionnement intéressant, car
il permet à Google d’évoluer et d’innover dans des domaines d’activités multiples et
variés.
SES DOMAINES D’ACTIVITES STRATEGIQUES
Aujourd’hui, Google dispose de deux domaines d’activités stratégiques (DAS).
Moteur de recherche
Définition : Un moteur de recherche possède un robot (appelé aussi crawler ou
spider) qui parcoure le Web. Les robots vont de liens en liens et stockent le contenu
des pages qu'ils visitent dans un index. Le moteur offre une interface d'interrogation
qui permet à l'usager de saisir des termes de recherche. Le moteur va ensuite
recherche dans son index les pages contenant ces termes de recherche. Il les classe
ensuite en fonctions de certains critères de pertinence (occurrence des mots dans la
page, présence des mots dans le titre de la page...)
Epita 2004 / Google un moteur de recherche comme les autres ?
Groupe 18-3 / BARREZ – OUDIN - PHAM
Page 3
Publicité – AdWords – AdSense
Google offre des services de publicité à tous ceux qui ont un service ou un produit à
vendre. Il permet aussi aux éditeurs de site Web de gagner un peu d’argent en
intégrant à leur site des services et des informations en ligne utiles à leurs visiteurs.
AdWords
Google AdWords permet d'atteindre les internautes au moment où ils effectuent une
recherche sur des produits et services. Les sites Web des annonceurs enregistrent
donc des visites de clients potentiels ciblés. Les sociétés qui optent pour ce type de
publicité bénéficient d’une tarification particulière dénommée - CPC - la tarification
au coût par clic. C'est-à-dire qu’elles payent pour ce service uniquement lorsque les
utilisateurs cliquent sur leur annonce. Ce mode de tarification leurs permet également
de contrôler les coûts plus facilement.
Google n’est pas le seul site web disponible. Google a donc décidé de proposer un
service permettant aux « propriétaires » de sites web de gagner de l’argent si ceux-ci
hébergent des annonces publicitaires.
AdSense
Google AdSense offre de nouvelles options permettant de générer des revenus
supplémentaires tout en rendant les sites plus utiles pour leurs visiteurs.
Parallèlement aux publicités ciblées sur les pages de contenu, les propriétaires de site
peuvent ajouter un champ de recherche Google à leur site afin d'afficher des
annonces ciblées sur les pages de résultats obtenues. Lorsque les internautes cliquent
sur ces annonces, Google les rémunère.
Deux type d’offre sont proposées, AdSense pour les pages de contenu et AdSense
pour les recherches.
•
AdSense pour les pages de contenu permet de diffuser des annonces
textuelles et illustrées en rapport direct avec le contenu des différentes pages
du titulaire du site Web. Grâce aux techniques de ciblage perfectionnées de
Google, les annonces deviennent une source d'information complémentaire
pour les internautes qui visitent le site concerné. Résultat : le nombre de
clics augmente, de même que les revenus du propriétaire du site, les clients
sont fidélisés.
•
AdSense pour les recherches, permet d’ajouter le champ de recherche de
Google à n’importe quel site. AdSense associe une technologie de recherche
puissante à une base constituée de milliers d'annonceurs, proposant des
publicités à partir de mots clés, pour diffuser des annonces textuelles ciblées
sur des pages de résultats de recherche. Ces annonces apportent des
Epita 2004 / Google un moteur de recherche comme les autres ?
Groupe 18-3 / BARREZ – OUDIN - PHAM
Page 4
informations aux visiteurs et Google rétribue le propriétaire du site pour
chaque clic sur une annonce.
Nous comprenons bien ici, comment Google gagne de l’argent. L’utilisation de son
moteur par d'autres sites et portails, comme Yahoo par exemple. - 80 clients dans 20
pays affichent les résultats de Google et grâce à la publicité.
« Les publicités sont très ciblées, elles n'apparaissent que lorsque l'on saisit certains
mots-clés, et sont très discrètes : une simple ligne de texte, pas d'images ou de
bandeaux. Environ 15% des recherches comporte de la publicité dans les résultats
Nous avons également 25.000 sites qui sont affiliés à Google et qui peuvent
comporter de la publicité. Google est le seul moteur de recherche à afficher
seulement quelques publicités courtes et ciblées. » précise Sergey Brin – cofondateur de Google –
Google étend ses activités aujourd’hui, vers la mise à disposition d’un portail de
communication dénommé www.blogger.com et met à disposition des internautes une
solution « Google Desktop Search » qui leur permet d’effectuer cette fois des
recherches sur leur propre ordinateur, et ce en utilisant la technologie de Google.
Mais ce n’est pas tous, Google déporte aussi sa technologie vers la téléphonie
portable, ainsi les propriétaires de mobile peuvent désormais questionner via des
« SMS » leur moteur de recherche préféré.
Le marché des professionnels n’est pas en reste puisque Google vend sa technologie
de recherche sur des boîtiers « dit appliance ». Ceci permet ainsi aux entreprises
clientes d’effectuer leurs recherches sur leur propre intranet mais en utilisant le
numéro un des moteurs de recherche. – Voir Annexe –
Puisque nous connaissons les raisons d’existence de cette société, il nous parait
intéressant de connaître son histoire. Qui est à l’origine de sa création ? Comment à telle été créée ?...
Epita 2004 / Google un moteur de recherche comme les autres ?
Groupe 18-3 / BARREZ – OUDIN - PHAM
Page 5
L’histoire de Google
En 1995, Larry Page et Sergey Brin, deux étudiants de l'université de Stanford, aux
Etats-Unis, se rencontrent pour la première fois. Larry a 24 ans, vient de l'université
du Michigan et visite Stanford pour un week-end. Sergey a 23 ans et est chargé par
son université de présenter les lieux au visiteur. Si le premier contact n'est pas des
plus chaleureux, les deux étudiants s'entendent sur un point : l'un des plus
intéressants challenges actuels, dans le monde informatique et notamment sur
l'Internet, est certainement d'arriver à retrouver une information donnée dans une
énorme masse de données.
Larry et Sergey continuent assidûment leurs travaux jusqu'à la mi-98. A cette date, ils
achètent un stock de disques durs à prix réduit et entassent le tout dans la chambre de
Larry. Le tout est enchâssé dans un superbe écrin en... Lego ! On peut imaginer que
l'aspect coloré du logo actuel du moteur de recherche vient de cette passion pour les
petits parallélépipèdes de couleur d'origine suédoise... La première "salle des
machines" de Google est née... Sûrs de leur succès, les deux étudiants se mettent à la
recherche de partenaires pouvant les aider dans leur tâche.
Sergey sonne à de nombreuses portes, sollicite plusieurs personnes, mais ne reçoit
que peu de réponses favorables, malgré la fièvre Internet qui touche les Etats-Unis à
cette époque. Certains doivent s'en mordre les doigts à l'heure actuelle... Un dirigeant
de portail fait même cette réponse à Sergey : « Tant que nous sommes au moins aussi
bons que nos concurrents à 80%, cela nous suffit. Nos utilisateurs n'ont pas besoin
d'outils de recherche ».
Sergey Brin contacte également David Filo, co-fondateur de Yahoo! avec Jerry
Yang, quelques années auparavant. Les deux outils de recherche ont d'ailleurs des
histoires parallèles, puisque c'est également à l'université de Stanford que ces deux
étudiants avaient créé Yahoo!, qui allait devenir en quelques années un géant du Web
mondial. David apprécie la technologie que lui propose Sergey mais lui conseille de
créer sa propre structure. "Nous en reparlerons lorsque le projet sera totalement mis
en place" lui dit-il. Ce sera effectivement le cas quelques temps plus tard....
Suivant les conseils de David Filo, Larry et Sergey décident alors de se lancer en
nom propre et cherchent quelques fonds pour créer leur entreprise. Un premier
investisseur, Andy Bechtolsheim (l'un des fondateurs de Sun Microsystems) va les
aider dans cette tâche. Larry et Sergey lui font une démo sous le porche de la maison
d'un ami, en moins d'une demi-heure et entre deux rendez-vous. Andy est
enthousiaste. Il leur demande comment va s'appeler leur entreprise. "Google", lui
répondent les deux larrons (référence mathématique, « Google » désignant le chiffre
Epita 2004 / Google un moteur de recherche comme les autres ?
Groupe 18-3 / BARREZ – OUDIN - PHAM
Page 6
1 suivi de 100 zéros). Andy signe immédiatement un chèque de 100 000 dollars au
nom de "Google Inc.". Seul problème : la société "Google Inc." n'est pas encore été
créée. Ils ne peuvent empocher le chèque. Celui-ci trône donc sur une commode
pendant deux semaines, le temps que les deux amis créent une entité juridique leur
permettant de débuter leur activité. Finalement, gonflés à bloc par ce premier succès,
ils dénichent un million de dollars pour lancer leur outil de recherche.
Le 7 septembre 1998, la société "Google Inc." ouvre donc ses portes à Menlo Park,
Californie, dans le garage d'un ami (comme il se doit pour un projet Internet qui a des
ambitions), entre une machine à laver et une autre à sécher le linge. Le premier
employé de la société est Craig Silverstein, resté depuis fidèle et aujourd'hui directeur
de la technologie du moteur.
Le site, à cette époque, traite déjà 10 000 recherches par jour. Le Web gronde et
commence à parler de Google. Les discussions vont bon train sur les forums. Le
moteur fait l'objet de plusieurs articles dans la Presse. Rapidement, la société doit
déménager à Palo Alto dans des locaux plus grands. En février 1999, elle compte 8
salariés et le site répond à 500 000 requêtes quotidiennes. La société RedHat conclut
un premier marché avec l'entreprise, qui utilisera dorénavant le système
d'exploitation Linux sur ses serveurs.
Le 7 juin 1999, les deux co-fondateurs lèvent 25 millions de dollars de capitaux
auprès de deux gros investisseurs de la Silicon Valley, Sequoia Capital et Kleiner
Perkins Caufields & Buyers. La compagnie continue de croître et crée le Googleplex,
ses locaux actuels, à Mountain View, toujours en Californie. A la fin de l'été, Google
traite trois millions de recherches par jour.
Le 21 septembre 1999, le moteur de recherche sort de sa phase de test et passe
officiellement "en production". Un moteur qui n'a, depuis, cessé de grandir. Sergey
Brin est aujourd'hui Président responsable de la technologie. Larry Page est Président
responsable produits. Ils ont été rejoints depuis par Eric Schmidt, ancien de Novell et
Sun, en tant que Président et PDG de la société, responsable de l'exploitation
quotidienne de Google."
Le déménagement dans le local actuel, Googleplex, pris place à cette période et se
singularise par des innovations au niveau de l'espace de travail et une ambiance très
informelle.
En 2000, Google devint le plus gros outil de recherche au monde, avec un index de
un milliard de pages au début de l'année.
Epita 2004 / Google un moteur de recherche comme les autres ?
Groupe 18-3 / BARREZ – OUDIN - PHAM
Page 7
Depuis le début, Google fait un gros effort pour sortir des innovations marketing et
techniques innovantes, comme les Adwords, Google Image Search, ou la Google
Toolbar.
A la fin de l'année 2000, Google se voyait le témoin de 100 millions de requêtes par
jour. Depuis, Google n'a de cesse de progresser et il domine actuellement le domaine
de la recherche sur Internet outrageusement.
Depuis plusieurs années, des rumeurs récurrentes faisaient état de projets
d'introduction en Bourse (IPO). Des rumeurs qui n'ont jamais été très fermement
démenties par Google, qui laissait entendre que l'IPO était l'une des possibilités de
développement pour l'entreprise. Cette fois-ci, le Financial Times apparaît disposer
d'éléments plus étayés. Selon le quotidien financier, qui ne précise pas la part du
capital concernée par l'opération, Google envisageait son entrée en Bourse pour mars
2004.
Toujours selon le quotidien britannique, qui cite une source proche du dossier, la
valorisation de Google pourrait s'établir dans une fourchette allant de 15 à 25
milliards de dollars. Une valorisation que certains jugeront démesurée pour une
société âgée de cinq ans et dont le chiffre d'affaires 2002 est estimé aux alentours de
300 millions de dollars (entre 700 millions et un milliard pour 2003).
Reste que cette valorisation n'a rien d'extraordinaire au regard des comparables que
sont Amazon (21,4 milliards de dollars de capitalisation boursière), eBay (35
milliards) et Yahoo (24,5 milliards). Les partisans de Google souligneront également
que le moteur de recherche, déjà rentable, ne s'introduit pas pour lever du cash mais
pour se donner les moyens de procéder à des opérations de croissance externe. Une
stratégie que le moteur vient de mettre à exécution en rachetant Sprinks, une filiale
de Primedia spécialisée dans la publicité contextuelle.
Un chose est pourtant certaine, Google est l’une des sociétés les plus convoités du
monde (Cette dernière reçoit plus de 1000 CV par jour) de par sa croissance et sa
valeur propre.
Pourtant des concurrents existent sur le marché des moteurs de recherche. Est-ce que
cette « belle histoire » humaine et économique réussira à perdurer dans le temps face
à des rivaux de tailles ?
Epita 2004 / Google un moteur de recherche comme les autres ?
Groupe 18-3 / BARREZ – OUDIN - PHAM
Page 8
L’environnement concurrentiel de Google
LES
CONCURRENTS DE SON DOMAINE D’ACTIVITE STRATEGIQUE
: MOTEUR
DE
RECHERCHE
Nous retrouvons ici tous les grands noms du marché habituellement cités lorsque l’on
parle d’Internet et plus précisément des moteurs de recherche.
Nom de la société
Nombre de pages en millions
Yahoo
1.8
Altavista
1100
MSN
500
AllTheWeb
2100
HotBot
3300
Lycos
625
Ces sociétés travaillent dans le même secteur, mais ne l’aborde pas de la même
façon. Que ce soit au niveau technique, mais aussi au niveau commercial. Ces
sociétés ont une approche différente du marché, chacune ayant comme objectif de
devenir le premier dans son domaine.
Yahoo
Pour ne parler que des majors, tels que Yahoo !, ce dernier avant d’être un portail
multiservices, est historiquement un annuaire de recherche. A la différence des robots
qui indexent les pages web, Yahoo! sélectionne « à la main » (celles des surfeurs
professionnels) des sites qui sont ensuite classés par thèmes et sous thèmes. Le
puissant moteur Google vient compléter la pertinence des résultats de l’annuaire
Yahoo! par l’exhaustivité de ses recherches.
Sur un plan plus commercial, Yahoo propose aux internautes un portail global, qui
offre de nombreux services – rechercher, s’informer, communiquer, commercer,
rencontrer, se détendre –
Yahoo concentre sa nouvelle stratégie autour de la diversification des sources de
revenus ayant vocation à offrir aux internautes des contenus et fonctionnalités à haute
valeur ajoutée.
Epita 2004 / Google un moteur de recherche comme les autres ?
Groupe 18-3 / BARREZ – OUDIN - PHAM
Page 9
Exemple : achat de Hot Job, référence américaine des offres et demandes d’emploi en
ligne, intégré maintenant au portail de Yahoo.
Afin de diversifier ses sources de revenus, Yahoo va même se positionner en tant que
société de conseil auprès de ses entreprises clientes qui souhaitent elles aussi être
présentes sur Internet sans forcement savoir par quoi ni par où commencer.
Lycos
Si nous étudions le fonctionnement de Lycos, nous pouvons dire que La structure de
base de Lycos est celle du moteur de recherche classique, avec une base de données
générée soit à travers les demandes d’insertion faites par les utilisateurs, soit par un
programme appelé spider, qui analyse automatiquement les sites Web et en recense
les pages. Cette procédure est la première de ce genre à avoir été brevetée en juin
1998.
Si lui aussi pour développer son chiffre d’affaire propose des services de publicité, il
s’agit de services quelques peu classiques et traditionnels : les bandeaux publicitaires.
Font désormais leur apparition des animations publicitaires qui parfois ne sont autre
qu’un spot publicitaire complet.
En ce qui concerne les services proposés au internautes, Lycos a su s’associer à des
partenaires tels que Caramail. Société qui propose depuis plusieurs années un service
gratuit d’e-mail.
MSN
Pour finir cette comparaison, nous avons choisi MSN, le portail élaboré par le plus
important éditeur de logiciel de la planète, Microsoft.
Il fut un temps où Microsoft comptait faire de son MS-Network (MSN) une
alternative à Internet et en même temps un moyen pour dépasser les leaders des
services on-line comme America On Line (AOL) et Compuserve.
Mais cela ne s’est pas produit car ce fut un échec commercial flagrant pour
Microsoft. Ce dernier décida alors - dû moins sur ce dossier - d’adopter une politique
de suiveur. Il se cantonna d’observer quelles étaient les tendances des services
Internet. Il développe ainsi les services que nous connaissons tous, messagerie
Hotmail, chat, etc. et surtout signe des partenariats avec des sociétés tels que
« Altavista » pour la recherche d’informations, « Yellow et White Pages » en ce qui
concerne la recherche de personnes.
Mais Google doit affronter d’autres concurrents, certes moins connus du grand
public, mais très présents si l’on prend le temps d’observer des sites tels que :
Yahoo!, Wanadoo, Voilà, MSN, Lycos, AOL, Tiscali, TF1, M6, 01net. Etc.
Epita 2004 / Google un moteur de recherche comme les autres ?
Groupe 18-3 / BARREZ – OUDIN - PHAM
Page 10
Vous l’aurez bien compris, ces concurrents sont ceux qui offrent des services de
publicité en ligne.
LES CONCURRENTS
ADWORDS – ADSENSE
DE SON DOMAINE D’ACTIVITE STRATEGIQUE
: PUBLICITE –
Nous avons vu précédemment comment Google s’est positionné sur le marché de la
publicité. Quels services Google propose en terme de publicité. Nous allons
maintenant nous intéresser à ses deux concurrents.
Nom de la société concurrente
Nombre de pages en millions
Overture
1.8
Espotting
1100
Overture
Inventeur et leader mondial de la recherche Pay-For-Performance. Il est le moteur de
recherche offrant des positions payantes le plus utilisé et diffusé.
Le Pay-For-Performance représente une solution innovante et fiable à destination des
annonceurs mais également au service des portails partenaires grâce à la pertinence
des résultats fournis aux utilisateurs. Overture délivre chaque mois des centaines de
millions de contacts ciblés aux annonceurs dans les domaines les plus recherchés sur
Internet en permettant aux annonceurs d'atteindre des clients potentiels au moment
même où ils recherchent des produits ou des services spécifiques. Overture leur offre
un retour sur investissement optimal, car ils ne payent que lorsqu'un utilisateur clique
pour accéder à leur site Web.
Le système fonctionne de la façon suivante : l'annonceur choisit les mots clés
pertinents pour son site, rédige le titre et la description correspondants, et enfin
fournit l'URL de la page de son site correspondant puis détermine le montant de son
offre. L'offre correspond au coût par clic que l'annonceur souhaite allouer à chacun
de ses mots clés.
Sur la base d'un système d'enchères, une telle offre déterminera l'ordre d'apparition
des descriptifs mots clés dans les résultats de recherche. La pertinence des mots clés
choisis et du contenu des descriptifs mots clés est contrôlée par l'équipe éditoriale
d'Overture. L'équipe éditoriale française confère à Overture France les atouts d'une
structure adaptée au marché français.
Epita 2004 / Google un moteur de recherche comme les autres ?
Groupe 18-3 / BARREZ – OUDIN - PHAM
Page 11
Les consignes de rédaction élaborées par Overture sont strictes afin de garantir aux
utilisateurs un service de recherche efficace et d'assurer aux annonceurs de meilleurs
taux de conversion. Les descriptifs mots clés apparaissent alors comme " liens
sponsorisés " sur les résultats de recherche d'Overture.fr et surtout de ses partenaires.
Le lien en première position correspond à l'enchère maximum sur le mot clé saisi, les
résultats de recherche étant classés par ordre décroissant de mises.
En 2003, Yahoo a acheté la société Oberture.
Espotting
Société d’origine britannique, c’est l'un des principaux acteurs européens des liens
promotionnels sur Internet. Il se base sur le modèle "Pay per Click", tout comme
Overture.
Les résultats des recherches sont déterminés par les offres des annonceurs sur les
mots clés révélateurs pour leur business/site, dans une enchère on-line en temps réel.
Plus l'offre est élevée, plus élevée sera la position de l'annonceur dans les résultats
des recherches. C'est un trafic "contrôlé", puisque le prix est établit par l'annonceur et
l'on paye seulement pour le trafic que l'on reçoit.
Espotting semble être nettement en avance pour ce qui concerne les internautes
européens. Le choix des bons partenaires et une offre économique clairement
meilleure, sont entrain de récompenser les efforts de l'anglais Espotting, société née
depuis peu de temps et en forte croissance.
Il est également important de souligner le moteur back-end utilisé par Espotting pour
les sites espagnols et italiens: FAST Search qui en effet est une des meilleures
sociétés produisant aujourd'hui des moteurs de recherche et qui possède la base de
données web plus complète et régulièrement mise à jour d'Internet.
Les annonceurs ont la possibilité d'utiliser un outil pour la recherche des requêtes
plus effectuées pour chaque terme proposé
Epita 2004 / Google un moteur de recherche comme les autres ?
Groupe 18-3 / BARREZ – OUDIN - PHAM
Page 12
Espotting a un réseau important.
Epita 2004 / Google un moteur de recherche comme les autres ?
Groupe 18-3 / BARREZ – OUDIN - PHAM
Page 13
Les plus de Google sur le marché
SES PLUS TECHNIQUES
Durée de vie d’une requête sur Google
La durée de vie d’une question posée au moteur de Google est normalement
inférieure à une demie seconde. Et ce malgré le nombre important de processus qui
doivent être exécutés et terminés avant que les résultats soient affichés.
Décomposition du processus de recherche
1.
Le serveur web envoie la question aux serveurs d'index. Le contenu des
serveurs d'index est semblable à l'index d'un livre - il indique quelles pages
contiennent les mots présents dans la question.
2.
La question est envoyée aux serveurs de documents, qui recherchent puis
récupère les documents concernés. Une partie de ce document est affichée
afin que l’utilisateur puisse contrôler qu’il correspond à ce qu’il recherche.
3.
Les résultats de la recherche sont transmis à l’utilisateur en une fraction de
seconde.
Epita 2004 / Google un moteur de recherche comme les autres ?
Groupe 18-3 / BARREZ – OUDIN - PHAM
Page 14
La base technique de Google
D'un point de vue technique, trois éléments sont importants :
•
Les dimensions de l'archive déterminées par le nombre de pages de l'index
•
La fréquence de la mise à jour
•
Le système de "Ranking"
L’un des point forts de Google c’est la technologie PageRank™. A ceci il associe
l’analyse de correspondance hypertextuelle.
Technologie PageRank
La formule de PageRank :
PR (A) = (1-d) + d (PR (T1) / C (T1) + ... + PR (Tn) / C (Tn))
- PR(A) est le classement (ranking) de la page A
- PR(T1) est le classement de la page T1 pointant (proposant un lien) vers la page A
- C(T1) est nombre total de liens proposés sur la page T1
- PR(Tn)/C(Tn) signifie que ce ratio est pris en compte pour toutes les pages pointant
vers la page A.
d est une variable qui oscille entre 0 et 1.
♦
PageRank permet de mesurer objectivement l'importance des pages
Web. Ce classement est effectué grâce à la résolution d'une équation de
500 millions de variables et de plus de 3 milliards de termes. Google ne
compte pas les liens. PageRank utilise la vaste structure de liens du
Web comme un outil de classement. Pour simplifier, Google interprète
un lien d'une page A vers une page B comme un " vote " de la page A
pour la page B et évalue ensuite l'importance d'une page en fonction du
nombre de votes qu'elle reçoit.
♦
PageRank Google analyse également les pages qui émettent le vote. Si
ces dernières sont déjà considérées comme des pages " importantes ",
leurs votes ont davantage de poids et renforcent le classement des pages
auxquelles elles permettent d'accéder. Les pages importantes, de bonne
Epita 2004 / Google un moteur de recherche comme les autres ?
Groupe 18-3 / BARREZ – OUDIN - PHAM
Page 15
qualité, bénéficient d'un meilleur classement PageRank. La technologie
de Google utilise l'intelligence collective du Web pour déterminer
l'importance d'une page. Google ne fait pas appel aux services
d'éditeurs Web ni à ses employés pour déterminer l'importance des
pages.
Lien de Ai à B
Ai
Liens des autres à Ai
B
Vote de Ai pour B
Liens des autres à Ai
Vote de Ai pour B
Classement de B
Analyse de correspondance hypertextuelle
Contrairement aux moteurs de recherche classiques, Google fait appel aux fonctions
d'hypertexte. Le moteur analyse la totalité du contenu de chaque page Web en tenant
compte des polices, des subdivisions et de la position précise de tous les termes
figurant sur la page. Google analyse également le contenu des pages Web voisines.
L'ensemble de ces données permet ensuite de renvoyer des résultats répondant mieux
aux demandes des utilisateurs. Conclusion : des millions d'internautes dans le monde
considèrent Google comme le moyen le plus rapide et le plus simple de trouver
exactement les informations qu'ils recherchent sur le Web, dès leur première visite.
Syntaxe de recherche simple
Altavista
HotBot
Par défaut Choisir n’importe quel mot
Ou OR
ET
Signe +
Tous les mots ou signe +
SAUF
Signe Signe Troncature *
*
Source : http://outils.abondance.com/comparatif.html
OU
Lycos
Par défaut
Ou OR
Signe +
Signe Non
Epita 2004 / Google un moteur de recherche comme les autres ?
Groupe 18-3 / BARREZ – OUDIN - PHAM
Google
OR
Par défaut ou signe +
Signe Non
Page 16
Syntaxe de saisie avancée (Principales fonctionnalités)
Recherche
Sur le titre
Sur le domaine
Sur le nom du serveur
Sur l’URL
Sur les adresse des liens
Altavista
Title :
Domain
Host :
URL
Link
HotBot
Title :
Domain
Domain
Non
Linkdomain
Lycos
Choix : title only
Non
Choix title dans la zone « page field«
Choix URL dans la zone « page field »
Non
Google
non
Site
Site
Non
link
Importance des différents critères selon les principaux moteurs
Les critères
Titre
Balise Meta
Corps du texte
Indice de popularité
Altavista
***
*
**
**
HotBot
*
***
**
*
Lycos
***
Google
**
***
**
**
***
Intégration rapide et fréquente des nouveaux sites Web
On estime le volume du Web mondial à plus de 2 milliards de pages visibles, avec
environ 1 million de nouvelles pages par jour.
Google s’appuie sur une technologie appelée GoogleBot (Crawlers). Ce sont de petits
logiciels qui parcourent le Web chaque jour à la recherche de nouveaux contenus.
GoogleBot exécute les deux types de recherches suivantes :
•
Fresh-craw : Google fait une mise à niveau des pages chaque jours.
•
Deep-craw : Google fait une mise à niveau des page mensuellement.
GoogleBot est exécuté par les Centres de Données de Google.
Liste des 8 centres de données :
Data Center Domain
www-ex.google.com
www-sj.google.com
www-va.google.com
www-dc.google.com
www-ab.google.com
www-in.google.com
www-zu.google.com
IP address
216.239.33.100
216.239.35.100
216.239.37.100
216.239.39.100
216.239.51.100
216.239.53.100
216.239.55.100
Epita 2004 / Google un moteur de recherche comme les autres ?
Groupe 18-3 / BARREZ – OUDIN - PHAM
Page 17
www-cw.google.com
www-fi.google.com
216.239.57.100
216.239.41.100
Source : http://www.1000microbes.com/Battlefield2-Google-ranking/dance.html
SES PLUS COMMERCIALES
Google est le moteur le plus plébiscité par les internautes. L’origine de son succès
tient au fait qu’il a été le premier à utiliser, en recherche simple, le ET comme
opérateur par défaut. Il est également le seul à utiliser en priorité l’indice de
popularité pour le classement des résultats. Ce système a même été affiné puisqu’il
ne prend pas seulement en compte le nombre de pages qui pointent vers une page
donnée mais la « qualité » de ces pages, c’est-à-dire l’importance des sites
considérés.
Google est le seul moteur qui indexe les fichiers PDF, Word, Excel, PowerPoint,
Postscript et RTF. Si bien que la recherche porte non seulement sur le nom des
documents mais aussi sur leur contenu. Il contrôle également l’orthographe des
termes utilisés pour la recherche et fait des suggestions lorsque ces termes
contiennent des fautes ou lorsqu’ils peuvent être écrits de différentes manières.
Google propose l’option « copie cachée » qui permet d’afficher la page telle qu’elle
existait lorsqu’elle a été aspirée. Le contenu caché est celui sur lequel se base Google
pour déterminer si une page est pertinente pour vos requêtes. Pour faciliter
l’exploitation de cette page, les différentes occurrences des termes de recherche sont
surlignées dans des couleurs différentes. De plus, cette option permet de consulter
des pages qui n’existent plus et évite de tomber sur le fameux message «erreur 404».
Google a su créer des partenariats forts avec les majors d’Internet, tels que Yahoo,
Aol, etc.
Google a su se mettre à la portée des Internautes en traduisant son interface dans plus
de 104 langues ou dialectes.
Google est gratuit !!!
Nom du moteur
Google
Fast.Alltheweb
NorthernLight
Altavista
HotBot (Inktomi)
Adresse
Nombre de pages en toutes
langues
www.google.fr
www.alltheweb.com
www.northernlight.com
www.altavista.com
www.hotbot.lycos.com
968 millions
580 millions
417 millions
397 millions
332 millions
Source : Search Engine Showdown www.searchengineshowdown.com/stats/
Epita 2004 / Google un moteur de recherche comme les autres ?
Groupe 18-3 / BARREZ – OUDIN - PHAM
Page 18
Google face aux nouvelles technologies Web
Le site de Google peut être visualisé quelque soit la taille de l’écran utilisé par
l’internaute. Avec l’arrivée des nouvelles technologies mobiles (Pocket Pc,
Blackberry, Wap…), Google adapte ses pages Html et les optimise.
Epita 2004 / Google un moteur de recherche comme les autres ?
Groupe 18-3 / BARREZ – OUDIN - PHAM
Page 19
Les facteurs clés de succès de Google
UNE SIMPLICITE D’UTILISATION
Ses créateurs ont conçu un moteur destiné aux internautes qui ne sont pas familiarisés
avec la syntaxe des moteurs de recherche et qui ne souhaitent pas se compliquer la
tâche. Avec Google, vous n'êtes pas obligé d'utiliser toutes les ruses des +, -, or, les
guillemets... pour trouver ce que vous cherchez.
UN NOMBRE DE PAGES INDEXEES IMPORTANT
Google est un poids lourd du secteur : il fait aujourd'hui des recherches sur environ 3
milliards de pages web, ce qui le classe parmi les plus "gros" moteurs avec All the
Web (Fast). La moitié sont indexées sur les disques de Google, l'autre moitié
représentent des pages "estimées" dont Google connaît seulement le lien.
UNE RAPIDITE DES REPONSES
Si le moteur n'indexe pas 100% des pages, c'est seulement pour ne pas alourdir le
temps de recherche... Google s'est donné pour objectif de répondre à une requête en
un temps record, quelques secondes, pas plus. Ainsi, la page d’accueil comme les
pages de résultat sont très "légères" : le texte est réduit au strict minimum et les
publicités graphiques consommatrices de kilos octets qui retardent l'affichage des
pages, sont bannies.
DES RESULTATS PERTINENTS
Google s'appuie sur la notion d'indice de popularité des pages (IPP). En clair, plus de
sites proposent un lien vers une page donnée, plus cette page est dite "populaire" et
plus elle est considérée comme intéressante. Elle apparaîtra donc en tête des résultats
de votre recherche. Ses deux créateurs ont même affiné le système en calculant aussi
l'IPP des pages pointant vers la page donnée. Concrètement, Google est le seul
moteur de recherche qui ne prend pas seulement en compte le nombre de pages qui
pointent vers une page donnée mais la "qualité" de ces pages, soit l'importance des
sites considérés. Cela permet notamment d'éviter la triche : en effet il serait facile de
créer soi-même des milliers de pages qui pointent vers son propre site...
DES FONCTIONNALITES ORIGINALES ET PRATIQUES
Google permet de consulter des pages qui n'existent plus mais qui ont été indexées
sur ses "machines" : au lieu de tomber sur le fameux message "erreur 404", le moteur
de recherche est le seul à vous proposer la page telle qu'elle existait au moment où
Google l'a aspirée. Il s'agit de la fonction "cache". Dans les pages de résultats, les
Epita 2004 / Google un moteur de recherche comme les autres ?
Groupe 18-3 / BARREZ – OUDIN - PHAM
Page 20
différentes réponses appartenant au même site sont décalées vers la droite. Cette
fonctionnalité permet de gagner du temps puisqu'elle regroupe les différentes pages
d'un même site. Enfin, si vous choisissez l'option "j'ai de la chance" au lieu du
traditionnel "Recherche Google", vous tombez directement sur le site web qui serait
arrivé premier de la liste.
Epita 2004 / Google un moteur de recherche comme les autres ?
Groupe 18-3 / BARREZ – OUDIN - PHAM
Page 21
Conclusion
Jusqu'à présent, l’entreprise « Google » a réussi un parcours sans faute qui a été
couronné au printemps par une introduction en bourse. Cependant sur plusieurs
points Google semble marquer le pas.
Tout d’abord, vis a vis de ses concurrents qui préparent leur contre-attaque. Grâce à
son avance technologique, le moteur de recherche Google s’est imposé aux grands
portails du net. Mais Microsoft, Yahoo ! et AOL réagissent. Le plus dangereux étant
sans doute à l’heure actuelle la firme de Bill Gates qui intégrera son propre moteur de
recherche au successeur de Windows, prévu pour 2006.
Le second point noir demeure structurel et organisationnel. Le PDG actuel, Eric
Schmidt, pourtant ancien de chez Sun et recruté en 2001 devait faire profiter
l’entreprise de son expérience. Mais les fondateurs restent très présents, alors que les
marchés préféreraient ne voir qu’un seul maître à bord.
En interne, l’ambiance start-up nuirait à l’efficacité. Malgré un chiffre d’affaire qui
approche le milliard de dollars, Google continue de fonctionner comme à ses débuts
(esprit start-up), ce qui mettrait aujourd’hui en péril sa cohésion et sa crédibilité dans
un secteur en pleine restructuration.
Le troisième point à surveiller pour Google, sera sa crédibilité marketing. En effet
depuis plusieurs mois, la firme californienne est associée à la propagation de produit
contrefait sur internet. De multiples condamnations ont été prononcées par différents
tribunaux en France contre Google pour motif de « contrefaçons de marques ». Un
vrai risque judiciaire pour l’entreprise, étant donné l’ampleur du marché des liens
promotionnels, qui a atteint 250 millions d’euros en Europe de l’ouest l’an dernier
(selon le cabinet d’études Jupiter Research).
L’introduction en bourse de l’entreprise sera une étape décisive pour Google, cette
échéance sera l’occasion pour Eric Schmidt de tenter une restructuration profonde de
la compagnie. Restructuration importante face à Microsoft qui se voit bien décider à
enchaîner ses utilisateurs à son propre moteur de recherche.
Une menace que Sergey Brin élude par une boutade :
« On ne peut pas contraindre les utilisateurs à utiliser un service moins performant !».
Seul l’avenir pourra nous dire si « Google » résistera à microsoft.
Epita 2004 / Google un moteur de recherche comme les autres ?
Groupe 18-3 / BARREZ – OUDIN - PHAM
Page 22
Bibliographie
INTERNET
http://www.google.com
http://www.search-this.com
www.journaldunet.com
www.searchengineshowdown.com
www.1000microbes.com
http://www.webrankinfo.com/google/
www.7-dragons.com/google-histoire.htm
www.abondance.fr
www.realposition.com
REVUES
Revue Management – Février 2004
Epita 2004 / Google un moteur de recherche comme les autres ?
Groupe 18-3 / BARREZ – OUDIN - PHAM
Page 23
Annexe
Epita 2004 / Google un moteur de recherche comme les autres ?
Groupe 18-3 / BARREZ – OUDIN - PHAM
Page 24
Google Search Appliance – Intranets
Google for your company
Imagine the benefits if all of the valuable information that your company creates every
day was easily available and accessible across your organization. Unfortunately, that
often isn’t the case: documents can be forgotten, mislabeled, or just plain hard to
find. The result? Valuable information that can’t be accessed, reducing productivity
and causing frustration among workers who need it.
SPECIFICATIONS
GOOGLE SEARCH APPLIANCE MODELS
GB-1001 Up to 1.5 million
documents, 300 queries per minute
GB-5005 Up to 3 million documents,
300 queries per minute
GB-8008 Up to 15 million documents,
1,000 queries per minute
Search in over 50 languages
Auto Language Detection Arabic,
Chinese (Traditional & Simplified),
Czech, Danish, Dutch, English,
Estonian, Finnish, French, German,
Greek, Hebrew, Hungarian, Icelandic,
Italian, Japanese, Korean, Latvian,
Lithuanian, Norwegian, Polish,
Portuguese, Romanian, Russian,
Spanish, Swedish and Turkish.
File types HTML, PDF, MS Office and
IBM Office Suites + 200 others
FOR MORE INFORMATION
www.google.com/appliance/
ORDERING INFORMATION
Phone 650 623-4370
Email [email protected]
The Google Search Appliance enables employees to find and share needed information
quickly and easily. This leads to shorter turnarounds, a more nimble team, and shorter
time-to-market. Using the Google Search Appliance, you can make the fullest use of
the knowledge your company has already created – often finding documents you didn’t
even know you had.
Making life simple for administrators
With the Google Search Appliance, your company’s search engine can be just as
good as Google’s – and just as easy to use. Google takes the burden of organizing
information off of the administrator and provides an easy solution that gets great
results every time.
By integrating hardware and software into an easy-to-install appliance, Google
simplifies how you manage search in your organization. Without the hassle of setting
up hardware and operating systems, the Google Search Appliance can be up and
running quickly, and is easily maintained by a single administrator. Using sophisticated
software algorithms, Google has created a product that “just works.” Unlike other
corporate search solutions, Google requires no labor-intensive configuring or tweaking.
And Google’s unique document-ranking system provides the same high-quality search
results to corporations that millions of Google users search with every day.
Discovering information you didn’t know you had
Google built its reputation on finding more and better information than any other
search provider. That experience has been built into the Google Search Appliance.
Once you run it on your network, you might be surprised how much content the
Google Search Appliance uncovers. Google also helps you understand your company’s
information by tracking and analyzing content across all your servers – helping you
discover which hosts have the most content, which pages are missing and why, and
even which pages have broken links.
GOOGLE SEARCH APPLIANCE – INTRANETS
End-User Experience
INTRANET SEARCH CUSTOMERS
The Google Search Appliance offers end users many of the same benefits they have come to expect
from Google.com with specific enterprise enhancements that make search easy, useful and intuitive:
Bank One
The Boeing Company
Cisco Systems, Inc.
ConocoPhillips
U.S. Department of Education
U.S. Department of Energy
Kaiser Permanente
Medtronic, Inc.
National Semiconductor
U.S. Army
Xerox Corporation
Google Quality and Ranking Find the highest quality and most relevant documents; Google factors in
more than 100 variables for each query.
CUSTOMER QUOTES
“The number of searches performed
each day has gone up eight- to
tenfold.”
Dynamic Page Summaries Judge relevance of results more easily with dynamically generated
snippets showing your query in the context of the page.
Automatic Spellcheck Avoid missing results through typos or misspellings. Google automatically
suggests corrections with startling accuracy, even on company-specific words and phrases.
Results Grouping Navigate search results easily and clearly using intelligent grouping of documents
residing in the same narrow subdirectories.
Cached Pages View search results even when the sites are down using cached copies of pages
included in the search results.
Highlighted Query Terms Quickly find the most relevant section of a document using the highlighted
query terms displayed on cached documents.
View as HTML Display documents without needing the original client application of the file format
thanks to automatic reformatting of over 220 file types into HTML.
Sort by Date Access time-sensitive information first via date sorting.
Bill Corley,
Manager of Intranet Technology
National Semiconductor
Advanced Boolean Search Perform complex and sophisticated queries with over 10 special query
terms, including Boolean AND, OR, and NOT searches.
“Right out of the box, without any
tweaking at all, the Google Search
Appliance was more effective than the
system we’d been working on for a year
and a half.”
Web-Based Admin Console Configure multiple logins and administrative roles for crawling, serving,
and monitoring with an intuitive, easy-to-use interface.
Brad Hochhalter,
Director, Permanente
Knowledge Connection
Kaiser Permanente
Filters Easily restrict searches to specific languages, file types, web sites, and/or meta tags.
Administration and Customization
Collections Segment the search index to show different results to different users (for example, by
domain name, geography, job function, etc.).
Synonyms Define synonyms for company-specific acronyms or terminology and have those terms
displayed as suggested alternative queries.
Keymatch Define matches between URLs and keywords so that targeted results appear above the
main set of search results.
Look and Feel Customize search result layout pages using XSLT stylesheets. Provide different
branding on different areas of your site.
Reporting View and export daily and hourly result sets, top queries, special feature usage and more.
URL Tracking View analysis of all crawled content to quickly identify problematic servers, errors and
sources of content.
RAID Support Provides redundancy from disk drive failures, increasing reliability and uptime.
Remote Diagnostics Simplify maintenance through optional remote diagnostics by Google support.
Enterprise Content
Continuous Crawler New content is crawled on an ongoing basis, insuring that new content appears
in search results fast.
Web Servers Provide access to content from all of your web servers regardless of location.
Secure Content Enable secure searching of information protected by basic or NTLM authentication.
Forms-Based Authentication Integrate with forms-based single sign-on security systems, including
Oblix and Netegrity to enable seamless searching across secure content
Proxy Servers Include externally hosted company content via crawling of proxy servers.
Lotus Domino Integrate with Lotus Notes environments using fast, efficient crawling of Lotus Domino servers.
Meta Tags Deliver search narrowing and filtering based on meta tag values and display of meta tag
values in search results.
File Types Search more than 220 file types, including HTML, Microsoft Office, PDF, PostScript,
WordPerfect, Lotus and many others.
Languages Search over 50 left-to-right and right-to-left languages and restrict results to any one of
over 28 languages.
© Copyright 2004. Google is a trademark of Google Inc. All other company and product names may be trademarks of the respective
companies with which they are associated.