TD3 Lettres Modernes : La recherche sur Internet

Transcription

TD3 Lettres Modernes : La recherche sur Internet
BULCO – Recherche documentaire – Lettres Modernes – 2013-2014
Méthodologie documentaire - TD 5
La Recherche documentaire sur « internet » (1)
Objectifs du TD
 Comprendre le fonctionnement d’Internet
 Maîtriser les différents outils de recherche sur Internet
 Sélectionner des informations valides et pertinentes sur le web.
1. Internet, c’est quoi ?
Internet = Web + Messageries
Quand on recherche de l’information, en fait on ne recherche pas « sur Internet », mais sur l’une de
ses applications : le WEB, c’est-à-dire un ensemble de pages et de sites mis en inter-relations et
utilisant le protocole URL
Le Web a été inventé plusieurs années après internet (fin des années 80), mais c’est le Web qui a
rendu le grand public attentif à internet .
Du Web 1.0 …
Jusqu’en 2004, le web était statique : essentiellement alimenté par les réseaux commerciaux, ou des
sites institutionnels. Les pages créées recevaient des mots-clés attribués par les créateurs de ces
pages. L’internaute était passif, essentiellement consultant, allant chercher l’information sur ces
sites.
…. Au Web 2.0
Depuis 2004, les pages sur le web sont dynamiques (liens entre les pages, évolution permanente des
contenus, intégration des vidéos et du son), alimentées par les réseaux sociaux (blogs, forums…) et
une forte interactivité des internautes qui non seulement consultent les informations sur le web mais
contribuent également à la créer et à la modifier
Et le Web 3.0 ?
Depuis 2010, le Web 3.0, dit le Web des objets (intégration des objets ou des lieux réels par
reconnaissance électronique, les puces RFID par exemple) ou le Web sémantique (compréhension
intelligente des questions, intégration des processus cognitifs par les robots) prend une dimension
qu’on mesure encore mal en termes de recherche documentaire
1
BULCO – Recherche documentaire – Lettres Modernes – 2013-2014
2. La recherche documentaire sur le Web : une problématique
a) Le web est énorme
La difficulté provient en partie de la taille du Web et du nombre considérable de documents qui s’y
trouvent hébergés, répartis sur de nombreux sites. Il est impossible de connaître le nombre exact de
ces sites et de ces documents, qui augmentent de façon exponentielle.
Voici quelques chiffres valables en sept. 2005. :
 Nombre de sites Web
:
 Nombre de "pages" Web
:
70 millions.
20 milliards.
Attention :
Page web= adresse précise à l’intérieur d’un site
Site web= ensemble de pages web constituant une unité
b) La nature des documents trouvés est très variable
On y trouvera :
- De l’information primaire
a. des livres numérisés ou dictionnaires en ligne
b. des articles en ligne
- De l’information secondaire
c. des catalogues de bibliothèques
d. des BDD qui donnent des références bibliographiques
- De l’information grand public
e. des informations chiffrées, des actualités
f. des blogs, des forums, des commentaires
g. de la publicité, des sites commerciaux, politiques, interactifs…
L’abondance des ressources sur Internet ne facilite pas la recherche documentaire : il
est facile de s’y perdre, de ne pas trouver ce que l’on cherche ou de trouver des
informations erronées.
c) La qualité de l’information sur internet est variable
Tout le monde peut créer son site, son blog, intervenir sur des pages (ex : Wikipédia) sans être pour
autant qualifié ou compétent
d) Le Web n’est pas une bibliothèque !
Internet n’est pas une bibliothèque ni un centre documentaire !
Internet n’est pas un ensemble organisé et structuré comme une bibliothèque
On entend parfois dire que le Web est une immense encyclopédie ou une immense bibliothèque.
Cette image est fausse, tout simplement parce que les documents présents sur le Web ne sont pas
indexés ni classés.
2
BULCO – Recherche documentaire – Lettres Modernes – 2013-2014
Une image plus exacte du Web serait celle d’une immense bibliothèque dont tous les ouvrages
auraient été éparpillés au hasard en un tas informe (et pour un bon nombre de ces ouvrages les
pages elles-mêmes auraient été arrachées et dispersées !).
Les moteurs de recherche ne sont pas des catalogues
Lorsque vous dites que vous “faites une recherche sur le Web”, en réalité vous ne faites pas cette
recherche sur le Web lui-même. En effet, il n’est pas possible de faire une recherche sur ou dans le
Web directement. Le Web est la totalité des innombrables pages Web qui sont hébergées sur des
ordinateurs (ou serveurs) localisés dans le monde entier. Votre navigateur ne peut pas aller fouiller
tous ces ordinateurs ou serveurs un par un de par le monde.
Ce que vous pouvez faire avec votre navigateur, en revanche, c’est accéder aux outils de recherche
intermédiaires qui sont disponibles. Vous faites votre recherche dans la base de données ou la
collection de sites Web indexés par un moteur de recherche. Cette base n’est qu’une petite partie de
la totalité des documents Web existants. Le moteur de recherche répond à votre requête en affichant
une liste de liens vers des adresses de pages Web qui semblent y répondre. En cliquant sur les liens
vous pouvez accéder aux documents hébergés sur des ordinateurs localisés n’importe où dans le
monde.
e) Le Web est invisible
Une grande partie des documents Web existants ne sont pas accessibles par l’intermédiaire des
moteurs de recherche. Tous ces documents font partie de ce qu’on appelle le Web invisible.
Les ressources vers lesquels les hyperliens sont créés dynamiquement pour répondre à une
interrogation échappent aux robots d’indexation. En effet, un robot n’est pas capable d’émettre des
interrogations pertinentes, aucun hyperlien n’est donc créé lors de sa visite.
Ces ressources constituent ce qui est parfois appelé le Web invisible ou Web profond. Il s’agit surtout
de ressources provenant de bases de données, accessibles à travers une passerelle.
Une étude de la firme BrightPlanet a évalué que le Web profond pouvait contenir 500 fois plus de
ressources que le Web indexé par les moteurs de recherche.
Le Web invisible, ou profond : le contenu de cette importante source d’informations qu’est le Web
est donc d’un volume considérable, mais mal organisé et difficile d’accès. Heureusement nous
disposons d’outils spécialisés pour y effectuer nos recherches.
3
BULCO – Recherche documentaire – Lettres Modernes – 2013-2014
I.
LES OUTILS DE RECHERCHE
Trois grands outils permettent d’effectuer des recherches sur Internet :
- les annuaires
- les moteurs de recherche
- les métamoteurs.
Le moteur de recherche (Google) est l’outil le plus utilisé, car il est le plus performant en termes
quantitatifs, mais pas toujours en termes qualitatifs : il est bien non seulement de connaitre d’autres
outils de recherche, mais aussi d’apprendre à utiliser Google.
1. Annuaires de recherche - Répertoires de sites - Signets
Historiquement, les annuaires sont les plus anciens des outils de recherche. Cet outil recense des
sites web. Il est constitué de rubriques (ou catégories), elles-mêmes subdivisées en sous-rubriques. A
l’intérieur de ces sous-rubriques, nous trouvons des listes de sites web :
Catégorie
Sous-rubrique
Sous-sous rubrique
Listes de sites web
On circule dans ces catégories et rubriques en développant des ARBORESCENCES
Un annuaire est libre de prendre ou de refuser un site. Une condition d’efficacité de l’annuaire est sa
taille, c’est à dire le nombre de sites référencés dans son index.
L’annuaire peut s’utiliser de deux façons :
 soit l’internaute consulte les catégories : il navigue alors de rubriques en sous-rubriques
jusqu’aux sites
 soit il effectue sa recherche grâce à des mots clefs.
Avantage : Cet outil de recherche permet une navigation simple et l’internaute est guidé par un fil
conducteur. De plus, les sites de l’annuaire ont été sélectionnés. Ils fournissent des réponses de
qualité.
Inconvénient : Le gros inconvénient de l’annuaire, c’est qu’il est construit manuellement. De ce fait,
sa taille est réduite, il est difficile de le tenir à jour. Enfin, les sujets très spécifiques et très pointus
sont difficiles à localiser.
Les signets sont des adresses de sites sélectionnés par des institutions reconnues (= des favoris),
classés thématiquement et vérifiés régulièrement. Ils s’inspirent donc de la méthode des annuaires.
Leur avantage majeur est d’offrir à l’internaute une sélection de sites reconnus et fiables, que
l’internaute n’auraient pas forcément retrouvés rapidement avec un moteur de recherche classique.
En conclusion, les annuaires ou les signets fournissent des résultats pertinents mais
peu nombreux
4
BULCO – Recherche documentaire – Lettres Modernes – 2013-2014
 L’annuaire généraliste Dmoz (http://www.dmoz.org/World/Fran%C3%A7ais/).
Ce répertoire est géré par une vaste communauté d’éditeurs bénévoles. Il répertorie plus de 4
millions adresses Internet classées dans plus de 1 million de catégories. C’est un projet
collaboratif. Il s’agit d’un annuaire, pas un moteur de recherche : les sites sont répertoriés au sein
de catégories. Il n’y a ni classement ni optimisation des sites.
 Les signets du Cerimes (http://www.signets-universites.fr): ces signets sont accessibles
également via le portail de l’Université. C’est une sélection d’adresses Internet de référence
réalisée par le Centre de Ressources et d’Information sur les Multimédias pour l’Enseignement
supérieur. Ce classement suit la logique Dewey.
 Les signets de la BNF (http://signets.bnf.fr): La Bibliothèque nationale de France propose
sur son site un répertoire de 7000 ressources mises à jour et contrôlées régulièrement : les sites
recommandés sont peu nombreux mais d’une très grande qualité. La navigation s’effectue
également dans l’arborescence thématique. Il est également possible d’effectuer une recherche
de sites par mots-clefs.
2. Qu’est-ce qu’un moteur de recherche ?
Les moteurs de recherche sont des robots (également appelés spiders ou crawlers) qui indexent
automatiquement des millions de pages web, sans intervention humaine (ce qui les distingue des
annuaires).
Contrairement aux annuaires, les moteurs permettent de trouver sur le web une quantité
considérable de sites Internet, mais dont la qualité et la fiabilité n’est jamais contrôlée ni vérifiée. La
recherche s’effectue uniquement par mots-clés (pas d’arborescence). Celle-ci peut être simple ou
avancée.
Toutefois, la couverture du web par les moteurs de recherche reste parcellaire : seulement 20% du
web est indexé par les robots. Toute la partie du Web qui n’est pas indexée par les robots s’appelle
le WEB INVISIBLE (par exemple, les cours mis en ligne sur le portail e-Bulco ne sont pas indexés par
les moteurs de recherche).
Chaque moteur de recherche a son propre robot et fonctionne donc à sa manière : c’est pourquoi les
résultats peuvent être différents pour une même requête selon le moteur utilisé.
a) Google est le moteur de recherche généraliste le plus connu et le plus performant en terme de
pages indexées. Nous avons la possibilité d’effectuer une recherche simple ou avancée. Le critère de
classement des résultats se fait par rapport à la popularité du site : Page-Rank.
« Page Rank » = l’indice de popularité d’une page
 Page Rank : calcule le nombre de fois qu’un site X est cité par d’autres sites A, B, C, D…
 Mais il prend aussi en compte la popularité des sites A, B, C, D: être cité par des sites qui sont euxmêmes populaires augmente la popularité de X
 Inconvénient : des sites récents n’apparaîtront pas tout de suite (pas le temps d’être cités)
 Astuce : « J’ai de la chance » ouvre tout de suite le premier site
5
BULCO – Recherche documentaire – Lettres Modernes – 2013-2014
b) Exalead est un moteur de recherche francophone. Il propose de nouvelles fonctionnalités par
rapport à un moteur de recherche comme Google. Nous pouvons pré visualiser les pages. Les termes
ou expressions associés aux mots clefs de la requête s’affichent, de même que les catégories en
relation avec la requête.
c) Google Scholar est un moteur de recherche spécialisé sur les documents scientifiques et
académiques. Il existe une grande variété de documents : articles, livres, thèses, rapports… Le
domaine des sciences techniques et médicales est mieux couvert que celui des sciences sociales et
humaines.
d) Google Books est un moteur qui permet de retrouver des livres ou des extraits de livres
 Numérisation d’un grand nombre d’ouvrages de plusieurs grandes bibliothèques (Harvard,
Oxford, BM Lyon)
 Ouvrages dans le domaine public en entier
 Ouvrages encore sous droits partiellement disponibles (sommaire, introduction)
Les enjeux de Google Books
 Libre aujourd’hui, mais à tout moment peut devenir payant
 Choix des ouvrages : prédominance anglo-saxonne, perte de diversité culturelle
 Accords avec les plateformes de vente (Amazon) : c’est souvent plus une incitation d’achat qu’un
pas en faveur de l’accès libre
 Outils de recherche : c’est un moteur de recherche, pas un catalogue (recherche sujet très
imparfaite)
e) Spinoo indexe les sites éducatifs français : moteur de recherche mis au point par le Centre national
de documentation pédagogique (CNDP) entièrement dédié à l'éducation. Spinoo prospecte de
manière exhaustive un champ clos, celui des sites éducatifs institutionnels français. Les utilisateurs
sont ainsi assurés de trouver tous les documents qui correspondent à leur demande, même si ceux-ci
sont situés au plus profond des sites visités et stockés au format Word ou Acrobat... Enfin, ils
disposent d'une garantie de qualité, concrétisée par la signature "éditoriale" des sites institutionnels
6
BULCO – Recherche documentaire – Lettres Modernes – 2013-2014
Les Moteurs de recherche conseillés
Source : SAPRISTI ! (http://sapristi-docinsa.insa-lyon.fr)
Moteur généralistes : Exalead, Google, Yahoo!
Moteurs spécialisés : Scirus, Google Scholar, OAIster
Moteurs généralistes
EXALEAD
1. Suggestions de recherche (mots et expressions)
2. Recherche par lemmatisation (différentes formes que peut revêtir un mot : le nom, le pluriel, le verbe à l'infinitif…),
Recherche avancée encadrée
3. Analyse de regroupement sur les termes associés (clustering)
4. Catégorisation à partir de l’annuaire coopératif Open Directory (dmoz.org) et de l’encyclopédie Wikipedia, par nuages de
mots-clés
5. Opérateur de proximité NEAR, parenthèses autorisées
6. Ajout de raccourcis, interface en plusieurs langues
Voir aussi la fiche synthétique du site Abondance : http://outils.abondance.com/exalead.html
GOOGLE
1. Index de 10 milliards de pages
2. Opérateur de proximité NEAR
3. Traduction de la page (et des pages suivantes…)
4. Recherche simple: pas de troncatures (caractères Joker), pas de lemmatisation, pas de parenthésage
5. Recherche avancée
Voir aussi la fiche synthétique du site Abondance : http://outils.abondance.com/google.html
YAHOO
1. Recherche Multilingue : mots-clés en français et résultats en version originale ou en français (pages traduites)
2. Création de "Mon Web" : mémorisation et partage de signets
3. Raccourcis de recherche
4. Plusieurs services en ligne
5. Consultation de ses flux Twitter sur des services Yahoo!
6. Affichage en temps réel des dernières informations (via Twitter)
Voir aussi la fiche synthétique du site Abondance : http://outils.abondance.com/yahoo-moteur.html
Moteurs spécialisés
SCIRUS
1. Choix des ressources scientifiques:
a. Ressources publiées (BDD bibliographiques ciblées)
b. Ressources non publiées (sites Web sélectionnés)
2. Recherche par termes associés
3. Recherche avancée : interface riche, de nombreuses options
4. Indexation par catégorie : Base de connaissance linguistique dans 20 domaines
5. Tri par date ou pertinence
6. Domaines destinés aux étudiants, enseignants et chercheurs
GOOGLE SCHOLAR
1. Ressources en sciences exactes : sites sélectionnés
2. Consultation d’articles clés dans n'importe quel domaine de recherche (plus autres articles proches et différentes
versions)
3. Indexation en texte intégral
4. Recherche avancée : filtres sur l'auteur, sur la revue et sur la date.
5. Résultats : liste de notices minimales, avec résumés analytiques et des citations. Tri par pertinence selon le texte, son
auteur la revue de publication et le nombre de citation dans d’autres ouvrages.
6. Localisation de l’article complet dans votre bibliothèque ou sur le Web
OAISTER
1. Accès libre à des documents numériques : textes numériques natifs, fichiers audio, images, films, ensembles de données.
2. Accès à des collections : thèses, rapports techniques, documents de recherche, collections d'images.
3. Base de données construite à partir des collections d'archives ouvertes (format OAI), intégrée au catalogue WorldCat.
4. Ressources pluridisciplinaires du monde entier.
5. Recherche croisée sur différents champs mais surtout sur les métadonnées de la notice.
6. Listage par auteurs et dates en marge
7
BULCO – Recherche documentaire – Lettres Modernes – 2013-2014
LA RECHERCHE AVANCEE DANS GOOGLE
Pour limiter et orienter la nature des résultats que vous recherchez, pensez à utiliser les critères de la
recherche avancée :
Vous pouvez ainsi préciser la langue, la date, le nom de domaine, la place des mots recherchés dans la
page web … des sites recherchés.
Utilisez également des opérateurs de recherche spécifiques à Google qui vous aideront à délimiter le
champ de vos recherches.
8
BULCO – Recherche documentaire – Lettres Modernes – 2013-2014
Les opérateurs de recherche dans Google
(Source : https://support.google.com/websearch/answer/136861?p=adv_sitespecific&hl=fr&rd=1)
Si vous ne trouvez pas ce que vous cherchez en suivant nos conseils de base pour la recherche, essayez
d'utiliser un opérateur de recherche. Ajoutez ces symboles ou ces termes à votre requête dans le champ de
recherche Google pour mieux contrôler les résultats obtenus. Ne cherchez pas à mémoriser les opérateurs :
vous pouvez utiliser la page Recherche avancée pour générer un grand nombre de ces recherches.
Lorsque vous utilisez un opérateur de recherche, n'ajoutez pas d'espace entre celui-ci et votre requête. Ainsi,
la requête site:lemonde.fr fonctionne, mais la requête site: lemonde.fr ne fonctionne pas.
Rechercher un mot précis ou une
expression particulière
"requête de recherche"
Utilisez des guillemets pour rechercher un terme précis ou un groupe de mots. Cette
option est particulièrement utile lorsque vous recherchez, par exemple, les paroles
d'une chanson ou un passage extrait d'un livre.
"imagine all the people"
Conseil : N'utilisez cet opérateur que si vous recherchez un terme précis ou une
expression exacte. Dans le cas contraire, vous risqueriez d'exclure des résultats de
recherche utiles.
Ajoutez un tiret (-) avant un mot ou un nom de site pour exclure tous les résultats qui
incluent ce terme. Cette option est particulièrement utile pour des homonymes tels
que "jaguar", qui peut faire référence à la marque de voiture ou à l'animal.
Exclure un mot
-requête
vitesse jaguar -voiture ou pandas -site:wikipedia.fr
Conseil : Vous pouvez également exclure des résultats obtenus via d'autres opérateurs,
par exemple, tous les résultats d'un site spécifique.
Effectuer des recherches au sein
d'un site ou d'un domaine
site:requête
Rechercher des pages qui
redirigent vers une URL en
particulier
link:requête
Si vous souhaitez obtenir plus de résultats sur un site Web en particulier, ajoutez le
préfixe site: à votre requête. Par exemple, vous pouvez rechercher toutes les
références à la coupe du monde de la FIFA 2014 sur le site de l'Équipe en formulant
votre requête de la manière suivante :
FIFA 2014 site:lequipe.fr
Conseil : Vous pouvez également rechercher des informations au sein d'un domaine de
premier niveau spécifique, tel que .org ou .edu, ou du domaine d'un pays spécifique, tel
que .de ou .jp.
jeux olympiques site:.gov
L'opérateur link: vous permet de rechercher des pages qui redirigent vers une autre
page en particulier. Par exemple, vous pouvez trouver toutes les pages qui redirigent
vers google.com.
link:google.com
Conseil : Vous pouvez également rechercher des liens vers des pages spécifiques, par
exemple google.com/images.
link:google.com/images
Pour rechercher des sites similaires à une URL spécifique, utilisez related: Par exemple,
Rechercher des pages similaires à
vous pouvez trouver d'autres sites d'actualités s'apparentant à celui du Figaro
une URL en particulier
susceptibles de vous intéresser.
related:requête
related:lefigaro.fr
9
BULCO – Recherche documentaire – Lettres Modernes – 2013-2014
Compléter une requête
requête * requête
Rechercher un terme ou l'autre
requête OR requête
Lorsque vous ne connaissez pas un terme ou que vous n'êtes pas sûr d'un terme dans
votre requête, utilisez un astérisque (*) comme substitut. Utilisez des guillemets pour
trouver les variantes d'une expression exacte ou pour retrouver, au milieu d'une
expression, des mots dont vous n'arrivez plus à vous souvenir.
"un * vaut mieux que deux *"
Si vous souhaitez rechercher des pages qui ne contiennent qu'un terme parmi
plusieurs, utilisez l'opérateur OR (en majuscules) entre les mots. Sans cet opérateur,
généralement seules les pages qui contiennent les deux termes à la fois s'affichent dans
les résultats.
lieu coupe du monde 2014 OR 2018
Conseil : Délimitez les expressions par des guillemets pour rechercher l'une ou l'autre
d'entre elles.
"lieu coupe du monde 2014" OR "lieu coupe du monde 2018"
Séparez les nombres par deux points..) pour voir les résultats qui contiennent les
nombres inclus dans cette plage de valeurs (dates, prix, mesures, etc.).
appareil photo 50€..100 €
Rechercher une plage de valeurs
nombre..nombre
Conseil : En n'associant qu'un seul nombre aux deux points, vous pouvez indiquer une
limite supérieure ou inférieure.
gagnants 24 Heures du Mans ..2000
3. Qu’est ce qu’un métamoteur de recherche ?
Les métamoteurs sont des outils qui interrogent plusieurs moteurs de recherche simultanément. Ce
sont en quelque sorte les « moteurs de moteurs ». Ils n’ont pas d’index propre mais utilisent les index
des moteurs de recherche qu’ils interrogent : lors de l’affichage des résultats ils éliminent les doublons.
Exemples de métamoteurs : Copernic, Clusty, Findloo, Kartoo, Ixquick…
Avantages
- La recherche est plus rapide car elle interroge simultanément plusieurs moteurs de recherche à la
fois.
- La recherche est plus exhaustive car une plus grande couverture du web est couverte.
Inconvénients
- Ils filtrent moins qu’un seul moteur de recherche généraliste
- Les recherches sont moins pointues.
Synthèse
Quels outils de recherche privilégier pour ses requêtes ?
1. Vous pouvez choisir l’annuaire pour débuter une recherche ou pour
vous faire une idée des sites existants dans un domaine que vous
découvrez. De plus, l’annuaire permet de repérer des ressources du
web invisible.
2. Vous privilégierez le moteur de recherche pour la taille de son index et
la rapidité de mise à jour. Le moteur de recherche va vous servir à
effectuer une recherche pointue à partir de mots clefs précis ou
d’élargir la portée de votre requête à une grande partie du web. Mieux
vaut dans ce cas privilégier la recherche avancée.
10
BULCO – Recherche documentaire – Lettres Modernes – 2013-2014
II. La sélection d’informations pertinentes et valides :
Les critères d’évaluation
Toute information doit répondre à 2 exigences :
 Pertinence : une information pertinente est celle qui répond à la question que vous vous posez.
 Validité : une information validée est une information exacte.
Internet est un espace « ouvert ». On y trouve une multitude d’informations qui ne sont pas
contrôlées ni vérifiées. N’importe qui peut publier un document. En effet, contrairement à un espace
« fermé » (la bibliothèque par exemple), il n’y a aucune sélection a priori des documents qui s’y
trouvent.
Bouleversements du Web
 Le Web permet de s’auto-publier
 L’étape de validation de l’écrit par un éditeur n’est plus
nécessaire
 L’anonymat couvre parfois les auteurs
 Généralisation du copié-collé et des références dont on
n’évoque pas les sources
Il est difficile d’identifier un document et sa source. Les compétences de l’éditeur et celle de l’auteur
sont mélangées car l’auteur est son propre éditeur. Les genres documentaires sont également
mélangés, ce qui peut mener à des confusions.
Ainsi, la surabondance d’informations (des dizaines de milliards de pages web) conduit à la
désinformation (médiocrité de l’information).
Alexandre Serres parle d’ « info-pollution ».
Cette désinformation est amplifiée par le marketing invisible, l’espace commercial, les rumeurs et
fausses informations. A ce propos, Hoaxbuster est un site qui répertorie les rumeurs sur Internet
(www.hoaxbuster.com). Distingue les info vraies/fausses/à moitié vraie-fausse.
Comment lutter contre cette désinformation ? Par des moyens techniques (anti-spams), juridiques
(responsabilité des hébergeurs) et humains (il faut réfléchir, faire appel à sa culture générale et à son
esprit critique pour évaluer l’information que l’on trouve).
Sur un sujet qu’on ne connaît pas, il faut appliquer des critères d’évaluation.
Une information validée est une information identifiée, fiable, précise,
exacte et exhaustive, d’actualité, structurée.
11
BULCO – Recherche documentaire – Lettres Modernes – 2013-2014
Ces 6 critères d’évaluation permettent d’identifier un document du web et de mesurer sa validité
1. Identifier la nature du document
Est-ce une page web ou un site entier ? Est-ce un article de périodique, un compte-rendu, un brevet,
une thèse, un blog, une information circulante (forum) ?
2. Identifier la date du document
Quelle est sa date de création, sa date de mise à jour ? La période correspond-elle à vos besoins ? Les
liens sont-ils toujours à jour ?
3. Identifier la fonction du document
A qui le document s’adresse-t-il et à quoi sert-il ? Est-ce un document scientifique, politique, de
vulgarisation, d’expression, commercial, universitaire, personnel ? Le site est-il personnel ou
commercial ? Quel est le public visé ?
4. Identifier la nature de l’organisme « éditeur » (URL = Uniform Ressource Locator)




Adresse officielle du site internet, identique pour tous les internautes
URL ≠ du nom du site
URL est construite selon une syntaxe précise
Plus l’adresse URL est construite plus la structure du site est complexe
Vous devez décrypter l’adresse URL qui se décompose en trois éléments :
- nom du protocole (http://, news://…)
- nom de domaine (c’est l’adresse du serveur hébergeant la ressource)
- chemin d’accès à la ressource (il s’agit du nom du fichier et des sous-fichiers, et son
emplacement).
La structure de base d'une URL est celle-ci :
protocole://nom-du-serveur.nom-du-domaine/répertoire/nom-du-fichier
Les extensions de domaine fournissent des informations très précises sur le document. Il existe des
extensions thématiques et des extensions géographiques.
Quelques exemples d’extensions thématiques :
- .gouv : site du gouvernement
- .com : site commercial
- .org : pour les organisations et les associations
- .net : pour les réseaux
- .info : site d’information
- ac, .edu : site d’éducation.
Quelques exemples d’extensions géographiques (à savoir : chaque pays dans le monde possède son
domaine propre) :
- .fr : France
- .be : Belgique
- .ca : Canada
12
BULCO – Recherche documentaire – Lettres Modernes – 2013-2014
Attention!
Les noms de domaine ou des serveurs ne sont pas toujours des indications directes sur la
localisation et la source de l'information.
On peut donner n'importe quel nom à son serveur; et il est possible d'enregistrer des noms de
domaine qui donnent de fausses impressions.
Trucs et informations pratiques
Effacer des parties de l'URL pour en apprendre plus sur le site
Il peut être très utile d'effacer sur la droite des parties de l'URL pour découvrir où cette nouvelle
adresse, plus courte vous entraîne. En faisant cela, vous pouvez trouver des indications sur votre
position à l'intérieur du site ainsi que sur sa structure. En effaçant tout ce qui est situé à droite de la
première barre oblique (/) vous remontez l'arbre du répertoire et pouvez comprendre comment le
fichier est implanté dans le site.
Regardez par exemple, ce qui se passe si vous effacez une partie de l'URL suivante:
affiche:
URL
http://www.ariadne.ac.uk/issue56/
conole#The_Tension_between_Web_2.0_and_Ed un article en ligne
ucation
signifie:
ceci est un article en
ligne
http://www.ariadne.ac.uk/issue56/
le sommaire de la livraison
13 d'un journal
l'article fait partie du n°
13 de ce journal
http://www.ariadne.ac.uk/
la page d'accueil d'un
journal électronique
l'article est contenu dans
ce journal
Cette technique est particulièrement utile pour de longues adresses URL.
Trouver la page d'accueil d'un site web
La page d'accueil est la première page d'un site web - l'équivalent de la couverture d'un livre - et fournit
beaucoup d'informations comme le titre, le nom de l'auteur et une présentation sommaire de l'objectif
du site. Souvent, les hyperliens vous entraînent au beau milieu d'un site par opposition à la page
d'accueil. Il est ainsi difficile de savoir où l'on est. C'est une bonne habitude de regarder la page d'accueil
d'un site avant de l'utiliser, tout simplement pour vérifier ce que vous regardez.
Les URL vous aident sur ce point - la racine d'une URL vous emmènera souvent sur la page d'accueil. Ca
ne marchera pas toujours - mais essayez d'effacer le nom du fichier et celui des répertoires à droite de
l'adresse, puis appuyez sur la touche Entrée (assurez-vous que la nouvelle URL se termine par une barre
oblique / ou html ou htm). Ceci vous emmènera vraisemblablement à la page d'accueil.
Ex : le site web du Président de la République française
http://www.elysee.fr/chronologie/#e4905,2013-11-17,visite-detat-en-israel-visite-officielle-dans-les-territoires-palestiniens
une page loin dans le site
http://www.elysee.fr/
la page d'accueil
13
BULCO – Recherche documentaire – Lettres Modernes – 2013-2014
Le tilde ~ :
Dans certaines URL vous verrez
http://www.ilrt.bris.ac.uk/~cmpac/)
le
tilde
qui
s'écrit
ainsi
:
~
(Par
exemple
:
La plupart des serveurs web utilisent le ~ pour indiquer qu'il s'agit de répertoires personnels.
Si l'URL contient un tilde, alors sachez que probablement (pas systématiquement cependant) vous
regardez une page personnelle, présentant des opinions personnelles et non sur un site officiel
transmettant la ligne de pensée officielle. Ceci ne signifie pas, cependant, que l'information soit de
mauvaise qualité.
Par exemple la page suivante contient un tilde : http://www.ilrt.bris.ac.uk/~cmpac/
Cette page est hébergée sur le serveur de l'Université de Bristol, mais n'est PAS une page officielle de
l'université - c'est la page personnelle d'un membre du personnel.
5. Identifier l’auteur de la page Web
Vous pouvez regarder sur la page web (souvent dans la rubrique « contacts ») ou sur le site s’il y a des
informations. Si un nom est indiqué, vous pouvez vérifier sa notoriété sur ce site :
http://www.123people.fr . Qu’a écrit l’auteur du document ? Est-il un spécialiste du domaine ? Quel
est son point de vue, ses motivations ?
L’identification de l'auteur d'un site est souvent essentielle, pour pouvoir identifier clairement la
nature du site, et évaluer la fiabilité de l'information. Cette opération n'est pas toujours aisée. Voici
quelques astuces techniques pour identifier un auteur :
a/ Bien explorer le site : pied de page de la page d'accueil, pages dédiées ("A propos", "Copyright"...),
adresse électronique...
b/ Vérifier l'adresse d'un lien pointant vers une adresse e-mail, en passant le curseur de la souris sur
le lien (certains liens pointent en fait vers des pages HTML)
c/ Remonter ou descendre l'arborescence pour trouver d'autres informations sur l'auteur
d/ Consulter les métadonnées, qui contiennent des éléments de description du document,
notamment parfois la mention de responsabilité, le nom de l'auteur, voire son adresse électronique.
Pour afficher les métadonnées : menu "Afficher la source" (par le bouton droit de la souris)
e/ Utiliser les outils de recherche généralistes et spécialisés : Après avoir trouvé le nom de l'auteur
ou du propriétaire du site, faire une recherche sur les moteurs généralistes (Google...) ou les moteurs
de personnes (123 People), pour trouver des informations sur cette personne.
6. Identifier la notoriété du site
Ce site est-il référencé par d’autres sites ? Par des sites de qualité ? Utiliser Google recherche
avancée, la fonction « Liens » (link) pour voir quels sites pointent la page étudiée.
14
BULCO – Recherche documentaire – Lettres Modernes – 2013-2014
EXERCICES
Chacun des outils de recherche suivants se trouvent facilement en tapant leur nom dans le
moteur de recherche Google
1) Utilisez les 3 répertoires suivants (annuaire Dmoz, signets du CERIMES et signets
de la BnF) pour trouver des sites pertinents sur votre sujet sur la francophonie.
Précisez à chaque fois l’arborescence développée (catégories et sous-catégories)
DMOZ
SIGNETS DU CERIMES
SIGNETS DE LA BnF
Arborescence
thématique
Adresse du
site
15
BULCO – Recherche documentaire – Lettres Modernes – 2013-2014
2) Utilisez les moteurs de recherche Google, Google Scholar, Exalead et Spinoo
pour trouver des sites ou des pages web sur la francophonie. Explicitez votre
mode de recherche (mots-clés, critères) et comparez les résultats de votre
recherche.
Google
Exalead
Google Scholar
Spinoo
Mots de la
recherche
Critères de la
recherche
avancée
Adresse d’un site
pertinent trouvé
Avantages de ce
moteur de
recherche
Inconvénients de
ce moteur de
recherche
16
BULCO – Recherche documentaire – Lettres Modernes – 2013-2014
3) Appliquez les critères d’évaluation pour chacun des sites suivants.
Cherchez à repérer en particulier : l’auteur, la date, la fiabilité et la pertinence
des documents
Evaluer la qualité de ce site pour une étude sur les romans de
http://www.myboox.fr/actualite/semprun-parcours-du-combattant-c-18933.html
Evaluer
la
qualité
de
ce
site
http://sergecar.perso.neuf.fr/cours/langag1.htm
pour
un
exposé
en
Semprun :
linguistique :
Evaluer la qualité de ce site un exposé sur l’œuvre d’Albert CAMUS : http://calounet.pagespersoorange.fr/biographies/camus_biographie.htm
Evaluer la qualité de ce site http://www.pensees-ecrites.net/courants-litteraires/theatre-de-labsurde,8/
Quelle
est
la
notoriété
et
la
validité
http://mael.monnier.free.fr/bac_francais/etranger/oeuvrecamus.htm
de
ce
site :
17