TD3 Lettres Modernes : La recherche sur Internet
Transcription
TD3 Lettres Modernes : La recherche sur Internet
BULCO – Recherche documentaire – Lettres Modernes – 2013-2014 Méthodologie documentaire - TD 5 La Recherche documentaire sur « internet » (1) Objectifs du TD Comprendre le fonctionnement d’Internet Maîtriser les différents outils de recherche sur Internet Sélectionner des informations valides et pertinentes sur le web. 1. Internet, c’est quoi ? Internet = Web + Messageries Quand on recherche de l’information, en fait on ne recherche pas « sur Internet », mais sur l’une de ses applications : le WEB, c’est-à-dire un ensemble de pages et de sites mis en inter-relations et utilisant le protocole URL Le Web a été inventé plusieurs années après internet (fin des années 80), mais c’est le Web qui a rendu le grand public attentif à internet . Du Web 1.0 … Jusqu’en 2004, le web était statique : essentiellement alimenté par les réseaux commerciaux, ou des sites institutionnels. Les pages créées recevaient des mots-clés attribués par les créateurs de ces pages. L’internaute était passif, essentiellement consultant, allant chercher l’information sur ces sites. …. Au Web 2.0 Depuis 2004, les pages sur le web sont dynamiques (liens entre les pages, évolution permanente des contenus, intégration des vidéos et du son), alimentées par les réseaux sociaux (blogs, forums…) et une forte interactivité des internautes qui non seulement consultent les informations sur le web mais contribuent également à la créer et à la modifier Et le Web 3.0 ? Depuis 2010, le Web 3.0, dit le Web des objets (intégration des objets ou des lieux réels par reconnaissance électronique, les puces RFID par exemple) ou le Web sémantique (compréhension intelligente des questions, intégration des processus cognitifs par les robots) prend une dimension qu’on mesure encore mal en termes de recherche documentaire 1 BULCO – Recherche documentaire – Lettres Modernes – 2013-2014 2. La recherche documentaire sur le Web : une problématique a) Le web est énorme La difficulté provient en partie de la taille du Web et du nombre considérable de documents qui s’y trouvent hébergés, répartis sur de nombreux sites. Il est impossible de connaître le nombre exact de ces sites et de ces documents, qui augmentent de façon exponentielle. Voici quelques chiffres valables en sept. 2005. : Nombre de sites Web : Nombre de "pages" Web : 70 millions. 20 milliards. Attention : Page web= adresse précise à l’intérieur d’un site Site web= ensemble de pages web constituant une unité b) La nature des documents trouvés est très variable On y trouvera : - De l’information primaire a. des livres numérisés ou dictionnaires en ligne b. des articles en ligne - De l’information secondaire c. des catalogues de bibliothèques d. des BDD qui donnent des références bibliographiques - De l’information grand public e. des informations chiffrées, des actualités f. des blogs, des forums, des commentaires g. de la publicité, des sites commerciaux, politiques, interactifs… L’abondance des ressources sur Internet ne facilite pas la recherche documentaire : il est facile de s’y perdre, de ne pas trouver ce que l’on cherche ou de trouver des informations erronées. c) La qualité de l’information sur internet est variable Tout le monde peut créer son site, son blog, intervenir sur des pages (ex : Wikipédia) sans être pour autant qualifié ou compétent d) Le Web n’est pas une bibliothèque ! Internet n’est pas une bibliothèque ni un centre documentaire ! Internet n’est pas un ensemble organisé et structuré comme une bibliothèque On entend parfois dire que le Web est une immense encyclopédie ou une immense bibliothèque. Cette image est fausse, tout simplement parce que les documents présents sur le Web ne sont pas indexés ni classés. 2 BULCO – Recherche documentaire – Lettres Modernes – 2013-2014 Une image plus exacte du Web serait celle d’une immense bibliothèque dont tous les ouvrages auraient été éparpillés au hasard en un tas informe (et pour un bon nombre de ces ouvrages les pages elles-mêmes auraient été arrachées et dispersées !). Les moteurs de recherche ne sont pas des catalogues Lorsque vous dites que vous “faites une recherche sur le Web”, en réalité vous ne faites pas cette recherche sur le Web lui-même. En effet, il n’est pas possible de faire une recherche sur ou dans le Web directement. Le Web est la totalité des innombrables pages Web qui sont hébergées sur des ordinateurs (ou serveurs) localisés dans le monde entier. Votre navigateur ne peut pas aller fouiller tous ces ordinateurs ou serveurs un par un de par le monde. Ce que vous pouvez faire avec votre navigateur, en revanche, c’est accéder aux outils de recherche intermédiaires qui sont disponibles. Vous faites votre recherche dans la base de données ou la collection de sites Web indexés par un moteur de recherche. Cette base n’est qu’une petite partie de la totalité des documents Web existants. Le moteur de recherche répond à votre requête en affichant une liste de liens vers des adresses de pages Web qui semblent y répondre. En cliquant sur les liens vous pouvez accéder aux documents hébergés sur des ordinateurs localisés n’importe où dans le monde. e) Le Web est invisible Une grande partie des documents Web existants ne sont pas accessibles par l’intermédiaire des moteurs de recherche. Tous ces documents font partie de ce qu’on appelle le Web invisible. Les ressources vers lesquels les hyperliens sont créés dynamiquement pour répondre à une interrogation échappent aux robots d’indexation. En effet, un robot n’est pas capable d’émettre des interrogations pertinentes, aucun hyperlien n’est donc créé lors de sa visite. Ces ressources constituent ce qui est parfois appelé le Web invisible ou Web profond. Il s’agit surtout de ressources provenant de bases de données, accessibles à travers une passerelle. Une étude de la firme BrightPlanet a évalué que le Web profond pouvait contenir 500 fois plus de ressources que le Web indexé par les moteurs de recherche. Le Web invisible, ou profond : le contenu de cette importante source d’informations qu’est le Web est donc d’un volume considérable, mais mal organisé et difficile d’accès. Heureusement nous disposons d’outils spécialisés pour y effectuer nos recherches. 3 BULCO – Recherche documentaire – Lettres Modernes – 2013-2014 I. LES OUTILS DE RECHERCHE Trois grands outils permettent d’effectuer des recherches sur Internet : - les annuaires - les moteurs de recherche - les métamoteurs. Le moteur de recherche (Google) est l’outil le plus utilisé, car il est le plus performant en termes quantitatifs, mais pas toujours en termes qualitatifs : il est bien non seulement de connaitre d’autres outils de recherche, mais aussi d’apprendre à utiliser Google. 1. Annuaires de recherche - Répertoires de sites - Signets Historiquement, les annuaires sont les plus anciens des outils de recherche. Cet outil recense des sites web. Il est constitué de rubriques (ou catégories), elles-mêmes subdivisées en sous-rubriques. A l’intérieur de ces sous-rubriques, nous trouvons des listes de sites web : Catégorie Sous-rubrique Sous-sous rubrique Listes de sites web On circule dans ces catégories et rubriques en développant des ARBORESCENCES Un annuaire est libre de prendre ou de refuser un site. Une condition d’efficacité de l’annuaire est sa taille, c’est à dire le nombre de sites référencés dans son index. L’annuaire peut s’utiliser de deux façons : soit l’internaute consulte les catégories : il navigue alors de rubriques en sous-rubriques jusqu’aux sites soit il effectue sa recherche grâce à des mots clefs. Avantage : Cet outil de recherche permet une navigation simple et l’internaute est guidé par un fil conducteur. De plus, les sites de l’annuaire ont été sélectionnés. Ils fournissent des réponses de qualité. Inconvénient : Le gros inconvénient de l’annuaire, c’est qu’il est construit manuellement. De ce fait, sa taille est réduite, il est difficile de le tenir à jour. Enfin, les sujets très spécifiques et très pointus sont difficiles à localiser. Les signets sont des adresses de sites sélectionnés par des institutions reconnues (= des favoris), classés thématiquement et vérifiés régulièrement. Ils s’inspirent donc de la méthode des annuaires. Leur avantage majeur est d’offrir à l’internaute une sélection de sites reconnus et fiables, que l’internaute n’auraient pas forcément retrouvés rapidement avec un moteur de recherche classique. En conclusion, les annuaires ou les signets fournissent des résultats pertinents mais peu nombreux 4 BULCO – Recherche documentaire – Lettres Modernes – 2013-2014 L’annuaire généraliste Dmoz (http://www.dmoz.org/World/Fran%C3%A7ais/). Ce répertoire est géré par une vaste communauté d’éditeurs bénévoles. Il répertorie plus de 4 millions adresses Internet classées dans plus de 1 million de catégories. C’est un projet collaboratif. Il s’agit d’un annuaire, pas un moteur de recherche : les sites sont répertoriés au sein de catégories. Il n’y a ni classement ni optimisation des sites. Les signets du Cerimes (http://www.signets-universites.fr): ces signets sont accessibles également via le portail de l’Université. C’est une sélection d’adresses Internet de référence réalisée par le Centre de Ressources et d’Information sur les Multimédias pour l’Enseignement supérieur. Ce classement suit la logique Dewey. Les signets de la BNF (http://signets.bnf.fr): La Bibliothèque nationale de France propose sur son site un répertoire de 7000 ressources mises à jour et contrôlées régulièrement : les sites recommandés sont peu nombreux mais d’une très grande qualité. La navigation s’effectue également dans l’arborescence thématique. Il est également possible d’effectuer une recherche de sites par mots-clefs. 2. Qu’est-ce qu’un moteur de recherche ? Les moteurs de recherche sont des robots (également appelés spiders ou crawlers) qui indexent automatiquement des millions de pages web, sans intervention humaine (ce qui les distingue des annuaires). Contrairement aux annuaires, les moteurs permettent de trouver sur le web une quantité considérable de sites Internet, mais dont la qualité et la fiabilité n’est jamais contrôlée ni vérifiée. La recherche s’effectue uniquement par mots-clés (pas d’arborescence). Celle-ci peut être simple ou avancée. Toutefois, la couverture du web par les moteurs de recherche reste parcellaire : seulement 20% du web est indexé par les robots. Toute la partie du Web qui n’est pas indexée par les robots s’appelle le WEB INVISIBLE (par exemple, les cours mis en ligne sur le portail e-Bulco ne sont pas indexés par les moteurs de recherche). Chaque moteur de recherche a son propre robot et fonctionne donc à sa manière : c’est pourquoi les résultats peuvent être différents pour une même requête selon le moteur utilisé. a) Google est le moteur de recherche généraliste le plus connu et le plus performant en terme de pages indexées. Nous avons la possibilité d’effectuer une recherche simple ou avancée. Le critère de classement des résultats se fait par rapport à la popularité du site : Page-Rank. « Page Rank » = l’indice de popularité d’une page Page Rank : calcule le nombre de fois qu’un site X est cité par d’autres sites A, B, C, D… Mais il prend aussi en compte la popularité des sites A, B, C, D: être cité par des sites qui sont euxmêmes populaires augmente la popularité de X Inconvénient : des sites récents n’apparaîtront pas tout de suite (pas le temps d’être cités) Astuce : « J’ai de la chance » ouvre tout de suite le premier site 5 BULCO – Recherche documentaire – Lettres Modernes – 2013-2014 b) Exalead est un moteur de recherche francophone. Il propose de nouvelles fonctionnalités par rapport à un moteur de recherche comme Google. Nous pouvons pré visualiser les pages. Les termes ou expressions associés aux mots clefs de la requête s’affichent, de même que les catégories en relation avec la requête. c) Google Scholar est un moteur de recherche spécialisé sur les documents scientifiques et académiques. Il existe une grande variété de documents : articles, livres, thèses, rapports… Le domaine des sciences techniques et médicales est mieux couvert que celui des sciences sociales et humaines. d) Google Books est un moteur qui permet de retrouver des livres ou des extraits de livres Numérisation d’un grand nombre d’ouvrages de plusieurs grandes bibliothèques (Harvard, Oxford, BM Lyon) Ouvrages dans le domaine public en entier Ouvrages encore sous droits partiellement disponibles (sommaire, introduction) Les enjeux de Google Books Libre aujourd’hui, mais à tout moment peut devenir payant Choix des ouvrages : prédominance anglo-saxonne, perte de diversité culturelle Accords avec les plateformes de vente (Amazon) : c’est souvent plus une incitation d’achat qu’un pas en faveur de l’accès libre Outils de recherche : c’est un moteur de recherche, pas un catalogue (recherche sujet très imparfaite) e) Spinoo indexe les sites éducatifs français : moteur de recherche mis au point par le Centre national de documentation pédagogique (CNDP) entièrement dédié à l'éducation. Spinoo prospecte de manière exhaustive un champ clos, celui des sites éducatifs institutionnels français. Les utilisateurs sont ainsi assurés de trouver tous les documents qui correspondent à leur demande, même si ceux-ci sont situés au plus profond des sites visités et stockés au format Word ou Acrobat... Enfin, ils disposent d'une garantie de qualité, concrétisée par la signature "éditoriale" des sites institutionnels 6 BULCO – Recherche documentaire – Lettres Modernes – 2013-2014 Les Moteurs de recherche conseillés Source : SAPRISTI ! (http://sapristi-docinsa.insa-lyon.fr) Moteur généralistes : Exalead, Google, Yahoo! Moteurs spécialisés : Scirus, Google Scholar, OAIster Moteurs généralistes EXALEAD 1. Suggestions de recherche (mots et expressions) 2. Recherche par lemmatisation (différentes formes que peut revêtir un mot : le nom, le pluriel, le verbe à l'infinitif…), Recherche avancée encadrée 3. Analyse de regroupement sur les termes associés (clustering) 4. Catégorisation à partir de l’annuaire coopératif Open Directory (dmoz.org) et de l’encyclopédie Wikipedia, par nuages de mots-clés 5. Opérateur de proximité NEAR, parenthèses autorisées 6. Ajout de raccourcis, interface en plusieurs langues Voir aussi la fiche synthétique du site Abondance : http://outils.abondance.com/exalead.html GOOGLE 1. Index de 10 milliards de pages 2. Opérateur de proximité NEAR 3. Traduction de la page (et des pages suivantes…) 4. Recherche simple: pas de troncatures (caractères Joker), pas de lemmatisation, pas de parenthésage 5. Recherche avancée Voir aussi la fiche synthétique du site Abondance : http://outils.abondance.com/google.html YAHOO 1. Recherche Multilingue : mots-clés en français et résultats en version originale ou en français (pages traduites) 2. Création de "Mon Web" : mémorisation et partage de signets 3. Raccourcis de recherche 4. Plusieurs services en ligne 5. Consultation de ses flux Twitter sur des services Yahoo! 6. Affichage en temps réel des dernières informations (via Twitter) Voir aussi la fiche synthétique du site Abondance : http://outils.abondance.com/yahoo-moteur.html Moteurs spécialisés SCIRUS 1. Choix des ressources scientifiques: a. Ressources publiées (BDD bibliographiques ciblées) b. Ressources non publiées (sites Web sélectionnés) 2. Recherche par termes associés 3. Recherche avancée : interface riche, de nombreuses options 4. Indexation par catégorie : Base de connaissance linguistique dans 20 domaines 5. Tri par date ou pertinence 6. Domaines destinés aux étudiants, enseignants et chercheurs GOOGLE SCHOLAR 1. Ressources en sciences exactes : sites sélectionnés 2. Consultation d’articles clés dans n'importe quel domaine de recherche (plus autres articles proches et différentes versions) 3. Indexation en texte intégral 4. Recherche avancée : filtres sur l'auteur, sur la revue et sur la date. 5. Résultats : liste de notices minimales, avec résumés analytiques et des citations. Tri par pertinence selon le texte, son auteur la revue de publication et le nombre de citation dans d’autres ouvrages. 6. Localisation de l’article complet dans votre bibliothèque ou sur le Web OAISTER 1. Accès libre à des documents numériques : textes numériques natifs, fichiers audio, images, films, ensembles de données. 2. Accès à des collections : thèses, rapports techniques, documents de recherche, collections d'images. 3. Base de données construite à partir des collections d'archives ouvertes (format OAI), intégrée au catalogue WorldCat. 4. Ressources pluridisciplinaires du monde entier. 5. Recherche croisée sur différents champs mais surtout sur les métadonnées de la notice. 6. Listage par auteurs et dates en marge 7 BULCO – Recherche documentaire – Lettres Modernes – 2013-2014 LA RECHERCHE AVANCEE DANS GOOGLE Pour limiter et orienter la nature des résultats que vous recherchez, pensez à utiliser les critères de la recherche avancée : Vous pouvez ainsi préciser la langue, la date, le nom de domaine, la place des mots recherchés dans la page web … des sites recherchés. Utilisez également des opérateurs de recherche spécifiques à Google qui vous aideront à délimiter le champ de vos recherches. 8 BULCO – Recherche documentaire – Lettres Modernes – 2013-2014 Les opérateurs de recherche dans Google (Source : https://support.google.com/websearch/answer/136861?p=adv_sitespecific&hl=fr&rd=1) Si vous ne trouvez pas ce que vous cherchez en suivant nos conseils de base pour la recherche, essayez d'utiliser un opérateur de recherche. Ajoutez ces symboles ou ces termes à votre requête dans le champ de recherche Google pour mieux contrôler les résultats obtenus. Ne cherchez pas à mémoriser les opérateurs : vous pouvez utiliser la page Recherche avancée pour générer un grand nombre de ces recherches. Lorsque vous utilisez un opérateur de recherche, n'ajoutez pas d'espace entre celui-ci et votre requête. Ainsi, la requête site:lemonde.fr fonctionne, mais la requête site: lemonde.fr ne fonctionne pas. Rechercher un mot précis ou une expression particulière "requête de recherche" Utilisez des guillemets pour rechercher un terme précis ou un groupe de mots. Cette option est particulièrement utile lorsque vous recherchez, par exemple, les paroles d'une chanson ou un passage extrait d'un livre. "imagine all the people" Conseil : N'utilisez cet opérateur que si vous recherchez un terme précis ou une expression exacte. Dans le cas contraire, vous risqueriez d'exclure des résultats de recherche utiles. Ajoutez un tiret (-) avant un mot ou un nom de site pour exclure tous les résultats qui incluent ce terme. Cette option est particulièrement utile pour des homonymes tels que "jaguar", qui peut faire référence à la marque de voiture ou à l'animal. Exclure un mot -requête vitesse jaguar -voiture ou pandas -site:wikipedia.fr Conseil : Vous pouvez également exclure des résultats obtenus via d'autres opérateurs, par exemple, tous les résultats d'un site spécifique. Effectuer des recherches au sein d'un site ou d'un domaine site:requête Rechercher des pages qui redirigent vers une URL en particulier link:requête Si vous souhaitez obtenir plus de résultats sur un site Web en particulier, ajoutez le préfixe site: à votre requête. Par exemple, vous pouvez rechercher toutes les références à la coupe du monde de la FIFA 2014 sur le site de l'Équipe en formulant votre requête de la manière suivante : FIFA 2014 site:lequipe.fr Conseil : Vous pouvez également rechercher des informations au sein d'un domaine de premier niveau spécifique, tel que .org ou .edu, ou du domaine d'un pays spécifique, tel que .de ou .jp. jeux olympiques site:.gov L'opérateur link: vous permet de rechercher des pages qui redirigent vers une autre page en particulier. Par exemple, vous pouvez trouver toutes les pages qui redirigent vers google.com. link:google.com Conseil : Vous pouvez également rechercher des liens vers des pages spécifiques, par exemple google.com/images. link:google.com/images Pour rechercher des sites similaires à une URL spécifique, utilisez related: Par exemple, Rechercher des pages similaires à vous pouvez trouver d'autres sites d'actualités s'apparentant à celui du Figaro une URL en particulier susceptibles de vous intéresser. related:requête related:lefigaro.fr 9 BULCO – Recherche documentaire – Lettres Modernes – 2013-2014 Compléter une requête requête * requête Rechercher un terme ou l'autre requête OR requête Lorsque vous ne connaissez pas un terme ou que vous n'êtes pas sûr d'un terme dans votre requête, utilisez un astérisque (*) comme substitut. Utilisez des guillemets pour trouver les variantes d'une expression exacte ou pour retrouver, au milieu d'une expression, des mots dont vous n'arrivez plus à vous souvenir. "un * vaut mieux que deux *" Si vous souhaitez rechercher des pages qui ne contiennent qu'un terme parmi plusieurs, utilisez l'opérateur OR (en majuscules) entre les mots. Sans cet opérateur, généralement seules les pages qui contiennent les deux termes à la fois s'affichent dans les résultats. lieu coupe du monde 2014 OR 2018 Conseil : Délimitez les expressions par des guillemets pour rechercher l'une ou l'autre d'entre elles. "lieu coupe du monde 2014" OR "lieu coupe du monde 2018" Séparez les nombres par deux points..) pour voir les résultats qui contiennent les nombres inclus dans cette plage de valeurs (dates, prix, mesures, etc.). appareil photo 50€..100 € Rechercher une plage de valeurs nombre..nombre Conseil : En n'associant qu'un seul nombre aux deux points, vous pouvez indiquer une limite supérieure ou inférieure. gagnants 24 Heures du Mans ..2000 3. Qu’est ce qu’un métamoteur de recherche ? Les métamoteurs sont des outils qui interrogent plusieurs moteurs de recherche simultanément. Ce sont en quelque sorte les « moteurs de moteurs ». Ils n’ont pas d’index propre mais utilisent les index des moteurs de recherche qu’ils interrogent : lors de l’affichage des résultats ils éliminent les doublons. Exemples de métamoteurs : Copernic, Clusty, Findloo, Kartoo, Ixquick… Avantages - La recherche est plus rapide car elle interroge simultanément plusieurs moteurs de recherche à la fois. - La recherche est plus exhaustive car une plus grande couverture du web est couverte. Inconvénients - Ils filtrent moins qu’un seul moteur de recherche généraliste - Les recherches sont moins pointues. Synthèse Quels outils de recherche privilégier pour ses requêtes ? 1. Vous pouvez choisir l’annuaire pour débuter une recherche ou pour vous faire une idée des sites existants dans un domaine que vous découvrez. De plus, l’annuaire permet de repérer des ressources du web invisible. 2. Vous privilégierez le moteur de recherche pour la taille de son index et la rapidité de mise à jour. Le moteur de recherche va vous servir à effectuer une recherche pointue à partir de mots clefs précis ou d’élargir la portée de votre requête à une grande partie du web. Mieux vaut dans ce cas privilégier la recherche avancée. 10 BULCO – Recherche documentaire – Lettres Modernes – 2013-2014 II. La sélection d’informations pertinentes et valides : Les critères d’évaluation Toute information doit répondre à 2 exigences : Pertinence : une information pertinente est celle qui répond à la question que vous vous posez. Validité : une information validée est une information exacte. Internet est un espace « ouvert ». On y trouve une multitude d’informations qui ne sont pas contrôlées ni vérifiées. N’importe qui peut publier un document. En effet, contrairement à un espace « fermé » (la bibliothèque par exemple), il n’y a aucune sélection a priori des documents qui s’y trouvent. Bouleversements du Web Le Web permet de s’auto-publier L’étape de validation de l’écrit par un éditeur n’est plus nécessaire L’anonymat couvre parfois les auteurs Généralisation du copié-collé et des références dont on n’évoque pas les sources Il est difficile d’identifier un document et sa source. Les compétences de l’éditeur et celle de l’auteur sont mélangées car l’auteur est son propre éditeur. Les genres documentaires sont également mélangés, ce qui peut mener à des confusions. Ainsi, la surabondance d’informations (des dizaines de milliards de pages web) conduit à la désinformation (médiocrité de l’information). Alexandre Serres parle d’ « info-pollution ». Cette désinformation est amplifiée par le marketing invisible, l’espace commercial, les rumeurs et fausses informations. A ce propos, Hoaxbuster est un site qui répertorie les rumeurs sur Internet (www.hoaxbuster.com). Distingue les info vraies/fausses/à moitié vraie-fausse. Comment lutter contre cette désinformation ? Par des moyens techniques (anti-spams), juridiques (responsabilité des hébergeurs) et humains (il faut réfléchir, faire appel à sa culture générale et à son esprit critique pour évaluer l’information que l’on trouve). Sur un sujet qu’on ne connaît pas, il faut appliquer des critères d’évaluation. Une information validée est une information identifiée, fiable, précise, exacte et exhaustive, d’actualité, structurée. 11 BULCO – Recherche documentaire – Lettres Modernes – 2013-2014 Ces 6 critères d’évaluation permettent d’identifier un document du web et de mesurer sa validité 1. Identifier la nature du document Est-ce une page web ou un site entier ? Est-ce un article de périodique, un compte-rendu, un brevet, une thèse, un blog, une information circulante (forum) ? 2. Identifier la date du document Quelle est sa date de création, sa date de mise à jour ? La période correspond-elle à vos besoins ? Les liens sont-ils toujours à jour ? 3. Identifier la fonction du document A qui le document s’adresse-t-il et à quoi sert-il ? Est-ce un document scientifique, politique, de vulgarisation, d’expression, commercial, universitaire, personnel ? Le site est-il personnel ou commercial ? Quel est le public visé ? 4. Identifier la nature de l’organisme « éditeur » (URL = Uniform Ressource Locator) Adresse officielle du site internet, identique pour tous les internautes URL ≠ du nom du site URL est construite selon une syntaxe précise Plus l’adresse URL est construite plus la structure du site est complexe Vous devez décrypter l’adresse URL qui se décompose en trois éléments : - nom du protocole (http://, news://…) - nom de domaine (c’est l’adresse du serveur hébergeant la ressource) - chemin d’accès à la ressource (il s’agit du nom du fichier et des sous-fichiers, et son emplacement). La structure de base d'une URL est celle-ci : protocole://nom-du-serveur.nom-du-domaine/répertoire/nom-du-fichier Les extensions de domaine fournissent des informations très précises sur le document. Il existe des extensions thématiques et des extensions géographiques. Quelques exemples d’extensions thématiques : - .gouv : site du gouvernement - .com : site commercial - .org : pour les organisations et les associations - .net : pour les réseaux - .info : site d’information - ac, .edu : site d’éducation. Quelques exemples d’extensions géographiques (à savoir : chaque pays dans le monde possède son domaine propre) : - .fr : France - .be : Belgique - .ca : Canada 12 BULCO – Recherche documentaire – Lettres Modernes – 2013-2014 Attention! Les noms de domaine ou des serveurs ne sont pas toujours des indications directes sur la localisation et la source de l'information. On peut donner n'importe quel nom à son serveur; et il est possible d'enregistrer des noms de domaine qui donnent de fausses impressions. Trucs et informations pratiques Effacer des parties de l'URL pour en apprendre plus sur le site Il peut être très utile d'effacer sur la droite des parties de l'URL pour découvrir où cette nouvelle adresse, plus courte vous entraîne. En faisant cela, vous pouvez trouver des indications sur votre position à l'intérieur du site ainsi que sur sa structure. En effaçant tout ce qui est situé à droite de la première barre oblique (/) vous remontez l'arbre du répertoire et pouvez comprendre comment le fichier est implanté dans le site. Regardez par exemple, ce qui se passe si vous effacez une partie de l'URL suivante: affiche: URL http://www.ariadne.ac.uk/issue56/ conole#The_Tension_between_Web_2.0_and_Ed un article en ligne ucation signifie: ceci est un article en ligne http://www.ariadne.ac.uk/issue56/ le sommaire de la livraison 13 d'un journal l'article fait partie du n° 13 de ce journal http://www.ariadne.ac.uk/ la page d'accueil d'un journal électronique l'article est contenu dans ce journal Cette technique est particulièrement utile pour de longues adresses URL. Trouver la page d'accueil d'un site web La page d'accueil est la première page d'un site web - l'équivalent de la couverture d'un livre - et fournit beaucoup d'informations comme le titre, le nom de l'auteur et une présentation sommaire de l'objectif du site. Souvent, les hyperliens vous entraînent au beau milieu d'un site par opposition à la page d'accueil. Il est ainsi difficile de savoir où l'on est. C'est une bonne habitude de regarder la page d'accueil d'un site avant de l'utiliser, tout simplement pour vérifier ce que vous regardez. Les URL vous aident sur ce point - la racine d'une URL vous emmènera souvent sur la page d'accueil. Ca ne marchera pas toujours - mais essayez d'effacer le nom du fichier et celui des répertoires à droite de l'adresse, puis appuyez sur la touche Entrée (assurez-vous que la nouvelle URL se termine par une barre oblique / ou html ou htm). Ceci vous emmènera vraisemblablement à la page d'accueil. Ex : le site web du Président de la République française http://www.elysee.fr/chronologie/#e4905,2013-11-17,visite-detat-en-israel-visite-officielle-dans-les-territoires-palestiniens une page loin dans le site http://www.elysee.fr/ la page d'accueil 13 BULCO – Recherche documentaire – Lettres Modernes – 2013-2014 Le tilde ~ : Dans certaines URL vous verrez http://www.ilrt.bris.ac.uk/~cmpac/) le tilde qui s'écrit ainsi : ~ (Par exemple : La plupart des serveurs web utilisent le ~ pour indiquer qu'il s'agit de répertoires personnels. Si l'URL contient un tilde, alors sachez que probablement (pas systématiquement cependant) vous regardez une page personnelle, présentant des opinions personnelles et non sur un site officiel transmettant la ligne de pensée officielle. Ceci ne signifie pas, cependant, que l'information soit de mauvaise qualité. Par exemple la page suivante contient un tilde : http://www.ilrt.bris.ac.uk/~cmpac/ Cette page est hébergée sur le serveur de l'Université de Bristol, mais n'est PAS une page officielle de l'université - c'est la page personnelle d'un membre du personnel. 5. Identifier l’auteur de la page Web Vous pouvez regarder sur la page web (souvent dans la rubrique « contacts ») ou sur le site s’il y a des informations. Si un nom est indiqué, vous pouvez vérifier sa notoriété sur ce site : http://www.123people.fr . Qu’a écrit l’auteur du document ? Est-il un spécialiste du domaine ? Quel est son point de vue, ses motivations ? L’identification de l'auteur d'un site est souvent essentielle, pour pouvoir identifier clairement la nature du site, et évaluer la fiabilité de l'information. Cette opération n'est pas toujours aisée. Voici quelques astuces techniques pour identifier un auteur : a/ Bien explorer le site : pied de page de la page d'accueil, pages dédiées ("A propos", "Copyright"...), adresse électronique... b/ Vérifier l'adresse d'un lien pointant vers une adresse e-mail, en passant le curseur de la souris sur le lien (certains liens pointent en fait vers des pages HTML) c/ Remonter ou descendre l'arborescence pour trouver d'autres informations sur l'auteur d/ Consulter les métadonnées, qui contiennent des éléments de description du document, notamment parfois la mention de responsabilité, le nom de l'auteur, voire son adresse électronique. Pour afficher les métadonnées : menu "Afficher la source" (par le bouton droit de la souris) e/ Utiliser les outils de recherche généralistes et spécialisés : Après avoir trouvé le nom de l'auteur ou du propriétaire du site, faire une recherche sur les moteurs généralistes (Google...) ou les moteurs de personnes (123 People), pour trouver des informations sur cette personne. 6. Identifier la notoriété du site Ce site est-il référencé par d’autres sites ? Par des sites de qualité ? Utiliser Google recherche avancée, la fonction « Liens » (link) pour voir quels sites pointent la page étudiée. 14 BULCO – Recherche documentaire – Lettres Modernes – 2013-2014 EXERCICES Chacun des outils de recherche suivants se trouvent facilement en tapant leur nom dans le moteur de recherche Google 1) Utilisez les 3 répertoires suivants (annuaire Dmoz, signets du CERIMES et signets de la BnF) pour trouver des sites pertinents sur votre sujet sur la francophonie. Précisez à chaque fois l’arborescence développée (catégories et sous-catégories) DMOZ SIGNETS DU CERIMES SIGNETS DE LA BnF Arborescence thématique Adresse du site 15 BULCO – Recherche documentaire – Lettres Modernes – 2013-2014 2) Utilisez les moteurs de recherche Google, Google Scholar, Exalead et Spinoo pour trouver des sites ou des pages web sur la francophonie. Explicitez votre mode de recherche (mots-clés, critères) et comparez les résultats de votre recherche. Google Exalead Google Scholar Spinoo Mots de la recherche Critères de la recherche avancée Adresse d’un site pertinent trouvé Avantages de ce moteur de recherche Inconvénients de ce moteur de recherche 16 BULCO – Recherche documentaire – Lettres Modernes – 2013-2014 3) Appliquez les critères d’évaluation pour chacun des sites suivants. Cherchez à repérer en particulier : l’auteur, la date, la fiabilité et la pertinence des documents Evaluer la qualité de ce site pour une étude sur les romans de http://www.myboox.fr/actualite/semprun-parcours-du-combattant-c-18933.html Evaluer la qualité de ce site http://sergecar.perso.neuf.fr/cours/langag1.htm pour un exposé en Semprun : linguistique : Evaluer la qualité de ce site un exposé sur l’œuvre d’Albert CAMUS : http://calounet.pagespersoorange.fr/biographies/camus_biographie.htm Evaluer la qualité de ce site http://www.pensees-ecrites.net/courants-litteraires/theatre-de-labsurde,8/ Quelle est la notoriété et la validité http://mael.monnier.free.fr/bac_francais/etranger/oeuvrecamus.htm de ce site : 17