TD 4 La Recherche d`Information
Transcription
TD 4 La Recherche d`Information
C2I-Droits 2009/2010 TD4 B2 TD 4 La Recherche d'Information Compétences étudiées : ● ● ● ● Utilisation des outils de recherches courants (Google, Yahoo ...) Requêtes de recherche Rechercher dans le catalogue de la bibliothèque Récupérer et savoir utiliser des informations Note : Ce cours est fait essentiellement à partir du cours B2 du C2imes (http://www.c2imes.org). Ne pas hésiter à le consulter pour de plus amples informations. Certaines informations sont aussi tirées du document « Méthodologie universitaire » réalisé par David Hervé du Service Commun de Documentation. Damien Palacio 1/14 C2I-Droits 2009/2010 TD4 1. Présentations d'outils de recherche 1.1. Les Requêtes L’utilisateur, pour faire une recherche, présente une requête, c’est-à-dire une combinaison de motsclés et d’opérateurs logiques tels que : ET, OU, SAUF etc. Il faut bien sélectionner ses mots pour effectuer une recherche. a) Les opérateurs de recherche booléens Opérations Opérateurs Union OU / OR Intersection ET / AND Exclusion SAUF / NOT Résultat b) Les opérateurs de proximité ● ● Adj ou « _ » permet la recherche sur des expressions. Near + chiffre : permet de faire une recherche avec une distance entre les mots (exemple: « effet NEAR1 serre » pour « effet de serre »). c) La troncature Troncature * ou $ Remplace un ou plusieurs caractères en coupant le mot généralement au radical Permet de rechercher simultanément singulier et pluriel Attention seul le moteur de recherche Exalead accepte cet outil, par contre il est utilisable dans les bases de données bibliographiques et les catalogues de bibliothèques d) Masque ? Permet de masquer un caractère Exemples : permet une recherche sur français et anglais : go?vernement Damien Palacio 2/14 C2I-Droits 2009/2010 TD4 e) Recherche spécifique au Web Attention selon les moteurs tous les opérateurs ne sont pas valables !! ● ● ● ● ● ● AND : en général inutile car fait implicitement par les moteurs de recherches lorsqu'on tape plusieurs mots. OR : pour faire un ou : « vélo OR bicyclette » Signe + : permet de forcer la recherche d'un mot : « moteur +de recherche » Signe - : permet d'exclure des mots : « mercure -planète » Guillemets "" : permettent de faire une recherche exacte sur une expression : « "moteur de recherche" » Etoile * : permet de chercher des mots adjacents, 1 étoile par mots : « certificat * informatique » Tilde ~ : permet de rechercher sur des synonymes : « wifi ~help » recherche aussi faq, tutorial, problèmes. (ne marche pas très bien avec le français) ● intitle: : effectue une recherche dans le titre du site : « intitle:planète » ● allintitle: : recherche de plusieurs mots dans le titre du site : « allintitle: moteur de recherche » ● inurl: : recherche sur l'URL du site : « inurl:c2i » ● site: www......+1 mot : le moteur va rechercher le mot uniquement dans ce site : « site:www.univ-pau.fr c2i » ● site: extension.....+1mot : le moteur va chercher sur le terme dans un type de site (.edu, .org, .gouv, ...) : « site:.fr c2i » ● link: www.... : permet de faire une recherche sur les liens pointant vers ce site : « link:www.univ-pau.fr » ● filetype: recherche par type de fichier (pdf, doc, jpeg) : « filetype:pdf cours c2i » ● define: : recherche de définitions : « define:ordinateur » ● stocks: : recherche d'informations boursières sur une société : « stocks:société générale » ● related: www....: pour rechercher des sites semblables à celui indiqué : « related: www.google.fr » Il est évidemment possible de combiner plusieurs opérateurs. ● 1.2. Les Annuaires Un annuaire (on parle parfois de guide) est un outil de recherche qui recense un certain nombre de sites. L'annuaire est constitué de rubriques (appelées aussi catégories) telles que : Actualités et médias, Sports et loisirs, etc. Chaque rubrique est subdivisée en sous-rubriques plus précises, elles-mêmes subdivisées en soussous-rubrique, etc. Chaque dernière sous-rubrique est une liste de sites Web (et non de pages Web). Un véritable annuaire est construit manuellement. Deux principaux modes d'utilisation : ● En naviguant (browsing) : on navigue de rubrique en sous-rubriques jusqu'à arriver à un site. ● Par mots-clés (searching) : on fait une recherche dans l'annuaire via un mot-clé Damien Palacio 3/14 C2I-Droits 2009/2010 TD4 Avantages : ● Navigation simple et guidée ● Sites pertinents Inconvénients : ● Petite taille et croissance lente par rapport à l'immensité du web ● Mise à jour parfois mauvaise (certains sites référencés n'existent plus ...) Cela dû essentiellement à son coté manuel. L'un des plus connus : Yahoo n'est plus aujourd'hui qu'un annuaire généré par machine, le site principal s'étant transformé en moteur de recherche généraliste Adresse : http://fr.dir.yahoo.com/ Le seul véritable annuaire du net est Dmoz, il est maintenu par des internautes bénévoles, ce qui a comme conséquence, une richesse variable selon les domaines. Adresse : http://www.dmoz.org/ 1.3. Les moteurs de recherche Le moteur de recherche fonctionne sur un système radicalement différent de celui de l'annuaire, qui est celui de l'indexation : des robots logiciels (appelés crawlers ou spiders) parcourent le Web, vont de page en page (en fait de lien en lien) et au fur et à mesure de leur parcours, indexent le contenu textuel des pages ( il s'agit ici de pages Web et non de sites ) rencontrées. Chaque mot significatif est conservé dans l'index avec l'adresse de sa page et son adresse dans cette page : il est ainsi constitué un index. Avantages : ● La taille de l'index augmente proportionnellement à celle du Web ● La mise à jour de l'index se fait de manière régulière ● Le nombre de réponses à une recherche est généralement énorme Inconvénients : ● Trouver les bons mots-clés pour sa recherche est difficile ● Tous les résultats ne sont pas pertinents 1.4. Les métamoteurs Un métamoteur ou un métachercheur est un logiciel qui puise ses informations à travers plusieurs moteurs de recherche. De manière plus précise, le métamoteur envoie ses requêtes à plusieurs moteurs de recherche, et retourne les résultats de chacun d'eux. Cela permet aux utilisateurs d'entrer le sujet de leur recherche une seule fois et d'accéder à plusieurs réponses de moteurs de recherche différents. Damien Palacio 4/14 C2I-Droits 2009/2010 TD4 Exemples : ● Ixquick : http://www.ixquick.com/fra/ ● Seek : http://www.seek.fr/ ● NEToo : http://www.netoo.fr/ ● Metadone : http://www.metadone.net/ ● Releton : http://releton.com (http://fr.wikipedia.org/wiki/M%C3%A9tamoteur) Il existe aussi le logiciel Copernic, qui vous permet de trier et conserver les résultats sur votre ordinateur. 1.5. Exemples de moteurs de recherche a) Google Google est le plus gros moteur de recherche mondial. http://www.google.fr Ses points forts : ● Page d'accueil très épurée et simple (personnalisable avec iGoogle) ● Très puissant : 8 Milliards de pages déjà indexées. ● Très rapide : temps de réponse moyen de 0,5 secondes. ● Classement efficace : les meilleurs résultats sont en général en tête Remarques sur la recherche: ● La casse des lettres (majuscules/minuscules) n'est pas pris en compte ni les accents ● ET logique appliqué si plusieurs mots dans la requête : « moteur recherche » équivaut à « moteur AND recherche » ● Certains termes sont ignorés : les mots vides (stop words) tels que le, la, les, mais ... ● Google favorise les pages qui ont les mots-clés dans le même ordre que dans la requête. ● Google propose un correcteur orthographique. Ce dernier vous propose un mot alternatif dès qu'il l'estime nécessaire. Celui-ci est loin d'être parfait mais peut se montrer bien utile ● Pour chaque recherche ou presque, Google propose sa sauvegarde de la page web (cache) chose très pratique si elle a disparu, ou pour avoir vos mots-clés en couleur dans la page. ● Pour utiliser la plupart des opérateurs (1.1.e), au lieu de les taper dans la requête il est possible de remplir des champs en allant dans « Recherche avancée » Damien Palacio 5/14 C2I-Droits 2009/2010 TD4 Figure 1: Recherche avancée avec Google b) Exalead Exalead est un moteur de recherche français dit de nouvelle génération. Il propose de nouvelles fonctionnalités par rapport aux moteurs de recherches classiques tels Google ou Yahoo. Adresse : http://www.exalead.fr Exalead permet : ● la prévisualisation d'une page en bas de l'écran ● d'affiner les résultats de la recherche selon des critères de localité, types de documents et termes associés ● de créer et gérer une sélection de sites favoris disponible directement sur la page d'accueil, permettant en un clic d'aller sur ses pages préférées (une image réduite de chacun des sites leur est associée). ● une recherche phonétique qui s'avère pratique lorsque l'on ne connaît pas l'orthographe du mot : « informatik » ● une recherche par expressions rationnelles, ce qui peut être utile, par exemple, aux cruciverbistes (amateur de mots croisés) : « /mpg(1|2|3)?/ » (http://fr.wikipedia.org/wiki/Exalead) Damien Palacio 6/14 C2I-Droits 2009/2010 TD4 c) Touchgraph : un moteur cartographique Touchgraph permet d'afficher les résultats fournis par Google sous forme d'un schéma : chaque résultat est un noeud central, et tous les sites similaires ou liés à ce résultat y sont rattachés. Adresse : http://www.touchgraph.com/TGGoogleBrowser.html Il existe aussi Kartoo dans le même genre : http://www.kartoo.fr/ Figure 2: Recherche de "Pau" avec TouchGraph Damien Palacio 7/14 C2I-Droits 2009/2010 TD4 Pour finir une liste exhaustive des outils de recherche web : http://urfist.univ-lyon1.fr/risi/outils.htm Exercice 1 1. Chercher des sites webs sur Woody Allen sur Dmoz. Combien de résultats en français ? en anglais ? 2. Rechercher le terme « imobilier » sur Google (avec la faute). Vous propose-t-on une correction ? A quoi voyez vous les liens commerciaux ? 3. Rechercher une image de porte-avion via la recherche dédiée aux images de Google 4. Rechercher le terme « Pau » sur Google, Yahoo, Exalead. Comparer les 3 premiers résultat. Lesquels semblent les plus pertinents ? 5. Rechercher « Pau » sur Releton. Ajuster la barre pour favoriser Google ou Yahoo, observez ce qui se passe. 6. Rechercher « Pau » sur TouchGraph. (cliquer sur la petite croix quand vous passez sur un noeux pour le développer). Exercice 2 1. Trouver la bibliographie et le portrait d'Arthur Rimbaud 2. Trouver qui a réalisé l'oeuvre Pèlerinage à l'île de Cythère 3. Trouver à quoi correspond le sigle « LCD . Sur quel site avez vous trouvé la réponse ? 4. Trouver le poème et l'auteur dont est extrait cette phrase « A la cime argentée, je reconnus la déesse » 5. Trouver des fichiers PDF portant sur le C2I 6. Retrouver le site du CIES sur le site de l'université de Pau 7. Chercher le site du quotidien « Le Sud Ouest ». Consulter la page en cache. Pouvez vous voir quel jour les robots de Google ont indexés cette page ? Damien Palacio 8/14 C2I-Droits 2009/2010 TD4 2. Rechercher dans les bibliothèques 2.1. Notions Au sens général, un catalogue est une liste (du grec katalogos : liste). Concernant une bibliothèque, c'est la liste de tous les documents possédés par cette bibliothèque, quel que soit leur type : livre, thèse, revue, cédérom, carte ... Un catalogue peut être propre à une bibliothèque (catalogue de la Bibliothèque Nationale de France), ou concerner les collections de plusieurs bibliothèques : on parle alors de catalogue collectif. La notice bibliographique est l'ensemble des éléments de description d'un document. Pour un ouvrage : auteur, titre, éditeur, année de publication, mention d'édition, ISBN, format, nombre de pages, ... Pour une revue : titre de la revue, éditeur, date du 1er numéro, périodicité, ISSN, ... La cote est un ensemble de caractères alphanumériques attribué à un document et permettant de le retrouver sur les rayonnages de la bibliothèque. Un index est une liste élaborée à partir des éléments de description des documents. On aura ainsi des index alphabétiques des auteurs, des titres, des sujets et des index numériques des ISBN et des ISSN... ISBN (International Standard Book Number) : numéro international unique attribué à un livre. ISSN (International Standard Serial Number) : numéro international unique attribué à un titre de revue. SUDOC : Système Universitaire de Documentation SCD : Service Commun de Documentation, c'est à dire l'ensemble des bibliothèques de l'université de Pau et des Pays de l'Adour (BAB, Mont-de-Marsant, Tarbes, et les bibliothèques de Pau). 2.2. Ressources Sur l'onglet « Documentation » du portail sont disponibles un grand nombre de ressources. D'autres sont sur le portails du SCD (notamment les catalogues et signets). Types de ressources disponibles : ● Les catalogues : Document secondaire recensant et décrivant des documents réunis de façon permanente ou temporaire. En recherche documentaire on fait généralement référence au catalogue de la bibliothèque, qui est constitué de notices bibliographiques • Aleph : le catalogue commun des Bibliothèques universitaires de l'UPPA • Libdex (répertoire de catalogue) on notera que ce catalogue est parcellaire • Le SUDOC (Catalogue commun des bibliothèques universitaires françaises) • A to Z (Catalogue des périodiques papiers et électroniques de l'université) Damien Palacio 9/14 C2I-Droits 2009/2010 ● ● ● TD4 Les bouquets de revues : On appelle bouquets de revues des bases de données donnant accès articles de périodiques en plein texte ou texte intégral • Science direct • Wiley Intersciences • Springerlink Bases de données bibliographiques : Les articles de périodiques ou de journaux, les textes de conférences, les comptes rendus de livres, les chapitres de livres, etc. ne sont pas repérables dans les catalogues de bibliothèques. On utilisera, pour trouver ce type de documents, des bases contenant principalement des résumés d'articles • Pascal • Francis Les revues gratuites : Il existe de nombreuses bases de données de revues électroniques gratuites. Dans ce cas les accès se font souvent avec un système de barrière mobile c'est-àdire une latence entre la publication de la revue pour les abonnés et la mise en ligne. • Persée • DOAJ (www.doaj.org)... 2.3. Chercher un livre au SCD Pour aller sur le site du SCD, se connecter au portail, cliquer sur l'onglet « Documentation », et cliquer sur le lien. Une fois rendu sur le portail du SCD, il faut aller dans « Catalogues et eressources », « Catalogues » et choisir le catalogue Aleph si on veut chercher sur le campus. Ensuite il suffit de taper le terme sur lequel on veut faire une recherche, et une fois qu'on a trouvé le livre qu'on voulait on peut voir s'il est disponible et où. Si la côte est donnée, vous pouvez le trouver en rayon. Figure 3: Exemplaires du livre "Réussissez le C2i niveau 1" Damien Palacio 10/14 C2I-Droits 2009/2010 TD4 2.4. Chercher un livre dans le SUDOC Si ce que vous chercher n'est pas sur le SCD, vous pouvez essayer de rechercher sur le SUDOC pour voir si une autre université le possède, et ensuite voir s'il est possible de le transférer. Les recherches se font comme dans le SCD. Une fois le document trouvé on peut voir dans quelles universités il est disponible (lien Localisation tout en bas). Il est possible d'enregistrer, de s'envoyer par mail, ou de sauvegarder une notice. Exercice 3 1. Rechercher dans le SCD un livre portant sur le C2I. A quelle bibliothèque est il ? Est il disponible ? 2. Quel est le livre portant l'ISBN « 978-2-7460-3530-0 » ? Est il disponible ? Où ca ? Exercice 4 1. Rechercher dans le SUDOC l'ouvrage « C2I 2001 » (Volume 2). Est il disponible à l'université de Pau ? 2. Rechercher l'ouvrage « Réussissez le C2i niveau 1 » (ISBN : 2-10-049600-X) que nous avions cherché à l'exercice 3. Est il disponible à l'université de Pau ? 3. De même l'ouvrage dont l'ISBN est « 978-2-7460-3530-0 » est il disponible à l'université de Pau ? 3. Récupérer et savoir utiliser les informations 3.1. Récupérer une page HTML Pour conserver une page HTML, il suffit de l'enregistrer. Pour cela aller dans le menu « Fichier » et cliquer sur « Enregistrer Sous ». Vous pourrez alors soit sauvegarder la page HTML complète c'est à dire le texte avec les images et toutes les décorations, ou la page HTML basique avec juste le texte. Une fois enregistrée, il suffit alors de double-cliquer dessus et votre navigateur l'affichera. Par contre les liens pointent toujours sur des pages internet, vous ne pouvez pas enregistrer tout un site et naviguer localement dessus comme ça. Damien Palacio 11/14 C2I-Droits 2009/2010 TD4 3.2. Imprimer une page HTML Il suffit d'aller dans le menu « Fichier » et de cliquer sur « Imprimer ». Par contre si on vous propose sur le site web (notamment sur les forums) un lien vers une version imprimable de la page ne pas hésiter à utiliser cela, car cela permet d'obtenir une meilleure impression. Vous verrez que dans certains cas si vous tentez d'imprimer une page web le résultat n'est pas terrible à cause de la mise en page de la page. 3.3. Récupérer une image Pour enregistrer une image d'un site Web, il suffit de cliquer bouton droit dessus et de faire « Enregistrer sous ». Il est possible aussi de la copier et de la coller dans un logiciel de traitement de texte par exemple. Vous remarquerez que sur certains sites le bouton droit de la souris est désactivé à cause du Javascript. Impossible donc de récupérer les images ? Que nenni, cela est quand même possible, pour cela il suffit d'enregistrer la page web complète comme présenté auparavant ;) Attention quand même à respecter le droit d'auteur pour les images, elles ne sont pas toutes libres d'utilisation ! 3.4. Télécharger un fichier ou un logiciel En règle générale, en cliquant sur le lien on vous propose d'ouvrir le fichier ou de l'enregistrer. Dans le cas d'un fichier PDF, vous pouvez cliquer bouton droit dessus et « Enregistrer sous » comme pour une image, ou le laisser s'ouvrir avec Adobe Reader et cliquer sur l'icône en forme de disquette pour l'enregistrer ensuite. Pour les fichiers audio, les formats les plus répandus sur le net sont : ● .AIF, .AIFF, .AIFC : Ce sont des clips sonores, ils peuvent être lus grâce à un lecteur multimédia. ● MOV : Fichier QuickTime Movie. ● RAM, .RA : Fichier au format Real Audio. ● WMA : Format de musique compressée, format propriétaire de la société Microsoft. Les fichiers ont une moins bonne qualité que le MP3. Certains peuvent être protégés par une licence (DRM). ● MID/MIDI : fichiers uniquement de musique générés par des instruments reliés à la carte son du PC (aujourd'hui peu utilisés). ● WAV : Format de musique très répandu, fichiers non compressés ● MP3 : format de musique compressé, très utilisé ● OGG Vorbis : format de musique compressé libre et plus performant que le MP3 mais moins répandu pour l'instant. ● ... Damien Palacio 12/14 C2I-Droits 2009/2010 TD4 Il existe pour les lire de nombreux lecteurs : ● Windows Media Player : inclus à Windows ● Winamp : lecteur gratuit ● iTunes : lecteur de Apple ● foobar2000 : lecteur pour Windows gratuit ● .... Pour les fichiers vidéos, il faut un lecteur tel que : Windows Media Player, Winamp, Quicktime, Realplayer, Media Classic Player Mais comme pour l'audio en général, les vidéos disponibles sur internet sont compressées via des algorithmes. On appelle ces algorithmes CoDec (pour COmpression / DECompression). Ces codecs sont soit fournis avec les lecteurs soit via des packs de codecs. Parmi les formats vidéos, on peut citer le mpeg1 et 2, le divx, le xvid. Mais il faut savoir que pour les vidéos on utilise des conteneurs, avec dedans un fichier vidéo et un fichier vidéo. On peut citer l'exemple de l'AVI ou du MKV. Par exemple, le fichier mavideo.avi contiendra une piste vidéo en divx, et une piste audio en mp3. Quelques sites de téléchargements de logiciels gratuits en tout genre (protection, multimédia, bureautique ...) : ● Clubic : www.clubic.com ● 01net : www.telecharger.com Il existe aussi des sites mettant à disposition de la musique libre et donc gratuite, et permettant de rémunérer librement les artistes. Par exemple Jamendo : www.jamendo.org 3.5. Aspirer un site Internet Comme on a pu le voir auparavant, on peut enregistrer une page web mais pas un site web complet. Mais il est possible d'aspirer un site internet. Aspirer, c'est-à-dire copier tout les fichiers d'un site Web, peut se faire avec un logiciel qui enregistre les fichiers dans un de vos répertoires. La structure complète du site est ainsi accessible hors connexion sur votre ordinateur. Il existe de nombreux logiciels qui vous permettront de faire cela : ● HTTrack ● Memoweb ● Teleport Pro ● ... Attention : Respectez scrupuleusement les droits de propriété intellectuelle lors de l'utilisation de sites aspirés Damien Palacio 13/14 C2I-Droits 2009/2010 TD4 Exercice 5 1. Aller sur Wikipedia, chercher « Internet » 2. Enregistrer la page Web complète dans votre dossier TD4 sur T: (« Page » -> « Enregistrer Sous »). 3. Ouvrir la page enregistrée 4. Quel est son format ? Exercice 6 1. 2. 3. 4. 5. 6. Aller sur Jamendo Rechercher l'artiste « Xera » Télécharger l'album « Lliendes » dans votre dossier TD4 Extraire l'archive (utiliser le menu contextuel) Quel est le format des fichiers audio ? Avec quoi pouvez vous l'ouvrir ? (pour écouter il vous faudra des écouteurs) Damien Palacio 14/14