TD 4 La Recherche d`Information

Transcription

TD 4 La Recherche d`Information
C2I-Droits 2009/2010
TD4
B2
TD 4
La Recherche d'Information
Compétences étudiées :
●
●
●
●
Utilisation des outils de recherches courants (Google, Yahoo ...)
Requêtes de recherche
Rechercher dans le catalogue de la bibliothèque
Récupérer et savoir utiliser des informations
Note : Ce cours est fait essentiellement à partir du cours B2 du C2imes (http://www.c2imes.org). Ne
pas hésiter à le consulter pour de plus amples informations. Certaines informations sont aussi tirées
du document « Méthodologie universitaire » réalisé par David Hervé du Service Commun de
Documentation.
Damien Palacio
1/14
C2I-Droits 2009/2010
TD4
1. Présentations d'outils de recherche
1.1. Les Requêtes
L’utilisateur, pour faire une recherche, présente une requête, c’est-à-dire une combinaison de motsclés et d’opérateurs logiques tels que : ET, OU, SAUF etc.
Il faut bien sélectionner ses mots pour effectuer une recherche.
a) Les opérateurs de recherche booléens
Opérations
Opérateurs
Union
OU / OR
Intersection
ET / AND
Exclusion
SAUF / NOT
Résultat
b) Les opérateurs de proximité
●
●
Adj ou « _ » permet la recherche sur des expressions.
Near + chiffre : permet de faire une recherche avec une distance entre les mots (exemple:
« effet NEAR1 serre » pour « effet de serre »).
c) La troncature
Troncature * ou $
Remplace un ou plusieurs caractères en coupant le mot généralement au radical
Permet de rechercher simultanément singulier et pluriel
Attention seul le moteur de recherche Exalead accepte cet outil, par contre il est utilisable dans les
bases de données bibliographiques et les catalogues de bibliothèques
d) Masque
? Permet de masquer un caractère
Exemples : permet une recherche sur français et anglais : go?vernement
Damien Palacio
2/14
C2I-Droits 2009/2010
TD4
e) Recherche spécifique au Web
Attention selon les moteurs tous les opérateurs ne sont pas valables !!
●
●
●
●
●
●
AND : en général inutile car fait implicitement par les moteurs de recherches lorsqu'on tape
plusieurs mots.
OR : pour faire un ou : « vélo OR bicyclette »
Signe + : permet de forcer la recherche d'un mot : « moteur +de recherche »
Signe - : permet d'exclure des mots : « mercure -planète »
Guillemets "" : permettent de faire une recherche exacte sur une expression : « "moteur de
recherche" »
Etoile * : permet de chercher des mots adjacents, 1 étoile par mots : « certificat *
informatique »
Tilde ~ : permet de rechercher sur des synonymes : « wifi ~help » recherche aussi faq,
tutorial, problèmes. (ne marche pas très bien avec le français)
● intitle: : effectue une recherche dans le titre du site : « intitle:planète »
● allintitle: : recherche de plusieurs mots dans le titre du site : « allintitle: moteur de
recherche »
● inurl: : recherche sur l'URL du site : « inurl:c2i »
● site: www......+1 mot : le moteur va rechercher le mot uniquement dans ce site :
« site:www.univ-pau.fr c2i »
● site: extension.....+1mot : le moteur va chercher sur le terme dans un type de site (.edu,
.org, .gouv, ...) : « site:.fr c2i »
● link: www.... : permet de faire une recherche sur les liens pointant vers ce site :
« link:www.univ-pau.fr »
● filetype: recherche par type de fichier (pdf, doc, jpeg) : « filetype:pdf cours c2i »
● define: : recherche de définitions : « define:ordinateur »
● stocks: : recherche d'informations boursières sur une société : « stocks:société générale »
● related: www....: pour rechercher des sites semblables à celui indiqué :
« related: www.google.fr »
Il est évidemment possible de combiner plusieurs opérateurs.
●
1.2. Les Annuaires
Un annuaire (on parle parfois de guide) est un outil de recherche qui recense un certain nombre de
sites. L'annuaire est constitué de rubriques (appelées aussi catégories) telles que : Actualités et
médias, Sports et loisirs, etc.
Chaque rubrique est subdivisée en sous-rubriques plus précises, elles-mêmes subdivisées en soussous-rubrique, etc.
Chaque dernière sous-rubrique est une liste de sites Web (et non de pages Web).
Un véritable annuaire est construit manuellement.
Deux principaux modes d'utilisation :
● En naviguant (browsing) : on navigue de rubrique en sous-rubriques jusqu'à arriver à un site.
● Par mots-clés (searching) : on fait une recherche dans l'annuaire via un mot-clé
Damien Palacio
3/14
C2I-Droits 2009/2010
TD4
Avantages :
● Navigation simple et guidée
● Sites pertinents
Inconvénients :
● Petite taille et croissance lente par rapport à l'immensité du web
● Mise à jour parfois mauvaise (certains sites référencés n'existent plus ...)
Cela dû essentiellement à son coté manuel.
L'un des plus connus : Yahoo n'est plus aujourd'hui qu'un annuaire généré par machine, le site
principal s'étant transformé en moteur de recherche généraliste
Adresse : http://fr.dir.yahoo.com/
Le seul véritable annuaire du net est Dmoz, il est maintenu par des internautes bénévoles, ce qui a
comme conséquence, une richesse variable selon les domaines.
Adresse : http://www.dmoz.org/
1.3. Les moteurs de recherche
Le moteur de recherche fonctionne sur un système radicalement différent de celui de l'annuaire, qui
est celui de l'indexation : des robots logiciels (appelés crawlers ou spiders) parcourent le Web,
vont de page en page (en fait de lien en lien) et au fur et à mesure de leur parcours, indexent le
contenu textuel des pages ( il s'agit ici de pages Web et non de sites ) rencontrées. Chaque mot
significatif est conservé dans l'index avec l'adresse de sa page et son adresse dans cette page : il est
ainsi constitué un index.
Avantages :
● La taille de l'index augmente proportionnellement à celle du Web
● La mise à jour de l'index se fait de manière régulière
● Le nombre de réponses à une recherche est généralement énorme
Inconvénients :
● Trouver les bons mots-clés pour sa recherche est difficile
● Tous les résultats ne sont pas pertinents
1.4. Les métamoteurs
Un métamoteur ou un métachercheur est un logiciel qui puise ses informations à travers plusieurs
moteurs de recherche. De manière plus précise, le métamoteur envoie ses requêtes à plusieurs
moteurs de recherche, et retourne les résultats de chacun d'eux. Cela permet aux utilisateurs d'entrer
le sujet de leur recherche une seule fois et d'accéder à plusieurs réponses de moteurs de recherche
différents.
Damien Palacio
4/14
C2I-Droits 2009/2010
TD4
Exemples :
● Ixquick : http://www.ixquick.com/fra/
● Seek : http://www.seek.fr/
● NEToo : http://www.netoo.fr/
● Metadone : http://www.metadone.net/
● Releton : http://releton.com
(http://fr.wikipedia.org/wiki/M%C3%A9tamoteur)
Il existe aussi le logiciel Copernic, qui vous permet de trier et conserver les résultats sur votre
ordinateur.
1.5. Exemples de moteurs de recherche
a) Google
Google est le plus gros moteur de recherche mondial. http://www.google.fr
Ses points forts :
● Page d'accueil très épurée et simple (personnalisable avec iGoogle)
● Très puissant : 8 Milliards de pages déjà indexées.
● Très rapide : temps de réponse moyen de 0,5 secondes.
● Classement efficace : les meilleurs résultats sont en général en tête
Remarques sur la recherche:
● La casse des lettres (majuscules/minuscules) n'est pas pris en compte ni les accents
● ET logique appliqué si plusieurs mots dans la requête : « moteur recherche » équivaut à
« moteur AND recherche »
● Certains termes sont ignorés : les mots vides (stop words) tels que le, la, les, mais ...
● Google favorise les pages qui ont les mots-clés dans le même ordre que dans la requête.
● Google propose un correcteur orthographique. Ce dernier vous propose un mot alternatif dès
qu'il l'estime nécessaire. Celui-ci est loin d'être parfait mais peut se montrer bien utile
● Pour chaque recherche ou presque, Google propose sa sauvegarde de la page web (cache)
chose très pratique si elle a disparu, ou pour avoir vos mots-clés en couleur dans la page.
● Pour utiliser la plupart des opérateurs (1.1.e), au lieu de les taper dans la requête il est
possible de remplir des champs en allant dans « Recherche avancée »
Damien Palacio
5/14
C2I-Droits 2009/2010
TD4
Figure 1: Recherche avancée avec Google
b) Exalead
Exalead est un moteur de recherche français dit de nouvelle génération. Il propose de nouvelles
fonctionnalités par rapport aux moteurs de recherches classiques tels Google ou Yahoo.
Adresse : http://www.exalead.fr
Exalead permet :
● la prévisualisation d'une page en bas de l'écran
● d'affiner les résultats de la recherche selon des critères de localité, types de documents et
termes associés
● de créer et gérer une sélection de sites favoris disponible directement sur la page d'accueil,
permettant en un clic d'aller sur ses pages préférées (une image réduite de chacun des sites
leur est associée).
● une recherche phonétique qui s'avère pratique lorsque l'on ne connaît pas l'orthographe du
mot : « informatik »
● une recherche par expressions rationnelles, ce qui peut être utile, par exemple, aux
cruciverbistes (amateur de mots croisés) : « /mpg(1|2|3)?/ »
(http://fr.wikipedia.org/wiki/Exalead)
Damien Palacio
6/14
C2I-Droits 2009/2010
TD4
c) Touchgraph : un moteur cartographique
Touchgraph permet d'afficher les résultats fournis par Google sous forme d'un schéma : chaque
résultat est un noeud central, et tous les sites similaires ou liés à ce résultat y sont rattachés.
Adresse : http://www.touchgraph.com/TGGoogleBrowser.html
Il existe aussi Kartoo dans le même genre : http://www.kartoo.fr/
Figure 2: Recherche de "Pau" avec TouchGraph
Damien Palacio
7/14
C2I-Droits 2009/2010
TD4
Pour finir une liste exhaustive des outils de recherche web : http://urfist.univ-lyon1.fr/risi/outils.htm
Exercice 1
1. Chercher des sites webs sur Woody Allen sur Dmoz. Combien de résultats en français ? en
anglais ?
2. Rechercher le terme « imobilier » sur Google (avec la faute). Vous propose-t-on une
correction ? A quoi voyez vous les liens commerciaux ?
3. Rechercher une image de porte-avion via la recherche dédiée aux images de Google
4. Rechercher le terme « Pau » sur Google, Yahoo, Exalead. Comparer les 3 premiers résultat.
Lesquels semblent les plus pertinents ?
5. Rechercher « Pau » sur Releton. Ajuster la barre pour favoriser Google ou Yahoo, observez
ce qui se passe.
6. Rechercher « Pau » sur TouchGraph. (cliquer sur la petite croix quand vous passez sur un
noeux pour le développer).
Exercice 2
1. Trouver la bibliographie et le portrait d'Arthur Rimbaud
2. Trouver qui a réalisé l'oeuvre Pèlerinage à l'île de Cythère
3. Trouver à quoi correspond le sigle « LCD . Sur quel site avez vous trouvé la réponse ?
4. Trouver le poème et l'auteur dont est extrait cette phrase « A la cime argentée, je reconnus la
déesse »
5. Trouver des fichiers PDF portant sur le C2I
6. Retrouver le site du CIES sur le site de l'université de Pau
7. Chercher le site du quotidien « Le Sud Ouest ». Consulter la page en cache. Pouvez vous
voir quel jour les robots de Google ont indexés cette page ?
Damien Palacio
8/14
C2I-Droits 2009/2010
TD4
2. Rechercher dans les bibliothèques
2.1. Notions
Au sens général, un catalogue est une liste (du grec katalogos : liste). Concernant une bibliothèque,
c'est la liste de tous les documents possédés par cette bibliothèque, quel que soit leur type : livre,
thèse, revue, cédérom, carte ...
Un catalogue peut être propre à une bibliothèque (catalogue de la Bibliothèque Nationale de
France), ou concerner les collections de plusieurs bibliothèques : on parle alors de catalogue
collectif.
La notice bibliographique est l'ensemble des éléments de description d'un document.
Pour un ouvrage : auteur, titre, éditeur, année de publication, mention d'édition, ISBN, format,
nombre de pages, ...
Pour une revue : titre de la revue, éditeur, date du 1er numéro, périodicité, ISSN, ...
La cote est un ensemble de caractères alphanumériques attribué à un document et permettant de le
retrouver sur les rayonnages de la bibliothèque.
Un index est une liste élaborée à partir des éléments de description des documents.
On aura ainsi des index alphabétiques des auteurs, des titres, des sujets et des index numériques des
ISBN et des ISSN...
ISBN (International Standard Book Number) : numéro international unique attribué à un livre.
ISSN (International Standard Serial Number) : numéro international unique attribué à un titre de
revue.
SUDOC : Système Universitaire de Documentation
SCD : Service Commun de Documentation, c'est à dire l'ensemble des bibliothèques de l'université
de Pau et des Pays de l'Adour (BAB, Mont-de-Marsant, Tarbes, et les bibliothèques de Pau).
2.2. Ressources
Sur l'onglet « Documentation » du portail sont disponibles un grand nombre de ressources. D'autres
sont sur le portails du SCD (notamment les catalogues et signets).
Types de ressources disponibles :
● Les catalogues : Document secondaire recensant et décrivant des documents réunis de façon
permanente ou temporaire. En recherche documentaire on fait généralement référence au
catalogue de la bibliothèque, qui est constitué de notices bibliographiques
•
Aleph : le catalogue commun des Bibliothèques universitaires de l'UPPA
•
Libdex (répertoire de catalogue) on notera que ce catalogue est parcellaire
•
Le SUDOC (Catalogue commun des bibliothèques universitaires françaises)
•
A to Z (Catalogue des périodiques papiers et électroniques de l'université)
Damien Palacio
9/14
C2I-Droits 2009/2010
●
●
●
TD4
Les bouquets de revues : On appelle bouquets de revues des bases de données donnant accès
articles de périodiques en plein texte ou texte intégral
•
Science direct
•
Wiley Intersciences
•
Springerlink
Bases de données bibliographiques : Les articles de périodiques ou de journaux, les textes
de conférences, les comptes rendus de livres, les chapitres de livres, etc. ne sont pas
repérables dans les catalogues de bibliothèques. On utilisera, pour trouver ce type de
documents, des bases contenant principalement des résumés d'articles
•
Pascal
•
Francis
Les revues gratuites : Il existe de nombreuses bases de données de revues électroniques
gratuites. Dans ce cas les accès se font souvent avec un système de barrière mobile c'est-àdire une latence entre la publication de la revue pour les abonnés et la mise en ligne.
•
Persée
•
DOAJ (www.doaj.org)...
2.3. Chercher un livre au SCD
Pour aller sur le site du SCD, se connecter au portail, cliquer sur l'onglet « Documentation », et
cliquer sur le lien. Une fois rendu sur le portail du SCD, il faut aller dans « Catalogues et eressources », « Catalogues » et choisir le catalogue Aleph si on veut chercher sur le campus. Ensuite
il suffit de taper le terme sur lequel on veut faire une recherche, et une fois qu'on a trouvé le livre
qu'on voulait on peut voir s'il est disponible et où.
Si la côte est donnée, vous pouvez le trouver en rayon.
Figure 3: Exemplaires du livre "Réussissez le C2i niveau 1"
Damien Palacio
10/14
C2I-Droits 2009/2010
TD4
2.4. Chercher un livre dans le SUDOC
Si ce que vous chercher n'est pas sur le SCD, vous pouvez essayer de rechercher sur le SUDOC
pour voir si une autre université le possède, et ensuite voir s'il est possible de le transférer.
Les recherches se font comme dans le SCD. Une fois le document trouvé on peut voir dans quelles
universités il est disponible (lien Localisation tout en bas).
Il est possible d'enregistrer, de s'envoyer par mail, ou de sauvegarder une notice.
Exercice 3
1. Rechercher dans le SCD un livre portant sur le C2I. A quelle bibliothèque est il ? Est il
disponible ?
2. Quel est le livre portant l'ISBN « 978-2-7460-3530-0 » ? Est il disponible ? Où ca ?
Exercice 4
1. Rechercher dans le SUDOC l'ouvrage « C2I 2001 » (Volume 2). Est il disponible à
l'université de Pau ?
2. Rechercher l'ouvrage « Réussissez le C2i niveau 1 » (ISBN : 2-10-049600-X) que
nous avions cherché à l'exercice 3. Est il disponible à l'université de Pau ?
3. De même l'ouvrage dont l'ISBN est « 978-2-7460-3530-0 » est il disponible à l'université de
Pau ?
3. Récupérer et savoir utiliser les informations
3.1. Récupérer une page HTML
Pour conserver une page HTML, il suffit de l'enregistrer. Pour cela aller dans le menu « Fichier » et
cliquer sur « Enregistrer Sous ». Vous pourrez alors soit sauvegarder la page HTML complète c'est à
dire le texte avec les images et toutes les décorations, ou la page HTML basique avec juste le texte.
Une fois enregistrée, il suffit alors de double-cliquer dessus et votre navigateur l'affichera. Par
contre les liens pointent toujours sur des pages internet, vous ne pouvez pas enregistrer tout un site
et naviguer localement dessus comme ça.
Damien Palacio
11/14
C2I-Droits 2009/2010
TD4
3.2. Imprimer une page HTML
Il suffit d'aller dans le menu « Fichier » et de cliquer sur « Imprimer ».
Par contre si on vous propose sur le site web (notamment sur les forums) un lien vers une version
imprimable de la page ne pas hésiter à utiliser cela, car cela permet d'obtenir une meilleure
impression. Vous verrez que dans certains cas si vous tentez d'imprimer une page web le résultat
n'est pas terrible à cause de la mise en page de la page.
3.3. Récupérer une image
Pour enregistrer une image d'un site Web, il suffit de cliquer bouton droit dessus et de faire
« Enregistrer sous ». Il est possible aussi de la copier et de la coller dans un logiciel de traitement de
texte par exemple.
Vous remarquerez que sur certains sites le bouton droit de la souris est désactivé à cause du
Javascript. Impossible donc de récupérer les images ? Que nenni, cela est quand même possible,
pour cela il suffit d'enregistrer la page web complète comme présenté auparavant ;)
Attention quand même à respecter le droit d'auteur pour les images, elles ne sont pas toutes libres
d'utilisation !
3.4. Télécharger un fichier ou un logiciel
En règle générale, en cliquant sur le lien on vous propose d'ouvrir le fichier ou de l'enregistrer.
Dans le cas d'un fichier PDF, vous pouvez cliquer bouton droit dessus et « Enregistrer sous »
comme pour une image, ou le laisser s'ouvrir avec Adobe Reader et cliquer sur l'icône en forme de
disquette pour l'enregistrer ensuite.
Pour les fichiers audio, les formats les plus répandus sur le net sont :
● .AIF, .AIFF, .AIFC : Ce sont des clips sonores, ils peuvent être lus grâce à un lecteur
multimédia.
● MOV : Fichier QuickTime Movie.
● RAM, .RA : Fichier au format Real Audio.
● WMA : Format de musique compressée, format propriétaire de la société Microsoft. Les
fichiers ont une moins bonne qualité que le MP3. Certains peuvent être protégés par une
licence (DRM).
● MID/MIDI : fichiers uniquement de musique générés par des instruments reliés à la carte
son du PC (aujourd'hui peu utilisés).
● WAV : Format de musique très répandu, fichiers non compressés
● MP3 : format de musique compressé, très utilisé
● OGG Vorbis : format de musique compressé libre et plus performant que le MP3 mais moins
répandu pour l'instant.
● ...
Damien Palacio
12/14
C2I-Droits 2009/2010
TD4
Il existe pour les lire de nombreux lecteurs :
● Windows Media Player : inclus à Windows
● Winamp : lecteur gratuit
● iTunes : lecteur de Apple
● foobar2000 : lecteur pour Windows gratuit
● ....
Pour les fichiers vidéos, il faut un lecteur tel que : Windows Media Player, Winamp, Quicktime,
Realplayer, Media Classic Player
Mais comme pour l'audio en général, les vidéos disponibles sur internet sont compressées via des
algorithmes. On appelle ces algorithmes CoDec (pour COmpression / DECompression). Ces codecs
sont soit fournis avec les lecteurs soit via des packs de codecs.
Parmi les formats vidéos, on peut citer le mpeg1 et 2, le divx, le xvid. Mais il faut savoir que pour
les vidéos on utilise des conteneurs, avec dedans un fichier vidéo et un fichier vidéo. On peut citer
l'exemple de l'AVI ou du MKV.
Par exemple, le fichier mavideo.avi contiendra une piste vidéo en divx, et une piste audio en mp3.
Quelques sites de téléchargements de logiciels gratuits en tout genre (protection, multimédia,
bureautique ...) :
● Clubic : www.clubic.com
● 01net : www.telecharger.com
Il existe aussi des sites mettant à disposition de la musique libre et donc gratuite, et permettant de
rémunérer librement les artistes. Par exemple Jamendo : www.jamendo.org
3.5. Aspirer un site Internet
Comme on a pu le voir auparavant, on peut enregistrer une page web mais pas un site web complet.
Mais il est possible d'aspirer un site internet.
Aspirer, c'est-à-dire copier tout les fichiers d'un site Web, peut se faire avec un logiciel qui
enregistre les fichiers dans un de vos répertoires. La structure complète du site est ainsi accessible
hors connexion sur votre ordinateur.
Il existe de nombreux logiciels qui vous permettront de faire cela :
● HTTrack
● Memoweb
● Teleport Pro
● ...
Attention : Respectez scrupuleusement les droits de propriété intellectuelle lors de l'utilisation de
sites aspirés
Damien Palacio
13/14
C2I-Droits 2009/2010
TD4
Exercice 5
1. Aller sur Wikipedia, chercher « Internet »
2. Enregistrer la page Web complète dans votre dossier TD4 sur T:
(« Page » -> « Enregistrer Sous »).
3. Ouvrir la page enregistrée
4. Quel est son format ?
Exercice 6
1.
2.
3.
4.
5.
6.
Aller sur Jamendo
Rechercher l'artiste « Xera »
Télécharger l'album « Lliendes » dans votre dossier TD4
Extraire l'archive (utiliser le menu contextuel)
Quel est le format des fichiers audio ?
Avec quoi pouvez vous l'ouvrir ? (pour écouter il vous faudra des écouteurs)
Damien Palacio
14/14