Pages - IFOAD

Transcription

Pages - IFOAD
[email protected]
1
CF2ID IFA
METHODOLOGIE DE LA
RECHERCHE
D’INFORMATION
CF2ID IFA
PREMIERE PARTIE
2
Méthodologie
1. LE CONTEXTE : ÉVOLUTION DES TECHNOLOGIES
D’INDEXATION ET DE RECHERCHE






CF2ID IFA

L’hétérogénéïté globale en augmentation
Du web « 1 » au web 2.0
Des mots clés aux tags
Des annuaires aux moteurs
Des documents aux données
Du texte à l’image et au son
De la complexité des modèles économiques
3
RECHERCHE D ’INFORMATION SUR INTERNET :
SE MÉFIER DES IDÉES REÇUES


CF2ID IFA

Les moteurs de recherche, même les plus puissants, n ’indexent
qu’une partie du web (notion de pages dynamiques, « web
invisible »)
Les moteurs de recherche n ’indexent pas le web en temps réel
et ne sont pas à jour
L ’outil n ’est pas tout : rechercher l ’information « à la source »
: portails spécialisés, portails géographiques...
4
2. REPÉRAGE ET SÉLECTION DES SOURCES D’INFORMATION

Lister les sources utiles

Web : sites, newsletter, annuaires pro, outils de recherche, ...




Papier : revues spécialisées, magazines, catalogues produits, etc.
Surveiller ces sources
Mettre à jour ces sources régulièrement : ajouter de nouvelles
sources, supprimer les sources obsolètes
Les sources :


CF2ID IFA

Distinguer sources valides, officielles, de référence / sources personnelles,
orientées
Les agréger, les stocker, les organiser, les partager
Les informations

Les sélectionner, les valider, les stocker, les organiser, les partager,
les exploiter
5
Champ sémantique
EMPLOI
FORMATION
Fonctionnement de la
formation
•
•
Législation
•
Législation
•
Marché du travail
•
Acteurs et publics
•
Métiers
•
Pédagogie
•
NTE
INSERTION
ORIENTATION
•
Entreprises
•
Compétences, qualifications
•
RH-Recrutement
RELATION FOR/EMPLOI
6
UNE POLITIQUE TERRITORIALISEE

CF2ID IFA
Mise en œuvre locale d’une politique définie au niveau «
central » (européen, national, régional…)= démarche
descendante qui précise les modalités de mise en œuvre
locale, pour partie en fonction des réalités locales.
renforcer le ciblage territorial dans la recherche, par le niveau
central, du meilleur niveau d’intervention
 exprime également la volonté de transférer ou de déléguer les ou
des attributions et les ou des responsabilités dans ce domaine aux
décideurs et acteurs les plus proches des lieux d’intervention.


Le projet de territoire résulte de la volonté des acteurs locaux
de s’engager collectivement sur l’avenir de leur territoire. Il se
caractérise par une démarche ascendante qui, à l’initiative des
acteurs locaux, s’organise pour élaborer une stratégie de
développement à partir d’un diagnostic partagé.
7
LA RELATION FORMATION-EMPLOI


CF2ID IFA

Le territoire : plusieurs zones servent de support
statistique : la zone ANPE, le bassin de formation, la zone
d'emploi INSEE, l'arrondissement, le bassin d’éducation…
Les acteurs: publics (drtefp, rectorats…), les financeurs,
les formateurs…
Les actions : formation initiale, formation professionnelle
(initiale et continue…)
8
LES ACTEURS – SOURCES D’INFORMATION





Les administrations et organismes publics
Les observatoires
Les financeurs
Les acteurs du monde économique
Les autres producteurs d’informations
9
CF2ID IFA
10
CF2ID IFA
En Haute Normandie : http://www.crefor-hn.fr/ le CREFOR
11
3. CONSTRUCTION DU PLAN DE RECHERCHE

Recherche web : deux approches
méthodologiques
L’approche « mots clés » : La qualité de la recherche dépendra du
choix des mots clés : nombre de mots clés, degré de précision,
langue, combinaison avec opérateurs booléens...
Inconvénient : le manque d’exhaustivité des moteurs et métamoteurs (« web invisible »)

L’approche « exploration des sources » : identifier les sources
d’information les plus pertinentes par rapport à la requête, utiliser
ensuite les outils de recherche intégrés à ces sources, l ’exploration
de liens...
Inconvénient : suppose une bonne connaissance des sources
CF2ID IFA

12
LES ÉTAPES DE LA RECHERCHE
1. Cerner sa recherche
- comprendre
- délimiter
- mots clés et équation de recherche
- choisir ses outils
CF2ID IFA
2. Elaborer sa stratégie
3. Collecter l'information, les documents
4. Sélectionner et valider l'information
5. Mettre en forme
6. Diffuser
7. Evaluer
13
4. TECHNIQUES DE RECHERCHE AVANCÉES : LES OPÉRATEURS
LOGIQUES


Opérateurs booléens

Opérateurs d’adjacence et de proximité

Opérateurs linguistiques

Opérateurs numériques
CF2ID IFA
Permettent de combiner les mots-clés dans une équation
logique
14
5. EVALUER ET QUALIFIER L’INFORMATION






CF2ID IFA

Source identifiable : auteur reconnu par ses pairs, ou identité
vérifiable
Information fiable : contenu, légitimité –(fiabilité vs vérité) par
apport à un objectif, des intérêts
apportant de la nouveauté
précise / complète / exhaustive
accessible (facile à retrouver)
« fraîche », actualisée : date de mise à jour
Information structurée, lisible  mise en forme peut être un
indice
15
CF2ID IFA
DEUXIEME PARTIE
16
Panorama des outils de recherche
1. LES MOTEURS ET MÉTAMOTEURS
Robots de recherche, spiders, crawlers, worms,
search engines

Différence avec les répertoires :



CF2ID IFA

ils indexent AUTOMATIQUEMENT les ressources de
l'Internet.
ils indexent les DOCUMENTS, et non les sites web
Exalead , Google , Bing, Yahoo, Ask
17
MÉTAMOTEURS

CF2ID IFA
Métamoteurs : Outils interrogeant en parallèle plusieurs
moteurs et annuaires de recherche et proposant une fusion
des résultats.
N’ont pas de bases de données en propre, mais utilisent
celles des autres outils.
Principales qualités :

extrême rapidité (quelques secondes pour interroger plusieurs
moteurs)
 abondance des réponses


Deux catégories :
métamoteurs en ligne (Ixquick, Findloo, Polymeta)
 métamoteurs hors-ligne (Copernic, Strategic finder)

18
2. ANNUAIRES ET RÉPERTOIRES THÉMATIQUES
"subject trees", "directories", annuaires, répertoires, catalogues
thématiques, listes thématiques, méta-index, …

Principales caractéristiques :
 outils "humains" : intervention humaine pour la sélection
et l'organisation des ressources
 mode de recherche : recherche par arborescence, ou par
navigation dans un plan de classement
 L es annuaires correspondent aux anciennes classifications
documentaires, aux approches classificatoires, fondées sur
des plans de classement
 premiers outils apparus sur Internet : UREC et Yahoo créés
19
en 1994.
CF2ID IFA

LA STAR : GOOGLE

Les googles


Les fonctions avancées de Google

Nombreuses possibilités de filtrage des résultats :









CF2ID IFA

Par types de recherches
Par localisation géographique
géographique du web : mondial, francophone
linguistique : choix de la langue des ressources
des types de ressources : images, audio…
des ressources internet : web, forum, messagerie, weblogs
des formats : HTML, PDF, DOC, PPT, XLS, RTF…
des dates : plusieurs options (mais problématique)
des champs : titre, URL, host, domaine…
thématique : choix du domaine de recherche
Les outils complémentaires
20
MÉTHODOLOGIE DE RECHERCHE AVEC GOOGLE








les mots-vides : le, la, etc.
les mots spécialisés : http, .com
les lettres et les chiffres à un seul caractère
Google ne tient pas compte de la casse, ni des accents
(mais les index ne sont pas les mêmes : « à parts égales »)
Google n’admet pas la troncature, ni les parenthèses
Changer l’ordre des mots ne change pas les résultats,
mais juste leur ordre de présentation
Les résultats changent selon les profils et le « google »
interrogé
CF2ID IFA

Opérateur de recherche par défaut ET, mais aussi OU…
pas vraiment fiable
Google ignore:
21

Deux modes de recherche:
 La recherche simple accessible dès la page d’accueil avec la possibilité de
limiter la recherche aux :



Pages du web
Pages francophones
Pages : France
La recherche avancée accessible en cliquant sur le lien
 NB : La plupart des options offertes par la recherche avancée sont
accessibles via des opérateurs

Opérateurs booléens et de présence :
 AND : implicite ; différent de +
 + : prend en compte l’orthographe exacte
 - : exclut un ou plusieurs termes (SAUF)
 OR (ou |) : l’un ou l’autre ou tous les termes

Opérateurs numériques :
 .. = entre (200..300 euros)
 ..200 = <200
 200.. = >200
CF2ID IFA

22

Opérateurs linguistiques :
«… » : recherche d’expression exacte : "liseuses à encre
électronique"
 * : astérisque permet de remplacer un terme : le 21ème siècle sera *
ou ne sera pas
 ~ : recherche sur les synonymes : ~voiture
 definir: pour trouver la définition d’un mot

Filtrage sur le type de documents :


CF2ID IFA

filetype: ou ext: : recherche sur le format ou l’extension de fichier
Opérateurs de filtrage sur une page web :
pour utiliser les caractéristiques d’une page web



site: recherche sur le nom de domaine (hostname)
inurl: et allinurl: : recherche sur l’URL de la page
intitle: et allintitle: : affinement de la recherche sur le titre de la page
(balise Title)
23
LA RECHERCHE D’IMAGES


CF2ID IFA

Pour y accéder cliquer sur l’onglet Images ou bien aller à :
http://images.google.com
Pour créer son index Google analyse le texte de la page qui
entoure l'image, le titre de l'image et de nombreux autres
critères (non précisés).
Deux modes :
Recherche simple : Les opérateurs booléens sont admis
 Recherche avancée : (taille, format, couleur, domaines)



PS : tous les formats de fichiers ne sont pas listés, penser à utiliser la
commande filetype. Ex: filetype:bmp paris
Les images ne sont pas nécessairement libres de droits !
24
ASTUCE EN IMAGE
CF2ID IFA
Quelle est cette molécule et dans quel aliment la trouve-t-on ?
25
AUTRES RECHERCHES







CF2ID IFA

Blogs
Actualités
Google Scholar
Maps
Youtube
Play
Documents
Livres
26
AUTRES SERVICES DE GOOGLE

Page qui recense tous les outils
http://www.google.fr/intl/fr/about/products/
CF2ID IFA

Recherche dans les sites spécialisés

Pour participer au développement de Google et tester des
services susceptibles d’être implémentés un jour
http://labs.google.com

La recherche personnalisée avec le Custom Search Engine (Google
co-op)

La personnalisation avec le Igoogle et la connexion
27
3. LE WEB INVISIBLE

4 types (C. Sherman, G. Price):
The opaque web: pages non indexées par les moteurs

The private web: pages exclues par les webmasters

The proprietary web: pages avec identifiant

The truly invisible web: pages dynamiques, format inconnu
CF2ID IFA

28
POURQUOI CHERCHER DANS




Web visible : 15 à 20 % du web. Mais web invisible de plus en
plus accessible à Google.
Web invisible : 95 % en accès libre
Pour l’essentiel une recherche dans les bases de données
Web dynamique : la plupart des moteurs ne les indexent pas
BDD : information sélectionnée, validée par des professionnels
 haute valeur ajoutée
CF2ID IFA

LE WEB INVISIBLE ?
29
COMMENT CHERCHER ?


CF2ID IFA

Outils de recherche spécialisés
Répertoires de bases de données gratuites
Bases de données payantes
30
OUTILS DE RECHERCHE SPÉCIALISÉS

Répertoires d’outils :


Le site de Christophe Asselin
http://c.asselin.free.fr/
Abondance www.abondance.com
Annuaires, et moteurs spécialisés dans les bases de
données.
CF2ID IFA


Portails verticaux :


http://www.tradeworlds.com/
http://www.objectifgrandesecoles.net/pro/secteurs/index.htm
31
OUTILS ANGLOPHONES

Librarian Index to Internet : http://www.lii.org/



CF2ID IFA

http://www.completeplanet.com/
Newjour : journaux électroniques : http://gort.ucsd.edu/newjour/
The Internet Archives : bibliothèque électronique pour conserver
tous les doc. Numériques de l’internet (et même arpanet)
http://www.archive.org/
Scirus : moteur scientifique www.scirus.com
Resource Discovery Network : http://www.intute.ac.uk/

32
OUTILS FRANÇAIS ET BASES DE DONNÉES GRATUITES




CF2ID IFA

Les signets de la BNF http://signets.bnf.fr/
DADI : 874 BDD gratuites classées selon Dewey
http://dadi.univ-lyon1.fr/
Le répertoire de JP Lardy : http://urfist.univ-lyon1.fr/bd-serv.html
INIST www.inist.fr
33
4. EVOLUTION DES OUTILS DE RECHERCHE
LES MOTEURS PERSONNALISABLES

Des moteurs “sur mesure” / recherche verticale

Google CSE : Google Custom Search Engine

 à partir de VOS sources

CF2ID IFA

Choix par l’internaute du périmètre des recherches :
ensemble donné de sites web, thématique précise, type
d’informations
Compte gratuit
Système de veille

34
RECHERCHE MULTIMÉDIA
Nombreux moteurs audio et video : Blinkx, Truveo,
Singingfish, Pluggd (reconnaissance vocale…)

Technologies
« Speech to text » Exalead : lancement de Voxalead
Google Audio Indexing

Options de recherche avancée d’images (Google, Bing,
Exalead…). Reconnaissance des couleurs

Recherche par similarité d’image : Like.com, Cydral
CF2ID IFA

35
WOLFRAM ALPHA
CF2ID IFA
 Répond directement à la saisie de questions factuelles par le calcul de la
réponse à partir d'une base de données
Créé par le physicien britannique Stephen Wolfram et lancé le 16 mai 2009
36
CF2ID IFA
TROISIEME PARTIE
37
Dynamique de veille
LES APPORTS DU WEB 2 À LA PRATIQUE DE LA VEILLE
Blogs et microblogging (Twitter)
Pour les tendances émergentes

Bookmarking social (Delicious.com)
Pour identifier des sources de qualité

Flux RSS
Pour suivre l’actualité

Réseaux sociaux et recherche de personnes
Pour identifier des experts et élargir son cercle de
connaissances
CF2ID IFA

38
RAPPEL : LES OUTILS DE COLLECTE
Abonnements
Newsletter
Google, réseaux sociaux
Fils RSS
CF2ID IFA
Alertes
Agrégateur
Surveillance
Add-On, Logiciel
Logiciel
Veille
39
ALERTES GOOGLE
CF2ID IFA
40
ALERTES TWITTER : TWEETBEEP
CF2ID IFA
41
SURVEILLANCE RÉSEAUX SOCIAUX
CF2ID IFA
42
CF2ID IFA
43
CF2ID IFA
44
CF2ID IFA
LES FILS RSS
45
FILS RSS

Agrégateurs :




« On line » :


Outlook 2010, Thunderbird,
RSS owl : paramétrage des flux, mis en place de filtres relativement
puissants sur des mots, des balises meta, etc.
CF2ID IFA

Pour tablettes et smartphones : NewsRack (/synchro GR)
« Off line » :
Google Reader
Créer son propre fil RSS : page2rss
46
FIL RSS : PAGE2RSS
CF2ID IFA
47
SURVEILLANCE DE PAGES

Objectifs :


Limites / contraintes



CF2ID IFA

Surveiller toute modification sur une page Web
Être alerté
Temps de paramétrage
Difficulté de paramétrage
Affiner progressivement ses sources
48
QUELQUES OUTILS POUR AGRÉGER ET PARTAGER

Ses sources

Agrégateurs multisources Netvibes


Outils de cartographie : Mindmapping



Pour organiser ses projets
Pour cartographier les acteurs
Stocker et partager en ligne : DropBox, Google Documents



Ses favoris pour une veille collaborative : Diigo, Delicious
CF2ID IFA

Plusieurs types d’infos
Quelques documents
Dossiers et fichiers
Stocker et partager en interne : Exalead One Desktop


Organiser ses dossiers
Rechercher dans les dossiers
49