Pages - IFOAD
Transcription
Pages - IFOAD
[email protected] 1 CF2ID IFA METHODOLOGIE DE LA RECHERCHE D’INFORMATION CF2ID IFA PREMIERE PARTIE 2 Méthodologie 1. LE CONTEXTE : ÉVOLUTION DES TECHNOLOGIES D’INDEXATION ET DE RECHERCHE CF2ID IFA L’hétérogénéïté globale en augmentation Du web « 1 » au web 2.0 Des mots clés aux tags Des annuaires aux moteurs Des documents aux données Du texte à l’image et au son De la complexité des modèles économiques 3 RECHERCHE D ’INFORMATION SUR INTERNET : SE MÉFIER DES IDÉES REÇUES CF2ID IFA Les moteurs de recherche, même les plus puissants, n ’indexent qu’une partie du web (notion de pages dynamiques, « web invisible ») Les moteurs de recherche n ’indexent pas le web en temps réel et ne sont pas à jour L ’outil n ’est pas tout : rechercher l ’information « à la source » : portails spécialisés, portails géographiques... 4 2. REPÉRAGE ET SÉLECTION DES SOURCES D’INFORMATION Lister les sources utiles Web : sites, newsletter, annuaires pro, outils de recherche, ... Papier : revues spécialisées, magazines, catalogues produits, etc. Surveiller ces sources Mettre à jour ces sources régulièrement : ajouter de nouvelles sources, supprimer les sources obsolètes Les sources : CF2ID IFA Distinguer sources valides, officielles, de référence / sources personnelles, orientées Les agréger, les stocker, les organiser, les partager Les informations Les sélectionner, les valider, les stocker, les organiser, les partager, les exploiter 5 Champ sémantique EMPLOI FORMATION Fonctionnement de la formation • • Législation • Législation • Marché du travail • Acteurs et publics • Métiers • Pédagogie • NTE INSERTION ORIENTATION • Entreprises • Compétences, qualifications • RH-Recrutement RELATION FOR/EMPLOI 6 UNE POLITIQUE TERRITORIALISEE CF2ID IFA Mise en œuvre locale d’une politique définie au niveau « central » (européen, national, régional…)= démarche descendante qui précise les modalités de mise en œuvre locale, pour partie en fonction des réalités locales. renforcer le ciblage territorial dans la recherche, par le niveau central, du meilleur niveau d’intervention exprime également la volonté de transférer ou de déléguer les ou des attributions et les ou des responsabilités dans ce domaine aux décideurs et acteurs les plus proches des lieux d’intervention. Le projet de territoire résulte de la volonté des acteurs locaux de s’engager collectivement sur l’avenir de leur territoire. Il se caractérise par une démarche ascendante qui, à l’initiative des acteurs locaux, s’organise pour élaborer une stratégie de développement à partir d’un diagnostic partagé. 7 LA RELATION FORMATION-EMPLOI CF2ID IFA Le territoire : plusieurs zones servent de support statistique : la zone ANPE, le bassin de formation, la zone d'emploi INSEE, l'arrondissement, le bassin d’éducation… Les acteurs: publics (drtefp, rectorats…), les financeurs, les formateurs… Les actions : formation initiale, formation professionnelle (initiale et continue…) 8 LES ACTEURS – SOURCES D’INFORMATION Les administrations et organismes publics Les observatoires Les financeurs Les acteurs du monde économique Les autres producteurs d’informations 9 CF2ID IFA 10 CF2ID IFA En Haute Normandie : http://www.crefor-hn.fr/ le CREFOR 11 3. CONSTRUCTION DU PLAN DE RECHERCHE Recherche web : deux approches méthodologiques L’approche « mots clés » : La qualité de la recherche dépendra du choix des mots clés : nombre de mots clés, degré de précision, langue, combinaison avec opérateurs booléens... Inconvénient : le manque d’exhaustivité des moteurs et métamoteurs (« web invisible ») L’approche « exploration des sources » : identifier les sources d’information les plus pertinentes par rapport à la requête, utiliser ensuite les outils de recherche intégrés à ces sources, l ’exploration de liens... Inconvénient : suppose une bonne connaissance des sources CF2ID IFA 12 LES ÉTAPES DE LA RECHERCHE 1. Cerner sa recherche - comprendre - délimiter - mots clés et équation de recherche - choisir ses outils CF2ID IFA 2. Elaborer sa stratégie 3. Collecter l'information, les documents 4. Sélectionner et valider l'information 5. Mettre en forme 6. Diffuser 7. Evaluer 13 4. TECHNIQUES DE RECHERCHE AVANCÉES : LES OPÉRATEURS LOGIQUES Opérateurs booléens Opérateurs d’adjacence et de proximité Opérateurs linguistiques Opérateurs numériques CF2ID IFA Permettent de combiner les mots-clés dans une équation logique 14 5. EVALUER ET QUALIFIER L’INFORMATION CF2ID IFA Source identifiable : auteur reconnu par ses pairs, ou identité vérifiable Information fiable : contenu, légitimité –(fiabilité vs vérité) par apport à un objectif, des intérêts apportant de la nouveauté précise / complète / exhaustive accessible (facile à retrouver) « fraîche », actualisée : date de mise à jour Information structurée, lisible mise en forme peut être un indice 15 CF2ID IFA DEUXIEME PARTIE 16 Panorama des outils de recherche 1. LES MOTEURS ET MÉTAMOTEURS Robots de recherche, spiders, crawlers, worms, search engines Différence avec les répertoires : CF2ID IFA ils indexent AUTOMATIQUEMENT les ressources de l'Internet. ils indexent les DOCUMENTS, et non les sites web Exalead , Google , Bing, Yahoo, Ask 17 MÉTAMOTEURS CF2ID IFA Métamoteurs : Outils interrogeant en parallèle plusieurs moteurs et annuaires de recherche et proposant une fusion des résultats. N’ont pas de bases de données en propre, mais utilisent celles des autres outils. Principales qualités : extrême rapidité (quelques secondes pour interroger plusieurs moteurs) abondance des réponses Deux catégories : métamoteurs en ligne (Ixquick, Findloo, Polymeta) métamoteurs hors-ligne (Copernic, Strategic finder) 18 2. ANNUAIRES ET RÉPERTOIRES THÉMATIQUES "subject trees", "directories", annuaires, répertoires, catalogues thématiques, listes thématiques, méta-index, … Principales caractéristiques : outils "humains" : intervention humaine pour la sélection et l'organisation des ressources mode de recherche : recherche par arborescence, ou par navigation dans un plan de classement L es annuaires correspondent aux anciennes classifications documentaires, aux approches classificatoires, fondées sur des plans de classement premiers outils apparus sur Internet : UREC et Yahoo créés 19 en 1994. CF2ID IFA LA STAR : GOOGLE Les googles Les fonctions avancées de Google Nombreuses possibilités de filtrage des résultats : CF2ID IFA Par types de recherches Par localisation géographique géographique du web : mondial, francophone linguistique : choix de la langue des ressources des types de ressources : images, audio… des ressources internet : web, forum, messagerie, weblogs des formats : HTML, PDF, DOC, PPT, XLS, RTF… des dates : plusieurs options (mais problématique) des champs : titre, URL, host, domaine… thématique : choix du domaine de recherche Les outils complémentaires 20 MÉTHODOLOGIE DE RECHERCHE AVEC GOOGLE les mots-vides : le, la, etc. les mots spécialisés : http, .com les lettres et les chiffres à un seul caractère Google ne tient pas compte de la casse, ni des accents (mais les index ne sont pas les mêmes : « à parts égales ») Google n’admet pas la troncature, ni les parenthèses Changer l’ordre des mots ne change pas les résultats, mais juste leur ordre de présentation Les résultats changent selon les profils et le « google » interrogé CF2ID IFA Opérateur de recherche par défaut ET, mais aussi OU… pas vraiment fiable Google ignore: 21 Deux modes de recherche: La recherche simple accessible dès la page d’accueil avec la possibilité de limiter la recherche aux : Pages du web Pages francophones Pages : France La recherche avancée accessible en cliquant sur le lien NB : La plupart des options offertes par la recherche avancée sont accessibles via des opérateurs Opérateurs booléens et de présence : AND : implicite ; différent de + + : prend en compte l’orthographe exacte - : exclut un ou plusieurs termes (SAUF) OR (ou |) : l’un ou l’autre ou tous les termes Opérateurs numériques : .. = entre (200..300 euros) ..200 = <200 200.. = >200 CF2ID IFA 22 Opérateurs linguistiques : «… » : recherche d’expression exacte : "liseuses à encre électronique" * : astérisque permet de remplacer un terme : le 21ème siècle sera * ou ne sera pas ~ : recherche sur les synonymes : ~voiture definir: pour trouver la définition d’un mot Filtrage sur le type de documents : CF2ID IFA filetype: ou ext: : recherche sur le format ou l’extension de fichier Opérateurs de filtrage sur une page web : pour utiliser les caractéristiques d’une page web site: recherche sur le nom de domaine (hostname) inurl: et allinurl: : recherche sur l’URL de la page intitle: et allintitle: : affinement de la recherche sur le titre de la page (balise Title) 23 LA RECHERCHE D’IMAGES CF2ID IFA Pour y accéder cliquer sur l’onglet Images ou bien aller à : http://images.google.com Pour créer son index Google analyse le texte de la page qui entoure l'image, le titre de l'image et de nombreux autres critères (non précisés). Deux modes : Recherche simple : Les opérateurs booléens sont admis Recherche avancée : (taille, format, couleur, domaines) PS : tous les formats de fichiers ne sont pas listés, penser à utiliser la commande filetype. Ex: filetype:bmp paris Les images ne sont pas nécessairement libres de droits ! 24 ASTUCE EN IMAGE CF2ID IFA Quelle est cette molécule et dans quel aliment la trouve-t-on ? 25 AUTRES RECHERCHES CF2ID IFA Blogs Actualités Google Scholar Maps Youtube Play Documents Livres 26 AUTRES SERVICES DE GOOGLE Page qui recense tous les outils http://www.google.fr/intl/fr/about/products/ CF2ID IFA Recherche dans les sites spécialisés Pour participer au développement de Google et tester des services susceptibles d’être implémentés un jour http://labs.google.com La recherche personnalisée avec le Custom Search Engine (Google co-op) La personnalisation avec le Igoogle et la connexion 27 3. LE WEB INVISIBLE 4 types (C. Sherman, G. Price): The opaque web: pages non indexées par les moteurs The private web: pages exclues par les webmasters The proprietary web: pages avec identifiant The truly invisible web: pages dynamiques, format inconnu CF2ID IFA 28 POURQUOI CHERCHER DANS Web visible : 15 à 20 % du web. Mais web invisible de plus en plus accessible à Google. Web invisible : 95 % en accès libre Pour l’essentiel une recherche dans les bases de données Web dynamique : la plupart des moteurs ne les indexent pas BDD : information sélectionnée, validée par des professionnels haute valeur ajoutée CF2ID IFA LE WEB INVISIBLE ? 29 COMMENT CHERCHER ? CF2ID IFA Outils de recherche spécialisés Répertoires de bases de données gratuites Bases de données payantes 30 OUTILS DE RECHERCHE SPÉCIALISÉS Répertoires d’outils : Le site de Christophe Asselin http://c.asselin.free.fr/ Abondance www.abondance.com Annuaires, et moteurs spécialisés dans les bases de données. CF2ID IFA Portails verticaux : http://www.tradeworlds.com/ http://www.objectifgrandesecoles.net/pro/secteurs/index.htm 31 OUTILS ANGLOPHONES Librarian Index to Internet : http://www.lii.org/ CF2ID IFA http://www.completeplanet.com/ Newjour : journaux électroniques : http://gort.ucsd.edu/newjour/ The Internet Archives : bibliothèque électronique pour conserver tous les doc. Numériques de l’internet (et même arpanet) http://www.archive.org/ Scirus : moteur scientifique www.scirus.com Resource Discovery Network : http://www.intute.ac.uk/ 32 OUTILS FRANÇAIS ET BASES DE DONNÉES GRATUITES CF2ID IFA Les signets de la BNF http://signets.bnf.fr/ DADI : 874 BDD gratuites classées selon Dewey http://dadi.univ-lyon1.fr/ Le répertoire de JP Lardy : http://urfist.univ-lyon1.fr/bd-serv.html INIST www.inist.fr 33 4. EVOLUTION DES OUTILS DE RECHERCHE LES MOTEURS PERSONNALISABLES Des moteurs “sur mesure” / recherche verticale Google CSE : Google Custom Search Engine à partir de VOS sources CF2ID IFA Choix par l’internaute du périmètre des recherches : ensemble donné de sites web, thématique précise, type d’informations Compte gratuit Système de veille 34 RECHERCHE MULTIMÉDIA Nombreux moteurs audio et video : Blinkx, Truveo, Singingfish, Pluggd (reconnaissance vocale…) Technologies « Speech to text » Exalead : lancement de Voxalead Google Audio Indexing Options de recherche avancée d’images (Google, Bing, Exalead…). Reconnaissance des couleurs Recherche par similarité d’image : Like.com, Cydral CF2ID IFA 35 WOLFRAM ALPHA CF2ID IFA Répond directement à la saisie de questions factuelles par le calcul de la réponse à partir d'une base de données Créé par le physicien britannique Stephen Wolfram et lancé le 16 mai 2009 36 CF2ID IFA TROISIEME PARTIE 37 Dynamique de veille LES APPORTS DU WEB 2 À LA PRATIQUE DE LA VEILLE Blogs et microblogging (Twitter) Pour les tendances émergentes Bookmarking social (Delicious.com) Pour identifier des sources de qualité Flux RSS Pour suivre l’actualité Réseaux sociaux et recherche de personnes Pour identifier des experts et élargir son cercle de connaissances CF2ID IFA 38 RAPPEL : LES OUTILS DE COLLECTE Abonnements Newsletter Google, réseaux sociaux Fils RSS CF2ID IFA Alertes Agrégateur Surveillance Add-On, Logiciel Logiciel Veille 39 ALERTES GOOGLE CF2ID IFA 40 ALERTES TWITTER : TWEETBEEP CF2ID IFA 41 SURVEILLANCE RÉSEAUX SOCIAUX CF2ID IFA 42 CF2ID IFA 43 CF2ID IFA 44 CF2ID IFA LES FILS RSS 45 FILS RSS Agrégateurs : « On line » : Outlook 2010, Thunderbird, RSS owl : paramétrage des flux, mis en place de filtres relativement puissants sur des mots, des balises meta, etc. CF2ID IFA Pour tablettes et smartphones : NewsRack (/synchro GR) « Off line » : Google Reader Créer son propre fil RSS : page2rss 46 FIL RSS : PAGE2RSS CF2ID IFA 47 SURVEILLANCE DE PAGES Objectifs : Limites / contraintes CF2ID IFA Surveiller toute modification sur une page Web Être alerté Temps de paramétrage Difficulté de paramétrage Affiner progressivement ses sources 48 QUELQUES OUTILS POUR AGRÉGER ET PARTAGER Ses sources Agrégateurs multisources Netvibes Outils de cartographie : Mindmapping Pour organiser ses projets Pour cartographier les acteurs Stocker et partager en ligne : DropBox, Google Documents Ses favoris pour une veille collaborative : Diigo, Delicious CF2ID IFA Plusieurs types d’infos Quelques documents Dossiers et fichiers Stocker et partager en interne : Exalead One Desktop Organiser ses dossiers Rechercher dans les dossiers 49