Gouvernance technique et gouvernement politique d`internet
Transcription
Gouvernance technique et gouvernement politique d`internet
Initiation à Internet Gouvernance technique et gouvernement politique d’internet L’idéal d’internet était la démocratie participative. On assimilait des discours à la liberté. On peut parler d’imaginaire. Pour que le système fonctionne il faut qu’il soit régulé (droit privé, administratif, etc.). DEUX OPINIONS : - On ne peut pas réguler internet. - On peut réguler internet. Gouvernance : internet peut être régulé par les infrastructures ou se réguler soit même. 1. Internet, un dispositif technique (TCP/IP) a. Application Tous ce qu’on peut faire avec internet (page web, messagerie) Protocoles : HTTP (Hyper Text Transfert Protocol) permet d’accéder à des ressources stockées sur un ordinateur serveur. FTP (File Transfert Protocol) permet de poser des fichiers sur le serveur. Lucie Alves 1 Initiation à Internet SMTP (Simple Mail Transfert Protocol) envoie un mail au serveur appartenant au destinataire POP (Post Office Protocol) permet de récupérer des messages sur sa boite mail. IMAP (Interactive Mail Access Protocol) – Web Mail – permet de gérer directement des dossiers sur le serveur de messagerie Lucie Alves 2 Initiation à Internet b. Transport Internet n’est pas fiable c’est pourquoi le protocole TCP s’en charge. Il limite le nombre de paquet qui circule sur le réseau. De plus il remet les paquets dans l’ordre. c. Internet Cela fait référence à l’IP (Protocol Internet). C’est un réseau pour le mieux (n’assure pas la fiabilité). La circulation d’information On parle de paquet d’IP. Ils sont un format précis et sont envoyés tous azimute (il n’y a pas d’ordre). Ces adresses IP sont limitées en nombre. Lucie Alves 3 Initiation à Internet Elles donnent l’ordinateur précis dans un réseau précis ce qui est de moins en moins facile avec les nouveaux moyens. d. Accès réseau Circulation d’information à l’intérieur d’un réseau Un réseau est un routeur (machine particulière). Entre ses routeurs il y a des liens de communication. On parle « d’autoroute d’information ». Un routeur est comme un aiguilleur. Toutes les machines mise en réseau s’appelle des hôtes. Grâce au système autonome, internet fonctionne. 2. La gouvernance d’internet a. Définition élargie Il faut entendre par « gouvernance de l’internet » l’élaboration et l’application par les états, le secteur privé et la société civile, dans le cadre de leurs rôles respectifs, de principes, normes, règles, procédures de prises de décisions et Lucie Alves 4 Initiation à Internet programmes communs propres à modeler l’évolution et l’utilisation de l’internet. L’infrastructure : physique (normes) et logique (administration des noms de domaine, gestion du système serveur racine, multilingue). b. Acteurs et forces en présence Sous quelle forme, condition va s’exercer ce pouvoir ? Et qui ? 1. 2. 3. 4. 5. Les usagers Des associations Des entreprises Les organismes techniques Autorités administrative Les états produisent des lois et la loi s’applique territorialement ce qui pose problème à internet (international). Les usagers, les associations Il y a plus de 200 associations en France Une source d’information : www.journaldunet.com Lucie Alves 5 Initiation à Internet ACSEL : Assoc pour le commerce et les services en ligne ADIASC : Assoc pour le Dév d’un Internet, assoc solidaire et citoyen AFA : assoc des fournisseurs d’accès … Les organismes techniques ICANN (Internet Corporation for Assigned Names and Numbers) associe une adresse IP à un nom de domaine. Ces noms de domaine apparaissent sous forme de hiérarchie. Il y a une dépendance totale par rapport aux Etats-Unis. Les noms de domaine ont un enjeu considérable, politique. Lucie Alves 6 Initiation à Internet Comment créer un nom de domaine ? Il y a des registres qui assurent cette coordination de ressource. • APNIC: Asia Pacific Network Information Centre • RIPE NCC : réseaux IP européens Network Coordination Centre • ARIN: American Registry for Internet Numbers • LACNIC: Latin American and Caribbean • AfriNIC: African Network Information Centre Lucie Alves 7 Initiation à Internet Combien ça coute ? En France c’est entre 5 et 90euros par an. On n’est jamais réellement propriétaire d’un nom de domaine. Les écarts se justifient selon les services offerts. Depuis sa création ICANN a eu tendance à presque arriver à disparaître. Il a été créé provisoirement et donc il était prévu qu’il disparaisse. Le contrat qui lié le gouvernement américain et l’ICANN s’est fini en septembre 2009, ainsi l’Europe a demandé un contre pouvoir gouvernemental (représentant de plusieurs pays). 1er octobre, les EU ont signés un nouveau contrat avec l’ICANN mais il y a un poids plus important des gouvernements étrangers. (Responsabilité et transparence – Sécurité) Whois.net permet de savoir à qui appartient un nom de domaine. Les gouvernements étrangers sont représentés et ont un droit de veto. L’ICANN garde quand même des responsabilités et peut choisir. Le serveur principal est toujours sous la direction de l’ICANN. Lucie Alves 8 Initiation à Internet II y a un certain nombre d’organisme qui gère internet avec ICANN. ISOC (internet society) : organisation associatif à but non lucratif, promue internet, collecte des fonds. (50 000 dollars par an pour siéger) IAB (internet architecture board): chargé de supervisé els point technique (aspect architecture) IETF (internet engineering task force): groupement international qui développe les standards W3C (world wide web consortium): gère le Web (petite partie d’internet) Conclusion Il y a quatre types d’instances (loi, norme sociale, le marché, l’architecture technique) coexistence de facteur technique, éco, culturel. Il y a 13 serveurs. Aspect multifonctionnel d’internet rend complexe sa gestion. L’usager ne perçoit pas ça, pour lui c’est comme, facile. Lucie Alves 9 Initiation à Internet Identité numérique, traces et vie privées sur internet 0. Introduction : définition des notions « Le double numérique » : jacques Dariaux. Ensemble des données que les systèmes d’informations recueillent et stockent pour chaque individu via les ordinateurs et réseaux de communication. Les traces : concernent nos comportements, nos actions. C’est l’enregistrement de toutes les actions d’un individu sous la forme de données informatisées. « Privacy » : notion qui s’intéresse aux relations entre une personne et les technologies d’informations. L’identité numérique : c’est la somme des traces que nous laissons sur les réseaux et la collection d’information que nous donnons volontairement ou non. Lucie Alves 10 Initiation à Internet 1. Les informations personnelles (profil) a. Collecte des données personnelles On n’est pas anonyme sur internet. L’exemple des réseaux sociaux Un des arguments de ces réseaux est de mettre le point sur la recherche d’amis. C’est un moyen très facile de recueillir des informations personnelles. Il faudrait lire à chaque fois la politique de confidentialité de ces réseaux. [Voir celui de Facebook] Lors de la création de Facebook (1994) l’idée d’un réseau de plus en plus ouvert ne gênait personne. Lucie Alves 11 Initiation à Internet Dominique Cardon pense qu’il y a un certain nombre de modèles. Paravent : participant qu’à travers un moteur de recherche, choix de la personne (site de rencontre). La visibilité est moindre, filtrée. Clair-obscur : réseau social de proche, difficile d’accès. Mise en relation des échanges de petits réseaux. Les personnes pensent qu’elles maîtrisent le réseau. Le Phare : très visible pour tous. Compteur d’audience. Le but : essayer de devenir le plus visible possible. Post-It : joue sur le territoire et le temps. Accès restreint. Lanterna Magica : les personnes se rendent visite via des avatars. Les pratiques du e-commerce Amazon – EBay – PriceMinister Les meilleurs représentants sont les autres internautes : les commentaires qu’ils laissent permettent à d’autre utilisateur d’être confiant ou non. Le but de la collecte d’information personnelle est de cibler la clientèle. Lucie Alves 12 Initiation à Internet b. Les dangers Intrusion dans la vie privée : les données échangées peuvent être récupérées à des fins de profilage. L’exploitation et le détournement des données : usurpation d’identité, fraude (phishing – farming) Atteinte à la liberté : notamment avec Yahoo Les risques de contamination de la réputation : o Réseau : ce que les autres peuvent écrire sur nous, l’activité propre à un contact, par viral (pishing). o Activité : sphères du travail et amicales qui deviennent plus visibles. c. La législation Loi informatique et des libertés. 2004 : loi sur la confiance dans l’économie numérique. Le citoyen a des droits sur ses traces Le droit à l’information : on doit être prévenu que des informations vont être recueillis, et par qui. Le droit d’opposition : toute personne a le droit de s’opposer à figurer dans un fichier Le droit d’accès aux informations : connaître les informations communiquées Le droit de rectification : demander à changer certaines données. Le droit à l’oubli : il concerne la durée du stockage de donnée personnelle (notamment l’adresse IP). 2. Les traces numériques (comportements) a. Dans les moteurs de recherche Google inquiète des Etats car il n’y a pas de législation spécifique pour les moteurs de recherche qui peuvent donc décider de quoi faire de nos données personnelles. Journaux de requête : promouvoir les liens commerciaux, mots clefs des internautes, date, heure, cookies… Préférences et données relatives à l’ordinateur : navigateur, système d’exploitation… Données relatives au contenu proposé : stockage des liens proposés suite à une requête. Données Données Données Données Lucie Alves relatives aux sites visités opérationnelles relatives aux données d’utilisateur relatives aux utilisateurs enregistrés d’autres services et sources 13 Initiation à Internet b. Sur les sites visités Sur tous les sites visités nous laissons des traces notamment avec les cookies. 3. Conclusion L’utilisateur ne lit pas les conditions de confidentialité et ne sait donc pas à quoi il s’expose en réalité. Internet permet de récolter des informations que ce soit au niveau des réseaux sociaux ou bien sur n’importe quel site. Lucie Alves 14 Initiation à Internet Approfondir Google Mieux connaître Google pour mieux le questionner 1. Repères historiques a. Origines 1996 : projet de recherche de Sergey Brin et Larry Page Naissance le 7 Septembre A998, à Stanford, de la start-up Google Le nom : dérivé du mot « googol » (Milton Sirotta) 10 100 L’immeuble : googleplex (10gogol) Lucie Alves 15 Initiation à Internet 2000 : première publicités contextuelles 2001 : o Rachat de deja.com o Création de Google Groups o Lancement de Images Search 2002 : o Modèle publicitaire Adwords o Google News 2003 : rachats de… o Applied Semantics o Blogger o Sprinks o Programme publicitaire AdSense 2004 : diversifications avec Gmail, Picasa, Google Desktop, Google Scholar 2005 : Google Video, Maps, Earth, Talk 2006 : o Google.cn o Google Calendar o Automne : Google News Archives, rachat de You Tube. Lucie Alves 16 Initiation à Internet 2007 : o o 2008 o o o 2009 : o o o o o o o Lucie Alves Rachat de DoucleClic (première agence mondiale de publicité) Recherche universelle Mars : annonce de Google Health, le dossier médical personnel en ligne Juillet : Google à 70% du trafic aux USA, 82% en France. Septembre : Google Chrome Janvier : Google connaît la crise : licenciements, fermetures… Février : lancement de Google Latitude, service de géo localisation sur téléphone mobile Mai : lancement de Google Wave, plateforme centralisée de communication Août : annonce de négociation entre Google et la BNF pour la numérisation des fonds Septembre : lancement de SideWiki Octobre : Partenariat avec Twitter, indexation des tweets Lancement de Google Social Search, moteur de recherche social Novembre : Google Street View au Mexique, 15ème pays couvert (sur 33) Lancement de Google DashBoard Accord Google-éditeurs américains 17 Initiation à Internet 2. Le gigantisme de Google Google est très puissant grâce à l’ensemble des domaines qu’il investit quels qu’ils soient. Peu de domaine lui échappe. a. La puissance financière Action en bourse multiplié par 8. Lucie Alves 18 Initiation à Internet b. La puissance humaine c. La puissance économique Requêtes Mondiales Déc. 2009 2% 2% 1% 1% 1% 2% Google Sites 3% Yahoo ! Sites Baidu.com Inc. 7% Microsoft Sites eBay 8% NHN Corporation Yandex 73% Facebook.com Ask Network Autres Lucie Alves 19 Initiation à Internet d. La puissance politique Lucie Alves 20 Initiation à Internet e. La puissance d’innovation Acteur de protéiforme. f. La puissance technique Rôle-clé de l’infrastructure technique chez Google : o Quantités gigantesques de données à traiter : Index de plusieurs centaines de milliards de pages ... o Nécessité de : Capacité de stockage : > 850 téraoctets Puissance de calcul : 600 teraflops (10 fois plus que Columbia, l'ordinateur le plus puissant de la NASA) Solution adoptée : o “Racks” de 88 ordinateurs plutôt que des gros serveurs o Au total : plus de deux millions de machines Les Google Data Centers : o Regroupement des milliers d’ordinateurs hébergeant l’index de Google dans des centres de données o Plus de 60 Data Centers, pour la plupart aux USA et en Europe Voir Chiffres-clé sur WebRankInfo Lucie Alves 21 Initiation à Internet 3. Repères techniques Lucie Alves 22 Initiation à Internet 4. Stratégie et innovations récentes 1) 2) 3) 4) 5) 6) 7) 8) 9) Maître des images ? Nouvel opérateur de téléphonie ? Nouveau réseau social ? Nouveau ministère de la santé ? Première agence de presse mondiale ? Première bibliothèque numérique mondiale ? Premier portail scientifique mondial ? Premier office de tourisme mondial ? Cartographe de l’univers ? Lucie Alves 23 Initiation à Internet 5. Google et nous a. Google, « big brother » mondial ? Il y a un centre de confidentialité. Cet outil permet de voir les traces laissées volontairement. b. Quelques exemples de défaillances : Lucie Alves 24 Initiation à Internet Ces données peuvent être perdues. 6. Questionnements critiques 1) 2) 3) 4) Dénoncer les dangers du monopole L’alerte face à la traçabilité et à la conservation des données personnelles La vigilance face à l’usage permanent de Google L’idéologie de Google Lucie Alves 25 Initiation à Internet Recherche d’information sur Internet ¤ Partie 1 I. Internet, univers complexe a. Complexité et diversité Retrouver des supports aux contenus pertinents conservés dans une mémoire personnelle ou collective en réponse à un besoin informationnel exprimé par une personne. Retrouver : relatif à la documentation/au système d’information. Supports : relatif aux documents Contenus : qui renseignent Spécificité d’internet : Espace éditorial (production-diffusion de l’information) Espace ouvert et distribué Espace public/gratuit : documents publics, bibliographies spécialisées, revues électroniques… Espace commercial : banques de données commerciales, édition électronique… Abondance de l’information Grande hétérogénéité (fond/forme) Fragmentation Instabilité Renouvellement continuel Non structurée Multilinguisme (1ère langue : Anglais, 2ème Chinois) Publique/commerciale… Les Formats .zip - .exe - .mp3 - .au - .ra - .wav - .gif - .jpeg - .png - .tiff - .swf - .htm - .asp - .php - .doc - .rtf .pdf - .ppt - .avi - .mpeg - .bin - .qt - .mov De fichier texte .HTML .HTM .SHTM .SHTML (Hypertext Markup Language) .asp ; .php ; .cfm ; .java .pdf .doc ; .docx .rtf (Rich Text Format) .ppt ; .pps Video Lucie Alves 26 Initiation à Internet AVI (Audio Video Interleave : Video For Windows) .MOV .QT (QuickTime Movie) .RA (RealAudio) Audio .MP3 (Moving Pictures Expert Group) .AIFF AIF (Audio Interchange File Format) .AU .RA .RAM (Real Audio) .WAV (Waveform Audio File Format) Compressés .BIN (Pour les ouvrir : Mac : StuffIt Expander. Windows : StuffIt Expander.) .EXE .HQX (BinHex) .GZ .GZIP (GNU ZIP) .RAR (probablement Roshal Archive, d'après le nom du créateur) .SIT .SEA (StuffIt archives, self-extracting archives) .TAR (Tape archive) .ZIP b. Quid de la Recherche Internet dans cet univers L’approche par mots clés : recherche par mots clés sur le texte intégral L’approche par exploration des sources : identifier des sources d’information pertinentes par rapport à la requête, sites phares. Trois façons de rechercher l’information Lucie Alves 27 Initiation à Internet Chercher de l’information sur un objet bien défini Chercher de l’information sur un objet incomplètement décrit mais qui sera reconnaissable dès qu’on le rencontrera Trouver de l’information de manière fortuite Trois notions Relevance (correspond à ma question) Pertinence (ce qui m’intéresse vraiment) Serendipité (quelle chose que je ne cherchais pas mais qui pourrait également m’intéresser) Où chercher ? Web invisible Il est 500fois plus grand que le web visible. Il y a plusieurs catégories : - Web opaque - Web privé : pages exclues volontairement - Web propriétaire : pages que l’on peut accéder qu’en s’identifiant. - Le vrai web invisible Lucie Alves 28 Initiation à Internet Les limites de la Recherche Internet sur le Web ? On trouve de tout mais pas tout. Les sites sont éphémères. La date des informations ne sont pas forcément connues. Le contrôle des informations n’est pas harmonisé. Gestion du bruit et du silence Documents relevants Lucie Alves Documents non relevants Corpus 29 Initiation à Internet II. Les moteurs de recherche a. Le fonctionnement Fonctionnement des moteurs b. La collecte des données Elle est assurée par le robot. Les webmasters peuvent demander à ce qu’on index des pages. Délai de prise en charge : d’une journée à plusieurs semaines. Le rafraichissement : le robot travaille sur une copie du web (mise à jour) et donc le délai peut être très variable. c. Indexation des données Qu’est ce qui est indexé ? Les titres des pages Web, les premiers paragraphes de texte, l’intégralité des pages Web. Lucie Alves 30 Initiation à Internet Les métadonnées Les balises <META> <META NAME=”keywords” CONTENT=”mot-clé1, mot-clé2…”> Utilisé par tous les moteurs (sauf Google) Mots-clés séparée par une virgule Pas d’espace entre les mots-clés Minuscules pour éviter les problèmes Limité à 1000 mots-clés (sic) Eviter le spam CONTENT=”html, html, html, html” – Pénalisé par moteurs de recherche <META NAME=”description” CONTENT=”description_du_site”> Seuls 140 à 250 premiers mots retenus par les moteurs de recherche Astuce : reprendre un ou des mots-clés dans les titres de page (classement optimisé) <META NAME=”robots” CONTENT=”instruction_pour_robots”> All (default) : indexation pages et liens None : pas d’indexation des pages ni des liens Index/NoIndex : indexation (ou non) des pages Follow/NoFollow : permission (ou non) de suivre les liens Noarchive : pas d’accès à la version en cache Lucie Alves 31 Initiation à Internet L’étique des robots… Moteur vérifie d’abord la présence à la racine du fichier robots.txt o Protocole REP : Robot Exclusion Protocole o Un seul fichier pour tout le site : robots.txt Deux instructions : o User-agent : Googlebot o User-agent : Scooter o Disallow : /tmp/ o Disallow : /rep/exemple.html Seul Google et Altavista peuvent référencer Sauf le répertoire « tmp » et le fichier « exemple.html » dans le répertoire « rep » User-agent : * : tous autorisés Deux grandes méthodes d’analyses dans l’indexation automatisée : o o Analyse linguistique : fondée sur la reconnaissance des mots Lexical : reconnaissance du mot Syntaxique : utilisation de la grammaire Sémantique : reconnaissance des concepts Analyse statistique : fondée sur la fréquence des mots d. La gestion des requêtes et des résultats Partie visible du moteur de recherche : trois grandes fonctions - Gestion des requêtes Gestion des résultats Gestion de la présentation des résultats Fonction la plus répandue : nombreuses possibilités de filtrage - Géographique du web : mondial, francophone Linguistique : choix de la langue des ressources Des types de ressources : images, audio… Des ressources internet : web, forum, messagerie, weblogs Des formats : HTML, PDF, DOC… Des dates : nombreuses options Des champs ; titre, URL, host, domaine Thématique : choix du domaine de recherche Lucie Alves 32 Initiation à Internet Les opérateurs booléens OR AND (par défaut) AND NOT Lucie Alves 33 Initiation à Internet Quel intérêt du + en mode simple ? Force la recherche du mot tel qu’il est entré. Les autres opérateurs SAUF (-): éliminer un concept non pertinent à l’objet de recherche – possible dans Google ADJ : se traduit par NEAR, les mots doivent se trouver les uns à côté des autres. Les parenthèses : permet d’utiliser plusieurs opérateurs – possible dans Google La troncature (*) : couper un mot et de trouver une variante du mot ? ou % : représente une seule lettre n’importe où dans le mot e. Gestion des requêtes Syntaxe requête complexe de Google RECHERCHE SUR LE NOM DU SITE (SITE) : Exemple : +moteur+site:www.honda.fr recherchera les documents qui contiennent le mot moteur et qui sont disponibles sur le site www.honda.fr RECHERCHE SUR LES PAGES LIEES (LINK) : Exemple : link:www.univ-bpclermont.fr trouvera les documents qui contiennent un lien vers une page du site dont l’adresse contient l’expression www.univ-bpclermont.fr (dans ce cas www.univ-bpclermont.fr) RECHERCHE DE SITES SIMILAIRES (RELATED) Exemple : related:www.univ-bpclermont.fr trouvera des sites similaires à UBP. RECHERCHE DANS LE CACHE (CACHE) Exemple : cache:www.univ-bpclermont.fr trouvera la version du site UBP dans le cache du moteur. INFORMATION SUR LE SITE (INFO) Exemple : info:www.univ-bpclermont.fr proposera un certain nombre d’information (pages similaires, pages du site, pages similaires…) sur le site www.univ-bpclermont.fr RECHERCHE DANS LE TITRE (ALLINTITLE - INTITLE) Exemple : allintitle:communication solidaire trouvera les pages qui contiennent les mots communication ET solidaire dans leur titre. Exemple : intitle:communication solidaire trouvera les pages qui contiennent le mot communication dans leur titre et le mot solidaire dans la page. DEFINITION D’UN MOT (DEFINITION DE) Exemple : définition de « information ». Si Google trouve des sites donnant la définition, les pages sont affichées en premier dans la liste des résultats. RECHERCHE DANS L ’URL (ALLINURL - INURL) Exemple : allinurl:journalisme proximité trouvera les pages qui contiennent les mots journalisme ET proximité dans leur adresse (url) Exemple : inurl:journalisme proximité trouvera les pages qui contiennent le mot journalisme dans leur url et le mot proximité dans la page. Lucie Alves 34 Initiation à Internet RECHERCHE DANS LE TEXTE (INTEXT) Exemple : Intext:journalisme trouvera les pages qui contiennent le mot journalisme dans le texte de la page et pas obligatoirement dans le titre, l’en-tête et le texte des liens Comment identifier rapidement des documents de synthèse sur les causes des accidents d’avion aux Etats-Unis ? - Régler les paramètres : en anglais (pour avoir les résultats en anglais) Faire la recherche : « aviation accidents » ou « plane crash » ou « aviation accidents OR accident » Ensuite, nous pouvons appliquer ce qui a été vu en haut (recherche dans le titre, dans l’url, etc. – le type de fichier : filetype:pdf par exemple). f. La présentation des résultats Le principal enjeu est le classement. Il y a trois méthodes : - CLASSER PAR PERTINENCE : classer en fonction de la fréquence d’apparition des mots et de leur localisation dans la page. La plus facile et la plus utilisée. Problème : on peut détourner les algorithmes des moteurs de recherche - CLASSER PAR POPULARITE : repose sur l’idée que si une page fait un lien sur une autre page alors elles sont proches sémantiquement. Plus une page recevra un lien vers elle, plus elle sera populaire. Lucie Alves 35 Initiation à Internet - CLASSER PAR LA CATEGORISATION : travail sur le sens des mots dans la page (cf. www.exalead.fr – moteur français) Lucie Alves 36 Initiation à Internet ¤ Partie 2 Outils de recherche Deux méthodes : o o Méthode « répertoire thématique validés » Méthode « robots » Deux référentiels : o o Internet Un sous-ensemble de l’Internet : clôture de l’espace Outils à couverture restreinte - Limites géographiques (par pays, zone géographique, etc.) Limites thématiques (sciences, philosophie, etc.) Limites sur le type de ressources internet (news, ftp, listes de diffusion, etc.) Limites sur le genre de documents (dépêches, images, sons, etc.) 1. Recherche par mots-clés a. Moteurs spécialités, verticaux et personnalisables Les moteurs sont mis à jour rapidement, sont en constante innovation. Cependant ils ont des inconvénients (beaucoup de bruit, doublons non traité, hétérogène). Lucie Alves 37 Initiation à Internet De ces inconvénients les moteurs spécialisés vont essayer d’en tirer des avantages. Ils travaillent de façon « manuel » c'est-à-dire qu’il y a des êtres humains derrière qui travaillent et règlent les différents problèmes. Chacun d’entre nous peut créer son propre moteur personnalisé. b. Les métamoteurs Ils interrogent simultanément plusieurs moteurs. Cependant on ne peut pas utiliser une syntaxe très riche. On peut comparer les résultats fournis par les différents moteurs. Deux études ont été faites : En juillet 2005, Universités Pittsburgh et Pennsylvanie, 12 000 requêtes testées : - 1,1 % des liens proposés communs aux 4 moteurs de recherche testés (Google, Yahoo!,LiveSearch, Ask) - 89,4% étaient uniques à un seul moteur - 11,4 % proposés par 2 moteurs En avril 2007, Universités Pennsylvanie et Queensland, 19 000 requêtes testées : - 0,6 % des liens proposés communs aux 4 moteurs de recherche testés (Google, Yahoo!,LiveSearch, Ask) - 8,9 % proposés par 2 moteurs 2. Recherche thématique Ces annuaires sont aussi gérer par des êtres humains ce qui limite le bruit. Cependant la mise à jour est aléatoire. Lucie Alves 38 Initiation à Internet 3. D’autres types de ressources accessibles par le web Lucie Alves 39 Initiation à Internet Conclusion Quatre grandes catégories de critères : 1) L’offre des ressources : Moteurs généralistes / spécialisés - Diversité des spécialisations 2) L’implication des internautes : Moteurs participatifs – collaboratifs, personnalisables… 3) Le mode d’indexation des données : Moteurs morphosyntaxiques, sémantiques… 4) La présentation des résultats : Moteurs linéaires, visuels, cartographiques… et Imbrication des critères Lucie Alves 40 Initiation à Internet Le document structuré Introduction : qu’est ce qu’un document structuré ? C’est faire passer de la donnée à l’information, et faire en sorte que ce passage soit lisible par la machine et par l’homme. I. La structure des documents Plusieurs besoins : - Lucie Alves l’archivage des documents électroniques un document peut être restitué sur plusieurs supports (web, papier…) et lisible sur ces supports la recherche d’information plus riche 41 Initiation à Internet a. Structure physique C’est la mise en page, la géométrie de la page. C’est ce que l’on voit (aspect matériel). Lucie Alves 42 Initiation à Internet On parle de gabarit : La macro structure permet de modifier facilement la page. Il y a une micro structure qui renvoi à tout ce qui est typographique. Elle est très liée au contenu. Lucie Alves 43 Initiation à Internet b. Structure logique Elle renseigne (texte, numéro de page). On s’intéresse aux composants de la page et à quoi ils servent. C’est organiser le document de manière à le découper en partie et sous partie de façon à ce que le lecteur sache où il est. Les éléments jouent en rôle donné (Titre, auteur, chapitre, etc.). On a comme ça des structures génériques (un dictionnaire est toujours structuré de la même façon, etc.). Lucie Alves 44 Initiation à Internet Cette représentation est pauvre : elle met sur le même plan tous les éléments. On va en utiliser une autre : Exemple d’une lettre : expéditeur, date, référence…. On ajoute des attributs. Lucie Alves 45 Initiation à Internet Lucie Alves 46 Initiation à Internet II. Langages pour structurer les documents a. SCML Qu’est ce que SGML ? Une norme internationale : – Standard Generalized Markup Language – ISO 8879 – 1989 Un métalangage de balisage de documents – lisible par l’être humain et traitable par une machine – permet de définir des langages de balisage Les documents sont balisés conformément à la grammaire – la DTD : Definition de Type de Document <!ELEMENT POEME (AUTEUR+, TITRE, DATE, ((VERS+)|(STROPHE+ | REFRAIN?)+))> <!ELEMENT AUTEUR (PRENOM+, NOM)> … <!ELEMENT STROPHE (VERS+)> <!ATTLIST STROPHE type (distique | tercet | quatrain | quintil)> <!ELEMENT REFRAIN (VERS+)> <!ATTLIST REFRAIN type (distique | tercet | quatrain | quintil)> <!ELEMENT VERS (#PCDATA)> <expéditeur> <civilité>Monsieur</civilité> <nom>Leblanc</nom> <prénom>Juste</prénom> <adresse1>Av des Acacias 54</adresse1> <adresse2></adresse2> <CP></CP> <ville>Neuchatel</ville> <pays>Suisse</pays> </expéditeur> Objectif du SGML Séparation du fond de la forme : Lucie Alves 47 Initiation à Internet o o o Possibilité de multiples présentations Un seul document en SGML Plusieurs formats : PostScript, HTML, etc. b. HTML Présentation Proposé par le consortium W3C comme format de document sur le Web. Langage simple avec des balises standardisé permettant la mise en forme d’un texte Standard reconnu par tous les navigateurs Langage très populaire sur le web HTML : inconvénients Normalisation des différentes balises difficile : – les constructeurs ont eu tendance à définir leurs propres balises pour répondre à leurs besoins (incompatibilité) – HTML 4.0 boutons, tables, applets, objects, graphiques, maths, ... styles, frames, protections, ... Mises à jour difficiles : – données utiles et mises en forme ; – restructuration ou remise en forme de l’ensemble des pages du site fastidieux. Mélange le fond et la forme – méta-données avec la présentation – Pages conçues pour 1 type de terminal Lucie Alves 48 Initiation à Internet 1) Méta-données Dans l’en-tête – Titre <title> • 5 à 10 mots clés, max. 100 caractères – Du particulier au général • e.g. Truffes – Desserts – Recettes – Chez le Chef pâtissier – Méta-données • <meta name="keywords" content="mots clés, phrases clés. En minuscules, max. 100 mots, 1000 caractères, en ordre d'importance"> • <meta name="description" content="Texte de 75 à 250 caractères"> 2) Elément de structure Dans le corps du document – Titres Lucie Alves 49 Initiation à Internet • <h1>Titre de section de niveau 1</h1> jusqu’à <h6>Titre de section de niveau 6</h6> – Paragraphes • <p> Ceci est un paragraphe. Un espace est automatiquement créé avant et après le paragraphe. </p> – Tableaux • Un problème : html mélange structure logique et structure physique – <i>italique</i> – <b>gras</b> Lucie Alves 50 Initiation à Internet – <del>barré</del> 3) Liens ADRESSES RELATIVES/ABSOLUES Les adresses absolues (ou URL complet) sont de type http://www.univ-bpclermont.fr Les adresses relatives n'indiquent que le chemin du ou des sous-dossier(s) à parcourir pour parvenir au document appelé. Lucie Alves 51 Initiation à Internet 4) Insérer une image Il faut indiquer l’adresse du fichier image que l’on souhaite intégrer dans la page. <IMG SRC="URL_de_l'image"> – Attributs de l’image: ALT et ALIGN o ALT : texte de description o ALIGN: Pour aligner l'image ("top" , "bottom ", "middle", "Left", "Right ») – Exemple : o <img src=« img/hec.gif » alt=« logo » align=« right ») Lucie Alves 52 Initiation à Internet 5) Listes Ordonnées Les listes ordonnées (<ol>) permettent d'afficher des chiffres devant les différents éléments (<li>) de la liste. On peut changer l'affichage des numéros en utilisant l'attribut TYPE dans le <ol>. o lettres minuscules (<ol type=a>), o chiffres romains (<ol type=I>) o chiffres romains en minuscules (<ol type=i>). Non Ordonnées Les listes non-ordonnées (<ul>) affichent plutôt des points d'ancrage (des points remplis, vides et des carrés, selon le niveau hiérarchique) devant les éléments qu'elles comportent. La liste non-ordonnée permet aussi le recours à un attribut TYPE dans le <ul>, qui permet de choisir l'apparence du point d'ancrage plutôt que d'utiliser celui qui apparaît par défaut. Lucie Alves 53 Initiation à Internet Les choix possibles: - les points remplis (<ul type=circle>) - les points vides (<ul type=disc>) - les carrés (<ul type=square>) c. Séparation structure physique et logique Syntaxe Cascade Sheet Style Lucie Alves 54 Initiation à Internet Insérer une feuille de style Feuille de style externe – utile quand vous l’appliquez à plusieurs pages. Avantage : s’il y a des modifications à faire il suffit de modifier une seule fois la feuille de style. - <head> <link rel="stylesheet" type="text/css" href="monstyle.css" /> </head> - Le navigateur lit la feuille de style et l’applique pour la mise en forme du document La feuille de style est un fichier texte Peut être édité avec n’importe quel éditeur Ne contient pas des balises HTML A l’extension .css Définir les couleurs Nombres hexadécimaux – 16 millions de couleurs (256x256x256) o #RRGGBB avec R, G, B de 0 à F Exemple : #FFFFFF – blanc, #000000 – noir Valeurs RGB o color : rgb(125, 200, 56) Pourcentages RGB (pourcentage du maximum admis – 255) o color: rgb(50%, 100%, 30%) Noms de couleurs : aqua, black, blue, fuchsia, gray, green, lime, maroon, navy, olive, purple, red, silver, teal, white, yellow, orange (orange - seulement pour CSS 2.1) Voir le site http://pourpre.com Lucie Alves 55 Initiation à Internet Police Font-family : noms de police o Serif, sans-serif, cursive, monospace, fantasy Font-size : taille des caractères o Valeur : taille Font-style :type de la police (droite, italique, etc.) o Valeur : normal, italic, oblique Font-weight : graisse de la police o Valeur : normal, bold, bolder, lighter Paragraphe letter-spacing – augmente ou diminue l’espace entre les caractères o Valeurs : normal, taille line-height - définit la distance entre les lignes o Valeurs : normal, nombre, taille, % text-align – définit l’alignement du texte dans le cadre d’un élément o Valeurs : left, right, center, justify Word-spacing : augmente ou diminue l’espace entre les mots : o Valeurs : normal, taille Texte text-decoration – ajoute une décoration o Valeurs : none, underline, overline, line-through, blink text-indent – définit le retrait de la première ligne de texte dans un élément o Valeurs : taille, % text-transform – définit les lettres dans un élément o Valeurs : none, capitalize, uppercase, lowercase word-spacing – augmente ou diminue l’espace entre les mots o Valeurs : normal, taille Bordure Border-style : style de la bordure o Valeur : solid, double, groove (creux), ridge (relief), insert (3D), dotted (pointillé), dashed (tirets) Border-width : largeur du bord o Valeur : taille ou thin, medium, thick Border-color : couleur du bord o Valeur : couleur Arrière plan background - un raccourci pour la définition de toutes les propriétés d’arrière-plan dans une seule déclaration o Valeurs : background-color background-image background-repeat backgroundattachment background-position Lucie Alves 56 Initiation à Internet background-image – définit une image d’arrière-plan o Valeurs : url(URL), none background-repeat – définit si/comment une image d’arrière-plan est répétée o Valeurs : repeat, repeat-x, repeat-y, no-repeat background-attachment - indique si une image d’arrière plan est fixe ou défile avec le reste de la page o Valeurs : scroll, fixed background-color- définit la couleur d'arrière-plan d'un élément o Valeurs : color-rgb, color-hex, color-name, transparent Positionnement 3 modes de positionnement : Relatif, absolu, fixe Lucie Alves 57