Gouvernance technique et gouvernement politique d`internet

Transcription

Gouvernance technique et gouvernement politique d`internet
Initiation à Internet
Gouvernance technique et
gouvernement politique d’internet
L’idéal d’internet était la démocratie participative. On assimilait des discours à la liberté. On peut
parler d’imaginaire. Pour que le système fonctionne il faut qu’il soit régulé (droit privé, administratif,
etc.).
DEUX OPINIONS :
- On ne peut pas réguler internet.
- On peut réguler internet.
Gouvernance : internet peut être régulé par les infrastructures ou se réguler soit même.
1. Internet, un dispositif technique (TCP/IP)
a. Application
Tous ce qu’on peut faire avec internet (page web, messagerie)
Protocoles :
 HTTP (Hyper Text Transfert Protocol) permet d’accéder à des ressources stockées sur un
ordinateur serveur.
 FTP (File Transfert Protocol) permet de poser des fichiers sur le serveur.
Lucie Alves
1
Initiation à Internet


SMTP (Simple Mail Transfert Protocol) envoie un mail au serveur appartenant au destinataire
POP (Post Office Protocol) permet de récupérer des messages sur sa boite mail.

IMAP (Interactive Mail Access Protocol) – Web Mail – permet de gérer directement des
dossiers sur le serveur de messagerie
Lucie Alves
2
Initiation à Internet
b. Transport
Internet n’est pas fiable c’est pourquoi le protocole TCP s’en charge. Il limite le nombre de paquet
qui circule sur le réseau. De plus il remet les paquets dans l’ordre.
c. Internet
Cela fait référence à l’IP (Protocol Internet). C’est un réseau pour le mieux (n’assure pas la fiabilité).
La circulation d’information
On parle de paquet d’IP. Ils sont un format précis et sont envoyés tous azimute (il n’y a pas d’ordre).
Ces adresses IP sont limitées en nombre.
Lucie Alves
3
Initiation à Internet
Elles donnent l’ordinateur précis dans un réseau précis ce qui est de moins en moins facile avec les
nouveaux moyens.
d. Accès réseau
Circulation d’information à l’intérieur d’un réseau
Un réseau est un routeur (machine particulière). Entre ses routeurs il y a des liens de communication.
On parle « d’autoroute d’information ». Un routeur est comme un aiguilleur. Toutes les machines
mise en réseau s’appelle des hôtes. Grâce au système autonome, internet fonctionne.
2. La gouvernance d’internet
a. Définition élargie
Il faut entendre par « gouvernance de l’internet » l’élaboration et l’application
par les états, le secteur privé et la société civile, dans le cadre de leurs rôles
respectifs, de principes, normes, règles, procédures de prises de décisions et
Lucie Alves
4
Initiation à Internet
programmes communs propres à modeler l’évolution et l’utilisation de
l’internet.
L’infrastructure : physique (normes) et logique (administration des noms de domaine, gestion du
système serveur racine, multilingue).
b. Acteurs et forces en présence
Sous quelle forme, condition va s’exercer ce pouvoir ? Et qui ?
1.
2.
3.
4.
5.
Les usagers
Des associations
Des entreprises
Les organismes techniques
Autorités administrative
Les états produisent des lois et la loi s’applique territorialement ce qui pose problème à internet
(international).
Les usagers, les associations
Il y a plus de 200 associations en France
Une source d’information : www.journaldunet.com
Lucie Alves
5
Initiation à Internet



ACSEL : Assoc pour le commerce et les services en ligne
ADIASC : Assoc pour le Dév d’un Internet, assoc solidaire et citoyen
AFA : assoc des fournisseurs d’accès …
Les organismes techniques
ICANN (Internet Corporation for Assigned Names and Numbers) associe une adresse IP à un
nom de domaine. Ces noms de domaine apparaissent sous forme de hiérarchie.
Il y a une dépendance totale par rapport aux Etats-Unis. Les noms de domaine ont un enjeu
considérable, politique.
Lucie Alves
6
Initiation à Internet
Comment créer un nom de domaine ? Il y a des registres qui assurent cette coordination de
ressource.
• APNIC: Asia Pacific Network Information Centre
• RIPE NCC : réseaux IP européens Network Coordination Centre
• ARIN: American Registry for Internet Numbers
• LACNIC: Latin American and Caribbean
• AfriNIC: African Network Information Centre
Lucie Alves
7
Initiation à Internet
Combien ça coute ?
En France c’est entre 5 et 90euros par an. On n’est jamais réellement propriétaire d’un nom
de domaine. Les écarts se justifient selon les services offerts.
Depuis sa création ICANN a eu tendance à presque arriver à disparaître. Il a été créé
provisoirement et donc il était prévu qu’il disparaisse.
Le contrat qui lié le gouvernement américain et l’ICANN s’est fini en septembre 2009, ainsi
l’Europe a demandé un contre pouvoir gouvernemental (représentant de plusieurs pays).
1er octobre, les EU ont signés un nouveau contrat avec l’ICANN mais il y a un poids plus
important des gouvernements étrangers. (Responsabilité et transparence – Sécurité)
Whois.net permet de savoir à qui appartient un nom de domaine.
Les gouvernements étrangers sont représentés et ont un droit de veto. L’ICANN garde quand
même des responsabilités et peut choisir.
Le serveur principal est toujours sous la direction de l’ICANN.
Lucie Alves
8
Initiation à Internet
II y a un certain nombre d’organisme qui gère internet avec ICANN.
ISOC (internet society) : organisation associatif à but non lucratif, promue internet, collecte
des fonds. (50 000 dollars par an pour siéger)
IAB (internet architecture board): chargé de supervisé els point technique (aspect
architecture)
IETF (internet engineering task force): groupement international qui développe les standards
W3C (world wide web consortium): gère le Web (petite partie d’internet)
Conclusion
Il y a quatre types d’instances (loi, norme sociale, le marché, l’architecture technique)
coexistence de facteur technique, éco, culturel.
Il y a 13 serveurs.
Aspect multifonctionnel d’internet rend complexe sa gestion. L’usager ne perçoit pas ça,
pour lui c’est comme, facile.
Lucie Alves
9
Initiation à Internet
Identité numérique, traces et vie
privées sur internet
0. Introduction : définition des notions
« Le double numérique » : jacques Dariaux. Ensemble des données que les systèmes
d’informations recueillent et stockent pour chaque individu via les ordinateurs et réseaux de
communication.
Les traces : concernent nos comportements, nos actions. C’est l’enregistrement de toutes
les actions d’un individu sous la forme de données informatisées. « Privacy » : notion qui
s’intéresse aux relations entre une personne et les technologies d’informations.
L’identité numérique : c’est la somme des traces que nous laissons sur les réseaux et la
collection d’information que nous donnons volontairement ou non.
Lucie Alves
10
Initiation à Internet
1. Les informations personnelles (profil)
a. Collecte des données personnelles
On n’est pas anonyme sur internet.
L’exemple des réseaux sociaux
Un des arguments de ces réseaux est de mettre le point sur la recherche d’amis. C’est un
moyen très facile de recueillir des informations personnelles. Il faudrait lire à chaque fois la
politique de confidentialité de ces réseaux. [Voir celui de Facebook]
Lors de la création de Facebook (1994) l’idée d’un réseau de plus en plus ouvert ne gênait
personne.
Lucie Alves
11
Initiation à Internet
Dominique Cardon pense qu’il y a un certain nombre de modèles.





Paravent : participant qu’à travers un moteur de recherche, choix de la
personne (site de rencontre). La visibilité est moindre, filtrée.
Clair-obscur : réseau social de proche, difficile d’accès. Mise en relation des
échanges de petits réseaux. Les personnes pensent qu’elles maîtrisent le
réseau.
Le Phare : très visible pour tous. Compteur d’audience. Le but : essayer de
devenir le plus visible possible.
Post-It : joue sur le territoire et le temps. Accès restreint.
Lanterna Magica : les personnes se rendent visite via des avatars.
Les pratiques du e-commerce
Amazon – EBay – PriceMinister
Les meilleurs représentants sont les autres internautes : les commentaires qu’ils laissent
permettent à d’autre utilisateur d’être confiant ou non.
Le but de la collecte d’information personnelle est de cibler la clientèle.
Lucie Alves
12
Initiation à Internet
b. Les dangers
Intrusion dans la vie privée : les données échangées peuvent être récupérées à des
fins de profilage.
L’exploitation et le détournement des données : usurpation d’identité, fraude
(phishing – farming)
Atteinte à la liberté : notamment avec Yahoo
Les risques de contamination de la réputation :
o Réseau : ce que les autres peuvent écrire sur nous, l’activité propre à un
contact, par viral (pishing).
o Activité : sphères du travail et amicales qui deviennent plus visibles.
c. La législation
Loi informatique et des libertés.
2004 : loi sur la confiance dans l’économie numérique.
Le citoyen a des droits sur ses traces




Le droit à l’information : on doit être prévenu que des informations vont
être recueillis, et par qui.
Le droit d’opposition : toute personne a le droit de s’opposer à figurer
dans un fichier
Le droit d’accès aux informations : connaître les informations
communiquées
Le droit de rectification : demander à changer certaines données.
Le droit à l’oubli : il concerne la durée du stockage de donnée personnelle (notamment
l’adresse IP).
2. Les traces numériques (comportements)
a. Dans les moteurs de recherche
Google inquiète des Etats car il n’y a pas de législation spécifique pour les moteurs de recherche qui
peuvent donc décider de quoi faire de nos données personnelles.

Journaux de requête : promouvoir les liens commerciaux, mots clefs des internautes,
date, heure, cookies…

Préférences et données relatives à l’ordinateur : navigateur, système
d’exploitation…

Données relatives au contenu proposé : stockage des liens proposés suite à une
requête.




Données
Données
Données
Données
Lucie Alves
relatives aux sites visités
opérationnelles relatives aux données d’utilisateur
relatives aux utilisateurs enregistrés
d’autres services et sources
13
Initiation à Internet
b. Sur les sites visités
Sur tous les sites visités nous laissons des traces notamment avec les cookies.
3. Conclusion
L’utilisateur ne lit pas les conditions de confidentialité et ne sait donc pas à quoi il s’expose en réalité.
Internet permet de récolter des informations que ce soit au niveau des réseaux sociaux ou bien sur
n’importe quel site.
Lucie Alves
14
Initiation à Internet
Approfondir Google
Mieux connaître Google pour mieux le
questionner
1. Repères historiques
a. Origines




1996 : projet de recherche de Sergey Brin et Larry Page
Naissance le 7 Septembre A998, à Stanford, de la start-up Google
Le nom : dérivé du mot « googol » (Milton Sirotta) 10 100
L’immeuble : googleplex (10gogol)
Lucie Alves
15
Initiation à Internet







2000 : première publicités contextuelles
2001 :
o Rachat de deja.com
o Création de Google Groups
o Lancement de Images Search
2002 :
o Modèle publicitaire Adwords
o Google News
2003 : rachats de…
o Applied Semantics
o Blogger
o Sprinks
o Programme publicitaire AdSense
2004 : diversifications avec Gmail, Picasa, Google Desktop, Google Scholar
2005 : Google Video, Maps, Earth, Talk
2006 :
o Google.cn
o Google Calendar
o Automne : Google News Archives, rachat de You Tube.
Lucie Alves
16
Initiation à Internet



2007 :
o
o
2008
o
o
o
2009 :
o
o
o
o
o
o
o
Lucie Alves
Rachat de DoucleClic (première agence mondiale de publicité)
Recherche universelle
Mars : annonce de Google Health, le dossier médical personnel en ligne
Juillet : Google à 70% du trafic aux USA, 82% en France.
Septembre : Google Chrome
Janvier : Google connaît la crise : licenciements, fermetures…
Février : lancement de Google Latitude, service de géo localisation sur téléphone
mobile
Mai : lancement de Google Wave, plateforme centralisée de communication
Août : annonce de négociation entre Google et la BNF pour la numérisation des
fonds
Septembre : lancement de SideWiki
Octobre :
 Partenariat avec Twitter, indexation des tweets
 Lancement de Google Social Search, moteur de recherche social
Novembre :
 Google Street View au Mexique, 15ème pays couvert (sur 33)
 Lancement de Google DashBoard
 Accord Google-éditeurs américains
17
Initiation à Internet
2. Le gigantisme de Google
Google est très puissant grâce à l’ensemble des domaines qu’il investit quels qu’ils soient. Peu de
domaine lui échappe.
a. La puissance financière
Action en bourse multiplié par 8.
Lucie Alves
18
Initiation à Internet
b. La puissance humaine
c. La puissance économique
Requêtes Mondiales Déc. 2009
2%
2% 1% 1%
1%
2%
Google Sites
3%
Yahoo ! Sites
Baidu.com Inc.
7%
Microsoft Sites
eBay
8%
NHN Corporation
Yandex
73%
Facebook.com
Ask Network
Autres
Lucie Alves
19
Initiation à Internet
d. La puissance politique
Lucie Alves
20
Initiation à Internet
e. La puissance d’innovation
Acteur de protéiforme.
f. La puissance technique


Rôle-clé de l’infrastructure technique chez Google :
o Quantités gigantesques de données à traiter : Index de plusieurs centaines de
milliards de pages ...
o Nécessité de :
 Capacité de stockage : > 850 téraoctets
 Puissance de calcul : 600 teraflops (10 fois plus que Columbia, l'ordinateur le
plus puissant de la NASA)
Solution adoptée :
o
“Racks” de 88 ordinateurs plutôt que des gros serveurs
o Au total : plus de deux millions de machines

Les Google Data Centers :
o Regroupement des milliers d’ordinateurs hébergeant l’index de Google dans des
centres de données
o Plus de 60 Data Centers, pour la plupart aux USA et en Europe
Voir Chiffres-clé sur WebRankInfo
Lucie Alves
21
Initiation à Internet
3. Repères techniques
Lucie Alves
22
Initiation à Internet
4. Stratégie et innovations récentes
1)
2)
3)
4)
5)
6)
7)
8)
9)
Maître des images ?
Nouvel opérateur de téléphonie ?
Nouveau réseau social ?
Nouveau ministère de la santé ?
Première agence de presse mondiale ?
Première bibliothèque numérique mondiale ?
Premier portail scientifique mondial ?
Premier office de tourisme mondial ?
Cartographe de l’univers ?
Lucie Alves
23
Initiation à Internet
5. Google et nous
a. Google, « big brother » mondial ?
Il y a un centre de confidentialité. Cet outil permet de voir les traces laissées volontairement.
b. Quelques exemples de défaillances :
Lucie Alves
24
Initiation à Internet
Ces données peuvent être perdues.
6. Questionnements critiques
1)
2)
3)
4)
Dénoncer les dangers du monopole
L’alerte face à la traçabilité et à la conservation des données personnelles
La vigilance face à l’usage permanent de Google
L’idéologie de Google
Lucie Alves
25
Initiation à Internet
Recherche d’information sur Internet
¤ Partie 1
I.
Internet, univers complexe
a. Complexité et diversité
Retrouver des supports aux contenus pertinents conservés dans une mémoire personnelle ou
collective en réponse à un besoin informationnel exprimé par une personne.



Retrouver : relatif à la documentation/au système d’information.
Supports : relatif aux documents
Contenus : qui renseignent
Spécificité d’internet :












Espace éditorial (production-diffusion de l’information)
Espace ouvert et distribué
Espace public/gratuit : documents publics, bibliographies spécialisées, revues électroniques…
Espace commercial : banques de données commerciales, édition électronique…
Abondance de l’information
Grande hétérogénéité (fond/forme)
Fragmentation
Instabilité
Renouvellement continuel
Non structurée
Multilinguisme (1ère langue : Anglais, 2ème Chinois)
Publique/commerciale…
Les Formats
.zip - .exe - .mp3 - .au - .ra - .wav - .gif - .jpeg - .png - .tiff - .swf - .htm - .asp - .php - .doc - .rtf .pdf - .ppt - .avi - .mpeg - .bin - .qt - .mov
De fichier texte






.HTML .HTM .SHTM .SHTML (Hypertext Markup Language)
.asp ; .php ; .cfm ; .java
.pdf
.doc ; .docx
.rtf (Rich Text Format)
.ppt ; .pps
Video
Lucie Alves
26
Initiation à Internet



AVI (Audio Video Interleave : Video For Windows)
.MOV .QT (QuickTime Movie)
.RA (RealAudio)
Audio





.MP3 (Moving Pictures Expert Group)
.AIFF AIF (Audio Interchange File Format)
.AU
.RA .RAM (Real Audio)
.WAV (Waveform Audio File Format)
Compressés








.BIN (Pour les ouvrir : Mac : StuffIt Expander. Windows : StuffIt Expander.)
.EXE
.HQX (BinHex)
.GZ .GZIP (GNU ZIP)
.RAR (probablement Roshal Archive, d'après le nom du créateur)
.SIT .SEA (StuffIt archives, self-extracting archives)
.TAR (Tape archive)
.ZIP
b. Quid de la Recherche Internet dans cet univers
L’approche par mots clés : recherche par mots clés sur le texte intégral
L’approche par exploration des sources : identifier des sources d’information pertinentes par
rapport à la requête, sites phares.
Trois façons de rechercher l’information
Lucie Alves
27
Initiation à Internet



Chercher de l’information sur un objet bien défini
Chercher de l’information sur un objet incomplètement décrit mais qui sera reconnaissable
dès qu’on le rencontrera
Trouver de l’information de manière fortuite
Trois notions



Relevance (correspond à ma question)
Pertinence (ce qui m’intéresse vraiment)
Serendipité (quelle chose que je ne cherchais pas mais qui pourrait également m’intéresser)
Où chercher ?
Web invisible
Il est 500fois plus grand que le web visible.
Il y a plusieurs catégories :
- Web opaque
- Web privé : pages exclues volontairement
- Web propriétaire : pages que l’on peut accéder qu’en s’identifiant.
- Le vrai web invisible
Lucie Alves
28
Initiation à Internet
Les limites de la Recherche Internet sur le Web ?
On trouve de tout mais pas tout.
Les sites sont éphémères. La date des informations ne sont pas forcément connues. Le contrôle des
informations n’est pas harmonisé.
Gestion du bruit et du silence
Documents relevants
Lucie Alves
Documents non relevants
Corpus
29
Initiation à Internet
II.
Les moteurs de recherche
a. Le fonctionnement
Fonctionnement des moteurs
b. La collecte des données
Elle est assurée par le robot.
Les webmasters peuvent demander à ce qu’on index des pages.
Délai de prise en charge : d’une journée à plusieurs semaines.
Le rafraichissement : le robot travaille sur une copie du web (mise à jour) et donc le délai peut être
très variable.
c. Indexation des données
Qu’est ce qui est indexé ? Les titres des pages Web, les premiers paragraphes de texte, l’intégralité
des pages Web.
Lucie Alves
30
Initiation à Internet
Les métadonnées
Les balises <META>
<META NAME=”keywords”
CONTENT=”mot-clé1, mot-clé2…”>






Utilisé par tous les moteurs (sauf Google)
Mots-clés séparée par une virgule
Pas d’espace entre les mots-clés
Minuscules pour éviter les problèmes
Limité à 1000 mots-clés (sic)
Eviter le spam
CONTENT=”html, html, html, html” – Pénalisé par moteurs de recherche
<META NAME=”description”
CONTENT=”description_du_site”>


Seuls 140 à 250 premiers mots retenus par les moteurs de recherche
Astuce : reprendre un ou des mots-clés dans les titres de page (classement optimisé)
<META NAME=”robots”
CONTENT=”instruction_pour_robots”>





All (default) : indexation pages et liens
None : pas d’indexation des pages ni des liens
Index/NoIndex : indexation (ou non) des pages
Follow/NoFollow : permission (ou non) de suivre les liens
Noarchive : pas d’accès à la version en cache
Lucie Alves
31
Initiation à Internet
L’étique des robots…



Moteur vérifie d’abord la présence à la racine du fichier robots.txt
o Protocole REP : Robot Exclusion Protocole
o Un seul fichier pour tout le site : robots.txt
Deux instructions :
o User-agent : Googlebot
o User-agent : Scooter
o Disallow : /tmp/
o Disallow : /rep/exemple.html
 Seul Google et Altavista peuvent référencer
 Sauf le répertoire « tmp » et le fichier « exemple.html » dans le répertoire
« rep »
User-agent : * : tous autorisés
Deux grandes méthodes d’analyses dans l’indexation automatisée :
o
o
Analyse linguistique : fondée sur la reconnaissance des mots
 Lexical : reconnaissance du mot
 Syntaxique : utilisation de la grammaire
 Sémantique : reconnaissance des concepts
Analyse statistique : fondée sur la fréquence des mots
d. La gestion des requêtes et des résultats
Partie visible du moteur de recherche : trois grandes fonctions
-
Gestion des requêtes
Gestion des résultats
Gestion de la présentation des résultats
Fonction la plus répandue : nombreuses possibilités de filtrage
-
Géographique du web : mondial, francophone
Linguistique : choix de la langue des ressources
Des types de ressources : images, audio…
Des ressources internet : web, forum, messagerie, weblogs
Des formats : HTML, PDF, DOC…
Des dates : nombreuses options
Des champs ; titre, URL, host, domaine
Thématique : choix du domaine de recherche
Lucie Alves
32
Initiation à Internet
Les opérateurs booléens
OR
AND (par défaut)
AND NOT
Lucie Alves
33
Initiation à Internet
Quel intérêt du + en mode simple ?
Force la recherche du mot tel qu’il est entré.
Les autres opérateurs
SAUF (-): éliminer un concept non pertinent à l’objet de recherche – possible dans Google
ADJ : se traduit par NEAR, les mots doivent se trouver les uns à côté des autres.
Les parenthèses : permet d’utiliser plusieurs opérateurs – possible dans Google
La troncature (*) : couper un mot et de trouver une variante du mot
? ou % : représente une seule lettre n’importe où dans le mot
e. Gestion des requêtes
Syntaxe requête complexe de Google








RECHERCHE SUR LE NOM DU SITE (SITE) :
Exemple : +moteur+site:www.honda.fr recherchera les documents qui contiennent le mot
moteur et qui sont disponibles sur le site www.honda.fr
RECHERCHE SUR LES PAGES LIEES (LINK) :
Exemple : link:www.univ-bpclermont.fr trouvera les documents qui contiennent un lien vers
une page du site dont l’adresse contient l’expression www.univ-bpclermont.fr (dans ce cas
www.univ-bpclermont.fr)
RECHERCHE DE SITES SIMILAIRES (RELATED)
Exemple : related:www.univ-bpclermont.fr trouvera des sites similaires à UBP.
RECHERCHE DANS LE CACHE (CACHE)
Exemple : cache:www.univ-bpclermont.fr trouvera la version du site UBP dans le cache du
moteur.
INFORMATION SUR LE SITE (INFO)
Exemple : info:www.univ-bpclermont.fr proposera un certain nombre d’information (pages
similaires, pages du site, pages similaires…) sur le site www.univ-bpclermont.fr
RECHERCHE DANS LE TITRE (ALLINTITLE - INTITLE)
Exemple : allintitle:communication solidaire trouvera les pages qui contiennent les mots
communication ET solidaire dans leur titre.
Exemple : intitle:communication solidaire trouvera les pages qui contiennent le mot
communication dans leur titre et le mot solidaire dans la page.
DEFINITION D’UN MOT (DEFINITION DE)
Exemple : définition de « information ». Si Google trouve des sites donnant la définition, les
pages sont affichées en premier dans la liste des résultats.
RECHERCHE DANS L ’URL (ALLINURL - INURL)
Exemple : allinurl:journalisme proximité trouvera les pages qui contiennent les mots
journalisme ET proximité dans leur adresse (url)
Exemple : inurl:journalisme proximité trouvera les pages qui contiennent le mot journalisme
dans leur url et le mot proximité dans la page.
Lucie Alves
34
Initiation à Internet

RECHERCHE DANS LE TEXTE (INTEXT)
Exemple : Intext:journalisme trouvera les pages qui contiennent le mot journalisme dans le
texte de la page et pas obligatoirement dans le titre, l’en-tête et le texte des liens
Comment identifier rapidement des documents de synthèse sur les causes des accidents d’avion aux Etats-Unis ?
-
Régler les paramètres : en anglais (pour avoir les résultats en anglais)
Faire la recherche : « aviation accidents » ou « plane crash » ou « aviation accidents OR
accident »
Ensuite, nous pouvons appliquer ce qui a été vu en haut (recherche dans le titre, dans l’url,
etc. – le type de fichier : filetype:pdf par exemple).
f. La présentation des résultats
Le principal enjeu est le classement.
Il y a trois méthodes :
- CLASSER PAR PERTINENCE : classer en fonction de la fréquence d’apparition des mots et de leur
localisation dans la page. La plus facile et la plus utilisée.
Problème : on peut détourner les algorithmes des moteurs de recherche
- CLASSER PAR POPULARITE : repose sur l’idée que si une page fait un lien sur une autre page
alors elles sont proches sémantiquement. Plus une page recevra un lien vers elle, plus elle
sera populaire.
Lucie Alves
35
Initiation à Internet
-
CLASSER PAR LA CATEGORISATION : travail sur le sens des mots dans la page (cf. www.exalead.fr
– moteur français)
Lucie Alves
36
Initiation à Internet
¤ Partie 2
Outils de recherche
Deux méthodes :
o
o
Méthode « répertoire thématique validés »
Méthode « robots »
Deux référentiels :
o
o
Internet
Un sous-ensemble de l’Internet : clôture de l’espace
Outils à couverture restreinte
-
Limites géographiques (par pays, zone géographique, etc.)
Limites thématiques (sciences, philosophie, etc.)
Limites sur le type de ressources internet (news, ftp, listes de diffusion, etc.)
Limites sur le genre de documents (dépêches, images, sons, etc.)
1. Recherche par mots-clés
a. Moteurs spécialités, verticaux et personnalisables
Les moteurs sont mis à jour rapidement, sont en constante innovation. Cependant ils ont des
inconvénients (beaucoup de bruit, doublons non traité, hétérogène).
Lucie Alves
37
Initiation à Internet
De ces inconvénients les moteurs spécialisés vont essayer d’en tirer des avantages. Ils travaillent de
façon « manuel » c'est-à-dire qu’il y a des êtres humains derrière qui travaillent et règlent les
différents problèmes. Chacun d’entre nous peut créer son propre moteur personnalisé.
b. Les métamoteurs
Ils interrogent simultanément plusieurs moteurs. Cependant on ne peut pas utiliser une syntaxe très
riche. On peut comparer les résultats fournis par les différents moteurs.
Deux études ont été faites :


En juillet 2005, Universités Pittsburgh et Pennsylvanie, 12 000 requêtes testées :
- 1,1 % des liens proposés communs aux 4 moteurs de recherche testés (Google,
Yahoo!,LiveSearch, Ask)
- 89,4% étaient uniques à un seul moteur
- 11,4 % proposés par 2 moteurs
En avril 2007, Universités Pennsylvanie et Queensland, 19 000 requêtes testées :
- 0,6 % des liens proposés communs aux 4 moteurs de recherche testés (Google,
Yahoo!,LiveSearch, Ask)
- 8,9 % proposés par 2 moteurs
2. Recherche thématique
Ces annuaires sont aussi gérer par des êtres humains ce qui limite le bruit. Cependant la mise à jour
est aléatoire.
Lucie Alves
38
Initiation à Internet
3. D’autres types de ressources accessibles par le web
Lucie Alves
39
Initiation à Internet
Conclusion
Quatre grandes catégories de critères :
1) L’offre des ressources : Moteurs généralistes / spécialisés - Diversité des spécialisations
2) L’implication des internautes : Moteurs participatifs – collaboratifs, personnalisables…
3) Le mode d’indexation des données : Moteurs morphosyntaxiques, sémantiques…
4) La présentation des résultats : Moteurs linéaires, visuels, cartographiques… et Imbrication
des critères
Lucie Alves
40
Initiation à Internet
Le document structuré
Introduction : qu’est ce qu’un document structuré ?
C’est faire passer de la donnée à l’information, et faire en sorte que ce passage soit lisible par la
machine et par l’homme.
I.
La structure des documents
Plusieurs besoins :
-
Lucie Alves
l’archivage des documents électroniques
un document peut être restitué sur plusieurs supports (web, papier…) et lisible sur ces
supports
la recherche d’information plus riche
41
Initiation à Internet
a. Structure physique
C’est la mise en page, la géométrie de la page. C’est ce que l’on voit (aspect matériel).
Lucie Alves
42
Initiation à Internet
On parle de gabarit :
La macro structure permet de modifier facilement la page. Il y a une micro structure qui renvoi à tout
ce qui est typographique. Elle est très liée au contenu.
Lucie Alves
43
Initiation à Internet
b. Structure logique
Elle renseigne (texte, numéro de page). On s’intéresse aux composants de la page et à quoi ils
servent. C’est organiser le document de manière à le découper en partie et sous partie de façon à ce
que le lecteur sache où il est.
Les éléments jouent en rôle donné (Titre, auteur, chapitre, etc.). On a comme ça des structures
génériques (un dictionnaire est toujours structuré de la même façon, etc.).
Lucie Alves
44
Initiation à Internet
Cette représentation est pauvre : elle met sur le même plan tous les éléments. On va en utiliser une
autre :
Exemple d’une lettre : expéditeur, date, référence…. On ajoute des attributs.
Lucie Alves
45
Initiation à Internet
Lucie Alves
46
Initiation à Internet
II.
Langages pour structurer les documents
a. SCML
Qu’est ce que SGML ?



Une norme internationale :
– Standard Generalized Markup Language
– ISO 8879 – 1989
Un métalangage de balisage de documents
– lisible par l’être humain et traitable par une machine
– permet de définir des langages de balisage
Les documents sont balisés conformément à la grammaire
– la DTD : Definition de Type de Document
<!ELEMENT POEME (AUTEUR+, TITRE, DATE,
((VERS+)|(STROPHE+ | REFRAIN?)+))>
<!ELEMENT AUTEUR (PRENOM+, NOM)>
…
<!ELEMENT STROPHE (VERS+)>
<!ATTLIST STROPHE type (distique | tercet | quatrain |
quintil)>
<!ELEMENT REFRAIN (VERS+)>
<!ATTLIST REFRAIN type (distique | tercet | quatrain |
quintil)>
<!ELEMENT VERS (#PCDATA)>
<expéditeur>
<civilité>Monsieur</civilité>
<nom>Leblanc</nom>
<prénom>Juste</prénom>
<adresse1>Av des Acacias 54</adresse1>
<adresse2></adresse2>
<CP></CP>
<ville>Neuchatel</ville>
<pays>Suisse</pays>
</expéditeur>
Objectif du SGML

Séparation du fond de la forme :
Lucie Alves
47
Initiation à Internet
o
o
o
Possibilité de multiples présentations
Un seul document en SGML
Plusieurs formats : PostScript, HTML, etc.
b. HTML
Présentation




Proposé par le consortium W3C comme format de document sur le Web.
Langage simple avec des balises standardisé permettant la mise en forme d’un texte
Standard reconnu par tous les navigateurs
Langage très populaire sur le web
HTML : inconvénients



Normalisation des différentes balises difficile :
– les constructeurs ont eu tendance à définir leurs propres balises pour répondre à
leurs besoins (incompatibilité)
– HTML 4.0
 boutons, tables, applets, objects, graphiques, maths, ...
 styles, frames, protections, ...
Mises à jour difficiles :
– données utiles et mises en forme ;
– restructuration ou remise en forme de l’ensemble des pages du site fastidieux.
Mélange le fond et la forme
– méta-données avec la présentation
– Pages conçues pour 1 type de terminal
Lucie Alves
48
Initiation à Internet
1) Méta-données
Dans l’en-tête
– Titre <title>
• 5 à 10 mots clés, max. 100 caractères – Du particulier au général
• e.g. Truffes – Desserts – Recettes – Chez le Chef pâtissier
– Méta-données
• <meta name="keywords" content="mots clés, phrases clés. En minuscules, max.
100 mots, 1000 caractères, en ordre d'importance">
• <meta name="description" content="Texte de 75 à 250 caractères">
2) Elément de structure
Dans le corps du document
– Titres
Lucie Alves
49
Initiation à Internet
• <h1>Titre de section de niveau 1</h1> jusqu’à <h6>Titre de section de niveau
6</h6>
– Paragraphes
• <p> Ceci est un paragraphe. Un espace est automatiquement créé avant et après le
paragraphe. </p>
– Tableaux
• Un problème : html mélange structure logique et structure physique
– <i>italique</i>
– <b>gras</b>
Lucie Alves
50
Initiation à Internet
– <del>barré</del>
3) Liens
ADRESSES RELATIVES/ABSOLUES


Les adresses absolues (ou URL complet) sont de type http://www.univ-bpclermont.fr
Les adresses relatives n'indiquent que le chemin du ou des sous-dossier(s) à parcourir pour
parvenir au document appelé.
Lucie Alves
51
Initiation à Internet
4) Insérer une image


Il faut indiquer l’adresse du fichier image que l’on souhaite intégrer dans la page.
<IMG SRC="URL_de_l'image">
– Attributs de l’image: ALT et ALIGN
o ALT : texte de description
o ALIGN: Pour aligner l'image ("top" , "bottom ", "middle", "Left", "Right »)
– Exemple :
o <img src=« img/hec.gif » alt=« logo » align=« right »)
Lucie Alves
52
Initiation à Internet
5) Listes
Ordonnées


Les listes ordonnées (<ol>) permettent d'afficher des chiffres devant les différents éléments
(<li>) de la liste.
On peut changer l'affichage des numéros en utilisant l'attribut TYPE dans le <ol>.
o lettres minuscules (<ol type=a>),
o chiffres romains (<ol type=I>)
o chiffres romains en minuscules (<ol type=i>).
Non Ordonnées
Les listes non-ordonnées (<ul>) affichent plutôt des points d'ancrage (des points remplis, vides et des
carrés, selon le niveau hiérarchique) devant les éléments qu'elles comportent.
La liste non-ordonnée permet aussi le recours à un attribut TYPE dans le <ul>, qui permet de choisir
l'apparence du point d'ancrage plutôt que d'utiliser celui qui apparaît par défaut.
Lucie Alves
53
Initiation à Internet
Les choix possibles:
- les points remplis (<ul type=circle>)
- les points vides (<ul type=disc>)
- les carrés (<ul type=square>)
c. Séparation structure physique et logique
Syntaxe Cascade Sheet Style
Lucie Alves
54
Initiation à Internet
Insérer une feuille de style





Feuille de style externe – utile quand vous l’appliquez à plusieurs pages. Avantage : s’il y a
des modifications à faire il suffit de modifier une seule fois la feuille de style.
- <head>
<link rel="stylesheet" type="text/css" href="monstyle.css" />
</head>
- Le navigateur lit la feuille de style et l’applique pour la mise en forme du document
La feuille de style est un fichier texte
Peut être édité avec n’importe quel éditeur
Ne contient pas des balises HTML
A l’extension .css
Définir les couleurs





Nombres hexadécimaux – 16 millions de couleurs (256x256x256)
o #RRGGBB avec R, G, B de 0 à F
 Exemple : #FFFFFF – blanc, #000000 – noir
Valeurs RGB
o color : rgb(125, 200, 56)
Pourcentages RGB (pourcentage du maximum admis – 255)
o color: rgb(50%, 100%, 30%)
Noms de couleurs : aqua, black, blue, fuchsia, gray, green, lime, maroon, navy, olive, purple,
red, silver, teal, white, yellow, orange (orange - seulement pour CSS 2.1)
Voir le site http://pourpre.com
Lucie Alves
55
Initiation à Internet
Police




Font-family : noms de police
o Serif, sans-serif, cursive, monospace, fantasy
Font-size : taille des caractères
o Valeur : taille
Font-style :type de la police (droite, italique, etc.)
o Valeur : normal, italic, oblique
Font-weight : graisse de la police
o Valeur : normal, bold, bolder, lighter
Paragraphe




letter-spacing – augmente ou diminue l’espace entre les caractères
o Valeurs : normal, taille
line-height - définit la distance entre les lignes
o Valeurs : normal, nombre, taille, %
text-align – définit l’alignement du texte dans le cadre d’un élément
o Valeurs : left, right, center, justify
Word-spacing : augmente ou diminue l’espace entre les mots :
o Valeurs : normal, taille
Texte




text-decoration – ajoute une décoration
o Valeurs : none, underline, overline, line-through, blink
text-indent – définit le retrait de la première ligne de texte dans un élément
o Valeurs : taille, %
text-transform – définit les lettres dans un élément
o Valeurs : none, capitalize, uppercase, lowercase
word-spacing – augmente ou diminue l’espace entre les mots
o Valeurs : normal, taille
Bordure



Border-style : style de la bordure
o Valeur : solid, double, groove (creux), ridge (relief), insert (3D), dotted (pointillé),
dashed (tirets)
Border-width : largeur du bord
o Valeur : taille ou thin, medium, thick
Border-color : couleur du bord
o Valeur : couleur
Arrière plan

background - un raccourci pour la définition de toutes les propriétés d’arrière-plan dans une
seule déclaration
o Valeurs : background-color background-image background-repeat backgroundattachment background-position
Lucie Alves
56
Initiation à Internet




background-image – définit une image d’arrière-plan
o Valeurs : url(URL), none
background-repeat – définit si/comment une image d’arrière-plan est répétée
o Valeurs : repeat, repeat-x, repeat-y, no-repeat
background-attachment - indique si une image d’arrière plan est fixe ou défile avec le reste
de la page
o Valeurs : scroll, fixed
background-color- définit la couleur d'arrière-plan d'un élément
o Valeurs : color-rgb, color-hex, color-name, transparent
Positionnement
3 modes de positionnement : Relatif, absolu, fixe
Lucie Alves
57