LE DÉPôT LÉGAL DU WEB à L

Transcription

LE DÉPôT LÉGAL DU WEB à L
Le dépôt légal du web à l’Ina
L’Ina s’est vu confier par la loi du 20 juin 1992 le dépôt légal de l’ensemble des
chaînes de radio et de télévision. Depuis la loi DAVDSI (Droit d’auteur et droits voisins
dans la société de l’information) du 1er août 2006 et son décret d’application de décembre
2011, l’Institut national de l’audiovisuel a vu sa mission s’élargir à la collecte et
mise en consultation des informations publiées en ligne, pour tous les sites et
contenus relevant de la communication audiovisuelle. Ces collections constituées
au titre du dépôt légal construisent le patrimoine culturel des générations futures
et s’adressent aux chercheurs, étudiants ou enseignants de toutes disciplines ainsi
qu’aux professionnels qui mènent des travaux de recherche.
Une mission partagée entre l’Ina et la BnF
Cette mission de dépôt légal est partagée entre l’Ina, pour les sites et contenus relevant de la communication
audiovisuelle, et la BnF, pour le reste du web français.
L’Ina et la BnF sont membres de l’IIPC (International Internet Preservation Consortium), un consortium mondial
qui rassemble les institutions et entreprises en charge de l’archivage du web. Le partage et l’échange autour de
bonnes pratiques et développements technologiques y nourrissent des projets communs et collaboratifs.
la collecte
Contenus collectés
L’Ina, dans la continuité de ses collections audiovisuelles, collecte, au titre du dépôt
légal de l’internet, plus de 14 000 sites web captés 24h/24, plusieurs fois par jour.
18 000 comptes de réseaux sociaux publiant des vidéos sont suivis et collectés
en continu, ainsi que 400 flux de réseaux sociaux en lien avec des programmes,
personnalités de l’audiovisuel ou événements exceptionnels. Comptes et « mots
dièse » (hashtags) de Twitter, vidéos issues des plateformes d’hébergements et de
partage construisent des archives « augmentées » pour l’étude et l’analyse.
Modes de collecte
L’Ina développe et met en œuvre des robots de collecte (crawlers) spécialement
adaptés aux besoins de l’archive : ce sont des logiciels qui enregistrent toutes les
ressources (pages, images) présentes sur un site Web.
L’Ina procède à des collectes régulières de ces sites, selon des fréquences qui suivent
au plus près celle de leur mise à jour éditoriale. Ainsi, il est possible de reconstituer
l’évolution des pages web au fur et à mesure de leur mise à jour, mais aussi de
reproduire l’expérience de navigation au sein des anciennes versions du site.
Le rythme des collectes est adapté à la taille et à la fréquence de rafraichissement
des sites. Un « gros » site sera collecté plus profondément - jusqu’à 6 clics de la
page d’accueil - et à des fréquences rapprochées - tandis qu’un site dont la taille
est moindre et la fréquence de mise à jour plus espacée sera « visité » moins
fréquemment par les robots.
Des robots spécialisés sont également développés pour la collecte d’une dizaine de
plateformes de publication de vidéos en ligne, telles Dailymotion ou Youtube, ainsi
que pour la captation de radios en streaming.
Collecte et actualité
Depuis février 2014, l’Ina collecte également des tweets à partir d’une sélection de 11 000
comptes publics d’utilisateurs et de 400 hashtags (#) liés à l’audiovisuel.
Pour archiver des sujets d’actualité qui sont soit en lien avec un événement important,
soit orientés par l’actualité et suscitant un « buzz fort » sur le web et les réseaux sociaux,
l’Ina a étendu ses collectes aux flux Twitter en
développant des outils et des méthodes spécifiques.
Ce fut notamment le cas lors de l’attentat perpétré
dans les locaux de Charlie Hebdo (dès le 9 janvier
2015) et ceux survenus le 13 novembre 2015 à
Paris (pour ces derniers, la collecte a commencé
le soir même des attentats). L’Ina a ainsi récolté
plusieurs dizaines de millions de tweets au cours
d’une collecte qui continue à ce jour.
Cette collecte d’urgence est actuellement utilisée
par plusieurs équipes de chercheurs dans le cadre
de projets financés par le CNRS (ASAP http://asap.
hypotheses.org, REAT http://reat.hypotheses.org).
La consultation permet une recherche plein texte
dans les différents champs qui composent chaque
tweet, et permet également une approche de fouille
de données (top entités, dashboards, nuages de
mots, extractions, etc.).
interface de recherche, de consultation
et de fouille des tweets archivés
la consultation
Consultation des archives du web
Conformément au cadre imposé par la loi, le dépôt légal du web est aujourd’hui accessible dans 27 centres de
consultation Ina THEQUE répartis sur l’ensemble du territoire.
Toute personne souhaitant mener des recherches à partir des fonds conservés par l’Ina - chercheur, étudiant,
enseignant ou professionnel - y est accueillie.
La navigation au sein de l’archive se fait comme la consultation du web en ligne. La différence essentielle
réside dans la possibilité de remonter le temps de l’histoire d’un site par le choix d’une ou plusieurs dates de
navigation.
La consultation se fait à partir d’outils spécialement développés, et repose sur une indexation « plein texte »
permettant d’effectuer des recherches dans l’ensemble des pages, les métadonnées de vidéos, et les tweets
archivés.
L’évolution des outils de consultation prend en considération des besoins et attentes formulés par la
communauté des chercheurs lors de séances d’ateliers ou de « labs ».
exemple de navigation dans un site de l’archive :
la page d’accueil du site de TF1 le 17 octobre 2012
les sites de consultation
Les fonds issus du dépôt légal du web média sont accessibles dans les centres de
consultation de l’Ina THEQUE :
➢ salle de lecture audiovisuelle à la BnF
➢ 5 centres Ina en régions :
Ina Atlantique
Ina Nord
Ina Grand-Est
Ina Centre-Est
Ina Méditerranée
➢ 21 points d’accès à des postes de Consultation Multimédia autonomes sont installés dans les
bibliothèques, médiathèques et cinémathèques municipales à vocation régionale.
EN CHIFFRES (novembre 2016)
52.3 milliards de ressources Web
conservées
389 millions de tweets captés
Taille : 3.95 Po
Contact : [email protected]