LE DÉPôT LÉGAL DU WEB à L
Transcription
LE DÉPôT LÉGAL DU WEB à L
Le dépôt légal du web à l’Ina L’Ina s’est vu confier par la loi du 20 juin 1992 le dépôt légal de l’ensemble des chaînes de radio et de télévision. Depuis la loi DAVDSI (Droit d’auteur et droits voisins dans la société de l’information) du 1er août 2006 et son décret d’application de décembre 2011, l’Institut national de l’audiovisuel a vu sa mission s’élargir à la collecte et mise en consultation des informations publiées en ligne, pour tous les sites et contenus relevant de la communication audiovisuelle. Ces collections constituées au titre du dépôt légal construisent le patrimoine culturel des générations futures et s’adressent aux chercheurs, étudiants ou enseignants de toutes disciplines ainsi qu’aux professionnels qui mènent des travaux de recherche. Une mission partagée entre l’Ina et la BnF Cette mission de dépôt légal est partagée entre l’Ina, pour les sites et contenus relevant de la communication audiovisuelle, et la BnF, pour le reste du web français. L’Ina et la BnF sont membres de l’IIPC (International Internet Preservation Consortium), un consortium mondial qui rassemble les institutions et entreprises en charge de l’archivage du web. Le partage et l’échange autour de bonnes pratiques et développements technologiques y nourrissent des projets communs et collaboratifs. la collecte Contenus collectés L’Ina, dans la continuité de ses collections audiovisuelles, collecte, au titre du dépôt légal de l’internet, plus de 14 000 sites web captés 24h/24, plusieurs fois par jour. 18 000 comptes de réseaux sociaux publiant des vidéos sont suivis et collectés en continu, ainsi que 400 flux de réseaux sociaux en lien avec des programmes, personnalités de l’audiovisuel ou événements exceptionnels. Comptes et « mots dièse » (hashtags) de Twitter, vidéos issues des plateformes d’hébergements et de partage construisent des archives « augmentées » pour l’étude et l’analyse. Modes de collecte L’Ina développe et met en œuvre des robots de collecte (crawlers) spécialement adaptés aux besoins de l’archive : ce sont des logiciels qui enregistrent toutes les ressources (pages, images) présentes sur un site Web. L’Ina procède à des collectes régulières de ces sites, selon des fréquences qui suivent au plus près celle de leur mise à jour éditoriale. Ainsi, il est possible de reconstituer l’évolution des pages web au fur et à mesure de leur mise à jour, mais aussi de reproduire l’expérience de navigation au sein des anciennes versions du site. Le rythme des collectes est adapté à la taille et à la fréquence de rafraichissement des sites. Un « gros » site sera collecté plus profondément - jusqu’à 6 clics de la page d’accueil - et à des fréquences rapprochées - tandis qu’un site dont la taille est moindre et la fréquence de mise à jour plus espacée sera « visité » moins fréquemment par les robots. Des robots spécialisés sont également développés pour la collecte d’une dizaine de plateformes de publication de vidéos en ligne, telles Dailymotion ou Youtube, ainsi que pour la captation de radios en streaming. Collecte et actualité Depuis février 2014, l’Ina collecte également des tweets à partir d’une sélection de 11 000 comptes publics d’utilisateurs et de 400 hashtags (#) liés à l’audiovisuel. Pour archiver des sujets d’actualité qui sont soit en lien avec un événement important, soit orientés par l’actualité et suscitant un « buzz fort » sur le web et les réseaux sociaux, l’Ina a étendu ses collectes aux flux Twitter en développant des outils et des méthodes spécifiques. Ce fut notamment le cas lors de l’attentat perpétré dans les locaux de Charlie Hebdo (dès le 9 janvier 2015) et ceux survenus le 13 novembre 2015 à Paris (pour ces derniers, la collecte a commencé le soir même des attentats). L’Ina a ainsi récolté plusieurs dizaines de millions de tweets au cours d’une collecte qui continue à ce jour. Cette collecte d’urgence est actuellement utilisée par plusieurs équipes de chercheurs dans le cadre de projets financés par le CNRS (ASAP http://asap. hypotheses.org, REAT http://reat.hypotheses.org). La consultation permet une recherche plein texte dans les différents champs qui composent chaque tweet, et permet également une approche de fouille de données (top entités, dashboards, nuages de mots, extractions, etc.). interface de recherche, de consultation et de fouille des tweets archivés la consultation Consultation des archives du web Conformément au cadre imposé par la loi, le dépôt légal du web est aujourd’hui accessible dans 27 centres de consultation Ina THEQUE répartis sur l’ensemble du territoire. Toute personne souhaitant mener des recherches à partir des fonds conservés par l’Ina - chercheur, étudiant, enseignant ou professionnel - y est accueillie. La navigation au sein de l’archive se fait comme la consultation du web en ligne. La différence essentielle réside dans la possibilité de remonter le temps de l’histoire d’un site par le choix d’une ou plusieurs dates de navigation. La consultation se fait à partir d’outils spécialement développés, et repose sur une indexation « plein texte » permettant d’effectuer des recherches dans l’ensemble des pages, les métadonnées de vidéos, et les tweets archivés. L’évolution des outils de consultation prend en considération des besoins et attentes formulés par la communauté des chercheurs lors de séances d’ateliers ou de « labs ». exemple de navigation dans un site de l’archive : la page d’accueil du site de TF1 le 17 octobre 2012 les sites de consultation Les fonds issus du dépôt légal du web média sont accessibles dans les centres de consultation de l’Ina THEQUE : ➢ salle de lecture audiovisuelle à la BnF ➢ 5 centres Ina en régions : Ina Atlantique Ina Nord Ina Grand-Est Ina Centre-Est Ina Méditerranée ➢ 21 points d’accès à des postes de Consultation Multimédia autonomes sont installés dans les bibliothèques, médiathèques et cinémathèques municipales à vocation régionale. EN CHIFFRES (novembre 2016) 52.3 milliards de ressources Web conservées 389 millions de tweets captés Taille : 3.95 Po Contact : [email protected]