Sauvegarde d`informations : L`archivage pérenne, un
Transcription
Sauvegarde d`informations : L`archivage pérenne, un
Solutions SAUVEGARD E D ’ I N F O R M A T I O N S L’archivage pérenne, un formidable enjeu industriel Veiller à la pérennité des données numériques est un souci récent de l’entreprise. Aucune confiance aveugle n’est à accorder aux supports de données quels qu’ils soient. Les disques durs sont spécialement fragiles en phase de jeunesse. Les formats physiques meurent ou évoluent. Et il en va de même des formats de fichier. D’énormes dispersions sont constatées dans les caractéristiques des supports optiques, à l’intérieur d’une technologie, d’une marque, d’une série… I Cines l faut que tout change pour que rien ne change ». La fameuse réplique du film Le Guépard s’applique merveilleusement à la conservation des données sur une très longue durée, voire au moins sur plusieurs décennies. L’archivage pérenne est nécessairement un processus actif et évolutif. Car transmettre une information à travers le temps suppose qu’elle soit disponible à toute personne du futur qui la consultera sur un support du futur, lisible et intelligible. Le “long terme” en informatique signifie “suffisamment long pour être soumis à l’impact des évolutions technologiques”. L’archivage pérenne des données implique donc des coûts d’exploitation, et aussi des réinvestissements sur toute la durée de leur conservation pour contrer l’obsolescence technologique. Là, il ne s’agit plus de faire confiance à des supports mobiles supposés inaltérables mais de garantir, avec un taux de certitude de 1 - ε leur caractère opérationnel à tout instant. C’est bien évidemment tenir compte de l’obsoles- Système d’archivage sur Serveur Sun (modèle X4150 + 7 baies de stockage SUN Storagetek ST6140-4G) constituant la plate-forme PAC v2.0 du Cines de 40 To (extensible à 150 To). MESURES 818 - OCTOBRE 2009 - www.mesures.com cence prévisible des techniques, mais aussi de la disparition d’acteurs industriels, ou encore d’évolutions de marché qui bouleverseraient l’équation coût/performance des supports d’inscription. C’est aussi mettre des données à disposition de personnes “virtuelles” que l’on ne côtoie pas professionnellement, acteurs d’un métier qui n’existe peut-être pas encore… Qui ne seront peut-être pas nées lorsque nous n’y serons déjà plus ! Sans aller si loin, l’entreprise est un être vivant où les hommes bougent et les services se fondent, se scindent et se restructurent, où la mémoire ne peut reposer entièrement sur un échange humain. Aussi, les informaticiens mettent-ils l’accent, en matière d’archivage pérenne, sur les notions de contexte et de métadonnées, par exemple dans le modèle OAIS (voir schéma p. 37). Quelles sont ces données archivées ? L’essentiel Pourquoi sont-elles importantes ? Qui en Les 7 clés de l’archivage pérenne est l’auteur ? Dans Une durée de sauvegarde quelle circonstance ? de plusieurs décennies. etc. Et pour un ingé Un taux d’altération nul, nieur, c’est une obligaou du moins prévisible. tion morale, pour lui, de renseigner ces in- La robustesse aux obsolescences technologiques. formations qui, à l’instant où il les renseigne, La multilocalisation des données. tombent sous le sens. On l’a compris, l’ar- La lisibilité durable chivage pérenne n’est des formats de fichiers. pas une nécropole de L’importance accordée données conservées au contexte de la donnée pour mémoire. Mais archivée. un thésaurus de docu- Le caractère “temps réel” ments vivants, auquel du stockage et l’accès doit être fiable de la récupération. et rapide. C’est ➜ 35 Solutions Solutions Consultative Committee for Space Data Systems Cines 3D, auront certainement avantage à sauvegarder après transcription dans un format neutre (IGES, STEP…). Quoique ce transcodage implique nécessairement une perte d’informations. Pour être honnête, certains grands acteurs, comme EDF, reconnaissent qu’ils continuent de pratiquer l’archivage papier ! HP L’archivage pérenne Le Centre informatique national de l’enseignement supérieur est l’un des 1 000 établissements de recherche relié au réseau Renater (10 Gbits/s). ➜ évident pour des plans de centrales nucléaires, en prévision d’actions de maintenance. Cela l’est tout autant des documents liés à des équipements militaires, opérationnels sur des périodes longues. Songer que la conception du Rafale (Dassault Aviation), qui fait l’actualité, remonte à un quart de siècle. Dans la philosophie PLM (pour Product LifeCycle Management), les données de conception sont indispensables aussi au processus de démantèlement, de recyclage… Deux technologies fiables, mais coûteuses 36 La technologie magnéto-optique que HP garantit jusqu’à cent ans et optée par Renault, entre autres, pour la sauvegarde de ses essais de choc. L’avantage principal de cette technologie est qu’elle est théoriquement insensible aux perturbations électromagnétiques, du fait qu’il est nécessaire de chauffer le support afin de pouvoir en modifier la polarité. La gravure sur verre trempé (plutôt que sur polycarbonate dont sont constitués les disques optiques ordinaires). Mitsubishi en est le leader. Le réflecteur qui le recouvre est lui-même de haute résistance. Compatibles aux formats CD-R et DVD-R. Et il en va de même dans l’automobile. En juin 2008, l’Exera (Association des exploitants d’équipements de mesure, de régulation et d’automatisme) organisait une journée dédiée à l’archivage pérenne. Jean-Marc Jousselin, ingénieur en moyen d’essais chez Renault, y exposait la solution mise en œuvre en 2006 par le constructeur pour archiver, trente ans au moins, les données de choc de ses véhicules. Une “science” neuve D’emblée, il faut préciser que les retours d’expérience en archivage numérique sur le très long terme sont quasi inexistants aujourd’hui. C’est une “science” neuve, entachée d’une part d’inconnu. Elle existe du fait des institutions. Des organismes, par exemple, veillent à la conservation des œuvres vidéos, comme l’Institut national de l’audiovisuel. Les centres de recherche, parce qu’ils travaillent en symbiose avec des ingénieurs-chercheurs en informatique, peuvent gérer de volumineuses bases de données (génétique, astronomie…) et d’importants flux de calculs. Le secteur médical est aussi concerné puisqu’il impose l’archivage des dossiers patient sur 30 ans. En revanche, peu de PME mesurent l’enjeu. Elles seront cependant tenues d’y venir, par simple obligation vis-à-vis de leurs clients. Elles auront à apprendre des groupements, comme le PIN (Pérennisation de l’information numérique) qui rassemble des organismes comme le CNES, la BNF, les Archives de France, le CEA… Le PIN tient des réunions trimestrielles et diffuse largement l’expérience acquise. Ne serait-ce que pour sauvegarder la messagerie L’Integrated Archive Platform (IAP) est le système d’archive longue durée de HP, pour des documents structurés ou non structurés, hautement sécurisé. Basé sur une architecture Grid (distribuée), il est aisément configurable et extensible en fonction de l’évolution des besoins. électronique qui absorbe entre 70 et 90 % de la correspondance d’affaires. Une étude d’Osterman Research, réalisée pour le compte d’HP, montre que le volume d’e-mails à conserver augmente de 31 % par an. A l’échelle de plusieurs décennies, les technologies de stockage offrent un caractère dramatiquement éphémère. Combien de machines lisent aujourd’hui des disquettes 3”½ ! Jacques Perdereau, coordinateur de la R & D sur les produits multimédias au Laboratoire national de métrologie et d’essais (LNE) nuance : « Paradoxalement, ce sont les supports grand public, CD-R et autres DVD-R les moins sujets à obsolescence. Mais ce sont aussi les moins fiables ! » Obsolescence des technologies, mais aussi vieillissement des machines. Les têtes de lecteurs à bande se dérèglent… Les formats physiques meurent ou évoluent. Et il en va de même des formats de fichier. La réponse tient à la méthodologie qui consiste à n’archiver que dans un petit nombre de formats, strictement définis par des normes internationales, ou dans des formats propriétaires de grande notoriété, donnant la quasiassurance d’une compatibilité ascendante. Quitte, bien sûr, à transcoder puis retranscoder ces fichiers au cours du temps. Ainsi, le Centre informatique national de l’enseignement supérieur (Cines), dont l’une des missions est d’archiver thèses et résultats de calcul de l’ensemble des établissements d’enseignement supérieur en France, se limite à une petite vingtaine de formats (texte, texte mis en forme, images, son, vidéo, Internet) publiés, largement diffusés et de préférence normalisés. Les métiers de l’ingénierie, qui produisent de grandes quantités de modèle MESURES 818 - OCTOBRE 2009 - www.mesures.com L’offre en matière de solution d’archivage pérenne commence à s’étoffer. Elle est bien sûr le fait des constructeurs (IBM, HP, Sun, Hitachi…), mais aussi d’acteurs récents, très spécialisés, de taille modeste mais rivalisant avec les premiers sur les appels d’offres. Certains centres de calcul comme le Cines de Montpellier ont même développé des solutions “maison” qui font autorité, en l’occurrence, le système PAC. Pour certains, comme ce dernier, ils obéissent aux normes naissantes, comme OAIS (pour Open Archival Information System - ISO 14721) édicté par le Consultative Committee for Space Data Systems, composé d’une dizaine d’agences spatiales internationales. Et enfin, pourquoi ne pas confier ses archives numériques, surtout lorsque l’on est une petite société, à des “coffres-forts électroniques” en ligne. Beaucoup de prestataires, du plus anecdotiques à la Banque Postale, offrent déjà de très bonnes garanties de pérennité et de confidentialité à petit prix. Aujourd’hui, pour de faibles volumes de données, surtout comptables et administratives. Demain, un Google pourrait fort bien étendre son service gratuit “Google Documents” à une prestation d’archivage on-line auprès des entreprises. De même que les Data Centers, ou centres de traitement de donnée, véritables “Fort Knox” de l’information plutôt dédiés aux systèmes transactionnels des banques et grands comptes, pourraient offrir à des entreprises plus modestes une prestation d’archivage pérenne. Le marché est en train Le modèle OAIS (ISO 14721, pour Open Archival Information System) est une des grandes références internationales pour la gestion, l’archivage et la préservation à long terme de documents numériques. Il orchestre trois serveurs (versement, stockages et accès) pouvant être virtualisés sur la même machine, mais aussi dupliqués ou délocalisés pour chacun d’eux. de se mettre en place. Tous les systèmes d’archivage pérennes concordent sur quelques fondamentaux bien compréhensibles comme l’usage le plus orthodoxe possible des standards (Unix, par exemple), le caractère extensible, substituable et évolutif du matériel, la redondance, le pouvoir de localiser en plusieurs lieux physiques tout ou partie du serveur.Tous mettent en œuvre une technologie RAID (pour Redundant Array of Independent Disks, ou matrice redondante de disques indépendants), au moins de niveau RAID 5, mais augmentée d’une surcouche logicielle chargée d’un contrôle étroit du fonctionnement de chaque disque, d’alarmes, d’actions automatisées… Fait très significatif, les enquêtes mondiales, indépendantes et approfondies pour vérifier Estimation de la durée de vie des supports d’archivage Données fabricants Données études CD 100/300 ans 1 à > 15 ans DVD 50 ans 1 à > 5 ans Bandes magnétiques 10 à 30 ans 1 à > 5 ans Disques durs 5 à 100 ans 0,25 à 7 ans Sur l’ensemble des supports d’archivage, les “garanties” fournisseurs, confrontées aux campagnes de test du LNE, apparaissent des plus optimistes… MESURES 818 - OCTOBRE 2009 - www.mesures.com les promesses des constructeurs quant à la tenue au temps de leurs supports de stockage sont étonnamment récentes. Le problème semble né d’hier. Ainsi, Google, qui fait autorité, puisqu’il détient le plus grand parc de serveurs informatiques au monde, a-t-il livré en 2007 une étude qui fait date sur la fiabilité des disques durs en conditions réelles, s’appuyant sur l’observation de ses quelque 450 000 serveurs… Olivier Rouchon, l’un des architectes de la plate-forme de sauvegarde pérenne du Cines, tire deux enseignements de cette enquête : « Au premier incident de lecture/écriture, on peut s’attendre à une cascade de problèmes. Et les disques durs sont spécialement fragiles en phase de jeunesse. Leur taux de panne à trois mois est le double de leur taux de panne à un an. » D’autres résultats invalident des idées reçues. Ainsi la température de fonctionnement, si elle reste raisonnable (l’optimum étant 40 °C), influence peu le taux de panne. Le niveau d’activité du disque agit aussi très peu sur le taux de panne. En effet, en même temps que le disque se fatigue, il se rode, à la façon d’une bonne 2 CV… En 2007 parallèlement, le travail de deux chercheurs du département des sciences informatiques de l’université de Carnegie Mellon recoupe ces résultats. Pour résumer de façon lapidaire : « Un disque dur est à surveiller comme lait qui bout avant un an, et à jeter après 5 ans ». Conclusion d’Olivier Rouchon : « Au prix d’un contrôle de performance en temps réel et d’une ➜ 37 Solutions Digital Storage est un constructeur-intégrateur français, fondé en 1997 à Courtabœuf (91) sur le seul métier du stockage numérique. La solution Active NAS, qui a deux ans, est dédiée à l’archivage de très longue durée. Elle est le fruit d’une alliance avec le Français, Active Circle à Jouy-enJosas (78), auteur de la suite logicielle qui sécurise le stockage et l’accès aux données. La capacité de base est de 10 téraoctets, extensible à l’infini, entièrement sur disques durs. Du composant au sous-système, tout ou presque est substituable/upgradable “à chaud”, sans discontinuité de service. Les deux châssis “qui s’observent” peuvent être sur des lieux distincts. Le marché leader de l’OEM est l’audiovisuel. Autre marché porteur, celui des communautés urbaines. Et bien sûr le domaine scientifique. Ainsi, Digital Storage équipe le Cyclotron, l’Observatoire de Meudon, ou le Centre de biologie du développement (CTB), l’université Paul Sabatier à Toulouse. Sur ce dernier site, ce sont toutes les données de recherche (embryogenèse, oncogenèse, mécanismes de l’expression différentielle des génomes…) qui sont stockées en redondance sur les deux cellules de 6 téraoctets chacune. La possibilité de maintenance distante, pointue sur ce type de machines, a fortement orienté le choix des chercheurs. ➜ bonne supervision des pannes, on peut se porter garant d’une grande fiabilité de la sauvegarde sur disques durs ». De fait, la plupart des systèmes proposés en archivage pérenne mettent à profit le stockage magnétique, éventuellement répliqué sur bande. D’autant qu’une Taux de panne Une solution française pour l’archivage Panne de jeunesse Vie utile vers 5-7 ans vers 1 an Temps opérationnel du disque loi imparable joue en sa faveur : à coût constant, la capacité des disques durs double tous les dix-huit mois. De quoi faire face à l’inflation des volumes, permettre des redondances accrues. Et ne pas trop se soucier du coût de renouvellement du support. Le choix des supports En ce qui concerne les supports optiques, CD-R, DVD-R et Blu-ray, les résultats des campagnes d’évaluation sont proprement catastrophiques. Et encore, le recul n’est suffisant que pour les CD enregistrables ou réinscriptibles. On évoque ici les disques gravés par laser, et non les disques en grande série du commerce (logiciels, loisirs), obtenus par pressage, et dont la survie dépend du soin qu’on leur apporte. On peut citer l’extrait d’une lettre de la directrice des Archives de France en date du 12 mars 2009 : Compatibilité graveur/DVD L’étude menée par le LNE depuis 2004 sur les supports optiques fait apparaître une très grande dispersion des disques en termes de fiabilité. Et aussi, des couples graveur/DVD d’une compatibilité désastreuse. 38 Pannes de vieillissement Université de Carnegie Mellon (Pennsylvanie) Le cycle de vie d’un disque dur LNE (Laboratoire national de métrologie et d’essais) « Des études du Laboratoire d’acoustique musical (LAM) ainsi que du Laboratoire national de métrologie et d’essais (LNE), menées en particulier pour la direction des Archives de France et pour le ministère de l’Industrie, ont mis en évidence des dégradations importantes de certains CD-R et ceci sur des courtes périodes de stockage ». De fait, Jacques Perdereau (LNE) relate : « Lors de cette campagne d’essai, sur une collection de CD-R gravés entre 2000 et 2003, 15 % étaient altérés à la lecture, et 7 à 8 % totalement illisibles. Nous avons constaté d’énormes dispersions dans les caractéristiques des supports optiques, à l’intérieur d’une technologie, d’une marque, d’une série… Certains DVD n’ont “tenu” que trois mois après gravure. Lors d’expériences de vieillissement accéléré sur des DVD, la durée de vie constatée variait de 1 à 40… Dans le même temps, des CD gravés par l’INA en 1994 sont en excellent état. » Jacques Perdereau délivre cependant des consignes utiles. « Il faut veiller à utiliser les couples “graveur/disque” les mieux adaptés. (voir tableau ci-contre). Ne pas “pousser” à la plus grande vitesse de gravure : Vmax/2 est le bon compromis. En matière de conservation, entreposer les disques dans leur coffret, posés sur tranche, à l’abri de la lumière, dans une ambiance ni trop chaude ni trop humide. Il faut disposer de disques “témoin” dans une collection, qu’il convient de relire régulièrement, il faut dupliquer et répliquer ses archives ». Les constructeurs japonais de supports de disques promeuvent un label d’une durée de vie garantie d’au moins 50 ans. Des initiatives nationales, comme le GIS-DON français, tendent à améliorer la connaissance de ces supports. Nous pensions un peu vite que “le bug de l’an 2000” franchi, nous avait propulsés dans l’ère numérique. Produire des données informatiques sans se préoccuper de leur sauvegarde, c’est comme écrire sur le sable. Thierry Mahé MESURES 818 - OCTOBRE 2009 - www.mesures.com