Sauvegarde d`informations : L`archivage pérenne, un

Transcription

Sauvegarde d`informations : L`archivage pérenne, un
Solutions
SAUVEGARD E D ’ I N F O R M A T I O N S
L’archivage pérenne,
un formidable
enjeu industriel

Veiller à la pérennité des données numériques est un souci récent de l’entreprise.
Aucune confiance aveugle n’est à accorder aux supports de données quels qu’ils
soient. Les disques durs sont spécialement fragiles en phase de jeunesse. Les
formats physiques meurent ou évoluent. Et il en va de même des formats de fichier.
D’énormes dispersions sont constatées dans les caractéristiques des supports
optiques, à l’intérieur d’une technologie, d’une marque, d’une série…
I
Cines
l faut que tout change pour que rien ne
change ». La fameuse réplique du film
Le Guépard s’applique merveilleusement
à la conservation des données sur une
très longue durée, voire au moins sur
plusieurs décennies. L’archivage pérenne est
nécessairement un processus actif et évolutif.
Car transmettre une information à travers le
temps suppose qu’elle soit disponible à toute
personne du futur qui la consultera sur un
support du futur, lisible et intelligible. Le
“long terme” en informatique signifie “suffisamment long pour être soumis à l’impact
des évolutions technologiques”. L’archivage
pérenne des données implique donc des coûts
d’exploitation, et aussi des
réinvestissements sur toute
la durée de leur conservation pour contrer l’obsolescence technologique.
Là, il ne s’agit plus de faire
confiance à des supports
mobiles supposés inaltérables mais de garantir, avec
un taux de certitude de
1 - ε leur caractère opérationnel à tout instant.
C’est bien évidemment
tenir compte de l’obsoles-
Système d’archivage sur
Serveur Sun (modèle X4150
+ 7 baies de stockage
SUN Storagetek ST6140-4G)
constituant la plate-forme
PAC v2.0 du Cines de 40 To
(extensible à 150 To).
MESURES 818 - OCTOBRE 2009 - www.mesures.com
cence prévisible des techniques, mais aussi
de la disparition d’acteurs industriels, ou
encore d’évolutions de marché qui bouleverseraient l’équation coût/performance des
supports d’inscription.
C’est aussi mettre des données à disposition
de personnes “virtuelles” que l’on ne côtoie
pas professionnellement, acteurs d’un métier
qui n’existe peut-être pas encore… Qui ne
seront peut-être pas nées lorsque nous n’y
serons déjà plus ! Sans aller si loin, l’entreprise est un être vivant où les hommes
bougent et les services se fondent, se scindent
et se restructurent, où la mémoire ne peut
reposer entièrement sur un échange humain.
Aussi, les informaticiens mettent-ils l’accent,
en matière d’archivage pérenne, sur les notions de contexte et de métadonnées, par
exemple dans le modèle OAIS (voir schéma
p. 37). Quelles sont ces
données archivées ?
L’essentiel
Pourquoi sont-elles
importantes ? Qui en Les 7 clés de l’archivage
pérenne
est l’auteur ? Dans

Une
durée de sauvegarde
quelle circonstance ?
de
plusieurs
décennies.
etc. Et pour un ingé
Un
taux
d’altération
nul,
nieur, c’est une obligaou
du
moins
prévisible.
tion morale, pour lui,
de renseigner ces in-  La robustesse aux obsolescences technologiques.
formations qui, à l’instant où il les renseigne,  La multilocalisation
des données.
tombent sous le sens.
On l’a compris, l’ar-  La lisibilité durable
chivage pérenne n’est
des formats de fichiers.
pas une nécropole de  L’importance accordée
données conservées
au contexte de la donnée
pour mémoire. Mais
archivée.
un thésaurus de docu-  Le caractère “temps réel”
ments vivants, auquel
du stockage et
l’accès doit être fiable
de la récupération.
et rapide. C’est ➜
35
Solutions
Solutions
Consultative Committee for Space Data Systems
Cines
3D, auront certainement avantage à sauvegarder après transcription dans un format
neutre (IGES, STEP…). Quoique ce transcodage implique nécessairement une perte
d’informations. Pour être honnête, certains
grands acteurs, comme EDF, reconnaissent
qu’ils continuent de pratiquer l’archivage
papier !
HP
L’archivage pérenne
Le Centre informatique national
de l’enseignement supérieur
est l’un des 1 000 établissements
de recherche relié au réseau
Renater (10 Gbits/s).
➜ évident pour des plans de centrales
nucléaires, en prévision d’actions de maintenance. Cela l’est tout autant des documents
liés à des équipements militaires, opérationnels sur des périodes longues. Songer que la
conception du Rafale (Dassault Aviation), qui
fait l’actualité, remonte à un quart de siècle.
Dans la philosophie PLM (pour Product
LifeCycle Management), les données de
conception sont indispensables aussi au
processus de démantèlement, de recyclage…
Deux technologies
fiables,
mais coûteuses


36
La technologie magnéto-optique
que HP garantit jusqu’à cent
ans et optée par Renault, entre
autres, pour la sauvegarde
de ses essais de choc. L’avantage
principal de cette technologie
est qu’elle est théoriquement
insensible aux perturbations
électromagnétiques, du fait qu’il
est nécessaire de chauffer
le support afin de pouvoir en
modifier la polarité.
La gravure sur verre trempé
(plutôt que sur polycarbonate
dont sont constitués les disques
optiques ordinaires). Mitsubishi
en est le leader. Le réflecteur
qui le recouvre est lui-même de
haute résistance. Compatibles
aux formats CD-R et DVD-R.
Et il en va de même dans l’automobile. En
juin 2008, l’Exera (Association des exploitants d’équipements de mesure, de régulation et d’automatisme) organisait une journée
dédiée à l’archivage pérenne. Jean-Marc
Jousselin, ingénieur en moyen d’essais chez
Renault, y exposait la solution mise en œuvre
en 2006 par le constructeur pour archiver,
trente ans au moins, les données de choc de
ses véhicules.
Une “science” neuve
D’emblée, il faut préciser que les retours
d’expérience en archivage numérique sur le
très long terme sont quasi inexistants
aujourd’hui. C’est une “science” neuve,
entachée d’une part d’inconnu. Elle existe
du fait des institutions. Des organismes, par
exemple, veillent à la conservation des
œuvres vidéos, comme l’Institut national de
l’audiovisuel. Les centres de recherche, parce
qu’ils travaillent en symbiose avec des ingénieurs-chercheurs en informatique, peuvent
gérer de volumineuses bases de données
(génétique, astronomie…) et d’importants
flux de calculs. Le secteur médical est aussi
concerné puisqu’il impose l’archivage des
dossiers patient sur 30 ans. En revanche, peu
de PME mesurent l’enjeu. Elles seront cependant tenues d’y venir, par simple obligation
vis-à-vis de leurs clients. Elles auront à
apprendre des groupements, comme le PIN
(Pérennisation de l’information numérique)
qui rassemble des organismes comme le
CNES, la BNF, les Archives de France, le CEA…
Le PIN tient des réunions trimestrielles et
diffuse largement l’expérience acquise. Ne
serait-ce que pour sauvegarder la messagerie
L’Integrated Archive Platform (IAP) est le
système d’archive longue durée de HP,
pour des documents structurés ou non
structurés, hautement sécurisé. Basé sur
une architecture Grid (distribuée),
il est aisément configurable et extensible
en fonction de l’évolution des besoins.
électronique qui absorbe entre 70 et 90 %
de la correspondance d’affaires. Une étude
d’Osterman Research, réalisée pour le compte
d’HP, montre que le volume d’e-mails à
conserver augmente de 31 % par an.
A l’échelle de plusieurs décennies, les technologies de stockage offrent un caractère
dramatiquement éphémère. Combien de
machines lisent aujourd’hui des disquettes
3”½ ! Jacques Perdereau, coordinateur de la
R & D sur les produits multimédias au
Laboratoire national de métrologie et d’essais
(LNE) nuance : « Paradoxalement, ce sont les supports grand public, CD-R et autres DVD-R les moins
sujets à obsolescence. Mais ce sont aussi les moins
fiables ! » Obsolescence des technologies,
mais aussi vieillissement des machines. Les
têtes de lecteurs à bande se dérèglent… Les
formats physiques meurent ou évoluent. Et
il en va de même des formats de fichier. La
réponse tient à la méthodologie qui consiste
à n’archiver que dans un petit nombre de
formats, strictement définis par des normes
internationales, ou dans des formats propriétaires de grande notoriété, donnant la quasiassurance d’une compatibilité ascendante.
Quitte, bien sûr, à transcoder puis retranscoder ces fichiers au cours du temps. Ainsi, le
Centre informatique national de l’enseignement supérieur (Cines), dont l’une des missions est d’archiver thèses et résultats de
calcul de l’ensemble des établissements d’enseignement supérieur en France, se limite à
une petite vingtaine de formats (texte, texte
mis en forme, images, son, vidéo, Internet)
publiés, largement diffusés et de préférence
normalisés. Les métiers de l’ingénierie, qui
produisent de grandes quantités de modèle
MESURES 818 - OCTOBRE 2009 - www.mesures.com
L’offre en matière de solution d’archivage
pérenne commence à s’étoffer. Elle est bien
sûr le fait des constructeurs (IBM, HP, Sun,
Hitachi…), mais aussi d’acteurs récents, très
spécialisés, de taille modeste mais rivalisant
avec les premiers sur les appels d’offres.
Certains centres de calcul comme le Cines de
Montpellier ont même développé des
solutions “maison” qui font autorité, en
l’occurrence, le système PAC. Pour certains,
comme ce dernier, ils obéissent aux normes
naissantes, comme OAIS (pour Open Archival
Information System - ISO 14721) édicté par
le Consultative Committee for Space Data Systems,
composé d’une dizaine d’agences spatiales
internationales. Et enfin, pourquoi ne pas
confier ses archives numériques, surtout
lorsque l’on est une petite société, à des
“coffres-forts électroniques” en ligne.
Beaucoup de prestataires, du plus anecdotiques à la Banque Postale, offrent déjà de très
bonnes garanties de pérennité et de confidentialité à petit prix. Aujourd’hui, pour de
faibles volumes de données, surtout comptables et administratives. Demain, un Google
pourrait fort bien étendre son service gratuit
“Google Documents” à une prestation
d’archivage on-line auprès des entreprises.
De même que les Data Centers, ou centres
de traitement de donnée, véritables “Fort
Knox” de l’information plutôt dédiés aux
systèmes transactionnels des banques et
grands comptes, pourraient offrir à des
entreprises plus modestes une prestation
d’archivage pérenne. Le marché est en train
Le modèle OAIS (ISO 14721, pour Open Archival Information System) est une des grandes références internationales pour la gestion,
l’archivage et la préservation à long terme de documents numériques. Il orchestre trois serveurs (versement, stockages et accès)
pouvant être virtualisés sur la même machine, mais aussi dupliqués ou délocalisés pour chacun d’eux.
de se mettre en place. Tous les systèmes
d’archivage pérennes concordent sur
quelques fondamentaux bien compréhensibles comme l’usage le plus orthodoxe
possible des standards (Unix, par exemple),
le caractère extensible, substituable et évolutif
du matériel, la redondance, le pouvoir de
localiser en plusieurs lieux physiques tout
ou partie du serveur.Tous mettent en œuvre
une technologie RAID (pour Redundant
Array of Independent Disks, ou matrice
redondante de disques indépendants), au
moins de niveau RAID 5, mais augmentée
d’une surcouche logicielle chargée d’un
contrôle étroit du fonctionnement de chaque
disque, d’alarmes, d’actions automatisées…
Fait très significatif, les enquêtes mondiales,
indépendantes et approfondies pour vérifier
Estimation de la durée de vie des supports
d’archivage
Données fabricants
Données études
CD
100/300 ans
1 à > 15 ans
DVD
50 ans
1 à > 5 ans
Bandes magnétiques
10 à 30 ans
1 à > 5 ans
Disques durs
5 à 100 ans
0,25 à 7 ans
Sur l’ensemble des supports d’archivage, les “garanties” fournisseurs, confrontées aux campagnes de test du LNE, apparaissent
des plus optimistes…
MESURES 818 - OCTOBRE 2009 - www.mesures.com
les promesses des constructeurs quant à la
tenue au temps de leurs supports de stockage
sont étonnamment récentes. Le problème
semble né d’hier. Ainsi, Google, qui fait autorité, puisqu’il détient le plus grand parc de
serveurs informatiques au monde, a-t-il livré
en 2007 une étude qui fait date sur la fiabilité des disques durs en conditions réelles,
s’appuyant sur l’observation de ses quelque
450 000 serveurs… Olivier Rouchon, l’un
des architectes de la plate-forme de sauvegarde pérenne du Cines, tire deux enseignements de cette enquête : « Au premier incident
de lecture/écriture, on peut s’attendre à une cascade
de problèmes. Et les disques durs sont spécialement
fragiles en phase de jeunesse. Leur taux de panne à
trois mois est le double de leur taux de panne à un
an. » D’autres résultats invalident des idées
reçues. Ainsi la température de fonctionnement, si elle reste raisonnable (l’optimum
étant 40 °C), influence peu le taux de panne.
Le niveau d’activité du disque agit aussi très
peu sur le taux de panne. En effet, en même
temps que le disque se fatigue, il se rode, à
la façon d’une bonne 2 CV… En 2007
parallèlement, le travail de deux chercheurs
du département des sciences informatiques
de l’université de Carnegie Mellon recoupe
ces résultats. Pour résumer de façon lapidaire : « Un disque dur est à surveiller comme lait
qui bout avant un an, et à jeter après 5 ans ».
Conclusion d’Olivier Rouchon : « Au prix d’un
contrôle de performance en temps réel et d’une ➜
37
Solutions
Digital Storage est un constructeur-intégrateur
français, fondé en 1997 à Courtabœuf (91) sur
le seul métier du stockage numérique. La solution
Active NAS, qui a deux ans, est dédiée à l’archivage de très longue durée. Elle est le fruit d’une
alliance avec le Français, Active Circle à Jouy-enJosas (78), auteur de la suite logicielle qui sécurise
le stockage et l’accès aux données. La capacité
de base est de 10 téraoctets, extensible à l’infini,
entièrement sur disques durs. Du composant
au sous-système, tout ou presque est substituable/upgradable “à chaud”, sans discontinuité
de service. Les deux châssis “qui s’observent”
peuvent être sur des lieux distincts. Le marché
leader de l’OEM est l’audiovisuel. Autre marché
porteur, celui des communautés urbaines. Et bien
sûr le domaine scientifique. Ainsi, Digital Storage
équipe le Cyclotron, l’Observatoire de Meudon,
ou le Centre de biologie du développement (CTB),
l’université Paul Sabatier à Toulouse. Sur
ce dernier site, ce sont toutes les données de
recherche (embryogenèse, oncogenèse,
mécanismes de l’expression différentielle des
génomes…) qui sont stockées en redondance
sur les deux cellules de 6 téraoctets chacune.
La possibilité de maintenance distante, pointue
sur ce type de machines, a fortement orienté
le choix des chercheurs.
➜ bonne supervision des pannes, on peut se porter
garant d’une grande fiabilité de la sauvegarde sur
disques durs ». De fait, la plupart des systèmes
proposés en archivage pérenne mettent à
profit le stockage magnétique, éventuellement répliqué sur bande. D’autant qu’une
Taux de panne
Une solution française
pour l’archivage
Panne
de
jeunesse
Vie utile
vers
5-7 ans
vers
1 an
Temps opérationnel du disque
loi imparable joue en sa faveur : à coût constant, la capacité des disques durs double tous
les dix-huit mois. De quoi faire face à l’inflation des volumes, permettre des redondances
accrues. Et ne pas trop se soucier du coût de
renouvellement du support.
Le choix des supports
En ce qui concerne les supports optiques,
CD-R, DVD-R et Blu-ray, les résultats des
campagnes d’évaluation sont proprement
catastrophiques. Et encore, le recul n’est suffisant que pour les CD enregistrables ou
réinscriptibles. On évoque ici les disques
gravés par laser, et non les disques en grande
série du commerce (logiciels, loisirs),
obtenus par pressage, et dont la survie
dépend du soin qu’on leur apporte. On peut
citer l’extrait d’une lettre de la directrice des
Archives de France en date du 12 mars 2009 :
Compatibilité graveur/DVD
L’étude menée par
le LNE depuis 2004
sur les supports optiques
fait apparaître une
très grande dispersion
des disques en termes
de fiabilité. Et aussi,
des couples graveur/DVD
d’une compatibilité
désastreuse.
38
Pannes
de
vieillissement
Université de Carnegie Mellon (Pennsylvanie)
Le cycle de vie d’un disque dur
LNE (Laboratoire national de métrologie et d’essais)
« Des études du Laboratoire d’acoustique musical
(LAM) ainsi que du Laboratoire national de
métrologie et d’essais (LNE), menées en particulier
pour la direction des Archives de France et pour
le ministère de l’Industrie, ont mis en évidence des
dégradations importantes de certains CD-R et ceci
sur des courtes périodes de stockage ». De fait,
Jacques Perdereau (LNE) relate : « Lors de cette
campagne d’essai, sur une collection de CD-R gravés
entre 2000 et 2003, 15 % étaient altérés à la
lecture, et 7 à 8 % totalement illisibles. Nous avons
constaté d’énormes dispersions dans les caractéristiques des supports optiques, à l’intérieur d’une
technologie, d’une marque, d’une série… Certains
DVD n’ont “tenu” que trois mois après gravure. Lors
d’expériences de vieillissement accéléré sur des DVD,
la durée de vie constatée variait de 1 à 40… Dans
le même temps, des CD gravés par l’INA en 1994
sont en excellent état. » Jacques Perdereau délivre cependant des consignes utiles. « Il faut
veiller à utiliser les couples “graveur/disque” les
mieux adaptés. (voir tableau ci-contre). Ne pas
“pousser” à la plus grande vitesse de gravure :
Vmax/2 est le bon compromis. En matière de conservation, entreposer les disques dans leur coffret,
posés sur tranche, à l’abri de la lumière, dans une
ambiance ni trop chaude ni trop humide. Il faut
disposer de disques “témoin” dans une collection,
qu’il convient de relire régulièrement, il faut dupliquer et répliquer ses archives ». Les constructeurs
japonais de supports de disques promeuvent
un label d’une durée de vie garantie d’au
moins 50 ans. Des initiatives nationales,
comme le GIS-DON français, tendent à améliorer la connaissance de ces supports.
Nous pensions un peu vite que “le bug de
l’an 2000” franchi, nous avait propulsés
dans l’ère numérique. Produire des données
informatiques sans se préoccuper de leur
sauvegarde, c’est comme écrire sur le sable.
Thierry Mahé
MESURES 818 - OCTOBRE 2009 - www.mesures.com