Détection et validation des formats

Transcription

Détection et validation des formats
Détection et validation des formats
Sommaire
• 1 Détection du format
♦ 1.1 Format PRONOM
♦ 1.2 Détection du format
• 2 Validation du format
♦ 2.1 Validation du format de contenu
• 3 Formats acceptés
Détection du format
Maarch RM intègre un mécanisme de détermination du le format du contenu de données reçu dans les paquets d'information versé.
Il reçoit le contenu ou un chemin vers le fichier et applique une stratégie de détection du format basée sur les signatures externes et internes du fichier.
Les signatures externes consistent principalement en l'extension du fichier, qui ne fournit que peu d'information et est un pis-aller. Les signatures
internes utilisent des séquences d'octets du contenu binaire et tentent de les faire correspondre à une base de données.
Le composant utilise deux bases de données de signatures internes distinctes :
• La base de données de MIME Magic (magic database) : ce composant fourni avec PHP permet de déterminer le type MIME du fichier. Là
encore, le référentiel ne fournit que des informations imprécises sur l'encodage, même si le type MIME s'avère nécessaire pour les échanges
en protocole http.
• La base de signatures du logiciel DROID utilise le référentiel PRONOM : Les signatures permettent de déterminer selon quel format du
référentiel le contenu est encodé, et les informations associées sont suffisamment précises pour permettre la gestion de la pérennisation.
Pour la détection du type MIME, le composant utilise la classe standard PHP fileinfo. Elle compare des séquences du contenu avec une base de
données mimemagic configurable dans le fichier de configuration de PHP.
Format PRONOM
Pour la détection du format PRONOM, le composant implémente un algorithme de correspondance selon les signatures internes déclarées dans la
base de données du logiciel DROID. Ce logiciel ne doit pas être installé, il est simplement nécessaire de livrer le fichier de signatures disponible sur le
site de l'éditeur, le département Digital Preservation des Archives Nationales du Royaume-Uni, à l'url suivante:
http://apps.nationalarchives.gov.uk/PRONOM
Le tableau ci-dessous décrit les informations contenues dans le référentiel pour chaque format:
Information
Description
ID
Identifiant unique du format dans le référentiel
PUID
Identifiant unique PRONOM utilisé comme référence pour les documents numériques archivés par Maarch RM
Nom
Nom du format
Version
Version du format (facultatif)
Type MIME
Multipurpose Internet Mail Extension, identifiant de format largement utilisé dans les technologies internet (facultatif)
Extension
Extensions possibles pour les fichiers utilisant le format (facultatif)
Signature interne Identifiant des signatures internes au format de fichier qui permettent sa détermination par une analyse du contenu
Priorité sur format Identifiant des formats sur lesquels le format aura la priorité lors de la détermination du format de contenu (facultatif)
Le référentiel des formats PRONOM est livré sous la forme d'un fichier XML dans la dépendance de gestion du système de fichiers. Le référentiel est
périodiquement augmenté et mis à jour par des contributions ou le département Digital Preservation des Archives Nationales du Royaume-Uni. Il est
librement téléchargeable sur le site officiel et peut ainsi être mis à jour dans l'application.
Le composant reçoit un contenu ou un nom de fichier et renvoie en retour les informations sur le format détecté.
Détection du format
Au versement, une option du niveau de service permet d'activer la détection du format par le système lors de l'étape de contrôle de conformité du
paquet versé.
Ceci est obligatoire si le service producteur ou versant est un tiers et que le contenu versé ne provient pas d'une source fiable quant au format spécifié
dans les échanges. C'est optionnel dans le cas où le service versant appartient au même organisme que l'opérateur du système et que les moyens de
production des contenus numériques versés sont maîtrisés par l'organisme producteur et/ou opérateur du système.
Maarch RM effectue une comparaison des signatures du registre PRONOM avec le contenu d'information reçu, et doit alors déterminer un PUID
associé au contenu.
Le versement est considéré comme non conforme si la détection de format échoue ou si le format détecté par le système d'archivage est
différent du format spécifié dans le bordereau d'échange.
Validation du format
Maarch RM intègre un second composant qui permet de valider la conformité du format de contenu par rapport aux spécifications de celui-ci. Il utilise un
composant tiers nommé JHOVE, pour JSTOR/Harvard Object Validation Environment.
Ce composant permet la validation selon des typologies de format grâce à des modules dédiés :
Module
Formats validés
AIFF
Audio Interchange File Format : AIFF 1.3 [AIFF] AIFF-C [AIFF-C]
ASCII
Texte encodé en ASCII
BYTESTREAM Flux binaires arbitraires (toujours valides)
Graphics Exchange Format:
GIF
GIF 87a [GIF87a] GIF 89a [GIF89a]
Hypertext Markup Language :
HTML
HTML 3.2 [HTML 3.2] HTML 4.0 [HTML 4.0] HTML 4.01 [HTML 4.01] XHTML 1.0 and 1.1 [XHTML]
Joint Photographic Experts Group (JPEG) raster images
JPEG
JPEG (ISO/IEC 10918-1:1994) [JPEG] JPEG File Interchange Format (JFIF) 1.2 [JFIF] Exif 2.0, 2.1 (JEIDA-49-1998), and 2.2 (JEITA
CP-3451) [Exif 2.1, Exif 2.2] Still Picture Interchange File Format (SPIFF, ISO/IEC 10918-3:1997) [SPIFF] JPEG Tiled Image Pyramid
(JTIP, ISO/IEC 10918-3:1997) [JTIP] JPEG-LS (ISO/IEC 14495) [JPEG-LS]
JP2 profile (ISO/IEC 15444-1:2000 / ITU-T Rec. T.800 (2000)) [JP2, ITU-T T.800]
JPEG2000
JPX profile (ISO/IEC 15444-2:2004) [JPX]
Page Description Format (PDF)
PDF
TIFF
UTF8
WAVE
PDF 1.0 à 1.6 [PDF] Pre-press data exchange PDF/X-1 (ISO 15930-1:2001) [PDF/X-1] PDF/X-1a (ISO 15930-4:2003) [PDF/X-1a]
PDF/X-2 (ISO 15390-5:2003) [PDF/X-2] PDF/X-3 (ISO 15930-6:2003) [PDF/X-3] Tagged PDF [PDF] Linearized PDF [PDF] PDF/A-1
(ISO/DIS 19005-1) [PDF/A]
Tagged Image File Format (TIFF) raster images
TIFF 4.0, 5.0, and 6.0 [TIFF 4.0, TIFF 5.0, TIFF 6.0] Baseline 6.0 Class B, G, P, and R [TIFF 6.0] Extension Class Y [TIFF 6.0] TIFF/IT
(ISO 12639:2003) [TIFF/IT] File types CT, LW, HC, MP, BP, BL, and FP, and conformance levels P1 and P2 TIFF/EP (ISO
12234-2:2001) [TIFF/EP] Exif 2.0, 2.1 (JEIDA-49-1998), and 2.2 (JEITA CP-3451) [Exif 2.1, Exif 2.2] GeoTIFF 1.0 [GeoTIFF] TIFF-FX
(RFC 2301) [TIFF-FX] Profiles C, F, J, L, M, and S Class F (RFC 2306) [Class F, RFC 2306] RFC 1314 [RFC 1314] DNG (Adobe
Digital Negative) [DNG]
Texte encode en UTF-8
Audio for Windows
PCMWAVEFORMAT [PCMWAVEFORMAT] WAVEFORMATEX [WAVEFORMATEX] WAVEFORMATEXTENSION
[WAVEFORMATEXTENSION] Broadcast Wave Format (EBU N22-1997) version 0 and 1 [BWF]
Extensible Markup Language
XML
XML 1.0
Le système fournit au logiciel un nom de fichier ou une liste de noms de fichiers ainsi que le module à utiliser pour la validation. En retour, le composant
indique la validité du contenu par rapport aux spécifications et le cas échéant une ou plusieurs erreurs explicitant l'invalidité du contenu. Le logiciel
utilise les technologies et le langage Java, et nécessite l'installation d'un environnement d'exécution Java sur le système.
Validation du format de contenu
Au versement, une option du niveau de service permet d'activer la validation du format par le système lors de l'étape de contrôle de conformité du
paquet versé.
Ceci est obligatoire si le service producteur ou versant est un tiers et que le contenu versé ne provient pas d'une source fiable quant au format spécifié
dans les échanges. C'est optionnel dans le cas où le service versant appartient au même organisme que l'opérateur du système et que les moyens de
production des contenus numériques versés sont maîtrisés par l'organisme producteur et/ou opérateur du système.
Maarch RM effectue une demande au module JHOVE sur le contenu d'information reçu, et reçoit en retour l'information de conformité et de validité du
contenu par rapport au format annoncé.
Le versement est considéré comme non conforme si la validation de format échoue ou si le format est vu comme mal formé ou non conforme
par le système d'archivage.
Formats acceptés
La liste des formats acceptés pour le dépôt n'est pas fixées par le système d'archivage Maarch RM. elle est définie dans l'accord de versement entre le
service d'archives, le service versant et les services producteurs.
On utilise le référentiel interne PRONOM pour identifier les formats acceptés. Certains des formats peuvent ne pas être pérenne, dans ce cas il sera
nécessaire d'appliquer une stratégie de migration de format, soit au versement, soit planifiée.
Le versement est considéré comme non conforme si le format n'est pas dans la liste de ceux acceptés dans l'accord de versement liant le
service d'archives et les acteurs déposants.