Détection et validation des formats
Transcription
Détection et validation des formats
Détection et validation des formats Sommaire • 1 Détection du format ♦ 1.1 Format PRONOM ♦ 1.2 Détection du format • 2 Validation du format ♦ 2.1 Validation du format de contenu • 3 Formats acceptés Détection du format Maarch RM intègre un mécanisme de détermination du le format du contenu de données reçu dans les paquets d'information versé. Il reçoit le contenu ou un chemin vers le fichier et applique une stratégie de détection du format basée sur les signatures externes et internes du fichier. Les signatures externes consistent principalement en l'extension du fichier, qui ne fournit que peu d'information et est un pis-aller. Les signatures internes utilisent des séquences d'octets du contenu binaire et tentent de les faire correspondre à une base de données. Le composant utilise deux bases de données de signatures internes distinctes : • La base de données de MIME Magic (magic database) : ce composant fourni avec PHP permet de déterminer le type MIME du fichier. Là encore, le référentiel ne fournit que des informations imprécises sur l'encodage, même si le type MIME s'avère nécessaire pour les échanges en protocole http. • La base de signatures du logiciel DROID utilise le référentiel PRONOM : Les signatures permettent de déterminer selon quel format du référentiel le contenu est encodé, et les informations associées sont suffisamment précises pour permettre la gestion de la pérennisation. Pour la détection du type MIME, le composant utilise la classe standard PHP fileinfo. Elle compare des séquences du contenu avec une base de données mimemagic configurable dans le fichier de configuration de PHP. Format PRONOM Pour la détection du format PRONOM, le composant implémente un algorithme de correspondance selon les signatures internes déclarées dans la base de données du logiciel DROID. Ce logiciel ne doit pas être installé, il est simplement nécessaire de livrer le fichier de signatures disponible sur le site de l'éditeur, le département Digital Preservation des Archives Nationales du Royaume-Uni, à l'url suivante: http://apps.nationalarchives.gov.uk/PRONOM Le tableau ci-dessous décrit les informations contenues dans le référentiel pour chaque format: Information Description ID Identifiant unique du format dans le référentiel PUID Identifiant unique PRONOM utilisé comme référence pour les documents numériques archivés par Maarch RM Nom Nom du format Version Version du format (facultatif) Type MIME Multipurpose Internet Mail Extension, identifiant de format largement utilisé dans les technologies internet (facultatif) Extension Extensions possibles pour les fichiers utilisant le format (facultatif) Signature interne Identifiant des signatures internes au format de fichier qui permettent sa détermination par une analyse du contenu Priorité sur format Identifiant des formats sur lesquels le format aura la priorité lors de la détermination du format de contenu (facultatif) Le référentiel des formats PRONOM est livré sous la forme d'un fichier XML dans la dépendance de gestion du système de fichiers. Le référentiel est périodiquement augmenté et mis à jour par des contributions ou le département Digital Preservation des Archives Nationales du Royaume-Uni. Il est librement téléchargeable sur le site officiel et peut ainsi être mis à jour dans l'application. Le composant reçoit un contenu ou un nom de fichier et renvoie en retour les informations sur le format détecté. Détection du format Au versement, une option du niveau de service permet d'activer la détection du format par le système lors de l'étape de contrôle de conformité du paquet versé. Ceci est obligatoire si le service producteur ou versant est un tiers et que le contenu versé ne provient pas d'une source fiable quant au format spécifié dans les échanges. C'est optionnel dans le cas où le service versant appartient au même organisme que l'opérateur du système et que les moyens de production des contenus numériques versés sont maîtrisés par l'organisme producteur et/ou opérateur du système. Maarch RM effectue une comparaison des signatures du registre PRONOM avec le contenu d'information reçu, et doit alors déterminer un PUID associé au contenu. Le versement est considéré comme non conforme si la détection de format échoue ou si le format détecté par le système d'archivage est différent du format spécifié dans le bordereau d'échange. Validation du format Maarch RM intègre un second composant qui permet de valider la conformité du format de contenu par rapport aux spécifications de celui-ci. Il utilise un composant tiers nommé JHOVE, pour JSTOR/Harvard Object Validation Environment. Ce composant permet la validation selon des typologies de format grâce à des modules dédiés : Module Formats validés AIFF Audio Interchange File Format : AIFF 1.3 [AIFF] AIFF-C [AIFF-C] ASCII Texte encodé en ASCII BYTESTREAM Flux binaires arbitraires (toujours valides) Graphics Exchange Format: GIF GIF 87a [GIF87a] GIF 89a [GIF89a] Hypertext Markup Language : HTML HTML 3.2 [HTML 3.2] HTML 4.0 [HTML 4.0] HTML 4.01 [HTML 4.01] XHTML 1.0 and 1.1 [XHTML] Joint Photographic Experts Group (JPEG) raster images JPEG JPEG (ISO/IEC 10918-1:1994) [JPEG] JPEG File Interchange Format (JFIF) 1.2 [JFIF] Exif 2.0, 2.1 (JEIDA-49-1998), and 2.2 (JEITA CP-3451) [Exif 2.1, Exif 2.2] Still Picture Interchange File Format (SPIFF, ISO/IEC 10918-3:1997) [SPIFF] JPEG Tiled Image Pyramid (JTIP, ISO/IEC 10918-3:1997) [JTIP] JPEG-LS (ISO/IEC 14495) [JPEG-LS] JP2 profile (ISO/IEC 15444-1:2000 / ITU-T Rec. T.800 (2000)) [JP2, ITU-T T.800] JPEG2000 JPX profile (ISO/IEC 15444-2:2004) [JPX] Page Description Format (PDF) PDF TIFF UTF8 WAVE PDF 1.0 à 1.6 [PDF] Pre-press data exchange PDF/X-1 (ISO 15930-1:2001) [PDF/X-1] PDF/X-1a (ISO 15930-4:2003) [PDF/X-1a] PDF/X-2 (ISO 15390-5:2003) [PDF/X-2] PDF/X-3 (ISO 15930-6:2003) [PDF/X-3] Tagged PDF [PDF] Linearized PDF [PDF] PDF/A-1 (ISO/DIS 19005-1) [PDF/A] Tagged Image File Format (TIFF) raster images TIFF 4.0, 5.0, and 6.0 [TIFF 4.0, TIFF 5.0, TIFF 6.0] Baseline 6.0 Class B, G, P, and R [TIFF 6.0] Extension Class Y [TIFF 6.0] TIFF/IT (ISO 12639:2003) [TIFF/IT] File types CT, LW, HC, MP, BP, BL, and FP, and conformance levels P1 and P2 TIFF/EP (ISO 12234-2:2001) [TIFF/EP] Exif 2.0, 2.1 (JEIDA-49-1998), and 2.2 (JEITA CP-3451) [Exif 2.1, Exif 2.2] GeoTIFF 1.0 [GeoTIFF] TIFF-FX (RFC 2301) [TIFF-FX] Profiles C, F, J, L, M, and S Class F (RFC 2306) [Class F, RFC 2306] RFC 1314 [RFC 1314] DNG (Adobe Digital Negative) [DNG] Texte encode en UTF-8 Audio for Windows PCMWAVEFORMAT [PCMWAVEFORMAT] WAVEFORMATEX [WAVEFORMATEX] WAVEFORMATEXTENSION [WAVEFORMATEXTENSION] Broadcast Wave Format (EBU N22-1997) version 0 and 1 [BWF] Extensible Markup Language XML XML 1.0 Le système fournit au logiciel un nom de fichier ou une liste de noms de fichiers ainsi que le module à utiliser pour la validation. En retour, le composant indique la validité du contenu par rapport aux spécifications et le cas échéant une ou plusieurs erreurs explicitant l'invalidité du contenu. Le logiciel utilise les technologies et le langage Java, et nécessite l'installation d'un environnement d'exécution Java sur le système. Validation du format de contenu Au versement, une option du niveau de service permet d'activer la validation du format par le système lors de l'étape de contrôle de conformité du paquet versé. Ceci est obligatoire si le service producteur ou versant est un tiers et que le contenu versé ne provient pas d'une source fiable quant au format spécifié dans les échanges. C'est optionnel dans le cas où le service versant appartient au même organisme que l'opérateur du système et que les moyens de production des contenus numériques versés sont maîtrisés par l'organisme producteur et/ou opérateur du système. Maarch RM effectue une demande au module JHOVE sur le contenu d'information reçu, et reçoit en retour l'information de conformité et de validité du contenu par rapport au format annoncé. Le versement est considéré comme non conforme si la validation de format échoue ou si le format est vu comme mal formé ou non conforme par le système d'archivage. Formats acceptés La liste des formats acceptés pour le dépôt n'est pas fixées par le système d'archivage Maarch RM. elle est définie dans l'accord de versement entre le service d'archives, le service versant et les services producteurs. On utilise le référentiel interne PRONOM pour identifier les formats acceptés. Certains des formats peuvent ne pas être pérenne, dans ce cas il sera nécessaire d'appliquer une stratégie de migration de format, soit au versement, soit planifiée. Le versement est considéré comme non conforme si le format n'est pas dans la liste de ceux acceptés dans l'accord de versement liant le service d'archives et les acteurs déposants.