Bilan du stage réalisé par Frédéric Dubois et perspectives pour la

Transcription

Bilan du stage réalisé par Frédéric Dubois et perspectives pour la
Etude de faisabilité pour la mise en place d’une archive ouverte,
commune à plusieurs établissements membres d’Agropolis.
Stage de Frédéric DUBOIS - 2005
Master2 RIDE - ENSSIB
Dans le cadre d’un projet de pôle régional favorisant la mutualisation entre établissements, la
CIST a proposé un projet intitulé Plate-Forme IST Agropolis (PISTA), articulé autour de trois
axes : (1) la valorisation des productions scientifiques et académiques, (2) le partage des
ressources documentaires et (3) l’appui aux utilisateurs. Le stage s’inscrit dans l’axe 1 du
projet PISTA.
Le travail réalisé dans le cadre de ce stage a consisté à analyser des modalités qui
permettraient de doter les établissements d’Agropolis d’une archive ouverte institutionnelle.
Cette archive ouverte doit contribuer à la visibilité sur le plan international des activités de
recherche et de formation des établissements d’Agropolis.
1. Les objectifs et résultats attendus du stage
L’objectif de ce stage était d’apporter des éléments techniques en vue de la constitution d’un
corpus de documents :
- en texte intégral (aspects juridiques permettant leur diffusion, aspects de conservation
et archivage pérenne et aspects de formation à la création d’un document numérique)
- représentant les activités recherche / formation des établissements d’Agropolis (notion
de corpus institutionnel)
- décrits selon des métadonnées répondant à des normes internationales (Dublin Core) et
à des fonctionnalités spécifiques (affichage sur un portail Agropolis)
- intéropérable (respectant le protocole d’échanges de données Open Archives
Initiative’s Protocol for Metadata Harvesting/OAI-PMH)
Ces termes de référence du stage ont donné lieu à :
- une étude des conditions de mise en œuvre de l’archive ouverte,
- un état des lieux de la production des documents,
- l’établissement de recommandations,
- des propositions de scénarios.
2. Déroulement du stage
Une enquête a été réalisée auprès de 8 établissements1 afin de connaître les types de
productions réalisées (formation et recherche), les notices bibliographiques correspondantes
ainsi que leurs pratiques de collecte, de signalement, de validation, … L’utilisation de
référentiels, listes d’autorités ou thésaurus a été précisée le cas échéant, l’objectif étant
d’identifier le niveau d’homogénéité ou d’hétérogénéité des données produites.
Les projets nationaux d’archives ouvertes ont été pris en compte dans cet état des lieux
régional et dans les scénarios fonctionnels proposés.
3. Les concepts utilisés dans les archives ouvertes
Une archive ouverte est constituée par un corpus de documents en texte intégral. La visibilité
de l’archive ouverte repose sur l’adoption du protocole OAI-PMH. Ce protocole est un
langage d’échange de données entre un fournisseur de données (qui gère des documents en
1
Agro.M, Cemagref, Cirad, Cnearc, Cnrs, Engref, IRD, Inra
F. DUBOIS Stage Master2 RIDE - résumé
1
3/10/2005
texte intégral et leur description sous forme de métadonnées) et un fournisseur de services
(qui collecte les métadonnées et propose des fonctionnalités de recherche, d’alertes, des vues
thématiques, …). Il repose sur le respect et l’utilisation de normes et standards, dont le Dublin
Core (DC), une norme de description bibliographique. Le Dublin Core définit une liste de
métadonnées minimales à produire. Des métadonnées supplémentaires peuvent être créées à
ce niveau, et sont autant de points d’entrée possibles pour valoriser le corpus de documents, et
créer des collections thématiques.
L’adoption des normes et formats garantit l’interopérabilité de la future application.
4. Les résultats obtenus
1.1
Des recommandations
Les établissements produisent des données hétérogènes tant dans les données descriptives que
dans les processus de production. Cette hétérogénéité est naturelle compte tenu de la diversité
des systèmes d’information, des missions et des pratiques documentaires.
Pour envisager l’alimentation d’une base commune, et de la production de description
cohérente des ressources, des recommandations ont été formulées :
- des « bonnes pratiques » pour le respect de syntaxes, de normes ou de standards
communs,
- des recommandations techniques,
- la création d’une cellule d’appui, composée de professionnels de l’information
appuyés par des juristes, des informaticiens…
L’ensemble de ces recommandations est volontairement ouvert, respectant ainsi
l’environnement info-documentaire de chaque établissement.
1.2
Des propositions sur les métadonnées
Les travaux réalisés comprennent :
- une liste des éléments du Dublin Core que les établissements peuvent fournir
aujourd’hui, et leurs qualités (granularités, homogénéité,…), les référentiels identifiés
durant cette étude, et les éléments restant à définir,
- une proposition d’éléments de métadonnées spécifiques à créer ou à adopter répondant
aux besoins de vues thématiques et établissement d’Agropolis.
1.3
Des propositions d’organisation fonctionnelle
Scénario 1 : configuration « mixte »
Agropolis propose une archive ouverte pour les établissements qui ne disposent pas d’une
archive ouverte, et collecte les métadonnées auprès des archives ouvertes des établissements
nationaux (Inra, Cnrs, …). Agropolis remplit une fonction de moissonneur.
Ce scénario est le plus proche par rapport aux projets affichés par certains établissements.
Il doit être approfondi « en aval » sur la production de métadonnées spécifiques (thématiques,
filière, …) afin d’offrir des vues à forte valeur ajoutée au niveau de l’interface de consultation
Agropolis.
Scénario 2 : configuration « idéale »
Une archive ouverte est créée, avec un point d’entrée unique de dépôt pour tous les
établissements. Cette approche permet d’envisager l’utilisation de référentiels communs, et
garantirait une qualité optimisée des données. Ce scénario a peu de chance d’être retenu, car
peu conforme aux orientations des politiques nationales IST des établissements.
F. DUBOIS Stage Master2 RIDE - résumé
2
3/10/2005
Scénario 3 : la plate-forme HAL
La plate-forme HAL du CCSD (CNRS) propose des fonctionnalités proche du schéma
recherché (respect du protocole OAI, dépôt contrôlé de productions, adoption de référentiels,
vues thématiques, vues par établissement…).
Cette solution permet la création d’interfaces de dépôt et de consultation spécifiques par
établissement ou communautés (vues Agropolis), en prenant en compte les projets nationaux
des établissements qui adopteraient également HAL (Cnrs, Inra, …).
5. Les perspectives à court terme
Les actions à conduire à l’issue de ce stage :
- Prise de contact avec Hal / CCSD pour étudier les conditions d’un hébergement des
données et de développement d’environnements spécifiques pour le dépôt et la
consultation.
- Création d’une cellule d’appui pour les aspects juridiques en vue de l’« affichage des
documents » (Libre Accès + GED).
- Approfondissement l’étude des référentiels.
- Préconisation d’une normalisation des affiliations.
F. DUBOIS Stage Master2 RIDE - résumé
3
3/10/2005