Bilan du stage réalisé par Frédéric Dubois et perspectives pour la
Transcription
Bilan du stage réalisé par Frédéric Dubois et perspectives pour la
Etude de faisabilité pour la mise en place d’une archive ouverte, commune à plusieurs établissements membres d’Agropolis. Stage de Frédéric DUBOIS - 2005 Master2 RIDE - ENSSIB Dans le cadre d’un projet de pôle régional favorisant la mutualisation entre établissements, la CIST a proposé un projet intitulé Plate-Forme IST Agropolis (PISTA), articulé autour de trois axes : (1) la valorisation des productions scientifiques et académiques, (2) le partage des ressources documentaires et (3) l’appui aux utilisateurs. Le stage s’inscrit dans l’axe 1 du projet PISTA. Le travail réalisé dans le cadre de ce stage a consisté à analyser des modalités qui permettraient de doter les établissements d’Agropolis d’une archive ouverte institutionnelle. Cette archive ouverte doit contribuer à la visibilité sur le plan international des activités de recherche et de formation des établissements d’Agropolis. 1. Les objectifs et résultats attendus du stage L’objectif de ce stage était d’apporter des éléments techniques en vue de la constitution d’un corpus de documents : - en texte intégral (aspects juridiques permettant leur diffusion, aspects de conservation et archivage pérenne et aspects de formation à la création d’un document numérique) - représentant les activités recherche / formation des établissements d’Agropolis (notion de corpus institutionnel) - décrits selon des métadonnées répondant à des normes internationales (Dublin Core) et à des fonctionnalités spécifiques (affichage sur un portail Agropolis) - intéropérable (respectant le protocole d’échanges de données Open Archives Initiative’s Protocol for Metadata Harvesting/OAI-PMH) Ces termes de référence du stage ont donné lieu à : - une étude des conditions de mise en œuvre de l’archive ouverte, - un état des lieux de la production des documents, - l’établissement de recommandations, - des propositions de scénarios. 2. Déroulement du stage Une enquête a été réalisée auprès de 8 établissements1 afin de connaître les types de productions réalisées (formation et recherche), les notices bibliographiques correspondantes ainsi que leurs pratiques de collecte, de signalement, de validation, … L’utilisation de référentiels, listes d’autorités ou thésaurus a été précisée le cas échéant, l’objectif étant d’identifier le niveau d’homogénéité ou d’hétérogénéité des données produites. Les projets nationaux d’archives ouvertes ont été pris en compte dans cet état des lieux régional et dans les scénarios fonctionnels proposés. 3. Les concepts utilisés dans les archives ouvertes Une archive ouverte est constituée par un corpus de documents en texte intégral. La visibilité de l’archive ouverte repose sur l’adoption du protocole OAI-PMH. Ce protocole est un langage d’échange de données entre un fournisseur de données (qui gère des documents en 1 Agro.M, Cemagref, Cirad, Cnearc, Cnrs, Engref, IRD, Inra F. DUBOIS Stage Master2 RIDE - résumé 1 3/10/2005 texte intégral et leur description sous forme de métadonnées) et un fournisseur de services (qui collecte les métadonnées et propose des fonctionnalités de recherche, d’alertes, des vues thématiques, …). Il repose sur le respect et l’utilisation de normes et standards, dont le Dublin Core (DC), une norme de description bibliographique. Le Dublin Core définit une liste de métadonnées minimales à produire. Des métadonnées supplémentaires peuvent être créées à ce niveau, et sont autant de points d’entrée possibles pour valoriser le corpus de documents, et créer des collections thématiques. L’adoption des normes et formats garantit l’interopérabilité de la future application. 4. Les résultats obtenus 1.1 Des recommandations Les établissements produisent des données hétérogènes tant dans les données descriptives que dans les processus de production. Cette hétérogénéité est naturelle compte tenu de la diversité des systèmes d’information, des missions et des pratiques documentaires. Pour envisager l’alimentation d’une base commune, et de la production de description cohérente des ressources, des recommandations ont été formulées : - des « bonnes pratiques » pour le respect de syntaxes, de normes ou de standards communs, - des recommandations techniques, - la création d’une cellule d’appui, composée de professionnels de l’information appuyés par des juristes, des informaticiens… L’ensemble de ces recommandations est volontairement ouvert, respectant ainsi l’environnement info-documentaire de chaque établissement. 1.2 Des propositions sur les métadonnées Les travaux réalisés comprennent : - une liste des éléments du Dublin Core que les établissements peuvent fournir aujourd’hui, et leurs qualités (granularités, homogénéité,…), les référentiels identifiés durant cette étude, et les éléments restant à définir, - une proposition d’éléments de métadonnées spécifiques à créer ou à adopter répondant aux besoins de vues thématiques et établissement d’Agropolis. 1.3 Des propositions d’organisation fonctionnelle Scénario 1 : configuration « mixte » Agropolis propose une archive ouverte pour les établissements qui ne disposent pas d’une archive ouverte, et collecte les métadonnées auprès des archives ouvertes des établissements nationaux (Inra, Cnrs, …). Agropolis remplit une fonction de moissonneur. Ce scénario est le plus proche par rapport aux projets affichés par certains établissements. Il doit être approfondi « en aval » sur la production de métadonnées spécifiques (thématiques, filière, …) afin d’offrir des vues à forte valeur ajoutée au niveau de l’interface de consultation Agropolis. Scénario 2 : configuration « idéale » Une archive ouverte est créée, avec un point d’entrée unique de dépôt pour tous les établissements. Cette approche permet d’envisager l’utilisation de référentiels communs, et garantirait une qualité optimisée des données. Ce scénario a peu de chance d’être retenu, car peu conforme aux orientations des politiques nationales IST des établissements. F. DUBOIS Stage Master2 RIDE - résumé 2 3/10/2005 Scénario 3 : la plate-forme HAL La plate-forme HAL du CCSD (CNRS) propose des fonctionnalités proche du schéma recherché (respect du protocole OAI, dépôt contrôlé de productions, adoption de référentiels, vues thématiques, vues par établissement…). Cette solution permet la création d’interfaces de dépôt et de consultation spécifiques par établissement ou communautés (vues Agropolis), en prenant en compte les projets nationaux des établissements qui adopteraient également HAL (Cnrs, Inra, …). 5. Les perspectives à court terme Les actions à conduire à l’issue de ce stage : - Prise de contact avec Hal / CCSD pour étudier les conditions d’un hébergement des données et de développement d’environnements spécifiques pour le dépôt et la consultation. - Création d’une cellule d’appui pour les aspects juridiques en vue de l’« affichage des documents » (Libre Accès + GED). - Approfondissement l’étude des référentiels. - Préconisation d’une normalisation des affiliations. F. DUBOIS Stage Master2 RIDE - résumé 3 3/10/2005