Compte-‐rendu de la journée

Transcription

Compte-‐rendu de la journée
Compte-­‐rendu de la journée « Microbial bioinformatics » 25 Septembre 2014 – Institut Pasteur Participants 82 inscriptions correspondant à des participants extérieurs et des acteurs des plateformes
bioinformatiques de FG&IFB (Migale, eBio, IPasteur, MicroScope, PRABI, CBiB, GenotoulBioinfo, PACA-Bioinfo, ABiMS, TAGC, Bilille)
Deux invités : Todd J. TREANGEN (Univ. Maryland, USA) et Delphine CAPELA (LIPM,
INRA Toulouse)
Introduction (P. Glaser / C. Médigue) La réunion est organisée dans le cadre des groupes de travail des infrastructures nationales
France Génomique (WP2.7.4, « analyses de variants ») et de l’IFB (« Microbial
Bioinformatics »). La thématique centrale repose autour des développements
bioinformatiques pour le traitement des données de micro-organismes : développement de
méthodes d’analyses de données NGS (génomes/métagénome) pour l’identification
taxonomique, l’analyse de variants, et développement de bases de données spécialisées.
Les présentations La matinée s’ouvre par la présentation de Christine POURCEL (IGM, PF eBio à Orsay) qui
présente le serveur CRISPR (http://crispr.u-psud.fr/) dédié à l’identification des CRISPRs et
des gènes associés dans les génomes bactériens (outils CRISPRfinder et CRISPRdb). Les
éléments prédits peuvent ensuite être examinés pour éliminer les faux positifs et annoter plus
précisément de nouveaux éléments CRISPR qui sont sauvegardés dans une base de données
« privée » (MyCRISPRdb). C Pourcel présente aussi 2 outils autour de ce serveur:
CRISPRtionary et CRISPRcompar pour l’analyse du polymorphisme à l’intérieur d’une
espèce. Les perspectives d’amélioration et d’évolution du serveur CRISPR sont aujourd’hui
confrontées à des besoins en ressource humaine. L’exposé se termine par un « appel à l’aide »
qui pourrait en partie être adressé dans le cadre d’un des projets IFB du thème « Microbial
bioinformatics » (collab. Bilille et MicroScope). Aurélien BARRE (PF CBiB, Bordeaux)
présente ensuite l’outil Mix dédié au « finishing » de génomes bactériens et repose sur la
combinaison des résultats de plusieurs outils d’assemblage. L’évaluation de l’outil sur 10
génomes de Mycoplasmes avec les assembleurs CLC, ABySS et MIRA a montré que Mix
réduit mieux la fragmentation. Mix est disponible à la communauté
(https://github.com/cbib/MIX) et va servir de point d’entrée à la base de données MolliGen
pour permettre l’intégration de nouveaux génomes non assemblés. Thomas LACROIX (PF
MIGALE, Jouy en Josas), présente l’outil Insyght (http://genome.jouy.inra.fr/Insyght/) qui
offre une nouvelle représentation graphique des groupes de synténies dans les génomes
bactériens et des outils de génomiques comparatives (table d’homologues, comparaison des
annotations fonctionnelles). La plateforme travaille, en collaboration avec l’IDRIS (projet eBiothon, pour passer à 3000 génomes bactériens complets (aujourd’hui 400 pour lesquels les
données d’orthologie sont pré-calculées). Le traitement des génomes privés est géré sur une
machine virtuelle, aujourd’hui limitée à 30-50 génomes pour des raisons de limitation en CPU
et mémoire sur les machines hôtes. Après la pause café, Jacques VAN HELDEN (TAGC, Marseille) ouvre sa présentation sur
les notions d’outils et de méthodes, d’interopérabilité et de portabilité en insistant sur les
points d’achoppement: importance de la documentation, traçabilité de l’outil pour reproduire
les expériences, et le benchmarking (avec des jeux de données test). Après quelques mots sur
l’historique du serveur Web RSAT (http://pedagogix-tagc.univ-mrs.fr/rsat/) dédié à l’analyse
des éléments de régulation dans les génomes bactériens, Jacques montre comment, au cours
d’une formation, il a utilisé le Cloud de l’IFB en créant une instance de RSAT (contenant N
génomes, le tutoriel etc). Puis il termine sa démonstration par l’utilisation de l’interopérabilité
via des Web services (REST) qui ont été développés sur le site ATGC et la PF MicroScope et
qui permettent de récupérer des données de génomes et d’annotation fonctionnelle de la base
de données de MicroScope. L’exposé suivant (Claudine MEDIGUE ; PF MicroScope, Evry)
constitue une introduction à l’exposé de Delphine Capela. L’extension PALOMA
(Polymorphism Analyses in Light Of Massive DNA sequencing) de la plateforme
MicroScope est rapidement présentée en insistant essentiellement sur 2 points: (i) les résultats
de la détection des SNPs et INdels (SNiPER) ont été en grande partie validés dans le cadre
des projets ANR SYMPA et SHAPE (collaboration avec le LIPM de l’INRA de Toulouse)
pour l’analyse des données des souches évoluées de Ralstonia solanacearum (talk Delphine
Capela) et (ii) les résultats de ce pipeline sont intégrés aux autres données de MicroScope, en
particulier les annotations fonctionnelles et les voies métaboliques. Delphine CAPELA
(invitée) présente ensuite une expérience d’évolution expérimentale menée dans leur
laboratoire depuis 5 ans : l’introduction du plasmide de Cupriavidus. taiwanensis (contient les
gènes nécessaires au mécanisme de la symbiose) dans une souche de Ralstonia solanacearum
(pathogène de la pomme de terre) et après sélection de 3 ancêtres qui présentent des nodules,
expérience d’évolution par séries de cycles inoculation-isolation (plante Mimosa). Les points
saillants issus des analyses informatiques et expérimentales sont les suivants: l’acquisition
puis l’amélioration de la capacité de nodulation et d’infection sont très rapides, cette
évolution s’accompagne d’un taux de mutation très élevé avec observation de gènes
mutagènes et de gènes symbiotiques co-transférés, et enfin les régulateurs sont les cibles
préférentielles des mutations pour l’évolution.
La session de l’après midi débute par la seconde présentation invitée par Todd J.
TREANGEN (Univ. Maryland, USA). Dans un premier temps (From Chip to assembly) il
présente le logiciel d'assemblage imetAMOS publié en 2014 qui permet également
d’assembler des données de métagénome. Puis il passe ensuite au cœur de son exposé (From
assembly to SNP) et présente le principe de ParSNP qui repose sur l’alignement multiple du
core génome des souches analysés. L’algorithme (basé sur du multi-MUM, HMM et Muscle)
est extrêmement efficace (plus de 97% des 32 génomes de E. coli alignés en moins de 3
minutes) et précis pour la détection de SNPs (comparaisons avec d’autres outils de prédiction
de SNPs). Todd montre des résultats de ParSNP sur plus de 200 isolats de Mycobacterium
tuberculosis, 159 souches de Klebsiella pneumoniae (alignement 20 mn sur 8 coeurs), et 800
souches de Clostridium difficile (alignement 40 mn sur 32 cœurs). Une interface graphique
interactive (Gingr) permet de visualiser simultanément les arbres phylogénétiques, le coregénome, et les SNPs (zoom au niveau du nucléotide). Les outils sont disponibles à l’adresse
suivante: https://github.com/marbl. Philippe GLASER a ensuite présenté un pipeline de
recherche de variants développé à l’Institut Pasteur utilisé pour étudié l’émergence des
infections néonatales de Streptococcus agalactiae dans les années 1960. Le pipeline est
composé de 4 briques principales, la dernière permettant de caractériser l’impact des
mutations détectées. L’analyse de couples enfant-mère de S. agalactiae a permis de détecter
18 SNPs et montre que le sens de la contamination n’est pas systématiquement de la mère à
l'enfant, mais également de l'enfant à la mère dans le cas de contamination du lait. Les
évènements mutationnels sont visualisés avec SynTView développé par Pierre Lechat
(genopole.pasteur.fr/SynTView/) et aujourd'hui co-développé avec Genostar
(tps://www.wallgene.com/WallGene/com-home.action). Le pipeline est disponible sur les
serveurs de l’Institut Pasteur et a aussi été intégré dans un workflow Galaxy. La présentation
suivante (Guy PERRIERE; PF PRABI, Lyon) était centrée sur les analyses
taxonomiques basées sur l'analyse de la séquence de l'ARN 16S: résumé des approches et
outils existant aujourd’hui pour adresser le problème d’assignation taxonomique, et
présentation de l’approche par analyse phylogénétique à travers le serveur BIBI publié pour la
première fois en 2003. Aujourd’hui BIB PQP (Procaryotes Quick Phylogeny) permet de faire
rapidement des analyses qui donnent des résultats solides en partie dû à la qualité des bases de
données (mise à jour tous les 4 mois; réduction d’information). Guy souligne pour finir les
limitations des méthodes telles que Pplacer utilisée pour l’identification taxonomique de
séquences génomiques dans un arbre phylogénétique. La session de présentations se termine
par l’intervention d’Ewan CORRE (PF ABiMS, Roscoff) autour des développements
bioinformatiques pour le traitement des données de métagénomique marine et d’analyses
comparatives génomiques. Ewan présente la base de donnée Cyanorak qui offre un
environnement d’annotation experte à partir de la construction de clusters de gènes
orthologues (annotation verticale). Puis il présente ensuite quelques résultats d’analyse de la
distribution géographique de Cyanobactéries (Synechococus et Prochlorococcus) dans les
données métagénomiques de TARA Océans. Les pipelines développés sur la plateforme sont
portés dans Galaxy pour faciliter leur diffusion, par exemple le workflow Metabarcoding
développé dans le cadre de TARA. Ewan insiste sur la nécessité d’avoir des données
standardisées et comparables (donc de disposer de bases de données de référence de
marqueurs spécifiques).
La table ronde : quelles formations pour le traitement des données NGS ? Animation: Jacques Van Helden (Univ. Marseille)
Participants : Hélène Chiapello (INRA), Lionel Frangeul (Institut Pasteur), Valentin Loux
(INRA), Jean François Gibrat (IFB), Guy Perrière (CNRS)
Résumé des mesures proposées pour France Génomique / IFB
1. Demande de création d’un forum utilisateurs + experts, pour échanger les expériences
et conseils.
2. Evaluation comparative des outils: plutôt que de laisser chaque utilisateur ou chaque
plate-forme refaire les mêmes comparaisons entre outils, une mission des CDD de
France Génomique est d’effectuer une évaluation comparative des outils (en tenant
compte de la diversité des données à analyser), et de rendre accessibles les résultats
de ces évaluations.
3. Ré-utilisabilité du matériel de formation
1. Etablir un portail / catalogue des ressources de formation
2. Recyclage du matériel de cours (diaporama, cas d’étude, exercices).
3. Développement de matériel de e-learning (évaluer le coût, IFB).
4. MOOC: encore une étape supplémentaire, car exige un suivi à distance des
participants par les formateurs.
5. Réaliser des vidéos de durée limitée, traitant de sujets ponctuels, sur des
matières qui s’y prêtent bien (un point théorique particulier, un cas d’étude
intéressant). L'IFB pourrait financer ces vidéo (JF Gibrat)
Quel(s) environnement(s) informatique(s) pour les formations ?
Galaxy
La plupart des formations en NGS adressées à des biologistes reposent sur l'environnement
Galaxy.
Cet environnement se prête bien à un premier apprentissage des méthodes. Le succès des
écoles de bioinformatique de Roscoff l'illustre parfaitement.
Points positifs de Galaxy
•
•
•
•
Interactivité pour un premier contact
Accessibilité d'un grand nombre d’outils
Gestion de workflows particulièrement souple
o interface GUI pour concevoir le workflow, connecter les outils
o Possibilité de générer le workflow automatiquement à partir d’une session de
travail
Dynamisme de la communauté
Limitations de Galaxy
•
•
•
•
Système encore en évolution rapide -> pas toujours de compatibilité entre les
versions.
Le système de gestion des fichiers est peu pratique. Au bout d’une session Galaxy, on
se retrouve avec une longue liste de noms de fichiers et on s’y perd facilement.
Certes, on peut les renommer un à un, mais cela demande un effort permanent.
pour certains outils, l'interface ("wrapper") ne présente qu'un sous-ensemble des
options, qui ne sont pas forcément les plus adaptées à tous les besoins
problème pour l’utilisation des outils possédant une interface graphique (Galaxy est
très bien pour l’analyse de RNAseq par exemple, mais il est impossible de faire
quelque chose comme seaview)
Ligne de commande (console Unix)
Limitations
•
•
•
Premier contact pénible pour un public non-expérimenté.
L’apprentissage des fonctionnalités de base de Unix mobilise un temps important sur
la formation, on a moins de temps pour travailler sur les outils et les analyses.
Les participants ne se sentant pas à l'aise dans cet environnement, se limitent souvent
à utiliser les commandes avec les paramètres indiqués.
Remarque importante: l’apprentissage de l’environnement Unix devrait être systématique
pour les Masters et les filières de génomique et proposé par les école doctorales.
Virtualisation
La virtualisation permet de déployer des outils, suites, et environnement de travail de
différentes façons:
•
•
•
Les participants démarrent une instance sur le cloud
o Le cloud IFB présente une série d’appliances adaptées à différents besoins
typiques (Galaxy, protéique, RSAT).
o Selon les cas, ces VM sont accessibles comme site Web (Galaxy, RSAT), en
ligne de commande (RSAT), ou dans un environnement graphique interactif
(protéomique).
o Offre une puissance de calcul supérieure à des VM “portables”
o Chaque étudiant lance sa propre VM, sans risques d’abîmer celles des autres.
Machines Virtuelles préinstallées + jeux de données (Virtualbox)
o Limitation: une machine par application -> mobilisation d’un espace disque
énorme avec redondance (chaque VM inclut son système opérateur Linux).
Environnement virtuel (docker) ?
o Avantage: modularité des fonctionnalités: chaque utilisateur installe le
“noyau” de son OS, puis lui ajoute des “couches” logicielles pour les
différentes applications (Galaxy, bedtools, RSAT, …).
Equilibre théorie / pratique
•
•
•
•
Un danger des formations pratiques est de se limiter à apprendre à cliquer sur des
boutons, sans comprendre le fonctionnement de l’analyse.
Il est souhaitable d’intégrer des éléments théoriques, même si cela suscite parfois une
réticence chez certains participants.
Le degré d’approfondissement des éléments théoriques est difficile à déterminer, il
dépend des formations.
Au bout de quelques jours de formation, certains participants expriment le souhait de
pouvoir aller plus loin, soit sur les concepts théoriques (par exemple statistiques), soit
dans l’utilisation des outils (par exemple commandes en ligne Unix). D’autres
participants préfèrent s’en tenir au niveau d’approche pratique des outils.
Adaptation des formations aux besoins spécifiques des utilisateurs
•
•
•
•
Il serait caricatural de considérer que “le” biologiste se contente d’apprendre à cliquer
sur les boutons pour voir sortir les résultats. Au contraire, on rencontre souvent un
désir de comprendre le fonctionnement des outils, d’avoir une guidance concernant le
choix entre outils alternatifs pour une même tâche, l’impact des paramètres.
Au-delà des formations, il existe donc un besoin de support pour guider les
biologistes pour choisir les outils appropriés en fonction des particularités de leurs
données, des questions qu’ils se posent, comprendre l’impact des paramètres, …
Pour la formation AVIESAN (à Roscoff), les participants viennent avec leurs propres
données, et sont encadrés par des tuteurs (taux d’encadrement élevé: 1 tuteur / 2
participants). Séances de tutorat réparties sur la semaine (1h / jour) pour définir les
questions, choisir les outils, les paramètres.
Il serait utile d’élaborer des diagrammes décisionnels (flowcharts), qui serviraient de
cadre pour la conception des workflows d’analyse “typiques” (RNA-seq, ChIP-seq,
…). Cependant, il apparaît souvent que ces cadres pré-conçus doivent être adaptés en
fonction des questions particulières d’une analyse, des données disponibles, …
Peut-on générer du matériel de formation recyclable ?
Matériel didactique des formations
•
Diaporamas, protocoles, jeux d’étude, exercices, …
Cours en vidéo
•
•
Une participante suggère de filmer les formations et de placer les vidéos en ligne.
o Pas évident: les formations sont généralement très interactives, le contenu
s’adapte pendant le cours en fonction de difficultés rencontrées ou des
questions de participants.
o De plus, on alterne souvent entre phases de théorie et de pratique, et ce
découpage du temps ne correspond pas forcément à des unités idéales pour
réaliser un film.
Une possibilité serait de générer des vidéos courtes (~10-20 minutes), focalisées sur
un point particulier pour lequel un formateur a trouvé un bon angle pédagogique. De
telles vidéos pourraient intégrer des éléments dynamiques (par exemple dessiner les
flowcharts au tableau en expliquant progressivement l’ajout des différents éléments).