Compte-‐rendu de la journée
Transcription
Compte-‐rendu de la journée
Compte-‐rendu de la journée « Microbial bioinformatics » 25 Septembre 2014 – Institut Pasteur Participants 82 inscriptions correspondant à des participants extérieurs et des acteurs des plateformes bioinformatiques de FG&IFB (Migale, eBio, IPasteur, MicroScope, PRABI, CBiB, GenotoulBioinfo, PACA-Bioinfo, ABiMS, TAGC, Bilille) Deux invités : Todd J. TREANGEN (Univ. Maryland, USA) et Delphine CAPELA (LIPM, INRA Toulouse) Introduction (P. Glaser / C. Médigue) La réunion est organisée dans le cadre des groupes de travail des infrastructures nationales France Génomique (WP2.7.4, « analyses de variants ») et de l’IFB (« Microbial Bioinformatics »). La thématique centrale repose autour des développements bioinformatiques pour le traitement des données de micro-organismes : développement de méthodes d’analyses de données NGS (génomes/métagénome) pour l’identification taxonomique, l’analyse de variants, et développement de bases de données spécialisées. Les présentations La matinée s’ouvre par la présentation de Christine POURCEL (IGM, PF eBio à Orsay) qui présente le serveur CRISPR (http://crispr.u-psud.fr/) dédié à l’identification des CRISPRs et des gènes associés dans les génomes bactériens (outils CRISPRfinder et CRISPRdb). Les éléments prédits peuvent ensuite être examinés pour éliminer les faux positifs et annoter plus précisément de nouveaux éléments CRISPR qui sont sauvegardés dans une base de données « privée » (MyCRISPRdb). C Pourcel présente aussi 2 outils autour de ce serveur: CRISPRtionary et CRISPRcompar pour l’analyse du polymorphisme à l’intérieur d’une espèce. Les perspectives d’amélioration et d’évolution du serveur CRISPR sont aujourd’hui confrontées à des besoins en ressource humaine. L’exposé se termine par un « appel à l’aide » qui pourrait en partie être adressé dans le cadre d’un des projets IFB du thème « Microbial bioinformatics » (collab. Bilille et MicroScope). Aurélien BARRE (PF CBiB, Bordeaux) présente ensuite l’outil Mix dédié au « finishing » de génomes bactériens et repose sur la combinaison des résultats de plusieurs outils d’assemblage. L’évaluation de l’outil sur 10 génomes de Mycoplasmes avec les assembleurs CLC, ABySS et MIRA a montré que Mix réduit mieux la fragmentation. Mix est disponible à la communauté (https://github.com/cbib/MIX) et va servir de point d’entrée à la base de données MolliGen pour permettre l’intégration de nouveaux génomes non assemblés. Thomas LACROIX (PF MIGALE, Jouy en Josas), présente l’outil Insyght (http://genome.jouy.inra.fr/Insyght/) qui offre une nouvelle représentation graphique des groupes de synténies dans les génomes bactériens et des outils de génomiques comparatives (table d’homologues, comparaison des annotations fonctionnelles). La plateforme travaille, en collaboration avec l’IDRIS (projet eBiothon, pour passer à 3000 génomes bactériens complets (aujourd’hui 400 pour lesquels les données d’orthologie sont pré-calculées). Le traitement des génomes privés est géré sur une machine virtuelle, aujourd’hui limitée à 30-50 génomes pour des raisons de limitation en CPU et mémoire sur les machines hôtes. Après la pause café, Jacques VAN HELDEN (TAGC, Marseille) ouvre sa présentation sur les notions d’outils et de méthodes, d’interopérabilité et de portabilité en insistant sur les points d’achoppement: importance de la documentation, traçabilité de l’outil pour reproduire les expériences, et le benchmarking (avec des jeux de données test). Après quelques mots sur l’historique du serveur Web RSAT (http://pedagogix-tagc.univ-mrs.fr/rsat/) dédié à l’analyse des éléments de régulation dans les génomes bactériens, Jacques montre comment, au cours d’une formation, il a utilisé le Cloud de l’IFB en créant une instance de RSAT (contenant N génomes, le tutoriel etc). Puis il termine sa démonstration par l’utilisation de l’interopérabilité via des Web services (REST) qui ont été développés sur le site ATGC et la PF MicroScope et qui permettent de récupérer des données de génomes et d’annotation fonctionnelle de la base de données de MicroScope. L’exposé suivant (Claudine MEDIGUE ; PF MicroScope, Evry) constitue une introduction à l’exposé de Delphine Capela. L’extension PALOMA (Polymorphism Analyses in Light Of Massive DNA sequencing) de la plateforme MicroScope est rapidement présentée en insistant essentiellement sur 2 points: (i) les résultats de la détection des SNPs et INdels (SNiPER) ont été en grande partie validés dans le cadre des projets ANR SYMPA et SHAPE (collaboration avec le LIPM de l’INRA de Toulouse) pour l’analyse des données des souches évoluées de Ralstonia solanacearum (talk Delphine Capela) et (ii) les résultats de ce pipeline sont intégrés aux autres données de MicroScope, en particulier les annotations fonctionnelles et les voies métaboliques. Delphine CAPELA (invitée) présente ensuite une expérience d’évolution expérimentale menée dans leur laboratoire depuis 5 ans : l’introduction du plasmide de Cupriavidus. taiwanensis (contient les gènes nécessaires au mécanisme de la symbiose) dans une souche de Ralstonia solanacearum (pathogène de la pomme de terre) et après sélection de 3 ancêtres qui présentent des nodules, expérience d’évolution par séries de cycles inoculation-isolation (plante Mimosa). Les points saillants issus des analyses informatiques et expérimentales sont les suivants: l’acquisition puis l’amélioration de la capacité de nodulation et d’infection sont très rapides, cette évolution s’accompagne d’un taux de mutation très élevé avec observation de gènes mutagènes et de gènes symbiotiques co-transférés, et enfin les régulateurs sont les cibles préférentielles des mutations pour l’évolution. La session de l’après midi débute par la seconde présentation invitée par Todd J. TREANGEN (Univ. Maryland, USA). Dans un premier temps (From Chip to assembly) il présente le logiciel d'assemblage imetAMOS publié en 2014 qui permet également d’assembler des données de métagénome. Puis il passe ensuite au cœur de son exposé (From assembly to SNP) et présente le principe de ParSNP qui repose sur l’alignement multiple du core génome des souches analysés. L’algorithme (basé sur du multi-MUM, HMM et Muscle) est extrêmement efficace (plus de 97% des 32 génomes de E. coli alignés en moins de 3 minutes) et précis pour la détection de SNPs (comparaisons avec d’autres outils de prédiction de SNPs). Todd montre des résultats de ParSNP sur plus de 200 isolats de Mycobacterium tuberculosis, 159 souches de Klebsiella pneumoniae (alignement 20 mn sur 8 coeurs), et 800 souches de Clostridium difficile (alignement 40 mn sur 32 cœurs). Une interface graphique interactive (Gingr) permet de visualiser simultanément les arbres phylogénétiques, le coregénome, et les SNPs (zoom au niveau du nucléotide). Les outils sont disponibles à l’adresse suivante: https://github.com/marbl. Philippe GLASER a ensuite présenté un pipeline de recherche de variants développé à l’Institut Pasteur utilisé pour étudié l’émergence des infections néonatales de Streptococcus agalactiae dans les années 1960. Le pipeline est composé de 4 briques principales, la dernière permettant de caractériser l’impact des mutations détectées. L’analyse de couples enfant-mère de S. agalactiae a permis de détecter 18 SNPs et montre que le sens de la contamination n’est pas systématiquement de la mère à l'enfant, mais également de l'enfant à la mère dans le cas de contamination du lait. Les évènements mutationnels sont visualisés avec SynTView développé par Pierre Lechat (genopole.pasteur.fr/SynTView/) et aujourd'hui co-développé avec Genostar (tps://www.wallgene.com/WallGene/com-home.action). Le pipeline est disponible sur les serveurs de l’Institut Pasteur et a aussi été intégré dans un workflow Galaxy. La présentation suivante (Guy PERRIERE; PF PRABI, Lyon) était centrée sur les analyses taxonomiques basées sur l'analyse de la séquence de l'ARN 16S: résumé des approches et outils existant aujourd’hui pour adresser le problème d’assignation taxonomique, et présentation de l’approche par analyse phylogénétique à travers le serveur BIBI publié pour la première fois en 2003. Aujourd’hui BIB PQP (Procaryotes Quick Phylogeny) permet de faire rapidement des analyses qui donnent des résultats solides en partie dû à la qualité des bases de données (mise à jour tous les 4 mois; réduction d’information). Guy souligne pour finir les limitations des méthodes telles que Pplacer utilisée pour l’identification taxonomique de séquences génomiques dans un arbre phylogénétique. La session de présentations se termine par l’intervention d’Ewan CORRE (PF ABiMS, Roscoff) autour des développements bioinformatiques pour le traitement des données de métagénomique marine et d’analyses comparatives génomiques. Ewan présente la base de donnée Cyanorak qui offre un environnement d’annotation experte à partir de la construction de clusters de gènes orthologues (annotation verticale). Puis il présente ensuite quelques résultats d’analyse de la distribution géographique de Cyanobactéries (Synechococus et Prochlorococcus) dans les données métagénomiques de TARA Océans. Les pipelines développés sur la plateforme sont portés dans Galaxy pour faciliter leur diffusion, par exemple le workflow Metabarcoding développé dans le cadre de TARA. Ewan insiste sur la nécessité d’avoir des données standardisées et comparables (donc de disposer de bases de données de référence de marqueurs spécifiques). La table ronde : quelles formations pour le traitement des données NGS ? Animation: Jacques Van Helden (Univ. Marseille) Participants : Hélène Chiapello (INRA), Lionel Frangeul (Institut Pasteur), Valentin Loux (INRA), Jean François Gibrat (IFB), Guy Perrière (CNRS) Résumé des mesures proposées pour France Génomique / IFB 1. Demande de création d’un forum utilisateurs + experts, pour échanger les expériences et conseils. 2. Evaluation comparative des outils: plutôt que de laisser chaque utilisateur ou chaque plate-forme refaire les mêmes comparaisons entre outils, une mission des CDD de France Génomique est d’effectuer une évaluation comparative des outils (en tenant compte de la diversité des données à analyser), et de rendre accessibles les résultats de ces évaluations. 3. Ré-utilisabilité du matériel de formation 1. Etablir un portail / catalogue des ressources de formation 2. Recyclage du matériel de cours (diaporama, cas d’étude, exercices). 3. Développement de matériel de e-learning (évaluer le coût, IFB). 4. MOOC: encore une étape supplémentaire, car exige un suivi à distance des participants par les formateurs. 5. Réaliser des vidéos de durée limitée, traitant de sujets ponctuels, sur des matières qui s’y prêtent bien (un point théorique particulier, un cas d’étude intéressant). L'IFB pourrait financer ces vidéo (JF Gibrat) Quel(s) environnement(s) informatique(s) pour les formations ? Galaxy La plupart des formations en NGS adressées à des biologistes reposent sur l'environnement Galaxy. Cet environnement se prête bien à un premier apprentissage des méthodes. Le succès des écoles de bioinformatique de Roscoff l'illustre parfaitement. Points positifs de Galaxy • • • • Interactivité pour un premier contact Accessibilité d'un grand nombre d’outils Gestion de workflows particulièrement souple o interface GUI pour concevoir le workflow, connecter les outils o Possibilité de générer le workflow automatiquement à partir d’une session de travail Dynamisme de la communauté Limitations de Galaxy • • • • Système encore en évolution rapide -> pas toujours de compatibilité entre les versions. Le système de gestion des fichiers est peu pratique. Au bout d’une session Galaxy, on se retrouve avec une longue liste de noms de fichiers et on s’y perd facilement. Certes, on peut les renommer un à un, mais cela demande un effort permanent. pour certains outils, l'interface ("wrapper") ne présente qu'un sous-ensemble des options, qui ne sont pas forcément les plus adaptées à tous les besoins problème pour l’utilisation des outils possédant une interface graphique (Galaxy est très bien pour l’analyse de RNAseq par exemple, mais il est impossible de faire quelque chose comme seaview) Ligne de commande (console Unix) Limitations • • • Premier contact pénible pour un public non-expérimenté. L’apprentissage des fonctionnalités de base de Unix mobilise un temps important sur la formation, on a moins de temps pour travailler sur les outils et les analyses. Les participants ne se sentant pas à l'aise dans cet environnement, se limitent souvent à utiliser les commandes avec les paramètres indiqués. Remarque importante: l’apprentissage de l’environnement Unix devrait être systématique pour les Masters et les filières de génomique et proposé par les école doctorales. Virtualisation La virtualisation permet de déployer des outils, suites, et environnement de travail de différentes façons: • • • Les participants démarrent une instance sur le cloud o Le cloud IFB présente une série d’appliances adaptées à différents besoins typiques (Galaxy, protéique, RSAT). o Selon les cas, ces VM sont accessibles comme site Web (Galaxy, RSAT), en ligne de commande (RSAT), ou dans un environnement graphique interactif (protéomique). o Offre une puissance de calcul supérieure à des VM “portables” o Chaque étudiant lance sa propre VM, sans risques d’abîmer celles des autres. Machines Virtuelles préinstallées + jeux de données (Virtualbox) o Limitation: une machine par application -> mobilisation d’un espace disque énorme avec redondance (chaque VM inclut son système opérateur Linux). Environnement virtuel (docker) ? o Avantage: modularité des fonctionnalités: chaque utilisateur installe le “noyau” de son OS, puis lui ajoute des “couches” logicielles pour les différentes applications (Galaxy, bedtools, RSAT, …). Equilibre théorie / pratique • • • • Un danger des formations pratiques est de se limiter à apprendre à cliquer sur des boutons, sans comprendre le fonctionnement de l’analyse. Il est souhaitable d’intégrer des éléments théoriques, même si cela suscite parfois une réticence chez certains participants. Le degré d’approfondissement des éléments théoriques est difficile à déterminer, il dépend des formations. Au bout de quelques jours de formation, certains participants expriment le souhait de pouvoir aller plus loin, soit sur les concepts théoriques (par exemple statistiques), soit dans l’utilisation des outils (par exemple commandes en ligne Unix). D’autres participants préfèrent s’en tenir au niveau d’approche pratique des outils. Adaptation des formations aux besoins spécifiques des utilisateurs • • • • Il serait caricatural de considérer que “le” biologiste se contente d’apprendre à cliquer sur les boutons pour voir sortir les résultats. Au contraire, on rencontre souvent un désir de comprendre le fonctionnement des outils, d’avoir une guidance concernant le choix entre outils alternatifs pour une même tâche, l’impact des paramètres. Au-delà des formations, il existe donc un besoin de support pour guider les biologistes pour choisir les outils appropriés en fonction des particularités de leurs données, des questions qu’ils se posent, comprendre l’impact des paramètres, … Pour la formation AVIESAN (à Roscoff), les participants viennent avec leurs propres données, et sont encadrés par des tuteurs (taux d’encadrement élevé: 1 tuteur / 2 participants). Séances de tutorat réparties sur la semaine (1h / jour) pour définir les questions, choisir les outils, les paramètres. Il serait utile d’élaborer des diagrammes décisionnels (flowcharts), qui serviraient de cadre pour la conception des workflows d’analyse “typiques” (RNA-seq, ChIP-seq, …). Cependant, il apparaît souvent que ces cadres pré-conçus doivent être adaptés en fonction des questions particulières d’une analyse, des données disponibles, … Peut-on générer du matériel de formation recyclable ? Matériel didactique des formations • Diaporamas, protocoles, jeux d’étude, exercices, … Cours en vidéo • • Une participante suggère de filmer les formations et de placer les vidéos en ligne. o Pas évident: les formations sont généralement très interactives, le contenu s’adapte pendant le cours en fonction de difficultés rencontrées ou des questions de participants. o De plus, on alterne souvent entre phases de théorie et de pratique, et ce découpage du temps ne correspond pas forcément à des unités idéales pour réaliser un film. Une possibilité serait de générer des vidéos courtes (~10-20 minutes), focalisées sur un point particulier pour lequel un formateur a trouvé un bon angle pédagogique. De telles vidéos pourraient intégrer des éléments dynamiques (par exemple dessiner les flowcharts au tableau en expliquant progressivement l’ajout des différents éléments).