Mode d`emploi pour générer un
Transcription
Mode d`emploi pour générer un
Logiciels conseillés par la plateforme Version 2 16/08/16 Logiciels conseillés par la plateforme Logiciels conseillés par la plateforme Version 2 16/08/16 Table des matières INTRODUCTION...................................................................................................... 4 1 CONTRÔLE QUALITÉ ET NETTOYAGE DES DONNÉES DE SÉQUENÇAGE.5 1.1 FASTQC.......................................................................................................... 5 1.2 FASTQ SCREEN................................................................................................. 5 1.3 CUTADAPT......................................................................................................... 6 1.4 TRIMMOMATIC..................................................................................................... 6 2 ALIGNEMENT DE SÉQUENCES........................................................................7 2.1 BWA.............................................................................................................. 7 2.2 BOWTIE 2......................................................................................................... 7 2.3 NOVOALIGN....................................................................................................... 8 3 ALIGNEMENT ET ANALYSE DE DONNÉES DE RNA-SEQ...............................9 3.1 TOPHAT........................................................................................................... 9 3.2 STAR............................................................................................................. 9 3.3 CUFFLINKS...................................................................................................... 10 3.4 HTSEQ-COUNT (HTSEQ)....................................................................................10 3.5 FEATURECOUNTS.............................................................................................. 11 3.6 EDGER........................................................................................................... 11 3.7 DESEQ ET DESEQ2.......................................................................................12 4 DÉTECTION DE VARIANTS..............................................................................13 4.1 SAMTOOLS MPILEUP / BCFTOOLS CALL.....................................................................13 4.2 GATK (GENOME ANALYSIS TOOLKIT)..................................................................13 4.3 ANNOVAR................................................................................................... 14 5 ANALYSE DE DONNÉES DE CHIP-SEQ..........................................................16 5.1 MACS.......................................................................................................... 16 6 ANALYSE DE DONNÉES RRBS (REDUCED REPRESENTATION BISULFITE SEQUENCING)...................................................................................................... 17 6.1 TRIM GALORE!.................................................................................................17 6.2 BISMARK......................................................................................................... 17 6.3 SEQMONK...................................................................................................... 17 6.4 METHYLSIG.................................................................................................... 18 7 ANALYSE DE DONNÉES DE RAD-SEQ...........................................................19 7.1 STACKS...................................................................................................... 19 8 MANIPULATION ET VISUALISATION DE FICHIERS.......................................20 8.1 FASTX-TOOLKIT.............................................................................................20 8.2 SAMTOOLS...................................................................................................... 20 8.3 SAMBAMBA...................................................................................................... 21 8.4 BCFTOOLS...................................................................................................... 21 8.5 PICARD TOOLS................................................................................................. 21 8.6 IGV.............................................................................................................. 22 8.7 BEDTOOLS...................................................................................................... 22 8.8 SRA TOOLKIT.................................................................................................. 23 9 CLUSTERING ET VISUALISATION..................................................................24 2 / 26 Logiciels conseillés par la plateforme Version 2 16/08/16 9.1 CLUSTER........................................................................................................ 24 9.2 JAVA TREEVIEW................................................................................................ 24 10 DIVERS............................................................................................................ 25 10.1 GALAXY........................................................................................................ 25 10.2 DIAGRAMME DE VENN......................................................................................25 10.3 FORMATS DE FICHIERS......................................................................................25 10.4 INVENTAIRE DES OUTILS POUR LES ANALYSES DE DONNÉES « OMICS »......................26 3 / 26 Logiciels conseillés par la plateforme Version 2 16/08/16 Introduction Ce document présente divers logiciels gratuits pouvant être utilisés pour l'analyse de données de séquençage à haut débit. Il ne s'agit pas d'un manuel d'utilisation ni d'une liste exhaustive. Avant toute utilisation d'un des logiciels, il est important de se référer à sa documentation et de vérifier qu'il soit adapté au type de données à analyser. La plupart des logiciels présentés s'utilisent en ligne de commande. Lorsque le logiciel présenté est un logiciel que nous utilisons, nous indiquons la dernière version que nous avons testée. 4 / 26 Logiciels conseillés par la plateforme Version 2 16/08/16 1 Contrôle qualité et nettoyage données de séquençage des 1.1 FastQC Fonctionnalités générales Logiciel permettant de faire un contrôle qualité du séquençage. FastQC lit un ensemble de fichiers de séquence et produit à partir de chacun d'eux un rapport de contrôle de la qualité composé d'un certain nombre de modules différents. Chaque module permettra d'identifier un type de problème potentiel sur vos données. Le logiciel prend en entrée des fichiers au format sam, bam et fastq. Le logiciel peut lire directement les fichiers fastq.gz produits par illumina grâce à l'option "--casava". Site web http://www.bioinformatics.babraham.ac.uk/projects/fastqc/ Système Linux, MacOS, Windows Dernière version testée 0.11.5 1.2 FastQ Screen Fonctionnalités générales FastQ Screen permet d'aligner des séquences sur un ensemble de génomes/séquences représentant de potentielles sources de contamination, afin de voir si les séquences en entrée s'alignent bien sur l'organisme attendu. Le logiciel génère un graphique montrant les proportions de reads s'alignant sur les différents génomes testés. FastQ Screen utilise l'aligneur Bowtie ou Bowtie 2. Le logiciel prend en entrée des fichiers au format fastq. Site web http://www.bioinformatics.babraham.ac.uk/projects/fastq_screen/ Système Linux Dernière version testée 0.4.4 5 / 26 Logiciels conseillés par la plateforme Version 2 16/08/16 1.3 Cutadapt Fonctionnalités générales Logiciel permettant de supprimer les séquences des adaptateurs dans des données de séquençage. Cela s'avère nécessaire lorsque la longueur du read est supérieure à celle de la molécule à séquencer, comme pour les microARNs. Il est également possible de couper la fin des reads dont la qualité baisse en fin de séquence. Les adaptateurs Illumina peuvent être renseignés avec l'option -a ADAPTER-SEQUENCE. Le programme prend en entrée et rend en sortie des fichiers au format fastq (éventuellement compressés : fastq.gz), ou au format fasta. Le programme requiert l'installation préalable de Python, version >= 2.6. Site web https://cutadapt.readthedocs.io/en/stable/ Système Linux, MacOS Dernière version testée 1.4.1 Publication DOI:10.14806/ej.17.1.200 1.4 Trimmomatic Fonctionnalités générales Logiciel (java) permettant de supprimer les séquences des adaptateurs dans des données de séquençage Illumina single-read ou paired-end. Cela s'avère nécessaire lorsque la longueur du read est supérieure à celle de la molécule à séquencer, comme pour les microARNs. Il est également possible de couper les reads dont la qualité baisse en début, en fin, ou au cours de la séquence (utilisation d'une fenêtre glissante). Le programme prend en entrée et rend en sortie des fichiers au format fastq (éventuellement compressés : fastq.gz). Un fichier d'adaptateurs au format fasta peut également être fourni en entrée. Site web http://www.usadellab.org/cms/?page=trimmomatic Système Linux, MacOS, Windows Publication Bolger, A. M., Lohse, M., & Usadel, B. (2014). Trimmomatic: A flexible trimmer for Illumina Sequence Data. Bioinformatics, btu170. 6 / 26 Logiciels conseillés par la plateforme Version 2 16/08/16 2 Alignement de séquences 2.1 BWA Fonctionnalités générales Logiciel d'alignement de reads courts. BWA est capable de réaliser trois types d’alignement : 1. BWA-backtrack : pour reads illumina < 100pb (plutôt conseillé pour les reads < 70pb car BWA-MEM est plus performant pour les reads de 70 à 100bp). 2. BWA-SW : pour reads de 70bp à 1Mbp (non conseillé) 3. BWA-MEM : pour reads de 70bp à 1Mbp ; plus rapide et plus précis que BWA-SW car plus récent ; meilleures performances que BWAbacktrack pour les reads Illumina de 70 à 100bp. BWA-MEM est une référence pour l’alignement dans l’analyse de variants génomiques réalisée avec un séquençage illumina PE100. Il prend en entrée des fichiers au format fastq. Les résultats de l'alignement peuvent être exportés au format sam. Site web http://bio-bwa.sourceforge.net Système Linux, MacOS Dernière version testée 0.7.12 Publication BWA-backtrack : Li H. and Durbin R. (2009) Fast and accurate short read alignment with Burrows-Wheeler transform. Bioinformatics, 25, 1754-1760. [PMID: 19451168] 2.2 Bowtie 2 Fonctionnalités générales Logiciel d'alignement de reads courts. Bowtie 2 est capable de réaliser deux types d’alignement : 1. End-to-end alignment : des alignements de l'intégralité du read (toutes ses bases) sont recherchés. 2. Local alignment : seule une partie du read peut être alignée (le logiciel peut omettre des bases en début et en fin de read (trimming)), si cela permet de maximiser le score d'alignement. Le logiciel prend en entrée des fichiers au format fastq. Les résultats de l'alignement peuvent être exportés au format sam. 7 / 26 Logiciels conseillés par la plateforme Version 2 16/08/16 Site web http://bowtie-bio.sourceforge.net/Bowtie 2/index.shtml Système Linux, MacOS, Windows Dernière version testée 2.2.8 Publication Langmead B, Salzberg S. Fast gapped-read alignment with Bowtie 2. Nature Methods. 2012, 9:357-359. 2.3 Novoalign Fonctionnalités générales Logiciel d'alignement de reads courts. Novoalign fait partie de la suite logicielle Novocraft, payante, mais une version d'essai est accessible avec des fonctionnalités réduites (pas de parallélisation par exemple). Un des intérêts de ce logiciel est de pouvoir réaliser des alignements sur des génomes ambigus (bases ambiguës selon le code IUPAC). Site web http://www.novocraft.com/products/novoalign/ Système Linux, MacOS, Windows Dernière version testée 3.01.01 8 / 26 Logiciels conseillés par la plateforme Version 2 16/08/16 3 Alignement et analyse de données de RNA-Seq 3.1 TopHat Fonctionnalités générales TopHat est un logiciel d'alignement de séquences conçu spécialement pour le RNA-Seq. Ce logiciel permet de réaliser des alignements sur les jonctions d'épissage et sur le génome. Les modèles de transcrits peuvent être fournis (fichier gff ou gtf) au logiciel (option « -G ») ; dans ce cas, un alignement sur un transcriptome virtuel extrait à partir des positions des exons est d'abord effectué, puis les reads non alignés sur ce transcriptome seront alignés sur le génome. Dans le cas où les modèles de transcrits ne sont pas fournis, TopHat fera de la découverte de jonctions d'épissage. TopHat (version >=2) utilise Bowtie 2 pour réaliser l'alignement. Site web https://ccb.jhu.edu/software/tophat/index.shtml Système Linux, MacOS Dernière version testée 2.0.13 Publication Trapnell C, Pachter L, Salzberg SL. TopHat: discovering splice junctions with RNA-Seq. Bioinformatics doi:10.1093/bioinformatics/btp120 3.2 STAR Fonctionnalités générales STAR est un logiciel d'alignement de reads RNA-seq. Il est notamment recommandé dans le protocole proposé par Epigenesys. STAR permet d'aligner très rapidement des reads RNA-seq sur le génome de référence en prenant en compte les modèles de transcrits (annotations au format gff/gtf). Les résultats sont fournis au format sam. Site web https://github.com/alexdobin/STAR/releases Système Linux, MacOS 9 / 26 Logiciels conseillés par la plateforme Version 2 16/08/16 Publication A. Dobin et al, STAR: ultrafast universal RNA-seq aligner. Bioinformatics 2012; doi: 10.1093/bioinformatics/bts635 3.3 Cufflinks Fonctionnalités générales Cufflinks permet de faire de l'assemblage de transcrits, de mesurer leur abondance (FPKM) et tester si leur expression est différentielle (Cuffdiff). Cufflinks peut également utiliser des modèles de transcrits (option « -G ») et estimer leur abondance sans faire d'assemblage. Cufflinks donne l'abondance des transcrits en FPKM (Fragments Per Kilobase of exon model per Million mapped fragments) qui sont des valeurs normalisées par la taille des transcrits et par la profondeur de séquençage. Pour obtenir des « Raw counts » , nombre de reads par gène (valeurs demandées en entrée par edgeR et DESeq(2)), il faudra utiliser un autre logiciel comme HTSeqcount. L'utilisation de la normalisation FPKM (ou RPKM – Reads Per Kilobase per Million) n'est pas recommandée (Dillies et al., 2013) dans le cadre d'une analyse statistique visant à mettre en évidence des gènes différentiellement exprimés entre deux conditions biologiques. Site web http://cole-trapnell-lab.github.io/cufflinks/ Système Linux, MacOS Publication Cole Trapnell, Brian Williams, Geo Pertea, Ali Mortazavi, Gordon Kwan, Jeltje van Baren, Steven Salzberg, Barbara Wold, Lior Pachter. Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation. Nature Biotechnology, 2010. doi:10.1038/nbt.1621 3.4 htseq-count (HTSeq) Fonctionnalités générales htseq-count est un script appartenant au package Python HTSeq. Il permet, à partir d'un fichier de reads alignés (format sam/bam) et d'un fichier d'annotations (format gff/gtf), de compter le nombre de reads s'alignant sur chaque élément (gènes, exons, …). Il propose différentes façons de gérer les cas où un read chevauche plusieurs éléments. Site web http://www-huber.embl.de/users/anders/HTSeq/doc/count.html Système Linux, MacOS, Windows 10 / 26 Logiciels conseillés par la plateforme Version 2 16/08/16 Dernière version testée 0.6.1p1 Publication S Anders, PT Pyl, W Huber. HTSeq — A Python framework to work with high-throughput sequencing data. Bioinformatics (2014) 3.5 featureCounts Fonctionnalités générales featureCounts est un programme faisant partie de la suite Subreads. Il permet de compter les reads à partir d'un fichier de reads alignés (format sam/bam) et d'un fichier d'annotations (format gtf). Il est décrit comme très rapide et ne nécessitant que peu de mémoire. Différentes options sont disponibles pour s'adapter aux différentes applications possibles. Site web http://subread.sourceforge.net/ Système Linux, MacOS Publication Liao Y, Smyth GK and Shi W. featureCounts: an efficient general-purpose program for assigning sequence reads to genomic features. Bioinformatics, 30(7):923-30, 2014 3.6 edgeR Fonctionnalités générales edgeR est un package Bioconductor qui permet de réaliser des analyses d'expression différentielle à partir de données de RNA-seq avec réplicats biologiques. Le package se base sur une méthode bayésienne empirique et implémente un test exact ou un modèle linéaire généralisé fondés sur la loi binomiale négative. Il peut également servir à l'analyse différentielle d'autres types de données de comptage génomique. Il prend en entrée des fichiers contenant des comptages entiers non normalisés, où les lignes correspondent aux gènes ou aux éléments génomiques, et les colonnes aux différents échantillons. Site web http://www.bioconductor.org/packages/release/bioc/html/edgeR.html Système Linux, MacOS, Windows. Requiert l'installation préalable du logiciel R (http://www.r-project.org/ ). 11 / 26 Logiciels conseillés par la plateforme Version 2 16/08/16 Dernière version testée 3.8.6 Publication Robinson MD, McCarthy DJ and Smyth GK (2010). edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics 26, 139-140 3.7 DESeq et DESeq2 Fonctionnalités générales DESeq est un package Bioconductor permettant d'estimer la dépendance variance-moyenne dans des données de comptage issues d'expériences de séquençage à haut débit comme le RNA-Seq, et de tester l'expression différentielle en se basant sur un modèle utilisant la distribution binomiale négative. Il prend en entrée des fichiers contenant des comptages entiers non normalisés, où les lignes correspondent aux gènes ou aux éléments génomiques, et les colonnes aux différents échantillons. DESeq2 est une évolution de DESeq dans laquelle le test exact est remplacé par un test utilisant le modèle linéaire généralisé. Le mode de calcul les fold-changes ainsi que l'estimation de la dispersion ont été revus afin de mieux gérer les gènes ayant de faibles comptages. Sites web http://www.bioconductor.org/packages/release/bioc/html/DESeq.html http://www.bioconductor.org/packages/release/bioc/html/DESeq2.html Système Linux, MacOS, Windows. Requiert l'installation préalable du logiciel R (http://www.r-project.org/ ). Dernières versions testées DESeq 1.18.0 ; DESeq2 1.6.3 Publications Simon Anders and Wolfgang Huber (2010): Differential expression analysis for sequence count data. Genome Biology 11:R106 Michael I Love, Wolfgang Huber and Simon Anders (2014): Moderated estimation of fold change and dispersion for RNA-Seq data with DESeq2. Genome Biology 12 / 26 Logiciels conseillés par la plateforme Version 2 16/08/16 4 Détection de variants 4.1 samtools mpileup / bcftools call Fonctionnalités générales L'outil samtools mpilepup permet de convertir les reads alignés (fichiers bam) en comptages par position génomique. L'outil bcftools call met ensuite en œuvre une méthode statistique basée sur un modèle bayésien, afin d'identifier des sites variants par rapport à la référence (SNP et indels). Site web http://www.htslib.org Wokflow pour la détection de variants : http://www.htslib.org/workflow/#mapping_to_variant Système Linux, MasOS Dernière version testée 1.2 Publications • Li H., Handsaker B., Wysoker A., Fennell T., Ruan J., Homer N., Marth G., Abecasis G., Durbin R. and 1000 Genome Project Data Processing Subgroup (2009) The Sequence alignment/map (SAM) format and SAMtools. Bioinformatics, 25, 2078-9. [PMID: 19505943] • Li H. A statistical framework for SNP calling, mutation discovery, association mapping and population genetical parameter estimation from sequencing data. Bioinformatics. 2011 Nov 1;27(21):2987-93. Epub 2011 Sep 8. [PMID: 21903627] • Danecek P., Schiffels S., Durbin R. Multiallelic calling model in bcftools (-m) [link] • Li H. Improving SNP discovery by base alignment quality. Bioinformatics. 2011 Apr 15;27(8):1157-8. doi: 10.1093/bioinformatics/btr076. Epub 2011 Feb 13. [PMID: 21320865] • Durbin R. Segregation based metric for variant call QC [link] • Li H, Mathematical Notes on SAMtools Algorithms [link] 4.2 GATK (Genome Analysis ToolKit) Fonctionnalités générales Le logiciel GATK fournit de nombreux outils dont l'objectif premier est la détection de variants et le génotypage. L'outil principal pour la détection de 13 / 26 Logiciels conseillés par la plateforme Version 2 16/08/16 variants est HaplotypeCaller. Un workflow, mis à jour régulièrement, est proposé sur le site (rubrique « Best practices »). Il est devenu un standard dans le domaine, notamment pour la découverte de variants chez l'Homme à partir de reads Illumina (objectif ayant motivé le développement du logiciel au Broad Institute). Le site web est très riche en documentation, tutoriaux, forums, etc. Site web https://software.broadinstitute.org/gatk/ Système Linux, MacOS Dernière version testée 3.4.46 (outils testés : RealignerTargetCreator et IndelRealigner) Publications The Genome Analysis Toolkit: a MapReduce framework for analyzing nextgeneration DNA sequencing data. McKenna A, Hanna M, Banks E, Sivachenko A, Cibulskis K, Kernytsky A, Garimella K, Altshuler D, Gabriel S, Daly M, DePristo MA, 2010 GENOME RESEARCH 20:1297-303 A framework for variation discovery and genotyping using next-generation DNA sequencing data. DePristo M, Banks E, Poplin R, Garimella K, Maguire J, Hartl C, Philippakis A, del Angel G, Rivas MA, Hanna M, McKenna A, Fennell T, Kernytsky A, Sivachenko A, Cibulskis K, Gabriel S, Altshuler D, Daly M, 2011 NATURE GENETICS 43:491-498 From FastQ Data to High-Confidence Variant Calls: The Genome Analysis Toolkit Best Practices Pipeline. Van der Auwera GA, Carneiro M, Hartl C, Poplin R, del Angel G, Levy-Moonshine A, Jordan T, Shakir K, Roazen D, Thibault J, Banks E, Garimella K, Altshuler D, Gabriel S, DePristo M, 2013 CURRENT PROTOCOLS IN BIOINFORMATICS 43:11.10.1-11.10.33 4.3 ANNOVAR Fonctionnalités générales ANNOVAR permet d'annoter fonctionnellement des variants en fonction de différentes données disponibles dans les bases de données publiques. Il est ainsi possible d'obtenir des annotations en fonction des gènes (nom du gène, exon, intron, provoque un changement d'acide aminé, etc), ou de certains types de régions (régions conservées entre espèces, sites de liaisons de facteurs de transcription, etc). Site web http://annovar.openbioinformatics.org/en/latest/ Système Linux, MacOS, Windows. Requiert l'installation de Perl. 14 / 26 Logiciels conseillés par la plateforme Version 2 16/08/16 Dernière version testée annovar_201506 Publication Wang K, Li M, Hakonarson H. ANNOVAR: Functional annotation of genetic variants from next-generation sequencing data Nucleic Acids Research, 38:e164, 2010 15 / 26 Logiciels conseillés par la plateforme Version 2 16/08/16 5 Analyse de données de ChIP-Seq 5.1 MACS Fonctionnalités générales Model-based Analysis of ChIP-Seq (MACS) est un logiciel en ligne de commande conçu pour analyser des données issues d'expériences de ChIP-Seq chez les eucaryotes. MACS peut être utilisé pour identifier les sites de liaisons de facteurs de transcription ou des régions enrichies en modifications d'histones. Il prend en entrée les fichiers de reads alignés (dont les formats bed, sam ou bam). Il requiert l'installation préalable de Python, version >= 2.6.5. Sites web MACS (version 1) : http://liulab.dfci.harvard.edu/MACS/ MACS2 : https://github.com/taoliu/MACS Système Linux, MacOS, Windows Versions testées 1.4.2 et 2.1.0 Publication Zhang et al. Model-based Analysis of ChIP-Seq (MACS). Genome Biol. (2008) vol. 9 (9) pp. R137 16 / 26 Logiciels conseillés par la plateforme Version 2 16/08/16 6 Analyse de données RRBS (Reduced Representation Bisulfite Sequencing) 6.1 Trim Galore! Fonctionnalités générales Les banques de type RRBS incluent une étape de digestion par l'enzyme de restriction MspI. Les reads qui sont plus longs que le fragment MspI nécessitent une étape de nettoyage afin de supprimer l'adaptateur et les deux bases ajoutées artificiellement lors de la préparation des banques. L'outil Trim Galore! utilise Cutadapt et FastQC afin de couper correctement les reads de ce type. Sites web http://www.bioinformatics.babraham.ac.uk/projects/trim_galore/ Système Linux Version testée 0.4.0 6.2 Bismark Fonctionnalités générales Le logiciel d'alignement Bismark permet d'aligner des reads traités au bisulfite sur un génome de référence et de déterminer leur état de méthylation en une seule étape. Il prend en entrée des fichiers au format fastq. Des fichiers au format BAM sont produits, ainsi que des fichiers détaillant l'état de méthylation des bases. Site web http://www.bioinformatics.babraham.ac.uk/projects/bismark/ Système Linux Version testée 0.4.3 6.3 SeqMonk Fonctionnalités générales 17 / 26 Logiciels conseillés par la plateforme Version 2 16/08/16 SeqMonk permet de visualiser (et éventuellement analyser) des alignements. Il est possible de naviguer facilement le long d'un génome annoté. Dans le cas de données de méthylation, il permet de visualiser directement les cytosines méthylées et les cytosines non méthylées. Site web http://www.bioinformatics.babraham.ac.uk/projects/seqmonk/ Système Linux, MacOS, Windows Version testée 0.31.0 6.4 MethylSig Fonctionnalités générales MethylSig est un package R permettant d'analyser des données de bis-seq (whole-genome bisulfite sequencing) ou de RRBS. Les données sont modélisées selon un modèle beta-binomial pour prendre en compte les variations de couverture et les variations biologiques entre échantillons. Les tests statistiques permettent de mettre en évidence des sites (cytosines) différentiellement méthylés (DMC) ou des régions différentiellement méthylées (DMR). Les résultats peuvent être annotés selon le type de région dans lesquelles ils se situent (îlots CpG, régions intergéniques, etc). Site web http://sartorlab.ccmb.med.umich.edu/node/17 Système Linux, MacOS, Windows. Requiert l'installation préalable du logiciel R (http://www.r-project.org/ ). Version testée 0.1.3 Publication Park Y, Figueroa ME, Rozek LS, Sartor MA. MethylSig: a whole genome DNA methylation analysis pipeline. Bioinformatics. 2014 Sep 1;30(17):2414-22. doi: 10.1093/bioinformatics/btu339 18 / 26 Logiciels conseillés par la plateforme Version 2 16/08/16 7 Analyse de données de RAD-seq 7.1 STACKS Fonctionnalités générales Stacks est un logiciel conçu pour construire des loci à partir de reads courts. Il a été développé pour des données issues de digestions par des enzymes de restriction, comme le RAD-seq, avec l'objectif de construire des cartes génétiques et de réaliser des études de génomique des populations et de la phylo-géographie. Site web http://catchenlab.life.illinois.edu/stacks/ Système Linux, MacOS Version testée 1.35 (process_radtags uniquement, qui permet de démultiplexer des données RAD-seq) Publications J. Catchen, P. Hohenlohe, S. Bassham, A. Amores, and W. Cresko. Stacks: an analysis tool set for population genomics. Molecular Ecology. 2013. J. Catchen, A. Amores, P. Hohenlohe, W. Cresko, and J. Postlethwait. Stacks: building and genotyping loci de novo from short-read sequences. G3: Genes, Genomes, Genetics, 1:171-182, 2011. 19 / 26 Logiciels conseillés par la plateforme Version 2 16/08/16 8 Manipulation et visualisation de fichiers 8.1 FASTX-Toolkit Fonctionnalités générales FASTX-Toolkit est un ensemble d'outils en ligne de commande pour manipuler des fichiers au format FastQ ou Fasta. Parmi ces outils, « Fastxbarcode-splitter » permet de séparer des séquences issues de différents échantillons identifiables grâce à un barcode ; « Fastx-trimmer » permet de raccourcir des reads, etc. Site web http://hannonlab.cshl.edu/fastx_toolkit/ Système Linux, MacOS Dernière version testée 0.0.13 8.2 Samtools Fonctionnalités générales Sam est un format standard de fichier d'alignement. Samtools est une suite de programmes permettant de manipuler des fichiers au format sam (conversion au format bam (binaire correspondant), tri, création d'index, statistiques sur l'alignement, nettoyage de potentiels biais de PCR, ...). Samtools contient également un module permettant la recherche de SNP et indels (cf. section « Détection de variants »). Site web http://www.htslib.org/ Système Linux, MacOS Dernière version testée 1.2 Publication Li H., Handsaker B., Wysoker A., Fennell T., Ruan J., Homer N., Marth G., Abecasis G., Durbin R. and 1000 Genome Project Data Processing Subgroup (2009) The Sequence alignment/map (SAM) format and SAMtools. Bioinformatics, 25, 2078-9. [PMID: 19505943] 20 / 26 Logiciels conseillés par la plateforme Version 2 16/08/16 8.3 Sambamba Fonctionnalités générales Sambamba propose des fonctionnalités similaires aux principaux outils de Samtools (sort, index, ...), mais permet de paralléliser les tâches, ce qui le rend beaucoup plus performant. Site web http://lomereiter.github.io/sambamba/ Système Linux, MacOS Dernière version testée 0.5.1 Publication A. Tarasov, A. J. Vilella, E. Cuppen, I. J. Nijman, and P. Prins. Sambamba: fast processing of NGS alignment formats. Bioinformatics, 2015. 8.4 Bcftools Fonctionnalités générales Bcftools est un ensemble de programmes pour manipuler des fichiers de variants au format vcf ou bcf (équivalent binaire du vcf) : intersections, annotations, filtres, indexages, production de statistiques, … Site web http://www.htslib.org/ Système Linux, MacOS Dernière version testée 1.2 8.5 Picard tools Fonctionnalités générales Picard fournit un grand nombre de programmes (Java) pour manipuler des fichiers aux formats sam/bam/cram ou vcf. Plusieurs outils spécifiques au type d'application (RNA-seq, WES, WGS, …) permettent d'obtenir des statistiques sur les alignements (ex : CollectRnaSeqMetrics, …). L'outil MarkDuplicates est fortement utilisé par la communauté pour marquer les paires de reads dupliquées (probablement dues aux biais de PCR). 21 / 26 Logiciels conseillés par la plateforme Version 2 16/08/16 Site web https://broadinstitute.github.io/picard/ Système Linux, MacOS. Requiert l'installation de Python (2.7 pour la version 1, 2.8 pour la version 2) Dernière version testée 1.141 8.6 IGV Fonctionnalités générales Integrative Genomics Viewer (IGV) est un outil de visualisation pour l'exploration interactive de grands jeux de données génomiques. Les annotations de gènes de nombreux génomes sont incluses. Il permet de visualiser un grand nombre de formats de fichiers : fichiers bam (triés par position et indexés), bed, gff, vcf, ... Site web http://www.broadinstitute.org/software/igv/ Système Linux, MacOS, Windows. Dernière version testée 2.3 Publication James T. Robinson, Helga Thorvaldsdóttir, Wendy Winckler, Mitchell Guttman, Eric S. Lander, Gad Getz, Jill P. Mesirov. Integrative Genomics Viewer. Nature Biotechnology 29, 24–26 (2011) 8.7 Bedtools Fonctionnalités générales Bedtools est un ensemble d'outils permettant de travailler sur des intervalles génomiques (intersections, fusion, comptage, …). Il peut utiliser en entrée divers formats comme bam, bed, gff/gtf, vcf. Site web http://bedtools.readthedocs.io/en/latest/ Système Linux, MacOS Dernière version testée 2.21.0 22 / 26 Logiciels conseillés par la plateforme Version 2 16/08/16 8.8 SRA toolkit Fonctionnalités générales Sequence Read Archive (SRA) est un service du NCBI permettant de stocker et de mettre à disposition de la communauté des chercheurs les séquences issues de séquençage haut-débit. Le SRA Toolkit est un ensemble d'outils permettant le téléchargement, la lecture ou l'écriture de fichiers depuis ou vers le format sra. Site web http://www.ncbi.nlm.nih.gov/sra Système Linux, MacOS, Windows Dernière version testée 2.5.0-1-centos_linux64 23 / 26 Logiciels conseillés par la plateforme Version 2 16/08/16 9 Clustering et visualisation 9.1 Cluster Fonctionnalités générales Cluster permet de mettre en œuvre différentes méthodes d'analyses nonsupervisées. Cela comprend la classification hiérarchique, les cartes de Kohonen (SOMs), les nuées dynamiques (k-means) et l'analyse en composantes principales. Les méthodes de classification hiérarchique (lien unique, lien moyen et lien complet) peuvent être notamment appliquées en utilisant différentes mesures de similarité (distance de corrélation centrée ou non centrée, corrélation des rangs de Spearman,...). Le logiciel permet d'appliquer divers traitements (centrage médian des gènes, transformation logarithmique...) avant classification. Ce logiciel a été développé pour traiter les données de puces à ADN. Site web http://bonsai.hgc.jp/~mdehoon/software/cluster/software.htm Système Linux, MacOS, Windows. Dernière version testée 3.0 9.2 Java Treeview Fonctionnalités générales Logiciel permettant la visualisation sous forme de carte thermique (« heat map ») des données préalablement classées par le logiciel Cluster. Lors de la classification hiérarchique des données, les gènes et les échantillons sont ordonnés de manière hiérarchique dans un dendogramme qui peut être visualisé grâce au logiciel Treeview. Site web http://jtreeview.sourceforge.net/ Système Linux, MacOS, Windows. Dernière version testée 1.1.6r4 Publication Alok J. Saldanha. Java Treeview—extensible visualization of microarray data. Bioinformatics (2004) 20 (17): 3246-3248. 24 / 26 Logiciels conseillés par la plateforme Version 2 16/08/16 10 Divers 10.1 Galaxy Fonctionnalités générales Galaxy est une plateforme web qui rassemble de très nombreux logiciels d'analyse NGS (manipulation de fichiers, alignement de séquence, analyses ChIP-Seq, SNP, RNA-seq...), habituellement disponibles en ligne de commande, sur une interface web simple d'utilisation et conviviale. L'utilisateur peut directement utiliser la sortie d'un logiciel en entrée d'un autre logiciel, et ainsi générer facilement des workflows d'analyse réutilisables. Sur leur instance publique (lien), les calculs sont effectués sur leurs propres serveurs mais il est également possible d'installer sa propre instance et d'y ajouter ses propres outils. Site web https://usegalaxy.org/ Système Outil web 10.2 Diagramme de Venn Fonctionnalités générales Il existe diverses interfaces web permettant de faire des diagrammes de Venn en ligne. Ce type de représentation permet de comparer facilement des listes de gènes et d'obtenir les gènes des intersections. Site web http://bioinfogp.cnb.csic.es/tools/venny/index.html http://bioinfo.genotoul.fr/jvenn/example.html Système interface web Publication jvenn : Philippe Bardou, Jérôme Mariette, Frédéric Escudié, Christophe Djemiel and Christophe Klopp. jvenn: an interactive Venn diagram viewer. BMC Bioinformatics 2014, 15:293 doi:10.1186/1471-2105-15-293 10.3 Formats de fichiers Une documentation sur les différents formats de fichier est disponible sur UCSC : http://genome.ucsc.edu/FAQ/FAQformat.html 25 / 26 Logiciels conseillés par la plateforme Version 2 16/08/16 10.4 Inventaire des outils pour les analyses de données « OMICS » Site web proposant une classification des outils utilisés dans l'analyse de données « omics », et en particulier les données de séquençage hautdébit. Les listes proposées paraissent assez exhaustives à ce jour (2016). Site web https://omictools.com/ Publication Henry VJ, Bandrowski AE, Pepin AS, Gonzalez BJ, Desfeux A. (2014) OMICtools: an informative directory for multi-omic data analysis. Database (Oxford). 26 / 26