Mode d`emploi pour générer un

Transcription

Mode d`emploi pour générer un
Logiciels conseillés par la
plateforme
Version 2
16/08/16
Logiciels conseillés par la
plateforme
Logiciels conseillés par la
plateforme
Version 2
16/08/16
Table des matières
INTRODUCTION...................................................................................................... 4
1 CONTRÔLE QUALITÉ ET NETTOYAGE DES DONNÉES DE SÉQUENÇAGE.5
1.1 FASTQC.......................................................................................................... 5
1.2 FASTQ SCREEN................................................................................................. 5
1.3 CUTADAPT......................................................................................................... 6
1.4 TRIMMOMATIC..................................................................................................... 6
2 ALIGNEMENT DE SÉQUENCES........................................................................7
2.1 BWA.............................................................................................................. 7
2.2 BOWTIE 2......................................................................................................... 7
2.3 NOVOALIGN....................................................................................................... 8
3 ALIGNEMENT ET ANALYSE DE DONNÉES DE RNA-SEQ...............................9
3.1 TOPHAT........................................................................................................... 9
3.2 STAR............................................................................................................. 9
3.3 CUFFLINKS...................................................................................................... 10
3.4 HTSEQ-COUNT (HTSEQ)....................................................................................10
3.5 FEATURECOUNTS.............................................................................................. 11
3.6 EDGER........................................................................................................... 11
3.7 DESEQ ET DESEQ2.......................................................................................12
4 DÉTECTION DE VARIANTS..............................................................................13
4.1 SAMTOOLS MPILEUP / BCFTOOLS CALL.....................................................................13
4.2 GATK (GENOME ANALYSIS TOOLKIT)..................................................................13
4.3 ANNOVAR................................................................................................... 14
5 ANALYSE DE DONNÉES DE CHIP-SEQ..........................................................16
5.1 MACS.......................................................................................................... 16
6 ANALYSE DE DONNÉES RRBS (REDUCED REPRESENTATION BISULFITE
SEQUENCING)...................................................................................................... 17
6.1 TRIM GALORE!.................................................................................................17
6.2 BISMARK......................................................................................................... 17
6.3 SEQMONK...................................................................................................... 17
6.4 METHYLSIG.................................................................................................... 18
7 ANALYSE DE DONNÉES DE RAD-SEQ...........................................................19
7.1 STACKS...................................................................................................... 19
8 MANIPULATION ET VISUALISATION DE FICHIERS.......................................20
8.1 FASTX-TOOLKIT.............................................................................................20
8.2 SAMTOOLS...................................................................................................... 20
8.3 SAMBAMBA...................................................................................................... 21
8.4 BCFTOOLS...................................................................................................... 21
8.5 PICARD TOOLS................................................................................................. 21
8.6 IGV.............................................................................................................. 22
8.7 BEDTOOLS...................................................................................................... 22
8.8 SRA TOOLKIT.................................................................................................. 23
9 CLUSTERING ET VISUALISATION..................................................................24
2 / 26
Logiciels conseillés par la
plateforme
Version 2
16/08/16
9.1 CLUSTER........................................................................................................ 24
9.2 JAVA TREEVIEW................................................................................................ 24
10 DIVERS............................................................................................................ 25
10.1 GALAXY........................................................................................................ 25
10.2 DIAGRAMME DE VENN......................................................................................25
10.3 FORMATS DE FICHIERS......................................................................................25
10.4 INVENTAIRE DES OUTILS POUR LES ANALYSES DE DONNÉES « OMICS »......................26
3 / 26
Logiciels conseillés par la
plateforme
Version 2
16/08/16
Introduction
Ce document présente divers logiciels gratuits pouvant être utilisés pour
l'analyse de données de séquençage à haut débit. Il ne s'agit pas d'un
manuel d'utilisation ni d'une liste exhaustive. Avant toute utilisation d'un des
logiciels, il est important de se référer à sa documentation et de vérifier qu'il
soit adapté au type de données à analyser.
La plupart des logiciels présentés s'utilisent en ligne de commande.
Lorsque le logiciel présenté est un logiciel que nous utilisons, nous
indiquons la dernière version que nous avons testée.
4 / 26
Logiciels conseillés par la
plateforme
Version 2
16/08/16
1 Contrôle qualité et nettoyage
données de séquençage
des
1.1 FastQC
Fonctionnalités générales
Logiciel permettant de faire un contrôle qualité du séquençage.
FastQC lit un ensemble de fichiers de séquence et produit à partir de
chacun d'eux un rapport de contrôle de la qualité composé d'un certain
nombre de modules différents.
Chaque module permettra d'identifier un type de problème potentiel sur vos
données.
Le logiciel prend en entrée des fichiers au format sam, bam et fastq.
Le logiciel peut lire directement les fichiers fastq.gz produits par illumina
grâce à l'option "--casava".
Site web
http://www.bioinformatics.babraham.ac.uk/projects/fastqc/
Système
Linux, MacOS, Windows
Dernière version testée
0.11.5
1.2 FastQ Screen
Fonctionnalités générales
FastQ Screen permet d'aligner des séquences sur un ensemble de
génomes/séquences
représentant
de
potentielles
sources
de
contamination, afin de voir si les séquences en entrée s'alignent bien sur
l'organisme attendu. Le logiciel génère un graphique montrant les
proportions de reads s'alignant sur les différents génomes testés. FastQ
Screen utilise l'aligneur Bowtie ou Bowtie 2.
Le logiciel prend en entrée des fichiers au format fastq.
Site web
http://www.bioinformatics.babraham.ac.uk/projects/fastq_screen/
Système
Linux
Dernière version testée
0.4.4
5 / 26
Logiciels conseillés par la
plateforme
Version 2
16/08/16
1.3 Cutadapt
Fonctionnalités générales
Logiciel permettant de supprimer les séquences des adaptateurs dans des
données de séquençage. Cela s'avère nécessaire lorsque la longueur du
read est supérieure à celle de la molécule à séquencer, comme pour les
microARNs. Il est également possible de couper la fin des reads dont la
qualité baisse en fin de séquence. Les adaptateurs Illumina peuvent être
renseignés avec l'option -a ADAPTER-SEQUENCE.
Le programme prend en entrée et rend en sortie des fichiers au format
fastq (éventuellement compressés : fastq.gz), ou au format fasta.
Le programme requiert l'installation préalable de Python, version >= 2.6.
Site web
https://cutadapt.readthedocs.io/en/stable/
Système
Linux, MacOS
Dernière version testée
1.4.1
Publication
DOI:10.14806/ej.17.1.200
1.4 Trimmomatic
Fonctionnalités générales
Logiciel (java) permettant de supprimer les séquences des adaptateurs
dans des données de séquençage Illumina single-read ou paired-end. Cela
s'avère nécessaire lorsque la longueur du read est supérieure à celle de la
molécule à séquencer, comme pour les microARNs. Il est également
possible de couper les reads dont la qualité baisse en début, en fin, ou au
cours de la séquence (utilisation d'une fenêtre glissante).
Le programme prend en entrée et rend en sortie des fichiers au format
fastq (éventuellement compressés : fastq.gz). Un fichier d'adaptateurs au
format fasta peut également être fourni en entrée.
Site web
http://www.usadellab.org/cms/?page=trimmomatic
Système
Linux, MacOS, Windows
Publication
Bolger, A. M., Lohse, M., & Usadel, B. (2014). Trimmomatic: A flexible
trimmer for Illumina Sequence Data. Bioinformatics, btu170.
6 / 26
Logiciels conseillés par la
plateforme
Version 2
16/08/16
2 Alignement de séquences
2.1 BWA
Fonctionnalités générales
Logiciel d'alignement de reads courts.
BWA est capable de réaliser trois types d’alignement :
1. BWA-backtrack : pour reads illumina < 100pb (plutôt conseillé
pour les reads < 70pb car BWA-MEM est plus performant pour les reads de
70 à 100bp).
2. BWA-SW : pour reads de 70bp à 1Mbp (non conseillé)
3. BWA-MEM : pour reads de 70bp à 1Mbp ; plus rapide et plus
précis que BWA-SW car plus récent ; meilleures performances que BWAbacktrack pour les reads Illumina de 70 à 100bp.
BWA-MEM est une référence pour l’alignement dans l’analyse de variants
génomiques réalisée avec un séquençage illumina PE100.
Il prend en entrée des fichiers au format fastq. Les résultats de l'alignement
peuvent être exportés au format sam.
Site web
http://bio-bwa.sourceforge.net
Système
Linux, MacOS
Dernière version testée
0.7.12
Publication
BWA-backtrack : Li H. and Durbin R. (2009) Fast and accurate short read
alignment with Burrows-Wheeler transform. Bioinformatics, 25, 1754-1760.
[PMID: 19451168]
2.2 Bowtie 2
Fonctionnalités générales
Logiciel d'alignement de reads courts.
Bowtie 2 est capable de réaliser deux types d’alignement :
1. End-to-end alignment : des alignements de l'intégralité du read
(toutes ses bases) sont recherchés.
2. Local alignment : seule une partie du read peut être alignée (le
logiciel peut omettre des bases en début et en fin de read (trimming)), si
cela permet de maximiser le score d'alignement.
Le logiciel prend en entrée des fichiers au format fastq. Les résultats de
l'alignement peuvent être exportés au format sam.
7 / 26
Logiciels conseillés par la
plateforme
Version 2
16/08/16
Site web
http://bowtie-bio.sourceforge.net/Bowtie 2/index.shtml
Système
Linux, MacOS, Windows
Dernière version testée
2.2.8
Publication
Langmead B, Salzberg S. Fast gapped-read alignment with Bowtie 2.
Nature Methods. 2012, 9:357-359.
2.3 Novoalign
Fonctionnalités générales
Logiciel d'alignement de reads courts.
Novoalign fait partie de la suite logicielle Novocraft, payante, mais une
version d'essai est accessible avec des fonctionnalités réduites (pas de
parallélisation par exemple). Un des intérêts de ce logiciel est de pouvoir
réaliser des alignements sur des génomes ambigus (bases ambiguës selon
le code IUPAC).
Site web
http://www.novocraft.com/products/novoalign/
Système
Linux, MacOS, Windows
Dernière version testée
3.01.01
8 / 26
Logiciels conseillés par la
plateforme
Version 2
16/08/16
3 Alignement et analyse de données de
RNA-Seq
3.1 TopHat
Fonctionnalités générales
TopHat est un logiciel d'alignement de séquences conçu spécialement pour
le RNA-Seq. Ce logiciel permet de réaliser des alignements sur les
jonctions d'épissage et sur le génome. Les modèles de transcrits peuvent
être fournis (fichier gff ou gtf) au logiciel (option « -G ») ; dans ce cas, un
alignement sur un transcriptome virtuel extrait à partir des positions des
exons est d'abord effectué, puis les reads non alignés sur ce transcriptome
seront alignés sur le génome. Dans le cas où les modèles de transcrits ne
sont pas fournis, TopHat fera de la découverte de jonctions d'épissage.
TopHat (version >=2) utilise Bowtie 2 pour réaliser l'alignement.
Site web
https://ccb.jhu.edu/software/tophat/index.shtml
Système
Linux, MacOS
Dernière version testée
2.0.13
Publication
Trapnell C, Pachter L, Salzberg SL. TopHat: discovering splice junctions
with RNA-Seq. Bioinformatics doi:10.1093/bioinformatics/btp120
3.2 STAR
Fonctionnalités générales
STAR est un logiciel d'alignement de reads RNA-seq. Il est notamment
recommandé dans le protocole proposé par Epigenesys.
STAR permet d'aligner très rapidement des reads RNA-seq sur le génome
de référence en prenant en compte les modèles de transcrits (annotations
au format gff/gtf). Les résultats sont fournis au format sam.
Site web
https://github.com/alexdobin/STAR/releases
Système
Linux, MacOS
9 / 26
Logiciels conseillés par la
plateforme
Version 2
16/08/16
Publication
A. Dobin et al, STAR: ultrafast universal RNA-seq aligner. Bioinformatics
2012; doi: 10.1093/bioinformatics/bts635
3.3 Cufflinks
Fonctionnalités générales
Cufflinks permet de faire de l'assemblage de transcrits, de mesurer leur
abondance (FPKM) et tester si leur expression est différentielle (Cuffdiff).
Cufflinks peut également utiliser des modèles de transcrits (option « -G »)
et estimer leur abondance sans faire d'assemblage. Cufflinks donne
l'abondance des transcrits en FPKM (Fragments Per Kilobase of exon
model per Million mapped fragments) qui sont des valeurs normalisées par
la taille des transcrits et par la profondeur de séquençage. Pour obtenir des
« Raw counts » , nombre de reads par gène (valeurs demandées en entrée
par edgeR et DESeq(2)), il faudra utiliser un autre logiciel comme HTSeqcount. L'utilisation de la normalisation FPKM (ou RPKM – Reads Per
Kilobase per Million) n'est pas recommandée (Dillies et al., 2013) dans le
cadre d'une analyse statistique visant à mettre en évidence des gènes
différentiellement exprimés entre deux conditions biologiques.
Site web
http://cole-trapnell-lab.github.io/cufflinks/
Système
Linux, MacOS
Publication
Cole Trapnell, Brian Williams, Geo Pertea, Ali Mortazavi, Gordon Kwan,
Jeltje van Baren, Steven Salzberg, Barbara Wold, Lior Pachter. Transcript
assembly and quantification by RNA-Seq reveals unannotated transcripts
and isoform switching during cell differentiation. Nature Biotechnology,
2010. doi:10.1038/nbt.1621
3.4 htseq-count (HTSeq)
Fonctionnalités générales
htseq-count est un script appartenant au package Python HTSeq. Il permet,
à partir d'un fichier de reads alignés (format sam/bam) et d'un fichier
d'annotations (format gff/gtf), de compter le nombre de reads s'alignant sur
chaque élément (gènes, exons, …). Il propose différentes façons de gérer
les cas où un read chevauche plusieurs éléments.
Site web
http://www-huber.embl.de/users/anders/HTSeq/doc/count.html
Système
Linux, MacOS, Windows
10 / 26
Logiciels conseillés par la
plateforme
Version 2
16/08/16
Dernière version testée
0.6.1p1
Publication
S Anders, PT Pyl, W Huber. HTSeq — A Python framework to work with
high-throughput sequencing data. Bioinformatics (2014)
3.5 featureCounts
Fonctionnalités générales
featureCounts est un programme faisant partie de la suite Subreads. Il
permet de compter les reads à partir d'un fichier de reads alignés (format
sam/bam) et d'un fichier d'annotations (format gtf). Il est décrit comme très
rapide et ne nécessitant que peu de mémoire. Différentes options sont
disponibles pour s'adapter aux différentes applications possibles.
Site web
http://subread.sourceforge.net/
Système
Linux, MacOS
Publication
Liao Y, Smyth GK and Shi W. featureCounts: an efficient general-purpose
program for assigning sequence reads to genomic features. Bioinformatics,
30(7):923-30, 2014
3.6 edgeR
Fonctionnalités générales
edgeR est un package Bioconductor qui permet de réaliser des analyses
d'expression différentielle à partir de données de RNA-seq avec réplicats
biologiques. Le package se base sur une méthode bayésienne empirique
et implémente un test exact ou un modèle linéaire généralisé fondés sur la
loi binomiale négative. Il peut également servir à l'analyse différentielle
d'autres types de données de comptage génomique.
Il prend en entrée des fichiers contenant des comptages entiers non
normalisés, où les lignes correspondent aux gènes ou aux éléments
génomiques, et les colonnes aux différents échantillons.
Site web
http://www.bioconductor.org/packages/release/bioc/html/edgeR.html
Système
Linux, MacOS, Windows. Requiert l'installation préalable du logiciel R
(http://www.r-project.org/ ).
11 / 26
Logiciels conseillés par la
plateforme
Version 2
16/08/16
Dernière version testée
3.8.6
Publication
Robinson MD, McCarthy DJ and Smyth GK (2010). edgeR: a Bioconductor
package for differential expression analysis of digital gene expression data.
Bioinformatics 26, 139-140
3.7 DESeq et DESeq2
Fonctionnalités générales
DESeq est un package Bioconductor permettant d'estimer la dépendance
variance-moyenne dans des données de comptage issues d'expériences
de séquençage à haut débit comme le RNA-Seq, et de tester l'expression
différentielle en se basant sur un modèle utilisant la distribution binomiale
négative.
Il prend en entrée des fichiers contenant des comptages entiers non
normalisés, où les lignes correspondent aux gènes ou aux éléments
génomiques, et les colonnes aux différents échantillons.
DESeq2 est une évolution de DESeq dans laquelle le test exact est
remplacé par un test utilisant le modèle linéaire généralisé. Le mode de
calcul les fold-changes ainsi que l'estimation de la dispersion ont été revus
afin de mieux gérer les gènes ayant de faibles comptages.
Sites web
http://www.bioconductor.org/packages/release/bioc/html/DESeq.html
http://www.bioconductor.org/packages/release/bioc/html/DESeq2.html
Système
Linux, MacOS, Windows. Requiert l'installation préalable du logiciel R
(http://www.r-project.org/ ).
Dernières versions testées
DESeq 1.18.0 ; DESeq2 1.6.3
Publications
Simon Anders and Wolfgang Huber (2010): Differential expression analysis
for sequence count data. Genome Biology 11:R106
Michael I Love, Wolfgang Huber and Simon Anders (2014): Moderated
estimation of fold change and dispersion for RNA-Seq data with DESeq2.
Genome Biology
12 / 26
Logiciels conseillés par la
plateforme
Version 2
16/08/16
4 Détection de variants
4.1 samtools mpileup / bcftools call
Fonctionnalités générales
L'outil samtools mpilepup permet de convertir les reads alignés (fichiers
bam) en comptages par position génomique. L'outil bcftools call met
ensuite en œuvre une méthode statistique basée sur un modèle bayésien,
afin d'identifier des sites variants par rapport à la référence (SNP et indels).
Site web
http://www.htslib.org
Wokflow pour la détection de variants :
http://www.htslib.org/workflow/#mapping_to_variant
Système
Linux, MasOS
Dernière version testée
1.2
Publications
• Li H., Handsaker B., Wysoker A., Fennell T., Ruan J., Homer N.,
Marth G., Abecasis G., Durbin R. and 1000 Genome Project Data
Processing Subgroup (2009) The Sequence alignment/map (SAM)
format and SAMtools. Bioinformatics, 25, 2078-9. [PMID: 19505943]
• Li H. A statistical framework for SNP calling, mutation discovery,
association mapping and population genetical parameter estimation
from sequencing data. Bioinformatics. 2011 Nov 1;27(21):2987-93.
Epub 2011 Sep 8. [PMID: 21903627]
• Danecek P., Schiffels S., Durbin R. Multiallelic calling model in
bcftools (-m) [link]
• Li H. Improving SNP discovery by base alignment quality.
Bioinformatics.
2011
Apr
15;27(8):1157-8.
doi:
10.1093/bioinformatics/btr076. Epub 2011 Feb 13. [PMID:
21320865]
• Durbin R. Segregation based metric for variant call QC [link]
• Li H, Mathematical Notes on SAMtools Algorithms [link]
4.2 GATK (Genome Analysis ToolKit)
Fonctionnalités générales
Le logiciel GATK fournit de nombreux outils dont l'objectif premier est la
détection de variants et le génotypage. L'outil principal pour la détection de
13 / 26
Logiciels conseillés par la
plateforme
Version 2
16/08/16
variants est HaplotypeCaller. Un workflow, mis à jour régulièrement, est
proposé sur le site (rubrique « Best practices »).
Il est devenu un standard dans le domaine, notamment pour la découverte
de variants chez l'Homme à partir de reads Illumina (objectif ayant motivé
le développement du logiciel au Broad Institute). Le site web est très riche
en documentation, tutoriaux, forums, etc.
Site web
https://software.broadinstitute.org/gatk/
Système
Linux, MacOS
Dernière version testée
3.4.46 (outils testés : RealignerTargetCreator et IndelRealigner)
Publications
The Genome Analysis Toolkit: a MapReduce framework for analyzing nextgeneration DNA sequencing data. McKenna A, Hanna M, Banks E,
Sivachenko A, Cibulskis K, Kernytsky A, Garimella K, Altshuler D, Gabriel
S, Daly M, DePristo MA, 2010 GENOME RESEARCH 20:1297-303
A framework for variation discovery and genotyping using next-generation
DNA sequencing data. DePristo M, Banks E, Poplin R, Garimella K,
Maguire J, Hartl C, Philippakis A, del Angel G, Rivas MA, Hanna M,
McKenna A, Fennell T, Kernytsky A, Sivachenko A, Cibulskis K, Gabriel S,
Altshuler D, Daly M, 2011 NATURE GENETICS 43:491-498
From FastQ Data to High-Confidence Variant Calls: The Genome Analysis
Toolkit Best Practices Pipeline. Van der Auwera GA, Carneiro M, Hartl C,
Poplin R, del Angel G, Levy-Moonshine A, Jordan T, Shakir K, Roazen D,
Thibault J, Banks E, Garimella K, Altshuler D, Gabriel S, DePristo M, 2013
CURRENT PROTOCOLS IN BIOINFORMATICS 43:11.10.1-11.10.33
4.3 ANNOVAR
Fonctionnalités générales
ANNOVAR permet d'annoter fonctionnellement des variants en fonction de
différentes données disponibles dans les bases de données publiques. Il
est ainsi possible d'obtenir des annotations en fonction des gènes (nom du
gène, exon, intron, provoque un changement d'acide aminé, etc), ou de
certains types de régions (régions conservées entre espèces, sites de
liaisons de facteurs de transcription, etc).
Site web
http://annovar.openbioinformatics.org/en/latest/
Système
Linux, MacOS, Windows. Requiert l'installation de Perl.
14 / 26
Logiciels conseillés par la
plateforme
Version 2
16/08/16
Dernière version testée
annovar_201506
Publication
Wang K, Li M, Hakonarson H. ANNOVAR: Functional annotation of genetic
variants from next-generation sequencing data Nucleic Acids Research,
38:e164, 2010
15 / 26
Logiciels conseillés par la
plateforme
Version 2
16/08/16
5 Analyse de données de ChIP-Seq
5.1 MACS
Fonctionnalités générales
Model-based Analysis of ChIP-Seq (MACS) est un logiciel en ligne de
commande conçu pour analyser des données issues d'expériences de
ChIP-Seq chez les eucaryotes. MACS peut être utilisé pour identifier les
sites de liaisons de facteurs de transcription ou des régions enrichies en
modifications d'histones.
Il prend en entrée les fichiers de reads alignés (dont les formats bed, sam
ou bam). Il requiert l'installation préalable de Python, version >= 2.6.5.
Sites web
MACS (version 1) : http://liulab.dfci.harvard.edu/MACS/
MACS2 : https://github.com/taoliu/MACS
Système
Linux, MacOS, Windows
Versions testées
1.4.2 et 2.1.0
Publication
Zhang et al. Model-based Analysis of ChIP-Seq (MACS). Genome Biol.
(2008) vol. 9 (9) pp. R137
16 / 26
Logiciels conseillés par la
plateforme
Version 2
16/08/16
6 Analyse de données RRBS (Reduced
Representation Bisulfite Sequencing)
6.1 Trim Galore!
Fonctionnalités générales
Les banques de type RRBS incluent une étape de digestion par l'enzyme
de restriction MspI. Les reads qui sont plus longs que le fragment MspI
nécessitent une étape de nettoyage afin de supprimer l'adaptateur et les
deux bases ajoutées artificiellement lors de la préparation des banques.
L'outil Trim Galore! utilise Cutadapt et FastQC afin de couper correctement
les reads de ce type.
Sites web
http://www.bioinformatics.babraham.ac.uk/projects/trim_galore/
Système
Linux
Version testée
0.4.0
6.2 Bismark
Fonctionnalités générales
Le logiciel d'alignement Bismark permet d'aligner des reads traités au
bisulfite sur un génome de référence et de déterminer leur état de
méthylation en une seule étape. Il prend en entrée des fichiers au format
fastq. Des fichiers au format BAM sont produits, ainsi que des fichiers
détaillant l'état de méthylation des bases.
Site web
http://www.bioinformatics.babraham.ac.uk/projects/bismark/
Système
Linux
Version testée
0.4.3
6.3 SeqMonk
Fonctionnalités générales
17 / 26
Logiciels conseillés par la
plateforme
Version 2
16/08/16
SeqMonk permet de visualiser (et éventuellement analyser) des
alignements. Il est possible de naviguer facilement le long d'un génome
annoté. Dans le cas de données de méthylation, il permet de visualiser
directement les cytosines méthylées et les cytosines non méthylées.
Site web
http://www.bioinformatics.babraham.ac.uk/projects/seqmonk/
Système
Linux, MacOS, Windows
Version testée
0.31.0
6.4 MethylSig
Fonctionnalités générales
MethylSig est un package R permettant d'analyser des données de bis-seq
(whole-genome bisulfite sequencing) ou de RRBS. Les données sont
modélisées selon un modèle beta-binomial pour prendre en compte les
variations de couverture et les variations biologiques entre échantillons.
Les tests statistiques permettent de mettre en évidence des sites
(cytosines) différentiellement méthylés (DMC) ou des régions
différentiellement méthylées (DMR). Les résultats peuvent être annotés
selon le type de région dans lesquelles ils se situent (îlots CpG, régions
intergéniques, etc).
Site web
http://sartorlab.ccmb.med.umich.edu/node/17
Système
Linux, MacOS, Windows. Requiert l'installation préalable du logiciel R
(http://www.r-project.org/ ).
Version testée
0.1.3
Publication
Park Y, Figueroa ME, Rozek LS, Sartor MA. MethylSig: a whole genome
DNA methylation analysis pipeline. Bioinformatics. 2014 Sep
1;30(17):2414-22. doi: 10.1093/bioinformatics/btu339
18 / 26
Logiciels conseillés par la
plateforme
Version 2
16/08/16
7 Analyse de données de RAD-seq
7.1 STACKS
Fonctionnalités générales
Stacks est un logiciel conçu pour construire des loci à partir de reads
courts. Il a été développé pour des données issues de digestions par des
enzymes de restriction, comme le RAD-seq, avec l'objectif de construire
des cartes génétiques et de réaliser des études de génomique des
populations et de la phylo-géographie.
Site web
http://catchenlab.life.illinois.edu/stacks/
Système
Linux, MacOS
Version testée
1.35 (process_radtags uniquement, qui permet de démultiplexer des
données RAD-seq)
Publications
J. Catchen, P. Hohenlohe, S. Bassham, A. Amores, and W. Cresko. Stacks:
an analysis tool set for population genomics. Molecular Ecology. 2013.
J. Catchen, A. Amores, P. Hohenlohe, W. Cresko, and J. Postlethwait.
Stacks: building and genotyping loci de novo from short-read sequences.
G3: Genes, Genomes, Genetics, 1:171-182, 2011.
19 / 26
Logiciels conseillés par la
plateforme
Version 2
16/08/16
8 Manipulation et visualisation de fichiers
8.1 FASTX-Toolkit
Fonctionnalités générales
FASTX-Toolkit est un ensemble d'outils en ligne de commande pour
manipuler des fichiers au format FastQ ou Fasta. Parmi ces outils, « Fastxbarcode-splitter » permet de séparer des séquences issues de différents
échantillons identifiables grâce à un barcode ; « Fastx-trimmer » permet de
raccourcir des reads, etc.
Site web
http://hannonlab.cshl.edu/fastx_toolkit/
Système
Linux, MacOS
Dernière version testée
0.0.13
8.2 Samtools
Fonctionnalités générales
Sam est un format standard de fichier d'alignement. Samtools est une suite
de programmes permettant de manipuler des fichiers au format sam
(conversion au format bam (binaire correspondant), tri, création d'index,
statistiques sur l'alignement, nettoyage de potentiels biais de PCR, ...).
Samtools contient également un module permettant la recherche de SNP
et indels (cf. section « Détection de variants »).
Site web
http://www.htslib.org/
Système
Linux, MacOS
Dernière version testée
1.2
Publication
Li H., Handsaker B., Wysoker A., Fennell T., Ruan J., Homer N., Marth G.,
Abecasis G., Durbin R. and 1000 Genome Project Data Processing
Subgroup (2009) The Sequence alignment/map (SAM) format and
SAMtools. Bioinformatics, 25, 2078-9. [PMID: 19505943]
20 / 26
Logiciels conseillés par la
plateforme
Version 2
16/08/16
8.3 Sambamba
Fonctionnalités générales
Sambamba propose des fonctionnalités similaires aux principaux outils de
Samtools (sort, index, ...), mais permet de paralléliser les tâches, ce qui le
rend beaucoup plus performant.
Site web
http://lomereiter.github.io/sambamba/
Système
Linux, MacOS
Dernière version testée
0.5.1
Publication
A. Tarasov, A. J. Vilella, E. Cuppen, I. J. Nijman, and P. Prins. Sambamba:
fast processing of NGS alignment formats. Bioinformatics, 2015.
8.4 Bcftools
Fonctionnalités générales
Bcftools est un ensemble de programmes pour manipuler des fichiers de
variants au format vcf ou bcf (équivalent binaire du vcf) : intersections,
annotations, filtres, indexages, production de statistiques, …
Site web
http://www.htslib.org/
Système
Linux, MacOS
Dernière version testée
1.2
8.5 Picard tools
Fonctionnalités générales
Picard fournit un grand nombre de programmes (Java) pour manipuler des
fichiers aux formats sam/bam/cram ou vcf. Plusieurs outils spécifiques au
type d'application (RNA-seq, WES, WGS, …) permettent d'obtenir des
statistiques sur les alignements (ex : CollectRnaSeqMetrics, …). L'outil
MarkDuplicates est fortement utilisé par la communauté pour marquer les
paires de reads dupliquées (probablement dues aux biais de PCR).
21 / 26
Logiciels conseillés par la
plateforme
Version 2
16/08/16
Site web
https://broadinstitute.github.io/picard/
Système
Linux, MacOS. Requiert l'installation de Python (2.7 pour la version 1, 2.8
pour la version 2)
Dernière version testée
1.141
8.6 IGV
Fonctionnalités générales
Integrative Genomics Viewer (IGV) est un outil de visualisation pour
l'exploration interactive de grands jeux de données génomiques. Les
annotations de gènes de nombreux génomes sont incluses.
Il permet de visualiser un grand nombre de formats de fichiers : fichiers
bam (triés par position et indexés), bed, gff, vcf, ...
Site web
http://www.broadinstitute.org/software/igv/
Système
Linux, MacOS, Windows.
Dernière version testée
2.3
Publication
James T. Robinson, Helga Thorvaldsdóttir, Wendy Winckler, Mitchell
Guttman, Eric S. Lander, Gad Getz, Jill P. Mesirov. Integrative Genomics
Viewer. Nature Biotechnology 29, 24–26 (2011)
8.7 Bedtools
Fonctionnalités générales
Bedtools est un ensemble d'outils permettant de travailler sur des
intervalles génomiques (intersections, fusion, comptage, …). Il peut utiliser
en entrée divers formats comme bam, bed, gff/gtf, vcf.
Site web
http://bedtools.readthedocs.io/en/latest/
Système
Linux, MacOS
Dernière version testée
2.21.0
22 / 26
Logiciels conseillés par la
plateforme
Version 2
16/08/16
8.8 SRA toolkit
Fonctionnalités générales
Sequence Read Archive (SRA) est un service du NCBI permettant de
stocker et de mettre à disposition de la communauté des chercheurs les
séquences issues de séquençage haut-débit.
Le SRA Toolkit est un ensemble d'outils permettant le téléchargement, la
lecture ou l'écriture de fichiers depuis ou vers le format sra.
Site web
http://www.ncbi.nlm.nih.gov/sra
Système
Linux, MacOS, Windows
Dernière version testée
2.5.0-1-centos_linux64
23 / 26
Logiciels conseillés par la
plateforme
Version 2
16/08/16
9 Clustering et visualisation
9.1 Cluster
Fonctionnalités générales
Cluster permet de mettre en œuvre différentes méthodes d'analyses nonsupervisées. Cela comprend la classification hiérarchique, les cartes de
Kohonen (SOMs), les nuées dynamiques (k-means) et l'analyse en
composantes principales. Les méthodes de classification hiérarchique (lien
unique, lien moyen et lien complet) peuvent être notamment appliquées en
utilisant différentes mesures de similarité (distance de corrélation centrée
ou non centrée, corrélation des rangs de Spearman,...). Le logiciel permet
d'appliquer divers traitements (centrage médian des gènes, transformation
logarithmique...) avant classification.
Ce logiciel a été développé pour traiter les données de puces à ADN.
Site web
http://bonsai.hgc.jp/~mdehoon/software/cluster/software.htm
Système
Linux, MacOS, Windows.
Dernière version testée
3.0
9.2 Java Treeview
Fonctionnalités générales
Logiciel permettant la visualisation sous forme de carte thermique (« heat
map ») des données préalablement classées par le logiciel Cluster. Lors de
la classification hiérarchique des données, les gènes et les échantillons
sont ordonnés de manière hiérarchique dans un dendogramme qui peut
être visualisé grâce au logiciel Treeview.
Site web
http://jtreeview.sourceforge.net/
Système
Linux, MacOS, Windows.
Dernière version testée
1.1.6r4
Publication
Alok J. Saldanha. Java Treeview—extensible visualization of microarray
data. Bioinformatics (2004) 20 (17): 3246-3248.
24 / 26
Logiciels conseillés par la
plateforme
Version 2
16/08/16
10 Divers
10.1 Galaxy
Fonctionnalités générales
Galaxy est une plateforme web qui rassemble de très nombreux logiciels
d'analyse NGS (manipulation de fichiers, alignement de séquence,
analyses ChIP-Seq, SNP, RNA-seq...), habituellement disponibles en ligne
de commande, sur une interface web simple d'utilisation et conviviale.
L'utilisateur peut directement utiliser la sortie d'un logiciel en entrée d'un
autre logiciel, et ainsi générer facilement des workflows d'analyse
réutilisables. Sur leur instance publique (lien), les calculs sont effectués sur
leurs propres serveurs mais il est également possible d'installer sa propre
instance et d'y ajouter ses propres outils.
Site web
https://usegalaxy.org/
Système
Outil web
10.2 Diagramme de Venn
Fonctionnalités générales
Il existe diverses interfaces web permettant de faire des diagrammes de
Venn en ligne.
Ce type de représentation permet de comparer facilement des listes de
gènes et d'obtenir les gènes des intersections.
Site web
http://bioinfogp.cnb.csic.es/tools/venny/index.html
http://bioinfo.genotoul.fr/jvenn/example.html
Système
interface web
Publication
jvenn : Philippe Bardou, Jérôme Mariette, Frédéric Escudié, Christophe
Djemiel and Christophe Klopp. jvenn: an interactive Venn diagram viewer.
BMC Bioinformatics 2014, 15:293 doi:10.1186/1471-2105-15-293
10.3 Formats de fichiers
Une documentation sur les différents formats de fichier est disponible sur
UCSC :
http://genome.ucsc.edu/FAQ/FAQformat.html
25 / 26
Logiciels conseillés par la
plateforme
Version 2
16/08/16
10.4 Inventaire des outils pour les analyses de
données « OMICS »
Site web proposant une classification des outils utilisés dans l'analyse de
données « omics », et en particulier les données de séquençage hautdébit. Les listes proposées paraissent assez exhaustives à ce jour (2016).
Site web
https://omictools.com/
Publication
Henry VJ, Bandrowski AE, Pepin AS, Gonzalez BJ, Desfeux A. (2014)
OMICtools: an informative directory for multi-omic data analysis. Database
(Oxford).
26 / 26