Mode d`emploi pour générer un

Transcription

Mode d`emploi pour générer un
Logiciels conseillés par la
plateforme
Version 1
19/09/12
Logiciels conseillés par la
plateforme
Logiciels conseillés par la
plateforme
Version 1
19/09/12
Contents
INTRODUCTION.................................................................................................................2
CHAPTER 1 : ANALYSE QUALITÉ DU SÉQUENÇAGE.............................................3
1.1 FASTQC...........................................................................................................................3
CHAPTER 2 : ALIGNEMENT DE SÉQUENCE..............................................................4
2.1 BWA.............................................................................................................................4
2.2 BOWTIE...........................................................................................................................4
CHAPTER 3 : PLATEFORME D'ANALYSE INTÉGRÉE.............................................6
3.1 GALAXY..........................................................................................................................6
3.2 MEV..............................................................................................................................6
CHAPTER 4 : CHIP-SEQ....................................................................................................8
4.1 MACS.............................................................................................................................8
4.2 CISGENOME V1.2..............................................................................................................8
4.3 IGB...............................................................................................................................9
CHAPTER 5 : RNA-SEQ...................................................................................................10
5.1 TOPHAT....................................................................................................................10
5.2 CUFFLINKS..............................................................................................................10
5.3 HTSEQ-COUNT...............................................................................................................11
5.4 SAMTOOLS.....................................................................................................................11
5.5 IGV.............................................................................................................................12
5.6 EDGER..........................................................................................................................12
5.7 DESEQ.........................................................................................................................13
CHAPTER 6 : PUCES À ADN.......................................................................................... 14
6.1 LIMMA......................................................................................................................14
6.2 SAM........................................................................................................................... 14
6.3 CLUSTER....................................................................................................................... 15
6.4 JAVA TREEVIEW..............................................................................................................15
CHAPTER 7 : AUTRES.....................................................................................................17
7.1 CUTADAPT.....................................................................................................................17
7.2 DIAGRAMME DE VENN.....................................................................................................17
7.3 FORMATS DE FICHIERS......................................................................................................18
1/18
Logiciels conseillés par la
plateforme
Version 1
19/09/12
Introduction
Ce document présente divers logiciels gratuits pouvant être
utilisés pour l'analyse de données de séquençage à haut débit ou
de puces à ADN. Il ne s'agit pas d'un manuel d'utilisation ni d'une
liste exhaustive. Avant toute utilisation d'un des logiciels, il est
important de se référer à sa documentation et de vérifier qu'il
soit adapté au type de données à analyser.
2/18
Logiciels conseillés par la
plateforme
Version 1
19/09/12
Chapter 1 : Analyse qualité du séquençage
1.1 Fastqc
Fonctionnalités générales :
Logiciel permettant de faire une analyse qualité du séquençage.
FastQC lit un ensemble de fichiers de séquence et produit à
partir de chacun d'eux un rapport de contrôle de la qualité
composé d'un certain nombre de modules différents.
Chaque module permettra d'identifier un type de problème
potentiel sur vos données.
Le logiciel prend en entrée des fichiers au format sam, bam et
fastq.
Le logiciel peut lire directement les fichiers .fastq.gz (plusieurs
fichiers pour un échantillon) produits par illumina grâce à
l'option "--casava".
Site web :
http://www.bioinformatics.babraham.ac.uk/projects/fastqc/
Système :
Windows / linux / Mac
Version testée : 0.10.1
3/18
Logiciels conseillés par la
plateforme
Version 1
19/09/12
Chapter 2 : Alignement de séquence
2.1 BWA
Fonctionnalités générales :
Logiciel d'alignement de « short-reads ». Le programme gère les
gaps d'alignement.
Il prend en entrée des fichiers au format fastq. Les résultats de
l'alignement peuvent être exportés au format sam pour une
utilisation avec Samtools.
Son utilisation se fait en ligne de commande.
Site web :
http://bio-bwa.sourceforge.net
Système :
Linux, MacOS, Windows
2.2 Bowtie
Fonctionnalités générales :
Logiciel d'alignement de « short reads ». Le programme utilise
une double-indexation du génome de référence. Les fichiers
index de plusieurs génomes sont disponibles sur le site et il est
possible de créer des fichiers d'index à partir de références au
format fasta.
Le logiciel prend en entrée des fichiers au format fastq. Les
résultats de l'alignement peuvent être exportés au format sam
pour une utilisation avec Samtools.
Son utilisation se fait en ligne de commande.
Site web :
http://bowtie-bio.sourceforge.net/index.shtml
Système :
Linux, MacOS, Windows
4/18
Logiciels conseillés par la
plateforme
Version 1
19/09/12
Ces deux logiciels sont généralement considérés comme les
meilleurs parmi les logiciels gratuits pour l'alignement de
courtes séquences (CASAVA est un logiciel propriétaire).
5/18
Logiciels conseillés par la
plateforme
Version 1
19/09/12
Chapter 3 : Plateforme d'analyse intégrée
3.1 Galaxy
Fonctionnalités générales :
Galaxy est une plateforme web qui offre un accès gratuit à de
nombreux logiciels d'analyse NGS (manipulation de fichiers,
alignement de séquence, analyse ChIP-Seq, analyse SNP, analyse
RNA-seq...). Galaxy a l'avantage d'offrir une interface graphique
à de nombreux logiciels utilisables uniquement en ligne de
commande. De plus, Galaxy donne l'accès à un espace de
stockage et les calculs sont réalisés sur leur serveur.
Site web :
https://main.g2.bx.psu.edu/
Système :
Interface web
Fiche Plume :
https://www.projet-plume.org/fr/fiche/galaxy
3.2 MeV
Fonctionnalités générales :
MeV est une application qui permet de normaliser, d'analyser
(tests statistiques, SAM, classification hiérarchique, K-means...)
et visualiser des données de puces à ADN. Ce logiciel offre
également des outils de contextualisation (analyse Gene
Ontology, GSEA,...).
Il est également possible de charger des données de comptage
issues d'expériences de RNA-seq (comptages bruts ou FPKM) et
de réaliser des tests statistiques (edgeR, DESeq ou DEGseq pour
l'analyse différentielle, GOSeq pour l'analyse Gene Ontology).
MeV a l'avantage d'être totalement gratuit.
Site web :
http://www.tm4.org/mev/
6/18
Logiciels conseillés par la
plateforme
Système :
Windows / Linux / Mac
7/18
Version 1
19/09/12
Logiciels conseillés par la
plateforme
Version 1
19/09/12
Chapter 4 : ChIP-Seq
4.1 Macs
Fonctionnalités générales :
Model-based Analysis of ChIP-Seq (MACS) est un logiciel en ligne
de commande conçu pour analyser des données issues
d'expériences de ChIP-Seq chez les eukaryotes. MACS peut être
utilisé pour identifier les sites de liaisons de facteurs de
transcription ou des régions enrichies en modifications
d'histones.
Il prend en entrée les fichiers de tags alignés (dont les formats
bed, sam ou bam). Il requiert l'installation préalable de Python,
version >= 2.6.5.
Site web :
http://liulab.dfci.harvard.edu/MACS/
Système :
Windows / Linux / Mac
Versions testées : 1.3.7.1 et 1.4.2
Fiche Plume :
https://www.projet-plume.org/fr/fiche/macs
4.2 Cisgenome v1.2
Fonctionnalités générales :
CisGenome est un logiciel conçu pour l'analyse de données de
ChIP (ChIP-chip, ChIP-Seq). Il permet de visualiser et normaliser
les données, d'identifier les régions enrichies (pics), de calculer
le false discovery rate (FDR, taux de faux positifs), et de
contextualiser les résultats (association aux gènes, analyse de
motif et de séquence). Il implémente des méthodes statistiques
spécifiques aux données de ChIP-Seq.
Il prend en entrée des fichiers d'alignement au format aln.
8/18
Logiciels conseillés par la
plateforme
Version 1
19/09/12
Il fonctionne avec une interface graphique sous Windows, et en
ligne de commandes sous Linux.
Site web :
http://www.biostat.jhsph.edu/~hji/cisgenome/
Système :
Windows / Linux / Mac
Version testée : v1.2
4.3 IGB
Fonctionnalités générales :
Integrated Genome Browser (IGB, prononcer « Ig-Bee ») est un
outil permettant de visualiser et d'explorer des données
génomiques et d'annotation. Il est utile notamment pour la
visualisation de données de ChIP-Seq. Il peut ouvrir des fichiers
au format BAM (version binaire de SAM), bar (version binaire
des fichiers aln), wig...
Site web :
http://bioviz.org/igb/
Système :
Windows / Linux / Mac
9/18
Logiciels conseillés par la
plateforme
Version 1
19/09/12
Chapter 5 : RNA-Seq
5.1 TOPHAT
Fonctionnalités générales :
TopHat est un logiciel d'alignement de séquence conçu
spécialement pour le RNA-Seq. Ce logiciel permet de réaliser des
alignements sur les jonctions d'épissage et sur le génome. Les
modèles de transcrits peuvent être fournis (fichier .gff) au
logiciel (option « -G »), celui-ci fera dans un premier temps un
alignement sur un transcriptome virtuel extrait à partir des
positions des exons ; les reads non mappés sur ce transcriptome
seront alignés sur le génome. Dans le cas où les modèles de
transcrits ne sont pas fournis, TopHat fera de la découverte de
jonctions d'épissage. TopHat utilise Bowtie pour faire
l'alignement.
Après un alignement TopHat, 2 logiciels peuvent être utilisés :
Cufflinks ou HTSeq-count.
Site web :
http://tophat.cbcb.umd.edu/
Système :
Linux et Mac
5.2 CUFFLINKS
Fonctionnalités générales :
Cufflinks permet de faire de l'assemblage de transcrits, de
mesurer leur abondance (FPKM) et tester si leur expression est
différentielle (Cuffdiff). Cufflinks peut également utiliser des
modèles de transcrits (option « -G ») et estimer leur abondance
sans faire d'assemblage. Cufflinks donne l'abondance des
transcrits en FPKM (Fragments Per Kilobase of exon model per
Million mapped fragments) qui sont des valeurs normalisées par
la taille des transcrits et par la profondeur de séquençage. Pour
obtenir des « Raw counts » , nombre de reads par transcrit
10/18
Logiciels conseillés par la
plateforme
Version 1
19/09/12
(demandé en entrée par edgeR et DESeq), il faudra utiliser un
autre logiciel comme HTSeq-count.
Site web :
http://cufflinks.cbcb.umd.edu/
Système :
Linux et Mac
5.3 HTSeq-count
Fonctionnalités générales :
HTSeq-count est un script appartenant au logiciel HTSeq. Il
permet, à partir d'un fichier de reads alignés (format SAM) et
d'un fichier d'annotations (format gff), de compter le nombre de
reads s'alignant sur chaque élément (gènes, exons, …). Il propose
différentes façons de gérer les cas où un read chevauche
plusieurs éléments.
Site web :
http://www-huber.embl.de/users/anders/HTSeq/doc/count.html
Système :
Windows / Linux / Mac
5.4 Samtools
Fonctionnalités générales :
Sam est un format générique de fichier d'alignement. Ce format
contient par exemple les séquences qualité associées aux
séquences nucléotidiques. Samtools est un utilitaire permettant
de manipuler des fichiers au format sam (conversion au format
bam, tri, création d'index, statistiques sur l'alignement,
nettoyage de potentiels biais de PCR,...). Samtools contient
également un module permettant la recherche de SNP.
Site web :
http://samtools.sourceforge.net/
11/18
Logiciels conseillés par la
plateforme
Version 1
19/09/12
Système :
Linux et Mac
Fiche Plume :
https://www.projet-plume.org/fr/fiche/samtools
Version testée : 0.1.18
5.5 IGV
Fonctionnalités générales :
Integrative Genomics Viewer (IGV) est un outil de visualisation
pour l'exploration interactive de grands jeux de données
génomiques. Les annotations de gènes de nombreux génomes
sont incluses.
Il ouvre notamment des fichiers BAM triés par position et indexés
(indispensable).
Site web :
http://www.broadinstitute.org/software/igv/
Système :
Windows / Linux / Mac
5.6 edgeR
Fonctionnalités générales :
edgeR est un package Bioconductor pour des analyses
d'expression différentielle à partir de données de RNA-seq ou de
DGE (Digital Gene Expression) avec réplicats biologiques. Le
package se base sur une méthode bayésienne empirique et
implémente des tests exacts fondés sur la loi binomiale négative.
Il peut également servir à l'analyse différentielle d'autres types
de données de comptage génomique.
Il prend en entrée des fichiers contenant des comptages entiers
non normalisés, où les lignes correspondent aux gènes ou aux
éléments génomiques, et les colonnes aux différents échantillons.
12/18
Logiciels conseillés par la
plateforme
Version 1
19/09/12
Site web :
http://www.bioconductor.org/packages/release/bioc/html/edgeR.h
tml
Système :
Windows / Linux / Mac. Requiert l'installation préalable du
logiciel R (http://www.r-project.org/ ).
5.7 DESeq
Fonctionnalités générales :
DESeq est un package Bioconductor permettant d'estimer la
dépendance variance-moyenne dans des données de comptage
issues d'expériences de séquençage à haut débit comme le RNASeq, et de tester l'expression différentielle en se basant sur un
modèle utilisant la distribution binomiale négative.
Il prend en entrée des fichiers contenant des comptages entiers
non normalisés, où les lignes correspondent aux gènes ou aux
éléments génomiques, et les colonnes aux différents échantillons.
Site web :
http://www.bioconductor.org/packages/release/bioc/html/DESeq.
html
Système :
Windows / Linux / Mac. Requiert l'installation préalable du
logiciel R (http://www.r-project.org/ ).
13/18
Logiciels conseillés par la
plateforme
Version 1
19/09/12
Chapter 6 : Puces à ADN
6.1 LIMMA
Fonctionnalités générales :
Limma est un package Bioconductor permettant de traiter et
d'analyser des données de puces à ADN. Il se fonde sur des
modèles
linéaires
pour
l'identification
de
gènes
différentiellement exprimés. Différents types de normalisation
inter et intra puces sont disponibles, ainsi que différentes
méthodes pour contrôler le FDR (False Discovery Rate). Une
version avec interface graphique est également disponible.
Site
web :
http://www.bioconductor.org/packages/release/bioc/html/limma.h
tml
avec
interface
graphique :
http://www.bioconductor.org/packages/release/bioc/html/limmaG
UI.html
Système :
Windows / Linux / Mac. Requiert l'installation préalable du
logiciel R (http://www.r-project.org/ ).
6.2 SAM
Fonctionnalités générales :
Significance Analysis of Microarrays (SAM) est une méthode
permettant d'identifier les gènes différentiellement exprimés lors
d'une expérience de puce à ADN. Elle permet d'estimer et de
contrôler le taux de faux positifs (FDR). Cette méthode est
implémentée dans le package Bioconductor siggenes.
Site web :
http://www.bioconductor.org/packages/release/bioc/html/siggene
s.html
Système :
14/18
Logiciels conseillés par la
plateforme
Version 1
19/09/12
Windows / Linux / Mac. Requiert l'installation préalable du
logiciel R (http://www.r-project.org/ ).
6.3 Cluster
Fonctionnalités générales :
Logiciel qui permet de réaliser différentes méthodes d'analyses
non-supervisées de données de puces à ADN, cela comprend la
classification hiérarchique, les cartes de Kohonen (SOMs), les
nuées dynamiques (k-means) et l'analyse en composantes
principales. Les méthodes de classification hiérarchique (lien
unique, lien moyen et lien complet) peuvent être notamment
réalisées en utilisant différentes mesures de similarité (distance
de corrélation centrée ou non centrée, corrélation des rangs de
Spearman,...). Le logiciel permet d'appliquer divers traitements
(centrage médian des gènes, transformation logarithmique...)
avant classification.
Site web :
http://bonsai.hgc.jp/~mdehoon/software/cluster/software.htm
Système :
Windows, Mac et Linux
Fiche Plume :
https://www.projet-plume.org/fr/fiche/cluster
Version testée : 3.0
6.4 Java Treeview
Fonctionnalités générales :
Logiciel permettant la visualisation sous forme de carte
thermique (« heat map ») des données préalablement classées
par le logiciel Cluster. Lors de la classification hiérarchique des
données, les gènes et les échantillons sont ordonnés de manière
hiérarchique dans un dendogramme qui peut être visualisé grâce
au logiciel Treeview.
15/18
Logiciels conseillés par la
plateforme
Site web :
http://jtreeview.sourceforge.net/
Système :
Windows, Mac et Linux
16/18
Version 1
19/09/12
Logiciels conseillés par la
plateforme
Version 1
19/09/12
Chapter 7 : Autres
7.1 Cutadapt
Fonctionnalités générales :
Logiciel permettant de supprimer les séquences des adaptateurs
dans des données de séquençage. Cela s'avère nécessaire
lorsque la longueur du read est supérieure à la molécule à
séquencer, comme pour les microARNs. Il est également possible
de couper la fin des reads dont la qualité baisse en fin de
séquence. Les adaptateurs Illumina peuvent être renseignés avec
l'option -a ADAPTER-SEQUENCE.
Le programme prend en entrée et rend en sortie des fichiers au format fastq
(éventuellement compressés : fastq.gz), ou au format fasta.
Le programme requiert l'installation préalable de Python, version >= 2.6.
Son utilisation se fait en ligne de commande, ou via Galaxy.
Site web :
http://code.google.com/p/cutadapt/
Système :
Linux
7.2 Diagramme de Venn
Fonctionnalités générales :
Il existe diverses interfaces web permettant de faire des
diagrammes de Venn en ligne.
Ce type de représentation vous permet de comparer facilement
des listes de gènes et d'obtenir les gènes en intersection.
Site web :
http://bioinfogp.cnb.csic.es/tools/venny/index.html
http://bioinfo.genotoul.fr/index.php?id=116
Système :
interface web
17/18
Logiciels conseillés par la
plateforme
Version 1
19/09/12
7.3 Formats de fichiers
Une documentation sur les différents formats de fichier est
disponible sur UCSC :
http://genome.ucsc.edu/FAQ/FAQformat.html
18/18