Mode d`emploi pour générer un
Transcription
Mode d`emploi pour générer un
Logiciels conseillés par la plateforme Version 1 19/09/12 Logiciels conseillés par la plateforme Logiciels conseillés par la plateforme Version 1 19/09/12 Contents INTRODUCTION.................................................................................................................2 CHAPTER 1 : ANALYSE QUALITÉ DU SÉQUENÇAGE.............................................3 1.1 FASTQC...........................................................................................................................3 CHAPTER 2 : ALIGNEMENT DE SÉQUENCE..............................................................4 2.1 BWA.............................................................................................................................4 2.2 BOWTIE...........................................................................................................................4 CHAPTER 3 : PLATEFORME D'ANALYSE INTÉGRÉE.............................................6 3.1 GALAXY..........................................................................................................................6 3.2 MEV..............................................................................................................................6 CHAPTER 4 : CHIP-SEQ....................................................................................................8 4.1 MACS.............................................................................................................................8 4.2 CISGENOME V1.2..............................................................................................................8 4.3 IGB...............................................................................................................................9 CHAPTER 5 : RNA-SEQ...................................................................................................10 5.1 TOPHAT....................................................................................................................10 5.2 CUFFLINKS..............................................................................................................10 5.3 HTSEQ-COUNT...............................................................................................................11 5.4 SAMTOOLS.....................................................................................................................11 5.5 IGV.............................................................................................................................12 5.6 EDGER..........................................................................................................................12 5.7 DESEQ.........................................................................................................................13 CHAPTER 6 : PUCES À ADN.......................................................................................... 14 6.1 LIMMA......................................................................................................................14 6.2 SAM........................................................................................................................... 14 6.3 CLUSTER....................................................................................................................... 15 6.4 JAVA TREEVIEW..............................................................................................................15 CHAPTER 7 : AUTRES.....................................................................................................17 7.1 CUTADAPT.....................................................................................................................17 7.2 DIAGRAMME DE VENN.....................................................................................................17 7.3 FORMATS DE FICHIERS......................................................................................................18 1/18 Logiciels conseillés par la plateforme Version 1 19/09/12 Introduction Ce document présente divers logiciels gratuits pouvant être utilisés pour l'analyse de données de séquençage à haut débit ou de puces à ADN. Il ne s'agit pas d'un manuel d'utilisation ni d'une liste exhaustive. Avant toute utilisation d'un des logiciels, il est important de se référer à sa documentation et de vérifier qu'il soit adapté au type de données à analyser. 2/18 Logiciels conseillés par la plateforme Version 1 19/09/12 Chapter 1 : Analyse qualité du séquençage 1.1 Fastqc Fonctionnalités générales : Logiciel permettant de faire une analyse qualité du séquençage. FastQC lit un ensemble de fichiers de séquence et produit à partir de chacun d'eux un rapport de contrôle de la qualité composé d'un certain nombre de modules différents. Chaque module permettra d'identifier un type de problème potentiel sur vos données. Le logiciel prend en entrée des fichiers au format sam, bam et fastq. Le logiciel peut lire directement les fichiers .fastq.gz (plusieurs fichiers pour un échantillon) produits par illumina grâce à l'option "--casava". Site web : http://www.bioinformatics.babraham.ac.uk/projects/fastqc/ Système : Windows / linux / Mac Version testée : 0.10.1 3/18 Logiciels conseillés par la plateforme Version 1 19/09/12 Chapter 2 : Alignement de séquence 2.1 BWA Fonctionnalités générales : Logiciel d'alignement de « short-reads ». Le programme gère les gaps d'alignement. Il prend en entrée des fichiers au format fastq. Les résultats de l'alignement peuvent être exportés au format sam pour une utilisation avec Samtools. Son utilisation se fait en ligne de commande. Site web : http://bio-bwa.sourceforge.net Système : Linux, MacOS, Windows 2.2 Bowtie Fonctionnalités générales : Logiciel d'alignement de « short reads ». Le programme utilise une double-indexation du génome de référence. Les fichiers index de plusieurs génomes sont disponibles sur le site et il est possible de créer des fichiers d'index à partir de références au format fasta. Le logiciel prend en entrée des fichiers au format fastq. Les résultats de l'alignement peuvent être exportés au format sam pour une utilisation avec Samtools. Son utilisation se fait en ligne de commande. Site web : http://bowtie-bio.sourceforge.net/index.shtml Système : Linux, MacOS, Windows 4/18 Logiciels conseillés par la plateforme Version 1 19/09/12 Ces deux logiciels sont généralement considérés comme les meilleurs parmi les logiciels gratuits pour l'alignement de courtes séquences (CASAVA est un logiciel propriétaire). 5/18 Logiciels conseillés par la plateforme Version 1 19/09/12 Chapter 3 : Plateforme d'analyse intégrée 3.1 Galaxy Fonctionnalités générales : Galaxy est une plateforme web qui offre un accès gratuit à de nombreux logiciels d'analyse NGS (manipulation de fichiers, alignement de séquence, analyse ChIP-Seq, analyse SNP, analyse RNA-seq...). Galaxy a l'avantage d'offrir une interface graphique à de nombreux logiciels utilisables uniquement en ligne de commande. De plus, Galaxy donne l'accès à un espace de stockage et les calculs sont réalisés sur leur serveur. Site web : https://main.g2.bx.psu.edu/ Système : Interface web Fiche Plume : https://www.projet-plume.org/fr/fiche/galaxy 3.2 MeV Fonctionnalités générales : MeV est une application qui permet de normaliser, d'analyser (tests statistiques, SAM, classification hiérarchique, K-means...) et visualiser des données de puces à ADN. Ce logiciel offre également des outils de contextualisation (analyse Gene Ontology, GSEA,...). Il est également possible de charger des données de comptage issues d'expériences de RNA-seq (comptages bruts ou FPKM) et de réaliser des tests statistiques (edgeR, DESeq ou DEGseq pour l'analyse différentielle, GOSeq pour l'analyse Gene Ontology). MeV a l'avantage d'être totalement gratuit. Site web : http://www.tm4.org/mev/ 6/18 Logiciels conseillés par la plateforme Système : Windows / Linux / Mac 7/18 Version 1 19/09/12 Logiciels conseillés par la plateforme Version 1 19/09/12 Chapter 4 : ChIP-Seq 4.1 Macs Fonctionnalités générales : Model-based Analysis of ChIP-Seq (MACS) est un logiciel en ligne de commande conçu pour analyser des données issues d'expériences de ChIP-Seq chez les eukaryotes. MACS peut être utilisé pour identifier les sites de liaisons de facteurs de transcription ou des régions enrichies en modifications d'histones. Il prend en entrée les fichiers de tags alignés (dont les formats bed, sam ou bam). Il requiert l'installation préalable de Python, version >= 2.6.5. Site web : http://liulab.dfci.harvard.edu/MACS/ Système : Windows / Linux / Mac Versions testées : 1.3.7.1 et 1.4.2 Fiche Plume : https://www.projet-plume.org/fr/fiche/macs 4.2 Cisgenome v1.2 Fonctionnalités générales : CisGenome est un logiciel conçu pour l'analyse de données de ChIP (ChIP-chip, ChIP-Seq). Il permet de visualiser et normaliser les données, d'identifier les régions enrichies (pics), de calculer le false discovery rate (FDR, taux de faux positifs), et de contextualiser les résultats (association aux gènes, analyse de motif et de séquence). Il implémente des méthodes statistiques spécifiques aux données de ChIP-Seq. Il prend en entrée des fichiers d'alignement au format aln. 8/18 Logiciels conseillés par la plateforme Version 1 19/09/12 Il fonctionne avec une interface graphique sous Windows, et en ligne de commandes sous Linux. Site web : http://www.biostat.jhsph.edu/~hji/cisgenome/ Système : Windows / Linux / Mac Version testée : v1.2 4.3 IGB Fonctionnalités générales : Integrated Genome Browser (IGB, prononcer « Ig-Bee ») est un outil permettant de visualiser et d'explorer des données génomiques et d'annotation. Il est utile notamment pour la visualisation de données de ChIP-Seq. Il peut ouvrir des fichiers au format BAM (version binaire de SAM), bar (version binaire des fichiers aln), wig... Site web : http://bioviz.org/igb/ Système : Windows / Linux / Mac 9/18 Logiciels conseillés par la plateforme Version 1 19/09/12 Chapter 5 : RNA-Seq 5.1 TOPHAT Fonctionnalités générales : TopHat est un logiciel d'alignement de séquence conçu spécialement pour le RNA-Seq. Ce logiciel permet de réaliser des alignements sur les jonctions d'épissage et sur le génome. Les modèles de transcrits peuvent être fournis (fichier .gff) au logiciel (option « -G »), celui-ci fera dans un premier temps un alignement sur un transcriptome virtuel extrait à partir des positions des exons ; les reads non mappés sur ce transcriptome seront alignés sur le génome. Dans le cas où les modèles de transcrits ne sont pas fournis, TopHat fera de la découverte de jonctions d'épissage. TopHat utilise Bowtie pour faire l'alignement. Après un alignement TopHat, 2 logiciels peuvent être utilisés : Cufflinks ou HTSeq-count. Site web : http://tophat.cbcb.umd.edu/ Système : Linux et Mac 5.2 CUFFLINKS Fonctionnalités générales : Cufflinks permet de faire de l'assemblage de transcrits, de mesurer leur abondance (FPKM) et tester si leur expression est différentielle (Cuffdiff). Cufflinks peut également utiliser des modèles de transcrits (option « -G ») et estimer leur abondance sans faire d'assemblage. Cufflinks donne l'abondance des transcrits en FPKM (Fragments Per Kilobase of exon model per Million mapped fragments) qui sont des valeurs normalisées par la taille des transcrits et par la profondeur de séquençage. Pour obtenir des « Raw counts » , nombre de reads par transcrit 10/18 Logiciels conseillés par la plateforme Version 1 19/09/12 (demandé en entrée par edgeR et DESeq), il faudra utiliser un autre logiciel comme HTSeq-count. Site web : http://cufflinks.cbcb.umd.edu/ Système : Linux et Mac 5.3 HTSeq-count Fonctionnalités générales : HTSeq-count est un script appartenant au logiciel HTSeq. Il permet, à partir d'un fichier de reads alignés (format SAM) et d'un fichier d'annotations (format gff), de compter le nombre de reads s'alignant sur chaque élément (gènes, exons, …). Il propose différentes façons de gérer les cas où un read chevauche plusieurs éléments. Site web : http://www-huber.embl.de/users/anders/HTSeq/doc/count.html Système : Windows / Linux / Mac 5.4 Samtools Fonctionnalités générales : Sam est un format générique de fichier d'alignement. Ce format contient par exemple les séquences qualité associées aux séquences nucléotidiques. Samtools est un utilitaire permettant de manipuler des fichiers au format sam (conversion au format bam, tri, création d'index, statistiques sur l'alignement, nettoyage de potentiels biais de PCR,...). Samtools contient également un module permettant la recherche de SNP. Site web : http://samtools.sourceforge.net/ 11/18 Logiciels conseillés par la plateforme Version 1 19/09/12 Système : Linux et Mac Fiche Plume : https://www.projet-plume.org/fr/fiche/samtools Version testée : 0.1.18 5.5 IGV Fonctionnalités générales : Integrative Genomics Viewer (IGV) est un outil de visualisation pour l'exploration interactive de grands jeux de données génomiques. Les annotations de gènes de nombreux génomes sont incluses. Il ouvre notamment des fichiers BAM triés par position et indexés (indispensable). Site web : http://www.broadinstitute.org/software/igv/ Système : Windows / Linux / Mac 5.6 edgeR Fonctionnalités générales : edgeR est un package Bioconductor pour des analyses d'expression différentielle à partir de données de RNA-seq ou de DGE (Digital Gene Expression) avec réplicats biologiques. Le package se base sur une méthode bayésienne empirique et implémente des tests exacts fondés sur la loi binomiale négative. Il peut également servir à l'analyse différentielle d'autres types de données de comptage génomique. Il prend en entrée des fichiers contenant des comptages entiers non normalisés, où les lignes correspondent aux gènes ou aux éléments génomiques, et les colonnes aux différents échantillons. 12/18 Logiciels conseillés par la plateforme Version 1 19/09/12 Site web : http://www.bioconductor.org/packages/release/bioc/html/edgeR.h tml Système : Windows / Linux / Mac. Requiert l'installation préalable du logiciel R (http://www.r-project.org/ ). 5.7 DESeq Fonctionnalités générales : DESeq est un package Bioconductor permettant d'estimer la dépendance variance-moyenne dans des données de comptage issues d'expériences de séquençage à haut débit comme le RNASeq, et de tester l'expression différentielle en se basant sur un modèle utilisant la distribution binomiale négative. Il prend en entrée des fichiers contenant des comptages entiers non normalisés, où les lignes correspondent aux gènes ou aux éléments génomiques, et les colonnes aux différents échantillons. Site web : http://www.bioconductor.org/packages/release/bioc/html/DESeq. html Système : Windows / Linux / Mac. Requiert l'installation préalable du logiciel R (http://www.r-project.org/ ). 13/18 Logiciels conseillés par la plateforme Version 1 19/09/12 Chapter 6 : Puces à ADN 6.1 LIMMA Fonctionnalités générales : Limma est un package Bioconductor permettant de traiter et d'analyser des données de puces à ADN. Il se fonde sur des modèles linéaires pour l'identification de gènes différentiellement exprimés. Différents types de normalisation inter et intra puces sont disponibles, ainsi que différentes méthodes pour contrôler le FDR (False Discovery Rate). Une version avec interface graphique est également disponible. Site web : http://www.bioconductor.org/packages/release/bioc/html/limma.h tml avec interface graphique : http://www.bioconductor.org/packages/release/bioc/html/limmaG UI.html Système : Windows / Linux / Mac. Requiert l'installation préalable du logiciel R (http://www.r-project.org/ ). 6.2 SAM Fonctionnalités générales : Significance Analysis of Microarrays (SAM) est une méthode permettant d'identifier les gènes différentiellement exprimés lors d'une expérience de puce à ADN. Elle permet d'estimer et de contrôler le taux de faux positifs (FDR). Cette méthode est implémentée dans le package Bioconductor siggenes. Site web : http://www.bioconductor.org/packages/release/bioc/html/siggene s.html Système : 14/18 Logiciels conseillés par la plateforme Version 1 19/09/12 Windows / Linux / Mac. Requiert l'installation préalable du logiciel R (http://www.r-project.org/ ). 6.3 Cluster Fonctionnalités générales : Logiciel qui permet de réaliser différentes méthodes d'analyses non-supervisées de données de puces à ADN, cela comprend la classification hiérarchique, les cartes de Kohonen (SOMs), les nuées dynamiques (k-means) et l'analyse en composantes principales. Les méthodes de classification hiérarchique (lien unique, lien moyen et lien complet) peuvent être notamment réalisées en utilisant différentes mesures de similarité (distance de corrélation centrée ou non centrée, corrélation des rangs de Spearman,...). Le logiciel permet d'appliquer divers traitements (centrage médian des gènes, transformation logarithmique...) avant classification. Site web : http://bonsai.hgc.jp/~mdehoon/software/cluster/software.htm Système : Windows, Mac et Linux Fiche Plume : https://www.projet-plume.org/fr/fiche/cluster Version testée : 3.0 6.4 Java Treeview Fonctionnalités générales : Logiciel permettant la visualisation sous forme de carte thermique (« heat map ») des données préalablement classées par le logiciel Cluster. Lors de la classification hiérarchique des données, les gènes et les échantillons sont ordonnés de manière hiérarchique dans un dendogramme qui peut être visualisé grâce au logiciel Treeview. 15/18 Logiciels conseillés par la plateforme Site web : http://jtreeview.sourceforge.net/ Système : Windows, Mac et Linux 16/18 Version 1 19/09/12 Logiciels conseillés par la plateforme Version 1 19/09/12 Chapter 7 : Autres 7.1 Cutadapt Fonctionnalités générales : Logiciel permettant de supprimer les séquences des adaptateurs dans des données de séquençage. Cela s'avère nécessaire lorsque la longueur du read est supérieure à la molécule à séquencer, comme pour les microARNs. Il est également possible de couper la fin des reads dont la qualité baisse en fin de séquence. Les adaptateurs Illumina peuvent être renseignés avec l'option -a ADAPTER-SEQUENCE. Le programme prend en entrée et rend en sortie des fichiers au format fastq (éventuellement compressés : fastq.gz), ou au format fasta. Le programme requiert l'installation préalable de Python, version >= 2.6. Son utilisation se fait en ligne de commande, ou via Galaxy. Site web : http://code.google.com/p/cutadapt/ Système : Linux 7.2 Diagramme de Venn Fonctionnalités générales : Il existe diverses interfaces web permettant de faire des diagrammes de Venn en ligne. Ce type de représentation vous permet de comparer facilement des listes de gènes et d'obtenir les gènes en intersection. Site web : http://bioinfogp.cnb.csic.es/tools/venny/index.html http://bioinfo.genotoul.fr/index.php?id=116 Système : interface web 17/18 Logiciels conseillés par la plateforme Version 1 19/09/12 7.3 Formats de fichiers Une documentation sur les différents formats de fichier est disponible sur UCSC : http://genome.ucsc.edu/FAQ/FAQformat.html 18/18
Documents pareils
Formation à l`analyse de données RNA-seq
fastqc MT_rep1_1_Ch6.fastq.gz
fastqc MT_rep1_2_Ch6.fastq.gz
fastqc WT_rep1_1_Ch6.fastq.gz
fastqc WT_rep1_2_Ch6.fastq.gz