Présentation et accès aux bases de données OMIM, EMBL
Transcription
Présentation et accès aux bases de données OMIM, EMBL
Présentation et accès aux bases de données OMIM, GDB, EMBL/GenBank, SWISSPROT, PDB et au système d'information IMGT Véronique Giudicelli LIGM, IGH, UPR CNRS 1142 141 rue de la Cardonille 34296 Montpellier Cedex 5 tel: 04.99.61.99.65 fax: 04.99.61.99.01 e-mail: [email protected] 17 Octobre 2006 Rôles des bases de données 1 - Collecter les informations Dans la littérature Auprès des biologistes Dans les autres bases de données 2 - Stocker et organiser les données Dans une logique cohérente 3 - Distribuer l’information (outils informatiques) Distribuer des données contrôlées Assurer une large diffusion 4 - Faciliter l’exploitation des données Interfaces conviviales Définition des critères de recherche Recherche, comparaison de données 17 Octobre 2006 Quelques sources d’information 1 - Des exemples de serveurs WWW : IGH PASTEUR PBIL EBI DKFZ ExPASy NCBI TIGR http://www.igh.cnrs.fr http://bioweb.pasteur.fr/intro-uk.html http://pbil.univ-lyon1.fr/ http://www.ebi.ac.uk http://genome.dkfz-heidelberg.de http://www.expasy.ch http://www.ncbi.nlm.nih.gov/ http://www.tigr.org 17 Octobre 2006 Quelques sources d’information 2 - La littérature Le premier Nucleic Acids Research de l’année est dédié aux bases de données en Biologie 3 - DBCAT: The Public Catalog of Databases maintenu par INFOBIOGEN (activités interrompues en Juillet 2006 4 - Catalogue de logiciels Biocatalog: http://www.ebi.ac.uk/biocat (606 entrées - fin 2004) SoftwareSeek: http://genamics.com/software/index.htm 17 Octobre 2006 Bases de données de gènes et cartographies OMIM NCBI, USA (http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=OMIM/) Catalogue des gènes humains et des désordres génétiques et cliniques GDB The Genome Database, RTI, Caroline du nord (http://www.gdb.org/) Cartographie des gènes humains (gènes, polymorphismes, mutations, sondes, cartes génétiques, GenBank) Entrez gene NCBI, USA (http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=gene/) Collections de liens (locus, cartographie, medline, OMIM, Entrez, GenBank, Unigene, polymorphisme) associés à chacun des gènes étudiés GeneCards TM, Weizmann Institute, Israël (http://www.genecards.org/index.shtml/) Base de données de gènes automatiquement générée qui intègre les informations sur les gènes, leurs produits, et leurs implications dans les maladies GENATLAS Paris, France (http://www.dsi.univ-paris5.fr/genatlas/) Collection d'informations et de données (gènes, maladies, marqueurs) 17 Octobre 2006 OMIM Online Mendelian Inheritance in Man Base de données de gènes et maladies genetiques Créée en 1968 par Dr. Victor A. McKusick Localisation Maintenue à l'Université Johns Hopkins, Baltimore, Maryland (USA) L’interface WWW est développée par le NCBI (National Center for Biotechnology Information) Regroupe: - une base de données : catalogue de maladies génétiques et de gènes associés - des cartes cytogénétiques des gènes décrits dans la base de données (recherche par gènes, localisation chromosomiques ou par maladies) Contient Distribution actuellement 17140 entrées (Octobre 2006) http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=OMIM 17 Octobre 2006 17 Octobre 2006 17 Octobre 2006 17 Octobre 2006 17 Octobre 2006 17 Octobre 2006 17 Octobre 2006 17 Octobre 2006 17 Octobre 2006 17 Octobre 2006 17 Octobre 2006 17 Octobre 2006 17 Octobre 2006 17 Octobre 2006 17 Octobre 2006 17 Octobre 2006 17 Octobre 2006 GDB Genome DataBank Créée en 1990 à l'Université Johns Hopkins, Baltimore, Maryland (USA) Localisation maintenue de1999 à 2002 par le BiSC, Toronto depuis novembre 2003 par le RTI (Caroline du nord) Regroupe : - les gènes, - les clones, - les marqueurs cytogénétiques, les cartographies - RFLP, les polymorphismes - les allèles Contient les données relatives à la structure du génome humain, sa diversité et à son évolution Outils de soumission des données GenePoint : pour l’annotation du génome Système interactif pour commenter les données Distribution Web: http://www.gdb.org/ 17 Octobre 2006 17 Octobre 2006 17 Octobre 2006 17 Octobre 2006 17 Octobre 2006 17 Octobre 2006 17 Octobre 2006 17 Octobre 2006 17 Octobre 2006 17 Octobre 2006 17 Octobre 2006 Les bases de données généralistes de séquences nucléotidiques et protéiques Elles couvrent tous les secteurs de la biologie, toutes les espèces 1 - Avantages - Ce sont les bases de données les plus complètes - Elles sont très largement distribuées - Elles permettent aux auteurs de prendre date - Ce sont des outils indispensables à la diffusion rapide des résultats scientifiques 2 - Inconvénients - Elles contiennent beaucoup de redondance - La qualité des données est sous la responsabilité des auteurs - Encore beaucoup d’erreurs malgré les contrôles - Evolution lente 17 Octobre 2006 Les bases de données généralistes de séquences nucléotidiques GenBank NCBI, USA http://www.ncbi.nlm.nih.gov/Genbank/index.html EMBL EBI, UK http://www.ebi.ac.uk/embl/ DDBJ NIG, Japon http://www.ddbj.nig.ac.jp 17 Octobre 2006 EMBL/GenBank/DDJB International Nucleotide Sequence Database Collaboration http://www.insdc.org/ • Ces 3 BD contiennent les mêmes informations à quelques jours prêts (différences dans la format et la syntaxe) • Elles contiennent toutes les séquences nucléotidiques de: – projets de séquençage de génomes – Projets individuel de recherche – Patent offices • Les données non confidentielles sont échangées tous les jours 17 Octobre 2006 EMBL/GenBank/DDJB • Grande hétérogénéité dans la longueur des séquences • Tailles: il n’y a plus de maximum (>300.000pb) Les plus petites de l’ordre de 10 nt • Toutes les séquences sont conservées (beaucoup de redondance) • Beaucoup d’erreurs dans les séquences, les annotations, la détermination des CDS • Hétérogénité de la qualité des annotations qui sont principalement fournies par les auteurs 17 Octobre 2006 GenBank Banque de séquences d’ADN et d’ARN Créée en 1978 Localisation National Center for Biotechnology Information, NLM, NIH, Bethesda, MD, USA Août 2006 > 61.106 entrées (+ de 65.109 de nucléotides) Plus de 205.000 espèces sont représentées (+ de 3000 nouvelles espèces par mois) Origine des séquences Analyse de la littérature mondiale Soumission par les auteurs Collaboration avec EMBL et DDBJ (version 155) Outils de soumission des séquences Sequin, Bankit, tbl2asn Consultation, distribution (fichiers à plat) Web (http://www.ncbi.nlm.nih.gov), Entrez, FTP 17 Octobre 2006 17 Octobre 2006 17 Octobre 2006 17 Octobre 2006 17 Octobre 2006 EMBL Nucleotide Sequence Database Banque de séquences d’ADN et d’ARN Créée en 1980 Localisation European Bioinformatics Institute, Hinxton, UK Septembre 2006 > 80.106 entrées (+ de 146.109 de nucléotides) (version 88) Origine des séquences Analyse de la littérature européenne Soumission par les auteurs Collaboration avec GenBank et DDBJ Outils de soumission des séquences Sequin, Webin (http://www.ebi.ac.uk/embl/Submission/) Consultation, distribution (fichiers à plat) Web (http://www.ebi.ac.uk), SRS, FTP 17 Octobre 2006 17 Octobre 2006 17 Octobre 2006 Structure des informations distribuées par EMBL 17 Octobre 2006 Les classes EMBL La classe de données pour chaque entrée reflète l’approche méthodologique utilisée pour la génération de la séquence CON Entry constructed from segment entry sequences, drawing annotation from segment entries ANN Entry constructed from segment entry sequences with its own annotation PAT Patent EST Expressed Sequence Tag GSS Genome Survey Sequence, short single pass genomic sequences HTC High Thoughput CDNA sequencing HTG High Thoughput Genome sequencing MGA Mass Genome Annotation WGS Whole Genome Shotgun TPA Third Party Annotation STS Sequence Tagged Site STD Standard (all entries not classified as above) 17 Octobre 2006 Les divisions EMBL et GenBank Création de divisions taxonomiques EMBL Bacteriophage Environmental Sample Fungal Human Invertebrate Other Mammal Other Vertebrate Mus musculus Plant Prokaryote Other Rodent Synthetic Unclassified Viral GenBanK PHG ENV FUN HUM INV MAM VRT MUS PLN PRO ROD SYN UNC VRL PRI - primate sequences ROD - rodent sequences MAM - other mammalian sequences VRT - other vertebrate sequences INV - invertebrate sequences PLN - plant, fungal, and algal sequences BCT - bacterial sequences VRL - viral sequences PHG - bacteriophage sequences SYN - synthetic sequences UNA - unannotated sequences EST - EST sequences (expressed sequence tags) PAT - patent sequences STS - STS sequences (sequence tagged sites) GSS - GSS sequences (genome survey sequences) HTG - HTGS sequences (high throughput genomic sequences) HTC - HTC sequences (high throughput cDNA sequences) ENV - Environmental sampling sequences 17 Octobre 2006 nom de l'entrée; version de la séquence; classe de la donnée; molécule; division; longueur. Numéro d’accès Date d’entrée dans EMBL Dernière date de modification Definition Mots clé 17 Octobre 2006 Espèce et classific ation Références bibliographiques Cross-références 17 Octobre 2006 Les lignes et codes de EMBL CC Commentaires. FH En-tête du champ FT (feature) FT Motifs/caractéristiques de la séquence. "The feature table". SQ Longueur de la séquence en paire de bases, composition Séquence avec 60 nucléotides par ligne dans le sens 5'--->3'. 17 Octobre 2006 Les lignes FT: les annotations Features Caractérisation des motifs de la séquence présentation dans un ordre hierarchique comprend le nom et la delimitation du motif dans la séquence Qualifiers ajoutent des informations concernant la feature comprend un nom et un texte associé (texte libre ou vocabulaire contrôlé) FT CDS FT FT FT FT FT FT 1..391 /codon_start=2 /db_xref="PID:e1358278" /partial /gene="IgH" /product="immunoglobulin heavy chain" /translation="MSWVFLVAILEGVQCEVQLVESGGGLVQPGGSLRLSCAASGFTFS" 17 Octobre 2006 17 Octobre 2006 Structure de l’information dans les bases de données généralistes DDBJ/EMBL/GenBank Des codes pour indiquer les types d’information 17 Octobre 2006 EMBL Feature labels http://www3.ebi.ac.uk/Services/WebFeat/ 17 Octobre 2006 D EMBL Feature labels V J N 17 Octobre 2006 http://www.ebi.ac.uk/embl/Documentation/FT_definitions/feature_table.html D EMBL Feature labels V J N 17 Octobre 2006 http://www.ebi.ac.uk/embl/Documentation/FT_definitions/feature_table.html Les bases de données généralistes pour les protéines SWISS-PROT Université de Genève, Suisse EBI, UK http://us.expasy.org/sprot/ http://www.ebi.ac.uk PIR NBRF, USA http://pir.georgetown.edu/ UNIPROT http://www.expasy.uniprot.org/ 17 Octobre 2006 17 Octobre 2006 SWISS-PROT Banque de séquences protéiques Créée en 1986 par Amos Bairoth, Suisse Privilégie la qualité des données, n’accepte pas toutes les séquences Un complément: TREMBL Localisation Université de Genève, Suisse; EBI, UK October 2006 >234.000 séquences Origine des séquences Analyse de la littérature, soumission par les auteurs, traduction de séquences nucléotidiques Distribution (fichiers à plat) Web (http://www.expasy.org/sprot, http://www.ebi.ac.uk), FTP Outils de soumission des séquences SPIN http://www.ebi.ac.uk/swissprot/Submissions/spin/index.jsp 17 Octobre 2006 17 Octobre 2006 17 Octobre 2006 17 Octobre 2006 17 Octobre 2006 PDB PROTEIN DATA BANK Banque de structures tridimentionnelles Localisation Créée par Brookhaven National Laboratory, NIH, Bethesda, MD, USA Maintenue depuis juillet 1999 par le RCSB (Research Collaboratory for Structural Bioinformatics) Contient les coordonnées 3D de 39.223 structures (protéines ou acides nucléiques ) (Octobre 2006) Outils de visualisation 3D Rasmol, Cn3D, Web Labviewer, WPDB Distribution (fichiers à plat) Web (http://www.rcsb.org/pdb/Welcome.do), FTP 17 Octobre 2006 Systèmes d'information et bases de données spécialisés Ils couvrent un secteur défini de la biologie Avantages - Ils fournissent des informations détaillées, spécifiques du domaine biologique qui n'existent pas dans les systèmes généralistes - Les données sont en général contrôlées, donc plus fiables et de meilleure qualité que dans les bases généralistes - Ils évoluent en fonction des progrès scientifiques dans le domaine plus facilement 17 Octobre 2006 Systèmes d'information et bases de données spécialisés Ils couvrent un secteur défini de la biologie Avantages - Ils fournissent des informations détaillées, spécifiques du domaine biologique qui n'existent pas dans les systèmes généralistes - Les données sont en général contrôlées, donc plus fiables et de meilleure qualité que dans les bases généralistes - Ils évoluent en fonction des progrès scientifiques dans le domaine plus facilement 17 Octobre 2006 Le système d’information IMGT 17 Octobre 2006 http://imgt.cines.fr IMGT, the international ImMunoGeneTics information system® http://imgt.cines.fr Bases de données Bases de données de séquences IMGT/LIGMDB + de 100.000 séquences nucléotidiques IG et TR de 170 espèces de vertébrés (sur le Web depuis 1995) Outils en ligne Ressources Web Analyse de séquences Séquences • IMGT/VQUEST • IMGT/JunctionAnalysis • IMGT/PhyloGene • IMGT/AlleleAlign IMGT Repertoire: • Alignments of alleles • Tables of alleles • Protein displays, etc. Analyse de génomes Génomes Base de données de gènes • IMGT/GeneSearch • IMGT/GeneView • IMGT/LocusView • Chromosomal localizations Base de données de structures 3D Analyse de structures 3D • IMGT/StructuralQuery Structures 2D et 3D • IMGT/PRIMERDB • IMGT/MHCDB • IMGT/GENEDB • IMGT/3DstructureDB • Locus representations • Gene tables, etc. • 2D Colliers de Perles • 3D representations, etc. 17 Octobre 2006 Séquences d’ADN génomique en configuration germline 1 - Exemple d’un V-GENE >X62106.0|HSVI2|Homo sapiens VI-2 gene for immunoglobulin heavy chain tgagagctcc gttcctcacc atggactgga cctggaggat cctcttcttg gtggcagcag ccacaggtaa gaggctccct agtcccagtg atgagaaaga gattgagtcc agtccaggga gatctcatcc acttctgtgt tctctccaca ggagcccact cccaggtgca gctggtgcag tctggggctg aggtgaagaa gcctggggcc tcagtgaagg tctcctgcaa ggcttctgga tacaccttca ccggctacta tatgcactgg gtgcgacagg cccctggaca agggcttgag tggatgggat ggatcaaccc taacagtggt ggcacaaact atgcacagaa gtttcagggc agggtcacca tgaccaggga cacgtccatc agcacagcct acatggagct gagcaggctg tgaaa agatctgacg acacggccgt gtattactgt gcgagagaca cagtgtgaaa acccacatcc acccacatcc tgagggtgtc agaaacccaa gggaggaggc ag tgagggtg 5' 5'UTR LPART1 INITCODON VINTRON DONOR SPLICE LPART2 ACCEPTOR SPLICE 1stCYS 23 VREGION VRS 60 120 180 240 300 360 420 480 3'UTR 3' 2ndCYS VHEPTAMER V 104 VNONAMER SPACER 17 Octobre 2006 Séquences d’ADN génomique en configuration germline 2 - Exemple d’un D-GENE >J00256|IGHD7-27*01|Homo sapiens D-GENE c tgagctgaga accactgtgc ac att ccagccgcag ggtttttggc taactgggga cacagtgatt ggcagctct caaaaaccat gctcccccgg g ggcagctcta 5' 5'UTR 5’DRS DREGION 5’DNONAMER 5’DSPACER 5’DHEPTAMER 3’DRS 3'UTR 60 3' 3’D 3’DSPACER HEPTAMER 3’DNONAMER 3 - Exemple d’un J-GENE >J00256|IGHJ1*01|Homo sapiens J-GENE gcccctgg ctcagggctg actcaccgtg act accccgggct gtgggtttct gtgcccctgg gctgaatact tccagcactg gggccagggc accctggtca ccgtctcctc aggtgagtct gctgtactgg ggatagcggg gagccatgtg tactgggcca agcaagggct ttggcttcag 5' 5'UTR JRS JREGION JTRP JNONAMER JSPACER 118 JHEPTAMER DONOR SPLICE 3'UTR 60 120 170 3' 17 Octobre 2006 17 Octobre 2006 17 Octobre 2006 17 Octobre 2006 Sequence Database Retrieval 1- SRS (sequence retrieval system) 2- ENTREZ 17 Octobre 2006 caractéristiques - Système d’interrogation multibase - Accès à des bases de données dont les objectifs peuvent être très différents (BD generalistes, specialiées, ontologies, references bibliographiques ) - interfaces puissantes pour répondre à des requêtes complexes 17 Octobre 2006 17 Octobre 2006 17 Octobre 2006 SRS http://srs.ebi.ac.uk/srsbin/cgi-bin/wgetz?-page+srsq2+-noSession 17 Octobre 2006 17 Octobre 2006 Selection des bases de données 17 Octobre 2006 Pour en savoir plus sur les bases de données diponibles 17 Octobre 2006 17 Octobre 2006 17 Octobre 2006 1 - Recherche rapide: par mots clés chronic lymphocytic leukemia et/ou CLL 17 Octobre 2006 17 Octobre 2006 2 - Recherche standard 17 Octobre 2006 17 Octobre 2006 17 Octobre 2006 17 Octobre 2006 17 Octobre 2006 17 Octobre 2006 17 Octobre 2006 Sauvegarde des resultats 17 Octobre 2006 Sauvegarde des resultats 17 Octobre 2006 3 - Recherche étendue: 17 Octobre 2006 17 Octobre 2006 17 Octobre 2006 ENTREZ http://www.ncbi.nlm.nih.gov/ 17 Octobre 2006 La page d’accueil du NCBI (http://www.ncbi.nlm.nih.gov/) 17 Octobre 2006 Entrez at http://www.ncbi.nlm.nih.gov/gquery/gquery.fcgi 17 Octobre 2006 17 Octobre 2006 Recherche générale 17 Octobre 2006 17 Octobre 2006 Affiner ses recherches par l’onglet limits 17 Octobre 2006 Affiner ses recherches par l’onglet “Limits” Procéder par étapes: 1) “chronic lymphocytic leukemia » dans tous les champs 17 Octobre 2006 Affiner ses recherches par l’onglet limits 17 Octobre 2006 Affiner ses recherches par l’onglet “Limits” Procéder par étapes: 2) restreindre la recherche aux séquences ARNm humaines 17 Octobre 2006 17 Octobre 2006 17 Octobre 2006 17 Octobre 2006 17 Octobre 2006 17 Octobre 2006 17 Octobre 2006 17 Octobre 2006 Ensembl Genome Browser http://www.ebi.ac.uk/ensembl 17 Octobre 2006 17 Octobre 2006 17 Octobre 2006 17 Octobre 2006 17 Octobre 2006 17 Octobre 2006 17 Octobre 2006 17 Octobre 2006
Documents pareils
Instructions pour la préparation d`un Résumé aux Journées
Institut de Génétique Humaine IGH, 141 rue de la Cardonille 34396 Montpellier Cedex 5, France
Tel: +33 4 99 61 99 65, Fax: +33 4 99 61 99 01 Email: [email protected] URL :
http://imgt.cines.fr
imgt-ontology
• IMGT/GENE-DB is the international reference database for IG and TR genes