Alignements multiples
Transcription
Alignements multiples
Alignements multiples [email protected] Buts Détermination des régions conservées entre plusieurs séquences 9 Domaine ou région associée à une fonction de la molécule 9 Acides aminés impliqués dans la catalyse ou à la liaison à un substrat Î Déterminer des signature des séquences Les méthodes : principes progressive ou itératives n séquences 1 alignement 1 consensus Deux étapes fondamentales : a) Comparer les séquences 2 à 2 ou trouver les 2 plus proches b) progressive : entrer progressivement dans l’alignement multiple chaque séquence à l’aide d’une matrice de distance itérative : construire un alignement multiple avec une méthode profil-séquence, puis confronter chaque séquence à un profil. Répéter jusqu’ à convergence du score. L’étape 1 (méthode progressive) Calcul d’un score de comparaison pour chaque couple de séquences Î distance entre 2 séquences MATRICE DE DISTANCES S1 S1 S2 S3 S4 S2 d3 S3 d1 d4 S4 d5 d2 d6 Si on considère que : d1 < d2 < d3 < d4 < d5 < d6 L’étape 2 (méthode progressive) Elaboration d’un DENDROGRAMME Í Î ORDRE de l’alignement multiple S3 S4 S1 S2 C1 C2 C3 Séquence intermédiaire Différents programmes Les différences sont dans les implémentations des méthodes programmation, présentation des résultats… Progessif : Pilup (GCG) format de sortie .MSF Multialign (F. Corpet, 1988) format de sortie .MSF ClustalV (Higgins, 1989) Î ClustalW (1999) format de sortie .ALN Itératif : Dialign (Morgenstern, 1996) Î Dialign2 (1998) format de sortie dial Choix d’un programme Î Pas de méthodes parfaites - plus il y a de séquences, plus l’alignement sera bon. - des modifications manuelles sont souvent nécessaires. Processus progressif : alignements de sous groupes sont bloqués, si erreur, il y a propagation. Processus itératif : donne mauvais alignement si séquences orphelines et le prog. peut être très long. Le programme CLUSTAL Méthode progressive et globale Le programme le plus utilisé (CLUSTALW): - Prend des choix pour éviter de "boucler“ - Pénalités des gaps diminués pour les extrémités et retardement dans l’alignement pour les séquences très divergentes Paramètres alignement 2 à 2 A partir de 20 séquences Î algorithme rapide Paramètres alignement multiple Données en entrée Un fichier contenant plusieurs séquences = multialignement Un profil = alignement multiple Données en sortie Format ALN Le programme DIALIGN Méthode itérative et locale Le programme le plus efficace en méthode locale (DIALIGN2): - Pas de pénalités pour les gaps - Basé sur des paires de segments sans gap appelés ici “diagonale“ - trouver les collections de diagonales qui donnent le maximum de scores Données en entrée Degré de similarité locale = Poids relatif d’une position (par rapport aux paires de segments similaires) Plus T est élevé: (échelle de 1 à 10) Plus exigent dans la qualité des diagonales Données en sortie Format dialign Format fasta d’alignement également disponible Visualisation des résultats Programme BOXSHADE Editeur multiple de séquences Programme Jalview Les arbres ( ( ( ALBU_BOVIN:0.03293, ALBU_SHEEP:0.04286) :0.07282, ALBU_PIG:0.09756) :0.02679, ( ALBU_HUMAN:0.03557, ALBU_MACMU:0.02943) :0.07246, ALBU_RAT:0.15660); ,------------1:ALBU BOVIN ,----------------------------9 ,---------8 `----------------2:ALBU SHEEP ! ! ! `-------------------------------------3:ALBU PIG --7 ! ,-------------4:ALBU HUMAN ! ,--------------------------10 `-11 `-----------5:ALBU MACMU ! `------------------------------------------------------------6:ALBU RAT
Documents pareils
TP : Analyse de séquences sous UNIX
o Les fichiers en .Z ou .gz sont des fichiers compressés. Après les avoir
téléchargé, il est nécessaire de les décompresser à l'aide du programme
uncompress (pour les fichiers .Z) ou gunzip (pour l...