1 +1 - Céline Brochier
Transcription
1 +1 - Céline Brochier
Bioinformatique: alignement de séquences Céline Brochier-Armanet Université Claude Bernard, Lyon 1 Laboratoire de Biométrie et Biologie évolutive (UMR 5558) [email protected] • Problème NP-complet • Requière l’utilisation d’heuristiques • > 100 heuristiques disponibles => solutions différentes • Le choix Alignement global vs alignement local A1 B1 C1 A'1 A2 Séquence 1 B1 A2 C2 A1 B1 B2 A2 A1 A2 A'1 A2 C1 A'1 C1 C2 B2 B1 B2 Séquence 2 Needleman & Wunsch FASTA A1 C2 C1 C2 A'1 B2 Smith & Waterman BLAST Alignement de deux séquences vs alignement multiple Séquence 1 Séquence 2 Séquence 1 Séquence 2 Séquence 3 Séquence 4 Représentation • Les résidus (nucléotides, acides aminés) sont superposés de façon à maximiser la similarité entre les séquences (selon les critères choisis) : G T T A A G G C G – G G A A A G T T – – – G C G A G G A C A * * * * * * * * * * • Il existe deux sortes de mutations : – Substitutions (mismatches). – Insertions et délétions (indels ou gaps). Quel est le bon alignement ? G T T A C G A G T T - G G A * * * * * ou G T T A C - G A G T T - - G G A * * * * * G T T A C G A G T T G - G A * * * * * • Doit maximiser la « similarité » entre les séquences Évolution : seront alignés ensemble des résidus homologues, cad descendant d’un même résidu ancestral. Structure : seront alignés ensembles des résidus occupant une position équivalente des résidus dans des structures 2D ou 3D. Fonction : seront alignés ensembles des résidus ayant des fonctions similaires. Critères d’évaluation / comparaison des alignements Matrices de points (dot-plot) • Comparaison visuelle de deux séquences : – Une suite de points en diagonale indique une similarité locale. – Méthode simple et rapide : • Algorithme en O(nm). – Visualisation des répétitions directes ou inversées. – Pas d’alignement global. – Pas de score associé. C T T GCA CGTA T C T G C A C G T A T T A Élimination du bruit de fond • Filtrage en affichant un point uniquement si plusieurs résidus successifs correspondent : – Exemple des hémoglobines et humaines : Identités = 3/10 Identités = 5/10 Fonction de score de similarité G T T A A G G C G – G G A A A G T T – – – G C G A G G A C A * * * * * * * * * * Score = Score Identités + Score Différences Identité Substitution Gap = +1 =0 = -1 Score = 10 - 4 = 6 Modèle d’évolution (ADN) A C G T P(transition) > P(transversion) G T T A C G A G T T G - G A * * * : * * > G T T A C G A G T T - G G A * * * * * Matrice de substitution (ADN) G G 1 T T 1 A 1 C 0 1 G 0.5 0 1 T 0 0.5 0 1 A C G T T A T 1 -1 C G 0 Score = 4 G G 1 A A 1 (A, A) = 1.0 (A, G) = 0.5 (A, –) = -1 < G G 1 T T 1 T A C T G 1 .5 -1 Score = 4.5 G G 1 A A 1 Le cas des acides aminés • Plus difficile à modéliser que celui des nucléotides : – Un acide aminé peut être remplacé par un autre de différentes façons (code génétique). • Asp (GAC) Tyr (UAC, UAU) 1 ou 2 mutations Le cas des acides aminés • Plus difficile à modéliser que celui des nucléotides : – Un acide aminé peut être remplacé par un autre de différentes façons (code génétique). – Le nombre de substitutions requises pour passer d’un acide aminé à un autre diffère. Asp (GAC, GAU) Tyr (UAC, UAU) 1 mutation Asp (GAC, GAU) Cys (UGC, UGU) 2 mutations Asp (GAC, GAU) Trp (UGG) 3 mutations Le cas des acides aminés • Plus difficile à modéliser que celui des nucléotides : – Un acide aminé peut être remplacé par un autre de différentes façons (code génétique). – Le nombre de substitutions requises pour passer d’un acide aminé à un autre diffère. – La probabilité des substitutions au niveau nucléotidique diffère : P(AAUAsn|GAUAsp) > P(AAUAsn|CAUHis) Le cas des acides aminés • Plus difficile à modéliser que celui des nucléotides : – Un acide aminé peut être remplacé par un autre de différentes façons (code génétique). – Le nombre de substitutions requises pour passer d’un acide aminé à un autre diffère. – La probabilité des substitutions au niveau nucléotidique diffère : – Certaines substitutions peuvent avoir plus ou moins d’effet sur la fonction des protéines. • Acidité, hydrophobicité, structure des protéines, etc. Substitutions conservatrices Val Ile NH2 NH2 H C COOH H C COOH H C CH3 H C CH3 CH3 CH2 CH3 Modèles d’évolution (prot.) • Mesure des fréquences de substitution dans des alignements de protéines homologues : – Matrices basées sur des arbres construits en utilisant le maximum de parcimonie : • PAM (Dayhoff et al., 1978). • JTT (Jones et al., 1992). – Matrices basées sur des arbres construits en utilisant le maximum de vraisemblance : • WAG (Whelan et Goldman, 2001). – Matrices basées sur des comparaisons par paires utili-sant des alignements locaux : • BLOSUM (Henikoff et Henikoff, 1992). Matrice de substitution (prot.) D 6 E 2 5 F -3 -3 6 G -1 -2 -3 6 W -4 -3 1 -2 11 D E F G W (D, D) ≠ (W, W) M R D W - G F M R - W D G F * * * * * Certains acides aminés sont moins facilement substituables > M R - D W G F M R W D - G F * * * * * Matrices de Dayoff ou PAM – PAM = Percentage of Accepted point Mutation Margaret Dayhoff, 1978 – Probabilité d'observer la mutation X->Y après un temps évolutif donné. Basé sur alignement de protéines conservées à + de 85%. Chaque case représente la probabilité de voir ces deux résidus remplacés l'un par l'autre dans un alignement. (matrice lod-score, de "log-odds" ou "log des chances"). •Un exemple de lod-score est: S = log (Fij / (Fi x Fj)) Où Fij est la fréquence de remplacement du résidu i par j, et Fi et Fj sont les fréquences respectives des résidus i et j. •Dans cette matrice de similitude, plus la valeur est négative, plus la probabilité est faible, plus le remplacement est rare. •La table est valable pour une certaine distance évolutive. •La distance est mesurée en PAM: nbre de mutations ponctuelles par 100 aa. •2 Séquences séparées par une unité PAM: 1 mutation par 100 aa. •Les valeurs sont déterminées initialement pour des protéines séparées de 6 à 100 PAM, puis extrapolées pour 150, 250 PAM, etc. •Pour des protéines éloignées, on ne pourrait pas directement extrapoler à partir de valeurs tirées par ex. de PAM 10, car la nature des mutations change avec la distance évolutive. Le code génétique, par exemple, influence les mutations permises sur une courte durée, mais pas sur une longue durée. Matrice de Dayoff (1979) A 0.4 B C D E F G H 0.0 -0.4 0.0 0.0 -0.8 0.2 -0.2 0.5 -0.9 0.6 0.4 -1.0 0.1 0.3 2.4 -1.0 -1.0 -0.8 -0.6 -0.6 0.8 0.6 -1.2 0.2 0.2 0.8 -1.0 0.0 0.2 1.8 -1.0 -0.4 1.0 -0.4 1.2 University of Nijmegen W=Tryprophane (Cyclique) C= Cysteine (Soufre) I -0.2 -0.4 -0.4 -0.4 -0.4 0.2 -0.6 -0.4 1.0 K -0.2 0.1 -1.0 0.0 0.0 -1.0 -0.4 0.0 -0.4 1.0 L -0.4 -0.7 -1.2 -0.8 -0.6 0.4 -0.8 -0.4 0.4 -0.6 1.2 M -0.2 -0.5 -1.0 -0.6 -0.4 0.0 -0.6 -0.4 0.4 0.0 0.8 1.2 N 0.0 0.4 -0.8 0.4 0.2 -0.8 0.0 0.4 -0.4 0.2 -0.6 -0.4 0.4 P 0.2 -0.2 -0.6 -0.2 -0.2 -1.0 -0.2 0.0 -0.4 -0.2 -0.6 -0.4 -0.2 1.2 Q 0.0 0.3 -1.0 0.4 0.4 -1.0 -0.2 0.6 -0.4 0.2 -0.4 -0.2 0.2 0.0 0.8 R -0.4 -0.1 -0.8 -0.2 -0.2 -0.8 -0.6 0.4 -0.4 0.6 -0.6 0.0 0.0 0.0 0.2 1.2 S 0.2 0.1 0.0 0.0 0.0 -0.6 0.2 -0.2 -0.2 0.0 -0.6 -0.4 0.2 0.2 -0.2 0.0 0.4 T 0.2 0.0 -0.4 0.0 0.0 -0.6 0.0 -0.2 0.0 0.0 -0.4 -0.2 0.0 0.0 -0.2 -0.2 0.2 0.6 V 0.0 -0.4 -0.4 -0.4 -0.4 -0.2 -0.2 -0.4 0.8 -0.4 0.4 0.4 -0.4 -0.2 -0.4 -0.4 -0.2 0.0 0.8 W -1.2 -1.1 -1.6 -1.4 -1.4 0.0 -1.4 -0.6 -1.0 -0.6 -0.4 -0.8 -0.8 -1.2 -1.0 0.4 -0.4 -1.0 -1.2 3.4 Y -0.6 -0.6 0.0 -0.8 -0.8 1.4 -1.0 0.0 -0.2 -0.8 -0.2 -0.4 -0.4 -1.0 -0.8 -0.8 -0.6 -0.6 -0.4 0.0 2.0 Z 0.0 0.4 -1.0 0.5 0.6 -1.0 -0.1 -0.4 -0.4 0.1 -0.5 -0.3 0.2 -0.1 0.6 0.6 -0.1 -0.1 -0.4 -1.2 -0.8 0.6 A B C D E F G H I K L M N P Q R S T V W Y Z Matrices PAM et JTT • PAM (Point Accepted Mutation) : – 71 familles de gènes nucléaires correspondant à 1300 séquences : • Séquences peu divergentes entre elles (identité ≥ 85 % entre chaque paire possible dans une famille). – Alignements globaux. • JTT (Jones, Taylor and Thornton) : – Construites à partir de 59 190 mutations ponc-tuelles observées dans 16 300 protéines. – Alignements globaux. Seuil pour les matrices PAM 85 Twilight Zone % de différences 75 65 55 45 35 25 15 5 0 100 200 PAM 300 400 Matrices BLOSUM • BLOSUM (Blocks Substitution Matrices) : – Utilisation de ~2000 domaines conservés provenant de 500 familles de protéines. – Comparaisons effectuées dans les domaines alignés (banque BLOCKS). – Matrices créées à partir de domaines comprenant des séquences ± divergentes : • Toutes les paires ayant servi a construire une matrice BLOSUMk ont une identité ≥ à k %. • Matrices plus adaptées pour des protéines distantes du point de vue évolutif. Choix d’une matrice 100 • 90 90 80 50 70 62 60 50 50 100 40 120 30 30 20 Identité % 10 0 250 PAM • Pas de matrice idéale. Meilleurs résultats avec les matrices utilisant des modèles d’évolution : – BLOSUM globalement meilleures que PAM. Degré de similarité des séquences. Il est recommandé d’expérimenter ! BLOSUM • • Pondération des gaps • Pénalités linéaires : w = o + e k o : pénalité pour l’ouverture d’un gap. e : pénalité pour l’extension d’un gap. k : longueur du gap. TGATATCGCCA TGAT-T--CCA **** * *** 50 30 > pénalité 40 20 10 0 0 5 10 15 k 20 TGATATCGCCA TGAT---TCCA **** *** Autres pondérations w = o + e log(k) • Pondération par la distance évolutive : – e diminue quand la distance augmente. • Pondération par la nature des résidus : – e diminue dans les régions hydrophiles. 40 pénalité • Pénalités logarithmiques : 30 20 10 0 0 5 10 15 20 k Cœur hydrophobe Résidus hydrophiles N C Needleman et Wunsch Représentation sous la forme d’une trajectoire dans une matrice : a1 – Détermination de la trajectoire optimisant un score donné. – Définition de la matrice de chemin S : • Dans chaque case de cette matrice on stocke S(i, j), le score optimum de la trajectoire permettant d’arriver à cette case. … Soit deux séquences A et B de longueurs m et n : b1 Séquence B • Séquence A … ai … am bj … • bn S(i, j) Construction de la matrice • Soit S(i, j) la valeur optimum du score dans la case de coordonnées (i, j) : – Définition par rapport aux scores dans les trois cases adjacentes (i – 1, j), (i – 1, j – 1) et (i, j – 1) : i–1 i j–1 j S(i, j) S(i – 1, j) + (ai, –), S(i, j) = max S(i – 1, j – 1) + (ai, bj), S(i, j – 1) + (–, bj) Bords de la matrice • Les cases situées sur le bord du haut ou le bord gauche de la matrice ne possèdent plus le total requis de trois cases précédentes : – On ajoute une ligne et une colonne supplémentaires afin d’initialiser la matrice. Le balayage ne se faisant plus qu’avec des indices ≥ 1 on ne rencontre plus de cases nécessitant un traitement particulier. Bord du haut Bord gauche S(i, j) S(i, j) Exemple de calcul 0 A -2 T -4 T -6 A -8 A G C T A -2 -4 -6 -8 -10 -4 +1 -4 -1 -2 -6 -3 -4 -8 -5 -5 -10 -6 -2 -1 -3 +1 -3 -1 -1 -5 -3 -3 -7 -8 -4 -3 -5 -1 -1 -3 +1 -3 -1 -1 -5 -10 -6 -5 -7 -2 -3 -4 0 -1 -2 +1 -3 -12 -7 -7 -9 -5 -4 -6 -2 -2 -4 +1 -1 Identité : +1 Mismatch : +0 Gap : -2 A G C T A A – T T A +1 -2 +0 +1 +1 S = +1 A G C T A A T – T A +1 +0 -2 +1 +1 S = +1 Smith et Waterman • Algorithme dérivé de Needleman et Wunsch : – Initialisation des bords à 0. – N’importe quelle case de la matrice peut être considérée comme point de départ pour le calcul du score. i–1 i S(i – 1, j) + (ai, –), S(i – 1, j – 1) + (ai, bj), S(i, j) = max S(i, j – 1) + (–, bj) 0 j–1 j S(i, j) S(i, j) < 0 S(i, j) = 0 L’alignement de n séquences • Application possible du Needleman & Wunch à plus de deux séquences (en théorie) Pairwise Alignment: three possibilities Alignment of three sequences : seven possibilities • Le nombre de possibilité pour aligner n séquences est proportionnel à 2n – 1. • Le besoin en mémoire et ressources de calcul augmentent de manière exponentielle avec le nombre de séquences Application d’heuristiques Outils pour la recherche par similarité • Utilisation d’outils comme BLASTP/TBLASTN pour la recherche par similarité dans différentes banques de données de séquences protéiques/nucléiques • Banques de séquences protéiques types – SWISS-PROT : banque non redondante de séquences protéiques confirmées (Août 2010: 519 348 entrées (158,316 en 2004), incluant de nombreuses annotations et références croisées avec d’autres banques de séquences, de structures, de familles protéiques, de références bibliographiques, de descriptions de la fonction et du rôle biologique des protéines… – TrEMBL : banque non redondante de traduction des CDS soumis à EMBL (Août 2010: 11 636 205 entrées (1 400 820 en 2004) BLAST : principe général Mot Séquence banque Séquence requête Longueur du mot = w Score ≥ T Séquence banque Séquence requête Extension du segment similaire HSP : High Scoring Pair Score Score max. x T Extension stoppée quand : - la fin d’une des deux séquences est atteinte - score ≤ 0 - score ≤ score_max - x Extension du segment ©Guy Perrière Exemple S L A A L L N K C K T P Q G Q R L V N Q W x Liste de mots T voisins Query : 325 Sbjct : 290 P Q P E P R P K P N P D P H P M P S P Q P Q ... G G G G G G G G G A N 18 15 (P, P) = 7 14 (Q, R) = 1 14 (G, G) = 6 13 13 13 13 13 Score seuil T = 13 12 12 S L A A L L N K C K T P Q G Q R L V N Q W + L A + + L + T P G R + + + W T L A S V L D C T V T P M G S R M L K R W 345 310 ©Guy Perrière Versions de BLAST • blastp : protéine vs. protéine. • blastn : utile pour le non-codant. • blastx : séquences codantes non identifiées. • tblastn : homologues dans un génome non complètement annoté. Séquence Banque blastp Protéique Protéique T blastn Nucléique T Nucléique T tblastx ©Guy Perrière Évaluation statistique • Similarités détectées : – Relations significatives. – Similarités dues au hasard. • Fonction de score : – Mesure sous la forme : • D’une espérance mathématique (E-value). • Valeur en bits. – Basée sur une distribution calculée à partir séquences non homologues. – Les scores dépendent de la taille de la banque. ©Guy Perrière E-value, bits et similarité • Soit E, l’espérance mathématique d’avoir une similarité ≥ au score S observé : E = Kmn e–S Avec m et n les longueurs des deux séquences considérées, et K et deux paramètres dérivés de la distribution précédente. • Le score en bits S' est donné par : S' = [S – log(K)] / log(2) • La relation entre E et S' est donc donnée par : E = mn 2–S' ©Guy Perrière Recherche par Blast au NCBI Choix des paramètres Choix des paramètres Choix des paramètres avancés Résultats du BLAST : Entête Résultats du BLAST : Reformater les résultats Résultats du BLAST : Domaines conservés Résultats du BLAST : Vue graphique Résultats du BLAST : Descriptions Résultats du BLAST : Alignements locaux Résultats du BLAST : Alignements locaux Taxonomy report Caractéristiques des principaux logiciels d’alignement multiple Composants principaux des algorithmes Principaux logiciels (Chatzou et al. 2015) L’alignement progressif • Principe = procédure itérative basée sur le regroupement d’alignements deux à deux pour construire un alignement multiple • Trois étapes : – Alignement de paires de séquences – Construction d’un arbre guide – Alignement de groupes de séquences déjà alignées (alignement progressif). • CLUSTAL (Higgins, Sharp 1988, Thompson et al., 1994), le programme d’alignement multiple le plus cité. • MULTALIN, PILEUP, T-Coffee, Muscle L’homologie, base théorique de l’alignement multiple • Les séquences homologues sont reliées d’un point de vue évolutif • Idée = construire progressivement un alignement, à partir de séries de séquences (ou de groupes de séquences) alignées deux à deux, suivant un ordre de branchement donné par un arbre phylogénétique – Alignement des séquences les plus proches d’un point de vue phylogénétique – Intégration progressive des séquences un peu plus éloignées • Approche suffisamment rapide pour permettre la construction d’alignements contenant un grand nombre de séquences Alignement progressif • Construction itérative par groupement des alignements de paires de séquences : – Alignement de toutes les paires possibles : • Établissement d’une matrice de distances basée sur les scores des alignements. – Groupement des paires et / ou des séquences. – Groupement des alignements (alignement progressif proprement dit). • Différentes implémentations disponibles : – CLUSTAL, MULTALIN, MUSCLE. Algorithme de CLUSTAL W • Alignement de toutes les paires de séquences deux à deux par l’algorithme de Needleman et Wunsh • Construction d’une matrice de distances d’après la divergence mesurée entre chaque paire de séquences • Calcul d’un arbre guide à partir de la matrice de distances • Alignement progressif des séquences suivant l’ordre de branchement donné par l’arbre Exemple • Alignement de 7 séquences de globines: – – – – – – – Hémoglobine b Humaine (Hbb_H) Hémoglobine a Humaine (Hba_H) Hémoglobine b Cheval (Hbb_C) Hémoglobine a Cheval (Hba_C) Myoglobine de cétacé Physeter catodon (Myo) Hémoglobine V de lamproie Petromyzon marinus (Glb5) Leghémoglobine II de Lupin (Lgb) Alignement des séquences 2 à 2 et construction de la matrice de distances • Alignement des séquences 2 à 2 par programmation dynamique (algorithme de Needleman et Wunsh) connaissant une matrice de similarité et les pénalité dues aux gaps (ouverture et extension) • Score = nombre d’identités / nb de résidus comparés (excluant les gaps) • % de divergence = 1 - score • Remarque : le calcul du score ne tient pas compte des substitutions multiples, mais on peut utiliser des modèles d’évolution comme Kimura ou JC pour en tenir compte Alignement des séquences 2 à 2 et construction de la matrice de distances Hbb_H Hbb_H Hbb_C 0.17 Hba_H 0.59 Hba_C 0.59 Myo 0.77 Glb5 0.81 Lgb 0.87 Hbb_C Hba_H Hba_C Myo Glb5 Lgb 0.60 0.59 0.77 0.82 0.86 0.13 0.75 0.73 0.86 0.75 0.74 0.88 0.80 0.93 0.90 - Construction de l’arbre guide • Arbre phylogénétique non raciné construit par la méthode du Neighbor-Joining à partir de la matrice de distances calculée précédemment – Longueur des branches <=> proportionnelle à la divergence estimée – Racine placée au « poids moyen » <=> Longueur des branches d’un côté de la racine = longueur des branches de l’autre côté Construction de l’arbre guide Myo Hba_H 0.081 0.061 0.055 0.219 Hbb_H 0.398 0.065 Hba_C Leg 0.226 0.084 Hbb_C 0.504 0.389 Glb5 Positionnement de la racine au poids moyen (point à partir duquel les longueurs moyennes des branches de chaque côté du nœud sont égales) Placement de la racine Myo Hba_H 0.081 0.061 0.055 0.219 Hbb_H 0.398 0.065 Hba_C 0.226 0.084 Hbb_C 0.504 Leg ROOT 0.389 Glb5 Positionnement de la racine au poids moyen (point à partir duquel les longueurs moyennes des branches de chaque côté du nœud sont égales) Arbre guide raciné 0.081 Hbb_H 0.226 Hbb_C 0.061 0.084 0.055 Hba_H 0.015 0.219 Hba_C 0.065 0.062 ROOT 0.398 0.389 0.442 Myo Glb5 Leg Pondération des séquences • Principe : attribuer un poids à chaque branche de l’arbre => Dépend de la taille de la branche et du nombre de taxa partageant cette branche (redondance de l’information) => longueur de la branche / nombre de taxa partageant cette branche • Poids d’une séquence = des longueurs des branches pondérées de la racine au taxon considéré Pondération des séquences 0.081 Hbb_H W1 = 0.062/6 + 0.015/5 + 0.061/4 + 0.226/2 + 0.081 = 0.221 Hbb_C 0.084 W2 = 0.062/6 + 0.015/5 + 0.061/4 + 0.226/2 + 0.084 = 0.225 0.055 Hba_H W3 = 0.194 Hba_C W4 = 0.203 0.226 0.061 0.015 0.219 0.065 0.062 ROOT 0.398 0.389 0.442 Myo W5 = 0.411 Glb5 W6 = 0.398 Leg W7 = 0.442 Alignement progressif • Principe : utiliser une série de paires d’alignements pour aligner des groupes de séquences de plus en plus larges, en respectant l’ordre de branchement dans l’arbre guide (des feuilles vers la racine) Alignement progressif • Dans l’exemple des globines, on aligne dans l’ordre: – – – – – Les b globines humaines et de cheval Les a globines humaines et de cheval Les a et b hémoglobines Les a, b hémoglobines et la myoglobine Les hémoglobines, myoglobine et l’hémoglobine de lamproie – La leghémoglobine avec toutes les autres Alignement progressif • Calcul du score à une position = moyenne des scores obtenus par toutes les comparaisons 2 à 2 des séquences de chaque groupe pondérés par le poids de chaque séquence Alignement progressif • Exemple: on cherche à aligner un groupe de 4 séquences (déjà alignées) avec un groupe de 2 séquences (déjà alignées) Calcul du score: 1 2 3 4 PEEKSAVTAL GEEKAAVLAL PADKTNVKAA AADKTNVKAA 5 EGEWQLVLHV 6 AAEKTKIRSA M(T,V) M(T,I) M(L,V) M(L,I) M(K,V) M(K,I) M(K,V) M(K,I) x x x x x x x x w1 w1 w2 w2 w3 w3 w4 w4 x x x x x x x x w5 w6 w5 w6 w5 w6 w5 w6 + + + + + + + / 8 Score associé à la comparaison d’un gap = 0 plus mauvais score possible gi|122615|sp|P02023|HBB_HUMAN gi|70401|pir||HBHO gi|122412|sp|P01922|HBA_HUMAN gi|2144717|pir||HAHO gi|127687|sp|P02185|MYG_PHYCA gi|121233|sp|P02208|GLB5_PETMA gi|126238|sp|P02240|LGB2_LUPLU gi|122615|sp|P02023|HBB_HUMAN gi|70401|pir||HBHO gi|122412|sp|P01922|HBA_HUMAN gi|2144717|pir||HAHO gi|127687|sp|P02185|MYG_PHYCA gi|121233|sp|P02208|GLB5_PETMA gi|126238|sp|P02240|LGB2_LUPLU gi|122615|sp|P02023|HBB_HUMAN gi|70401|pir||HBHO gi|122412|sp|P01922|HBA_HUMAN gi|2144717|pir||HAHO gi|127687|sp|P02185|MYG_PHYCA gi|121233|sp|P02208|GLB5_PETMA gi|126238|sp|P02240|LGB2_LUPLU gi|122615|sp|P02023|HBB_HUMAN gi|70401|pir||HBHO gi|122412|sp|P01922|HBA_HUMAN gi|2144717|pir||HAHO gi|127687|sp|P02185|MYG_PHYCA gi|121233|sp|P02208|GLB5_PETMA gi|126238|sp|P02240|LGB2_LUPLU -------MVHLTPEEKSAVTALWGKVN--VDEVGGEALGRLLVVYPWTQR --------VQLSGEEKAAVLALWDKVN--EEEVGGEALGRLLVVYPWTQR --------MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKT --------MVLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKT ---------VLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLE PIVDTGSVAPLSAAEKTKIRSAWAPVYSTYETSGVDILVKFFTSTPAAQE --------GALTESQAALVKSSWEEFNANIPKHTHRFFILVLEIAPAAKD *: : : * . : .: * : FFESFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDN-----LKGTF FFDSFGDLSNPGAVMGNPKVKAHGKKVLHSFGEGVHHLDN-----LKGTF YFPHF-DLS-----HGSAQVKGHGKKVADALTNAVAHVDD-----MPNAL YFPHF-DLS-----HGSAQVKAHGKKVGDALTLAVGHLDD-----LPGAL KFDRFKHLKTEAEMKASEDLKKHGVTVLTALGAILKKKGH-----HEAEL FFPKFKGLTTADQLKKSADVRWHAERIINAVNDAVASMDDT--EKMSMKL LFSFLKGTSEVP--QNNPELQAHAGKVFKLVYEAAIQLQVTGVVVTDATL * : . . .:: *. : . : ATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVA AALSELHCDKLHVDPENFRLLGNVLVVVLARHFGKDFTPELQASYQKVVA SALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLA SNLSDLHAHKLRVDPVNFKLLSHCLLSTLAVHLPNDFTPAVHASLDKFLS KPLAQSHATKHKIPIKYLEFISEAIIHVLHSRHPGDFGADAQGAMNKALE RDLSGKHAKSFQVDPQYFKVLAAVIADTVAAG---------DAGFEKLMS KNLGSVHVSKGVAD-AHFPVVKEAILKTIKEVVGAKWSEELNSAWTIAYD *. * . : .: : .: ... GVANALAHKYH-----GVANALAHKYH-----SVSTVLTSKYR-----SVSTVLTSKYR-----LFRKDIAAKYKELGYQG MICILLRSAY------ELAIVIKKEMNDAA--. : L‘alignement multiple n’est pas toujours optimal • Seul l’un de ces alignements est optimal Muscle Edgar (2004) Nucleic Acids Res. 32:1792 http://www.drive5.com/muscle/ Global Alignments, Block alignments Dialign Morgenstern et al. 1996 PNAS 93:12098 • Search for similar blocks without gap • Select the best combination of consistent similar blocks (uniforms or not) : heuristic (Abdeddaim 1997) • Alignment anchored on blocks • Slower than progressive alignment, but better when sequences contain large indels • Do not try to align non-conserved regions Alignement multiples locaux • MEME • MATCH-BOX • PIMA Adapter les choix méthodologiques aux données • Muscle • ClustalW • Dialign • T-coffee • MEME Multiple alignment editor Cas spéciaux Alignement de séquences d’ADN codantes L F L F CTT TTC CTC --L - CTT TTC --- CTC - L (1) Alignement des séquences protéiques (2) Utilisation de l’alignement obtenu comme guide pour aligner les séquences d’ADN protal2dna: http://bioweb.pasteur.fr/seqanal/interfaces/protal2dna.html Alignement de séquences d’ADN codantes: le cas des frameshifts Identification de gènes • Alignement d’un ARNm avec l’ADN génomique • Pas de pénalité de gap au niveau des introns => Identification de sites d’épissage • sim4, est2genome Identification de gènes • Alignement d’une protéine avec l’ADN génomique • Pas de pénalité de gap au niveau des introns => Identification de sites d’épissage • genewise Séquençage par shotgun Assemblage • Recherche de séquences chevauchantes entre les reads • Autoriser / prise en compte des erreurs de séquençage et/ou du polymorphisme • Prise en compte de la qualité des séquences • cap3, phred/phrap (il existe des outils plus sophistiqués pour l’assemblage de génomes) Matrix of position-specific amino-acid frequency (A-chain of insulin) A C D E F G H I K L M N P Q R S T V W Y - 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 16 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 16 3 1 0 0 1 0 0 0 0 0 0 1 0 0 3 0 1 0 0 0 0 10 4 2 0 0 0 0 2 0 0 0 0 0 0 1 0 2 1 0 0 0 0 9 5 1 0 0 1 0 0 0 0 0 0 0 0 0 0 2 0 3 0 0 1 9 6 0 0 0 0 0 0 1 0 0 0 0 0 2 0 0 0 4 1 0 0 9 7 1 0 0 0 0 9 0 0 0 0 0 4 0 0 1 2 0 0 0 0 0 8 0 0 0 0 1 0 0 8 0 0 5 0 1 0 0 0 0 2 0 0 0 9 2 0 1 0 2 0 0 0 0 0 0 0 0 0 0 0 0 12 0 0 0 10 0 5 6 4 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 11 0 0 1 12 1 0 0 0 1 0 0 0 0 1 0 0 0 0 0 1 0 12 0 17 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 13 0 17 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 14 0 0 0 1 5 0 0 0 0 4 1 0 0 0 1 0 1 0 0 4 0 15 0 0 0 0 0 0 0 1 2 0 0 5 0 1 5 2 0 1 0 0 0 16 0 0 0 1 0 2 0 2 0 0 0 0 5 1 0 3 0 2 0 1 0 17 0 17 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 18 0 0 4 0 0 0 0 0 0 0 0 0 0 0 0 4 9 0 0 0 0 19 0 0 1 0 0 0 0 1 1 5 0 1 1 1 0 0 1 4 0 1 0 20 1 0 6 0 0 1 0 0 0 0 0 0 0 2 3 3 0 0 0 1 0 21 0 0 1 3 0 0 0 0 1 1 0 0 0 2 1 1 1 6 0 0 0 22 0 0 0 0 1 0 0 0 0 14 0 0 0 0 0 1 0 1 0 0 0 23 2 0 0 4 0 0 0 0 1 5 0 0 0 1 2 0 0 1 0 1 0 24 1 0 0 1 0 0 0 0 3 1 1 1 0 1 0 4 4 0 0 0 0 25 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 15 0 26 0 17 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 27 2 0 1 0 0 2 0 0 0 0 0 2 2 0 0 0 1 0 0 2 5 28 0 0 0 0 0 0 0 0 1 0 0 0 2 0 1 0 1 0 0 1 11 29 0 0 0 0 0 0 0 0 0 1 0 0 1 1 1 0 0 0 0 1 12 30 1 0 0 0 0 0 0 1 1 0 0 0 0 0 0 1 0 0 0 0 13 Alignment of SeqA with the matrix of position-specific amino-acid frequency Alignment of SeqB with the matrix of position-specific amino-acid frequency
Documents pareils
Alignements multiples
Hémoglobine β Humaine (Hbb_H)
Hémoglobine α Humaine (Hba_H)
Hémoglobine β Cheval (Hbb_C)
Hémoglobine α Cheval (Hba_C)
Myoglobine de cétacé Physeter catodon (Myo)
Hémoglobine V de lamproie Petromyzo...
Recherche de similarités au moyen de BLAST
S L A A L L N K C K T P Q G Q R L V N Q W
+ L A + + L +
T P
G
R + +
+ W
T L A S V L D C T V T P M G S R M L K R W