Está en la página 1de 38

ALINEAMIENTO MULTIPLE

Alineamiento mltiple
Cualquier estudio de filogentico o de evolucin molecular basado en secuencias necesita de un alineamiento mltiple para determinar las correspondencias de homologa a nivel de los resduos individuales o caracteres. La mejor manera de representar un alineamiento mltiple es escribiendo las secuencias a comparar en filas una encima de la otra, generndose una matriz de m x n (secs. x posic)caracteres, en la que cada columna contiene residuos homlogos

El problema de las repeticiones Muchas protenas multidominio pueden presentar diverso grado de repeticin de dominios particulares. Puede llegar a ser muy complejo o prcticamente imposible hacer el alineamiento correcto de estas repeticiones.

A nivel de DNA se dan tambin regiones repetidas, muchas veces involucrando a unos poco nucleotidos. como es el caso de los microsatlites y otras regiones repetidas. Con frecuencia estas regiones son imposibles de alinear objetivamente. Suelen acumularse en regiones no codificantes del genoma o en regiones codificantes hipervariables como espaciadores intergnicos transcritos o regiones reguladoras o en UTRs.

El problema de las sustituciones: Al examinar alineamientos mltiples de protenas se observan dos patrones de sustitucin: 1.- Bloques con alto nivel de identidad y similitud dispersos entre regiones de menor similitud por lo general de 5 a 20 residuos. Estos bloques corresponden tpicamente a elementos estructurales que evolucionan ms lentamente como hlices y pliegues beta comparadas con los loops o bucles que los interconectan

2.- Las columnas alineadas con mltiples estados de caracter tienden a presentar residuos de caractersticas bioqumicas similares . Esta conservacin de residuos similares ocurre particularmente en los bloques correspondientes a elementos de estructura secundaria, sitios activos o de unin a ligandos. La propiedad bioqumica ms conservada es la de polaridad/hidrofobicidad.

El problema de los indeles inserciones/deleciones) Cuando por eventos de insercin o delecin (indeles) las secuencias homlogas presentan distintas longitudes, es necesario introducir .gaps. en el alineamiento para mantener la correspondencia entre sitios homlogos situados antes y despus de las regiones afectadas por indeles. Estas regiones se identifican mediante guiones (-).
Los indeles no se distribuyen aleatoriamente en las secuencias codificadoras.
Casi siempre aparecen ubicados entre dominios funcionales o estructurales, preferentemente en bucles (loops) que conectan a dichos dominios. Esto vale tanto para RNAs estructurales (tRNAs y rRNAs) como para protenas. No suelen interrumpir el marco de lectura.

No existe un algoritmo ideal para todas las situaciones. Para bsquedas en bases de datos se emplean algoritmos heursticos para encontrar alineamientos locales (FastA y BLAST). Para anlisis filogenticos necesitamos mtodos que produzcan alineamientos globales.

Sum-of-Pairs Scoring Function


Score alineamiento mltiple
= i <j score(Si,Sj) donde score(Si,Sj) = score de alineamiento pareado inducido

Alineamiento pareado inducido


S1 S2 S3 S - T I S C T G - S - N I L - T I C N G S S - N I L R T I S C S G F S Q N I

Alineamiento pareado inducido de S1, S2:


S1 S2 S T I S C T G - S N I L T I C N G S S N I

Alineamiento mltiple: Promagacin dinmica


El algoritmo del alineamiento de dos secuencias puede ser generalizado a cualquier numero de secuencias. Ej., Para tres secuencias X, Y, W define C[i,j,k] = score de alineamiento optimo entre X[1..i], Y[1..j], W[1..k] Como para las dos secuencias, la posibilidad de un alineamiento se divide en diferentes clases
C[i,j,k] es el mximo de todas las posibilidades

Alineamiento mltiple: 7 vas de alineamiento pueden ser llevadas para tres secuencias
X1 . . . Xi-1 Xi Y1 . . . Yj-1 Yj W1 . . . Wk-1 Wk
Xi Yj Wk Yj Wk Xi Wk

Xi -

Yj -

Wk

Xi Yj -

Programacin dinamica para tres secuencias


Cada alineamiento es parte de la matrix de la programacin dinamica
A
A N S
Start

S V S N S S N A A S V S N S

Programacion dinamica para tres secuencias


Son 7 las vias para obtener C[i,j,k]
C[i,j,k]

C[i-1,j,k-1]

C[i-1,j-1,k-1]

C[i-1,j,k-1]

Para 3 secs. De longitud n el tiempo es proporcional a n3

La familia Clustal es posiblemente la ms popular para hacer Alineamientos Multiples de nucleotidos y de aminoacidos La primera versin (Clustal) sali en 1988 Se encuentra en dos versiones ClustalX (X-windows Clustal) lee secuencias en diversos formatos, calcula un rbol gua en NJ o UPGMA, usando algoritmos heursticos o exhausivos sobre alineamientos locales basado en distintas matrices de ponderacin y de penalizacin de gaps afines y sitio-especficos. Puede hacer alineamientos de perfiles y existen diversas herramientas de control de calidad del Alineamiento Multiple. Clustalw Emplea lneas de comandos. Dos mtodos de alineamiento lento o agudo y rpido o aproximado

Partes del alineamiento o secuencias particulares pueden ser realineadas para ir obteniendo un alineamiento global cada vez mejor. Es decir, ClustalX no slo genera alineamientos, sino que stos pueden ser editados y mejorados interactivamente por el usuario. Adems, ClustalX (y ClustalW) permite la reconstruccin y visualizacin de rboles NJ y hacer anlisis de bootstrap sobre los alineamientos.
Finalmente, los Alineamientos Multiples pueden ser escritos en diversos formatos de salida (CLUSTAL, FASTA, NEXUS, PHYLIP ...)

Running ClustalW
[~]% clustalw
************************************************************** ******** CLUSTAL W (1.7) Multiple Sequence Alignments ******** **************************************************************

1. Sequence Input From Disc 2. Multiple Alignments 3. Profile / Structure Alignments 4. Phylogenetic trees S. Execute a system command H. HELP X. EXIT (leave program)

Your choice:

ClustalW
****** MULTIPLE ALIGNMENT MENU ****** 1. Do complete multiple alignment now (Slow/Accurate) 2. Produce guide tree file only 3. Do alignment using old guide tree file 4. Toggle Slow/Fast pairwise alignments = SLOW 5. Pairwise alignment parameters 6. Multiple alignment parameters 7. Reset gaps between alignments? = OFF 8. Toggle screen display = ON 9. Output format options S. Execute a system command H. HELP or press [RETURN] to go back to main menu Your choice:

ClustalW options
Your choice: 6
********* MULTIPLE ALIGNMENT PARAMETERS *********

1. Gap Opening Penalty 2. Gap Extension Penalty 3. Delay divergent sequences


4. DNA Transitions Weight 5. Protein weight matrix 6. DNA weight matrix 7. Use negative matrix 8. Protein Gap Parameters H. HELP

:15.00 :6.66 :40 %


:0.50 :BLOSUM series :IUB :OFF

Enter number (or [RETURN] to exit):

Output of ClustalW
CLUSTAL W (1.7) multiple sequence alignment HSTNFR SYNTNFTRP CFTNFA CATTNFAA RABTNFM RNTNFAA OATNFA1 OATNFAR BSPTNFA CEU14683

GGGAAGAG---TTCCCCAGGGACCTCTCTCTAATCAGCCCTCTGGCCCAG------G GGGAAGAG---TTCCCCAGGGACCTCTCTCTAATCAGCCCTCTGGCCCAG------G -------------------------------------------TGTCCAG------A GGGAAGAG---CTCCCACATGGCCTGCAACTAATCAACCCTCTGCCCCAG------A AGGAGGAAGAGTCCCCAAACAACCTCCATCTAGTCAACCCTGTGGCCCAGATGGTCA AGGAGGAGAAGTTCCCAAATGGGCTCCCTCTCATCAGTTCCATGGCCCAGACCCTCA GGGAAGAGCAGTCCCCAGCTGGCCCCTCCTTCAACAGGCCTCTGGTTCAG------A GGGAAGAGCAGTCCCCAGCTGGCCCCTCCTTCAACAGGCCTCTGGTTCAG------A GGGAAGAGCAGTCCCCAGGTGGCCCCTCCATCAACAGCCCTCTGGTTCAA------A GGGAAGAGCAATCCCCAACTGGCCTCTCCATCAACAGCCCTCTGGTTCAG------A **

Existen otras estrategias computacionales para obtener alineamientos mltiples de manera (semi)automtica.

ClustalW

Note how the region of a conserved histidine () varies depending on which of five prominent algorithms is used

Praline

MUSCLE

Probcons

TCoffee

Destacan los algoritmos genticos. Se trata de tcnicas de simulacin estocstica en la que se evoluciona a una poblacin de alineamientos, seleccionando y cruzando a aquellos con mayores valores de la suma ponderada de pares. Las versiones ms modernas de este tipo de algoritmos estn implementadas en los programas: T-Coffee: C. Notredame, D. Higgins, J. Heringa 2000. JMB, 302:205-217 y 3DCoffee: O. OSullivan, K Suhre, C. Abergel, D.G. Higgins, C. Notredame 2004. JMB, 340:385-395 T-Coffee permite la combinacin de una coleccin de alineamientos mltiples y/o pareados, globales y locales, en un slo modelo. Adems permite estimar el nivel de consistencia de cada posicin en el alineamiento global final con respecto al resto de ellos. http://www.tcoffee.org/

Ensamble de secuencias

Prctica: Comparar los alineamientos de secuencias obtenidas en Clustal, Mega y T coffe

También podría gustarte