Está en la página 1de 31

Alineamiento de secuencias

•  Una hipótesis sobre la homología de aminoácidos o nucleótidos

secuencias  de  ycf1  en  Pinus  


traducción a aminoácidos

secuencias  de  ycf1  en  Pinus  


Microsatélites

secuencias  de  trnD-­‐trnY-­‐trnE  en  Pinus  


datos faltantes vs. gaps

secuencias  de  trnD-­‐trnY-­‐trnE  en  Pinus  


Formato nexus permite distinguir entre gaps
y datos faltantes
inversiones

secuencias  de  trnH-­‐psbA  en  Pinus  


Formato nexus permite excluir
partes del alineamiento
Tipos de alineamiento
•  búsquedas de palabras
–  para bases de datos
–  ej. BLAST, FASTA

•  alineamiento de pares (pairwise)


–  ej. dot-matrix, needle

•  alineamiento de secuencias múltiples (MSA: multiple sequence


alignment)
–  ej. Clustal, T-Coffee, Muscle, MAFFT, PRANK
Dot Matrix

Higgins  D.  &  P.  Lemey.  2009.  Mul8ple  sequence  alignment.  En  Lemey,  P.,  Salemi,  M.  y  A.  -­‐M.  Vandamme  
(eds.),  The  phylogene8c  handbook:  a  prac8cal  approach  to  phylogene8c  analysis  and  hypothesis  
tes8ng.  2nd  edi8on.  Cambridge  University  Press,  Cambridge.  
Programación dinámica
•  Garantiza encontrar el alineamiento óptimo por un par de
secuencias

•  Buena para alineamiento de pares; sin embargo, es muy lenta en calcular


la solución exacta para más de cuatro secuencias

–  algoritmo de Smith-Waterman
–  garantiza encontrar el alineamiento local óptima dado la matriz de
costos para sustituciones y para la extensión de gaps.
–  Smith, T. F., M.S. Waterman. 1981. Identification of common molecular subsequences. J. Mol. Biol.
147:195-197.

–  algoritmo de Needleman-Wunsch
–  Needleman, S.B., C.D. Wunsch. 1970. A general method applicable to the search for similarities in the
amino acid sequence of two proteins. J. Mol. Biol. 48:443-453.
Algoritmo de Needleman-Wunsch
Algoritmo de Needleman-Wunsch
matriz de similitud
- A G C T AGACTAGTTAC
A 10 -1 -3 -4 CGA---GACGT
G -1 7 -5 -3
C -3 -5 9 0
T -4 -3 0 8
similitud = S(i,j)
gap penalty = d

para d=-5:
S(A, C) + S(G, G) + S(A, A) + 3 × d + S(G, G) + S(T, A) + S(T, C) + S(A, G) + S(C,T)

= -3 + 7 + 10 + (3 × -5) + 7 + -4 + 0 + -1 + 0 = 1

hNp://en.wikipedia.org/wiki/Needleman-­‐Wunsch_algorithm  
Alineamiento múltiple de secuencias
Programación dinámica
Emplear el algoritmo de Needleman-Wunsch es muy costosa en tiempo y memoria
ejemplo: MSA (Lipman et al. 1989): mediante branch-and-bound permite calcular la
función de MSA para entre cinco y ocho secuencias

Métodos heurísticos
Métodos progresivos
el primer paso es alinear las secuencias más similares
árbol inicial
ejemplos: Clustal, T-Coffee
Métodos progresivos e iterativos
a partir de una alineamiento global inicial, se llevan a cabo alineamientos
subsecuentes en grupos de secuencias
ejemplos: MAFFT, MUSCLE
Porque probar diferentes parámetros
Diferentes tamaños de matrices

Baja similitud

Algunos alineamientos requieren gaps al inicio y/o al final

Algunos alineamientos tienen gaps internos muy largos

Se recomienda probar diferentes parámetros y escoger al ojo el


resultado que parece mejor
Casos cuando la elección del programa
para MSA es poco relevante
•  pocas secuencias (ej. < unas docenas)

•  secuencias cortas (ej. < 500 pb)

•  secuencias de alta similitud (ej. > 70%)

Katoh,  K.,  Asimenos,  G.  &  H.  Toh,  2009.  Mul8ple  alignment  of  DNA  sequences  with  MAFFT.  
Methods  in  Molecular  Biology  537:39-­‐64.  
Bases de datos de alineamiento de
secuencias múltiples
Tipos de alineamientos en BaliBASE
•  1) secuencias equidistantes

•  2) huérfanos
–  incluyen una secuencia distantemente relacionada

•  3) dos familias
–  con una mezcla de secuencias entre y intra-familiar

•  4) inserciones largas

•  5) deleciones largas
Clustal: alineamiento progresivo
•  alineamiento para > 2 secuencias
–  3 pasos
•  alineamiento de pares
–  matriz de distancias: p. ej. Needleman-Wunsch con todos los valores positivos
–  gap opening penalty
–  gap extension penalty
•  generación de un árbol de guía
–  neighbor-joining u otro
•  alinear secuencias múltiples por medio del árbol

•  ClustalW: línea de comandos

•  ClustalX: graphical user interface (GUI)


Desventaja de Clustal

Problema de mínimas locales:

No permite corregir/modificar alineamientos en etapas tempranas que


parecen subóptimas después de agregar más secuencias
Alineamiento iterativo

•  Ciclos múltiples de alineamiento múltiple

•  Después de cada ciclo, el alineamiento está dividido en dos


grupos y los dos grupos se vuelvan a alinear

•  Ejemplos: PRRN (muy lento), MAFFT y MUSCLE


MAFFT (2002) innovaciones
•  Fast Fourier Transform (Transformada rápida de Fourier )
–  Para aminoácidos: se dividen en 6 grupos por polaridad, volumen, etc. Se
asignan vectores para volumen v(a) y polaridad p(a) y se convierte la secuencia
de aminoácidos a una secuencia de los vectores
–  Para nucleótidos: se convierte la secuencia a vectores de cuatro dimensiones
que corresponden al nucleótido y su frecuencia
–  Regiones homólogos son identificadas mediante el amplitud de picos en el FFT
–  Mediante una ventana de 30 pb, busca las regiones homólogas en las
secuencias
•  Un sistema de calificación mejorada
–  Matriz normalizada de similitud (200PAM para aminoácidos, Kimura-2P para
nucleótidos)
–  Más simple pero más rápido que CLUSTAL (el último usa un matriz de
Needleman-Wunsch modificada con todos los valores positivos)
MAFFT: Fast Fourier Transform

Se compara dos secuencias


con base en 1) la polaridad y
tamaño de sus aminoácidos o
2) la frecuencia de sus cuatro
nucleótidos

El tamaño de ventana es de
30 a.a.

Katoh  et  al.  (2002)  


Modelo de Kimura (1980) K2P

a
A G
b
b b
b

C a T

permite diferencias entre transiciones y transversiones


MAFFT
•  métodos progresivos:
–  FFT-NS-1, FFT-NS-2 (parecido a CLUSTAL)

cuantificación de K-mers
método modificado de
UPGMA

NW (Needleman-Wunsch
matriz normalizada)
Weighted Sum of Pairs (WSP) Function

Para considerar el alineamiento de > 2 secuencias

ΣΣ WijDij
i j

Dij la distancia entre 2 secuencias i y j

Wij el peso (weight) asignado entre 2 secuencias i y j

W permite asignar más peso a pares de secuencias mejor alineadas, o


asignar menos peso a secuencias estrechamente relacionadas y abundantes
en la base de datos.
MAFFT

•  Métodos de refinamiento iterativo


•  FFT-NS-i, NW-NS-i

Tree-dependent restriction
partitioning / weighted sum of
pairs
MAFFT

•  Método de refinamiento iterativo mediante WSP y


calificaciones de consistencia
•  L-INS-i, E-INS-i, G-INS-i
Tiempo computacional para diferentes
algoritmos

Izq.: Métodos basados en NW requieren tiempo proporcional al cuadrado de la longitud de las secuencias;
Métodos basados en FFT requieren tiempo proporcional a la longitud si las secuencias son conservadas
Der: (K = no. de secuencias), tiempo computacional T-Coffee = O(K3), Clustal = O(K2), FFT = O(K)

Katoh et al. (2002)


Recomendaciones para alineamiento
múltiple

Edgar,  R.  C.  &  S.  Batzoglou.  2006.  Mul8ple  sequence  alignment.  Current  Opinion  in  Structural  
Biology  16:368-­‐373.  

También podría gustarte