Alineacion 2013 Vers Corta

Alineamiento de secuencias
•  Una hipótesis sobre la homología de aminoácidos o nucleótidos
secuencias de ycf1 en Pinus

traducción a aminoácidos
secuencias de ycf1 en Pinus

Microsatélites
secuencias de trnD-‐trnY-‐trnE en Pinus

datos faltantes vs. gaps
secuencias de trnD-‐trnY-‐trnE en Pinus

Formato nexus permite distinguir entre gaps
y datos faltantes
inversiones
secuencias de trnH-‐psbA en Pinus

Formato nexus permite excluir
partes del alineamiento
Tipos de alineamiento
•  búsquedas de palabras
–  para bases de datos
–  ej. BLAST, FASTA
•  alineamiento de pares (pairwise)

–  ej. dot-matrix, needle
•  alineamiento de secuencias múltiples (MSA: multiple sequence

alignment)
–  ej. Clustal, T-Coffee, Muscle, MAFFT, PRANK
Dot Matrix
Higgins D. & P. Lemey. 2009. Mul8ple sequence alignment. En Lemey, P., Salemi, M. y A. -‐M. Vandamme
(eds.), The phylogene8c handbook: a prac8cal approach to phylogene8c analysis and hypothesis
tes8ng. 2nd edi8on. Cambridge University Press, Cambridge.
Programación dinámica
•  Garantiza encontrar el alineamiento óptimo por un par de
secuencias
•  Buena para alineamiento de pares; sin embargo, es muy lenta en calcular

la solución exacta para más de cuatro secuencias
–  algoritmo de Smith-Waterman
–  garantiza encontrar el alineamiento local óptima dado la matriz de
costos para sustituciones y para la extensión de gaps.
–  Smith, T. F., M.S. Waterman. 1981. Identification of common molecular subsequences. J. Mol. Biol.
147:195-197.
–  algoritmo de Needleman-Wunsch
–  Needleman, S.B., C.D. Wunsch. 1970. A general method applicable to the search for similarities in the
amino acid sequence of two proteins. J. Mol. Biol. 48:443-453.
Algoritmo de Needleman-Wunsch
Algoritmo de Needleman-Wunsch
matriz de similitud
- A G C T AGACTAGTTAC
A 10 -1 -3 -4 CGA---GACGT
G -1 7 -5 -3
C -3 -5 9 0
T -4 -3 0 8
similitud = S(i,j)
gap penalty = d
para d=-5:
S(A, C) + S(G, G) + S(A, A) + 3 × d + S(G, G) + S(T, A) + S(T, C) + S(A, G) + S(C,T)
= -3 + 7 + 10 + (3 × -5) + 7 + -4 + 0 + -1 + 0 = 1
hNp://en.wikipedia.org/wiki/Needleman-‐Wunsch_algorithm
Alineamiento múltiple de secuencias
Programación dinámica
Emplear el algoritmo de Needleman-Wunsch es muy costosa en tiempo y memoria
ejemplo: MSA (Lipman et al. 1989): mediante branch-and-bound permite calcular la
función de MSA para entre cinco y ocho secuencias
Métodos heurísticos
Métodos progresivos
el primer paso es alinear las secuencias más similares
árbol inicial
ejemplos: Clustal, T-Coffee
Métodos progresivos e iterativos
a partir de una alineamiento global inicial, se llevan a cabo alineamientos
subsecuentes en grupos de secuencias
ejemplos: MAFFT, MUSCLE
Porque probar diferentes parámetros
Diferentes tamaños de matrices
Baja similitud
Algunos alineamientos requieren gaps al inicio y/o al final
Algunos alineamientos tienen gaps internos muy largos
Se recomienda probar diferentes parámetros y escoger al ojo el

resultado que parece mejor
Casos cuando la elección del programa
para MSA es poco relevante
•  pocas secuencias (ej. < unas docenas)
•  secuencias cortas (ej. < 500 pb)
•  secuencias de alta similitud (ej. > 70%)
Katoh, K., Asimenos, G. & H. Toh, 2009. Mul8ple alignment of DNA sequences with MAFFT.
Methods in Molecular Biology 537:39-‐64.
Bases de datos de alineamiento de
secuencias múltiples
Tipos de alineamientos en BaliBASE
•  1) secuencias equidistantes
•  2) huérfanos
–  incluyen una secuencia distantemente relacionada
•  3) dos familias
–  con una mezcla de secuencias entre y intra-familiar
•  4) inserciones largas
•  5) deleciones largas
Clustal: alineamiento progresivo
•  alineamiento para > 2 secuencias
–  3 pasos
•  alineamiento de pares
–  matriz de distancias: p. ej. Needleman-Wunsch con todos los valores positivos
–  gap opening penalty
–  gap extension penalty
•  generación de un árbol de guía
–  neighbor-joining u otro
•  alinear secuencias múltiples por medio del árbol
•  ClustalW: línea de comandos
•  ClustalX: graphical user interface (GUI)

Desventaja de Clustal
Problema de mínimas locales:
No permite corregir/modificar alineamientos en etapas tempranas que

parecen subóptimas después de agregar más secuencias
Alineamiento iterativo
•  Ciclos múltiples de alineamiento múltiple
•  Después de cada ciclo, el alineamiento está dividido en dos

grupos y los dos grupos se vuelvan a alinear
•  Ejemplos: PRRN (muy lento), MAFFT y MUSCLE

MAFFT (2002) innovaciones
•  Fast Fourier Transform (Transformada rápida de Fourier )
–  Para aminoácidos: se dividen en 6 grupos por polaridad, volumen, etc. Se
asignan vectores para volumen v(a) y polaridad p(a) y se convierte la secuencia
de aminoácidos a una secuencia de los vectores
–  Para nucleótidos: se convierte la secuencia a vectores de cuatro dimensiones
que corresponden al nucleótido y su frecuencia
–  Regiones homólogos son identificadas mediante el amplitud de picos en el FFT
–  Mediante una ventana de 30 pb, busca las regiones homólogas en las
secuencias
•  Un sistema de calificación mejorada
–  Matriz normalizada de similitud (200PAM para aminoácidos, Kimura-2P para
nucleótidos)
–  Más simple pero más rápido que CLUSTAL (el último usa un matriz de
Needleman-Wunsch modificada con todos los valores positivos)
MAFFT: Fast Fourier Transform
Se compara dos secuencias

con base en 1) la polaridad y
tamaño de sus aminoácidos o
2) la frecuencia de sus cuatro
nucleótidos
El tamaño de ventana es de
30 a.a.
Katoh et al. (2002)

Modelo de Kimura (1980) K2P
a
A G
b
b b
b
C a T
permite diferencias entre transiciones y transversiones

MAFFT
•  métodos progresivos:
–  FFT-NS-1, FFT-NS-2 (parecido a CLUSTAL)
cuantificación de K-mers
método modificado de
UPGMA
NW (Needleman-Wunsch
matriz normalizada)
Weighted Sum of Pairs (WSP) Function
Para considerar el alineamiento de > 2 secuencias
ΣΣ WijDij
i j
Dij la distancia entre 2 secuencias i y j
Wij el peso (weight) asignado entre 2 secuencias i y j
W permite asignar más peso a pares de secuencias mejor alineadas, o

asignar menos peso a secuencias estrechamente relacionadas y abundantes
en la base de datos.
MAFFT
•  Métodos de refinamiento iterativo

•  FFT-NS-i, NW-NS-i
Tree-dependent restriction
partitioning / weighted sum of
pairs
MAFFT
•  Método de refinamiento iterativo mediante WSP y

calificaciones de consistencia
•  L-INS-i, E-INS-i, G-INS-i
Tiempo computacional para diferentes
algoritmos
Izq.: Métodos basados en NW requieren tiempo proporcional al cuadrado de la longitud de las secuencias;
Métodos basados en FFT requieren tiempo proporcional a la longitud si las secuencias son conservadas
Der: (K = no. de secuencias), tiempo computacional T-Coffee = O(K3), Clustal = O(K2), FFT = O(K)
Katoh et al. (2002)

Recomendaciones para alineamiento
múltiple
Edgar, R. C. & S. Batzoglou. 2006. Mul8ple sequence alignment. Current Opinion in Structural
Biology 16:368-‐373.

Alineacion 2013 Vers Corta

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Alineacion 2013 Vers Corta

Cargado por

Copyright:

Formatos disponibles

Alineamiento de secuencias

• Una hipótesis sobre la homología de aminoácidos o nucleótidos

secuencias de ycf1 en Pinus

secuencias de ycf1 en Pinus

secuencias de trnD-­‐trnY-­‐trnE en Pinus

secuencias de trnD-­‐trnY-­‐trnE en Pinus

secuencias de trnH-­‐psbA en Pinus

• alineamiento de pares (pairwise)

• alineamiento de secuencias múltiples (MSA: multiple sequence

• Buena para alineamiento de pares; sin embargo, es muy lenta en calcular

Algunos alineamientos requieren gaps al inicio y/o al final

Algunos alineamientos tienen gaps internos muy largos

Se recomienda probar diferentes parámetros y escoger al ojo el

• secuencias cortas (ej. < 500 pb)

• secuencias de alta similitud (ej. > 70%)

• ClustalW: línea de comandos

• ClustalX: graphical user interface (GUI)

Problema de mínimas locales:

No permite corregir/modificar alineamientos en etapas tempranas que

• Ciclos múltiples de alineamiento múltiple

• Después de cada ciclo, el alineamiento está dividido en dos

• Ejemplos: PRRN (muy lento), MAFFT y MUSCLE

Se compara dos secuencias

Katoh et al. (2002)

permite diferencias entre transiciones y transversiones

Para considerar el alineamiento de > 2 secuencias

Dij la distancia entre 2 secuencias i y j

Wij el peso (weight) asignado entre 2 secuencias i y j

W permite asignar más peso a pares de secuencias mejor alineadas, o

• Métodos de refinamiento iterativo

• Método de refinamiento iterativo mediante WSP y

Katoh et al. (2002)

También podría gustarte

•  Una hipótesis sobre la homología de aminoácidos o nucleótidos

secuencias de trnD-‐trnY-‐trnE en Pinus

secuencias de trnD-‐trnY-‐trnE en Pinus

secuencias de trnH-‐psbA en Pinus

•  alineamiento de pares (pairwise)

•  alineamiento de secuencias múltiples (MSA: multiple sequence

•  Buena para alineamiento de pares; sin embargo, es muy lenta en calcular

•  secuencias cortas (ej. < 500 pb)

•  secuencias de alta similitud (ej. > 70%)

•  ClustalW: línea de comandos

•  ClustalX: graphical user interface (GUI)

•  Ciclos múltiples de alineamiento múltiple

•  Después de cada ciclo, el alineamiento está dividido en dos

•  Ejemplos: PRRN (muy lento), MAFFT y MUSCLE

•  Métodos de refinamiento iterativo

•  Método de refinamiento iterativo mediante WSP y