Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Higgins
D.
&
P.
Lemey.
2009.
Mul8ple
sequence
alignment.
En
Lemey,
P.,
Salemi,
M.
y
A.
-‐M.
Vandamme
(eds.),
The
phylogene8c
handbook:
a
prac8cal
approach
to
phylogene8c
analysis
and
hypothesis
tes8ng.
2nd
edi8on.
Cambridge
University
Press,
Cambridge.
Programación dinámica
• Garantiza encontrar el alineamiento óptimo por un par de
secuencias
– algoritmo de Smith-Waterman
– garantiza encontrar el alineamiento local óptima dado la matriz de
costos para sustituciones y para la extensión de gaps.
– Smith, T. F., M.S. Waterman. 1981. Identification of common molecular subsequences. J. Mol. Biol.
147:195-197.
– algoritmo de Needleman-Wunsch
– Needleman, S.B., C.D. Wunsch. 1970. A general method applicable to the search for similarities in the
amino acid sequence of two proteins. J. Mol. Biol. 48:443-453.
Algoritmo de Needleman-Wunsch
Algoritmo de Needleman-Wunsch
matriz de similitud
- A G C T AGACTAGTTAC
A 10 -1 -3 -4 CGA---GACGT
G -1 7 -5 -3
C -3 -5 9 0
T -4 -3 0 8
similitud = S(i,j)
gap penalty = d
para d=-5:
S(A, C) + S(G, G) + S(A, A) + 3 × d + S(G, G) + S(T, A) + S(T, C) + S(A, G) + S(C,T)
= -3 + 7 + 10 + (3 × -5) + 7 + -4 + 0 + -1 + 0 = 1
hNp://en.wikipedia.org/wiki/Needleman-‐Wunsch_algorithm
Alineamiento múltiple de secuencias
Programación dinámica
Emplear el algoritmo de Needleman-Wunsch es muy costosa en tiempo y memoria
ejemplo: MSA (Lipman et al. 1989): mediante branch-and-bound permite calcular la
función de MSA para entre cinco y ocho secuencias
Métodos heurísticos
Métodos progresivos
el primer paso es alinear las secuencias más similares
árbol inicial
ejemplos: Clustal, T-Coffee
Métodos progresivos e iterativos
a partir de una alineamiento global inicial, se llevan a cabo alineamientos
subsecuentes en grupos de secuencias
ejemplos: MAFFT, MUSCLE
Porque probar diferentes parámetros
Diferentes tamaños de matrices
Baja similitud
Katoh,
K.,
Asimenos,
G.
&
H.
Toh,
2009.
Mul8ple
alignment
of
DNA
sequences
with
MAFFT.
Methods
in
Molecular
Biology
537:39-‐64.
Bases de datos de alineamiento de
secuencias múltiples
Tipos de alineamientos en BaliBASE
• 1) secuencias equidistantes
• 2) huérfanos
– incluyen una secuencia distantemente relacionada
• 3) dos familias
– con una mezcla de secuencias entre y intra-familiar
• 4) inserciones largas
• 5) deleciones largas
Clustal: alineamiento progresivo
• alineamiento para > 2 secuencias
– 3 pasos
• alineamiento de pares
– matriz de distancias: p. ej. Needleman-Wunsch con todos los valores positivos
– gap opening penalty
– gap extension penalty
• generación de un árbol de guía
– neighbor-joining u otro
• alinear secuencias múltiples por medio del árbol
El tamaño de ventana es de
30 a.a.
a
A G
b
b b
b
C a T
cuantificación de K-mers
método modificado de
UPGMA
NW (Needleman-Wunsch
matriz normalizada)
Weighted Sum of Pairs (WSP) Function
ΣΣ WijDij
i j
Tree-dependent restriction
partitioning / weighted sum of
pairs
MAFFT
Izq.: Métodos basados en NW requieren tiempo proporcional al cuadrado de la longitud de las secuencias;
Métodos basados en FFT requieren tiempo proporcional a la longitud si las secuencias son conservadas
Der: (K = no. de secuencias), tiempo computacional T-Coffee = O(K3), Clustal = O(K2), FFT = O(K)
Edgar,
R.
C.
&
S.
Batzoglou.
2006.
Mul8ple
sequence
alignment.
Current
Opinion
in
Structural
Biology
16:368-‐373.