Documentos de Académico
Documentos de Profesional
Documentos de Cultura
“Nothing in biology makes sense except in the light of evolution” - Theodosius Dobzhansky
¿Por qué analizar secuencias?
¿Por qué analizar secuencias?
El alineamiento es una método de comparación de dos o más secuencias (de DNA o proteínas). Es
probablemente la herramienta más utilizada en bioinformática. Su objetivo es utilizar el concepto
de culpa por asociación y por ende “asignar” funciones (y otras características) tentativas a
“secuencias” desconocidas.
Consiste en buscar series de caracteres individuales que se encuentran en el mismo orden en las
secuencias a comparar.
¿De dónde surge la idea de alinear secuencias?
Tal como se dijo anteriormente, dos (o más) secuencias similares pueden inferir una relación
evolutiva. Esto puede indicar que los organismos portadores de cada secuencia tienen un
ancestro común.
● Inserciones
Indels
● Deleciones
● Sustituciones
La distancia evolutiva entre dos secuencias es proporcional al número de cambios (mutaciones) que
debieron ocurrir para transformar una secuencia en otra.
n mutaciones
m mutaciones
Mutaciones en el tiempo...
Algunas definiciones para reforzar...
Seq1: FTFTALILLAVAV
Seq2: FTALLLAAV
Complejidad de Alineamientos
Dot plots: más ejemplos
Alineamiento de a pares (Pairwise Alignment)
Puede realizarse mediante diferentes algoritmos:
● Dot Matrix
● Dynamic Programming
● K-Tuples
El alineamiento puede ser local o global según la región que se desea comparar. Los
algoritmos, a su vez, pueden ser:
Es una representación gráfica de similaridad entre dos secuencias. Está compuesta por una
matriz, cuyos ejes se forman con las dos secuencias que se desean alinear.
La comparación es todos contra todos y para cada intersección de bases se:
Para facilitar la visualización, se opta a menudo por mostrar únicamente las diagonales formadas por
un número mínimo de puntos (umbral de severidad).
Mismatch Limit (threshold): determina qué tan similares dos secuencias en una ventana (window
size) tienen que ser para considerarlas un match.
● Ventana 9, mismatch limit 2, entonces si hay hasta dos letras que no son idénticas igual lo
considero un match
● Es una forma rápida y gráfica para encontrar regiones de apareamiento entre dos secuencias.
● Es útil para encontrar regiones repetidas e invertidas.
● Es útil como primer paso antes de aplicar algoritmos de programación dinámica.
Desventajas
● Match (coincidencia): 1
● Mismatch (no-coincidencia): -3
● Indel/Gaps (inserción de espacios): -4
También se pueden definir sistemas más complejos basados en afinidades químicas o en frecuencias
de emparejamiento observadas.
Sistemas de puntuación de alineamientos
Una vez establecido un sistema de puntuación, el score de una pareja de secuencias (seq1 y seq2)
alineadas se define como p(seq1, seq2):
∑p( seq1 [ i ], seq2 [ i ] ), ∀ i
Matriz de sustitución: es una tabla que contiene las puntuaciones que asignamos a cada pareja posible de caracteres.
Sirve para las coincidencias y las no-coincidencias. El término “sustitución” refleja que lo que se pretende al puntuar
un emparejamiento es valorar el costo evolutivo de cambiar un residuo por otro.
Matrices de Scoring/Sustitución
Las matrices de nucleótidos son más ‘sencillas’. Los aminoácidos tienen distintas propiedades, lo que
implica posibilidades distintas de ser sustituidos unos
por otros en la evolución. Deben reflejar complejas
propiedades fisicoquímicas comunes.
Match = 1
Mismatch = -3
Match = +5
Transición = 1
Mismatch = -3
Matrices PAM: Point Accepted Mutation Matrix
Están basadas en un alineamiento global de 71 grupos de proteínas con similitud ≥85%. Para cada familia se
construyeron árboles filogenéticos y se calculó el número de sustituciones para cada aminoácido. Diseñado para
detectar origen evolutivo común entre ambas secuencias.
● PAM1 estima ritmo de sustitución cuando ocurre 1 sustitución no sinónima cada 100 residuos.
● PAM1 fue extrapolada a 250 PAM (PAM 250), por multiplicación de ésta por sí misma. A esta distancia evolutiva,
el 80% de los aa ha cambiado
● otras PAM (PAM30, PAM70, ...) se generan por multiplicación iterativa de PAM1 por sí misma.
Las matrices BLOSUM están calculadas independientemente para cada distancia evolutiva. BLOSUM 80 puede agrupar
todas las secuencias dentro de un progresivo alineamiento de secuencias que podrían tener un 80% de identidad (o
más); es equivalente a PAM1. BLOSUM 45 puede agrupar todas las secuencias de un 45% de identidad o mas; es
equivalente a PAM250.
BLOSUM62
Matrices de Sustitución: ¿cuál usar?
Matrices de Sustitución: ¿cuál usar?
Las Matrices PAM y BLOSUM tienen distintos significados y aplicaciones:
PAM tiene un significado evolutivo; es útil en BLOSUM es más realista y se utiliza para
análisis filogenéticos. encontrar secuencias conservadas.
Gaps
En un sistema de puntuación es importante definir el coste de insertar o eliminar un residuo, lo que en el
alineamiento aparece como un hueco (“gap”). Suele penalizarse distinto el primer hueco (“gap opening”) que los
restantes (“gap extension”) que parten de él. La variación de estos parámetros puede tener efectos importantes en el
alineamiento final.
Local Global
A 0
G 0
T 0
G 0
A 0
A 0
- A A C G T G A
- 0 0 0 0 0 0 0 0
A 0 1
C. Diagonal: 0 + 1 (match entre A y A) = 1
A 0 C. Superior: 0 + 0 (gap score) = 0
C. Lateral: 0 + 0 (gap score) = 0
G 0
T 0
G 0
A 0
A 0
- A A C G T G A
- 0 0 0 0 0 0 0 0
A 0 1 1 1 1 1 1 1
A 0 1
A 0 1
- A A C G T G A
- 0 0 0 0 0 0 0 0
A 0 1 1 1 1 1 1 1
A 0 1
G 0 1
T 0 1
G 0 1
A 0 1
A 0 1
- A A C G T G A
- 0 0 0 0 0 0 0 0
A 0 1 1 1 1 1 1 1
A 0 1 2
G 0 1
A 0 1
A 0 1
- A A C G T G A
- 0 0 0 0 0 0 0 0
A 0 1 1 1 1 1 1 1
A 0 1 2 2 2 2 2 2
G 0 1 2
C. Diagonal: 1 + 0 (gap score) = 1
C. Superior: 1 + 0 (gap score) = 1
T 0 1 2
C. Lateral: 2 + 0 (gap score) = 2
G 0 1 2
A 0 1 2
A 0 1 2
- A A C G T G A
- 0 0 0 0 0 0 0 0
Score = 6
A 0 1 1 1 1 1 1 1
A 0 1 2 2 2 2 2 2
G 0 1 2 2 3 3 3 3
T 0 1 2 2 3 4 4 4
G 0 1 2 2 3 4 5 5
A 0 1 2 2 3 4 5 6
A 0 1 2 2 3 4 5 6
. AA C G T G A -
. AA - G T G AA
Score = 6
- C G T G A A T T C A T
C
match=1; mismatch=-1; gap= -1
- C G T G A A T T C A T
- 0 -1 -2 -3 -4 -5 -6 -7 -8 -9 -10 -11
G -1 -1 0 -1 -2 -3 -4 -5 -6 -7 -8 -9
A -2 -2 -1 -1 -2 -1 -2 -3 -4 -5 -6 -7
C -3 -1 -2 -2 -2 -2 -2 -3 -4 -3 -4 -5
T -4 -2 -2 -1 -2 -3 -3 -1 -2 -3 -4 -3
T -5 -3 -3 -1 -2 -3 -4 -2 0 -1 -2 -3
A -6 -4 -4 -2 -2 -1 -2 -3 -1 -1 0 -1
C -7 -5 -5 -3 -3 -2 -2 -3 -2 0 -1 -1
. C G T G AAT T C AT
. -G - - ACTT- AC
Score = -1
Ejercicio de práctica
Ingresar al siguiente link, lo vamos a resolver colaborativamente!
Smith-Waterman (local): esquema
1. Considerar valores de similitud para cada celda (según matriz de scoring).
2. A partir de la primera celda y para cada celda, asignar el máximo score obtenible entre todos los caminos
previos vecinos a la celda.
3. Construir un alineamiento de segmentos de máximo score, recorriendo la matriz en sentido inverso a partir de
la celda de mayor score.
Smith-Waterman (local): paso a paso
A. Completar celdas con score según matriz y penalizaciones por gaps.
Smith-Waterman (local): paso a paso
A. Completar celdas con score según matriz y penalizaciones por gaps.
B. Asignar a cada celda el máximo score posible que termina en ella.
Smith-Waterman (local): paso a paso
A. Completar celdas con score según matriz y penalizaciones por gaps.
B. Asignar a cada celda el máximo score posible que termina en ella.
C. Completar la tabla asignando scores en orden (fila, columna).
Smith-Waterman (local): paso a paso
A. Completar celdas con score según matriz y penalizaciones por gaps.
B. Asignar a cada celda el máximo score posible que termina en ella.
C. Completar la tabla asignando scores en orden (fila, columna).
D. Hacer backtracking buscando mejores soluciones (y alternativas).
Smith-Waterman (local): paso a paso
A. Completar celdas con score según matriz y penalizaciones por gaps.
B. Asignar a cada celda el máximo score posible que termina en ella.
C. Completar la tabla asignando scores en orden (fila, columna).
D. Hacer backtracking buscando mejores soluciones (y alternativas).
E. Construir alineamiento final entre ambas secuencias.
Smith-Waterman (local): paso a paso
A. Completar celdas con score según matriz y penalizaciones por gaps.
B. Asignar a cada celda el máximo score posible que termina en ella.
C. Completar la tabla asignando scores en orden (fila, columna).
D. Hacer backtracking buscando mejores soluciones (y alternativas).
E. Construir alineamiento final entre ambas secuencias.
F. Identificar segmentos alineados independientes de máximo score.
K-Tuples
Comparación en una matriz bidimensional con puntuación (cuantitativa). Es un método Heurístico, eficiente y útil: no
garantiza el alineamiento óptimo pero alcanza rápido un alineamiento bueno (ideal para búsqueda en base de datos).
Consiste principalmente de los siguientes pasos: