Está en la página 1de 42

ALINEAMIENTOS

PAREADOS
Juan Sebastián Andrade Martínez
jsebastian.andrade@javeriana.edu.co
¿Qué vamos a ver hoy?

■ Conceptos preliminares y definición del problema


■ Matrices y Dotplots
■ Alineamientos Globales con Needleman-Wunsch
■ Alineamientos Locales con Smith-Waterman
■ Matrices PAM y BLOSUM
CONCEPTOS PRELIMINARES
Y DEFINICIÓN DEL
PROBLEMA
Preliminares

■ Los alineamientos de secuencias son el pilar de buena


parte de los métodos de búsqueda de secuencias
parecidas y de análisis filogenético.
■ Son una herramienta para comparación de secuencias
(no de estructura), ampliamente usada y que produce
buenos resultados.
■ Dada su importancia en análisis evolutivos, cabe definir
ciertos términos antes de iniciar.
Preliminares – Términos de Interés

■ Homología/Homólogos: Similitud en razón de ancestría común. Aplica para genes y


proteínas.
■ Ortología/Ortólogos: Homología de dos secuencias en especies diferentes en razón de
provenir de un ancestro común.
– No es necesario que tengan la misma función, pero es frecuente.
■ Paralogía/Parálogos: Homología de dos secuencia en especies diferentes (outparalogs) o
la misma (inparalogs) en razón de eventos de duplicación.
– Generalmente tienen funciones distintas.
■ Ninguna de estas cosas pueden cuantificarse.
Preliminares – Términos de Interés
Preliminares – Términos de Interés

■ ¿Qué cosas sí se pueden cuantificar?


1. Identidad:
– Se refiere a cuántos aa o nt comparten (son idénticos entre) dos secuencias en las
mismas posiciones de un alineamiento.
– Se mide de 0 a 1 o de 0% a 100%.
2. Similitud:
– Se refiere a cuántos aa son similares entre dos secuencias de proteínas en las
mismas posiciones de un alineamiento.
– Se mide de 0 a 1 o de 0% a 100%.
– El porcentaje de similitud siempre es mayor o igual al de identidad.
Definición del Problema

■ ¿Cómo defino el problema de alinear dos secuencias?


■ Para ello es necesario definir dos cosas antes:
– Una función o algoritmo de alineamiento, F.
– Un porcentaje de identidad o similitud, P.
– Un porcentaje de mismatch, D.

■ El procedimiento de alineamiento óptimo es aquella F, que para dos secuencia S y T,


genere dos nuevas secuencias S* y T* tal que al compararlas entre ellas (ponerla una
frente a la otra), se maximice P y minimice D.
MATRICES Y
DOTPLOTS
Muy bonito, pero, ¿cómo alineo?

■ La primera aproximación a comparar secuencias ni siquiera alineaba, era exploratoria


exclusivamente.
■ Se conoce como matrices de puntos o dotplots.
– Su idea es mostrar regiones idénticas o similares entre secuencias.
■ A partir de dotplots puedo buscar:
– Repeticiones.
– Dominios compartidos.
– Palíndromos
– Etc.
¿Cómo funcionan?

■ Las dos secuencias, S y T, de largo Sl y Tl, se C T G A A C T


ubican en una matriz de dimensiones SlxTl. A • •
■ Las bases de S se ponen en la primera fila y C • •
las de T en la columna.
T • •
■ Se pone un punto en cada zona de la matriz
donde haya nucleótidos iguales o amino C • •
ácidos similares. A • •
■ Se buscan patrones… G •
■ ¡También se puede comparar una secuencia C • •
con ella misma!
¿Qué cosas se pueden detectar?
■ La diagonal principal que se forma (en este caso a la izquierda), es la región más
idéntica o más similar entre las dos secuencias.

R A R A R A S P U T I N
R • • •
A • • •
S •
P •
U •
T •
I •
N •
R A R A R A S P U T I N
¿Qué cosas se R • • •
pueden detectar? A • • •
R • • •
A • • •
■ Repeticiones dentro de una
secuencia se ven como
R • • •
diagonales cortas cerca a la A • • •
principal. S •
■ Noten que regiones de baja P •
complejidad tienen entonces U •
muchas diagonales (y en T •
general muchos puntos).
I •
N •
¿Qué cosas se pueden detectar?

R A C E C A R
■ Los palíndromos R • •
generan dos A • •
C • •
diagonales E •
principales que se C • •
cruzan. A • •
R • •
¿Qué problemas hay?

■ Al momento de trabajar con


secuencias biológicas hay dos
problemas:
1. El largo de las secuencias
es mucho mayor.
2. Hay mucho ruido (solo 4
nucleótidos y 20 aa).
¿Qué soluciones se han planteado?

■ Es posible no filtrar con base en C T G A A C T


comparaciones 1 a 1, sino en A • •
ventanas. C • •
■ Es decir, ya no pinto si el nucleótido T • •
de N es igual al de M, sino si hay al C • •
menos X% de nucleótidos idénticos
en N y M en una ventana centrada en
A • •
dicho nucleótido. G •
■ Lo mismo aplica para proteínas, pero
C • •
con similitud.
¿Qué soluciones se han planteado?

■ El problema de las ventanas y los thresholds (cortes) de


identidad o similitud, es que son subjetivos.
■ De hecho la principal crítica a las matrices de puntos es
justamente que es difícil determinar qué parámetros son
óptimos en un caso particular, o en un set de casos.
■ Por ejemplo, con una ventana de 3 y corte de 70%
pierdo la información de las repeticiones al comparar
RARARASPUTIN con RASPUTIN, pese a que esto no
es ruido.
Una última nota sobre DotPlots

■ Si bien no se suele usar, es posible hacer alineamientos con gaps en DotPlots.

R A X W Z Y S P U T I N
R •
A •
S •
P •
U •
T •
I •
N •
Una última nota sobre DotPlots
■ Si bien no se suele usar, es posible hacer alineamientos con gaps en DotPlots.
■ Se buscan las diagonales más largas y se juntan.
■ No deja de ser subjetivo, no obstante…

R A X W Z Y S P U T I N
R •
A •
S •
P •
U •
T •
I •
N •
ALINEAMIENTOS
GLOBALES
¿Por qué requerimos un algoritmo?
■ El problema de alineamiento global implica alinear las secuencias sobre toda su
longitud.
■ Ensayar todas las combinaciones posibles (fuerza bruta) no es computacionalmente
viable, especialmente debido a que se deben considerar gaps.
■ La solución viene de aplicar en conjunto dos cosas:
– Primero, un criterio de evaluación del alineamiento (sistema de puntajes). Cada
posición del alineamiento va a tener un puntaje, y la suma de todas da el puntaje
del alineamiento.
– Segundo, programación dinámica.
Programación Dinámica

■ Teniendo un sistema de puntajes, lo que se


busca es el alineamiento con el mejor
puntaje posible (alineamiento óptimo).
■ Para ellos se usa la programación dinámica.
En esta, el problema se parte recursivamente
en problemas más sencillos que se resuelven
separadamente.
■ La solución final viene de juntar las
soluciones pequeñas óptimas.
Programación Dinámica
Algoritmo Needleman-Wunsch

■ La idea va a ser exactamente la misma. Vamos a buscar una ruta óptima, y esa ruta
óptima nos va a dar el alineamiento.
■ Se hace una matriz tal como en un DotPlot, pero ahora cada posición corresponde al
puntaje que llevaría el alineamiento hasta esa posición.
■ Al final, se busca la ruta que genere el mejor alineamiento, de atrás para adelante,
basándonos en las posibles rutas que lleguen hasta allí.
■ Para los fines del ejemplo, vamos a decir que puntaje por un match va a ser de 2, el de
un mismatch de -1.
– Los gaps los vamos a tomar como mismatch.
Algoritmo Needleman-Wunsch
- C A G T G
- 0
A
C
T
C
G
T

■ Moverse horizontalmente o verticalmente implica poner un gap. Moverse o diagonal


implica alinear dos bases.
Algoritmo Needleman-Wunsch
- C A
C CA
- 0 - --
-1 -2
- C CA
A A A -A
-1 -1 1
-- -C CA-
C AC AC -AC
-2 1 0
Algoritmo Needleman-Wunsch
- C A
C CA
- 0 - --
-1 -2
- C CA
A A A -A
-1 -1 1
-- -C -CA
C AC AC AC-
-2 1 0
Algoritmo Needleman-Wunsch
- C A G T G
- 0 -1 -2 -3 -4 -5
A -1 -1 1 0 -1 -2
C -2 1 0 0 -1 -2
T -3 0 0 -1 2 1
C -4 -1 -1 -1 1 1
G -5 -2 -2 1 0 3
T -6 -3 -3 0 3 2

■ El puntaje en cada posición es el mejor posible (óptimo) hasta ahí.


Algoritmo Needleman-Wunsch
- C A G T G
- 0 -1 -2 -3 -4 -5
A -1 -1 1 0 -1 -2
C -2 1 0 0 -1 -2
T -3 0 0 -1 2 1
C -4 -1 -1 -1 1 1
G -5 -2 -2 1 0 3
T -6 -3 -3 0 3 2

■ Ahora nos devolvemos. Todas las rutas factibles para devolverse son alineamientos
óptimos.
Algoritmo Needleman-Wunsch
■ ¿Cuáles son los óptimos en nuestro caso?
■ Óptimo 1 (ruta inferior): Óptimo 2 (ruta media): Óptimo 3 (ruta superior):

■ -C-AGTG -CA-GTG AGT-G-


■ ACTCGT- ACTCGT- ACTCGT

■ Noten que el valor óptimo del alineamiento es 2, pues en la última casilla se tenía dicho valor.
ALINEAMIENTOS
LOCALES
¿Por qué requerimos un algoritmo?
■ El problema de alineamiento local permite alinear las secuencias parcialmente.
■ Lo que quiero aquí es el mejor alineamiento posible de dos porciones cualesquiera de
mis secuencias.
■ De nuevo, fuerza bruta no sirve (de hecho ahora es peor).
■ La solución va a ser similar, solo que se va a hacer una modificación sobre los puntajes
posibles.
– Ahora los mismatch no van a ser castigados de igual forma. Si tengo un mismatch,
el puntaje es -1, pero si el puntaje anterior es cero, se deja en cero.
– Al momento de buscar el camino óptimo, me detengo donde vea solo ceros.
Algoritmo Smith-Waterman
- A G A T G
- 0 0 0 0 0 0
T 0 0 0 0 2 1
T 0 0 0 0 2 1
T 0 0 0 0 2 1
G 0 0 2 1 1 3
T 0 0 1 1 3 3
G 0 0 0 0 3 5

■ Apenas llegue a solo ceros, me detengo.


■ La idea es buscar la casilla de valor más alto y devolverse desde ahí hasta donde haya ceros.
Algoritmo Smith-Waterman
■ Óptimo:
■ GATG
■ G-TG
■ Noten que no tengo que ir de extremo a extremo de ninguna de las dos
secuencias.
■ ¿Cuándo es mejor usar alineamientos locales?
– Al comparar secuencias lejanas evolutivamente.
– Al querer buscar repeticiones.
■ Al buscar en bases de datos se suele usar búsqueda local.
MATRICES PAM Y
BLOSUM
Esquemas de Puntaje - Gaps
■ Definir cómo se puntúa un alineamientos no tiene respuesta sencilla.
■ Para el caso de los gaps se suele hacer 1 de 3 cosas, considerando que un
gap puede tanto crease como extenderse:
– Modelo constante: Siempre se penaliza igual, sea 1 solo gap o
varios.
– Modelo afin: Se penaliza X por iniciar un gap y Y por extenderlo. Así
pues la penalización final es X+Y*longitud.
– Modelo cóncavo: Lo mismo que afin pero ahora es
X+Y*log(longitud).
Esquemas de Puntaje - Mismatch
■ ¿Fueron todos los mismatch creados iguales?
– La respuesta es no. Especialmente en proteínas.
– Hay mutaciones más probables y amino ácidos parecidos molecularmente.
Esquemas de Puntaje – Log-Odds
■ La primera aproximación que se usó para lidiar con esto fue considerar frecuencia de
sustituciones en codones.
■ El radio de la probabilidad observada y aquella esperada por azar se conoce como (odds
ratio).
■ A esto se le toma el logaritmo (de ahí log-odds).
– Si no se hiciera esto, como dichos radios son muy pequeños, al momento de
multiplicarlos para calcular puntajes tendríamos números diminutos.
– Con logaritmo se puede sumar y ya.
■ Esto no se usa tanto actualmente (muy contingente al caso de estudio específico).
Esquemas de Puntaje –PAM
■ PAM = Point Accepted Mutation
■ Desarrolladas en los 60 y 70.
■ Se derivaron del estudio de 71 familias de proteínas con alta similitud.
– Con esto se diseñaron matrices para proteínas con distintas distancias evolutivas
(medidas en unidades PAM).
– 1 PAM = Divergencia promedio de 1 aa heredado cada 100 aa.
■ En las matrices PAM, mayor valor implica mayor distancia (PAM 250 vs PAM 100).
■ Problemas:
– Asume que no ha habido inserciones ni deleciones.
– Asume que las mutaciones son independientes de posición, aa adyacentes, e historia
evolutiva.
– 71 familias de proteínas es un subconjunto diminuto.
Esquemas de Puntaje –BLOSUM
■ Desarrolladas en los 90 con base en bloques de proteínas con cierto % de
similitud de la base de datos Blocks.
■ El set es mucho mayor que PAM, más de 8000 sets de proteínas (bloques,
específicamente), de más de 2100 grupos de InterPro.
■ En BLOSUM, mayor valor implica mayor identidad (e.g.: BLOSUM 75
se hizo con bloques con 75% de similitud).
■ Tanto en BLOSUM como en PAM, se asigna mayor puntaje a mismatches
que sean más frecuentemente observados.
Esquemas de Puntaje – PAM y BLOSUM
Preguntas Finales
■ ¿Qué matriz de puntaje debo usar?
– La que genere resultados razonables. Ninguna es perfecta.
– Nunca está de más ensayar varias.
■ ¿Cómo sé si una secuencia es homóloga?
– El criterio es usualmente ~60% de identidad en nt o de similitud en proteínas,
aunque esto es arbitrario.
– A nivel de identidad, con proteínas debe ser ~25% sobre 150aa al menos o 40%
sobre 70aa, pero esto también es arbitrario...
■ Recuerden que la homología se pueden evidenciar también a través de función y
estructura. Baja similitud no implica falta de homología.

También podría gustarte