Está en la página 1de 39

Alineamiento múltiple de secuencias

Dr. Eduardo A. R ODRÍGUEZ T ELLO

C INVESTAV-Tamaulipas

11 de junio del 2013

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 1 / 39
1 Alineamiento múltiple de secuencias
Introducción
Función de puntuación
Algoritmos exhaustivos
Algoritmos heurísticos

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 2 / 39
Alineamiento múltiple de secuencias Introducción

1 Alineamiento múltiple de secuencias


Introducción
Función de puntuación
Algoritmos exhaustivos
Algoritmos heurísticos

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 3 / 39
Alineamiento múltiple de secuencias Introducción

Introducción

Una extensión natural del alineamiento de pares de secuencias


es el alineamiento múltiple, el cual consiste en alinear diversas
secuencias relacionadas para lograr la mejor coincidencia entre
las secuencias

Como vimos la clase pasada la búsqueda de similitud en BD


puede devolver como resultado un grupo de secuencias
relacionadas con la secuencia consulta (en pares)

A menudo es necesario convertir esos númerosos alineamientos


de pares en un solo alineamiento (múltiple), el cual permite
identificar posiciones evolutivas equivalentes en todas las
secuencias

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 4 / 39
Alineamiento múltiple de secuencias Introducción

Introducción

La gran ventaja del alineamiento múltiple de secuencias (AMS) es


que permite revelar mucha más información biológica que un
grupo de alineamientos de pares

El AMS es importante tiene aplicaciones importantes:


Análisis filogenético

Predicción de la estructura secundaria y terciaria de proteínas ...

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 5 / 39
Alineamiento múltiple de secuencias Introducción

Introducción

En teoría es posible usar la programación dinámica para alinear


cualquier número de secuencias, sin embargo el tiempo de
cálculo y la memoria requerida aumenta exponencialmente

En la práctica los enfoques heurísticos son los más utilizados

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 6 / 39
Alineamiento múltiple de secuencias Función de puntuación

1 Alineamiento múltiple de secuencias


Introducción
Función de puntuación
Algoritmos exhaustivos
Algoritmos heurísticos

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 7 / 39
Alineamiento múltiple de secuencias Función de puntuación

Función de puntuación

El AMS consiste en acomodar las secuencias de forma tal que el


máximo número de residuos de cada secuencia coincidan de
acuerdo a una función de puntuación (scoring function) particular

La función de puntuación para el AMS está basada en el


concepto de suma de pares (SP)

Como su nombre lo indica, es la suma de la puntuación de todos


los posibles pares de secuencias en un AMS utilizando una matriz
de puntuación particular

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 8 / 39
Alineamiento múltiple de secuencias Función de puntuación

Función de puntuación

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 9 / 39
Alineamiento múltiple de secuencias Algoritmos exhaustivos

1 Alineamiento múltiple de secuencias


Introducción
Función de puntuación
Algoritmos exhaustivos
Algoritmos heurísticos

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 10 / 39
Alineamiento múltiple de secuencias Algoritmos exhaustivos

Algoritmos exhaustivos

Estas técnicas implican el alineamiento de todos los posibles


alineamientos de manera simultánea y similar a como se realiza
en la programación dinámica

Por lo tanto, implican la construcción de una matriz


multidimensional, e.g. para alinear tres secuencias (k = 3) se
requiere de construir una matriz tridimensional

Finalmente se debe llevar a cabo un seguimiento a lo largo de las


k dimensiones para encontrar el camino que represente el mejor
alineamiento posible

Suelen limitarse a pequeños conjuntos de secuencias (k < 10)

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 11 / 39
Alineamiento múltiple de secuencias Algoritmos exhaustivos

Algoritmos exhaustivos

La complejidad computacional es O(N k ) (k , núm. de secuencias)


1e+15
Complejidad
9e+14
8e+14
7e+14
6e+14
N5

5e+14
4e+14
3e+14
2e+14
1e+14
0
0 100 200 300 400 500 600 700 800 900 1000
N

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 12 / 39
Alineamiento múltiple de secuencias Algoritmos exhaustivos

Algoritmos exhaustivos

Para N = 1000 y k = 5 la complejidad es 1.0E+15

Usando una computadora que ejecute 1 millón de operaciones


cada segundo tardaría 277777.78 horas (11574.07 días, 31.71
años)

La alternativa es usar métodos heurísticos

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 13 / 39
Alineamiento múltiple de secuencias Algoritmos heurísticos

1 Alineamiento múltiple de secuencias


Introducción
Función de puntuación
Algoritmos exhaustivos
Algoritmos heurísticos

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 14 / 39
Alineamiento múltiple de secuencias Algoritmos heurísticos

Algoritmos heurísticos

Existen tres tipos de algoritmos heurísticos:


Alineamiento progresivo

Alineamiento iterativo

Alineamiento basado en bloques

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 15 / 39
Alineamiento múltiple de secuencias Algoritmos heurísticos

Algoritmos heurísticos
Método de alineamiento progresivo

Este método va ensamblando progresivamente alineamientos de


pares para formar un AMS

Primero se lleva a cabo un alineamiento global de pares de


secuencias usando el algoritmo de Needleman-Wunsch

Con los resultados se crea una matriz de distancias, está permite


ver la relación evolutiva de la secuencia con las demás

Se realiza un análisis filogenético simple, dando como resultado


la creación de un árbol filogenético (árbol guía)

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 16 / 39
Alineamiento múltiple de secuencias Algoritmos heurísticos

Algoritmos heurísticos
Método de alineamiento progresivo

Este árbol refleja la proximidad entre todas las secuencias y es


empleado para realizar un reajuste de las secuencias

Las dos secuencias más relacionadas son realineadas usando el


algoritmo de Needleman-Wunsch convirtiéndose en un secuencia
(consenso)

Este proceso se continúa hasta que todas las secuencias quedan


alineadas

Clustal (http://www.ebi.ac.uk/Tools/msa/clustalw2) es un
programa que utiliza el método de alineamiento progresivo

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 17 / 39
Alineamiento múltiple de secuencias Algoritmos heurísticos

Algoritmos heurísticos
Método de alineamiento progresivo

Algorithm 1: Método de alineamiento progresivo


Data: N secuencias
Result: Alineamiento de las N secuencias
1 begin
2 Construir la matriz de distancias
/* Árbol guía */
3 Construir el árbol filogenético usando Neighbor-Joining
4 while no estén alineadas todas las secuencias do
5 Alinear las secuencias más relacionadas
6 Reducir las secuencias alineadas
7 end
8 end

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 18 / 39
Alineamiento múltiple de secuencias Algoritmos heurísticos

Algoritmos heurísticos
Método de alineamiento progresivo (Ejemplo)

Se realizan todos los alineamientos de pares de secuencias y se


construye la matriz de distancias

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 19 / 39
Alineamiento múltiple de secuencias Algoritmos heurísticos

Algoritmos heurísticos
Método de alineamiento progresivo (Ejemplo...)

Se calcula un árbol guía con los pares más próximos: C, D y A, B

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 20 / 39
Alineamiento múltiple de secuencias Algoritmos heurísticos

Algoritmos heurísticos
Método de alineamiento progresivo (Ejemplo...)

Se alinean C, D y A, B por separado usando programación


dinámica

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 21 / 39
Alineamiento múltiple de secuencias Algoritmos heurísticos

Algoritmos heurísticos
Método de alineamiento progresivo (Ejemplo...)

Los alineamientos C, D y A, B se reducen a secuencias consenso


las cuales se alinean entre ellas

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 22 / 39
Alineamiento múltiple de secuencias Algoritmos heurísticos

Algoritmos heurísticos
Método de alineamiento progresivo (Ejemplo...)

Se crea un nuevo consenso para C, D, A, B el cual se alinea con


E con lo que se completa el AMS

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 23 / 39
Alineamiento múltiple de secuencias Algoritmos heurísticos

Algoritmos heurísticos
Método de alineamiento progresivo (Ejemplo...)

Para este ejemplo con Clustal


(http://www.ebi.ac.uk/Tools/msa/clustalw2) se utilizarán las
secuencias de proteínas siguientes:
NP_006735.2

BAB25881.1

NP_001638.1

MUP4_MOUSE

P0A901

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 24 / 39
Alineamiento múltiple de secuencias Algoritmos heurísticos

Algoritmos heurísticos
Método de alineamiento progresivo, limitantes

El método de alineamiento progresivo presenta algunas limitantes:


Este método no es adecuado para comparar secuencias de
diferentes longitudes (global)

El resultado final proporcionado por éste también se ve muy


influenciado por el orden de las secuencias

Debido a la naturaleza codiciosa (greedy) del método el resultado


depende del alineamiento inicial de pares de secuencias
(propagación de errores)
Si las dos primeras secuencias son muy similares, el alineamiento
base contendrá pocos errores

Si las dos secuencias son muy divergentes los errores y los huecos
se irán propagando

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 25 / 39
Alineamiento múltiple de secuencias Algoritmos heurísticos

Algoritmos heurísticos
Método de alineamiento progresivo, T-Coffee

T-Coffee (Tree-based Consistency Objective Function for


alignment Evaluation, http://www.ebi.ac.uk/Tools/msa/tcoffee)
realiza alineamiento progresivo al igual que Clustal

La principal diferencia radica en que T-Coffee realiza un


alineamiento de pares tanto local como global

Para el alineamiento global usa Clustal mientras que para el


alineamiento local usa Lalign
(http://www.ch.embnet.org/software/LALIGN_form.html)

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 26 / 39
Alineamiento múltiple de secuencias Algoritmos heurísticos

Algoritmos heurísticos
Método de alineamiento progresivo, T-Coffee...

Los resultados de estas dos alineaciones son almacenadas para


formar una biblioteca

Para cada par de residuos en cada par de secuencias se calcula


una puntuación de consistencia para los alineamientos globales y
locales

Cada alineamiento de pares se alinea con una tercera posible


secuencia

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 27 / 39
Alineamiento múltiple de secuencias Algoritmos heurísticos

Algoritmos heurísticos
Método de alineamiento progresivo, T-Coffee...

El resultado es usado para refinar el alineamiento de pares


original en un proceso llamado extensión de la biblioteca

Basado en el refinamiento de alineamiento de pares se construye


una matriz de distancias para obtener un árbol guía

Finalmente se utiliza este árbol para realizar un AMS mediante el


enfoque progresivo

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 28 / 39
Alineamiento múltiple de secuencias Algoritmos heurísticos

Algoritmos heurísticos
Método de alineamiento progresivo, T-Coffee...

Algorithm 2: Algoritmo T-Coffee


Data: N secuencias
Result: Alineamiento de las N secuencias
1 begin
2 Alineamiento de pares de secuencias (Clustal y Lalign)
3 Construcción de la librería
4 Calcular la matriz de distancias
5 Crear el árbol guía mediante mediante Neighbor-Joining
6 Construir el alineamiento múltiple siguiendo el árbol
7 end

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 29 / 39
Alineamiento múltiple de secuencias Algoritmos heurísticos

Algoritmos heurísticos
Método de alineamiento progresivo, Ejemplo T-Coffee

Para este ejemplo usaremos las secuencias de proteínas siguientes y


T-Coffee (http://www.ebi.ac.uk/Tools/msa/tcoffee):
NP_006735.2

BAB25881.1

NP_001638.1

MUP4_MOUSE

P0A901

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 30 / 39
Alineamiento múltiple de secuencias Algoritmos heurísticos

Algoritmos heurísticos
Método de alineamiento iterativo

Este tipo de métodos se basan en la idea de que la solución


óptima a un problema puede ser encontrada mediante la
modificación iterativa de soluciones subóptimas existentes

El proceso consiste en encontrar un alineamiento de “baja


calidad” y mejorarlo gradualmente hasta que ya no sea posible

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 31 / 39
Alineamiento múltiple de secuencias Algoritmos heurísticos

Algoritmos heurísticos
Método de alineamiento iterativo, PRRN

PRRN (http://www.genome.jp/tools/prrn) es un
algoritmo para AMS que emplea una estrategia iterativa doble
anidada

Efectúa el AMS mediante dos conjuntos de iteraciones: la interna


y la externa

En la iteración externa, se genera un alineamiento inicial aleatorio


que es usado para derivar un árbol UPGMA (Unweighted Pair
Group Method with Arithmetic Mean, método de agrupamiento)

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 32 / 39
Alineamiento múltiple de secuencias Algoritmos heurísticos

Algoritmos heurísticos
Método de alineamiento iterativo, PRRN...

Los pesos son posteriormente aplicados para optimizar el


alineamiento

En la iteración interna, las secuencias son aleatoriamente


divididas en 2 grupos

El alineamiento aleatorizado es usado para cada grupo en el ciclo


inicial, después de lo cual las posiciones del alineamiento en cada
grupo son fijadas

Los 2 grupos, cada uno tratado como una sola secuencia, son
entonces alineados entre ellos usando programación dinámica
global

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 33 / 39
Alineamiento múltiple de secuencias Algoritmos heurísticos

Algoritmos heurísticos
Método de alineamiento iterativo, PRRN...

El proceso se repite de manera cíclica hasta que la puntuación


total SP (suma de pares) no se incremente

En este punto, el alineamiento resultante es usado para construir


un nuevo árbol UPGMA

Los nuevos pesos son aplicados para optimizar las puntuaciones


del alineamiento

El alineamiento optimizado es sujeto a un realineamiento en la


iteración interior

Este proceso es repetido durante varios ciclos hasta que no hay


más mejora en las puntuaciones globales del alineamiento

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 34 / 39
Alineamiento múltiple de secuencias Algoritmos heurísticos

Algoritmos heurísticos
Método de alineamiento iterativo, Ejemplo PRRN

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 35 / 39
Alineamiento múltiple de secuencias Algoritmos heurísticos

Algoritmos heurísticos
Método de alineamiento iterativo, Ejemplo PRRN

Para este ejemplo usaremos las secuencias de proteínas siguientes y


PRRN (http://www.genome.jp/tools/prrn):
NP_006735.2

BAB25881.1

NP_001638.1

MUP4_MOUSE

P0A901

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 36 / 39
Alineamiento múltiple de secuencias Algoritmos heurísticos

Algoritmos heurísticos
Método basado en bloques

Las estrategias progresivas e iterativas se basan en gran medida


en alineamiento global

Por lo tanto surge la necesidad de generar estrategias para


encontrar similitudes locales

Las secuencias a alinear pueden compartir bloques más o menos


conservados, separados por regiones largas bastante menos
conservadas

Cada bloque está construido con alineamientos locales de varios


fragmentos en cada secuencia

Una vez que se han fijado los bloques se utilizan otros métodos
de alineamiento para alinear dichas regiones

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 37 / 39
Alineamiento múltiple de secuencias Algoritmos heurísticos

Algoritmos heurísticos
Método basado en bloques, DIALIGN2

DIALIGN2 es un programa para encontrar similitudes locales

Este método rompe las secuencias en secuencias más pequeñas


y realiza todos los alineamientos de pares posibles

Los segmentos con alta puntuación son denominados bloques

Entre las diferentes secuencias, estos bloques son compilados de


manera progresiva

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 38 / 39
Alineamiento múltiple de secuencias Algoritmos heurísticos

Algoritmos heurísticos
Método basado en bloques, Ejemplo DIALIGN2

Para este ejemplo usaremos las secuencias de proteínas siguientes y


DIALIGN2 (http://mobyle.pasteur.fr):
NP_006735.2

BAB25881.1

NP_001638.1

MUP4_MOUSE

P0A901

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 39 / 39

También podría gustarte