Está en la página 1de 6

1

Comparación de secuencias

Una de las tareas más usuales en bioinformática es la comparación de secuencias, con


diversos objetivos, entre los que podemos destacar:
I. Observar patrones de estabilidad o variabilidad.
II. Encontrar “motivos” comunes entre las secuencias.
III. Establecer la verosimilitud de que dos o más secuencias hayan evolucionado a partir
de una anterior.
IV. Encontrar secuencias en las bases de datos similares a la que estamos estudiando.

Para comparar secuencias el método más empleado es el del alineamiento.

Ejemplo 1
Alineamiento de palabras derivadas de la palabra original (PORTUS) en latín.
PORTUS
PORT
PORTO
PUERTO

En el ejemplo se pueden ver:


1. Mutaciones. La U del latín se transforma en O en español y portugués.
2. Supresiones. La S del latín desaparece.
3. En la aparición del diptongo UE en español no se puede decidir si es una mutación de
la O en E y luego una inserción de la U, o una mutación O en U y posteriormente una
inserción de la E, o una mutación de O en UE directamente.

“DotPlot”
También se pueden comparar dos secuencias gráficamente con el dotplot.

Definición de alineamiento.
Dadas dos o más secuencias de nucleótidos o aminoácidos, alinearlas consiste en
establecer una correspondencia entre los “residuos” (nucleótido, aminoácido) de manera
que el orden de los mismos en cada secuencia se mantenga. Se permite el uso de
huecos (gaps) que indican la correspondencia de un residuo con nada.
Los alineamientos de dos secuencias presentan problemas diferentes a los alineamientos
múltiples. Empezaremos por el caso de alinear dos secuencias.
2

Alineamiento de dos secuencias.


Puede ser local o global. El ejemplo que se muestra a continuación pretende aclarar
ambos conceptos.

Ejemplo 2
Si queremos alinear bajorrelieve y altibajo nos damos cuenta de que sólo hay un trozo de
ambas que tiene sentido alinear (bajo), por lo que haremos un alineamiento local.
En cambio, si queremos alinear oportunidad con la palabra francesa equivalente
opportunité para ver como ha sido su evolución desde la palabra latina opportunitas lo
más oportuno es hacer un alineamiento global de las dos palabras.

La idea principal es asociar a cada alineamiento posible una puntuación y quedarse con el
alineamiento que tiene la mejor puntuación. El problema es que el número posible de
alineamientos crece muy rápidamente a medida que aumentan las longitudes de las
secuencias.
Hay diversos algoritmos (procedimientos) para hacerlo, los más populares son el de
Needleman-Wunsch para alineamiento global y Smith-Waterman para alineamiento local.
(BLAST también puede usarse para hacer alineamiento local de secuencias.)

El algoritmo de Needleman-Wunsch.
Estudiaremos el algoritmo sobre un ejemplo. Alinearemos las palabras RADIX y RAIZ.

El sistema de puntuación.
Lo primero que se necesita es establecer un sistema de puntuación que nos permita
calificar cada posible alineamiento. Por ejemplo:

Coincidencia de letra = 2 puntos


No coincidencia = -1 punto
Un hueco = -2 puntos

En el siguiente alineamiento:

R A D I X

R A - I Z
2 2 -2 2 -1

La puntuación es 3 puntos.

Otro alineamiento posible:


3

R A D I X

R A I Z -
2 2 -1 -1 -2

Y la puntuación en este caso sería de 0 puntos.

Para encontrar el mejor, tendríamos que calcular la puntuación de todos los alineamientos
posibles y escoger el mejor (si sólo hay uno), o, sino, uno entre los mejores.
El problema es que hay demasiados. Por ejemplo, para dos secuencias de longitud 1000,
hay aproximadamente 10600 posibles alineamientos. Por lo tanto hay que recurrir a algún
método que nos dé el mejor alineamiento en un tiempo razonable.

El algoritmo
La idea fundamental del algoritmo de Needleman-Wunsch es buscar alineamientos
óptimos de subsecuencias más pequeñas y luego reconstruir el alineamiento óptimo
global a partir de ellas.
La idea original (subdividir el problema en pequeños problemas, encontrar la solución de
los mismos y luego recomponer) es del matemático Richard Bellman quien la introdujo en
el año 1953; esta técnica es conocida como “programación dinámica”.
Empezamos por crear una tabla y ver en ella los alineamientos.

R A D I X

0 -2 -4 -6 -8 -10

R -2

A -4

I -6

Z -8

Un movimiento en vertical representa la inserción de un hueco en la palabra que está en


horizontal y un movimiento en horizontal nos indica un hueco en la palabra que está en
vertical.
En la tabla iremos poniendo las puntuaciones que correspondan: calcularemos los valores
de las celdas, a partir de las reglas de puntuación que nos hemos dado, sumando las
puntuaciones conforme vamos avanzando y partiendo de la esquina superior izquierda
con un valor de 0.
4

0 -2

R -2

Veamos el valor de la casilla en blanco:


Si venimos desde arriba significa que hemos añadido un hueco, es decir, -2 puntos, que
sumaremos a los -2 que hay en la casilla superior (desde la que venimos), por lo tanto, -4
puntos.

Si venimos desde la izquierda significa que hemos añadido un hueco, es decir, -2 puntos
que sumaremos a los -2 que hay en la casilla de la izquierda (desde la que venimos), por
lo tanto, -4 puntos.

Si venimos “en diagonal” significa que avanzamos una posición en ambas palabras. Como
tenemos en ambos casos una “R” hay una coincidencia, sumamos 2 puntos a la
puntuación de la casilla de la que venimos y tenemos una puntuación total de 0+2=2
puntos.

De los tres movimientos posibles para llegar a la celda en blanco obtenemos tres
puntuaciones: -4, -4, 2. Tomamos la mayor y anotamos la dirección de la que hemos
venido.

R A D I X R A D I X

0 -2 -4 -6 -8 -10 0 -2 -4 -6 -8 -10

R -2 2 R -2 Diag

A -4 A -4

I -6 I -6

Z -8 Z -8

Continuando con el proceso obtenemos:

R A D I X R A D I X

0 -2 -4 -6 -8 -10 0 -2 -4 -6 -8 -10

R -2 2 0 -2 -4 -6 R -2 Diag Izq Izq Izq Izq

A -4 0 4 2 0 -2 A -4 Arr Diag Izq Izq Izq

I -6 -2 2 3 4 2 I -6 Diag Arr Diag Diag Izq

Z -8 -4 0 1 2 3 Z -8 Arr Arr Diag Diag Diag


5

Ahora reconstruimos desde la esquina inferior derecha y obtenemos el alineamiento:

RADIX
RA–IZ

En el caso de alineamiento de secuencias de nuceótidos, un esquema de puntuaciones


posible es el siguiente:
A C G T

A 1 -1 -1 -1

C -1 1 -1 -1

G -1 -1 1 -1

T -1 -1 -1 1

La puntuación de los huecos se suele dejar al criterio del investigador. Cuánto más
alejadas estén las especies de las que provienen las secuencias menos penalización se
debe poner a la inserción de uno o más huecos.

Alineamiento de secuencias de aminoácidos (proteínas).


Las ideas son las mismas: definir un sistema de puntuación y buscar el alineamiento con
mayor puntuación. Lo mismo que en el caso de nucleótidos, la puntuación se establece
mediante una matriz, pero ahora tenemos muchas más opciones (dependiendo del
programa de alineamiento que usemos).
Las matrices de puntuación para alineamiento de proteínas más utilizadas son las
pertenecientes a una de las tres familias denominadas BLOSUM, PAM y GONNET, que se
determinan experimentalmente.
El uso de una u otra matriz depende de la distancia evolutiva que exista entre las
secuencias. Las matrices BLOSUM se han calculado a partir de alineamientos
observados. Su número representa el porcentaje mínimo de coincidencias entre las
secuencias utilizadas para su cálculo. Por ejemplo, BLOSUM 62 es la matriz calculada
usando las sustituciones observadas entre proteínas que tienen, como mínimo, el 62% de
una u otra matriz depende de la distancia evolutiva que exista entre las secuencias. Las matrices BLOSUM se han ca
lineamientos observados. Su número representa el porcentaje mínimo de coincidencias entre las secuencias 6 utilizad
. Por ejemplo, BLOSUM 62 es la matriz calculada usando las sustituciones observadas entre proteínas que tienen, co
identidad
l 62% de identidad ensecuencia.
en la la secuencia.
Por lo Por
tantolo tantomás
cuanto cuanto mássean
similares similares sean las
las secuencias secuenciasmatrices BL
escogeremos
escogeremos
r número y viceversa. matrices
La matrices BLOSUM
PAM con “teóricamente”
se calculan mayor número y viceversa.
a partir La matrices
de una PAM1 estimadaPAM se
por Margaret Dayh
los años 70calculan
del pasado siglo XX. Enaeste
“teóricamente” caso,
partir las matrices
de una de mayorpor
PAM1 estimada número se utilizan
Margaret Dayhoffpara alinear secuencias
a finales de m
evolutivamente. El siguiente
los años esquemasiglo
70 del pasado se obtuvo
XX. Endeeste
las páginas dematrices
caso, las ayuda del deEBI.
mayor número se utilizan
para alinear secuencias más distantes evolutivamente. El siguiente esquema se obtuvo
de las páginas de ayuda del EBI.

También podría gustarte