Está en la página 1de 19

Bioinformática Pablo González Suárez

Tema 7.1: Mapas de restricción

1. Paquetes de programas

1.1. Servicios generales online

Las bases de datos de EBI (Europa) y NCBI (USA) tienen los servicios online más completos y
complejos, asociados a sus bases de datos.

1.2. Paquetes o suites online gratuitos

Se trata de servicios gratuitos online de buena calidad, de universidades o instituciones de


investigación, muchas de ellas de USA. Son más sencillos que los de EBI y NCBI y más cómodos si no
se requiere la última versión de las bases de datos.

Suiza, principalmente proteínas.


Universidad de Massachusetts.
New England BioLabs Inc.
Canadá.

1.3. Paquetes on site gratuitos

Los servidores de EBI y NCBI ofrecen variedad de programas bioinformáticos de código abierto
para tareas concretas, compatibles con Linux y a veces pre-compilados. Además, son recomendables
los siguientes paquetes que realizan la mayor parte de tareas ordinarias:

En general, el portal es una buena fuente de información.

2. Mapas de restricción

2.1. Introducción a los mapas de restricción

Una vez conocida una secuencia, propia o ajena, tendremos un gen que hemos secuenciado, el cual
queremos subclonar, recombinar, expresar o introducir en un vector. Para manipular este gen será
necesario extraer fragmentos mediante corte con enzimas de restricción.

1
Bioinformática Pablo González Suárez

2.2. Objetivos de los mapas de restricción


1. Localizar cortes posibles. La finalidad es escoger qué enzimas se pueden utilizar. El problema
reside básicamente en localizar en una secuencia los sitios de corte reconocidos por uno o
varios enzimas de restricción, es decir, todas las apariciones de determinadas secuencias de
entre 6 y 12 nucleótidos. Este problema es realmente virtual, pero hacerlo a mano suele
implicar mucho trabajo y numerosos errores. Por ello esta tarea se suele informatizar.
2. Saber cuáles son los fragmentos. En otras palabras, predecir qué secuencias resultarían de
digerir una determinada secuencia con uno o varios enzimas prefijados. Como consecuencia
directa se obtendrán varias informaciones valiosas:
Tamaño de los fragmentos resultantes.
Orden de los fragmentos.
Carácter cohesivo o no de los extremos.

2.3. Material necesario para los mapas de restricción


Secuencia genética. Debe estar en formato apropiado. El más utilizado para tratar
secuencias individuales es FASTA. Si es una secuencia publicada se puede obtener de alguna
base de datos estándar.
Datos de los enzimas de restricción. Deben estar en formato apropiado, véase
Existen varios programas informáticos capaces de utilizar los
datos de , online u on site.

2.4. Formato de secuencias FASTA

El formato de secuencias FASTA fue denominado así por el conocido programa , de búsqueda y
alineamiento. Algunas de sus características son las siguientes:

Se trata de un fichero de texto con una o varias secuencias.


La primera línea de cada secuencia comienza por un carácter “ ”, seguido de la
identificación de la secuencia y posibles comentarios en formato libre.
El resto de la ficha contiene la cadena de nucleótidos (una sola hebra en el caso del DNA
bicatenario) o, en su caso, de aminoácidos (en código de una única letra).
Originalmente, cada línea tenía 70 residuos (excepto, acaso, la última). Actualmente se ha
flexibilizado la longitud de las líneas y se acepta intercalar espacios en la secuencia.
El final de la secuencia coincide con el final del fichero, o bien con el comienzo de la ficha
siguiente.

2
Bioinformática Pablo González Suárez

Tema 7.2: Alineamientos y árboles filogenéticos

1. Generalidades del alineamiento

1.1. Definición de alineamiento

El alineamiento es una de las tareas centrales del trabajo con secuencias. Consiste en buscar
secuencias, o fragmentos de secuencias, que se parecen más allá del azar. Por lo general, los
resultados del alineamiento se expresan superponiendo las secuencias de forma que las bases o
aminoácidos relacionados coincidan.

1.2. Tipos de alineamiento


Alineamientos simples. Ácidos nucleicos y proteínas.
Alineamientos múltiples. Ácidos nucleicos y proteínas.
Árboles filogenéticos.

1.3. Aplicaciones del alineamiento


Reconstruir genomas (secuenciación)
Reconocer e identificar secuencias conocidas
Encontrar secuencias equivalentes en otros organismos
Encontrar secuencias homólogas (genes o proteínas relacionados en el mismo u otro
organismo)
Reconocer secuencias consenso (dominios homólogos)
Asociar estructura y función (“motifs”)
Determinar distancias genéticas
Clasificar especies
Realizar árboles evolutivos

2. Alineamientos simples

2.1. Principios generales

2.1.1. Expresión de resultados

Índices numéricos. Expresan el grado de similitud entre las secuencias analizadas.


Superposición de secuencias. Se expresan las secuencias superpuestas de forma que hagan
coincidir los residuos relacionados.

2.1.2. Criterios de identificación de secuencias homólogas

> 25% de coincidencia de aminoácidos o > 70% de bases en > 100 residuos
< 10-4 de probabilidad de coincidencia al azar

Aunque estos sean los criterios generales usados para considerar a 2 secuencias homólogas,
similitudes menores no descartan homologías. Hay proteínas con solamente un 15% de coincidencias
que tienen la misma estructura y función.

3
Bioinformática Pablo González Suárez

2.2. Conceptos básicos


a. Homología. Biológicamente, se dice que 2 genes o sus productos son homólogos si tienen un
ancestro común.
b. Ortología. Se dice que 2 secuencias homólogas son ortólogas si tienen funciones similares en
organismos diferentes. Estas secuencias son el resultado de la evolución a partir de un
organismo ancestral común que se ha diferenciado para dar lugar a varios organismos con
genes o productos que conservan las funciones originales.
c. Paralogía. Se dice que 2 secuencias homólogas son parálogas si, dentro de un mismo
organismo, tienen funciones diferentes (aunque generalmente relacionadas). Estas
secuencias son el resultado de duplicaciones génicas en un organismo ancestral, de manera
que cada copia del gen evolucionó especializándose en funciones actuales diferentes.

2.3. Propiedades deseables de los algoritmos

2.3.1. El algoritmo de alineamiento ideal

Los alineamientos pueden suponer cantidades enormes de cálculo informático. El algoritmo de


alineamiento ideal tendría varias propiedades contradictorias entre sí:

1. Rapidez. Es capaz de encontrar secuencias homólogas en una base de datos de varias


gigabases en un tiempo razonable, de minutos u horas.
2. Sensibilidad. Es capaz de encontrar homologías significativas, aunque supongan hacer
inserciones o delecciones de la secuencia de partida.
3. Especificidad. Es capaz de evitar falsos positivos (analogías “espúreas”).

Existen varios algoritmos y programas que se distinguen según el parámetro que prima y los criterios
de alineamiento utilizados. Se emplea uno u otro según las necesidades.

2.3.2. Algoritmos que priman la rapidez y especificidad

Se suelen emplear para buscar si una secuencia ya se conoce (es decir, si hay una idéntica) o
si se conoce una muy parecida. Se trata de procesos que implican comparar la secuencia con
las bases de datos completas, de varias gigabases.
En estos casos también es importante evitar los falsos positivos, que podrían aparecer en tal
número que haría impracticable el simple examen de los resultados.
Si la secuencia es idéntica o muy parecida no tiene por qué tener inserciones o delecciones,
salvo alguna muy corta (posiblemente debida a errores de secuenciación). Por ello, los
algoritmos que no permiten inserciones o delecciones, o las penalizan fuertemente, son más
específicos y más rápidos.

2.3.3. Alineamientos que priman la sensibilidad

Se suelen emplear para comparar la secuencia de interés con secuencias individuales, ya sea
otra secuencia, otras pocas o incluso otras partes de la misma secuencia.
En estos casos no se buscan grandes identidades sino homologías más cortas, normalmente
que cumplen un criterio especial (por ejemplo, determinados aminoácidos clave presentes).
La rapidez no es determinante ya que se comparan cantidades de datos relativamente
pequeñas. Tampoco es tan esencial evitar falsos positivos ya que se suelen descartar a
posteriori.
Es esencial mantener la sensibilidad con el fin de localizar homologías no evidentes.

4
Bioinformática Pablo González Suárez

2.4. Tipos de alineamiento


A. Alineamientos globales. En la cuantificación participan todos los residuos de las 2 secuencias
alineadas. Útil entre proteínas que conservan los mismos dominios o que no resultan de
recombinaciones génicas, grandes delecciones, etc.
B. Alineamientos locales. Sólo tienen en cuenta zonas de gran similitud. Permiten detectar
dominios homólogos en proteínas que difieren en el resto.
C. Alineamientos óptimos. Dan una puntuación más alta de todas las posibles entre 2
proteínas. Su cálculo es largo y tiende a crecer con el producto del número de residuos de las
secuencias que se comparan.
D. Alineamientos aproximados. No hay garantía de ser óptimos, pero son más rápidos. Se usan
para búsquedas en grandes bases de datos o búsquedas con poca sensibilidad.

2.6. Cuantificación de alineamientos

2.6.1. Definición de la cuantificación de alineamientos

Salvo flagrante coincidencia, siempre es posible realizar más de un alineamiento entre 2 secuencias y
no suele ser evidente cuál es mejor. La cuantificación de alineamientos consiste en utilizar algún
criterio cuantitativo para seleccionar un alineamiento entre todos los posibles.

2.6.2. Factores a tener en cuenta en la cuantificación

Sirve para comparar la calidad de alineamiento de una secuencia con varios candidatos
posibles.
Finalmente, las puntuaciones (“score”) de similitud sirven como medida de la distancia entre
las especies de las cuales proceden.
Las puntuaciones obtenidas varían según los criterios utilizados. Como consecuencia, el
mejor alineamiento no es absoluto sino relativo.

2.6.3. Criterios para la cuantificación

Durante la evolución, una secuencia que diverge puede hacerlo cambiando residuos por mutación,
introduciendo residuos por inserción o eliminándolos por deleción. La puntuación de cada
alineamiento será la resultante de contar factores a favor y en contra:

1. Longitud de los segmentos coincidentes. A favor (suma).


2. Tipo de sustitución. A favor (suma) o en contra (resta).
3. Penalización por huecos o gaps. En contra (resta).

2.6.4. Longitud de coincidencia y gaps

Cuanto mayor es la cantidad de residuos consecutivos que coinciden, mayor es la similitud entre 2
secuencias. Generalmente, la puntuación de este apartado consiste en sumar una cantidad dada por
cada residuo coincidente y restar (o sumar una cantidad menor) por cada residuo sustituido por otro.
Los valores que se suman o restan vienen dados por las matrices de sustitución.

Para conseguir buenos resultados de alineamiento suele ser necesario separar residuos consecutivos
dejando huecos o gaps en una u otra secuencia. Casi todos los algoritmos permiten la inserción de
huecos, penalizándola diversamente.

5
Bioinformática Pablo González Suárez

2.6.5. Sustituciones

Generalizando, se podría decir que cuanto mayor es la cantidad de sustituciones (residuos que no
coinciden), menor es la similitud entre 2 secuencias. Sin embargo, aunque la mayor similitud consiste
en que 2 residuos sean el mismo, también son posibles otras semejanzas menos acusadas entre
residuos aminoacídicos.

Considerando el problema a la inversa, podemos graduar las diferencias encontradas entre residuos
dividiéndolas en más o menos relevantes. Algunos ejemplos son:

Sustitución de alanina por valina. Raramente da lugar a un cambio estructural importante, ni


tampoco suele afectar a la funcionalidad.
Sustitución de un aminoácido sin carga eléctrica por otro cargado, o viceversa. Suele
provocar un cambio estructural y funcional drástico.

Por otra parte, hay cambios de aminoácidos más probables que otros basándose solamente en las
diferencias de degeneración del código genético y las diferencias de nucleótidos de los tripletes que
codifican cada posible sustitución.

2.7. Matrices de sustitución

2.7.1. Definición de las matrices de sustitución

Las matrices de sustitución son cuadros de doble entrada, generalmente simétricos, que puntúan la
sustitución de cada base, triplete o aminoácido por otro. La diagonal corresponde a la sustitución por
el mismo elemento y, lógicamente, siempre tiene la puntuación máxima. Para bases individuales, las
más comunes son las siguientes:

La segunda matriz recoge la mayor probabilidad de las bases de sufrir transiciones, es decir, mutar
por otra del mismo tipo (purina o pirimidina); que de sufrir transversiones.

2.7.2. Matrices de Dayhoff (PAM)

Las matrices de Dayhoff (PAM) son matrices de sustitución de aminoácidos. Derivan de las secuencias
de sustitución observadas entre proteínas homólogas que no difieren en más del 1% de residuos
(PAM1 = 1 Percent Accepted Mutation).

Para poder usarlas en proteínas que difieren en bastante más del 1% de los residuos se utilizan las
matrices resultantes de elevar la PAM1 a alguna potencia n, equivalente a repetir el proceso n veces.
En la práctica, la más utilizada es la PAM250, que corresponde a proteínas que conservan
aproximadamente el 20% de residuos.

Los valores de las PAM son logaritmos de probabilidades multiplicados por 10, redondeados a
enteros: 10 log P (a1 → a2). A continuación se muestra una tabla con la matriz de Dayhoff PAM250
aplicada a aminoácidos.

6
Bioinformática Pablo González Suárez

2.7.3. Matrices de Henikoff & Henikoff (BLOSUM)

Las matrices de Henikoff & Henikoff (BLOSUM) son matrices para aminoácidos. Son compatibles con
las PAM, pero más adecuadas para detectar similitudes bajas. Se obtuvieron a partir de , una
base de datos más reciente que las utilizadas para las PAM y que está especializada en familias de
proteínas homólogas.

De forma análoga a las PAM, hay diferentes versiones dependiendo del grado de similitud que se
quiere detectar. Para detectar similitudes entre proteínas relativamente alejadas (< 35% de residuos
idénticos) conviene usar matrices obtenidas descartando de el exceso de copias de
secuencias demasiado parecidas.

Por ejemplo, se utiliza mucho la matriz BLOSUM62, es decir, la obtenida descartando las proteínas
con identidades mayores al 62%. En la siguiente tabla vemos la matriz BLOSUM62:

7
Bioinformática Pablo González Suárez

3. Alineamientos masivos

3.1. Programas de alineamiento masivo

3.1.1. Generalidades del alineamiento masivo

Los programas de alineamiento masivo son aquellos que priman la rapidez a costa de la sensibilidad.
Realizan alineamientos locales y aproximados. Suelen utilizarse para comparar una secuencia con
bases de datos completas. Los principales programas de alineamiento masivo son:

a. FAST. Primer programa de alineamiento masivo. Muy utilizado.


b. BLAST. Más rápido y menos sensible. Tiene distintas variantes.

3.1.2. Diferencias entre programas de alineamiento masivo

Ambos paquetes están disponibles online en los servidores NCBI, EMBL-EBI, Expasy y de otras
instituciones. Los programas pueden instalarse fácilmente en cualquier ordenador con Unix, siempre
que se instalen también las bases de datos en las que se quiere realizar la búsqueda. Las diferencias
entre cada servidor residen en:

Las bases de datos en las que busca.


La versión, ya que son programas en constante evolución.
Los parámetros por defecto y cuáles de ellos son configurables.

Como consecuencia de ello, muy pocas veces las búsquedas en distintos servidores dan resultados
idénticos, aunque generalmente no son demasiado distintos.

3.1.3. Bases de datos asociadas

En ambos paquetes, el programa de alineamiento masivo tiene acceso a diferentes bases de datos:

Nucleótidos ( )
Nucleótidos traducidos ( ). La secuencia problema también consta de
nucleótidos traducidos.
Secuencias de nucleótidos largas con mucha similitud ( )
Proteínas ( ). La secuencia problema de nucleótidos es previamente
traducida según las 6 posibles pautas de lectura.
Consensos ( ). Persiguen otro uso que veremos más adelante.

3.2. El algoritmo de BLAST

3.2.1. Generalidades del algoritmo BLAST

El algoritmo ejecuta alineamientos locales. En primer lugar, se buscan secuencias con


alineamientos de cadenas de w residuos (“words”) que sumen una puntuación mínima prefijada T.
Los trozos que cumplen ese criterio se llaman high scoring pairs (HSP), seed hits o seeds.

En segundo lugar, estas secuencias semilla se extienden por ambos lados mientras la puntuación
aumente (o disminuya poco). Si el hit extendido puntúa por encima de un score prefijado, S, el
alineamiento final se muestra.

8
Bioinformática Pablo González Suárez

Inicialmente, no permitía gaps, pero las nuevas versiones los permiten cuando detectan dos
semillas no solapantes cercanas entre sí. Permitir gaps alarga considerablemente las búsquedas, por
lo que los algoritmos añaden restricciones suplementarias que limitan las posibilidades.

3.2.2. Parámetros de BLAST

Base de datos. Es la base utilizada para la búsqueda (de proteínas, de nucleótidos, general,
del genoma de una especie, de grupos de organismos…).
Matriz de sustitución. Define cómo se puntúa.
Word-size. Longitud de la cadena (word) que debe casar inicialmente. De forma perfecta para
el DNA, por defecto, o con la puntuación mínima inicial para proteínas.
Puntuación inicial mínima (T). Puntuación inicial prefijada para retener una seed.
Puntuación o score final (S). Puntuación final del alineamiento.
Gaps permitidos o no. Se suele asociar a otros parámetros.
Eliminar secuencias de residuos idénticos seguidos.
Expect. Número de coincidencias máximas de la misma calidad que se acepta como fruto del
azar. Si el valor del alineamiento obtenido pudiese obtenerse por casualidad más veces que
este valor umbral, se desestima.

3.2.3. Matrices de sustitución de BLAST

Query Length Substitution Matrix Gap Costs


< 35 PAM-30 (9,1)
35-50 PAM-70 (10,1)
50-85 BLOSUM-80 (10,1)
85 BLOSUM-62 (10,1)

El gap cost es la suma del primer valor por la existencia del hueco, más el segundo valor x longitud del
hueco. La puntuación normalizada S’ se expresa en unidades denominadas bits y se calcula a partir
de la puntuación bruta S según:

En la expresión anterior, λ y K dependen de la matriz y los gap costs utilizados.

3.2.4. Servidores online de BLAST

Los servidores online tienen valores por defecto para todos los parámetros. Dependiendo del
servidor, determinados parámetros son modificables por el usuario o no. También hay que recordar
que los valores por defecto cambian en función del servidor, lo cual puede llevar a problemas a la
hora de realizar comparaciones o alineamientos.

En la mayoría de servidores sólo es evidente la selección del tipo de búsqueda ( ,


…) y la base o sub-base de datos en la que buscar.
Los demás parámetros tienen valores por defecto que no suelen estar a la vista.
El servidor de del NCBI, por ejemplo, tiene una críptica opción que permite configurar
casi cualquier cosa.

9
Bioinformática Pablo González Suárez

3.3. Resultados que proporcionan los alineamientos masivos

Aunque pueden variar según los servidores, en general, los alineamientos masivos dan los siguientes
resultados generales:

Listado de homologías con los scores más altos. Típicamente, incluye una clave
identificadora de cada secuencia con una breve descripción, la puntuación del alineamiento
y el E-value.
Score. Indica el grado de similitud entre 2 secuencias, es decir, la cantidad de
coincidencias encontradas. Un score alto indica una elevada similitud.
E-value. Indica la probabilidad de obtener el alineamiento por azar. Un e-value alto
indica un bajo grado de homología entre 2 secuencias.
Listado en formato gráfico. Se puede mostrar opcionalmente. Se utilizan barras cuya
longitud representa la extensión de los segmentos homólogos y el color, el grado de similitud
de cada homología.
Información detallada de las homologías. Para cada homología se pueden mostrar las
secuencias alineadas con la descripción completa y varios resultados numéricos (longitud de
los segmentos homólogos y porcentaje de identidad en esos segmentos.
Resumen de parámetros utilizados. Parámetros empleados para la búsqueda (matriz de
sustitución, si acepta o no gaps…).
Resumen de resultados numéricos generales. Número de secuencias comparadas, número
de hits localizados…

3.4. Representación detallada de alineamientos masivos

Típicamente, una representación detallada de alineamientos incluye trozos de secuencias


superpuestos. En el ejemplo mostrado a continuación se reflejan la secuencia de partida (“Query”) y
alguna de las secuencias homólogas encontradas (“Sbjct”). Entre ambas se muestra una secuencia
artificial que representa las similitudes entre ambas.

Allí donde hay sustituciones o gaps se muestra un espacio en blanco, pero donde la sustitución es
conservativa se puede añadir un símbolo (+). Esto varía según el programa utilizado.

10
Bioinformática Pablo González Suárez

3.5. Representación mediante dot-plots

3.5.1. Generalidades de los dot-plots

Los dot-plots son una forma más de representar


alineamientos masivos. Se trata de una
representación gráfica con todos los posibles
alineamientos entre 2 secuencias determinadas.

En un dot-plot, el eje horizontal contiene una de


las secuencias y el vertical la otra. Las
coincidencias o analogías entre residuos se
señalan en el plano mediante puntos (dots). De
esta forma, si se comparase una secuencia con
una copia idéntica de la misma sólo aparecería
una raya diagonal.

La principal ventaja del dot-plot es que condensa


todos los posibles alineamientos en la misma
gráfica, y permiten detectar analogías entre zonas
separadas en las posiciones relativas de las
secuencias.

3.5.2. Alineamientos de proteínas

Si se comparan proteínas de pequeño tamaño, se señalan todas las coincidencias. Para


mejorar la interpretación, ciertas representaciones omiten los puntos aislados y unen los
demás con segmentos.
Las zonas con similitudes se traducen en puntos alineados paralelos a la diagonal, y unen los
demás con segmentos.
Las inserciones o delecciones se traducen en rupturas del alineamiento que retoma en una
paralela diferente.
Los huecos representan residuos que no son análogos entre las 2 secuencias.
Un gap se muestra como un trozo de la diagonal que se ha desplazado hacia arriba o hacia
abajo.

3.5.3. Alineamientos de nucleótidos

En promedio coinciden una de cada 4 posiciones. Un dot-plot con todas las coincidencias
está sobrecargado, resultando su interpretación virtualmente imposible. Como
consecuencia, en los dot-plot de nucleótidos se ponen puntos solamente cuando coinciden
varios nucleótidos seguidos.
También suele recurrirse a tonos o colores que diferencian las coincidencias según su
longitud.
Algunos genomas tienen repeticiones invertidas, que se manifiestan en los dot-plot como
alineamientos de puntos en la diagonal secundaria.
Los pequeños trozos normalmente no informan de nada significativo en concreto, sino que
sólo son similitudes entre pequeñas secuencias de nucleótidos.

11
Bioinformática Pablo González Suárez

3.5.4. Autoalineamientos de proteínas o nucleótidos

Los dot-plot de una secuencia frente a sí misma son especialmente interesantes para desvelar la
presencia de repeticiones internas. Son muy comunes las proteínas que poseen 2 bloques muy
parecidos, a los cuales se les denominan dominios.

Por ejemplo, un dot-plot con una línea diagonal hasta la mitad y trocitos sueltos en adelante, es
propio de secuencias que poseen al menos 2 dominios y comparten uno de ellos.

3.6. Alineamientos óptimos

3.6.1. Generalidades de los alineamientos óptimos

Dadas 2 secuencias y un método de medir similitudes (esencialmente, una matriz de sustitución y una
penalización por huecos), siempre puede haber más de un alineamiento posible.

Se denomina alineamiento óptimo al alineamiento entre 2 secuencias que tiene la puntuación


máxima de todos los alineamientos posibles. Hay que tener en cuenta que normalmente hay más de
un alineamiento óptimo, es decir, varios alineamientos con la misma puntuación. En estos casos, se
considera que el criterio definitivo es la superposición de estructuras terciarias, cuando se conocen.

Cuando se realizan alineamientos masivos no tiene sentido hablar de alineamientos óptimos ya que
este es un término que sólo se emplea al comparar dos secuencias. En estos casos, que un
alineamiento sea óptimo o no siempre dependerá de los parámetros utilizados.

6.3.2. Alineamiento óptimo por fuerza bruta

Un método o algoritmo de fuerza bruta es aquel que consiste en probar todos los casos posibles. Es
decir, se alinean directamente las secuencias y se selecciona aquel alineamiento con una puntuación
más alta. La ventaja de esta estrategia es que garantiza que se conocen todos los alineamientos
óptimos posibles entre 2 secuencias.

En cualquier caso, existen infinidad de posibles alineamientos entre 2 secuencias. El número de


alineamientos globales posibles entre 2 secuencias de n residuos es de ⁄ . Esto dificulta mucho

el proceso, ya que la fuerza bruta es totalmente impracticable para secuencias de más de unas pocas
decenas de residuos.

Entre 2 secuencias de n = 100, hay 1059 alineamientos posibles.


El superordenador más rápido tardaría aproximadamente 1035 años en computar esto.

6.3.3. Algoritmo de Needleman & Wunsch

El algoritmo de Needleman & Wunsch se utiliza para obtener un alineamiento óptimo global. Es un
método de alineamiento inicialmente destinado a búsquedas de textos mucho más abordable que el
método de la fuerza bruta. También se denomina algoritmo de “programación dinámica”.

Este algoritmo se basa en subdividir el problema en suma de otros parciales y estos, en otros,
recursivamente, hasta llegar al nivel más elemental. Está emparentado con diversos métodos de
optimización. Garantiza la obtención del resultado con muchas menos operaciones.

12
Bioinformática Pablo González Suárez

Se puede cuantificar el orden de crecimiento del tiempo de ejecución del algoritmo mediante la
notación O (n), siendo O (1) el algoritmo ideal, es decir, aquel que tarda lo mismo para una muestra
grande que para una pequeña. En el caso de Needleman & Wunsch, se trataría de un algoritmo de tipo
O (n2) con penalizaciones lineales de los gaps o bien O (n3) con penalizaciones de los gaps más
complicadas. El último comienza a ser un problema dependiendo del tamaño y el ordenador. Aun así,
son métodos razonablemente abordables.

El principal problema de este algoritmo es que, aunque garantiza que haya un alineamiento óptimo,
no muestra todos los resultados posibles si hay más de uno.

6.3.4. Algoritmo de Smith & Waterman

El algoritmo de Smith & Waterman se utiliza para obtener un alineamiento óptimo local. Su filosofía
es muy parecida. Consiste en una modificación del algoritmo de Needleman & Wunsch de forma que
calcule los alineamientos óptimos locales entre 2 secuencias.

En este caso, el algoritmo es algo más rápido. Las diferencias entre ambos son las siguientes:

NEEDLEMAN-WUNSCH SMITH-WATERMAN
Alineamientos que optimiza Globales Locales
Scores No negativos Positivos o negativos
Gap penalties Innecesario Necesario
Score entre celdas sucesivas Nunca decrece Aumenta, disminuye o se mantiene

4. Alineamientos múltiples

4.1. Introducción al alineamiento múltiple

El alineamiento múltiple consiste en comparar simultáneamente más de 2 secuencias relacionadas.


Sus finalidades son las siguientes:

a. Encontrar las similitudes entre varias secuencias


b. Averiguar cómo han evolucionado varias secuencias (orden, velocidad…)
c. Relacionar estructura y función de varias secuencias

Gracias a los algoritmos de Needleman-Wunsch y Smith-Waterman se sabe que es posible encontrar


alineamientos óptimos (globales o locales) de pares de secuencias con un coste abordable, O (n2).

Sin embargo, el alineamiento óptimo simultáneo de m secuencias de longitud n tiene un coste


inabordable. Incluso usando una extensión de los algoritmos anteriores, el coste es de tipo O (nm),
excesivo incluso para colecciones muy reducidas de secuencias cortas.

A nivel práctico, suele expresarse el resultado de este tipo de alineamientos en forma de consenso,
donde se representa el aminoácido que coincide un número determinado de veces en todas las
secuencias analizadas. También se suele indicar cuando, pese a no coincidir todos, son aminoácidos
del mismo tipo. En cualquier caso, para la mayoría de las situaciones, esta aproximación es muy poco
viable.

13
Bioinformática Pablo González Suárez

4.2. Algoritmos de alineamiento progresivo: ClustalW

4.2.1. Principios básicos de ClustalW

El algoritmo de alineamiento progresivo es el algoritmo básico sobre el que se basan todos los
programas disponibles. El principal es , uno de los algoritmos clásicos más empleados para
alineamiento múltiple. En la actualidad existe su versión moderna, . Su estrategia general
se basa en varios pasos:

1. Se calculan las distancias entre todos los pares de secuencias y se halla el score.
2. Se toman las dos más cercanas (mayor score ) y se halla un consenso entre ellas.
3. Se alinea la siguiente secuencia más cercana al consenso anterior y se genera un nuevo
consenso entre las anteriores y esta.
4. Se repite el paso anterior hasta agotar todas las secuencias.

Aunque cada par de alineamientos sucesivos es óptimo y global, el resultado final del alineamiento
no es necesariamente el óptimo conjunto. Aun así, el resultado suele ser satisfactorio. En otras
palabras, esta estrategia tiene un enfoque heurístico, ya que da resultados razonablemente buenos
con aproximaciones muy vagas.

De esta forma, es posible lograr un coste computacional mucho más abordable, de O (n2 x m).

4.2.2. Notas prácticas sobre ClustalW

Merecen especial atención algunas opciones de la función :

Define si los alineamientos iniciales por


pares serán óptimos (algoritmo de tipo Smith-Waterman) o aproximados (tipo ). Es de
suponer que el resultado final tendrá más calidad si se empieza haciendo óptimo.

Permiten comprobar y modificar los parámetros utilizados en los alineamientos iniciales y en


los múltiples sucesivos, respectivamente.
Penalizaciones por huecos
Matrices de sustitución de los alineamientos óptimos (“weight matrix”)
Tamaño de las cadenas iniciales (“K-tuple size”)

4.2.3. Inconvenientes y alternativas

1. Baja velocidad. Aunque es rápido, su velocidad comienza a disminuir a partir de


aproximadamente 10.000 secuencias. En la mayoría de los casos es apto para analizar
proteínas, aunque puede dar problemas a la hora de comparar secuencias de nucleótidos.
Las alternativas consisten en disminuir el número de alineamientos iniciales o hacerlos por
métodos aproximados, que son más rápidos. El aumento de rapidez se consigue a costa de
una pérdida de calidad de los alineamientos conseguidos.
2. Calidad de alineamientos progresivos dependiente del primer emparejamiento. Esto es
debido a que no vuelve sobre los primeros emparejamientos, sino que los errores
se arrastran. La alternativa habitual son los métodos iterativos, que permiten reajustar los
alineamientos cada poco al precio de un enlentecimiento sustancial.

14
Bioinformática Pablo González Suárez

4.3. Otros algoritmos de alineamiento múltiple

El alineamiento múltiple es un problema muy complejo que ninguno de los métodos anteriores
resuelve satisfactoriamente en todos sus aspectos. Es por ello que se trata de un área de intensa
investigación, en la que aparecen constantemente nuevos métodos que se combinan con los
anteriores. Algunos de los más destacados son:

Modelos de Markof ocultos. Modelos que se basan en la idea de que una serie de cosas que
vemos dependen de factores que no vemos y que hipotetizamos. A partir de lo observado
tratamos de deducir los factores condicionantes. Es decir, se deduce el alineamiento óptimo
a partir de los aminoácidos o los nucleótidos.
Algoritmos genéticos. Algoritmos matemáticos de optimización. Tratan de imitar el
comportamiento de los organismos con los genes, considerando que cada gen es un
parámetro y a partir de ello tratan de obtener el alineamiento óptimo.
Simulated Annealing. Variantes de optimizaciones.
Métodos de máxima verosimilitud. Minimizaciones. Se basan en buscar la combinación de
parámetros que, con mayor probabilidad, pueda haber dado lugar a lo observado. El método
de mínimos cuadrados es el prototipo de esto: cuando el error está normalmente distribuido,
la estimación máximo-verosímil coincide con la de mínimo cuadrado. Cuando el error no
está normalmente distribuido el mínimo cuadrado no sería útil.
Algoritmos de construcción de árboles filogenéticos. NJ (Neighbor Joining), UPGMA, WPGMA.
Buscan grupos de secuencias muy parecidos para agruparlos. Cogen el primer par que más
se parezca entre sí y, del resto, los dos pares que más se parezcan. Cada vez se van uniendo
pares más similares entre sí. También es progresivo, pero tiene un planteamiento distinto.

4.4. Elección del programa

4.4.1. Programas clásicos de alineamiento múltiple

Como es de suponer, los métodos y programas se encuentran en constante evolución y no existen


recomendaciones definitivas. Inicialmente cada programa se basaba en un método o mejora.

. Programa clásico, con algoritmo progresivo. Es la referencia con la que se suelen


comparar los demás programas. Se trata de un buen método en general.
. Programa más rápido, con alineamientos iniciales alternativos. Se consideran las
secuencias como señales y se buscan correlaciones cruzadas (“cross-correlation”). Es un
concepto emparentado con la convolución de señales que se acelera notablemente
mediante la FFT.
y . Programa con algoritmos iterativos que consigue alineamientos 5-10%
mejores. Son tan lentos que no se utilizan para más de unos cientos de secuencias.

4.4.2. Versiones actuales

Las versiones actuales, y , han evolucionado y son híbridos con


numerosas mejoras. Algunas de ellas son las siguientes:

En lugar de empezar alineando todos los pares de secuencias entre sí, una tarea O (n2),
alinean todas frente a un número reducido (≈ log n) de secuencias de referencia, resultando
un algoritmo de tipo O (n log n).

15
Bioinformática Pablo González Suárez

escoge las secuencias de referencia con criterios heurísticos y las


escoge tras agrupar las secuencias mediante UPGMA.
Los alineamientos iniciales se pueden acelerar usando métodos rápidos aproximados
(indexación de secuencias cortas, o con FFT en ).
Ambos programas incorporan ahora procedimientos iterativos de mejora de la calidad de los
alineamientos resultantes.
guarda resultados de alineamientos masivos, evitando repetir cálculos ya hechos al
añadir secuencias.

4.5. Representación de alineamientos múltiples

Normalmente, la representación suele incluir una superposición de las secuencias alineadas con
recuadros o colores que resaltan las similitudes. También pueden incluir índices numéricos.

Es habitual añadir una secuencia consenso al final con los residuos conservados, o similares, en un
porcentaje dado de las secuencias.

4. Árboles filogenéticos o dendrogramas

4.1. Introducción a los árboles filogenéticos o dendrogramas

4.1.1. Definición de árbol filogénetico

Los árboles filogenéticos constituyen una forma distinta de aprovechar los resultados de los
alineamientos múltiples. Se usan para comparar muchas secuencias entre sí, aunque clásicamente
también se elaboraban a partir de criterios morfológicos (difícilmente cuantificables).

Para la elaboración de árboles filogenéticos, en lugar de realizar un alineamiento múltiple, se


agrupan las secuencias (aminoácidos o AN) según su grado de similitud.

4.1.2. Variedades de árboles filogenéticos

Existen numerosas variables de árboles filogenéticos, ya que pueden elaborarse basándose en las
distancias entre diferentes elementos:

a. Varias proteínas relacionadas de una sola especie


b. Proteínas homólogas de varias especies
c. Combinación de varias secuencias de un número de especies cuya evolución se compara

4.1.3. Representación de árboles filogenéticos

Respecto a su forma de representación, los árboles filogenéticos se expresan gráficamente mediante


dendrogramas, con varias características principales:

Cada nodo terminal representa una secuencia.


Las secuencias más próximas se agrupan y unen mediante líneas en nodos secundarios. Los
nuevos nodos se unen entre sí análogamente hasta llegar al nodo raíz.
Las secuencias parecidas están juntas en ramas terminales.
Las secuencias alejadas sólo se unen por las ramas troncales.

16
Bioinformática Pablo González Suárez

4.1.4. Ejemplo de árbol filogenético

Suponiendo que a, b, c, d, e representan 5


elementos en un plano (5 secuencias) y se
desean agrupar en un árbol según sus
distancias euclídeas, se obtendría como
resultado del dendrograma de la derecha. En
este caso, las longitudes de las ramas son
proporcionales a las distancias entre las
secuencias pero no siempre es así.

4.2. Clasificación de los árboles filogenéticos


Según la cuantificación de las distancias
A. Cladograma. Representan la relación jerárquica. Sólo importa el orden de las
ramificaciones, que indican el orden jerárquico filogenético.
B. Filograma. Representan la relación jerárquica y el grado de similitud. La longitud de
las ramas es proporcional a las distancias.

Según el aspecto de la representación


A. Árboles convencionales. Tienen el tronco en un extremo y las ramas en el contrario.
B. Árboles circulares. Tienen el tronco en el centro y las ramas en la periferia.
C. Árboles sin tronco. Parecidos a los anteriores, pero omiten el tronco común y parten
del primer nodo.

4.3. Algoritmos para el cálculo de árboles

Existen diferentes tipos de algoritmos para el cálculo de árboles filogenéticos. Seleccionar uno es de
gran importancia ya que 10 especies diferentes pueden relacionarse mediante más de 2 millones de
árboles distintos. Algunos de estos algoritmos son similares a los de alineamiento múltiple.

4.3.1. Algoritmos clásicos

1. Métodos de máxima parsimonia. Conducen a la solución más sencilla capaz de explicar las
distancias observadas. Suelen usarse para ordenar especies relacionadas mediante rasgos
no cuantitativos. Eran los más comunes en los árboles clásicos, y son más apropiados para la
utilización manual.
2. Métodos de máxima verosimilitud. Filosóficamente similares a los anteriores, pero son
necesariamente cuantitativos. Tienen un mayor fundamento estaídstico y se consideran
superiores para árboles derivados de secuencias. Modelizan las longitudes que hay entre las
secuencias y buscan aquella opción que da sumas de distancias tipo mínimos cuadrados.
Generalmente son más fáciles de informatizar.

4.3.2. Problemas asociados a los algoritmos clásicos

Los métodos anteriores son relativamente complicados de implementar. Requieren definir criterios
para comparar el valor de los árboles y métodos para seleccionar las variantes que se compararán. En
general, consisten en partir de un árbol anterior en el que se introducen variaciones puntuales.

17
Bioinformática Pablo González Suárez

Por todo lo anterior, son estrategias con tiempos de ejecución prolongados. Aunque se consideran
apropiados para casos generales, son muy complicados para datos basados solamente en
secuencias.

A la hora de calcular árboles a partir de secuencias sometidas a alineamientos múltiples son mucho
más sencillos y rápidos los métodos basados en distancias entre secuencias.

4.3.3. Algoritmos basados en distancias

1. Neighbor Joining. Similar a . Consiste en juntar secuencias por parejas según su


similitud y posteriormente comparar las parejas entre sí. Es razonablemente rápido, de tipo
O (n3). Si las distancias entre pares son correctas, el árbol resultante es el verdadero; en caso
contrario, pueden salir ramas con distancias negativas o nodos en posición errónea. En este
caso, las ramas evolucionan a velocidades distintas.
Se parte de una matriz de distancias Q calculada a partir de las distancias entre
todos los pares de secuencias alineadas.
Se enlazan a un nodo las secuencias i y j con menor Qi,j.
Se calcula una nueva matriz Q entre las secuencias restantes y el nuevo nodo.
Se une al nodo la siguiente secuencia con menor Q.
Se repite hasta agotar las secuencias.
2. UPGMA. Su filosofía es similar al método anterior. Permite un cálculo rápido, de tipo O (n2).
Asume que todas las ramas evolucionan a la misma velocidad, lo cual se suele considerar un
inconveniente salvo que esta asunción esté probada.
Cada secuencia se empareja con la más cercana que aún no tenga pareja.
Después, cada grupo se empareja con el grupo más cercano.
El proceso se repite hasta llegar al nodo raíz.
Se empieza por una pareja, a la cual se van añadiendo otros elementos
individuales.

4.3.4. Consideraciones finales

Evidentemente, se obtendrán diferentes árboles según el método usado. Los más empleados son los
basados en distancias, Neighbor Joining y UPGMA. En realidad, lo ideal sería obtener todos los
árboles posibles y escoger el más adecuado. No obstante, existen infinitud de posibilidades, por lo
que estos métodos “de fuerza bruta” no tienen posible implementación.

4.3. Precauciones: Validación de árboles

Diferentes métodos o caracteres suelen dar lugar a árboles distintos. Por ello, hay que valorar los
árboles filogenéticas con elevada precaución. Sólo nos debemos fiar de un árbol que no varíe mucho
aunque cambie la forma de calcularlo. A la hora de validar un árbol se deben realizar varios procesos:

Calcular mediante varios métodos. Idealmente se incluye un método de máxima parsimonia


o de máxima verosimilitud.
Repetir con otros caracteres o conjuntos de caracteres.
Jacknifing o bootstrapping. Consiste en repetir el cálculo muchas veces omitiendo al azar
parte de los datos (“jacknife”) o tomando muestras al azar entre los datos, siendo posible la
repetición de muestras (“bootstrap”). Estos métodos generan un árbol consenso que se
puede considerar relativamente razonable.

18
Bioinformática Pablo González Suárez

4.4. Edición y representación de árboles y alineamientos

El algoritmo y otros programas calculan alineamientos y los árboles resultantes, pero no los
representan gráficamente.

Observación 1. Antes de calcular un árbol siempre debe empezarse alineando las secuencias,
lo que permite calcular las distancias entre todos los pares de secuencias.
Observación 2. Los métodos existentes no dan alineamientos múltiples óptimos. Puede ser
necesario editarlos, es decir, introducir correcciones manualmente, quitar secuencias,
cambiar el orden, resaltar partes, etc.

Para estas tareas, de edición y representación, se usan programas especializados que son capaces de
reconocer el resultado de u otros. Un ejemplo es , que facilita el manejo
general de .

19

También podría gustarte