Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1. Paquetes de programas
Las bases de datos de EBI (Europa) y NCBI (USA) tienen los servicios online más completos y
complejos, asociados a sus bases de datos.
Los servidores de EBI y NCBI ofrecen variedad de programas bioinformáticos de código abierto
para tareas concretas, compatibles con Linux y a veces pre-compilados. Además, son recomendables
los siguientes paquetes que realizan la mayor parte de tareas ordinarias:
2. Mapas de restricción
Una vez conocida una secuencia, propia o ajena, tendremos un gen que hemos secuenciado, el cual
queremos subclonar, recombinar, expresar o introducir en un vector. Para manipular este gen será
necesario extraer fragmentos mediante corte con enzimas de restricción.
1
Bioinformática Pablo González Suárez
El formato de secuencias FASTA fue denominado así por el conocido programa , de búsqueda y
alineamiento. Algunas de sus características son las siguientes:
2
Bioinformática Pablo González Suárez
El alineamiento es una de las tareas centrales del trabajo con secuencias. Consiste en buscar
secuencias, o fragmentos de secuencias, que se parecen más allá del azar. Por lo general, los
resultados del alineamiento se expresan superponiendo las secuencias de forma que las bases o
aminoácidos relacionados coincidan.
2. Alineamientos simples
> 25% de coincidencia de aminoácidos o > 70% de bases en > 100 residuos
< 10-4 de probabilidad de coincidencia al azar
Aunque estos sean los criterios generales usados para considerar a 2 secuencias homólogas,
similitudes menores no descartan homologías. Hay proteínas con solamente un 15% de coincidencias
que tienen la misma estructura y función.
3
Bioinformática Pablo González Suárez
Existen varios algoritmos y programas que se distinguen según el parámetro que prima y los criterios
de alineamiento utilizados. Se emplea uno u otro según las necesidades.
Se suelen emplear para buscar si una secuencia ya se conoce (es decir, si hay una idéntica) o
si se conoce una muy parecida. Se trata de procesos que implican comparar la secuencia con
las bases de datos completas, de varias gigabases.
En estos casos también es importante evitar los falsos positivos, que podrían aparecer en tal
número que haría impracticable el simple examen de los resultados.
Si la secuencia es idéntica o muy parecida no tiene por qué tener inserciones o delecciones,
salvo alguna muy corta (posiblemente debida a errores de secuenciación). Por ello, los
algoritmos que no permiten inserciones o delecciones, o las penalizan fuertemente, son más
específicos y más rápidos.
Se suelen emplear para comparar la secuencia de interés con secuencias individuales, ya sea
otra secuencia, otras pocas o incluso otras partes de la misma secuencia.
En estos casos no se buscan grandes identidades sino homologías más cortas, normalmente
que cumplen un criterio especial (por ejemplo, determinados aminoácidos clave presentes).
La rapidez no es determinante ya que se comparan cantidades de datos relativamente
pequeñas. Tampoco es tan esencial evitar falsos positivos ya que se suelen descartar a
posteriori.
Es esencial mantener la sensibilidad con el fin de localizar homologías no evidentes.
4
Bioinformática Pablo González Suárez
Salvo flagrante coincidencia, siempre es posible realizar más de un alineamiento entre 2 secuencias y
no suele ser evidente cuál es mejor. La cuantificación de alineamientos consiste en utilizar algún
criterio cuantitativo para seleccionar un alineamiento entre todos los posibles.
Sirve para comparar la calidad de alineamiento de una secuencia con varios candidatos
posibles.
Finalmente, las puntuaciones (“score”) de similitud sirven como medida de la distancia entre
las especies de las cuales proceden.
Las puntuaciones obtenidas varían según los criterios utilizados. Como consecuencia, el
mejor alineamiento no es absoluto sino relativo.
Durante la evolución, una secuencia que diverge puede hacerlo cambiando residuos por mutación,
introduciendo residuos por inserción o eliminándolos por deleción. La puntuación de cada
alineamiento será la resultante de contar factores a favor y en contra:
Cuanto mayor es la cantidad de residuos consecutivos que coinciden, mayor es la similitud entre 2
secuencias. Generalmente, la puntuación de este apartado consiste en sumar una cantidad dada por
cada residuo coincidente y restar (o sumar una cantidad menor) por cada residuo sustituido por otro.
Los valores que se suman o restan vienen dados por las matrices de sustitución.
Para conseguir buenos resultados de alineamiento suele ser necesario separar residuos consecutivos
dejando huecos o gaps en una u otra secuencia. Casi todos los algoritmos permiten la inserción de
huecos, penalizándola diversamente.
5
Bioinformática Pablo González Suárez
2.6.5. Sustituciones
Generalizando, se podría decir que cuanto mayor es la cantidad de sustituciones (residuos que no
coinciden), menor es la similitud entre 2 secuencias. Sin embargo, aunque la mayor similitud consiste
en que 2 residuos sean el mismo, también son posibles otras semejanzas menos acusadas entre
residuos aminoacídicos.
Considerando el problema a la inversa, podemos graduar las diferencias encontradas entre residuos
dividiéndolas en más o menos relevantes. Algunos ejemplos son:
Por otra parte, hay cambios de aminoácidos más probables que otros basándose solamente en las
diferencias de degeneración del código genético y las diferencias de nucleótidos de los tripletes que
codifican cada posible sustitución.
Las matrices de sustitución son cuadros de doble entrada, generalmente simétricos, que puntúan la
sustitución de cada base, triplete o aminoácido por otro. La diagonal corresponde a la sustitución por
el mismo elemento y, lógicamente, siempre tiene la puntuación máxima. Para bases individuales, las
más comunes son las siguientes:
La segunda matriz recoge la mayor probabilidad de las bases de sufrir transiciones, es decir, mutar
por otra del mismo tipo (purina o pirimidina); que de sufrir transversiones.
Las matrices de Dayhoff (PAM) son matrices de sustitución de aminoácidos. Derivan de las secuencias
de sustitución observadas entre proteínas homólogas que no difieren en más del 1% de residuos
(PAM1 = 1 Percent Accepted Mutation).
Para poder usarlas en proteínas que difieren en bastante más del 1% de los residuos se utilizan las
matrices resultantes de elevar la PAM1 a alguna potencia n, equivalente a repetir el proceso n veces.
En la práctica, la más utilizada es la PAM250, que corresponde a proteínas que conservan
aproximadamente el 20% de residuos.
Los valores de las PAM son logaritmos de probabilidades multiplicados por 10, redondeados a
enteros: 10 log P (a1 → a2). A continuación se muestra una tabla con la matriz de Dayhoff PAM250
aplicada a aminoácidos.
6
Bioinformática Pablo González Suárez
Las matrices de Henikoff & Henikoff (BLOSUM) son matrices para aminoácidos. Son compatibles con
las PAM, pero más adecuadas para detectar similitudes bajas. Se obtuvieron a partir de , una
base de datos más reciente que las utilizadas para las PAM y que está especializada en familias de
proteínas homólogas.
De forma análoga a las PAM, hay diferentes versiones dependiendo del grado de similitud que se
quiere detectar. Para detectar similitudes entre proteínas relativamente alejadas (< 35% de residuos
idénticos) conviene usar matrices obtenidas descartando de el exceso de copias de
secuencias demasiado parecidas.
Por ejemplo, se utiliza mucho la matriz BLOSUM62, es decir, la obtenida descartando las proteínas
con identidades mayores al 62%. En la siguiente tabla vemos la matriz BLOSUM62:
7
Bioinformática Pablo González Suárez
3. Alineamientos masivos
Los programas de alineamiento masivo son aquellos que priman la rapidez a costa de la sensibilidad.
Realizan alineamientos locales y aproximados. Suelen utilizarse para comparar una secuencia con
bases de datos completas. Los principales programas de alineamiento masivo son:
Ambos paquetes están disponibles online en los servidores NCBI, EMBL-EBI, Expasy y de otras
instituciones. Los programas pueden instalarse fácilmente en cualquier ordenador con Unix, siempre
que se instalen también las bases de datos en las que se quiere realizar la búsqueda. Las diferencias
entre cada servidor residen en:
Como consecuencia de ello, muy pocas veces las búsquedas en distintos servidores dan resultados
idénticos, aunque generalmente no son demasiado distintos.
En ambos paquetes, el programa de alineamiento masivo tiene acceso a diferentes bases de datos:
Nucleótidos ( )
Nucleótidos traducidos ( ). La secuencia problema también consta de
nucleótidos traducidos.
Secuencias de nucleótidos largas con mucha similitud ( )
Proteínas ( ). La secuencia problema de nucleótidos es previamente
traducida según las 6 posibles pautas de lectura.
Consensos ( ). Persiguen otro uso que veremos más adelante.
En segundo lugar, estas secuencias semilla se extienden por ambos lados mientras la puntuación
aumente (o disminuya poco). Si el hit extendido puntúa por encima de un score prefijado, S, el
alineamiento final se muestra.
8
Bioinformática Pablo González Suárez
Inicialmente, no permitía gaps, pero las nuevas versiones los permiten cuando detectan dos
semillas no solapantes cercanas entre sí. Permitir gaps alarga considerablemente las búsquedas, por
lo que los algoritmos añaden restricciones suplementarias que limitan las posibilidades.
Base de datos. Es la base utilizada para la búsqueda (de proteínas, de nucleótidos, general,
del genoma de una especie, de grupos de organismos…).
Matriz de sustitución. Define cómo se puntúa.
Word-size. Longitud de la cadena (word) que debe casar inicialmente. De forma perfecta para
el DNA, por defecto, o con la puntuación mínima inicial para proteínas.
Puntuación inicial mínima (T). Puntuación inicial prefijada para retener una seed.
Puntuación o score final (S). Puntuación final del alineamiento.
Gaps permitidos o no. Se suele asociar a otros parámetros.
Eliminar secuencias de residuos idénticos seguidos.
Expect. Número de coincidencias máximas de la misma calidad que se acepta como fruto del
azar. Si el valor del alineamiento obtenido pudiese obtenerse por casualidad más veces que
este valor umbral, se desestima.
El gap cost es la suma del primer valor por la existencia del hueco, más el segundo valor x longitud del
hueco. La puntuación normalizada S’ se expresa en unidades denominadas bits y se calcula a partir
de la puntuación bruta S según:
Los servidores online tienen valores por defecto para todos los parámetros. Dependiendo del
servidor, determinados parámetros son modificables por el usuario o no. También hay que recordar
que los valores por defecto cambian en función del servidor, lo cual puede llevar a problemas a la
hora de realizar comparaciones o alineamientos.
9
Bioinformática Pablo González Suárez
Aunque pueden variar según los servidores, en general, los alineamientos masivos dan los siguientes
resultados generales:
Listado de homologías con los scores más altos. Típicamente, incluye una clave
identificadora de cada secuencia con una breve descripción, la puntuación del alineamiento
y el E-value.
Score. Indica el grado de similitud entre 2 secuencias, es decir, la cantidad de
coincidencias encontradas. Un score alto indica una elevada similitud.
E-value. Indica la probabilidad de obtener el alineamiento por azar. Un e-value alto
indica un bajo grado de homología entre 2 secuencias.
Listado en formato gráfico. Se puede mostrar opcionalmente. Se utilizan barras cuya
longitud representa la extensión de los segmentos homólogos y el color, el grado de similitud
de cada homología.
Información detallada de las homologías. Para cada homología se pueden mostrar las
secuencias alineadas con la descripción completa y varios resultados numéricos (longitud de
los segmentos homólogos y porcentaje de identidad en esos segmentos.
Resumen de parámetros utilizados. Parámetros empleados para la búsqueda (matriz de
sustitución, si acepta o no gaps…).
Resumen de resultados numéricos generales. Número de secuencias comparadas, número
de hits localizados…
Allí donde hay sustituciones o gaps se muestra un espacio en blanco, pero donde la sustitución es
conservativa se puede añadir un símbolo (+). Esto varía según el programa utilizado.
10
Bioinformática Pablo González Suárez
En promedio coinciden una de cada 4 posiciones. Un dot-plot con todas las coincidencias
está sobrecargado, resultando su interpretación virtualmente imposible. Como
consecuencia, en los dot-plot de nucleótidos se ponen puntos solamente cuando coinciden
varios nucleótidos seguidos.
También suele recurrirse a tonos o colores que diferencian las coincidencias según su
longitud.
Algunos genomas tienen repeticiones invertidas, que se manifiestan en los dot-plot como
alineamientos de puntos en la diagonal secundaria.
Los pequeños trozos normalmente no informan de nada significativo en concreto, sino que
sólo son similitudes entre pequeñas secuencias de nucleótidos.
11
Bioinformática Pablo González Suárez
Los dot-plot de una secuencia frente a sí misma son especialmente interesantes para desvelar la
presencia de repeticiones internas. Son muy comunes las proteínas que poseen 2 bloques muy
parecidos, a los cuales se les denominan dominios.
Por ejemplo, un dot-plot con una línea diagonal hasta la mitad y trocitos sueltos en adelante, es
propio de secuencias que poseen al menos 2 dominios y comparten uno de ellos.
Dadas 2 secuencias y un método de medir similitudes (esencialmente, una matriz de sustitución y una
penalización por huecos), siempre puede haber más de un alineamiento posible.
Cuando se realizan alineamientos masivos no tiene sentido hablar de alineamientos óptimos ya que
este es un término que sólo se emplea al comparar dos secuencias. En estos casos, que un
alineamiento sea óptimo o no siempre dependerá de los parámetros utilizados.
Un método o algoritmo de fuerza bruta es aquel que consiste en probar todos los casos posibles. Es
decir, se alinean directamente las secuencias y se selecciona aquel alineamiento con una puntuación
más alta. La ventaja de esta estrategia es que garantiza que se conocen todos los alineamientos
óptimos posibles entre 2 secuencias.
El algoritmo de Needleman & Wunsch se utiliza para obtener un alineamiento óptimo global. Es un
método de alineamiento inicialmente destinado a búsquedas de textos mucho más abordable que el
método de la fuerza bruta. También se denomina algoritmo de “programación dinámica”.
Este algoritmo se basa en subdividir el problema en suma de otros parciales y estos, en otros,
recursivamente, hasta llegar al nivel más elemental. Está emparentado con diversos métodos de
optimización. Garantiza la obtención del resultado con muchas menos operaciones.
12
Bioinformática Pablo González Suárez
Se puede cuantificar el orden de crecimiento del tiempo de ejecución del algoritmo mediante la
notación O (n), siendo O (1) el algoritmo ideal, es decir, aquel que tarda lo mismo para una muestra
grande que para una pequeña. En el caso de Needleman & Wunsch, se trataría de un algoritmo de tipo
O (n2) con penalizaciones lineales de los gaps o bien O (n3) con penalizaciones de los gaps más
complicadas. El último comienza a ser un problema dependiendo del tamaño y el ordenador. Aun así,
son métodos razonablemente abordables.
El principal problema de este algoritmo es que, aunque garantiza que haya un alineamiento óptimo,
no muestra todos los resultados posibles si hay más de uno.
El algoritmo de Smith & Waterman se utiliza para obtener un alineamiento óptimo local. Su filosofía
es muy parecida. Consiste en una modificación del algoritmo de Needleman & Wunsch de forma que
calcule los alineamientos óptimos locales entre 2 secuencias.
En este caso, el algoritmo es algo más rápido. Las diferencias entre ambos son las siguientes:
NEEDLEMAN-WUNSCH SMITH-WATERMAN
Alineamientos que optimiza Globales Locales
Scores No negativos Positivos o negativos
Gap penalties Innecesario Necesario
Score entre celdas sucesivas Nunca decrece Aumenta, disminuye o se mantiene
4. Alineamientos múltiples
A nivel práctico, suele expresarse el resultado de este tipo de alineamientos en forma de consenso,
donde se representa el aminoácido que coincide un número determinado de veces en todas las
secuencias analizadas. También se suele indicar cuando, pese a no coincidir todos, son aminoácidos
del mismo tipo. En cualquier caso, para la mayoría de las situaciones, esta aproximación es muy poco
viable.
13
Bioinformática Pablo González Suárez
El algoritmo de alineamiento progresivo es el algoritmo básico sobre el que se basan todos los
programas disponibles. El principal es , uno de los algoritmos clásicos más empleados para
alineamiento múltiple. En la actualidad existe su versión moderna, . Su estrategia general
se basa en varios pasos:
1. Se calculan las distancias entre todos los pares de secuencias y se halla el score.
2. Se toman las dos más cercanas (mayor score ) y se halla un consenso entre ellas.
3. Se alinea la siguiente secuencia más cercana al consenso anterior y se genera un nuevo
consenso entre las anteriores y esta.
4. Se repite el paso anterior hasta agotar todas las secuencias.
Aunque cada par de alineamientos sucesivos es óptimo y global, el resultado final del alineamiento
no es necesariamente el óptimo conjunto. Aun así, el resultado suele ser satisfactorio. En otras
palabras, esta estrategia tiene un enfoque heurístico, ya que da resultados razonablemente buenos
con aproximaciones muy vagas.
De esta forma, es posible lograr un coste computacional mucho más abordable, de O (n2 x m).
14
Bioinformática Pablo González Suárez
El alineamiento múltiple es un problema muy complejo que ninguno de los métodos anteriores
resuelve satisfactoriamente en todos sus aspectos. Es por ello que se trata de un área de intensa
investigación, en la que aparecen constantemente nuevos métodos que se combinan con los
anteriores. Algunos de los más destacados son:
Modelos de Markof ocultos. Modelos que se basan en la idea de que una serie de cosas que
vemos dependen de factores que no vemos y que hipotetizamos. A partir de lo observado
tratamos de deducir los factores condicionantes. Es decir, se deduce el alineamiento óptimo
a partir de los aminoácidos o los nucleótidos.
Algoritmos genéticos. Algoritmos matemáticos de optimización. Tratan de imitar el
comportamiento de los organismos con los genes, considerando que cada gen es un
parámetro y a partir de ello tratan de obtener el alineamiento óptimo.
Simulated Annealing. Variantes de optimizaciones.
Métodos de máxima verosimilitud. Minimizaciones. Se basan en buscar la combinación de
parámetros que, con mayor probabilidad, pueda haber dado lugar a lo observado. El método
de mínimos cuadrados es el prototipo de esto: cuando el error está normalmente distribuido,
la estimación máximo-verosímil coincide con la de mínimo cuadrado. Cuando el error no
está normalmente distribuido el mínimo cuadrado no sería útil.
Algoritmos de construcción de árboles filogenéticos. NJ (Neighbor Joining), UPGMA, WPGMA.
Buscan grupos de secuencias muy parecidos para agruparlos. Cogen el primer par que más
se parezca entre sí y, del resto, los dos pares que más se parezcan. Cada vez se van uniendo
pares más similares entre sí. También es progresivo, pero tiene un planteamiento distinto.
En lugar de empezar alineando todos los pares de secuencias entre sí, una tarea O (n2),
alinean todas frente a un número reducido (≈ log n) de secuencias de referencia, resultando
un algoritmo de tipo O (n log n).
15
Bioinformática Pablo González Suárez
Normalmente, la representación suele incluir una superposición de las secuencias alineadas con
recuadros o colores que resaltan las similitudes. También pueden incluir índices numéricos.
Es habitual añadir una secuencia consenso al final con los residuos conservados, o similares, en un
porcentaje dado de las secuencias.
Los árboles filogenéticos constituyen una forma distinta de aprovechar los resultados de los
alineamientos múltiples. Se usan para comparar muchas secuencias entre sí, aunque clásicamente
también se elaboraban a partir de criterios morfológicos (difícilmente cuantificables).
Existen numerosas variables de árboles filogenéticos, ya que pueden elaborarse basándose en las
distancias entre diferentes elementos:
16
Bioinformática Pablo González Suárez
Existen diferentes tipos de algoritmos para el cálculo de árboles filogenéticos. Seleccionar uno es de
gran importancia ya que 10 especies diferentes pueden relacionarse mediante más de 2 millones de
árboles distintos. Algunos de estos algoritmos son similares a los de alineamiento múltiple.
1. Métodos de máxima parsimonia. Conducen a la solución más sencilla capaz de explicar las
distancias observadas. Suelen usarse para ordenar especies relacionadas mediante rasgos
no cuantitativos. Eran los más comunes en los árboles clásicos, y son más apropiados para la
utilización manual.
2. Métodos de máxima verosimilitud. Filosóficamente similares a los anteriores, pero son
necesariamente cuantitativos. Tienen un mayor fundamento estaídstico y se consideran
superiores para árboles derivados de secuencias. Modelizan las longitudes que hay entre las
secuencias y buscan aquella opción que da sumas de distancias tipo mínimos cuadrados.
Generalmente son más fáciles de informatizar.
Los métodos anteriores son relativamente complicados de implementar. Requieren definir criterios
para comparar el valor de los árboles y métodos para seleccionar las variantes que se compararán. En
general, consisten en partir de un árbol anterior en el que se introducen variaciones puntuales.
17
Bioinformática Pablo González Suárez
Por todo lo anterior, son estrategias con tiempos de ejecución prolongados. Aunque se consideran
apropiados para casos generales, son muy complicados para datos basados solamente en
secuencias.
A la hora de calcular árboles a partir de secuencias sometidas a alineamientos múltiples son mucho
más sencillos y rápidos los métodos basados en distancias entre secuencias.
Evidentemente, se obtendrán diferentes árboles según el método usado. Los más empleados son los
basados en distancias, Neighbor Joining y UPGMA. En realidad, lo ideal sería obtener todos los
árboles posibles y escoger el más adecuado. No obstante, existen infinitud de posibilidades, por lo
que estos métodos “de fuerza bruta” no tienen posible implementación.
Diferentes métodos o caracteres suelen dar lugar a árboles distintos. Por ello, hay que valorar los
árboles filogenéticas con elevada precaución. Sólo nos debemos fiar de un árbol que no varíe mucho
aunque cambie la forma de calcularlo. A la hora de validar un árbol se deben realizar varios procesos:
18
Bioinformática Pablo González Suárez
El algoritmo y otros programas calculan alineamientos y los árboles resultantes, pero no los
representan gráficamente.
Observación 1. Antes de calcular un árbol siempre debe empezarse alineando las secuencias,
lo que permite calcular las distancias entre todos los pares de secuencias.
Observación 2. Los métodos existentes no dan alineamientos múltiples óptimos. Puede ser
necesario editarlos, es decir, introducir correcciones manualmente, quitar secuencias,
cambiar el orden, resaltar partes, etc.
Para estas tareas, de edición y representación, se usan programas especializados que son capaces de
reconocer el resultado de u otros. Un ejemplo es , que facilita el manejo
general de .
19