Está en la página 1de 27

Análisis de Alineamiento Múltiple de Secuencias

Integrantes
Amon Samantha, Ortega Josue, Reyes Daniel,
Siguencia Thalia, Vivar Paulina
Introducción Información
compleja: gran
Análisis de genomas Programas
cantidad, forma de
informáticos:
manejo,
- bacterias comparaciones y - recursos disponibles y
- levaduras
- S.Humano asociaciones locales en la red
- ratones
- etc - disminuir costos
- eliminar la limitación de
memoria
conocimiento : análisis
Gran IMPORTANCIA - incrementa
de I. biológica

estudios e investigación
in silico
- Diseño de fármacos, vacunas
- Secuencias de los
- Estudio de enfermedades
genomas ( DNA)
(nuevas, hereditarias)
- Secuencias de proteínas
Bioinformatica para analisis de DNA
Proyectos modernos: in silico
- análisis rutinario de
Ordenadores y secuencias de DNA o
Programas Informáticos proteínas
- analizar I. significativa en secuenciación de nueva
herramienta del biólogo conjuntos masivos generación (NGS)

cambio

- genética de poblaciones
- genética cuantitativa
- sistemática molecular
- ecología microbiana
- otros campos
LINEA DEL TIEMPO
50 años : ordenadores - 1960: 1 ensamblador de s. de péptidos
hipótesis de novo, 1 B.D de proteínas, 1 modelo
DNA - secuencia de sustitución de aa para la filogenia

1990- 2000 : Internet y ACTUALIDAD


secuenciación de próxima
generación - manejo de Big Data
- datos - Garantizar la reproductibilidad de resultados
- H. bioinformáticas - Integración en currículos académicos

evolución I. especializados - biología computacional


- investigación estadística

- desarrollan utilizando - técnicas B. molecular, genómica, I.


- mantienen - habilidades médica, genética de poblaciones,
- despliegan - herramientas actuales conocimiento general de
herramientas biología
Análisis de secuencias descubrimiento de similitudes
a nivel estructural- funcional

comparación diferencias entre múltiples


secuencias biológicas

secuencias nuevas bien estudiadas y


(desconocidas) anotadas
(conocidas)

algoritmos de
Incluyendo
alineamientos
- Análisis de la alineación de secuencias
- Búsqueda en la B.D de secuencias
Programación
- Descubrimiento de patrones
- Reconstrucción de las relaciones evolutivos dinámica
- Formacion y comparación del genoma
Alineamiento de secuencias biológicas
objetivo
-Coloca dos o más secuencias
clasificación Objeto de análisis
lograr máximo de simultaneidades
entre elementos-secuencias

Alineamientos locales
Alineamientos globales
-Secuencias enteras-aprox misma longitud. -Escudriñan:fragmentos secuencias— gran correlación.
-Caracteres o símbolos. -No acepta: 2 secuencias tengan igualdad en toda la longitud.
-Regiones locales iguales entre las dos secuencias. -Utiliza: alineamientos de secuencias más separadas.

Img1. Ejemplo de alineamientos globales y locales.


(Fuente:Sánchez , 2014).
Alineamiento de secuencias biológicas
clasificación

Alineamiento de dos secuencias

Por
programación dinámica.

Ejemplo:
-Celda: valor calculado, considerando: coincidencia, no
coincidencia e introducción de un hueco(gap).

Valor de la coincidencia y no coincidencia.

Esquema de evaluación del alineamiento.


Alineamiento de secuencias biológicas
clasificación

Alineamiento múltiple de tres secuencias. Alineamiento exhaustivo

-Consume recursos: memoria - tiempo. -Alineamiento específico.


-Analiza todo el espectro de posibilidades. -Considera innumerables posibilidades y el
desarrollo del espacio n-dimensional.

Img 2. Ejemplo de alineamiento exhaustivo de secuencias.


(Fuente:Naranjo,2009).
1.4 Algoritmos en el alineamiento
clasificación
Algoritmos heurísticos

Desarrolla búsquedas más rápidas. Algoritmos iterativos

Algoritmos exhaustivo Admite: obtener alineamientos en


Analiza:fracción de posibles múltiples iteraciones de dos diferentes
alineamientos. Estudia: probabilidades de maneras.
soluciones por programación
1)Divide la secuencia- aleatoria.
dinámica.

2)Utiliza: árbol guia por UPGMA.


-Consume memoria por la diversidad
exponencial y tiempo de cómputo.
BLAST FASTA
Ventaja: mejora resultado en periodos
Utiliza: alinear un número iterativos.
mínimo de secuencias.

Desventaja: dependiente-solución inicial.


1.4 Algoritmos en el alineamiento
clasificación
Algoritmos consistency-based
Algoritmos estructurales
Usa:información biológica Algoritmos progresivos.
presente en secuencias de entrada
Incorpora: información estructural a
Abarca etapas : prototipos de análisis de datos.

-Alineamientos en pares. Comprobando estructuras


-Alineamientos en pares.
-Repetición de cambio con las secuencias.
residuos.
-Vínculo entre residuos. -Creación de un árbol guía.

-Creación matriz de distancia: Ventaja: usan información conocida


Ventaja: perfecciona resultados. muestra relación de cada -bases de datos.
secuencia.
Considera: información
implícita en los datos.
Alineamiento múltiple de secuencias
Secuencias - Moléculas Monómeros unidos
unidimensionales covalentemente
Elemento de la
secuencia = Residuo
Alineamiento
Comparaciones primordial
de cadenas
moleculares Similitudes en
bases de datos
Alineamiento múltiple de secuencias Mayor tiempo y
memoria
computacional
Información biológica
Patrones de secuencias conservadas Análisis de familias
Predicción estructuras
Motivos de las secuencias
secundarias y terciarias en
proteínas No programación
dinámica

Estudios filogenéticos Σ alfabeto finito

Homología en
Homologías
residuos individuales Secuencias ADN
(A,T,G,C)
Proteínas
(A, C, D, E, F, G, H, I, K, L, M, N, P,
Q, R, S, T, V, W, Y)
limitantes del alineamiento de secuencias
Topología en el espacio de Crecimiento = número de
búsqueda especies

Métodos exhaustivos

Más de diez secuencias


- Lenguajes paralelos de programación
- Entornos de cómputo paralelo
- Bases de datos segmentadas con acceso
múltiple

Entornos de
cómputo paralelo
Grandes bases de datos
de secuencias
limitantes del alineamiento de secuencias
Cinco secuencias con 10
residuos
1038 posibles
combinaciones
de alineamientos

Programación Uso de
Pares de secuencias
Dinámica metaheurística

Matemáticamente Más de dos


óptimos secuencias
Métodos
Algunos de los métodos del alineamiento

múltiple de secuencias son

● PRALINE
● MUSCLE
● T-Coffe and 3D-Coffe
● MAFFT
● ProbCons
● Kalign
● MSAProbs
● Clustal Omega
● ProDA
PRALINE Alineamiento múltiple de secuencias

Es un conjunto de secuencias de
Características
proteínas , que incluye un servidor
1. Preprocesamiento
web que ayuda a optimizar la 2. Información de estructuras
secundarias predichas
alineación de las secuencias de 3. Información de motif de
secuencia
entrada, estas pueden ser tanto 4. Estrategias de iteración

globales como locales.


1. Preprocesamiento

Es una técnica que se utiliza para minimizar los errores durante la ● Preprocesamiento Global, existe la posibilidad de seleccionar
otras secuencias según la puntuación de alineación mínima
alineación progresiva es decir es una técnica de optimización ,
establecida con la secuencia principal dentro de cada preperfil

Existen 3 opciones de preprocesamiento. ● Preprocesamiento Local, Segmentos de otras secuencias en el


conjunto de consultas se seleccionan en función de alineación
local

● PSI-Praline, este utiliza PSI-BLAST, para adquirir más


información de los pre perfiles basados en una valor E,
además que selecciona fragmentos de secuencias a partir de
una base de datos de secuencias no redundantes lo que ayuda
a construir perfiles previos más útiles y consistentes para la
alineación.
2.DSSP o información de estructura 3.Información de Motif de secuencia 4.Estrategias de Iteración

secundaria predicha

Permite la incorporación de información los motif de secuencias son regiones en la Está se debe basar en la coherencia de una
secundaria definida por DSSP, secuencia tanto de proteína como de ADN que alineación multiple anterior,
tiene importancia funcional, ● consistencia es la concordancia
● Secuencias que no tienen PDB,
● estas regiones tienden a conservarse entre los aa emparejados en la
● Encontrar una lección de 7 métodos entre secuencias homólogas. alineación múltiple y por pares,
de predicción de estructura ● la generación automática de MSA es ● múltiples posiciones de alineación
muy difícil de conseguir es decir que consistentes,
secundaria para tratar de
estén alineadas correctamente . ● segmentos inconsistentes se
determinar la otra secuencia realineen.
putativa de las secuencias, ● Las iteraciones finaliza al alcanzar
la convergencia o el ciclo límite (es
● Predicción PSIPRED, PROsec,
decir, una serie de alineaciones
YASPIN múltiples cíclicamente recurrentes).
● El usuario también puede
especificar un número máximo de
iteraciones.
MUSCLE
MUSCLE es un algoritmo rápido,
descargar el programa y ejecutarlo
Es un software de que debe tenerse en cuenta al alinear
localmente
alineación múltiple grandes conjuntos de datos.

para secuencias de
El protocolo de alineación
nucleótidos y proteínas
progresiva se acelera mediante una
este incluye un servidor
comparación de secuencias por pares
en línea realiza cálculos utilizando
que evita la lenta técnica de DP para
parámetros predeterminados
la construcción del árbol guía.
predefinidos
VENTAJAS

● Rápido
● manejar grandes conjuntos de datos en un tiempo razonable.
● El usuario puede decidir para todas las etapas y acciones
● Relación entre velocidad y precisión.
● El usuario puede definir un rango de tiempo en el que el programa seleccionará la
mejor solución hasta el momento.
● acelerar el programa durante la alineación de k-mer por pares
● usuario puede apagar la extensión de las kpalabras mediante programación dinámica
● Optimización de anclaje, está diseñada para reducir los cálculos durante el
refinamiento dependiente del árbol dividiendo una alineación determinada en bloques
verticales y alineando los perfiles asociados por separado.
PASOS
Las secuencias se agrupan de acuerdo con el secuencias se alinean progresivamente

3
el árbol guía se programa al
número de k-merssegmentos contiguos de
utilizar UPGMA, 2 siguiendo el orden del árbol.

longitud k donde utilizan un alfabeto de

aminoácidos comprimido. 1 se registra el número de


El MSA obtenido se usa para construir un
nodos internos para los

5 4
nuevo árbol aplicando la corrección de
que ha cambiado el
Refinamiento de la alineación utilizando la distancia de Kimura.
orden de ramificación.
topología fija de árbol,donde los bordes del

árbol se eliminan en orden decreciente de

distancia desde la raíz. 6 Número permanece constante o aumenta, el procedimiento de iteración

termina y se construye una alineación progresiva final para este paso.


Para cada subdivisión del árbol, se
La iteración termina si después
alinean los dos perfiles
de atravesar todos los bordes
correspondientes.
del árbol no se produce una
Si una alineación resultante
nueva alineación o si se
tiene una puntuación más alta
alcanza el número de
que la alineación retenida
iteraciones definido por el
anteriormente, se toma la

nueva alineación. 7
usuario. 8
Adecuado para la manipulación de
Método: MAFFT secuencias de ADN y proteínas

Este programa incluye un script y un Incluye dos técnicas novedosas


servidor web con varias estrategias de
alineación 1. Las regiones homólogas se
identifican mediante FFT
2. Sistema de puntuación
La base de su algoritmo está simplificado.
fundamentado en la Transformada
Rápida de Fourier (FFT).
Pasos:
Dos heurísticas diferentes:
1. Estrategias de alineación
1. Método progresivo (FFT-NS-2)
rápida
2. Método de refinamiento iterativo 2. Estrategias iterativas.
(FFT-NS-i) 3. Extensión de alineación,
Algoritmos
Algoritmos orientados a precisión Algoritmos orientados a eficiencia
1. L-INS-i: método de los más precisos. 1. FFT-NS-1: método muy rápido
Recomendado cuando se pretenden
alienar menos de 200 secuencias. Es recomendado para menos de 2000
iterativo. secuencias.
2. G-INS-i: método apropiado para 2. FFT-NS-2: método progresivo algo más
secuencias de similares longitudes. lento que el anterior.
Recomendado cuando se pretenden
alinear menos de 200 secuencias.
3. E-INS-i: método recomendado para
secuencias que contienen largas
regiones difícilmente alineables (muchos
gaps). Recomendado para cuando se
quiere alinear menos de 200 secuencias.
Puede trabajar con números grandes
Método: Clustal Omega (decenas de miles) de ARN/ADN o
secuencias proteicas

uso del algoritmo mBed


Características
Herramienta de alineamiento para gran
cantidad de secuencias.
El programa usa el método HHalign
para alinear modelos de perfil ocultos Permite comprobar qué características se
repiten
de Markov.
Comprobar qué regiones se mantienen más.

Facilita el análisis filogenético.


También se puede mejorar la lineación
Sustituciones que han ocurrido a lo largo de la
a través del uso del algoritmo evolución.
“alineación de perfil externo” Relaciones evolutivas entre secuencias.
Conclusiones
La aplicación de métodos de alineamiento múltiple de secuencias son prototipos de aplicaciones que requieren una elevada

potencia de cómputo y memoria. Son de gran importancia por su papel en las investigaciones científicas y también por los

resultados que otorgan en diferentes campos como, biomedicina, farmacología y genética.

Existen ciertos aspectos a tener en cuenta para la obtención de buenos resultados con los distintos tipos de algoritmos. Dado

que uno de los problemas de los algoritmos genéticos es la existencia de los máximos locales, razón por la cual pueden ser

necesaria la aplicación de dichos algoritmos varias veces sobre el mismo conjunto de secuencias y escoger el mejor resultado.

También es necesario modificar ciertos parámetros del algoritmo, pueden ser, el número y longitud de gaps que pueden

insertarse en las secuencias y por último el tamaño de la población.


Bibliografía
Deng, X., Li, E., Shan, J., Chen, W. (2006). Parallel implementation and performance characterization of MUSCLE. Parallel and Distributed Processing Symposium, 2006.

IPDPS 2006. 20th International 2006:7 pp

Gauthier, J., Vincent, A. T., Charette, S. J., & Derome, N. (2018, Agosto 03). A brief history of bioinformatics. Oxford Academic. Retrieved 12 28, 2021, from

https://academic.oup.com/bib/article/20/6/1981/5066445

Meneses Escobar, C. A., Rozo Murillo, L. V., & Franco Soto, J. (2011, Diciembre). Vista de Tecnologías bioinformáticas para el análisis de secuencias de ADN.

Revistas UTP. Retrieved December 28, 2021, from https://revistas.utp.edu.co/index.php/revistaciencia/article/view/1491/975

Naranjo Basalo, Y. (2009, Julio). Alineamiento Múltiple de Secuencias con T-Coffee: Una Aproximación Paralela. Retrieved 12 28, 2021, from

https://ddd.uab.cat/pub/trerecpro/2009/hdl_2072_41817/TR_YandiNaranjoBasalo.pdf

Rezaei, S, Monwar, M.M., Bai, J. (2006). Performance Comparison of MPI -Based Parallel Multiple Sequence Alignment Algorithm Using Single and Multiple Guide Trees.

Cognitive Informatics, 2006. ICCI 2006. 5th IEEE International Conference on 2006;1:595-600.

También podría gustarte