Alineamiento Multiple de Secuencias

Análisis de Alineamiento Múltiple de Secuencias
Integrantes
Amon Samantha, Ortega Josue, Reyes Daniel,
Siguencia Thalia, Vivar Paulina
Introducción Información
compleja: gran
Análisis de genomas Programas
cantidad, forma de
informáticos:
manejo,
- bacterias comparaciones y - recursos disponibles y
- levaduras
- S.Humano asociaciones locales en la red
- ratones
- etc - disminuir costos
- eliminar la limitación de
memoria
conocimiento : análisis
Gran IMPORTANCIA - incrementa
de I. biológica
estudios e investigación
in silico
- Diseño de fármacos, vacunas
- Secuencias de los
- Estudio de enfermedades
genomas ( DNA)
(nuevas, hereditarias)
- Secuencias de proteínas
Bioinformatica para analisis de DNA
Proyectos modernos: in silico
- análisis rutinario de
Ordenadores y secuencias de DNA o
Programas Informáticos proteínas
- analizar I. significativa en secuenciación de nueva
herramienta del biólogo conjuntos masivos generación (NGS)
cambio
- genética de poblaciones
- genética cuantitativa
- sistemática molecular
- ecología microbiana
- otros campos
LINEA DEL TIEMPO
50 años : ordenadores - 1960: 1 ensamblador de s. de péptidos
hipótesis de novo, 1 B.D de proteínas, 1 modelo
DNA - secuencia de sustitución de aa para la filogenia
1990- 2000 : Internet y ACTUALIDAD

secuenciación de próxima
generación - manejo de Big Data
- datos - Garantizar la reproductibilidad de resultados
- H. bioinformáticas - Integración en currículos académicos
evolución I. especializados - biología computacional

- investigación estadística
- desarrollan utilizando - técnicas B. molecular, genómica, I.

- mantienen - habilidades médica, genética de poblaciones,
- despliegan - herramientas actuales conocimiento general de
herramientas biología
Análisis de secuencias descubrimiento de similitudes
a nivel estructural- funcional
comparación diferencias entre múltiples

secuencias biológicas
secuencias nuevas bien estudiadas y

(desconocidas) anotadas
(conocidas)
algoritmos de
Incluyendo
alineamientos
- Análisis de la alineación de secuencias
- Búsqueda en la B.D de secuencias
Programación
- Descubrimiento de patrones
- Reconstrucción de las relaciones evolutivos dinámica
- Formacion y comparación del genoma
Alineamiento de secuencias biológicas
objetivo
-Coloca dos o más secuencias
clasificación Objeto de análisis
lograr máximo de simultaneidades
entre elementos-secuencias
Alineamientos locales
Alineamientos globales
-Secuencias enteras-aprox misma longitud. -Escudriñan:fragmentos secuencias— gran correlación.
-Caracteres o símbolos. -No acepta: 2 secuencias tengan igualdad en toda la longitud.
-Regiones locales iguales entre las dos secuencias. -Utiliza: alineamientos de secuencias más separadas.
Img1. Ejemplo de alineamientos globales y locales.

(Fuente:Sánchez , 2014).
clasificación
Alineamiento de dos secuencias
Por
programación dinámica.
Ejemplo:
-Celda: valor calculado, considerando: coincidencia, no
coincidencia e introducción de un hueco(gap).
Valor de la coincidencia y no coincidencia.
Esquema de evaluación del alineamiento.

clasificación
Alineamiento múltiple de tres secuencias. Alineamiento exhaustivo
-Consume recursos: memoria - tiempo. -Alineamiento específico.

-Analiza todo el espectro de posibilidades. -Considera innumerables posibilidades y el
desarrollo del espacio n-dimensional.
Img 2. Ejemplo de alineamiento exhaustivo de secuencias.

(Fuente:Naranjo,2009).
1.4 Algoritmos en el alineamiento
clasificación
Algoritmos heurísticos
Desarrolla búsquedas más rápidas. Algoritmos iterativos
Algoritmos exhaustivo Admite: obtener alineamientos en

Analiza:fracción de posibles múltiples iteraciones de dos diferentes
alineamientos. Estudia: probabilidades de maneras.
soluciones por programación
1)Divide la secuencia- aleatoria.
dinámica.
2)Utiliza: árbol guia por UPGMA.

-Consume memoria por la diversidad
exponencial y tiempo de cómputo.
BLAST FASTA
Ventaja: mejora resultado en periodos
Utiliza: alinear un número iterativos.
mínimo de secuencias.
Desventaja: dependiente-solución inicial.

1.4 Algoritmos en el alineamiento
clasificación
Algoritmos consistency-based
Algoritmos estructurales
Usa:información biológica Algoritmos progresivos.
presente en secuencias de entrada
Incorpora: información estructural a
Abarca etapas : prototipos de análisis de datos.
-Alineamientos en pares. Comprobando estructuras

-Alineamientos en pares.
-Repetición de cambio con las secuencias.
residuos.
-Vínculo entre residuos. -Creación de un árbol guía.
-Creación matriz de distancia: Ventaja: usan información conocida

Ventaja: perfecciona resultados. muestra relación de cada -bases de datos.
secuencia.
Considera: información
implícita en los datos.
Alineamiento múltiple de secuencias
Secuencias - Moléculas Monómeros unidos
unidimensionales covalentemente
Elemento de la
secuencia = Residuo
Alineamiento
Comparaciones primordial
de cadenas
moleculares Similitudes en
bases de datos
Alineamiento múltiple de secuencias Mayor tiempo y
memoria
computacional
Información biológica
Patrones de secuencias conservadas Análisis de familias
Predicción estructuras
Motivos de las secuencias
secundarias y terciarias en
proteínas No programación
dinámica
Estudios filogenéticos Σ alfabeto finito
Homología en
Homologías
residuos individuales Secuencias ADN
(A,T,G,C)
Proteínas
(A, C, D, E, F, G, H, I, K, L, M, N, P,
Q, R, S, T, V, W, Y)
limitantes del alineamiento de secuencias
Topología en el espacio de Crecimiento = número de
búsqueda especies
Métodos exhaustivos
Más de diez secuencias

- Lenguajes paralelos de programación
- Entornos de cómputo paralelo
- Bases de datos segmentadas con acceso
múltiple
Entornos de
cómputo paralelo
Grandes bases de datos
de secuencias
limitantes del alineamiento de secuencias
Cinco secuencias con 10
residuos
1038 posibles
combinaciones
de alineamientos
Programación Uso de
Pares de secuencias
Dinámica metaheurística
Matemáticamente Más de dos

óptimos secuencias
Métodos
Algunos de los métodos del alineamiento
múltiple de secuencias son
● PRALINE
● MUSCLE
● T-Coffe and 3D-Coffe
● MAFFT
● ProbCons
● Kalign
● MSAProbs
● Clustal Omega
● ProDA
PRALINE Alineamiento múltiple de secuencias
Es un conjunto de secuencias de
Características
proteínas , que incluye un servidor
1. Preprocesamiento
web que ayuda a optimizar la 2. Información de estructuras
secundarias predichas
alineación de las secuencias de 3. Información de motif de
secuencia
entrada, estas pueden ser tanto 4. Estrategias de iteración
globales como locales.

1. Preprocesamiento
Es una técnica que se utiliza para minimizar los errores durante la ● Preprocesamiento Global, existe la posibilidad de seleccionar
otras secuencias según la puntuación de alineación mínima
alineación progresiva es decir es una técnica de optimización ,
establecida con la secuencia principal dentro de cada preperfil
Existen 3 opciones de preprocesamiento. ● Preprocesamiento Local, Segmentos de otras secuencias en el

conjunto de consultas se seleccionan en función de alineación
local
● PSI-Praline, este utiliza PSI-BLAST, para adquirir más

información de los pre perfiles basados en una valor E,
además que selecciona fragmentos de secuencias a partir de
una base de datos de secuencias no redundantes lo que ayuda
a construir perfiles previos más útiles y consistentes para la
alineación.
2.DSSP o información de estructura 3.Información de Motif de secuencia 4.Estrategias de Iteración
secundaria predicha
Permite la incorporación de información los motif de secuencias son regiones en la Está se debe basar en la coherencia de una
secundaria definida por DSSP, secuencia tanto de proteína como de ADN que alineación multiple anterior,
tiene importancia funcional, ● consistencia es la concordancia
● Secuencias que no tienen PDB,
● estas regiones tienden a conservarse entre los aa emparejados en la
● Encontrar una lección de 7 métodos entre secuencias homólogas. alineación múltiple y por pares,
de predicción de estructura ● la generación automática de MSA es ● múltiples posiciones de alineación
muy difícil de conseguir es decir que consistentes,
secundaria para tratar de
estén alineadas correctamente . ● segmentos inconsistentes se
determinar la otra secuencia realineen.
putativa de las secuencias, ● Las iteraciones finaliza al alcanzar
la convergencia o el ciclo límite (es
● Predicción PSIPRED, PROsec,
decir, una serie de alineaciones
YASPIN múltiples cíclicamente recurrentes).
● El usuario también puede
especificar un número máximo de
iteraciones.
MUSCLE
MUSCLE es un algoritmo rápido,
descargar el programa y ejecutarlo
Es un software de que debe tenerse en cuenta al alinear
localmente
alineación múltiple grandes conjuntos de datos.
para secuencias de
El protocolo de alineación
nucleótidos y proteínas
progresiva se acelera mediante una
este incluye un servidor
comparación de secuencias por pares
en línea realiza cálculos utilizando
que evita la lenta técnica de DP para
parámetros predeterminados
la construcción del árbol guía.
predefinidos
VENTAJAS
● Rápido
● manejar grandes conjuntos de datos en un tiempo razonable.
● El usuario puede decidir para todas las etapas y acciones
● Relación entre velocidad y precisión.
● El usuario puede definir un rango de tiempo en el que el programa seleccionará la
mejor solución hasta el momento.
● acelerar el programa durante la alineación de k-mer por pares
● usuario puede apagar la extensión de las kpalabras mediante programación dinámica
● Optimización de anclaje, está diseñada para reducir los cálculos durante el
refinamiento dependiente del árbol dividiendo una alineación determinada en bloques
verticales y alineando los perfiles asociados por separado.
PASOS
Las secuencias se agrupan de acuerdo con el secuencias se alinean progresivamente
3
el árbol guía se programa al
número de k-merssegmentos contiguos de
utilizar UPGMA, 2 siguiendo el orden del árbol.
longitud k donde utilizan un alfabeto de
aminoácidos comprimido. 1 se registra el número de

El MSA obtenido se usa para construir un
nodos internos para los
5 4
nuevo árbol aplicando la corrección de
que ha cambiado el
Refinamiento de la alineación utilizando la distancia de Kimura.
orden de ramificación.
topología fija de árbol,donde los bordes del
árbol se eliminan en orden decreciente de
distancia desde la raíz. 6 Número permanece constante o aumenta, el procedimiento de iteración
termina y se construye una alineación progresiva final para este paso.

Para cada subdivisión del árbol, se
La iteración termina si después
alinean los dos perfiles
de atravesar todos los bordes
correspondientes.
del árbol no se produce una
Si una alineación resultante
nueva alineación o si se
tiene una puntuación más alta
alcanza el número de
que la alineación retenida
iteraciones definido por el
anteriormente, se toma la
nueva alineación. 7
usuario. 8
Adecuado para la manipulación de
Método: MAFFT secuencias de ADN y proteínas
Este programa incluye un script y un Incluye dos técnicas novedosas

servidor web con varias estrategias de
alineación 1. Las regiones homólogas se
identifican mediante FFT
2. Sistema de puntuación
La base de su algoritmo está simplificado.
fundamentado en la Transformada
Rápida de Fourier (FFT).
Pasos:
Dos heurísticas diferentes:
1. Estrategias de alineación
1. Método progresivo (FFT-NS-2)
rápida
2. Método de refinamiento iterativo 2. Estrategias iterativas.
(FFT-NS-i) 3. Extensión de alineación,
Algoritmos
Algoritmos orientados a precisión Algoritmos orientados a eficiencia
1. L-INS-i: método de los más precisos. 1. FFT-NS-1: método muy rápido
Recomendado cuando se pretenden
alienar menos de 200 secuencias. Es recomendado para menos de 2000
iterativo. secuencias.
2. G-INS-i: método apropiado para 2. FFT-NS-2: método progresivo algo más
secuencias de similares longitudes. lento que el anterior.
Recomendado cuando se pretenden
alinear menos de 200 secuencias.
3. E-INS-i: método recomendado para
secuencias que contienen largas
regiones difícilmente alineables (muchos
gaps). Recomendado para cuando se
quiere alinear menos de 200 secuencias.
Puede trabajar con números grandes
Método: Clustal Omega (decenas de miles) de ARN/ADN o
secuencias proteicas
uso del algoritmo mBed

Características
Herramienta de alineamiento para gran
cantidad de secuencias.
El programa usa el método HHalign
para alinear modelos de perfil ocultos Permite comprobar qué características se
repiten
de Markov.
Comprobar qué regiones se mantienen más.
Facilita el análisis filogenético.

También se puede mejorar la lineación
Sustituciones que han ocurrido a lo largo de la
a través del uso del algoritmo evolución.
“alineación de perfil externo” Relaciones evolutivas entre secuencias.
Conclusiones
La aplicación de métodos de alineamiento múltiple de secuencias son prototipos de aplicaciones que requieren una elevada
potencia de cómputo y memoria. Son de gran importancia por su papel en las investigaciones científicas y también por los
resultados que otorgan en diferentes campos como, biomedicina, farmacología y genética.
Existen ciertos aspectos a tener en cuenta para la obtención de buenos resultados con los distintos tipos de algoritmos. Dado
que uno de los problemas de los algoritmos genéticos es la existencia de los máximos locales, razón por la cual pueden ser
necesaria la aplicación de dichos algoritmos varias veces sobre el mismo conjunto de secuencias y escoger el mejor resultado.
También es necesario modificar ciertos parámetros del algoritmo, pueden ser, el número y longitud de gaps que pueden
insertarse en las secuencias y por último el tamaño de la población.

Bibliografía
Deng, X., Li, E., Shan, J., Chen, W. (2006). Parallel implementation and performance characterization of MUSCLE. Parallel and Distributed Processing Symposium, 2006.
IPDPS 2006. 20th International 2006:7 pp
Gauthier, J., Vincent, A. T., Charette, S. J., & Derome, N. (2018, Agosto 03). A brief history of bioinformatics. Oxford Academic. Retrieved 12 28, 2021, from
https://academic.oup.com/bib/article/20/6/1981/5066445
Meneses Escobar, C. A., Rozo Murillo, L. V., & Franco Soto, J. (2011, Diciembre). Vista de Tecnologías bioinformáticas para el análisis de secuencias de ADN.
Revistas UTP. Retrieved December 28, 2021, from https://revistas.utp.edu.co/index.php/revistaciencia/article/view/1491/975
Naranjo Basalo, Y. (2009, Julio). Alineamiento Múltiple de Secuencias con T-Coffee: Una Aproximación Paralela. Retrieved 12 28, 2021, from
https://ddd.uab.cat/pub/trerecpro/2009/hdl_2072_41817/TR_YandiNaranjoBasalo.pdf
Rezaei, S, Monwar, M.M., Bai, J. (2006). Performance Comparison of MPI -Based Parallel Multiple Sequence Alignment Algorithm Using Single and Multiple Guide Trees.
Cognitive Informatics, 2006. ICCI 2006. 5th IEEE International Conference on 2006;1:595-600.

Alineamiento Multiple de Secuencias

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Alineamiento Multiple de Secuencias

Cargado por

Copyright:

Formatos disponibles

Análisis de Alineamiento Múltiple de Secuencias

1990- 2000 : Internet y ACTUALIDAD

evolución I. especializados - biología computacional

- desarrollan utilizando - técnicas B. molecular, genómica, I.

comparación diferencias entre múltiples

secuencias nuevas bien estudiadas y

Img1. Ejemplo de alineamientos globales y locales.

Alineamiento de dos secuencias

Valor de la coincidencia y no coincidencia.

Esquema de evaluación del alineamiento.

Alineamiento múltiple de tres secuencias. Alineamiento exhaustivo

-Consume recursos: memoria - tiempo. -Alineamiento específico.

Img 2. Ejemplo de alineamiento exhaustivo de secuencias.

Desarrolla búsquedas más rápidas. Algoritmos iterativos

Algoritmos exhaustivo Admite: obtener alineamientos en

2)Utiliza: árbol guia por UPGMA.

Desventaja: dependiente-solución inicial.

-Alineamientos en pares. Comprobando estructuras

-Creación matriz de distancia: Ventaja: usan información conocida

Estudios ﬁlogenéticos Σ alfabeto ﬁnito

Más de diez secuencias

Matemáticamente Más de dos

múltiple de secuencias son

globales como locales.

Existen 3 opciones de preprocesamiento. ● Preprocesamiento Local, Segmentos de otras secuencias en el

● PSI-Praline, este utiliza PSI-BLAST, para adquirir más

longitud k donde utilizan un alfabeto de

aminoácidos comprimido. 1 se registra el número de

árbol se eliminan en orden decreciente de

distancia desde la raíz. 6 Número permanece constante o aumenta, el procedimiento de iteración

termina y se construye una alineación progresiva final para este paso.

Este programa incluye un script y un Incluye dos técnicas novedosas

uso del algoritmo mBed

Facilita el análisis ﬁlogenético.

resultados que otorgan en diferentes campos como, biomedicina, farmacología y genética.

insertarse en las secuencias y por último el tamaño de la población.

IPDPS 2006. 20th International 2006:7 pp

Revistas UTP. Retrieved December 28, 2021, from https://revistas.utp.edu.co/index.php/revistaciencia/article/view/1491/975

También podría gustarte