Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Contenido
Utilidad
Obtención de datos
Dataset
Alineamiento de secuencias
Proceso mediante el cual las secuencias se Es una hipótesis sobre homología de múltiples
comparan mediante la búsqueda de patrones de residuos en una secuencia de nucleótidos o
caracteres comunes y el establecimiento de una aminoácidos
correspondencia residuo-residuo entre
secuencias relacionadas.
Consideraciones
Regla general
Si sus secuencias tienen más de 100 a (o 100
nucleótidos) puede considerarlas como
homólogas si el 25% de los aa son idénticos (el
70% de los nucleótidos para el ADN). Por
debajo de este valor se entra en la zona de
penumbra.
Tipos de alineamiento
Componentes de un alineamiento
Puntuación
Alineamiento con mejor puntuación → alinea más posiciones homólogas → más razonable desde el
punto de vista biológico
Sistemas de puntuación:
La naturaleza favorece una menor cantidad de gaps largos vs una mayor cantidad de gaps pequeños
Diferente puntaje para gaps:
o Penalidad por abrir gap (mayor) o Penalidad por extender gap (menor)
PAM vs BLOSUM
Métodos de alineamiento
Matriz de puntos
Programación dinámica:
RESUMEN PASOS
Resumen
2 secuencias a la vez:
o Alineamiento de pares de secuencias (BLAST, EMBL-EBI)
o Búsquedas con BLAST
Muchas secuencias a la vez:
o Alineamiento múltiple (Clustal, Muscle, T-Coffee, MAFFT)
Con patrones y perfiles
o Bases de datos de regiones conservadas (PROSITE, Pfam)
Alineamiento global
progresiva
Métodos iterativos
Puntuación, penalidades por gaps y no
Reevalúan los alineamientos producidos en
coincidencias
pasos anteriores
Rápidos, no reevaluan alineamientos
Mejor para secuencias divergentes
anteriores
MUSCLE
Mejor para secuencias no muy distantes
Programas
MEGA
Evaluación de alineamientos
o Divergentes o similares → fragmentos ambiguos (Gblocks, TCS, trimAI)
o Estimar la confiabilidad del alineamiento aa o nucleótidos
o Mejora la construcción de árboles filogenéticos
Software: MEGA, ClustalX, BioEdit, UGENE
Web: TranslatorX, CIPRES, EMBL-EBI
Gblocks
Evalúa el alineamiento y limita las posiciones mal alineadas y las regiones divergentes de una
alineación de secuencias de ADN o proteínas.
Dichas regiones pueden ser no homologas o tener múltiples sustituciones → deben ser eliminadas
para análisis filogenético.
Interface amigable
Dominios, partes conservadas. Uso alineamiento múltiple para saber que es conservada por gaps o sin ello.
Regiones conservadas
Promals 3D (
Modelamiento de regiones
conservadas
Secuencia de consenso
Método más simple para construir un modelo a partir de una alineación de secuencia múltiple.
Reglas:
o La mayoría gana.
o Omita demasiada variación.
Este método es muy rápido y fácil de implementar. Los modelos no tienen información sobre
variaciones en las columnas.
Binario (SÍ / NO)
Útil para encontrar regiones altamente conservadas, como por ejemplo sitios de restricción de
enzimas para ADN
Modelos estadísticos