Está en la página 1de 10

ALINEAMIENTO DE SECUENCIAS

Contenido

 Objetivos y aplicaciones  Métodos de alineamiento


 Alineamiento de pares de secuencias  Descargar MEGA, editor de texto (Notepad ++,
 Alineamientos múltiples de secuencias TextWrangler)
 Puntajes y matrices de puntajes  Descargar secuencias

Homología y similitud de secuencias

 Secuencias de DNA y proteína definen función.


 Homología entre secuencias demuestra que comparten un ancestro en común.
 Similitud entre 2 secuencias se puede calcular por el % nucleótidos idénticos entre ellas, relativo a la
longitud de la secuencia, o el % de residuos (aa) alineados que son similares en propiedades
fisicoquímicas.
 Homología no es cuantitativo
 Secuencias de un mismo gen en dos especies distintas pueden acumular mutaciones, inserciones o
deleciones a lo largo del tiempo.

Utilidad

Alineamiento de secuencias es un concepto esencial en bioinformática.

 Cuantificar similitud entre secuencias → id  Búsqueda de dominios conservados

molecular, id variants  Búsqueda de regiones conservadas en

 Análisis filogenéticos promotores

 Modelos de homología sobre estructuras de  Comparar producto y gen

proteínas  Ensamblaje en shotgun sequencing

Obtención de datos

Dataset

 Secuencias obtenidas de investigación propia


 Secuencias de base de datos => criterio para escoger => objetivo del análisis

o Identificación molecular, identificación de variantes o genotipificación (Secuencias de referencia)


o Evaluación de monofilia (ancestro común): Secuencias más similares

Alineamiento de secuencias

 Proceso mediante el cual las secuencias se  Es una hipótesis sobre homología de múltiples
comparan mediante la búsqueda de patrones de residuos en una secuencia de nucleótidos o
caracteres comunes y el establecimiento de una aminoácidos
correspondencia residuo-residuo entre
secuencias relacionadas.

Consideraciones

 La longitud de la secuencia es un factor importante


 Más cota es mas alta la posibilidad de alineamiento al azar
 Mas larga es menos probable que una coincidencia en el mismo nivel de similitud sea atribuida el azar=>
aumenta especificidad
 Tres zonas de los alineamientos de secuencias: Homólogas, probablemente homologas, no es posible
determinar homología.

Regla general
Si sus secuencias tienen más de 100 a (o 100
nucleótidos) puede considerarlas como
homólogas si el 25% de los aa son idénticos (el
70% de los nucleótidos para el ADN). Por
debajo de este valor se entra en la zona de
penumbra.

Tipos de alineamiento

Local alineación del resto de las regiones de la


secuencia
No asume similitud e n toda la longitud de las 2  Secuencias mas divergentes => parones de
secuencias conservación
 Longitud diferente
 Encuentre regiones locales con el nivel mas
alto de similitud entre las dos secuencias y
Global
alinea estas regiones sin tener en cuenta la
Asume que las 2 secuencias son generalmente  2 secuencias estrechamente relacionadas
similares en toda su longitud  Na da resultados óptimos para secuencias
divergentes
 Busca mejor alineación posible en toda la
 Longitudes similares
longitud

Componentes de un alineamiento

 Matches → coincidencias  Mismatches → no  Gaps → espacios (penalidad)


(puntaje positivo) coincidencias (penalidad)

Alineamiento de pares de secuencias (PSA)

 Sustituciones: cambio de un residuo por otro


o Error de replicación
 Gaps: ausencia de una base en una de las secuencias → deleción o inserción
o Deslizamiento de la polimerasa
o Entrecruzamiento desigual
 Conseguir alinear posiciones homólogas
 Varias formas de representar alineamientos:

o “-” gap o “|” match o “.” mismatch

Puntuación

 Alineamiento con mejor puntuación → alinea más posiciones homólogas → más razonable desde el
punto de vista biológico
 Sistemas de puntuación:

o Cantidad de caracteres que o % de identidad → # o % de similitud →


coinciden coincidencias en 100 similitud fisicoquímica de
posiciones aa

Puntaje para gaps

 La naturaleza favorece una menor cantidad de gaps largos vs una mayor cantidad de gaps pequeños
 Diferente puntaje para gaps:
o Penalidad por abrir gap (mayor) o Penalidad por extender gap (menor)

PAM vs BLOSUM

PAM => Percent Accepted Mutation  Preparadas a partir de comparaciones entre


secuencias, alineamiento global.
 PAM250 → secuencias proteicas que se parecen  Preparadas a partir de alineamientos de regiones
muy poco entre sí (~25%) conservadas de proteínas → bloques
 PAM120 (40%), PAM80 (50%) Y PAM60 alineamiento local.
(60%)  Bloques con un 80% de identidad →
 Utiliza en estudios filogenéticos BLOSUM80
 Nomenclatura denota la distancia evolutiva  Bloques con un 60% de identidad →
BLOSUM60
BLOSUM =>  Blocks Substitution  Búsquedas de dominios conservados.
Matrix

Métodos de alineamiento

Matriz de puntos

 Representación gráfica  Detectar repeticiones, inserciones,


 Resultados intuitivos deleciones (largas)
 Posibles alineamientos alternos  DESV. Muestra regiones similares, pero no
da un alineamiento

Programación dinámica:

 Romper un problema grande en subproblemas pequeños


 Resolver cada subproblema pequeño → resolver el grande
 Permite encontrar el alineamiento óptimo de dos secuencias y usando un esquema de puntuación
determinado

Needleman y Wunsch → alineamientos Smith y Waterman → alineamientos


globales locales

Líneas de caracteres de tamaño similar  Encontrar regiones similares entre regiones no


similares
 Genes con estructura similar
 Encontrar regiones similares entre regiones de
 Regiones largas con orden preservado
diferente longitud

RESUMEN PASOS

2 secuencias a la vez: o Búsquedas con BLAST o Alineamiento múltiple


(Clustal, Muscle, T-
o Alineamiento de pares de Muchas secuencias a la vez:
Coffee, MAFFT)
secuencias (BLAST,
EMBL-EBI)
Con patrones y perfiles
o Bases de datos de regiones Pfam)
conservadas (PROSITE,

BLAST - BASIC LOCAL ALIGNMENT SEARCH TOOL

1. Primer paso → lista de secuencias similares a nuestra secuencia de interés


a.  Versiones de BLAST
i. BLASTP: compara proteínas con una base de datos de proteínas.
ii. BLASTN: compara nucleótidos con una base de datos de nucleótidos.
iii. BLASTX: compara nucleótidos (antes los traduce) con una base de datos de proteínas.
iv. TBLASTN: compara proteínas contra una base de datos de nucleótidos (antes los traduce).
2. Interpretación de valores:
a. E-value: el número esperado de secuencias que obtendrían un puntaje igual o mayor debido al azar, o
por casualidad
i. 1e-60 → se espera ver ese alineamiento (hit) 1 x 10-60 veces por casualidad, o sea no es al azar
b. Query cover: el porcentaje de la secuencia Query que cubre la alineación con la secuencia de
referencia
c. Percentage of identity: que tan similar es la secuencia query con la secuencia de referencia (cuantos
caracteres son idénticos)
 Hit con los valores más altos en % of identity, query cover y el valor más bajo con E-Value

Resumen

 2 secuencias a la vez:
o Alineamiento de pares de secuencias (BLAST, EMBL-EBI)
o Búsquedas con BLAST
 Muchas secuencias a la vez:
o Alineamiento múltiple (Clustal, Muscle, T-Coffee, MAFFT)
 Con patrones y perfiles
o Bases de datos de regiones conservadas (PROSITE, Pfam)

ALINEAMIENTO MÚLTIPLE (MSA)

 Alineamiento de más de 2 secuencias.


o Reconstrucción filogenética
o Análisis estructural de proteínas
o Búsqueda de dominios conservados
 Computacionalmente más complejo que PSA
 Secuencias deben cubrir una misma región
o Ensamblaje de varias lecturas NGS
o Comparación con secuencia de referencia

Alineamiento global

Métodos heurísticos de alineación  ClustalW, MAFFT, T-Coffee

progresiva
Métodos iterativos
 Puntuación, penalidades por gaps y no
 Reevalúan los alineamientos producidos en
coincidencias
pasos anteriores
 Rápidos, no reevaluan alineamientos
 Mejor para secuencias divergentes
anteriores
 MUSCLE
 Mejor para secuencias no muy distantes

Programas

MEGA

 Software multiplataforma → análisis  Análisis estadísticos de evolución molecular


filogenéticos  Selección de códigos genéticos
 Construcción de alineación de secuencias  Editor de archivos de texto integrado
(ClustalW y Muscle)  Visor de datos de secuencia
 Modelos de sustitución de nucleótidos
 Árboles filogenéticos

T-Coffee => Tree-based Consistency Objective Function for alignment Evaluation

 T-Coffee es un programa de alineación de


secuencias multiples, que brinda resultados
más precisos.
 Permite combinar los resultados obtenidos
Interpretación => Aminoacidos
con varios métodos de alineación (global y
 “*” → Indica alineación perfecta.
local)
 ":" → Indica un sitio que pertenece a un grupo
 Método de optimización que proporciona la
que muestra una gran similitud.
alineación múltiple que mejor se adapta a las
 "." → indica un sitio que pertenece a un grupo
secuencias de entrada.
que exhibe una similitud débil.
 Evaluación de la calidad del alineamiento
  “ “ → no hay similitud
o X ej. PAM250  puntuación de 0,5 o menos → similitud
 puntaje de más de 0,5 → similitud débil
fuerte

Alineamiento múltiple (MSA)

 Evaluación de alineamientos
o Divergentes o similares → fragmentos ambiguos (Gblocks, TCS, trimAI)
o Estimar la confiabilidad del alineamiento aa o nucleótidos
o Mejora la construcción de árboles filogenéticos
 Software: MEGA, ClustalX, BioEdit, UGENE
 Web: TranslatorX, CIPRES, EMBL-EBI

Gblocks

 Evalúa el alineamiento y limita las posiciones mal alineadas y las regiones divergentes de una
alineación de secuencias de ADN o proteínas.
 Dichas regiones pueden ser no homologas o tener múltiples sustituciones → deben ser eliminadas
para análisis filogenético.

CIPRES Science Gateway

Un portal de internet para análisis filogenéticos.

Herramientas para la inferencia de relaciones filogenéticas (DNA y proteínas)

Permite ejecutar trabajos en computadoras de alto rendimiento.

Interface amigable

Con patrones y perfiles comparación

Dominios, partes conservadas. Uso alineamiento múltiple para saber que es conservada por gaps o sin ello.

Regiones conservadas

 MSA permite detectar regiones conservadas en secuencias de proteínas o ADN.


 Estas regiones en particular suelen estar asociadas con
o Señales (promotores, firmas de fosforilación, localización celular, ...) cumplen su función
o Estructura (plegamiento correcto, interacciones proteína-proteína ...)
o Reactividad química (sitios catalíticos, ...)
 Regiones conservadas permite alinear secuencias, buscar secuencias similares en bases de datos o
anotar nuevas secuencias
 Motivos

Promals 3D (

Modelamiento de regiones
conservadas

 Existen diferentes métodos para construir modelos de estas regiones conservadas:


o Secuencias de consenso 
o Patrones o motivos (expresiones regulares)
o Perfiles o Matrices de puntuación específicas de posición (PSSM)
o Modelos ocultos de Markov (HMM)
o ... y algunos otros.

Secuencia de consenso

 Método más simple para construir un modelo a partir de una alineación de secuencia múltiple.
 Reglas:
o La mayoría gana.
o Omita demasiada variación.
 Este método es muy rápido y fácil de implementar.  Los modelos no tienen información sobre
variaciones en las columnas.
 Binario (SÍ / NO)
 Útil para encontrar regiones altamente conservadas, como por ejemplo sitios de restricción de
enzimas para ADN

Patrones (expresiones regulares)

 Describe un conjunto de secuencias alternativas, utilizando una sola expresión.


 La sintaxis de Prosite para patrones:
o IUPAC para los aa (G = Gly, P = Pro, ...)
o "-“ → separa elementos de patrón
o "X" → cualquier aminoácido
o "[]“ → indica ambigüedades ([AG] significa Ala o Gly)
o "{}“ → aa que no se aceptan en una posición determinada ({AG} significa cualquier
aminoácido excepto Ala y Gly)
o "()" → repeticiones ([AG] (2,4) significa Ala o Gly entre 2 y 4 veces, X (2) significa
cualquier aminoácido dos veces),
o "<" → patrón en extremo N
o ">“ → patrón en extremo C
o L-lactate dehydrogenase active site:
 [LIVMA]-G-[EQ]-H-G-[DN]-[ST]
o Ubiquitin-activating enzyme signature:
 P-[LIVM]-C-T-[LIVM]-[KRH]-x-[FT]-P
o C2H2 Zinc Fingers
 C-x(2,4)-C-x(3)-[LIVMFYWC]-X(8)-H-x(3,5)-H
 Apropiado para construir modelos de firmas de secuencia corta, por ser cortos podrían presenter
falsos positivos
 Método rápido y de fácil interpretación
 Modelo pobre para indels  Binario (SÍ / NO), no tiene puntuaciones
 Secuencias pequeñas o sitios activos

Modelos estadísticos

 PSSM (Matrices de puntuación específicas de posición)


o Se usan matrices de sustitución específicas por posición
o La puntuación se deriva de la relación entre las frecuencias observadas y las esperadas →
proporción logarítmica de verosimilitud:

o Regiones cortas y conservadas, no es adecuado para regiones de


secuencia relativamente larga.
 Modelar regiones pequeñas con alta variabilidad, pero longitud constante.
 Relativamente rápido y sencillo de implementar.
 Puntuaciones de coincidencia en función de teoría estadística.
 No pueden representar inserciones y deleciones.
http://meme.sdsc.edu/meme/website/ HMM: Hid
 HMM (Hidden Markov Models)
o HMM es un modelo probabilístico, se basa en la teoría de las Cadenas de Markov
o Es una sucesión de estados conectado por transiciones
o Modelo más sólido y complejo
o Modelar dominios estructurales
o Dominio → región de una proteína que presenta interés funcional o estructural
 Mayor poder de predicción, incluso obtenidos de un número reducido de secuencias.
 Incrementa la sensibiidad del modelamiento/descubrimiento de motivos
 Detecta secuencias divergentes, pero relacionadas

Bases de datos de regiones conservadas

 PROSITE: base de datos de patrones y perfiles


 Pfam:
o Colección de sec. múltiples y modelos HMM de varias familias de proteínas
o Asignar nuevas proteínas a su familia de proteínas, incluso si la similitud es débil
 InterPro: proporciona un análisis funcional de proteínas clasificándolas en familias y prediciendo
dominios y sitios importantes
 CDD (Conserved Domain Database): base de datos de dominios de proteínas
 CDART (Conserved Domain Architecture Retrieval Tool)
 SMART (Simple Modular Architecture Research Tool)

También podría gustarte