Está en la página 1de 36

Alineamiento de

secuencias
Alineamiento de
Alineamiento secuencias
Comparar dos (alineación a pares) o más
(alineación múltiple) secuencias para buscar
una serie de caracteres o patrón de caracteres
que están en el mismo orden en las
secuencias
Secuencia 1: ATGCGACTGACG
||||||||||||
Secuencia 2: ATGCGACTGACG

Significado de un alineamiento
Estadístico
Por azar (alineamiento de secuencias al azar pueden
producir un 20% identidad)
Biológico
Comparten un ancestro común. Implica una información
funcional, estructural y evolutiva?
Alineamiento de
secuencias
Un alineamiento compara
permitiendo:

•• Identificar
Identificar genes
genes homólogos/similares
homólogos/similares
•• Asignar
Asignar funciones
funciones biológicas
biológicas (reales,
(reales, posibles?)
posibles?)
•• Predecir
Predecir estructura
estructura
•• Encontrar
Encontrar patrones
patrones
•• Reconstruir
Reconstruir relaciones
relaciones evolutivas
evolutivas
•• ……
……
Homología vs
similitud
Homólogo, similar, idéntico
• Homología
– dos secuencias son homólogas sólo si derivan de
una ancestro común
– implica una herencia compartida
– cualitativo
– se es homólogo o no se es

• Similitud
– medida cuantitativa
– se puede usar una medida de similitud para inferir
homología
Global vs Local

Global: Intentamos alinear todos los caracteres de


las secuencias optimizando el número máximo de
identidades

Local: Alineamos segmentos de las secuencias


donde la densidad de identidades es mayor,
generamos subalinemientos
Alineamiento de
secuencias
Un proceso de alineamiento debe efectuar una
búsqueda activa del mejor alineamiento posible y debe
considerar los cambios que sufren las secuencias:

• Identidades -> Emparejamientos (match)


• Sustituciones -> Desemparejamientos (mismatch)
• Deleciones e inserciones (indel) -> Huecos (gaps)
Alineamiento de
secuencias
Cómo decidir cuál es el mejor?

• Respuesta: el más significativo desde


el punto de vista biológico
• Pero: necesitamos una medida objetiva

• Sistemas de puntuación (scoring)


– reglas para asignar puntos
– el más simple: match, mismatch, gap
Valoración de un alineamiento
Como valorar un alineamiento?

Ejemplo
Ejemplo
Identidad
Identidad == 11
Missmatch
Missmatch == 00
Gap
Gap == -1
-1
Score
Score == 10
10 -- 44 == 66
Valoración de un alineamiento
Valoración (score) de un
alineamiento
Máxima puntuación = Alineamiento óptimo

F (puntuación emparejamiento
Puntuación = idéntico, puntuación
emparejamiento similar,
puntuación huecos –gap-)
Matriz para DNA

Una
Una matriz
matriz no
no es
es otra
otra cosa
cosa
que
que un
un sistema
sistema dede scoring
scoring
que
que permite
permite asignar
asignar
puntuaciones
puntuaciones individuales
individuales
a
a cada
cada una
una de
de las
las letras
letras
del
del alfabeto
alfabeto en
en uso
uso
Matriz para DNA
A G C T
A +1 –3 –3 -3 Score
Score
Match:
Match:++11
G –3 +1 –3 -3 Mismatch:
Mismatch:--33

C –3 –3 +1 -3
T –3 –3 –3 +1
CAGGTAGCAAGCTTGCATGTCA
|| |||||||||||| ||||| raw score = 19-9 = 10
CACGTAGCAAGCTTG-GTGTCA

Score
Score
Match:
Match:++11
Mismatch:
Mismatch:-10000
-10000
Matriz para DNA
Modelos evolutivos DNA

Matriz
Matriz de
de substitución
substitución para
para DNA
DNA

Ejemplo:
Ejemplo:
Transiciones
Transiciones // Transversiones
Transversiones A,A
A,A == 11
p(transición)
p(transición) >> p(transversión)
p(transversión) A,C
A,C == 00
C,T
C,T == 0,5
0,5
Gap
Gap == -1-1
Matriz para proteínas
Matrices de puntuación para proteínas
Matriz de identidad
Secuencia A Tyr Cys Asp Ala Met
Secuencia B Phe Met Glu Gly Met
0 0 0 0 1
Puntuación total del alineamiento: 0+0+0+0+1 = 1

Matrices de susbtitución

Secuencia A Tyr Cys Asp Ala


Secuencia B Phe Met Glu Gly
3 -1 2 0
Puntuación total del alineamiento: 3-1+2+0 = 4
Matriz para proteínas
Modelos evolutivos Proteínas
Mutaciones
Mutaciones (código
(código genético)
genético)

Substituciones
Substituciones conservativas
conservativas

Matriz
Matriz de
de substitución
substitución para
para proteínas
proteínas
••PAM
PAM 60,
60, 120,
120, 250
250 (Dayhoff)
(Dayhoff)
Extrapolación
Extrapolación desde
desde PAM1
PAM1
••BLOSUM
BLOSUM 80,
80, 62,
62, 40
40
Basadas
Basadas en en BLOCKS
BLOCKS de
de
secuencias
secuencias
Matrices PAM (Percent Accepted Mutation)
Evolutionary model

• Creadas partiendo de un grupo de secuencias homólogas con un porcentage de


similitud igual o superior al 85 %.

• Proporcionan los cambios esperados entre proteínas homólogas a lo largo de un


determinado periodo evolutivo

• Generan una matriz 20 x 20

• Todas calculadas a partir de PAM1 (identidades aprox 99%)

• Se pueden extrapolar los cambios esperados en periodos cortos a los esperados


en periodos largos simplemente multiplicando la matriz original n veces.

• La más utilizada: PAM 250 (identidades aprox 20%)


Matrices BLOSUM (BLOck SUbstitution Matrices)

•Creadas utilizando un gran número de secuencias NO homólogas


pertenecientes a distintas familias

•Se evaluan las tasas de sustitución en patrones de residuos altamente


conservados (BLOCKS)

•Generan matrices 20 x 20

•Las distintas matrices se generan usando agrupaciones de bloques con


mayor o menor grado de similitud

•La matriz por defecto: BLOSUM62


Matriz PAM 250
Blosum 62
A 4
R -1 5
N -2 0 6 Los
Losscores
scoresprovienen
provienen
del
del la observaciónde
la observación de
D -2 -2 1 6 los tipos y frecuencias
los tipos y frecuencias
C 0 -3 -3 -3 9 de
desustitución
sustituciónen
en
Q -1 1 0 0 -3 5 distintas familias
distintas familias
proteicas
proteicas
E -1 0 0 2 -4 2 5
G 0 -2 0 -1 -3 -2 -2 6
H -2 0 1 -1 -3 0 0 -2 8
I -1 -3 -3 -3 -1 -3 -3 -4 -3 4
L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4
K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5
M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5
FF -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6
P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7
S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4
T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5
Negative for -4
W -3 -3 -4 less-2likely substitutions
-2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11
Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7
V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1
4 Positive for more likely substitutions
X 0 -1 -1 -1 -2 -1 -1 -1 -1 -1 -1 -1 -1 -1 -2 0 0 -2 -1
-1 -1
A R N D C Q E G H I L K M F P S T W Y
V X
Equivalencia PAM - BLOSUM

PAM100
PAM100 ==>
==> Blosum90
Blosum90
PAM120
PAM120 ==>
==> Blosum80
Blosum80
PAM160
PAM160 ==>
==> Blosum60
Blosum60
PAM200
PAM200 ==>
==> Blosum52
Blosum52
PAM250
PAM250 ==>
==> Blosum45
Blosum45

BLOSUM:
BLOSUM: “mejor”
“mejor” para
para la
la detección
detección alineamientos
alineamientos locales
locales
BLOSUM
BLOSUM 62:
62: “mejor”
“mejor” detección
detección similitudes
similitudes débiles
débiles
BLOSUM
BLOSUM 45:
45: “mejor”
“mejor” detección
detección alineamientos
alineamientos largos
largos yy débiles
débiles
PAM vs BLOSUM

•PAM asume un modelo de evolución markoviano (todos los


cambios independientes)
•BLOSUM no supone ningún modelo evolutivo explícito
•PAM considera todas las posiciones amino acídicas
•BLOSUM considera sólo los cambios en posiciones dentro de
bloques conservados
•PAM asume que la distribución de aa de las secuencias que la
generaron es representativa de todas las familias de proteínas
•BLOSUM se generó usando un mayor número de secuencias y de
familias distintas
•PAM requiere un conocimiento previo de la distancia evolutiva

Conclusión:

PAM es más adecuada para trazar el origen evolutivo de proteínas


BLOSUM es más apropiada para hallar dominios conservados
Métodos de alineamiento
Métodos de alineamiento de dos
secuencias
•Dot Matrix (Matriz de puntos)

Rápida identificación de indels / No alineamientos óptimos

•Dynamic Programming (Programación dinámica)

Garantiza alineamiento óptimo / Computacionalmente


costoso

•Heuristic Searches (Búsquedas heurísticas)

Búsquedas rápidas en bases de datos grandes /


alineamientos locales y no siempre óptimos
Dot Matrix
Matriz de puntos (Dot matrix, Gibbs & McIntyre 1970)
Se ponen de manifiesto todos los emparejamientos posibles pero es el investigador quien
debe determinar cuales son significativos

C|    X X
G| X
T|  X :            A T T G C
T|  X              | | : | |
A|X                A T C G C
+--------
  A T C G C A|  X    
 C|      X         - A T G C A
 G|X   X            | | | |
 T|  X             G A T G C
 A|- X
  +---------
   G A T G C
Alineamiento: matriz de puntos
Dot plots sugieren
caminos (paths) a Dominios EGF conservados en la urokinse plasminogen
través del espacio de activator (PLAU) y el tissue plasminogen activator
alineamientos posibles. (PLAT)
90 137 90 137

23
Path graphs son 23
representaciones
más explícitas de
un alineamiento.

Cada path es un
alineamiento único.
72

PLAU 90 72
EPKKVKDHCSKHSPCQKGGTCVNMP--SGPH-CLCPQHLTGNHCQKEK---CFE 137
PLAT 23 ELHQVPSNCD----CLNGGTCVSNKYFSNIHWCNCPKKFGGQHCEIDKSKTCYE 72
Programación dinámica

Algoritmos de programación dinámica


Métodos computacionales que comparan cada pareja de
caracteres y los posicionan de forma que el número de
emparejamientos idénticos o relacionados sea el máximo
posible

Alineamiento global de Needlman-Wunsh (1970)

Alineamiento local de Smith-Waterman (1981)


Alineamiento global y local

Needleman & Wunsch (1970) Smith & Waterman (1981)

Las secuencias se Las secuencias se


alinean alinean en regiones
esencialmente de un pequeñas y aisladas
extremo a otro
Heuristic searches
MPKRSEYRQGTPNWVDLQTTDQSAAKKFYTLFGWGYDDNPVPGGGGVY
SMATLNGEAVAAIAPMPPGAPEGMPPIWNTYIAVDDVDAVVDKVVPGG
GQVMMPAFDIGDAGRMSFITDPTGAAVGWQANRHIGATLVNETGTLIW
NELLTDKPDLALAFYEAVVGLTHSSMEIAAGQNY

¿Hay en la base de datos


alguna secuencia similar
a mi secuencia
problema?

Búsquedas por
Resultados
Similar to …………
similitud
Unknown but similar to several hypothetical proteins from…
Putative hypothetical protein……..
Búsqueda de similares

Búsqueda de similares en
una base de datos
Objetivo: comparar una secuencia frente a
una base de datos, comprar dos base de
datos...

Algoritmos

Exactos: Smith-Waterman (sssearch, lalign, ..)

Heurísticos: BLAST (búsqueda de “words” similares)


FASTA (búsqueda de “k-tuplos” idénticos)
Métodos
heurísticos
Método heurístico: prueba y error
Suele encontrar secuencias relacionadas pero nunca
hay garantía absoluta.

Ventaja: 50 veces más rápido que programas dinámicos

Usos: búsquedas sobre bases de datos de gran tamaño

BLAST (Basic Local Alignment Search Tool)


(Altschul, et al, 1990, J Mol Biol, 215:403-10)
Concentra la búsqueda en patrones cortos más significativos, (palabra,
word size: 3 aa / 11 nt). Rápido, menos sensible?

FASTA
(Lipman y Pearson, 1985; Pearson y Lipman, 1988)
El algoritmo busca patrones cortos consecutivos (palabras o k-tuplos, k=
1-2 aa / 4-6 nt) entre la secuencia problema y las de la base de datos.
Significación - Valoración
de los alineamientos
1. Valoración mediante matrices

2. Penalización por disimilitud (aparición y extensión de gaps). Este valor es


la Puntuación bruta (raw score, Sraw).

3. Puntuación de bits (Sbit). Permite comparar resultados obtenidos por


diferentes sistemas. Se introducen parámetros utilizados por el programa
de alineamiento.

4. E value alineamiento debido al azar. Los valores más cercanos a cero


indican una mayor relevancia. Se puede considerar relevante cuando E <
0.05
(Basic Local Alignment Search Tool)
Altschul, et al, 1990, J Mol Biol, 215:403-10
Heurístico
BLAST intenta encontrar muchos matches sacrificando la especificidad
por la velocidad. Se pueden perder apareamientos.

Estrategia BLAST
Búsqueda de proteínas mediante criterios de semejanza (no
identidad).
Se utilizan matrices de semejanza
Trabaja con segmentos pequeños que permiten acelerar el proceso
(High-scoring segment pair)
Extensión de los match hacia los lados
Rápido y sensible
Usos
búsquedas en las bases de datos
alineamiento de pares de secuencias
Esquema BLAST
Nucleótidos
Query: GTACTGGACATGGACCCTACAGGAA
Word Size = 11
GTACTGGACAT Minimum word size
TACTGGACATG =7
ACTGGACATGG blastn default = 11
CTGGACATGGA megablast default =
TGGACATGGAC 28
GGACATGGACC
GACATGGACCC
ACATGGACCCT
...........
Proteínas
Query: GTQITVEDLFYNIATRRKALKN
Word Size = 3
GTQ
TQI
Similares
QIT
LTV, MTV, ISV, LSV, etc.
ITV
TVE
VED
EDL
DLF
...
Práctica

Objetivo general
Buscar secuencias similares a las secuencias problema.

BLAST DNA
Copiar la Secuencia PROBLEMA y someterla a BLAST de
DNA
>SeqDNA_Prob1.seq
ATGAAGGACTTAGTCGATACCACAGAGATGTACTTGCGTACTATCTATGAGCTGGAAGAAGAGGGAGTCA
CCCCTCTTCGCGCTAGGATCGCTGAGCGTCTGGAACAATCTGGACCTACAGTTAGCCAAACCGTTGCCCG
TATGGAGCGCGATGGACTTGTCGTTGTCGCCTCAGACCGCAGTCTACAAATGACACCGACAGGCCGCACT
TTAGCGACTGCAGTTATGCGTAAACATCGCTTAGCTGAGCGCCTTCTTACCGATATCATTGGTCTAGATA
TCAATAAAGTTCACGATGAAGCCTGCCGCTGGGAACACGTTATGAGTGACGAAGTTGAACGCAGGCTCGT
GAAAGTATTGAAAGATGTCAGTCGGTCCCCCTTCGGAAACCCAATTCCAGGTCTCGACGAACTCGGCGTA
GGCAATTCTGACGCGGCAGCCCCCGGAACTCGCGTTATTGACGCTGCCACCAGCATGCCCCGCAAAGTAC
GCATTGTTCAGATTAACGAAATCTTTCAAGTTGAAACGGATCAGTTTACACAGCTCCTCGATGCTGACAT
CCGTGTTGGATCAGAAGTCGAAATTGTAGATAGAGACGGCCACATCACGTTGAGCCACAATGGAAAAGAT
GTCGAACTCCTCGATGATCTGGCTCACACTATTCGTATCGAAGAACTCTAA

Iniciar una sesión BLAST Nucleotide


Limitar la búsqueda a Blast de Bacteria
Práctica

BLAST Proteína
Copiar la secuencia PROBLEMA y someterla a BLAST de
Proteína

>SeqProt-Prob1.pep
MENRIDRIKKQLHSSSYKLTPQREATVRVLLENEEDHLSAEDVYLLVKEKSPEIGLATVY
RTLELLTELKVVDKINFGDGVSRYDLRKEGAAHFHHHLVCMEFGAVDEIEGDLLEDVEEI
IERDWKFKIKDHRLTFHGICHRCNGKETE

Iniciar una sesión BLAST Protein

Limitar la búsqueda a Blast de Bacteria

Ejecutar Blast

También podría gustarte