Documentos de Académico
Documentos de Profesional
Documentos de Cultura
secuencias
Alineamiento de
Alineamiento secuencias
Comparar dos (alineación a pares) o más
(alineación múltiple) secuencias para buscar
una serie de caracteres o patrón de caracteres
que están en el mismo orden en las
secuencias
Secuencia 1: ATGCGACTGACG
||||||||||||
Secuencia 2: ATGCGACTGACG
Significado de un alineamiento
Estadístico
Por azar (alineamiento de secuencias al azar pueden
producir un 20% identidad)
Biológico
Comparten un ancestro común. Implica una información
funcional, estructural y evolutiva?
Alineamiento de
secuencias
Un alineamiento compara
permitiendo:
•• Identificar
Identificar genes
genes homólogos/similares
homólogos/similares
•• Asignar
Asignar funciones
funciones biológicas
biológicas (reales,
(reales, posibles?)
posibles?)
•• Predecir
Predecir estructura
estructura
•• Encontrar
Encontrar patrones
patrones
•• Reconstruir
Reconstruir relaciones
relaciones evolutivas
evolutivas
•• ……
……
Homología vs
similitud
Homólogo, similar, idéntico
• Homología
– dos secuencias son homólogas sólo si derivan de
una ancestro común
– implica una herencia compartida
– cualitativo
– se es homólogo o no se es
• Similitud
– medida cuantitativa
– se puede usar una medida de similitud para inferir
homología
Global vs Local
Ejemplo
Ejemplo
Identidad
Identidad == 11
Missmatch
Missmatch == 00
Gap
Gap == -1
-1
Score
Score == 10
10 -- 44 == 66
Valoración de un alineamiento
Valoración (score) de un
alineamiento
Máxima puntuación = Alineamiento óptimo
F (puntuación emparejamiento
Puntuación = idéntico, puntuación
emparejamiento similar,
puntuación huecos –gap-)
Matriz para DNA
Una
Una matriz
matriz no
no es
es otra
otra cosa
cosa
que
que un
un sistema
sistema dede scoring
scoring
que
que permite
permite asignar
asignar
puntuaciones
puntuaciones individuales
individuales
a
a cada
cada una
una de
de las
las letras
letras
del
del alfabeto
alfabeto en
en uso
uso
Matriz para DNA
A G C T
A +1 –3 –3 -3 Score
Score
Match:
Match:++11
G –3 +1 –3 -3 Mismatch:
Mismatch:--33
C –3 –3 +1 -3
T –3 –3 –3 +1
CAGGTAGCAAGCTTGCATGTCA
|| |||||||||||| ||||| raw score = 19-9 = 10
CACGTAGCAAGCTTG-GTGTCA
Score
Score
Match:
Match:++11
Mismatch:
Mismatch:-10000
-10000
Matriz para DNA
Modelos evolutivos DNA
Matriz
Matriz de
de substitución
substitución para
para DNA
DNA
Ejemplo:
Ejemplo:
Transiciones
Transiciones // Transversiones
Transversiones A,A
A,A == 11
p(transición)
p(transición) >> p(transversión)
p(transversión) A,C
A,C == 00
C,T
C,T == 0,5
0,5
Gap
Gap == -1-1
Matriz para proteínas
Matrices de puntuación para proteínas
Matriz de identidad
Secuencia A Tyr Cys Asp Ala Met
Secuencia B Phe Met Glu Gly Met
0 0 0 0 1
Puntuación total del alineamiento: 0+0+0+0+1 = 1
Matrices de susbtitución
Substituciones
Substituciones conservativas
conservativas
Matriz
Matriz de
de substitución
substitución para
para proteínas
proteínas
••PAM
PAM 60,
60, 120,
120, 250
250 (Dayhoff)
(Dayhoff)
Extrapolación
Extrapolación desde
desde PAM1
PAM1
••BLOSUM
BLOSUM 80,
80, 62,
62, 40
40
Basadas
Basadas en en BLOCKS
BLOCKS de
de
secuencias
secuencias
Matrices PAM (Percent Accepted Mutation)
Evolutionary model
•Generan matrices 20 x 20
PAM100
PAM100 ==>
==> Blosum90
Blosum90
PAM120
PAM120 ==>
==> Blosum80
Blosum80
PAM160
PAM160 ==>
==> Blosum60
Blosum60
PAM200
PAM200 ==>
==> Blosum52
Blosum52
PAM250
PAM250 ==>
==> Blosum45
Blosum45
BLOSUM:
BLOSUM: “mejor”
“mejor” para
para la
la detección
detección alineamientos
alineamientos locales
locales
BLOSUM
BLOSUM 62:
62: “mejor”
“mejor” detección
detección similitudes
similitudes débiles
débiles
BLOSUM
BLOSUM 45:
45: “mejor”
“mejor” detección
detección alineamientos
alineamientos largos
largos yy débiles
débiles
PAM vs BLOSUM
Conclusión:
C| X X
G| X
T| X : A T T G C
T| X | | : | |
A|X A T C G C
+--------
A T C G C A| X
C| X - A T G C A
G|X X | | | |
T| X G A T G C
A|- X
+---------
G A T G C
Alineamiento: matriz de puntos
Dot plots sugieren
caminos (paths) a Dominios EGF conservados en la urokinse plasminogen
través del espacio de activator (PLAU) y el tissue plasminogen activator
alineamientos posibles. (PLAT)
90 137 90 137
23
Path graphs son 23
representaciones
más explícitas de
un alineamiento.
Cada path es un
alineamiento único.
72
PLAU 90 72
EPKKVKDHCSKHSPCQKGGTCVNMP--SGPH-CLCPQHLTGNHCQKEK---CFE 137
PLAT 23 ELHQVPSNCD----CLNGGTCVSNKYFSNIHWCNCPKKFGGQHCEIDKSKTCYE 72
Programación dinámica
Búsquedas por
Resultados
Similar to …………
similitud
Unknown but similar to several hypothetical proteins from…
Putative hypothetical protein……..
Búsqueda de similares
Búsqueda de similares en
una base de datos
Objetivo: comparar una secuencia frente a
una base de datos, comprar dos base de
datos...
Algoritmos
FASTA
(Lipman y Pearson, 1985; Pearson y Lipman, 1988)
El algoritmo busca patrones cortos consecutivos (palabras o k-tuplos, k=
1-2 aa / 4-6 nt) entre la secuencia problema y las de la base de datos.
Significación - Valoración
de los alineamientos
1. Valoración mediante matrices
Estrategia BLAST
Búsqueda de proteínas mediante criterios de semejanza (no
identidad).
Se utilizan matrices de semejanza
Trabaja con segmentos pequeños que permiten acelerar el proceso
(High-scoring segment pair)
Extensión de los match hacia los lados
Rápido y sensible
Usos
búsquedas en las bases de datos
alineamiento de pares de secuencias
Esquema BLAST
Nucleótidos
Query: GTACTGGACATGGACCCTACAGGAA
Word Size = 11
GTACTGGACAT Minimum word size
TACTGGACATG =7
ACTGGACATGG blastn default = 11
CTGGACATGGA megablast default =
TGGACATGGAC 28
GGACATGGACC
GACATGGACCC
ACATGGACCCT
...........
Proteínas
Query: GTQITVEDLFYNIATRRKALKN
Word Size = 3
GTQ
TQI
Similares
QIT
LTV, MTV, ISV, LSV, etc.
ITV
TVE
VED
EDL
DLF
...
Práctica
Objetivo general
Buscar secuencias similares a las secuencias problema.
BLAST DNA
Copiar la Secuencia PROBLEMA y someterla a BLAST de
DNA
>SeqDNA_Prob1.seq
ATGAAGGACTTAGTCGATACCACAGAGATGTACTTGCGTACTATCTATGAGCTGGAAGAAGAGGGAGTCA
CCCCTCTTCGCGCTAGGATCGCTGAGCGTCTGGAACAATCTGGACCTACAGTTAGCCAAACCGTTGCCCG
TATGGAGCGCGATGGACTTGTCGTTGTCGCCTCAGACCGCAGTCTACAAATGACACCGACAGGCCGCACT
TTAGCGACTGCAGTTATGCGTAAACATCGCTTAGCTGAGCGCCTTCTTACCGATATCATTGGTCTAGATA
TCAATAAAGTTCACGATGAAGCCTGCCGCTGGGAACACGTTATGAGTGACGAAGTTGAACGCAGGCTCGT
GAAAGTATTGAAAGATGTCAGTCGGTCCCCCTTCGGAAACCCAATTCCAGGTCTCGACGAACTCGGCGTA
GGCAATTCTGACGCGGCAGCCCCCGGAACTCGCGTTATTGACGCTGCCACCAGCATGCCCCGCAAAGTAC
GCATTGTTCAGATTAACGAAATCTTTCAAGTTGAAACGGATCAGTTTACACAGCTCCTCGATGCTGACAT
CCGTGTTGGATCAGAAGTCGAAATTGTAGATAGAGACGGCCACATCACGTTGAGCCACAATGGAAAAGAT
GTCGAACTCCTCGATGATCTGGCTCACACTATTCGTATCGAAGAACTCTAA
BLAST Proteína
Copiar la secuencia PROBLEMA y someterla a BLAST de
Proteína
>SeqProt-Prob1.pep
MENRIDRIKKQLHSSSYKLTPQREATVRVLLENEEDHLSAEDVYLLVKEKSPEIGLATVY
RTLELLTELKVVDKINFGDGVSRYDLRKEGAAHFHHHLVCMEFGAVDEIEGDLLEDVEEI
IERDWKFKIKDHRLTFHGICHRCNGKETE
Ejecutar Blast