Bioinformatica 3

Alineamiento de
secuencias
Alineamiento de
Alineamiento secuencias
Comparar dos (alineación a pares) o más
(alineación múltiple) secuencias para buscar
una serie de caracteres o patrón de caracteres
que están en el mismo orden en las
secuencias
Secuencia 1: ATGCGACTGACG
||||||||||||
Secuencia 2: ATGCGACTGACG
Significado de un alineamiento
Estadístico
Por azar (alineamiento de secuencias al azar pueden
producir un 20% identidad)
Biológico
Comparten un ancestro común. Implica una información
funcional, estructural y evolutiva?
Alineamiento de
secuencias
Un alineamiento compara
permitiendo:
•• Identificar
Identificar genes
genes homólogos/similares
homólogos/similares
•• Asignar
Asignar funciones
funciones biológicas
biológicas (reales,
(reales, posibles?)
posibles?)
•• Predecir
Predecir estructura
estructura
•• Encontrar
Encontrar patrones
patrones
•• Reconstruir
Reconstruir relaciones
relaciones evolutivas
evolutivas
•• ……
……
Homología vs
similitud
Homólogo, similar, idéntico
• Homología
– dos secuencias son homólogas sólo si derivan de
una ancestro común
– implica una herencia compartida
– cualitativo
– se es homólogo o no se es
• Similitud
– medida cuantitativa
– se puede usar una medida de similitud para inferir
homología
Global vs Local
Global: Intentamos alinear todos los caracteres de

las secuencias optimizando el número máximo de
identidades
Local: Alineamos segmentos de las secuencias

donde la densidad de identidades es mayor,
generamos subalinemientos
Alineamiento de
secuencias
Un proceso de alineamiento debe efectuar una
búsqueda activa del mejor alineamiento posible y debe
considerar los cambios que sufren las secuencias:
• Identidades -> Emparejamientos (match)

• Sustituciones -> Desemparejamientos (mismatch)
• Deleciones e inserciones (indel) -> Huecos (gaps)
Alineamiento de
secuencias
Cómo decidir cuál es el mejor?
• Respuesta: el más significativo desde

el punto de vista biológico
• Pero: necesitamos una medida objetiva
• Sistemas de puntuación (scoring)

– reglas para asignar puntos
– el más simple: match, mismatch, gap
Valoración de un alineamiento
Como valorar un alineamiento?
Ejemplo
Ejemplo
Identidad
Identidad == 11
Missmatch
Missmatch == 00
Gap
Gap == -1
-1
Score
Score == 10
10 -- 44 == 66
Valoración de un alineamiento
Valoración (score) de un
alineamiento
Máxima puntuación = Alineamiento óptimo
F (puntuación emparejamiento
Puntuación = idéntico, puntuación
emparejamiento similar,
puntuación huecos –gap-)
Matriz para DNA
Una
Una matriz
matriz no
no es
es otra
otra cosa
cosa
que
que un
un sistema
sistema dede scoring
scoring
que
que permite
permite asignar
asignar
puntuaciones
puntuaciones individuales
individuales
a
a cada
cada una
una de
de las
las letras
letras
del
del alfabeto
alfabeto en
en uso
uso
Matriz para DNA
A G C T
A +1 –3 –3 -3 Score
Score
Match:
Match:++11
G –3 +1 –3 -3 Mismatch:
Mismatch:--33
C –3 –3 +1 -3
T –3 –3 –3 +1
CAGGTAGCAAGCTTGCATGTCA
|| |||||||||||| ||||| raw score = 19-9 = 10
CACGTAGCAAGCTTG-GTGTCA
Score
Score
Match:
Match:++11
Mismatch:
Mismatch:-10000
-10000
Matriz para DNA
Modelos evolutivos DNA
Matriz
Matriz de
de substitución
substitución para
para DNA
DNA
Ejemplo:
Ejemplo:
Transiciones
Transiciones // Transversiones
Transversiones A,A
A,A == 11
p(transición)
p(transición) >> p(transversión)
p(transversión) A,C
A,C == 00
C,T
C,T == 0,5
0,5
Gap
Gap == -1-1
Matriz para proteínas
Matrices de puntuación para proteínas
Matriz de identidad
Secuencia A Tyr Cys Asp Ala Met
Secuencia B Phe Met Glu Gly Met
0 0 0 0 1
Puntuación total del alineamiento: 0+0+0+0+1 = 1
Matrices de susbtitución
Secuencia A Tyr Cys Asp Ala

Secuencia B Phe Met Glu Gly
3 -1 2 0
Puntuación total del alineamiento: 3-1+2+0 = 4
Matriz para proteínas
Modelos evolutivos Proteínas
Mutaciones
Mutaciones (código
(código genético)
genético)
Substituciones
Substituciones conservativas
conservativas
Matriz
Matriz de
de substitución
substitución para
para proteínas
proteínas
••PAM
PAM 60,
60, 120,
120, 250
250 (Dayhoff)
(Dayhoff)
Extrapolación
Extrapolación desde
desde PAM1
PAM1
••BLOSUM
BLOSUM 80,
80, 62,
62, 40
40
Basadas
Basadas en en BLOCKS
BLOCKS de
de
secuencias
secuencias
Matrices PAM (Percent Accepted Mutation)
Evolutionary model
• Creadas partiendo de un grupo de secuencias homólogas con un porcentage de

similitud igual o superior al 85 %.
• Proporcionan los cambios esperados entre proteínas homólogas a lo largo de un

determinado periodo evolutivo
• Generan una matriz 20 x 20
• Todas calculadas a partir de PAM1 (identidades aprox 99%)
• Se pueden extrapolar los cambios esperados en periodos cortos a los esperados

en periodos largos simplemente multiplicando la matriz original n veces.
• La más utilizada: PAM 250 (identidades aprox 20%)

Matrices BLOSUM (BLOck SUbstitution Matrices)
•Creadas utilizando un gran número de secuencias NO homólogas

pertenecientes a distintas familias
•Se evaluan las tasas de sustitución en patrones de residuos altamente

conservados (BLOCKS)
•Generan matrices 20 x 20
•Las distintas matrices se generan usando agrupaciones de bloques con

mayor o menor grado de similitud
•La matriz por defecto: BLOSUM62

Matriz PAM 250
Blosum 62
A 4
R -1 5
N -2 0 6 Los
Losscores
scoresprovienen
provienen
del
del la observaciónde
la observación de
D -2 -2 1 6 los tipos y frecuencias
los tipos y frecuencias
C 0 -3 -3 -3 9 de
desustitución
sustituciónen
en
Q -1 1 0 0 -3 5 distintas familias
distintas familias
proteicas
proteicas
E -1 0 0 2 -4 2 5
G 0 -2 0 -1 -3 -2 -2 6
H -2 0 1 -1 -3 0 0 -2 8
I -1 -3 -3 -3 -1 -3 -3 -4 -3 4
L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4
K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5
M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5
FF -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6
P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7
S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4
T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5
Negative for -4
W -3 -3 -4 less-2likely substitutions
-2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11
Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7
V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1
4 Positive for more likely substitutions
X 0 -1 -1 -1 -2 -1 -1 -1 -1 -1 -1 -1 -1 -1 -2 0 0 -2 -1
-1 -1
A R N D C Q E G H I L K M F P S T W Y
V X
Equivalencia PAM - BLOSUM
PAM100
PAM100 ==>
==> Blosum90
Blosum90
PAM120
PAM120 ==>
==> Blosum80
Blosum80
PAM160
PAM160 ==>
==> Blosum60
Blosum60
PAM200
PAM200 ==>
==> Blosum52
Blosum52
PAM250
PAM250 ==>
==> Blosum45
Blosum45
BLOSUM:
BLOSUM: “mejor”
“mejor” para
para la
la detección
detección alineamientos
alineamientos locales
locales
BLOSUM
BLOSUM 62:
62: “mejor”
“mejor” detección
detección similitudes
similitudes débiles
débiles
BLOSUM
BLOSUM 45:
45: “mejor”
“mejor” detección
detección alineamientos
alineamientos largos
largos yy débiles
débiles
PAM vs BLOSUM
•PAM asume un modelo de evolución markoviano (todos los

cambios independientes)
•BLOSUM no supone ningún modelo evolutivo explícito
•PAM considera todas las posiciones amino acídicas
•BLOSUM considera sólo los cambios en posiciones dentro de
bloques conservados
•PAM asume que la distribución de aa de las secuencias que la
generaron es representativa de todas las familias de proteínas
•BLOSUM se generó usando un mayor número de secuencias y de
familias distintas
•PAM requiere un conocimiento previo de la distancia evolutiva
Conclusión:
PAM es más adecuada para trazar el origen evolutivo de proteínas

BLOSUM es más apropiada para hallar dominios conservados
Métodos de alineamiento
Métodos de alineamiento de dos
secuencias
•Dot Matrix (Matriz de puntos)
Rápida identificación de indels / No alineamientos óptimos
•Dynamic Programming (Programación dinámica)
Garantiza alineamiento óptimo / Computacionalmente

costoso
•Heuristic Searches (Búsquedas heurísticas)
Búsquedas rápidas en bases de datos grandes /

alineamientos locales y no siempre óptimos
Dot Matrix
Matriz de puntos (Dot matrix, Gibbs & McIntyre 1970)
Se ponen de manifiesto todos los emparejamientos posibles pero es el investigador quien
debe determinar cuales son significativos
C| X X
G| X
T| X : A T T G C
T| X | | : | |
A|X A T C G C
+--------
A T C G C A| X
C| X - A T G C A
G|X X | | | |
T| X G A T G C
A|- X
+---------
G A T G C
Alineamiento: matriz de puntos
Dot plots sugieren
caminos (paths) a Dominios EGF conservados en la urokinse plasminogen
través del espacio de activator (PLAU) y el tissue plasminogen activator
alineamientos posibles. (PLAT)
90 137 90 137
23
Path graphs son 23
representaciones
más explícitas de
un alineamiento.
Cada path es un
alineamiento único.
72
PLAU 90 72
EPKKVKDHCSKHSPCQKGGTCVNMP--SGPH-CLCPQHLTGNHCQKEK---CFE 137
PLAT 23 ELHQVPSNCD----CLNGGTCVSNKYFSNIHWCNCPKKFGGQHCEIDKSKTCYE 72
Programación dinámica
Algoritmos de programación dinámica

Métodos computacionales que comparan cada pareja de
caracteres y los posicionan de forma que el número de
emparejamientos idénticos o relacionados sea el máximo
posible
Alineamiento global de Needlman-Wunsh (1970)
Alineamiento local de Smith-Waterman (1981)

Alineamiento global y local
Needleman & Wunsch (1970) Smith & Waterman (1981)
Las secuencias se Las secuencias se

alinean alinean en regiones
esencialmente de un pequeñas y aisladas
extremo a otro
Heuristic searches
MPKRSEYRQGTPNWVDLQTTDQSAAKKFYTLFGWGYDDNPVPGGGGVY
SMATLNGEAVAAIAPMPPGAPEGMPPIWNTYIAVDDVDAVVDKVVPGG
GQVMMPAFDIGDAGRMSFITDPTGAAVGWQANRHIGATLVNETGTLIW
NELLTDKPDLALAFYEAVVGLTHSSMEIAAGQNY
¿Hay en la base de datos

alguna secuencia similar
a mi secuencia
problema?
Búsquedas por
Resultados
Similar to …………
similitud
Unknown but similar to several hypothetical proteins from…
Putative hypothetical protein……..
Búsqueda de similares
Búsqueda de similares en
una base de datos
Objetivo: comparar una secuencia frente a
una base de datos, comprar dos base de
datos...
Algoritmos
Exactos: Smith-Waterman (sssearch, lalign, ..)
Heurísticos: BLAST (búsqueda de “words” similares)

FASTA (búsqueda de “k-tuplos” idénticos)
Métodos
heurísticos
Método heurístico: prueba y error
Suele encontrar secuencias relacionadas pero nunca
hay garantía absoluta.
Ventaja: 50 veces más rápido que programas dinámicos
Usos: búsquedas sobre bases de datos de gran tamaño
BLAST (Basic Local Alignment Search Tool)

(Altschul, et al, 1990, J Mol Biol, 215:403-10)
Concentra la búsqueda en patrones cortos más significativos, (palabra,
word size: 3 aa / 11 nt). Rápido, menos sensible?
FASTA
(Lipman y Pearson, 1985; Pearson y Lipman, 1988)
El algoritmo busca patrones cortos consecutivos (palabras o k-tuplos, k=
1-2 aa / 4-6 nt) entre la secuencia problema y las de la base de datos.
Significación - Valoración
de los alineamientos
1. Valoración mediante matrices
2. Penalización por disimilitud (aparición y extensión de gaps). Este valor es

la Puntuación bruta (raw score, Sraw).
3. Puntuación de bits (Sbit). Permite comparar resultados obtenidos por

diferentes sistemas. Se introducen parámetros utilizados por el programa
de alineamiento.
4. E value alineamiento debido al azar. Los valores más cercanos a cero

indican una mayor relevancia. Se puede considerar relevante cuando E <
0.05
(Basic Local Alignment Search Tool)
Altschul, et al, 1990, J Mol Biol, 215:403-10
Heurístico
BLAST intenta encontrar muchos matches sacrificando la especificidad
por la velocidad. Se pueden perder apareamientos.
Estrategia BLAST
Búsqueda de proteínas mediante criterios de semejanza (no
identidad).
Se utilizan matrices de semejanza
Trabaja con segmentos pequeños que permiten acelerar el proceso
(High-scoring segment pair)
Extensión de los match hacia los lados
Rápido y sensible
Usos
búsquedas en las bases de datos
alineamiento de pares de secuencias
Esquema BLAST
Nucleótidos
Query: GTACTGGACATGGACCCTACAGGAA
Word Size = 11
GTACTGGACAT Minimum word size
TACTGGACATG =7
ACTGGACATGG blastn default = 11
CTGGACATGGA megablast default =
TGGACATGGAC 28
GGACATGGACC
GACATGGACCC
ACATGGACCCT
...........
Proteínas
Query: GTQITVEDLFYNIATRRKALKN
Word Size = 3
GTQ
TQI
Similares
QIT
LTV, MTV, ISV, LSV, etc.
ITV
TVE
VED
EDL
DLF
...
Práctica
Objetivo general
Buscar secuencias similares a las secuencias problema.
BLAST DNA
Copiar la Secuencia PROBLEMA y someterla a BLAST de
DNA
>SeqDNA_Prob1.seq
ATGAAGGACTTAGTCGATACCACAGAGATGTACTTGCGTACTATCTATGAGCTGGAAGAAGAGGGAGTCA
CCCCTCTTCGCGCTAGGATCGCTGAGCGTCTGGAACAATCTGGACCTACAGTTAGCCAAACCGTTGCCCG
TATGGAGCGCGATGGACTTGTCGTTGTCGCCTCAGACCGCAGTCTACAAATGACACCGACAGGCCGCACT
TTAGCGACTGCAGTTATGCGTAAACATCGCTTAGCTGAGCGCCTTCTTACCGATATCATTGGTCTAGATA
TCAATAAAGTTCACGATGAAGCCTGCCGCTGGGAACACGTTATGAGTGACGAAGTTGAACGCAGGCTCGT
GAAAGTATTGAAAGATGTCAGTCGGTCCCCCTTCGGAAACCCAATTCCAGGTCTCGACGAACTCGGCGTA
GGCAATTCTGACGCGGCAGCCCCCGGAACTCGCGTTATTGACGCTGCCACCAGCATGCCCCGCAAAGTAC
GCATTGTTCAGATTAACGAAATCTTTCAAGTTGAAACGGATCAGTTTACACAGCTCCTCGATGCTGACAT
CCGTGTTGGATCAGAAGTCGAAATTGTAGATAGAGACGGCCACATCACGTTGAGCCACAATGGAAAAGAT
GTCGAACTCCTCGATGATCTGGCTCACACTATTCGTATCGAAGAACTCTAA
Iniciar una sesión BLAST Nucleotide

Limitar la búsqueda a Blast de Bacteria
Práctica
BLAST Proteína
Copiar la secuencia PROBLEMA y someterla a BLAST de
Proteína
>SeqProt-Prob1.pep
MENRIDRIKKQLHSSSYKLTPQREATVRVLLENEEDHLSAEDVYLLVKEKSPEIGLATVY
RTLELLTELKVVDKINFGDGVSRYDLRKEGAAHFHHHLVCMEFGAVDEIEGDLLEDVEEI
IERDWKFKIKDHRLTFHGICHRCNGKETE
Iniciar una sesión BLAST Protein
Limitar la búsqueda a Blast de Bacteria
Ejecutar Blast

Bioinformatica 3

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Bioinformatica 3

Cargado por

Copyright:

Formatos disponibles

Alineamiento de

Global: Intentamos alinear todos los caracteres de

Local: Alineamos segmentos de las secuencias

• Identidades -> Emparejamientos (match)

• Respuesta: el más significativo desde

• Sistemas de puntuación (scoring)

Secuencia A Tyr Cys Asp Ala

• Creadas partiendo de un grupo de secuencias homólogas con un porcentage de

• Proporcionan los cambios esperados entre proteínas homólogas a lo largo de un

• Generan una matriz 20 x 20

• Todas calculadas a partir de PAM1 (identidades aprox 99%)

• Se pueden extrapolar los cambios esperados en periodos cortos a los esperados

• La más utilizada: PAM 250 (identidades aprox 20%)

•Creadas utilizando un gran número de secuencias NO homólogas

•Se evaluan las tasas de sustitución en patrones de residuos altamente

•Las distintas matrices se generan usando agrupaciones de bloques con

•La matriz por defecto: BLOSUM62

•PAM asume un modelo de evolución markoviano (todos los

PAM es más adecuada para trazar el origen evolutivo de proteínas

Rápida identificación de indels / No alineamientos óptimos

•Dynamic Programming (Programación dinámica)

Garantiza alineamiento óptimo / Computacionalmente

•Heuristic Searches (Búsquedas heurísticas)

Búsquedas rápidas en bases de datos grandes /

Algoritmos de programación dinámica

Alineamiento global de Needlman-Wunsh (1970)

Alineamiento local de Smith-Waterman (1981)

Needleman & Wunsch (1970) Smith & Waterman (1981)

Las secuencias se Las secuencias se

¿Hay en la base de datos

Exactos: Smith-Waterman (sssearch, lalign, ..)

Heurísticos: BLAST (búsqueda de “words” similares)

Ventaja: 50 veces más rápido que programas dinámicos

Usos: búsquedas sobre bases de datos de gran tamaño

BLAST (Basic Local Alignment Search Tool)

2. Penalización por disimilitud (aparición y extensión de gaps). Este valor es

3. Puntuación de bits (Sbit). Permite comparar resultados obtenidos por

4. E value alineamiento debido al azar. Los valores más cercanos a cero

Iniciar una sesión BLAST Nucleotide

Iniciar una sesión BLAST Protein

Limitar la búsqueda a Blast de Bacteria

También podría gustarte