Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Comparaci de dos seqncies Alineament de parelles Assignaci d'una puntuaci a l'alineament Puntuaci per gaps (penalitzacions) Matrius de subsEtuci: IdenEtat i similitud Alineament local i global Programaci dinmica (cerques per similitud)
Alineament de seqncies
30/09/13
Secuencia 1: Secuencia 2:
ACGGCT ACGT
Alineamiento
Forma
de
representar
y
comparar
dos
o
ms
secuencias
o
cadenas
de
DNA,
RNA,
o
estructuras
primarias
proteicas
para
resaltar
sus
zonas
de
similitud,
que
podran
indicar
relaciones
funcionales
o
evolu>vas
entre
los
genes
o
protenas
consultados
Secuencia 1: Secuencia 2: ATGCGACTGACG |||||||||||| ATGCGACTGACG
Signicado de un alineamiento
Estads)co Se le puede asignar una puntuacin a cada alineamiento que indique cun alejado est de un alineamiento al azar? Biolgico Comparten un ancestro comn? Implica una informacin funcional, estructural y evoluEva?
30/09/13
Seq 3 ACGGT
Sustraccin (dele)on)
ACGGCT ACGGCT ACGGCT |||| | |||| | |||| | Seq1
ACGGTT
Seq2
ACGGAT
Seq3
ACGG-T
83,3%
idnEcas
83,3%
idnEcas
83,3%
idnEcas
IdenEdad
Hueco (Gap)
A cada par del alineamiento se le asigna un valor que ser mayor o menor (incluso valores negaEvos) dependiendo de la probabilidad del evento evoluEvo que pudo haber generado ese cambio. Despus se suman todo estos valores a lo largo del alineamiento (Sistema de puntuacin adi>vo) A las puntuaciones negaEvas se les conoce como penalizaciones
+ probable - probable
30/09/13
ACGGCT ACGGCT ACGGCT |||| | |||| | |||| | Seq1
ACGGTT
Seq2
ACGGAT
Seq3
ACGG-T
83,3%
idnEcas
83,3%
idnEcas
83,3%
idnEcas
ACGGCT ACGGCT ACGGCT |||| | |||| | |||| | Seq1
ACGGTT
Seq2
ACGGAT
Seq3
ACGG-T
5
pts
5
pts
5
pts
30/09/13
+1 -1 -1 -2
+1 -1 -2
+1 -2
ACGGCT ACGGCT ACGGCT |||| | |||| | |||| | Seq1
ACGGTT
Seq2
ACGGAT
Seq3
ACGG-T
4
pts
4
pts
3
pts
-1,5 +1 -1,5 -1
-1,5 -1 -1,5 +1
ACGGCT ACGGCT ACGGCT |||| | |||| | |||| | Seq1
ACGGTT
Seq2
ACGGAT
Seq3
ACGG-T
4
pts
3,5
pts
3
pts
30/09/13
Human vs Bos taurus hemoglobin, alpha 2, mRNA Identities = 376/428 (88%), Gaps = 10/428 (2%)
Query Sbjct Query Sbjct Query
Sbjct Query
1 43 59 101 118
160 178
GTGCTGTCT-CCTGCCGACAAGACCAACGTCAAGGCCGCCTGGGGCAAGGTTGGC-GCGC ||||||||| || ||||||||| ||| ||||||||||||||||||||||||||| || | GTGCTGTCTGCC-GCCGACAAGGGCAATGTCAAGGCCGCCTGGGGCAAGGTTGGCGGC-C ACGCTGGC-GAGTATGGTGCGGAGGCCCTGGAGAGGATGTTCCTGTCCTTCCCCACCACC ||||| || |||||||| || |||||||||||||||||||||||| ||||||||||||| ACGCT-GCAGAGTATGGCGCAGAGGCCCTGGAGAGGATGTTCCTGAGCTTCCCCACCACC AAGACCTACTTCCCGCACTTCGACCTGAGCCACGGCTCTGCCCAGGTTAAGGGCCACGGC |||||||||||||| ||||||||||||||||||||||| || ||||| |||||||||||| AAGACCTACTTCCCCCACTTCGACCTGAGCCACGGCTCCGCGCAGGTCAAGGGCCACGGC
AAGAAGGTGGCCGACGCGCTGACCAACGCCGTGGCGCACGTGGACGACATGCCCAACGCG ||||||||||| |||||||||||| || |||| ||| |||||||| ||||| || GCGAAGGTGGCCGCCGCGCTGACCAAAGCGGTGGAACACCTGGACGACCTGCCCGGTGCC
CTGTCCGCCCTGAGCGACCTGCACGCGCACAAGCTTCGGGTGGACCCGGTCAACTTCAAG ||||| | ||||| ||||||||||| |||||||| || ||||||||||||||||||||| CTGTCTGAACTGAGTGACCTGCACGCTCACAAGCTGCGTGTGGACCCGGTCAACTTCAAG CTCCTAAGCCACTGCCTGCTGGTGACCCTGGCCGCCCACCTCCCC-GCCGAGTTCACCCC || || ||||||| ||||||||||||||||||| ||||||||||| | || |||||||| CTTCTGAGCCACTCCCTGCTGGTGACCCTGGCCTCCCACCTCCCCAG-TGATTTCACCCC TGCGGTGCACGCCTCCCTGGACAAGTTCCTGG-CTTCTGTGAGCACCGTGCTGACCTCCA ||||| ||||||||||||||||||||| ||| | | |||||||||||||||||||||| CGCGGTCCACGCCTCCCTGGACAAGTTCTTGGCCAAC-GTGAGCACCGTGCTGACCTCCA
AATACCGT |||||||| AATACCGT 423
Sbjct
458
465
Human vs Bos taurus hemoglobin, alpha 2, protein Identities = 125/141 (89%), Gaps = 0/141 (0%)
1 2 61 62 121 122 VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGK ||| ||| |||||||||| || ||||||||||||||||||||||||||||||||||||| VLSAADKGNVKAAWGKVGGHAAEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGA KVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPA ||| ||| || | || | ||| ||||||||||||||||||||| |||||| ||| |||| KVAAALTKAVEHLDDLPGALSELSDLHAHKLRVDPVNFKLLSHSLLVTLASHLPSDFTPA VHASLDKFLASVSTVLTSKYR ||||||||||||||||||||| VHASLDKFLASVSTVLTSKYR 141 142 60 61 120 121
30/09/13
Human vs Bos taurus hemoglobin, alpha 2, protein Identities = 125/141 (89%), Positives = 130/141 (92%)
1 2 61 62 121 122 VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGK ||| ||| |||||||||| || ||||||||||||||||||||||||||||||||||||| VLSAADKGNVKAAWGKVGGHAAEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGA KVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPA ||| ||| || |:||:| ||| ||||||||||||||||||||| ||||||:|||::|||| KVAAALTKAVEHLDDLPGALSELSDLHAHKLRVDPVNFKLLSHSLLVTLASHLPSDFTPA VHASLDKFLASVSTVLTSKYR ||||||||||||||||||||| VHASLDKFLASVSTVLTSKYR 141 142 60 61 120 121
| Iden>dades : Similitudes
30/09/13
Estas matrices de idenEdad funcionan bien para alineamientos de protenas muy similares, pero NO para secuencias relaEvamente distantes.
30/09/13
PAM250
Las probabilidades usadas en los clculos de la matriz se computan observando los "bloques" de secuencias conservadas encontrados en los alineamientos de protenas divergentes. Se asume que estas secuencias conservadas son de importancia funcional dentro de las protenas relacionadas. A A C E C Se consideraron, entonces, pares de frecuencias entre los segmentos de los alineamientos con menos de un 62% de iden>dad y se construy la matriz BLOSUM62. Se usarn matrices BLOSUM de numeracin alta para alinear dos secuencias cercanamente relacionadas, mientras que se uElizarn nmeros ms bajos para secuencias ms divergentes.
30/09/13
BLOSUM 62
Menos Ms divergentes < < <<<> >> > > divergentes (cercanas) (alejadas) BLOSUM80 PAM30 BLOSUM62 PAM120 BLOSUM45 PAM250
Para casi todos los programas que uElizan matrices de susEtucin, la matriz BLOSUM62 es a menudo una buena primera opcin! BLOSUM62 se uEliza por defecto en muchos programas y algoritmos.
10
30/09/13
11
30/09/13
(a)
HBA_HUMAN HBB_HUMAN
(b)
HBA_HUMAN
(c)
HBA_HUMAN F11G11 2
W = - g - r(x-1)
Muchos programas de alineamiento sugieren los valores por defecto, modicar estas variables cambiar el alineamiento y su interpretacin. Score total del alineamiento
12
30/09/13
13
30/09/13
Length: 183 IdenEty: 32/183 (17.5%) Similarity: 59/183 (32.2%) Gaps: 71/183 (38.8%) Score: 35.0
ParEal
sequence
mitochondrial
DNA
control
region
Homo
neanderthalensis
from
Spain
vs.
Homo
sapiens
isolate
Nairobi-023.
H.sapiens Neanderthal H.sapiens Neanderthal H.sapiens Neanderthal H.sapiens
Neanderthal H.sapiens
1 TTCTTTCATGGGGAAGCAGATTTGGGTACCACCCAAGTATTGACTCACCC |||||||||||||.|||||||||||||||||||||||||||||||||||| 1 TTCTTTCATGGGGGAGCAGATTTGGGTACCACCCAAGTATTGACTCACCC 51 ATCAACAACCGCTATGTATTTCGTACATTACTGCCAGCCACCATGAATAT ||||.||||||||||||||||||||||||||||||||||||||||||||| 51 ATCAGCAACCGCTATGTATTTCGTACATTACTGCCAGCCACCATGAATAT 101 TGTACAGTACCATAAATACTTGACTACCTGTAGTACATAAAAGCCCAATC |||||||||||||||.||||||||||||||.|||||||||||.||.|||| 101 TGTACAGTACCATAATTACTTGACTACCTGCAGTACATAAAAACCTAATC 151 CACATCAAACCCTCCCCCCCATGCTTACAAGCAAGTACAGCAATCAACCT ||||||||||||.||||||||||||||||||||||.|||||||||||||| 151 CACATCAAACCCCCCCCCCCATGCTTACAAGCAAGCACAGCAATCAACCT
201 TCAACTATCACACATCAACTGCAACTCCAAAGCCACCCCT-CACCCACTA ||||||.|||.|||||||||.|||||||||||.|.|||.| ||||||||| 201 TCAACTGTCATACATCAACTACAACTCCAAAGACGCCCTTACACCCACTA
250 GGATATCAACAAACCTACCCACCCTTAACAGTACATAGCACATAAAGCCA ||||||||||||||||||||||||||.||||||||||||||||||||.|| 251 GGATATCAACAAACCTACCCACCCTTGACAGTACATAGCACATAAAGTCA 300 TTTACCGTACATAGCACATTACAGTCAAATCCTTTCTCGCCCCCATGGAT ||||||||||||||||||||||||||||||||.||||||||||||||||| 301 TTTACCGTACATAGCACATTACAGTCAAATCCCTTCTCGCCCCCATGGAT 350 GACCCCCCTCAGATAGGGGTCCCTTGAC |||||||||||||||||||||||||||. 351 GACCCCCCTCAGATAGGGGTCCCTTGAT 377 378
DNA Matrix: Match: +5 Missmatch: -4 Gap_penalty: 10.0 Extend_penalty: 0.5 Length: 378 Iden>ty: 359/378 (95.0%) Missmatches: 18/378 (5.0%) Gaps: 1/378 ( 0.3%) Score = 359 x 5 18 x 4 10 Score = 1713.0
14
30/09/13
Alinea pares de secuencias GaranEza alineamientos p>mos y exactos (Mtodo cuan>ta>vo) Computacionalmente costoso, lento Global: Needelman & Wunch (1970) Local: Smith-Waterman (1981)
Alineamientos no siempre p>mos (aproximados pero cuan>ta>vos) Permite bsquedas rpidas en bases de datos grandes (BLAST y FASTA)
No hace alineamientos pEmos (Mtodo cualita>vo) Permite idenEcar visulamente repeEciones inter e intrasecuenciales. Rpida idenEcacin de indels (Inser)ons and/or Dele)ons), patrones de reorganizacin en los genomas y eventos de transferencia horizontal
15
30/09/13
Buscando el mejor alineamiento entre dos secuencias Si tenemos dos secuencias a alinear X y Y con longitudes m y n respecEvamente, tendremos f(m,n) maneras de representarlas en un alineamiento. Cul es el alineamiento correcto (el qu ms senEdo biolgico Eene)? Posible solucin Construir todos los posibles alineamientos Calcular la puntuacin de cada uno El alineamiento pEmo es el que obtenga el valor ms grande
Buscando el mejor alineamiento entre dos secuencias Si tenemos dos secuencias a alinear X y Y con longitudes m y n respecEvamente, tendremos f(m,n) maneras de representarlas en un alineamiento. Cul es el alineamiento correcto (el qu ms senEdo biolgico Eene)? Posible solucin Construir todos los posibles alineamientos Mtodo c omp uptuntuacin C alcular la de cada uno acionalm ente muy cos El alineamiento pEmo es el que obtenga el valor toso!!! ms grande
16
30/09/13
Programacin
dinmica
La
idea
bsica
es
construir
el
mejor
alineamiento
usando
alineamientos
op>mos
de
sub-secuencias
menores.
(Saul
Needleman
and
ChrisEan
Wunsch,
1970)
El
algoritmo
de
Needleman
y
Wunsch
es
un
ejemplo
de
programacin
dinmica
que
uEliza
un
algoritmo
recursivo.
G
A
T
A
C
T
A
G
A
T
T
A
C
C
A
Paso
#1:
Denir
la
matriz
de
susEtucin
y
las
penalizaciones.
+1 -1 -1
17
30/09/13
Paso #2: Construir la matriz C(nxm) de forma recursiva donde cada elemento de la matriz lo llamaremos C(i,j).
G A T A C T A G A T T A C C A
G A T A C T A G A T T A C C A
Desde aqu
Hasta ac
18
30/09/13
El score para una ruta (path) es la suma incremental de los scores de sus pasos (diagonales o lados). La ruta con score ms alto es el alineamiento ptimo
G A T A C T A G A T T A C C A
Cul es el ptimo?
19
30/09/13
G A T A C T A G A T T A C C A
A alineada con A
Match = +1
G A T A C T A G A T T A C C A
A alineada con T
Mismatch = -1
20
30/09/13
G A T A C T A G A T T A C C A
T alineada con NADA
Gap = -1
Paso #2: Construir la matriz C(nxm). C(i-1,j-1) + s(i,j) C(i,j) = max C(i-1,j) + s(i,-) C(i,j-1) + s(-,j)
G! G!
+1
A! G!
-1
G! !
-1
G A T T A C C A
0 -1 -2 -3 -4 -5 -6 -7 -8
G A T A C T A
-1 -2 -3 -4 -5 -6
-7
21
30/09/13
Paso #2: Construir la matriz C(nxm). C(i-1,j-1) + s(i,j) C(i,j) = max C(i-1,j) + s(i,-) C(i,j-1) + s(-,j)
G! G!
+1
A! G!
-1
G! !
-1
G A T T A C C A
G A T A C T A
-1 -2 -3 -4 -5 -6
-7
-1 -2 -3 -4 -5 -6 -7 -8
+1
Paso #2: Construir la matriz C(nxm). C(i-1,j-1) + s(i,j) C(i,j) = max C(i-1,j) + s(i,-) C(i,j-1) + s(-,j)
G! G!
+1
A! G!
-1
G! !
-1
G A T T A C C A
G A T A C T A
-1 -2 -3 -4 -5 -6
-7
-1 -2 -3 -4 -5 -6 -7 -8
+1 0 -1
0 +2 +1
-1 +1 +3
22
30/09/13
Paso #2: Construir la matriz C(nxm). C(i-1,j-1) + s(i,j) C(i,j) = max C(i-1,j) + s(i,-) C(i,j-1) + s(-,j)
G! G!
+1
A! G!
-1
G! !
-1
G A T T A C C A
0 -1 -2 -3 -4 -5 -6 -7 -8
G A T A C T A
-1 -2 0 +2 +1 0 -1 -2 -3 -4 -3 -1 +1 +3 +2 +1 0 -1 -2 -4 -2 0 +2 +2 +3 +2 +1 0 -5 -3 -1 +1 +1 +2 +4 +3 +2 -6 -4 -2 0 +2 +1 +3 +3 +2 +1 0 -1 -2 -3 -4 -5 -6
-7 -5 -3 -1 +1 +3 +2 +2 +4
El score para el alineamiento ptimo es el valor que tenga el elemento C(n,m). Score = +4 El camino (path) ptimo se realiza desde este punto hasta el inicio de la matriz.
G A T T A C C A
0 -1 -2 -3 -4 -5 -6 -7 -8
G A T A C T A
-1 -2 0 +2 +1 0 -1 -2 -3 -4 -3 -1 +1 +3 +2 +1 0 -1 -2 -4 -2 0 +2 +2 +3 +2 +1 0 -5 -3 -1 +1 +1 +2 +4 +3 +2 -6 -4 -2 0 +2 +1 +3 +3 +2 +1 0 -1 -2 -3 -4 -5 -6
-7 -5 -3 -1 +1 +3 +2 +2 +4
23
30/09/13
El camino (path) ptimo se realiza desde este punto hasta el inicio de la matriz.
G A T T A C C A
0 -1 -2 -3 -4 -5 -6 -7 -8
G A T A C T A
-1 -2 0 +2 +1 0 -1 -2 -3 -4 -3 -1 +1 +3 +2 +1 0 -1 -2 -4 -5 -3 -1 +1 +1 +2 +4 +3 +2 -6 -4 -2 0 +2 +1 +3 +3 +2 +1 0 -1 -2 -3 -4 -5 -6 -2 0 +2 +2 +3 +2 +1 0
-7 -5 -3 -1 +1 +3 +2 +2 +4
G A T A C T A G A T T A C C A
24
30/09/13
El algoritmo de Needleman y Wunsch (1970) permite hacer alineamientos globales pEmos (Alinea las secuencias a lo largo de toda su longitud). Secuencias de longitudes similares Secuencias rela)vamente parecidas
En 1981, Temple Smith and Mike Waterman proponen una modicacin del algoritmo de Needleman-Wunsch para obtener alineamientos locales obteniendo el mejor score entre dos sub-secuencias de un par de secuencias. El en secuencias ms divergentes Las secuencias pueden tener cualquier longitud Se diferencia del mtodo anterior en la construccin de la matriz C(mxn)
Las secuencias se alinean en regiones pequeas y aisladas Muestra regiones (dominios) conservadas entre secuencias relativamente distantes
25