Alin 2 Seqs PDF

30/09/13
Comparaci de dos seqncies Alineament de parelles Assignaci d'una puntuaci a l'alineament Puntuaci per gaps (penalitzacions) Matrius de subsEtuci: IdenEtat i similitud Alineament local i global Programaci dinmica (cerques per similitud)
Alineament de seqncies
Cul es el mejor alineamiento entre las secuencias GAATTCAG y GGATCG?
30/09/13
Secuencia 1: Secuencia 2:
ACGGCT ACGT
Qu parmetros podemos usar para comparar estas dos secuencias?

Tamao Frecuencia de sus bases Contenido G+C MoEvos comunes 6pb vs 4pb {1,2,2,1} vs {1,1,1,1} 66,6% vs 50% ACG al inicio de ambas
La comparacin que ms informacin nos da es hacer un alineamiento
Alineamiento Forma de representar y comparar dos o ms secuencias o cadenas de DNA, RNA, o estructuras primarias proteicas para resaltar sus zonas de similitud, que podran indicar relaciones funcionales o evolu>vas entre los genes o protenas consultados
Secuencia 1: Secuencia 2: ATGCGACTGACG |||||||||||| ATGCGACTGACG
Signicado de un alineamiento
Estads)co Se le puede asignar una puntuacin a cada alineamiento que indique cun alejado est de un alineamiento al azar? Biolgico Comparten un ancestro comn? Implica una informacin funcional, estructural y evoluEva?
30/09/13
Seq 1 ACGGTT Seq 2 ACGGAT
SusEtucin (transicin) SusEtucin (transvercin)
ACGGCT (Ancestro comn)
Seq 3 ACGGT
Sustraccin (dele)on)
ACGGCT ACGGCT ACGGCT |||| | |||| | |||| | Seq1 ACGGTT Seq2 ACGGAT Seq3 ACGG-T
83,3% idnEcas 83,3% idnEcas 83,3% idnEcas
IdenEdad
Hueco (Gap)
Tendrn la misma historia evolu>va estas secuencias?
A cada par del alineamiento se le asigna un valor que ser mayor o menor (incluso valores negaEvos) dependiendo de la probabilidad del evento evoluEvo que pudo haber generado ese cambio. Despus se suman todo estos valores a lo largo del alineamiento (Sistema de puntuacin adi>vo) A las puntuaciones negaEvas se les conoce como penalizaciones
Asignacin de una puntuacin (Score) al alineamiento
+ probable - probable
IdenEdades Transiciones Transversiones Indels (InserEons or DeleEons)
30/09/13
83,3% idnEcas 83,3% idnEcas 83,3% idnEcas
Apareamientos (Matches) = +1 Desaparearmientos (Mismatches) = 0

A A C G T +1 0 0 0 C 0 +1 0 0 G 0 0 +1 0 T 0 0 0 +1
Matrices de iden>dad o de sus>tucin Matriz unitaria
5 pts 5 pts 5 pts
Apareamientos (IdenEdades) = +1 Desaparearmientos (No idenEdades) = 0

A A C G T +1 0 0 0 C 0 +1 0 0 G 0 0 +1 0 T 0 0 0 +1
Matrices de iden>dad o de sus>tucin Matriz unitaria
30/09/13
Apareamientos (IdenEdades) = +1 Desaparearmientos (No idenEdades) = -1 Gaps = -2

A A C G T - -1 -1 -1 -2 C G -1 T -1 -1 - -2 -2 -2 - ndices de la matriz| puntuacin (score) de cada cambio s (i , j) = -1 +1 -1 -1 -1 -2
+1 -1 -1 -2
+1 -1 -2
+1 -2
4 pts 4 pts 3 pts
Apareamientos (IdenEdades) = +1 Desaparearmientos (Transiciones) = -1 Desaparearmientos (Transversiones) = -1,5 Gaps = -2

A A C G T - +1 -1 -2 C G T - -2 -2 - -1,5 -1 -1,5 +1 -2 -2 -1,5 -2 -1,5 -2 -2
-1,5 +1 -1,5 -1
-1,5 -1 -1,5 +1
4 pts 3,5 pts 3 pts
30/09/13
Human vs Bos taurus hemoglobin, alpha 2, mRNA Identities = 376/428 (88%), Gaps = 10/428 (2%)
Query Sbjct Query Sbjct Query
Sbjct Query
1 43 59 101 118
160 178
GTGCTGTCT-CCTGCCGACAAGACCAACGTCAAGGCCGCCTGGGGCAAGGTTGGC-GCGC ||||||||| || ||||||||| ||| ||||||||||||||||||||||||||| || | GTGCTGTCTGCC-GCCGACAAGGGCAATGTCAAGGCCGCCTGGGGCAAGGTTGGCGGC-C ACGCTGGC-GAGTATGGTGCGGAGGCCCTGGAGAGGATGTTCCTGTCCTTCCCCACCACC ||||| || |||||||| || |||||||||||||||||||||||| ||||||||||||| ACGCT-GCAGAGTATGGCGCAGAGGCCCTGGAGAGGATGTTCCTGAGCTTCCCCACCACC AAGACCTACTTCCCGCACTTCGACCTGAGCCACGGCTCTGCCCAGGTTAAGGGCCACGGC |||||||||||||| ||||||||||||||||||||||| || ||||| |||||||||||| AAGACCTACTTCCCCCACTTCGACCTGAGCCACGGCTCCGCGCAGGTCAAGGGCCACGGC
AAGAAGGTGGCCGACGCGCTGACCAACGCCGTGGCGCACGTGGACGACATGCCCAACGCG ||||||||||| |||||||||||| || |||| ||| |||||||| ||||| || GCGAAGGTGGCCGCCGCGCTGACCAAAGCGGTGGAACACCTGGACGACCTGCCCGGTGCC
58 100 117 159 177

219 237
Sbjct Query Sbjct Query Sbjct Query

Sbjct Query
220 238 280 298 340 357

399 416
279 297 339 356 398 415

457
CTGTCCGCCCTGAGCGACCTGCACGCGCACAAGCTTCGGGTGGACCCGGTCAACTTCAAG ||||| | ||||| ||||||||||| |||||||| || ||||||||||||||||||||| CTGTCTGAACTGAGTGACCTGCACGCTCACAAGCTGCGTGTGGACCCGGTCAACTTCAAG CTCCTAAGCCACTGCCTGCTGGTGACCCTGGCCGCCCACCTCCCC-GCCGAGTTCACCCC || || ||||||| ||||||||||||||||||| ||||||||||| | || |||||||| CTTCTGAGCCACTCCCTGCTGGTGACCCTGGCCTCCCACCTCCCCAG-TGATTTCACCCC TGCGGTGCACGCCTCCCTGGACAAGTTCCTGG-CTTCTGTGAGCACCGTGCTGACCTCCA ||||| ||||||||||||||||||||| ||| | | |||||||||||||||||||||| CGCGGTCCACGCCTCCCTGGACAAGTTCTTGGCCAAC-GTGAGCACCGTGCTGACCTCCA
AATACCGT |||||||| AATACCGT 423
Sbjct
458
465
Human vs Bos taurus hemoglobin, alpha 2, protein Identities = 125/141 (89%), Gaps = 0/141 (0%)
1 2 61 62 121 122 VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGK ||| ||| |||||||||| || ||||||||||||||||||||||||||||||||||||| VLSAADKGNVKAAWGKVGGHAAEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGA KVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPA ||| ||| || | || | ||| ||||||||||||||||||||| |||||| ||| |||| KVAAALTKAVEHLDDLPGALSELSDLHAHKLRVDPVNFKLLSHSLLVTLASHLPSDFTPA VHASLDKFLASVSTVLTSKYR ||||||||||||||||||||| VHASLDKFLASVSTVLTSKYR 141 142 60 61 120 121
30/09/13
Human vs Bos taurus hemoglobin, alpha 2, protein Identities = 125/141 (89%), Positives = 130/141 (92%)
1 2 61 62 121 122 VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGK ||| ||| |||||||||| || ||||||||||||||||||||||||||||||||||||| VLSAADKGNVKAAWGKVGGHAAEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGA KVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPA ||| ||| || |:||:| ||| ||||||||||||||||||||| ||||||:|||::|||| KVAAALTKAVEHLDDLPGALSELSDLHAHKLRVDPVNFKLLSHSLLVTLASHLPSDFTPA VHASLDKFLASVSTVLTSKYR ||||||||||||||||||||| VHASLDKFLASVSTVLTSKYR 141 142 60 61 120 121
| Iden>dades : Similitudes
Mutaciones (cdigo genEco)
El cambio de un aminocido por otro NO debe tener la misma puntuacin!
30/09/13
Matrices de puntuacin (similitud o sustitucin) para protenas Matriz unitaria de tamao n = 20
Estas matrices de idenEdad funcionan bien para alineamientos de protenas muy similares, pero NO para secuencias relaEvamente distantes.
Matrices de susEtucin PAM (Point accepted muta)on)

desarrollada por Margaret Dayho en 1977. se calcula observando las diferencias en protenas relacionadas (cercanas, con un mnimo del 85% de similitud). PAM1 se calcul considerando secuencias con una mutacin puntual por cada cien aminocidos. En otras palabras, la matriz PAM1 es>ma el ritmo de sus>tucin esperado entre dos aminocidos si el 1% de los aminocidos cambian. Dayho asumi que se puede calcular una matriz para secuencias divergentes desde una matriz para secuencias cercanamente relacionadas elevando esta segunda matriz a una potencia. [PAM1 ]250 = PAM250 PAM1 . . . . . . PAM30 . . . . . . . . . . . . . . PAM70 . . . . . . . . . . . . . . . . . . . . . . . . . . PAM250
30/09/13
PAM250
Matrices de susEtucin BLOSUM (BLOck SUbsEtuEon Matrix)

Heniko y Heniko (1992) construyeron estas matrices usando alineamientos mlEples de protenas evolu>vamente divergentes
Las probabilidades usadas en los clculos de la matriz se computan observando los "bloques" de secuencias conservadas encontrados en los alineamientos de protenas divergentes. Se asume que estas secuencias conservadas son de importancia funcional dentro de las protenas relacionadas. A A C E C Se consideraron, entonces, pares de frecuencias entre los segmentos de los alineamientos con menos de un 62% de iden>dad y se construy la matriz BLOSUM62. Se usarn matrices BLOSUM de numeracin alta para alinear dos secuencias cercanamente relacionadas, mientras que se uElizarn nmeros ms bajos para secuencias ms divergentes.
30/09/13
BLOSUM 62
Menos Ms divergentes < < <<<> >> > > divergentes (cercanas) (alejadas) BLOSUM80 PAM30 BLOSUM62 PAM120 BLOSUM45 PAM250
Para casi todos los programas que uElizan matrices de susEtucin, la matriz BLOSUM62 es a menudo una buena primera opcin! BLOSUM62 se uEliza por defecto en muchos programas y algoritmos.
10
30/09/13
11
30/09/13
(a)
HBA_HUMAN HBB_HUMAN
Valoracin de los Gaps (Penalizaciones)

1 GSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKL 41 |: :|| ||||| |::: :||:|:: :: ||:|| || 1 GNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKL 41
(b)
HBA_HUMAN
1 GSAQVKGHGKKVADALTNAVAH-------VDDMPNALSALSDLHAHKL 41 : ::: | || : | : | | | | :| | LGB2_LUPLU 1 NNPELQAHAGKVFKLVYEAAIQLQVTGVVVTD--ATLKNLGSVHVSKG 46
(c)
HBA_HUMAN F11G11 2
1 GSAQVKGHGKKVADALTNA---VA-HVDDMPNALSALSD----LHAHKL 41 | | | |:|| || | |: | :|| | : ||: 1 ------GSGYLVGDSLTFVDLLVAQHTADLLAANAALLDEFPQFKAHQE 43
0 gaps 9 gaps 14 gaps
Valoracin de los Gaps (Penalizaciones)

W es la puntuacin o penalizacin x la longitud del gap g la penalizacin de abrir un gap r la penalizacin de extender un gap
W = - g - r(x-1)
Muchos programas de alineamiento sugieren los valores por defecto, modicar estas variables cambiar el alineamiento y su interpretacin. Score total del alineamiento
12
30/09/13
13
30/09/13
Human hemoglobin, alpha 2, protein vs. leghemoglobin (Lupinus luteus)

BLOSUM62 Gap open 10.0 Gap extend 0.5
CAA00181.1 AAC04853.1 CAA00181.1 AAC04853.1 CAA00181.1 AAC04853.1 CAA00181.1 AAC04853.1 1 --VLSPADKTNVKAAWGKVGAHAGEY-------------GAEALERMFLS ||:......||:::.:..|:..:. ||:.| .| 1 MGVLTDVQVALVKSSFEEFNANIPKNTHRFFTLVLEIAPGAKDL----FS 36 FPTTKTYFPH------------FDLSHGSA-QVKGHGKKVADALTNAVAH |....:..|. |.|::.:| |::.:|...:|| 47 FLKGSSEVPQNNPDLQAHAGKVFKLTYEAAIQLQVNGAVASDA------73 VDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVH .|.:|..:|..|..|| .:|.::...:|.|:...:. 90 ------TLKSLGSVHVSKGVVD-AHFPVVKEAILKTIKEVVG-------123 ASLDKFLASVSTVLTSKYR-------------||:...::|..|..|. 125 ---DKWSEELNTAWTIAYDELAIIIKKEMKDAA 141 154 35 46 72 89 122 124
Length: 183 IdenEty: 32/183 (17.5%) Similarity: 59/183 (32.2%) Gaps: 71/183 (38.8%) Score: 35.0
ParEal sequence mitochondrial DNA control region Homo neanderthalensis from Spain vs. Homo sapiens isolate Nairobi-023.
H.sapiens Neanderthal H.sapiens Neanderthal H.sapiens Neanderthal H.sapiens
Neanderthal H.sapiens
1 TTCTTTCATGGGGAAGCAGATTTGGGTACCACCCAAGTATTGACTCACCC |||||||||||||.|||||||||||||||||||||||||||||||||||| 1 TTCTTTCATGGGGGAGCAGATTTGGGTACCACCCAAGTATTGACTCACCC 51 ATCAACAACCGCTATGTATTTCGTACATTACTGCCAGCCACCATGAATAT ||||.||||||||||||||||||||||||||||||||||||||||||||| 51 ATCAGCAACCGCTATGTATTTCGTACATTACTGCCAGCCACCATGAATAT 101 TGTACAGTACCATAAATACTTGACTACCTGTAGTACATAAAAGCCCAATC |||||||||||||||.||||||||||||||.|||||||||||.||.|||| 101 TGTACAGTACCATAATTACTTGACTACCTGCAGTACATAAAAACCTAATC 151 CACATCAAACCCTCCCCCCCATGCTTACAAGCAAGTACAGCAATCAACCT ||||||||||||.||||||||||||||||||||||.|||||||||||||| 151 CACATCAAACCCCCCCCCCCATGCTTACAAGCAAGCACAGCAATCAACCT
201 TCAACTATCACACATCAACTGCAACTCCAAAGCCACCCCT-CACCCACTA ||||||.|||.|||||||||.|||||||||||.|.|||.| ||||||||| 201 TCAACTGTCATACATCAACTACAACTCCAAAGACGCCCTTACACCCACTA
50 50 100 100 150 150 200

200 249
Neanderthal H.sapiens Neanderthal H.sapiens Neanderthal H.sapiens Neanderthal
250 299 300 349 350
250 GGATATCAACAAACCTACCCACCCTTAACAGTACATAGCACATAAAGCCA ||||||||||||||||||||||||||.||||||||||||||||||||.|| 251 GGATATCAACAAACCTACCCACCCTTGACAGTACATAGCACATAAAGTCA 300 TTTACCGTACATAGCACATTACAGTCAAATCCTTTCTCGCCCCCATGGAT ||||||||||||||||||||||||||||||||.||||||||||||||||| 301 TTTACCGTACATAGCACATTACAGTCAAATCCCTTCTCGCCCCCATGGAT 350 GACCCCCCTCAGATAGGGGTCCCTTGAC |||||||||||||||||||||||||||. 351 GACCCCCCTCAGATAGGGGTCCCTTGAT 377 378
DNA Matrix: Match: +5 Missmatch: -4 Gap_penalty: 10.0 Extend_penalty: 0.5 Length: 378 Iden>ty: 359/378 (95.0%) Missmatches: 18/378 (5.0%) Gaps: 1/378 ( 0.3%) Score = 359 x 5 18 x 4 10 Score = 1713.0
14
30/09/13
Que matrices y penalizaciones por Gaps usar?
Mtodos de alineamiento Dynamic Programming (Programacin dinmica)

Alinea pares de secuencias GaranEza alineamientos p>mos y exactos (Mtodo cuan>ta>vo) Computacionalmente costoso, lento Global: Needelman & Wunch (1970) Local: Smith-Waterman (1981)
HeurisEc Searches (Bsquedas heursEcas)

Alineamientos no siempre p>mos (aproximados pero cuan>ta>vos) Permite bsquedas rpidas en bases de datos grandes (BLAST y FASTA)
Dot Plot (Matriz de puntos)
No hace alineamientos pEmos (Mtodo cualita>vo) Permite idenEcar visulamente repeEciones inter e intrasecuenciales. Rpida idenEcacin de indels (Inser)ons and/or Dele)ons), patrones de reorganizacin en los genomas y eventos de transferencia horizontal
15
30/09/13
Buscando el mejor alineamiento entre dos secuencias Si tenemos dos secuencias a alinear X y Y con longitudes m y n respecEvamente, tendremos f(m,n) maneras de representarlas en un alineamiento. Cul es el alineamiento correcto (el qu ms senEdo biolgico Eene)? Posible solucin Construir todos los posibles alineamientos Calcular la puntuacin de cada uno El alineamiento pEmo es el que obtenga el valor ms grande
Buscando el mejor alineamiento entre dos secuencias Si tenemos dos secuencias a alinear X y Y con longitudes m y n respecEvamente, tendremos f(m,n) maneras de representarlas en un alineamiento. Cul es el alineamiento correcto (el qu ms senEdo biolgico Eene)? Posible solucin Construir todos los posibles alineamientos Mtodo c omp uptuntuacin C alcular la de cada uno acionalm ente muy cos El alineamiento pEmo es el que obtenga el valor toso!!! ms grande
16
30/09/13
Programacin dinmica
La idea bsica es construir el mejor alineamiento usando alineamientos op>mos de sub-secuencias menores. (Saul Needleman and ChrisEan Wunsch, 1970) El algoritmo de Needleman y Wunsch es un ejemplo de programacin dinmica que uEliza un algoritmo recursivo.
Ejemplo: Construir un alineamiento pEmo entre estas dos secuencias
G A T A C T A G A T T A C C A
Paso #1: Denir la matriz de susEtucin y las penalizaciones.
Match: Mismatch: Gap:
+1 -1 -1
17
30/09/13
Paso #2: Construir la matriz C(nxm) de forma recursiva donde cada elemento de la matriz lo llamaremos C(i,j).
Paso #3. El objeEvo es encontrar la ruta (path) pEmo
Desde aqu
Hasta ac
18
30/09/13
Cada path corresponde a un alineamiento nico
El score para una ruta (path) es la suma incremental de los scores de sus pasos (diagonales o lados). La ruta con score ms alto es el alineamiento ptimo
Cul es el ptimo?
Paso #2: Construir la matriz C(nxm).
C(i-1,j-1) + s(i,j) C(i,j) = max C(i-1,j) + s(i,-) C(i,j-1) + s(-,j)
s(i,j) = +1 (match) -1 (missmatch) s(i,-) = -1 Gap s(-,j) = -1 Gap
19
30/09/13
A alineada con A
Match = +1
A alineada con T
Mismatch = -1
20
30/09/13
Paso #2 Construir la matriz C(nxm).
T alineada con NADA
Gap = -1
alineada con NADA
Paso #2: Construir la matriz C(nxm). C(i-1,j-1) + s(i,j) C(i,j) = max C(i-1,j) + s(i,-) C(i,j-1) + s(-,j)
G! G!
+1
A! G!
-1
G! !
-1
G A T T A C C A
0 -1 -2 -3 -4 -5 -6 -7 -8
G A T A C T A
-1 -2 -3 -4 -5 -6
-7
21
30/09/13
G! G!
+1
A! G!
-1
G! !
-1
G A T T A C C A
G A T A C T A
-1 -2 -3 -4 -5 -6
-7
-1 -2 -3 -4 -5 -6 -7 -8
+1
G! G!
+1
A! G!
-1
G! !
-1
G A T T A C C A
G A T A C T A
-1 -2 -3 -4 -5 -6
-7
-1 -2 -3 -4 -5 -6 -7 -8
+1 0 -1
0 +2 +1
-1 +1 +3
22
30/09/13
G! G!
+1
A! G!
-1
G! !
-1
G A T T A C C A
0 -1 -2 -3 -4 -5 -6 -7 -8
G A T A C T A
-1 -2 0 +2 +1 0 -1 -2 -3 -4 -3 -1 +1 +3 +2 +1 0 -1 -2 -4 -2 0 +2 +2 +3 +2 +1 0 -5 -3 -1 +1 +1 +2 +4 +3 +2 -6 -4 -2 0 +2 +1 +3 +3 +2 +1 0 -1 -2 -3 -4 -5 -6
-7 -5 -3 -1 +1 +3 +2 +2 +4
Paso #3: Encontrar el camino (score) pEmo.
El score para el alineamiento ptimo es el valor que tenga el elemento C(n,m). Score = +4 El camino (path) ptimo se realiza desde este punto hasta el inicio de la matriz.
G A T T A C C A
0 -1 -2 -3 -4 -5 -6 -7 -8
G A T A C T A
-1 -2 0 +2 +1 0 -1 -2 -3 -4 -3 -1 +1 +3 +2 +1 0 -1 -2 -4 -2 0 +2 +2 +3 +2 +1 0 -5 -3 -1 +1 +1 +2 +4 +3 +2 -6 -4 -2 0 +2 +1 +3 +3 +2 +1 0 -1 -2 -3 -4 -5 -6
-7 -5 -3 -1 +1 +3 +2 +2 +4
23
30/09/13
Paso #3: Encontrar el camino (score) pEmo.
El camino (path) ptimo se realiza desde este punto hasta el inicio de la matriz.
G A T T A C C A
0 -1 -2 -3 -4 -5 -6 -7 -8
G A T A C T A
-1 -2 0 +2 +1 0 -1 -2 -3 -4 -3 -1 +1 +3 +2 +1 0 -1 -2 -4 -5 -3 -1 +1 +1 +2 +4 +3 +2 -6 -4 -2 0 +2 +1 +3 +3 +2 +1 0 -1 -2 -3 -4 -5 -6 -2 0 +2 +2 +3 +2 +1 0
-7 -5 -3 -1 +1 +3 +2 +2 +4
Paso #4: Representar el alineamiento que result pEmo.
GA-TA CTA GATTA CCA

Score = +4
Se construye de atrs hacia delante (traceback)
24
30/09/13
El algoritmo de Needleman y Wunsch (1970) permite hacer alineamientos globales pEmos (Alinea las secuencias a lo largo de toda su longitud). Secuencias de longitudes similares Secuencias rela)vamente parecidas
En 1981, Temple Smith and Mike Waterman proponen una modicacin del algoritmo de Needleman-Wunsch para obtener alineamientos locales obteniendo el mejor score entre dos sub-secuencias de un par de secuencias. El en secuencias ms divergentes Las secuencias pueden tener cualquier longitud Se diferencia del mtodo anterior en la construccin de la matriz C(mxn)
Alineamientos global vs. Local

Needleman & Wunsch (1970) Smith & Waterman (1981)
Las secuencias se alinean de un extremo a otro
Las secuencias se alinean en regiones pequeas y aisladas Muestra regiones (dominios) conservadas entre secuencias relativamente distantes
Ambas estrategias computacionalmente costosas para secuencias grandes
25

Alin 2 Seqs PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Alin 2 Seqs PDF

Cargado por

Copyright:

Formatos disponibles

30/09/13

Cul es el mejor alineamiento entre las secuencias GAATTCAG y GGATCG?

Qu parmetros podemos usar para comparar estas dos secuencias?

La comparacin que ms informacin nos da es hacer un alineamiento

Seq 1 ACGGTT Seq 2 ACGGAT

SusEtucin (transicin) SusEtucin (transvercin)

ACGGCT (Ancestro comn)

Tendrn la misma historia evolu>va estas secuencias?

Asignacin de una puntuacin (Score) al alineamiento

IdenEdades Transiciones Transversiones Indels (InserEons or DeleEons)

Apareamientos (Matches) = +1 Desaparearmientos (Mismatches) = 0

Matrices de iden>dad o de sus>tucin Matriz unitaria

Apareamientos (IdenEdades) = +1 Desaparearmientos (No idenEdades) = 0

Matrices de iden>dad o de sus>tucin Matriz unitaria

Apareamientos (IdenEdades) = +1 Desaparearmientos (No idenEdades) = -1 Gaps = -2

Apareamientos (IdenEdades) = +1 Desaparearmientos (Transiciones) = -1 Desaparearmientos (Transversiones) = -1,5 Gaps = -2

58 100 117 159 177

Sbjct Query Sbjct Query Sbjct Query

220 238 280 298 340 357

279 297 339 356 398 415

Mutaciones (cdigo genEco)

El cambio de un aminocido por otro NO debe tener la misma puntuacin!

Matrices de puntuacin (similitud o sustitucin) para protenas Matriz unitaria de tamao n = 20

Matrices de susEtucin PAM (Point accepted muta)on)

Matrices de susEtucin BLOSUM (BLOck SUbsEtuEon Matrix)

Valoracin de los Gaps (Penalizaciones)

1 GSAQVKGHGKKVADALTNAVAH-------VDDMPNALSALSDLHAHKL 41 : ::: | || : | : | | | | :| | LGB2_LUPLU 1 NNPELQAHAGKVFKLVYEAAIQLQVTGVVVTD--ATLKNLGSVHVSKG 46

1 GSAQVKGHGKKVADALTNA---VA-HVDDMPNALSALSD----LHAHKL 41 | | | |:|| || | |: | :|| | : ||: 1 ------GSGYLVGDSLTFVDLLVAQHTADLLAANAALLDEFPQFKAHQE 43

0 gaps 9 gaps 14 gaps

Valoracin de los Gaps (Penalizaciones)

Human hemoglobin, alpha 2, protein vs. leghemoglobin (Lupinus luteus)

50 50 100 100 150 150 200

Neanderthal H.sapiens Neanderthal H.sapiens Neanderthal H.sapiens Neanderthal

250 299 300 349 350

Que matrices y penalizaciones por Gaps usar?

Mtodos de alineamiento Dynamic Programming (Programacin dinmica)

HeurisEc Searches (Bsquedas heursEcas)

Dot Plot (Matriz de puntos)

Ejemplo: Construir un alineamiento pEmo entre estas dos secuencias

Match: Mismatch: Gap:

Paso #3. El objeEvo es encontrar la ruta (path) pEmo

Cada path corresponde a un alineamiento nico

Paso #2: Construir la matriz C(nxm).

C(i-1,j-1) + s(i,j) C(i,j) = max C(i-1,j) + s(i,-) C(i,j-1) + s(-,j)

s(i,j) = +1 (match) -1 (missmatch) s(i,-) = -1 Gap s(-,j) = -1 Gap

Paso #2: Construir la matriz C(nxm).

Paso #2: Construir la matriz C(nxm).

Paso #2 Construir la matriz C(nxm).

alineada con NADA

Paso #3: Encontrar el camino (score) pEmo.

Paso #3: Encontrar el camino (score) pEmo.

Paso #4: Representar el alineamiento que result pEmo.

GA-TA CTA GATTA CCA

Se construye de atrs hacia delante (traceback)

Alineamientos global vs. Local

Las secuencias se alinean de un extremo a otro

Ambas estrategias computacionalmente costosas para secuencias grandes

También podría gustarte