Está en la página 1de 25

30/09/13

Comparaci de dos seqncies Alineament de parelles Assignaci d'una puntuaci a l'alineament Puntuaci per gaps (penalitzacions) Matrius de subsEtuci: IdenEtat i similitud Alineament local i global Programaci dinmica (cerques per similitud)

Alineament de seqncies

Cul es el mejor alineamiento entre las secuencias GAATTCAG y GGATCG?

30/09/13

Secuencia 1: Secuencia 2:

ACGGCT ACGT

Qu parmetros podemos usar para comparar estas dos secuencias?


Tamao Frecuencia de sus bases Contenido G+C MoEvos comunes 6pb vs 4pb {1,2,2,1} vs {1,1,1,1} 66,6% vs 50% ACG al inicio de ambas

La comparacin que ms informacin nos da es hacer un alineamiento

Alineamiento Forma de representar y comparar dos o ms secuencias o cadenas de DNA, RNA, o estructuras primarias proteicas para resaltar sus zonas de similitud, que podran indicar relaciones funcionales o evolu>vas entre los genes o protenas consultados
Secuencia 1: Secuencia 2: ATGCGACTGACG |||||||||||| ATGCGACTGACG

Signicado de un alineamiento

Estads)co Se le puede asignar una puntuacin a cada alineamiento que indique cun alejado est de un alineamiento al azar? Biolgico Comparten un ancestro comn? Implica una informacin funcional, estructural y evoluEva?

30/09/13

Seq 1 ACGGTT Seq 2 ACGGAT

SusEtucin (transicin) SusEtucin (transvercin)

ACGGCT (Ancestro comn)

Seq 3 ACGGT

Sustraccin (dele)on)

ACGGCT ACGGCT ACGGCT |||| | |||| | |||| | Seq1 ACGGTT Seq2 ACGGAT Seq3 ACGG-T
83,3% idnEcas 83,3% idnEcas 83,3% idnEcas

IdenEdad

Hueco (Gap)

Tendrn la misma historia evolu>va estas secuencias?

A cada par del alineamiento se le asigna un valor que ser mayor o menor (incluso valores negaEvos) dependiendo de la probabilidad del evento evoluEvo que pudo haber generado ese cambio. Despus se suman todo estos valores a lo largo del alineamiento (Sistema de puntuacin adi>vo) A las puntuaciones negaEvas se les conoce como penalizaciones

Asignacin de una puntuacin (Score) al alineamiento

+ probable - probable

IdenEdades Transiciones Transversiones Indels (InserEons or DeleEons)

30/09/13

ACGGCT ACGGCT ACGGCT |||| | |||| | |||| | Seq1 ACGGTT Seq2 ACGGAT Seq3 ACGG-T
83,3% idnEcas 83,3% idnEcas 83,3% idnEcas

Apareamientos (Matches) = +1 Desaparearmientos (Mismatches) = 0


A A C G T +1 0 0 0 C 0 +1 0 0 G 0 0 +1 0 T 0 0 0 +1

Matrices de iden>dad o de sus>tucin Matriz unitaria

ACGGCT ACGGCT ACGGCT |||| | |||| | |||| | Seq1 ACGGTT Seq2 ACGGAT Seq3 ACGG-T
5 pts 5 pts 5 pts

Apareamientos (IdenEdades) = +1 Desaparearmientos (No idenEdades) = 0


A A C G T +1 0 0 0 C 0 +1 0 0 G 0 0 +1 0 T 0 0 0 +1

Matrices de iden>dad o de sus>tucin Matriz unitaria

30/09/13

Apareamientos (IdenEdades) = +1 Desaparearmientos (No idenEdades) = -1 Gaps = -2


A A C G T - -1 -1 -1 -2 C G -1 T -1 -1 - -2 -2 -2 - ndices de la matriz| puntuacin (score) de cada cambio s (i , j) = -1 +1 -1 -1 -1 -2

+1 -1 -1 -2

+1 -1 -2

+1 -2

ACGGCT ACGGCT ACGGCT |||| | |||| | |||| | Seq1 ACGGTT Seq2 ACGGAT Seq3 ACGG-T
4 pts 4 pts 3 pts

Apareamientos (IdenEdades) = +1 Desaparearmientos (Transiciones) = -1 Desaparearmientos (Transversiones) = -1,5 Gaps = -2


A A C G T - +1 -1 -2 C G T - -2 -2 - -1,5 -1 -1,5 +1 -2 -2 -1,5 -2 -1,5 -2 -2

-1,5 +1 -1,5 -1

-1,5 -1 -1,5 +1

ACGGCT ACGGCT ACGGCT |||| | |||| | |||| | Seq1 ACGGTT Seq2 ACGGAT Seq3 ACGG-T
4 pts 3,5 pts 3 pts

30/09/13

Human vs Bos taurus hemoglobin, alpha 2, mRNA Identities = 376/428 (88%), Gaps = 10/428 (2%)
Query Sbjct Query Sbjct Query
Sbjct Query

1 43 59 101 118
160 178

GTGCTGTCT-CCTGCCGACAAGACCAACGTCAAGGCCGCCTGGGGCAAGGTTGGC-GCGC ||||||||| || ||||||||| ||| ||||||||||||||||||||||||||| || | GTGCTGTCTGCC-GCCGACAAGGGCAATGTCAAGGCCGCCTGGGGCAAGGTTGGCGGC-C ACGCTGGC-GAGTATGGTGCGGAGGCCCTGGAGAGGATGTTCCTGTCCTTCCCCACCACC ||||| || |||||||| || |||||||||||||||||||||||| ||||||||||||| ACGCT-GCAGAGTATGGCGCAGAGGCCCTGGAGAGGATGTTCCTGAGCTTCCCCACCACC AAGACCTACTTCCCGCACTTCGACCTGAGCCACGGCTCTGCCCAGGTTAAGGGCCACGGC |||||||||||||| ||||||||||||||||||||||| || ||||| |||||||||||| AAGACCTACTTCCCCCACTTCGACCTGAGCCACGGCTCCGCGCAGGTCAAGGGCCACGGC
AAGAAGGTGGCCGACGCGCTGACCAACGCCGTGGCGCACGTGGACGACATGCCCAACGCG ||||||||||| |||||||||||| || |||| ||| |||||||| ||||| || GCGAAGGTGGCCGCCGCGCTGACCAAAGCGGTGGAACACCTGGACGACCTGCCCGGTGCC

58 100 117 159 177


219 237

Sbjct Query Sbjct Query Sbjct Query


Sbjct Query

220 238 280 298 340 357


399 416

279 297 339 356 398 415


457

CTGTCCGCCCTGAGCGACCTGCACGCGCACAAGCTTCGGGTGGACCCGGTCAACTTCAAG ||||| | ||||| ||||||||||| |||||||| || ||||||||||||||||||||| CTGTCTGAACTGAGTGACCTGCACGCTCACAAGCTGCGTGTGGACCCGGTCAACTTCAAG CTCCTAAGCCACTGCCTGCTGGTGACCCTGGCCGCCCACCTCCCC-GCCGAGTTCACCCC || || ||||||| ||||||||||||||||||| ||||||||||| | || |||||||| CTTCTGAGCCACTCCCTGCTGGTGACCCTGGCCTCCCACCTCCCCAG-TGATTTCACCCC TGCGGTGCACGCCTCCCTGGACAAGTTCCTGG-CTTCTGTGAGCACCGTGCTGACCTCCA ||||| ||||||||||||||||||||| ||| | | |||||||||||||||||||||| CGCGGTCCACGCCTCCCTGGACAAGTTCTTGGCCAAC-GTGAGCACCGTGCTGACCTCCA
AATACCGT |||||||| AATACCGT 423

Sbjct

458

465

Human vs Bos taurus hemoglobin, alpha 2, protein Identities = 125/141 (89%), Gaps = 0/141 (0%)
1 2 61 62 121 122 VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGK ||| ||| |||||||||| || ||||||||||||||||||||||||||||||||||||| VLSAADKGNVKAAWGKVGGHAAEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGA KVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPA ||| ||| || | || | ||| ||||||||||||||||||||| |||||| ||| |||| KVAAALTKAVEHLDDLPGALSELSDLHAHKLRVDPVNFKLLSHSLLVTLASHLPSDFTPA VHASLDKFLASVSTVLTSKYR ||||||||||||||||||||| VHASLDKFLASVSTVLTSKYR 141 142 60 61 120 121

30/09/13

Human vs Bos taurus hemoglobin, alpha 2, protein Identities = 125/141 (89%), Positives = 130/141 (92%)
1 2 61 62 121 122 VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGK ||| ||| |||||||||| || ||||||||||||||||||||||||||||||||||||| VLSAADKGNVKAAWGKVGGHAAEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGA KVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPA ||| ||| || |:||:| ||| ||||||||||||||||||||| ||||||:|||::|||| KVAAALTKAVEHLDDLPGALSELSDLHAHKLRVDPVNFKLLSHSLLVTLASHLPSDFTPA VHASLDKFLASVSTVLTSKYR ||||||||||||||||||||| VHASLDKFLASVSTVLTSKYR 141 142 60 61 120 121

| Iden>dades : Similitudes

Mutaciones (cdigo genEco)

El cambio de un aminocido por otro NO debe tener la misma puntuacin!

30/09/13

Matrices de puntuacin (similitud o sustitucin) para protenas Matriz unitaria de tamao n = 20

Estas matrices de idenEdad funcionan bien para alineamientos de protenas muy similares, pero NO para secuencias relaEvamente distantes.

Matrices de susEtucin PAM (Point accepted muta)on)


desarrollada por Margaret Dayho en 1977. se calcula observando las diferencias en protenas relacionadas (cercanas, con un mnimo del 85% de similitud). PAM1 se calcul considerando secuencias con una mutacin puntual por cada cien aminocidos. En otras palabras, la matriz PAM1 es>ma el ritmo de sus>tucin esperado entre dos aminocidos si el 1% de los aminocidos cambian. Dayho asumi que se puede calcular una matriz para secuencias divergentes desde una matriz para secuencias cercanamente relacionadas elevando esta segunda matriz a una potencia. [PAM1 ]250 = PAM250 PAM1 . . . . . . PAM30 . . . . . . . . . . . . . . PAM70 . . . . . . . . . . . . . . . . . . . . . . . . . . PAM250

30/09/13

PAM250

Matrices de susEtucin BLOSUM (BLOck SUbsEtuEon Matrix)


Heniko y Heniko (1992) construyeron estas matrices usando alineamientos mlEples de protenas evolu>vamente divergentes

Las probabilidades usadas en los clculos de la matriz se computan observando los "bloques" de secuencias conservadas encontrados en los alineamientos de protenas divergentes. Se asume que estas secuencias conservadas son de importancia funcional dentro de las protenas relacionadas. A A C E C Se consideraron, entonces, pares de frecuencias entre los segmentos de los alineamientos con menos de un 62% de iden>dad y se construy la matriz BLOSUM62. Se usarn matrices BLOSUM de numeracin alta para alinear dos secuencias cercanamente relacionadas, mientras que se uElizarn nmeros ms bajos para secuencias ms divergentes.

30/09/13

BLOSUM 62

Menos Ms divergentes < < <<<> >> > > divergentes (cercanas) (alejadas) BLOSUM80 PAM30 BLOSUM62 PAM120 BLOSUM45 PAM250

Para casi todos los programas que uElizan matrices de susEtucin, la matriz BLOSUM62 es a menudo una buena primera opcin! BLOSUM62 se uEliza por defecto en muchos programas y algoritmos.

10

30/09/13

11

30/09/13

(a)
HBA_HUMAN HBB_HUMAN

Valoracin de los Gaps (Penalizaciones)


1 GSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKL 41 |: :|| ||||| |::: :||:|:: :: ||:|| || 1 GNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKL 41

(b)

HBA_HUMAN

1 GSAQVKGHGKKVADALTNAVAH-------VDDMPNALSALSDLHAHKL 41 : ::: | || : | : | | | | :| | LGB2_LUPLU 1 NNPELQAHAGKVFKLVYEAAIQLQVTGVVVTD--ATLKNLGSVHVSKG 46

(c)

HBA_HUMAN F11G11 2

1 GSAQVKGHGKKVADALTNA---VA-HVDDMPNALSALSD----LHAHKL 41 | | | |:|| || | |: | :|| | : ||: 1 ------GSGYLVGDSLTFVDLLVAQHTADLLAANAALLDEFPQFKAHQE 43

0 gaps 9 gaps 14 gaps

Valoracin de los Gaps (Penalizaciones)


W es la puntuacin o penalizacin x la longitud del gap g la penalizacin de abrir un gap r la penalizacin de extender un gap

W = - g - r(x-1)

Muchos programas de alineamiento sugieren los valores por defecto, modicar estas variables cambiar el alineamiento y su interpretacin. Score total del alineamiento

12

30/09/13

13

30/09/13

Human hemoglobin, alpha 2, protein vs. leghemoglobin (Lupinus luteus)


BLOSUM62 Gap open 10.0 Gap extend 0.5
CAA00181.1 AAC04853.1 CAA00181.1 AAC04853.1 CAA00181.1 AAC04853.1 CAA00181.1 AAC04853.1 1 --VLSPADKTNVKAAWGKVGAHAGEY-------------GAEALERMFLS ||:......||:::.:..|:..:. ||:.| .| 1 MGVLTDVQVALVKSSFEEFNANIPKNTHRFFTLVLEIAPGAKDL----FS 36 FPTTKTYFPH------------FDLSHGSA-QVKGHGKKVADALTNAVAH |....:..|. |.|::.:| |::.:|...:|| 47 FLKGSSEVPQNNPDLQAHAGKVFKLTYEAAIQLQVNGAVASDA------73 VDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVH .|.:|..:|..|..|| .:|.::...:|.|:...:. 90 ------TLKSLGSVHVSKGVVD-AHFPVVKEAILKTIKEVVG-------123 ASLDKFLASVSTVLTSKYR-------------||:...::|..|..|. 125 ---DKWSEELNTAWTIAYDELAIIIKKEMKDAA 141 154 35 46 72 89 122 124

Length: 183 IdenEty: 32/183 (17.5%) Similarity: 59/183 (32.2%) Gaps: 71/183 (38.8%) Score: 35.0

ParEal sequence mitochondrial DNA control region Homo neanderthalensis from Spain vs. Homo sapiens isolate Nairobi-023.
H.sapiens Neanderthal H.sapiens Neanderthal H.sapiens Neanderthal H.sapiens
Neanderthal H.sapiens

1 TTCTTTCATGGGGAAGCAGATTTGGGTACCACCCAAGTATTGACTCACCC |||||||||||||.|||||||||||||||||||||||||||||||||||| 1 TTCTTTCATGGGGGAGCAGATTTGGGTACCACCCAAGTATTGACTCACCC 51 ATCAACAACCGCTATGTATTTCGTACATTACTGCCAGCCACCATGAATAT ||||.||||||||||||||||||||||||||||||||||||||||||||| 51 ATCAGCAACCGCTATGTATTTCGTACATTACTGCCAGCCACCATGAATAT 101 TGTACAGTACCATAAATACTTGACTACCTGTAGTACATAAAAGCCCAATC |||||||||||||||.||||||||||||||.|||||||||||.||.|||| 101 TGTACAGTACCATAATTACTTGACTACCTGCAGTACATAAAAACCTAATC 151 CACATCAAACCCTCCCCCCCATGCTTACAAGCAAGTACAGCAATCAACCT ||||||||||||.||||||||||||||||||||||.|||||||||||||| 151 CACATCAAACCCCCCCCCCCATGCTTACAAGCAAGCACAGCAATCAACCT
201 TCAACTATCACACATCAACTGCAACTCCAAAGCCACCCCT-CACCCACTA ||||||.|||.|||||||||.|||||||||||.|.|||.| ||||||||| 201 TCAACTGTCATACATCAACTACAACTCCAAAGACGCCCTTACACCCACTA

50 50 100 100 150 150 200


200 249

Neanderthal H.sapiens Neanderthal H.sapiens Neanderthal H.sapiens Neanderthal

250 299 300 349 350

250 GGATATCAACAAACCTACCCACCCTTAACAGTACATAGCACATAAAGCCA ||||||||||||||||||||||||||.||||||||||||||||||||.|| 251 GGATATCAACAAACCTACCCACCCTTGACAGTACATAGCACATAAAGTCA 300 TTTACCGTACATAGCACATTACAGTCAAATCCTTTCTCGCCCCCATGGAT ||||||||||||||||||||||||||||||||.||||||||||||||||| 301 TTTACCGTACATAGCACATTACAGTCAAATCCCTTCTCGCCCCCATGGAT 350 GACCCCCCTCAGATAGGGGTCCCTTGAC |||||||||||||||||||||||||||. 351 GACCCCCCTCAGATAGGGGTCCCTTGAT 377 378

DNA Matrix: Match: +5 Missmatch: -4 Gap_penalty: 10.0 Extend_penalty: 0.5 Length: 378 Iden>ty: 359/378 (95.0%) Missmatches: 18/378 (5.0%) Gaps: 1/378 ( 0.3%) Score = 359 x 5 18 x 4 10 Score = 1713.0

14

30/09/13

Que matrices y penalizaciones por Gaps usar?

Mtodos de alineamiento Dynamic Programming (Programacin dinmica)


Alinea pares de secuencias GaranEza alineamientos p>mos y exactos (Mtodo cuan>ta>vo) Computacionalmente costoso, lento Global: Needelman & Wunch (1970) Local: Smith-Waterman (1981)

HeurisEc Searches (Bsquedas heursEcas)


Alineamientos no siempre p>mos (aproximados pero cuan>ta>vos) Permite bsquedas rpidas en bases de datos grandes (BLAST y FASTA)

Dot Plot (Matriz de puntos)

No hace alineamientos pEmos (Mtodo cualita>vo) Permite idenEcar visulamente repeEciones inter e intrasecuenciales. Rpida idenEcacin de indels (Inser)ons and/or Dele)ons), patrones de reorganizacin en los genomas y eventos de transferencia horizontal

15

30/09/13

Buscando el mejor alineamiento entre dos secuencias Si tenemos dos secuencias a alinear X y Y con longitudes m y n respecEvamente, tendremos f(m,n) maneras de representarlas en un alineamiento. Cul es el alineamiento correcto (el qu ms senEdo biolgico Eene)? Posible solucin Construir todos los posibles alineamientos Calcular la puntuacin de cada uno El alineamiento pEmo es el que obtenga el valor ms grande

Buscando el mejor alineamiento entre dos secuencias Si tenemos dos secuencias a alinear X y Y con longitudes m y n respecEvamente, tendremos f(m,n) maneras de representarlas en un alineamiento. Cul es el alineamiento correcto (el qu ms senEdo biolgico Eene)? Posible solucin Construir todos los posibles alineamientos Mtodo c omp uptuntuacin C alcular la de cada uno acionalm ente muy cos El alineamiento pEmo es el que obtenga el valor toso!!! ms grande

16

30/09/13

Programacin dinmica
La idea bsica es construir el mejor alineamiento usando alineamientos op>mos de sub-secuencias menores. (Saul Needleman and ChrisEan Wunsch, 1970) El algoritmo de Needleman y Wunsch es un ejemplo de programacin dinmica que uEliza un algoritmo recursivo.

Ejemplo: Construir un alineamiento pEmo entre estas dos secuencias

G A T A C T A G A T T A C C A
Paso #1: Denir la matriz de susEtucin y las penalizaciones.

Match: Mismatch: Gap:

+1 -1 -1

17

30/09/13

Paso #2: Construir la matriz C(nxm) de forma recursiva donde cada elemento de la matriz lo llamaremos C(i,j).

G A T A C T A G A T T A C C A

Paso #3. El objeEvo es encontrar la ruta (path) pEmo

G A T A C T A G A T T A C C A
Desde aqu

Hasta ac

18

30/09/13

Cada path corresponde a un alineamiento nico

El score para una ruta (path) es la suma incremental de los scores de sus pasos (diagonales o lados). La ruta con score ms alto es el alineamiento ptimo

G A T A C T A G A T T A C C A

Cul es el ptimo?

Paso #2: Construir la matriz C(nxm).

C(i-1,j-1) + s(i,j) C(i,j) = max C(i-1,j) + s(i,-) C(i,j-1) + s(-,j)

s(i,j) = +1 (match) -1 (missmatch) s(i,-) = -1 Gap s(-,j) = -1 Gap

19

30/09/13

Paso #2: Construir la matriz C(nxm).

G A T A C T A G A T T A C C A
A alineada con A
Match = +1

Paso #2: Construir la matriz C(nxm).

G A T A C T A G A T T A C C A
A alineada con T
Mismatch = -1

20

30/09/13

Paso #2 Construir la matriz C(nxm).

G A T A C T A G A T T A C C A
T alineada con NADA
Gap = -1

alineada con NADA

Paso #2: Construir la matriz C(nxm). C(i-1,j-1) + s(i,j) C(i,j) = max C(i-1,j) + s(i,-) C(i,j-1) + s(-,j)

G! G!
+1

A! G!
-1

G! !
-1

G A T T A C C A

0 -1 -2 -3 -4 -5 -6 -7 -8

G A T A C T A
-1 -2 -3 -4 -5 -6

-7

21

30/09/13

Paso #2: Construir la matriz C(nxm). C(i-1,j-1) + s(i,j) C(i,j) = max C(i-1,j) + s(i,-) C(i,j-1) + s(-,j)

G! G!
+1

A! G!
-1

G! !
-1

G A T T A C C A

G A T A C T A
-1 -2 -3 -4 -5 -6

-7

-1 -2 -3 -4 -5 -6 -7 -8

+1

Paso #2: Construir la matriz C(nxm). C(i-1,j-1) + s(i,j) C(i,j) = max C(i-1,j) + s(i,-) C(i,j-1) + s(-,j)

G! G!
+1

A! G!
-1

G! !
-1

G A T T A C C A

G A T A C T A
-1 -2 -3 -4 -5 -6

-7

-1 -2 -3 -4 -5 -6 -7 -8

+1 0 -1

0 +2 +1

-1 +1 +3

22

30/09/13

Paso #2: Construir la matriz C(nxm). C(i-1,j-1) + s(i,j) C(i,j) = max C(i-1,j) + s(i,-) C(i,j-1) + s(-,j)

G! G!
+1

A! G!
-1

G! !
-1

G A T T A C C A

0 -1 -2 -3 -4 -5 -6 -7 -8

G A T A C T A
-1 -2 0 +2 +1 0 -1 -2 -3 -4 -3 -1 +1 +3 +2 +1 0 -1 -2 -4 -2 0 +2 +2 +3 +2 +1 0 -5 -3 -1 +1 +1 +2 +4 +3 +2 -6 -4 -2 0 +2 +1 +3 +3 +2 +1 0 -1 -2 -3 -4 -5 -6

-7 -5 -3 -1 +1 +3 +2 +2 +4

Paso #3: Encontrar el camino (score) pEmo.

El score para el alineamiento ptimo es el valor que tenga el elemento C(n,m). Score = +4 El camino (path) ptimo se realiza desde este punto hasta el inicio de la matriz.

G A T T A C C A

0 -1 -2 -3 -4 -5 -6 -7 -8

G A T A C T A
-1 -2 0 +2 +1 0 -1 -2 -3 -4 -3 -1 +1 +3 +2 +1 0 -1 -2 -4 -2 0 +2 +2 +3 +2 +1 0 -5 -3 -1 +1 +1 +2 +4 +3 +2 -6 -4 -2 0 +2 +1 +3 +3 +2 +1 0 -1 -2 -3 -4 -5 -6

-7 -5 -3 -1 +1 +3 +2 +2 +4

23

30/09/13

Paso #3: Encontrar el camino (score) pEmo.

El camino (path) ptimo se realiza desde este punto hasta el inicio de la matriz.

G A T T A C C A

0 -1 -2 -3 -4 -5 -6 -7 -8

G A T A C T A
-1 -2 0 +2 +1 0 -1 -2 -3 -4 -3 -1 +1 +3 +2 +1 0 -1 -2 -4 -5 -3 -1 +1 +1 +2 +4 +3 +2 -6 -4 -2 0 +2 +1 +3 +3 +2 +1 0 -1 -2 -3 -4 -5 -6 -2 0 +2 +2 +3 +2 +1 0

-7 -5 -3 -1 +1 +3 +2 +2 +4

Paso #4: Representar el alineamiento que result pEmo.

GA-TA CTA GATTA CCA


Score = +4

Se construye de atrs hacia delante (traceback)

G A T A C T A G A T T A C C A

24

30/09/13

El algoritmo de Needleman y Wunsch (1970) permite hacer alineamientos globales pEmos (Alinea las secuencias a lo largo de toda su longitud). Secuencias de longitudes similares Secuencias rela)vamente parecidas

En 1981, Temple Smith and Mike Waterman proponen una modicacin del algoritmo de Needleman-Wunsch para obtener alineamientos locales obteniendo el mejor score entre dos sub-secuencias de un par de secuencias. El en secuencias ms divergentes Las secuencias pueden tener cualquier longitud Se diferencia del mtodo anterior en la construccin de la matriz C(mxn)

Alineamientos global vs. Local


Needleman & Wunsch (1970) Smith & Waterman (1981)

Las secuencias se alinean de un extremo a otro

Las secuencias se alinean en regiones pequeas y aisladas Muestra regiones (dominios) conservadas entre secuencias relativamente distantes

Ambas estrategias computacionalmente costosas para secuencias grandes

25

También podría gustarte