Está en la página 1de 67

BIOINFORMÁTICA:

Fundamentos y aplicaciones
de actualidad
Curso de Verano
Universidad de Santiago de
Compostela
ALGORITMOS DE
ALINEAMIENTO DE
SECUENCIAS

Juan José Nieto


Lunes, 11 de Julio de 2005
¿Qué es una
SECUENCIA?
¿Qué es un
ALINEAMIENTO
de dos o varias secuencias?
¿Qué es un
ALGORITMO?
ALGORITMOS DE
ALINEAMIENTO DE
SECUENCIAS

 El gráfico de puntos
 Alineamiento global: algoritmo de
Needleman y Wunsch
 Alineamiento local: El algoritmo de Smith-
Waterman
 Búsquedas en bases de datos: FastA,
BLAST …
Concepto de Secuencia

 Conjunto ordenado de letras seleccionado


de un alfabeto
Ej. de Alfabetos

 Castellano (27 letras)


 Gallego (23 letras)
 Inglés (26 letras)
 Aas (20 letras)
 DNA (4 letras) a,c,g,t
Complejidad de un Alfabeto

 Número diferente de
letras que contiene
Cada secuencia forma una palabra

 XYZSECW
 GALLEGO  CAT:
 GALEGO  Gato (Inglés)
 Histidina (DNA)
 GATA
 CAT
Secuencias EST

 EST
(Expressed Sequences
Tags)
 Alfabeto EST:

a, g, t, c, n
INDELS
 Inserción: INSERT
 Se asigna una base demasiado pronto
 Eliminación: DELETED
 Queda sin asignar una base

 Se introduce una nueva letra en el alfabeto


DNA: El “hueco” (gap) -
¿Cómo podemos obtener una
secuencia de ácidos nucleicos, o
de proteínas?

 Laboratorio
 Bases de datos
 Internet
http://www.ncbi.nlm.nih.gov

 Mycobacterium
Tuberculosis
H37Rv

 NC_000962
Mycobacterium Tuberculosis

 H37Rv

 Genoma Completo

 Gene 1--1524
M. Tuberculosis
BASE COUNT 352 a 518 c 380 g 274 t
ORIGIN
1 tt g accg a tg ac c ccgg t tc ag g cttc a cc ac a gtgt g ga ac g cggt c gt ct c cgaa c tt
61 aa c ggcg a cc ct a aggt t ga cg a cgga c cc ag c agtg a tg ct a atct c ag cg c tccg c tg
1 21 ac c cctc a gc aa a gggc t tg gc t caat c tc gt c cagc c at tg a ccat c gt cg a gggg t tt
1 81 gc t ctgt t at cc g tgcc g ag ca g cttt g tc ca a aacg a aa tc g agcg c ca tc t gcgg g cc
2 41 cc g atta c cg ac g ctct c ag cc g ccga c tc gg a catc a ga tc c aact c gg gg t ccgc a tc
3 01 gc t ccgc c gg cg a ccga c ga ag c cgac g ac ac t accg t gc cg c cttc c ga aa a tcct g ct
3 61 ac c acat c gc ca g acac c ac aa c cgac a ac ga c gaga t tg at g acag c gc tg c ggca c gg
4 21 gg c gata a cc ag c acag t tg gc c aagt t ac tt c accg a gc gc c cgca c aa ta c cgat t cc
4 81 gc t accg c tg gc g taac c ag cc t taac c gt cg c taca c ct tt g atac g tt cg t tatc g gc
5 41 gc c tcca a cc gg t tcgc g ca cg c cgcc g cc tt g gcga t cg ca g aagc a cc cg c ccgc g ct
6 01 ta c aacc c cc tg t tcat c tg gg g cgag t cc gg t ctcg g ca ag a caca c ct gc t acac g cg
6 61 gc a ggca a ct at g ccca a cg gt t gttc c cg gg a atgc g gg tc a aata t gt ct c cacc g ag
7 21 ga a ttca c ca ac g actt c at ta a ctcg c tc cg c gatg a cc gc a aggt c gc at t caaa c gc
7 81 ag c tacc g cg ac g taga c gt gc t gttg g tc ga c gaca t cc aa t tcat t ga ag g caaa g ag
8 41 gg t attc a ag ag g agtt c tt cc a cacc t tc aa c acct t gc ac a atgc c aa ca a gcaa a tc
9 01 gt c atct c at ct g accg c cc ac c caag c ag ct c gcca c cc tc g agga c cg gc t gaga a cc
9 61 cg c tttg a gt gg g ggct g at ca c tgac g ta ca a ccac c cg ag c tgga g ac cc g catc g cc
10 2 1 at c ttgc g ca ag a aagc a ca ga t ggaa c gg ct c gcgg t cc cc g acga t gt cc t cgaa c tc
10 8 1 at c gcca g ca gt a tcga a cg ca a tatc c gt ga a ctcg a gg gc g cgct g at cc g ggtc a cc
11 4 1 gc g ttcg c ct ca t tgaa c aa aa c acca a tc ga c aaag c gc tg g ccga g at tg t gctt c gc
12 0 1 ga t ctga t cg cc g acgc c aa ca c catg c aa at c agcg c gg cg a cgat c at gg c tgcc a cc
12 6 1 gc c gaat a ct tc g acac t ac cg t cgaa g ag ct t cgcg g gc cc g gcaa g ac cc g agca c tg
13 2 1 gc c cagt c ac ga c agat t gc ga t gtac c tg tg t cgtg a gc tc a ccga t ct tt c gttg c cc
13 8 1 aa a atcg g cc aa g cgtt c gg cc g tgat c ac ac a accg t ca tg t acgc c ca ac g caag a tc
14 4 1 ct g tccg a ga tg g ccga g cg cc g tgag g tc tt t gatc a cg tc a aaga a ct ca c cact c gc
15 0 1 at c cgtc a gc gc t ccaa g cg ct a g
¿ Cuál es el propósito del
análisis de una secuencia?

 Identificar los genes


 Determinar funciones de los genes
 Comparar con otros genes similares
 Identificar las proteínas que intervienen
 Determinar patrones en las secuencias
 Identificar otras regiones
Todas estas tareas son
COMPUTACIONALES
 Biología

 Ciencias de la
Computación

 Matemáticas
Análisis de una
secuencia
Mycobacterium Tuberculosis
 A : 0.1693  A : 17%

 C : 0.3232  C : 32%

 G : 0.3304  G : 33%

 T : 0.1771  T : 18%
Mycobacterium Tuberculosis
 A : 17%  A <= > T

 C : 32%  G <= > C

 G : 33%  A+G <=> C+T

 T : 18%  A+T # C+G


Mycobacterium Tuberculosis
 A : 17  A/T = 0.94

 C : 32  G/C = 1.03

 G : 33  Pu / Py = 1.00

 T : 18  Asimetría = 0.54
Reglas de Chargaff

 A <=> T  A+G <=> C+T

 G <=> C  A+T vs C+G


Humano
 A : 31%

 C : 20%

 G : 20%

 T : 29%
Tuberculosis vs Humano
Tuberculosis Humano
A/T 0.94 1.07
G/C 1.03 1.00
Pu/Py 1.00 1.04
Asimetría 0.54 1.50
Aspergillus vs Cangrejo mar
Aspergillus Cangrejo mar
A/T = c 1 1.00 1.00
G/C = c 2 1.00 1.00
Pu/Py = c 3 1.00 1.00
Asimetría = c 4 1.00 15.67
Ecuaciones
 A = cT
1

 G = c C
2

 A+G= c (C+T)
3

 A+ T = c(C+G) 4
Aspergillus vs Cangrejo mar
Aspergillus Cangrejo mar
A 25% 47%
C 25% 3%
G 25% 3%
T 25% 47%
Asimetría
 Humano: 1.50
 Oveja: 1.36
 Levadura: 1.83
 E. Coli: 1.13
 Clostridium: 2.70
 Brucella: 0.72
M. Tuberculosis
BASE COUNT 352 a 518 c 380 g 274 t
ORIGIN
1 tt g accg a tg ac c ccgg t tc ag g cttc a cc ac a gtgt g ga ac g cggt c gt ct c cgaa c tt
61 aa c ggcg a cc ct a aggt t ga cg a cgga c cc ag c agtg a tg ct a atct c ag cg c tccg c tg
1 21 ac c cctc a gc aa a gggc t tg gc t caat c tc gt c cagc c at tg a ccat c gt cg a gggg t tt
1 81 gc t ctgt t at cc g tgcc g ag ca g cttt g tc ca a aacg a aa tc g agcg c ca tc t gcgg g cc
2 41 cc g atta c cg ac g ctct c ag cc g ccga c tc gg a catc a ga tc c aact c gg gg t ccgc a tc
3 01 gc t ccgc c gg cg a ccga c ga ag c cgac g ac ac t accg t gc cg c cttc c ga aa a tcct g ct
3 61 ac c acat c gc ca g acac c ac aa c cgac a ac ga c gaga t tg at g acag c gc tg c ggca c gg
4 21 gg c gata a cc ag c acag t tg gc c aagt t ac tt c accg a gc gc c cgca c aa ta c cgat t cc
4 81 gc t accg c tg gc g taac c ag cc t taac c gt cg c taca c ct tt g atac g tt cg t tatc g gc
5 41 gc c tcca a cc gg t tcgc g ca cg c cgcc g cc tt g gcga t cg ca g aagc a cc cg c ccgc g ct
6 01 ta c aacc c cc tg t tcat c tg gg g cgag t cc gg t ctcg g ca ag a caca c ct gc t acac g cg
6 61 gc a ggca a ct at g ccca a cg gt t gttc c cg gg a atgc g gg tc a aata t gt ct c cacc g ag
7 21 ga a ttca c ca ac g actt c at ta a ctcg c tc cg c gatg a cc gc a aggt c gc at t caaa c gc
7 81 ag c tacc g cg ac g taga c gt gc t gttg g tc ga c gaca t cc aa t tcat t ga ag g caaa g ag
8 41 gg t attc a ag ag g agtt c tt cc a cacc t tc aa c acct t gc ac a atgc c aa ca a gcaa a tc
9 01 gt c atct c at ct g accg c cc ac c caag c ag ct c gcca c cc tc g agga c cg gc t gaga a cc
9 61 cg c tttg a gt gg g ggct g at ca c tgac g ta ca a ccac c cg ag c tgga g ac cc g catc g cc
10 2 1 at c ttgc g ca ag a aagc a ca ga t ggaa c gg ct c gcgg t cc cc g acga t gt cc t cgaa c tc
10 8 1 at c gcca g ca gt a tcga a cg ca a tatc c gt ga a ctcg a gg gc g cgct g at cc g ggtc a cc
11 4 1 gc g ttcg c ct ca t tgaa c aa aa c acca a tc ga c aaag c gc tg g ccga g at tg t gctt c gc
12 0 1 ga t ctga t cg cc g acgc c aa ca c catg c aa at c agcg c gg cg a cgat c at gg c tgcc a cc
12 6 1 gc c gaat a ct tc g acac t ac cg t cgaa g ag ct t cgcg g gc cc g gcaa g ac cc g agca c tg
13 2 1 gc c cagt c ac ga c agat t gc ga t gtac c tg tg t cgtg a gc tc a ccga t ct tt c gttg c cc
13 8 1 aa a atcg g cc aa g cgtt c gg cc g tgat c ac ac a accg t ca tg t acgc c ca ac g caag a tc
14 4 1 ct g tccg a ga tg g ccga g cg cc g tgag g tc tt t gatc a cg tc a aaga a ct ca c cact c gc
15 0 1 at c cgtc a gc gc t ccaa g cg ct a g
M. Tuberculosis 3 972 522 bp
A C G T

Primera 228 244 409 011 470 868 216 051


base
Segunda 233 472 416 457 404 607 269 638
base
Tercera 210 892 458 256 437 223 217 803
base
M. Tuberculosis 3 972 522 bp

 Primera base:
1 324 174  En la primera base hay
 Segunda base: 1324174
1 324 174 nucleótidos, de
 Tercera base: los cuales 228
1 324 174 244 son A
Primera base del
M.Tuberculosis
 Primera base: 1 324 174
 A en la primera base: 228 244

 Fracción de A en la primera base:


228244 / 1324174 = 0.1724

 En la primera base el 17.24% son A


Primera base del
M.Tuberculosis
 En la primera base el 17.24% son A

 En la primera base el 30.89% son C

 En la primera base el 35.56% son G

 En la primera base el 16.32% son T


Frecuencias de los
nucleótidos por bases
A C G T

Primera 0.1724 0.3089 0.3556 0.1632


base
Segunda 0.1763 0.3145 0.3056 0.2036
base
Tercera 0.1593 0.3461 0.3302 0.1645
base
M. Tuberculosis

 Matriz de 3  I = [0,1]
filas x 4 columnas

 Cada entrada toma un  Vector de I 12


valor entre 0 y 1
Escherichia coli K-12

 http://www.ncbi.nlm.nih.gov

 NC_000913

 4 639 221 bp
Escherichia coli K-12
 http://www.
ncbi.nlm.nih.gov

 NC_000913

 4 639 221 bp
Escherichia coli K-12
A C G T

Primera 348 972 324 793 452 813 215 406


base
Segunda 381 930 306 729 235 128 418 197
base
Tercera 245 774 344 638 400 070 351 502
base
Frecuencias de los
nucleótidos por bases E. Coli
A C G T

Primera 0.2600 0.2420 0.3374 0.1605


base
Segunda 0.2846 0.2286 0.1752 0.3116
base
Tercera 0.1831 0.2568 0.2981 0.2619
base
Tuberculosis vs E. Coli
Tuberculosis E. Coli
A 0.1693 0.2426
C 0.3232 0.2425
G 0.3304 0.2447
T 0.1771 0.2702
Tuberculosis vs E. Coli
Tuberculosis E. Coli
A/T 0.94 0.90
G/C 1.03 1.01
Pu / Py 1.00 0.95
Asimetría 0.54 1.05
¿Cómo comparar dos
genomas completos?
 Humano 3 000 millones bases

 Tuberculosis 4 millones de bases

 E. Coli 4 millones de bases

 Mycoplasma genitalium 528 000 bases


Tuberculosis vs E. Coli
 ¿Cómo comparar ambos y dar una medida
cuantitativa de su Similitud ?
 ¿Cómo comparar ambos y dar una medida
cuantitativa de su Diferencia ?

 A mayor similitud, menor diferencia


 A menor similitud, mayor diferencia
Diferencia

Concepto matemático: Distancia


Concepto de Distancia

 Un conjunto E sobre el que se define la


distancia

 Una aplicación d: E x E ----> R+


d ( x , y) nos da la distancia entre los
elementos x , y
Propiedades de una
Distancia

 d(x,y) = 0 <==> x = y

 d(x,y) = d(y,x)

 d(x,y) ≤ d(x,z) + d(z,y)


En I12

 x = (x1 , ……. , x12)

 y = (y1 , ……. , y12)

 d1(x , y) = | x1 - y1 | + …. + | x12 - y12 |


En I12

E=
{ Frecuencias nucleótidos/bases
Genoma completo }
Tuberculosis vs E. Coli
A C G T

Primera 0.2600 0.2420 0.3374 0.1605


base 0.1724 0.3089 0.3556 0.1632
Segunda 0.2846 0.2286 0.1752 0.3116
base 0.163 0.3145 0.3056 0.2036
Tercera 0.1831 0.2568 0.2981 0.2619
base 0.1593 0.3461 0.3002 0.1645
E = { Frecuencias
nucleótidos/bases
Genoma completo }

 M. Tuberculosis

 E. Coli

 d1(M.Tuberculosis, E.Coli) = 0.8516


E = { Frecuencias
nucleótidos/bases
Genoma completo }


 | x1 - y1 | + …. + | x12 - y12 |
 d(x,y) = -----------------------------------------
 Max{x1,y1}+……+Max {x12,y12}
Propiedades básicas

 Es una distancia

 0 ≤ d(x,y) ≤ 1
Demostración
 J.J. .Nieto, A. Torres, M.M. Vázquez : “A metric
to study differences between polynucleotides”.
APPLIED MATHEMATICS LETTERS (2003)

 A. Dress, T. Lokot :”A simple proof of the


triangle inequality for the NTV metric”.
APPLIED MATHEMATICS LETTERS (2003)
Tuberculosis vs E. Coli
A C G T

Primera 0.2600 0.2420 0.3374 0.1605


base 0.1724 0.3089 0.3556 0.1632
Segunda 0.2846 0.2286 0.1752 0.3116
base 0.163 0.3145 0.3056 0.2036
Tercera 0.1831 0.2568 0.2981 0.2619
base 0.1593 0.3461 0.3002 0.1645
Distancia

 d(Tuberculosis, E.Coli) = 0.8516 / 3.4253

 d(M.Tuberculosis, E.Coli) = 0.2483


d(M.Tuber., E.Coli) = 0.2483

 A. Torres & J.J. Nieto, The fuzzy


polynucleotide space: basic properties
BIOINFORMATICS Vol. 19 (2003),
pp. 587-592
Entropía de una secuencia

 “Las bases que aparecen en distintas


posiciones son independientes”

 Por ej. M. Tuberculosis


M. Tuberculosis vs
Distribución uniforme
 A : 0.1693  A : 0.25

 C : 0.3232  C : 0.25

 G : 0.3304  G : 0.25

 T : 0.1771  T : 0.25
Fórmula de la entropía

∑n fn log2 ( fn / un )
Propiedades de la entropía

 Toma valores entre 0 y 1

 Vale 0 para la distribución uniforme (por


ej. para el Aspergillus )
Entropía M. Tuberculosis

 Entropía ( M. Tuberculosis ) = 0.0693

 En una secuencia de longitud 100 hay


6.93 bits de información extra.
1-100
ttgaccgatgaccccggttcaggcttcacc
acagtgtggaacgcggtcgtctccgaactt
aacggcgaccctaaggttgacgacggacc
cagcagtgatg
100 primeros nucleótidos
M. Tuberculosis

 A total: 17%  A100: 22


 C total: 32%  C100: 30
 G total: 33%  G100: 29
 T total: 18%  T100: 19
1-100

 La probabilidad de que esa secuencia


provenga del genoma de M. Tuberculosis es
2 6.93
= 121.9
veces más de que haya sido generada
por la distribución uniforme
Di-nucleótidos

AA AC AG AT
CA CC CG CT
GA GC GG GT
TA TC TG TT
Tri-Nucleótidos

Aminoácidos

Por ej. TCT TCA serina

También podría gustarte