Bioinfo1 2005

BIOINFORMÁTICA:
Fundamentos y aplicaciones
de actualidad
Curso de Verano
Universidad de Santiago de
Compostela
ALGORITMOS DE
ALINEAMIENTO DE
SECUENCIAS
Juan José Nieto

Lunes, 11 de Julio de 2005
¿Qué es una
SECUENCIA?
¿Qué es un
ALINEAMIENTO
de dos o varias secuencias?
¿Qué es un
ALGORITMO?
ALGORITMOS DE
ALINEAMIENTO DE
SECUENCIAS
 El gráfico de puntos
 Alineamiento global: algoritmo de
Needleman y Wunsch
 Alineamiento local: El algoritmo de Smith-
Waterman
 Búsquedas en bases de datos: FastA,
BLAST …
Concepto de Secuencia
 Conjunto ordenado de letras seleccionado

de un alfabeto
Ej. de Alfabetos
 Castellano (27 letras)

 Gallego (23 letras)
 Inglés (26 letras)
 Aas (20 letras)
 DNA (4 letras) a,c,g,t
Complejidad de un Alfabeto
 Número diferente de
letras que contiene
Cada secuencia forma una palabra
 XYZSECW
 GALLEGO  CAT:
 GALEGO  Gato (Inglés)
 Histidina (DNA)
 GATA
 CAT
Secuencias EST
 EST
(Expressed Sequences
Tags)
 Alfabeto EST:
a, g, t, c, n
INDELS
 Inserción: INSERT
 Se asigna una base demasiado pronto
 Eliminación: DELETED
 Queda sin asignar una base
 Se introduce una nueva letra en el alfabeto

DNA: El “hueco” (gap) -
¿Cómo podemos obtener una
secuencia de ácidos nucleicos, o
de proteínas?
 Laboratorio
 Bases de datos
 Internet
http://www.ncbi.nlm.nih.gov
 Mycobacterium
Tuberculosis
H37Rv
 NC_000962
Mycobacterium Tuberculosis
 H37Rv
 Genoma Completo
 Gene 1--1524
M. Tuberculosis
BASE COUNT 352 a 518 c 380 g 274 t
ORIGIN
1 tt g accg a tg ac c ccgg t tc ag g cttc a cc ac a gtgt g ga ac g cggt c gt ct c cgaa c tt
61 aa c ggcg a cc ct a aggt t ga cg a cgga c cc ag c agtg a tg ct a atct c ag cg c tccg c tg
1 21 ac c cctc a gc aa a gggc t tg gc t caat c tc gt c cagc c at tg a ccat c gt cg a gggg t tt
1 81 gc t ctgt t at cc g tgcc g ag ca g cttt g tc ca a aacg a aa tc g agcg c ca tc t gcgg g cc
2 41 cc g atta c cg ac g ctct c ag cc g ccga c tc gg a catc a ga tc c aact c gg gg t ccgc a tc
3 01 gc t ccgc c gg cg a ccga c ga ag c cgac g ac ac t accg t gc cg c cttc c ga aa a tcct g ct
3 61 ac c acat c gc ca g acac c ac aa c cgac a ac ga c gaga t tg at g acag c gc tg c ggca c gg
4 21 gg c gata a cc ag c acag t tg gc c aagt t ac tt c accg a gc gc c cgca c aa ta c cgat t cc
4 81 gc t accg c tg gc g taac c ag cc t taac c gt cg c taca c ct tt g atac g tt cg t tatc g gc
5 41 gc c tcca a cc gg t tcgc g ca cg c cgcc g cc tt g gcga t cg ca g aagc a cc cg c ccgc g ct
6 01 ta c aacc c cc tg t tcat c tg gg g cgag t cc gg t ctcg g ca ag a caca c ct gc t acac g cg
6 61 gc a ggca a ct at g ccca a cg gt t gttc c cg gg a atgc g gg tc a aata t gt ct c cacc g ag
7 21 ga a ttca c ca ac g actt c at ta a ctcg c tc cg c gatg a cc gc a aggt c gc at t caaa c gc
7 81 ag c tacc g cg ac g taga c gt gc t gttg g tc ga c gaca t cc aa t tcat t ga ag g caaa g ag
8 41 gg t attc a ag ag g agtt c tt cc a cacc t tc aa c acct t gc ac a atgc c aa ca a gcaa a tc
9 01 gt c atct c at ct g accg c cc ac c caag c ag ct c gcca c cc tc g agga c cg gc t gaga a cc
9 61 cg c tttg a gt gg g ggct g at ca c tgac g ta ca a ccac c cg ag c tgga g ac cc g catc g cc
10 2 1 at c ttgc g ca ag a aagc a ca ga t ggaa c gg ct c gcgg t cc cc g acga t gt cc t cgaa c tc
10 8 1 at c gcca g ca gt a tcga a cg ca a tatc c gt ga a ctcg a gg gc g cgct g at cc g ggtc a cc
11 4 1 gc g ttcg c ct ca t tgaa c aa aa c acca a tc ga c aaag c gc tg g ccga g at tg t gctt c gc
12 0 1 ga t ctga t cg cc g acgc c aa ca c catg c aa at c agcg c gg cg a cgat c at gg c tgcc a cc
12 6 1 gc c gaat a ct tc g acac t ac cg t cgaa g ag ct t cgcg g gc cc g gcaa g ac cc g agca c tg
13 2 1 gc c cagt c ac ga c agat t gc ga t gtac c tg tg t cgtg a gc tc a ccga t ct tt c gttg c cc
13 8 1 aa a atcg g cc aa g cgtt c gg cc g tgat c ac ac a accg t ca tg t acgc c ca ac g caag a tc
14 4 1 ct g tccg a ga tg g ccga g cg cc g tgag g tc tt t gatc a cg tc a aaga a ct ca c cact c gc
15 0 1 at c cgtc a gc gc t ccaa g cg ct a g
¿ Cuál es el propósito del
análisis de una secuencia?
 Identificar los genes

 Determinar funciones de los genes
 Comparar con otros genes similares
 Identificar las proteínas que intervienen
 Determinar patrones en las secuencias
 Identificar otras regiones
Todas estas tareas son
COMPUTACIONALES
 Biología
 Ciencias de la
Computación
 Matemáticas
Análisis de una
secuencia
 A : 0.1693  A : 17%
 C : 0.3232  C : 32%
 G : 0.3304  G : 33%
 T : 0.1771  T : 18%
 A : 17%  A <= > T
 C : 32%  G <= > C
 G : 33%  A+G <=> C+T
 T : 18%  A+T # C+G

 A : 17  A/T = 0.94
 C : 32  G/C = 1.03
 G : 33  Pu / Py = 1.00
 T : 18  Asimetría = 0.54
Reglas de Chargaff
 A <=> T  A+G <=> C+T
 G <=> C  A+T vs C+G

Humano
 A : 31%
 C : 20%
 G : 20%
 T : 29%
Tuberculosis vs Humano
Tuberculosis Humano
A/T 0.94 1.07
G/C 1.03 1.00
Pu/Py 1.00 1.04
Asimetría 0.54 1.50
Aspergillus vs Cangrejo mar
Aspergillus Cangrejo mar
A/T = c 1 1.00 1.00
G/C = c 2 1.00 1.00
Pu/Py = c 3 1.00 1.00
Asimetría = c 4 1.00 15.67
Ecuaciones
 A = cT
1
 G = c C
2
 A+G= c (C+T)
3
 A+ T = c(C+G) 4
Aspergillus vs Cangrejo mar
Aspergillus Cangrejo mar
A 25% 47%
C 25% 3%
G 25% 3%
T 25% 47%
Asimetría
 Humano: 1.50
 Oveja: 1.36
 Levadura: 1.83
 E. Coli: 1.13
 Clostridium: 2.70
 Brucella: 0.72
M. Tuberculosis
BASE COUNT 352 a 518 c 380 g 274 t
ORIGIN
1 tt g accg a tg ac c ccgg t tc ag g cttc a cc ac a gtgt g ga ac g cggt c gt ct c cgaa c tt
61 aa c ggcg a cc ct a aggt t ga cg a cgga c cc ag c agtg a tg ct a atct c ag cg c tccg c tg
1 21 ac c cctc a gc aa a gggc t tg gc t caat c tc gt c cagc c at tg a ccat c gt cg a gggg t tt
1 81 gc t ctgt t at cc g tgcc g ag ca g cttt g tc ca a aacg a aa tc g agcg c ca tc t gcgg g cc
2 41 cc g atta c cg ac g ctct c ag cc g ccga c tc gg a catc a ga tc c aact c gg gg t ccgc a tc
3 01 gc t ccgc c gg cg a ccga c ga ag c cgac g ac ac t accg t gc cg c cttc c ga aa a tcct g ct
3 61 ac c acat c gc ca g acac c ac aa c cgac a ac ga c gaga t tg at g acag c gc tg c ggca c gg
4 21 gg c gata a cc ag c acag t tg gc c aagt t ac tt c accg a gc gc c cgca c aa ta c cgat t cc
4 81 gc t accg c tg gc g taac c ag cc t taac c gt cg c taca c ct tt g atac g tt cg t tatc g gc
5 41 gc c tcca a cc gg t tcgc g ca cg c cgcc g cc tt g gcga t cg ca g aagc a cc cg c ccgc g ct
6 01 ta c aacc c cc tg t tcat c tg gg g cgag t cc gg t ctcg g ca ag a caca c ct gc t acac g cg
6 61 gc a ggca a ct at g ccca a cg gt t gttc c cg gg a atgc g gg tc a aata t gt ct c cacc g ag
7 21 ga a ttca c ca ac g actt c at ta a ctcg c tc cg c gatg a cc gc a aggt c gc at t caaa c gc
7 81 ag c tacc g cg ac g taga c gt gc t gttg g tc ga c gaca t cc aa t tcat t ga ag g caaa g ag
8 41 gg t attc a ag ag g agtt c tt cc a cacc t tc aa c acct t gc ac a atgc c aa ca a gcaa a tc
9 01 gt c atct c at ct g accg c cc ac c caag c ag ct c gcca c cc tc g agga c cg gc t gaga a cc
9 61 cg c tttg a gt gg g ggct g at ca c tgac g ta ca a ccac c cg ag c tgga g ac cc g catc g cc
10 2 1 at c ttgc g ca ag a aagc a ca ga t ggaa c gg ct c gcgg t cc cc g acga t gt cc t cgaa c tc
10 8 1 at c gcca g ca gt a tcga a cg ca a tatc c gt ga a ctcg a gg gc g cgct g at cc g ggtc a cc
11 4 1 gc g ttcg c ct ca t tgaa c aa aa c acca a tc ga c aaag c gc tg g ccga g at tg t gctt c gc
12 0 1 ga t ctga t cg cc g acgc c aa ca c catg c aa at c agcg c gg cg a cgat c at gg c tgcc a cc
12 6 1 gc c gaat a ct tc g acac t ac cg t cgaa g ag ct t cgcg g gc cc g gcaa g ac cc g agca c tg
13 2 1 gc c cagt c ac ga c agat t gc ga t gtac c tg tg t cgtg a gc tc a ccga t ct tt c gttg c cc
13 8 1 aa a atcg g cc aa g cgtt c gg cc g tgat c ac ac a accg t ca tg t acgc c ca ac g caag a tc
14 4 1 ct g tccg a ga tg g ccga g cg cc g tgag g tc tt t gatc a cg tc a aaga a ct ca c cact c gc
15 0 1 at c cgtc a gc gc t ccaa g cg ct a g
M. Tuberculosis 3 972 522 bp
A C G T
Primera 228 244 409 011 470 868 216 051

base
Segunda 233 472 416 457 404 607 269 638
base
Tercera 210 892 458 256 437 223 217 803
base
M. Tuberculosis 3 972 522 bp
 Primera base:
1 324 174  En la primera base hay
 Segunda base: 1324174
1 324 174 nucleótidos, de
 Tercera base: los cuales 228
1 324 174 244 son A
Primera base del
M.Tuberculosis
 Primera base: 1 324 174
 A en la primera base: 228 244
 Fracción de A en la primera base:

228244 / 1324174 = 0.1724
 En la primera base el 17.24% son A

Primera base del
M.Tuberculosis
 En la primera base el 17.24% son A
 En la primera base el 30.89% son C
 En la primera base el 35.56% son G
 En la primera base el 16.32% son T

Frecuencias de los
nucleótidos por bases
A C G T
Primera 0.1724 0.3089 0.3556 0.1632

base
Segunda 0.1763 0.3145 0.3056 0.2036
base
Tercera 0.1593 0.3461 0.3302 0.1645
base
M. Tuberculosis
 Matriz de 3  I = [0,1]
filas x 4 columnas
 Cada entrada toma un  Vector de I 12

valor entre 0 y 1
Escherichia coli K-12
 http://www.ncbi.nlm.nih.gov
 NC_000913
 4 639 221 bp
 http://www.
ncbi.nlm.nih.gov
 NC_000913
 4 639 221 bp
A C G T
Primera 348 972 324 793 452 813 215 406

base
Segunda 381 930 306 729 235 128 418 197
base
Tercera 245 774 344 638 400 070 351 502
base
Frecuencias de los
nucleótidos por bases E. Coli
A C G T
Primera 0.2600 0.2420 0.3374 0.1605

base
Segunda 0.2846 0.2286 0.1752 0.3116
base
Tercera 0.1831 0.2568 0.2981 0.2619
base
Tuberculosis vs E. Coli
Tuberculosis E. Coli
A 0.1693 0.2426
C 0.3232 0.2425
G 0.3304 0.2447
T 0.1771 0.2702
Tuberculosis E. Coli
A/T 0.94 0.90
G/C 1.03 1.01
Pu / Py 1.00 0.95
Asimetría 0.54 1.05
¿Cómo comparar dos
genomas completos?
 Humano 3 000 millones bases
 Tuberculosis 4 millones de bases
 E. Coli 4 millones de bases
 Mycoplasma genitalium 528 000 bases

 ¿Cómo comparar ambos y dar una medida
cuantitativa de su Similitud ?
 ¿Cómo comparar ambos y dar una medida
cuantitativa de su Diferencia ?
 A mayor similitud, menor diferencia

 A menor similitud, mayor diferencia
Diferencia
Concepto matemático: Distancia

Concepto de Distancia
 Un conjunto E sobre el que se define la

distancia
 Una aplicación d: E x E ----> R+

d ( x , y) nos da la distancia entre los
elementos x , y
Propiedades de una
Distancia
 d(x,y) = 0 <==> x = y
 d(x,y) = d(y,x)
 d(x,y) ≤ d(x,z) + d(z,y)

En I12
 x = (x1 , ……. , x12)
 y = (y1 , ……. , y12)
 d1(x , y) = | x1 - y1 | + …. + | x12 - y12 |

En I12
E=
{ Frecuencias nucleótidos/bases
Genoma completo }
A C G T
Primera 0.2600 0.2420 0.3374 0.1605

base 0.1724 0.3089 0.3556 0.1632
Segunda 0.2846 0.2286 0.1752 0.3116
base 0.163 0.3145 0.3056 0.2036
Tercera 0.1831 0.2568 0.2981 0.2619
base 0.1593 0.3461 0.3002 0.1645
E = { Frecuencias
nucleótidos/bases
Genoma completo }
 M. Tuberculosis
 E. Coli
 d1(M.Tuberculosis, E.Coli) = 0.8516

E = { Frecuencias
nucleótidos/bases
Genoma completo }

 | x1 - y1 | + …. + | x12 - y12 |
 d(x,y) = -----------------------------------------
 Max{x1,y1}+……+Max {x12,y12}
Propiedades básicas
 Es una distancia
 0 ≤ d(x,y) ≤ 1
Demostración
 J.J. .Nieto, A. Torres, M.M. Vázquez : “A metric
to study differences between polynucleotides”.
APPLIED MATHEMATICS LETTERS (2003)
 A. Dress, T. Lokot :”A simple proof of the

triangle inequality for the NTV metric”.
APPLIED MATHEMATICS LETTERS (2003)
A C G T
Primera 0.2600 0.2420 0.3374 0.1605

base 0.1724 0.3089 0.3556 0.1632
Segunda 0.2846 0.2286 0.1752 0.3116
base 0.163 0.3145 0.3056 0.2036
Tercera 0.1831 0.2568 0.2981 0.2619
base 0.1593 0.3461 0.3002 0.1645
Distancia
 d(Tuberculosis, E.Coli) = 0.8516 / 3.4253
 d(M.Tuberculosis, E.Coli) = 0.2483

d(M.Tuber., E.Coli) = 0.2483
 A. Torres & J.J. Nieto, The fuzzy

polynucleotide space: basic properties
BIOINFORMATICS Vol. 19 (2003),
pp. 587-592
Entropía de una secuencia
 “Las bases que aparecen en distintas

posiciones son independientes”
 Por ej. M. Tuberculosis

M. Tuberculosis vs
Distribución uniforme
 A : 0.1693  A : 0.25
 C : 0.3232  C : 0.25
 G : 0.3304  G : 0.25
 T : 0.1771  T : 0.25
Fórmula de la entropía
∑n fn log2 ( fn / un )
Propiedades de la entropía
 Toma valores entre 0 y 1
 Vale 0 para la distribución uniforme (por

ej. para el Aspergillus )
Entropía M. Tuberculosis
 Entropía ( M. Tuberculosis ) = 0.0693
 En una secuencia de longitud 100 hay

6.93 bits de información extra.
1-100
ttgaccgatgaccccggttcaggcttcacc
acagtgtggaacgcggtcgtctccgaactt
aacggcgaccctaaggttgacgacggacc
cagcagtgatg
100 primeros nucleótidos
M. Tuberculosis
 A total: 17%  A100: 22

 C total: 32%  C100: 30
 G total: 33%  G100: 29
 T total: 18%  T100: 19
1-100
 La probabilidad de que esa secuencia

provenga del genoma de M. Tuberculosis es
2 6.93
= 121.9
veces más de que haya sido generada
por la distribución uniforme
Di-nucleótidos
AA AC AG AT
CA CC CG CT
GA GC GG GT
TA TC TG TT
Tri-Nucleótidos
Aminoácidos
Por ej. TCT TCA serina

Bioinfo1 2005

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Bioinfo1 2005

Cargado por

Copyright:

Formatos disponibles

BIOINFORMÁTICA:

Juan José Nieto

 Conjunto ordenado de letras seleccionado

 Castellano (27 letras)

 Se introduce una nueva letra en el alfabeto

 Identificar los genes

 C : 32%  G <= > C

 G : 33%  A+G <=> C+T

 T : 18%  A+T # C+G

 A <=> T  A+G <=> C+T

 G <=> C  A+T vs C+G

Primera 228 244 409 011 470 868 216 051

 Fracción de A en la primera base:

 En la primera base el 17.24% son A

 En la primera base el 30.89% son C

 En la primera base el 35.56% son G

 En la primera base el 16.32% son T

Primera 0.1724 0.3089 0.3556 0.1632

 Cada entrada toma un  Vector de I 12

Primera 348 972 324 793 452 813 215 406

Primera 0.2600 0.2420 0.3374 0.1605

 Tuberculosis 4 millones de bases

 E. Coli 4 millones de bases

 Mycoplasma genitalium 528 000 bases

 A mayor similitud, menor diferencia

Concepto matemático: Distancia

 Un conjunto E sobre el que se define la

 Una aplicación d: E x E ----> R+

 d(x,y) ≤ d(x,z) + d(z,y)

 x = (x1 , ……. , x12)

 y = (y1 , ……. , y12)

 d1(x , y) = | x1 - y1 | + …. + | x12 - y12 |

Primera 0.2600 0.2420 0.3374 0.1605

 d1(M.Tuberculosis, E.Coli) = 0.8516

 A. Dress, T. Lokot :”A simple proof of the

Primera 0.2600 0.2420 0.3374 0.1605

 d(Tuberculosis, E.Coli) = 0.8516 / 3.4253

 d(M.Tuberculosis, E.Coli) = 0.2483

 A. Torres & J.J. Nieto, The fuzzy

 “Las bases que aparecen en distintas

 Por ej. M. Tuberculosis

 Toma valores entre 0 y 1

 Vale 0 para la distribución uniforme (por

 Entropía ( M. Tuberculosis ) = 0.0693

 En una secuencia de longitud 100 hay

 A total: 17%  A100: 22

 La probabilidad de que esa secuencia

Por ej. TCT TCA serina

También podría gustarte