Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Fundamentos y aplicaciones
de actualidad
Curso de Verano
Universidad de Santiago de
Compostela
ALGORITMOS DE
ALINEAMIENTO DE
SECUENCIAS
El gráfico de puntos
Alineamiento global: algoritmo de
Needleman y Wunsch
Alineamiento local: El algoritmo de Smith-
Waterman
Búsquedas en bases de datos: FastA,
BLAST …
Concepto de Secuencia
Número diferente de
letras que contiene
Cada secuencia forma una palabra
XYZSECW
GALLEGO CAT:
GALEGO Gato (Inglés)
Histidina (DNA)
GATA
CAT
Secuencias EST
EST
(Expressed Sequences
Tags)
Alfabeto EST:
a, g, t, c, n
INDELS
Inserción: INSERT
Se asigna una base demasiado pronto
Eliminación: DELETED
Queda sin asignar una base
Laboratorio
Bases de datos
Internet
http://www.ncbi.nlm.nih.gov
Mycobacterium
Tuberculosis
H37Rv
NC_000962
Mycobacterium Tuberculosis
H37Rv
Genoma Completo
Gene 1--1524
M. Tuberculosis
BASE COUNT 352 a 518 c 380 g 274 t
ORIGIN
1 tt g accg a tg ac c ccgg t tc ag g cttc a cc ac a gtgt g ga ac g cggt c gt ct c cgaa c tt
61 aa c ggcg a cc ct a aggt t ga cg a cgga c cc ag c agtg a tg ct a atct c ag cg c tccg c tg
1 21 ac c cctc a gc aa a gggc t tg gc t caat c tc gt c cagc c at tg a ccat c gt cg a gggg t tt
1 81 gc t ctgt t at cc g tgcc g ag ca g cttt g tc ca a aacg a aa tc g agcg c ca tc t gcgg g cc
2 41 cc g atta c cg ac g ctct c ag cc g ccga c tc gg a catc a ga tc c aact c gg gg t ccgc a tc
3 01 gc t ccgc c gg cg a ccga c ga ag c cgac g ac ac t accg t gc cg c cttc c ga aa a tcct g ct
3 61 ac c acat c gc ca g acac c ac aa c cgac a ac ga c gaga t tg at g acag c gc tg c ggca c gg
4 21 gg c gata a cc ag c acag t tg gc c aagt t ac tt c accg a gc gc c cgca c aa ta c cgat t cc
4 81 gc t accg c tg gc g taac c ag cc t taac c gt cg c taca c ct tt g atac g tt cg t tatc g gc
5 41 gc c tcca a cc gg t tcgc g ca cg c cgcc g cc tt g gcga t cg ca g aagc a cc cg c ccgc g ct
6 01 ta c aacc c cc tg t tcat c tg gg g cgag t cc gg t ctcg g ca ag a caca c ct gc t acac g cg
6 61 gc a ggca a ct at g ccca a cg gt t gttc c cg gg a atgc g gg tc a aata t gt ct c cacc g ag
7 21 ga a ttca c ca ac g actt c at ta a ctcg c tc cg c gatg a cc gc a aggt c gc at t caaa c gc
7 81 ag c tacc g cg ac g taga c gt gc t gttg g tc ga c gaca t cc aa t tcat t ga ag g caaa g ag
8 41 gg t attc a ag ag g agtt c tt cc a cacc t tc aa c acct t gc ac a atgc c aa ca a gcaa a tc
9 01 gt c atct c at ct g accg c cc ac c caag c ag ct c gcca c cc tc g agga c cg gc t gaga a cc
9 61 cg c tttg a gt gg g ggct g at ca c tgac g ta ca a ccac c cg ag c tgga g ac cc g catc g cc
10 2 1 at c ttgc g ca ag a aagc a ca ga t ggaa c gg ct c gcgg t cc cc g acga t gt cc t cgaa c tc
10 8 1 at c gcca g ca gt a tcga a cg ca a tatc c gt ga a ctcg a gg gc g cgct g at cc g ggtc a cc
11 4 1 gc g ttcg c ct ca t tgaa c aa aa c acca a tc ga c aaag c gc tg g ccga g at tg t gctt c gc
12 0 1 ga t ctga t cg cc g acgc c aa ca c catg c aa at c agcg c gg cg a cgat c at gg c tgcc a cc
12 6 1 gc c gaat a ct tc g acac t ac cg t cgaa g ag ct t cgcg g gc cc g gcaa g ac cc g agca c tg
13 2 1 gc c cagt c ac ga c agat t gc ga t gtac c tg tg t cgtg a gc tc a ccga t ct tt c gttg c cc
13 8 1 aa a atcg g cc aa g cgtt c gg cc g tgat c ac ac a accg t ca tg t acgc c ca ac g caag a tc
14 4 1 ct g tccg a ga tg g ccga g cg cc g tgag g tc tt t gatc a cg tc a aaga a ct ca c cact c gc
15 0 1 at c cgtc a gc gc t ccaa g cg ct a g
¿ Cuál es el propósito del
análisis de una secuencia?
Ciencias de la
Computación
Matemáticas
Análisis de una
secuencia
Mycobacterium Tuberculosis
A : 0.1693 A : 17%
C : 0.3232 C : 32%
G : 0.3304 G : 33%
T : 0.1771 T : 18%
Mycobacterium Tuberculosis
A : 17% A <= > T
C : 32 G/C = 1.03
G : 33 Pu / Py = 1.00
T : 18 Asimetría = 0.54
Reglas de Chargaff
C : 20%
G : 20%
T : 29%
Tuberculosis vs Humano
Tuberculosis Humano
A/T 0.94 1.07
G/C 1.03 1.00
Pu/Py 1.00 1.04
Asimetría 0.54 1.50
Aspergillus vs Cangrejo mar
Aspergillus Cangrejo mar
A/T = c 1 1.00 1.00
G/C = c 2 1.00 1.00
Pu/Py = c 3 1.00 1.00
Asimetría = c 4 1.00 15.67
Ecuaciones
A = cT
1
G = c C
2
A+G= c (C+T)
3
A+ T = c(C+G) 4
Aspergillus vs Cangrejo mar
Aspergillus Cangrejo mar
A 25% 47%
C 25% 3%
G 25% 3%
T 25% 47%
Asimetría
Humano: 1.50
Oveja: 1.36
Levadura: 1.83
E. Coli: 1.13
Clostridium: 2.70
Brucella: 0.72
M. Tuberculosis
BASE COUNT 352 a 518 c 380 g 274 t
ORIGIN
1 tt g accg a tg ac c ccgg t tc ag g cttc a cc ac a gtgt g ga ac g cggt c gt ct c cgaa c tt
61 aa c ggcg a cc ct a aggt t ga cg a cgga c cc ag c agtg a tg ct a atct c ag cg c tccg c tg
1 21 ac c cctc a gc aa a gggc t tg gc t caat c tc gt c cagc c at tg a ccat c gt cg a gggg t tt
1 81 gc t ctgt t at cc g tgcc g ag ca g cttt g tc ca a aacg a aa tc g agcg c ca tc t gcgg g cc
2 41 cc g atta c cg ac g ctct c ag cc g ccga c tc gg a catc a ga tc c aact c gg gg t ccgc a tc
3 01 gc t ccgc c gg cg a ccga c ga ag c cgac g ac ac t accg t gc cg c cttc c ga aa a tcct g ct
3 61 ac c acat c gc ca g acac c ac aa c cgac a ac ga c gaga t tg at g acag c gc tg c ggca c gg
4 21 gg c gata a cc ag c acag t tg gc c aagt t ac tt c accg a gc gc c cgca c aa ta c cgat t cc
4 81 gc t accg c tg gc g taac c ag cc t taac c gt cg c taca c ct tt g atac g tt cg t tatc g gc
5 41 gc c tcca a cc gg t tcgc g ca cg c cgcc g cc tt g gcga t cg ca g aagc a cc cg c ccgc g ct
6 01 ta c aacc c cc tg t tcat c tg gg g cgag t cc gg t ctcg g ca ag a caca c ct gc t acac g cg
6 61 gc a ggca a ct at g ccca a cg gt t gttc c cg gg a atgc g gg tc a aata t gt ct c cacc g ag
7 21 ga a ttca c ca ac g actt c at ta a ctcg c tc cg c gatg a cc gc a aggt c gc at t caaa c gc
7 81 ag c tacc g cg ac g taga c gt gc t gttg g tc ga c gaca t cc aa t tcat t ga ag g caaa g ag
8 41 gg t attc a ag ag g agtt c tt cc a cacc t tc aa c acct t gc ac a atgc c aa ca a gcaa a tc
9 01 gt c atct c at ct g accg c cc ac c caag c ag ct c gcca c cc tc g agga c cg gc t gaga a cc
9 61 cg c tttg a gt gg g ggct g at ca c tgac g ta ca a ccac c cg ag c tgga g ac cc g catc g cc
10 2 1 at c ttgc g ca ag a aagc a ca ga t ggaa c gg ct c gcgg t cc cc g acga t gt cc t cgaa c tc
10 8 1 at c gcca g ca gt a tcga a cg ca a tatc c gt ga a ctcg a gg gc g cgct g at cc g ggtc a cc
11 4 1 gc g ttcg c ct ca t tgaa c aa aa c acca a tc ga c aaag c gc tg g ccga g at tg t gctt c gc
12 0 1 ga t ctga t cg cc g acgc c aa ca c catg c aa at c agcg c gg cg a cgat c at gg c tgcc a cc
12 6 1 gc c gaat a ct tc g acac t ac cg t cgaa g ag ct t cgcg g gc cc g gcaa g ac cc g agca c tg
13 2 1 gc c cagt c ac ga c agat t gc ga t gtac c tg tg t cgtg a gc tc a ccga t ct tt c gttg c cc
13 8 1 aa a atcg g cc aa g cgtt c gg cc g tgat c ac ac a accg t ca tg t acgc c ca ac g caag a tc
14 4 1 ct g tccg a ga tg g ccga g cg cc g tgag g tc tt t gatc a cg tc a aaga a ct ca c cact c gc
15 0 1 at c cgtc a gc gc t ccaa g cg ct a g
M. Tuberculosis 3 972 522 bp
A C G T
Primera base:
1 324 174 En la primera base hay
Segunda base: 1324174
1 324 174 nucleótidos, de
Tercera base: los cuales 228
1 324 174 244 son A
Primera base del
M.Tuberculosis
Primera base: 1 324 174
A en la primera base: 228 244
Matriz de 3 I = [0,1]
filas x 4 columnas
http://www.ncbi.nlm.nih.gov
NC_000913
4 639 221 bp
Escherichia coli K-12
http://www.
ncbi.nlm.nih.gov
NC_000913
4 639 221 bp
Escherichia coli K-12
A C G T
d(x,y) = 0 <==> x = y
d(x,y) = d(y,x)
E=
{ Frecuencias nucleótidos/bases
Genoma completo }
Tuberculosis vs E. Coli
A C G T
M. Tuberculosis
E. Coli
| x1 - y1 | + …. + | x12 - y12 |
d(x,y) = -----------------------------------------
Max{x1,y1}+……+Max {x12,y12}
Propiedades básicas
Es una distancia
0 ≤ d(x,y) ≤ 1
Demostración
J.J. .Nieto, A. Torres, M.M. Vázquez : “A metric
to study differences between polynucleotides”.
APPLIED MATHEMATICS LETTERS (2003)
C : 0.3232 C : 0.25
G : 0.3304 G : 0.25
T : 0.1771 T : 0.25
Fórmula de la entropía
∑n fn log2 ( fn / un )
Propiedades de la entropía
AA AC AG AT
CA CC CG CT
GA GC GG GT
TA TC TG TT
Tri-Nucleótidos
Aminoácidos