Bases Datos 2013

Búsquedas de secuencias y
árboles por métodos

bioinformáticos
Cronología hacía la bioinformática para
las secuencias moleculares
  1944 Avery, MacLeod & McCarty: DNA es
la materia genética
  1953 Watson & Crick: la estructura de
DNA
  1955 Sanger: secuencia a.a. de insulina
  1965 Dayhoff: “Atlas of protein sequence
and structure”
  1972 Fiers et al.: secuenciación de RNA
  1977 Maxam y Gilbert, Sanger, Nicklen y
Coulsen: secuenciación de DNA
  1979 Goad: Los Alamos Sequence
Database
  1982 Creación de GenBank
Frederic Sanger
1918-
“El método Sanger”
secuenciación por dideoxinucleótidos
http://classroom.sdmesa.edu/eschmid/Lab17-Biol210.htm
Polymerase Chain Reaction
Kary Mullis
Cetus - 1983
Compartió el Premio Nobel in
Química (1993)
Saiki R.K. et al. 1985. Science, 230:1350-1354.

Secuenciación Sanger con florescencia
http://www.appliedbiosystems.com/absite/us/en/home/applications-technologies/
dna-sequencing-fragment-analysis/overview-of-dna-sequencing/sequencing-chemistries.html
13 de october de 2006
Smith LM, Sanders JZ, Kaiser RJ et al. (1986). Fluorescence detection in automated DNA sequence
analysis. Nature 321: 674–679
Solexa “sequencing-by-synthesis”
ca. 2004
http://seqanswers.com/forums/showthread.php?t=21
Hayasaka K., Gojobori T. & S. Horai. 1988. Mol. Biol. Evol. 5:626-644.
Bases de datos moleculares
  GenBank
  National Center for Biotechnology Information
  est. 1982 (NCBI en 1988)
  Bethesda, MD, E.U.A.
  EMBL
  European Molecular Biology Laboratory
  est. 1974
  Inglaterra
  DDBJ
  DNA Data Bank of Japan
  est. 1986
GenBank
http://www.ncbi.nlm.nih.gov/genbank/
GenBank flatfile
GenBank flatfile
European Molecular Biology Laboratory
http://www.ebi.ac.uk/embl/
DNA Data Bank of Japan
http://www.ddbj.nig.ac.jp/
DNA Data Bank of Japan
http://www.ddbj.nig.ac.jp/
Cómo realizar una búsqueda de
una base de datos de DNA
Tres estrategias
Por el “identificador de secuencia” único
para recuperar una secuencia conocida
Por palabras claves

para recuperar secuencias que comparten la misma
información de anotación (p. ej., el mismo gen o grupo
taxonómico)
Por similitud con secuencias homólogas

Mediante programas de búsqueda como BLAST o FASTA
Bottu, G. 2009. Sequence databases and database searching. En Lemey, P.,

Salemi, M. y A. -M. Vandamme (eds.), The phylogenetic handbook: a practical
approach to phylogenetic analysis and hypothesis testing. 2nd edition. Cambridge
University Press, Cambridge.
Búsquedas en bases de datos
BLAST
megablast
>=95% similitud
rápido
discontinuous megablast
permite “mismatch”
blastN
funciona bien para secuencias que son una mezcla de
espaciadores y regiones codificantes
lento
tamaño de palabra “wordsize” mínimo de 7 bases (tamaño
por defecto = 11 pb)
Altschul, S.F., Gish, W., Miller, W., Myers, E.W. & D.J. Lipman. 1990. Basic local
alignment search tool. J. Mol. Biol. 215:403-410.
Nucleotide BLAST
genera una tabla indizada de subsecuencias cortas (por defecto = 11
nucleótidos) “palabras”
busca combinaciones exactas entre palabras en el base de datos
las combinaciones sirven para iniciar alineaciones más largas (multi-paso)
no se recomienda para regiones codificantes
para oligonucleótidos: "Search for short and near exact matches"
http://www.ncbi.nlm.nih.gov/blast/Why.shtml#BLASTN_SIM
BLAST E-value
El número esperado de secuencias con un valor de similitud ≥ S que
se puede encontrar al azar
E () = m * n * K * e-λ*S
m longitud de la secuencia
n longitud total de la base de datos
K y λ son parámetros “Karlin & Altschul”; dependen de las

suposiciones de similitud y la composición de bases o aminoácidos
Supone que las puntuaciones conforman a un “extreme value

distribution”

BLAST E-value
E() < 0.1 ≈ confianza razonable que la secuencia es homóloga
0.1 < E() < 10 ≈ posible homólogo, pero hay que tener cuidado
E() > 10 ≈ tal vez es un homólogo, pero es tan divergente que el

alineamiento probablemente no es correcto

BLAST bit score
No depende de alguna suposición de similitud y refleja mejor la
significancia del alineamiento
s = ( λ * s - ln K ) / ln 2

Búsquedas para proteínas
protein-protein BLAST (blastp): parecida a BLASTN, busca
combinaciones locales (por defecto = 3 aminoácidos)
PSI-BLAST (position specific iterated BLAST): más sensible, se

recomienda para buscar proteínas más divergentes.
la búsqueda inicia con blastp
construye una matriz de perfiles “PSSM” (position specific scoring matrix) con
las combinaciones con valores de Expect menores de 0.005
usa la matriz de perfiles como “query” para otro búsqueda para encontrar
otras proteínas
repita hasta no encontrar nuevas combinaciones
PAM: Point Accepted Mutations
  Margaret Dayhoff
  PAM1: tasas de sustitución al 1% de divergencia
  Para secencias más divergentes: PAM30, PAM70,
PAM250, etc.
BLOSUM62
http://www-users.math.umd.edu/~poorani/sampletalk/talk.html#four
Actividad 1
¿Mis secuencias de DNA provienen de un organismo
en la NOM-059?
Actividad 2
¿Cuáles son los parientes del ahuehuete?
El árbol de Tule en Santa María de Tule, Oaxaca

Ejemplo: como recuperar secuencias
provenientes del árbol nacional de México
TreeBASE
TreeBASE
TreeBASE
Joint Genome Institute

Bases Datos 2013

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Bases Datos 2013

Cargado por

Copyright:

Formatos disponibles

Búsquedas de secuencias y

árboles por métodos

Saiki R.K. et al. 1985. Science, 230:1350-1354.

Por palabras claves

Por similitud con secuencias homólogas

Bottu, G. 2009. Sequence databases and database searching. En Lemey, P.,

busca combinaciones exactas entre palabras en el base de datos

las combinaciones sirven para iniciar alineaciones más largas (multi-paso)

no se recomienda para regiones codificantes

para oligonucleótidos: "Search for short and near exact matches"

n longitud total de la base de datos

K y λ son parámetros “Karlin & Altschul”; dependen de las

Supone que las puntuaciones conforman a un “extreme value

Bottu, G. 2009. Sequence databases and database searching. En Lemey, P.,

E() > 10 ≈ tal vez es un homólogo, pero es tan divergente que el

Bottu, G. 2009. Sequence databases and database searching. En Lemey, P.,

Bottu, G. 2009. Sequence databases and database searching. En Lemey, P.,

PSI-BLAST (position specific iterated BLAST): más sensible, se

El árbol de Tule en Santa María de Tule, Oaxaca

También podría gustarte