Está en la página 1de 43

Búsquedas de secuencias y

árboles por métodos


bioinformáticos
Cronología hacía la bioinformática para
las secuencias moleculares
  1944 Avery, MacLeod & McCarty: DNA es
la materia genética
  1953 Watson & Crick: la estructura de
DNA
  1955 Sanger: secuencia a.a. de insulina
  1965 Dayhoff: “Atlas of protein sequence
and structure”
  1972 Fiers et al.: secuenciación de RNA
  1977 Maxam y Gilbert, Sanger, Nicklen y
Coulsen: secuenciación de DNA
  1979 Goad: Los Alamos Sequence
Database
  1982 Creación de GenBank
Frederic Sanger
1918-
“El método Sanger”
secuenciación por dideoxinucleótidos

http://classroom.sdmesa.edu/eschmid/Lab17-Biol210.htm
Polymerase Chain Reaction
Kary Mullis

Cetus - 1983
Compartió el Premio Nobel in
Química (1993)

Saiki R.K. et al. 1985. Science, 230:1350-1354.


Secuenciación Sanger con florescencia

http://www.appliedbiosystems.com/absite/us/en/home/applications-technologies/
dna-sequencing-fragment-analysis/overview-of-dna-sequencing/sequencing-chemistries.html

13 de october de 2006

Smith LM, Sanders JZ, Kaiser RJ et al. (1986). Fluorescence detection in automated DNA sequence
analysis. Nature 321: 674–679
Solexa “sequencing-by-synthesis”
ca. 2004

http://seqanswers.com/forums/showthread.php?t=21
Hayasaka K., Gojobori T. & S. Horai. 1988. Mol. Biol. Evol. 5:626-644.
Bases de datos moleculares
  GenBank
  National Center for Biotechnology Information
  est. 1982 (NCBI en 1988)
  Bethesda, MD, E.U.A.

  EMBL
  European Molecular Biology Laboratory
  est. 1974
  Inglaterra

  DDBJ
  DNA Data Bank of Japan
  est. 1986
GenBank

http://www.ncbi.nlm.nih.gov/genbank/
GenBank flatfile
GenBank flatfile
European Molecular Biology Laboratory

http://www.ebi.ac.uk/embl/
DNA Data Bank of Japan

http://www.ddbj.nig.ac.jp/
DNA Data Bank of Japan

http://www.ddbj.nig.ac.jp/
Cómo realizar una búsqueda de
una base de datos de DNA
Tres estrategias
Por el “identificador de secuencia” único
para recuperar una secuencia conocida

Por palabras claves


para recuperar secuencias que comparten la misma
información de anotación (p. ej., el mismo gen o grupo
taxonómico)

Por similitud con secuencias homólogas


Mediante programas de búsqueda como BLAST o FASTA

Bottu, G. 2009. Sequence databases and database searching. En Lemey, P.,


Salemi, M. y A. -M. Vandamme (eds.), The phylogenetic handbook: a practical
approach to phylogenetic analysis and hypothesis testing. 2nd edition. Cambridge
University Press, Cambridge.
Búsquedas en bases de datos
BLAST
megablast
>=95% similitud
rápido

discontinuous megablast
permite “mismatch”

blastN
funciona bien para secuencias que son una mezcla de
espaciadores y regiones codificantes
lento
tamaño de palabra “wordsize” mínimo de 7 bases (tamaño
por defecto = 11 pb)

Altschul, S.F., Gish, W., Miller, W., Myers, E.W. & D.J. Lipman. 1990. Basic local
alignment search tool. J. Mol. Biol. 215:403-410.
Nucleotide BLAST
genera una tabla indizada de subsecuencias cortas (por defecto = 11
nucleótidos) “palabras”

busca combinaciones exactas entre palabras en el base de datos

las combinaciones sirven para iniciar alineaciones más largas (multi-paso)

no se recomienda para regiones codificantes

para oligonucleótidos: "Search for short and near exact matches"

http://www.ncbi.nlm.nih.gov/blast/Why.shtml#BLASTN_SIM
BLAST E-value
El número esperado de secuencias con un valor de similitud ≥ S que
se puede encontrar al azar

E () = m * n * K * e-λ*S
m longitud de la secuencia

n longitud total de la base de datos

K y λ son parámetros “Karlin & Altschul”; dependen de las


suposiciones de similitud y la composición de bases o aminoácidos

Supone que las puntuaciones conforman a un “extreme value


distribution”

Bottu, G. 2009. Sequence databases and database searching. En Lemey, P.,


Salemi, M. y A. -M. Vandamme (eds.), The phylogenetic handbook: a practical
approach to phylogenetic analysis and hypothesis testing. 2nd edition. Cambridge
University Press, Cambridge.
BLAST E-value
E() < 0.1 ≈ confianza razonable que la secuencia es homóloga

0.1 < E() < 10 ≈ posible homólogo, pero hay que tener cuidado

E() > 10 ≈ tal vez es un homólogo, pero es tan divergente que el


alineamiento probablemente no es correcto

Bottu, G. 2009. Sequence databases and database searching. En Lemey, P.,


Salemi, M. y A. -M. Vandamme (eds.), The phylogenetic handbook: a practical
approach to phylogenetic analysis and hypothesis testing. 2nd edition. Cambridge
University Press, Cambridge.
BLAST bit score
No depende de alguna suposición de similitud y refleja mejor la
significancia del alineamiento

s = ( λ * s - ln K ) / ln 2

Bottu, G. 2009. Sequence databases and database searching. En Lemey, P.,


Salemi, M. y A. -M. Vandamme (eds.), The phylogenetic handbook: a practical
approach to phylogenetic analysis and hypothesis testing. 2nd edition. Cambridge
University Press, Cambridge.
Búsquedas para proteínas
protein-protein BLAST (blastp): parecida a BLASTN, busca
combinaciones locales (por defecto = 3 aminoácidos)

PSI-BLAST (position specific iterated BLAST): más sensible, se


recomienda para buscar proteínas más divergentes.
la búsqueda inicia con blastp
construye una matriz de perfiles “PSSM” (position specific scoring matrix) con
las combinaciones con valores de Expect menores de 0.005
usa la matriz de perfiles como “query” para otro búsqueda para encontrar
otras proteínas
repita hasta no encontrar nuevas combinaciones
PAM: Point Accepted Mutations
  Margaret Dayhoff
  PAM1: tasas de sustitución al 1% de divergencia
  Para secencias más divergentes: PAM30, PAM70,
PAM250, etc.
BLOSUM62

http://www-users.math.umd.edu/~poorani/sampletalk/talk.html#four
Actividad 1
¿Mis secuencias de DNA provienen de un organismo
en la NOM-059?
Actividad 2
¿Cuáles son los parientes del ahuehuete?

El árbol de Tule en Santa María de Tule, Oaxaca


Ejemplo: como recuperar secuencias
provenientes del árbol nacional de México
TreeBASE
TreeBASE
TreeBASE
Joint Genome Institute

También podría gustarte