Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Bioinformática Clásica
Una de las primeras colecciones de secuencias fue el "Atlas of Protein Sequences and
Structures" de la Dra. Margaret Dayhoff que apareció en 1965. Contenía las secuencias
disponibles en aquel momento y llegó a ser un documento de mucha valía, publicándose hasta
los ’70s. Conforme el número de secuencias aumentaba y aparecían medios electrónicos -
diskettes, email, internet, etc.- su disponibilidad y distribución se facilitó enormemente y hoy
constituyen uno de los principales –sino el más importante- recursos bioinformático.
DBMS
Por razones históricas a los ficheros de secuencias biológicas se les denomina “bases de
datos de secuencias biológicas”, aunque se trate de ficheros de texto, planos (sin estructura
o semi-estructurados). Hoy en día se tiende a utilizar DBMS’s para mejorar las prestaciones
de los servidores que suministran servicios sobre estas colecciones de datos
Aunque las tasas de crecimiento de las bases de datos de proteínas (secuencias en SwissProt) y
estructuras (PDB) no son tan espectaculares como en el caso de secuencias de ADN, la tendencia es la
misma. Es necesario tener en cuenta las mayores dificultades para la determinación de la estructura.
Actualmente se cuenta con más de 200 mil secuencias de proteínas y unas 20 mil estructuras 3D.
Uno de los grandes problemas con que tienen que lidiar la bioinformática y en especial los
usuarios y programadores de aplicaciones, es la diversidad de formatos en que se organizan
los datos moleculares. Quizá sea el tributo a su veloz historia lo que ha impedido la
uniformidad.
El problema no es solo a nivel sintáctico (formato de los datos) sino en algunos casos lo es
también a nivel semántico, llegándose a emplear el mismo término con diferente significado.
La solución a este problema se ha abordado desde diferentes perspectivas. Por una parte las
mismas organizaciones que mantienen las BD organizan enlaces entre ellas (referencias
cruzadas) para facilitar la navegación sobre ellas. Por otro lado hay iniciativas como UniProt
para unificar diferentes contenedores de información. También se desarrollan servidores que
realizan mediación de datos de forma transparente al usuario y finalmente hay un esfuerzo
importante para utilizar gestores de bases de datos.
Acrónimos de referencia
Los siguientes acrónimos son de uso frecuente en el ambiente de las BD de secuencias biológicas (dejo en
inglés los nombres originales de los recursos)
DDBJ DNA Data Bank of Japan (http://www.ddbj.nig.ac.jp/)
EMBL European Molecular Biology Laboratory (http://www.embl-heidelberg.de/)
GO Gene Ontology (www.geneontology.org)
NCBI National Center of Biotechnology Information (http://www.ncbi.nlm.nih.gov/)
Entrez Motor de búsqueda en BD gestionado por el NCBI (http://www.ncbi.nlm.nih.gov/Entrez)
NREF non-redundant reference databases
PDB Protein Data Bank (estructuras 3D)
PIR Protein Information Resource (http://pir.georgetown.edu)
PIR-PSD Protein Information Resource Protein Sequence Database
RefSeq Reference Sequence
Swiss-Prot BD de proteínas (http://www.expasy.ch)
TrEMBL Secuencias de proteínas obtenidas por traducción de sus correspondientes entradas en EMBL
UniParc UniProt Archive
Para más detalles revise el documento: Rolf Apweiler, Amos Bairoch and Cathy H Wu; (2004);
“Protein sequence databases”; Current Opinion in Chemical Biology 2004, 8:76–80
Tema 2: Bases de datos moleculares Campus Virtual Andaluz, 2007
Bioinformática Clásica
Aplicación favorita de
las Bases de Datos
Las secuencias conocidas se almacenan en Bases de Datos y están disponible –via Internet-
para la comunidad científica. El volumen de datos que se maneja jamás fue imaginado.
Además de la secuencia en sí, en las BD se almacena valiosa información sobre la función y
propiedades de la secuencia, con enlaces a otras fuentes de información sobre su estructura o
participación en determinados procesos biológicos. En muchos casos se tiene un buen registro
de las secuencias almacenadas.
Tema 2: Bases de datos moleculares Campus Virtual Andaluz, 2007
Uso del conocimiento almacenado
Bioinformática Clásica