Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Una base de datos (BD) es una colección de datos. Una agenda de teléfonos es un
sencillo ejemplo de una base de datos. Los datos se almacenan en registros. Cada
registro debe tener un identificador único y estable. La información que contiene cada
registro está distribuida en campos.
Los diversos tipos de datos están estrechamente relacionados entre sí: las secuencias
codificantes de ADN dan lugar a proteínas con una estructura tridimensional y una
función característica; con mucha frecuencia, las proteínas no funcionan solas sino que
forman parte de rutas metabólicas en las que establecen importantes relaciones con otros
tipos de biomoléculas y, además, toda esta información está convenientemente reflejada
en las publicaciones científicas.
Se ha hecho un gran esfuerzo para que toda esta información sea accesible a través de la
World Wide Web (www) de modo que tanto las bases de datos como sus herramientas
de búsqueda se han convertido en parte esencial de la actividad investigadora. Todos los
años, el primer número de la revista Nucleic Acids Research (NAR) está dedicado a las
bases de datos: publica artículos que describen la creación de nuevas bases de datos y
las innovaciones que se han producido en las ya existentes y, además, contiene una lista
exhaustiva de todas las bases de datos existentes y sus URL. Muchas de estas bases
están alojadas en los sitios web de centros gubernamentales o privados que han
creado un entorno gráfico uniforme que reúne un gran número de bases de datos.
Ejemplos de este tipo de centros son:
El verdadero interés de los bancos de datos está en las anotaciones, el "valor añadido"
que se añade a la simple secuencia y que nos ayuda a comprender la estructura de la
biomolécula, su función, las posibles interacciones que pueda establecer en el interior de
la célula con otras moléculas y su historial evolutivo. Se distinguen las anotaciones
estructurales (identificación de genes y otros elementos importantes de la secuencia) y
las anotaciones funcionales (las que se refieren al papel que desempeña esa secuencia
en el organismo).
En muchos casos, sobre todo cuando se trata de secuencias muy grandes (como, por
ejemplo, secuencias genómicas) se utilizan métodos automáticos de anotación. Estas
anotaciones son el resultado de la aplicación de herramientas bioinformáticas
(comparación de secuencias o algoritmos de predicción) y, en la gran mayoría de los
casos, no existen evidencias experimentales que corroboren esas anotaciones. En
muchos casos señalan proteínas "hipotéticas" o "putativas" que podrán existir o no en la
realidad. La fiabilidad de una predicción depende de la existencia de evidencias
experimentales que la confirmen. Por eso, a la hora de anotar genes y genomas, los
biólogos deben hacer uso de sus propios conocimientos, de su intuición y de la
información publicada en la literatura para diseñar experimentos que apoyen esas
predicciones. Si las bases de datos incorporen anotaciones erróneas en las secuencias
se corre el peligro de que estos errores se propaguen de unas bases de datos a otras sin
que nadie lo remedie.
Los errores en los datos pueden haberse producido en origen por el propio
investigador que ha mandado la información o durante el manejo de esa información
por parte del personal de la base de datos. Los errores más habituales en origen se
deben al propio proceso de secuenciación y a la contaminación con ADN del vector. En
las bases de datos, los errores más frecuentes son la asignación de códigos de
identificación erróneos y la introducción de información redundante, es decir, que una
misma secuencia pueda estar incluida total o parcialmente en varios registros.
Los errores en la anotación pueden deberse a la metodología utilizada para anotar las
secuencias, a la propagación de anotaciones erróneas de una base de datos a otra o a
anotaciones incompletas. Por ejemplo, supongamos una proteína A con dos dominios
de distinta función, pero sólo se conoce una de ellas en el momento de depositar los
datos. Esa función puede atribuirse por métodos automáticos a otra proteína B con un
alto grado de similitud con la proteína A, aunque la similitud se limite al dominio de
función desconocida. En general, estos errores se corrigen consultando la literatura,
actualizando la información y analizando cuidadosamente los datos. Sin embargo, como
los datos se van acumulando a una velocidad mucho mayor que la velocidad con que se
analizan, se siguen utilizando los métodos automáticos de anotación.
Hay BD que almacenan los datos tal y como han sido depositados por quienes los han
generado, de manera que se pueden analizar repetidamente a medida que van surgiendo
nuevas herramientas. Son las denominadas bases de datos primarias o bancos de
datos. Ejemplos de bases de datos primarias de secuencias de nucleótidos son
GenBank, ENA (European Nucleotide Archive) y DDBJ (DNA Data Bank of Japan).
Ejemplos de bases de datos primarias de secuencias de proteínas son SWISS-PROT y
Uniprot-KB. Una base de datos primaria de estructura tridimensional de proteínas es
PDB (Protein Data Bank) y una base de datos primaria de estructura tridimensional de
ácidos nucleicos es NDB (Nucleic acid database).
En algunas ocasiones surge una nueva base de datos a partir de la fusión de otras ya
existentes (primarias o secundarias). Se trata de bases de datos compuestas y su gran
ventaja es que evitan tener que hacer varias búsquedas. Por ejemplo, Uniprot-KB es la
suma de tres bases de datos primarias de secuencias de proteínas: SWISS-PROT,
TrEMBL y PIR, mientras que InterPro es la suma de once bases de datos secundarias
de secuencias de proteínas.
Una base de datos específica es aquélla que sólo contiene información relativa a un
organismo concreto o a un tipo de molécula determinado. Por ejemplo, la base de
datos ZFIN contiene información relacionada con el pez cebra, Flybase contiene
información sobre Drosophila melanogaster, Rebase contiene información relacionada
con las enzimas de restricción y tRNAdb contiene información relacionada con los
ARN de transferencia.