Está en la página 1de 4

BASES DE DATOS

Una base de datos (BD) es una colección de datos. Una agenda de teléfonos es un
sencillo ejemplo de una base de datos. Los datos se almacenan en registros. Cada
registro debe tener un identificador único y estable. La información que contiene cada
registro está distribuida en campos.

Además de almacenar información, las bases de datos deben disponer de herramientas


que permitan (1) organizar eficazmente la información, (2) recuperar la información
de forma rápida y precisa (motores de búsqueda eficaces), (3) actualizar y revisar los
contenidos periódicamente, (4) enviar nuevas secuencias, (5) transferir sus
contenidos a otras bases de datos o a determinados programas de análisis y (6)
personalizar la interfaz con el usuario para que su uso sea más sencillo.

Por lo tanto, en una buena base de datos:

• hay mucha información


• la información es fiable (está contrastada, mantenida y actualizada)
• las búsquedas se hacen de forma fácil, rápida y precisa
• la interfaz con el usuario tiene un buen diseño que permite asimilar rápidamente
la información exhibida
• hay enlaces que me envían a otras bases de datos relacionadas
• el formato de los datos es válido para otras aplicaciones
• los contenidos son de acceso público y gratuito (Internet)
• hay herramientas que permiten enviar nuevas secuencias (Webin, Sequin,
BankIt)

BASES DE DATOS BIOLÓGICAS


Gracias a las nuevas tecnologías se está generando una ingente cantidad de datos
biológicos y toda esta información se almacena en bases de datos. Estos datos pueden
ser de cuatro tipos: secuencias biológicas, datos estructurales, datos funcionales y
bibliografía. Cada categoría de datos presenta su propia estructura y requisitos, lo que
influye decisivamente a la hora de diseñar las bases de datos.

Los diversos tipos de datos están estrechamente relacionados entre sí: las secuencias
codificantes de ADN dan lugar a proteínas con una estructura tridimensional y una
función característica; con mucha frecuencia, las proteínas no funcionan solas sino que
forman parte de rutas metabólicas en las que establecen importantes relaciones con otros
tipos de biomoléculas y, además, toda esta información está convenientemente reflejada
en las publicaciones científicas.

Se ha hecho un gran esfuerzo para que toda esta información sea accesible a través de la
World Wide Web (www) de modo que tanto las bases de datos como sus herramientas
de búsqueda se han convertido en parte esencial de la actividad investigadora. Todos los
años, el primer número de la revista Nucleic Acids Research (NAR) está dedicado a las
bases de datos: publica artículos que describen la creación de nuevas bases de datos y
las innovaciones que se han producido en las ya existentes y, además, contiene una lista
exhaustiva de todas las bases de datos existentes y sus URL. Muchas de estas bases
están alojadas en los sitios web de centros gubernamentales o privados que han
creado un entorno gráfico uniforme que reúne un gran número de bases de datos.
Ejemplos de este tipo de centros son:

• The National Center for Biotechnology Information, NCBI


(http://www.ncbi.nlm.nih.gov/)
• The European Bioinformatics Institute, EBI (http://www.ebi.ac.uk)
• The Switzerland Institute of Bioinformatics, SIB (http:/www.isb-sib.ch/)
• The Sanger Institute (http://www.sanger.ac.uk)

Un aspecto particularmente interesante de estos centros es que establecen conexiones


entre las distintas bases de datos que permiten obtener de manera fácil y rápida toda la
información relacionada con una biomolécula concreta. Por ejemplo, el NCBI ofrece
una plataforma que busca información en 39 bases de datos a la vez y permite "saltar"
fácilmente de una base de datos a otra (http://www.ncbi.nlm.nih.gov/gquery/).

Minería de datos y anotación de secuencias

Los proyectos de secuenciación a gran escala (proyectos genómicos) están generando


gran cantidad de datos a un ritmo que no permite su análisis detallado. Por sí mismos,
estos datos no aportan mucha información. Una base de datos primaria que sólo tuviese
secuencias no tendría mucha utilidad: se reduciría a una enorme cantidad de líneas de
texto escritas con 4 caracteres (en el caso de los ácidos nucleicos) o con 20 caracteres
(en el caso de las proteínas). Por eso, uno de los grandes retos de la Bioinformática
consiste en analizar esos datos para extraer información estructural, funcional o
evolutiva. Es lo que se llama minería de datos (data mining). El gran desafío al que se
enfrentan los bioinformáticos, lo que algunos denominan "el santo grial de la
Bioinformática", consiste en predecir la estructura terciaria de una proteína a partir de
su secuencia y, conociendo su estructura, determinar su función. Aún estamos muy lejos
de alcanzar ese objetivo, pero cuanto mejor comprendamos las interacciones que dirigen
el plegamiento de las proteínas y cuantas más estructuras tridimensionales se vayan
determinando, más cerca estaremos de conseguirlo.

El verdadero interés de los bancos de datos está en las anotaciones, el "valor añadido"
que se añade a la simple secuencia y que nos ayuda a comprender la estructura de la
biomolécula, su función, las posibles interacciones que pueda establecer en el interior de
la célula con otras moléculas y su historial evolutivo. Se distinguen las anotaciones
estructurales (identificación de genes y otros elementos importantes de la secuencia) y
las anotaciones funcionales (las que se refieren al papel que desempeña esa secuencia
en el organismo).

El grado de anotación de las secuencias varía mucho y depende, fundamentalmente del


autor, es decir, del investigador que ha enviado la secuencia a la base de datos. El autor
es el único que puede modificar esta información y esto es un problema porque, en
muchos casos, el autor se desentiende de la secuencia y las anotaciones pueden quedarse
obsoletas o incompletas. Lo ideal es que las anotaciones las introduzca el propio grupo
que envía las secuencias y que sean revisadas por personal experto de la base de datos.
En algunos casos, los registros están anotados por terceras personas (TPA, third party
annotation) que no pertenecen ni al grupo que ha obtenido la secuencia ni al personal
que gestiona la base de datos.

En muchos casos, sobre todo cuando se trata de secuencias muy grandes (como, por
ejemplo, secuencias genómicas) se utilizan métodos automáticos de anotación. Estas
anotaciones son el resultado de la aplicación de herramientas bioinformáticas
(comparación de secuencias o algoritmos de predicción) y, en la gran mayoría de los
casos, no existen evidencias experimentales que corroboren esas anotaciones. En
muchos casos señalan proteínas "hipotéticas" o "putativas" que podrán existir o no en la
realidad. La fiabilidad de una predicción depende de la existencia de evidencias
experimentales que la confirmen. Por eso, a la hora de anotar genes y genomas, los
biólogos deben hacer uso de sus propios conocimientos, de su intuición y de la
información publicada en la literatura para diseñar experimentos que apoyen esas
predicciones. Si las bases de datos incorporen anotaciones erróneas en las secuencias
se corre el peligro de que estos errores se propaguen de unas bases de datos a otras sin
que nadie lo remedie.

La calidad de los datos. Propagación de errores

La calidad de los datos y de las anotaciones es responsabilidad de quien los envía.


Aunque toda la información que se envía también es revisada por el personal, las bases
de datos contienen muchos errores, tanto en los datos como en las anotaciones.

Los errores en los datos pueden haberse producido en origen por el propio
investigador que ha mandado la información o durante el manejo de esa información
por parte del personal de la base de datos. Los errores más habituales en origen se
deben al propio proceso de secuenciación y a la contaminación con ADN del vector. En
las bases de datos, los errores más frecuentes son la asignación de códigos de
identificación erróneos y la introducción de información redundante, es decir, que una
misma secuencia pueda estar incluida total o parcialmente en varios registros.

Los errores en la anotación pueden deberse a la metodología utilizada para anotar las
secuencias, a la propagación de anotaciones erróneas de una base de datos a otra o a
anotaciones incompletas. Por ejemplo, supongamos una proteína A con dos dominios
de distinta función, pero sólo se conoce una de ellas en el momento de depositar los
datos. Esa función puede atribuirse por métodos automáticos a otra proteína B con un
alto grado de similitud con la proteína A, aunque la similitud se limite al dominio de
función desconocida. En general, estos errores se corrigen consultando la literatura,
actualizando la información y analizando cuidadosamente los datos. Sin embargo, como
los datos se van acumulando a una velocidad mucho mayor que la velocidad con que se
analizan, se siguen utilizando los métodos automáticos de anotación.

Bases de datos primarias y secundarias

Hay BD que almacenan los datos tal y como han sido depositados por quienes los han
generado, de manera que se pueden analizar repetidamente a medida que van surgiendo
nuevas herramientas. Son las denominadas bases de datos primarias o bancos de
datos. Ejemplos de bases de datos primarias de secuencias de nucleótidos son
GenBank, ENA (European Nucleotide Archive) y DDBJ (DNA Data Bank of Japan).
Ejemplos de bases de datos primarias de secuencias de proteínas son SWISS-PROT y
Uniprot-KB. Una base de datos primaria de estructura tridimensional de proteínas es
PDB (Protein Data Bank) y una base de datos primaria de estructura tridimensional de
ácidos nucleicos es NDB (Nucleic acid database).

A partir del análisis de la información depositada en las bases de datos primarias se


pueden descubrir nuevas propiedades o establecer nuevas relaciones entre los datos. En
muchos casos resulta interesante almacenar todo este "valor añadido" en una nueva
base de datos para que otros investigadores puedan acceder directamente a esta
información. Son las llamadas bases de datos secundarias o derivadas. Lógicamente,
a medida que los bancos de datos van creciendo, la información contenida en las bases
de datos secundarias debe ser actualizada, algo que desgraciadamente no siempre ocurre.
Ejemplos de bases de datos secundarias de secuencias de proteínas son Prosite, Prints
y Pfam.

En algunas ocasiones surge una nueva base de datos a partir de la fusión de otras ya
existentes (primarias o secundarias). Se trata de bases de datos compuestas y su gran
ventaja es que evitan tener que hacer varias búsquedas. Por ejemplo, Uniprot-KB es la
suma de tres bases de datos primarias de secuencias de proteínas: SWISS-PROT,
TrEMBL y PIR, mientras que InterPro es la suma de once bases de datos secundarias
de secuencias de proteínas.

Una base de datos específica es aquélla que sólo contiene información relativa a un
organismo concreto o a un tipo de molécula determinado. Por ejemplo, la base de
datos ZFIN contiene información relacionada con el pez cebra, Flybase contiene
información sobre Drosophila melanogaster, Rebase contiene información relacionada
con las enzimas de restricción y tRNAdb contiene información relacionada con los
ARN de transferencia.

También podría gustarte