Está en la página 1de 21

Bases de datos en Bioinformática

Contenidos
1. La bioinformática y las bases de datos
2. Las bases de datos en biología molecular
3. Formato de la información almacenada

Introducción a la Bioinformática 2
Información en la era genómica

• El proyecto genoma humano y similares genera un


inmenso flujo de información
• Para poder utilizar esta información, ha de estar
almacenada correctamente
• El acceso a la información almacenada ...
– Ha de ser rápido
– Debe poder hacerse de manera flexible
• Esto es posible gracias a la creación de bases de datos y
distribución vía Internet.

Introducción a la Bioinformática 3
Para que se utilizan las bases de datos ?

• Búsqueda de información.
– Por palabra clave, números de acceso, autores...
• Búsqueda de homologías
– ¿Hay secuencias igual o parecidas a la mía ?
• Búsqueda de patrones
– ¿Mi secuencia contienen patrones conocidos?
• Predicciones
– ¿Puedo encontrar proteínas parecidas a la mía,
pero con función conocida?

Introducción a la Bioinformática 4
Aspectos a tener en cuenta

• Los proveedores de recursos


– Centros o organizaciones especializadas en tener y
mantener las bases de datos.
• Bases de datos
– Hay mucha variedad y contiene información
diversa
• Las herramientas
– Para encontrar información en las BD
– Para contrastar secuencias contra las BD
– Para exportar la información

Introducción a la Bioinformática 5
Principales proveedores de recursos

• El National Center for Biotechnology Information (NCBI)


centraliza los bancos de datos y aplicacions de EEUU
• El European Bioinformatics Institute (EBI) realiza una
función similar en Europa
• GenomeNet reune bases de datos diversas en Japón

Introducción a la Bioinformática 6
Principales bases de datos en
Biología Molecular
Tipos de bases de datos
• Existen cientos de BD en número tan elevado que no es
práctico enumerarlas (aunque aquí lo intentan)
• Por el tipo de información que contienen distinguimos
– Bases de datos bibliográficas
– Bases de datos taxonómicas
– Bases de datos de nucleótidos
– Bases de datos genómicas
– Bases de datos de proteinas
– Bases de datos de microarrays

Introducción a la Bioinformática 8
Bases de datos bibliográficas
• Organización de los artículos publicados en la
revistas de ámbito científico.
– Pubmed (NCBI)
– Medline (EBI)
– Biocatalog: organización de los artículos por
temáticas concretas de biología molecular.

Introducción a la Bioinformática 9
Bases de datos taxonómicas
• Son BD que contienen información sobre la clasificación de los
seres vivos
• Esta clasificación es básicamente jerárquica y basada en
información molecular
• Pretende clasificar cualquier organismo del que se posea
como mínimo una secuencia de acidos nucléicos
• Como puede suponerse el proyecto no está libre de
controversia debido a las visiones diferentes que existen en la
comunidad taxonómica

Introducción a la Bioinformática 10
Bases de datos de nucleótidos
• Las bases de datos de ácidos nucleicos reciben
las secuencias de los laboratorios
experimentales y las organizan haciéndolas
accesibles a diario a toda la comunidad
científica
• Existen varias BD que intercambian
diariamente su contenido
– Genbank (NCBI)
– EMBL (EBI)
– KEGG (Genome net)

Introducción a la Bioinformática 11
Bases de datos de genomas

• Se encargan de mantener y actualizar las secuencias y las


anotaciones de genomas completos.
– Ensembl (EBI)
– Genome viewer (NCBI)
– Goldenpath (UCSC)
• Existen también recursos genómicos especializados
– Transfact: sitios de unión a factores de transcripción.
– EST: Expressed Sequence Tags
– UTRDB: Untranslated regions
– SpliceSitesDB: Pares de señales de splicing

Introducción a la Bioinformática 12
Bases de datos de proteínas
• Secuencias primarias de aminoácidos
– Sin revisión humana
• Trembl (EBI)
• nr (NCBI)
– Con revisión de la anotación
• Swisprot (EBI)
– Bases de datos de proteomas
• Proteome analysis (EBI)

Introducción a la Bioinformática 13
Proteínas (II)
• Estructuras secundarias o dominios. Varían según la fuente de
las proteínas y el análisis que se realiza sobre ellas.
– BLOCKS: Motivos alineados de PROSITE/PRINTS
– PROSITE: Expresiones regulares sobre Swiss-prot
– PRINTS: Conjunto de motivos que definen una familia sobre Swiss-
prot/TrEMBL
– PFAM: Modelos de Markov sobre Swiss-prot
– INTERPRO: Integra la información de muchas bases de datos de
dominios.

Introducción a la Bioinformática 14
Proteínas (III)
• Estructuras tridimensionales de
macromoléculas con las coordenadas en el
espacio de cada átomo.
– PDB: Base de datos principal de estructuras
tridimensionales
– CATH: Clasificación de PDB en diferentes grupos
funcionales y estructurales
– MMDB: subset de PDB mantenido por NCBI
– MSD: subset de PDB mantenido por EBI

Introducción a la Bioinformática 15
Bases de datos de microarrays
• Bases de datos con las imágenes y resultados
obtenidos por arrays de expresión.
– ArrayExpress (EBI)
– Riken Expression Array Database
– Eisen Laboratory (Lawrence Berkeley National Lab)

Introducción a la Bioinformática 16
4. El formato de la información

Introducción a la Bioinformática 17
Estructura de las BD
• La calidad de la información en una base de
datos, está muy relacionas con su estructura
• Este aspecto también es crucial para su
eficiencia y accesibilidad .
• En la actualidad no existe ningún formato
único y estándar, usualmente cada base de
datos impone su propio formato.

Introducción a la Bioinformática 18
Ejemplo entrada Genbank

Introducción a la Bioinformática 19
Ejemplo entrada EMBL

Introducción a la Bioinformática 20
Información sobre los formatos de las
bases de datos

Introducción a la Bioinformática 21

También podría gustarte