Está en la página 1de 21

Bases de datos en Bioinformática

ula
ientífica
Contenidos
1. La bioinformática y las bases de datos
2. Las bases de datos en biología molecular
ula
3. Formato de la información almacenada

ientífica

Introducción a la Bioinformática 2
Información en la era genómica
• El proyecto genoma humano y similares genera un
inmenso flujo de información

ula
• Para poder utilizar esta información, ha de estar
almacenada correctamente
• El acceso a la información almacenada ...
– Ha de ser rápido ientífica
– Debe poder hacerse de manera flexible
• Esto es posible gracias a la creación de bases de datos y
distribución vía Internet.

Introducción a la Bioinformática 3
Para que se utilizan las bases de datos ?

• Búsqueda de información.
– Por palabra clave, números de acceso, autores...
• Búsqueda de homologías ula
– ¿Hay secuencias igual o parecidas a la mía ?
• Búsqueda de patrones
ientífica
– ¿Mi secuencia contienen patrones conocidos?
• Predicciones
– ¿Puedo encontrar proteínas parecidas a la mía, pero con
función conocida?

Introducción a la Bioinformática 4
Aspectos a tener en cuenta

• Los proveedores de recursos


– Centros o organizaciones especializadas en tener y
mantener las bases de datos.
• Bases de datos ula
– Hay mucha variedad y contiene información diversa
• Las herramientas ientífica
– Para encontrar información en las BD
– Para contrastar secuencias contra las BD
– Para exportar la información

Introducción a la Bioinformática 5
Principales proveedores de recursos
• El National Center for Biotechnology Information (NCBI)
centraliza los bancos de datos y aplicacions de EEUU
• El European Bioinformatics Institute (EBI) realiza una
función similar en Europa ula
• GenomeNet reune bases de datos diversas en Japón
ientífica

Introducción a la Bioinformática 6
Principales bases de datos en
ula
Biología Molecular
ientífica
Tipos de bases de datos
• Existen cientos de BD en número tan elevado que no es
práctico enumerarlas (aunque aquí lo intentan)
• Por el tipo de información que contienen distinguimos
– Bases de datos bibliográficas ula
– Bases de datos taxonómicas


Bases de datos de nucleótidos
Bases de datos genómicas
ientífica
– Bases de datos de proteinas
– Bases de datos de microarrays

Introducción a la Bioinformática 8
Bases de datos bibliográficas
• Organización de los artículos publicados en la
revistas de ámbito científico.
– Pubmed (NCBI)
– Medline (EBI)
ula
ientífica
– Biocatalog: organización de los artículos por temáticas
concretas de biología molecular.

Introducción a la Bioinformática 9
Bases de datos taxonómicas
• Son BD que contienen información sobre la clasificación
de los seres vivos
• Esta clasificación es básicamente jerárquica y basada en
información molecular ula
• Pretende clasificar cualquier organismo del que se posea
ientífica
como mínimo una secuencia de acidos nucléicos
• Como puede suponerse el proyecto no está libre de
controversia debido a las visiones diferentes que existen en
la comunidad taxonómica

Introducción a la Bioinformática 10
Bases de datos de nucleótidos
• Las bases de datos de ácidos nucleicos reciben las
secuencias de los laboratorios experimentales y las
organizan haciéndolas accesibles a diario a toda la
comunidad científica ula
• Existen varias BD que intercambian diariamente
su contenido
– Genbank (NCBI)
ientífica
– EMBL (EBI)
– KEGG (Genome net)

Introducción a la Bioinformática 11
Bases de datos de genomas
• Se encargan de mantener y actualizar las secuencias y las
anotaciones de genomas completos.
– Ensembl (EBI)
– Genome viewer (NCBI)
– Goldenpath (UCSC)
ula

ientífica
• Existen también recursos genómicos especializados
Transfact: sitios de unión a factores de transcripción.
– EST: Expressed Sequence Tags
– UTRDB: Untranslated regions
– SpliceSitesDB: Pares de señales de splicing

Introducción a la Bioinformática 12
Bases de datos de proteínas
• Secuencias primarias de aminoácidos
– Sin revisión humana
• Trembl (EBI)
• nr (NCBI)
ula
– Con revisión de la anotación
• Swisprot (EBI)
– Bases de datos de proteomas
ientífica
• Proteome analysis (EBI)

Introducción a la Bioinformática 13
Proteínas (II)
• Estructuras secundarias o dominios. Varían según la fuente
de las proteínas y el análisis que se realiza sobre ellas.
– BLOCKS: Motivos alineados de PROSITE/PRINTS
ula
– PROSITE: Expresiones regulares sobre Swiss-prot
– PRINTS: Conjunto de motivos que definen una familia sobre
Swiss-prot/TrEMBL

ientífica
– PFAM: Modelos de Markov sobre Swiss-prot
– INTERPRO: Integra la información de muchas bases de datos de
dominios.

Introducción a la Bioinformática 14
Proteínas (III)
• Estructuras tridimensionales de macromoléculas
con las coordenadas en el espacio de cada átomo.
– PDB: Base de datos principal de estructuras
tridimensionales ula
– CATH: Clasificación de PDB en diferentes grupos
funcionales y estructurales
ientífica
– MMDB: subset de PDB mantenido por NCBI
– MSD: subset de PDB mantenido por EBI

Introducción a la Bioinformática 15
Bases de datos de microarrays
• Bases de datos con las imágenes y resultados
obtenidos por arrays de expresión.
– ArrayExpress (EBI)
– Riken Expression Array Database
ula
ientífica
– Eisen Laboratory (Lawrence Berkeley National Lab)

Introducción a la Bioinformática 16
ula
4. El formato de la información
ientífica

Introducción a la Bioinformática 17
Estructura de las BD
• La calidad de la información en una base de datos,
está muy relacionas con su estructura
ula
• Este aspecto también es crucial para su eficiencia
y accesibilidad .
ientífica
• En la actualidad no existe ningún formato único y
estándar, usualmente cada base de datos impone su
propio formato.

Introducción a la Bioinformática 18
Ejemplo entrada Genbank

ula
ientífica

Introducción a la Bioinformática 19
Ejemplo entrada EMBL

ula
ientífica

Introducción a la Bioinformática 20
Información sobre los formatos
de las bases de datos

ula
ientífica

Introducción a la Bioinformática 21

También podría gustarte