Está en la página 1de 21

Bases de datos en

Bioinformtica

Contenidos
1. La bioinformtica y las bases de dat
os
2. Las bases de datos en biologa mole
cular
3. Formato de la informacin almacen
ada

Introduccin a la Bioinformtica

Informacin en la era
genmica
El proyecto genoma humano y similares
genera un inmenso flujo de informacin
Para poder utilizar esta informacin, ha de
estar almacenada correctamente
El acceso a la informacin almacenada ...
Ha de ser rpido
Debe poder hacerse de manera flexible

Esto es posible gracias a la creacin de bases


de datos y distribucin va Internet.

Introduccin a la Bioinformtica

Para que se utilizan las bases de


datos ?
Bsqueda de informacin.
Por palabra clave, nmeros de acceso,
autores...

Bsqueda de homologas
Hay secuencias igual o parecidas a la ma ?

Bsqueda de patrones
Mi secuencia contienen patrones conocidos?

Predicciones
Puedo encontrar protenas parecidas a la
ma, pero con funcin conocida?
Introduccin a la Bioinformtica

Aspectos a tener en
cuenta
Los proveedores de recursos
Centros o organizaciones especializadas
en tener y mantener las bases de datos.

Bases de datos
Hay mucha variedad y contiene
informacin diversa

Las herramientas
Para encontrar informacin en las BD
Para contrastar secuencias contra las BD
Para exportar la informacin
Introduccin a la Bioinformtica

Principales proveedores de
recursos
El
National Center for Biotechnology Information (NCBI
)
centraliza los bancos de datos y aplicacions de
EEUU
El European Bioinformatics Institute (EBI) realiza
una funcin similar en Europa
GenomeNet reune bases de datos diversas en
Japn

Introduccin a la Bioinformtica

Principales bases de datos


en
Biologa Molecular

Tipos de bases de datos


Existen cientos de BD en nmero tan elevado que
no es prctico enumerarlas (aunque aqu lo
intentan)
Por el tipo de informacin que contienen
distinguimos

Bases
Bases
Bases
Bases
Bases
Bases

de
de
de
de
de
de

datos
datos
datos
datos
datos
datos

bibliogrficas
taxonmicas
de nucletidos
genmicas
de proteinas
de microarrays

Introduccin a la Bioinformtica

Bases de datos
bibliogrficas
Organizacin de los artculos
publicados en la revistas de mbito
cientfico.
Pubmed (NCBI)
Medline (EBI)
Biocatalog: organizacin de los artculos
por temticas concretas de biologa
molecular.

Introduccin a la Bioinformtica

Bases de datos taxonmicas


Son BD que contienen informacin sobre la
clasificacin de los seres vivos
Esta clasificacin es bsicamente jerrquica y
basada en informacin molecular
Pretende clasificar cualquier organismo del que
se posea como mnimo una secuencia de acidos
nuclicos
Como puede suponerse el proyecto no est libre
de controversia debido a las visiones diferentes
que existen en la comunidad taxonmica

Introduccin a la Bioinformtica

10

Bases de datos de
nucletidos
Las bases de datos de cidos
nucleicos reciben las secuencias de
los laboratorios experimentales y las
organizan hacindolas accesibles a
diario a toda la comunidad cientfica
Existen varias BD que intercambian
diariamente su contenido
Genbank (NCBI)
EMBL (EBI)
KEGG (Genome net)
Introduccin a la Bioinformtica

11

Bases de datos de genomas


Se encargan de mantener y actualizar las
secuencias y las anotaciones de genomas
completos.
Ensembl (EBI)
Genome viewer (NCBI)
Goldenpath (UCSC)

Existen tambin recursos genmicos especializados

Transfact: sitios de unin a factores de transcripcin.


EST: Expressed Sequence Tags
UTRDB: Untranslated regions
SpliceSitesDB: Pares de seales de splicing

Introduccin a la Bioinformtica

12

Bases de datos de protenas


Secuencias primarias de aminocidos
Sin revisin humana
Trembl (EBI)
nr (NCBI)

Con revisin de la anotacin


Swisprot (EBI)

Bases de datos de proteomas


Proteome analysis (EBI)

Introduccin a la Bioinformtica

13

Protenas (II)
Estructuras secundarias o dominios. Varan segn
la fuente de las protenas y el anlisis que se
realiza sobre ellas.
BLOCKS: Motivos alineados de PROSITE/PRINTS
PROSITE: Expresiones regulares sobre Swiss-prot
PRINTS: Conjunto de motivos que definen una familia
sobre Swiss-prot/TrEMBL
PFAM: Modelos de Markov sobre Swiss-prot
INTERPRO: Integra la informacin de muchas bases de
datos de dominios.

Introduccin a la Bioinformtica

14

Protenas (III)
Estructuras tridimensionales de
macromolculas con las coordenadas
en el espacio de cada tomo.
PDB: Base de datos principal de
estructuras tridimensionales
CATH: Clasificacin de PDB en diferentes
grupos funcionales y estructurales
MMDB: subset de PDB mantenido por NCBI
MSD: subset de PDB mantenido por EBI

Introduccin a la Bioinformtica

15

Bases de datos de
microarrays
Bases de datos con las imgenes y
resultados obtenidos por arrays de
expresin.
ArrayExpress (EBI)
Riken Expression Array Database
Eisen Laboratory (Lawrence Berkeley
National Lab)

Introduccin a la Bioinformtica

16

4. El formato de la
informacin

Introduccin a la Bioinformtica

17

Estructura de las BD
La calidad de la informacin en una
base de datos, est muy relacionas
con su estructura
Este aspecto tambin es crucial para
su eficiencia y accesibilidad .
En la actualidad no existe ningn
formato nico y estndar, usualmente
cada base de datos impone su propio
formato.
Introduccin a la Bioinformtica

18

Ejemplo entrada Genbank

Introduccin a la Bioinformtica

19

Ejemplo entrada EMBL

Introduccin a la Bioinformtica

20

Informacin sobre los formatos


de las bases de datos

Introduccin a la Bioinformtica

21