Está en la página 1de 20

Bases de Datos

Dr Maximiliano Figueroa Yévenes


Departamento de Bioquímica y Biología Molecular
Facultad de Ciencias Biológicas
Universidad de Concepción

maxifigueroa@udec.cl
¿Por qué construir Bases de Datos?

• Hacer disponible los datos biológicos a los científicos


• Hacer disponible los datos científicos en un lenguaje que
pueda ser leído por un computador
¿Qué tipos de datos generados podemos
depositar o encontrar en una base de datos?

- Secuencias nucleotídicas (ARN o ADN)


- Secuencias de proteínas
- Patrones o motivos de secuencias de proteínas
- Estructura tridimensional de proteínas
- datos de expresión génica
- vías metabólicas
- otras
¿Cómo se clasifican las Bases de Datos?

- Bases de datos primarias

Poseen información experimental que es diréctamente depositada


(secuencias de nucleótidos, proteínas o estructuras de estás últimas)

- Bases de datos secundarias

Poseen información que proviene del análisis de la información presente en


las bases de datos primarias (ej: patrones o motivos en una secuencia de
proteínas)
¿Dónde podemos encontrar bases de datos?

En este artículo encontrarán


una tabla resumen con las
bases de datos más usadas y
citadas por los científicos

En este artículo, de este año,


encontrarán un resumen de
todas las bases de datos
nuevas publicadas
recientemente
¿Dónde podemos encontrar bases de datos?
¿Dónde podemos encontrar bases de datos?
Conozcamos las 3 bases de datos de secuencias
de Nucleótidos más usadas
- EMBL: https://www.ebi.ac.uk/

- GenBank: https://www.ncbi.nlm.nih.gov/genbank/

- DDBJ: https://www.ddbj.nig.ac.jp/index-e.html
Conozcamos las 3 bases de datos de secuencias de Nucleótidos más usadas
El cómo presentar la información es muy importante
El tener la información en un formato estandar, permite la lectura cruzada entre bases de
datos y facilita el trabajo de las bases de datos secundarias para leer y obtener información
desde las bases de datos primarias
Formato básico general dentro de GeneBank

“Header” o
encabezado

“Feature table”
o tabla de
características

Secuencia
Formato básico general dentro de GeneBank

“Header” o
encabezado

“Feature table”
o tabla de
características

Secuencia
Si solo necistamos la secuencia, la mayoría de las
bases de datos trabajan con un formato uniformado
denominado FASTA

identificador

secuencia

Siempre una nueva secuencia en FASTA comienza con el signo > y en la


siguiente línea la secuencia!
¿Y Bases de datos primarias para proteínas?
Históricamente, habían 3 bases de datos de secuencias de proteínas (Swiss-Prot, TrEMBL y PIR-
PSD), pero estás 3 se unieron en una única denominada UniProt (por Universal Protein)

https://www.uniprot.org

Junto a esta, tenemos una única base de datos de estructuras de proteínas, denominada Protein Data
Bank (PDB)

https://www.rcsb.org
Ejemplo de una entrada en UniProt: insulina humana

https://www.uniprot.org/uniprot/P01308
Ejemplo de una entrada en el Protein Data Bank
https://www.rcsb.org/structure/5BOP

Cada entrada recibe un código unico de 4 caracteres (5BOP en este ejemplo)


Protein Data Bank usa un formato estandar, que consiste en un “Header” o encabezado,
donde se describen tanto características experimentales como bibliográficas
relacionadas con la estructura proteica en cuestión. Seguido de este “header”, tenemos
la información atómica, donde se describe la posición en el espacio a través de las
coordenadas x, y, z de cada átomo de la proteína.

N° aa
N° átomo X y z
Tipo de
átomo

Amino
ácido
Con la información de posición espacial (coordenadas x, y, z de cada átomo)
es posible leer la información y crear representaciones como la siguiente:
Bases de datos: Puntos importantes a retener

- Las bases de datos se pueden clasificar como primarias o secundarias (hoy


revisamos ejemplos solo de primarias)

- Las bases de datos primarias se alimentan directamente de la data


experimental, mientras que las secundarias lo hacen desde el análisis de las
primarias

- La información almacenada utiliza un formato específico, y generalmente


estandar, para favorecer la lectura y automatización

- Hay cruce de información entre las distintas bases de datos


Bases de Datos

Dr Maximiliano Figueroa Yévenes


Departamento de Bioquímica y Biología Molecular
Facultad de Ciencias Biológicas
Universidad de Concepción

maxifigueroa@udec.cl

También podría gustarte