Bases de Datos

Bases de Datos
Dr Maximiliano Figueroa Yévenes

Departamento de Bioquímica y Biología Molecular
Facultad de Ciencias Biológicas
Universidad de Concepción
maxifigueroa@udec.cl
¿Por qué construir Bases de Datos?
• Hacer disponible los datos biológicos a los científicos

• Hacer disponible los datos científicos en un lenguaje que
pueda ser leído por un computador
¿Qué tipos de datos generados podemos
depositar o encontrar en una base de datos?
- Secuencias nucleotídicas (ARN o ADN)

- Secuencias de proteínas
- Patrones o motivos de secuencias de proteínas
- Estructura tridimensional de proteínas
- datos de expresión génica
- vías metabólicas
- otras
¿Cómo se clasifican las Bases de Datos?
- Bases de datos primarias
Poseen información experimental que es diréctamente depositada

(secuencias de nucleótidos, proteínas o estructuras de estás últimas)
- Bases de datos secundarias
Poseen información que proviene del análisis de la información presente en

las bases de datos primarias (ej: patrones o motivos en una secuencia de
proteínas)
¿Dónde podemos encontrar bases de datos?
En este artículo encontrarán

una tabla resumen con las
bases de datos más usadas y
citadas por los científicos
En este artículo, de este año,

encontrarán un resumen de
todas las bases de datos
nuevas publicadas
recientemente
Conozcamos las 3 bases de datos de secuencias
de Nucleótidos más usadas
- EMBL: https://www.ebi.ac.uk/
- GenBank: https://www.ncbi.nlm.nih.gov/genbank/
- DDBJ: https://www.ddbj.nig.ac.jp/index-e.html
Conozcamos las 3 bases de datos de secuencias de Nucleótidos más usadas
El cómo presentar la información es muy importante
El tener la información en un formato estandar, permite la lectura cruzada entre bases de
datos y facilita el trabajo de las bases de datos secundarias para leer y obtener información
desde las bases de datos primarias
Formato básico general dentro de GeneBank
“Header” o
encabezado
“Feature table”
o tabla de
características
Secuencia
Formato básico general dentro de GeneBank
“Header” o
encabezado
“Feature table”
o tabla de
características
Secuencia
Si solo necistamos la secuencia, la mayoría de las
bases de datos trabajan con un formato uniformado
denominado FASTA
identificador
secuencia
Siempre una nueva secuencia en FASTA comienza con el signo > y en la

siguiente línea la secuencia!
¿Y Bases de datos primarias para proteínas?
Históricamente, habían 3 bases de datos de secuencias de proteínas (Swiss-Prot, TrEMBL y PIR-
PSD), pero estás 3 se unieron en una única denominada UniProt (por Universal Protein)
https://www.uniprot.org
Junto a esta, tenemos una única base de datos de estructuras de proteínas, denominada Protein Data
Bank (PDB)
https://www.rcsb.org
Ejemplo de una entrada en UniProt: insulina humana
https://www.uniprot.org/uniprot/P01308
Ejemplo de una entrada en el Protein Data Bank
https://www.rcsb.org/structure/5BOP
Cada entrada recibe un código unico de 4 caracteres (5BOP en este ejemplo)

Protein Data Bank usa un formato estandar, que consiste en un “Header” o encabezado,
donde se describen tanto características experimentales como bibliográficas
relacionadas con la estructura proteica en cuestión. Seguido de este “header”, tenemos
la información atómica, donde se describe la posición en el espacio a través de las
coordenadas x, y, z de cada átomo de la proteína.
N° aa
N° átomo X y z
Tipo de
átomo
Amino
ácido
Con la información de posición espacial (coordenadas x, y, z de cada átomo)
es posible leer la información y crear representaciones como la siguiente:
Bases de datos: Puntos importantes a retener
- Las bases de datos se pueden clasificar como primarias o secundarias (hoy

revisamos ejemplos solo de primarias)
- Las bases de datos primarias se alimentan directamente de la data

experimental, mientras que las secundarias lo hacen desde el análisis de las
primarias
- La información almacenada utiliza un formato específico, y generalmente

estandar, para favorecer la lectura y automatización
- Hay cruce de información entre las distintas bases de datos

Bases de Datos
Dr Maximiliano Figueroa Yévenes

Departamento de Bioquímica y Biología Molecular
Facultad de Ciencias Biológicas
Universidad de Concepción
maxifigueroa@udec.cl

Bases de Datos

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Bases de Datos

Cargado por

Copyright:

Formatos disponibles

Bases de Datos

Dr Maximiliano Figueroa Yévenes

• Hacer disponible los datos biológicos a los científicos

- Secuencias nucleotídicas (ARN o ADN)

- Bases de datos primarias

Poseen información experimental que es diréctamente depositada

- Bases de datos secundarias

Poseen información que proviene del análisis de la información presente en

En este artículo encontrarán

En este artículo, de este año,

Siempre una nueva secuencia en FASTA comienza con el signo > y en la

Cada entrada recibe un código unico de 4 caracteres (5BOP en este ejemplo)

- Las bases de datos se pueden clasificar como primarias o secundarias (hoy

- Las bases de datos primarias se alimentan directamente de la data

- La información almacenada utiliza un formato específico, y generalmente

- Hay cruce de información entre las distintas bases de datos

Dr Maximiliano Figueroa Yévenes

También podría gustarte