Está en la página 1de 5

Facultad de Ciencias Naturales

Departamento de Biología

Guía de clase V. Bases de datos biológicas


Biología Molecular 2019_2

Introducción

Con el desarrollo de esta guía, los estudiantes podrán familiarizarse con la información disponible y su
interpretación en algunas bases de datos y herramientas importantes de bioinformática, las cuales son
de amplio uso en biología molecular.

Sección #1. Secuencias nucleotídicas/aminoacidicas en NCBI/GenBank:


Esta sesión está diseñada para familiarizar al estudiante con la información que provee GenBank
respecto a secuencias biológicas. Analice y reconozca TODA la información que se encuentra
disponible para un gen en GenBank (esta misma información está disponible para proteínas). Para esto
utilice los siguientes enlaces:
1. https://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html
2. https://www.ncbi.nlm.nih.gov/nuccore/KX818198.1

El link #1, brinda un molde de toda la información disponible y detallada que provee GeneBank de
genes (se pueden ver como DNA o mRNA) o proteínas. Explore toda la información relevante para
cada categoría, por ejemplo, locus name, accesion, version, keywords, reference, author etc.

Ya habiendo revisado esta información, ahora utilice el link #2, el cual contiene una secuencia de ADN
de un organismo eucariota. Integrando la información del link 1 y 2 defina para el gen BPH6:

a. En “locus”, ¿qué quiere decir “sequence length”? Cuánto mide? 7841 bp

b. Qué información tiene el “accession”? Es el nombre unico de la secuencia, ningun otro gen lo
puede tener
- Cuál es el “accession”? KX818198

c. Qué información tiene “version”? secuencia que permite identificar al gen en la secuencia de
datos.
-Cuál es la “version”? KX818198.1

d. De qué organismo proviene esa secuencia de ADN? Oryza sativa

e. ¿Qué quiere decir CDS? La region codificante


f. Como podría usted saber en la secuencia de 7841 nucleótidos cuál es el CDS? Explore!
Procedo a dar click sobre CDS.
g. Podría usted ubicar la región 5’UTR y 3’UTR al conocer el CDS?
No, dado que cds, solo me permite conocer la region codificante
Departamento de Ciencias Biológicas | 1
Facultad de Ciencias Naturales
Departamento de Biología

h. Que encuentra usted en “reference”? el numero de bases


i. Cuál es el “protein id”? Que denota este código?
j. Si hace “click” sobre protein id, que encuentra?
En NCBI/GenBank se puede tener acceso a secuencias de ácidos nucleicos y proteínas, de esta forma
es que se pueden diseñar sondas para detectar secuencias de ADN/ARN específicas, realizar
amplificaciones de ADN (PCR) y poder entonces encontrar cambios en nucleótidos
(polimorfismos/mutaciones) en nucleótidos (y su efecto en la proteína) y determinarlos con un
experimento de PCR-RFLP.

Búsqueda de la secuencia de un gen/proteína de interés


Esta parte de la sesión esta diseñada para que el estudiante se familiarice con la búsqueda de
secuencias biológicas en genbank/NCBI y las herramientas bioinformáticas BLAST, translate y ORF
finder.

1. Elegir una proteína o gen de interés para desarrollar el taller práctico (ejemplo: proteína P53)
2. Es importante conocer el nombre de la proteína en inglés para realizar la búsqueda en las bases de
datos disponibles para tal fin. También es fundamental conocer el “accession number”
3. Ingresar a la página del NCBI: http://www.ncbi.nlm.nih.gov/, digitar el nombre de la proteína que
han seleccionado en la barra de búsqueda y seleccionar “protein” de las bases de datos:

4. En los resultados obtenidos, hacer clic sobre el nombre de la proteína seleccionada. Obtenga la
secuencia FASTA (secuencia de aminoácidos) de la proteína P53 de humanos o la que seleccionó y
buscar secuencias homólogas con la herramienta para alineamientos BLAST.

Ejecutar BLAST con los parámetros ofrecidos por la herramienta y dar click en BLAST
- Alinea, y comienza a comparar con el resto de las bases de datos.
- (que es id vlaue)
- (En blast solo se puede comparar solo nucleotidos)

Departamento de Ciencias Biológicas | 2


Facultad de Ciencias Naturales
Departamento de Biología

a. ¿Qué es y que hace BLAST?

Falso Verdadero
Una herramienta bioinformática usada para buscar secuencias
similares
Herramienta para buscar secuencias similares solo de proteínas
Herramienta que provee significancia estadística a los
alineamientos (e-value: número de resultados con la misma o
mejor puntuación o ‘score’, que lo que se espera al azar)

b. ¿Qué resultados se obtienen con esta herramienta? Hay proteínas P53 homologas a la de humano?
c. ¿Qué es el “query” y el “subject” en los alineamientos que usted está analizando

Predicción de ORF (marco abierto de lectura)


Para el desarrollo de este ejercicio necesitamos la siguiente secuencia de ADN:

>Gen de proteína desconocida


GCACTCTGGCTGGGGAAGGCATGAGTGACAGACCCACAGCAAGGCGGTGGGGTAAGTGTGGACCTTTGTGTACCAGAGAGAACATCAT
GGTGGCTTTCAAAGGGGTCTGGACTCAAGCTTTCTGGAAAGCAGTCACAGCGGAATTTCTGGCCATGCTTATTTTTGTTCTCCTCAGCCT
GGGATCCACCATCAACTGGGGTGGAACAGAAAAGCCTTTACCTGTCGACATGGTTCTCATCTCCCTTTGCTTTGGACTCAGCATTGCAA
CCATGGTGCAGTGCTTTGGCCATATCAGCGGTGGCCACATCAACCCTGCAGTGACTGTGGCCATGGTGTGCACCAGGAAGATCAGCATC
GCCAAGTCTGTCTTCTACATCGCAGCCCAGTGCCTGGGGGCCATCATTGGAGCAGGAATCCTCTATCTGGTCACACCTCCCAGTGTGGT
GGGAGGCCTGGGAGTCACCATGGTTCATGGAAATCTTACCGCTGGTCATGGTCTCCTGGTTGAGTTGATAATCACATTTCAATTGGTGTT
TACTATCTTTGCCAGCTGTGATTCCAAACGGACTGATGTCACTGGCTCAATAGCTTTAGCAATTGGATTTTCTGTTGCAATTGGACATTT
ATTTGCAATCAATTATACTGGTGCCAGCATGAATCCCGCCCGATCCTTTGGACCTGCAGTTATCATGGGAAATTGGGAAAACCATTGGA
TATATTGGGTTGGGCCCATCATAGGAGCTGTCCTCGCTGGTGGCCTTTATGAGTATGTCTTCTGTCCAGATGTTGAATTCAAACGTCGTT
TTAAAGAAGCCTTCAGCAAAGCTGCCCAGCAAACAAAAGGAAGCTACATGGAGGTGGAGGACAACAGGAGTCAGGTAGAGACGGATG
ACCTGATTCTAAAACCTGGAGTGGTGCATGTGATTGACGTTGACCGGGGAGAGGAGAAGAAGGGGAAAGACCAATCTGGAGAGGTAT
TGTCTTCAGTATGACTAGAAGATCGCACTGAAAGCAGACAAGACTCCTTAGAACTGTCCTCAGATTTCCTTCCACCCATTAAGGAAACA
GATTTGTTATAAATTAGAAATGTGCAGGTTTGTTGTTTCATGTCATATTACTCAGTCTAAACAATAAATATTTCATAATTTACAAAGGAG
GAACGGAAGAAACCTATTGTGAATTCCAAATCTAAAAAAAGAAATATTTTTAAGATGTTCTTAAGCAAATATATACCTATTTTATCTAG
TTACCTTTCATTAACAACCAATTTTAACCGTGTGTCAAGATTTGGTTAAGTCTTGCCTGACAGAACTCAAAGACACGTCTATCAGCTTAT
TCCTTCTCTACTGGAATATTGGTATAGTCAATTCTTATTTGAATATTTATTCTATTAAACTGAGTTTAACAATGGCAAAATACAGTATGT
CACAGTCATGCACATTCAAGAGAGAAAATATAACAAGTTCTTTTATGAGCAATCCCTTATGCATAGACTACCTTGGCAAAAGAGCATTA
GCAAGTGTCACTGCTCATCAGTTACTTCCTTCCATTTATATCACAAATACCCAAGTTTCAATTCTAACTTCATTTCATGGTATTTCTTCCT
CCTCAATGCCCAAGGTAATGTGGGACTAAAGCCCAGAAATTTGAAAAGAATATTCAGAAATCCTTCCCAAATCATAAGGGCACCTATT
GAGATTCAAGACAAGCAGACTCGTAAAATCTTGTAGAGGCAGAGGC

1. Traduzca la secuencia nucleotídica a proteína utilizando la herramienta “traslate” de la base


de datos EXPASY (https://web.expasy.org/translate/).
a. ¿Qué informacion obtiene?
b. ¿Por qué se obtienen 6 ORFs?
Departamento de Ciencias Biológicas | 3
Facultad de Ciencias Naturales
Departamento de Biología
c. Para usted, ¿Cuál (es) de los ORFs sugeridos sería (n) la proteína más probable? ¿Cómo podría
sustentar su elección?

2. Utilizar ORF finder de NCBI como herramienta de predicción.

a. Ingrese a https://www.ncbi.nlm.nih.gov/orffinder/ y copie la secuencia de nucleótidos desconocida.


Hacer click en el recuadro “Submit” empleando las opciones de búsqueda sugeridas por el programa.
¿Cuántos ORFs obtienen? ¿Qué tipo de información obtienen con relación a los ORF?
b. Para verificar si un ORF codifica para una proteína o secuencia en particular emplee la herramienta
SmartBlast (ubicada al lado izquierdo de la pantalla). Los ORFs de mayor longitud, por lo general,
representan regiones codificantes; seleccione el ORF de mayor longitud (indicar longitud) y haga click
en el recuadro “SmartBlast”.
- ¿Cuál es la utilidad de esta herramienta?
- ¿Qué resultados obtienen en general?
c. ¿Qué diferencias encuentran entre las dos herramientas empleadas para predicción de ORFs?

Sección #2. Base de datos de proteínas PDB- Protein Data Bank


Esta sesión está diseñada para familiarizar al estudiante con la información que existe en PDB
respecto a proteínas. Para esto, ingrese a la siguiente dirección: http://www.rcsb.org/

Consultar en la base de datos:


a. ¿Con cuántos registros cuenta actualmente el PDB?
b. ¿Cuál es el total de estructuras obtenidas por cristalografía de rayos X y microscopía electrónica en
el PDB hasta este año?

En la barra de búsqueda, ingrese el siguiente identificador en la casilla de búsqueda: 2d1s


c. ¿A qué molécula corresponde el identificador?
d. Examine cuidadosamente la página de resultados y responda las preguntas a continuación:
o ¿En qué fecha fue depositada esta estructura? ¿Ha sido actualizada?
o ¿Cuál fue el método experimental mediante el que se obtuvo?

En la parte superior de la página de resultados, encontrará una serie de pestañas que aportan mayor
información acerca de la molécula:

e. Explore cada pestaña y describa brevemente que tipo información se obtiene.


f. ¿Encuentran literatura asociada a esta molécula?

Formato de archivo PDB

Al determinar la estructura tridimensional de una proteína, lo que obtenemos en realidad es información


detallada de cada una de las coordenadas de sus componentes. Esta información se guarda en un archivo
de texto, en un formato específico.

a. Presiones el enlace "Download files", a lado derecho de la página. Encontrará una serie de enlaces
de archivos para descargar. De estos los más conocidos son los que contienen formato PDB. Este archivo

Departamento de Ciencias Biológicas | 4


Facultad de Ciencias Naturales
Departamento de Biología
es un archivo de texto, solamente con extensión .PDB y puede ser abierto con cualquier editor de texto
(Block de notas o Wordpad en sistemas MS windows o kate, kwrite, vim o Gedit en GNU/Linux).
b. Descargue el archivo, ábralo en un block de notas y examínelo cuidadosamente. Preste especial
atención a las líneas que comienzan con la palabra ATOM. ¿Que información proveen?

Como podrá notarlo este archivo contiene bastante información y entenderla, por lo menos globalmente,
resulta importante. Para mayor información acerca de este formato, revise la siguiente guía explicativa
que ofrece el sitio web de PDB: http://www.wwpdb.org/documentation/file-format. Descargue la
última versión en formato PDF

Departamento de Ciencias Biológicas | 5

También podría gustarte