Está en la página 1de 9

1 PRACTICA COMPUTACIONAL I: ALGUNAS BASES DE DATOS

2 BIOLOGICAS
3 COMPUTER PRACTICE I: SOME BIOLOGICAL DATABASES
4

5 PRÁTICA DE COMPUTADOR I: ALGUNS BANCOS DE DADOS


6 BIOLÓGICOS
7 Nicolás Rodríguez Caviedes 1,*

91Universidad Nacional de Colombia, Bogotá. nicrodriguezcav@unal.edu.co


10

11Resumen
12Se realizó una introducción al manejo de algunas bases de datos usadas para estudios bioinformáticos
13con el fin de brindarle las herramientas a los estudiantes y que puedan llevar a cabo su investigación
14empezando desde búsqueda de bibliografía hasta el reconocimiento de secuencias de una proteína.
15En el presente trabajo se dará una reseña sobre las bases de datos PubMed y ENTREZ
16principalmente, además de revisar algunas otras como EBI-EMBL, DDBJ, PIR, PDB, NDB. De
17donde se puede concluir que la herramienta de mayor facilidad es PubMed, mientras que la que más
18información nos brinda es PDB y NBD.
19Palabras clave: Reseña, bioinformática, proteínas, secuencias.
20

21Abstract
22An introduction to the management of some databases used for bioinformatics studies was made in
23order to provide the tools to students, so they can carry out their research, starting from a
24bibliography search to the recognition of protein sequences. This work will be a review on the
25PubMed and ENTREZ databases mainly, in addition to reviewing some others such as EBI-EMBL,
26DDBJ, PIR, PDB, NDB. From which it can be concluded that the easiest tool is PubMed, while the
27one that provides the most information is PDB and NBD.
28Keywords: Review, bioinformatics, proteins, sequences.
29

1 1
2
1Resumo
2Foi feita uma introdução à gestão de algumas bases de dados utilizadas para estudos de
3bioinformática, a fim de fornecer as ferramentas aos alunos, para que possam realizar as suas
4pesquisas, desde uma pesquisa bibliográfica até ao reconhecimento de sequências de proteínas. Este
5trabalho será uma revisão das bases de dados PubMed e ENTREZ principalmente, além de revisar
6algumas outras como EBI-EMBL, DDBJ, PIR, PDB, NDB. Do qual se pode concluir que a
7ferramenta mais fácil é o PubMed, enquanto a que mais informações fornece é o PDB e o NBD.
8Palavras-chave: Revisão, bioinformática, proteínas, sequências.

9Introducción
10Debido a la importancia que ha tenido la bioinformática en los últimos años, el estudio de secuencias
11de genes ha venido en auge, y si bien al inicio de estos estudios, el lograr la codificación de un
12genoma o hasta una proteína podía tomar muchos meses o años de investigación, actualmente la
13secuenciación se realiza de una manera mas optima, por lo que el almacenamiento de estos datos es
14de vital importancia, no solamente para su perpetuidad, sino también para la comparación con los
15datos y registros de todo el mundo. Por causa de estos, las bases de datos han tomado un papel
16importante en la investigación de esta área, hasta el punto en que en este momento hay una gran
17cantidad de bases de datos a disposición del público, algunas de estas nos permiten encontrar
18artículos publicados con un tema en específico, mientras que otras nos dan información mas
19aplicada, como la secuencia, o identidad de una proteína.
20

21Resultados y discusión
22En primer lugar, se empleó la herramienta PubMed del NCBI en donde se llevaron a cabo diferentes
23búsquedas para comprender como funcionaba este motor de búsqueda, en donde se obtuvieron los
24siguientes resultados (tabla 1) donde se ve principalmente que los estudios de las proteínas spike en
25el último año, esto debido a la actual crisis sanitaria en la que nos encontramos por el Sars-Cov-2
26cuyo mecanismo ha sido estudiado desde esta proteína, sin embargo encontramos que sus estudios,
27aunque en menor medida, se vienen realizando desde hace bastante tiempo (primera publicación en
281962). También se puede observar que al colocar en la búsqueda “secuencia” la cantidad de
29resultados se disminuyen considerablemente, por el contrario, al colocar el operador “OR” los
30resultados se incrementan ya que básicamente se está realizando dos búsquedas en paralelo. La
31búsqueda en esta base de datos es bastante sencilla y significativa, en donde se puede destacar la
32especificidad que se obtuvo con la búsqueda avanzada (54 resultados).

1 2
2
1Tabla 1. Comparación de los criterios de búsqueda en PubMed.
Publicación Año con más Artículos en el
Búsqueda # de resultados
más antigua artículos 2021
Spike glycoprotein 4697 1970 2020 (1556) 483
Operador booleano: Spike
1490 1977 2020 (382) 87
glycoprotein and sequence
Búsqueda avanzada: spike
glycoprotein [title] AND 54 1962 2020 (11) 2
sequence [title]
Búsqueda avanzada: “(spike
glycoprotein [title] AND
sequence [title]) OR (secretion 261 1962 1990 (19) 0
glycoprotein [title] AND
sequence [title])
2
3Adicional a los criterios de búsqueda que se le puede suministrar mediante el motor de búsqueda
4avanzada, esta base de datos también tiene una amplia selección de filtros.
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19 Figura 1. Listado de filtros disponibles en PubMed.
20
21Posteriormente se empleo otra base de datos, en este caso ENTREZ, en la cual se llevaron a cabo
22búsquedas similares que en PubMed, sin embargo, en esta base de datos se presento un problema al
23intentar reproducir las búsquedas anteriores, en este caso, para las primeras búsquedas que no eran
24con el motor de búsqueda avanzada, no se presentó mayor problema, si embargo al efectuar la
25búsqueda con las palabras claves en el título, la base de datos no fue capaz de encontrar un resultado

1 3
2
1adecuado, debido a esto se altero un poco la búsqueda realizada cambiando [title] por [All fields]
2para poder llevar a cabo la comparación, así como se observa en la tabla 2.
3
4Tabla 2. Comparación de los criterios de búsqueda en ENTREZ.
Búsqueda # de
resultados
Spike glycoprotein 50939
Operador booleano: Spike glycoprotein and 3608
sequence
Búsqueda avanzada: spike glycoprotein [title] 0
AND sequence [title]
Búsqueda avanzada: “(spike glycoprotein 0
[title] AND sequence [title]) OR (secretion
glycoprotein [title] AND sequence [title])
Busqueda avanzada: “(spike glycoprotein 12144
[title] AND sequence [title]) OR (secretion
glycoprotein [title] AND sequence [title])

secretion glycoprotein ébola 16

secretion glycoprotein ébola AND


10
srcdb_refseq[PROP] AND srcdb_refseq[PROP]

Search secretion glycoprotein ébola


4
Filters: UniProtKB / Swiss-Prot

Search secretion glycoprotein ébola


2
Filters: UniProtKB / GeneBank

5
6Sin embargo, al quitar este filtro claramente la información que se obtiene es de menor valides que
7en la plataforma anterior, debido a esto se obtuvieron 12144 resultados, pero de información muy
8variada, también es importante resaltar que las dos primeras búsquedas que se hicieron de igual
9manera para las dos bases de datos, en ENTREZ casi duplican el número de resultados de PubMed,
10sin embargo, esta plataforma tiene un filtro adicional que es de gran importancia, y es el filtro que
11permite seleccionar la base de datos en la que la proteína esta almacenada, ya que en muchos casos
12hay redundancia, esto lo podemos observar en lo resultados de la búsquedas relacionadas con el virus
13de Ébola, en donde la búsqueda principal arrojaba 16 resultados en un inicio, pero después de aplicar
14los filtros de bases de datos y de secuencia de referencia, se redujo hasta 2 resultados.
15Cuando se reduce la búsqueda con el RefSeq, encontramos que los 10 resultados previenen de la
16misma proteína “N-acetylgalactosaminyltransferase 1”, al ingresar a uno de estos registros se nos da
1 4
2
1la opción de descargar la información almacenada en la base de datos, se puede descargar en
2diferentes formatos, por ejemplo, con el display configurado en “GenPept” en donde se obtiene un
3formato de texto con la siguiente información

4
5 Figura 2. Información inicial en formato GenPept.
6
7Los datos resaltos en amarillo son de importancia en la identificación de la proteína, empezando por
8el GI que es el código de identificación (GeneInfo Identifier) el cual va a identificar el compuesto a
9estudiar, junto con DEFINITION, en donde se nos da el nombre de la proteína y la especie a la cual
10pertenece, ACCESION y VERSION hacen referencia al código de acceso y la versión de la
11información obtenida, en ORGANISM se hace un resumen de los posibles organismos en los que se
12puede encontrar y su clasificación taxonómica.

13
14 Figura 3. Información complementaria en formato GenPept.
15

1 5
2
1
2Posteriormente se tiene una región denominada COMMENT en donde se da una descripción breve
3de algunas características y funciones de la proteína que se está estudiando, además de alguna
4información adicional sobre la literatura, publicaciones anteriores y la información de un exón de
5transcripción.

6
7 Figura 4. Información de características en formato GenPept.
8
9En la sección de FEATURES se enuncian algunas características de la proteína estudiada, por
10ejemplo, en este caso se pude ver que se trata de una proteína de 559 nucleótidos con algunos sitios
11activos y regiones, que son previstas mediante a comparación con otras bases de datos, de esta
12sección se puede obtener información de vital importancia para el estudio de algunas reacciones o
13incluso de actividad catalítica.

14
1 6
2
1 Figura 5. Secuencia de la proteína en formato GenPept.
2Finalmente, en este formato se encuentra el origen, y es la la secuencia de aminoácidos que es
3codificada a partir del ARN mensajero, su estructura primaria en la cual solo se evidencia la
4secuencia, no brinda más información, pero con la secuencia se puede introducir en otras bases de
5datos para poder obtener un modelo tridimensional de la proteína y reconocer mas precisamente sus
6sitios activos y residuos con actividad importante de estudiar.
7Sin embargo, este no es el unió formato en el que se puede descargar la información en esta base de
8datos, el formato FASTA, nos permite obtener únicamente la secuencia, el gi (que debe ser igual en
9los dos casos), y el nombre de la proteína, a primera vista se es evidente la diferencia entre los dos
10formatos.

11
12 Figura 1. Secuencia de la proteína en formato FASTA.
13
14En esta misma plataforma se puede hacer uso de otras dos herramientas que permiten obtener, las
15bases de datos NUCLEOTIDE y GENE, las cuales fueron estudiadas para revisar aproximadamente
16que información se podía obtener con la búsqueda “(glycoprotein [title] AND coronavirus
17[Organism])” en este caso, la primera base de datos nos arrojó 43739 resultados, mientras que GENE
18solo 40 resultados, lo cual es mejor ya que los resultados son mucho más precisos.
19De igual manera se usaron otras bases de datos para Hacer la comparación de la información con las
20búsquedas relacionadas al Ébola, usando EBI-EMBL, DDBJ, PIR, PDB y NBD sin embargo, se
21presento complicaciones con dos de las bases de datos, en donde la DDBJ se encontraba actualmente
22fuera de servicio, motivo por el cual no se pudo llevar a cabo ninguna búsqueda, y en la NBD no se
23obtuvieron resultados, cabe resaltar que en esta base de datos se solicita un ID de la proteína o
24secuencia, sin embargo, ninguno de los suministrados arrojó resultados posible. A continuación, se
25presentan entonces la comparación obtenida.
26
27
28
29

1 7
2
1
2
3Tabla 2. Comparación de los resultados en otras bases de datos...
Base de Búsqueda # Tipo de información
datos resultados
EBI-EMBL N- 42985 Información general, referencias,
acetylgalactosaminyltransferase 1 predicción de especie de la
proteína, banco de genes

DDBJ -- -- --
PIR N- 1784 Información general, referencias,
acetylgalactosaminyltransferase 1 clasificación, secuencias,

PDB N- 175505 Información general, estructura,


acetylgalactosaminyltransferase 1 secuencia, genoma, comparación
con oligosacáridos, macro
moléculas, referencias,

NBD -- -- --
4
5Conclusiones
6De las bases de datos estudiadas, se encontró que, aunque muchas pueden presentar información
7similar (secuencias, función, sitios activos) también hay otras bases de datos que son mas
8específicas, por lo que se dará un breve resumen de la información que cada una puede suministrar.
9PubMed: principalmente maneja artículos y publicaciones del tema de busque queda, muy útil para
10conseguir referencias, además, en los artículos se puede encontrar información variada de las
11proteínas y demás, también se le destaca un motor de búsqueda relativamente sencillo y efectivo.
12ENTREZ: Una base de datos bastante más amplia, con información mas especifica de las proteínas
13(Locus, Accession, Version, Definition, Organism, Comment, Features, Origin), cuenta con
14diferentes formatos de información y su motor de búsqueda aunque es mas completo (puede
15seleccionar por separado cada base de datos empleada en la búsqueda) es más complejo y especifico,
16cuenta con su propio código de identificación (GenInfo indentifier). EBI-EMBL: al igual que en
17PubMed es una herramienta muy útil para la búsqueda de bibliografía, pero a su vez es mas completa

1 8
2
1ya que presenta un mayor numero de resultados y esta asociada a un banco de genes con el que se
2pueden hacer alineamientos filogenéticos y demás herramientas bioinformáticas. PIR: presenta algo
3de información similar a la base de datos ENTREZ ya que presenta bibliografía e información
4importante (secuencia, función enzimática, clasificación, bases de datos complementarias y
5taxonomía) con un motor de búsqueda muy sencillo pero funcional, PDB: base de datos muy útil y
6completa, presenta información general, estructura, secuencia, comparaciones de sescuncias, genoma
7y referencias, integra un poco de las otras bases de datos estudiadas, su motor de búsqueda es mucho
8mas completo pero a su vez es de mayor complejidad. Y finalmente DDBJ y NDB que no se usaron,
9por lo tanto, no se puede concluir nada respecto a ellas.
10
11Referencias
12
13https://pubmed.ncbi.nlm.nih.gov
14https://www.ncbi.nlm.nih.gov/protein/NP_001371370.1?report=gpwithparts&log$=seqview
15https://www.ncbi.nlm.nih.gov/protein/NP_001371370.1?report=fasta&log$=seqview
16https://www.ebi.ac.uk
17https://proteininformationresource.org
18https://www.rcsb.org
19

1 9
2

También podría gustarte