Está en la página 1de 24

TALLER 1: USOS DE DIFERENTES BASES DE DATOS DE SECUENCIAS

Michel Camila Rueda Garzón, mcruedag@ut.edu.co, 070150192020

PARTE 1 – PudMed (https://pubmed.ncbi.nlm.nih.gov/)


Búsqueda racional de bibliografía
1. ¿Qué tipo de base de datos es MeSH? Explique brevemente.

MeSH (Medical Subject Headings) es el tesauro de vocabulario controlado por NLM


utilizado para indexar artículos para PubMed.

Usar la base de datos MeSH para encontrar MeSH términos, incluidos subtítulos,
tipos de publicación, conceptos suplementarios y Acciones farmacológicas y, a
continuación, cree una búsqueda en PubMed.

2. Ingrese a MeSH y defina los siguientes términos:

a. Metabolomic, Proteomics, Genomics, Metagenomics, Epigenomics, Glycomics,


Nutrigenomics, DNA Barcoding.

Metabolómica: La identificación sistemática y cuantificación de todos los productos


metabólicos de una célula, tejido, órgano u organismo bajo condiciones variables. El
metabolome de una célula u organismo es una colección dinámica de metabolitos que
representan su respuesta neta a las condiciones actuales.

Proteómica: El estudio sistemático del complemento completo de proteínas


(PROTEOMA) de los organismos.

Genómica: El estudio sistemático de las secuencias completas de ADN (GENOMA)


de los organismos. Se incluye la construcción de mapas genéticos, físicos y de
transcripción completos, y el análisis de esta información genómica estructural a
escala global, como en GENOME WIDE ASSOCIATION STUDIES.

Metagenómica: El estudio sistemático de los GENOMAS de ensamblajes de


organismos.

Epigenómica: El estudio sistemático de los cambios globales en la expresión génica


se debe a los PROCESOS EPIGENÉTICOS y no a los cambios en la secuencia de
bases del ADN.
Glucómica: El estudio sistemático de la estructura y función del conjunto completo
de glicanos (el glicoma) producidos en un solo organismo y la identificación de todos
los genes que codifican glicoproteínas.

Nutrigenómica: El estudio de la relación entre la FISIOLOGÍA NUTRICIONAL y la


composición genética. Incluye el efecto de diferentes componentes de los alimentos
sobre la EXPRESIÓN GÉNICA y cómo las variaciones en los GENES afectan las
respuestas a los componentes de los alimentos.

Código de barras de ADN, taxonómico: Técnicas para estandarizar y acelerar la


identificación taxonómica o clasificación de organismos que se basan en descifrar la
secuencia de una o unas pocas regiones de ADN conocidas como el "código de
barras de ADN".

b. Molecular simulation. ¿Cuál es la diferencia entre Docking y Dynamics?


Proponga un ejemplo práctico para ambas herramientas.
Ejemplo práctico con caso: Metralindole como un inhibidor importante de la
quinasa-2 y la holoenzima CK2. (https://pubmed.ncbi.nlm.nih.gov/37075433/)
Molecular Simulación de acoplamiento (Docking): Una técnica de simulación por
computadora que se utiliza para modelar la interacción entre dos moléculas.
Normalmente, la simulación de acoplamiento mide las interacciones de una
molécula pequeña o ligando con una parte de una molécula más grande, como una
proteína. Ejemplo: Mostró como Metralindole tiene altas puntuaciones de
acoplamiento en quinasas de división (5.159 Kcal / mol y -5.99 Kcal / mol) con un
buen enlace de hidrogeno.
Además, en diseño de fármacos también es importante, se busca predecir la
orientación del enlace de una molécula pequeña con la proteína que será donde
ejercerán su acción, con lo que se podrá predecir la afinidad y la actividad de la
molécula pequeña.
Molecular Simulación dinámica (Dynamics): Una simulación por computadora
desarrollada para estudiar el movimiento de las moléculas durante un período de
tiempo. Ejemplo: Se hizo la simulación de la inhibición de quinasas con
Metralindole para 100ns en un medio acuoso y confirmó la estabilidad del
compuesto y el patrón de interacción con la menor desviación y fluctuación.
Su campo de aplicación va desde superficies catalíticas hasta sistemas biológicos
como las proteínas.
c. ¿Cuáles son las bases de datos bibliográficas, en que se diferencia PubMed y
PubMed central?

PubMed ha estado disponible desde 1996. Sus más de 34 millones de


referencias incluyen la base de datos MEDLINE, el subconjunto más grande de
PubMed. Las citas de PubMed a menudo incluyen enlaces al artículo de texto
completo en los sitios web de los editores y / o en PMC y la estantería. Puede
limitar su recuperación de búsqueda de PubMed a las citas de MEDLINE
restringiendo su búsqueda al vocabulario controlado por MeSH o utilizando el
filtro Categorías de revistas llamado MEDLINE.

Por otro lado, PMC (PubMed Central) se lanzó en 2000 como un archivo
gratuito para artículos de revistas biomédicas y de ciencias de la vida de texto
completo. PMC sirve como contraparte digital de la extensa colección de
revistas impresas de NLM; es un repositorio de literatura de revistas depositada
por editores participantes, así como de manuscritos de autores que se han
presentado de conformidad con la Política de Acceso Público de los NIH y
políticas similares de otras agencias de financiamiento de investigación.

3. Despliegue la pestaña “Resources” en la parte superior (ver imagen), y vaya a


PubMed Central (PMC), en otra pestaña del navegador vaya a PubMed. Una vez
allí, busque en ambos un artículo sobre el cáncer (algo como “human brain
cancer”). Responda:

a. ¿Cuántos registros obtuvo en ambas bases de datos?

PubMed: 21.572 resultados


PMC: 612.203 resultados
b. ¿A qué cree usted se debe la diferencia en el número de artículos entre ambas bases
de datos?

Porque PubMed no tiene citas para ciertos tipos de material de PMC, como reseñas
de libros, que se consideran fuera del alcance de PubMed.

c. Identifique en PMC los links para descargar el archivo y la citación (Pantallazo).

4. Regrese a la ventana de PubMed con los resultados de la búsqueda anterior (“human


brain cáncer”). Observe el panel izquierdo, el histograma de publicaciones por año.
Poniendo el “mouse” sobre el histograma responda:

a. ¿Como ha sido el comportamiento en las publicaciones que se relacionan con cáncer


de cerebro?

Ha ido en incremento, incremento más a partir del año 2005.


b. ¿Cuál es el año de mayor producción de artículos al respecto?

En el año 2021 hubo mayor producción de artículos respecto al cáncer de cerebro


humano.

c. ¿Cuántos artículos se publicaron en el 2021?

Se publicaron 11.425 artículos en el año 2021

5. Para comparar el comportamiento de las publicaciones de varios temas, haga las


búsquedas respectivas (ej. cáncer de cerebro versus de hígado) y descargue la
información del histograma en formato de Excel separado por comas, dando click
en “Download CSV”. Una vez abra selecciónelo y cópielo a una hoja de Excel.
Ahora en Excel, en la opción Datos, texto en columna, separe las columnas por
comas. Una vez tenga las columnas de años, publicaciones de cáncer de cerebro y
cáncer de hígado, haga un histograma comparativo (Ver ejemplo). Haga este
ejercicio comparando al menos dos temas de su interés (Pantallazo).
Tema de mi interés:
6. * De vuelta en PubMed, en los resultados de la búsqueda de “human brain cáncer”,
observe en la parte izquierda los filtros de búsqueda disponibles (ver imagen).
Seleccionando algunos de estos filtros responda:
(Nota: no olvide dar “clear” en después de cada filtro para hacer una nueva
búsqueda)

a. Señale cuales tipos de filtros están disponibles para esta búsqueda,


incluyendo los filtros adicionales a los mostrados en la pantalla (Pantallazo).
Amplié la selección de con la opción “Additional filters”.

14 filtros normalmente
Con “Additional filters”:

b. ¿Cuántas revisiones relacionadas al cáncer de cerebro hay?


Hay 31,656 revisiones relacionadas al cáncer de cerebro.

c. ¿Cuántos reportes de ensayos clínicos?


Hay 7,348 reportes de ensayos clínicos.

d. ¿Cuántos reportes en congresos?


Al aplicar filtro no se muestra

e. ¿Cuántas revisiones tienen el texto completo gratis?


Tiene 8,873 (review y free full text)

f. ¿Cuántas revisiones con texto gratis y libre entre enero y marzo de 2022?
Hay 393. (

7. Búsqueda bibliográfica especifica. En una nueva ventana de búsqueda (observe que


haya borrado todos los filtros del ejercicio anterior), justo abajo del browser
(buscador), vaya a opciones avanzadas “Advanced”. Allí puede hacer la filtración
completa y específica para un tema, autor, año, idioma etc. determinado. Además,
allí también encontrará la historia de sus búsquedas. Busquemos un trabajo
específico sobre la relación de las proteínas asociadas al ADN de tipo no histonas
(nonhistone) en cáncer de hígado.

a. Filtremos varios campos, adicionando filtros así: Palabras clave (i.e.


nonhistone, cáncer, liver), autor (Ramagli), idioma (English), año (1985),
revista (Carcinogenesis) etc. ¿Qué artículo obtuvo, quien es el último autor?
(Pantallazo).

El articulo es “Alteraciones en las proteínas cromatina no histonas durante la


hepatocarcinogénesis inducida por diversos carcinógenos de acción” y el
ultimo autor es L. V. Rodríguez.
PARTE 2 – Entrez (All Databases) (https://www.ncbi.nlm.nih.gov/)
Bases de datos de información biológica
(Nota: se recomienda abrir cada uno de los siguientes repositorios en pestañas
independientes: click derecho, abrir en nueva pestaña)
8. ¿Si en All Databases se busca información de la proteína Spike (spike protein),
cuantos repositorios con información de esta proteína se encuentra? Describa
brevemente el contenido de al menos 3 de los repositorios. (Pantallazo). ¿Por qué en
el repositorio de genomas “Genome” no hay información?

Tiene 35 repositorios, con resultados en 30 bases de datos.


(1). PubMed: Uno de los repositorios es PubMed donde se encuentran 32.621
resultados, en el cual se observa que a partir del 2020 se incrementaron mucho los
estudios sobre esta glicoproteína, los primeros resultados que se pueden observar
son sobre vacunas de SARS-CoV2 y la dinámica de la proteína.
(2). Taxonomy: solo se encuentra un resultado sobre el nombre actual: TGEV spike
y se puede encontrar el ID de taxonomía.

(3). BioProject: se encuentran distintos tipos de proyectos con datos como


transcriptoma o expresión génica en homo sapiens, además, de purificación de RBD
SARS-CoV2.
Porque la base de datos de genome organiza información sobre genomas, incluidas
secuencias, mapas, cromosomas, ensamblajes y anotaciones, esta al ser una enzima,
es codificada en alguna parte del genoma, pero no tiene en sí un mapa o
cromosomas.

9. Ingrese al repositorio PopSet de la misma búsqueda. ¿Qué tipo de información


ofrece este repositorio? Mencione brevemente que utilidad tiene (ej. qué tipo de
estudios o investigaciones).

El PopSet es una colección de secuencias de ADN relacionadas derivadas de


estudios poblacionales, filogenéticos, de mutación y de ecosistemas. Este
repositorio ofrece información sobre genes o secuencias de DNA, este caso de la
espiga (s) en distintos virus. Sirve para estudios filogenéticos, poblacionales o
mutaciones.

10. En la base de datos “Genome” haga una búsqueda del genoma del virus SARS-
CoV-2. ¿Qué información encuentra? ¿Qué diferencia existe en la información
encontrada en esta base de datos con la encontrada en la base de datos “Assembly”?

En “Genome” organiza información sobre genomas, incluidas secuencias, mapas,


cromosomas, ensamblajes y anotaciones. Primero aparece un recuadro con el título
de Coronavirus 2 del síndrome respiratorio agudo severo y formas de descarga de
las secuencias y anotación. Aparece la revisión general del organismo (informe de
ensamblaje y anotación del genoma) e identificación. Se encuentra la secuenciación
del genoma.
En “Assembly” proporciona información sobre la estructura de los genomas
ensamblados, lo primero que aparece es la descarga de ensamblajes y un recuadro
con la taxonomía y su ID. Después aparecen resultados de ensamblajes con su
fecha, nivel de ensamblaje, si la representación genómica está completa, etc.
De forma resumida, la diferencia radica en que Genome ofrece la secuenciación y
anotación del genoma de SARS-CoV2 y Aseembly ofrece el ensamblaje del
genoma.
En la barra de repositorios (como vimos en el numeral 3) ahora exploremos otros recursos:
11. Recurso: Taxonomy, busquemos información sobre Formicidae, damos click y
ahora buscamos una especie en particular (ej. Heteroponera panamensis). ¿Cuál es
su ID? ¿su nombre común? ¿Código genético? ¿cuántas secuencias de ADN y
proteínas hay disponibles?

ID: 369144
Nombre común: Hormigas
Código genético: Tabla de traducción 1 (estándar)Código genético mitocondrial:
Tabla de traducción 5 (Invertebrado mitocondrial)
Hay 13 secuencias de ADN y 9 secuencias de proteínas.

a. Vaya al link de nucleótidos (clic en el número de secuencias) e identifique


los tipos de secuencias disponibles (Pantallazo).
Se encuentran disponibles las secuencias de ADN lineal de genes que
codifican proteínas (como la cytochrome oxidase), genes del factor de
elongación, o genes de ARN ribosómico 28S y 18S.
b. ¿Cuál es el rango del tamaño de las secuencias nucleotídicas disponibles
para estas hormigas?
Secuencias de 359 pb hasta 1851 pb.

c. Repita el paso anterior (a) pero ahora en proteínas (Pantallazo).


Se encuentran disponibles secuencias de proteínas. Por ejemplo, el
citocromo oxidasa, del factor de elongación, sin alas o rodopsina, etc.
d. ¿Cuál es el rango del tamaño de las secuencias aminoacídicas disponibles
para estas hormigas?

El rango va des 119 proteínas AA hasta 345 proteínas AA.


e. ¿Mientras observa esta información, ahora en que BD (o recurso) está
trabajando?

En el recurso Protein

f. ¿La secuencia proteínica más larga y la más corta publicadas para esta
especie, pertenecen a que genes?

La secuencia más corta al factor de elongación 1-alfa (119 proteína AA) y la


más larga a citocromo oxidasa subunidad I, parcial (mitocondria) (345
proteína AA).

PARTE 3 – Base de datos Nucleotide (https://www.ncbi.nlm.nih.gov/nucleotide/)


Búsqueda y descarga de secuencias nucleotídicas parciales
• En el recurso Nucleotides del repositorio NCBI.
12. Busquemos información sobre la Histona H1 en Culex pipiens.
a. ¿Cuántos registros obtuvo? Identifique cuantas secuencias nucleotídicas hay,
cuantos mRNA y cuantas secuencias de genomas (RefSeq).
Hay 39 registros. Hay 28 secuencias de DNA (1 circular), 10 secuencias de mRNA
y 16 secuencias de genomas (RefSeq).

b. El formato FlatFile es el formato de visualización de las características de las


secuencias en el repositorio. Busque la secuencia Código GenBank en Nucleotide
(XM_001865135.2) e identifique el tamaño de secuencia, el nombre del locus en el
genoma, los autores, la secuencia nucleotídica y aminoacídica en la parte inferior
(Pantallazo).

Tamaño: 774 bp mRNA.


Nombre del locus: LOC6048217 (posición 57…707).
No se registraron autores.
c. Ahora veamos la gráfica del mapeo de este gen en el genoma. Ir a Graphics (flecha).
Dando click en Gene ID, identifique en que posiciones del scaffold está, ¿Qué
dominios tiene esta proteína? ¿los identifica en la gráfica? (Pantallazo).

Posición: 57…707
Dominios:
• Linker_histone
• DNA-binding site
d. Vamos a descargar la secuencia de este gen. Regrese a la vista de la secuencia
(imagen anterior) e identifique el formato fasta (texto plano). Descargue esta
secuencia en Send (flecha) en formato fasta.
PARTE 4 – Base de datos Protein (https://www.ncbi.nlm.nih.gov/protein/?term=)
Búsqueda y descarga de secuencias de aminoácidos

13. En el recurso Protein del repositorio NCBI:

a. En el buscador ingresa el nombre de una proteína “Tubulin-Tyrosine ligase AND


Leishmania major”. ¿Cuántos registros obtuviste de la Tubulin-Tyrosine? Observe
algunos registros que indican “Putative”, ¿a qué se refiere esto? ¿Qué rangos de
tamaño tienen las secuencias aminoacídicas?

Se obtienen 38 registros, se está calificando como algo que no es. Rango de 229 aa
hasta 980 aa.

b. Ingresa a la secuencia con código de acceso (CAB55367.1), visualiza el gráfico y


descarga la secuencia peptídica en formato fasta (similar a lo realizado
anteriormente con la secuencia nucleotídica) (Pantallazo).
c. Veamos algunas características de la proteína CAB55367.1. Que significan los
enlaces a las bases de datos “taxon”, “CDD”, “GOA”, “InterPro” y
“UniProtKB/TrEMBL”?

Taxon: Nos lleva a la clasificación taxonómica de organismo y muestra unas cepas


de Leishmania y se puede dar clic para más información.
CDD: Muestra Familia de dominios proteicos conservados CPSase_L_D2. Es una
forma de citación.
GOA: Nos lleva a Anotaciones GO de EMBL-EBI, muestra 2 productos génicos,
uno asignado por InterPro y otro por UniProt.
InterPro: Nos lleva a EBI y muestra la entrada de Tubulina-tirosina ligasa/Tubulina
poliglutamilasa, dan información sobre las modificaciones de los las tubulinas y los
microtúbulos.
UniProtKB/TrEMBL: Muestra información sobre Q9U1E3_LEIMA como: gen,
aminoácidos, existencia de proteínas, funciones en Anotaciones GO, taxonomía,
bases de datos específicas de organismos, bases de datos de estructuras 3D, bases de
datos filogenéticos, sobre la secuencia y proteínas similares.
14. Revise las entradas en Uniprot para dUTPase de E. coli en la base de datos Swiss-
Prot (reviewed) y luego en la base de datos TrEMBL (unreviewed). Observe los
resultados. ¿Qué diferencia existe entre las dos bases de datos?

Swiss-Prot es una base de datos de secuencias de proteínas anotadas manualmente y


no redundantes de alta calidad, que reúne resultados experimentales, características
calculadas y conclusiones científicas. UniProtKB/Swiss-Prot es ahora la sección
revisada de la base de conocimientos de UniProt.
Swiss-Prot, no podía ampliarse para abarcar todas las secuencias de proteínas
disponibles, entonces se introdujo la sección de TrEMBL de UniProtKB en
respuesta al aumento del flujo de datos resultante de los proyectos del genoma. Esta
sección contiene registros analizados computacionalmente de alta calidad que se
enriquecen con anotaciones y clasificaciones automáticas.

PARTE 5 – Secuención de próxima generación (Next Generation Sequencing-NGS)


15. Describa la utilidad de las bases de datos Bioproject, Biosample y SRA.
BioProject es una colección de datos biológicos que proporciona a los usuarios un
único lugar para encontrar enlaces a los diversos tipos de datos generados para un
proyecto.
BioSample contiene descripciones de materiales de origen biológico utilizados en
ensayos experimentales.
SRA es el mayor repositorio disponible públicamente de datos de secuenciación de
alto rendimiento. El archivo acepta datos de todas las ramas de la vida, así como
metagenómicos y Estudios ambientales. SRA almacena datos de secuenciación sin
procesar e información de alineación para mejorar reproducibilidad y facilitar
nuevos descubrimientos a través del análisis de datos.

16. Describa cuantos proyectos de secuenciación que involucren estudios de


zooplankton están reportados en Bioproject.

Hay 167 estudios reportados.

a. Del Bioproject (PRJDB8891) describa brevemente el objetivo del trabajo.


Aclarar las dietas naturales y alimentación de larvas de anguila japonesa en el
océano pacifico: la composición del contenido de intestino larval de anguila se
comparó con el agua de mar en la localidad mediante las secuencias del gen 18S
rRNA de próxima generación.
b. ¿Cuántos muestreos realizaron los investigadores y que información de cada
muestra publicaron?

Hay 161. Muestra metagenomas/ambiental, agua.

c. ¿Cuántos experimentos de secuenciación realizaron y en que plataforma de


secuenciamiento? Describa brevemente en que consiste esa plataforma de
secuenciamiento tan popular.

Hay 161. En Illumina MiSeq, facilita la investigación con una amplia gama de
aplicaciones de secuenciación. Es capaz de realizar lecturas automatizadas de
extremo emparejado y hasta 15 Gb por ejecución, entregando más de 600 bases de
datos de secuencia por lectura. Los kits de preparación de bibliotecas que utiliza
están optimizados para una variedad de aplicaciones, que incluyen genes dirigidos,
genoma pequeño y secuenciación de amplicones, metagenómica 16S y más.

17. Dependiendo de la plataforma de secuenciamiento de ADN y el objetivo de la


investigación, no siempre se llega a obtener cromosomas. Defina que significa
whole genome shotgun sequence, contigs, supercontigs, scaffolds y
pseudochromosome.

whole genome shotgun sequence: Whole genome es el genoma completo de un


organismo y shotgun sequence es la técnica para determinar la secuencia del
genoma a partir de fragmentos individuales.
Contigs: Es el conjunto de fragmentos de DNA que se superponen para dar la
representación continua del genoma.
Supercontigs: Numero de contigs superpuestos.
Pseudochromosome: estructura transitoria similar a un genoma.

PARTE 6 – EMBL
Explorar algunos de los recursos del EMBL-EBI (http://www.ebi.ac.uk/).

18. Busque las secuencias nucleotidicas y aminoacídicas de: cytochrome oxidase


subunit I culex pipiens, elongation factor-1 alpha culex pipiens y reponda:

a. ¿Cuántas secuencias hay disponibles?


Cytochrome oxidase subunit I culex pipiens: Nucleotide sequences 3,575 results y
Protein sequences 155 results.
Elongation factor-1 alpha culex pipiens: Nucleotide sequences 35 results y Protein
sequences(105 results)

b. ¿Qué significa partial cds?

La secuencia de codificación (CDS) es la porción de una transcripción de ARNm


que es traducida por un ribosoma.

También podría gustarte