Practicas Corregidas Final 2.0

UEA: BIOINFORMÁTICA (4603018)
Dra. Elizabeth Ortiz Gutiérrez
PRACTICAS CORREGIDAS
Integrantes:
González Michel Citlalli Anayatzin
Gómez Ruiz Deisy Rubiceli
Gil López Yunnuet Merari
PRACTICA 1. BÚSQUEDAS EN LAS BASES DE DATOS PÚBLICAS DE

EMBL-EBI Y DE NCBI
Objetivos:
➔ Que el alumno se familiarice con la organización y los conceptos empleados en las bases de datos EMBL-
EBI (www.ebi.ac.uk) y NCBI (www.ncbi.nlm.nih.gov).
➔ Que el alumno conozca las principales bases de datos para la búsqueda de literatura científica.
➔ Que los alumnos comparen el tipo de información que pueden obtener de las diferentes bases de datos de
literatura científica.
➔
RESULTADOS
1. En el vocabulario técnico de las bases de datos, ¿qué es un identificador?
En las bases de datos, un identificador es un número o cadena de números y/o letras

único para cada registro de la base de datos. Un registro puede ser un gen, una
secuencia, o un artículo.
1
2. ¿Para qué sirven las bases de datos PubMed, PubMed Central y Bookshelf?
PubMed: Permite el acceso a las bases de datos compiladas por la NLM, MEDLINE y otras.
PubMed y PubMed Central: Contienen citas de artículos científicos.
Bookshelf: Sirve para citar libros.
3. ¿En cuántas bases de datos puedes encontrar información sobre gut microbiome
haciendo una búsqueda general en NCBI?
En 23 bases de datos
4. Si realizas una búsqueda en Bookshelf, ¿cuántos libros publicados contienen

información sobre gut microbiome? 139 libros
¿Cuáles son las referencias? Indica 2.
5. ¿Cuántas revisiones hay entre los artículos similares al artículo con el PMID:
23384445? Realiza la búsqueda en PubMed. 190 revisiones
6. Haciendo búsquedas generales en las bases de datos de NCBI, con frecuencia

encontramos más resultados en PubMed Central que en PubMed, ¿A qué se debe
eso?
PubMed Central también puede realizar ese tipo de búsquedas. PubMed tiene muchos
más registros que PMC, pero cuando la búsqueda incluye términos específicos, PubMed
2
no los incluirá porque no se encuentran en el abstract o título, sino en otra parte del texto
completo (e.g. resultados, métodos).
7. ¿En qué casos es más recomendable buscar en PubMed y, en qué casos sería mejor
PubMed Central?
Se utiliza PMC cuando se requiere consultar toda la información del artículo de interés y
en caso de realizar una búsqueda rápida y comparativa es conveniente utilizar PubMed.
También depende de que tan especifico sea el término buscado.
8. ¿Cuál es la diferencia en cuanto a las búsquedas de PubMed y PubMed Central con

respecto a Europe PMC?
Las secciones del artículo que incluye para la búsqueda, por ejemplo, PubMed busca en
el título de la revista, el título del artículo, los autores y el abstract.
PubMed central incluye los campos de PubMed y anexa la introducción, los materiales y
métodos, resultados y discusión. PubMed Europe incluye los campos de búsqueda de
PubMed central y PubMed en una sola búsqueda y además busca en registros
específicos como textos de agronomía (que no se encuentran en PubMed de NCBI).
9. ¿Cuál es la diferencia entre buscar depression AND gut microbiome y buscar

depression AND “gut microbiome”?
En la búsqueda - depression AND gut microbiome- buscará artículos que contengan:

depresión + microbioma + intestinal.
En la segunda - depression AND “gut microbiome” – buscará artículos que contengan:
depresión + microbioma intestinal.
3
10. Usando la sintaxis de Europe PMC (europepmc.org/searchsyntax), indica de qué
forma puedes realizar las siguientes búsquedas:
a. Artículos que contengan “gut microbiome” publicados entre 2018 y 2019:

I. Como primer paso ingreso a la plataforma digital europepmc.org/searchsyntax
II. Después ingresó en la barra de búsqueda lo siguiente “gut microbiome” como
nos referimos a una búsqueda de una frase exacta esta debe ir entre comillas.
III. Como siguiente paso limitó la búsqueda en la sección de date seleccionando el
año 2018 y 2019
b. Artículos publicados en “Frontiers in genetics” que contengan “gut microbiome” en

el abstract:
I. Como primer paso ingreso a la plataforma digital

http://europepmc.org/search?query=
II. Después ingresó en la barra de búsqueda lo siguiente con mayúsculas para delimitar la
búsqueda “ABSTRACT seguida de “gut microbiome” JOURNAL [Frontiers in genetics].
4
c. Artículos que contengan “gut microbiome” en el título.
I. Como primer paso ingreso a la plataforma digital

http://europepmc.org/search?query=
II. Después ingreso en la barra de búsqueda La palabra LITLE con mayúsculas
para delimitar la búsqueda después dos puntos y “gut microbiome”
5
REFERENCIAS
• Capítulo 2. Pevsner J. Bioinformatics and Functional Genomics. 3rd ed. Wiley
Blackwell, 2015.
• Help using Europe PMC [Internet]. Europe PMC.2020 [citado 22 de mayo
2020]. Disponible en: https://europepmc.org/Help
• PubMed User Guide [Internet]. https://pubmed.ncbi.nlm.nih.gov/help/.2020
[citado 22 mayo 2020]. Disponible en: https://pubmed.ncbi.nlm.gov/help/
6
PRACTICA 2. Búsquedas en las bases de datos públicas de
EMBL-EBI y de NCBI
Objetivos:
➔ Aplicar los conceptos aprendidos
➔ Desarrollar habilidades para el uso del portal Gene de (NCBI)
RESULTADOS
1. En la lectura de términos esenciales, se muestra la definición de isoformas de una

proteína. Las isoformas de la fosfolipasa C corresponden a las codificadas por
distintos genes (Phospholipase C gamma 1, epsilon 1, delta 1, entre otros). Busca
en el portal Gene de NCBI, los genes de la fosfolipasa C de humano e indica en
qué cromosoma se encuentra cada gen.
Para encontrar los genes de la fosfolipasa C de humano:

❖ Buscar en Google: gene NCBI https://www.ncbi.nlm.nih.gov/gene/
❖ En la caja de búsqueda colocar: Phospholipase c homo sapiens y presionar enter.
❖ Se arrojará una tabla con diferentes resultados correspondientes a los genes de
esta enzima. Enseguida localizar los tres tipos de genes gamma 1, épsilon1 y delta1.
❖ Después en la pestaña de location, se muestra en que cromosoma se encuentra
cada uno de los genes de nuestro interés.
❖ Finalmente, reportar que:
▪ Phospholipase C gamma 1→ Cromosoma 2
▪ Phospholipase C epsilon 1→ Cromosoma 1
▪ Phospholipase C delta 1 → Cromosoma 3
7
2. ¿A qué molécula corresponde el identificador NC_045512?
Para encontrar la molécula a la que corresponde el identificador NC_045512:
❖ Buscar en Google: RefSeq NCBI https://www.ncbi.nlm.nih.gov/refseq/

❖ En la caja de búsqueda colocar: NC_045512 y presionar enter.
❖ Se arrojará una ventana con diferentes datos de la molécula correspondientes
al identificador de nuestro interés.
❖ En negritas se muestra el nombre de la molécula que se esta buscando, en
donde se puede ver que corresponde a “Severe acute respiratory syndrome
coronavirus 2 isolate Wuhan-Hu-1, complete genoma”.
❖ Finalmente, se llega a la conclusión de que el identificador NC_045512
corresponde a la secuencia del genoma completo del SARS-CoV2.
3. Indica qué tipo de información almacenan las siguientes bases de datos: RefSeq,
GenBank, Nucleotide, UniprotKB, ENA, PDB.
✓ RefSeq: Es una base de datos secundaria en donde se puede encontrar una

colección de secuencias de ADN, ARN y proteínas mantenida y revisada.
✓ Sólo tiene una secuencia por gen y organismo.
✓ Tiene entradas independientes para el ADN genómico, el transcrito y las proteínas.
✓ Sólo incluye los principales organismos (10.854 frente a los más de 160.000 de la
GenBank en las versiones de septiembre 2010).
8
• GenBank: Es una base de datos de secuencias genéticas de los Institutos
Nacionales de Salud (NHI). En esta base de datos se encuentra una colección
anotada de todas las secuencias de ADN disponibles públicamente. Diseñada para
proporcionar y fomentar el acceso dentro de la comunidad científica a la información
de secuencia de ADN más actualizada y completa.
• Nucleotide: Es una base de datos con una colección de secuencias de distintas

fuentes incluyendo GenBank, RefSeq, TPA and PBD. Los datos de secuencias de
genoma, gen y transcripción proporcionan la base para la investigación y
descubrimientos biomédicos.
• UniprotKB: Es llamado así por ser un “recurso universal de proteínas”, es el centro

para la recopilación de información funcional de proteínas con anotaciones precisas,
constantes y ricas, esto incluye datos básicos como: secuencia de aa, nombre o
descripción de proteína, datos taxonómicos, información de citas. Incluye ontologías
biológicas ampliamente aceptadas, clasificaciones y referencias cruzadas.
CONSTA DE DOS SECCIONES:
• Swiss Prot: Sección que contiene registros anotados manualmente con información
extraída de la literatura y análisis computacionales evaluados por el curador
• TrEMBL: Sección que contiene registros analizados computacionalmente que

esperan una anotación manual completa
• ENA: Proporciona un registro completo de la información de secuenciación de

nucleótidos del mundo, que abarca datos de secuenciación sin procesar,
información de ensamblaje de secuencias y anotación funcional
• PDB: “Banco de Proteínas”. Es una base de datos de la estructura tridimensional

de las proteínas y ácidos nucleicos. Son datos normalmente obtenidos mediante
cristalografía de rayos X o por RMN y son enviados por biólogos y bioquímicos de
todo el mundo.
4. ¿Qué información contiene el portal Gene?
Secuencias de referencia asociadas al gen (gen, proteína, mRNA). También aporta

información sobre el contexto genómico del gen, información sobre la función
molecular, el proceso biológico y el componente celular del gen.
5. ¿Por qué Gene (NCBI) no se considera una base de datos?

Porque reúne información de varias bases de datos y la presenta de forma
sintetizada.
9
6. La localización molecular de un gen está dada por el cromosoma (o número de
cromosoma), y los nucleótidos de las posiciones inicial y final. ¿Cuál es la
localización molecular del gen TRM3 de S. cerevisiae S288C?
❖ Para encontrar la localización del gen TRM3

❖ Buscar en Google: gene NCBI https://www.ncbi.nlm.nih.gov/gene/
❖ En la caja de búsqueda colocar: (TRM3) AND "Saccharomyces cerevisiae S288C" y
presionar enter.
❖ Se arrojará una tabla con diferentes resultados correspondientes a los genes de esta
especie.
❖ Enseguida localizar el gen TRM3
❖ Después en la pestaña de location, se muestra en que cromosoma se encuentra el gen de
nuestro interés.
❖ Finalmente, reportar que: La localización molecular del gen TRM3 de S. cerevisiae S288C
es en el Cromosoma IV: 258915-263225.
7. ¿Cuáles son los identificadores de los genes Cypt4, Alpk2 y Stox1 de ratón en el
portal GENE?
❖ Buscar en Google: gene ncbi https://www.ncbi.nlm.nih.gov/gene/

❖ En la caja de búsqueda colocar: el nombre del gen, por ejemplo, Cypt4 y presionar enter.
❖ Se mostrará una ventana con diferentes datos de la molécula correspondientes al gen de
nuestro interés.
❖ Debajo del nombre de la molécula, del lado izquierdo se observa el ID que le corresponde.
❖ Finalmente, reportar que:
o Cypt4 ID: 235067

o Alpk2 ID: 225638
o Stox1 ID: 216021
10
8. Indica la secuencia en formato FASTA del gen ac (achaete) de la mosca de la fruta
(Drosophila melanogaster).
❖ Buscar en Google: NCBI https://www.ncbi.nlm.nih.gov/gene/

❖ Entrar en la base de datos Nucleotide
❖ En la caja de búsqueda colocar: (ac (achaete)) AND "Drosophila melanogaster" y
presionar enter.
❖ Se mostrará una ventana con diferentes resultados, localizar el que tenga el gen
que se está buscando.
❖ Debajo del nombre del gen, seleccionar la pestaña que dice FASTA
❖ Finalmente, copiar la secuencia FASTA en un block de notas o un procesador de
texto:
11
>NM_057476.3 Drosophila melanogaster achaete (ac), mRNA
AGAACAGAGCCAGCGCTGAAGCAAGGAGCATCGTCACACAATAACGTTATACTATCTCTTAAAATGGCTT
TGGGCAGCGAAAATCACTCTGTTTTCAACGACGACGAGGAGTCATCTTCGGCCTTTAATGGACCCTCTGT
TATCCGGAGAAATGCCCGGGAACGCAACCGCGTAAAGCAGGTCAACAATGGCTTCAGCCAACTACGACAA
CATATCCCTGCGGCCGTAATAGCCGATTTAAGCAATGGTCGCCGGGGAATTGGTCCCGGCGCCAATAAAA
AACTGAGCAAAGTTAGCACACTGAAAATGGCAGTAGAGTACATACGGCGCTTGCAGAAAGTTCTTCATGA
AAACGACCAGCAGAAACAGAAACAGTTGCATTTGCAGCAGCAACATTTGCACTTTCAGCAGCAGCAACAG
CATCAACACTTATACGCCTGGCACCAAGAGTTGCAGTTGCAATCTCCAACTGGCAGCACAAGTTCCTGCA
ACAGCATTAGCTCTTATTGCAAGCCAGCAACATCGACGATTCCGGGAGCAACACCTCCTAACAATTTTCA
TACCAAGTTGGAAGCCAGTTTTGAAGACTACCGTAACAATTCCTGCAGTTCTGGTACTGAAGATGAGGAC
ATCCTCGACTATATATCACTCTGGCAGGACGACCTGTAAAAAAACAGATCAAATCTTCAGCTATTGCTAG
TCGCACCCAACCATAACACACATCAAACCATTGATTGGCCAACAAGTATTACCTCAGCCACAAAGTATTT
ATATTCCCTAGAACTACCTTTTTGCCTTATAAATTAGTATTTAAGGTTTTATATAGTTTCTAAGGATAGT
TTCTAATGGAAGACAATTTATATTTAAGTTTTTTTTTATAGCATACATTGAGGACATTAAACTGATATAT
ATAAAAT
9. ¿En qué base de datos puedes consultar la información funcional y manualmente

anotada de la proteína Ubiquitin carboxyl-terminal hydrolase 47 de S. pombe?
Swiss-Prot
12
REFERENCIAS
• Xiong J. Introduction to Biological Databases. Essential Bioinformatics.
Cambridge: Cambridge University Press; 2006. p. 10–28.
• Robbins, Robert J.. 1994. Biological databases: A new scientific literature.
Publishing Research Quarterly, 10: 3-27.
• Rodrigo E. Bases de datos biológicas [Internet]. Tamaulipas: CINESTAV; 2013.
Disponible en: https://www.tamps.cinvestav.mx/~ertello/bioinfo/sesion04.pdf
13
PRACTICA 3: BLAST E INFLUENZA HUMANA
Objetivos:
➔ Que el alumno se familiarice con el uso de los programas BLASTN,
BLASTP y BLASTX.
➔ Que el alumno integre el tema actual BLAST con los temas revisados
previamente, como bases de datos de biomoléculas y diseño de oligos.
RESULTADOS
1. Con un BLASTP, realiza una búsqueda de todas las variantes de la proteína

neuraminidasa del virus de la influenza A H1N1. Emplea como secuencia query
YP_009118627.1, como base de datos el pdb, y restringe los resultados al virus de la
influenza A (taxid:11320).
❖ Ingresar a https://blast.ncbi.nlm.nih.gov/Blast.cgi después seleccionar la pestaña

BLASTP
https://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastp&PAGE_TYPE=BlastSe
arch&LINK_LOC=blasthome
❖ Especificar secuencia de interés (query).
a) Se debe ingresar YP_009118627.1 en el apartado de Enter Query Sequence y

en el apartado de organism el criterio taxid:11320.
14
b) Correr el BLASTP con click en BLAST
En el PDB se encuentra una variante de esta proteína que presenta la mutación

H275Y. Revisa los resultados en la pestaña del alineamiento e identifica la secuencia
que corresponde a la neuraminidasa con la mutación H275Y.
NOTA: los resultados se van cargando conforme te desplazas al final de la página.
❖ Debes ingresar al https://www.rcsb.org/

❖ En la barra de búsqueda debes ingresar: influenza A H1N1 mutation H275Y
❖ En el apartado de Refinements seleccionaras:
❖ TAXONOMY: Riboviria
❖ SCIENTIFIC NAME OF SOURCE ORGANIS: Homo sapiens
❖ POLIMER ENTITY TYPE: protein
15
❖ El único posible resultado que cumple con los criterios de búsqueda es la proteína
con el ID 5NWE.
❖ Con el identificador 5NWE, deveras ingresar al portal

https://www.ncbi.nlm.nih.gov/protein/
❖ Obtendrás cuatro posibles resultados.
16
❖ Debes dar clic en el apartado de Analyze these sequences, en el apartado Run
BLAST.
Debes observar que los ID de las cuatro proteínas están escritos en el recuadro de
Enter Query Sequence y además los siguientes campos deben ser especificados:
DATABASE: Protein Data Bank proteins (pdb)
ORGANISM: Influenza A virus (taxid: 11320)
ALGORITHM: blasp(protein-protein BLAST)
-De los posibles resultados generados solo hay una descripción coincide con el
identificador del PDB: Chain A, Neuraminidase [Influenza A virus].
17
❖ Proteína con la mutación identificada
a. ¿Cuál es el identificador de la secuencia de la neuraminidasa de la variante

resistente (con la mutación H275Y)? 5NWE_A
18
b. ¿Qué otras sustituciones presenta esa secuencia?
Ninguna ya que la opción de identicals proteins no arroja otro resultado
c. ¿Cómo se interpreta el e-value de 0 en este BLAST?
El resultado es significativo porque dada la secuencia query YP_009118627.1 y la

base de datos del PDB, esperaríamos encontrar 0 alineamientos con un score igual
o mayor a 795, simplemente por azar.
2. De la muestra de un paciente con influenza A se acaba de obtener la secuencia

PRAC3.2 (disponible en secuencias_practica3.fa) del gen que codifica para la
neuraminidasa.
Esta es la secuencia que se necesita para realizar el ejercicio.

>PRAC3.2; NA gene; paciente 2.
TTAAAATGAATCCAAACCAAAAGATAATAACCATTGGTTCGGTCTGTATGACAATTGGAATGGCTAACTT
AATATTACAAATTGGAAACATAATCTCAATATGGATTAGCCACTCAATTCAACTTGGGAATCAAAATCAG
ATTGAAACATGCAATCAAAGCGTCATTACTTATGAAAACAACACTTGGGTAAATCAGACATATGTTAACA
TCAGCAACACCAACTTTGCTGCTGGACAGTCAGTGGTTTCCGTGAAATTAGTGGGCAATTCCTCTCTCTG
CCCTGTTAGTGGATGGGCTATATACAGTAAAGACAACAGTGTAAGAATCGGTTCCAAGGGGGATGTGTTT
GTCATAAGGGAACCATTCATATCATGCTCCCCCTTGGAATGCAGAACCTTCTTCTTGACTCAAGGGGCCT
TGCTAAATGACAAACATTCCAATGGAACCATTAAAGACAGGAGCCCATATCGAACCCTAATGAGCTGTCC
TATTGGTGAAGTTCCCTCTCCATACAACTCAAGATTTGAGTCAGTCGCTTGGTCAGCAAGTGCTTGTCAT
GATGGCATCAATTGGCTAACAATTGGAATTTCTGGCCCAGACAATGGGGCAGTGGCTGTGTTAAAGTACA
ACGGCATAATAACAGACACTATCAAGAGTTGGAGAAACAATATATTGAGAACACAAGAGTCTGAATGTGC
ATGTGTAAATGGTTCTTGCTTTACTGTAATGACCGATGGACCAAGTAATGGACAGGCCTCATACAAGATC
TTCAGAATAGAAAAGGGAAAGATAGTCAAATCAGTCGAAATGAATGCCCCTAATTATTACTATGAGGAAT
GCTCCTGTTATCCTGATTCTAGTGAAATCACATGTGTGTGCAGGGATAACTGGCATGGCTCGAATCGACC
GTGGGTGTCTTTCAACCAGAATCTGGAATATCAGATAGGATACATATGCAGTGGGATTTTCGGAGACAAT
CCACGCCCTAATGATAAGACAGGCAGTTGTGGTCCAGTATCGTCTAATGGAGCAAATGGAGTAAAAGGAT
TTTCATTCAAATACGGCAATGGTGTTTGGATAGGGAGAACTAAAAGCATTAGTTCAAGAAACGGTTTTGA
GATGATTTGGGATCCGAACGGATGGACTGGGACAGACAATAACTTCTCAATAAAGCAAGATATCGTAGGA
ATAAATGAGTGGTCAGGATATAGCGGGAGTTTTGTTCAGCATCCAGAACTAACAGGGCTGGATTGTATAA
GACCTTGCTTCTGGGTTGAACTAATCAGAGGGCGACCCAAAGAGAACACAATCTGGACTAGCGGGAGCAG
CATATCCTTTTGTGGTGTAAACAGTGACACTGTGGGTTGGTCTTGGCCAGACGGTGCTGAGTTGCCATTT
ACCATTGACAAGTAATTTGTTC
19
a. ¿De dónde es la cepa con la que comparte mayor identidad y en qué año se aisló?
Para encontrar la respuesta de este inciso se hace lo siguiente:
❖ Buscar en Google: ncbi https://www.ncbi.nlm.nih.gov/gene/

❖ Entrar al programa BLAST
❖ Elegir la pestaña BLASTP
❖ Copiar y pegar la secuencia en el recuadro
❖ Restringir los resultados al virus de la influenza A (taxid: 11320) y como base
de datos Nucleotide collection (nr/nt)
❖ Presionar en el recuadro azul que dice BLAST
❖ Al correr el blast se despliega una ventana que muestra diferentes resultados
❖ En el apartado de descriptions aparecen las secuencias con mejores
alineamientos y del lado derecho se observan algunos parámetros. En ellos se
localiza el parámetro Per. Ident.
❖ Finalmente se observa que la secuencia con el nombre Influenza A virus
(A/Mexico/InDRE13547/2009(H1N1)) segment 6 neuraminidase (NA) gene,
complete cds tiene el mayor porcentaje de identidad (99.93%) con la
secuencia muestra
20
b. La secuencia obtenida de la muestra tomada de este paciente, ¿es una variante con
resistencia a oseltamivir?
Continuando con el ejercicio:

❖ Entrar al programa BLAST
❖ Elegir la pestaña BLASTX
❖ Copiar y pegar la secuencia del paciente en el recuadro
❖ Restringir los resultados al virus de la influenza A (taxid: 11320) y como base
de datos Nucleotide collection (nr/nt)
❖ Al correr el BLAST se despliega una ventana que muestra diferentes
resultados.
❖ Se elige el resultado que tiene el accession ACT68165.1 con el nombre
neuraminidase [Influenza A virus (A/Mexico/InDRE13547/2009(H1N1))]
❖ Dar clic en el nombre para ver el alineamiento
❖ Comparar la secuencia de este alineamiento con la secuencia del alineamiento
de la variante mutada de la neuramidasa que se obtuvo en el ejercicio 1 (Chain
A, Neuraminidase [Influenza A virus])
❖ Para verificar que la secuencia de nuestra muestra presenta o no la mutación,
identificar que en ambos alineamientos se encuentre el cambio de aminoácido
H por el aminoácido Y.
21
3. El gen que codifica para la hemaglutinina es uno de los que se busca amplificar en
los ensayos de RT-PCR para detectar influenza, además permite determinar el tipo de
influenza del paciente (A o B).
El identificador de la secuencia con la que se trabajó en la presente práctica es el

siguiente: AGL05932.1
a. ¿Qué porcentaje de identidad comparte el gen de la hemaglutinina de la influenza

A y de la B?
Para encontrar el porcentaje de identidad que comparte el gen de la hemaglutinina

con el virus de la influenza A y B se siguen los siguientes pasos:

❖ Entrar en la base de datos BLAST
❖ Elegir la pestaña BLASTP
❖ Copiar y pegar el identificador en el recuadro
❖ Al correr el blast se despliega una ventana que muestra 3 diferentes resultados
❖ En el apartado de descriptions del lado derecho de cada uno de los resultados
aparece el parámetro Per. Ident.
❖ Finalmente se observa que la secuencia con el nombre hemagglutinin [Influenza
A virus (A/Korea/01/2009(H1N1))] tiene un porcentaje de identidad del (30.31%)
con el gen de la hemaglutinina de la influenza A y de la B.
❖ El valor de e-value de esta secuencia es de 8e-77 con el accession ACQ84451.1.
22
b. ¿Se pueden considerar proteínas ortólogas de acuerdo con el método BDBH?
De acuerdo con el esquema grafico de nuestro alineamiento en el apartado de

Graphic Summary podemos apreciar que nuestro (Query o secuencia de interés),
en color azul, está en similitud de alineamientos con hemagglutinin [Influenza A virus
(A/Korea/01/2009(H1N1))] en un 30.31%, esto significa que el mejor Hit del BLAST
2 es la misma secuencia que de la Query 1. Por lo tanto, los dos Hit corresponden
a genes ortólogos y se deduce que es la proteína del genoma más parecida a la de
nuestro Query 1 con Best Hit 2 y viceversa.
c. ¿En cuál de los dos BLAST se obtuvo un resultado con mejor e-value?
Continuando con el ejercicio: Se debe de realizar un segundo BLASTP con el accesión

ACQ84451.1 siguiendo el método BDBH (Bidirectional Best Hit) y se busca el taxid del
organismo al que corresponde la secuencia AGL05932.1 en el formato genbank de la
secuencia, lo encuentras en ORGANISM o taxon.

❖ Entrar al programa BLAST.
❖ Elegir la pestaña BLASTP.
❖ Copiar y pegar el identificador ACQ84451.1 en el recuadro.
❖ Restringir los resultados a Influenza B virus (B/Ohio/01/2012) (taxid:1321184) y
como base de datos Nucleotide collection (nr/nt).
❖ Presionar en el recuadro azul que dice BLAST.
❖ Al correr el blast se despliega una ventana que muestra 1 resultado.
❖ En el apartado de descriptions aparecen las secuencias con mejores alineamientos
y del lado derecho se observan algunos parámetros. En ellos se localiza el
parámetro E value.
❖ Finalmente se observa que la secuencia con el nombre hemagglutinin [Influenza
B virus (B/Ohio/01/2012)] con el accessión AGL05932.1 tiene un e-value de 2e-
77.
❖ Al realizar los dos BLAST y comparar su valor de e-value deducimos que en el
primero BLAST donde el query es ACQ84451.1 se tiene un mejor e- value porque
el número es menor.
23
4. Supongamos que, en 2019, dos cepas de virus de la influenza, uno de tipo A y otro
B, fueron los causantes de un brote de influenza en California. La secuencia de los
genes que codifican para la hemaglutinina están disponibles en el GenBank con los
identificadores MN230189.1 y MN552750.1. Corre un BLASTN para alinear estas dos
secuencias y determinar las regiones con mayor y menor identidad.
¿Qué región del gen que codifican para la hemaglutinina se pueden amplificar para detectar
si un paciente presenta influenza A o B?

❖ Entrar en la base de datos BLAST
❖ Elegir la pestaña BLASTN
❖ Copiar y pegar los identificadores en el recuadro
24
❖ Para alinear estas dos secuencias, activar la opción “Align two or more sequences”
❖ En Program selection poner la opción “Somewhat similar sequences” o
discontiguous megablast .
❖ Al correr el BLAST se despliega una ventana que muestra 1 resultado (que puede
tener diferente accesión de acuerdo si el virus de la influenza es tipo A o B
❖ En el apartado de alineamientos se observa la secuencia y la región de los
nucleótidos que codifican para la hemaglutinina. Con ello se puede detectar la región
a amplificar para detectar si alguien presenta influenza.
❖ Finalmente se observa que la secuencia con el accesión MN552750.1 tiene la
región a amplificar entre los nucleótidos 38 y 1050.
❖ La secuencia con el accession MN230189.1 tiene la región a amplificar entre los
nucleótidos 37 y 1094.
25
5. ¿Qué tipo de influenza tiene un paciente de quien se tomó una muestra y se obtuvo
la secuencia PRAC3?4 (disponible en secuencias_practica3.fa) de hemaglutinina?
La secuencia para resolver el ejercicio es la siguiente:

❖ Entrar en la base de datos BLAST.
❖ Elegir la pestaña BLASTN.
❖ Copiar y pegar la secuencia en el recuadro .
❖ Restringir los resultados al virus de la a la familia a la que pertenecen los virus de
la influenza A y B, Orthomyxoviridae (taxid:11308).
❖ Al correr el BLAST se despliega una ventana que muestra diferentes resultados
❖ En el apartado de descriptions del lado derecho de cada uno de los resultados
aparece el parámetro Per. Ident.
❖ Finalmente se observa que la secuencia con el nombre Influenza B virus
(B/Connecticut/17/2020) segment 4 hemagglutinin (HA) gene, complete cds
tiene un porcentaje de identidad del (100 %) y en base a este resultado se
confirma que el paciente presenta el virus de la influenza tipo B.
26
27
REFERNCIAS:
• BLAST Homepage and Selected Search Pages Introducing the BLAST

homepage and form elements/functions of selected search pages [Internet].
National Center for Biotechnology Information . 2019 [citado 8 julio 2020].
Disponible en:
file:///C:/Users/ancig/Downloads/HowTo_BLASTGuide%20(2).pdf
• Gene Help [Internet]. National Center for Biotechnology Information . 2019
[citado 8 julio 2020]. Disponible en:
https://www.ncbi.nlm.nih.gov/books/NBK3839/pdf/Bookshelf_NBK3839.pdf
• Capítulo 2. Pevsner J. Bioinformatics and Functional Genomics. 3rd ed.
Wiley Blackwell, 2015.
28

Practicas Corregidas Final 2.0

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Practicas Corregidas Final 2.0

Cargado por

Copyright:

Formatos disponibles

UEA: BIOINFORMÁTICA (4603018)

Dra. Elizabeth Ortiz Gutiérrez

González Michel Citlalli Anayatzin

Gómez Ruiz Deisy Rubiceli

Gil López Yunnuet Merari

PRACTICA 1. BÚSQUEDAS EN LAS BASES DE DATOS PÚBLICAS DE

1. En el vocabulario técnico de las bases de datos, ¿qué es un identificador?

En las bases de datos, un identificador es un número o cadena de números y/o letras

4. Si realizas una búsqueda en Bookshelf, ¿cuántos libros publicados contienen

¿Cuáles son las referencias? Indica 2.

6. Haciendo búsquedas generales en las bases de datos de NCBI, con frecuencia

8. ¿Cuál es la diferencia en cuanto a las búsquedas de PubMed y PubMed Central con

9. ¿Cuál es la diferencia entre buscar depression AND gut microbiome y buscar

En la búsqueda - depression AND gut microbiome- buscará artículos que contengan:

a. Artículos que contengan “gut microbiome” publicados entre 2018 y 2019:

b. Artículos publicados en “Frontiers in genetics” que contengan “gut microbiome” en

I. Como primer paso ingreso a la plataforma digital

I. Como primer paso ingreso a la plataforma digital

1. En la lectura de términos esenciales, se muestra la definición de isoformas de una

Para encontrar los genes de la fosfolipasa C de humano:

Para encontrar la molécula a la que corresponde el identificador NC_045512:

❖ Buscar en Google: RefSeq NCBI https://www.ncbi.nlm.nih.gov/refseq/

✓ RefSeq: Es una base de datos secundaria en donde se puede encontrar una

• Nucleotide: Es una base de datos con una colección de secuencias de distintas

• UniprotKB: Es llamado así por ser un “recurso universal de proteínas”, es el centro

CONSTA DE DOS SECCIONES:

• TrEMBL: Sección que contiene registros analizados computacionalmente que

• ENA: Proporciona un registro completo de la información de secuenciación de

• PDB: “Banco de Proteínas”. Es una base de datos de la estructura tridimensional

4. ¿Qué información contiene el portal Gene?

Secuencias de referencia asociadas al gen (gen, proteína, mRNA). También aporta

5. ¿Por qué Gene (NCBI) no se considera una base de datos?

❖ Para encontrar la localización del gen TRM3

❖ Buscar en Google: gene ncbi https://www.ncbi.nlm.nih.gov/gene/

o Cypt4 ID: 235067

❖ Buscar en Google: NCBI https://www.ncbi.nlm.nih.gov/gene/

9. ¿En qué base de datos puedes consultar la información funcional y manualmente

1. Con un BLASTP, realiza una búsqueda de todas las variantes de la proteína

❖ Ingresar a https://blast.ncbi.nlm.nih.gov/Blast.cgi después seleccionar la pestaña

a) Se debe ingresar YP_009118627.1 en el apartado de Enter Query Sequence y

En el PDB se encuentra una variante de esta proteína que presenta la mutación

NOTA: los resultados se van cargando conforme te desplazas al final de la página.

❖ Debes ingresar al https://www.rcsb.org/

❖ Con el identificador 5NWE, deveras ingresar al portal

DATABASE: Protein Data Bank proteins (pdb)

ORGANISM: Influenza A virus (taxid: 11320)

ALGORITHM: blasp(protein-protein BLAST)

a. ¿Cuál es el identificador de la secuencia de la neuraminidasa de la variante

Ninguna ya que la opción de identicals proteins no arroja otro resultado

c. ¿Cómo se interpreta el e-value de 0 en este BLAST?

El resultado es significativo porque dada la secuencia query YP_009118627.1 y la

2. De la muestra de un paciente con influenza A se acaba de obtener la secuencia

Esta es la secuencia que se necesita para realizar el ejercicio.

Para encontrar la respuesta de este inciso se hace lo siguiente:

❖ Buscar en Google: ncbi https://www.ncbi.nlm.nih.gov/gene/

Continuando con el ejercicio:

El identificador de la secuencia con la que se trabajó en la presente práctica es el

a. ¿Qué porcentaje de identidad comparte el gen de la hemaglutinina de la influenza

Para encontrar el porcentaje de identidad que comparte el gen de la hemaglutinina

❖ Buscar en Google: ncbi https://www.ncbi.nlm.nih.gov/gene/

De acuerdo con el esquema grafico de nuestro alineamiento en el apartado de

Continuando con el ejercicio: Se debe de realizar un segundo BLASTP con el accesión

❖ Buscar en Google: ncbi https://www.ncbi.nlm.nih.gov/gene/