Sesión de Laboratorio No 2.

Sesión de laboratorio No 2.
Ingeniería Genética.
INTEC: Nombre:
EXPLORANDO NCBI
[Software necesario: acceso web]
El Centro Nacional de Información Biotecnológica (NCBI) mantenido por la Biblioteca

Nacional de Medicina de los Estados Unidos y los Institutos Nacionales de Salud es uno de
los recursos y repositorios de datos biológicos más importantes del mundo. Este fantástico
recurso en línea proporciona una extensa red de bases de datos que catalogan una riqueza
cada vez mayor de información genética, médica y bioquímica de todos los ámbitos y
recorridos de la vida. Generaciones enteras, desde virus hasta humanos, se compilan,
organizan y cruzan dentro de estas redes, de modo que navegar por el genoma puede ser
casi tan fácil como navegar por la web.
Pero tienes que saber a) lo que estás buscando, y b) lo que estás buscando para obtener
algo de estas bases de datos. Esto es lo que este primer laboratorio te va a ayudar a
hacer. Tenga en cuenta que Google y otros motores de búsqueda generalmente no
indexan sitios web basados en bases de datos, por lo que no se puede usar para buscar
información almacenada en NCBI.
El portal principal para acceder a los datos en NCBI se llama GQuery. Pero primero,
comencemos visitando el sitio web de NCBI y examinando la interfaz, que sufre uncambio
constante.
1. Abra su navegador web y vaya a la página de inicio de NCBI: www.ncbi.nlm.nih.gov.

Esta página proporciona enlaces a todas las bases de datos y recursos del NCBI. Vale la
pena explorar aquí solo para tener una mejor idea del alcance de NCBI. Si hace clic en
Acerca del NCBI, se le dirigirá a una página que resume algunos de estos recursos.
También puede consultar el manual del NCBI
(http://www.ncbi.nlm.nih.gov/books/NBK21101/) http://www.ncbi.nlm.nih.gov/books/
NBK21101/) para obtener más información.
Figura 1. La página de inicio del NCBI.

2. Ahora pasemos al portal Buscar bases de datos NCBI (también conocido como GQuery):
seleccione Todas las bases de datos en la barra de navegación en la parte superior de la
página de inicio de NCBI, haciendo clic en "Buscar" en el campo vacío. Primero, analice la
variedad de bases de datos consultadas a través de este portal. Notarás que hay de todo,
desde la literatura biomédica en PubMed hasta las bases de datos de nucleótidos, bases de
datos de taxonomía, bases de datos de estructura de proteínas y bases de datos de perfiles
de expresión. Veamos qué sucede cuando haces una búsqueda no guiada en el sitio. En el
cuadro "Buscar en bases de datos", escriba bacterias. El resultado es una página de
resumen del número de visitas en cada sección. Una búsqueda de bacterias da millones de
visitas, no muy útil. Necesitamos detalles.
Figura 2. La página del portal Buscar bases de datos NCBI con bacterias utilizadas como palabra de
búsqueda.
3. Por lo general, al buscar en estas bases de datos, tiene una región de ADN o una
proteína (o función de proteína) de interés. Para este laboratorio, utilizará un gen de
Arabidopsis thaliana, una pequeña planta con flores que es como la mosca de la fruta del
mundo vegetal, ya que tiene un ciclo de vida comparativamente rápido y requiere poco
espacio para crecer. El producto proteico de este gen se registra bajo el número de acceso
NP_001318308, y es una ligasa E3, implicada en la ubiquitinación de las proteínas, que es
una señal para su degradación.
4. Vuelva a la página del portal NCBI GQuery e intente una búsqueda más enfocada.
Utilice los términos de búsqueda encontrados asociados con la secuencia de genes que
usaremos con los calificadores de campo de GenBank que se muestran a continuación (se
presenta una lista completa de calificadores en el Apéndice 1). Pruebe las cuatro
búsquedas diferentes que se presentan a continuación:
• palabras clave de genes
por ejemplo, constituyente estructural del ribosoma
• palabra clave de gen Y organismo
por ejemplo, constituyente estructural del ribosoma Y Arabidopsis thaliana
• palabra clave del gen [PROT] Y organismo [ORGN]

por ejemplo, constituyente estructural del ribosoma [PROT] Y Arabidopsis thaliana [ORGN]
• número de acceso o gi
por ejemplo, NP_565676 ¡Eso redujo las cosas significativamente!
• Tenga en cuenta que el uso de paréntesis puede ser muy útil para asegurarse de
obtener exactamente lo que desea . Por ejemplo:
• SMC Y (levadura [ORGN] O Arabidopsis [ORGN])
es una búsqueda muy diferente a la
SMC Y levadura [ORGN] O Arabidopsis [ORGN]
Además, el uso de comillas también puede afectar dramáticamente su búsqueda (es decir:
16s rRNA vs. "16s rRNA").
Por último, siempre ponga en mayúsculas los operadores booleanos como
AND/OR/NOT. En definitiva, los factores de búsqueda más específicos que puede
utilizar son los números gi o de acceso.
Recuadro 1. Números de acceso, números de versión y números DE IG

Un número de acceso es un identificador único para un registro de secuencia determinado. Un número de
acceso se asigna a un registro específico y permanece con ese registro para siempre. En otras palabras, los
números de acceso rastrean un registro en particular y no cambian incluso si la información en el registro
se cambia a petición del autor (por ejemplo, si se proporciona una mejor anotación o una secuencia más
completa). Los números de acceso suelen ser una combinación de una letra o letras y números, como una
sola letra seguida de cinco dígitos (por ejemplo, U12345) o dos letras seguidas de seis dígitos (por ejemplo,
AF123456).
Los números de versión siguen al número de adhesión e indican el historial de revisiones de esa entrada
comenzando con 1 y aumentando con cada revisión. El formato estándar es Accession.Version.
Un número GI (GenInfo Identifier – a veces escrito en minúsculas, "gi") es simplemente una

serie de dígitos que se asignan consecutivamente a cada registro de secuencia procesado
por NCBI. El sistema GI de identificadores corre paralelo al sistema accession.version; por
lo tanto, si la secuencia de ADN o proteína cambia de alguna manera, recibirá un nuevo
número GI,
Ejemplo: Cuando se envía una nueva entrada a GenBank, se le asignará un número de
acceso (digamos AF000001). Dado que esta es la primera versión, la adhesión se adjuntará
con '.1', por lo que se verá como AF000001.1. Al mismo tiempo, se le dará un número GI
(digamos GI: 1234567). Ahora imagine que el investigador que originalmente envió el
registro quiere actualizar la información. El registro actualizado mantendrá el mismo
número de adhesión pero aumentará el número de versión (AF000001.2), que el nuevo
registro recibirá un número de INDICA completamente nuevo (digamos GI: 9876543).
¿Por qué es esto importante? El número de acceso siempre le dará la información más
actualizada en un registro, mientras que el número de indicación geográfica siempre lo
llevará de vuelta a un registro específico. Hay momentos en los que desea la información
más actualizada, y otras veces en que desea señalar una información en particular de un
punto particular en el tiempo (por ejemplo, un registro en particular con el que realizó un
análisis), incluso si posteriormente se ha agregado más información.
Recuadro 2. Ayuda de NCBI

Este es un buen momento para familiarizarse con el completo índice de ayuda de NCBI para futuras
referencias. Con este índice, debería poder acceder a la mayor parte de los antecedentes que necesita para
comprender cómo funcionan estas bases de datos por su cuenta (también hay un ncbi youTube channel, si
está tan inclinado a adquirir su información de esa manera).

A la derecha del cuadro de texto de búsqueda en la página del portal de GQuery se encuentra el icono de
Ayuda. Haga clic en él. Ahora estás en Entrez Help. La colección de bases de datos Entrez se consulta
cuando se utiliza la interfaz GQuery. Tenga en cuenta la sección en la barra lateral derecha que explica
todo, desde las opciones de búsqueda hasta guardar conjuntos de registros.
Observe que en la sección Uso de la página de búsqueda avanzada para construir instrucciones de
búsqueda complejas se proporcionan algunos otros calificativos apropiados.
5. Busque su número de acceso dado a través de la página del portal GQuery (por ejemplo,
NP_001318308 desde arriba). Debería darle un golpe de secuencia de proteínas. Haga
clic en él y en el siguiente enlace para obtener su descripción completa de GenBank.
...
Figura 3. Registro de GenBank para la adhesión NP_001318308, en formato GenPept.

6. Observe todos los hipervínculos dentro del texto. Parece desordenado, pero de hecho
es sencillo. Por ejemplo, para obtener información taxonómica, haga clic en el
hipervínculo ORGANISMO FUENTE. Algunos registros tienen enlaces a la publicación
principal donde esta secuencia fue original ycitada en un hipervínculo de número PUBMED
(no es el caso en el ejemplo anterior, pero hay una referencia PubMed para la secuencia).
Haga clic en diferentes enlaces y vea lo que encuentra.
• ¿Cuál es el linaje taxonómico de su organismo?
• ¿Se ha secuenciado el genoma de este organismo, es decir, existe un Proyecto Genoma?

Si, se encuentra secuenciado, de hecho, fue la primera planta cuyo genoma fue secuenciado
por completo. Tarea que se completó en diciembre del 2000 por el proyecto AGI.
• Si es así, ¿puede encontrar la adhesión para la secuencia completa o uno de los cromosomas?
Si, es posible encontrar la secuencia.
Para obtener mucha más información sobre la estructura del archivo GenBank en
http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html
7. Vuelva al registro de GenBank y haga clic en el enlace CDS, justo encima de la

secuencia real (con un círculo en rojo en la Figura 3 en la página anterior).
a. ¿A dónde te llevó esto o qué pasó cuando hiciste esto?
8. Vuelva al registro de GenBank y examine la sección Información relacionada en la

parte inferior derecha. Esto le proporciona vínculos directos a otras bases de datos con
información sobre esta consulta. Encuentra el enlace gene.
Figura 4. El menú Información relacionada , a la derecha del registro.
9. Seleccione Gen en el menú Información relacionada. Este es un gran recurso de inicio

en NCBI. Desplácese por las diferentes secciones. Úselos para responder a las siguientes
preguntas.
• ¿Dónde está la posición de su gen en el genoma (consejo: ratón sobre la barra
verde, que representa el gen en el visor de secuencias)?
• ¿Cuáles son los nombres de los genes que lo rodean (contexto genómico)?
• ¿Tiene algún dominio conservado (desplácese hacia abajo hasta la sección

Anotación del genoma, aproximadamente dos tercios del camino hacia abajo en la
página)? ¿Cómo se llaman?
• ¿En qué proceso biológico (términos de ontología génica) está involucrado este
gen (de nuevo, desplácese hacia abajo)?
Figura 5. Página de GenBank Gene para AT2G28830.
10. En la página De genes, también hay otros enlaces (ver la barra lateral a la derecha)
para examinar más a fondo la estructura, función y relaciones filogenéticas de un gen.
• Haga clic en Enlaces adicionales. un. ¿Qué tipo de información le dice esta sección?
• Vuelva a la página Gen y haga clic en Map Viewer en el menú Información
relacionada.
• Utilice el selector en el lado izquierdo de la pantalla para acercar y alejar. Desplácese
a lo largo del genoma para ver el orden de los genes. Use la etiqueta de locus del gen
(que se encuentra en la página Gen) para encontrar su gen de esta manera utilizando
la función de búsqueda. NCBI parece haber hecho que el nivel de zoom
predeterminado sea tal que solo vea el gen. Puede desplazarse a lo largo del genoma
haciendo clicen las pequeñas flechas hacia arriba y hacia abajo en la parte superior e
inferior del gráfico del genoma Genes_seq .
• Haga clic en la pequeña caja negra señalada por la etiqueta de locus del gen.
b. ¿Cuántos exones ves en este gen? Consejo: esto también se puede
determinar a partir de la entrada del visor de secuencias de la página Gene...
¿Cuántas barras verdes hay?
 Vuelva al Visor de mapas.
 Haga clic y explore la variedad de formas en que los datos están
interconectados y se muestran (no se preocupe, no puede romper nada).
Figura 6. Visor de mapas NCBI para parte del cromosoma 2 de Arabidopsis thaliana.
Laboratorio 1b — BLAST básico (blastn)

Una de las estrategias bioinformáticas más importantes utilizadas para la anotación
funcional de genes y genomas es predecir la función de genes o proteínas no caracterizados
en base a
su similitud con secuencias con mejores anotaciones funcionales. BLAST es quizás la
herramienta más importante para encontrar secuencias de bases de datos que sean
similares a una consulta de interés.
Recuadro 4. BLAST y Homología

La Herramienta Básica de Alineación y Búsqueda Local (BLAST) es un enfoque muy
poderoso para identificar secuencias de bases de datos que comparten similitud local con
una secuencia de consulta (consulte las definiciones a continuación). Hay una cadena muy
importante de supuestos utilizados en el arco de rese biológico que generalmente se sigue
cuando se usa BLAST:
• Los genes homólogos comparten similitud de secuencia
• Los genes ortólogos tienen la mayor similitud entre múltiples especies
• Los genes ortólogos probablemente tengan funciones similares
• En consecuencia, las secuencias que son más similares entre
múltiples especies comparten funciones similares.
Tenga en cuenta que es muy importante entender que estas son solo suposiciones, y hay
muchas razones e instancias en las que estas suposiciones resultan ser falsas. Sinduda, son
un punto de partida razonable.
Definiciones:
• Secuencias similares : secuencias que comparten un número significativo de
residuos (nucleótidos o aminoácidos). Las secuencias pueden ser similares debido a
la homología o simplemente por casualidad. Cuanto mayor sea la similitud entre las
secuencias, más probable es que sean homólogas.
• Secuencias homólogas: secuencias que se relacionan a través de la ascendencia
común. La homología es cualitativa: dos secuencias están o no relacionadas a través
de la ascendencia común. Las secuencias homólogas pueden variar mucho en su
nivel de similitud
– del 100% al 0%.
• Secuencias ortólogas: secuencias que se relacionan a través de un evento de
especiación pasado. Se supone que las secuencias ortólogas comparten
funciones comunes.
• Secuencias parálogas : secuencias que están relacionadas a través de un evento de
duplicación de genes pasado. Los genes a menudo divergen en función después de
la duplicación; por lo tanto, no se supone que las secuencias parálogas compartan
una función común.
• Secuencia de consultas: su secuencia; la secuencia sobre la que está interesado
en encontrar más.
• Par de segmentos de alta puntuación (HSP): 'visitas' a la base de datos. Una
coincidencia de subsecuencia entre la secuencia de consulta y una secuencia
de base de datos devuelta por BLAST.
• Alineación local : una alineación de secuencia que se extiende solo a través
de una parte de la secuencia.
• Alineación global : una alineación de secuencia que se extiende a lo largo de
toda la secuencia (de extremo a extremo).
1. Primero, necesitamos una secuencia de consulta para la búsqueda. Comencemos con

nuestro gen dado nuevamente, pero esta vez usaremos su secuencia de nucleótidos
correspondiente , no su secuencia de proteínas. Primero intente encontrar la secuencia de
ADN del gen usando GQuery nuevamente.
• En la página Buscar en el portal de bases de datos ncbi (GQuery) (todas las bases de
datos), vuelva a buscar la secuencia de proteínas dada utilizando el número de acceso o
IG (o, alternativamente, vuelva a la casilla
búsqueda que guardaste en tu cuenta de NCBI). Usando la proteína de la primera parte de
este laboratorio, buscaríamos NP_001318308.
 La primera página que aparece es la página de resumen. Una vez que esté en esta
página, puede pasar a la base de datos de interés. En este caso, probablemente no
tenga visitas en demasiadas bases de datos ya que tuvo una búsqueda muy
específica.
Figura 7. Se ha consultado el portal GQuery para NP_001318308 (vista parcial).
• Intente hacer clic en el enlace Gen. ¿La página de genes le da la secuencia de genes
sola? ¿Qué obtienes en su lugar? Tenga en cuenta los menús de enlace específicos del
contexto que aparecen cuando pasa el cursor sobre el gráfico del gen con el puntero del
mouse. Puede hacer clic en el icono en el pop
menú para obtener enlaces a varias secuencias y análisis asociados con el gen. Tenga en
cuenta que la pista verde es un compuesto de las pistas de ARNm y CDS: haga clic en el
número NM_ o NP_ para ver la deconvolución de la pista verde (Figura 8).
Figura 8. Parte de la página Gene para NP_001318308, que muestra ventanas emergentes para
secuenciar enlaces.
• Haga clic en el enlace de ARNm (NM_001336190 – la "M" en el número de acceso denota

ARNm – puede notar que este registro es idéntico al registro "RefSeq" al que accedió de
una manera diferente en el Paso 10 de la primera parte del laboratorio) y seleccione
GenBank View ( es posible que deba desplazarse hacia la derecha para acceder a este
enlace; ver Figura 8). Esto te lleva al ARNm que codifica la proteína que has estado mirando.
Observe la lista de características en el registro. Una característica en el registro de GenBank
es el gen, y corresponde a la posición base1 – 1949 en este registro. Otra característica es la
secuencia de codificación (CDS), que corresponde a la posición base 33 – 1781.
a. Dados tus conocimientos de biología, ¿por qué crees que estos son diferentes?
Porque son totalmente diferentes, se trata de ADNr y el otro es un aminoacido.
□ En la ventana emergente de la página Gene, haga clic en el enlace Nucleótido

[NC_003071.7 (12368220.. 12370420)], y seleccione GenBank View. Esto te lleva a la región
genómica que codifica el ARNm que acabas de mirar. Observe cómo la característica del gen
corresponde a positions 1 – 2201, mientras que la característica de ARNm corresponde a las
posiciones 1 a 1296, 1383 a 1832, 1916 a 2032 y 2116 a 2201, y la característica CDS
corresponde a las posiciones 169 a 1296, 1383 a 1832, 1916 a 2032, y de 2116 a 2169.
b. Una vez más, ¿por qué son diferentes? Consejo: recordemos el Dogma Central de la Biología
Molecular.
A pesar del tamaño que posea el gen, existen regiones codificantes como nucleótidos, y a pesar de que
ambos se encuentran en el gen, estos no son lo mismo.
Figura 9. Registro de GenBank para NM_128442 ARNm (registro incompleto).
 Devolvamos el registro de ARNm con el que estábamos trabajando anteriormente

(NM_001336190). Haga clic en el enlace CDS. Ahora está mirando la información
para la secuencia codificante, a diferencia de todo el gen o proteína (resaltado en
marrón).
 Usando la opción "Mostrar: FASTA" en la barra gris en la parte inferior de la página,
genere una versión con formato FASTA del CDS.
 Ahora tiene la secuencia en el formato más básico y fácil de administrar: el formato
FASTA. El formato FASTA es simplemente una línea de encabezado que
comienzacon una '>' seguida de texto que describe la secuencia, y luego la
secuencia real que comienza en la siguiente línea. La secuencia puede ser DE ADN o
proteína, y puede ser continua (desplazándose fuera de la página), o cortada en
longitudes más manejables que generalmente oscilan entre 60-80 residuos.
• Figura 10. Secuencia en formato de texto FASTA.
2. Hagamos un poco de BLASTing. Utilice el vínculo Ejecutar BLAST en la parte "Analizar esta
secuencia" de la página web. [O abra una nueva pestaña o ventana en su navegador y
vuelva a la página de inicio de NCBI (www.ncbi.nlm.nih.gov), luego seleccione BLAST en el
menú desplegable Recursos en la parte superior, en la subsección DNA &RNA ].
Hay muchas opciones aquí. Discutiremos algunos de estos próximos laboratorios, pero
ahora mismo trabajemos con los más simples. Queremos hacer una explosión de
nucleótidos.
• En la página BLAST, tenga en cuenta que en la sección Introducir secuencia de
consulta, el sistema NCBI ha introducido automáticamente el número de acceso (pero
también puede introducir un número gi o secuencia FASTA). También puede copiar y
pegar la secuencia de ARNm de FASTA formatted que encontró en el paso anterior en el
cuadro de consulta.
Figura 11. La página de consulta blastn , con la optimización para "Secuencias algo
similares" seleccionada.
• Escanee las secciones de la página. Tiene bastante control sobre cómo se ejecuta el
algoritmo (especialmente si hace clic en Parámetros del algoritmo cerca de la parte
inferior.
• Queremos consultar la base de datos completa del NCBI; el sistema de enlace NCBI
ha cambiado automáticamente la base de datos predeterminada (que es Humana) a
Otra y Colección de nucleótidos (nr/nt) porque nuestra secuencia no es humana. La
base de datos nr es la colección no redundante de secuencias en GenBank.
• Cambie el programa seleccionado / optimizado para a Secuencias algo
similar (blastn).
• Tenga en cuenta todos los pequeños iconos de signos de interrogación alrededor de
la página. Haga clic en cualquiera de ellos para obtener más información sobre el
parámetro asociado. Por ejemplo, al hacer clic en el signo de interrogación en la
sección Selección de programas, se obtiene un resumen muy breve de los diferentes
métodos. Al hacer clic en más, salta a una nueva página con documentación
completa para los algoritmos.
a. ¿Cuándo querrías usar megaBLAST? ¿Qué pasa con el megaBLAST discontinuo? (si
tiene tiempo, pruebe cada uno y vea cómo difieren sus resultados).
El megaBlast lo utilizamos cuando queremos indentificar unas secuencias que son semejantes una con la otra; en
cuento al discontinuos megaBlast lo usamos para hacer comparaciones, principalmente cuando tenemos organismos
diferentes.
Figura 12. Parámetros del algoritmo para blastn.
• Abra los parámetros del algoritmo cerca de la parte inferior.

¿Cuál es el umbral de espera?
¿Qué pasaría si lo disminuyeras? ¿Lo aumentó?

Si la importancia estadística atribuida a una coincidencia es mayor que el umbral esperado, la
coincidencia no se notificará. Los umbrales de expectativa más bajos son más estrictos, por lo que se
notifican menos coincidencias fortuitas.
¿Cuál sería el efecto de aumentar el tamaño de la palabra?

Considero que al aumentar el tamaño se podría cubrir un poca más de diversidad.
¿Por qué hay un filtro de regiones de baja complejidad? ¿Deberíamos mantenerlo?

El filtro es para tener un control en los resultados que son relevantes aunque no interesantes para la
búsqueda realizada.
• Asegúrese de que la secuencia de consultas se ha introducido en el cuadro de

entrada y marque la casilla situada junto a Mostrar resultados en una nueva
ventana cerca del botón BLAST. Ahora (finalmente) haga clic en el botón BLAST .
• Mientras BLAST se está ejecutando o después de que se complete la búsqueda,
puede optar por ajustar el formato de los resultados de la búsqueda haciendo clic
en el enlace Opciones de formato. No haremos esto en este momento, ya que los
valores predeterminados generalmente funcionan bien.
Recuadro 5. ¿Qué tan bueno es mi éxito?

La calidad de un BLAST HSP se cuantifica de varias maneras diferentes. Es importante que entiendas las
diferencias entre estas métricas y utilices la adecuada.
Identidad: la medida en que dos secuencias son invariantes. Una medida muy pobreno tiene en
cuenta las sutilezas de las relaciones de secuencia (por ejemplo, una pequeña región de un
dominio altamente conservado dentro de dos secuencias que de otro modo están muy mal
conservadas).
Puntuación de bits: la puntuación de alineación (S). Una medida muy precisa que se normaliza
sobre el sistema de puntuación particular empleado. Sufre de la desventaja de depender de la
longitud de la consulta.
Valor E – el valor esperado. Un valor de probabilidad quese basa en el número de alineaciones
diferentes con puntuaciones al menos tan buenas como las observadas, que se espera que ocurran
simplemente por casualidad. Cuanto menor sea el valor E, más significativa será la puntuación. Esta
es, con mucho, la mejor métrica para usar, ya que los resultados de diferentes búsquedas en la
misma base de datos se pueden comparar fácilmente. Tenga en cuenta que el valor de E depende
del tamaño de la base de datos (n) y de la longitud de la secuencia de consultas (m). La misma
secuencia buscada en diferentes bases de datos que contienen secuencias de aciertos idénticas
daría lugar a que se informaran diferentes valores de E.
-S
E = mn2
Entraremos en mayor detalle sobre este cálculo en la clase de la próxima semana .
3. La página Resultados se divide en secciones. En la parte superior está el resumen del

trabajo, que simplemente muestra detalles sobre su consulta y la base de datos buscada.
Puede encontrar más detalles sobre su búsqueda haciendo clic en Resumen de búsqueda.
• ¿Cuántas secuencias hay en la base de datos nr?
500273971
• ¿Qué secuencias no se incluyen en la base de datos nr? (Pregunta engañosa:

¡esta informaciónestá realmente disponible haciendo clic en el signo de
interrogación junto a la opción Base de datos en la página de entrada!)
Figura 13. Resumen de búsqueda de salida de Blastn.
• El siguiente es el resumen gráfico. Desplácese con el ratón sobre las barras de colores.
 ¿Qué significan las barras de colores?
Identifican las coincidencias que presentó.
• ¿Cómo funciona el código de colores?
• ¿Qué información se muestra en el cuadro cerca de la parte superior del resumen gráfico?
• ¿Qué notas sobre los valores de significación a medida que avanzas en el

resumen gráfico?
• ¿Cuál es el género y la especie del top (mejor) hit?

• ¿Qué sucede si hace clic en una de las entradas?
Figura 14. Resumen gráfico de salida de Blastn.
• La sección Descripciones es la siguiente, enumerando:

• Descripción
• Puntuación máxima: la puntuación de bits de alineación
• Puntuación total : otra puntuación de bits de alineación que puede diferir de la
puntuación máxima si la consulta coincide con una sola entrada de base de
datos en varias regiones.
• Cobertura de consultas: qué porcentaje de la consulta tenía similitud con el golpe de la base
de datos.
• Valor electrónico: probablemente la mejor medida de la calidad del golpe. Los
números más pequeños significan mejores éxitos, siendo 0.0 el mejor valor
posible.
• Identidad : la identidad más alta encontrada entre la consulta y HSP.
• Adhesión– vinculada a la secuencia indicada en el NCBI
• ¿Cuántas coincidencias de secuencia se enumeran para esta secuencia de consulta? 100
• ¿Cómo se ordenan? (puede ordenar estos segmentos de otras maneras, como por
identidad, puntuación y posición de inicio de consulta ).
Se ordenan depediendo de distintas opciones, eso queda a opción del
investigador.
• ¿Qué sucede si hace clic en el enlace directo adhesión?
Se abre una página de la secuencia elegida.
• ¿Qué sucede si hace clic en el enlace directo Alineaciones?

Presenta una gráfica completa con todas las secuencias.
Figura 15. Descripciones de salida de Blastn
• Finalmente, llegamos a las alineaciones HSP reales.

• Compare la información presentada para la primera alineación de HSP con la
primera entrada en el resumen gráfico y el resumen de HSP.
• A medida que se desplaza hacia abajo en las alineaciones, verá que la calidad de la
alineación disminuye, es decir, el valor electrónico aumenta.
l. ¿Qué hacen las barras verticales ( | )representar entre la consulta y el Sbjct
(secuencia de base de datos)?
m. ¿Qué significa Strand=Plus/Plus, Strand=Plus/Minus? Sugerencia: ¿los genes están

siempre en la misma dirección en un pedazo de ADN cromosómico?
• Vuelva a la parte superior de la página y haga clic en Opciones de formato. Cambie la

vista de alineación a Ancla de consulta con puntos para identidades. Haga clic en
Cambiar el formato y puntúe hasta la sección alineación de HSP.
n. Describa la diferencia entre este formato y el formato anterior. ¿Te imaginas casos en
los que los diferentes formatos puedan ser más útiles?
o. Juega con las opciones de formato se para tener una idea de lo que significan.
• Devuelva el formato al formato original de Pairwise. Vuelve al resumen gráfico. Si hay
segmentos de baja puntuación (es decir, bloques codificados en verde o azul), haga clic en
uno.
• ¿Cuál es su valor E?
• ¿Tiene un alto porcentaje de identidad? Si es así, ¿por qué BLAST le daría un valor
E tan pobre?
• ¿Crees que estos éxitos son homólogos? ¿Por qué o por qué no?
Figura 16. Alineaciones de ouput voladas.

Sesión de Laboratorio No 2.

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Sesión de Laboratorio No 2.

Cargado por

Copyright:

Formatos disponibles

Sesión de laboratorio No 2.

[Software necesario: acceso web]

El Centro Nacional de Información Biotecnológica (NCBI) mantenido por la Biblioteca

1. Abra su navegador web y vaya a la página de inicio de NCBI: www.ncbi.nlm.nih.gov.

Figura 1. La página de inicio del NCBI.

• palabra clave del gen [PROT] Y organismo [ORGN]

es una búsqueda muy diferente a la

SMC Y levadura [ORGN] O Arabidopsis [ORGN]

Por último, siempre ponga en mayúsculas los operadores booleanos como

AND/OR/NOT. En definitiva, los factores de búsqueda más específicos que puede

utilizar son los números gi o de acceso.

Recuadro 1. Números de acceso, números de versión y números DE IG

Un número GI (GenInfo Identifier – a veces escrito en minúsculas, "gi") es simplemente una

Recuadro 2. Ayuda de NCBI

está tan inclinado a adquirir su información de esa manera).

Figura 3. Registro de GenBank para la adhesión NP_001318308, en formato GenPept.

• ¿Cuál es el linaje taxonómico de su organismo?

• ¿Se ha secuenciado el genoma de este organismo, es decir, existe un Proyecto Genoma?

7. Vuelva al registro de GenBank y haga clic en el enlace CDS, justo encima de la

8. Vuelva al registro de GenBank y examine la sección Información relacionada en la

9. Seleccione Gen en el menú Información relacionada. Este es un gran recurso de inicio

• ¿Tiene algún dominio conservado (desplácese hacia abajo hasta la sección

Laboratorio 1b — BLAST básico (blastn)

Recuadro 4. BLAST y Homología

1. Primero, necesitamos una secuencia de consulta para la búsqueda. Comencemos con

Figura 7. Se ha consultado el portal GQuery para NP_001318308 (vista parcial).

• Haga clic en el enlace de ARNm (NM_001336190 – la "M" en el número de acceso denota

□ En la ventana emergente de la página Gene, haga clic en el enlace Nucleótido

 Devolvamos el registro de ARNm con el que estábamos trabajando anteriormente

Figura 12. Parámetros del algoritmo para blastn.

• Abra los parámetros del algoritmo cerca de la parte inferior.

¿Qué pasaría si lo disminuyeras? ¿Lo aumentó?

¿Cuál sería el efecto de aumentar el tamaño de la palabra?

¿Por qué hay un filtro de regiones de baja complejidad? ¿Deberíamos mantenerlo?

• Asegúrese de que la secuencia de consultas se ha introducido en el cuadro de

Recuadro 5. ¿Qué tan bueno es mi éxito?

Entraremos en mayor detalle sobre este cálculo en la clase de la próxima semana .

3. La página Resultados se divide en secciones. En la parte superior está el resumen del

• ¿Qué secuencias no se incluyen en la base de datos nr? (Pregunta engañosa:

Figura 13. Resumen de búsqueda de salida de Blastn.

• ¿Cómo funciona el código de colores?

• ¿Qué notas sobre los valores de significación a medida que avanzas en el

• ¿Cuál es el género y la especie del top (mejor) hit?

Figura 14. Resumen gráfico de salida de Blastn.

• La sección Descripciones es la siguiente, enumerando:

• ¿Qué sucede si hace clic en el enlace directo Alineaciones?

• Finalmente, llegamos a las alineaciones HSP reales.

m. ¿Qué significa Strand=Plus/Plus, Strand=Plus/Minus? Sugerencia: ¿los genes están

• Vuelva a la parte superior de la página y haga clic en Opciones de formato. Cambie la

Figura 16. Alineaciones de ouput voladas.

También podría gustarte