Está en la página 1de 16

Unidad 2 - Fase 3

Actividad práctica - Bases de Datos de secuencias biológicas.

Presentado por:

Sayuri Daviana Ortiz Diaz – 1.094.275.727

Juan Camilo Rodriguez Chaparro – 1.117.528.985

Grupo: 358128_2

Tutora:

Olga Lorena Cortez Ceballos

Universidad Nacional Abierta a Distancia (UNAD)

Escuela de Ciencias Agrícolas Pecuarias y del Medio Ambiente

Introducción a la Bioinformática

Octubre de 2022
1. Ingresar a la base de datos UniProt (Universal Protein)
https://www.uniprot.org/ y realizar la búsqueda de información relacionada al
gen/proteína de interés identificado en la Fase 2, para esto usar el nombre del
gen/proteína en la sección de búsqueda de la base de datos, tal como se muestra
en la siguiente figura.

Los genes seleccionados para continuar en la presente fase son los genes: mosA, mosB.

MosA; es una enzima de Sinorhizobium meliloti L5-30, una bacteria beneficiosa del suelo
que forma una relación simbiótica con las plantas leguminosas. ( Departamento de
Química, Universidad de Saskatchewan.)

Figura 1. Resultados Uniprot gen MOSA

MosB; Subunidad beta de la proteína de almacenamiento de molibdeno (Max-Planck-


Institut für Biophysik,)

GEN MOS B

Figura 2. Resultados Uniprot gen MOSB


2. Ir a la sección “secuencias” e ingresar en “FASTA” para obtener la secuencia
del gen/proteína de interés.
MosA; >sp|P84308|MOSA_AZOVD Molybdenum storage protein subunit alpha OS=Azotobacter
vinelandii (strain DJ / ATCC BAA-1303) OX=322710 GN=mosA PE=1 SV=2
MTDTTNSIKHVISPLARQTLQDRDLTRPVAGKRPIRLLPWLQVVKIGGRVMDRGADAILP
LVEELRKLLPEHRLLILTGAGVRARHVFSVGLDLGLPVGSLAPLAASEAGQNGHILAAML
ASEGVSYVEHPTVADQLAIHLSATRAVVGSAFPPYHHHEFPGSRIPPHRADTGAFLLADA
FGAAGLTIVENVDGIYTADPNGPDRGQARFLPETSATDLAKSEGPLPVDRALLDVMATAR
HIERVQVVNGLVPGRLTAALRGEHVGTLIRTGVRPA

MosB; >sp|P84253|MOSB_AZOVD Molybdenum storage protein subunit beta OS=Azotobacter


vinelandii (strain DJ / ATCC BAA-1303) OX=322710 GN=mosB PE=1 SV=2
MANSTAELEELLMQRSLTDPQLQAAAAAAADFRILPDATVIKIGGQSVIDRGRAAVYPLV
DEIVAARKNHKLLIGTGAGTRARHLYSIAAGLGLPAGVLAQLGSSVADQNAAMLGQLLAK
HGIPVVGGAGLSAVPLSLAEVNAVVFSGMPPYKLWMRPAAEGVIPPYRTDAGCFLLAEQF
GCKQMIFVKDEDGLYTANPKTSKDATFIPRISVDEMKAKGLHDSILEFPVLDLLQSAQHV
REVQVVNGLVPGNLTRALAGEHVGTIITAS

3. Usar un archivo de texto plano para almacenar y guardar la secuencia en


formato fasta. Este archivo deberá ser entregado en conjunto con el informe.

Figura 3,4. Archivo de texto plano den Gen MosA, MosB.

4. Identificar sí su secuencia corresponde a una secuencia de ácidos nucleicos o


de aminoácidos. Incluya esta información en su informe.
Como podemos observar en los caracteres arrojados en el formato FASTA, de la
secuencias de la proteína MOSTO, arrojo una serie de aminoácidos; Una secuencia de
aminoácidos es la cadena de aminoácidos de un péptido o una proteína. Por lo tanto, los
aminoácidos son los componentes básicos de las proteínas. Un nucleótido es la pieza básica
de los ácidos nucleicos. El ARN y el ADN son polímeros formados por largas cadenas de
nucleótidos. Un nucleótido está formado por una molécula de azúcar (ribosa en el ARN o
desoxirribosa en el ADN) unido a un grupo fosfato y una base nitrogenada. Las bases
utilizadas en el ADN son la adenina (A), citosina (C), guanina (G) y timina (T). En el ARN,
la base uracilo (U) ocupa el lugar de la timina. (Lawrence B. )

Figura 5 : Evolución molecular: el reloj de la vida.

La evolución molecular estudia cómo cambian las moléculas a lo largo del tiempo
evolutivo. Esta evolución es observable como cambios de nucleótidos en el ADN y como
cambios de aminoácidos en las proteínas codificadas. (Montserrat Aguadé, 2000)
Figura 6. Valores de pKa para los distintos grupos ionizables de los 20 alfa-aminoácidos
que forman las proteínas y punto isoeléctrico. ( Samanthi U. 2019 ).
5. Ingresar al proveedor de servicios del Centro Nacional para la información
Biotecnológica (National Center for Biotechnology Information) NCBI, utilizar
la herramienta BLAST para identificar su secuencia problema.

Figura 7. Pagina del National Center for Biotechnology Information

6. Investigar qué es Blast, qué tipo de variantes se encuentran disponibles en el


NCBI, y cómo funciona cada una. Incluya esta información en el informe.
A medida que crecían las bases de datos de secuencias de genes y proteínas a fines del siglo
XX, los científicos recurrieron a las computadoras para ayudar a analizar esta abundante y
creciente cantidad de datos. Hoy en día, una de las herramientas más comunes usadas para
examinar secuencias de ADN y proteínas es la herramienta de búsqueda de alineación local
básica, también conocida como BLAST (Altschul et al ., 1990). BLAST es un algoritmo
informático que está disponible para su uso en línea en el sitio web del Centro Nacional de
Información Biotecnológica (NCBI) , así como en muchos otros sitios. BLAST puede
alinear y comparar rápidamente una secuencia de ADN de consulta con una base de datos
de secuencias, lo que la convierte en una herramienta crítica en la investigación genómica
en curso. Lobo, I. (2008)

Desde 1990, se han desarrollado muchas variantes de BLAST, cada una con funciones
especializadas. Al principio, el BLAST original se dividió en dos adaptaciones: NCBI
BLAST y Washington University BLAST (WU BLAST). Ambos BLAST tienen
variaciones de programa. Por ejemplo, BLASTN puede usarse para comparar una secuencia
de nucleótidos con una base de datos de nucleótidos; BLASTP se puede utilizar para
comparar una secuencia de proteínas con una base de datos de secuencias de proteínas; y
BLASTX puede tomar una secuencia de nucleótidos, traducirla y compararla con una base
de datos de proteínas en un solo paso (Gish & States, 1993). TBLASTN compara una
secuencia de consulta de proteínas con los seis marcos de lectura posibles de una base de
datos y, a menudo, se usa para identificar proteínas en genomas nuevos no descritos.
Para utilizar BLAST en el servidor del NCBI:
a) Ir a la dirección http://blast.ncbi.nlm.nih.gov/Blast.cgi
b) De acuerdo, a la naturaleza de su secuencia, seleccionar la variante del programa que se
va a utilizar (BLASTN, BLASTP…)
c) Introducir la secuencia problema.
d) Seleccionar la base de datos
e) Ajustar diversos parámetros de la búsqueda
f) ¡BLAST!

Figura 8,9. Plataforma BLAST(P) analisis de alineamiento de secuencias Mosto.

7. Una vez arrojados los resultados de la búsqueda, abrir la nueva página de


resultados de búsqueda de BLAST.
8. Descargue el documento suministrado por NCBI: ¿how to read this report?, Como
apoyo para la interpretación del análisis de resultados obtenidos.
https://ftp.ncbi.nlm.nih.gov/pub/factsheets/HowTo_BLAST_NewResultPage.pdf
9. Abrir la secuencia de alineamiento más significativa a través de GenBank
Comparacion de mosA con secuencias de proteina a proteina.
Figura 10,11. Plataforma BLAST(P) Comparacion de secuencias de proteina a proteina.

Figura 12. Plataforma BLAST(P) alineamientos.

Teniendo en cuenta el resultado obtenido en BLAST; podemos determinar que la secuencia


que se ha planteado presenta un porcentaje de cobertura del 100% y una identidad del
100% con el primer alineamiento que arrojo el BLAST, por lo tanto, se puede afirmar con
un 100% de confianza que la secuencia problema corresponde a Chain A, Molybdenum
storage protein subunit alpha [Azotobacter vinelandii DJ] “la subunidad alfa de la proteina
de almacenamiento de molibdeno de Azotobacter vinelandii DJ” esta confianza del 100%
se puede afirmar debido a que el E value es de 0,0.
Al comparar la secuencia mosA con una secuencia perteneciente a otro microorganismo
diferente a A. vinelandii; ejemplo: molybdenum storage protein subunit alpha [Azotobacter
beijerinckii] se puede observar que el porcentaje de cobertura de la secuencia es de 98%,
esto se debe a que el Query presenta 276 aminoacidos mientras que el Sbjct comparado
solo cuenta con 273 aminoacidos por lo tanto no cubre el 100% de la secuencia. Ademas, el
porcentaje de identidad entre estas dos secuencias es aun menor 90,07 %, por lo que se
puede concluir que existen varios aminoacidos diferentes entre estas 2 secuencias, la primer
diferencia se encuentra en la posicion 3 donde el Query tiene una serina (T) y el Sbjct
presenta una treonina (T). El E value para esta comparacion es de 3e-163; por lo que se
puede afirmar con mas del 99% de confianza que la secuencia comparada no es una
secuencia al azar.
Comparacion de mosB con secuencias de proteina a proteina.

Figura 13,14. Plataforma BLAST(P) secuencias de proteina a proteina.

Teniendo en cuenta el resultado obtenido en BLAST podemos determinar que la secuencia


que hemos subido a BLAST presenta un porcentaje de cobertura del 100% y una identidad
del 100% con el primer alineamiento que arrojo el BLAST, por lo tanto, se puede afirmar
con mas del 99% de confianza que la secuencia Query corresponde a Molybdenum storage
protein subunit beta [Azotobacter vinelandii] “la subunidad beta de la proteina de
almacenamiento de molibdeno de Azotobacter vinelandii” esta afirmacion se puede realizar
debido a que el E value es de 1e-176.

Figura 15. Plataforma BLAST(P) alineamiento de secuencias MosB.

Con el fin de determinar la similitud de la secuencia mosB con secuencias de otros


microorganismos se realiza la comparación de la secuencia problema (mosB Azotobacter
vinelandii) con la secuencia uridine kinase [Azotobacter beijerinckii]; se puede observar
que el porcentaje de cobertura es del 100% lo que significa que uridine kinase presenta 270
aminoácidos al igual que mosB. Sin embargo, estas dos secuencias solo presentan 94% de
aminoácidos idénticos, la primera diferencia se encuentra en la posición 2 de la secuencia
donde el Query tiene alanina (A) mientras que el Sbjct tiene treonina (T). Teniendo en
cuenta el E valor de 1e-166 se puede afirmar con mas del 99% de confianza que la secuencia
comparada no es una secuencia al azar.
Comparacion de mosA con secuencias de proteina a nucleotidos.

Figura 16,17. Plataforma BLAST(P) alineamiento de secuencias proteina a nucleotidos.

Según los resultados obtenidos en el BLAST al comparar mosA con bases de datos de
nucleótidos se puede determinar que la secuencia de nucleótidos más alineada con nuestro
Query; se encuentra en el genoma de Azotobacter vinelandii CA6, DJ Y CA, estos 3
genomas presentan el mismo porcentaje de cobertura (100% de cobertura del Query) la
secuencia Query presenta el 94, 93% de identidad con el genoma de A. vinelandii por lo
que se puede concluir que estas 2 secuencias son idénticas casi un 95% y que solo el 5,07%
de los nucleótidos es diferente. La probabilidad de que la secuencia Query haya sido
comparada al azar con el Sbjct (genoma de Azotobacter vinelandii) es de 1e- 161.

Figura 18. Plataforma BLAST(P) alineamiento de secuencias MosB.


Figura 19,20. Plataforma BLAST(P) alineamiento de secuencias MosB.

Al comparar el alineamiento de la secuencia Query con el gen mosA ubicado en el locus


005095.1del genoma de Azotobacter vinelandii se puede observar que existen algunos
aminoácidos que pueden ser codificados por mas de un codón, este factor hace que la
identidad de las 2 secuencias solo sea del 94,93%. Como ejemplo de los aminoácidos
degenerados en la secuencia Query se puede mostrar el aminoácido glicina (G) el cual es
codificado por 4 codones GGG, GGC, GGT, GGA. Ubicado en la posición 4,362,591 del
genoma de A. vinelandii y en la posición 814 del gen mosA.

Figura 21. Plataforma BLAST(P) Comparacion de mosB con secuencias de proteina a nucleotido

Figura 22. Plataforma BLAST(P) alineamiento de secuencias MosB.


Teniendo en cuenta el resultado obtenido en BLAST, al comparar la secuencia de
aminoácidos de mosB con secuencias de nucleótidos se puede observar que el primer
resultado corresponde al genoma de Azotobacter vinelandii el cual presenta un porcentaje
de cobertura del 100%; es decir, que el 100% de nucleótidos que codifican para mosB se
encuentran en el genoma de A. vinelandii. Sin embargo, el porcentaje de identidad es del
91,85% por lo que se puede concluir que hay diferencias en los nucleótidos de estas
secuencias comparadas.

Figura 23. Plataforma BLAST(P) alineamiento de secuencias MosB

Figura 24,25. Plataforma BLAST(P) alineamiento de secuencias MosB.

Teniendo en cuenta el alineamiento de mosB comparado al genoma de Azotobacter


vinelandii se puede observar que el gen mosB ubicado en el locus 005095.1del genoma de
Azotobacter vinelandii CA6 solo es idéntico en un 91,85% a la subunidad beta de la
proteína de almacenamiento de molibdeno; debido a que algunos aminoácidos pueden
formarse por más de un codón lo que causa que haya varias opciones para un mismo
aminoácido. El último aminoácido degenerado en la secuencia es isoleucina (I) el cual
puede formarse por 3 codones distintos (ATT, ATC, ATA). Esta variabilidad de opciones
hace que la identidad del gen mosB y la subunidad beta de la proteína de almacenamiento
de molibdeno no sea del 100%.
10. Debajo de la secuencia graficada encontrará un listado de resultados de
alineamientos. Explicar qué significa “Max Score”, “Total Score”, ¿“Query Cover” y
“E value”?
Max score: la puntuación de alineación de la mejor coincidencia entre el Query y la
Referencia
Total score: la suma de las puntaciones de todas las coincidencias en la base de datos.
Query cover: el porcentaje de la secuencia del Query que cubre la alineación con la
Referencia
E-value: el valor esperado que se calcula a partir de la puntuación máxima (es decir, se
esperaría ver esta alineación por razones aleatorias con una frecuencia del valor indicado)
11. Seleccione los 2 alineamientos más significativos (con base en el porcentaje de
identidad) pero que correspondan a géneros de organismos diferentes, según las
descripciones, además del correspondiente al organismo seleccionado en principio,
para un total de 3 selecciones. Haga clic en “Distance tree of results Tree”
mosA

mosB
12. Describa sus impresiones del árbol de distancias evolutivas. ¿Existen o no similitudes
entre los 3 géneros seleccionados? ¿Por qué? Soporte sus respuestas con fuentes
documentales de acuerdo con las normas APA.
Según Revilla (2012) un arbol filogenetico es una representacion esquematica de entidades
biologicas que estan emparetadas o relacionadas geneticamente por un ancestro en comun.
por lo tanto los arboles filogeneticos se crean a partir de datos moleculares tales como
ADN, ARN o proteinas. Para los procariotas como el caso de Azotobacter vinelandii o
mejor aun de la proteinas MoSTo, encontramos que la subunidad alfa de la proteína de
almacenamiento de molibdeno, es una proteína conservada en las otras especies
seleccionadas, comparte un ancestro comun que las relaciona directamente con A.
beijerinckii y con A. chroococcum; considerandose como lineas hermanas, aunque
interpretando el arbol filogenetico estas dos especies (A. beijerinckii y con A. chroococcum)
estan mas emparentadas entre sí que alguna de ellas con A. Vinelandi, debido a que
presentan una rama divergente de mayor cercania entre ellas por lo que se puede interpretar
que su filogenia presenta menos cambios en la secuencia comparada con la secuencia de A.
vinelandii. En cuanto a Azomonas macrocytogenes; aunque conserva la proteina de
almacenamiento de molibdeno gracias a que comparte un ancestro comun con el genero
Azotobacter, su secuecia difiere mucho de las otras especies comparadas por lo que su
ancestro comun esta emparentado mas lejanamente a los otros taxones debido a que
presentó mutaciones que llevo a las separación de estas bacterias mucho antes que las
mutaciones presentadas por los generos Azotobacter de ahí que su ramificación permita
enraizar el árbol.
Para la elaboracion del arbol filogenetico de la subunidad beta de la proteína de
almacenamiento de molibdeno se tomaron generos diferentes de organismos con fin de
analizar su parentesco. Por lo tanto; aunque esta secuencia de aminoacidos es conservada
en otras especies; como era de esperarse se observan mayores distancias en la relacion
genetica de estas especies. A. vinelandii comparte un ancestro común cercano con
Azomonas agilis siendo este el organismo mas emparentado con A. vinelandii. En una
raminificación intermedia se puede observar como estos organimos presentan un
emparentamiento mas lejano con Magnetospirillum sp.; su relacion genetica presenta una
separacion de especies que ocurrio antes que se separaran Azomonas agilis y A. vinelandii
sin embargo, Azomonas agilis y A. vinelandii tienen el mismo nivel de parentesco con
Magnetospirillum sp. En el caso de Methylomonas sp. permite enraizar el arbol y según
Revilla (2012) se le denomina “outgroup” ya que se encuentra emparentado mas
lejanamente a los otros taxones y señala el nodo o ancestro mas primitivo compartido por
todos (la raiz).
13. Explique qué es el NCBI, cómo se nutren las bases de datos que contiene y explique
cuál es su utilidad y cite un par de ejemplos.
NCBI; Según Quiceno, V. H. A. (2006). Es parte de la Biblioteca Nacional de Medicina de
Estados Unidos, una rama de los Institutos Nacionales de Salud. Desarrolla y mantiene
bases de datos moleculares y bibliográficas como parte de la Biblioteca Nacional de
Medicina (NLM). No generan sus propios datos, pero sí:
 Recibir envíos de datos de los investigadores
 Desarrollar software para buscar y analizar estos datos.
 Proporcionar un punto de acceso web para los datos y el software.
El Centro Nacional para la Información en Biotecnología NCBI (del ingles National Center
for Biotechnology Information) depende de la Librería Nacional de Medicina NLM (del
ingles National Library of Medicine) y el Instituto Nacional de Salud NIH (del ingles
National Institutes of Health) coordina junto al Instituto de Bioinformática Europeo EBI
(del ingles European Bioinformatics Institute) y el Banco de Datos de DNA de Japón DDBJ
(del ingles DNA Data Bank of Japan) el mantenimiento sincronizado de las principales
bases de datos de interés biológico. Al igual que el EBI, el NCBI también dispone de un
sistema de consulta de las bases de datos que mantiene, en este caso basado en Entrez
(http://www.ncbi.nlm.nih.gov/Entrez/). Entrez permite consultar no solo bases de datos sino
también la biblioteca digital del NCBI, que incluye un número creciente de libros entre los
cuales figuran textos de referencia reconocidos internacionalmente. Quiceno, V. H. A.
(2006).

Básicamente, los sistemas informáticos que se emplean en estos campos son:

• Bases de datos (Información Científica)


• Software para visualización de aplicaciones
• Programas para control de reactivos, geles y otros materiales
• Generación y ensamblaje de secuencias
• Programas para análisis de secuencias, Alineación de secuencias.
• Programas para predicción de estructura de proteínas
• Paquetes de integración y ensamblaje de mapas genéticos
• Software para clasificación y comparación
• Técnicas de Inteligencia Artificial
• Gestión de datos
• Bases de datos locales o accesibles mediante redes de comunicaciones.
• Literatura médica y científica unida a las secuencias.
• Distribución de datos
• Redes de comunicaciones
• Aplicaciones
• Gestión de datos en el laboratorio
• Automatización de experimentos
• Ensamblaje de secuencias contiguas
• Predicción de dominios funcionales en secuencias génicas
• Búsquedas en las bases de datos de estructuras
• Predicción de genes
15. Realizar un video-tutorial de manera individual grabando la pantalla de la computadora,
realizando el paso a paso del procedimiento realizado en la práctica, explicando los
resultados obtenidos en la identificación de la secuencia problema a través de BLAST y
GenBank, súbelo a youtube y copie el enlace en el informe a entregar (Deben incluir los
enlaces a los videos de todos los integrantes del grupo. En el video debe verse por lo menos
una vez al estudiante.

Link del video- Juan Camilo Rodríguez- Código: 1117528985

https://youtu.be/BxyAnna-aNg
Referencias Bibliográficas

 Montserrat Aguadé. Dep. de Genètica. Universitat de Barcelona.


Mètode 28, Invierno 2000/01.
 Samanthi Udayangani. 2019. Difference Between Base Sequence and Amino Acid
Sequence
 Lawrence B. Nucleótido/NHGRI - National Human Genome Research Institute.
Recuperado de https://www.genome.gov/es/genetics-glossary/Nucleotido
 Lobo, I. (2008) Herramienta básica de búsqueda de alineación local (BLAST).
Naturaleza Educación 1( 1 ) :215
 Quiceno, V. H. A. (2006). Bio-informática un Campo por conocer. REDVET.
Revista Electrónica de Veterinaria, 7(11), 1-9.
 Mendoza-Revilla, Javier. (2012). Aportes de la filogenética a la investigación
médica. Revista Médica Herediana, 23(2), 119-127. Recuperado en 30 de mayo de
2022, de http://www.scielo.org.pe/scielo.php?script=sci_arttext&pid=S1018-
130X2012000200008&lng=es&tlng=es.
 O'Malley MA. 2012. When integration fails: Prokaryote phylogeny and the tree of
life. Stud Hist Philos Biol Biomed Sci. 2012 Nov 5. pii: S1369-8486(12)00110-0.
doi: 10.1016/j.shpsc.2012.10.003.
 Henz, Stefan R. et al 2004. Whole-genome prokaryotic phylogeny. Oxford Journals
Life Sciences & Mathematics & Physical Sciences Bioinformatics Volume 21, Issue
10Pp. 2329-2335.
 Battistuzzi & Hedges 2009. The Timetree of Life. II Eubacteria. Oxford Universty
Press. NY.

También podría gustarte