Está en la página 1de 15

TP Nº2: Alineamiento de secuencias

Objetivos
Este trabajo tuvo como propósito familiarizarse con las técnicas de alineamiento de secuencias, con
especial atención al alineamiento de secuencias proteicas, utilizando el servicio on-line BLAST para
realizarlo. Adicionalmente, fue objeto de este trabajo la interpretación de los resultados obtenidos
al alinear dos o más secuencias mediante este servicio, así como el análisis de cada uno de los
valores registrados en el alineamiento. Para realizar los objetivos previamente descritos, fue
necesario comprender el funcionamiento del algoritmo asociado al motor de búsqueda y los
parámetros del mismo que pueden modificarse para obtener búsquedas más relevantes para el
usuario.

Resultados
I) Comparación de secuencias usando BLAST
1- Obtenga del NCBI las secuencias de las Mioglobinas humana y de pez cebra ( Danio rerio ) en
formato FASTA ¿Qué caracteriza al formato FASTA?

Mioglobina humana: en protein myoglobin AND human[Organism]


>gi|44955888|ref|NP_976312.1| myoglobin [Homo sapiens]
MGLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASEDLKKHGATVLTAL
GGILKKKGHHEAEIKPLAQSHATKHKIPVKYLEFISECIIQVLQSKHPGDFGADAQGAMNKALELFRKDMASNYK
ELGFQG

Mioglobina de pez cebra: en protein myoglobin AND danio rerio[Organism]


>gi|41053652|ref|NP_956880.1| myoglobin [Danio rerio]
MADHDLVLKCWGAVEADYAANGGEVLNRLFKEYPDTLKLFPKFSGISQGDLAGSPAVAAHGATVLKKLGELLKA
KGDHAALLKPLANTHANIHKVALNNFRLITEVLVKVMAEKAGLDAAGQGALRRVMDAVIGDIDGYYKEIGFAG

El formato FASTA es una forma de anotación de una secuencia (nucleotídica o aminoacídica) en la


cual cada elemento de la secuencia se representa con una letra. Para secuencias de proteínas, cada
aminoácido de la secuencia estará representado por su letra correspondiente. Una secuencia en
formato FASTA comienza con una descripción de una sola línea, seguida de líneas de datos de
secuencia. La línea de descripción se distingue de los datos de secuencia por el símbolo ">" al
principio. No se permiten líneas en blanco en el medio de la entrada FASTA. Se espera que las
secuencias estén representadas en los códigos estándar de aminoácidos y ácidos nucleicos IUB /
IUPAC.

2- La flecha B señala unas pestañas que dirigen a distintos tipos de alineamientos BLAST: blastn,
blastp, blastx, tblastn y tblastx. El programa elegido depende del tipo de secuencias a comparar.
¿Qué opciones de programas hay y para qué tipo de comparaciones sirven?

-Blastn : Busca una secuencia nucleotídica en una base de datos de nucleótidos. Sirve para comparar
secuencias nucleotídicas entre sí y comparar genes homólogos y parálogos.
-Blastp: Busca una secuencia aminoacídica en una base de datos de proteínas. Sirve para comparar
secuencias proteicas entre sí y buscar proteínas homólogas.
-Blastx: Traduce una secuencia nucleotídica considerando los posibles productos de traducción de
los 6 posibles marcos de lectura (3 de esa secuencia y 3 de la de la hebra complementaria) y busca
estos productos en una base de datos de proteínas. Permite buscar proteínas putativas que estén
codificadas en una secuencia nucleotídica.
-Tblastn: Busca en una base de datos de nucleótidos traducidos en los 6 marcos de lectura posibles
(3 de esa secuencia y 3 de la de la hebra complementaria), utilizando como query la secuencia una
proteína. Permite buscar posibles locus de genomas que codifiquen para una proteína determinada.
-Tblastx : Busca en una base de datos de nucleótidos traducidos en los 6 marcos de lectura posibles
utilizando como query una secuencia nucleotídica a la que traduce a los 6 marcos de lectura
posibles. Puede utilizarse para encontrar secuencias nucleotídicas homólogas o parálogas de genes
hayan acumulado mutaciones sinónimas o para proteínas similares debido a una divergencia
evolutiva pero que codifiquen para secuencias aminoacídicas similares.

3- Pegue en cada cuadro (“ Query sequence ” y “ Subject sequence ”) la secuencia en formato


FASTA de las mioglobinas humana y de pez. Desplegando la opción “ Algorithm parameters ”
puede verificar los parámetros para el alineamiento. Deje los valores por defecto con la Matriz
BLOSUM62. ¿Qué otras Matrices hay disponibles? ¿Conoce sus diferencias?

Las otras matrices de sustitución que aparecen son PAM 30, 70 y 250 respectivamente y BLOSUM
80,65, 45, 50,90 respectivamente.
Las BLOSUM (BLOck SUbstitution Matrix ) son matrices derivadas de alineamientos locales de
secuencias distantes. Para secuencias más cercanas evolutivamente se utiliza numeración alta
mientras que para secuencias divergentes se utiliza más baja numeración. El número que acompaña
a BLOSUM indica el porcentaje máximo de indentidad de las proteínas que fueron utilizadas para
elaborar esta matriz.
Las PAM (Percent Accepted Mutation) son matrices derivadas de alineamientos globales de
secuencias próximas. Para secuencias más cercanas evolutivamente se utiliza numeración baja
mientras que para secuencias divergentes evolutivamente se utiliza más alta numeración. La matriz
PAM 1 en la matriz calculada a partir de la comparación de secuencias con no más del 1% de
divergencia entre sí (es decir con el 99% de identidad de secuencia) y las demás matrices son
extrapoladas a partir de PAM 1. De este modo, mayores números a continuación de “PAM” indican
mayor divergencia evolutiva.

4. Analice los valores de “gap costs” (existence y extensión). ¿Qué particularidad tienen? ¿A qué
se debe?

En general, la existencia de un GAP (o apertura) es “más costosa” que su extensión. Esto se debe a
que evolutivamente, es más probable que se produzca una inserción o deleción (que, a lo largo de
la historia, continúe acumulando cambios respecto de la secuencia original), a que se produzcan
varias inserciones en una misma secuencia. Para tener en cuenta este proceso evolutivo, se penaliza
más la apertura de un GAP que su extensión. Las inserciones y deleciones, generalmente se dan en
regiones de loops expuestos al solvente que toleran mas este tipo de cambios evolutivos que
regiones internas estructurales o regiones con estructura secundaria definida.

5- Analice el dot-plot ¿Le parece que el alineamiento es local o global? Justifique

Es un alineamiento local, ya que el alineamiento no abarca la totalidad de ambas secuencias. El


alineamiento comienza a partir de la posición 5 para la secuencia de la mioglobina del pez cebra y
del aminoácido 9 para la secuencia de la mioglobina del humano.

6- ¿Se observan gaps en el dot-plot ? ¿Cuantos? ¿Cómo se identifican?

A continuación, se muestra el gráfico obtenido del dot-blot:

Se observan 2 Gaps en el dot plot que corresponden con 2 deleciones en la secuencia de la


mioglobina del pez cebra o inserciones en la secuencia de la mioglobina humana.
Se identifican como discontinuidades en la línea de alineamiento graficada (señaladas en rojo)

7- Analice el resultado del alineamiento en general tomando en cuenta los valores obtenidos de
“ Score ”, “ E value ”, “ Identities ”, “ Positives ” y “ Gaps ”.

“ Score ”=115 bits (289)


“ E value ”=8e-39
“ Identities ”=63/146 (43%)
“ Positives ”=88/146(60%)
“ Gaps ”=3/146 (2%)
El alineamiento se llevó a cabo tomando 146 aminoácidos comprendidos entre los aminoácidos 9-
154 de la mioglobina humana y 5-147 de la mioglobina del pez cebra. El score (S) se calculó con la
matriz de sustitución BLOSUM 62 obteniendo un score de 115 bits. El Evalue ( expect value ) nos
dice que es esperable encontrar 8e-39 alineamientos con el mismo S en esta base de datos si las
secuencias de la base de datos fueran aleatorias. Dado que el valor es muy bajo, se concluye que el
alineamiento es bueno ya que resultaría muy improbable encontrar ese resultado simplemente por
azar. El valor de Identities representa el porcentaje de aminoácidos conservados entre ambas
secuencias. En este caso, podemos observar que, de los 146 aminoácidos comparados en este
alineamiento, 63 alinean en la misma posición y son exactamente los mismos, representando un
43% de identidad entre secuencias. Positive nos indica los valores positivos en la matriz de
sustitución, es decir que las secuencias poseen un 60% de similitud siendo que presentan 88
aminoácidos similares (63 idénticos + 25 aminoácidos sustituidos de forma conservada,
presentando características bioquímicas similares). En Gaps observamos la cantidad de espacios
introducidas en la secuencia para mejorar el alineamiento. En ese caso fueron 3 para compensar lo
que pueden ser inserciones en la mioglobina humana o deleciones en la mioglobina del pez cebra.

8- Sabiendo que los aminoácidos número 30, 40, 43, 44, 65, 68, 93, 94, 105, 108 y 139 de la
secuencia de humanos están involucrados en la unión del hemo ¿Qué puede decir de su
conservación en pez cebra? Se sabe además que la histidina 98 es la que une al hemo ¿Está
conservada? ¿Y la histidina 83?

Para analizar el nivel de conservación de los aminoácidos específicos mencionados, se utilizó la


herramienta gráfica del alineamiento utilizando la secuencia de la mioglobina como secuencia
query. En el gráfico del alineamiento (figura 2) se puede buscar específicamente la posición de un
aminoácido y evaluar el grado de conservación de forma visual, siendo representado como una línea
gris los alineamientos que conservan la identidad aminoacídica, en rojo los mismatches y una línea
para los “gaps”.

Los aminoácidos 30, 40, 44, 65, 68, 94 y 108 se encuentran conservados. También se
encuentran conservados los aminoácidos histidina que son fundamentales para la unión del grupo
hemo (posición 93 de la secuencia de la mioglobina de Homo sapiens) y la histidina en posición 83,
posiblemente por cumplir funciones biológicas importantes.
El aminoácido en posición 43 es una Lisina en Homo sapiens que cambia a una leucina en pez
zebra. Este cambio es sorpresivo porque implica la pérdida de una carga. El aminoácido en posición
93 es una serina en humanos, que cambia a treonina en pez zebra. En este caso ambos aminoácidos
contienen residuos alcohol (primario en el caso de la serina y secundario en el caso de la treonina).
El aminoácido en posición 105 es una leucina en humanos que cambia a fenilalanina en pez zebra.
Este cambio es sorpresivo porque la fenilalanina posee un grupo aromático que podría resultar
mucho más voluminoso que el residuo de la leucina, aunque ambos residuos son no polares.
Finalmente, la posición 139 en humanos corresponde a una fenilalanina que varía a valina en pez
zebra; corresponde la misma observación realizada para la posición 105. La tabla 1 muestra un
resumen de lo observado para cada aminoácido.

Tabla 1: Conservación de los aminoácidos del sitio activo de la hemoglobina. La tabla muestra una lista de los aminoácidos
del sitio activo de la hemoglobina, su estado de conservación y el cambio observado si el mismo no se encuentra
conservado.

En resumen, 9 de estos 13 aminoácidos (69%) se conservan en el alineamiento, lo que quiere


decir que tienen un mayor porcentaje de identidad que el total de esta secuencia que es de 43.15%.
Por otro lado, las histidina 98 y 83 están conservadas, lo que tiene sentido considerando que son las
que cumplen la función biológica más crítica de esta proteína (interactuar con el grupo hemo).

9- Pruebe como varían los resultados del alineamiento anterior modificando los siguientes
parámetros:
a) Utilizando la Matriz Blosum-80
b) Utilizando un costo de Gap existence y Gap extension: 11:2
c) Utilizando un costo de Gap existence y Gap extension: 9:1
¿Qué cambios se observan para cada caso? Interprete los resultados en base a lo que sabe sobre
las diferencias entre las matrices de sustitución. Analice si existen diferencias en los alineamientos
y cambios en los valores de Score (raw Alignment score) “puntaje crudo del alineamiento” que
figura entre paréntesis

La tabla 2 muestra un resumen de los parámetros obtenidos para la comparación de las secuencias
de la mioglobina humana y de pez zebra cuando se alteran las matrices de sustitución o puntuación
(BLOSUM, PAM) o cuándo se modifica el puntaje asignado a la apertura y progresión de un Gap.
Tabla 2: Resumen de los valores obtenidos para el alineamiento de la secuencia de mioglobina humana y de pez zebra. Se
muestra la matriz utilizada, el puntaje otorgado a la apertura y extensión de los gaps y los resultados de Bit Score, Score
crudo, e-value, %Identidad, %Positividad y %Gaps obtenidos.

En todos los casos se observa el mismo tipo de alineamiento. En este ejemplo, no se


encontraron diferencias significativas en el alineamiento de ambas secuencias a pesar de los
cambios producidos en el sistema de puntaje. Hubo si algunas variaciones en los valores del scrore
crudo.
Utilizando BLOSUM80 se detectan valores de identidad, positividad y gaps, idénticos que
cuando se utiliza BLOSUM62. El Score crudo del alineamiento principal es más bajo cuando se utiliza
BLOSUM80 a comparación de BLOSUM62; esto ocurre debido a una mayor penalización (menor
puntaje) para los mismatchs en la matriz BLOSUM80 que en la BLOSUM62. Esto es una menor
tolerancia a los cambios en BLOSUM80 que en BLOSUM62.
Utilizando BLOSUM62 pero modificando el puntaje asignado a los Gaps de 11:1 a 11:2, se
observa una disminución del Score crudo debido a el gap observado es mas penalizado. El efecto
contrario se observa cuando se cambia la penalidad de gap de 11:1 a 9:1.
Los valores comparativos de e-value y bit score no son tan fáciles de evaluar cuando se cambia
de matriz o se altera de alguna manera el sistema de puntaje, porque también varían los valores de
los parámetros K y en las ecuaciones que relacionan el valor de score crudo con los valores de esos
parámetros.

10- Busque en NCBI las secuencias de dos proteínas que usted crea homólogas y estén
relacionadas con su trabajo. Compárelas usando Bl2seq y analice los resultados generales del
alineamiento. A partir de los resultados obtenidos ¿le parece que son homólogas?

Para realizar la búsqueda, decidí elegir la proteína Aldehído deshidrogenasa isoforma mitocondrial
(ALDH2) humana como “secuencia sujeto” y comparar a ella la secuencia de la proteína que contiene
dominio aldehído deshidrogenasa (Alh-2) de Caenorhabditis elegans, que se sospecha es ortóloga
de la proteína humana. Los códigos de acceso son NP_000681.2 y NP_503467.2 respectivamente.
La búsqueda se realizó utilizando un BLASTp de las secuencias obtenidas de NCBI en formato FASTA,
utilizando como matriz de sustitución la matriz BLOSUM62, con un puntaje de exclusión/extensión
de Gaps de 11:1.
Figura 3: Alineamiento de las secuencias ALDH2 (Homo sapiens, eje de ordenadas) y Alh-2 (Caenorhabditis elegans, eje de
abscisas).

Como puede verse en la figura 3, las proteínas son muy similares a lo largo de toda su secuencia, a
excepción de un alineamiento que ocurre entre la mitad de la secuencia de C.elegans y el principio
de la secuencia de H. sapiens. Este alineamiento es curioso, porque esa región corresponde, en
humanos, a la secuencia de señalización de transporte a mitocondria, que no se encuentra en la
proteína madura. Independientemente de ello, el alineamiento posee un alto score (682) y un e-
value muy bajo (0). Las secuencias poseen un 66% de identidad y un 82% de similitud entre ellas,
con ausencia de Gaps en la secuencia. Dado su alto grado de identidad y similitud, la ausencia de
Gaps y el alto score obtenido, considero que estas secuencias son efectivamente homólogas entre
sí.

II) Utilización de BLAST para la búsqueda en bases de datos


Búsqueda de proteínas homólogas a la Mioglobina (Mb) en humanos.
1. Al observar los resultados notarán que hay muchos resultados repetidos o inútiles (la Mb
aparece muchas veces y muchas proteínas aparecen cada vez que fueron cristalizadas) ¿Cómo
mejoraría la búsqueda para obtener realmente solo aquellas homólogas a la Mb una sola vez?

Para mejorar la búsqueda podría cambiarse la base de datos utilizada para el alineamiento por una
base de datos que no tenga redundancia. Se repitió la búsqueda utilizando como base de datos
RefSeq Proteins. Si bien ambas basdes de datos se clasifican como no redundantes, el criterio de
redundancia en más exigente en Ref-seq, por lo que se depura la lista de resultados repetidos.
2- Describa brevemente cada una de las proteínas homólogas encontrada. Compare los E-values,
los scores y los alineamientos obtenidos.

A continuación, se analiza el resultado obtenido con la base de datos RefSeq. Según puntaje de score
el primer resultado obtenido (señalado en rojo en la figura 4) fue la mioglobina humana con una
identidad del 100%, score 312 y un E value de 7e-111. Luego, le siguió la citoglobina con score 73.6,
E value e-16 y porcentaje de identidad de 28.67 y distintas subunidades de la hemoglobina (zeta,
theta, gamma, Alpha, épsilon y mu) con scores entre 71.6 y 48, E values entre 5e-16 y 3e-07 y
porcentaje de identidad de 28.19% y 27.61%. También se observa la isoforma X2 de la citoglobina
con score de 48.1, E values entre 4e-07 y porcentaje de identidad 29.70%. Luego hay un grupo de
proteínas como la raf guanina y la GTP-asa, que si bien dan scores y porcentajes de identidad
aceptables, tienen E-values muy altos y por lo tanto son resultados poco confiables.

3- ¿Cuál es la globina humana más parecida a la Mioglobina? ¿Le sorprende alguno de los
resultados? ¿Usted cree que encontró todas las proteínas de la familia de las globinas que existen
en el genoma humano?

La globina humana más parecida a la mioglobina es la citoglobina. Con este método no


encontramos todas las globinas en el genoma humano, sino sólo aquellas cuya secuencia
aminoacídica es mas similar a la que se introdujo como query .

4- De hecho, no encontró la cadena β de la hemoglobina ni la ya famosa Neuroglobina ¿Por qué


cree que no las ha encontrado?

No se han encontrado todas las globinas porque, si bien emparentadas, pueden ser muy
divergentes y por lo tanto presentar un porcentaje de identidad bajo que las dejó fuera de los
resultados de la búsqueda. Homología no implica alta similitud, sino ancestro común. La similitud
estará dada por el grado de divergencia para esos casos.
En la búsqueda faltan parálogos que están muy alejados en la escala evolutiva, que tienen bajo
% de identidad de secuencia con la mioglobina y que con la matriz utilizada obtienen un score de
alineamiento con la mioglobina humana por debajo del umbral. Se podría rehacer la búsqueda con
un Blosum más bajo para encontrar homólogos más lejanos o bajando el número de words.
5- Intente encontrar la mayor cantidad de globinas existentes en el genoma humano modificando
los parámetros de búsqueda de BLASTp (matriz, costo de gaps, word size, etc.). Indique que
parámetros modifico y que nuevas proteínas encontró significativamente parecidas a la
mioglobina.

La mayor cantidad de resultados (23) se obtuvieron con los siguientes parámetros de


búsqueda: Gap Cost= 9:1, BLOSUM62, word size: 2. Es decir se optó por una matriz intermedia, una
penalidad de gap baja y un word size pequeño que permite una mayor sensibilidad de búsqueda.

III) Usando PSI-BLAST


1- Analice los resultados obtenidos. Revise que el programa elija las proteínas correctas (las que
usted ya encontró) para la próxima iteración y corra una segunda iteración de PSI-BLAST.
Se obtienen dos ventanas de resultados, que dividen los alineamientos obtenidos en aquellos con
un e-value que supera el valor umbral (y que, por lo tanto, no se utilizarán para las siguientes
iteraciones) y secuencias cuyo e-value estaba por debajo del valor umbral. En general, las proteínas
con e-values menores al umbral contenían la mayoría de las subunidades de la hemoglobina
(incluyendo subunidades epsilon, alfa, mu, theta, gamma, zeta), y 3 isoformas de la citoglobina.

Luego del primer paso, se seleccionaron las secuencias para armar la PSSM y correr la 2da
itteracion.

2- ¿Qué nuevas proteínas aparecen? ¿Por qué? ¿Cómo funciona PSI-BLAST? Analice los resultados
y compare con los anteriores.

Luego de la 2da iteración se observa en la imagen de abajo, ahora aparecen listadas la


neuroglobina, y las subunidades δ y β de la hemoglobina.
El PSI-Blast es un método de alineamiento que permite identificar homólogos muy distantes
evolutivamente y que funciona iterativamente. Primero, realiza un BLAST convencional y construye
una matriz de sustitución sitio específica (PSSM). En la siguiente ronda, utiliza la PSSM como matriz
de score para realizar la comparación de la secuencia query con secuencias de la base de datos.
Estos nuevos resultados se usan para refinar la PSSM, que, a diferencia de una matriz de sustitución
como BLOSUM, para determinar score tiene en cuenta el grado de conservación de la posición
específica de los aminoácidos en la secuencia, dando idea de la distancia evolutiva de las secuencias
encontradas. La PSSM es específica para la búsqueda y por lo tanto la familia utilizada. Con esta
iteración, además de encontrar nuevas proteínas, los E-values de las anteriores disminuyeron y sus
scores subieron.

3- Realice una comparación de la Neuroglobina con la Mioglobina usando Bl2seq . ¿Por qué cree
que no la detectó en la primera iteración?

Al realizar el BLAST entre la mioglobina y la neuroglobina, los valores correspondientes al


alineamiento (score, query cover, E value , e identidad) son muy bajos, lo cual explica que no
apareciera anteriormente.

4- Realice los siguientes ejercicios usando BLAST.


a) Busque la presencia de proteínas homólogas a la Mb en algún: pez, planta, hongo, bacteria u
otro organismo raro. Si no encuentra nada al principio intente usar PSI-BLAST.
La búsqueda con BLAST en Danio rerio, Arabidospsis thaliana, Trichoderma reesei y Bacillus subtilis,
en la base de datos Uniprot usando una matriz BLOSUM45, Gap open:9, extensión:1 y Word size 2
dio como resultado:

Danio rerio:

Se hallaron algunas globinas homologas a las descriptas en humanos:


myoglobin, cytoglobin-1 y 2, hemoglobin subunit alpha , beta 1 y 2

Arabidospsis thaliana: No significant match

Trichoderma reesei: No significant match

Bacillus subtilis: No significant match

Luego se construyó una PSSM con PSI-BLAST usando mioglobina humana como target, filtrando por
organismo humano (de la misma manera que se realizó durante el TP, 2 rounds), y se usó esta PSSM
para buscar en los mismos organismos anteriores. Los resultados fueron los siguientes:

Luego se construyó una PSSM con PSI-BLAST usando mioglobina humana como target, con los
mismos parámetros de búsqueda que en el caso anterior (Word size, Matriz, penalidad de gap) y sin
filtrar por organismo, 3 rounds, usando la base de datos “Model organisms” para darle variabilidad
al muestreo de especies en la construcción de la PSSM y evitar quedarme con los 500 hits mas
relevantes que involucrarían secuencias de especies cercanas en la escala evolutiva. Posteriormente
se usó esta PSSM para buscar en la base de datos Uniprot filtrando por los mismos organismos que
en la sección anterior. Los resultados fueron los siguientes:

Danio rerio:

Además de las proteínas anteriores, encontró la neuroglobina del pez.


Arabidospsis thaliana:

Encuentra dos tipos de hemoglobinas en esta planta.

Trichoderma reesei:

Encuentra una proteína pero con bajo coverage

Bacillus subtilis:

Encuentra una flavohemoglobina

b) Busque la secuencia de ADN/ARN de la Mioglobina humana usando “tblastn”. ¿Qué resultados


obtuvo? Interprételos.
La busqueda en Refseq_Genomes da el siguiente resultado:

Al clickear en el primer resultado (query coverage 100% e Identidad 96,2%) correspondiente a la


secuencia nucleotídica traducida del cromosoma 22 obtengo:
Este resultado muestra alineamientos locales con los exones del gen de la mioglobina humana.
Puedo acceder a la secuencia nucleotídica correspondiente haciendo click en el link de GenBank

Si hacemos el mismo análisis sobre la base de datos RefSeq_rna, obtenemos:


Los resultados muestran distintos transcriptos del gen de la mioglobina. Los 7 primeros tienen un
coverage e identidad de 100% respecto al query. Al acceder al alineamiento del transcripto y el
registro del Genbank, puedo acceder a la secuencia nucleotídica de la región codificante:

Todos los transcriptos contienen la misma región codificante, pero tienen extensiones de distinta
longitud. Secuencia nucleotídica de la región codificante:
ATGGGGCTCAGCGACGGGGAATGGCAGTTGGTGCTGAACGTCTGGGGGAAGGTGGAGGCTGACATCCCAGGCCATGGGCAG
GAAGTCCTCATCAGGCTCTTTAAGGGTCACCCAGAGACTCTGGAGAAGTTTGACAAGTTCAAGCACCTGAAGTCAGAGGAC
GAGATGAAGGCGTCTGAGGACTTAAAGAAGCATGGTGCCACCGTGCTCACCGCCCTGGGTGGCATCCTTAAGAAGAAGGGG
CATCATGAGGCAGAGATTAAGCCCCTGGCACAGTCGCATGCCACCAAGCACAAGATCCCCGTGAAGTACCTGGAGTTCATC
TCGGAATGCATCATCCAGGTTCTGCAGAGCAAGCATCCCGGGGACTTTGGTGCTGATGCCCAGGGGGCCATGAACAAGGCC
CTGGAGCTGTTCCGGAAGGACATGGCCTCCAACTACAAGGAGCTGGGCTTCCAGGGC

c) Use la secuencia del gen de la Mb (secuencia de ADN) para buscar los homólogos en el genoma
humano usando blastn y blastx ¿Qué resultados se obtienen en cada caso? La idea acá es que
comparen los resultados que obtienen cuando BLAST busca similitudes usando una secuencia
nucleotídica vs BD nucleotídica, o cuando usa una secuencia nucleotídica traducida vs BD
nucleotídica traducida. ¿Hay diferencias? ¿Porque?

Al hacer blastn usando la base de datos refseq_genomes y filtrando por organismo humano, me da
un solo resultado correspondiente al gen de la mioglobina en el cromosoma 22.
Sin embargo, al hacer blastx usando la base de datos Refseq_proteins y filtrando por organismo
humano me da como resultado registros de mioglobina y citoglobina

Esto se debe a que las secuencias nucleotídicas tienen mayor variabilidad que las proteicas por la
variedad de codones que codifican para un mismo residuo. Por eso un algoritmo que traduce la
secuencia nucleotídica a aminoácidos y compara con una base de datos proteicas es capaz de
encontrar hits significativos con mas proteínas homologas. En este caso, se ve manifestado en el
hallazgo de mioglobina junto a citoglobina al usar blastx.

d) Busque una proteína de su interés en Entrez, obtenga la secuencia en formato FASTA, realice
una búsqueda en bases de datos usando BLAST y analice los resultados. Informen la secuencia de
la proteína que utilizaron, indicando como obtuvieron su secuencia. Usen esta secuencia para
hacer BLAST, indicando el tipo de BLAST y la base de datos que usaron. Si usaron algún filtro
también indíquenlo. Luego copien la imagen del resultado e indiquen observaciones que le llamen
la atención. Por ejemplo, a que otras proteínas se parece, de que organismos provienen, que
función tienen, cual es el grado de similitud, cual es la cobertura (global o una región más chica)
etc. Cuales serían resultados significativos y cuáles no. No se espera que hagan un análisis
completo, pero si que analicen algo de esta información que les da BLAST.

También podría gustarte