Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Objetivos
Este trabajo tuvo como propósito familiarizarse con las técnicas de alineamiento de secuencias, con
especial atención al alineamiento de secuencias proteicas, utilizando el servicio on-line BLAST para
realizarlo. Adicionalmente, fue objeto de este trabajo la interpretación de los resultados obtenidos
al alinear dos o más secuencias mediante este servicio, así como el análisis de cada uno de los
valores registrados en el alineamiento. Para realizar los objetivos previamente descritos, fue
necesario comprender el funcionamiento del algoritmo asociado al motor de búsqueda y los
parámetros del mismo que pueden modificarse para obtener búsquedas más relevantes para el
usuario.
Resultados
I) Comparación de secuencias usando BLAST
1- Obtenga del NCBI las secuencias de las Mioglobinas humana y de pez cebra ( Danio rerio ) en
formato FASTA ¿Qué caracteriza al formato FASTA?
2- La flecha B señala unas pestañas que dirigen a distintos tipos de alineamientos BLAST: blastn,
blastp, blastx, tblastn y tblastx. El programa elegido depende del tipo de secuencias a comparar.
¿Qué opciones de programas hay y para qué tipo de comparaciones sirven?
-Blastn : Busca una secuencia nucleotídica en una base de datos de nucleótidos. Sirve para comparar
secuencias nucleotídicas entre sí y comparar genes homólogos y parálogos.
-Blastp: Busca una secuencia aminoacídica en una base de datos de proteínas. Sirve para comparar
secuencias proteicas entre sí y buscar proteínas homólogas.
-Blastx: Traduce una secuencia nucleotídica considerando los posibles productos de traducción de
los 6 posibles marcos de lectura (3 de esa secuencia y 3 de la de la hebra complementaria) y busca
estos productos en una base de datos de proteínas. Permite buscar proteínas putativas que estén
codificadas en una secuencia nucleotídica.
-Tblastn: Busca en una base de datos de nucleótidos traducidos en los 6 marcos de lectura posibles
(3 de esa secuencia y 3 de la de la hebra complementaria), utilizando como query la secuencia una
proteína. Permite buscar posibles locus de genomas que codifiquen para una proteína determinada.
-Tblastx : Busca en una base de datos de nucleótidos traducidos en los 6 marcos de lectura posibles
utilizando como query una secuencia nucleotídica a la que traduce a los 6 marcos de lectura
posibles. Puede utilizarse para encontrar secuencias nucleotídicas homólogas o parálogas de genes
hayan acumulado mutaciones sinónimas o para proteínas similares debido a una divergencia
evolutiva pero que codifiquen para secuencias aminoacídicas similares.
Las otras matrices de sustitución que aparecen son PAM 30, 70 y 250 respectivamente y BLOSUM
80,65, 45, 50,90 respectivamente.
Las BLOSUM (BLOck SUbstitution Matrix ) son matrices derivadas de alineamientos locales de
secuencias distantes. Para secuencias más cercanas evolutivamente se utiliza numeración alta
mientras que para secuencias divergentes se utiliza más baja numeración. El número que acompaña
a BLOSUM indica el porcentaje máximo de indentidad de las proteínas que fueron utilizadas para
elaborar esta matriz.
Las PAM (Percent Accepted Mutation) son matrices derivadas de alineamientos globales de
secuencias próximas. Para secuencias más cercanas evolutivamente se utiliza numeración baja
mientras que para secuencias divergentes evolutivamente se utiliza más alta numeración. La matriz
PAM 1 en la matriz calculada a partir de la comparación de secuencias con no más del 1% de
divergencia entre sí (es decir con el 99% de identidad de secuencia) y las demás matrices son
extrapoladas a partir de PAM 1. De este modo, mayores números a continuación de “PAM” indican
mayor divergencia evolutiva.
4. Analice los valores de “gap costs” (existence y extensión). ¿Qué particularidad tienen? ¿A qué
se debe?
En general, la existencia de un GAP (o apertura) es “más costosa” que su extensión. Esto se debe a
que evolutivamente, es más probable que se produzca una inserción o deleción (que, a lo largo de
la historia, continúe acumulando cambios respecto de la secuencia original), a que se produzcan
varias inserciones en una misma secuencia. Para tener en cuenta este proceso evolutivo, se penaliza
más la apertura de un GAP que su extensión. Las inserciones y deleciones, generalmente se dan en
regiones de loops expuestos al solvente que toleran mas este tipo de cambios evolutivos que
regiones internas estructurales o regiones con estructura secundaria definida.
7- Analice el resultado del alineamiento en general tomando en cuenta los valores obtenidos de
“ Score ”, “ E value ”, “ Identities ”, “ Positives ” y “ Gaps ”.
8- Sabiendo que los aminoácidos número 30, 40, 43, 44, 65, 68, 93, 94, 105, 108 y 139 de la
secuencia de humanos están involucrados en la unión del hemo ¿Qué puede decir de su
conservación en pez cebra? Se sabe además que la histidina 98 es la que une al hemo ¿Está
conservada? ¿Y la histidina 83?
Los aminoácidos 30, 40, 44, 65, 68, 94 y 108 se encuentran conservados. También se
encuentran conservados los aminoácidos histidina que son fundamentales para la unión del grupo
hemo (posición 93 de la secuencia de la mioglobina de Homo sapiens) y la histidina en posición 83,
posiblemente por cumplir funciones biológicas importantes.
El aminoácido en posición 43 es una Lisina en Homo sapiens que cambia a una leucina en pez
zebra. Este cambio es sorpresivo porque implica la pérdida de una carga. El aminoácido en posición
93 es una serina en humanos, que cambia a treonina en pez zebra. En este caso ambos aminoácidos
contienen residuos alcohol (primario en el caso de la serina y secundario en el caso de la treonina).
El aminoácido en posición 105 es una leucina en humanos que cambia a fenilalanina en pez zebra.
Este cambio es sorpresivo porque la fenilalanina posee un grupo aromático que podría resultar
mucho más voluminoso que el residuo de la leucina, aunque ambos residuos son no polares.
Finalmente, la posición 139 en humanos corresponde a una fenilalanina que varía a valina en pez
zebra; corresponde la misma observación realizada para la posición 105. La tabla 1 muestra un
resumen de lo observado para cada aminoácido.
Tabla 1: Conservación de los aminoácidos del sitio activo de la hemoglobina. La tabla muestra una lista de los aminoácidos
del sitio activo de la hemoglobina, su estado de conservación y el cambio observado si el mismo no se encuentra
conservado.
9- Pruebe como varían los resultados del alineamiento anterior modificando los siguientes
parámetros:
a) Utilizando la Matriz Blosum-80
b) Utilizando un costo de Gap existence y Gap extension: 11:2
c) Utilizando un costo de Gap existence y Gap extension: 9:1
¿Qué cambios se observan para cada caso? Interprete los resultados en base a lo que sabe sobre
las diferencias entre las matrices de sustitución. Analice si existen diferencias en los alineamientos
y cambios en los valores de Score (raw Alignment score) “puntaje crudo del alineamiento” que
figura entre paréntesis
La tabla 2 muestra un resumen de los parámetros obtenidos para la comparación de las secuencias
de la mioglobina humana y de pez zebra cuando se alteran las matrices de sustitución o puntuación
(BLOSUM, PAM) o cuándo se modifica el puntaje asignado a la apertura y progresión de un Gap.
Tabla 2: Resumen de los valores obtenidos para el alineamiento de la secuencia de mioglobina humana y de pez zebra. Se
muestra la matriz utilizada, el puntaje otorgado a la apertura y extensión de los gaps y los resultados de Bit Score, Score
crudo, e-value, %Identidad, %Positividad y %Gaps obtenidos.
10- Busque en NCBI las secuencias de dos proteínas que usted crea homólogas y estén
relacionadas con su trabajo. Compárelas usando Bl2seq y analice los resultados generales del
alineamiento. A partir de los resultados obtenidos ¿le parece que son homólogas?
Para realizar la búsqueda, decidí elegir la proteína Aldehído deshidrogenasa isoforma mitocondrial
(ALDH2) humana como “secuencia sujeto” y comparar a ella la secuencia de la proteína que contiene
dominio aldehído deshidrogenasa (Alh-2) de Caenorhabditis elegans, que se sospecha es ortóloga
de la proteína humana. Los códigos de acceso son NP_000681.2 y NP_503467.2 respectivamente.
La búsqueda se realizó utilizando un BLASTp de las secuencias obtenidas de NCBI en formato FASTA,
utilizando como matriz de sustitución la matriz BLOSUM62, con un puntaje de exclusión/extensión
de Gaps de 11:1.
Figura 3: Alineamiento de las secuencias ALDH2 (Homo sapiens, eje de ordenadas) y Alh-2 (Caenorhabditis elegans, eje de
abscisas).
Como puede verse en la figura 3, las proteínas son muy similares a lo largo de toda su secuencia, a
excepción de un alineamiento que ocurre entre la mitad de la secuencia de C.elegans y el principio
de la secuencia de H. sapiens. Este alineamiento es curioso, porque esa región corresponde, en
humanos, a la secuencia de señalización de transporte a mitocondria, que no se encuentra en la
proteína madura. Independientemente de ello, el alineamiento posee un alto score (682) y un e-
value muy bajo (0). Las secuencias poseen un 66% de identidad y un 82% de similitud entre ellas,
con ausencia de Gaps en la secuencia. Dado su alto grado de identidad y similitud, la ausencia de
Gaps y el alto score obtenido, considero que estas secuencias son efectivamente homólogas entre
sí.
Para mejorar la búsqueda podría cambiarse la base de datos utilizada para el alineamiento por una
base de datos que no tenga redundancia. Se repitió la búsqueda utilizando como base de datos
RefSeq Proteins. Si bien ambas basdes de datos se clasifican como no redundantes, el criterio de
redundancia en más exigente en Ref-seq, por lo que se depura la lista de resultados repetidos.
2- Describa brevemente cada una de las proteínas homólogas encontrada. Compare los E-values,
los scores y los alineamientos obtenidos.
A continuación, se analiza el resultado obtenido con la base de datos RefSeq. Según puntaje de score
el primer resultado obtenido (señalado en rojo en la figura 4) fue la mioglobina humana con una
identidad del 100%, score 312 y un E value de 7e-111. Luego, le siguió la citoglobina con score 73.6,
E value e-16 y porcentaje de identidad de 28.67 y distintas subunidades de la hemoglobina (zeta,
theta, gamma, Alpha, épsilon y mu) con scores entre 71.6 y 48, E values entre 5e-16 y 3e-07 y
porcentaje de identidad de 28.19% y 27.61%. También se observa la isoforma X2 de la citoglobina
con score de 48.1, E values entre 4e-07 y porcentaje de identidad 29.70%. Luego hay un grupo de
proteínas como la raf guanina y la GTP-asa, que si bien dan scores y porcentajes de identidad
aceptables, tienen E-values muy altos y por lo tanto son resultados poco confiables.
3- ¿Cuál es la globina humana más parecida a la Mioglobina? ¿Le sorprende alguno de los
resultados? ¿Usted cree que encontró todas las proteínas de la familia de las globinas que existen
en el genoma humano?
No se han encontrado todas las globinas porque, si bien emparentadas, pueden ser muy
divergentes y por lo tanto presentar un porcentaje de identidad bajo que las dejó fuera de los
resultados de la búsqueda. Homología no implica alta similitud, sino ancestro común. La similitud
estará dada por el grado de divergencia para esos casos.
En la búsqueda faltan parálogos que están muy alejados en la escala evolutiva, que tienen bajo
% de identidad de secuencia con la mioglobina y que con la matriz utilizada obtienen un score de
alineamiento con la mioglobina humana por debajo del umbral. Se podría rehacer la búsqueda con
un Blosum más bajo para encontrar homólogos más lejanos o bajando el número de words.
5- Intente encontrar la mayor cantidad de globinas existentes en el genoma humano modificando
los parámetros de búsqueda de BLASTp (matriz, costo de gaps, word size, etc.). Indique que
parámetros modifico y que nuevas proteínas encontró significativamente parecidas a la
mioglobina.
Luego del primer paso, se seleccionaron las secuencias para armar la PSSM y correr la 2da
itteracion.
2- ¿Qué nuevas proteínas aparecen? ¿Por qué? ¿Cómo funciona PSI-BLAST? Analice los resultados
y compare con los anteriores.
3- Realice una comparación de la Neuroglobina con la Mioglobina usando Bl2seq . ¿Por qué cree
que no la detectó en la primera iteración?
Danio rerio:
Luego se construyó una PSSM con PSI-BLAST usando mioglobina humana como target, filtrando por
organismo humano (de la misma manera que se realizó durante el TP, 2 rounds), y se usó esta PSSM
para buscar en los mismos organismos anteriores. Los resultados fueron los siguientes:
Luego se construyó una PSSM con PSI-BLAST usando mioglobina humana como target, con los
mismos parámetros de búsqueda que en el caso anterior (Word size, Matriz, penalidad de gap) y sin
filtrar por organismo, 3 rounds, usando la base de datos “Model organisms” para darle variabilidad
al muestreo de especies en la construcción de la PSSM y evitar quedarme con los 500 hits mas
relevantes que involucrarían secuencias de especies cercanas en la escala evolutiva. Posteriormente
se usó esta PSSM para buscar en la base de datos Uniprot filtrando por los mismos organismos que
en la sección anterior. Los resultados fueron los siguientes:
Danio rerio:
Trichoderma reesei:
Bacillus subtilis:
Todos los transcriptos contienen la misma región codificante, pero tienen extensiones de distinta
longitud. Secuencia nucleotídica de la región codificante:
ATGGGGCTCAGCGACGGGGAATGGCAGTTGGTGCTGAACGTCTGGGGGAAGGTGGAGGCTGACATCCCAGGCCATGGGCAG
GAAGTCCTCATCAGGCTCTTTAAGGGTCACCCAGAGACTCTGGAGAAGTTTGACAAGTTCAAGCACCTGAAGTCAGAGGAC
GAGATGAAGGCGTCTGAGGACTTAAAGAAGCATGGTGCCACCGTGCTCACCGCCCTGGGTGGCATCCTTAAGAAGAAGGGG
CATCATGAGGCAGAGATTAAGCCCCTGGCACAGTCGCATGCCACCAAGCACAAGATCCCCGTGAAGTACCTGGAGTTCATC
TCGGAATGCATCATCCAGGTTCTGCAGAGCAAGCATCCCGGGGACTTTGGTGCTGATGCCCAGGGGGCCATGAACAAGGCC
CTGGAGCTGTTCCGGAAGGACATGGCCTCCAACTACAAGGAGCTGGGCTTCCAGGGC
c) Use la secuencia del gen de la Mb (secuencia de ADN) para buscar los homólogos en el genoma
humano usando blastn y blastx ¿Qué resultados se obtienen en cada caso? La idea acá es que
comparen los resultados que obtienen cuando BLAST busca similitudes usando una secuencia
nucleotídica vs BD nucleotídica, o cuando usa una secuencia nucleotídica traducida vs BD
nucleotídica traducida. ¿Hay diferencias? ¿Porque?
Al hacer blastn usando la base de datos refseq_genomes y filtrando por organismo humano, me da
un solo resultado correspondiente al gen de la mioglobina en el cromosoma 22.
Sin embargo, al hacer blastx usando la base de datos Refseq_proteins y filtrando por organismo
humano me da como resultado registros de mioglobina y citoglobina
Esto se debe a que las secuencias nucleotídicas tienen mayor variabilidad que las proteicas por la
variedad de codones que codifican para un mismo residuo. Por eso un algoritmo que traduce la
secuencia nucleotídica a aminoácidos y compara con una base de datos proteicas es capaz de
encontrar hits significativos con mas proteínas homologas. En este caso, se ve manifestado en el
hallazgo de mioglobina junto a citoglobina al usar blastx.
d) Busque una proteína de su interés en Entrez, obtenga la secuencia en formato FASTA, realice
una búsqueda en bases de datos usando BLAST y analice los resultados. Informen la secuencia de
la proteína que utilizaron, indicando como obtuvieron su secuencia. Usen esta secuencia para
hacer BLAST, indicando el tipo de BLAST y la base de datos que usaron. Si usaron algún filtro
también indíquenlo. Luego copien la imagen del resultado e indiquen observaciones que le llamen
la atención. Por ejemplo, a que otras proteínas se parece, de que organismos provienen, que
función tienen, cual es el grado de similitud, cual es la cobertura (global o una región más chica)
etc. Cuales serían resultados significativos y cuáles no. No se espera que hagan un análisis
completo, pero si que analicen algo de esta información que les da BLAST.