Documentos de Académico
Documentos de Profesional
Documentos de Cultura
manejo de software
Clase II
GenBank
Licenciatura en Biotecnología
Universidad Nacional de Moreno
BASES DE DATOS
§ Se puede buscar directamente por nombre (de una proteina, un gen, una especie…)
§ Siempre en inglés
§ También se puede introducir el nombre del autor (o de la persona que ha enviado la
secuencia).
§ Si lo sabemos, podemos buscar por número de acceso/ ID (accession number) de una
secuencia o genoma en particular…
BÚSQUEDAS EN GENBANK
Herramientas
Papers
(PUBMED)
BLAST - ALINEAMIENTO DE SECUENCIAS
§ Las secuencias de ADN (y proteína) definen la función de las proteínas en los seres
vivos.
ü Cuando más similares sean dos secuencias, las funciones de las proteínas codificadas por ellas
tenderán a ser más similares también.
ü Normalmente dos secuencias tienen una alta similitud porque son homólogas, es decir comparten
un ancestro común.
ü A diferencia de la similitud, la homología no es un término cuantitativo, dos secuencias o son
homólogas (derivan del mismo ancestro) o no lo son.
ALINEAMIENTO DE SECUENCIAS
§ Para poder cuantificar el grado de similitud de dos secuencias lo primero que hay que
hacer es alinearlas.
ü Alinear es, probablemente, la herramienta más utilizada en bioinformática.
ü OJO: Siempre que se usa un algoritmo de alineamiento con un par de secuencias se obtiene un
alineamiento, incluso aunque las secuencias estén compuestas por letras al azar.
ü Por lo tanto además de hacer el alineamiento hay que estimar la significación estadística del
mismo.
PUNTACIÓN DE LOS ALINEAMIENTOS
ü Pero… valen igual todos los mismatch?? Qué pasa con los cambios en aminoácidos que tienen
diferentes propiedades (hidrofóbicos, hidrofílicos, ácidos…)?
ü SOLUCIÓN: matrices de sustitución!!!!
PUNTACIÓN DE LOS ALINEAMIENTOS
§ Si tengo dos secuencias de distinto largo… conviene “forzar” a la secuencia más corta
a que cubra la secuencia más larga (introduciendo los gaps que sean necesarios…
Alineamiento global)? O conviene sólo alinear las zonas más parecidas
(Alineamiento local)?
§ Ej: Alinear TAGCTAGTCGTAG Y TACGGGGCTAGCTATCGTAG
MÉTODO DE ALINEAMIENTO DE PARES DE
SECUENCIA – DOT PLOT
https://blast.ncbi.nlm.nih.gov/Blast.cgi
EJEMPLO 1: BLAST DESDE NUESTRA BÚSQUEDA EN GENBANK
(PARA BUSCAR SECUENCIAS RELACIONADAS A FLT4 EN BASES DE DATOS)
Si de toda la secuencia
sólo les interesara una
Acá porción (ej, las primeras
automáticamente 100 bases), pueden
el software pegó el específicarlo aquí,
número de acceso. diciendo que use para el
Pero podrían pegar alineamiento solo las
una secuencia (ej: bases 1-100 de la
FASTA) o subir un secuencia (from 1 to 100)
archivo FASTA.
Acá pueden elegir
sobre qué tipo de
bases de datos hacer
la búsqueda/
alineamiento. Hay
bases primarias y
secundarias (REFSEQ)
Pueden pedir que las búsquedas
las haga solo contra algun/
algunos organismos o especies en
particular (o que NO las haga
sobre alguno en particular)
Arriba los mejores Importantes parámetros:
alineamientos (mayor Verificar porcentaje de
Score, menor Evalue). cobertura (porción de mi
secuencia que se parece
a la reportada por BLAST)
y Porcentaje de
identidad (qué tan
parecidas son, mi
secuencia a la reportada
por BLAST)
Arriba los mejores Importantes parámetros:
alineamientos (mayor Verificar porcentaje de
Score, menor Evalue). cobertura (porción de mi
secuencia que se parece
a la reportada por BLAST)
y Porcentaje de
identidad (qué tan
parecidas son, mi
secuencia a la reportada
por BLAST)
Obviamente (dado que la secuencia es de humanos) los mejores resultados me dan
con HUMANO (Homo Sapiens). Podría querer EXCLUIR humano y buscar esa
secuencia a qué secuencia de OTRAS especies se parece. Para eso uso filtros…
Fíjense que algunos no cubren toda mi
secuencia (aquí es la “query”) à
Alineamiento “LOCAL” (No global)
Este es el ID de la secuencia con la que
BLAST hizo el alineamiento. Si hacemos
click, vamos a la página de GenBank de
dicha secuencia =)
ACGGTTAGTAACATGGCCGAGGTAAGATCCTATTGCTACGAGGCATCGATATCGGACATGGCTTCGGACAGTCGTTGCCCAACACAAGGTGAAGCC
TACCTTGACAAGCAATCAGACACTCAATATGTCTGCAAAAGAACATTAGTGGACAGAGGTTGGGGAAACGGTTGTGGACTTTTTGGCAAAGGGAG
CTTGGTGACATGTGCCAAGTTTACGTGTTCTAAGAAGATGACCGGGAAGAGCATTCAACCGGAAAATCTGGAGTATCGGATAATGCTATCAGTGCA
TGGCTCCCAGCATAGCGGGATGATTGGATATGAAACTGACGAAGATAGAGCGAAAGTCGAGGTTACGCCTAATTCACCAAGAGCGGAAGCAACCT
TGGGAGGCTTTGGAAGCTTAGGACTTGACTGTGAACCA
EJEMPLO 3: partiendo de una secuencia
aminoacídica
§ Ej. Tenemos una secuencia proteica (AA) de un virus y queremos determinar de qué
virus se trata…
ü Si es secuencia de AA y queremos comparar con base de datos de PROTEINAS, qué BLAST
usamos?
ü Si es secuencia de AA y queremos comparar con base de datos de ADN, qué BLAST
usamos?
ACGGTTAGTAACATGGCCGAGGTAAGATCCTATTGCTACGAGGCATCGATATCGGACATGGCTTCGGACAGTCGTTGCCCAACACAAGGTGAAGCC
TACCTTGACAAGCAATCAGACACTCAATATGTCTGCAAAAGAACATTAGTGGACAGAGGTTGGGGAAACGGTTGTGGACTTTTTGGCAAAGGGAG
CTTGGTGACATGTGCCAAGTTTACGTGTTCTAAGAAGATGACCGGGAAGAGCATTCAACCGGAAAATCTGGAGTATCGGATAATGCTATCAGTGCA
TGGCTCCCAGCATAGCGGGATGATTGGATATGAAACTGACGAAGATAGAGCGAAAGTCGAGGTTACGCCTAATTCACCAAGAGCGGAAGCAACCT
TGGGAGGCTTTGGAAGCTTAGGACTTGACTGTGAACCA
BLASTP
Muuuuchos hits
con ZIKA…
REDUNDANCIA
Otras herramientas de GenBank: PRIMER BLAST -
https://www.ncbi.nlm.nih.gov/tools/primer-blast/
https://www.who.int/docs/default-source/coronaviruse/real-
time-rt-pcr-assays-for-the-detection-of-sars-cov-2-institut-
pasteur-paris.pdf?sfvrsn=3662fcb6_2