Está en la página 1de 63

Taller de bases de datos y

manejo de software

Clase II
GenBank

Licenciatura en Biotecnología
Universidad Nacional de Moreno
BASES DE DATOS

§ Una base de datos (BD) es una colección de datos.


ü Una agenda de teléfonos es un sencillo ejemplo de una base de datos.

§ Los datos se almacenan en registros.

§ Cada registro debe tener un identificador único y estable.

§ La información que contiene cada registro está distribuida en campos.


SQL (STRUCTURED QUERY LANGUAGE)
§ Casi todos los desarrollos que se hacen a día de hoy en bioinformática de
una u otra manera hacen uso de datos almacenados en bases de datos
“biológicas”.
§ Las bases de datos están escritas en SQL.
ü SQL es un lenguaje de dominio específico utilizado en programación, diseñado para administrar, y
recuperar información de sistemas de gestión de bases de datos relacionales.
ü SQL consiste en un lenguaje de definición de datos, un lenguaje de manipulación de datos y un
lenguaje de control de datos.
ü El alcance de SQL incluye la inserción de datos, consultas, actualizaciones y borrado, la creación
y modificación de esquemas y el control de acceso a los datos.
SQL (STRUCTURED QUERY LANGUAGE)
BASES DE DATOS BIOLÓGICAS Y
BIOINFORMÁTICAS
§ En bioinformática, el concepto de “base de datos biológica” no alude tanto a
la tecnología usada como al contenido almacenado.
§ Una base de datos biológica es un “almacén de datos” para información
derivada de datos obtenidos de experimentos biológicos.
§ Una base de datos bioinformática es un almacén de datos para información
derivada de datos biológicos y programas bioinformáticos.
§ Si bajamos al nivel más técnico, las bases de datos biológicas y
bioinformáticas están disponibles generalmente como un conjunto de ficheros
planos, cuyo tamaño suele ser enorme.
BASES DE DATOS PRIMARIAS
§ Hay BD que almacenan los datos tal y como han sido depositados por quienes los han
generado. Se las denomina BD primarias o bancos de datos.
§ Suele haber redundancia (la misma información repetida varias veces): Ej:
muuuuchos datos de secuenciación a genoma completo del virus SARS-COV-2-
ü Ej. de BD primarias de secuencias de nucleótidos son GenBank, ENA (European Nucleotide
Archive) y DDBJ (DNA Data Bank of Japan).
ü Ej. de BD primarias de secuencias de proteínas son SWISS-PROT y Uniprot-KB.

ü Ej de BD primaria de estructura tridimensional de proteínas es PDB (Protein


Data Bank) y de estructura tridimensional de ác. nucleicos es NDB (Nucleic acid
database).
BASES DE DATOS SECUNDARIAS
§ A partir del análisis de la información depositada en las BD primarias se pueden
descubrir nuevas propiedades o establecer nuevas relaciones entre los datos.
§ En muchos casos resulta interesante almacenar todo este "valor añadido" en una
nueva BD.
§ No hay redundancia
§ Son las llamadas BD secundarias o derivadas.
ü Ej. de BD secundarias de secuencias de proteínas son Prosite, Prints y Pfam.
ü Ej. de BD secundarias de datos nucleotídico es Refseq (Reference Sequence) à Sólo tiene una
secuencia por gen y organismo.
GENBANK
(https://www.ncbi.nlm.nih.gov/genbank/)

§ GenBank es una BD pública que contiene una extensa colección de secuencias de


nucleótidos obtenidas a partir de más de 300.000 especies.
§ Además de la secuencia, incluye información bibliográfica, anotaciones funcionales
y, si se trata de una secuencia codificante, su traducción conceptual a proteína.
§ De la gestión y distribución de GenBank se encarga el NCBI (National Center for
Biotechnology Information) - Estados Unidos.
Buscador

Secciones en las cuales Nuevo! Gran sección


hacer búsquedas destinada específicamente a
SARS-COV-2/ COVID19
Buscador

Secciones en las cuales Nuevo! Gran sección


hacer búsquedas destinada específicamente a
SARS-COV-2/ COVID19
GENBANK
§ Los contenidos de GenBank son accesibles de forma pública y gratuita a través de
Internet (https://www.ncbi.nlm.nih.gov/genbank/).
§ También es posible descargar los ficheros que contienen la BD desde el lugar ftp
(File Transfer Protocol) del NCBI (ftp://ftp.ncbi.nlm.nih.gov/).
§ Cada dos meses sale una nueva versión de la BD.
§ Desde 1982, el número de secuencias almacenadas en GenBank se ha duplicado
aproximadamente cada 18 meses.
GENBANK
§ Cada registro contiene una secuencia ininterrumpida de una molécula de ác.
nucleicos.
§ Podemos encontrar: ADN/ARN genómico, ARNm (ADNc), ARN ribosómico, ARN
de transferencia, ARN pequeño nuclear o ARN pequeño citoplasmático.
§ El tamaño mínimo de las sec. almacenadas es de 50 nucleótidos (algunos registros
antiguos pueden tener secuencias más cortas).
§ No hay límite máximo: se pueden mandar genomas completos.
GENBANK
§ Los registros incluyen anotaciones bibliográficas y biológicas.
§ GenBank asigna un número de acceso al registro que contiene la secuencia y las
anotaciones.
ü El número de acceso es un identificador único que utilizan las tres bases de datos
(GenBank, ENA y DDBJ) y siempre estará asociado a ésta.
ü Es una combinación de letras y números como, por ej.: U12345 o AF123456.
ü Si hay cambios en el registro (secuencia o anotaciones), se modifica la versión y se indica
después del número de acceso por un punto (ej.: U12345.1).
ü Si se producen cambios en el registro U12345.1, el nuevo registro tendrá el identificador
U12345.2.
BÚSQUEDAS EN GENBANK

§ Se puede buscar directamente por nombre (de una proteina, un gen, una especie…)
§ Siempre en inglés
§ También se puede introducir el nombre del autor (o de la persona que ha enviado la
secuencia).
§ Si lo sabemos, podemos buscar por número de acceso/ ID (accession number) de una
secuencia o genoma en particular…
BÚSQUEDAS EN GENBANK

§ Los resultados de la búsqueda se pueden filtrar según diversos criterios como:


ü Tipo de molécula,
ü Longitud,
ü Especie,
ü Base de datos,
ü fechas de envío o revisión, etc.
BÚSQUEDAS EN GENBANK – Por número de
acceso (identificador único). Ej: NM_002020
Si seguimos explorando la salda de nuestra búsqueda en
GenBank vamos a llegar a la sección “features”

Acá se informan características varias de dicha secuencia o


registro de la base de datos. Ej si contiene un gen, de dónde a
dónde va dicho gen, si hay algún exon/ exones de dónde a
donde van dichos exones, traducción a proteina posible, etc.

Y finalmente la secuencia (cada linea de la secuencia contiene


60 nucleótidos dispuestos en 6 bloques de 10)
Cómo descargar dicha secuencia?
FORMATO FASTA

§ En bioinformática, el formato FASTA es un formato de archivo basado en texto,


utilizado para representar secuencias nucleicas o peptídicas, y en el que los pares de
bases o los aminoácidos se representan usando códigos de una única letra.
ü Comienza con una descripción en una única línea (línea de cabecera), seguida por líneas de
datos de secuencia. La línea de descripción se distingue de los datos de secuencia por un
símbolo '>' (mayor que) en la primera columna.
ü La palabra siguiente (a ése símbolo) es el identificador de la secuencia, y el resto de la línea
es la descripción (ambos son opcionales). No debería existir espacio entre el '>' y la primera
letra del identificador.
FORMATO FASTA
Qué más puedo hacer a partir de una búsqueda
Genbank?

Herramientas

Papers
(PUBMED)
BLAST - ALINEAMIENTO DE SECUENCIAS

§ Las secuencias de ADN (y proteína) definen la función de las proteínas en los seres
vivos.
ü Cuando más similares sean dos secuencias, las funciones de las proteínas codificadas por ellas
tenderán a ser más similares también.
ü Normalmente dos secuencias tienen una alta similitud porque son homólogas, es decir comparten
un ancestro común.
ü A diferencia de la similitud, la homología no es un término cuantitativo, dos secuencias o son
homólogas (derivan del mismo ancestro) o no lo son.
ALINEAMIENTO DE SECUENCIAS

§ Para poder cuantificar el grado de similitud de dos secuencias lo primero que hay que
hacer es alinearlas.
ü Alinear es, probablemente, la herramienta más utilizada en bioinformática.
ü OJO: Siempre que se usa un algoritmo de alineamiento con un par de secuencias se obtiene un
alineamiento, incluso aunque las secuencias estén compuestas por letras al azar.
ü Por lo tanto además de hacer el alineamiento hay que estimar la significación estadística del
mismo.
PUNTACIÓN DE LOS ALINEAMIENTOS

§ El alineamiento con mejor puntuación debería ser el más razonable


(biológicamente).
§ Para comparar distintos alineamientos entre sí se pueden asignar puntuaciones:
igualdad (match), desigualdad (mismatch), Indel (gap) (para ADN, ARN y
proteínas).
§ Para proteínas: el porcentaje de similitud, tiene en cuenta la similitud fisicoquímica de
los diferentes aminoácidos.
PUNTACIÓN DE LOS ALINEAMIENTOS
§ Ejemplo de sistemas de puntuación básico: match: +1, mismatch: 0, gap: -1.

Puntuación: 10 matches * 1 + 1 mimatch * 0 + 6 gaps * -1 = 4

ü Pero… valen igual todos los mismatch?? Qué pasa con los cambios en aminoácidos que tienen
diferentes propiedades (hidrofóbicos, hidrofílicos, ácidos…)?
ü SOLUCIÓN: matrices de sustitución!!!!
PUNTACIÓN DE LOS ALINEAMIENTOS
§ Si tengo dos secuencias de distinto largo… conviene “forzar” a la secuencia más corta
a que cubra la secuencia más larga (introduciendo los gaps que sean necesarios…
Alineamiento global)? O conviene sólo alinear las zonas más parecidas
(Alineamiento local)?
§ Ej: Alinear TAGCTAGTCGTAG Y TACGGGGCTAGCTATCGTAG
MÉTODO DE ALINEAMIENTO DE PARES DE
SECUENCIA – DOT PLOT

§ Representa los alineamientos gráficamente.


ü Da resultados intuitivos e informa de posibles
alineamientos alternativos.
ü Sirve para descubrir repeticiones, inserciones,
deleciones.
ü Las secuencias similares aparecen en la diagonal.
ü Ej: alinear AGCTACATGTA y AACTAGCATCT
BÚSQUEDA DE SECUENCIAS EN BASES DE
DATOS
§ Consiste en alinear una secuencia con todas las de una base de datos, para identificar
qué secuencias se parecen a nuestra secuencia “incógnita”.
§ Para hacer esto es necesario contar con un algoritmo muy rápido porque hay millones
de alineamientos que procesar… es decir, necesitamos que sea “computacionalmente
viable”
§ Se genera un índice de palabras cortas
BLAST (Algoritmo)
contenidas en la secuencia problema (largo
default: 3aa, 11 nt).
§ Se buscan las secuencias de la base de datos
que presentan alguna de las palabras de la
lista anterior.
§ Se extienden esas “palabras” hasta que la
puntuación del alineamiento comienza a
disminuir.
§Para determinar si un alineamiento es
significativo se compara su puntuación con la
de alineamientos de secuencias al azar (e-
value)
Como se puntuan los ALINEAMIENTOS, para
saber cuál es el mejor? E-value y HSP
EVALUE
ü Similar a p-valor (estadística)
ü Es la probabilidad de encontrar un alineamiento así
al azar…
ü Siempre e-value MENOR es MEJOR

HSP Score (high scoring pair)


ü Puntaje dado al alineamiento.
ü Siempre SCORE MAYOR es MEJOR
VERSIONES DE BLAST
§ Existen varios programas BLAST dependiendo de las secuencias que queramos
comparar:
ü BLASTP: compara proteínas con una base de datos de proteínas.
ü BLASTN: compara nucleótidos con una base de datos de nucleótidos.
ü BLASTX: compara nucleótidos (traducidos en sus 6 marcos abiertos de lectura) con una base
de datos de proteínas.
ü TBLASTN: compara proteínas contra una base de datos de nucleótidos (traducidos en sus 6
marcos abiertos de lectura).
ü TBLASTX: compara nucleótidos con una base de datos de nucleótidos traduciendo todas las
secuencias.
VERSIONES DE BLAST

https://blast.ncbi.nlm.nih.gov/Blast.cgi
EJEMPLO 1: BLAST DESDE NUESTRA BÚSQUEDA EN GENBANK
(PARA BUSCAR SECUENCIAS RELACIONADAS A FLT4 EN BASES DE DATOS)
Si de toda la secuencia
sólo les interesara una
Acá porción (ej, las primeras
automáticamente 100 bases), pueden
el software pegó el específicarlo aquí,
número de acceso. diciendo que use para el
Pero podrían pegar alineamiento solo las
una secuencia (ej: bases 1-100 de la
FASTA) o subir un secuencia (from 1 to 100)
archivo FASTA.
Acá pueden elegir
sobre qué tipo de
bases de datos hacer
la búsqueda/
alineamiento. Hay
bases primarias y
secundarias (REFSEQ)
Pueden pedir que las búsquedas
las haga solo contra algun/
algunos organismos o especies en
particular (o que NO las haga
sobre alguno en particular)
Arriba los mejores Importantes parámetros:
alineamientos (mayor Verificar porcentaje de
Score, menor Evalue). cobertura (porción de mi
secuencia que se parece
a la reportada por BLAST)
y Porcentaje de
identidad (qué tan
parecidas son, mi
secuencia a la reportada
por BLAST)
Arriba los mejores Importantes parámetros:
alineamientos (mayor Verificar porcentaje de
Score, menor Evalue). cobertura (porción de mi
secuencia que se parece
a la reportada por BLAST)
y Porcentaje de
identidad (qué tan
parecidas son, mi
secuencia a la reportada
por BLAST)
Obviamente (dado que la secuencia es de humanos) los mejores resultados me dan
con HUMANO (Homo Sapiens). Podría querer EXCLUIR humano y buscar esa
secuencia a qué secuencia de OTRAS especies se parece. Para eso uso filtros…
Fíjense que algunos no cubren toda mi
secuencia (aquí es la “query”) à
Alineamiento “LOCAL” (No global)
Este es el ID de la secuencia con la que
BLAST hizo el alineamiento. Si hacemos
click, vamos a la página de GenBank de
dicha secuencia =)

Otra información relacionada con esta


secuencia (link a otras herramientas de NCBI)

Alineamientos: línea vertical: match


(igualdad), espacio: mismatch (bases
alineadas diferentes), gap no hay aquí
(sino se verían guiones)
Si hacemos click en “gene”, nos
lleva a la sección de NCBI con
información acerca de dicho
gen.
Ej; resumen de su función, en
qué cromosoma está…
Si hacemos click en “gene”, nos
lleva a la sección de NCBI con
información acerca de dicho
gen.
Ej; en qué tejido se expresa (en
este caso se expresa más en
FAT-grasa, LUNG-pulmón y
SPLEEN-bazo), bibliografía al
respecto, proteínas con las que
interactúa, en qué rutas
metabólicas participa, etc…
Si quiero hacer esa búsqueda específicamente en dos especies (ej,
buscar regiones similares en ratón (mus musculus) y gato (felis cattus))

Agregan “organismo” à Ojo, tienen que saber


(o googlear) el nombre científico.

En caso de tratarse de virus, podemos poner la


familia (ej el VIH pertenece a la familia
retroviridae)
Resultados… vean que los Scores son más bajos
que los obtenidos cuando comparábamos con
todos los organismos (entre ellos humano,
gorila…)
EJEMPLO 2: partiendo de una secuencia
nucleotídica
§ Ej. A partir de una muestra de sangre de un paciente se hizo extracción de material
nucleico, PCR y secuenciación.
§ Queremos determinar, a partir de la secuencia, qué enfermedad tenía dicho paciente:
ü Si es secuencia de ADN y queremos comparar con base de datos de ADN, qué BLAST
usamos?
ü Si es secuencia de ADN y queremos comparar con base de datos de PROTEINAS, qué
BLAST usamos?

ACGGTTAGTAACATGGCCGAGGTAAGATCCTATTGCTACGAGGCATCGATATCGGACATGGCTTCGGACAGTCGTTGCCCAACACAAGGTGAAGCC
TACCTTGACAAGCAATCAGACACTCAATATGTCTGCAAAAGAACATTAGTGGACAGAGGTTGGGGAAACGGTTGTGGACTTTTTGGCAAAGGGAG
CTTGGTGACATGTGCCAAGTTTACGTGTTCTAAGAAGATGACCGGGAAGAGCATTCAACCGGAAAATCTGGAGTATCGGATAATGCTATCAGTGCA
TGGCTCCCAGCATAGCGGGATGATTGGATATGAAACTGACGAAGATAGAGCGAAAGTCGAGGTTACGCCTAATTCACCAAGAGCGGAAGCAACCT
TGGGAGGCTTTGGAAGCTTAGGACTTGACTGTGAACCA
EJEMPLO 3: partiendo de una secuencia
aminoacídica
§ Ej. Tenemos una secuencia proteica (AA) de un virus y queremos determinar de qué
virus se trata…
ü Si es secuencia de AA y queremos comparar con base de datos de PROTEINAS, qué BLAST
usamos?
ü Si es secuencia de AA y queremos comparar con base de datos de ADN, qué BLAST
usamos?

ACGGTTAGTAACATGGCCGAGGTAAGATCCTATTGCTACGAGGCATCGATATCGGACATGGCTTCGGACAGTCGTTGCCCAACACAAGGTGAAGCC
TACCTTGACAAGCAATCAGACACTCAATATGTCTGCAAAAGAACATTAGTGGACAGAGGTTGGGGAAACGGTTGTGGACTTTTTGGCAAAGGGAG
CTTGGTGACATGTGCCAAGTTTACGTGTTCTAAGAAGATGACCGGGAAGAGCATTCAACCGGAAAATCTGGAGTATCGGATAATGCTATCAGTGCA
TGGCTCCCAGCATAGCGGGATGATTGGATATGAAACTGACGAAGATAGAGCGAAAGTCGAGGTTACGCCTAATTCACCAAGAGCGGAAGCAACCT
TGGGAGGCTTTGGAAGCTTAGGACTTGACTGTGAACCA
BLASTP

Pego la secuencia a buscar

Puedo elegir bases de datos ej nr o


Refseq (curada, secundaria)
Salida de este BLASTP
usando la base de datos
refse1… Base de datos más
curada, 1 campo o pocos
por especie

4 hits con ZIKA y


el resto otros virus
Salida de este BLASTP
usando la base de datos
“nr” (combinación de
varias bases de datos
secundarias… Varios
campos por especie

Muuuuchos hits
con ZIKA…

REDUNDANCIA
Otras herramientas de GenBank: PRIMER BLAST -
https://www.ncbi.nlm.nih.gov/tools/primer-blast/

§ Herramienta de NCBI que combina


primer3 (http://primer3.ut.ee, software para
diseñar primers) con BLAST (para testear
especificidad de los primers… ej: ver si
amplifica en especies no blanco)
Qué más puedo hacer a partir de una búsqueda
Genbank?
Ejemplo de uso 1:
Diseñar primers Pueden decir entre
qué regiones (en
pares de bases)
Acá automáticamente se caigan el primer
pegó el accession number forward y el reverse
de la secuencia para la cual (ej: que el F caiga
quiero diseñar primers. entre las bases 1 y la
Pero tb puedo pegar una Pueden especificar qué
100 de la secuencia
secuencia, o subir el rango de tamaño tenga el
y el R entre las
archivo FASTA. fragmento de PCR (x
bases 600 y 700)…
default, de 70 a 1000 pb)

Si usan como molde


secuencias de mRNA de
refSeq pueden filtrar para
que los primers incluyan o
no intrones, exones, etc…
Resultados (dejando todos
los parámetros por defecto:
es decir, sin cambiar nada)
10 pares de primers que
amplificar fragmentos de
distintos tamaños a partir
de esa secuencia…
Resultados (continuación).
Además de buscar primers,
hace BLAST para ver la
especificidad de dichos
primers… y acá en este
reporte nos informa que
esos primers diseñados
podrían tener producto
inespecífico, amplificando
no solo nuestra secuencia
sino otras…
Ejemplo de uso 2: Ver especificidad de Primers ya diseñados
El kit que recomienda usar la Organización Mundial de la Salud (WHO) para la detección de SARS-COV-2 en
pacientes implica el uso de primers para Real Time PCR
Es necesario que dichos primers sean 100% específicos de coronavirus. Es decir, que NO amplifiquen ni
sobre ADN humano ni otro material nucleico de otras especies/ virus.

https://www.who.int/docs/default-source/coronaviruse/real-
time-rt-pcr-assays-for-the-detection-of-sars-cov-2-institut-
pasteur-paris.pdf?sfvrsn=3662fcb6_2

Podemos ver si estos primers son


específicos de este virus, usando PRIMER-
BLAST
Pegar los primers a testear especificidad

Elegir la base de datos a usar (ej: RefSEQ)

Vaciar el campo “organismos” (o no,


depende de qué queramos hacer… acá
queremos si pegan en algun organismo, y
en cuyo caso en cuál, por eso no
escribimos nada…)
Un único resultado (usando esta base REFSEQ,
altamente curada). Solo amplifica en SARS-COV-
2.
Si quieren hagan la prueba con la base de datos
“nr”… van a tener varios resultados, pero todos
de SARS-COV-2.
Primers altamente específicos!!! Se pueden usar
para diagnóstico
https://nextstrain.org/ncov/global
Ej (reciente) uso de datos de secuenciación

También podría gustarte