Está en la página 1de 89

Explorando el

navegador de
Ensembl
genome
INTRODUCCIÓN
¿Por qué necesitamos navegadores genómicos?
• 1977: primer genoma en ser secuenciado (5 kb)
• 2004: secuencia humana terminada (3 Gb)
¿QUÉ ES ENSEMBL?
§ Ensembl es un proyecto que trata de "desarrollar un sistema
de software que produzca y mantenga anotaciones
automáticas en genomas seleccionados".
§ Toda la información y software generados en el proyecto es de
libre uso y acceso.

Ensembl anota y mapea características genómicas de secuencias provenientes de diferentes


genomas
¿QUÉ ES ENSEMBL?
§ Ensembl es un "recurso de valor agregado" que reúne
información de una amplia gama de otras bases de datos en
un solo sitio.
¿QUÉ ES ENSEMBL?

www.genome.ucsc.edu
www.ncbi.nlm.nih.gov/genome/gdv/

www.ensembl.org
www.ensemblgenomes.org
ENSEMBL - Características
§ Información genéticas para > 200 especies.
§ Árboles filogenéticos.
§ Información regulatoria (ENCODE).
§ Variantes y VEP.
§ Visualización de los datos del usuario.
§ BioMart (exportación de datos).
§ Acceso programático a través de las APIs.
§ Completamente de código abierto (Open source).
Especies de vertebrados
en ENSEMBL
No vertebrados en
ENSEMBL Genomes

http://ensemblgenomes.org/
Bacterias Protistas

Hongos Metazoos Plantas


ENSEMBL y EMSEMBLGenomes
Ciclo de liberación de la
información

99
(Enero 2020)
Ensamblado de Genomas

GENOMA
“ADN dentro de la célula”

ENSAMBLE DEL GENOMA


• Representación del genoma.
• Contiene errores y gaps.
Ensamblado de
Genomas
Realizar un contig
Contigs a Scaffolds
Contigs de
Genomas
Ensamblado de Genomas Humanos
GRCh38 (aka hg38)
• No gaps. Muchos alelos raros/privados fueron reemplazados
• www.ensembl.org
• Tiene soporte y es el más actualizado a la fecha.

GRCh37 (aka hg19)


• 250 gaps
• http://grch37.ensembl.org/index.html
• Datos y software con limitada actualización.
• Todavía es el genoma preferido por la comunidad médica.

NCBI36 (aka hg18)


• 150,000 gaps
• http://may2009.archive.ensembl.org/index.html
• Ya no se actualiza.
Herramientas
Búsquedas

La actualización
Tutoriales de las principales
más reciente y
Lista de todas las especies características de ENSEMBL
sus novedades
cuyo genoma está disponible

Versiones previas
Click en “humano”
Ya en humanos…

Puede aparecer un cuadro con


Búsquedas novedades si es que hay
actualizaciones del genoma.

Información y
estadística

Links a ejemplos de algunas


características de ENSEMBL
Información
Estadísticas (entre ellas, largo
el pb del genoma, nro de
genes identificados, etc…)
Links a las otras website
http://ensemblgenomes.org de los distintos taxas.

Novedades
Cada taxa tiene con
un código de color
diferente…

Bacterias Protistas

Hongos Metazoos Plantas


Buscar por gen

Información de
la web
Buscar por especie

Novedades

• A diferencia de los otros


Ensembl, para bacteria no
hay una lista completa de
especies.
• Se recomienda comenzar a
escribir el nombre de la
especie en el cuadro de
búsqueda (por especie).
Buscar por gen

Información de
la web
Buscar por especie

Novedades

• A diferencia de los otros


Ensembl, para bacteria no
hay una lista completa de
especies.
• Se recomienda comenzar a
escribir el nombre de la
especie en el cuadro de
búsqueda (por especie). Ej.: Peptoclostridium difficile
Búsquedas
“Region in detail”
www.ensembl.org
§ Se puede buscar una región determinada por medio de alguna
de las dos cajas de búsqueda. Es necesario especificar la
especie.
§ Ejemplo: human 4:122868000-122946000
Funciones/ vistas/ datos varios
Cromosoma

Ayuda específica de la página

Overview de la región

Herramientas

Información de la región en
detalle (ampliado)
Haplotipos y Bandeo
Nuestra posición
parches cromosómico

Región de Botones de desplazamiento


interés

Cada bloque
representa
genes (leyenda
abajo)
Transcriptos
forwards

Barra de posición La barra azul es


el genoma
Transcriptos
reverse

Leyendas
Genes y
Transcriptos
Intrón,
Forward strand

Intrón, Exón,
Exón, NO Reverse strand codificante
codificante

Transcripto NO codificante

Unión de transcripto

Transcripto codificante
Anotación ENSEMBL -
AUTOMÁTICA MANUAL
“Golden transcripts”
§ Se denominan “transcriptos dorados” a aquellos que poseen
anotación idéntica en y
§ Los modelos de transcripción se comparan y fusionan cuando
su estructura de “splicing” es idéntica.
§ Si los extremos difieren entre los dos modelos, se utilizan
aquellos anotados en
§ Alta calidad y confiabilidad.
Anotación AUTOMÁTICA de Genes

§ Determinación de todo el genoma


utilizando el “pipeline” automático
de ENSEMBL.
§ Predicciones basadas en datos
experimentales (biológicos).
§ Proteínas conocidas / ADNc
mapeados en el genoma usando
complementariedad de bases.
Evidencia Biológica
§ INSDC (International Nucleotide Sequence Database Collaboration)
ü ADNc
ü ESTs
ü RNA-seq
§ Bases de datos de secuencias de proteínas.
ü Swiss-Prot: curado manualmente.
ü TrEMBL: traducciones no revisadas.

§ Inferir genes a partir de la homología a otras especies.


ü Ej.: predecir genes de la especie1 al mapear
ADNc/proteínas de la especie2 en el genoma de especie1.
sp1 sp2
Anotación MANUAL de Genes

§ Determinación de genes, en todo el


genoma, en forma manual (es decir,
hay personas que trabajan en esto…).
§ Utiliza datos de:
ü INSDC,
ü RNA-seq,
ü Datos transcriptómicos (lecturas
largas),
ü Datos de intrones,
ü Publicaciones,
ü Etc.
Transcriptos CCDS (Consensus coding DNA sequence)

§ Acuerdo entre EBI (Ensembl, Havana, HGNC), MGI y NCBI


(EEUU).
§ https://www.ncbi.nlm.nih.gov/CCDS/CcdsBrowse.cgi

http://training.ensembl.org/events
Transcriptos MANE
(Matched Annotation from the NCBI and EBI)

§ Los transcriptos se establecen con 100% de identidad entre EBI y


NCBI (incluyendo regiones no codificantes).
§ El primer conjunto de transcriptos (versión "beta“) de MANE
Select v0.5 se lanzó con ENSEMBL 96.
§ Solo hay ~ 50% de las transcripciones sobre proteínas humanas.

http://training.ensembl.org/events
Visualización de Genes
Exón, codificante Exón, NO codificante
Intrón

Unión de transcripto Transcripto codificante Transcripto NO codificante

http://training.ensembl.org/events
¿Cuál transcripto debería usar?

Largo transcripto Largo proteína

http://training.ensembl.org/events
Ejemplo • Vamos a buscar el gen ESPN en Humanos.

http://training.ensembl.org/events
Ejemplo • Vamos a buscar el gen ESPN en Humanos.

Resultados

Filtros Links

http://training.ensembl.org/events
Qué puedo hacer con ese gen en Ensembl?
Ventana del Gen

Localización
Con que FENOTIPOS
está asociado este gen
Información (ej: enfermedades)
general del gen Cuántos Transcriptos
tiene este gen

Visualización

http://training.ensembl.org/events
Qué puedo hacer con ese gen en Ensembl?

Tabla de
transcriptos

Transcriptos
forwards

La barra azul es
el genoma

Transcriptos http://training.ensembl.org/events
reverse
Opciones: BLAST o descargar la sec.

Región upstream

1) Para ver Otro exón (no


la perteneciente al gen
SECUENCIA ESPN)
Exón del gen ESPN
1) Si quieren configurar qué ver
en esa secuencia (ej variantes)
Opciones de
configuración

Mostrar variantes (y podriamos pedir


tb los links a BD en las que aparecen
dichas variantes)
Leyenda (cada
color indica un
TIPO de
variante
diferente)

Links a las
diferentes
variantes
Predicción del efecto y posición de las
variantes, relativo a la estructura del transcripto

Más información:
https://www.ensembl.org/info/genome/variation/prediction/predicted_data.html
Si quieren ver cuál es la función
de ese gen, en donde participa
(lugar de la célula) y proceso
biológico en el que está
involucrado…
¿Por qué GO (Gene Ontology)?

Múltiples términos para la misma cosa

Descripciones demasiado especifica de genes


http://training.ensembl.org/events
Los términos GO forman un vocabulario
controlado

http://training.ensembl.org/events
Los términos GO son jerárquicos

http://training.ensembl.org/events
• Volvamos al gen ESPN… ahora queremos encontrar
Ejemplo información sobre él y sus transcriptos.

Los términos GO están


ligados a dif. transcriptos

Categorías de
GO: lugar de la
célula donde
actua este gen

Evidencia
Categorías de
GO: Función
molecular
Categorías de
GO: proceso
biológico
• Si buscamos información sobre dónde se expresa dicho
Ejemplo gen…
Tejidos

Experimentos

Al colocar el cursor sobre


un tejido se ilumina el
ideograma

Nivel de expresión
Tejidos

Experimentos

Al colocar el cursor sobre


un tejido se ilumina el
ideograma

Nivel de expresión
Tabla de
transcriptos

§ Si solo tuviéramos que elegir UN solo transcripto de la tabla para


analizar, elegiríamos aquel que tiene:
ü Anotación coincidente entre métodos automáticos y manuales (oro).
ü Anotación CDS coincidente, dándole una identificación CCDS.
ü Alta compatibilidad de transcripción (TSL1).
ü Una estructura completa que lo convierte en miembro de GENCODE Basic.
Click en… Estructura del
Supporting evidence transcripto

Evidencias

Link a los registros originales

Evidencia
Evidencia ENSEMBL VERDE: Sec. flanqueantes Exon
HAVANA

ROJO: Sec. UTR

GRIS: Intrón

AZUL: Sec. codificante


Click en…
cDNA

Protein summary
Click en…
cDNA

Protein summary

Los colores alternados de


violeta indican la
estructura de los exones
Variación
TIPOS DE VARIACIÓN
§ Corta escala (uno o pocos nucleótidos de un gen).
ü Pequeñas inserciones y deleciones (Indels).
ü Polimorfismo de nucleótido único (SNP).

§ Gran escala (estructura cromosómica - variación estructural).


ü Variación en el número de copias (CNV).
ü Grandes eliminaciones/duplicaciones, inserciones, translocaciones.

Deleción Duplicación Inserción Traslocación


Origen de la Variación

http://www.ensembl.org/info/genome/variation/species/sources_documentation.html
Proyecto HapMap
§ Genotipado de 1301 individuos de 11 poblaciones.
Proyecto 1000 Genomas
§ Secuenciación de 2500 individuos con una cobertura 4X.
“Variation consequences”
§ Para cada variante que se asigna al genoma de referencia,
ENSEMBL identifica todas las transcripciones superpuestas.
§ Se predicen los efectos que cada alelo puede tener en cada
transcripto.
“Consequence terms”
§ Conjunto de términos definidos por “Sequence Ontology” (SO),
para facilitar la comparación cruzada en las anotaciones.
Ejemplo • Vamos a buscar el gen MCM6 en Humanos.
• Vean la secuencia.

http://training.ensembl.org/events
Ejemplo • Vamos a buscar el gen MCM6 en Humanos.
• Vean la secuencia.

Leyenda de los tipos


de variantes
Link a las
variantes
Variantes en la secuencia
(código IUPAC)

http://training.ensembl.org/events
Click en…
Filtros

Evidencia de la variante
(mover cursor)

ID de la variante (se puede Transcripto afectado


usar para hacer
búsquedas)

http://training.ensembl.org/events
Filtrar por término de
“Consequences”

Tipo de “Consequences”… por default


se muestran todas, pero si quieren ver
sólo algunas, click en “turn all off” y
luego seleccionar la que les interese…

http://training.ensembl.org/events
Click en…
Pequeñas SVs se
muestran en forma
independiente

Grandes SVs se muestran


condensadas en una sola
barra Tabla con todas las SVs

http://training.ensembl.org/events
Click en…
Fenotipo asociado con el gen

Fenotipos asociados con las variantes del gen

Fenotipos asociados con ortólogos del gen Lista de las


variantes

http://training.ensembl.org/events
Ejemplo • Vamos a buscar la variante (SNP) rs4988235 en Humanos.

http://training.ensembl.org/events
Información de la variante

Diferentes
opciones con Iconos de variantes. Los
inf. variantes números indican que
tienen información

http://training.ensembl.org/events
http://training.ensembl.org/events
Gráficos de las
frecuencias alélicas

Tabla con información


más detallada Expandir subpoblación

http://training.ensembl.org/events
Ejemplo • Vamos a buscar una enfermedad (Huntington disease) en
Humanos.
• Trataremos de identificar genes (y sus variantes)
asociados con esta enfermedad.

También podría gustarte