Está en la página 1de 17

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/261641405

Taller: Desarrollo de flujos de trabajo en Galaxy - Ensamblaje y anotación de


Genomas

Data · April 2014


DOI: 10.13140/2.1.5132.2563

CITATIONS READS

0 1,760

1 author:

Diego Mauricio Riaño-Pachón


University of São Paulo
262 PUBLICATIONS 8,602 CITATIONS

SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Coffee Rust View project

Create new project "Aspergillus Genomics" View project

All content following this page was uploaded by Diego Mauricio Riaño-Pachón on 16 April 2014.

The user has requested enhancement of the downloaded file.


Taller

Desarrollo de flujos de trabajo en Galaxy


Ensamblaje y anotación de Genomas

Dr. rer. nat. Diego Mauricio Riaño-Pachón


Laboratório Nacional de Ciencia e Tecnologia do Bioetanol
Centro Nacional de Pesquisa em Energia e Materiais
Campinas, São Paulo, Brasil
diego.riano@bioetanol.org.br
http://bce.bioetanol.cnpem.br

This work is licensed under the Creative Commons Attribution-NonCommercial 4.0


International License. To view a copy of this license, visit
http://creativecommons.org/licenses/by-nc/4.0/.

Universidad de los Andes


Bogotá D.C., Colombia
Abril 9 de 2014

Diego M. Riaño-Pachón, Abril 2014, Bogotá D.C. 1


 
 
 
Tabla  de  Contenido  
 
 
 
Que  es  Galaxy?  .................................................................................................................................  3  
Trazabilidad  .....................................................................................................................................  3  
Flujos  de  trabajo  .............................................................................................................................  3  
Usando  Galaxy  .................................................................................................................................  3  
Servidores  públicos  .....................................................................................................................................  3  
UniAndes  ..........................................................................................................................................................  4  
Descripción  general  del  portal  Galaxy  ....................................................................................  4  
Obteniendo  datos  de  secuenciamiento  de  nueva  generación  .........................................  4  
Verificación  de  calidad  y  limpieza  de  las  lecturas  ..............................................................  6  
Ensamblaje  de  novo  de  genomas  ...............................................................................................  9  
Predicción  de  genes  ab  initio  ...................................................................................................  13  
Creando  Flujos  de  Trabajo  en  Galaxy  ....................................................................................  14  

Diego M. Riaño-Pachón, Abril 2014, Bogotá D.C. 2


Que  es  Galaxy?  
Galaxy es una colección de herramientas bioinformáticas destinadas a:
• conversión y manipulación de datos moleculares
• análisis estadísticos
• análisis de datos de secuenciación de nueva generación
• análisis de datos de proteómica
• y lo que se pueda imaginar y desee programar.
Galaxy provee una interfaz web a herramientas que normalmente se usan en la temida
línea de comandos y está principalmente dirigida al usuario de laboratorio, con poco a
ninguna experiencia en la línea de comandos.
Además de la clara ventaja que representa tener una interfaz gráfica para interactuar con
las herramientas de bioinformática, Galaxy se caracteriza por facilitar la trazabilidad de
los datos y procedimientos, y la elaboración de flujos de trabajo.

Trazabilidad  
“Se entiende trazabilidad como el conjunto de aquellos procedimientos
preestablecidos y autosuficientes que permiten conocer el histórico, la
ubicación y la trayectoria de un producto o lote de productos a lo largo de la
cadena de suministros en un momento dado, a través de unas herramientas
determinadas.”
Comité de Seguridad Alimentaria de AECOC http://es.wikipedia.org/wiki/Trazabilidad

Cuando analizamos datos moleculares, trazabilidad se refiere a la capacidad de registrar


la cadena completa de procedimientos aplicados a los datos, y las transformaciones de
los mismos, almacenando los parámetros seleccionados en cada uno de esos
procedimientos. Es claro que la trazabilidad es de máxima importancia con el fin de
reproducir los resultados científicos.
Galaxy mantiene un histórico de todas las acciones realizados por el usuario, junto con
las relaciones de dependencia entre esas acciones. Este es el nivel mas básico de
trazabilidad ofrecido por Galaxy.

Flujos  de  trabajo  


Un flujo de trabajo es un conjunto de herramientas y procedimientos sobre conjuntos de
datos que se ejecutan en secuencia como una operación por lotes.
Los flujos de trabajo se pueden usar una y otra vez, aumentando la reproducibilidad de
los análisis, ya que se aplican los mismos métodos para todos sus datos.

Usando  Galaxy  

Servidores  públicos  
El proyecto Galaxy tiene varios servidores públicos, la lista se puede consultar en:

Diego M. Riaño-Pachón, Abril 2014, Bogotá D.C. 3


https://wiki.galaxyproject.org/PublicGalaxyServers
También es posible desplegar instancias de Galaxy en el proveedor de servicios de nube
Amazon, en donde se paga por tiempo de uso y espacio usado. Para mas detalles
consultar: https://wiki.galaxyproject.org/CloudMan

UniAndes  
El Departamento de Ciencias Biológicas de la Universidad de los Andes tiene instalado
un servidor experimental de Galaxy ubicado en http://biosge.uniandes.edu.co:8080/, que
estará disponible solamente para el desarrollo de este taller.

Descripción  general  del  portal  Galaxy  

Figura 1. Estructura de navegación en Galaxy

Obteniendo  datos  de  secuenciamiento  de  nueva  generación  


Para este taller emplearemos datos de la secuenciación de un plásmido, datos que han
sido generosamente compartidos por el Prof. Dr. Alejando Reyes.
Los datos se encuentran en http://bce.uniandes.edu.co/exchange/plasmid
El primer paso es la carga de datos en el ambiente Galaxy. La Figura 2 muestra la
ventana de carga de datos. La caja de texto con el título URL/Text sirve para pegar
una o varias URLs, que es lo que vamos a hacer en este caso. Por favor copie los
enlaces para los archivos disponibles en http://bce.uniandes.edu.co/exchange/plasmid,
péguelos, uno debajo de otro, en la caja URL/Text. Luego haga click en el botón
Execute.
Ahora en su historia, panel de la derecha, debe aparece la lista de archivos cargados en
Galaxy, similar a como se ve en la Figura 3. La historia es una de las características mas
importantes en Galaxy. Mantiene un registro completo de los procedimientos aplicados
en el análisis de los datos, así como una representación de todas sus transformaciones.
Los usuarios pueden compartir historias, y crear flujos de trabajo a partir de estas.
Los archivos con la extensión fq representan lecturas cortas de secuenciamiento

Diego M. Riaño-Pachón, Abril 2014, Bogotá D.C. 4


generadas por un instrumento Illumina. Haga click en el botón con el “ojo” para el
archivo ToAssemble_final3.fq. Esto mostrará el contenido del archivo, o abrirá
una ventana para descargarlo dependiendo del tipo de archivo (Figura 4).

Figura 2. Carga de archivos en Galaxy

Figura 3. Historia, carga de archivos en Galaxy

El formato FastQ se ha convertido en al estándar de facto en la mayoría de tecnologías


de secuenciación y muchos programas hoy en día entienden ese formato sin mayores
problemas. La información de las lecturas de secuenciación está almacenada de acuerdo
a la siguiente estructura (ver Figura 4) 12:
• Una línea con la identificación de la lectura, está línea debe empezar con el
símbolo @
• Después de la identificación viene la secuencia de la lectura
• Un línea espaciadora con el símbolo +
• Y por último una línea con los datos de calidad para cada una de las bases
determinadas durante el proceso de secuenciación.

1
http://nar.oxfordjournals.org/content/38/6/1767.long
2
http://en.wikipedia.org/wiki/FASTQ_format

Diego M. Riaño-Pachón, Abril 2014, Bogotá D.C. 5


Figura 4. Lecturas de secuenciación en formato FastQ

Existen varios dialectos del formato FastQ, que difieren en el rango de símbolos usados
para representar la calidad de las bases. Hoy en día la mayoría de equipos modernos de
secuenciación usan un dialecto al que comúnmente se le denomina FastQ Sanger o
Phred+33. Las secuencias que hemos cargado en el sistema fueron generadas hace ya un
tiempo y están en un dialecto que se conoce como Phred+64Phred+33, para esto
usaremos el programa Fastq_groomer (Figura 5). Hay que correr el fastq_grommer para
cada uno de los archivos en formato FastQ que cargó anteriormente. Asegúrese que la
opción “Input FASTQ quality scores types” aparece como “Illumina
1.3-1.7”.

Figura 5. FastQ Groomer

Recuerde, puede enviar un trabajo enseguida del otro, i.e., no tiene que esperar a que
uno termine para iniciar el siguiente.

Verificación  de  calidad  y  limpieza  de  las  lecturas  


Ya con las secuencias en el formato adecuado (Phred+33), lo primero que tenemos que
hacer es evaluar su calidad, esto a su vez informará el proceso de limpieza que se debe
lleva a cabo. El análisis de calidad lo hacemos con el programa FastQC que genera un
reporte con gráficas muy amigable y fácil de entender.
La Figura 6 muestra el cuadro de diálogo para invocar al programa FastQC, hay que
ejecutar este programa para cada uno de los archivos de lecturas en formato Phred+33.
El resultado de FastQC es una serie de gráficas. La Figura 7 muestra la distribución de
la calidad a lo largo de las lecturas. Para cada posición hay un box-plot, la caja amarilla
representa los datos que están entre el 1 y 3 cuartil (50% de los datos), la línea roja
representa la mediana. El eje X representa la posición en la lectura de secuenciación, y

Diego M. Riaño-Pachón, Abril 2014, Bogotá D.C. 6


el eje y el valor Q (calidad) que va de 0 a 40, entre mayor el número, mayor la
confianza en esa base.

Figura 6. Cuadro de dialgo para ejecutar el programa FastQC

En la Figura 7 podemos observar como la calidad de las bases disminuye hacia el


extremo 3’ de las lecturas. Esto es típico de todas las tecnologías de secuenciación de
nueva generación, y es mas notable para lecturas largas. De acuerdo a esta gráfica
debemos hacer una operación de “quality trimming”, para eliminar las bases de baja
calidad del extremo 3’.

Figura 7. FastQC - Distribución de calidad por posición en un conjunto de datos. Antes de la limpieza.

La Figura 8 muestra la proporción de cada nucleótido para cada posición en todas las
lecturas de secuenciación. Lo que se espera es que la curva para cada nucleótido sea
estable a lo largo de la lectura, i.e., que la probabilidad de encontrar cada uno de los
nucleótidos sea constante a lo largo de la lectura. Esto no se cumple principalmente para
los primeros 10 nucleótidos (extremo 5’), en este caso esto se debe a que las secuencias
están incluyendo algunos “barcodes”. Tenemos que eliminar esos primeros 10 nt de
todas las lecturas.

Diego M. Riaño-Pachón, Abril 2014, Bogotá D.C. 7


Figura 8. FastQC - Distribución de la proporción de nucleótidos por posición. Antes de la limpieza.

Los resultados de FastQ son importantes por que nos permiten tomar decisiones sobre el
siguiente paso, que es la limpieza de las secuencias. En este ejercicio vamos a limpiar
las secuencias con Trimmomatic 3 , un paquete relativamente nuevo, pero que a
diferencia de muchos otros es capaz de limpiar lecturas que son pareadas, manteniendo
ese pareamiento, que es muy importante para, por ejemplo, programas que hacen
mapeamiento contra genomas de referencia. La Figura 9 muestra el cuadro de dialogo
de Trimmomatic, por favor asegúrese que los siguiente parámetros aparecen de la forma
indicada:
Paired end reads?: Checked
Direction 1 fastq reads to trim: FastQ Groomer on data 1
Direction 2 fastq reads to trim: FastQ Groomer on data 2
Quality encoding: phred33
Clip Illumina adapters?: Checked
Fasta of adapters to clip: adapters.fasta
Perform Sliding Window trimming?: Checked
Average quality required: 20
Trim leading bases?: Not Checked
Trim trailing bases?: Checked
Minimum quality: 20
Crop reads?: Not Checked
Crop starts?: Checked
Number of bases: 10
Minimum length read: 50

Después de correr Trimmomatic, no se preocupe se puede tardar un poco, ejecute


nuevamente el FastQC sobre los archivos resultantes de la limpieza: Los datasets
Trimmomatic on data 5, data 3, and data 4: Dir1 trimmed pairs y Trimmomatic on data 5,

3
http://www.usadellab.org/cms/?page=trimmomatic

Diego M. Riaño-Pachón, Abril 2014, Bogotá D.C. 8


data 3, and data 4: Dir2 trimmed pairs. Compare los resultados de FastQC antes y
después de la limpieza.

Figura 9. Cuadro de dialogo de Trimmomatic - Limpieza de datos

Ensamblaje  de  novo  de  genomas  


Con las secuencias limpias podemos continuar con el ensamblaje del plásmido, para
esto usaremos el ensamblador Velvet4. El ensamblaje con Velvet consiste en ejecutar
dos programas velveth y velvetg. Velveth prepara los datos para el ensamblaje,
y luego velvetg lleva a cabo el ensamblaje siguiendo una estrategia basada en grafos
de de Bruijn. En esta estrategia uno de los parámetros mas importante es la longitud de
los k-meros que se van a emplear para construir el grafo. La selección de ese valor es
empírica, i.e., se evalúan varios valores de k-mer y se escoge el mejor de acuerdo a
aluna métrica de interés. Una opción es usar el programa Kmer-Genie5. En este taller
vamos a dividir el trabajo en 4 grupos, cada grupo va a hacer un ensamblaje con tres

4
http://www.ebi.ac.uk/~zerbino/velvet/
5
http://kmergenie.bx.psu.edu/

Diego M. Riaño-Pachón, Abril 2014, Bogotá D.C. 9


valores de k-meros diferente y luego compartiremos los resultados. Los valores de k-
mero que vamos a usar con 15, 25, 35, 45, 55, 65, 75. Además todos deben correr el
trabajo con k=85, así que cada persona debe tener tres ensamblajes. El primer programa
que vamos a correr es velveth, cuyo parámetro mas importante es el valor de k.
Asegúrese que las opciones que selecciona aparezcan como se muestra en Figura 10.

Figura 10. Opciones para velveth

El siguiente paso es correr el programa velvetg que es el encargado de realizar el


ensamblaje propiamente dicho, este programa toma como entrada el resultado
producido por velveth, y arroja como resultado los contigs obtenidos a partir de las
lecturas pareadas. Por favor asegúrese que los siguientes parámetros aparecen de la
forma indicada:

Minimum contig length: 500


Scaffolding: Not Checked

Una vez terminado de correr el velvetg revise la salida llamada “Contig Stats” y
compare sus resultados con sus compañeros. Descargue el archivo de Contigs a su
computador, lo necesitará mas adelante para visualizar los datos de mapeamiento.

Un paso importante en el ensamblaje de genomas es evaluar el cubrimiento observado


del genoma. Antes de continuar, por favor responda, cual es el cubrimiento esperado a

Diego M. Riaño-Pachón, Abril 2014, Bogotá D.C. 10


partir de los datos generados? De que depende la estimación del cubrimiento esperado y
observado?

Para evaluar el cubrimiento vamos hacer un mapeamiento de las lecturas limpias contra
el contig de nuestro plásmido. Para esto usaremos la herramienta Bowtie2. Antes de
poder usar el Bowtie2, debemos pasar las secuencias limpias (salida de Trimmomatic)
por el FastQ Grommer, asegúrese de seleccionar la opción “Input FASTQ
quality score type: Sanger & Illumina 1.8+”

Figura 11. Ejecutar FastQ Grommer sobre los archivos de lecturas limpios (después de ejecutar Trimmomatic)

Ahora, podemos correr Bowtie2. Vamos a usar datos pareados, ajuste apropiadamente
el parámetro “Is this library mate-paired?:”, y selecciones los dos archivos FastQ que
obtuvo en el paso anterior. Para el parámetro “Will you select a reference genome from
your history or use a built-in index?:” seleccione “Use one from the history”; y seleccione
como genoma de referencia el archivo de contigs que produjo velvetg usando un
k=85, Figura 12.

El mapeamiento por Bowtie2, genera 2 archivos, con las extensiones BAM y BAI
respectivamente por favor descárguelos a su computador. Vamos a visualizar ese
resultado en el Integrative Genomics Viewer6 un programa desarrollado por el Broad
Institute.

Preste atención al instructor sobre como iniciar el programa en su computador.

Con el programa funcionando busque el menú “Genomes” y seleccione la opción


“Create .genome File . . . ”. En el cuadro de diálogo que se abre llene los
campo de la siguiente forma:

Unique identifier: PlasmidAssemblyUniAndes


Descriptive name: My first plasmid assembly

6
http://www.broadinstitute.org/igv/home

Diego M. Riaño-Pachón, Abril 2014, Bogotá D.C. 11


FASTA File: -> Haga click en el botón Brose y busque el archivo de
Contigs generado por velvetg.

Figura 12. Cuadro de diálogo con la configuración de Botwie2.

En este punto tenemos una representación del genoma del plásmido en el programa
IGV. El genoma, en muchos navegadores de genomas, se representa como una línea
recta, como una regla. Sobre esa representación se pueden agregar diferentes “tracks”,
con diferentes tipos de información; pro ejemplo, gene anotados, cubrimiento de
secuenciación, etc. En este ejercicio vamos a visualizar el mapeamiento de las lecturas
al contig ensamblado. Para eso ubique el menú “File” y seleccione la opción “Load
From File”, en el cuadro de diálogo que se muestra navegue en el árbol de
directorios hasta encontrar el archivo BAM que descargó anteriormente (debe estar en
su carpeta de descargas; Figura 13).

Diego M. Riaño-Pachón, Abril 2014, Bogotá D.C. 12


Figura 13. Integrative Genomics Viewer

Predicción  de  genes  ab  initio  


Ya tenemos el archivo con el contig montado (archivo Contigs, resultado del velvetg,
k=85), ahora podemos identificar los genes codificados por ese pequeño genoma.
Emplearemos el programa Glimmer 7 para hacer la búsqueda de genes. Busque el
programa glimmer3 en Galaxy, vamos a usar la versión que aparece como “Predict ORFs
in prokaryotic genomes (not knowlegde-based)”. Asegúrese de especificar las opciones
como aparece en la Figura 14.

Figura 14. Configuración del predictor de genes

El resultado es una lista de los genes predichos en el plásmido, junto con sus
coordenadas y las secuencia de los transcritos.

Glimmer 3 genera un archivo en formato fasta con la secuencia de los transcritos


predichos, buque el programa “transeq” para realizar la traducción de esos
transcritos. Selección la opción que traduce la secuencia de AND en los 6 marcos de
lectura, esto generará un nuevo archivo en formato fasta con las secuencias de las

7
http://ccb.jhu.edu/software/glimmer/index.shtml

Diego M. Riaño-Pachón, Abril 2014, Bogotá D.C. 13


proteínas que usará en la próxima sesión sobe comparación y anotación de secuencias
basado en similaridad.

Creando  Flujos  de  Trabajo  en  Galaxy  


Hasta este momento hemos realizado una serie de procedimientos que tomaban un par
de archivos con lecturas cortas de secuenciación y terminan con la secuencia de un
plásmido y la predicción de los genes codificados por este. Son varios pasos y hay
varios clicks involucrados. Ahora imagínese que usted tiene los datos de secuenciación
para 100 plásmidos diferentes, y quiere ejecutar la misma serie de pasos para cada uno
de esos conjuntos de datos, aquí es donde entran los flujos de trabajo que nos permiten
automatizar el proceso. Para este ejercicio vamos a explotar la historia que acabamos de
crear y la convertiremos en un flujo de trabajo.

En el panel derecho, donde se encuentra su historia, en la parte superior encuentra un


botón de una rueda dentada, haga click en ese botón y seleccione la opción “Extract
Workflow” (Figura 15)

Figura 15. Convirtiendo la historia en un flujo de trabajo

En la página de dialogo que se inicia dele un nombre a su flujo de trabajo y asegúrese


de dar click en “Check all”, con lo que seleccionara todos los pasos de la historia
que serán importados en el flujo de trabajo. Luego en el menú superior de Galaxy vaya
a “Workflow”, allí deberá encontrar su nuevo flujo de trabajo (Figura 16).

Diego M. Riaño-Pachón, Abril 2014, Bogotá D.C. 14


Figura 16. Lista de flujos de trabajo en Galaxy

Haga click en el triangulo que aparece a la derecha del nombre de su flujo de trabjao y
seleccione “Edit”, esto iniciará el Editor de Fluos de Trabajo en Galaxy. Cada cuadro en
el editor representa un procedimiento. Al seleccionar uno de ellos, esté quedará rodeado
por una línea azul y en el panel izquierdo aparecen las opciones de configuración de esa
herramienta (Figura 17).

Figura 17. Editor de Flujos de Trabajo

En este punto hay tres entradas en el flujo de trabajo, y todas se llaman “Input dataset”,
esto puede crear problemas, así que vamos a cambiarles el nombre. Las entradas de
archivos de lecturas se deben llamar “Lecturas1” y “Lecturas2”, y la entrada con los
adaptadores se debe llamar “Adaptadores”.

Ubique la salida de velvetg, el archivo Contigs y la salida de Glimmer, el archivo


“gene_output(fasta)”, haga click en el asterisco que esta a la derecha de sus nombres
como se muestra en la Figura 18.

Diego M. Riaño-Pachón, Abril 2014, Bogotá D.C. 15


Figura 18. Escondiendo salidas no deseadas

Asegúrese de guardar su flujo de trabajo y ejecútelo (Figura 19).

Figura 19. Menu para salvar y ejecutar el flujo de trabajo.

Al ejecutar el flujo de trabajo verifique las opciones aparecen como se muestra en la


Figura 20.

Figura 20. Ejecutando el flujo de trabajo.

Con esto terminamos este taller introductorio, usted debe contrar con las habilidades
básicas para manejar las historias de Galaxy, y convertirlas en flujos de trabajo
automatizados. Espero que pueda aplicar estas herramientas en su investigación y
compartir lo aprendido con sus colegas.

Diego M. Riaño-Pachón, Abril 2014, Bogotá D.C. 16

View publication stats

También podría gustarte