Documentos de Académico
Documentos de Profesional
Documentos de Cultura
net/publication/261641405
CITATIONS READS
0 1,760
1 author:
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
All content following this page was uploaded by Diego Mauricio Riaño-Pachón on 16 April 2014.
Trazabilidad
“Se entiende trazabilidad como el conjunto de aquellos procedimientos
preestablecidos y autosuficientes que permiten conocer el histórico, la
ubicación y la trayectoria de un producto o lote de productos a lo largo de la
cadena de suministros en un momento dado, a través de unas herramientas
determinadas.”
Comité de Seguridad Alimentaria de AECOC http://es.wikipedia.org/wiki/Trazabilidad
Usando Galaxy
Servidores
públicos
El proyecto Galaxy tiene varios servidores públicos, la lista se puede consultar en:
UniAndes
El Departamento de Ciencias Biológicas de la Universidad de los Andes tiene instalado
un servidor experimental de Galaxy ubicado en http://biosge.uniandes.edu.co:8080/, que
estará disponible solamente para el desarrollo de este taller.
1
http://nar.oxfordjournals.org/content/38/6/1767.long
2
http://en.wikipedia.org/wiki/FASTQ_format
Existen varios dialectos del formato FastQ, que difieren en el rango de símbolos usados
para representar la calidad de las bases. Hoy en día la mayoría de equipos modernos de
secuenciación usan un dialecto al que comúnmente se le denomina FastQ Sanger o
Phred+33. Las secuencias que hemos cargado en el sistema fueron generadas hace ya un
tiempo y están en un dialecto que se conoce como Phred+64Phred+33, para esto
usaremos el programa Fastq_groomer (Figura 5). Hay que correr el fastq_grommer para
cada uno de los archivos en formato FastQ que cargó anteriormente. Asegúrese que la
opción “Input FASTQ quality scores types” aparece como “Illumina
1.3-1.7”.
Recuerde, puede enviar un trabajo enseguida del otro, i.e., no tiene que esperar a que
uno termine para iniciar el siguiente.
Figura 7. FastQC - Distribución de calidad por posición en un conjunto de datos. Antes de la limpieza.
La Figura 8 muestra la proporción de cada nucleótido para cada posición en todas las
lecturas de secuenciación. Lo que se espera es que la curva para cada nucleótido sea
estable a lo largo de la lectura, i.e., que la probabilidad de encontrar cada uno de los
nucleótidos sea constante a lo largo de la lectura. Esto no se cumple principalmente para
los primeros 10 nucleótidos (extremo 5’), en este caso esto se debe a que las secuencias
están incluyendo algunos “barcodes”. Tenemos que eliminar esos primeros 10 nt de
todas las lecturas.
Los resultados de FastQ son importantes por que nos permiten tomar decisiones sobre el
siguiente paso, que es la limpieza de las secuencias. En este ejercicio vamos a limpiar
las secuencias con Trimmomatic 3 , un paquete relativamente nuevo, pero que a
diferencia de muchos otros es capaz de limpiar lecturas que son pareadas, manteniendo
ese pareamiento, que es muy importante para, por ejemplo, programas que hacen
mapeamiento contra genomas de referencia. La Figura 9 muestra el cuadro de dialogo
de Trimmomatic, por favor asegúrese que los siguiente parámetros aparecen de la forma
indicada:
Paired end reads?: Checked
Direction 1 fastq reads to trim: FastQ Groomer on data 1
Direction 2 fastq reads to trim: FastQ Groomer on data 2
Quality encoding: phred33
Clip Illumina adapters?: Checked
Fasta of adapters to clip: adapters.fasta
Perform Sliding Window trimming?: Checked
Average quality required: 20
Trim leading bases?: Not Checked
Trim trailing bases?: Checked
Minimum quality: 20
Crop reads?: Not Checked
Crop starts?: Checked
Number of bases: 10
Minimum length read: 50
3
http://www.usadellab.org/cms/?page=trimmomatic
4
http://www.ebi.ac.uk/~zerbino/velvet/
5
http://kmergenie.bx.psu.edu/
Una vez terminado de correr el velvetg revise la salida llamada “Contig Stats” y
compare sus resultados con sus compañeros. Descargue el archivo de Contigs a su
computador, lo necesitará mas adelante para visualizar los datos de mapeamiento.
Para evaluar el cubrimiento vamos hacer un mapeamiento de las lecturas limpias contra
el contig de nuestro plásmido. Para esto usaremos la herramienta Bowtie2. Antes de
poder usar el Bowtie2, debemos pasar las secuencias limpias (salida de Trimmomatic)
por el FastQ Grommer, asegúrese de seleccionar la opción “Input FASTQ
quality score type: Sanger & Illumina 1.8+”
Figura 11. Ejecutar FastQ Grommer sobre los archivos de lecturas limpios (después de ejecutar Trimmomatic)
Ahora, podemos correr Bowtie2. Vamos a usar datos pareados, ajuste apropiadamente
el parámetro “Is this library mate-paired?:”, y selecciones los dos archivos FastQ que
obtuvo en el paso anterior. Para el parámetro “Will you select a reference genome from
your history or use a built-in index?:” seleccione “Use one from the history”; y seleccione
como genoma de referencia el archivo de contigs que produjo velvetg usando un
k=85, Figura 12.
El mapeamiento por Bowtie2, genera 2 archivos, con las extensiones BAM y BAI
respectivamente por favor descárguelos a su computador. Vamos a visualizar ese
resultado en el Integrative Genomics Viewer6 un programa desarrollado por el Broad
Institute.
6
http://www.broadinstitute.org/igv/home
En este punto tenemos una representación del genoma del plásmido en el programa
IGV. El genoma, en muchos navegadores de genomas, se representa como una línea
recta, como una regla. Sobre esa representación se pueden agregar diferentes “tracks”,
con diferentes tipos de información; pro ejemplo, gene anotados, cubrimiento de
secuenciación, etc. En este ejercicio vamos a visualizar el mapeamiento de las lecturas
al contig ensamblado. Para eso ubique el menú “File” y seleccione la opción “Load
From File”, en el cuadro de diálogo que se muestra navegue en el árbol de
directorios hasta encontrar el archivo BAM que descargó anteriormente (debe estar en
su carpeta de descargas; Figura 13).
El resultado es una lista de los genes predichos en el plásmido, junto con sus
coordenadas y las secuencia de los transcritos.
7
http://ccb.jhu.edu/software/glimmer/index.shtml
Haga click en el triangulo que aparece a la derecha del nombre de su flujo de trabjao y
seleccione “Edit”, esto iniciará el Editor de Fluos de Trabajo en Galaxy. Cada cuadro en
el editor representa un procedimiento. Al seleccionar uno de ellos, esté quedará rodeado
por una línea azul y en el panel izquierdo aparecen las opciones de configuración de esa
herramienta (Figura 17).
En este punto hay tres entradas en el flujo de trabajo, y todas se llaman “Input dataset”,
esto puede crear problemas, así que vamos a cambiarles el nombre. Las entradas de
archivos de lecturas se deben llamar “Lecturas1” y “Lecturas2”, y la entrada con los
adaptadores se debe llamar “Adaptadores”.
Con esto terminamos este taller introductorio, usted debe contrar con las habilidades
básicas para manejar las historias de Galaxy, y convertirlas en flujos de trabajo
automatizados. Espero que pueda aplicar estas herramientas en su investigación y
compartir lo aprendido con sus colegas.