Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Filtre las secuencias de tal manera que sólo quede la parte alineada
mothur > filter.seqs(fasta=stability.good.unique.good.align, vertical=T, trump=.)
Nombre los archivos de salida:
R1:/
R2:/
En la ventana Linux revise el archivo de salida stability.good.unique.good.filter.fasta. Cómo se
diferencia del anterior?
R:/
Después del proceso de alineamiento y de filtrado, en el cual hemos ajustado las secuencias sólo a la región de
interés, es posible que hayamos generado redundancia, por tanto es recomendable correr unique.seqs de nuevo.
mothur > unique.seqs(fasta=stability.good.unique.good.filter.fasta,
count=stability.good.good.count_table)
Se encontró nueva redundancia? En cuanto se disminuyó el número de secuencias únicas?
R:/
REMOCIÓN DE SECUENCIAS RESULTADO DE ERRORES DE SECUENCIA (pre-cluster)
En este procedimiento se busca eliminar secuencias que probablemente sean el resultado de errores de
secuencia/amplicación. La idea es que las secuencias abundantes tienden a generar más errores de secuencia que
las secuencias raras, por tanto aquellas secuencias con errores por debajo de un punto de corte se agrupan entre si.
En este caso agrupamos secuencias con un máximo de diferencia de 2 sustituciones.
mothur > pre.cluster(fasta=stability.good.unique.good.filter.unique.fasta,
count=stability.good.unique.good.filter.count_table, diffs=2)
BÚSQUEDA DE QUIMERAS
En el proceso de amplificación por PCR es posible que se hayan generado secuencias quiméricas. En vista de que son
un error de PCR, su impacto debe ser minimizado en los resultados.
https://en.wikipedia.org/wiki/Chimera_(EST)#PCR_chimera
mothur > chimera.vsearch(fasta=stability.good.unique.good.filter.unique.precluster.fasta,
count=stability.good.unique.good.filter.unique.precluster.count_table, dereplicate=t)
Se encontraron quimeras en los datos?
R:/
El paso anterior remueve las secuencias quiméricas del archivo de conteos, pero no las remueve del archivo fasta,
eso lo logramos por medio del comando:
mothur > remove.seqs(fasta=stability.good.unique.good.filter.unique.precluster.fasta,
accnos=stability.good.unique.good.filter.unique.precluster.denovo.vsearch.accnos)
Cuantas secuencias fueron removidas del archivo fasta?
R:/
Cual es el nombre del archivo resultante?
R:/
CLASIFICACIÓN DE SECUENCIAS
Este paso de clasificación busca determinar la afiliación taxonómica generalizada de cada secuencia. Con base en
esta clasificación es posible remover secuencias que en principio no deberían estar en los datos y también es posible
simplificar los pasos de agrupamiento (clustering) en pasos posteriores. En este caso realizaremos la clasificación
con base a la base de datos de Greengenes. La clasificación se realiza por medio de un clasificador bayesiano.
mothur > classify.seqs(fasta=stability.good.unique.good.filter.unique.precluster.pick.fasta,
count=stability.good.unique.good.filter.unique.precluster.denovo.vsearch.pick.count_table,
reference=DB/gg_13_8_99.fasta, taxonomy=DB/gg_13_8_99.gg.tax, cutoff=80)
Nombre los archivos de salida:
R1:/
R2:/
En la ventana Linux revise estos dos archivos de salida:
> less stability.good.unique.good.filter.unique.precluster.pick.gg.wang.taxonomy
> less stability.good.unique.good.filter.unique.precluster.pick.gg.wang.tax.summary
REMOCIÓN DE TAXA INESPECÍFICA
mothur > remove.lineage(fasta=stability.good.unique.good.filter.unique.precluster.pick.fasta,
count=stability.good.unique.good.filter.unique.precluster.denovo.vsearch.pick.count_table,
taxonomy=stability.good.unique.good.filter.unique.precluster.pick.gg.wang.taxonomy,
taxon=c__Chloroplast-f__mitochondria-k__Archaea)
CÓMPUTO DE MATRIZ DE DISTANCIA
mothur > dist.seqs(fasta=stability.good.unique.good.filter.unique.precluster.pick.pick.fasta,
cutoff=0.03)
AGRUPAMIENTO DE SECUENCIAS PARA CÓMPUTO DE OTUs
mothur > cluster(column=stability.good.unique.good.filter.unique.precluster.pick.pick.dist,
count=stability.good.unique.good.filter.unique.precluster.denovo.vsearch.pick.pick.count_table)
DETERMINACIÓN DE OTUs COMPARTIDAS ENTRE MUESTRAS
mothur >
make.shared(list=stability.good.unique.good.filter.unique.precluster.pick.pick.opti_mcc.list,
count=stability.good.unique.good.filter.unique.precluster.denovo.vsearch.pick.pick.count_table,
label=0.03)
Archivo de salida:
stability.good.unique.good.filter.unique.precluster.pick.pick.opti_mcc.shared
CLASIFICACIÓN DE OTUs
mothur >
classify.otu(list=stability.good.unique.good.filter.unique.precluster.pick.pick.opti_mcc.list,
count=stability.good.unique.good.filter.unique.precluster.denovo.vsearch.pick.pick.count_table,
taxonomy=stability.good.unique.good.filter.unique.precluster.pick.gg.wang.pick.taxonomy,
label=0.03)
Archivos de salida:
stability.good.unique.good.filter.unique.precluster.pick.pick.opti_mcc.0.03.cons.taxonomy
stability.good.unique.good.filter.unique.precluster.pick.pick.opti_mcc.0.03.cons.tax.summary
CREACIÓN DE ARCHIVO BIOM
mothur > make.biom(shared=
stability.good.unique.good.filter.unique.precluster.pick.pick.opti_mcc.shared, constaxonomy=
stability.good.unique.good.filter.unique.precluster.pick.pick.opti_mcc.0.03.cons.taxonomy)
Archivo de salida
stability.good.unique.good.filter.unique.precluster.pick.pick.opti_mcc.0.03.biom
En la ventana Linux renombre el archivo biom de la siguiente manera:
> mv stability.good.unique.good.filter.unique.precluster.pick.pick.opti_mcc.0.03.biom
stability.biom
Examine la estructura del archivo biom
> less stability.biom
GRÁFICA DE ALFA-DIVERSIDAD
Cree una gráfica de barras de la estructura taxonómica obtenida en el paso de CLASIFICACIÓN DE OTUs
> perl /scripts/AlfaDiversidadBarras.pl -consTaxSummary
stability.good.unique.good.filter.unique.precluster.pick.pick.opti_mcc.0.03.c
ons.tax.summary -taxLevel 5
TRANSFIERA LA GRAFICA DE ALFA-DIVERSIDAD A WINDOWS
> docker cp contenedorID:/DIVERSIDAD_16S/ FD4_F1_R1.clean_fastqc.html
EXAMINE LA SECCIÓN MISCELANEOS AL FINAL DE ESTA GUIA Y SIGA LAS INDICACIONES DEL INSTRUCTOR
METAGENOMICA
ENSAMBLAJE Y ANOTACIÓN
Para esta parte del taller haremos un ensamblaje de secuencias “metagenómicas” provenientes de un cultivo
bacteriano cuyo origen es suelo que ha sido expuesto a contaminación con hidrocarburos.
Se realizará ensamblaje de secuencias, anotación del genoma y visualización de funciones y metabolismo presente
en la muestra.
En la ventana Linux, mueva el cursor a la carpeta METAGENOMA
> cd /METAGENOMICA
ENSAMBLAJE DE METAGENOMA CON SPADES
> spades.py --meta -1 r1.clean.fastq.gz -2 r2.clean.fastq.gz -t 2 -o ASSEMBLY
Este paso puede durar una hora o poco más de una hora.
Mueva el cursor a la carpeta ASSEMBLY
> cd ASSEMBLY
EVALUACIÓN DE LOS ENSAMBLAJES:
> perl /scripts/assemblathon_stats_MOD.pl K21/final_contigs.fasta
> perl /scripts/assemblathon_stats_MOD.pl K33/final_contigs.fasta
> perl /scripts/assemblathon_stats_MOD.pl K55/final_contigs.fasta
Evalúe los siguientes parámetros para cada uno de los valores de “k” utilizados por el ensamblador:
Number of scaffolds > 1K nt:
Number of scaffolds > 10K nt:
Number of scaffolds > 100K nt:
Number of scaffolds > 1M nt:
Number of scaffolds > 10M nt:
N50 scaffold length:
ANOTACIÓN DE METAGENOMA CON PROKKA
> /root/prokka/bin/prokka --cpus 2 scaffolds.fasta
Este paso debe tomar unos 10 o 15 minutos.
Mueva el cursor a la carpeta PROKKA_07152109
> cd PROKKA_07152109
EXTRAIGA LAS ANOTACIONES EC DE LOS RESULTADOS
> grep "eC_number=" PROKKA_07152019.gff | cut -f9 | cut -f1,2 -d ';'| sed
's/ID=//g'| sed 's/;eC_number=/\t/g' > PROKKA_07152019.ec
IMPORTAR DATOS A KRONA - MetaCyc
> ktImportText -o PROKKA_07152019.krona.metacyc.minpath.html
PROKKA_07152019.krona.metacyc.minpath.tab
IMPORTAR DATOS A KRONA - Kegg
> ktImportText -o PROKKA_07152019.krona.kegg.minpath.html
PROKKA_07152019.krona.kegg.minpath.tab
PARA SABER MÁS:
Guia mothur:
La parte inicial de esta guía está basada en el Procedimiento de Operación Estándar de mothur creado por Pat
Schloss, el cual se puede consultar en este vínculo:
https://www.mothur.org/wiki/MiSeq_SOP
La parte de anotación de esta guía está basada en este post de anotación funcional
https://github.com/EnvGen/metagenomics-workshop/blob/master/source/annotation/functional_annotation.rst
MISCELANEOS
Instalación de QIIME:
https://docs.qiime2.org/2019.4/install/native/
Con el archivo BIOM creado en mothur y el archivo stability.mapping.txt, es posible importar los datos a QIIME y
aprovechar las herramientas de visualización disponibles en QIIME.
Conversión de archivo BIOM a archivo de OTUs de QIIME2.
> qiime tools import --type 'FeatureTable[Frequency]' --input-path
stability.biom --output-path stability.OTU-Table.qza --input-format
BIOMV100Format
Cómputo de estadísticas de OTUs:
> qiime feature-table summarize --i-table stability.OTU-Table.qza --m-sample-
metadata-file stability.mapping.txt --o-visualization table.qzv
Cómputo de rarefacción:
> qiime diversity alpha-rarefaction --i-table stability.OTU-Table.qza --p-
max-depth 99 --m-metadata-file stability.mapping.txt --o-visualization
alpha-rarefaction.qzv
Cómputo de métricas principales:
> qiime diversity core-metrics --i-table stability.OTU-Table.qza --m-
metadata-file stability.mapping.txt --p-sampling-depth 99 --p-n-jobs 4 --
output-dir core-metrics-results
OTUs – Diferencias entre tratamientos:
> qiime diversity alpha-group-significance --i-alpha-diversity core-metrics-
results/observed_otus_vector.qza --m-metadata-file stability.mapping.txt --o-
visualization core-metrics-results/observed_otus-group-significance.qzv
Equitabilidad:
> qiime diversity alpha-group-significance --i-alpha-diversity core-metrics-
results/evenness_vector.qza --m-metadata-file stability.mapping.txt --o-
visualization core-metrics-results/evenness-group-significance.qzv
Distancia Jaccard - tratamiento:
> qiime diversity beta-group-significance --i-distance-matrix core-metrics-
results/jaccard_distance_matrix.qza --m-metadata-file stability.mapping.txt -
-m-metadata-column TRATAMIENTO --p-pairwise --o-visualization core-metrics-
results/jaccard-TRATAMIENTO-group-significance.qzv