Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Bioinformática 7
Material basado en presentaciones de
Francisco Flores, Ph.D.
Carlos Noceda
Análisis de genomas
• Obtención de secuencias
• Ensamblaje
• Anotación
Metzker 2010
Secuenciación
Metzker 2010
Secuenciación
Metzker 2010
Plataformas de secuenciación
• Secuenciación de primera generación (Sanger)
• Secuenciación de segunda generación/Next Generation Sequencing (NGS) ó
Massively parallel sequencing
• Secuenciación de tercera generación– single molecule
PacBio
Oxford Nanopore Rhoads and Fai (2015) Genomics, Proteomics & Bioinformatics (13) 278-
289
• Millones de piezas
Corto
Larg
o
Sequencing depth
Mientras el genoma se secuencia al azar, nos interesa conocer:
Qué “cantidad del genoma” es secuenciado?
Cobertura (Coverage): c = N * L / G
N= Número de secuencias, L= tamaño de las secuencias , G= tamaño
del genoma
Distribución de poisson: P(y) = (λy * e-λ ) / y! =(cy * e-c ) / y!
(y= número de veces que se lee una base dada c)
Probabilidad de que una base no sea secuenciada P(y=0) = e-C
Introducción a la
Bioinformática 8
Material basado en presentaciones de
Francisco Flores, Ph.D.
Carlos Noceda
Análisis de genomas
• Obtención de secuencias
• Ensamblaje
• Anotación
Metzker 2010
Secuenciación
Metzker 2010
Secuenciación
Metzker 2010
Plataformas de secuenciación
• Secuenciación de primera generación (Sanger)
• Secuenciación de segunda generación/Next Generation Sequencing (NGS) ó
Massively parallel sequencing
• Secuenciación de tercera generación– single molecule
PacBio
Oxford Nanopore Rhoads and Fai (2015) Genomics, Proteomics & Bioinformatics (13) 278-
289
• Millones de piezas
Corto
Larg
o
Sequencing depth
Mientras el genoma se secuencia al azar, nos interesa conocer:
Qué “cantidad del genoma” es secuenciado?
Cobertura (Coverage): c = N * L / G
N= Número de secuencias, L= tamaño de las secuencias , G= tamaño
del genoma
Distribución de poisson: P(y) = (λy * e-λ ) / y! =(cy * e-c ) / y!
(y= número de veces que se lee una base dada c)
Probabilidad de que una base no sea secuenciada P(y=0) = e-C
Not really random
El contenido de GC varia a
través del genoma, el
sequencing depth también
varía.
Regiones ricas en AT como
regiones de promotores (por
ejemplo TATA box)
generalmente tienen baja
profundidad de alineamientos
de mapeo y a veces no pueden
ser ensamblados.
Con tecnologías de secuencias
pequeñas profundidad de
alineamientos de mapeo que se
necesita para tener un
ensamblaje confiable es de 40x.
• BoxWhiskers (Diagrama de
Caja)
• Linea central en el box es la
media
• Caja amarilla son los quartiles
internos de 25-75%
• Los whiskers (bigotes)
representan puntos al 10% y
90%
• La linea azul es la calidad
promedio de los reads
• Warning
• Aparece una advertencia cuando
el cuartil inferior de cualquier
base es menor que 10
Entendiendo Fastqc report
• La calidad de cada
secuencia permite ver
si algún grupo de
secuencias tienen baja
calidad <30.
Entendiendo Fastqc report
• Ambiguedad
Se remueven los Ns
• Adaptores
Remueven los adaptores
• Tamaño
Se remueven secuencias de un tamaño inferior algún tamaño de interés.
• Corregir errores
Algunos secuenciadores tienen errores que con algunos programas se
corrigen.
Anotación de Genomas
Annotation
Plant Genomes – Total Size
Wheat
Qué es un genoma?
• Una colección de
• genes
• que codifican productos proteicos
• que codifican RNAs
• pseudogenes
• regiones no codificantes
• regulatorias (expresión)
• estructurales
• anclaje a matriz nuclear
• mitosis / meiosis
• elementos repetitivos
Qué es anotar?
• Agregar información, de la manera más confiable y
actualizada que se pueda para describir una secuencia
• Información asociada a coordenadas genómicas
(comienzo..fin), a distintos niveles
• Interpretar la información cruda de secuencia en un marco
biológico
Resumen
Columns:
The biggest problem with GFF3 is not the format, but that people take so
many liberties with it.
http://www.sequenceontology.org/gff3.shtml
Resumir resultados de análisis
• Guardar el reporte crudo de un BLAST (lista de hits,
alineamientos) es demasiado
• Prácticamente cualquiera de los análisis que se
realizan sobre DNA o proteínas para anotar un genoma
pueden resumirse en:
• secuencia start end
• cromosoma1 1723 3456
Contig1 similarity blastx 100 1000 +1 132 gi|12345|AF34093 casein kinase ...
Proteína 1BKB
Propiedades de los aminoácidos
Ejercicio
• Encontrar la secuencia de un transportador ABC en
https://www.rcsb.org/search, y correrla en tres
distintos programas de predicción de estructura
secundaria y de segmentos transmembrana
• Online Analysis Tools - Protein Secondary Structure
(molbiol-tools.ca)
• Observar la calidad de las predicciones y comentar
sobre los distintos programas utilizados
• HMMTOP predice estructura secundaria de
proteínas transmembrana utilizando HMMs. Cuáles
son los estados de este modelo?
Introducción a la
Bioinformática 9
Material basado en presentaciones de
Francisco Flores, Ph.D.
Carlos Noceda
Estructuras proteicas terciarias
• Determinación experimental
• Cristalografia de rayos X
• Utilizada para la determinación del 80% de las estructuras
• Requiere alta concentración de proteína
• Requiere cristales
• Puede encontrar cadenas laterales de aminoácidos
• Primera estructura resuelta: Mioglobina
• Resonancia Magnética Nuclear
• Campo magnético aplicado a la proteína en solución
• Se puede resolver estructuras de hasta 350 aminoácidos
• No requiere cristalización
• Microscopía electrónica
Determinación experimental
2.Enhebrar (Threading)
Las tecnologías de secuenciación de nueva generación han revolucionado el campo de la genómica, permitiendo la secuenciación
de un gran número de genomas en muy poco tiempo. La tecnología 454, conocida como pirosecuenciación, fue la primera NGS en
salir al mercado entre los años 2004 y 2005. A continuación, surgieron Illumina en 2006, basada en secuenciación por síntesis,
SOLiD en 2007, basada en secuenciación por ligación, y Ion Torrent en el año 2010, basada en detección de pH, las cuales
necesitan de la amplificación del ADN previamente a su secuenciación. Además, se han desarrollado tecnologías que no necesitan
del paso inicial de amplificación, sino que secuencian directamente una sola molécula de ADN, entre las que se encuentran
Helicos, salida al mercado en 2008 y SMRT Pacific Biosciences (PacBio) en 2010. Los datos de NGS generalmente son
secuencias cortas 100-300 pb (a excepción de los producidos por PacBio), que representan un reto desde el punto de vista
computacional para su ensamblaje, debido a la longitud y la enorme cantidad de secuencias. Al proceso de descifrar la secuencia
genómica a partir de pequeños fragmentos de ADN, en conjunto con alguna información adicional disponible, se le denomina
ensamblaje de genomas. Las estrategias para el ensamblaje de genomas se pueden dividir en dos categorías: ensamblaje por
comparación, en el que se utiliza un genoma como referencia; y ensamblaje de novo, en el cual se utiliza solo la información
obtenida de la secuenciación para reconstruir el genoma en cuestión, sin conocimiento a priori de la organización del mismo. Sin
embargo, en esta última estrategia algunas informaciones previas son útiles, como la talla esperada del genoma, el contenido de
GC y el contenido de regiones repetitivas, ya que ayudan a elegir la mejor estrategia a seguir. Estos datos pueden ser inferidos a
partir de secuencias de organismos relacionados. El ensamblaje de novo con datos de NGS se limita generalmente a proyectos de
genomas microbianos debido a su pequeña talla. Las estrategias empleadas por los programas ensambladores de secuencias
pueden agruparse en tres paradigmas principales: Greedy, Overlap-Layout-Consensus y gráficos de Bruijn.
El proceso de anotación de genomas consiste en determinar donde están presentes los diferentes elementos funcionales del
genoma. Existen disponibles plataformas para la anotación automática de genomas procariotas.
OBJETIVOS:
Obtener ensamblajes de novo de un genoma microbiano a partir de datos de secuenciación de nueva generación utilizando
gráficos de Bruijn.
Anotar la secuencias ensamblada
MATERIALES:
EQUIPOS: Computador
MUESTRA:
Un subset de los datos de secuenciación paired-end (forward reads 150 pb, reverse reads 152 pb) obtenido de
https://www.ncbi.nlm.nih.gov/sra/?term=ERR101899 , pertenecientes a un aislado de clínico de Staphylococcus aureus (ST22)
UNIVERSIDAD DE LAS FUERZAS ARMADAS – ESPE
CÓDIGO: SGC.DI.505
VERSIÓN: 1.0
DEPARTAMENTO DE CIENCIAS DE LA VIDA Y LA AGRICULTURA FECHA ULTIMA
REVISIÓN: 26/10/16
INSTRUCCIONES:
- Crear una máquina virtual con sistema operativo Linux (Ubuntu) en Virtualbox (https://www.virtualbox.org/) o utilizar Linux
desde memoria flash (https://www.techspot.com/guides/809-run-linux-from-usb-drive/). Creamos máquina virtual (VM) en
“New”, para Ubuntu. Todas las opciones por defecto (“size” puede llevarse hasta el fin de la línea verde). Una vez creada,
doble click en la VM.
- Vamos a cargar el .iso de Ubuntu Mate (https://ubuntu-mate.org/download/amd64/focal/). Si no funciona, puede que haya
que ir a la BIOS a habilitar la opción de VMs. Si esto es así, hay que comenzar creando de nuevo la VM.
- Tras la carga del iso, opción: “Install Ubuntu mate”. Todo por defecto hasta introducir credenciales. Si solicita remover medio
de instalación, removerlo (si se ha hecho desde el disco duro, cortar los instaladores y pegarlos en otro sitio).
- Crear MATE Terminal (para línea de comandos) (buscar en menú, y crear acceso directo con “pin to desktop”).
- Instalar guest aditions (para arrastrar ficheros de Windows/Mc a Ubuntu) en virtualbox (https://www.tecmint.com/install-
virtualbox-guest-additions-in-ubuntu/): seguir las instrucciones de la web. Si finalmente no funciona el arrastre de ficheros
hay que reiniciar la VM.
- Familiarizarse con los comandos usados en un sistema operativo UNIX. Se trata de utilizar comandos escritos en la consola
del sistema operativo (llamado “terminal”, en linux) en lugar de utilizar el explorador de Windows y el mouse como
herramienta point and click.
- Ingresar a la línea de comando en Linux en la opción de búsqueda del Menu escribir “terminal” e ingresar al terminal desde
donde podemos empezar a escribir el código.
Algunos comandos básicos:
o pwd indica la ruta de la carpeta donde se encuentra
o cd nombre_de_la_carpeta se utiliza para cambiar al directorio
o cd volver a la carpeta “home”
o cd .. regresar a la carpeta anterior
o ls indica los archivos presentes en la carpeta
- Crear una nueva carpeta (Ensamblaje) donde se va a realizar la practica: mkdir Ensamblaje
- Entrar a la carpeta ensamblaje (cd Ensamblaje) y crear tres directorios: Datos, Programas, Databases
- Instalar todos los programas en la carpeta Programas
- Descargar, en Programas, y configurar SRAtoolkit (https://github.com/ncbi/sra-tools/wiki) que permite descargar datos
desde el SRA:
wget --output-document sratoolkit.tar.gz http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-ubuntu64.tar.gz
- Descomprimir:
tar -xvzf sratoolkit.tar.gz
- Establecer ruta de comandos, ejecutables: ejemplo (la ruta real se puede ver entrando en un fichero de bin (comandos):
export PATH=$PATH:/home/carlos/Ensamblaje/Programas/sratoolkit.3.0.0-ubuntu64/bin
Esa ruta hay que establecerla cada vez que se abre el terminal.
(Para ver dónde están los archivos ejecutables actuales: echo $PATH)
- Configurar sratoolkit https://github.com/ncbi/sra-tools/wiki/05.-Toolkit-Configuration
vdb-config -i
Enable Remote Access
En Cache: enable Local-file caching
Configurar carpeta de descarga incluyendo la ruta hacia la carpeta Datos en "Location of user-repository"
#Instalar FastQC
wget https://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.9.zip
unzip fastqc_v0.11.9.zip
cd FastQC
chmod 755 fastqc
##Instalar Trimmomatic
wget http://www.usadellab.org/cms/uploads/supplementary/Trimmomatic/Trimmomatic-0.39.zip
unzip Trimmomatic-0.39.zip
#Instalar Bbmap
Descargar directamente del website y meterlo en Programas
cd Programas (ruta)
tar -xvzf BBMap_38.97.tar.gz
sudo apt install bbmap
#Instalar Spades
wget http://cab.spbu.ru/files/release3.15.1/SPAdes-3.15.1-Linux.tar.gz
tar -xzvf SPAdes-3.15.1-Linux.tar.gz
De ser necesario cambiar ruta de shebang a ruta de python3 (which python3) e instalar distutils (sudo apt install python3-
distutils)
ACTIVIDADES POR DESARROLLAR:
1) Ensamblaje
a. Descargar secuencias desde Datos (a Datos):
fastq-dump --split-files ERR101899
- Si no se descargan los archivos paired end en formato fastq, se pueden descargar los archivos direcatamente desde ENA
https://www.ebi.ac.uk/ena/browser/view/err101899
- Se pueden revisar los archivos utilizando los códigos head –n 8 o tail –n 8 (8 primeras o últimas líneas, por ejemplo) (se
puede revisar nomenclatutra en tutoriales Linux)
b. Escoger 10% de las secuencias de ERR101899_1.fastq y de ERR101899_2.fastq utilizando script random.py en cada uno
de los dos archivos. Para ello, crear en Pluma:
# File: random.py
record_number = 0
with open("/home/carlos/Ensamblaje/Datos/ERR101899_2.fastq") as input:
with open("/home/carlos/Ensamblaje/Datos/ERR101899_2red.fastq", "w") as output:
for line1 in input:
line2 = input.readline()
line3 = input.readline()
line4 = input.readline()
if record_number % 10 == 0:
output.write(line1)
output.write(line2)
UNIVERSIDAD DE LAS FUERZAS ARMADAS – ESPE
CÓDIGO: SGC.DI.505
VERSIÓN: 1.0
DEPARTAMENTO DE CIENCIAS DE LA VIDA Y LA AGRICULTURA FECHA ULTIMA
REVISIÓN: 26/10/16
output.write(line3)
output.write(line4)
record_number += 1
Salvar en “Ensamblaje” con el nombre random.py. Correr random.py, con el siguiente código desde le línea de comando,
desde su directorio (o si es necesario crear una ruta (PATH) hacia el script):
python3 random.py
o hacer ejecutable a random.py, reemplazando el shebang en el script (# File: random.py) por #!/usr/bin/env python3 y
luego correr el comando:
chmod +x random.py
Desde Trimmomatic:: Todo junto (ojo con los espacios para los paths):
export PATH=/home/carlos/Ensamblaje/Programas/bbmap:$PATH
/home/carlos/Ensamblaje/Programas/bbmap/dedupe.sh in1=/home/carlos/Ensamblaje/Datos/FP.fq.gz
in2=/home/carlos/Ensamblaje/Datos/RP.fq.gz out=/home/carlos/Ensamblaje/Datos/ded.fq.gz
outd=/home/carlos/Ensamblaje/Datos/dup.fq.gz ac=f
g. Reformatear para volver a generar dos archivos pareados con reformat.sh de bbmap:
reformat.sh in=/home/carlos/Ensamblaje/Datos/ded.fq.gz out1=/home/carlos/Ensamblaje/Datos/FPded.fq.gz
out2=/home/carlos/Ensamblaje/Datos/RPded.fq.gz
spades.py –test
2) Anotación
1. Revisar y aplicar programas disponibles en línea para la anotación de genomas bacterianos. Sugerencia: Revisar semana 3
del curso https://www.coursera.org/learn/informatics/home/welcome
Ejemplo programas que se puede utilizar:
-Dfast
-Prokka en kBase
-PATRIC mejor pero hay que crear usuario: Arrastrar los ficheros originales o reducidos, o los contigs (de la manera indicada
en el sitio), a Workspace. Después, Servicios y luego Comprehensive genome analyses. Se puede hacer todo el proceso
hecho antes con Linux (ficheros originales o reducidos), o sólo la anotación (contigs).
El servidor demora. Después,. Workspeaces y my genome
Para subir a Genebank: bajar annotated genome y subir.
RESULTADOS OBTENIDOS:
El estudiante debe ser capaz de responder las siguientes preguntas:
¿Qué problemas se pueden evidenciar con el control de calidad realizado en los datos de secuenciación?
¿Cuántos contigs tiene el genoma ensamblado?
¿Cómo podría mejorar el ensamblaje?
¿Qué porcentaje del genoma de S. aureus se ensambló?
¿Cuántos genes se anotaron en su ensamblaje?
CONCLUSIONES:
Un control de calidad y pre-procesamiento de los datos de secuenciación es vital para eliminar secuencias de baja calidad y
adaptadores o secuencias contaminantes, los cuales pueden afectar los resultados del ensamblaje.
Cuando se usa el algoritmo de ensamblaje basado en gráficos de Bruijn, el parámetro más importante a tomar en cuenta es el
tamaño de kmer, el cual servirá de base para encontrar el mejor ensamblaje.
La comparación de ensamblajes utilizando parámetros de integridad (predicción de genes), aparte de las estadísticas de
longitud (N50, NG50, …), sirve de guía para encontrar un ensamblaje más completo.
UNIVERSIDAD DE LAS FUERZAS ARMADAS – ESPE
CÓDIGO: SGC.DI.505
VERSIÓN: 1.0
DEPARTAMENTO DE CIENCIAS DE LA VIDA Y LA AGRICULTURA FECHA ULTIMA
REVISIÓN: 26/10/16
RECOMENDACIONES:
FIRMAS