Bioin

Introducción a la
Bioinformática 7
Material basado en presentaciones de
Francisco Flores, Ph.D.
Carlos Noceda
Análisis de genomas
• Obtención de secuencias
• Ensamblaje
• Anotación
Jeffrey y Maureen 2011 http://gcat.davidson.edu/phast/ http://big.crg.cat/

Obtención de secuencias
• Preparación de la secuencia molde (template)
• Fragmentación
• Adaptadores
• Inmovilización
• Clonaje (puede generar mutaciones)
• Cadena única
• Secuenciación
• Terminación cíclica reversible
• Adición de nucleótidos individuales
• Secuenciación en tiempo real
• Digitalización (imaging)
• Digitalización a cuatro colores de eventos moleculares
individuales
• Análisis de datos
Preparación de la secuencia
molde
Metzker 2010
Secuenciación
Metzker 2010
Secuenciación
Metzker 2010
Plataformas de secuenciación
• Secuenciación de primera generación (Sanger)
• Secuenciación de segunda generación/Next Generation Sequencing (NGS) ó
Massively parallel sequencing
• Secuenciación de tercera generación– single molecule
Plataforma Tamaño de secuencia Capacidad

(read)
454 FLX/FLX+ Up to 1,000 bp +
(discontinued)
Ion Torrent / Proton 100-400 bp +++
SOLiD 50-75 bp +++
Illumina HiSeq 100-300 bp +++
Pacbio 10Kb, up to 50Kb ++
Hoy discutiremos mayormente Illumina y PacBio

Portafolio de Illumina
Otras plataformas
PacBio
Oxford Nanopore Rhoads and Fai (2015) Genomics, Proteomics & Bioinformatics (13) 278-
289
Tecnología Tamaño Tiempo Total de Precisión

máximo Corrida información
PacBio 60 Kb 1-4 h 1-10 Gb 99.9%
Oxford 2 Mb 1-48h 50 Gb 95%
Nanopore (record)
Illumina 600 pb (300 11-40h 1.2-6000Gb 99.9%
pb PE)
Magi et al. (2017) Briefings in bioinformatics, (19) 1256-1272 .

Ensamblaje de genomas
Secuenciación de novo vs.
re-secuenciación
Secuenciación de novo
(genoma desconocido)
Siguiente paso: ensamblaje de

genoma
Preferencias: secuencias largas
(reads)
100 millones de
especies
(ejemplo:filogenia)
Re-secuenciación
(genoma conocido)
Siguiente paso: variant

calling
Preferencias: secuencias
7 billones de individuos confiables
(SNP, personal genomics)
Ensamblaje de genomas=
JIGSAW puzzle
Que tan dificil es un JIGSAW
puzzle
(rompecabezas)
Se tiene que trabajar con:
• Millones de piezas
• Muchas piezas mal formadas
• Muchas piezas estan perdidas
• Piezas mezcladas de otro puzzle
• Muchas piezas que parecen parte

del cielo azul
Credits: Jason Miller, JCVI

Un rompecabezas gigante
De novo vs resecuenciación
Saxena, R. K., Edwards, D., & Varshney, R. K. (2014). Structural variations in

plant genomes. Briefings in functional genomics, 13(4), 296-307.
Genoma reconstruido a partir
de secuencias pequeñas
Corto
Larg
o
Sequencing depth
Mientras el genoma se secuencia al azar, nos interesa conocer:
Qué “cantidad del genoma” es secuenciado?
Cobertura (Coverage): c = N * L / G
N= Número de secuencias, L= tamaño de las secuencias , G= tamaño
del genoma
Distribución de poisson: P(y) = (λy * e-λ ) / y! =(cy * e-c ) / y!
(y= número de veces que se lee una base dada c)
Probabilidad de que una base no sea secuenciada P(y=0) = e-C
Introducción a la
Bioinformática 8
Carlos Noceda
Análisis de genomas
• Obtención de secuencias
• Ensamblaje
• Anotación
Jeffrey y Maureen 2011 http://gcat.davidson.edu/phast/ http://big.crg.cat/

Obtención de secuencias
• Preparación de la secuencia molde (template)
• Fragmentación
• Adaptadores
• Inmovilización
• Clonaje (puede generar mutaciones)
• Cadena única
• Secuenciación
• Terminación cíclica reversible
• Adición de nucleótidos individuales
• Secuenciación en tiempo real
• Digitalización (imaging)
• Digitalización a cuatro colores de eventos moleculares
individuales
• Análisis de datos
Preparación de la secuencia
molde
Metzker 2010
Secuenciación
Metzker 2010
Secuenciación
Metzker 2010
Plataformas de secuenciación
• Secuenciación de primera generación (Sanger)
• Secuenciación de segunda generación/Next Generation Sequencing (NGS) ó
Massively parallel sequencing
• Secuenciación de tercera generación– single molecule
Plataforma Tamaño de secuencia Capacidad

(read)
454 FLX/FLX+ Up to 1,000 bp +
(discontinued)
Ion Torrent / Proton 100-400 bp +++
SOLiD 50-75 bp +++
Illumina HiSeq 100-300 bp +++
Pacbio 10Kb, up to 50Kb ++
Hoy discutiremos mayormente Illumina y PacBio

Portafolio de Illumina
Otras plataformas
PacBio
Oxford Nanopore Rhoads and Fai (2015) Genomics, Proteomics & Bioinformatics (13) 278-
289
Tecnología Tamaño Tiempo Total de Precisión

máximo Corrida información
PacBio 60 Kb 1-4 h 1-10 Gb 99.9%
Oxford 2 Mb 1-48h 50 Gb 95%
Nanopore (record)
Illumina 600 pb (300 11-40h 1.2-6000Gb 99.9%
pb PE)
Magi et al. (2017) Briefings in bioinformatics, (19) 1256-1272 .

Ensamblaje de genomas
Secuenciación de novo vs.
re-secuenciación
Secuenciación de novo
(genoma desconocido)
Siguiente paso: ensamblaje de

genoma
Preferencias: secuencias largas
(reads)
100 millones de
especies
(ejemplo:filogenia)
Re-secuenciación
(genoma conocido)
Siguiente paso: variant

calling
Preferencias: secuencias
7 billones de individuos confiables
(SNP, personal genomics)
Ensamblaje de genomas=
JIGSAW puzzle
Que tan dificil es un JIGSAW
puzzle
(rompecabezas)
Se tiene que trabajar con:
• Millones de piezas
• Muchas piezas mal formadas
• Muchas piezas estan perdidas
• Piezas mezcladas de otro puzzle
• Muchas piezas que parecen parte

del cielo azul

Un rompecabezas gigante
De novo vs resecuenciación
Saxena, R. K., Edwards, D., & Varshney, R. K. (2014). Structural variations in

plant genomes. Briefings in functional genomics, 13(4), 296-307.
Genoma reconstruido a partir
de secuencias pequeñas
Corto
Larg
o
Sequencing depth
Mientras el genoma se secuencia al azar, nos interesa conocer:
Qué “cantidad del genoma” es secuenciado?
Cobertura (Coverage): c = N * L / G
N= Número de secuencias, L= tamaño de las secuencias , G= tamaño
del genoma
Distribución de poisson: P(y) = (λy * e-λ ) / y! =(cy * e-c ) / y!
(y= número de veces que se lee una base dada c)
Probabilidad de que una base no sea secuenciada P(y=0) = e-C
Not really random
El contenido de GC varia a
través del genoma, el
sequencing depth también
varía.
Regiones ricas en AT como
regiones de promotores (por
ejemplo TATA box)
generalmente tienen baja
profundidad de alineamientos
de mapeo y a veces no pueden
ser ensamblados.
Con tecnologías de secuencias
pequeñas profundidad de
alineamientos de mapeo que se
necesita para tener un
ensamblaje confiable es de 40x.
Benjamini and Speed, 2012

Repeticiones son grandes problemas para
el ensamblaje
• Short reads harder to assemble
• Se necesitan secuencias en pares para cubrir las zonas repetitivas

Repeat types
Over 50% of mammalian genomes are repetitive
Large plant genomes tend to be worse
Wheat: 17Gb, Pine: 24Gb
Credits: Mike Schatz, CSHL

Formato FastQ
PHRED Score
Para un buen ensamblaje
Paired end vs mate pairs
• Paired ends significa que vamos a secuenciar de ambos lados del
fragmento. Mientras que “mate pair” significa que vamos a
secuenciar fragmentos circulares. La distancia entre los matepairs
siempre son mas grandes mientras que paired-end usualmente no
son mayors a 500 pares de bases.
Coverage
N50
Métodos de ensamblaje
FASTQC
• Quality trimming
Based on quality scores
Entendiendo Fastqc report
• BoxWhiskers (Diagrama de
Caja)
• Linea central en el box es la
media
• Caja amarilla son los quartiles
internos de 25-75%
• Los whiskers (bigotes)
representan puntos al 10% y
90%
• La linea azul es la calidad
promedio de los reads
• Warning
• Aparece una advertencia cuando
el cuartil inferior de cualquier
base es menor que 10
• La calidad de cada
secuencia permite ver
si algún grupo de
secuencias tienen baja
calidad <30.
• En una librería al azar se

espera que casi no haya
diferencia entre las
diferentes bases de una
secuencia, así que estas
líneas idealmente deberían
ser paralelas. El contenido
relativo de cada base
debería reflejar la cantidad
total de dichas bases en el
genoma, pero en todo caso,
estas no deberían variar
mucho.
• En una librería de secuenciación

al azar se espera que se vean
una distribución normal en
cuanto al contenido de GCs. El
pico central corresponde al
total de GCs en porcentaje en
las secuencias. Al desconocer el
tamaño del genoma, una moda
de contenido GC es calculado
de acuerdo a los datos
observados y es usado como
referencia para comparar con el
contenido GC real.
Estructura de una flow cell:
http://zjuwhw.github.io/2016/08/13/Illumina_sequ
encer.html
Preparar reads para el
ensamblaje
• Calidad
Se cortan las secuencias de acuerdo a la calidad de phred
• Ambiguedad
Se remueven los Ns
• Adaptores
Remueven los adaptores
• Tamaño
Se remueven secuencias de un tamaño inferior algún tamaño de interés.
• Corregir errores
Algunos secuenciadores tienen errores que con algunos programas se
corrigen.
Anotación de Genomas
Annotation
Plant Genomes – Total Size
Human Cotton Barley

Sugarcane
Wheat
Qué es un genoma?
• Una colección de
• genes
• que codifican productos proteicos
• que codifican RNAs
• pseudogenes
• regiones no codificantes
• regulatorias (expresión)
• estructurales
• anclaje a matriz nuclear
• mitosis / meiosis
• elementos repetitivos
Qué es anotar?
• Agregar información, de la manera más confiable y
actualizada que se pueda para describir una secuencia
• Información asociada a coordenadas genómicas
(comienzo..fin), a distintos niveles
• Interpretar la información cruda de secuencia en un marco
biológico
Resumen
Sequencing Obtención de Datos
Assembly Ensamblaje de datos (Rompecabezas)
Gene Structure Determination Identificando unidades funcionales
Gene Function Determination Predicción de Funciones

Anotación estructural vs funcional
Anotación Estructural: Se identifica la posición de los elementos genómicos:
Anotación Funcional: Se asigna funciones a los elementos
estructurales, ya en este punto estamos hablando de ontología de
genes.
Ontología de Genes:
• Componente celular: Conocer en que parte
de la célula actúa la proteína
• Función molecular: Actividad enzimática,
interacciones con otros componentes
celulares, etc.
• Proceso Biológico: Rutas metabólicas
para producción de metabolitos
secundarios.
Genes, CDS, UTRs, exons, elementos
repetitivos, promotores (si se
ensamblaron), etc.
• 4727 Genes were annotated
• Outer layer: Twenty larger contigs
100x
• Red highlight: Syntenic regions with
Sclerotinia sclerotiorum
• Green highlight: Annotated Genes
• Orange highlight: Exons
• Blue highlight: repetitive sequences
• Purple lines: e-probe coordinates
Predictores de genes para prokaryotes
Glimmer3: Usa modelos de Markov Models para

diferenciar regiones que codifican de las que no
codifican. Requiere entrenamiento. (1998)
- GeneMarkS: Usa también Markov Models pero se auto-

entrena. (2001)
- Prodigal: También se auto-entrena (usa un GC frame

plot) y usa programación dinámica. (2010)
Predictores de genes para eukaryotes
• Predictores auto-entrenados: Genemark-ES
• Predictores entrenados: Augustus, FGENESH,

geneid, genscan, GlimmerHMM, Snap
• Combinados: Glean, EVM, Evigan

Format: Generic Feature Format (GFF3)
A 9-column, tab-delimited format designed to be flexible, extensible,

easily parsed and to work well with command-line utilities (like grep.)
Columns:
1. Sequence ID - Identifier of the assembly

2. Source - Free-form attribution field
3. Feature type - Such as gene, CDS, exon or any SO term
4. Start
5. End
6. Score - E-values for similarity, P-values for predictions
7. Strand - Must be ‘+’ or ‘-’
8. Phase - phase of CDS features; it can be either one of 0, 1, 2 (for
CDS features) or "." (for everything else).
9. Attributes - Anything else. Here be dragons.
The biggest problem with GFF3 is not the format, but that people take so
many liberties with it.
http://www.sequenceontology.org/gff3.shtml
Resumir resultados de análisis
• Guardar el reporte crudo de un BLAST (lista de hits,
alineamientos) es demasiado
• Prácticamente cualquiera de los análisis que se
realizan sobre DNA o proteínas para anotar un genoma
pueden resumirse en:
• secuencia start end
• cromosoma1 1723 3456
• Este formato básico es la base del formato GFF

(Sanger)
Secuencia metodo programa start end frame score extra
Contig1 similarity blastx 100 1000 +1 132 gi|12345|AF34093 casein kinase ...
Contig1 cds glimmer 85 1201 +1 1321 ORF0001; overlap with ORF0002
Contig1 similarity blastn 80 1300 . 136 gi|54321|AF09990 complete genome

Anotación: evidencias
• Las anotaciones suelen estar acompañadas de TAGS que indican la evidencia en la que se basa la anotación
• Ejemplos de algunos TAGS utilizados en TrEMBL:

• EMBL: la información fue copiada del original
(EMBL/GenBank/DDBJ)
• TrEMBL: anotación modificada para corregir errores o para
adecuarse a la sintaxis propia de Swissprot
• Curator: juicio del curador
• Similarity: por similitud con otra secuencia, a juicio del curador
• Experimental: evidencia experimental de acuerdo a una
referencia, que usualmente es un paper.
• Opinion: opinión emitida por el autor de una referencia,
usualmente con poca o ninguna evidencia experimental
• Rulebase: información derivada del uso de una regla de
anotación automática
• SignalP: programa de predicción
Anotación: manual vs automática
• La anotación de un genoma ocurre en etapas
• anotación automática
• correr todos los análisis sobre el genoma
• generar un primer borrador con todos los datos organizados.
Por ejemplo en páginas web o integrando todos los datos en
un display unificado (Artemis)
• anotación manual: cura de los datos
• una persona (curador) revisa la anotación, gen por gen,
verificando la anotación automática, agregando anotaciones
manuales, corriendo eventualmente algún programa particular
Predicción de estructura Proteica
Estructuras proteicas secundarias
• A. Helice alfa
• B. Lámina beta
• C. Giro B
Propensidades Chou y Fasman
• F: formador fuerte
• f: formador débil
• B: rompedor fuerte
• b: rompedor débil
• I: indiferente
Métodos automáticos
DSSP Asigna estructura
secundaria de acuerdo a
los patrones de enlaces
de hidrógeno
STRIDE Usa información

de enlaces de hidrógeno
y ángulos diedros de la
columna vertebral de la
proteína
DEFINE Iguala distancias Predicción de estructuras secundarias

interatómicas en la por diferentes programas
proteína con aquellas de
estructuras secundarias
ideales
Calidad de las predicciones
• Base de datos de entrenamiento (training dataset): contiene proteínas
de las cuales se conoce su estructura
• Base de datos de prueba (test dataset): grupo de proteínas
indepenendiente usada para evaluar la precision del método de
predicción
• No todas las proteínas homólogas tienen asignadas estructuras

secundarias idénticas
Predicciones de estructura
secundaria
Proteína 1B8C
Proteína 1BKB
Propiedades de los aminoácidos
Ejercicio
• Encontrar la secuencia de un transportador ABC en
https://www.rcsb.org/search, y correrla en tres
distintos programas de predicción de estructura
secundaria y de segmentos transmembrana
• Online Analysis Tools - Protein Secondary Structure
(molbiol-tools.ca)
• Observar la calidad de las predicciones y comentar
sobre los distintos programas utilizados
• HMMTOP predice estructura secundaria de
proteínas transmembrana utilizando HMMs. Cuáles
son los estados de este modelo?
Introducción a la
Bioinformática 9
Carlos Noceda
Estructuras proteicas terciarias
• Determinación experimental
• Cristalografia de rayos X
• Utilizada para la determinación del 80% de las estructuras
• Requiere alta concentración de proteína
• Requiere cristales
• Puede encontrar cadenas laterales de aminoácidos
• Primera estructura resuelta: Mioglobina
• Resonancia Magnética Nuclear
• Campo magnético aplicado a la proteína en solución
• Se puede resolver estructuras de hasta 350 aminoácidos
• No requiere cristalización
• Microscopía electrónica
Determinación experimental
Selección de proteína de interés
Obtención y caracterización de la proteína
Determinación del modelo
Envío a la base de datos (PDB database)

Acceso a archivos PDB
Swiss-Prot, NCBI, EMBL
Protein Data Bank
CATH, Dali, SCOP,

FSSP
bases de datos que interpretan PDB files
Predicción de estructuras 3D
1.ab initio (predicción de estructura proteica de
novo)
2.Enhebrar (Threading)
3.Modelamiento basado en homología

Ab initio
• Trata de determinar estructuras
terciarias sin utilizar estructuras
conocidas como base
• El proceso algorítmico se basa en
principios físicos de los residuos de
la cadena peptídica
• Requieren amplios recursos
computacionales
Threading
• Se alinean segmentos de una
secuencia en forma de dobleces
y una puntuación basada en
energía se obtiene por
alineamiento
• Se utiliza programación dinámica
para encontrar el alineamiento
con mejor puntaje y se
categorizan los resultados
• Los dobleces con mayores
puntajes son seleccionados para
modelar la secuencia problema
(query)
Threading
Se muestra la energía entre pares de aminoácidos en función de la

distancia entre ellos. Esta información se usa en programas de
threading
A) Interacción entre Val-Leu
B) Interacción entre Phe-Trp
Número de dobleces encontrados
• Barras rojas simbolizan el número de dobleces

acumulado, barras azules el número de dobleces por año
Predicciones 3D mediante
threading
Modelamiento basado en
homología
• Alineamiento de secuencias
• Alineamiento estructural
• Se obtienen mejores
modelos a partir de
secuencias (target y
template) cercanamente
relacionadas
A) Superposición de un
segmento de lysozyma (verde)
y a-lactalbumina (azul),
mostrando a los enlaces
disulfuro en amarillo
B) Alineamiento de las
secuencias de los dos
fragmentos
Laboratorio
• Predicción de estructura terciaria
UNIVERSIDAD DE LAS FUERZAS ARMADAS – ESPE
CÓDIGO: SGC.DI.505
VERSIÓN: 1.0
DEPARTAMENTO DE CIENCIAS DE LA VIDA Y LA AGRICULTURA FECHA ULTIMA
REVISIÓN: 26/10/16
CARRERA: Ingeniería en Biotecnología
GUÍA PARA LAS PRÁCTICAS DE LABORATORIO, TALLER O CAMPO

PERIODO 202151--PREGRADO
ASIGNATURA: Bioinformática NIVEL: Pregrado
LECTIVO: S-II OCT21-MAR22
7161, 7162,
DOCENTE: Carlos Noceda NRC: PRÁCTICA N°: 5
7163
LABORATORIO DONDE SE DESARROLLARÁ LA
Virtual, Bioinformática
PRÁCTICA:
TEMA DE LA Ensamblaje y anotación de genomas
PRÁCTICA:
INTRODUCCIÓN:
Las tecnologías de secuenciación de nueva generación han revolucionado el campo de la genómica, permitiendo la secuenciación
de un gran número de genomas en muy poco tiempo. La tecnología 454, conocida como pirosecuenciación, fue la primera NGS en
salir al mercado entre los años 2004 y 2005. A continuación, surgieron Illumina en 2006, basada en secuenciación por síntesis,
SOLiD en 2007, basada en secuenciación por ligación, y Ion Torrent en el año 2010, basada en detección de pH, las cuales
necesitan de la amplificación del ADN previamente a su secuenciación. Además, se han desarrollado tecnologías que no necesitan
del paso inicial de amplificación, sino que secuencian directamente una sola molécula de ADN, entre las que se encuentran
Helicos, salida al mercado en 2008 y SMRT Pacific Biosciences (PacBio) en 2010. Los datos de NGS generalmente son
secuencias cortas 100-300 pb (a excepción de los producidos por PacBio), que representan un reto desde el punto de vista
computacional para su ensamblaje, debido a la longitud y la enorme cantidad de secuencias. Al proceso de descifrar la secuencia
genómica a partir de pequeños fragmentos de ADN, en conjunto con alguna información adicional disponible, se le denomina
ensamblaje de genomas. Las estrategias para el ensamblaje de genomas se pueden dividir en dos categorías: ensamblaje por
comparación, en el que se utiliza un genoma como referencia; y ensamblaje de novo, en el cual se utiliza solo la información
obtenida de la secuenciación para reconstruir el genoma en cuestión, sin conocimiento a priori de la organización del mismo. Sin
embargo, en esta última estrategia algunas informaciones previas son útiles, como la talla esperada del genoma, el contenido de
GC y el contenido de regiones repetitivas, ya que ayudan a elegir la mejor estrategia a seguir. Estos datos pueden ser inferidos a
partir de secuencias de organismos relacionados. El ensamblaje de novo con datos de NGS se limita generalmente a proyectos de
genomas microbianos debido a su pequeña talla. Las estrategias empleadas por los programas ensambladores de secuencias
pueden agruparse en tres paradigmas principales: Greedy, Overlap-Layout-Consensus y gráficos de Bruijn.
El proceso de anotación de genomas consiste en determinar donde están presentes los diferentes elementos funcionales del
genoma. Existen disponibles plataformas para la anotación automática de genomas procariotas.
OBJETIVOS:
 Obtener ensamblajes de novo de un genoma microbiano a partir de datos de secuenciación de nueva generación utilizando
gráficos de Bruijn.
 Anotar la secuencias ensamblada
MATERIALES:
REACTIVOS: N/A INSUMOS: N/A
EQUIPOS: Computador
MUESTRA:
Un subset de los datos de secuenciación paired-end (forward reads 150 pb, reverse reads 152 pb) obtenido de
https://www.ncbi.nlm.nih.gov/sra/?term=ERR101899 , pertenecientes a un aislado de clínico de Staphylococcus aureus (ST22)
CÓDIGO: SGC.DI.505
VERSIÓN: 1.0
REVISIÓN: 26/10/16
INSTRUCCIONES:
- Crear una máquina virtual con sistema operativo Linux (Ubuntu) en Virtualbox (https://www.virtualbox.org/) o utilizar Linux
desde memoria flash (https://www.techspot.com/guides/809-run-linux-from-usb-drive/). Creamos máquina virtual (VM) en
“New”, para Ubuntu. Todas las opciones por defecto (“size” puede llevarse hasta el fin de la línea verde). Una vez creada,
doble click en la VM.
- Vamos a cargar el .iso de Ubuntu Mate (https://ubuntu-mate.org/download/amd64/focal/). Si no funciona, puede que haya
que ir a la BIOS a habilitar la opción de VMs. Si esto es así, hay que comenzar creando de nuevo la VM.
- Tras la carga del iso, opción: “Install Ubuntu mate”. Todo por defecto hasta introducir credenciales. Si solicita remover medio
de instalación, removerlo (si se ha hecho desde el disco duro, cortar los instaladores y pegarlos en otro sitio).
- Crear MATE Terminal (para línea de comandos) (buscar en menú, y crear acceso directo con “pin to desktop”).
- Instalar guest aditions (para arrastrar ficheros de Windows/Mc a Ubuntu) en virtualbox (https://www.tecmint.com/install-
virtualbox-guest-additions-in-ubuntu/): seguir las instrucciones de la web. Si finalmente no funciona el arrastre de ficheros
hay que reiniciar la VM.
- Familiarizarse con los comandos usados en un sistema operativo UNIX. Se trata de utilizar comandos escritos en la consola
del sistema operativo (llamado “terminal”, en linux) en lugar de utilizar el explorador de Windows y el mouse como
herramienta point and click.
- Ingresar a la línea de comando en Linux en la opción de búsqueda del Menu escribir “terminal” e ingresar al terminal desde
donde podemos empezar a escribir el código.
Algunos comandos básicos:
o pwd indica la ruta de la carpeta donde se encuentra
o cd nombre_de_la_carpeta se utiliza para cambiar al directorio
o cd volver a la carpeta “home”
o cd .. regresar a la carpeta anterior
o ls indica los archivos presentes en la carpeta
- Crear una nueva carpeta (Ensamblaje) donde se va a realizar la practica: mkdir Ensamblaje
- Entrar a la carpeta ensamblaje (cd Ensamblaje) y crear tres directorios: Datos, Programas, Databases
- Instalar todos los programas en la carpeta Programas
- Descargar, en Programas, y configurar SRAtoolkit (https://github.com/ncbi/sra-tools/wiki) que permite descargar datos
desde el SRA:
wget --output-document sratoolkit.tar.gz http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-ubuntu64.tar.gz
- Descomprimir:
tar -xvzf sratoolkit.tar.gz
- Establecer ruta de comandos, ejecutables: ejemplo (la ruta real se puede ver entrando en un fichero de bin (comandos):
export PATH=$PATH:/home/carlos/Ensamblaje/Programas/sratoolkit.3.0.0-ubuntu64/bin
Esa ruta hay que establecerla cada vez que se abre el terminal.
(Para ver dónde están los archivos ejecutables actuales: echo $PATH)
- Configurar sratoolkit https://github.com/ncbi/sra-tools/wiki/05.-Toolkit-Configuration
vdb-config -i
Enable Remote Access
En Cache: enable Local-file caching
Configurar carpeta de descarga incluyendo la ruta hacia la carpeta Datos en "Location of user-repository"
- Descargar e instalar Java, FastQC, Trimmomatic, bbmap y spades a Programas

##Instalar java
CÓDIGO: SGC.DI.505
VERSIÓN: 1.0
REVISIÓN: 26/10/16
sudo apt install default-jre
#Instalar FastQC
wget https://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.9.zip
unzip fastqc_v0.11.9.zip
cd FastQC
chmod 755 fastqc
##Instalar Trimmomatic
wget http://www.usadellab.org/cms/uploads/supplementary/Trimmomatic/Trimmomatic-0.39.zip
unzip Trimmomatic-0.39.zip
#Instalar Bbmap
Descargar directamente del website y meterlo en Programas
cd Programas (ruta)
tar -xvzf BBMap_38.97.tar.gz
sudo apt install bbmap
#Instalar Spades
wget http://cab.spbu.ru/files/release3.15.1/SPAdes-3.15.1-Linux.tar.gz
tar -xzvf SPAdes-3.15.1-Linux.tar.gz
De ser necesario cambiar ruta de shebang a ruta de python3 (which python3) e instalar distutils (sudo apt install python3-
distutils)


ACTIVIDADES POR DESARROLLAR:
1) Ensamblaje
a. Descargar secuencias desde Datos (a Datos):
fastq-dump --split-files ERR101899
- Si no se descargan los archivos paired end en formato fastq, se pueden descargar los archivos direcatamente desde ENA
https://www.ebi.ac.uk/ena/browser/view/err101899
- Se pueden revisar los archivos utilizando los códigos head –n 8 o tail –n 8 (8 primeras o últimas líneas, por ejemplo) (se
puede revisar nomenclatutra en tutoriales Linux)
b. Escoger 10% de las secuencias de ERR101899_1.fastq y de ERR101899_2.fastq utilizando script random.py en cada uno
de los dos archivos. Para ello, crear en Pluma:
# File: random.py
record_number = 0
with open("/home/carlos/Ensamblaje/Datos/ERR101899_2.fastq") as input:
with open("/home/carlos/Ensamblaje/Datos/ERR101899_2red.fastq", "w") as output:
for line1 in input:
line2 = input.readline()
if record_number % 10 == 0:
output.write(line1)
output.write(line2)
CÓDIGO: SGC.DI.505
VERSIÓN: 1.0
REVISIÓN: 26/10/16
output.write(line3)
output.write(line4)
record_number += 1
Salvar en “Ensamblaje” con el nombre random.py. Correr random.py, con el siguiente código desde le línea de comando,
desde su directorio (o si es necesario crear una ruta (PATH) hacia el script):
python3 random.py
o hacer ejecutable a random.py, reemplazando el shebang en el script (# File: random.py) por #!/usr/bin/env python3 y
luego correr el comando:
chmod +x random.py
Hacer lo mismo para ERR101899_1.fastq
c. Hacer control de calidad con FastQC

export PATH=$PATH:/home/carlos/Ensamblaje/Programas/FastQC/
fastqc /home/carlos/Ensamblaje/Datos/ERR101899_1red.fastq
d. Eliminar secuencias de mala calidad y adaptores con Trimmomatic.

export PATH=$PATH:/home/carlos/Ensamblaje/Programas/Trimomatic-0.39/
Desde Trimmomatic:: Todo junto (ojo con los espacios para los paths):
java -jar trimmomatic-0.39.jar PE /home/carlos/Ensamblaje/Datos/ERR101899_1red.fastq

/home/carlos/Ensamblaje/Datos/ERR101899_2red.fastq /home/carlos/Ensamblaje/Datos/FP.fq.gz
/home/carlos/Ensamblaje/Datos/FU.fq.gz /home/carlos/Ensamblaje/Datos/RP.fq.gz /home/carlos/Ensamblaje/Datos/RU.fq.gz
ILLUMINACLIP:/home/carlos/Ensamblaje/Programas/Trimmomatic-0.39/adapters/NexteraPE-
PE.fa:2:30:10:2:keepBothReads LEADING:3 TRAILING:3 MINLEN:70
e. Revisar calidad de secuencias limpias con FastQC
f. Eliminar secuencias duplicadas con dedupe (bbmap)

export PATH=$PATH:/home/carlos/Ensamblaje/Programas/bbmap
export PATH=/home/carlos/Ensamblaje/Programas/bbmap:$PATH
/home/carlos/Ensamblaje/Programas/bbmap/dedupe.sh in1=/home/carlos/Ensamblaje/Datos/FP.fq.gz
in2=/home/carlos/Ensamblaje/Datos/RP.fq.gz out=/home/carlos/Ensamblaje/Datos/ded.fq.gz
outd=/home/carlos/Ensamblaje/Datos/dup.fq.gz ac=f
g. Reformatear para volver a generar dos archivos pareados con reformat.sh de bbmap:
reformat.sh in=/home/carlos/Ensamblaje/Datos/ded.fq.gz out1=/home/carlos/Ensamblaje/Datos/FPded.fq.gz
out2=/home/carlos/Ensamblaje/Datos/RPded.fq.gz
h. Ensamblar las secuencias con SPAdes

export PATH=$PATH:/home/carlos/Ensamblaje/Programas/SPAdes-3.15.1-Linux/bin
sudo apt install python-is-python3
CÓDIGO: SGC.DI.505
VERSIÓN: 1.0
REVISIÓN: 26/10/16
sudo apt install python3-distutils
spades.py –test
spades.py --pe1-1 /home/carlos/Ensamblaje/Datos/FPded.fq.gz --pe1-2 /home/carlos/Ensamblaje/Datos/RPded.fq.gz -o

/home/carlos/Ensamblaje/Datos/spades_output
i. Visualizar graficos de ensamblajes (windows) con bandage

Descargar el programa de la página http://rrwick.github.io/Bandage/
Visualizar tres diferentes ensamblajes (diferente kmer size):
1. Iniciar Bandage.
2. Ir a File -> Load Graph y cargar archivo assembly_graph.fastg que se genera al correr Spades
3. Maximizar la ventana para que el gráfico llene la pantalla entera
4. Click en Draw graph en el panel de la izquierda.
5. Cambiar Random colours a Colour by read depth en el panel de la izquierda
Interactuar con las diferentes características
2) Anotación
1. Revisar y aplicar programas disponibles en línea para la anotación de genomas bacterianos. Sugerencia: Revisar semana 3
del curso https://www.coursera.org/learn/informatics/home/welcome
Ejemplo programas que se puede utilizar:
-Dfast
-Prokka en kBase
-PATRIC mejor pero hay que crear usuario: Arrastrar los ficheros originales o reducidos, o los contigs (de la manera indicada
en el sitio), a Workspace. Después, Servicios y luego Comprehensive genome analyses. Se puede hacer todo el proceso
hecho antes con Linux (ficheros originales o reducidos), o sólo la anotación (contigs).
El servidor demora. Después,. Workspeaces y my genome
Para subir a Genebank: bajar annotated genome y subir.
RESULTADOS OBTENIDOS:
El estudiante debe ser capaz de responder las siguientes preguntas:
 ¿Qué problemas se pueden evidenciar con el control de calidad realizado en los datos de secuenciación?
 ¿Cuántos contigs tiene el genoma ensamblado?
 ¿Cómo podría mejorar el ensamblaje?
 ¿Qué porcentaje del genoma de S. aureus se ensambló?
 ¿Cuántos genes se anotaron en su ensamblaje?
CONCLUSIONES:
 Un control de calidad y pre-procesamiento de los datos de secuenciación es vital para eliminar secuencias de baja calidad y
adaptadores o secuencias contaminantes, los cuales pueden afectar los resultados del ensamblaje.
 Cuando se usa el algoritmo de ensamblaje basado en gráficos de Bruijn, el parámetro más importante a tomar en cuenta es el
tamaño de kmer, el cual servirá de base para encontrar el mejor ensamblaje.
 La comparación de ensamblajes utilizando parámetros de integridad (predicción de genes), aparte de las estadísticas de
longitud (N50, NG50, …), sirve de guía para encontrar un ensamblaje más completo.
CÓDIGO: SGC.DI.505
VERSIÓN: 1.0
REVISIÓN: 26/10/16
RECOMENDACIONES:
 Previo a un ensamblaje genómico realizar un pre-procesamiento y limpieza de secuencias.

 Utilizar varios ensambladores (algoritmos), parámetros y librerías, para encontrar el mejor ensamblaje
FIRMAS
F: …………………………………………. F: …………………………………………. F: ……………………………………………..
Nombre: Carlos Noceda Nombre: Dra. Blanca Naranjo Nombre:

COORDINADOR DE ÁREA DE COORDINADOR DE LABORATORIOS
DOCENTE CONOCIMIENTO

Bioin

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Bioin

Cargado por

Copyright:

Formatos disponibles

Introducción a la

Jeffrey y Maureen 2011 http://gcat.davidson.edu/phast/ http://big.crg.cat/

Plataforma Tamaño de secuencia Capacidad

Hoy discutiremos mayormente Illumina y PacBio

Tecnología Tamaño Tiempo Total de Precisión

Magi et al. (2017) Briefings in bioinformatics, (19) 1256-1272 .

Siguiente paso: ensamblaje de

Siguiente paso: variant

• Muchas piezas mal formadas

• Muchas piezas estan perdidas

• Piezas mezcladas de otro puzzle

• Muchas piezas que parecen parte

Credits: Jason Miller, JCVI

Saxena, R. K., Edwards, D., & Varshney, R. K. (2014). Structural variations in

Jeffrey y Maureen 2011 http://gcat.davidson.edu/phast/ http://big.crg.cat/

Plataforma Tamaño de secuencia Capacidad

Hoy discutiremos mayormente Illumina y PacBio

Tecnología Tamaño Tiempo Total de Precisión

Magi et al. (2017) Briefings in bioinformatics, (19) 1256-1272 .

Siguiente paso: ensamblaje de

Siguiente paso: variant

• Muchas piezas mal formadas

• Muchas piezas estan perdidas

• Piezas mezcladas de otro puzzle

• Muchas piezas que parecen parte

Credits: Jason Miller, JCVI

Saxena, R. K., Edwards, D., & Varshney, R. K. (2014). Structural variations in

Benjamini and Speed, 2012

• Se necesitan secuencias en pares para cubrir las zonas repetitivas

Credits: Jason Miller, JCVI

Over 50% of mammalian genomes are repetitive

Large plant genomes tend to be worse

Wheat: 17Gb, Pine: 24Gb

Credits: Mike Schatz, CSHL

• En una librería al azar se

• En una librería de secuenciación

Human Cotton Barley

Sequencing Obtención de Datos

Assembly Ensamblaje de datos (Rompecabezas)

Gene Structure Determination Identificando unidades funcionales

Gene Function Determination Predicción de Funciones

Glimmer3: Usa modelos de Markov Models para

- GeneMarkS: Usa también Markov Models pero se auto-

- Prodigal: También se auto-entrena (usa un GC frame

• Predictores auto-entrenados: Genemark-ES

• Predictores entrenados: Augustus, FGENESH,

• Combinados: Glean, EVM, Evigan

A 9-column, tab-delimited format designed to be flexible, extensible,

1. Sequence ID - Identifier of the assembly

• Este formato básico es la base del formato GFF

Secuencia metodo programa start end frame score extra

Contig1 cds glimmer 85 1201 +1 1321 ORF0001; overlap with ORF0002

Contig1 similarity blastn 80 1300 . 136 gi|54321|AF09990 complete genome

• Ejemplos de algunos TAGS utilizados en TrEMBL:

STRIDE Usa información

DEFINE Iguala distancias Predicción de estructuras secundarias

• No todas las proteínas homólogas tienen asignadas estructuras

Selección de proteína de interés

Obtención y caracterización de la proteína

Determinación del modelo

Envío a la base de datos (PDB database)

Protein Data Bank

CATH, Dali, SCOP,