Clase01 Bioinfo 2021

CLASE 01
BIOINFORMÁTICA 2021 – sem 2

BTEE1124
Dr. Ricardo Nilo Poyanco
Escuela de Biotecnología
Facultad de Ciencias, Universidad Mayor
Objetivo General
Definir lo que es la bioinformática y su alcance
Aprender como acceder a datos de secuencias

biológicas e información relacionada
Definiendo la bioinformática
Se puede definir como “el uso de bases de datos
y algoritmos computacionales para analizar la
colección completa de ácidos
desoxirribonucleicos (genoma), y sus productos,
de un organismo de interés”.
Bases de datos → un conjunto estructurado de
datos almacenado en un computador, pudiendo ser
accesible en varias formas.
Algoritmos computacionales → procedimientos
dictados paso a paso para responder a una
pregunta o resolver un problema.
Cuando preparas un café sigues un algoritmo…
El diluvio de data es una realidad ineludible
Se puede definir como “el uso de bases de datos
y algoritmos computacionales para analizar la
colección completa de ácidos
desoxirribonucleicos (genoma), y sus productos,
de un organismo de interés”.
2000 2020
Accediendo a un mar de información - métricas
https://www.visualcapitalist.com/how-much-data-is-generated-each-day/
Accediendo a un mar de información
Cuanta data se genera por día (abril 2019):
➢ 500 million tweets are sent

➢ 294 billion emails are sent
➢ 4 petabytes of data are created on Facebook
➢ 4 terabytes of data are created from each
connected car
➢ 65 billion messages are sent on WhatsApp
➢ 5 billion searches are made
https://www.visualcapitalist.com/how-much-data-is-generated-each-day/
Ya van casi 200,000 “genomas” secuenciados, pero
aun faltan muchísimos:
• “10–15 million eukaryotic species and perhaps

trillions of bacterial and archaeal species adorn the
Tree of Life,∼2.3 million are actually known”.
“A whole new level of genomic data deluge is on the

horizon with the launch of several large-scale genome
sequencing projects, including ones aiming to
sequence all living organisms on Earth and others
specifically focused on major lineages such as plants,
fungi, vertebrates, birds or insects, among others.”
Accediendo a un mar de información – el árbol de la vida
Lewin et al. Earth BioGenome Project: Sequencing life for the future of life. Proc Natl Acad Sci U S A. 2018 Apr 24;115(17):4325-4333.
Accediendo a un mar de información - “circle plot”
Transcriptomes available
Genome Phylogeny for all of life with

size as C resolution to the genus level
value Archaea, Bacteria, Fungi,
Plantae, Protista, and
Animalia.
Current state of genomic

information available
from NCBI’s GenBank
complete genomes,
chromosome level,
scaffolds, and contigs
Lewin et al. Earth BioGenome Project: Sequencing life for the future of life. Proc Natl Acad Sci U S A. 2018 Apr 24;115(17):4325-4333.
Tamaño de genomas – el valor C
“The C-value is the amount of DNA in the haploid genome of an
organism. It varies over a very wide range, with a general increase
in C-value with complexity of organism from prokaryotes to
invertebrates, vertebrates, plants.”
El valor C es la cantidad de ADN en el genoma haploide de un organismo. Varía en un rango muy
amplio, con un aumento general del valor C con la complejidad del organismo, desde procariotas
hasta invertebrados, vertebrados y plantas.
DeepL
19,969 protein-coding genes for humans

https://bio.libretexts.org/Bookshelves/Genetics/Book%3A_Working_with_Molecular_Genetics_(Hardison)/Unit_I%3A_Genes_Nucleic_Acids_Genomes_and_Chromosomes/
4%3A_Genomes_and_Chromosomes/4.5%3A_Sizes_of_genomes_-_The_C%E2%80%91value_paradox; https://www.genome.gov/genetics-glossary/Diploid
1. Según la figura, ¿qué grupo(s)
taxonómico posee los genomas de
mayor tamaño?
The genomes of Bacteria and Archaea are all
diminutive, in the range of 140 kilobase pairs
(kbp) to approximately 15 megabase pairs
(Mbp), with most of this variability accounted
for by differences in the number of protein-
coding genes. In eukaryotes, by contrast,
haploid nuclear genome sizes (‘C-values’)
range more than 60 000-fold, from 2.3 Mbp in
the parasitic microsporidian Encephalitozoon
intestinalis to approximately 150,000 Mbp in
the plant Paris japonica, with this enormous
diversity bearing no relationship to any
intuitive notions of organismal complexity.
2. ¿Qué grupo taxonómico tendría el mayor número (absoluto) de géneros

secuenciados?
https://royalsocietypublishing.org/doi/10.1098/rstb.2014.0331
Accediendo a un mar de información - bases de datos
Si tenemos un mar de información, ¿como acceder a ella
sin ahogarnos?
¡Usando bases de datos!
El INSDC es una iniciativa que opera entre NCBI, EMBL-

EBI y DDBJ. Cubre un espectro que abarca desde lecturas
de secuencias sin procesar, pasando por alineamientos y
ensamblajes, a anotaciones funcionales enriquecidas con
información contextual relacionada con muestras y
configuraciones experimentales.
http://www.insdc.org/
Accediendo a un mar de información - INSDC
http://www.insdc.org/
Entrez, del National Center for Biotechnology
Information - NCBI
“Entrez is a molecular biology database system

that provides integrated access to nucleotide and
protein sequence data, gene-centered and
genomic mapping information, 3D structure
data, PubMed MEDLINE, and more. The system
is produced by the National Center for
Biotechnology Information (NCBI) and is
available via the Internet.”
https://www.ncbi.nlm.nih.gov/Web/Search/entrezfs.html
Information - NCBI
“Entrez es un sistema integrado de captura de
información desde bases de datos que proporciona
acceso a 35 bases de datos que, en su conjunto,
contienen 2.7 mil millones de entradas” (sep. 2019).
Information - NCBI
PubMed - The world's largest collection of

biomedical literature citations.
Nucleotide - The Nucleotide sequence database is a

collection of sequences from GenBank, RefSeq, and
Third Party Annotation (TPA).
SRA - The Sequence Read Archive makes biological

sequence data available to the research community
to enhance reproducibility and allow for new
discoveries by comparing data sets.
Information - NCBI
Information - NCBI
Information - NCBI
¡Busquemos información de secuencias de genes!
https://www.youtube.com/watch?v=QIZ8QH6JcC8
Busquemos información - Gen APRT
APRT https://www.ncbi.nlm.nih.gov/nucleotide/
Busquemos información - RefSeqGene?
Enviado, sin
editar o evaluar
su calidad
These are sequences that we generate from the

submitted sequences to represent particular genes
or gene products, proteins… They are less
redundant set with more curation.
RefSeq sequences – transcritos y sus proteínas
RefSeq sequences – transcritos y sus proteínas
https://www.ncbi.nlm.nih.gov/books/NBK21091/table/ch18.T.refseq_accession_numbers_and_mole/?report=objectonly
La información desplegada en el NCBI busca replicar el
dogma central de la biología molecular
https://upload.wikimedia.org/wikipedia/commons/0/0a/DNA_alternative_splicing.gif
La información desplegada en el NCBI busca replicar el
dogma central de la biología molecular
Investiguemos la proteína de la isoforma “a”
Investiguemos la proteína de la isoforma “a” - exportando
Investiguemos las proteínas de las isoformas “a” y “b”
Repetir con la isoforma

“b”
T=3min
adenine_phosphoribosyltransferase_isoform_a_Homo_sapiens_protein.txt
Formatos de secuencias - Fasta
• Formato minimalista;
• Ampliamente utilizado para el almacenamiento de
secuencias (ADN, ARN, proteínas).
Comparemos las proteínas de las isoformas “a” y “b”
https://blast.ncbi.nlm.nih.gov/Blast.cgi?PAGE=Proteins
Diferencia
Ensembl accelerates worldwide genomic research by integrating, harmonizing and annotating
genome data and disseminating it via a coherent and consistent set of interfaces and tools.
38
https://www.ensembl.org/index.html
Primary data is imported from several archive resources, and value is added via detailed
and comprehensive annotation of transcript structures, genomic variants and regulatory
regions. We also enable the study of evolution by large-scale comparison of genomes
and gene products across many species. These data can be accessed via our website,
programmatically via a number of application programming interfaces, and
downloaded in numerous standard file formats.
39
Más respecto a las bases de datos
Bases de datos bioinformáticas primarias
• Raw data
• Redundancia de información (secuencias).
• Dato “real”, secuencias de ADN depositadas
• Para proteínas, se infieren ORF y se hace
traducción in silico.
Son tres principales:

• GenBank
• EMBL
• DDBJ (DNA Databank of Japan).
Formatos de secuencias
• Todo dato (“ómico”) requiere una infraestructura para
ser almacenado.
• Lo más básico → formatos de almacenamiento de
secuencias.
¿Qué es un formato?
• Es un orden
• Arreglo específico de “caracteres” en un archivo.
• Describen información y atributos.
• Atributos: variables adicionales a la información
principal.
• Ejemplos en bioinformática: FastA, PDB, Phylip, y un
largo etc…
Investigación reproducible en Bioinformática
http://phdcomics.com/comics/archive.php?comicid=1689
Investigación reproducible en Bioinformática
script1
script1
script2
script3
? script2 script4
script4
script3 script5
script5
Almacenando tus protocolos en un lugar seguro
Tus protocolos de trabajo deben de estar bien

resguardados, y en un formato que permita que
puedas copiar y pegar tus comandos todas las veces
que desees.
Por ende, ¡guarde sus protocolos bioinformáticos

(scripts) siempre en formato .txt!
http://www.iconarchive.com
Almacenando tus protocolos de una forma segura
Yo utilizo muy frecuentemente el programa

Notepad++ para escribir y guardar mis scripts
Es gratis y no he tenido problemas con los códigos

que almaceno acá
https://notepad-plus-plus.org/
Haciendo accesible tu información para terceros
https://datadryad.org/stash
Metadata
- Descripción de la data almacenada/proporcionada.
- Es fundamental para poder realizar los análisis

estadísticos apropiados, permitiendo al investigador
explorar el efecto de varios parámetros en los datos
medidos;
- Las bases de datos utilizadas también tienen que ser

documentadas. Como cambian en el tiempo, se debe
de proporcionar la versión y la fecha de acceso;
- Para los programas utilizados debiesen de ser

proporcionados la versión y los pasos realizados para
obtener los resultados desplegados en la investigación.
Organizando proyectos computacionales
The purpose of this article is to describe one good

strategy for carrying out computational experiments… I
will focus on relatively mundane issues such as organizing
files and directories and documenting progress. These
issues are important because poor organizational choices
can lead to significantly slower research progress.
https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1000424
Organizando proyectos computacionales
The core guiding principles are:
• Someone unfamiliar with your project should be able

to look at your computer files and understand in
detail what you did and why.
• Everything you do, you will probably have to do over

again.
Acercamientos bioinformáticos: GUI vs línea de comando
Acceso inmediato + opciones/+

reproducibles/mejor manejo de
grandes volúmenes de datos
Un muy buen recurso para ver servicios con GUI
Ejercicio – Entre al sitio

web de la revista
“Nucleic Acids
Research”, en su
edición del 08 de
enero del 2021, e
anote el nombre de un
articulo de su interés.
Tiempo = 5 minutos.
https://academic.oup.com/nar/issue/49/D1

Clase01 Bioinfo 2021

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Clase01 Bioinfo 2021

Cargado por

Copyright:

Formatos disponibles

CLASE 01

BIOINFORMÁTICA 2021 – sem 2

Definir lo que es la bioinformática y su alcance

Aprender como acceder a datos de secuencias

Cuanta data se genera por día (abril 2019):

➢ 500 million tweets are sent

• “10–15 million eukaryotic species and perhaps

“A whole new level of genomic data deluge is on the

Genome Phylogeny for all of life with

Current state of genomic

19,969 protein-coding genes for humans

2. ¿Qué grupo taxonómico tendría el mayor número (absoluto) de géneros

El INSDC es una iniciativa que opera entre NCBI, EMBL-

“Entrez is a molecular biology database system

PubMed - The world's largest collection of

Nucleotide - The Nucleotide sequence database is a

SRA - The Sequence Read Archive makes biological

These are sequences that we generate from the

Repetir con la isoforma

Son tres principales:

Tus protocolos de trabajo deben de estar bien

Por ende, ¡guarde sus protocolos bioinformáticos

Yo utilizo muy frecuentemente el programa

Es gratis y no he tenido problemas con los códigos

- Es fundamental para poder realizar los análisis

- Las bases de datos utilizadas también tienen que ser

- Para los programas utilizados debiesen de ser

The purpose of this article is to describe one good

The core guiding principles are:

• Someone unfamiliar with your project should be able

• Everything you do, you will probably have to do over

Acceso inmediato + opciones/+

Ejercicio – Entre al sitio

También podría gustarte