Está en la página 1de 52

CLASE 01

BIOINFORMÁTICA 2021 – sem 2


BTEE1124
Dr. Ricardo Nilo Poyanco
Escuela de Biotecnología
Facultad de Ciencias, Universidad Mayor
Objetivo General

Definir lo que es la bioinformática y su alcance

Aprender como acceder a datos de secuencias


biológicas e información relacionada
Definiendo la bioinformática
Se puede definir como “el uso de bases de datos
y algoritmos computacionales para analizar la
colección completa de ácidos
desoxirribonucleicos (genoma), y sus productos,
de un organismo de interés”.
Bases de datos → un conjunto estructurado de
datos almacenado en un computador, pudiendo ser
accesible en varias formas.
Algoritmos computacionales → procedimientos
dictados paso a paso para responder a una
pregunta o resolver un problema.
Cuando preparas un café sigues un algoritmo…
El diluvio de data es una realidad ineludible
Se puede definir como “el uso de bases de datos
y algoritmos computacionales para analizar la
colección completa de ácidos
desoxirribonucleicos (genoma), y sus productos,
de un organismo de interés”.

2000 2020
Accediendo a un mar de información - métricas

https://www.visualcapitalist.com/how-much-data-is-generated-each-day/
Accediendo a un mar de información

Cuanta data se genera por día (abril 2019):

➢ 500 million tweets are sent


➢ 294 billion emails are sent
➢ 4 petabytes of data are created on Facebook
➢ 4 terabytes of data are created from each
connected car
➢ 65 billion messages are sent on WhatsApp
➢ 5 billion searches are made

https://www.visualcapitalist.com/how-much-data-is-generated-each-day/
Accediendo a un mar de información
Ya van casi 200,000 “genomas” secuenciados, pero
aun faltan muchísimos:

• “10–15 million eukaryotic species and perhaps


trillions of bacterial and archaeal species adorn the
Tree of Life,∼2.3 million are actually known”.

“A whole new level of genomic data deluge is on the


horizon with the launch of several large-scale genome
sequencing projects, including ones aiming to
sequence all living organisms on Earth and others
specifically focused on major lineages such as plants,
fungi, vertebrates, birds or insects, among others.”
Accediendo a un mar de información – el árbol de la vida

Lewin et al. Earth BioGenome Project: Sequencing life for the future of life. Proc Natl Acad Sci U S A. 2018 Apr 24;115(17):4325-4333.
Accediendo a un mar de información - “circle plot”
Transcriptomes available

Genome Phylogeny for all of life with


size as C resolution to the genus level
value Archaea, Bacteria, Fungi,
Plantae, Protista, and
Animalia.

Current state of genomic


information available
from NCBI’s GenBank
complete genomes,
chromosome level,
scaffolds, and contigs
Lewin et al. Earth BioGenome Project: Sequencing life for the future of life. Proc Natl Acad Sci U S A. 2018 Apr 24;115(17):4325-4333.
Tamaño de genomas – el valor C
“The C-value is the amount of DNA in the haploid genome of an
organism. It varies over a very wide range, with a general increase
in C-value with complexity of organism from prokaryotes to
invertebrates, vertebrates, plants.”
El valor C es la cantidad de ADN en el genoma haploide de un organismo. Varía en un rango muy
amplio, con un aumento general del valor C con la complejidad del organismo, desde procariotas
hasta invertebrados, vertebrados y plantas.
DeepL

19,969 protein-coding genes for humans


https://bio.libretexts.org/Bookshelves/Genetics/Book%3A_Working_with_Molecular_Genetics_(Hardison)/Unit_I%3A_Genes_Nucleic_Acids_Genomes_and_Chromosomes/
4%3A_Genomes_and_Chromosomes/4.5%3A_Sizes_of_genomes_-_The_C%E2%80%91value_paradox; https://www.genome.gov/genetics-glossary/Diploid
Accediendo a un mar de información
1. Según la figura, ¿qué grupo(s)
taxonómico posee los genomas de
mayor tamaño?
The genomes of Bacteria and Archaea are all
diminutive, in the range of 140 kilobase pairs
(kbp) to approximately 15 megabase pairs
(Mbp), with most of this variability accounted
for by differences in the number of protein-
coding genes. In eukaryotes, by contrast,
haploid nuclear genome sizes (‘C-values’)
range more than 60 000-fold, from 2.3 Mbp in
the parasitic microsporidian Encephalitozoon
intestinalis to approximately 150,000 Mbp in
the plant Paris japonica, with this enormous
diversity bearing no relationship to any
intuitive notions of organismal complexity.

2. ¿Qué grupo taxonómico tendría el mayor número (absoluto) de géneros


secuenciados?

https://royalsocietypublishing.org/doi/10.1098/rstb.2014.0331
Accediendo a un mar de información - bases de datos
Si tenemos un mar de información, ¿como acceder a ella
sin ahogarnos?
¡Usando bases de datos!

El INSDC es una iniciativa que opera entre NCBI, EMBL-


EBI y DDBJ. Cubre un espectro que abarca desde lecturas
de secuencias sin procesar, pasando por alineamientos y
ensamblajes, a anotaciones funcionales enriquecidas con
información contextual relacionada con muestras y
configuraciones experimentales.
http://www.insdc.org/
Accediendo a un mar de información - INSDC

http://www.insdc.org/
Entrez, del National Center for Biotechnology
Information - NCBI

“Entrez is a molecular biology database system


that provides integrated access to nucleotide and
protein sequence data, gene-centered and
genomic mapping information, 3D structure
data, PubMed MEDLINE, and more. The system
is produced by the National Center for
Biotechnology Information (NCBI) and is
available via the Internet.”
https://www.ncbi.nlm.nih.gov/Web/Search/entrezfs.html
Entrez, del National Center for Biotechnology
Information - NCBI
“Entrez es un sistema integrado de captura de
información desde bases de datos que proporciona
acceso a 35 bases de datos que, en su conjunto,
contienen 2.7 mil millones de entradas” (sep. 2019).
Entrez, del National Center for Biotechnology
Information - NCBI

PubMed - The world's largest collection of


biomedical literature citations.

Nucleotide - The Nucleotide sequence database is a


collection of sequences from GenBank, RefSeq, and
Third Party Annotation (TPA).

SRA - The Sequence Read Archive makes biological


sequence data available to the research community
to enhance reproducibility and allow for new
discoveries by comparing data sets.
Entrez, del National Center for Biotechnology
Information - NCBI
Entrez, del National Center for Biotechnology
Information - NCBI
Entrez, del National Center for Biotechnology
Information - NCBI
¡Busquemos información de secuencias de genes!

https://www.youtube.com/watch?v=QIZ8QH6JcC8
Busquemos información - Gen APRT
APRT https://www.ncbi.nlm.nih.gov/nucleotide/
Busquemos información - RefSeqGene?

Enviado, sin
editar o evaluar
su calidad
Busquemos información - Gen APRT

These are sequences that we generate from the


submitted sequences to represent particular genes
or gene products, proteins… They are less
redundant set with more curation.
Busquemos información - Gen APRT
APRT https://www.ncbi.nlm.nih.gov/nucleotide/
RefSeq sequences – transcritos y sus proteínas
APRT https://www.ncbi.nlm.nih.gov/nucleotide/
RefSeq sequences – transcritos y sus proteínas

https://www.ncbi.nlm.nih.gov/books/NBK21091/table/ch18.T.refseq_accession_numbers_and_mole/?report=objectonly
La información desplegada en el NCBI busca replicar el
dogma central de la biología molecular

https://upload.wikimedia.org/wikipedia/commons/0/0a/DNA_alternative_splicing.gif
La información desplegada en el NCBI busca replicar el
dogma central de la biología molecular
Investiguemos la proteína de la isoforma “a”
Investiguemos la proteína de la isoforma “a” - exportando
Investiguemos las proteínas de las isoformas “a” y “b”

Repetir con la isoforma


“b”
T=3min

adenine_phosphoribosyltransferase_isoform_a_Homo_sapiens_protein.txt
Formatos de secuencias - Fasta

• Formato minimalista;
• Ampliamente utilizado para el almacenamiento de
secuencias (ADN, ARN, proteínas).
Comparemos las proteínas de las isoformas “a” y “b”
https://blast.ncbi.nlm.nih.gov/Blast.cgi?PAGE=Proteins
Comparemos las proteínas de las isoformas “a” y “b”
Comparemos las proteínas de las isoformas “a” y “b”
Comparemos las proteínas de las isoformas “a” y “b”

Diferencia
Ensembl accelerates worldwide genomic research by integrating, harmonizing and annotating
genome data and disseminating it via a coherent and consistent set of interfaces and tools.
38
https://www.ensembl.org/index.html
Primary data is imported from several archive resources, and value is added via detailed
and comprehensive annotation of transcript structures, genomic variants and regulatory
regions. We also enable the study of evolution by large-scale comparison of genomes
and gene products across many species. These data can be accessed via our website,
programmatically via a number of application programming interfaces, and
downloaded in numerous standard file formats.

39
Más respecto a las bases de datos
Bases de datos bioinformáticas primarias

• Raw data
• Redundancia de información (secuencias).
• Dato “real”, secuencias de ADN depositadas
• Para proteínas, se infieren ORF y se hace
traducción in silico.

Son tres principales:


• GenBank
• EMBL
• DDBJ (DNA Databank of Japan).
Formatos de secuencias
• Todo dato (“ómico”) requiere una infraestructura para
ser almacenado.
• Lo más básico → formatos de almacenamiento de
secuencias.

¿Qué es un formato?

• Es un orden
• Arreglo específico de “caracteres” en un archivo.
• Describen información y atributos.
• Atributos: variables adicionales a la información
principal.
• Ejemplos en bioinformática: FastA, PDB, Phylip, y un
largo etc…
Investigación reproducible en Bioinformática

http://phdcomics.com/comics/archive.php?comicid=1689
Investigación reproducible en Bioinformática

script1
script1
script2

script3
? script2 script4

script4
script3 script5
script5
Almacenando tus protocolos en un lugar seguro

Tus protocolos de trabajo deben de estar bien


resguardados, y en un formato que permita que
puedas copiar y pegar tus comandos todas las veces
que desees.

Por ende, ¡guarde sus protocolos bioinformáticos


(scripts) siempre en formato .txt!
http://www.iconarchive.com
Almacenando tus protocolos de una forma segura

Yo utilizo muy frecuentemente el programa


Notepad++ para escribir y guardar mis scripts

Es gratis y no he tenido problemas con los códigos


que almaceno acá
https://notepad-plus-plus.org/
Haciendo accesible tu información para terceros

https://datadryad.org/stash
Metadata
- Descripción de la data almacenada/proporcionada.

- Es fundamental para poder realizar los análisis


estadísticos apropiados, permitiendo al investigador
explorar el efecto de varios parámetros en los datos
medidos;

- Las bases de datos utilizadas también tienen que ser


documentadas. Como cambian en el tiempo, se debe
de proporcionar la versión y la fecha de acceso;

- Para los programas utilizados debiesen de ser


proporcionados la versión y los pasos realizados para
obtener los resultados desplegados en la investigación.
Organizando proyectos computacionales

The purpose of this article is to describe one good


strategy for carrying out computational experiments… I
will focus on relatively mundane issues such as organizing
files and directories and documenting progress. These
issues are important because poor organizational choices
can lead to significantly slower research progress.
https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1000424
Organizando proyectos computacionales

The core guiding principles are:

• Someone unfamiliar with your project should be able


to look at your computer files and understand in
detail what you did and why.

• Everything you do, you will probably have to do over


again.
Acercamientos bioinformáticos: GUI vs línea de comando

Acceso inmediato + opciones/+


reproducibles/mejor manejo de
grandes volúmenes de datos
Un muy buen recurso para ver servicios con GUI

Ejercicio – Entre al sitio


web de la revista
“Nucleic Acids
Research”, en su
edición del 08 de
enero del 2021, e
anote el nombre de un
articulo de su interés.
Tiempo = 5 minutos.
https://academic.oup.com/nar/issue/49/D1

También podría gustarte