Documentos de Académico
Documentos de Profesional
Documentos de Cultura
2000 2020
Accediendo a un mar de información - métricas
https://www.visualcapitalist.com/how-much-data-is-generated-each-day/
Accediendo a un mar de información
https://www.visualcapitalist.com/how-much-data-is-generated-each-day/
Accediendo a un mar de información
Ya van casi 200,000 “genomas” secuenciados, pero
aun faltan muchísimos:
Lewin et al. Earth BioGenome Project: Sequencing life for the future of life. Proc Natl Acad Sci U S A. 2018 Apr 24;115(17):4325-4333.
Accediendo a un mar de información - “circle plot”
Transcriptomes available
https://royalsocietypublishing.org/doi/10.1098/rstb.2014.0331
Accediendo a un mar de información - bases de datos
Si tenemos un mar de información, ¿como acceder a ella
sin ahogarnos?
¡Usando bases de datos!
http://www.insdc.org/
Entrez, del National Center for Biotechnology
Information - NCBI
https://www.youtube.com/watch?v=QIZ8QH6JcC8
Busquemos información - Gen APRT
APRT https://www.ncbi.nlm.nih.gov/nucleotide/
Busquemos información - RefSeqGene?
Enviado, sin
editar o evaluar
su calidad
Busquemos información - Gen APRT
https://www.ncbi.nlm.nih.gov/books/NBK21091/table/ch18.T.refseq_accession_numbers_and_mole/?report=objectonly
La información desplegada en el NCBI busca replicar el
dogma central de la biología molecular
https://upload.wikimedia.org/wikipedia/commons/0/0a/DNA_alternative_splicing.gif
La información desplegada en el NCBI busca replicar el
dogma central de la biología molecular
Investiguemos la proteína de la isoforma “a”
Investiguemos la proteína de la isoforma “a” - exportando
Investiguemos las proteínas de las isoformas “a” y “b”
adenine_phosphoribosyltransferase_isoform_a_Homo_sapiens_protein.txt
Formatos de secuencias - Fasta
• Formato minimalista;
• Ampliamente utilizado para el almacenamiento de
secuencias (ADN, ARN, proteínas).
Comparemos las proteínas de las isoformas “a” y “b”
https://blast.ncbi.nlm.nih.gov/Blast.cgi?PAGE=Proteins
Comparemos las proteínas de las isoformas “a” y “b”
Comparemos las proteínas de las isoformas “a” y “b”
Comparemos las proteínas de las isoformas “a” y “b”
Diferencia
Ensembl accelerates worldwide genomic research by integrating, harmonizing and annotating
genome data and disseminating it via a coherent and consistent set of interfaces and tools.
38
https://www.ensembl.org/index.html
Primary data is imported from several archive resources, and value is added via detailed
and comprehensive annotation of transcript structures, genomic variants and regulatory
regions. We also enable the study of evolution by large-scale comparison of genomes
and gene products across many species. These data can be accessed via our website,
programmatically via a number of application programming interfaces, and
downloaded in numerous standard file formats.
39
Más respecto a las bases de datos
Bases de datos bioinformáticas primarias
• Raw data
• Redundancia de información (secuencias).
• Dato “real”, secuencias de ADN depositadas
• Para proteínas, se infieren ORF y se hace
traducción in silico.
¿Qué es un formato?
• Es un orden
• Arreglo específico de “caracteres” en un archivo.
• Describen información y atributos.
• Atributos: variables adicionales a la información
principal.
• Ejemplos en bioinformática: FastA, PDB, Phylip, y un
largo etc…
Investigación reproducible en Bioinformática
http://phdcomics.com/comics/archive.php?comicid=1689
Investigación reproducible en Bioinformática
script1
script1
script2
script3
? script2 script4
script4
script3 script5
script5
Almacenando tus protocolos en un lugar seguro
https://datadryad.org/stash
Metadata
- Descripción de la data almacenada/proporcionada.