Documentos de Académico
Documentos de Profesional
Documentos de Cultura
INTRODUCCIÓN A HERRAMIENTAS
BIOINFORMÁTICAS APLICADAS PARA ANÁLISIS
GENÉTICOS
M. Sc. Mayra
Servellón Lic.
Jafeth Gutiérrez
Ciudad Universitaria Fecha: / /
PARTE 1
FORMATOS DE ARCHIVOS DE SECUENCIAS DE
NUCLEOTIDOS Y DE AMINOACIDOS
INTRODUCCIÓN
En bioinformática, la secuencia de nucleótidos y aminoácidos se presenta de maneras diferentes
y se usan en base de datos y programas bioinformáticos. De manera general se usan ficheros y se
utilizan tanto como para entradas (input) como para salidas (output).
Algunas de las secuencias usadas son:
- Multipropósito: FASTA; GenBank, XML y Nexsus
- Alineamiento y filogenia: Phylip, PhiloXML
- Next Generation Sequencing: FASTQ, SRA
- Estructuras: PDB
FORMATO FASTA
En bioinformática, el formato FASTA es un formato basado en texto para representar secuencias
de nucleótidos o aminoácidos mediante códigos que emplean letras. El formato permite describir
nombres de secuencias y comentarios de dichas secuencias. El formato tiene su origen en el
software FASTA, pero que ahora se ha convertido en un estándar en bioinformática.
Un ejemplo de un formato FASTA sería:
NCBI (En español, Centro Nacional para la Información Biotecnológica) forma parte de la
Biblioteca Nacional de Medicina de los Estados Unidos (National Library of Medicine)
que forma parte del NIH (National Institutes of Health) o Instituto Nacionales de Salud.
Universidad Nacional Autónoma de
Honduras Facultad de Ciencias
Escuela de Biología
Departamento de Biología Celular y
Genética
Parte 1
Práctica
:
¨INTRODUCCIÓN A HERRAMIENTAS BIOINFORMÁTICAS
APLICADAS PARA ANÁLISIS GENÉTICOS¨
Ciudad Universitaria
Tegucigalpa, Honduras
OBJETIVOS
General
ACTIVIDADES
1. Obtención de secuencia de nucleótidos y aminoácidos en NCBI
Ejemplo:
ATGAAAACATTTATCTTTGCAGACAAGTTCTTTTTAAAAAGCGATGTTAAAGGACCTGGTTATTTAGAAA
TCACGGATGGTATCTTTGGTAATTATACAAAAGATGAACCGCAAGGGGACGTAAAAATTATTCGTGAGG
AAGGCAAATGGATTGCCCCAGGTTTAGTCGATACTCATATTCATGGTTACATGAATCATGACGTAATGGA
TAACGATGCAGAAGGCATTAAAGTGATGTCTGAAGGCTTATTATCTTGTGGTGTAACTTCATTTTTACCAA
CAACGTTAACTTCAAGTAAAGAACGTTTAACAGACGTTGCACGTACGATTGGTCAAGTCTACCAAGAAGT
ACCTGGTGCAAAAATTCAAGGGATTTACTTTGAAGGACCTTTCTTTACTGAAGAACATAAAGGCGCACAA
AATCCAAGTTATTTTGGAGATCCAGACCTTGATACATTCCCACGAATGGCAAGAAGCTTCAGGCGGAATT
ATTAAGAAAATTGCGTTGGCACCAGAACGTAATGGTGTGAAAGAATTTGTTGAAACCGTTACAGATGAA
GGTGTCGTTGTTGCTTTAGGCCATAGTAATGCGACCTTAGAAGAAGCTGATGTGGCAGTTGAAGCAGGCG
CTAGCGTTTTTGTTCATGCATATAATGGGATGCGCGGCTTAAATCACCGTGAACCAGGGATGGTTGGTGC
ATTGTTAACGTTACAACACGTTTTCTCTGAATTAATTTGTGATGGACACCATGTACATCCGCAAGCGGCTG
AAGTATTGATGGAAAAAGCGGGCCATGATCACGTTGCGTTAATTACAGACTGCATGATGGCTGGCGGTAT
GCCAGATGGCAACTATAATTTAGGTGAATTTCCTGTTGTGGTAGCAGAAGGAACGGCTCGTTTGGATACT
GGGAACTTAGCAGGTAGTATTTTAAAACTAAAAGAAGCAATTAAAAATGTAGTTGATTGGGGTATTGCA
ACACCTGCACAAGCAATTATGATGGCTTCATTAGTTCCTGCGATTAGCTGTAAAATTGATGATCAATGTG
GCATGATTGCAAATGGTCGCGATGCTGACTTTATCGTATTAGAACCAACCATGGAATTAGCAGCCACTTA
TT TAGATGGCGTAGAACGTTATCGAGCATAA.
ATGAAAACATTTATCTTTGCAGACAAGTTCTTTTTAAAAAGCGATGTTAAAGGACCTGGTTATTTAGAAA
TCACGGATGGTATCTTTGGTAATTATACAAAAGATGAACCGCAAGGGGACGTAAAAATTATTCGTGAGGA
AGGCAAATGGATTGCCCCAGGTTTAGTCGATACTCATATTCATGGTTACATGAATCATGACGTAATGGAT
AACGATGCAGAAGGCATTAAAGTGATGTCTGAAGGCTTATTATCTTGTGGTGTAACTTCATTTTTACCAA
CAACGTTAACTTCAAGTAAAGAACGTTTAACAGACGTTGCACGTACGATTGGTCAAGTCTACCAAGAAGT
ACCTGGTGCAAAAATTCAAGGGATTTACTTTGAAGGACCTTTCTTTACTGAAGAACATAAAGGCGCACAA
AATCCAAGTTATTTTGGAGATCCAGACCTTGATACATTCCACGAATGGCAAGAAGCTTCAGGCGGAATTA
TTAAGAAAATTGCGTTGGCACCAGAACGTAATGGTGTGAAAGAATTTGTTGAAACCGTTACAGATGAAGG
TGTCGTTGTTGCTTTAGGCCATAGTAATGCGACCTTAGAAGAAGCTGATGTGGCAGTTGAAGCAGGCGCT
AGCGTTTTTGTTCATGCATATAATGGGATGCGCGGCTTAAATCACCGTGAACCAGGGATGGTTGGTGCAT
TGTTAACGTTACAACACGTTTTCTCTGAATTAATTTGTGATGGACACCATGTACATCCGCAAGCGGCTGA
AGTATTGATGGAAAAAGCGGGCCATGATCACGTTGCGTTAATTACAGACTGCATGATGGCTGGCGGTATG
CCAGATGGCAACTATAATTTAGGTGAATTTCCTGTTGTGGTAGCAGAAGGAACGGCTCGTTTGGATACTG
GGAACTTAGCAGGTAGTATTTTAAAACTAAAAGAAGCAATTAAAAATGTAGTTGATTGGGGTATTGCAAC
ACCTGCACAAGCAATTATGATGGCTTCATTAGTTCCTGCGATTAGCTGTAAAATTGATGATCAATGTGGC
ATGATTGCAAATGGTCGCGATGCTGACTTTATCGTATTAGAACCAACCATGGAATTAGCAGCCACTTATT
TAGATGGCGTAGAACGTTATCGAGCATAA
Nucleótido
7. Reingrese
nuevamente a la página de NCBI, pero ahora busque su gen haciendo
referencia a la proteína.
8. En el primer recuadro que aparece en la interfaz, de click en “protein”
MKTFIFADKFFLKSDVKGPGYLEITDGIFGNYTKDEPQGDVKIIREEGKWIAPGLVDTHIHGYMNHDVMD
NDAEGIKVMSEGLLSCGVTSFLPTTLTSSKERLTDVARTIGQVYQEVPGAKIQGIYFEGPFFTEEHKGAQ
NPSYFGDPDLDTFHEWQEASGGIIKKIALAPERNGVKEFVETVTDEGVVVALGHSNATLEEADVAVEAGA
SVFVHAYNGMRGLNHREPGMVGALLTLQHVFSELICDGHHVHPQAAEVLMEKAGHDHVALITDCMMAGGM
PDGNYNLGEFPVVVAEGTARLDTGNLAGSILKLKEAIKNVVDWGIATPAQAIMMASLVPAISCKIDDQCG
MIANGRDADFIVLEPTMELAATYLDGVERYRA
Aminoácido
11. Selecciones los primeros 20 códigos del formato FASTA y traduzca el mismo
de acuerdo a los aminoácidos correspondientes.
Final:
1) Leucina 16) Glutamato
2) Glutamato 17) Arginina
3) Prolina 18) Tirosina
4) Threonina 19) Arginina
5) Metionina 20) Alanina
6) Glutamato
7) Leucina
8) Alanina
9) Alanina
10) Threonina
11) Tirosina
12) Leucina
13) Aspartato
14) Glicina
15) Valina