Está en la página 1de 11

Universidad Nacional Autónoma de

Honduras Facultad de Ciencias


Escuela de Biología
Departamento de Biología Celular y
Genética

INTRODUCCIÓN A HERRAMIENTAS
BIOINFORMÁTICAS APLICADAS PARA ANÁLISIS
GENÉTICOS

M. Sc. Mayra
Servellón Lic.
Jafeth Gutiérrez
Ciudad Universitaria Fecha: / /
PARTE 1
FORMATOS DE ARCHIVOS DE SECUENCIAS DE
NUCLEOTIDOS Y DE AMINOACIDOS
INTRODUCCIÓN
En bioinformática, la secuencia de nucleótidos y aminoácidos se presenta de maneras diferentes
y se usan en base de datos y programas bioinformáticos. De manera general se usan ficheros y se
utilizan tanto como para entradas (input) como para salidas (output).
Algunas de las secuencias usadas son:
- Multipropósito: FASTA; GenBank, XML y Nexsus
- Alineamiento y filogenia: Phylip, PhiloXML
- Next Generation Sequencing: FASTQ, SRA
- Estructuras: PDB

FORMATO FASTA
En bioinformática, el formato FASTA es un formato basado en texto para representar secuencias
de nucleótidos o aminoácidos mediante códigos que emplean letras. El formato permite describir
nombres de secuencias y comentarios de dichas secuencias. El formato tiene su origen en el
software FASTA, pero que ahora se ha convertido en un estándar en bioinformática.
Un ejemplo de un formato FASTA sería:

La primera línea es un comentario de la secuencia y comienza con


¨>¨
>P01013 GENE X PROTEIN (OVALBUMIN-RELATED)
QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCM
NNSFNVATLPAEKMKILELPFASGDLSMLVLLPDEVSDLERIEKTINFEKLTEWTNPNTM
EKRRVKVYLPQMKIEEKYNLTSVLMALGMTDLFIPSANLTGISSAESLKISQAVHGAFME
LSEDGIEMAGSTGVIEDIKHSPESEQFRADHPFLFLIKHNPTNTIVYFGRYWSP

En el formato FASTA las secuencias de ácidos nucleicos se presentan en los 4 caracteres


comunes: A,C, G y T en el caso de ADN y ARN o U, en el caso de ARN. Cuando se desconoce
el nucleótido se utilizan otras letras, tomando en cuenta los siguientes códigos:

CÓDIGO BASE NITROGENADA DEL NUCLEÓTIDO


A Adenina
C Citosina
G Guanina
T Timina
U Uracilo
R G A (puRínica)
Y T C (pirimidínica/pYrimidinic)
K G T (cetona/Ketone)
M A C (grupo aMino)
S Interacción fuerte/Strong interaction
W Interacción débil/Weak interaction
B G T C (no A) (B viene tras la A)
D G A T (no C) (D viene tras la C)
H A C T (no G) (H viene tras la G)
V G C A (no T, no U) (V viene tras la U)
N A G C T (aNy)
X Máscara
- Hueco (gap) de longitud indeterminada
Para programas bioinformáticos que usan secuencias de aminoácidos (Ej: BLASTP,
TBBLASTN y otros) los códigos aceptados son:

CÓDIGO ABREVIATURA AMINOÁCIDO CÓDIGO ABREVIATURA AMINOÁCIDO


A ALA Alanina P PRO Prolina
B ASX Aspartato/Asparagina Q GLN Glutamina
C CYS Cistina R ARG Arginina
D ASP Aspartato S SER Serina
E GLU Glutamato T THR Threonina
F PHE Fenilalanina U Selenocisteína
G GLY Glicina V VAL Valina
H HIS Histidina W TRP Triptófano
I ILE Isoleucina Y TYR Tirosina
K LYS Lisina Z GLX Glutamato/
Glutamina
L LEU Leucina X cualquiera
M MET Metionina - Hueco (gap)
N ASN Asparagina

La bioinformática se desarrolla en diferentes campos de las ciencias y en esta experiencia de


aprendizaje se trabajará con el formato FASTA para comprender como a partir de secuencias de
nucleótidos o aminoácidos se elaboran modelos computacionales de proteínas y se obtiene
información de las mismas con el fin de utilizar esos datos al momento de desarrollar
experimentos y trabajos de investigación en medicina molecular, biología sintética y otras áreas.
Recuerde que existen bases de datos públicas importantes para la ciencia que contienen
información sobre genes, nucleótidos, proteínas, genomas, bibliografía, taxonomía, metabolismo,
herramientas de análisis de datos y herramientas para manejar y recuperar información.
Dentro de las principales bases de datos bioinformáticas están:
- NCBI (National Center for Biotechnology Information, USA)
- EMBL (European Laboratory of Molecular Biology, Europa)

NCBI (En español, Centro Nacional para la Información Biotecnológica) forma parte de la
Biblioteca Nacional de Medicina de los Estados Unidos (National Library of Medicine)
que forma parte del NIH (National Institutes of Health) o Instituto Nacionales de Salud.
Universidad Nacional Autónoma de
Honduras Facultad de Ciencias
Escuela de Biología
Departamento de Biología Celular y
Genética

Parte 1
Práctica
:
¨INTRODUCCIÓN A HERRAMIENTAS BIOINFORMÁTICAS
APLICADAS PARA ANÁLISIS GENÉTICOS¨

Nombre: Andy Rodriguez-Andrea Mayen

Número de Cuenta: 20201003215-

Docente de Teoría: Iris Salgado-

Sección de Teoría: 1700-

Fecha: 16 de agosto del 2022

Ciudad Universitaria
Tegucigalpa, Honduras
OBJETIVOS
General

 Obtener mediante tecnologías bioinformáticas a partir de secuencias de ADN,


estructuras proteicas tridimensionales usando como base diversas herramientas para
análisis genéticos.
Específicos
 Identificar cada una de las herramientas útiles empleadas para la modulación
de proteínas.
 Conocer y emplear el funcionamiento adecuado del Formato FASTA

ACTIVIDADES
1. Obtención de secuencia de nucleótidos y aminoácidos en NCBI

1. Ingrese a la página principal de NCBI https://www.ncbi.nlm.nih.gov/


2. Tomando en cuenta la inicial de su primer nombre identifique su
información relacionada con la Tomando secuencia de nucleótidos de su gen

Nombre Genes Nombre Genes Nombre Genes


A-B EF1317 K-L BMFS5 V-W MVCD1
C-D ehxA M-N TNFSF2 X CWS6
E-F EF0201 O-P NISBD2 Y NR3A1
G-H moaC R-S AD2 Z BSF-2
I-J CWS1 T-U RALD

3. Una vez ingresado a la página principal de la NCBI escriba en la barra de


búsqueda el gen que corresponde a la inicial de su nombre.
4. A continuación, responda lo que se le solicita:

Símbolo del gen nagA

Descripción del gen N-acetylglucosamine-6-phosphate deacetylase

Organismo donde se encuentra Enterococcus faecalis V583 (strain: V583)

5. Ahora busque el formato FASTA desplazándose con el cursor hacia abajo y


pegue en el espacio señalado la secuencia obtenida SIN la primera línea que hace
referencia a información sobre el gen (edite la secuencia en letra Calibri, tamaño
8).

Ejemplo:

ATGAAAACATTTATCTTTGCAGACAAGTTCTTTTTAAAAAGCGATGTTAAAGGACCTGGTTATTTAGAAA
TCACGGATGGTATCTTTGGTAATTATACAAAAGATGAACCGCAAGGGGACGTAAAAATTATTCGTGAGG
AAGGCAAATGGATTGCCCCAGGTTTAGTCGATACTCATATTCATGGTTACATGAATCATGACGTAATGGA
TAACGATGCAGAAGGCATTAAAGTGATGTCTGAAGGCTTATTATCTTGTGGTGTAACTTCATTTTTACCAA
CAACGTTAACTTCAAGTAAAGAACGTTTAACAGACGTTGCACGTACGATTGGTCAAGTCTACCAAGAAGT
ACCTGGTGCAAAAATTCAAGGGATTTACTTTGAAGGACCTTTCTTTACTGAAGAACATAAAGGCGCACAA
AATCCAAGTTATTTTGGAGATCCAGACCTTGATACATTCCCACGAATGGCAAGAAGCTTCAGGCGGAATT
ATTAAGAAAATTGCGTTGGCACCAGAACGTAATGGTGTGAAAGAATTTGTTGAAACCGTTACAGATGAA
GGTGTCGTTGTTGCTTTAGGCCATAGTAATGCGACCTTAGAAGAAGCTGATGTGGCAGTTGAAGCAGGCG
CTAGCGTTTTTGTTCATGCATATAATGGGATGCGCGGCTTAAATCACCGTGAACCAGGGATGGTTGGTGC
ATTGTTAACGTTACAACACGTTTTCTCTGAATTAATTTGTGATGGACACCATGTACATCCGCAAGCGGCTG
AAGTATTGATGGAAAAAGCGGGCCATGATCACGTTGCGTTAATTACAGACTGCATGATGGCTGGCGGTAT
GCCAGATGGCAACTATAATTTAGGTGAATTTCCTGTTGTGGTAGCAGAAGGAACGGCTCGTTTGGATACT
GGGAACTTAGCAGGTAGTATTTTAAAACTAAAAGAAGCAATTAAAAATGTAGTTGATTGGGGTATTGCA
ACACCTGCACAAGCAATTATGATGGCTTCATTAGTTCCTGCGATTAGCTGTAAAATTGATGATCAATGTG
GCATGATTGCAAATGGTCGCGATGCTGACTTTATCGTATTAGAACCAACCATGGAATTAGCAGCCACTTA
TT TAGATGGCGTAGAACGTTATCGAGCATAA.
ATGAAAACATTTATCTTTGCAGACAAGTTCTTTTTAAAAAGCGATGTTAAAGGACCTGGTTATTTAGAAA
TCACGGATGGTATCTTTGGTAATTATACAAAAGATGAACCGCAAGGGGACGTAAAAATTATTCGTGAGGA
AGGCAAATGGATTGCCCCAGGTTTAGTCGATACTCATATTCATGGTTACATGAATCATGACGTAATGGAT
AACGATGCAGAAGGCATTAAAGTGATGTCTGAAGGCTTATTATCTTGTGGTGTAACTTCATTTTTACCAA
CAACGTTAACTTCAAGTAAAGAACGTTTAACAGACGTTGCACGTACGATTGGTCAAGTCTACCAAGAAGT
ACCTGGTGCAAAAATTCAAGGGATTTACTTTGAAGGACCTTTCTTTACTGAAGAACATAAAGGCGCACAA
AATCCAAGTTATTTTGGAGATCCAGACCTTGATACATTCCACGAATGGCAAGAAGCTTCAGGCGGAATTA
TTAAGAAAATTGCGTTGGCACCAGAACGTAATGGTGTGAAAGAATTTGTTGAAACCGTTACAGATGAAGG
TGTCGTTGTTGCTTTAGGCCATAGTAATGCGACCTTAGAAGAAGCTGATGTGGCAGTTGAAGCAGGCGCT
AGCGTTTTTGTTCATGCATATAATGGGATGCGCGGCTTAAATCACCGTGAACCAGGGATGGTTGGTGCAT
TGTTAACGTTACAACACGTTTTCTCTGAATTAATTTGTGATGGACACCATGTACATCCGCAAGCGGCTGA
AGTATTGATGGAAAAAGCGGGCCATGATCACGTTGCGTTAATTACAGACTGCATGATGGCTGGCGGTATG
CCAGATGGCAACTATAATTTAGGTGAATTTCCTGTTGTGGTAGCAGAAGGAACGGCTCGTTTGGATACTG
GGAACTTAGCAGGTAGTATTTTAAAACTAAAAGAAGCAATTAAAAATGTAGTTGATTGGGGTATTGCAAC
ACCTGCACAAGCAATTATGATGGCTTCATTAGTTCCTGCGATTAGCTGTAAAATTGATGATCAATGTGGC
ATGATTGCAAATGGTCGCGATGCTGACTTTATCGTATTAGAACCAACCATGGAATTAGCAGCCACTTATT
TAGATGGCGTAGAACGTTATCGAGCATAA

6. ¿La secuencia obtenida corresponde a un código en función de nucleótidos o


aminoácidos?

Nucleótido
7. Reingrese
nuevamente a la página de NCBI, pero ahora busque su gen haciendo
referencia a la proteína.
8. En el primer recuadro que aparece en la interfaz, de click en “protein”

9. Se desplazará una ventana con toda la información completa sobre la proteína


que hace referencia a su gen, corra el formato FASTA y copie la secuencia
obtenida. SIN la primera línea que hace referencia a información sobre el
Ejemplo: gen
MKTFIFADKFFLKSDVKGPGYLEITDGIFGNYTKDEPQGDVKIIREEGKWIAPGLVDTHIHGYMNHDVMD
NDAEGIKVMSEGLLSCGVTSFLPTTLTSSKERLTDVARTIGQVYQEVPGAKIQGIYFEGPFFTEEHKGAQ
NPSYFGDPDLDTFHEWQEASGGIIKKIALAPERNGVKEFVETVTDEGVVVALGHSNATLEEADVAVEAGA
SVFVHAYNGMRGLNHREPGMVGALLTLQHVFSELICDGHHVHPQAAEVLMEKAGHDHVALITDCMMAG
GMPDGNYNLGEFPVVVAEGTARLDTGNLAGSILKLKEAIKNVVDWGIATPAQAIMMASLVPAISCKIDDQ
CG MIANGRDADFIVLEPTMELAATYLDGVERYRA

MKTFIFADKFFLKSDVKGPGYLEITDGIFGNYTKDEPQGDVKIIREEGKWIAPGLVDTHIHGYMNHDVMD
NDAEGIKVMSEGLLSCGVTSFLPTTLTSSKERLTDVARTIGQVYQEVPGAKIQGIYFEGPFFTEEHKGAQ
NPSYFGDPDLDTFHEWQEASGGIIKKIALAPERNGVKEFVETVTDEGVVVALGHSNATLEEADVAVEAGA
SVFVHAYNGMRGLNHREPGMVGALLTLQHVFSELICDGHHVHPQAAEVLMEKAGHDHVALITDCMMAGGM
PDGNYNLGEFPVVVAEGTARLDTGNLAGSILKLKEAIKNVVDWGIATPAQAIMMASLVPAISCKIDDQCG
MIANGRDADFIVLEPTMELAATYLDGVERYRA

10. ¿La secuencia obtenida corresponde a un código en función de nucleótidos


o aminoácidos?

Aminoácido
11. Selecciones los primeros 20 códigos del formato FASTA y traduzca el mismo
de acuerdo a los aminoácidos correspondientes.

Primeros 20 códigos de formato FASTA


Secuencia de aminoácidos correspondiente (Utilice como referencia la tabla de códigos aceptados
que está al inicio de la guía y escriba los grupos funcionales correspondientes al inicio y al final de
la secuencia polipeptídica)
Comienzo:
1. Metionina
2. Lisina
3. Threonina
4. Fenilalanina
5. Isoleucina
6. Fenilalanina
7. Alanina
8. Aspartato
9. Lisina
10. Fenilalanina
11. Fenilalanina
12. Leucina
13. Lisina
14. Serina
15. Aspartato
16. Valina
17. Lisina
18. Glicina
19. Prolina
20. Glicina

Final:
1) Leucina 16) Glutamato
2) Glutamato 17) Arginina
3) Prolina 18) Tirosina
4) Threonina 19) Arginina
5) Metionina 20) Alanina
6) Glutamato
7) Leucina
8) Alanina
9) Alanina
10) Threonina
11) Tirosina
12) Leucina
13) Aspartato
14) Glicina
15) Valina

También podría gustarte