Está en la página 1de 6

Taller I

Bioinformática
Natalia Andrea Granada Cano

Arabidopsis thaliana: PHYB

¿En qué cromosoma se encuentra?


cromosoma 2 de Arabidopsis thaliana

Recuento de exones: 3

Secuencia: cromosoma: 2; NC_003071.7 (8139756..8144461)

¿Cuál es la longitud?

4706nt

¿En qué posiciones está ubicado?

Obtenga el archivo en formato fasta. Utilizando send to y en formato elija fasta.


¿Qué contiene el identificador de la secuencia?

Un identificador es una secuencia de caracteres comenzando por una letra y conteniendo


letras y números. Los identificadores no se limitan a los caracteres ASCII, si el editor de
texto lo soporta, se pueden escribir identificadores utilizando caracteres Unicode.

Las letras Java incluyen los caracteres ASCII A-Z y A-z. Los digitos Java incluyen los digitos
ASCII 0-9. Para propósitos de construir identificadores, los caracteres ASCII $ y _ son
también considerados letras Java.

No hay un límite en lo concerniente al número de caracteres que pueden tener los


identificadores.

Estos son algunos ejemplos de identificadores válidos:

_varx $var1 MAX_NUM var2


>NC_003071.7:8139756-8144461 Arabidopsis thaliana chromosome 2 sequence
https://bar.utoronto.ca/thalemine/portal.do?externalids=AT2G18790

Arabidopsis thaliana

¿Cuántas versiones existen que se pueden descargar?

En busqueda realizada por el comando SRA, se obtienen 165149 resultados relacionados


a continuación, y se le asocian 107 genomas

¿Cuánto pesa el genoma?


longitud total mediana (Mb): 119.763
recuento medio de proteínas: 27334
mediana GC%: 36.1467
Además del genoma, ¿qué otros datos se pueden descargar en formato fasta?

Descargue la anotación del genoma, qué contiene el GFF y cuál es la


diferencia con la anotación del GenBank y del formato tabular.

Formato GenBank: Es un formato que muestra una base de datos anotada para
ácidos nucleicos y proteínas.
https://www.ncbi.nlm.nih.gov/genbank/
Formato tabular : Muestra una columna por campo y proporciona espacio para los
encabezados de campo.

proteína: 4PQE ○ ¿Qué proteína es?

Estructura cristalina de la acetilcolinesterasa humana


PDB DOI: 10.2210/pdb4PQE/pdb

¿En qué organismo se encuentra?

● Organismo(s): Homo sapiens


● Sistema de Expresión: Homo sapiens
● Mutación(es): No

¿Qué clasificación presenta?

Clasificación: HIDROLASA

¿Presenta alguna mutación? (considerando mutación como un cambio estructural en


la proteína)

No presenta mutaciones

Descargue la secuencia en fasta y analice el resultado obtenido. ■ ¿Qué información


presenta el identificador?

>4PQE_1|Chain A|Acetylcholinesterase|Homo sapiens (9606)

¿Cuántos aminoácidos presenta?

541 aa
EGREDAELLVTVRGGRLRGIRLKTPGGPVSAFLGIPFAEPPMGPRRFLPPEPKQPW
SGVVDATTFQSVCYQYVDTLYPGFEGTEMWNPNRELSEDCLYLNVWTPYPRPTSP
TPVLVWIYGGGFYSGASSLDVYDGRFLVQAERTVLVSMNYRVGAFGFLALPGSREA
PGNVGLLDQRLALQWVQENVAAFGGDPTSVTLFGESAGAASVGMHLLSPPSRGLF
HRAVLQSGAPNGPWATVGMGEARRRATQLAHLVGCPPGGTGGNDTELVACLRTR
PAQVLVNHEWHVLPQESVFRFSFVPVVDGDFLSDTPEALINAGDFHGLQVLVGVVK
DEGSYFLVYGAPGFSKDNESLISRAEFLAGVRVGVPQVSDLAAEAVVLHYTDWLHP
EDPARLREALSDVVGDHNVVCPVAQLAGRLAAQGARVYAYVFEHRASTLSWPLWM
GVPHGYEIEFIFGIPLDPSRNYTAEEKIFAQRLMRYWANFARTGDPNEPRDPKAPQ
WPPYTAGAQQYVSLDLRPLEVRRGLRAQACAFWNRFLPKLLSAT

● Para esto debe realizar un conteo de caracteres. Una posibilidad es


mediante comandos de Linux:
tail -n 1 rcsb_pdb_4PQE.fasta | wc -c

También podría gustarte