Está en la página 1de 5

INSTITUTO TECNOLGICO SUPERIOR DE LERDO

Administracin Y Organizacin De Datos

Alumna: Berenicee Fabiola Medina Rosales

ENSAYO FORMATOS DE ARCHIVOS DE SECUENCIAS

FORMATOS DE ARCHIVOS DE SECUENCIAS El formato de un archivo es una forma particular de codificar informacin para ser almacenada. Las secuencias pueden ser ledas y escritas en una variedad de formatos. Bsicamente el formato de un archivo permite ver, crear y almacenar consistentemente archivos de un determinado tipo. Por ejemplo, un programa de imgenes guarda una fotografa en formato JPG, ahora cualquier otra persona podr ver esa fotografa si tiene un programa que permite leer el formato JPG. Todos los archivos estn formados por mltiples caracteres que deben ser interpretados en conjunto para poder ejecutarse o visualizarse (exceptuando el texto puro). El tipo de interpretacin de cada archivo est dado por el formato que utiliza. Los tipos de archivos en computacin (informtica) son dos bsicamente, los archivos ASCII y los archivos binarios. ASCII que significa Cdigo Estndar Americano para Intercambio de Informacin, contiene los archivos de texto plano bsicamente, es decir los que son entendidos por nosotros. Todos los dems que estn fuera de ser texto, son binarios. Estos engloban la mayora, ejemplo de estos son los de imagen, video, comprimidos, ejecutables o compilados, etc. Dentro de los archivos ASCII de uso comn por los programas de bioinformtica estn los de secuencias y de secuencias mltiples. Estos archivos se caracterizan por tener ciertos formatos distintivos, que hacen posible su reconocimiento por parte de los programas de manipulacin y anlisis. Un archivo secuencial es la forma ms simple de almacenar y recuperar registros en un archivo. En un archivo secuencial, se almacenan los registros uno tras otro. El primer registro almacenado se coloca al principio del archivo. El segundo se almacena inmediatamente despus (no existen posiciones sin uso), el tercero despus del segundo, etc. Este orden nunca cambia en la organizacin secuencial. Una caracterstica de los archivos secuenciales es que todos los registros se almacenan por posicin: de primer registro, segundo registro, etc. A continuacin se nombraran algunos formatos de estos archivos: Formato PHYLIP: Es un formato de secuencias de nucletidos y de residuos de aminocidos que se utiliza frecuentemente como formato de entrada de diferentes programas o paquetes de anlisis tales como: PHYLIP , LARD, PLATO, SPOT; entre otros. Este formato se usa principalmente en la qumica. Sus caractersticas son que en la primera lnea del archivo contiene el nmero de especies o secuencias a analizar y luego, el nmero de caracteres (nucletidos o aminocidos) separados por espacios en blanco (no por comas). Seguidamente, se debe colocar el nombre o identificador de cada especie o secuencia (mximo 10 caracteres) que puede incluir signos de puntuacin y espacios en blanco. Luego debe colocarse la secuencia en s; es decir los caracteres, en cdigo de una letra, correspondientes a la protena, molcula de ARN o de ADN.

Las secuencias pueden ser colocadas en columnas de diez caracteres, cada una para facilitar la lectura de las mismas. Luego puede o no colocarse una lnea en blanco separadora entre el primer y el segundo grupo de secuencias. Es importante que el nmero de caracteres de todas las lneas sea igual. GenBank: Este formato es el utilizado para los reportes de secuencias tanto de nucletidos como de aminocidos que se encuentran almacenados en el GenBank. Principalmente se caracteriza por proporcionar al usuario una informacin bastante completa sobre la secuencia. Una secuencia en formato GenBank comienza con una lnea que contiene el locus palabra y un nmero de lneas de anotacin. El comienzo de la secuencia est marcada por una lnea que contiene "origen" y el final de la secuencia est marcada por dos barras inclinadas ("/ /"). Una secuencia de ejemplo en formato GenBank es:
/ / LOCUS HSFAU ADHESIN X65923 ARNm DEFINICIN H.sapiens FAU BASE DE CUENTA 125 a 139 c 148 ORIGEN 1 ttcctctttc tcgactccat 61 agctctttgt ccgcgcccag 121 cccagatcaa ggctcatgta 181 tcctggcagg cgcgcccctg 241 tgactaccct ggaagtagca 301 gtgctggaaa agtgagaggt 361 agacaggtcg ggctaagcgg 421 cctttggcaa gaagaagggc 481 tctaataaaa aagccactta / /

g 106 t cttcgcggta gagctacaca gcctcactgg gaggatgagg ggccgcatgc cagactccta cggatgcagt cccaatgcca gttcagtcaa gctgggaccg ccttcgaggt agggcattgc ccactctggg ttggaggtaa aggtggccaa acaaccggcg actcttaagt aaaaaaaa ccgttcagtc gaccggccag cccggaagat ccagtgcggg agttcatggt acaggagaag ctttgtcaac cttttgtaat gccaatatgc gaaacggtcg caagtcgtgc gtggaggccc tccctggccc aagaagaaga gttgtgccca tctggctttc

EMBL: Los archivos en este formato son reportes generados por la base de datos de secuencias de nucletidos y de protenas respaldada por el EMBL (European Molecular Biology Laboratory). Al igual que para los archivos en formatos GenBank, los archivos en este formato pueden ser utilizados por los programas del GCG, pero antes su formato debe ser cambiado.

Un archivo de secuencias en formato EMBL puede contener varias secuencias. Una secuencia de entrada comienza con una lnea de identificacin ("ID"), seguido por las lneas de anotacin ms. El comienzo de la secuencia est marcada por una lnea de salida con "SQ" y el final de la secuencia est marcada por dos barras inclinadas ("/ /"). Una secuencia de ejemplo en formato EMBL es:
Identificacin AB000263 estndar; ARN; PRI; 368 BP. XX AC AB000263; XX DE ARNm Homo sapiens para pro cortistatin pptido similar, cds completos. XX

SQ 368 Secuencia de BP; acaagatgcc attgtccccc ctgccctgcc cctggagggt caggaataag gaaaagcagc aggccagtgc cgggcccctc gcgcaccccc ccagcaatcc agaccttctc ctcctgcaaa gacctgaa 368 / /

ggcctcctgc ggccccaccg ctcctgactt ataggagagg gcgcgccggg taaaacctca

tgctgctgct gccgagacag tcctcgcttg aagctcggga acagaatgcc cccatgaatg

ctccggggcc cgagcatatg gtggtttgag ggtggccagg ctgcaggaac ctcacgcaag

acggccaccg caggaagcgg tggacctccc cggcaggaag ttcttctgga tttaattaca

60 120 180 240 300 360

PIR: (Protein Identification Resource) este es el formato con el que son generados los archivos provenientes de la base de datos PIR. Una secuencia en formato PIR consta de: Una lnea que comienza con: a. Un ">" (mayor que) muestra, seguido por b. Un cdigo de dos letras que describe el tipo de secuencia (P1, F1, DL, DC, RL, RC o XX), seguido por c. Un punto y coma, seguido por d. El cdigo de identificacin de secuencias (la base de datos cdigo de identificacin). Una lnea que contiene una descripcin textual de la secuencia. Una o varias lneas que contienen la misma secuencia. El final de la secuencia est marcada por un "*" (asterisco) carcter. Opcionalmente, este puede ser seguido por una o ms lneas que describen la secuencia. El software que se supone que la secuencia de slo lectura debe ignorar todo esto. Un archivo en formato PIR puede comprender ms de una secuencia. El formato de PIR tambin se refiere a menudo como el formato NBRF.

Todos estos tipos de formatos son una manera simple de almacenar y recuperar registros dentro de los archivos .Como en todos estos formatos se almacenan un registros tras otro no es difcil de localizar, puesto que el primer registro almacenado ser el primero es estar al momento de querer ver o consultar algo. Normalmente el uso de los archivos secuenciales se da en procesos en lote, donde se ha hecho notar que son eficientes cuando se llevan a cabo diversas operaciones sobre una gran cantidad de registros o de todo el archivo. Esta eficiencia se logra con una accin, que es la clasificacin, proceso que no es exclusivo de los archivos secuenciales, pero si necesaria para diversas operaciones. La clasificacin es el proceso de examinar los registros en un archivo y ponerlos en una secuencia ascendente o descendente basada en el valor de uno o ms campos del registro. El uso ms comn para archivo secuenciales es para el procesamiento de gran cantidad de datos o para resguardar los mismos, tales como respaldo de datos, generacin de reportes, transmisin fsica de datos, etc. La ventaja de utilizar

este formato de archivos, es que proveen mejor utilizacin de espacio y son rpidos cuando los registros son accesados secuencialmente. Aunque tambin tiene sus desventajas, puesto que el acceso a un registro es pobre, la localizacin de un determinado registro no se puede hacer individualmente, ni rpidamente, y si se hace con un acceso aleatorio es imprctico. El archivo a causa de inserciones y supresiones, tiene que ser reescrito peridicamente.

Bibliografa:

http://www.slideshare.net/luismy_martinez/archivo-secuencial
http://www.life.umd.edu/labs/delwiche/MSyst/lec/phylip.html ftp://ftp.cecalc.ula.ve/bioinfo/CD-THAS/Programas/phylip-3.68/PHYLIP.pdf http://www.uco.es/~bb1rofra/analisis/Tema2/FormatoGenBank.html http://www.bioperl.org/wiki/GenBank_sequence_format http://emboss.sourceforge.net/docs/themes/SequenceFormats.html http://quma.cdb.riken.jp/help/gbHelp.html http://www.bioinformatics.nl/tools/crab_pir.html http://www.cecalc.ula.ve/bioinformatica/UNIX/node62.html

También podría gustarte