Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Traduccion Sequences Database
Traduccion Sequences Database
Durante las últimas tres décadas, ha habido un impulso febril para comprender, en los más
elemental de los niveles, lo que constituye la base de "libro de la vida". Los biólogos (y los
científicos en general) son impulsados para comprender cómo los millones o miles de millones
de bases en el genoma de un organismo contienen toda la información necesaria para que la
celda realizar la miríada de procesos metabólicos necesarios para la supervivencia del
organismo, información que se propaga de generación en generación. Tener un conocimiento
básico. de cómo la colección de nucleótidos individuales bases de unidades se puede realizaron
búsquedas en y analizar fácilmente el motor de vida grandes cantidades de datos de secuencias.
Con este fin, ha ido mucho esfuerzo en el diseño y el mantenimiento de bases de datos de
secuencia biológica. Estas bases de datos han tenido un impacto significativo sobre el adelanto
de nuestra comprensión de la biología no sólo bocina computacional de un punto de vista, pero.
details.
La llegada de bases de datos de secuencia DMA en 1982, iniciada por el euro perm, laboratorio
de biología molecular (EM3L) y Unido A poco después por el hielo de GenBank a la siguiente fase
en la historia de la secuencia de bases de datos: el pulg de auténtica explosión la cantidad de
bases de nucleótidos secuencia de datos disponibles para los investigadores. Tanto EMBL
(entonces, basada en Heidelberg) y el centro nacional de información biotecnológica (NGBI,
parte de la Biblioteca Nacional de medicina en los institutos nacionales de salud) estaban
contribuyendo a la actividad de entrada que consistía en de transcripción y de lo que fue
publicado en revistas impresas a un formato electrónico más apropiado para su uso con
ordenadores. La base de datos de ADN o Japón (DDBJ) se unió a la colaboración de recopilación
de datos pocos años más tarde. En 1988 después de una reunión de estos tres grupos (que
ahora se denomina el nucleótido internacional de colaboración de la base de datos de
secuencia), hubo un acuerdo para utilizar un formato común para los elementos de datos dentro
de un registro de la unidad, y que cada base de datos actualizada sobre los registros que fueron
directamente que presentó a en ahora todos tres centros (el Instituto Nacional de genética
mishima, Japón el Instituto Europeo de Bioinformática (EBI) en Hinxton, Uk y NCBI en bethesda,
Maryland
Antes de emprender una descripción detallada de las bases de datos de la secuencia principal,
es importante hacer una distinción entre bases de datos principales (archivos) y bases de datos
secundarias (anotadas). La contribución más importante que las bases de datos de secuencia
que se hacen a la comunidad biológica es hacer accesible de las secuencias de sí mismos. Las
principales bases de datos contienen, en su mayor parte, los resultados experimentales (con
algunas interpretación), pero no son una revisión comisariada. Revisiones comisariados se
encuentran en lo que son '' llamado de bases de datos secundarias. Las secuencias de
nucleótidos en DDBJ/EMBl/GenBank se derivan de la secuenciación de una molécula biológica
que existe en un tubo de ensayo, en algún lugar en un laboratorio. Hacen no representan
secuencias .que son un consenso de una población, ni representan algunos otro cadena
generados por computadora de letras. Este marco tiene consecuencias en la interpretación de
análisis de la secuencia. Cada dicha secuencia de ADN y el ARN se ser anotado para describir el
análisis de resultados experimentales que indican por qué esa secuencia determinó en primer
lugar. Una gran mayoría de las secuencias de proteínas disponibles en bases de datos públicas
ha no se ha determinado experimentalmente, que pueden tener las implicaciones de la
secuencia cuando se realizan análisis. Por ejemplo, la asignación de un calificador de función o
nombre de producto se basa en una interpretación subjetiva de un análisis de la similitud (por
ejemplo, BLAST; véase el capítulo 11) análisis, ser muy útil, pero a veces puede inducir a error-
ing. Por lo tanto, las secuencias de ADN, el ARN o proteínas son los elementos "computables"
para ser analizadas, y representan el componente más valioso de bases de datos principales.
DDBJ, el EMBL/el GenBank nucleótido registra a menudo son la principal fuente de secuencia y
de la información biológica a partir de la cual se derivan los registros de otras bases de datos.
Porque tantas otras bases de datos dependen de la exactitud de los registros DDBJ, el EMBL/el
GenBank, algunas consideraciones importantes vienen inmediatamente a la palestra:
Más probable es que la información de estos registros perderá la información, lo que significa
que la información no se filtrará a otras bases de datos.
En su forma más simple, un registro de secuencia puede ser representado como una cadena de
nucleótidos que algunos básica o identificador. El más ampliamente usado de estos formatos
simples es FASTA, que proporciona una manera fácil de manejar datos primarios para ambos los
seres humanos y equipos registros de secuencia de nucleótidos FASTA toman el siguiente
formulario.
En estos tres ejemplos, las líneas de la versión adoptar la adhesión de forma. Versión. Aquí, la
adhesión, parte sigue siendo estable, pero la versión se incrementa cada y cada-tiempo de los
cambios de la secuencia. La línea de GenBank versión también contiene un número de gi (el
identificador de geninfo). Si se cambia la secuencia, el gi cambiará al siguiente entero
disponible. Estos números de gi son ahora el gen-Banco específicos; la adhesión. números de
versión son ahora el identificador preferido para ser usado para referirse a unequivo¬cally al
registro de secuencia de una y sólo una de las tres bases de datos.
Con palabras clave aparecen líneas Hola cada una de las tres bases de datos. La línea de
palabras clave es una reliquia histórica que es, en muchos casos, por desgracia. Agregar
palabras clave a una entrada a menudo no se grito útil porque con el tiempo, los remitentes han
seleccionado palabras que no son parte de un vocabulario controlado o no se aplica
uniformemente a la base de datos completa. Su inclusión en los registros de la base de datos,
por lo tanto, es de utilidad cuestionable. Por esta razón, muchos de los Comisarios de la base de
datos de desalientan el uso de KEYWORDS en los registros DDBJ, el EMBL/el GenBank.
Información de la taxonomía se encuentra en las líneas de organismo de SURCEand en
DDBJ/GenBank y en el operativo correspondiente (organismo de origen) y líneas OC (clasificación
del organismo) en EMBL:
DDBJ/GenBank
EMBL
QC Drosophilidae; Drosophila.
El origen / OS línea especifica el nombre científico preferido del organismo de la que se deriva la
secuencia. En la mayoría de los casos, esto se lleva a proporcionando el latín de género y la
especie, seguida (en paréntesis) el nombre preferido en inglés común, donde esté disponible.
Las líneas de organismo/OC contienen la clasificación taxonómica completa del organismo de
origen. La clasificación se muestra arriba-abajo, como nodos de un árbol taxonómico, con la
agrupación más general dada en primer lugar. La taxonomía es compartida por todas las bases
de datos de secuencias de nucleótidos, así como por UniProt (abajo) de cada DDBJ / registro de
Banco de L/generación de EMB debe tener al menos una referencia o cita. Estos referencia:
bloques de ofrecer crédito científica y establecer un contexto explicando por qué se determinó la
secuencia particular, en muchos casos, la
DDB] / GenBank
CMS
ProduC
a 233: