Está en la página 1de 4

INTRODUCCIÓN

Durante las últimas tres décadas, ha habido un impulso febril para comprender, en los más
elemental de los niveles, lo que constituye la base de "libro de la vida". Los biólogos (y los
científicos en general) son impulsados para comprender cómo los millones o miles de millones
de bases en el genoma de un organismo contienen toda la información necesaria para que la
celda realizar la miríada de procesos metabólicos necesarios para la supervivencia del
organismo, información que se propaga de generación en generación. Tener un conocimiento
básico. de cómo la colección de nucleótidos individuales bases de unidades se puede realizaron
búsquedas en y analizar fácilmente el motor de vida grandes cantidades de datos de secuencias.
Con este fin, ha ido mucho esfuerzo en el diseño y el mantenimiento de bases de datos de
secuencia biológica. Estas bases de datos han tenido un impacto significativo sobre el adelanto
de nuestra comprensión de la biología no sólo bocina computacional de un punto de vista, pero.

también a través de su uso integrado junto a estudios que se realizan en el banquillo.

La historia de bases de datos de secuencia comenzó en la década de 1960, cuando Margaret


Dayhoff y colegas en el recurso de información de proteína (PIR) recogen todas las secuencias
de proteínas conocidas en esa melodía; su grupo publicó esta colección como una obra impresa,
llamada el Atlas de la secuencia de la proteína y la estructura (Dayhoff et ai., 1978). Cuando se
convirtió en un importante número de secuencias de nucleótidos disponible, quienes también
fueron incluidos en el Atlas. (Es importante recordar que, en este momento en la historia de la
biología, el objetivo era en la proteínas de secuenciación a través de las técnicas tradicionales,
como la degradación de Edman, en lugar de hacerlo de secuenciación de ADN-) A medida que
evolucionan el Atlas, que incluía descripciones basado en texto para - acompañar la secuencias
de proteínas, así como la información sobre la evolución de muchas familias de proteínas. Esta
obra, en esencia, fue la primera base de datos de secuencia anotado, aunque fue en préstamo
impresa. En 1972, la cantidad de datos contenidos en el Atlas se convirtió en un difícil de
manejar y la necesidad de que esté disponible en formato electrónico se hizo evidente. El
contenido del - Atlas fueron distribuidos electrónicamente por PIR en cinta magnética, y la
distribución incluye algunos programas básicos' que podrían utilizarse para buscar y evaluar las
relaciones evolutivas distantes.

FIGURE 1.1 Data flow for new submissions and

updates between the three databases. See text for

details.

La llegada de bases de datos de secuencia DMA en 1982, iniciada por el euro perm, laboratorio
de biología molecular (EM3L) y Unido A poco después por el hielo de GenBank a la siguiente fase
en la historia de la secuencia de bases de datos: el pulg de auténtica explosión la cantidad de
bases de nucleótidos secuencia de datos disponibles para los investigadores. Tanto EMBL
(entonces, basada en Heidelberg) y el centro nacional de información biotecnológica (NGBI,
parte de la Biblioteca Nacional de medicina en los institutos nacionales de salud) estaban
contribuyendo a la actividad de entrada que consistía en de transcripción y de lo que fue
publicado en revistas impresas a un formato electrónico más apropiado para su uso con
ordenadores. La base de datos de ADN o Japón (DDBJ) se unió a la colaboración de recopilación
de datos pocos años más tarde. En 1988 después de una reunión de estos tres grupos (que
ahora se denomina el nucleótido internacional de colaboración de la base de datos de
secuencia), hubo un acuerdo para utilizar un formato común para los elementos de datos dentro
de un registro de la unidad, y que cada base de datos actualizada sobre los registros que fueron
directamente que presentó a en ahora todos tres centros (el Instituto Nacional de genética
mishima, Japón el Instituto Europeo de Bioinformática (EBI) en Hinxton, Uk y NCBI en bethesda,
Maryland

PRIMARIA Y SECUNDARIA DE LA BASE DE DATOS:

Antes de emprender una descripción detallada de las bases de datos de la secuencia principal,
es importante hacer una distinción entre bases de datos principales (archivos) y bases de datos
secundarias (anotadas). La contribución más importante que las bases de datos de secuencia
que se hacen a la comunidad biológica es hacer accesible de las secuencias de sí mismos. Las
principales bases de datos contienen, en su mayor parte, los resultados experimentales (con
algunas interpretación), pero no son una revisión comisariada. Revisiones comisariados se
encuentran en lo que son '' llamado de bases de datos secundarias. Las secuencias de
nucleótidos en DDBJ/EMBl/GenBank se derivan de la secuenciación de una molécula biológica
que existe en un tubo de ensayo, en algún lugar en un laboratorio. Hacen no representan
secuencias .que son un consenso de una población, ni representan algunos otro cadena
generados por computadora de letras. Este marco tiene consecuencias en la interpretación de
análisis de la secuencia. Cada dicha secuencia de ADN y el ARN se ser anotado para describir el
análisis de resultados experimentales que indican por qué esa secuencia determinó en primer
lugar. Una gran mayoría de las secuencias de proteínas disponibles en bases de datos públicas
ha no se ha determinado experimentalmente, que pueden tener las implicaciones de la
secuencia cuando se realizan análisis. Por ejemplo, la asignación de un calificador de función o
nombre de producto se basa en una interpretación subjetiva de un análisis de la similitud (por
ejemplo, BLAST; véase el capítulo 11) análisis, ser muy útil, pero a veces puede inducir a error-
ing. Por lo tanto, las secuencias de ADN, el ARN o proteínas son los elementos "computables"
para ser analizadas, y representan el componente más valioso de bases de datos principales.

BASE DE DATOS DE SECUENCIA DE NUCLEÓTIDOS

Como se describió anteriormente, las principales fuentes de datos de la secuencia de


nucleótidos son las bases de datos involucrados en la colaboración de base de datos de
secuencia de nucleótidos de internacional: DDBj, EMBL y GenBank; una vez más, los datos
nuevos o actualizados son compartidos entre estas tres entidades una vez cada 24 horas. Esta
transferencia es facilitada por el uso de formatos de datos comunes para los tipos de
información que se describe en detalle a continuación.

DDBJ, el EMBL/el GenBank nucleótido registra a menudo son la principal fuente de secuencia y
de la información biológica a partir de la cual se derivan los registros de otras bases de datos.
Porque tantas otras bases de datos dependen de la exactitud de los registros DDBJ, el EMBL/el
GenBank, algunas consideraciones importantes vienen inmediatamente a la palestra:

• Si no se indica una secuencia de codificación en un registro de ácido nucleico, no conducirá a


la creación de un registro en las bases de datos de proteínas. Búsquedas de similitud de
secuencia contra las bases de datos de proteínas, que son la forma más sensible de hacer
búsquedas (capítulo 11) de la similitud de secuencia, por lo tanto, pueden pasar por alto las
relaciones biológicas importantes.

• Si una función de codificación en un registro DDBJ, el EMBL/el GenBank contiene información


incorrecta acerca de la proteína, esta información incorrecta se transferirán a otras bases de
datos que se deriva directamente el registro; que incluso podría se propaga a otros registros de
nucleótidos y proteína sobre la base de la similitud de secuencia.

• Si importante información acerca de una proteína no se introduce en el lugar adecuado dentro


de una secuencia reced, todos los programas que están diseñados para extraer

Más probable es que la información de estos registros perderá la información, lo que significa
que la información no se filtrará a otras bases de datos.

FORMATOS DE BASE DE DATOS:

El formato elemental subyacente de la información celebrada en DDBJ, el EMBL/el GenBank es el


flatfile. La correspondencia entre los formatos de . flatfile individuales facilita el intercambio de
datos entre cada una de estas bases de datos; en la mayoría de los casos, se pueden asignar
campos sobre una base de uno a uno desde flatfile de un formato a otro. Con el tiempo, varios
formatos de archivo han sido aprobadas y han encontrado uso continuado, generalizado; otros
han caído cuneta para una variedad de razones. El éxito de un formato determinado depende de
su utilidad en una variedad de contextos, así como su poder en que efectivamente contiene los
tipos de información biológica que deba ser archivados y comunicados a la Comunidad.

En su forma más simple, un registro de secuencia puede ser representado como una cadena de
nucleótidos que algunos básica o identificador. El más ampliamente usado de estos formatos
simples es FASTA, que proporciona una manera fácil de manejar datos primarios para ambos los
seres humanos y equipos registros de secuencia de nucleótidos FASTA toman el siguiente
formulario.

En estos tres ejemplos, las líneas de la versión adoptar la adhesión de forma. Versión. Aquí, la
adhesión, parte sigue siendo estable, pero la versión se incrementa cada y cada-tiempo de los
cambios de la secuencia. La línea de GenBank versión también contiene un número de gi (el
identificador de geninfo). Si se cambia la secuencia, el gi cambiará al siguiente entero
disponible. Estos números de gi son ahora el gen-Banco específicos; la adhesión. números de
versión son ahora el identificador preferido para ser usado para referirse a unequivo¬cally al
registro de secuencia de una y sólo una de las tres bases de datos.

Con palabras clave aparecen líneas Hola cada una de las tres bases de datos. La línea de
palabras clave es una reliquia histórica que es, en muchos casos, por desgracia. Agregar
palabras clave a una entrada a menudo no se grito útil porque con el tiempo, los remitentes han
seleccionado palabras que no son parte de un vocabulario controlado o no se aplica
uniformemente a la base de datos completa. Su inclusión en los registros de la base de datos,
por lo tanto, es de utilidad cuestionable. Por esta razón, muchos de los Comisarios de la base de
datos de desalientan el uso de KEYWORDS en los registros DDBJ, el EMBL/el GenBank.
Información de la taxonomía se encuentra en las líneas de organismo de SURCEand en
DDBJ/GenBank y en el operativo correspondiente (organismo de origen) y líneas OC (clasificación
del organismo) en EMBL:

DDBJ/GenBank

FUENTE melanonogaster de Drosophila (fruta Ely.)

ORGANISMO Drosophila melanogaster

Eukaryotá; Mefcazoa; Arthropoda; Hexapoda; J Naoptéra; Endopterygota; Diptera; Brachyce:


Ephydroidea; Drosophilidae; Drosophila.

EMBL

■ de OS Drosophila melanogaster (mosca de la fruta).

OC eucariotas; Metazo'a; Arthropoda,-Hexapoda; Insecta; twijii

OC Endopterygota Diptera; Srachycera; Muscomorpha; Ephydroidea;

QC Drosophilidae; Drosophila.

El origen / OS línea especifica el nombre científico preferido del organismo de la que se deriva la
secuencia. En la mayoría de los casos, esto se lleva a proporcionando el latín de género y la
especie, seguida (en paréntesis) el nombre preferido en inglés común, donde esté disponible.
Las líneas de organismo/OC contienen la clasificación taxonómica completa del organismo de
origen. La clasificación se muestra arriba-abajo, como nodos de un árbol taxonómico, con la
agrupación más general dada en primer lugar. La taxonomía es compartida por todas las bases
de datos de secuencias de nucleótidos, así como por UniProt (abajo) de cada DDBJ / registro de
Banco de L/generación de EMB debe tener al menos una referencia o cita. Estos referencia:
bloques de ofrecer crédito científica y establecer un contexto explicando por qué se determinó la
secuencia particular, en muchos casos, la

registro tendrá dos o más bloques de referencia, como espectáculo

en los apéndices de este capítulo. El referencebloc

tienen la siguiente forma: Sonenberg, N.; .riots de "

DDB] / GenBank

«REFERENCIA 1 (bases 1 a 2881)

CMS

Autores: Lavóle,C.A., Lacharme, P.S., título también empalmado trans

ProduC

REVISTA: KEDLINS PtfEMED SHEERSNCi

WO diferentes CAP-proteínas Cham. 271 (27), 16393-16:338 ' (1995)

96279193 8553200 2 (bases

a 233:

También podría gustarte