Está en la página 1de 15

Traducido del inglés al español - www.onlinedoctranslator.

com

C. ELEGANS: SECUENCIA A LA BIOLOGÍA

Secuencia del genoma del nematodo C elegans:


una plataforma para investigar la biología
El consorcio de secuenciación de C. elegans*
The Wellcome Trust Genome Campus, Hinxton, Cambridgeshire CBIO ISA, Reino
Unido. Correo electrónico: worm@sanger.ac.uk

La secuencia genómica de 97 megabases del nematodo Cae-


norhabditis elegans revela más de 19.000 genes. Más del 40 por
ciento de los productos proteicos predichos encuentran
coincidencias significativas en otros organismos. Hay una
variedad de secuencias repetidas, tanto locales como
dispersas. La distribución distintiva de algunas repeticiones y
genes altamente conservados proporciona evidencia de una
organización regional de los cromosomas.

El scqucncc gcnomc de C. elegans es esencialmente conlplctc. La


secuencia sigue a la de los viluscos, bacterias escvcrales y aycast
(1, 2) y es la primera de un organismo multicelular. Quedan algunos
pequeños huecos por cerrar, pero será un proceso prolongado sin
mucho retorno biológico. Por lo tanto, ahora tiene sentido revisar el
proyecto como un todo.
A continuación, describimos los orígenes del proyecto, las razones
para emprenderlo y los métodos que se han utilizado, y brindamos una
breve descripción general de los hallazgos analíticos. El proyecto
comenzó con el desarrollo de un mapa físico basado en clones (3, 4)
para facilitar el análisis molecular de genes, que se estaban
descubriendo a un ritmo cada vez mayor a través del estudio de
mutantes. Esto a su vez. inició una colaboración entre el Consorcio de
Ciencia de C. elegans y la comunidad central de investigadores de C.
elegans (5). El intercambio de datos resultante y el intercambio
inmediato de información de mapas (y la secuencia posterior) han sido
los sellos distintivos del proyecto. La correlación cruzada resultante
entre mapas físicos y génticos está en curso y es esencial para lograr
una utilidad creciente del scqucncc.
Junto con el proyecto de secuenciación gcnonnc, se ha llevado a
cabo la secuenciación de etiquetas secuenciadas cxprcssed (ES T).
Se realizaron estudios iniciales de los squcnccs expresados (6),
pero el análisis completo de ADN (cDNA) ha sido realizado
principalmente por Y. Kohara (7). Este grupo ha aportado 67.815 ES
Ts de 40.379 clones, representando un estimado de 7432 genes.
Esta información cxtcnsivc se ha vuelto invaluable para identificar y
anotar genes en la secuencia gnómica. Otros también contribuyeron
con la secuencia del genoma mitocondrial de 15 kilobases (kb) (8).
Secuenciación
El mapa físico preexistente, en el que se basó la secuenciación, había
sido iniciado por el aislamiento y ensamblaje de clones de cósmidos
aleatorios (con una inserción de 40 kb, que era el sistema de clonación
de inserción más grande disponible en ese momento) con un método de
huella digital (3) . A una cobertura redundante séxtuple de la genomia en
los cósmidos, persistieron lagunas no aleatorias. En la mayoría de los
casos, el cribado de hibridación de bibliotecas de cósmidos no produjo
clones puente, pero los clones de cromosomas artificiales de levadura
(YAC) recientemente desarrollados (9) cerraron rápidamente la mayoría
de las brechas de cósmidos. Por cierto, los clones de YAC también
cubrieron casi la totalidad de la gnomc, proporcionando una
herramienta conveniente para el escaneo rápido de la gnomc entera por
hibridación (4). Alrededor del 20% del genoma es

*Consulte genoma.wustl.edu/gsc/C_elegans/ y www.sanger.ac.uVProjects/C_elegans/


para obtener una lista de autores. Dirija la correspondencia a The Washington
University Genome Sequencing Center, Box 8501, 4444 Forest Park Parkway, St. Louis,
MO 63108, EE. UU. Correo electrónico: worm@watson.wustl.edu ; o The Sanger Centre,
polimérica (PCR) a lo largo de la secuencia para confirmar que la
rcprcscntcd solo en YAC. secuencia ensamblada de la bacteria clonc era una representación
En 1989, se hizo evidente que, con el mapa físico en la mano, la precisa de la gcnomc. Estos controles se abandonaron después de que
secuenciación completa del gnomo podría ser factible y deseable. Se se encontraron. Está claro que los fallos en la PCR eran más comunes
organizó la financiación conjunta [de los Institutos Nacionales de Salud que las discrepancias entre la clonación y el genoma.
y el Consejo de Investigación Médica (MRC) del Reino Unido] para un Cuando se agotaron los cósmidos disponibles, analizamos los
estudio piloto y, en 1990, se llevó a cabo la primera secuencia de 3 cósmidos (que son similares a los cósmidos pero se mantienen en
mcgabasc (Mb). El éxito de esta empresa (10, II) resultó en la una sola copia por celda y, por lo tanto, son potencialmente más
financiación total y la expansión de los dos grupos del consorcio en estables) (16) y encontramos que un tercio de las brechas se
1993. cerraron en las regiones centrales. de los cromosomas pero vcry
La secuenciación comenzó en los centros de los cromosomas, donde la fcw wcrc bridged en las regiones exteriores. También usamos PCR
cobertura de cósmidos y la densidad de marcadores genéticos son altas. Los de largo alcance (17) para recuperar algunos de los espacios
cósmidos se seleccionaron mediante análisis de huellas dactilares para centrales. El resto de los espacios centrales y todos los espacios en
lograr una ruta de mosaico de clones superpuestos (en la práctica, 25% de las regiones exteriores se recuperaron mediante la secuenciación
superposición en promedio). Somc de los YAC. En cuanto a los cósmidos, se eligió una ruta de mosaico
Se exploró la secuenciación de YAC (12), pero debido a que el ADN ycast de YAC, y el ADN de los clones seleccionados se aisló mediante
contaminó las preparaciones de ADN de YAC, este enfoque se pospuso en electroforesis en gel de campo pulsado (18). La secuenciación se
previsión de la secuencia completa de levadura, lo que permitió identificar realizó como para los cósmidos, con adaptaciones adecuadas para
fácilmente las lecturas contaminantes. El proceso de secuenciación (13) se la pequeña cantidad de ADN que estaba disponible para hacer
puede dividir en dos partes principales: la fase de escopeta, que es la bibliotecas. Los diagnósticos de restricción se pueden realizar para
adquisición de secuencias de subclonaciones aleatorias, y la fase de verificaciones de ensamblaje,
finalización, que se dirige a la adquisición de secuencias para cerrar clones bacterianos. En esta etapa, el físico
cualquier brecha restante y resolver ambigüedades y problemas de bajo mapa
nivel. áreas de calidad, Numerosas y continuas mejoras en la fase de consolidadas y somáticas rcarrangcd como el YAC sc-qucnccs
escopeta han aumentado la eficiencia de la secuenciación, mejorado la confirmcd o rcjcctcd thc links hechos previamente por hibridación. La
calidad de los datos y reducido los costos. De manera similar, las comparación de las secuencias de YAC ensambladas con las secuencias
herramientas de acabado han mejorado dramáticamente. Sin embargo, el de cósmidos que a menudo se superponen de forma contundente mostró
acabado aún requiere una intervención manual sustancial, con una variedad pocas discrepancias entre las dos secuencias. En general, una
de técnicas especializadas (14, 15). investigación posterior reveló que la mayoría de las discrepancias
Las digestiones de restricción con varias enzimas se realizaron en la resultaron de un cambio real en el
mayoría de los cósmidos y proporcionaron verificaciones valiosas en el cósmido. Es interesante (y fundamental para el éxito de la
ensamblaje de la secuencia. Cuando el ensamblaje fue ambiguo debido a las secuenciación de YAC) que casi todas las regiones de los YAC se
réplicas, los diagnósticos fueron útiles para resolver el problema. Al
pueden clonar en
comienzo del proyecto, se realizaron verificaciones de la reacción en cadena

2012 11 DE DICIEMBRE DE 1998 VOL 282CIENCIAS vvww.sciencemag.org


C. E LEGAN S: SECUENCIA A LA BIOLOGÍA
precisión se mantiene mediante un conjunto de criterios (23), que sigue el
bacterias como fragmentos cortos, aunque las bibliotecas de
terminador y un paso de verificación final que requiere un software
cósmidos y fósmidos no lograron representar estas regiones.
especializado (24) y una inspección visual. No obstante, esto evita errores
El paso clave en los ensamblajes de secuencias de cierre era obtener
en el proceso de clonación. Una comparación de diferentes clones en
subclones que cubrieran los espacios que quedaban después de la fase
regiones superpuestas y la resolución de discrepancias han indicado una
de escopeta. longitud de lectura de secuencia típica. La introducción de
tasa de error finita asociada con la clonación. Por ejemplo,
clones de plásmidos a mitad del programa mejoró en gran medida la
cobertura de los resultados invertidos.
gatos y otras estructuras inusuales. En los casos en que la fase de
escopeta no pudo producir un subclonc de expansión, clones de
plásmidos que unieron brechas
se obtuvieron aislando y subclonando fragmentos de restricción de
cósmidos. En los YAC, debido a su mayor tamaño y complejidad, fue
necesario seleccionar por hibridación para encontrar el subclonc
deseado. En los casos más difíciles, hemos explotado bibliotecas de
plásmidos de inserción muy corta para encontrar clones puente. La PCR
se usó ocasionalmente, pero debido a su tendencia a producir artefactos
en regiones repetidas, recientemente se ha usado lo menos posible. Una
vez aislado, el clon puente de brecha se seleccionó directamente o, en
casos de una estructura secundaria difícil, se hizo una biblioteca de
inserción corta (SIL) al romper la inserción del clon puente de brecha en
fragmentos más pequeños (0,5 kb o incluso menos). en casos difíciles),
con puntos de quiebre que interrumpen la estructura secundaria (15). En
algunos casos se ha utilizado la inserción de transposones (19),
primer pase debido a su caso de rendimiento.
La secuencia de 97 Mb es un compuesto de 2527 cósmidos, 257
YAC, 113 fósmidos y 44 productos de PCR (20, 21). Para el cromosoma
12
extremos, nueve de los clones de plásmidos de telomerc
proporcionados por Wicky et al.
se han vinculado a los YAC más lejanos (22), ya sea directamente
por
scqucncc o por PCR de largo alcance y scqucing, donde no
Se encontró el enlace scqucncc. Esto probablemente
representa >99% de thc
secuencia genómica, sobre la base de la representación en la
secuencia genómica de los datos EST disponibles y de la
secuencia de los clones candom de una biblioteca genómica
completa.
Gran parte del ADN remanente probablemente reside en los
tres espacios residuales entre los tclomcrcs y los YAC squecnccd
más externos y en dos espacios internos, donde no se ha
identificado ningún clon de YAC que se expanda. Se sabe que
uno de estos es <450 kb, sobre la base de
Meridiona estimación de tamaño
l análisis (ADN), pero a confiable no es
disponibl para los otros huecos. Se recuperará una pequeña
e A cantidad.
arco atravesado por
de cuatro pequeños segmentos (que YAC), donde
la secuenciación de escopeta no se ha completado. Además,
segmentos muy pequeños (probablemente < 1 kb cada uno) no se han
recuperado en subclones para 139 segmentos. Finalmente, es
probable que falte alguna secuencia de las repeticiones en tándem de
largc, que, en casos extremos,
consisti d
r e tcns de kilobascs que se componen de cientos de
una secuencia corta. Aunque la mayoría ha sido
copics de dimensionada por
algunos segmentos en
digestión de restricción del ADN clonado, el
los YAC más grandes son de tamaño
desconocido. Tener estableció la repetición
no podemos seguir trabajando con utilidad en ellos en
clientes, esta etapa,
porque es probable que sean variables y porque no se clonan de
manera estable; cualquier clcmcnt rcpcat que demuestre ser
importante se convertirá en el tema de los estudios de población
en el futuro.
Como se muestra en la resolución de discrepancias resultantes de
emparejar cs con datos de scqucncc de otras fuentes, la tasa de error de
casi todo el producto es < 10 4. En una rcgions fcw (predominantemente
en rcgions de cxtcnsivc tandcm rcpcats), el scqucncc es taggcd para
indicar que se ha aceptado un estándar más bajo de precisión. La
como datos de secuencias genómicas del nematodo relacionado C.
número de acceso Z35719); De manera similar, detectamos una briggsae. Esta información puede ser especialmente importante para
región de 400 pares básicos que se había detectado en todas las establecer límites genéticos. Alrededor del 40% de los genes
rcads MI 3 y PCR del cósmido F59D12 (número de acceso de pronosticados tienen una coincidencia de EST de confirmación, pero
GenBank Z81558). La descomposición de F59D12 se detectó por debido a que las EST son parciales, actualmente confirman solo el
digestión de restricción y se recuperó en plásmidos. 15% de la secuencia de codificación total. En varios casos, las
Sin embargo, estos casos son tan raros que es probable que los tecnologías ecológicamente racionales han proporcionado pruebas
errores no detectados sean falsos; por lo tanto, las ventajas de la directas de empalme alternativo; estos instantes se han anotado en
secuencia basada en clones, al evitar la confusión de largo la scqucncc (34). los anotadores expertos utilizan cualquier EST
alcance en el ensamblaje, compensan con creces sus defectos disponible y similitudes de proteínas, así como datos de secuencias
genómicas del nematodo relacionado C. briggsae. Esta información
ocasionales.
puede ser especialmente importante para establecer límites
Contenido de secuencia genéticos. Alrededor del 40% de los genes pronosticados tienen una
Mientras que la secuenciación se ha completado esencialmente, coincidencia de EST de confirmación, pero debido a que las EST son
el análisis y la anotación continuarán durante muchos años, a parciales, actualmente confirman solo el 15% de la secuencia de
medida que haya más información y herramientas de anotación codificación total. En varios casos, las tecnologías ecológicamente
de bcttcr scqucncc disponibles. racionales han proporcionado pruebas directas de empalme
Para comenzar la tarea, sometimos cada scglncnt complctcd a una alternativo; estos instantes se han anotado en la scqucncc (34). los
serie de análisis automáticos para revisar posibles proteínas (25) y anotadores expertos utilizan cualquier EST disponible y similitudes
transferir genes de RNA (tRNA) (26), similitudes con EST y otras de proteínas, así como datos de secuencias genómicas del
proteínas (27—30), familias repetidas y repeticiones locales (31). Los nematodo relacionado C. briggsae. Esta información puede ser
resultados se ingresaron en la base de datos gcnomc "una base de especialmente importante para establecer límites genéticos.
datos de C. elegans" (ACEDB) (32), que fusiona secuencias Alrededor del 40% de los genes pronosticados tienen una
superpuestas para brindar vistas uniformes a través de los límites de coincidencia de EST de confirmación, pero debido a que las EST son
la clonación y permite la actualización periódica y automática de las parciales, actualmente confirman solo el 15% de la secuencia de
entradas. Para integrar y conciliar las diversas vistas de la secuencia, codificación total. En varios casos, las tecnologías ecológicamente
revisamos todos los datos de forma interactiva a través del gráfico del racionales han proporcionado pruebas directas de empalme
anotador ACEDB. alternativo; estos instantes se han anotado en la scqucncc (34).
banco de trabajo ical (32). En Actualmente confirman sólo el 15% de la secuencia de codificación
particular, total. En varios casos, las tecnologías ecológicamente racionales
GENEFNDER (25) prcdic- han proporcionado pruebas directas de empalme alternativo; estos
Las ciones se confirman o ajustan para tener en cuenta las instantes se han anotado en la scqucncc (34). Actualmente
coincidencias de proteína, cDlNA y EST, las repeticiones, etc., y confirman sólo el 15% de la secuencia de codificación total. En
se agrega una anotación relacionada con la supuesta función varios casos, las tecnologías ecológicamente racionales han
del gen. proporcionado pruebas directas de empalme alternativo; estos
La intensificación de la secuencia de codificación por parte de instantes se han anotado en la scqucncc (34).
los intrones, la generación de fomis empalmados los genes El scqucncc total de 97 Mb contiene 19.099 gcncs
alternativamente y la densidad génica relativamente baja hacen codificadores de protcina predichos, 16.260 de los cuales han sido
que la predicción precisa de gcnc sea más desafiante en revisados interactivamente, para una densidad promedio de 1 gen
organismos multicelulares que en la genómica microbiana. El predicho por 5 kb (35). Cada genc tiene un promedio de intrones tivc, y
problema es más complejo en C. elegans por el transplice y la el 27% del genoma reside en los cxones previstos. El número de gcncs
organización de hasta el 25% de los genes en operones (33). es aproximadamente tres veces mayor que el encontrado en ycast (2) y
Hemos utilizado GENE-FENDER para identificar regiones de es aproximadamente de un quinto a un tercio del número previsto para
codificación putativas y para proporcionar una descripción los humanos. Como se esperaba de las estimaciones anteriores que se
general inicial de la estructura del gen. Para cuantificar la basaron en cantidades mucho más pequeñas de secuencia genérica, el
precisión de la identificación de genes, comparamos los intrones número de genes predichos es mucho más alto que el número de genes
que fueron confirmados por EST y cDNA con los que fueron esenciales que se estimó a partir de los estudios genéticos clásicos (10,
predichos por GENEFINDER. encontramos que el 92% de los 36).
intrones predichos tenían una coincidencia exacta con los Las similitudes con las proteínas conocidas permiten vislumbrar la
confirmados experimentalmente y que el 97% tenía una posible función de los gcncs predichos. Aproximadamente el 42% de los
superposición. La identificación del inicio y fin de los genes es
productos proteicos previstos tienen coincidencias distantes (fuera de
más difícil, y los errores en este proceso a veces dan como
Ncmatoda); la mayoría de estos partidos contienen información funcional
resultado el aumento de algunos elementos adyacentes y la
(37). Otro 34% de las proteínas predichas coinciden solo con otras
división de otros. Para refinar las predicciones de la estructura
del gen generadas por computadora, los anotadores expertos proteínas nematodas, pero solo un fcw
usan cualquier EST disponible y similitudes de proteínas, así
www.sciencemag.org CIENCIA VOL 282 11 DE DICIEMBRE DE 1998 2013
C. ELEGANS: SECUENCIA DE LA BIOLOGÍA
de thcsc havc bccn funcionalmente charactcrizcd. La fracción de gencs Los genes de ARN esplicosomal U1, U2, U4, U5 y U6 se encuentran en
con similitudes informativas es mucho más bajo que el 70% de sccn 14,
para
gnomos microbianos. Esto puede reflejar la pequeña proporción de 21, 5, 12 y 20 copias distribuidas, respectivamente; hay arco fivc
ncm-
copics dispcrscd de gcncs de ARN de rccognición de señal, y thcrc
atodc gcncs que son dcvotcd a corc ccllular functions (38), thc arco por lo menos cuatro copias dispcrscd de splicc Icadcr 2 (SL2) RNA
relativa falta de conocimiento de las funciones involucradas en la gcncs.
construcción de un Una característica llamativa de estas familias genéricas dispersas es su
alto grado de
animal, y la divergencia evolutiva de los nematodos de Otros de homogeneidad de secuencia. Por ejemplo, de los 20 genes de ARN
U6,1 7
animales estudiados extensivamente a nivel molecular.
son 100% idénticos entre sí. Conversión génica o reciente
Comparamos los conjuntos de proteínas disponibles de C. elegans, Escherichia
Las duplicaciones de gcnc pueden explicar esta homogeneidad. Scveral de thcsc
Los genes ocurren en los intrones de gcncs que codifican
coli, Saccharomyces cerevisiae y Homo sapiens para resaltar la calidad ARN proteínas, que pueden
diferencias de tivc en los scts de protcina predichos (39) (Fig. l).
Generalmente, nosotros indican la transposición del gen de ARN. En general, los genes de ARN
en los intrones no
encontró que los genomas más pequeños tenían coincidencias con una no parece ocurrir preferentemente en la orientación de codificación de
fracción más grande de sus la
los conjuntos de proteínas y los genomas más grandes tenían un número elevado de proteínas coincidentes.

que abarca la transcripción, lo que indica que estos genes de ARN son
Como se esperaba de las relaciones evolutivas, hubo sustancialmente probablemente expresado de forma independiente.
se encontraron más similitudes de proteínas entre C. elegans• y H. sapiens Otros genes de ARN no codificantes aparecen en conjuntos largos
que en tándem. los
entre cualquier otra comparación por pares entre especies. También hubo un Los genes de ARN ribosómico ocurren únicamente en una matriz de este tipo al final de
cromosoma I. Los genes de ARN 5S ocurren en una matriz en tándem
número sustancial de proteínas se unen a C'. elegans y E. coli que en
no se encontraron en ycast. Del mismo modo, C'. elegans carecía de
proteínas que wcrc cromosoma V, con matriz mcmbcrs separada por empalme SLI Icadcr
encontrado tanto en ycast como en E. coli (38).
Gcncs que codifican proteínas con coincidencias distantes (fuera de ARN gcncs. A fcw otros gcncs de ARN conocidos, como el pequeño
Ncmatoda)
El ARN Y citoplásmico asociado a Ro y el ARN regulador de lin-4 son
es más probable que tengan un EST coincidente (60%) que aquellos sin
tales partidos (20%). Esta observación sugiere que los genes encontrado solo una vez en el gnomo. Algunos genes de ARN que se
conservados esperan
estar presentes en el genoma aún no han sido identificados, probablemente
es más probable que sea muy apreciado, tal vez reflejando un sesgo por porque están mal conservados tanto en la secuencia como en la
genes de "alojamiento" entre el conjunto conservado. Alternativamente, secundaria.
los genes
la falta de coincidencias confirmatorias puede ser más probable que estructura Icvcl. Thcsc incluyen RNA ribonuclcasc P, tclomcrasc RNA,
sea una predicción falsa
y 100 o más gcncs de ARN nuclcolar pequeño-
aunque nuestros análisis no respaldan esto (40).
También hemos utilizado la base de datos de la familia de proteínas Secuencias repetitivas. Somc de thc scqucncc que no docs codc para
Pfam (41) para la proteína o el ARN está indudablemente involucrado en la regulación
genética o en la
clasificar los dominios proteicos comunes en el genoma de los mantenimiento y movimiento de los cromosomas. Una fracción
nematodos. de los 20 significativa de
dominios definidos que ocurren con mayor frecuencia (Tabla l), la mayoría
son la secuencia es repetitiva, como en Otros organismos pluricelulares.
implicado en la comunicación intercelular o en la regulación Nosotros
transcripcional
lación Encontramos ejemplos comparativamente fcwcr de segundo havc clasificd rcpcat scqucnccs como locales (es decir, tandcm,
mensajero
invertcd, o repeticiones de secuencia simple) o dispcrscd.
proteínas (por ejemplo, 54 G-beta y 3 dominios de homología 2 de Src). Las repeticiones en tándem representan el 2,7% del genoma y se
encuentran, en
Este hallazgo respalda modelos en los que la misma señalización promedio, una vez por 3,6 kb. Las repeticiones invertidas representan
intracelular el 3,6% de las
Las vías se utilizan con receptores variantes y factores de transcripción en genoma y se encuentran, en promedio, una vez por 4,9 kb. Muchos
diferentes estados celulares. repiten
las familias se distribuyen de manera no uniforme con respecto a los
Además de los gcncs de codificación de proteínas, el gcnomc genes y, en
contiene al menos en particular, es más probable que se encuentren dentro de los
intrones que entre
Fundí varios cientos de genes para ARN no codificantes. hay 659
genes de ARNt ampliamente dispersos y al menos 29 pseudo-ARN gcncs. Por ejemplo, aunque sólo el 26% de la secuencia genómica es
derivados de tR-NA predicho que sea intrónico, contiene el 51% de las repeticiones en
genes (42). Cuarenta y cuatro por ciento de los gcncs de ARNt se tándem y
encuentran en el X 45% de los repeticiones incluidos. El 47% del scqucncc genómico que
es
cromosoma, que contiene sólo el 20% de la secuencia total. Escvcral que se prevé que sea integrado contiene solo el 49 % de las
Otros gcncs de ARN no codificantes ocurren en familias de multigcnc repeticiones en tándem
dispcrscd. y 55% de los rcpcats invcrtcd. Como cxpcctcd, solo un pequeño
pcrccntagc

Tabla 1. Los 20 dominios proteicos más comunes en C elegans (41). RRM,


H. sapiens 4.979 motivo de reconocimiento de ARN; RBD, dominio de unión a ARN; RNP,
motivo de proteína ribonuclear; UDP, uridina 5'-difosfato.

Número Descripción

650 Quimiorreceptor 7 TM
410 Dominio de proteína quinasa eucariótica
C'.rclcgans 240 Dedo de zinc, tipo C4 (dos dominios)
170 Colágeno
140 Receptor 7 TM (familia de la rodopsina)
26 130 Dedo de zinc, tipo C2H2
120 Dominio de lectina tipo C formas cortas y largas
21 100 Motivo de reconocimiento de ARN (dominio RRM, RBD
90 o RNP)
(SI cerevisiael 90 Dedo de zinc, tipo C3HC4 (dedo ANILLO)
90 Proteína-tirosina fosfatasa
6,217 27
90 Repetición de anquirina
Fig. 1. Porcentajes de proteínas coincidentes resultantes de
80 Dominio WD, repeticiones G-beta
comparaciones por pares (39). Los organismos y el número de proteínas Dominio homeobox
80
utilizadas en el análisis se muestran en recuadros. Para S. cerevisiae (un Canal de iones controlado por neurotransmisores
80
hongo), C. elegans (un nematodo) y E. coli (una bacteria), los números
80 Citocromo P450
reflejan proteínas que Dominio C-terminal conservado por helicasas
80
se predijeron a partir de una secuencia genómica esencialmente Alcohol/otras deshidrogenasas, tipo de cadena corta
70
completa. La dirección de las flechas libres indica cómo se realizó la UDP-glucoronosil y UDP-glucosiltransferasas
70
comparación. Dominio similar a ECF
70
Los números adyacentes a las flechas indican el porcentaje de proteínas Superfamilia de inmunoglobulinas
que se encontraron coincidentes. Los números que están subrayados y en
las letras en negrita indican el porcentaje de proteínas de C. elegans que
se encontró que coincidían con cada uno de los Otros organismos.
2014 11 DE DICIEMBRE DE 1998 VOL 282CIENCIAS vmw.cienciamag.0rg
C. ELEGANS: SECUENCIA A LA BIOLOGÍA
de las repeticiones en tándem se superpone con el 27% de la
codificación del genoma IV, inmediatamente adyacente al telómero, una repetición invertida es
proteinas presente donde cada copia de la repetición es de 23,5 kb, con sólo
Aunque las estructuras repetidas locales son a menudo únicas en ocho
el genoma, diferentes sitios encontrados entre las dos copias. Muchos casos de
cortos
otros vienen en familias. Por ejemplo, repetir la secuencia CeRep26 es se encuentran duplicaciones, que a menudo están separadas por
la repetición de hexámero que ocurre en tándem TTAGGC, que se ve decenas de
en kilobases o más que también pueden contener una secuencia de
codificación. Estas
múltiples sitios que son internos a los cromosomas además de duplicaciones podría proporcionar un mecanismo para copiar la
divergencia y
los telómeros (22). CeRep26 y C.eRep27 están excluidos de
intrones, mientras que otras familias repetidas muestran un ligero la posterior formación de nuevos genes. [n un ejemplo, dos
sesgo positivo Segmentos de 2,5 kb, separados por 200 kb. se descubrió que
hacia los intrones. contenían genes
los razón de la distribución sesgada de estos exhibiendo una identidad de secuencia del 98% (C38C10.4 y F22B7.5).
mostrar est
se repite no está claro. Además, algunas familias repiten un los datos indican que ambos genes se expresan. Más comúnmente, el
parci gen
específico del alida
cromosoma d
en
representación. Para ejemplo, las duplicaciones son locales. En una búsqueda de grupos locales de
duplicados
CeRepl l, con 71
1 copias distribuidas sobre los autosomas, tiene solo
una copia ubicada en el cromosoma X. genes, se encontraron 402 grupos distribuidos a lo largo del genoma
En total, hemos reconocido 38 familias repetidas dispersas. La mayoría
Organización cromosómica. A primera vista, el genoma parece re-
de estas repeticiones dispersas están asociadas con en
algunos marcadamente uniforme: el contenido de G(.' (36%) permanece
esencialmente sin cambios a lo largo
forma (43) e incluyen los transposones conocidos previamente todos los cromosomas, a diferencia del contenido de GC en los
descritos de genomas de vertebrados,
C. elegans. Sin embargo, estos elementos repetidos pueden no
codificar explícitamente como humano, o levadura (45). No hay centrómeros localizados como
un transposón activo (44). Por ejemplo, hemos encontrado cuatro nuevos encontrado en la mayoría de los otros metazoos. En cambio, el
extenso, altamente repetitivo
familias del tipo Tcl/mariner, pero estas son muy divergentes de secuencias que son características de los centrómeros en otros
organismos
entre sí y los demás miembros de la familia; probablemente ya no estén puede estar representado por algunas de las muchas repeticiones en tándem encontradas
activo en el genoma. dispersos entre los genes, particularmente en los brazos
Además de las familias repetidas de copias múltiples, observamos cromosómicos,
una La densidad de genes también es bastante constante en todos los
cantidad potencial de duplicación simple de secuencia, cromosomas, aunque
es decir, segmentos algunas diferencias son aparentes, particularmente entre los centros de
la
que van desde cientos de bases a decenas de kilobases que han sido
copiado en el genomc. En un caso, un segmento de 108 kb que
contiene autosomas, el autosoma arrns. y el cromosoma X (Tabla 2 y
Seis genes se duplican en tándem con solo 10 sitios observados como Sorprendentes diferencias se hacen evidentes después de un
examen de
Otras características. Las secuencias repetitivas tanto invertidas
diferente entre las dos copias. En el extremo izquierdo del cromosoma como en tándem son
más frecuente en los brazos autosome (Fig. .3) que en el central
25 peceot0'O nk.segado
25 4.
20
20
10
7TM
Unincum

5
5
25
SCP, TPX
25 Pul.atn•e Chitnase 20
Tu * conocido
20 IV 7TM
15
15

5
regiones de los cromosomas o en el cromosoma X. Por ejemplo,
CeRep26 está virtualmente excluido de los centros de los auto-
somas (Fig. .3). (Es probable que la abundancia de repeticiones
5

en los brazos sea un factor que contribuya a las dificultades en la


V 25
clonación de cósmidos y
7TM 7TM recemor finalización de la secuencia en estas regiones). La fracción de genes
oceptor con
10

16000
Tabla 2. Densidad de genes. Los autosomas se dividen en los
compartimentos genéticamente definidos del brazo izquierdo (L), la región
del grupo central (C),
la derecha
brazo (D). El porcentaje de genes con EST y coincidencias con la base de datos
fue
determinado sólo a partir de genes inspeccionados manualmente. Coincidencias
de bases de datos con no
proteínas fueron determinadas con WUBLASTP (P
0,001). paréntesis-
ses denota el número de predicciones de puntuación baja que se cree que son
pseudogenes.

cromo-
Tamañ Base de
alguno o Proteína Densidad Bacalao- est datos
(Megab
yte) genes (kb por En g juego juego

3.29 649 5.06 7(2) 21.59 57.0 53,9


C 5.59 4.77 34(4) 31,65 52,9 52.1
4.98 983 5.06 33(2) 25,00 43.4 40.8

X25 3.83 1 049 3.65 2903) 29.00 22.7 26,9


15
C 7.93 38(6) 29.68 49.7 49.8
20 491 6.03 16(5) 19.89 43.5 39.9

3.30 612 5.4 31(14) 20.60 44.2 42.1


4.98 4.52 42 (0) 32.21 53.5 53.5
C 4.49 5.66 21(3) 23.91 53.1 50.2
Fig. Z Ubicaciones por cromosoma (mostradas en números romanos)
de local 39.9
grupos de genes. El eje x representa la distancia física en kilobases 5.44 1,050 5.17 3806) 20.87 39.7
a lo largo de los cromosomas. El eje y representa el tamaño de los 6.51 1 422 4.58 20(3) 29.69 45.7 50.3
conglomerados. Para
4.19 622 6.73 26(2) 16.5 36.6 40.7
ejemplo, el grupo de quitinasa en el cromosoma II contiene 17 Ccomo
genes. Los grupos de genes locales se determinaron mediante la 6.19 yo, 491 4.15 1 7(4) 27.00 22.0 33.0
búsqueda de todos los casos de N genes que son similares dentro de 6.84 1,573 4.34 37(0) 29.40 32.2 43.8
una ventana de 2N genes a lo largo de los cromosomas (por ejemplo,
tres genes similares dentro de una ventana de Seis se consideraron un 7.79 4.36 152(94) 25.50 19.5 28.8
grupo; los grupos se extendieron hasta que no se pudieron identificar 6.54 362(33) 19.8 40,9 43.34
genes similares). ser agregado). Se trazaron grupos de N = 3 o más. el
criterio 95.53 19.141 877098)
para la similitud se definió como una puntuación BLASTP de al menos
200. ATP, X
adenosina 5'-trifosfato; TM. transmembrana; Mem. Recep., miembro
receptor de brana; SCP/TPX, una familia de proteínas (SCP, sperm•coating gty-
Total
coproteína; TPX, Tpx-l, una proteína testicular específica).
www.sciencemag.org CIENCIA VOL 282 11 DE DICIEMBRE DE 1998
C. ELEGANS: SECUENCIA A BIOLOGÍA
similitudes con organismos distintos de los nemátodos tiende a ser
menor en
los brazos, al igual que la fracción de genes con coincidencias EST. Límites nítidos evidentes. Estos límites aparecen cerca de la
los
La diferencia entre los brazos autosómicos y las regiones centrales límites en el mapa genético que separan regiones de alto y bajo
es incluso
más evidente en el número de coincidencias EST (46). El gen local tasas de recombinación (47).
racimos descritos anteriormente también parecen ser más
abundantes en el
Conclusiones
brazos. Hay razones secretas para secuenciar de forma completa una gnomc.
Estas características, junto con el hecho de que la recombinación los
meiótica
ción es mucho más alta en los brazos autosómicos, sugirió que el La primera y más sencilla razón es que proporciona una base para la
ADN descubrimiento de todos los genes. A pesar del poder del análisis de
en los brazos podría estar ADNc y
evolucionando más rápidamente que en el centro su enorme valor en la interpretación de la secuencia del genoma, ahora
está gen-
regiones de los autosomas. Si es así, uno podría esperar que la con- Eramente reconocido que se necesita una mirada directa al genoma
conjunto servido de genes eucarióticos para
compartidos por levadura y C. elegans completar el inventario de gcnes. En segundo lugar, la secuencia
estarían en gran medida excluidos de las armas. Para probar esto. muestra la
nos identificamos
relaciones de largo alcance entre los genes y proporciona la estructura
fied 1517 protcins en C. elegans que son muy similares a la levadura y controlar los elementos que deben estar entre ellos. En tercer lugar,
proporciona un conjunto
genes y trazaron su ubicación a lo largo de la longitud de la cromo- de herramientas para la experimentación futura. donde cualquier
algunos (Fig. 3). Para cuatro de los cinco autosomas, las diferencias secuencia puede ser
en valioso y complcteness es la clave. En cuarto lugar, la secuenciación
la distribución de los genes centrales son bastante sorprendentes, proporciona una
con sorprendentemente índice para dibujar y organizar
todo información genética sobre el
organismo. Quinto, y más importante a lo largo del tiempo, es que el
todo es un
archivo para la IUtura. que contiene toda la información genética
necesaria
-1
hacer el organismo (la mayor parte del cual aún no se comprende).
Como recurso, el
Será utilizado indefinidamente no solo por
C,
biólogos elegamç, sino también por Otros investigadores para la
comparación con
y la interpretación de Otros genomas, incluido el genoma humano.
Como ya se sabía, el genoma de un organismo multicelular es
muy diferente de la de un organismo microbiano (e incluso diferente
de la de un eucariota como la levadura). Es predominantemente no
X codificante.
con genes extendidos (a veces sobre muchas kilobases) por intrones.
En lugar de actuar principalmente como fuente de un sct de proteína
secuencias, la secuencia genómica en sí sigue siendo el foco principal
de
anotación. Hay dos razones para esto. Primero mucha informacion
sobre la función biológica se encuentra en secuencias no codificantes;
segundo,
métodos actuales de identificación de genes, tanto experimentales
como complejos.
supuestos, no son lo suficientemente precisos y completos para
proporcionar una
1 1
conjunto definitivo de secuencias
de proteínas.
Si empezáramos de nuevo ahora, ¿emplearíamos el mismo enfoque?
Casi seguro (48). El mapa físico basado en clones fue un factor crítico
factor en la organización del proyecto entre los dos sitios. los clones de
el mapa también tiene valiosos reactivos para la comunidad
investigadora
y siguen siéndolo: los ensamblajes discretos de cósmidos y YACs
se han vuelto esenciales para desentrañar repeticiones extensas en
muchas áreas.
Para las numerosas áreas pequeñas que están subrepresentadas en
2 escopeta
ensamblajes, los subclones raros se pueden recuperar fácilmente del
cósmido
bibliotecas de
y YAC subclones.
Hay dos cambios menores que haríamos en la secuencia:
enfoque de ing. Agregaríamos clones bacterianos insertados más
largos (por
Similitudes de ejemplo. cromosomas artificiales bactcriales) al mapa. toma de huellas
Secuencia: levadura: dactilares
ellos de la misma manera que los cósmidos (48). En segundo lugar,
empezaríamos
Genes predichos: Repeticiones invertidas:
Secuenciación de YAC anteriormente en el proyecto. Que wc no lo hizo
en este
Partidos EST: Repeticiones en tándem: ocasión fue por razones históricas [en particular, la disponibilidad de
ITAGGC repite: la secuencia del genoma de la levadura (ver arriba)].
¿Qué tan importante ha sido el proyecto del gusano para el Genoma
Humano?
Fig. 3. Distribuciones de genes predichos; partidos del EST; proteína ¿Proyecto? A través de la retroalimentación de muchas fuentes,
de levadura deducimos que ha
similitudes; y repeticiones invertidas, en tándem y TTACGC a lo sido influyente en mostrar lo que puede
largo de cada
La densidad de genes varía poco a lo largo y entre los hecho. Ciertamente, es una
autosomas. observación
En el cromosoma X, los genes aparecen con menor densidad y son capaz de mirar hacia atrás a 1992, cuando un artículo sobre solo tres
más cósmidos
Distribuidos equitativamente. Por el contrario, la frecuencia de fue publicado como un hito importante (10). Sin duda, el desgastado

coincidencias EST varía


el proyecto ha contribuido al desarrollo de tecnología y software; es
según su posición a lo largo de los autosomas, lo que indica un agrupamiento no es un banco de pruebas único. pero junto con los proyectos de Otro genoma, ha

de genes altamente expresados. Las ubicaciones cromosómicas de estos gruposexplorado formas de aumentar la escala y la eficiencia.
se correlacionan bien con las ubicaciones cromosómicas de los ¿Dónde está la línea de meta?
productos génicos que Este publicación marca más de un
exhiben similitudes significativas con las proteínas de levadura (valor P de 10-9). Para el principio que un final y es otro hito en un proceso en curso

autosomas, la densidad de repetición varía dramáticamente con el cromosoma [ posi- del análisis de la biología de C. elegans. No es muy significativo en ningún
punto particular para llamar a los genomas de este tamaño terminado,
ción y es más alto en los brazos. La densidad de invertido y tándem. debido a la
imperfecciones inevitables que solo se resolverán gradualmente. Esto
repeticiones en el cromosoma X es más uniforme, pero similar a la es
autosomas, las repeticiones TTAGGC tienden a ubicarse en los cierto sin importar qué método de secuenciación se adopte. Lo
brazos. Flexible- importante
cosa no es una declaración de finalización, sino más bien la provisión
La información mental sobre el análisis se puede encontrar en www. de la
sciencemag.org/feature/data/c-elegans.shl para obtener una mejores herramientas posibles para los usuarios en cada etapa y un
descripción general. compromiso con
11 DE DICIEMBRE DE 1998 CIENCIA
2016 VOLUMEN S www.sciencemag.org
C. ELEGANS: SECUENCIA A LA BIOLOGÍA
ensamblaje inicial y la comparación del consenso resultante mediante un análisis Smlth-Waterman en
mantenimientoymejora, a través de la interacción bandas [CROSSMATCH (57)] contra la secuencia. que fue obtenido por el terminador. Cualquier
discrepancia en el ensamblaje o la secuencia, junto con cualquier región que no cumpla con los
criterios de acabado, se revisan manualmente y se recopilan nuevos datos según sea necesario. Solo
conlausuariocomunidad,comolargocomoqueesnecesario.
cuando se toman en cuenta todas las discrepancias, la secuencia se transmite

Referenciasynotas
1. MS Chee et al. , en Cytomegaloviruses, vol. 154 de Temas Actuales en Microbiología
e Inmunología, J, K. McDougall, Ed. (Springer-Verlag, Berlín,
págs. 125—
169;
RD Fleischmann y col. Science 269. 496 (1995); C J. Bult y col., ibíd. 273. 1058
(1996). FR Blattner et al.. ibíd. 277. 1453 (1997); ST Cole et al., Naturaleza 393, 537
(1998).
2. HW Mewes et al.. Nature 387 (suplemento), 7 (1997): A. Goffeau et al., Science 274,
546
(1996).
3. A, R. Coulson et al.. Proc, Nat(. Acad. Sci. USA 83, 7821 (1986),
4. A. Coulson
al.. Bioessays 13, 413 (1991); A. Coulson y col.. Nature 335, 184
(1988). El estado actual del mapa físico de C. elegans está disponible en la World
Wide Web (20, 27).
5. Las investigaciones que contribuyen al proyecto del genoma de C. elegans son
demasiado numerosas para citarlas. Dos publicaciones representativas fáciles son l.
Greenwald, A. Coulson, J. Sulston, Nucleic Acids Res. 15, 2295 (1987) y S. Ward et al.].
mol.
199, 1 (1988).
6. R. Waterston y otros. Nature Genet. 1. 114 (1992); WR McCombie et al. , ibíd., pág.
124.
7. Y. Kohara, Enzima de ácido nucleico de proteína PNE 41. 715 (19%).
8. R.Okimoto. JL Macfadane, DO Clary. DR Wohlstenholme. Genética 130, 471 (1992).
9. DT Burke. Carie de GF. MV Olson, Ciencia 236, 806 (1987).
10. J. Sulston et al.,
37 (1992).
11. R. Wilson y col. ibíd. 368. 32 (1994).
12. M. Vaudin
a[., ácidos nucleicos res. 23. 670 (1995).
13. Para detalles
del proceso de secuenciación, véase (49). El proceso comenzó con la
purificación
de ADN de clones seleccionados de la ruta de mosaico. El ADN se
cortó mecánicamente y, después de la selección de tamaño, los fragmentos
resultantes se subdividieron en vectores M 13 o plásmidos. Se seleccionaron
subclones aleatorios para la generación de secuencias (el enfoque de
secuenciación de escopeta), Generately.
lecturas de secuencia por 40
kb de
El ADN genómico se generó con cebadores o terminadores marcados con tinte
fluorescente.
Las bases se determinaron con PHRED (50). Un conjunto de estas secuencias
aleatorias
que se generó con PHRAP (51) típico (y resultó en dos a ocho contigs. Cap
el cierre y la resolución de las ambigüedades de la secuencia se lograron durante el
acabado [usando
los paquetes de edición GAP (52) y CONSED (53) y la colección de
datos]
lecturas más largas. reacciones de secuenciación dirigida utilizando
cebadores de oligonucleótidos personalizados en plantillas elegidas, o químicas
adicionales según sea necesario. Se analizó la secuencia terminada de alta calidad
mediante el uso de un conjunto de programas (incluidos BLAST y GENEFINDER), y los
resultados se almacenaron en ACEDB y se enviaron a GenBank. Los datos de secuencias
incompletas y terminadas estaban disponibles para los investigadores mediante el
protocolo de transferencia de archivos (ftp) de ambos 5ites de secuenciación (20, 21).
14. CR Heiner, K. L Hunkapiller, SM Chen, Genome Res. 8, 557 (1998); LG Lee et al.,
Nucleic Acids Res. 20, 2471 (1992); JD Parsons, Cómputo. aplicación Biosci. 11. 615
(1995).
15. AA McMurray, JE Sulston, MA Quai (, Genome Res. 8, 562 (1998).
16. UJ Kim, H. Shizuya, PJ de Jong, Nucleic Acids Res. 20, 1083 (1992).
17. S. Cheng, C. Fockler, W, M. Barnes, Proc. Nati. Academia ciencia USA 91, 5695
(1994).
18. Una separación limpia del ADN del YAC del ADN cromosómico del huésped a veces
requería el uso de cepas de levadura en las que se modificaba el tamaño de los
cromosomas específicos de la levadura para proporcionar una ventana alrededor del
YAC que está libre de los cromosomas nativos. L Hamer, M. Johnston, E-D. Green, Proc.
Nat[. Academia Sci-USA 92, 11706 (1995).
19. SE Devine, S. t. Chissoe. Y. Eby, Genoma Res. 7, 551 (1997).
20. Disponible en www.sanger.ac.uk.
21. Disponible en genoma.wustl.edu/gsc/gschmpg.html.
22. C, Wicky y otros. Proc. Natt. Academia ciencia USA 93, 8983 (1996).
23. Cada región debe secuenciarse en cada hebra o con cebador de tinte y tinte.
la química del terminador, por lo que las comparaciones extensas han demostrado
ser al menos tan confiables como la doble hebra para revelar y corregir las
compresiones y otros errores de llamada de base. Todas las regiones deben estar
representadas por lecturas de dos o más subclones independientes o de productos
de PCR en toda la región. Si se utilizan productos de PCR subclonados para una
región, se deben secuenciar tres clones independientes. Se permitieron raras
excepciones a las reglas generales de la química alternativa o de doble cadena
sobre la base de lo siguiente. Para las regiones de < 50 bases donde, a pesar de los
esfuerzos válidos, un finalizador no puede lograr una doble cadena o una doble
química, se puede enviar la secuencia (siempre que la secuencia sea de alta calidad
y tanto el finalizador como su supervisor no vean bases ambiguas). ), Al editar en
XGAP, todos los datos de secuencia deben resolverse al nivel de consenso del 75
%, ya sea mediante la recopilación de datos adicionales o mediante la edición de
trazas mal llamadas. En CONSED, cualquier base de consenso con una calidad
<25% debe revisarse manualmente para determinar si los datos disponibles son
suficientes para respaldar sin ambigüedades la secuencia contig derivada. [f no se
recopilan datos adicionales.
24. Cada secuencia terminada se somete a una serie de pruebas de control de calidad, incluida
la verificación de que se han seguido todas las reglas de finalización (23) y una verificación
cuidadosa de que el ensamblaje es consistente con toda la información del resumen de
restricciones. Además, cada secuencia terminada se somete a un proceso automático de
reensamblaje de llamadas de base con algoritmos diferentes a los que se usaron para el
contienen exones verdaderos) en genes de C. elegans en GenBank tienen puntajes
normalizados superiores a 5.0 (y muchos del 15 % restante son exones iniciales o terminales,
para anotación A su vez, si la anotación marca alguna región sospechosa, estas son que tienen un solo sitio de empalme ). La fracción de exones con puntajes >5.0 puede ser
nuevamente menor para todos los genes de C. etegans debido al sesgo hacia los genes altamente
expresados (que a menudo tienen puntajes de segmento de codificación muy altos) en el
devuelto al finalizador para su resolución, ya sea mediante la recopilación
conjunto verificado experimentalmente. Sin embargo. incluso para los genes en el conjunto
de datos adicionales o la edición.
verificado actual que se expresan en niveles de nwderate a bajos, la mayoría de las
25. P. Green y L. Hillier, software inédito.
puntuaciones de ORF de exón superan 5,0; esta puntuación debería ser un criterio eficaz para
26. GA Fichant y C. Burks, J. Mol. Biol. 220. 659 (1991); T, M. Lowe y S. Eddy, Nucleic
identificar al menos una parte de la mayoría de los genes. En teoría, los ORF de puntuación alta
Acids Res. 25. 955 (1997).
podrían surgir de otras formas. Por ejemplo. Las regiones intergénicas o intrónicas que tienen
27. SF Altschul, W. Gish, W. Miller, J. Mol. Biol. 215. 403 (1990): W.Gish. Software
una composición de nucleótidos anormal pueden parecer que tienen segmentos de
inédito WU-BLAST.
28. E. L L. Sonnhammer y R. Durbin, en Actas de la Segunda Conferencia Internacional codificación y, ocasionalmente, por casualidad, pueden tener sitios de corte y empalme de alta
sobre Sistemas Inteligentes para Biología Molecular, R. Altman, D. Brutlag P. Karp, R. puntuación. Hasta el momento, parece haber relativamente pocas regiones de este tipo en la
Lathrop, D. Searls, Eds. (Prensa AAAI, Menlo Park, CA, 1994), págs. 363-368. secuencia genómica de C. elegans. Estas regiones pueden explicar los exones huérfanos
29. R. Mott, Cómputo. aplicación Biosci. 13, 477 (1997). anómalos que ocasionalmente encontramos. Además, hay ejemplos en los que estos genes
30. EL Sonnhammer, SR Eddy, E. Birney, Nucleic Acids Res. 26, 320 (1998); S, R. Eddy predichos por GENEFlNDER pertenecen a familias de genes Clear que son específicas de
Curr. Opinión Estructura. Biol. 6, 361 (19%). nematodos o tienen una similitud muy lejana fuera de los nematodos, por ejemplo, genes
31. Identificamos repeticiones locales en tándem e invertidas con los programas quimiorreceptores (54). Las regiones intergénicas o intrónicas que tienen una composición de
QUICKTANDEM, TANDEM e INVERTED (20). que buscan repeticiones dentro de nucleótidos anormal pueden parecer que tienen segmentos de codificación y, ocasionalmente,
intervalos de 1 kb a lo largo de la secuencia genómica. Un índice de familias repetidas por casualidad, pueden tener sitios de corte y empalme de alta puntuación. Hasta el momento,
utilizadas por el proyecto está disponible en parece haber relativamente pocas regiones de este tipo en la secuencia genómica de C.
www.sanger.ac.uk/Projects/C_elegans/repeats/. elegans. Estas regiones pueden explicar los exones huérfanos anómalos que ocasionalmente
32. R. Durbin y J. Thierry-Mieg. software inédito. La documentación, el código y los encontramos. Además, hay ejemplos en los que estos genes predichos por GENEFlNDER
datos están disponibles en servidores ftp anónimos en lirmm.lirmm.fr/pub/acedb/, pertenecen a familias de genes Clear que son específicas de nematodos o tienen una similitud
ftp.sanger. ac.uk/pub/acedb/ y ncbi.nlm.nih.gov/repository/acedb/. muy lejana fuera de los nematodos, por ejemplo, genes quimiorreceptores (54). Las regiones
33. En C. elegans, se pueden transcribir dos o más genes del mismo promotor, con un intergénicas o intrónicas que tienen una composición de nucleótidos anormal pueden parecer
gen separado por no más de unos pocos cientos de nucleótidos de otro. En los genes que tienen segmentos de codificación y, ocasionalmente, por casualidad, pueden tener sitios
que se someten a transpticing, el exón S' comienza con una secuencia aceptora de corte de corte y empalme de alta puntuación. Hasta el momento, parece haber relativamente pocas
y empalme, lo que hace que este exón 5' sea más difícil de distinguir de los exones regiones de este tipo en la secuencia genómica de C. elegans. Estas regiones pueden explicar
internos. Esta combinación de factores puede resultar en la fusión de dos genes en uno los exones huérfanos anómalos que ocasionalmente encontramos. Además, hay ejemplos en
[T. Blumenthal, Tendencias Genet. 11, 132 (1995)], los que estos genes predichos por GENEFlNDER pertenecen a familias de genes Clear que son
34. Hemos identificado 182 genes que poseen variantes de empalme alternativas, que específicas de nematodos o tienen una similitud muy lejana fuera de los nematodos, por
provienen predominantemente de datos EST. De estos, 67 genes producen proteínas ejemplo, genes quimiorreceptores (54). Estas regiones pueden explicar los exones huérfanos
que difieren en su extremo amino, 57 genes producen proteínas que difieren en el anómalos que ocasionalmente encontramos. Además, hay ejemplos en los que estos genes
extremo carboxi, y 59 genes producen proteínas que muestran una variación interna. De predichos por GENEFlNDER pertenecen a familias de genes Clear que son específicas de
las variaciones internas, siete genes mostraron omisión completa de exón. Se encontró nematodos o tienen una similitud muy lejana fuera de los nematodos, por ejemplo, genes
un gen donde el extremo S' de un exón había cambiado. 21 de los cuales resultaron en quimiorreceptores (54). Estas regiones pueden explicar los exones huérfanos anómalos que
una diferencia de tres codones o menos. En contraste, de los 24 transcritos alternativos ocasionalmente encontramos. Además, hay ejemplos en los que estos genes predichos por
que cambiaron el extremo 3' de un exón, solo 4 resultaron en un Cambio de tres o GENEFlNDER pertenecen a familias de genes Clear que son específicas de nematodos o tienen
menos codones. una similitud muy lejana fuera de los nematodos, por ejemplo, genes quimiorreceptores (54).
35. Disponible en www.sanger.ac.uVProjects/C_elegans/Science98/. 41. Pfam es una colección de alineamientos de familias de proteínas que se construyeron
36. RK Herman, en The Nematode Caenolhabditis elegans, W. B- Wood, Ed. (Cold semiautomáticamente con modelos ocultos de Markov dentro del paquete HMMER. Los datos
Spring Harbor Laboratory Press, Plainview, NY, 1988), págs. 17-45; R. Waterston y J. de colágeno y siete quimiorreceptores transmembrana se obtuvieron con modelos ocultos de
Sulston. Proc Nati. Academia ciencia USA 92, 10836 (1995). Markov no publicados. El número de siete genes quimiorreceptores transmembrana es inferior
37. Estos resultados se obtuvieron con WU-BLAST (versión 2.0a13MP), utilizando al encontrado por Robertson (54), lo que podría deberse a pseudogenes.
parámetros predeterminados y un valor umbral de P de 10 3. P. Green et al.. Science 259, 42. Los pseudogenes putativos de ARNt se identifican mediante el programa de búsqueda
1711 (1993). tRNAscan-SE como secuencias que están significativamente relacionadas con un consenso de
38. SA Chervitz et al.. Science 28Z 2022 (1998). secuencias de ARNt pero no parece probable que adopten una estructura secundaria canónica
39. E, L. Sonnhammer y R. Durbin. Genómica 46, 200 (1997). de tRNR (26). Muchos genomas de eucariotas superiores tienen elementos nucleares
40. ) A continuación, se utiliza un algoritmo de programación dinámica para encontrar
intercalados cortos (SINE) móviles derivados de tRNA. Sin embargo. debido a que son pocos
el conjunto de genes candidatos que no se adaptan (en una hebra determinada) que
en número, el ARNt del nematodo
tiene la puntuación total más alta (entre todos esos conjuntos). Alrededor del 85 % de
los "ORF de exón" verificados experimentalmente (marcos de lectura abiertos que
www.sciencemag.org SCIENCEVOL 28211 DICIEMBRE 1998
2017
C. ELEGANS: SECUENCIA A LA BIOLOGÍA
pseudogenes parecen más (probablemente surgieron por algún evento raro en
Creen, S. Klapholz, RM Myers, J. Roskams, eds. (Cold Spring Harbor Laboratory
lugar de por la amplia movilidad que caracteriza a los SINEs móviles [GR Daniels y
Press, Plainview, NY, 1997), vol. 1, págs. 397—454. Para paquetes de software,
PL Deininger, Mature 317, 819 (1985)].
43. AF Smit, Curr. Opinión Gineta. desarrollador 6, 743 (1996). consulte (20) o
44. RF Keting, SEJ Fischer. R, H. Yeso, Nucleic Acids Res. 25, 4041 (1997). (21) y S. Dear et al. , Genoma Res. 8, 260 (1998); M. Wendl y col., ibíd., pág. 975; JD Parsons,
Cómputo. cita Biosci. 11, 615 (1995); y M. Cooper et al. , Genoma Res. 6,
45. G. Bernardí, Annu. Rev. Genet. 29, 445 (1995); B. Dujon et al., Naturaleza 369, 371
1 1 10 (1996).
46. La abundancia de EST de C. elegans no refleja directamente los niveles de 50. B. Ewing, L. Hillier, MC Wendl, Genoma Res. 8, 175 (1998); B, Ewing y P. Green, ibíd.,
pág. 186.
expresión, porque se derivan de ADNc en los que se seleccionaron parcialmente los genes
51. P. Creen, comunicación personal.
expresados más abundantemente (6, 7).
52. JK Banfield, KF Smith, R. Staden. Ácidos Nucleicos Res. 23, 4992 (1995).
47. TM Barnes, Y. Kohara, A. Coulson, Genetics 141. 159 (1995).
53. D. Gordon, C. Abajian, P. Green, Genome Res. 8, 195 (1998).
48. Este enfoque también se está utilizando para el genoma humano (Centro Sanger,
54. HM Robertson, Genoma Res. 8. 449 (1998).
Centro de secuenciación del genoma de la Universidad de Washington, Genome Res„ en 55. Este trabajo ha sido apoyado por becas del Cenome Humano Nacional de EE.UU.
prensa). Instituto de
49. Para detalles metodológicos, véase (20) o (21). Para procedimientos bioquímicos, Investigación
el MRC del Reino Unido. También nos gustaría agradecer a los
véase RK Wilson y ER Mardis, en Genome Analysis: A Laboratoty Manual, 8. Birren, ED. muchos miembros
de la comunidad de C. elegans que han compartido datos y proporcionado aliento
en el transcurso de este proyecto.

Dedos de zinc en Caenorhabditis elegans:


Búsqueda de familias y vías de sondeo
Neil D. Clarke y Jeremy M. Berg
La familia CyszHisz
Departamento de Biofísica y Química Biofísica, Escuela de Medicina de
Más del 3 por ciento de las secuencias de proteínas la Universidad Johns Hopkins, Baltimore, MD 21205, EE. UU.
deducidas del genoma de Caenorhabditis elegans contienen
motivos de secuencia característicos de dominios
estructurales de unión a zinc, y se cree que más de la mitad
de estos son proteínas de unión a ADN específicas de
secuencia. La distribución de estos dominios de unión al
zinc entre los genomas de varios organismos ofrece
información sobre el papel de las proteínas de unión al zinc
en la evolución. Además, la secuencia completa del genoma
de C. elegans brinda la oportunidad de analizar, y tal vez
predecir, vías de regulación transcripcional.

Hace menos de 15 años, se sugirió que las secuencias repetidas


encontradas en el factor de transcripción IIIA (TFI[IA) de Xenopus
podrían plegarse en dominios estructurales estabilizados por la
unión de zinc a residuos de cisteína e histidina conservados (1 3).
Klug y sus colaboradores señalaron además que "no sería
sorprendente que las mismas 30 unidades de residuos se
encontraran en cantidades variables en otras proteínas de control
de genes relacionadas" (1). Esta propuesta demostró ser
notablemente profética: Caenorhabditis elegans, por ejemplo,
resulta tener más de 100 de estas proteínas, y el número de
dominios por proteína varía de uno a quizás hasta catorce. Sin
embargo, en ese momento no se anticipó el hecho de que el motivo
redondo de unión a zinc en TFIIIA es solo uno de los muchos
dominios pequeños de unión a zinc, varios de los cuales están
involucrados en la regulación génica.
Los eucariotas contienen un número mucho mayor de
proteínas con motivos de unión a zinc bien caracterizados que los
organismos bacterianos y archaeales (Tabla 1). El genoma
completo de Caenorhab-ditis elegans (un mctazoan). junto con el
de Succharo-myces cerevisiae (una levadura), presenta una
oportunidad especial para examinar el rango y la diversidad de
estas familias de genes en eucariotas. Además, debido a que
algunos de estos motivos de unión a zinc son proteínas de unión
a ADN específicas de secuencia, la disponibilidad de información
de secuencia casi completa también permite un análisis preliminar
de la distribución de posibles sitios de unión dentro del genoma
completo. Dichos análisis pueden resultar valiosos para deducir
las vías de control del desarrollo y para definir más
completamente las características de los promotores eucariotas.
Los dominios estabilizados con zinc de TFIIIA se conocen como distinto dominio C.ys4. Las proteínas GATA frecuentemente
"dedos de zinc" o dominios C.ys2His2. La secuencia de consenso para contienen un par de dominios de la superfamilia Cys„.
esta familia es (Phe, (5-7). Tanto en No analizado el número de genes en sus respectivos genomas,
C. elegans y la levadura S cerevisiae. aproximadamente el 0,7% de todas el número de homólogos de los dominios GATA y LIM es similar en
las proteínas contienen uno o más dominios de dedo de zinc Cys2His2 C. elegans y S. cerevisiae. [En contraste sorprendente, la familia de
('fábula 1). Sin embargo, la distribución de estos dominios dentro de las receptores de hormonas está completamente ausente en ycast pero
proteínas es bastante diferente en los dos organismos. En levadura. la es la familia más grande de d01Tdins que se unen a zinc en C.
mayoría de las proteínas con dedos de zinc contienen exactamente dos elegans. De hecho, con más de 200 miembros de la familia, los
dominios, y solo unos pocos receptores de hormonas constituyen casi I
10%) tienen del todo
más de dos. Por el contrario, hay más proteínas con dedos de zinc en C. secuencia codificante de C. elegans. Las diferencias en la
elegans que tienen tres o más dominios C',ys2Hisz que los que hay distribución de
proteínas que tienen exactamente dos (Fig.l)(8). Sobre la base de la receptores de hormonas nucleares en C. elegans y S. cerevisiae
pueden ser
secuencias de proteínas con dedos de zinc de mamíferos y Drosophila, relevante para la evolución de los animales multicelulares. Como se
parece que la distribución de los dominios C'ys2His2 entre C. elegans ha señalado
proteínas es típico de los organismos multicelulares. Por lo tanto, la evolución de los receptores hormonales puede haber sido
un evento kcy
Las familias de receptores CATA, LIM y hormonales: en el desarrollo de la comunicación célula-célula y los orígenes de
Implicaciones para la evolución de los metazoos pluricelularidad en los metazoos (II)-
El dominio GATA, el dominio LIM y los dominios de unión al ADN de los Los dominios de unión a ligandos de los receptores de hormonas
receptores de hormonas nucleares incluyen cada uno un dominio de han divergido considerablemente más que los dominios de unión a
unión a zinc de cuatro cisteínas que se puede agrupar en la misma ADN. Aplicando el criterio de Sanie para la importancia de los
superfamilia estructural, y es posible que compartan un dominio evolutivo dominios de unión al ADN y al ligando de la familia de receptores de
común. origen (Fig. 2) (9, 10). Además del dominio de superfamilia Cys4, hormonas, solo alrededor del 10% de los marcos de lectura abiertos
los dominios LIM contienen un motivo de zinc Cys2HisCys específico de (ORF) que tienen un dominio de unión al ADN
LIM similar. donde los receptores hormonales tienen un segundo y
2018 11 DE DICIEMBRE DE 1998 VOL 282 CIENCIA www.sciencemag.org

También podría gustarte