Documentos de Académico
Documentos de Profesional
Documentos de Cultura
com
que abarca la transcripción, lo que indica que estos genes de ARN son
Como se esperaba de las relaciones evolutivas, hubo sustancialmente probablemente expresado de forma independiente.
se encontraron más similitudes de proteínas entre C. elegans• y H. sapiens Otros genes de ARN no codificantes aparecen en conjuntos largos
que en tándem. los
entre cualquier otra comparación por pares entre especies. También hubo un Los genes de ARN ribosómico ocurren únicamente en una matriz de este tipo al final de
cromosoma I. Los genes de ARN 5S ocurren en una matriz en tándem
número sustancial de proteínas se unen a C'. elegans y E. coli que en
no se encontraron en ycast. Del mismo modo, C'. elegans carecía de
proteínas que wcrc cromosoma V, con matriz mcmbcrs separada por empalme SLI Icadcr
encontrado tanto en ycast como en E. coli (38).
Gcncs que codifican proteínas con coincidencias distantes (fuera de ARN gcncs. A fcw otros gcncs de ARN conocidos, como el pequeño
Ncmatoda)
El ARN Y citoplásmico asociado a Ro y el ARN regulador de lin-4 son
es más probable que tengan un EST coincidente (60%) que aquellos sin
tales partidos (20%). Esta observación sugiere que los genes encontrado solo una vez en el gnomo. Algunos genes de ARN que se
conservados esperan
estar presentes en el genoma aún no han sido identificados, probablemente
es más probable que sea muy apreciado, tal vez reflejando un sesgo por porque están mal conservados tanto en la secuencia como en la
genes de "alojamiento" entre el conjunto conservado. Alternativamente, secundaria.
los genes
la falta de coincidencias confirmatorias puede ser más probable que estructura Icvcl. Thcsc incluyen RNA ribonuclcasc P, tclomcrasc RNA,
sea una predicción falsa
y 100 o más gcncs de ARN nuclcolar pequeño-
aunque nuestros análisis no respaldan esto (40).
También hemos utilizado la base de datos de la familia de proteínas Secuencias repetitivas. Somc de thc scqucncc que no docs codc para
Pfam (41) para la proteína o el ARN está indudablemente involucrado en la regulación
genética o en la
clasificar los dominios proteicos comunes en el genoma de los mantenimiento y movimiento de los cromosomas. Una fracción
nematodos. de los 20 significativa de
dominios definidos que ocurren con mayor frecuencia (Tabla l), la mayoría
son la secuencia es repetitiva, como en Otros organismos pluricelulares.
implicado en la comunicación intercelular o en la regulación Nosotros
transcripcional
lación Encontramos ejemplos comparativamente fcwcr de segundo havc clasificd rcpcat scqucnccs como locales (es decir, tandcm,
mensajero
invertcd, o repeticiones de secuencia simple) o dispcrscd.
proteínas (por ejemplo, 54 G-beta y 3 dominios de homología 2 de Src). Las repeticiones en tándem representan el 2,7% del genoma y se
encuentran, en
Este hallazgo respalda modelos en los que la misma señalización promedio, una vez por 3,6 kb. Las repeticiones invertidas representan
intracelular el 3,6% de las
Las vías se utilizan con receptores variantes y factores de transcripción en genoma y se encuentran, en promedio, una vez por 4,9 kb. Muchos
diferentes estados celulares. repiten
las familias se distribuyen de manera no uniforme con respecto a los
Además de los gcncs de codificación de proteínas, el gcnomc genes y, en
contiene al menos en particular, es más probable que se encuentren dentro de los
intrones que entre
Fundí varios cientos de genes para ARN no codificantes. hay 659
genes de ARNt ampliamente dispersos y al menos 29 pseudo-ARN gcncs. Por ejemplo, aunque sólo el 26% de la secuencia genómica es
derivados de tR-NA predicho que sea intrónico, contiene el 51% de las repeticiones en
genes (42). Cuarenta y cuatro por ciento de los gcncs de ARNt se tándem y
encuentran en el X 45% de los repeticiones incluidos. El 47% del scqucncc genómico que
es
cromosoma, que contiene sólo el 20% de la secuencia total. Escvcral que se prevé que sea integrado contiene solo el 49 % de las
Otros gcncs de ARN no codificantes ocurren en familias de multigcnc repeticiones en tándem
dispcrscd. y 55% de los rcpcats invcrtcd. Como cxpcctcd, solo un pequeño
pcrccntagc
Número Descripción
650 Quimiorreceptor 7 TM
410 Dominio de proteína quinasa eucariótica
C'.rclcgans 240 Dedo de zinc, tipo C4 (dos dominios)
170 Colágeno
140 Receptor 7 TM (familia de la rodopsina)
26 130 Dedo de zinc, tipo C2H2
120 Dominio de lectina tipo C formas cortas y largas
21 100 Motivo de reconocimiento de ARN (dominio RRM, RBD
90 o RNP)
(SI cerevisiael 90 Dedo de zinc, tipo C3HC4 (dedo ANILLO)
90 Proteína-tirosina fosfatasa
6,217 27
90 Repetición de anquirina
Fig. 1. Porcentajes de proteínas coincidentes resultantes de
80 Dominio WD, repeticiones G-beta
comparaciones por pares (39). Los organismos y el número de proteínas Dominio homeobox
80
utilizadas en el análisis se muestran en recuadros. Para S. cerevisiae (un Canal de iones controlado por neurotransmisores
80
hongo), C. elegans (un nematodo) y E. coli (una bacteria), los números
80 Citocromo P450
reflejan proteínas que Dominio C-terminal conservado por helicasas
80
se predijeron a partir de una secuencia genómica esencialmente Alcohol/otras deshidrogenasas, tipo de cadena corta
70
completa. La dirección de las flechas libres indica cómo se realizó la UDP-glucoronosil y UDP-glucosiltransferasas
70
comparación. Dominio similar a ECF
70
Los números adyacentes a las flechas indican el porcentaje de proteínas Superfamilia de inmunoglobulinas
que se encontraron coincidentes. Los números que están subrayados y en
las letras en negrita indican el porcentaje de proteínas de C. elegans que
se encontró que coincidían con cada uno de los Otros organismos.
2014 11 DE DICIEMBRE DE 1998 VOL 282CIENCIAS vmw.cienciamag.0rg
C. ELEGANS: SECUENCIA A LA BIOLOGÍA
de las repeticiones en tándem se superpone con el 27% de la
codificación del genoma IV, inmediatamente adyacente al telómero, una repetición invertida es
proteinas presente donde cada copia de la repetición es de 23,5 kb, con sólo
Aunque las estructuras repetidas locales son a menudo únicas en ocho
el genoma, diferentes sitios encontrados entre las dos copias. Muchos casos de
cortos
otros vienen en familias. Por ejemplo, repetir la secuencia CeRep26 es se encuentran duplicaciones, que a menudo están separadas por
la repetición de hexámero que ocurre en tándem TTAGGC, que se ve decenas de
en kilobases o más que también pueden contener una secuencia de
codificación. Estas
múltiples sitios que son internos a los cromosomas además de duplicaciones podría proporcionar un mecanismo para copiar la
divergencia y
los telómeros (22). CeRep26 y C.eRep27 están excluidos de
intrones, mientras que otras familias repetidas muestran un ligero la posterior formación de nuevos genes. [n un ejemplo, dos
sesgo positivo Segmentos de 2,5 kb, separados por 200 kb. se descubrió que
hacia los intrones. contenían genes
los razón de la distribución sesgada de estos exhibiendo una identidad de secuencia del 98% (C38C10.4 y F22B7.5).
mostrar est
se repite no está claro. Además, algunas familias repiten un los datos indican que ambos genes se expresan. Más comúnmente, el
parci gen
específico del alida
cromosoma d
en
representación. Para ejemplo, las duplicaciones son locales. En una búsqueda de grupos locales de
duplicados
CeRepl l, con 71
1 copias distribuidas sobre los autosomas, tiene solo
una copia ubicada en el cromosoma X. genes, se encontraron 402 grupos distribuidos a lo largo del genoma
En total, hemos reconocido 38 familias repetidas dispersas. La mayoría
Organización cromosómica. A primera vista, el genoma parece re-
de estas repeticiones dispersas están asociadas con en
algunos marcadamente uniforme: el contenido de G(.' (36%) permanece
esencialmente sin cambios a lo largo
forma (43) e incluyen los transposones conocidos previamente todos los cromosomas, a diferencia del contenido de GC en los
descritos de genomas de vertebrados,
C. elegans. Sin embargo, estos elementos repetidos pueden no
codificar explícitamente como humano, o levadura (45). No hay centrómeros localizados como
un transposón activo (44). Por ejemplo, hemos encontrado cuatro nuevos encontrado en la mayoría de los otros metazoos. En cambio, el
extenso, altamente repetitivo
familias del tipo Tcl/mariner, pero estas son muy divergentes de secuencias que son características de los centrómeros en otros
organismos
entre sí y los demás miembros de la familia; probablemente ya no estén puede estar representado por algunas de las muchas repeticiones en tándem encontradas
activo en el genoma. dispersos entre los genes, particularmente en los brazos
Además de las familias repetidas de copias múltiples, observamos cromosómicos,
una La densidad de genes también es bastante constante en todos los
cantidad potencial de duplicación simple de secuencia, cromosomas, aunque
es decir, segmentos algunas diferencias son aparentes, particularmente entre los centros de
la
que van desde cientos de bases a decenas de kilobases que han sido
copiado en el genomc. En un caso, un segmento de 108 kb que
contiene autosomas, el autosoma arrns. y el cromosoma X (Tabla 2 y
Seis genes se duplican en tándem con solo 10 sitios observados como Sorprendentes diferencias se hacen evidentes después de un
examen de
Otras características. Las secuencias repetitivas tanto invertidas
diferente entre las dos copias. En el extremo izquierdo del cromosoma como en tándem son
más frecuente en los brazos autosome (Fig. .3) que en el central
25 peceot0'O nk.segado
25 4.
20
20
10
7TM
Unincum
5
5
25
SCP, TPX
25 Pul.atn•e Chitnase 20
Tu * conocido
20 IV 7TM
15
15
5
regiones de los cromosomas o en el cromosoma X. Por ejemplo,
CeRep26 está virtualmente excluido de los centros de los auto-
somas (Fig. .3). (Es probable que la abundancia de repeticiones
5
16000
Tabla 2. Densidad de genes. Los autosomas se dividen en los
compartimentos genéticamente definidos del brazo izquierdo (L), la región
del grupo central (C),
la derecha
brazo (D). El porcentaje de genes con EST y coincidencias con la base de datos
fue
determinado sólo a partir de genes inspeccionados manualmente. Coincidencias
de bases de datos con no
proteínas fueron determinadas con WUBLASTP (P
0,001). paréntesis-
ses denota el número de predicciones de puntuación baja que se cree que son
pseudogenes.
cromo-
Tamañ Base de
alguno o Proteína Densidad Bacalao- est datos
(Megab
yte) genes (kb por En g juego juego
de genes altamente expresados. Las ubicaciones cromosómicas de estos gruposexplorado formas de aumentar la escala y la eficiencia.
se correlacionan bien con las ubicaciones cromosómicas de los ¿Dónde está la línea de meta?
productos génicos que Este publicación marca más de un
exhiben similitudes significativas con las proteínas de levadura (valor P de 10-9). Para el principio que un final y es otro hito en un proceso en curso
autosomas, la densidad de repetición varía dramáticamente con el cromosoma [ posi- del análisis de la biología de C. elegans. No es muy significativo en ningún
punto particular para llamar a los genomas de este tamaño terminado,
ción y es más alto en los brazos. La densidad de invertido y tándem. debido a la
imperfecciones inevitables que solo se resolverán gradualmente. Esto
repeticiones en el cromosoma X es más uniforme, pero similar a la es
autosomas, las repeticiones TTAGGC tienden a ubicarse en los cierto sin importar qué método de secuenciación se adopte. Lo
brazos. Flexible- importante
cosa no es una declaración de finalización, sino más bien la provisión
La información mental sobre el análisis se puede encontrar en www. de la
sciencemag.org/feature/data/c-elegans.shl para obtener una mejores herramientas posibles para los usuarios en cada etapa y un
descripción general. compromiso con
11 DE DICIEMBRE DE 1998 CIENCIA
2016 VOLUMEN S www.sciencemag.org
C. ELEGANS: SECUENCIA A LA BIOLOGÍA
ensamblaje inicial y la comparación del consenso resultante mediante un análisis Smlth-Waterman en
mantenimientoymejora, a través de la interacción bandas [CROSSMATCH (57)] contra la secuencia. que fue obtenido por el terminador. Cualquier
discrepancia en el ensamblaje o la secuencia, junto con cualquier región que no cumpla con los
criterios de acabado, se revisan manualmente y se recopilan nuevos datos según sea necesario. Solo
conlausuariocomunidad,comolargocomoqueesnecesario.
cuando se toman en cuenta todas las discrepancias, la secuencia se transmite
Referenciasynotas
1. MS Chee et al. , en Cytomegaloviruses, vol. 154 de Temas Actuales en Microbiología
e Inmunología, J, K. McDougall, Ed. (Springer-Verlag, Berlín,
págs. 125—
169;
RD Fleischmann y col. Science 269. 496 (1995); C J. Bult y col., ibíd. 273. 1058
(1996). FR Blattner et al.. ibíd. 277. 1453 (1997); ST Cole et al., Naturaleza 393, 537
(1998).
2. HW Mewes et al.. Nature 387 (suplemento), 7 (1997): A. Goffeau et al., Science 274,
546
(1996).
3. A, R. Coulson et al.. Proc, Nat(. Acad. Sci. USA 83, 7821 (1986),
4. A. Coulson
al.. Bioessays 13, 413 (1991); A. Coulson y col.. Nature 335, 184
(1988). El estado actual del mapa físico de C. elegans está disponible en la World
Wide Web (20, 27).
5. Las investigaciones que contribuyen al proyecto del genoma de C. elegans son
demasiado numerosas para citarlas. Dos publicaciones representativas fáciles son l.
Greenwald, A. Coulson, J. Sulston, Nucleic Acids Res. 15, 2295 (1987) y S. Ward et al.].
mol.
199, 1 (1988).
6. R. Waterston y otros. Nature Genet. 1. 114 (1992); WR McCombie et al. , ibíd., pág.
124.
7. Y. Kohara, Enzima de ácido nucleico de proteína PNE 41. 715 (19%).
8. R.Okimoto. JL Macfadane, DO Clary. DR Wohlstenholme. Genética 130, 471 (1992).
9. DT Burke. Carie de GF. MV Olson, Ciencia 236, 806 (1987).
10. J. Sulston et al.,
37 (1992).
11. R. Wilson y col. ibíd. 368. 32 (1994).
12. M. Vaudin
a[., ácidos nucleicos res. 23. 670 (1995).
13. Para detalles
del proceso de secuenciación, véase (49). El proceso comenzó con la
purificación
de ADN de clones seleccionados de la ruta de mosaico. El ADN se
cortó mecánicamente y, después de la selección de tamaño, los fragmentos
resultantes se subdividieron en vectores M 13 o plásmidos. Se seleccionaron
subclones aleatorios para la generación de secuencias (el enfoque de
secuenciación de escopeta), Generately.
lecturas de secuencia por 40
kb de
El ADN genómico se generó con cebadores o terminadores marcados con tinte
fluorescente.
Las bases se determinaron con PHRED (50). Un conjunto de estas secuencias
aleatorias
que se generó con PHRAP (51) típico (y resultó en dos a ocho contigs. Cap
el cierre y la resolución de las ambigüedades de la secuencia se lograron durante el
acabado [usando
los paquetes de edición GAP (52) y CONSED (53) y la colección de
datos]
lecturas más largas. reacciones de secuenciación dirigida utilizando
cebadores de oligonucleótidos personalizados en plantillas elegidas, o químicas
adicionales según sea necesario. Se analizó la secuencia terminada de alta calidad
mediante el uso de un conjunto de programas (incluidos BLAST y GENEFINDER), y los
resultados se almacenaron en ACEDB y se enviaron a GenBank. Los datos de secuencias
incompletas y terminadas estaban disponibles para los investigadores mediante el
protocolo de transferencia de archivos (ftp) de ambos 5ites de secuenciación (20, 21).
14. CR Heiner, K. L Hunkapiller, SM Chen, Genome Res. 8, 557 (1998); LG Lee et al.,
Nucleic Acids Res. 20, 2471 (1992); JD Parsons, Cómputo. aplicación Biosci. 11. 615
(1995).
15. AA McMurray, JE Sulston, MA Quai (, Genome Res. 8, 562 (1998).
16. UJ Kim, H. Shizuya, PJ de Jong, Nucleic Acids Res. 20, 1083 (1992).
17. S. Cheng, C. Fockler, W, M. Barnes, Proc. Nati. Academia ciencia USA 91, 5695
(1994).
18. Una separación limpia del ADN del YAC del ADN cromosómico del huésped a veces
requería el uso de cepas de levadura en las que se modificaba el tamaño de los
cromosomas específicos de la levadura para proporcionar una ventana alrededor del
YAC que está libre de los cromosomas nativos. L Hamer, M. Johnston, E-D. Green, Proc.
Nat[. Academia Sci-USA 92, 11706 (1995).
19. SE Devine, S. t. Chissoe. Y. Eby, Genoma Res. 7, 551 (1997).
20. Disponible en www.sanger.ac.uk.
21. Disponible en genoma.wustl.edu/gsc/gschmpg.html.
22. C, Wicky y otros. Proc. Natt. Academia ciencia USA 93, 8983 (1996).
23. Cada región debe secuenciarse en cada hebra o con cebador de tinte y tinte.
la química del terminador, por lo que las comparaciones extensas han demostrado
ser al menos tan confiables como la doble hebra para revelar y corregir las
compresiones y otros errores de llamada de base. Todas las regiones deben estar
representadas por lecturas de dos o más subclones independientes o de productos
de PCR en toda la región. Si se utilizan productos de PCR subclonados para una
región, se deben secuenciar tres clones independientes. Se permitieron raras
excepciones a las reglas generales de la química alternativa o de doble cadena
sobre la base de lo siguiente. Para las regiones de < 50 bases donde, a pesar de los
esfuerzos válidos, un finalizador no puede lograr una doble cadena o una doble
química, se puede enviar la secuencia (siempre que la secuencia sea de alta calidad
y tanto el finalizador como su supervisor no vean bases ambiguas). ), Al editar en
XGAP, todos los datos de secuencia deben resolverse al nivel de consenso del 75
%, ya sea mediante la recopilación de datos adicionales o mediante la edición de
trazas mal llamadas. En CONSED, cualquier base de consenso con una calidad
<25% debe revisarse manualmente para determinar si los datos disponibles son
suficientes para respaldar sin ambigüedades la secuencia contig derivada. [f no se
recopilan datos adicionales.
24. Cada secuencia terminada se somete a una serie de pruebas de control de calidad, incluida
la verificación de que se han seguido todas las reglas de finalización (23) y una verificación
cuidadosa de que el ensamblaje es consistente con toda la información del resumen de
restricciones. Además, cada secuencia terminada se somete a un proceso automático de
reensamblaje de llamadas de base con algoritmos diferentes a los que se usaron para el
contienen exones verdaderos) en genes de C. elegans en GenBank tienen puntajes
normalizados superiores a 5.0 (y muchos del 15 % restante son exones iniciales o terminales,
para anotación A su vez, si la anotación marca alguna región sospechosa, estas son que tienen un solo sitio de empalme ). La fracción de exones con puntajes >5.0 puede ser
nuevamente menor para todos los genes de C. etegans debido al sesgo hacia los genes altamente
expresados (que a menudo tienen puntajes de segmento de codificación muy altos) en el
devuelto al finalizador para su resolución, ya sea mediante la recopilación
conjunto verificado experimentalmente. Sin embargo. incluso para los genes en el conjunto
de datos adicionales o la edición.
verificado actual que se expresan en niveles de nwderate a bajos, la mayoría de las
25. P. Green y L. Hillier, software inédito.
puntuaciones de ORF de exón superan 5,0; esta puntuación debería ser un criterio eficaz para
26. GA Fichant y C. Burks, J. Mol. Biol. 220. 659 (1991); T, M. Lowe y S. Eddy, Nucleic
identificar al menos una parte de la mayoría de los genes. En teoría, los ORF de puntuación alta
Acids Res. 25. 955 (1997).
podrían surgir de otras formas. Por ejemplo. Las regiones intergénicas o intrónicas que tienen
27. SF Altschul, W. Gish, W. Miller, J. Mol. Biol. 215. 403 (1990): W.Gish. Software
una composición de nucleótidos anormal pueden parecer que tienen segmentos de
inédito WU-BLAST.
28. E. L L. Sonnhammer y R. Durbin, en Actas de la Segunda Conferencia Internacional codificación y, ocasionalmente, por casualidad, pueden tener sitios de corte y empalme de alta
sobre Sistemas Inteligentes para Biología Molecular, R. Altman, D. Brutlag P. Karp, R. puntuación. Hasta el momento, parece haber relativamente pocas regiones de este tipo en la
Lathrop, D. Searls, Eds. (Prensa AAAI, Menlo Park, CA, 1994), págs. 363-368. secuencia genómica de C. elegans. Estas regiones pueden explicar los exones huérfanos
29. R. Mott, Cómputo. aplicación Biosci. 13, 477 (1997). anómalos que ocasionalmente encontramos. Además, hay ejemplos en los que estos genes
30. EL Sonnhammer, SR Eddy, E. Birney, Nucleic Acids Res. 26, 320 (1998); S, R. Eddy predichos por GENEFlNDER pertenecen a familias de genes Clear que son específicas de
Curr. Opinión Estructura. Biol. 6, 361 (19%). nematodos o tienen una similitud muy lejana fuera de los nematodos, por ejemplo, genes
31. Identificamos repeticiones locales en tándem e invertidas con los programas quimiorreceptores (54). Las regiones intergénicas o intrónicas que tienen una composición de
QUICKTANDEM, TANDEM e INVERTED (20). que buscan repeticiones dentro de nucleótidos anormal pueden parecer que tienen segmentos de codificación y, ocasionalmente,
intervalos de 1 kb a lo largo de la secuencia genómica. Un índice de familias repetidas por casualidad, pueden tener sitios de corte y empalme de alta puntuación. Hasta el momento,
utilizadas por el proyecto está disponible en parece haber relativamente pocas regiones de este tipo en la secuencia genómica de C.
www.sanger.ac.uk/Projects/C_elegans/repeats/. elegans. Estas regiones pueden explicar los exones huérfanos anómalos que ocasionalmente
32. R. Durbin y J. Thierry-Mieg. software inédito. La documentación, el código y los encontramos. Además, hay ejemplos en los que estos genes predichos por GENEFlNDER
datos están disponibles en servidores ftp anónimos en lirmm.lirmm.fr/pub/acedb/, pertenecen a familias de genes Clear que son específicas de nematodos o tienen una similitud
ftp.sanger. ac.uk/pub/acedb/ y ncbi.nlm.nih.gov/repository/acedb/. muy lejana fuera de los nematodos, por ejemplo, genes quimiorreceptores (54). Las regiones
33. En C. elegans, se pueden transcribir dos o más genes del mismo promotor, con un intergénicas o intrónicas que tienen una composición de nucleótidos anormal pueden parecer
gen separado por no más de unos pocos cientos de nucleótidos de otro. En los genes que tienen segmentos de codificación y, ocasionalmente, por casualidad, pueden tener sitios
que se someten a transpticing, el exón S' comienza con una secuencia aceptora de corte de corte y empalme de alta puntuación. Hasta el momento, parece haber relativamente pocas
y empalme, lo que hace que este exón 5' sea más difícil de distinguir de los exones regiones de este tipo en la secuencia genómica de C. elegans. Estas regiones pueden explicar
internos. Esta combinación de factores puede resultar en la fusión de dos genes en uno los exones huérfanos anómalos que ocasionalmente encontramos. Además, hay ejemplos en
[T. Blumenthal, Tendencias Genet. 11, 132 (1995)], los que estos genes predichos por GENEFlNDER pertenecen a familias de genes Clear que son
34. Hemos identificado 182 genes que poseen variantes de empalme alternativas, que específicas de nematodos o tienen una similitud muy lejana fuera de los nematodos, por
provienen predominantemente de datos EST. De estos, 67 genes producen proteínas ejemplo, genes quimiorreceptores (54). Estas regiones pueden explicar los exones huérfanos
que difieren en su extremo amino, 57 genes producen proteínas que difieren en el anómalos que ocasionalmente encontramos. Además, hay ejemplos en los que estos genes
extremo carboxi, y 59 genes producen proteínas que muestran una variación interna. De predichos por GENEFlNDER pertenecen a familias de genes Clear que son específicas de
las variaciones internas, siete genes mostraron omisión completa de exón. Se encontró nematodos o tienen una similitud muy lejana fuera de los nematodos, por ejemplo, genes
un gen donde el extremo S' de un exón había cambiado. 21 de los cuales resultaron en quimiorreceptores (54). Estas regiones pueden explicar los exones huérfanos anómalos que
una diferencia de tres codones o menos. En contraste, de los 24 transcritos alternativos ocasionalmente encontramos. Además, hay ejemplos en los que estos genes predichos por
que cambiaron el extremo 3' de un exón, solo 4 resultaron en un Cambio de tres o GENEFlNDER pertenecen a familias de genes Clear que son específicas de nematodos o tienen
menos codones. una similitud muy lejana fuera de los nematodos, por ejemplo, genes quimiorreceptores (54).
35. Disponible en www.sanger.ac.uVProjects/C_elegans/Science98/. 41. Pfam es una colección de alineamientos de familias de proteínas que se construyeron
36. RK Herman, en The Nematode Caenolhabditis elegans, W. B- Wood, Ed. (Cold semiautomáticamente con modelos ocultos de Markov dentro del paquete HMMER. Los datos
Spring Harbor Laboratory Press, Plainview, NY, 1988), págs. 17-45; R. Waterston y J. de colágeno y siete quimiorreceptores transmembrana se obtuvieron con modelos ocultos de
Sulston. Proc Nati. Academia ciencia USA 92, 10836 (1995). Markov no publicados. El número de siete genes quimiorreceptores transmembrana es inferior
37. Estos resultados se obtuvieron con WU-BLAST (versión 2.0a13MP), utilizando al encontrado por Robertson (54), lo que podría deberse a pseudogenes.
parámetros predeterminados y un valor umbral de P de 10 3. P. Green et al.. Science 259, 42. Los pseudogenes putativos de ARNt se identifican mediante el programa de búsqueda
1711 (1993). tRNAscan-SE como secuencias que están significativamente relacionadas con un consenso de
38. SA Chervitz et al.. Science 28Z 2022 (1998). secuencias de ARNt pero no parece probable que adopten una estructura secundaria canónica
39. E, L. Sonnhammer y R. Durbin. Genómica 46, 200 (1997). de tRNR (26). Muchos genomas de eucariotas superiores tienen elementos nucleares
40. ) A continuación, se utiliza un algoritmo de programación dinámica para encontrar
intercalados cortos (SINE) móviles derivados de tRNA. Sin embargo. debido a que son pocos
el conjunto de genes candidatos que no se adaptan (en una hebra determinada) que
en número, el ARNt del nematodo
tiene la puntuación total más alta (entre todos esos conjuntos). Alrededor del 85 % de
los "ORF de exón" verificados experimentalmente (marcos de lectura abiertos que
www.sciencemag.org SCIENCEVOL 28211 DICIEMBRE 1998
2017
C. ELEGANS: SECUENCIA A LA BIOLOGÍA
pseudogenes parecen más (probablemente surgieron por algún evento raro en
Creen, S. Klapholz, RM Myers, J. Roskams, eds. (Cold Spring Harbor Laboratory
lugar de por la amplia movilidad que caracteriza a los SINEs móviles [GR Daniels y
Press, Plainview, NY, 1997), vol. 1, págs. 397—454. Para paquetes de software,
PL Deininger, Mature 317, 819 (1985)].
43. AF Smit, Curr. Opinión Gineta. desarrollador 6, 743 (1996). consulte (20) o
44. RF Keting, SEJ Fischer. R, H. Yeso, Nucleic Acids Res. 25, 4041 (1997). (21) y S. Dear et al. , Genoma Res. 8, 260 (1998); M. Wendl y col., ibíd., pág. 975; JD Parsons,
Cómputo. cita Biosci. 11, 615 (1995); y M. Cooper et al. , Genoma Res. 6,
45. G. Bernardí, Annu. Rev. Genet. 29, 445 (1995); B. Dujon et al., Naturaleza 369, 371
1 1 10 (1996).
46. La abundancia de EST de C. elegans no refleja directamente los niveles de 50. B. Ewing, L. Hillier, MC Wendl, Genoma Res. 8, 175 (1998); B, Ewing y P. Green, ibíd.,
pág. 186.
expresión, porque se derivan de ADNc en los que se seleccionaron parcialmente los genes
51. P. Creen, comunicación personal.
expresados más abundantemente (6, 7).
52. JK Banfield, KF Smith, R. Staden. Ácidos Nucleicos Res. 23, 4992 (1995).
47. TM Barnes, Y. Kohara, A. Coulson, Genetics 141. 159 (1995).
53. D. Gordon, C. Abajian, P. Green, Genome Res. 8, 195 (1998).
48. Este enfoque también se está utilizando para el genoma humano (Centro Sanger,
54. HM Robertson, Genoma Res. 8. 449 (1998).
Centro de secuenciación del genoma de la Universidad de Washington, Genome Res„ en 55. Este trabajo ha sido apoyado por becas del Cenome Humano Nacional de EE.UU.
prensa). Instituto de
49. Para detalles metodológicos, véase (20) o (21). Para procedimientos bioquímicos, Investigación
el MRC del Reino Unido. También nos gustaría agradecer a los
véase RK Wilson y ER Mardis, en Genome Analysis: A Laboratoty Manual, 8. Birren, ED. muchos miembros
de la comunidad de C. elegans que han compartido datos y proporcionado aliento
en el transcurso de este proyecto.