Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ÍNDICE PÁGINA
INTRODUCCIÓN 2
ESTRATEGIAS DE SECUENCIACIÓN 5
CONSORCIO PÚBLICO 5
CELERA 9
CONTENIDO EN GENES 19
PERSPECTIVAS 31
INTRODUCCIÓN
1
De Vries, H. Sur la loi de disjonction des hybrides. Comptes Rendus de l'Academie des Sciences (Paris), 130:845-847. (1900).
Tschermak, E. . Über Künstliche Kreuzung bei Pisum sativum. Berichte der Deutsche Botanischen Gesellschaft 18: 232-239, (1900).
Correns, C. G. Mendels Regel Über das Verhalten der Nachkommenschaft der Rassenbastarde. Berichte der Deutschen Botanischen
Gesellschaft,18: 158-168. (1900)
2
Sanger F, Nicklen S, Coulson AR. DNA sequencing with chain-terminating inhibitors. Proc Natl Acad Sci U S A.. Dec;74(12):5463-
7.(1977).
3
Sanger, F. et al. Nucleotide sequence of bacteriophage F X174 DNA. Nature 265, 687-695 (1977).
2
Antonio José Caruz Arcos
6
humano . Estos proyectos confirmaron que el ensamblaje de pequeños fragmentos
de secuencia hasta completar pequeños genomas completos era factible, y mostró
el valor de contar con un catálogo completo de los genes y secuencias reguladoras
para comprender el binomio estructura-función, que caracteriza la expresión
genética de los genomas estudiados.
7
• En 1986 Hood describió una mejora en el sistema radiactivo de secuenciación
de Sanger que hacía uso de fluorocromos unidos a los dideoxinucleótidos lo
que permitía la lectura secuencial por un ordenador acoplado a un laser. El
primer secuenciador automático fue desarrollado por Applied Biosystems en
1987, demostrando su capacidad cuando dos nuevos genes fueron
8
identificados utilizando esta tecnología . Los primeros intentos de
secuenciación de fragmentos cromosómicos humanos revelaron que contar
con secuencias de ADNc procedentes de la retrotranscripción de ARNm sería
esencial para anotar y validar las predicciones de genes en las secuencias
9
humanas . Estos estudios fueron en parte la base para el desarrollo del método
de identificación génica denominado Expressed Sequence Tags (EST). La
información suministrada por los EST permitió un rápido descubrimiento y
10
mapeo de muchos genes humanos . La cantidad creciente de datos generado
por la secuenciación de bancos de ADNc hizo imprescindible el desarrollo de
nuevos algoritmos informáticos para analizar la información y en 1993 The
Institute for Genomics Research (TIGR) puso a punto un programa que
11
permitía el ensamblaje y análisis de cientos de miles de ESTs .
• Los programas para crear un mapa físico de clones que cubrieran los genomas
12 13
de la levadura y nematodo , para permitir el aislamiento de genes y regiones
completas basándose sólo en su posición cromosómica.
• El programa para crear un mapa genético humano que hiciera posible la
localización de genes de enfermedades de función desconocida, basándose
14
solamente en los patrones de ligamiento a genes de posición conocida .
4
Sanger, F., Coulson, A. R., Hong, G. F., Hill, D. F. & Petersen, G. B. Nucleotide-sequence of bacteriophage Lambda DNA. J. Mol. Biol.
162, 729-773 (1982).
5
. Fiers, W. et al. Complete nucleotide sequence of SV40 DNA. Nature 273, 113-120 (1978).
6
Anderson, S. et al. Sequence and organization of the human mitochondrial genome. Nature 290, 457-465 (1981).
7
Strauss EC, Kobori JA, Siu G, Hood LE. Specific-primer-directed DNA sequencing. Anal Biochem. Apr;154(1):353-60.(1986).
8
J. Gocayne, et al. Primary structure of rat cardiac beta-adrenergic and muscarinic cholinergic receptors obtained by automated DNA
sequence analysis: further evidence for a multigene family.Proc. Natl. Acad. Sci. U.S.A. 84, 8296 (1987) .
9
McCombie WR, Martin-Gallardo A, Gocayne JD, FitzGerald M, Dubnick M, Kelley JM, Castilla L, Liu LI, Wallace S, Trapp S, et al.
Expressed genes, Alu repeats and polymorphisms in cosmids sequenced from chromosome 4p16.3. Nat Genet. Aug;1(5):348-53.(1992).
10
Adams MD, Dubnick M, Kerlavage AR, Moreno R, Kelley JM, Utterback TR, Nagle JW, Fields C, Venter JC. Sequence identification of
2,375 human brain genes. Nature. 357(6377):367-8.(1992).
11
Adams MD, Kerlavage AR, Fleischmann RD, Fuldner RA, Bult CJ, Lee NH, Kirkness EF, Weinstock KG, Gocayne JD, White O, et al.
Initial assessment of human gene diversity and expression patterns based upon 83 million nucleotides of cDNA sequence. Nature.
377(6547 Suppl):3-174.(1995).
12
Olson, M. V. et al. Random-clone strategy for genomic restriction mapping in yeast. Proc. Natl Acad. Sci. USA 83, 7826-7830 (1986).
13
Coulson, A., Sulston, J., Brenner, S. & Karn, J. Toward a physical map of the genome of the nematode Caenorhabditis elegans. Proc.
Natl Acad. Sci. USA 83, 7821-7825 (1986).
3
Proyecto genoma humano
4
Antonio José Caruz Arcos
no alcanzan el mínimo necesario para que nuestro país ocupe el puesto en el campo de la
nueva Biología que le corresponde por su capacidad económica y por el sustrato de
investigadores en la materia que tiene. La base tecnológica genómica está constituyendo ya
una nueva revolución biológica con aplicaciones en la industria farmacéutica, medicina,
agricultura y ganadería, sectores esenciales para el desarrollo económico del país.
A continuación pasaremos a revisar las dos estrategias de secuenciación que han
seguido tanto el consorcio público como Celera. En el siguiente apartado veremos la
información obtenida del análisis de la secuencia, fundamentalmente el contenido de
elementos repetidos (transposones, repeticiones simples y duplicaciones) así como el
contenido en genes del genoma. Luego se analizará la información suministrada por la
genómica comparativa y las perspectivas que ha abierto el PGH en la investigación biomédica
que va a condicionar el desarrollo de la Genética durante el próximo siglo.
17
Sinsheimer, R. L. The Santa Cruz Workshop-1985. Genomics 5, 954-956 (1989).
18
Kim, U. J. et al. Construction and characterization of a human bacterial artificial chromosome library. Genomics 34, 213-218 (1996).
Osoegawa, K. et al. Bacterial artificial chromosome libraries for mouse sequencing and functional analysis. Genome Res. 10, 116-128
(2000).
5
Proyecto genoma humano
19
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001).
20
Dunham I. Mapping human chromosomes. Curr Opin Genet Dev. 5(3):328-34. (1995).
21
Donis-Keller, H. et al. A genetic linkage map of the human genome. Cell 51, 319-337 (1987). Gyapay, G. et al. The 1993-94 Genethon
human genetic linkage map. Nature Genet. 7, 246-339 (1994). Hudson, T. J. et al. An STS-based map of the human genome. Science
270, 1945-1954 (1995). Dietrich, W. F. et al. A comprehensive genetic map of the mouse genome. Nature 380, 149-152 (1996).
Nusbaum, C. et al. A YAC-based physical map of the mouse genome. Nature Genet. 22, 388-393 (1999).
6
Antonio José Caruz Arcos
22
Swansbury J. Cytogenetic studies using FISH: background. Methods Mol Biol. 220:173-91. (2003).
23
Hudson, T. J. et al. An STS-based map of the human genome. Science 270, 1945-1954 (1995).
7
Proyecto genoma humano
buena parte debido al empleo de los STS, que permiten elaborar mapas de contigs según el
contenido de STS de los clones solapados. Estos mapas de STS permiten la integración de los
mapas genéticos y físicos, hacen accesible la fase de secuenciación y facilitan la clonación de
23
genes implicados en enfermedades mediante la llamada estrategia de clonación posicional .
Una vez que se construyen los mapas, hay que refinarlos y purgarlos de posibles
errores. Los errores suelen tener dos fuentes principales: algunos clones BACs son en realidad
híbridos o quimeras producidas por artefactos durante el proceso de elaboración de la
genoteca, y por lo tanto su mapa no refleja el orden genómico auténtico; y por otro lado, los
programas de ensamblado de los mapas no son fiables al 100%. De ahí la importancia de
confirmar y normalizar los datos mediante estrategias aceptadas por todos los investigadores.
Dentro del PGH se ha abordando un enfoque paralelo y complementario consistente en
secuenciar EST. Estos fragmentos se corresponden con los genes sin intrones que se
expresan en los diferentes tejidos. Los datos obtenidos se integran en "mapas funcionales" que
muestran el patrón de expresión diferencial según su localización histológica.
La etapa siguiente en la cartografía de cada clon BAC o PAC consiste en una versión
modificada de la técnica FISH denominada Fiber FISH, que permite hibridar el contenido de
cada clon con el genoma, determinando su posición exacta dentro de cada cromosoma así
24
como la longitud que ocupa a lo largo del mismo . Una vez que las genotecas están mapeadas
y está identificada la posición cromosómica de cada clon, se procede a la secuenciación de
25
cada uno de ellos mediante un sistema de shotgun clásico . El cual presenta unas indudables
ventajas con respecto al sistema de paseo cromosómico que requiere la síntesis de nuevos
oligonucleótidos después de la secuenciación de los extremos para determinar la secuencia
interna del clon. Debido a que el PGH ha sido desarrollado en varios laboratorios a lo largo del
mundo, no ha existido una homogeneidad en cuanto a las herramientas utilizadas, talla media
26
de los insertos shotgun así como los sistemas de secuenciación (cadena simple o doble) . La
automatización también ha sido variable entre los laboratorios y a lo largo del tiempo, con
secuenciadores basados en tecnología de electroforesis de acrilamida o capilar. En 1999, la
mayoría se automatizaron hasta alcanzar proporciones casi industriales (7 millones de
muestras procesadas cada mes, 1000 nucleótidos secuenciados por segundo, 24 horas al día,
26
7 días a la semana) .
La secuencia completa de cada clon BAC es solapada con la de otros clones que
mapean en la misma región dando lugar a una cadena continua que contiene la información de
varios de ellos formando los llamados Contigs, los cuales a su vez se agrupan en secuencias
de mayor tamaño denominadas Scaffolds que representan fragmentos de varias Mb de
24
Rosenberg C, Florijn RJ, Van de Rijke FM, Blonden LA, Raap TK, Van Ommen GJ, Den Dunnen JT. High resolution DNA fiber-fish on
yeast artificial chromosomes: direct visualization of DNA replication. Nat Genet. 10(4):477-9. (1995).
25
Anderson, S. Shotgun DNA sequencing using cloned DNase I-generated fragments. Nucleic Acids Res. 9, 3015-3027 (1981). Gardner,
R. C. et al. The complete nucleotide sequence of an infectious clone of cauliflower mosaic virus by M13mp7 shotgun sequencing. Nucleic
Acids Res. 9, 2871-2888 (1981). Deininger, P. L. Random subcloning of sonicated DNA: application to shotgun DNA sequence analysis.
Anal. Biochem. 129, 216-223 (1983).
26
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001).
8
Antonio José Caruz Arcos
27
Venter C. et al. The sequence of the human genome. Science 291 1304-1351. (2001).
9
Proyecto genoma humano
Este sistema puede parecer algo falso ya que el gran problema de la integración de
grandes fragmentos de información generada por el software de Celera tiene un sistema de
verificación y control independiente que son los clones BAC de acceso público. Sin embargo, la
28
secuenciación posterior del genoma del ratón usando sólo el sistema de whole genome
shotgun sin necesidad de recurrir a la información de mapeo, valida a posteriori esta radical
metodología.
Sin embargo, la información suministrada por Celera está empobrecida de elementos
repetidos, fracción muy importante del genoma completo, ya que un mismo transposón puede
tener miles de copias dispersas por todo el genoma con un grado de homología altísimo (casi
el 100%) lo que implica que si la secuenciación no incluye las secuencias flanqueantes es
28
virtualmente imposible asignarle una posición concreta en el laberinto genómico .
En esta sección estudiaremos las características biológicas a gran escala que presenta
el genoma humano, así como el contenido de secuencias repetidas y de genes.
Contenido en secuencias repetidas
Una de las observaciones iniciales de la Genética Molecular fue que el tamaño de los
genomas no está correlacionado con la complejidad del organismo al que pertenece (paradoja
del valor C). Por ejemplo, Homo sapiens tiene un genoma 200 veces mayor que el de
29
Saccharomyces cerevisiae, pero 200 veces más pequeño que el del protozoo Amoeba dubia .
Este misterio fue resuelto cuando se demostró que los genomas pueden contener una enorme
cantidad de ADN altamente repetido que supera con creces el ADN implicado en la producción
de proteínas. En el genoma humano sólo el 5% son genes de los cuales tan sólo un 1%
aproximadamente son exones que se traducen a proteínas. Por el contrario, las secuencias
repetidas constituyen como mínimo el 50% del total. En general este tipo de secuencia puede
ser clasificada en 3 grupos:
1. Transposones o secuencias derivadas de la actividad de ellos (incluyendo
pseudogenes)
2. Secuencias simples repetidas, constituidas por repeticiones directas cortas de una,
dos, tres o más bases (satélites, minisatélites y microsatélites)
3. Duplicaciones segmentales, consistentes en bloques de 1-300 Kb que han sido
copiados desde una región a otra diferente
Estas repeticiones fueron tomadas como ADN basura y minusvaloradas por los
investigadores, sin embargo actualmente están consideradas como una de las más potentes
28
Mouse genome sequencing consortium. Initial sequencing and comparative analysis of the mouse genome. Nature 420, 520-562.
(2002).
29
Li, W. -H. Molecular Evolution (Sinauer, Sunderland, Massachusetts, 1997). Gregory, T. R. & Hebert, P. D. The modulation of DNA
content: proximate causes and ultimate consequences. Genome Res. 9, 317-324 (1999). Hartl, D. L. Molecular melodies in high and low
C. Nature Rev. Genet. 1, 145-149 (2000).
10
Antonio José Caruz Arcos
fuerzas que determinan la evolución de los genomas, siendo utilizadas además como
herramientas en Genética médica y forense. También han despertado el interés de los
farmacólogos ya que alguna de las dianas de drogas utilizadas a gran escala presentan genes
parálogos en fragmentos duplicados a lo largo de diferentes cromosomas y algunas
duplicaciones están asociadas con enfermedades genéticas producidas por fenómenos de
microdeleción generados por recombinación desigual entre ellos.
A continuación profundizaremos en el análisis de cada uno de estos tipos de elementos
repetidos de nuestro genoma y evaluaremos las implicaciones que tienen cada uno de ellos en
estudios sobre la evolución humana y sus implicaciones médicas.
31
Los LINES (Long Interspersed Elements) tienen un tamaño medio de 6 Kb, tienen un
promotor interno para la ARN polimerasa II y codifican para dos proteínas. Una vez traducido el
ARNm se une a las propias proteínas producidas y se transloca al núcleo, donde una actividad
endonucleasa genera un corte en el ADN nuclear y una actividad retrotranscriptasa utiliza el
ADN monocatenario generado por el corte como cebador para la síntesis del ADNc. Muchas
veces la retrotranscriptasa no alcanza el extremo 5´del ARNm generando elementos truncados
no funcionales. De hecho la mayoría de estos elementos tienen una talla media de 900 pb
(LINE 1). El sitio de inserción presenta una duplicación de 7 a 20 pb. La actividad enzimática de
estos elementos es la responsable de la mayoría de la actividad retrotranscriptasa del genoma
humano y pueden actuar en trans sobre ARN que presenten cierta homología de secuencia en
su extremo 3´terminal como son los elementos SINE. En el genoma humano existen 3 familias
31
de LINES y sólo una de ellas continua en activo (LINE 1) .
31
Los elementos SINES (Short Interspersed Elements), son pequeños tienen una talla
media de 100-400 pb, no codifican para proteínas y contienen un promotor interno de la ARN
polimerasa III. Utilizan en trans la maquinaria de los LINE por homología con el extremo 3´ de
los mismos. La mayoría de las familias de SINEs derivan de ARNt (elementos MIR y Ther2)
30
N.L. Craig, R.Craigie, M. Gellert y A.M. Lambowitz. Mobile DNA II. American Society of Microbiology. (1989).
31
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001).
11
Proyecto genoma humano
aunque la más prolífica y aún activa en nuestro genoma, denominada Alu, procede de un ARN
pequeño no codificante que está implicado en el transporte de proteínas (7SL).
30
Los retrotransposones están flanqueados por dos repeticiones largas terminales
(LTR) que contienen todas las señales en cis de inicio de la transcripción. Contienen dos genes
principales gag y pol, que codifican para varias proteínas independientes: proteasa,
retrotranscriptasa, ARNasa-H e integrasa. Los retrovirus derivan de estos elementos por la
incorporación de un gen extra denominado env (envuelta) que les permite realizar una
transposición cruzada entre dos genomas. Los datos avalan la hipótesis de que los genes env
32
de retrovirus proceden de receptores de superficie de virus como Baculovirus o Herpesvirus .
El sistema de replicación incluye también un intermediario de ARN pero las
características de la retrotranscripción son completamente diferentes a los LINES, utilizando
como cebador para la síntesis del ADNc un ARNt específico. Los retrotransposones de
mamíferos pertenecen a 3 clases generales (I, II y III) cada uno de ellos con muchas familias.
En el genoma humano casi el 85% de las secuencias derivadas de retrotransposones constan
sólo de LTRs aisladas o elementos truncados no funcionales.
33
Los transposones de ADN son muy similares a los bacterianos, con repeticiones
terminales invertidas y con una movilidad dependiente de un sistema de corte y pegado que
puede ser replicativo o conservativo. El genoma humano contiene unas 7 clases generales que
se dividen en varias familias según su grado de parentesco filogenético. Los transposones de
ADN presentan una vida funcional relativamente corta en un genoma, ya que a diferencia de
los elementos LINE en los que hay una preferencia en cis para la inserción (sólo se transponen
los funcionales), la transposasa codificada por estos elementos es producida en el citoplasma
pero ejerce su actividad en el núcleo donde no puede distinguir entre las formas activas o
inactivas de los elementos. Por ello cuando el número de copias no funcionales se incrementa
en el genoma, la transposición comienza a ser cada vez menos eficaz y el elemento sufre una
muerte funcional. Para sobrevivir en el tiempo, necesitan colonizar nuevos genomas mediante
34
transferencia horizontal y existen numerosas pruebas que indican que así ocurre .
El censo de transposones en el genoma humano ha revelado unas cifras
extraordinariamente altas (ver tabla 1):
• SINES: 13%
• LINES: 20%
• LTR: 8%
• Transposones de ADN: 3%
32
Malik HS, Henikoff S, Eickbush TH. Poised for contagion: evolutionary origins of the infectious abilities of invertebrate retroviruses.
Genome Res. 2000 10(9):1307-18.
33
N.L. Craig, R.Craigie, M. Gellert y A.M. Lambowitz. Mobile DNA II. American Society of Microbiology. (1989).
34
Haring, E., Hagemann, S. & Pinsker, W. Ancient and recent horizontal invasions of Drosophilids by P elements. J. Mol. Evol. 51, 577-
586 (2000). Koga, A. et al. Evidence for recent invasion of the medaka fish genome by the Tol2 transposable element. Genetics 155,
273-281 (2000). Robertson, H. M. & Lampe, D. J. Recent horizontal transfer of a mariner transposable element among and between
Diptera and Neuroptera. Mol. Biol. Evol. 12, 850-862 (1995). Simmons, G. M. Horizontal transfer of hobo transposable elements within
the Drosophila melanogaster species complex: evidence from DNA sequencing. Mol. Biol. Evol. 9, 1050-1060 (1992).
12
Antonio José Caruz Arcos
Tabla 1: Número de copias y fracción del genoma para cada clase de transposón35
Total de
Copias bases en el % del Nº de familias
Tipo de transposón (x1000) genoma genoma (subfamilias)
SINEs 1,558 359.6 13.14 3
Alu 1,090 290.1 10.60 1 (20)
MIR 393 60.1 2.20 1 (1)
MIR3 75 9.3 0.34 1 (1)
LINEs 868 558.8 20.42 3
LINE1 516 462.1 16.89 1 (55)
LINE2 315 88.2 3.22 1 (2)
LINE3 37 8.4 0.31 1 (2)
LTR 443 227.0 8.29 4
ERV-I 112 79.2 2.89 72 (132)
ERV(K)-II 8 8.5 0.31 10 (20)
ERV-L 83 39.5 1.44 21 (42)
MaLR 240 99.8 3.65 1 (31)
Elementos de ADN 294 77.6 2.84 7
MER1-Charlie 182 38.1 1.39 25 (50)
Zaphod 13 4.3 0.16 4 (10)
MER2-Tigger 57 28.0 1.02 12 (28)
Tc2 4 0.9 0.03 1 (5)
Mariner 14 2.6 0.10 4 (5)
Similar a PiggyBac 2 0.5 0.02 10 (20)
Otros 22 3.2 0.12 7 (7)
No clasificados 3 3.8 0.14 3 (4)
13
Proyecto genoma humano
CARACTERÍSTICAS
Retrogen, expresión, Gen original, expresión
REFERENCIA
cromosoma cromosoma Repeticiones
Intrones Poli-A
directas
Fosfoglicerato kinasa
38
testicular; Pgk-1; constitutiva; chr X No + +
Chr 9
Piruvato
deshidrogenasa Pdha1; constitutiva; chr 39
No + +
(Pdha2); testículo; chr X
12
Calmodulin; tejido 40
CaMIII; ubícua; chr 2 No +
epitelial; chr 10
Glutamato deshid.
(GLUD2); 41
GLUD1; ubícua; chr 10 No + +
retina, testículo,
cerebro; X
Factor splicing
PR264/SC35; timo, bazo, 42
pancreas, bazo, No + +
riñón, pulmón; chr 17
próstata; chr 11
Los transposones no sólo han influido a nivel molecular como acabamos de ver, sino
que se han postulado como responsables en parte de procesos de cambio en la estructura de
cromosomas como inversiones, translocaciones y duplicaciones que pueden estar en el origen
de algunos fenómenos de especiación. Este papel de inducción de la inestabilidad
44 45
cromosómica ha sido estudiado en Drosophila melanogaster y Zea mais entre otros
organismos.
37
Brosius J. RNAs from all categories generate retrosequences that may be exapted as novel genes or regulatory elements. Gene 238
115–134. (1999).
38
Adra, C.N., Ellis, N.A., McBurney, M.W. The family of mouse phosphoglycerate kinase genes and pseudogenes. Somatic Cell Mol.
(1988)
39
Fitzgerald, J., Hutchison, W.M., Dahl, H.-H.M. Isolation and rRNA affects translational efficiency. Proc. Natl. Acad. Sci. USA 96, 1339–
1344. Biochim. Biophys. Acta 1131, 83–90. (1992).
40
Linnenbach, A.J. et al. Retroposition in a family of carcinoma-associated antigen genes. Mol Cell. Biol. 13, 1507–1515. (1993).
41
Papamatheakis, J., Plaitakis, A., 1994. Novel human glutamate. Alu dehydrogenase expressed in neural and testicular tissues
encoded by an X-linked intronless gene. J. Biol. Chem. 269, 16971–16976. (1993).
42
Soret, J. et al. SRp46, a novel human SR splicing factor encoded by a PR264/ SC35 retropseudogene. Mol. Cell. Biol. 18, 4924–4934.
(1988).
43
Lahn, B.T., Page, D.C. Retroposition of autosomal mRNA sequences in yielded testis-specific gene family on human Y chromosome.
Nat. Genet. 21, 429–433. (1999).
44
Cáceres M. et al. Generation of a widespread Drosophila inversion by a transposable element. Science 285, 415-418. (1999).
45
Zhang J. & Peterson T. Genome rearrangements by nonlinear transposons in maize. Genetics 153, 1403-1410. (1999).
14
Antonio José Caruz Arcos
Splicing 52
HERV-K LTR leptin receptor (OBRa)
alternativo
Señal de 53
HERV-H LTR HHLA2
poliadenilación
15
Proyecto genoma humano
transponibles, tal como ocurre cuando se comparan los resultados del consorcio público con
los de Celera que da un total de 35% del genoma como transposones (9% inferior al IHGSC).
El genoma humano aparece lleno de fósiles de transposones mientras que los otros genomas
tienen tendencia a tener elementos más recientes, la explicación puede estar en que en el
genoma de los insectos se producen deleciones con una frecuencia 75 veces superior al
genoma de mamíferos, siendo el tiempo de vida media en el genoma de los elementos no
funcionales de 12 millones de años en Drosophila y en torno a 800 millones de años en los
58
mamíferos .
En el genoma humano existen dos familias predominantes relacionadas entre si los
LINE1 y Alu que constituyen por si mismas el 60% del total de los elementos repetidos,
mientras que en los otros organismos estudiados son los transposones de ADN los que
predominan, constituyendo:
• Drosophila: 25%
• Arabidopsis: 49%
• Caenorhabditis: 85%
Esta frecuencia es compartida con el genoma del ratón y sugiere que los eventos de
transmisión horizontal a la línea germinal de transposones de ADN es más difícil, debido
probablemente a limitaciones impuestas por la anatomía y el sistema inmunitario.
El análisis de los sitios de inserción de los transposones ha revelado algunos datos
importantes que se aplican en la investigación de la evolución y diversificación de la
humanidad, los elementos LINE 1 están aún activos y su transposición puede medirse incluso
en cultivos celulares. Las poblaciones humanas no son homogéneas en cuanto a la distribución
de algunos elementos LINE, ya que la inserción en ciertos puntos del genoma se produjo
59
posteriormente a la separación de dos poblaciones que tenían un origen ancestral . Por ello
han sido utilizados para trazar el grado de parentesco entre poblaciones humanas, los LINES
presentan una serie de ventajas con respecto a otros sistemas de análisis filogenético:
• Diagnóstico simple por PCR
• Polimorfismos estables
• Su presencia indica identidad de antepasados (probababilidad casi cero de
identidad de inserción)
• La ausencia de su inserción sería incicativo del origen del árbol filogenético
• Pueden ser incluso específicos de una sola familia
El conocimiento del genoma completo va a dotar de una herramienta potente para
estudiar en profundidad los procesos de migración y selección que han caracterizado nuestra
historia durante los últimos miles de años.
Otra aplicación potencial del análisis de los sitios de inserción de los elementos
transponibles son la identificación de zonas reguladoras a gran escala del genoma. Por
58
Petrov, D. A., Lozovskaya, E. R. & Hartl, D. L. High intrinsic rate of DNA loss in Drosophila. Nature 384, 346-349 (1996).
59
Sheen F. et al. Reading between the LINEs: Human Genomic Variation Induced by LINE-1 Retrotransposition. Genome Research 10,
1496-1508. (2000).
16
Antonio José Caruz Arcos
ejemplo cuando se analizó la zona del cromosoma 2 que contiene algunos genes homeóticos,
se ha observado que la frecuencia de transposones es extraordinariamente baja con respecto a
60
otros fragmentos situados en el mismo cromosoma, otros ejemplos son :
• 8q21: 1,5% de transposones en 63 Kb, contiene genes de factores de transcripción
• 1p36: 5% en 100 Kb, sin genes identificables
• 18q22: 4% en 100 Kb, tres genes de función desconocida
La presencia de exones codificantes para proteínas o promotores podría limitar
seriamente la inserción, pero la paradoja está en que la mayor parte de la secuencia libre de
transposones tampoco contiene exones codificantes ni ninguna secuencia reguladora
conocida. Es altamente probable que esta observación nos esté indicando la presencia de algo
nuevo, de función desconocida pero absolutamente esencial para la supervivencia del
organismo.
60
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001).
17
Proyecto genoma humano
Duplicación de segmentos
Un 5% del genoma humano está duplicado en varias localizaciones cromosómicas
independientes, hecho que implica la transferencia de bloques de 1 a 200 Kb a una o varias
62
localizaciones cromosómicas . Probablemente son muy recientes ya que el grado de
homología es muy alto y no aparecen en especies relacionadas filogenéticamente. Las
duplicaciones pueden ser incluso específicas de una población revelando un grado más en la
variabilidad genética humana. Las duplicaciones pueden dividirse en dos tipos:
1. Intercromosómicas: Segmentos duplicados entre cromosomas no homólogos, por
ejemplo 9,5 Kb del locus de la adrenoleucodistrofia del cromosoma X aparece
63
duplicado en zonas próximas a los centrómeros de los cromosomas 2, 10, 16 y 22 .
2. Intracromosómicas: Segmentos duplicados dentro del mismo cromosoma, por ejemplo
en el cromosoma 17 aparecen duplicados en tándem 3 fragmentos de 200 Kb
64
separados por 5 Mb con un 99% de homología .
61
Broman, K. W., Murray, J. C., Sheffield, V. C., White, R. L. & Weber, J. L. Comprehensive human genetic maps: individual and sex-
specific variation in recombination. Am. J. Hum. Genet. 63, 861-869 (1998). The BAC Resource Consortium. Integration of cytogenetic
landmarks into the draft sequence of the human genome. Nature 409, 953-958 (2001).
62
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001).
63
Eichler, E. E. et al. Interchromosomal duplications of the adrenoleukodystrophy locus: a phenomenon of pericentromeric plasticity.
Hum. Mol. Genet. 6, 991-1002 (1997).Horvath, J. E., Schwartz, S. & Eichler, E. E. The mosaic structure of human pericentromeric DNA:
a strategy for characterizing complex regions of the human genome. Genome Res. 10, 839-852 (2000).
18
Antonio José Caruz Arcos
cromosomas, por ejemplo la región que contiene el locus ADL del cromosoma X aparece
duplicada en otros 5 cromosomas.
Varios estudios han demostrado que las poblaciones humanas son polimórficas para
otras duplicaciones, por ejemplo el locus de los receptores olfativos. Estas observaciones
sugieren que el análisis de las duplicaciones polimórficas pueden ser aplicadas como marcador
64
de dispersión de poblaciones humanas .
Contenido en genes
64
Trask, B. J. et al. Members of the olfactory receptor gene family are contained in large blocks of DNA duplicated polymorphically near
the ends of human chromosomes. Hum. Mol. Genet. 7, 13-26 (1998). Trask, B. J. et al. Large multi-chromosomal duplications
encompass many members of the olfactory receptor gene family in the human genome. Hum. Mol. Genet. 7, 2007-2020 (1998).
65
Li, W.-H. y D. Graur. Fundamentals of Molecular Evolution. Sinuaer Associates, Sunderland, MA.(1991).
19
Proyecto genoma humano
20
Antonio José Caruz Arcos
68
The Fantom Consortium and the RIKEN genome exploration research group phase I & II team. Analysis of the mouse transcriptome
based on functional annotation of 60.770 full-length cDNAs. Nature 420, 563-573. (2002).
21
Proyecto genoma humano
69
Dubchak I. et al. Active conservation of non coding sequences revealed by three-way species comparisons. Genome Research 10,
1304-1306. (2000).
70
Volker A. et al. Collection of mRNA-like non-coding RNAs. Nucl. Acid. Resear. 27, 192-195. (1999).
71
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001). Venter C. et al. The sequence of the human genome. Science 291 1304-1351. (2001).
22
Antonio José Caruz Arcos
hombre/perro
hombre/ratón
ratón/perro
hombre/perro
hombre/ratón
ratón/perro
hombre/perro
hombre/ratón
ratón/perro
La estructura de los genes humanos es muy variable tanto en el tamaño de los genes
como en el de los intrones. Muchos genes tienen más de 100 Kb, siendo el mayor la distrofina
que ocupa 2,4 Mb. La variación en el tamaño de la zona codificante no es tan extrema, pero se
observan outliers muy llamativos como el gen titin con 80.780 pb de secuencia codificante, 254
exones y el exón más largo (17.106 pb). La tabla 6 resume las características generales de los
genes humanos. Cuando los comparamos con
otros organismos como Drosophila o
Caenorhabditis se observa que el tamaño
medio de la secuencia codificante es similar:
1311 en nematodo, 1497 en mosca y 1340 en
humano. Por el contrario el tamaño de los
intrones es mayor en humanos (3.300 pb frente
a 267 en nematodo y 487 de mosca) (Figura
3).
Figura 3:Tamaño de los intrones en humanos, mosca y
nematodo73
Estudios previos habían sugerido que existe una segmentación del genoma en compartimentos
con una diferente proporción de G+C (isócoras) y que el contenido en genes está relacionado
con una mayor concentración de G+C. Los datos del genoma humano, revelan las zonas ricas
en G+C contienen proporcionalmente mayor cantidad de genes (Figura 4).
23
Proyecto genoma humano
Especialmente significativo es el
hecho de que los extremos 5´ proximales
de los genes (promotores y 5´UTRs)
suelen estar constituidos por G+C en un
80% de los casos. La asociación entre
islas CG y los genes es estadísticamente
significativa, con una puntuación de 0,89 para las regiones intergénicas, 1,2 para intrones, 5,86
para exones y 13,2 para el primer exón.
Con respecto al procesado de los intrones de los genes humanos, el 98,12% utiliza el
dinucleótido GT en el extremo 5´ y AG en el 3´. Otro 0,76% utiliza la pareja GC-AG y sólo un
0,1% de los genes tienen una secuencia poco habitual: AT-AC. El uso de splicing alternativo
está muy extendido entre los genes humanos (70%), lo que hace que puedan presentar una
mayor diversidad funcional si los comparamos con Caenorhabditis (22%). Ello implica que por
72
cada gen humano existen una media de 3,4 transcritos frente a 1,34 de Caenorhabditis .
La búsqueda de nuevos genes es un problema complicado de resolver, y el número de
genes potenciales depende de los programas bioinformáticos utilizados, llegando a variar hasta
un 30% dependiendo del algoritmo. Existen varios problemas importantes:
• Los exones constituyen sólo el 5% de la secuencia ocupada por el gen.
• Pueden existir exones muy pequeños y crípticos (incluso de sólo 3 pb) que
enmascaren una pauta abierta de lectura.
• Splicing alternativo en un 70% de los genes.
• En algunos casos la edición del ARNm puede introducir cambios en la pauta abierta de
lectura teórica encontrada en el ADN.
La búsqueda automatizada de genes utiliza las secuencias consenso de los promotores
(islas CG), cajas TATA, secuencias iniciadoras, sitios donadores y aceptores de splicing, señal
de poliadenilación y sobre todo homología de las secuencias con bancos de ADNc tanto de
humanos (localización de genes nuevos pertenecientes a familias génicas conocidas) o de
otros animales (Drosophila, Mus, Caenorhabditis, etc.). El consorcio público y la empresa
Celera identificaron en el primer borrador del genoma unos 30.000 genes codificantes para
proteínas, sin embargo una comparación directa entre los dos catálogos de genes reveló que
no cuadraban entre sí, existiendo grandes diferencias en identidades y propiedades de los
nuevos genes identificados. El consorcio público en su primer índice de proteínas codificadas
por el genoma humano estima su número en unas 31.778, siendo 14.882 de genes conocidos y
16.896 correspondientes a predicciones. Celera predijo una cantidad superior en torno a 35-
72
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001). Venter C. et al. The sequence of the human genome. Science 291 1304-1351. (2001).
24
Antonio José Caruz Arcos
40.000 genes debido a que el método bioinformático empleado fue más potente, con un gran
énfasis en la comparación genómica interespecífica. El conocimiento del número definitivo de
genes humanos deberá esperar la finalización de varios proyectos en curso para determinar el
contenido total del transcriptoma humano. Resulta sorprendente que el genoma humano tenga
sólo el doble de genes que Drosophila o Caenorhabditis. Sin embargo, los genes humanos
producen más isoformas por splicing alternativo, pudiendo codificar quizás unas 5 veces más
proteínas que estos otros animales.
25
Proyecto genoma humano
En la clase I se observa una menor frecuencia de mutaciones lo que indica que han podido
tener más importancia adaptativa.
74
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001). Bergthorsson U, Adams KL, Thomason B, Palmer JD. Widespread horizontal transfer of mitochondrial genes in flowering plants.
Nature 424(6945):197-201. (2003). Genereux DP, Logsdon JM Jr. Much ado about bacteria-to-vertebrate lateral gene transfer. Trends
Genet. 19(4):191-5. (2003). Katz LA. Lateral gene transfers and the evolution of eukaryotes: theories and data. Int J Syst Evol Microbiol.
52(Pt 5):1893-900. (2002). Roelofs J, Van Haastert PJ. Genes lost during evolution. Nature. 411(6841):1013-4. (2001).
Stanhope MJ, Lupas A, Italia MJ, Koretke KK, Volker C, Brown JR. Phylogenetic analyses do not support horizontal gene transfers from
bacteria to vertebrates. Nature. 411(6840):940-4. (2001). Andersson JO, Doolittle WF, Nesbo CL. Genomics. Are there bugs in our
genome?. Science. 292(5523):1848-1850. (2001).
26
Antonio José Caruz Arcos
75
Mouse genome sequencing consortium. Initial sequencing and comparative analysis of the mouse genome. Nature 420, 520-562.
(2002).
76
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001). Venter C. et al. The sequence of the human genome. Science 291 1304-1351. (2001).
27
Proyecto genoma humano
de cambio determinado por presiones selectivas que han hecho difícil la identificación de un
77
grado significativo de homología de secuencia .
El grado de conservación en la estructura de los genes entre Homo y Mus es muy
elevado y permite identificar las regiones bajo selección negativa para la incorporación de
mutaciones. En la Figura 6 se muestra el grado de homología entre 3.165 genes humanos y de
77
ratón .
Una representación más en detalle de los inicios de transcripción y de las secuencias
donadoras y aceptoras de splicing, revela que el grado de conservación alcanza casi el 100%,
siendo muy significativo que las terceras posiciones de los codones codificantes no están
sujetos a tantas limitaciones para el cambio, demostrando la importancia que tiene el tambaleo
de la tercera posición del ARNt en la variabilidad del uso de codones (Figura 7).
Posición en el genoma
77
Mouse genome sequencing consortium. Initial sequencing and comparative analysis of the mouse genome. Nature 420, 520-562.
(2002).
78
Venter C. et al. The sequence of the human genome. Science 291 1304-1351. (2001).
28
Antonio José Caruz Arcos
Inicio de la traducción
% de identidad de secuencia
29
Proyecto genoma humano
79
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001). Venter C. et al. The sequence of the human genome. Science 291 1304-1351. (2001).
30
Antonio José Caruz Arcos
PERSPECTIVAS
31
Proyecto genoma humano
genómico, regulación, biología celular, fisiología, evolución, etc. El impacto real de todo ello no
se puede preveer, pero no cabe duda que el genoma humano sienta las bases de un salto
cualitativo y cuantitativo en nuestra visión del mundo vivo. A continuación repasaré las
perspectivas que se abren tanto para la Biología humana como para la Medicina.
80
Genoma humano y Biología
1. Identificar los componentes estructurales y funcionales codificados por el genoma
humano. El uso de la genómica comparativa permitirá identificar regiones reguladoras en cis
esenciales para el control de la expresión génica, replicación del ADN y recombinación.
Especialmente interesante es el campo de los ARN no codificantes ya que representan una
nueva escala en la expresión génica y en su regulación. Poco se conoce de los mecanismos
moleculares por los que algunos de estos ARN regulan procesos como la metilación del ADN,
impronta o estabilidad de mensajeros. Es de esperar que nuevas estrategias de regulación de
la expresión génica puedan ser descubiertos, especialmente la regulación mediada por ARN de
interferencia durante el desarrollo. El hecho de que el 42% de los genes potencialmente
codificados por el genoma humano no tengan una función conocida, ni puedan clasificarse
dentro de ninguna de las familias proteicas descritas es un auténtico desafío para los
81
investigadores. Tal como sugieren Christine Debouck y Peter N. Goodfellow , la búsqueda de
la función será el campo de trabajo que ocupe a mayor número de biólogos en los próximos
años. Encontrar la función de un gen es una tarea ardua que implica un enfoque multidisciplinar
que podría ser resumido en el refrán de dime con quién vas y te diré quién eres, que se
fundamenta en el argumento de que dos proteínas van juntas si participan en un proceso
común, o dos ARNm se expresan conjuntamente porque están relacionados funcionalmente.
Técnicamente estamos hablando de proteómica (doble híbrido, inmunoprecipitación,
MALDITOF) o de estrategias de medida de la expresión génica con microarrays
(transcriptoma). Este enfoque debe ser complementado con la información suministrada por el
bloqueo de la función del gen y el análisis del fenotipo resultante en animales modelo como
ratones (Knock-outs y Knock-downs) o cultivos celulares (ARN de interferencia). La figura 8
podría resumir esta estrategia experimental.
2. La organización de las redes de información genética y establecer como contribuyen
al fenotipo celular y orgánico. Los genes y sus productos no funcionan independientemente,
sino que participan en complejas rutas interconectadas y redes de comunicación que permiten
el mantenimiento celular, la organización de tejidos, órganos y el desarrollo ontogenético.
Definir estos sistemas así como determinar sus propiedades e interrelaciones es crucial para
entender como funcionan los sistemas biológicos. Desde el punto de vista práctico es una
información imprescindible para manipularlos y predecir su comportamiento. En cierto sentido
los investigadores tratarán de describir los programas o algoritmos genéticos desencadenados
durante el desarrollo o en respuesta a diferentes estímulos como productos tóxicos, hormonas,
80
Collins F S. et al. A vision for the future of genomics research
81
Debouck C, Goodfellow PN. DNA microarrays in drug discovery and development. Nat Genet. 21(1 Suppl):48-50. (1999).
32
Antonio José Caruz Arcos
GENÓ
M DO BL
COMP ICA HÍBR E
ARA T IDO RATO
IVA N
KNOC ES
K-OU
T
ARNi
FUNC MOTIV
TRAN
IÓN O
SEC U E S D E
SC R I NCIA
PTOM
A
MAL EXP
DITO RE
F TISU SIÓN
N LAR
ENF ORMAL
ERM /
EDA
DES
33
Proyecto genoma humano
82
Genoma humano y Medicina
1. Desarrollar nuevas estrategias para la identificación de los componentes genéticos
que contribuyen al desarrollo de enfermedades y respuesta a drogas. La aplicación más
importante de la secuencia del genoma humano es la identificación de genes de función
completamente desconocida, asociados por desequilibrio de ligamiento con una enfermedad
hereditaria. Este sistema se denomina clonación posicional y era muy potente pero tedioso e
incluía etapas de paseo cromosómico sobre grandes distancias genéticas antes de encontrar
un gen candidato donde buscar mutaciones en familias afectadas. La secuencia del genoma
humano permite una identificación rápida in silico de los genes candidatos, seguido de
búsqueda de mutaciones y ayudado por los programas de predicción de estructura génica.
Unos 30 genes asociados con enfermedades se han conseguido clonar partiendo de la
información suministrada sólo durante el año antes de la publicación de la secuencia del
genoma, en los próximos años asistiremos a la correlación de genes específicos con
enfermedades hereditarias mendelianas, enfermedades de origen poligénicos o susceptibilidad
a desarrollar cáncer, arteriosclerosis, hipertensión, etc.
La actividad enzimática responsable de la metabolización de muchos fármacos es
variable entre diferentes pacientes y afecta a la respuesta terapéutica de muchos tratamientos.
La identificación de polimorfismos genéticos asociados a esa respuesta (farmacogenética)
mejorará la práctica clínica y permitirá al médico la adopción de un sistema personalizado de
tratamiento. Hasta el momento se han descrito muchos polimorfismos asociados a respuesta
diferencial al tratamiento farmacológico (especialmente de la familia del citocromo P450), pero
el número real de genes asociados a respuesta diferencial a fármacos sólo ha empezado a ser
atisbado.
2. Desarrollo de nuevos fármacos contra dianas moleculares identificadas por su patrón de
expresión génica. La industria farmacéutica depende de un número muy limitado de dianas
moleculares de acción farmacológica, una revisión reciente cita que sólo 483 proteínas son las
dianas de prácticamente todos los fármacos que hay en el mercado. El listado completo de
genes humanos expandirá enormemente el número de dianas potenciales de drogas. Algunos
autores predicen que varios miles de genes podrían ser candidatos para la acción
farmacológica. Ello ha llevado a la creación de poderosos departamentos de investigación
genética en todas las grandes compañías farmacéuticas.
82
Collins F S. et al. A vision for the future of genomics research
34
Antonio José Caruz Arcos
83 84
tipos de personalidad (receptores de la dopamina con personalidad agresiva o serotonina
con tendencias depresivas). Si en el futuro, la investigación lograse demostrar que nuestro
comportamiento y aptitudes están fundamentadas en los genes, ¿dónde quedaría nuestra
libertad? ¿Dónde el bien o el mal tal como lo entendemos ahora?
Quisiera concluir esta revisión general sobre el proyecto genoma humano con las
palabras de Craig Venter, exdirector científico de Celera, y que resume las implicaciones no
sólo científicas sino también filosóficas que tiene la actual investigación genómica:
The real challenge of human biology, beyond the task of finding out how genes
orchestrate the construction and maintenance of the miraculous mechanism of our bodies, will
lie ahead as we seek to explain how our minds have come to organize thoughts sufficiently well
to investigate our own existence.
83
Se puede consultar una revisión en: http://www.ncbi.nlm.nih.gov/entrez/dispomim.cgi?id=601696
84
Revisión en http://www.ncbi.nlm.nih.gov/entrez/dispomim.cgi?id=182138
35