Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Tema Genoma Humano PDF
Tema Genoma Humano PDF
NDICE PGINA
INTRODUCCIN 2
ESTRATEGIAS DE SECUENCIACIN 5
CONSORCIO PBLICO 5
CELERA 9
CONTENIDO EN GENES 19
PERSPECTIVAS 31
INTRODUCCIN
1
De Vries, H. Sur la loi de disjonction des hybrides. Comptes Rendus de l'Academie des Sciences (Paris), 130:845-847. (1900).
Tschermak, E. . ber Knstliche Kreuzung bei Pisum sativum. Berichte der Deutsche Botanischen Gesellschaft 18: 232-239, (1900).
Correns, C. G. Mendels Regel ber das Verhalten der Nachkommenschaft der Rassenbastarde. Berichte der Deutschen Botanischen
Gesellschaft,18: 158-168. (1900)
2
Sanger F, Nicklen S, Coulson AR. DNA sequencing with chain-terminating inhibitors. Proc Natl Acad Sci U S A.. Dec;74(12):5463-
7.(1977).
3
Sanger, F. et al. Nucleotide sequence of bacteriophage F X174 DNA. Nature 265, 687-695 (1977).
2
Antonio Jos Caruz Arcos
6
humano . Estos proyectos confirmaron que el ensamblaje de pequeos fragmentos
de secuencia hasta completar pequeos genomas completos era factible, y mostr
el valor de contar con un catlogo completo de los genes y secuencias reguladoras
para comprender el binomio estructura-funcin, que caracteriza la expresin
gentica de los genomas estudiados.
7
En 1986 Hood describi una mejora en el sistema radiactivo de secuenciacin
de Sanger que haca uso de fluorocromos unidos a los dideoxinucletidos lo
que permita la lectura secuencial por un ordenador acoplado a un laser. El
primer secuenciador automtico fue desarrollado por Applied Biosystems en
1987, demostrando su capacidad cuando dos nuevos genes fueron
8
identificados utilizando esta tecnologa . Los primeros intentos de
secuenciacin de fragmentos cromosmicos humanos revelaron que contar
con secuencias de ADNc procedentes de la retrotranscripcin de ARNm sera
esencial para anotar y validar las predicciones de genes en las secuencias
9
humanas . Estos estudios fueron en parte la base para el desarrollo del mtodo
de identificacin gnica denominado Expressed Sequence Tags (EST). La
informacin suministrada por los EST permiti un rpido descubrimiento y
10
mapeo de muchos genes humanos . La cantidad creciente de datos generado
por la secuenciacin de bancos de ADNc hizo imprescindible el desarrollo de
nuevos algoritmos informticos para analizar la informacin y en 1993 The
Institute for Genomics Research (TIGR) puso a punto un programa que
11
permita el ensamblaje y anlisis de cientos de miles de ESTs .
Los programas para crear un mapa fsico de clones que cubrieran los genomas
12 13
de la levadura y nematodo , para permitir el aislamiento de genes y regiones
completas basndose slo en su posicin cromosmica.
El programa para crear un mapa gentico humano que hiciera posible la
localizacin de genes de enfermedades de funcin desconocida, basndose
14
solamente en los patrones de ligamiento a genes de posicin conocida .
4
Sanger, F., Coulson, A. R., Hong, G. F., Hill, D. F. & Petersen, G. B. Nucleotide-sequence of bacteriophage Lambda DNA. J. Mol. Biol.
162, 729-773 (1982).
5
. Fiers, W. et al. Complete nucleotide sequence of SV40 DNA. Nature 273, 113-120 (1978).
6
Anderson, S. et al. Sequence and organization of the human mitochondrial genome. Nature 290, 457-465 (1981).
7
Strauss EC, Kobori JA, Siu G, Hood LE. Specific-primer-directed DNA sequencing. Anal Biochem. Apr;154(1):353-60.(1986).
8
J. Gocayne, et al. Primary structure of rat cardiac beta-adrenergic and muscarinic cholinergic receptors obtained by automated DNA
sequence analysis: further evidence for a multigene family.Proc. Natl. Acad. Sci. U.S.A. 84, 8296 (1987) .
9
McCombie WR, Martin-Gallardo A, Gocayne JD, FitzGerald M, Dubnick M, Kelley JM, Castilla L, Liu LI, Wallace S, Trapp S, et al.
Expressed genes, Alu repeats and polymorphisms in cosmids sequenced from chromosome 4p16.3. Nat Genet. Aug;1(5):348-53.(1992).
10
Adams MD, Dubnick M, Kerlavage AR, Moreno R, Kelley JM, Utterback TR, Nagle JW, Fields C, Venter JC. Sequence identification of
2,375 human brain genes. Nature. 357(6377):367-8.(1992).
11
Adams MD, Kerlavage AR, Fleischmann RD, Fuldner RA, Bult CJ, Lee NH, Kirkness EF, Weinstock KG, Gocayne JD, White O, et al.
Initial assessment of human gene diversity and expression patterns based upon 83 million nucleotides of cDNA sequence. Nature.
377(6547 Suppl):3-174.(1995).
12
Olson, M. V. et al. Random-clone strategy for genomic restriction mapping in yeast. Proc. Natl Acad. Sci. USA 83, 7826-7830 (1986).
13
Coulson, A., Sulston, J., Brenner, S. & Karn, J. Toward a physical map of the genome of the nematode Caenorhabditis elegans. Proc.
Natl Acad. Sci. USA 83, 7821-7825 (1986).
3
Proyecto genoma humano
4
Antonio Jos Caruz Arcos
no alcanzan el mnimo necesario para que nuestro pas ocupe el puesto en el campo de la
nueva Biologa que le corresponde por su capacidad econmica y por el sustrato de
investigadores en la materia que tiene. La base tecnolgica genmica est constituyendo ya
una nueva revolucin biolgica con aplicaciones en la industria farmacutica, medicina,
agricultura y ganadera, sectores esenciales para el desarrollo econmico del pas.
A continuacin pasaremos a revisar las dos estrategias de secuenciacin que han
seguido tanto el consorcio pblico como Celera. En el siguiente apartado veremos la
informacin obtenida del anlisis de la secuencia, fundamentalmente el contenido de
elementos repetidos (transposones, repeticiones simples y duplicaciones) as como el
contenido en genes del genoma. Luego se analizar la informacin suministrada por la
genmica comparativa y las perspectivas que ha abierto el PGH en la investigacin biomdica
que va a condicionar el desarrollo de la Gentica durante el prximo siglo.
17
Sinsheimer, R. L. The Santa Cruz Workshop-1985. Genomics 5, 954-956 (1989).
18
Kim, U. J. et al. Construction and characterization of a human bacterial artificial chromosome library. Genomics 34, 213-218 (1996).
Osoegawa, K. et al. Bacterial artificial chromosome libraries for mouse sequencing and functional analysis. Genome Res. 10, 116-128
(2000).
5
Proyecto genoma humano
19
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001).
20
Dunham I. Mapping human chromosomes. Curr Opin Genet Dev. 5(3):328-34. (1995).
21
Donis-Keller, H. et al. A genetic linkage map of the human genome. Cell 51, 319-337 (1987). Gyapay, G. et al. The 1993-94 Genethon
human genetic linkage map. Nature Genet. 7, 246-339 (1994). Hudson, T. J. et al. An STS-based map of the human genome. Science
270, 1945-1954 (1995). Dietrich, W. F. et al. A comprehensive genetic map of the mouse genome. Nature 380, 149-152 (1996).
Nusbaum, C. et al. A YAC-based physical map of the mouse genome. Nature Genet. 22, 388-393 (1999).
6
Antonio Jos Caruz Arcos
22
Swansbury J. Cytogenetic studies using FISH: background. Methods Mol Biol. 220:173-91. (2003).
23
Hudson, T. J. et al. An STS-based map of the human genome. Science 270, 1945-1954 (1995).
7
Proyecto genoma humano
buena parte debido al empleo de los STS, que permiten elaborar mapas de contigs segn el
contenido de STS de los clones solapados. Estos mapas de STS permiten la integracin de los
mapas genticos y fsicos, hacen accesible la fase de secuenciacin y facilitan la clonacin de
23
genes implicados en enfermedades mediante la llamada estrategia de clonacin posicional .
Una vez que se construyen los mapas, hay que refinarlos y purgarlos de posibles
errores. Los errores suelen tener dos fuentes principales: algunos clones BACs son en realidad
hbridos o quimeras producidas por artefactos durante el proceso de elaboracin de la
genoteca, y por lo tanto su mapa no refleja el orden genmico autntico; y por otro lado, los
programas de ensamblado de los mapas no son fiables al 100%. De ah la importancia de
confirmar y normalizar los datos mediante estrategias aceptadas por todos los investigadores.
Dentro del PGH se ha abordando un enfoque paralelo y complementario consistente en
secuenciar EST. Estos fragmentos se corresponden con los genes sin intrones que se
expresan en los diferentes tejidos. Los datos obtenidos se integran en "mapas funcionales" que
muestran el patrn de expresin diferencial segn su localizacin histolgica.
La etapa siguiente en la cartografa de cada clon BAC o PAC consiste en una versin
modificada de la tcnica FISH denominada Fiber FISH, que permite hibridar el contenido de
cada clon con el genoma, determinando su posicin exacta dentro de cada cromosoma as
24
como la longitud que ocupa a lo largo del mismo . Una vez que las genotecas estn mapeadas
y est identificada la posicin cromosmica de cada clon, se procede a la secuenciacin de
25
cada uno de ellos mediante un sistema de shotgun clsico . El cual presenta unas indudables
ventajas con respecto al sistema de paseo cromosmico que requiere la sntesis de nuevos
oligonucletidos despus de la secuenciacin de los extremos para determinar la secuencia
interna del clon. Debido a que el PGH ha sido desarrollado en varios laboratorios a lo largo del
mundo, no ha existido una homogeneidad en cuanto a las herramientas utilizadas, talla media
26
de los insertos shotgun as como los sistemas de secuenciacin (cadena simple o doble) . La
automatizacin tambin ha sido variable entre los laboratorios y a lo largo del tiempo, con
secuenciadores basados en tecnologa de electroforesis de acrilamida o capilar. En 1999, la
mayora se automatizaron hasta alcanzar proporciones casi industriales (7 millones de
muestras procesadas cada mes, 1000 nucletidos secuenciados por segundo, 24 horas al da,
26
7 das a la semana) .
La secuencia completa de cada clon BAC es solapada con la de otros clones que
mapean en la misma regin dando lugar a una cadena continua que contiene la informacin de
varios de ellos formando los llamados Contigs, los cuales a su vez se agrupan en secuencias
de mayor tamao denominadas Scaffolds que representan fragmentos de varias Mb de
24
Rosenberg C, Florijn RJ, Van de Rijke FM, Blonden LA, Raap TK, Van Ommen GJ, Den Dunnen JT. High resolution DNA fiber-fish on
yeast artificial chromosomes: direct visualization of DNA replication. Nat Genet. 10(4):477-9. (1995).
25
Anderson, S. Shotgun DNA sequencing using cloned DNase I-generated fragments. Nucleic Acids Res. 9, 3015-3027 (1981). Gardner,
R. C. et al. The complete nucleotide sequence of an infectious clone of cauliflower mosaic virus by M13mp7 shotgun sequencing. Nucleic
Acids Res. 9, 2871-2888 (1981). Deininger, P. L. Random subcloning of sonicated DNA: application to shotgun DNA sequence analysis.
Anal. Biochem. 129, 216-223 (1983).
26
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001).
8
Antonio Jos Caruz Arcos
27
Venter C. et al. The sequence of the human genome. Science 291 1304-1351. (2001).
9
Proyecto genoma humano
Este sistema puede parecer algo falso ya que el gran problema de la integracin de
grandes fragmentos de informacin generada por el software de Celera tiene un sistema de
verificacin y control independiente que son los clones BAC de acceso pblico. Sin embargo, la
28
secuenciacin posterior del genoma del ratn usando slo el sistema de whole genome
shotgun sin necesidad de recurrir a la informacin de mapeo, valida a posteriori esta radical
metodologa.
Sin embargo, la informacin suministrada por Celera est empobrecida de elementos
repetidos, fraccin muy importante del genoma completo, ya que un mismo transposn puede
tener miles de copias dispersas por todo el genoma con un grado de homologa altsimo (casi
el 100%) lo que implica que si la secuenciacin no incluye las secuencias flanqueantes es
28
virtualmente imposible asignarle una posicin concreta en el laberinto genmico .
En esta seccin estudiaremos las caractersticas biolgicas a gran escala que presenta
el genoma humano, as como el contenido de secuencias repetidas y de genes.
Contenido en secuencias repetidas
Una de las observaciones iniciales de la Gentica Molecular fue que el tamao de los
genomas no est correlacionado con la complejidad del organismo al que pertenece (paradoja
del valor C). Por ejemplo, Homo sapiens tiene un genoma 200 veces mayor que el de
29
Saccharomyces cerevisiae, pero 200 veces ms pequeo que el del protozoo Amoeba dubia .
Este misterio fue resuelto cuando se demostr que los genomas pueden contener una enorme
cantidad de ADN altamente repetido que supera con creces el ADN implicado en la produccin
de protenas. En el genoma humano slo el 5% son genes de los cuales tan slo un 1%
aproximadamente son exones que se traducen a protenas. Por el contrario, las secuencias
repetidas constituyen como mnimo el 50% del total. En general este tipo de secuencia puede
ser clasificada en 3 grupos:
1. Transposones o secuencias derivadas de la actividad de ellos (incluyendo
pseudogenes)
2. Secuencias simples repetidas, constituidas por repeticiones directas cortas de una,
dos, tres o ms bases (satlites, minisatlites y microsatlites)
3. Duplicaciones segmentales, consistentes en bloques de 1-300 Kb que han sido
copiados desde una regin a otra diferente
Estas repeticiones fueron tomadas como ADN basura y minusvaloradas por los
investigadores, sin embargo actualmente estn consideradas como una de las ms potentes
28
Mouse genome sequencing consortium. Initial sequencing and comparative analysis of the mouse genome. Nature 420, 520-562.
(2002).
29
Li, W. -H. Molecular Evolution (Sinauer, Sunderland, Massachusetts, 1997). Gregory, T. R. & Hebert, P. D. The modulation of DNA
content: proximate causes and ultimate consequences. Genome Res. 9, 317-324 (1999). Hartl, D. L. Molecular melodies in high and low
C. Nature Rev. Genet. 1, 145-149 (2000).
10
Antonio Jos Caruz Arcos
fuerzas que determinan la evolucin de los genomas, siendo utilizadas adems como
herramientas en Gentica mdica y forense. Tambin han despertado el inters de los
farmaclogos ya que alguna de las dianas de drogas utilizadas a gran escala presentan genes
parlogos en fragmentos duplicados a lo largo de diferentes cromosomas y algunas
duplicaciones estn asociadas con enfermedades genticas producidas por fenmenos de
microdelecin generados por recombinacin desigual entre ellos.
A continuacin profundizaremos en el anlisis de cada uno de estos tipos de elementos
repetidos de nuestro genoma y evaluaremos las implicaciones que tienen cada uno de ellos en
estudios sobre la evolucin humana y sus implicaciones mdicas.
31
Los LINES (Long Interspersed Elements) tienen un tamao medio de 6 Kb, tienen un
promotor interno para la ARN polimerasa II y codifican para dos protenas. Una vez traducido el
ARNm se une a las propias protenas producidas y se transloca al ncleo, donde una actividad
endonucleasa genera un corte en el ADN nuclear y una actividad retrotranscriptasa utiliza el
ADN monocatenario generado por el corte como cebador para la sntesis del ADNc. Muchas
veces la retrotranscriptasa no alcanza el extremo 5del ARNm generando elementos truncados
no funcionales. De hecho la mayora de estos elementos tienen una talla media de 900 pb
(LINE 1). El sitio de insercin presenta una duplicacin de 7 a 20 pb. La actividad enzimtica de
estos elementos es la responsable de la mayora de la actividad retrotranscriptasa del genoma
humano y pueden actuar en trans sobre ARN que presenten cierta homologa de secuencia en
su extremo 3terminal como son los elementos SINE. En el genoma humano existen 3 familias
31
de LINES y slo una de ellas continua en activo (LINE 1) .
31
Los elementos SINES (Short Interspersed Elements), son pequeos tienen una talla
media de 100-400 pb, no codifican para protenas y contienen un promotor interno de la ARN
polimerasa III. Utilizan en trans la maquinaria de los LINE por homologa con el extremo 3 de
los mismos. La mayora de las familias de SINEs derivan de ARNt (elementos MIR y Ther2)
30
N.L. Craig, R.Craigie, M. Gellert y A.M. Lambowitz. Mobile DNA II. American Society of Microbiology. (1989).
31
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001).
11
Proyecto genoma humano
32
Malik HS, Henikoff S, Eickbush TH. Poised for contagion: evolutionary origins of the infectious abilities of invertebrate retroviruses.
Genome Res. 2000 10(9):1307-18.
33
N.L. Craig, R.Craigie, M. Gellert y A.M. Lambowitz. Mobile DNA II. American Society of Microbiology. (1989).
34
Haring, E., Hagemann, S. & Pinsker, W. Ancient and recent horizontal invasions of Drosophilids by P elements. J. Mol. Evol. 51, 577-
586 (2000). Koga, A. et al. Evidence for recent invasion of the medaka fish genome by the Tol2 transposable element. Genetics 155,
273-281 (2000). Robertson, H. M. & Lampe, D. J. Recent horizontal transfer of a mariner transposable element among and between
Diptera and Neuroptera. Mol. Biol. Evol. 12, 850-862 (1995). Simmons, G. M. Horizontal transfer of hobo transposable elements within
the Drosophila melanogaster species complex: evidence from DNA sequencing. Mol. Biol. Evol. 9, 1050-1060 (1992).
12
Antonio Jos Caruz Arcos
Tabla 1: Nmero de copias y fraccin del genoma para cada clase de transposn35
Total de
Copias bases en el % del N de familias
Tipo de transposn (x1000) genoma genoma (subfamilias)
SINEs 1,558 359.6 13.14 3
Alu 1,090 290.1 10.60 1 (20)
MIR 393 60.1 2.20 1 (1)
MIR3 75 9.3 0.34 1 (1)
LINEs 868 558.8 20.42 3
LINE1 516 462.1 16.89 1 (55)
LINE2 315 88.2 3.22 1 (2)
LINE3 37 8.4 0.31 1 (2)
LTR 443 227.0 8.29 4
ERV-I 112 79.2 2.89 72 (132)
ERV(K)-II 8 8.5 0.31 10 (20)
ERV-L 83 39.5 1.44 21 (42)
MaLR 240 99.8 3.65 1 (31)
Elementos de ADN 294 77.6 2.84 7
MER1-Charlie 182 38.1 1.39 25 (50)
Zaphod 13 4.3 0.16 4 (10)
MER2-Tigger 57 28.0 1.02 12 (28)
Tc2 4 0.9 0.03 1 (5)
Mariner 14 2.6 0.10 4 (5)
Similar a PiggyBac 2 0.5 0.02 10 (20)
Otros 22 3.2 0.12 7 (7)
No clasificados 3 3.8 0.14 3 (4)
13
Proyecto genoma humano
CARACTERSTICAS
Retrogen, expresin, Gen original, expresin
REFERENCIA
cromosoma cromosoma Repeticiones
Intrones Poli-A
directas
Fosfoglicerato kinasa
38
testicular; Pgk-1; constitutiva; chr X No + +
Chr 9
Piruvato
deshidrogenasa Pdha1; constitutiva; chr 39
No + +
(Pdha2); testculo; chr X
12
Calmodulin; tejido 40
CaMIII; ubcua; chr 2 No +
epitelial; chr 10
Glutamato deshid.
(GLUD2); 41
GLUD1; ubcua; chr 10 No + +
retina, testculo,
cerebro; X
Factor splicing
PR264/SC35; timo, bazo, 42
pancreas, bazo, No + +
rin, pulmn; chr 17
prstata; chr 11
Los transposones no slo han influido a nivel molecular como acabamos de ver, sino
que se han postulado como responsables en parte de procesos de cambio en la estructura de
cromosomas como inversiones, translocaciones y duplicaciones que pueden estar en el origen
de algunos fenmenos de especiacin. Este papel de induccin de la inestabilidad
44 45
cromosmica ha sido estudiado en Drosophila melanogaster y Zea mais entre otros
organismos.
37
Brosius J. RNAs from all categories generate retrosequences that may be exapted as novel genes or regulatory elements. Gene 238
115134. (1999).
38
Adra, C.N., Ellis, N.A., McBurney, M.W. The family of mouse phosphoglycerate kinase genes and pseudogenes. Somatic Cell Mol.
(1988)
39
Fitzgerald, J., Hutchison, W.M., Dahl, H.-H.M. Isolation and rRNA affects translational efficiency. Proc. Natl. Acad. Sci. USA 96, 1339
1344. Biochim. Biophys. Acta 1131, 8390. (1992).
40
Linnenbach, A.J. et al. Retroposition in a family of carcinoma-associated antigen genes. Mol Cell. Biol. 13, 15071515. (1993).
41
Papamatheakis, J., Plaitakis, A., 1994. Novel human glutamate. Alu dehydrogenase expressed in neural and testicular tissues
encoded by an X-linked intronless gene. J. Biol. Chem. 269, 1697116976. (1993).
42
Soret, J. et al. SRp46, a novel human SR splicing factor encoded by a PR264/ SC35 retropseudogene. Mol. Cell. Biol. 18, 49244934.
(1988).
43
Lahn, B.T., Page, D.C. Retroposition of autosomal mRNA sequences in yielded testis-specific gene family on human Y chromosome.
Nat. Genet. 21, 429433. (1999).
44
Cceres M. et al. Generation of a widespread Drosophila inversion by a transposable element. Science 285, 415-418. (1999).
45
Zhang J. & Peterson T. Genome rearrangements by nonlinear transposons in maize. Genetics 153, 1403-1410. (1999).
14
Antonio Jos Caruz Arcos
Splicing 52
HERV-K LTR leptin receptor (OBRa)
alternativo
Seal de 53
HERV-H LTR HHLA2
poliadenilacin
15
Proyecto genoma humano
transponibles, tal como ocurre cuando se comparan los resultados del consorcio pblico con
los de Celera que da un total de 35% del genoma como transposones (9% inferior al IHGSC).
El genoma humano aparece lleno de fsiles de transposones mientras que los otros genomas
tienen tendencia a tener elementos ms recientes, la explicacin puede estar en que en el
genoma de los insectos se producen deleciones con una frecuencia 75 veces superior al
genoma de mamferos, siendo el tiempo de vida media en el genoma de los elementos no
funcionales de 12 millones de aos en Drosophila y en torno a 800 millones de aos en los
58
mamferos .
En el genoma humano existen dos familias predominantes relacionadas entre si los
LINE1 y Alu que constituyen por si mismas el 60% del total de los elementos repetidos,
mientras que en los otros organismos estudiados son los transposones de ADN los que
predominan, constituyendo:
Drosophila: 25%
Arabidopsis: 49%
Caenorhabditis: 85%
Esta frecuencia es compartida con el genoma del ratn y sugiere que los eventos de
transmisin horizontal a la lnea germinal de transposones de ADN es ms difcil, debido
probablemente a limitaciones impuestas por la anatoma y el sistema inmunitario.
El anlisis de los sitios de insercin de los transposones ha revelado algunos datos
importantes que se aplican en la investigacin de la evolucin y diversificacin de la
humanidad, los elementos LINE 1 estn an activos y su transposicin puede medirse incluso
en cultivos celulares. Las poblaciones humanas no son homogneas en cuanto a la distribucin
de algunos elementos LINE, ya que la insercin en ciertos puntos del genoma se produjo
59
posteriormente a la separacin de dos poblaciones que tenan un origen ancestral . Por ello
han sido utilizados para trazar el grado de parentesco entre poblaciones humanas, los LINES
presentan una serie de ventajas con respecto a otros sistemas de anlisis filogentico:
Diagnstico simple por PCR
Polimorfismos estables
Su presencia indica identidad de antepasados (probababilidad casi cero de
identidad de insercin)
La ausencia de su insercin sera incicativo del origen del rbol filogentico
Pueden ser incluso especficos de una sola familia
El conocimiento del genoma completo va a dotar de una herramienta potente para
estudiar en profundidad los procesos de migracin y seleccin que han caracterizado nuestra
historia durante los ltimos miles de aos.
Otra aplicacin potencial del anlisis de los sitios de insercin de los elementos
transponibles son la identificacin de zonas reguladoras a gran escala del genoma. Por
58
Petrov, D. A., Lozovskaya, E. R. & Hartl, D. L. High intrinsic rate of DNA loss in Drosophila. Nature 384, 346-349 (1996).
59
Sheen F. et al. Reading between the LINEs: Human Genomic Variation Induced by LINE-1 Retrotransposition. Genome Research 10,
1496-1508. (2000).
16
Antonio Jos Caruz Arcos
ejemplo cuando se analiz la zona del cromosoma 2 que contiene algunos genes hometicos,
se ha observado que la frecuencia de transposones es extraordinariamente baja con respecto a
60
otros fragmentos situados en el mismo cromosoma, otros ejemplos son :
8q21: 1,5% de transposones en 63 Kb, contiene genes de factores de transcripcin
1p36: 5% en 100 Kb, sin genes identificables
18q22: 4% en 100 Kb, tres genes de funcin desconocida
La presencia de exones codificantes para protenas o promotores podra limitar
seriamente la insercin, pero la paradoja est en que la mayor parte de la secuencia libre de
transposones tampoco contiene exones codificantes ni ninguna secuencia reguladora
conocida. Es altamente probable que esta observacin nos est indicando la presencia de algo
nuevo, de funcin desconocida pero absolutamente esencial para la supervivencia del
organismo.
60
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001).
17
Proyecto genoma humano
Duplicacin de segmentos
Un 5% del genoma humano est duplicado en varias localizaciones cromosmicas
independientes, hecho que implica la transferencia de bloques de 1 a 200 Kb a una o varias
62
localizaciones cromosmicas . Probablemente son muy recientes ya que el grado de
homologa es muy alto y no aparecen en especies relacionadas filogenticamente. Las
duplicaciones pueden ser incluso especficas de una poblacin revelando un grado ms en la
variabilidad gentica humana. Las duplicaciones pueden dividirse en dos tipos:
1. Intercromosmicas: Segmentos duplicados entre cromosomas no homlogos, por
ejemplo 9,5 Kb del locus de la adrenoleucodistrofia del cromosoma X aparece
63
duplicado en zonas prximas a los centrmeros de los cromosomas 2, 10, 16 y 22 .
2. Intracromosmicas: Segmentos duplicados dentro del mismo cromosoma, por ejemplo
en el cromosoma 17 aparecen duplicados en tndem 3 fragmentos de 200 Kb
64
separados por 5 Mb con un 99% de homologa .
61
Broman, K. W., Murray, J. C., Sheffield, V. C., White, R. L. & Weber, J. L. Comprehensive human genetic maps: individual and sex-
specific variation in recombination. Am. J. Hum. Genet. 63, 861-869 (1998). The BAC Resource Consortium. Integration of cytogenetic
landmarks into the draft sequence of the human genome. Nature 409, 953-958 (2001).
62
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001).
63
Eichler, E. E. et al. Interchromosomal duplications of the adrenoleukodystrophy locus: a phenomenon of pericentromeric plasticity.
Hum. Mol. Genet. 6, 991-1002 (1997).Horvath, J. E., Schwartz, S. & Eichler, E. E. The mosaic structure of human pericentromeric DNA:
a strategy for characterizing complex regions of the human genome. Genome Res. 10, 839-852 (2000).
18
Antonio Jos Caruz Arcos
cromosomas, por ejemplo la regin que contiene el locus ADL del cromosoma X aparece
duplicada en otros 5 cromosomas.
Varios estudios han demostrado que las poblaciones humanas son polimrficas para
otras duplicaciones, por ejemplo el locus de los receptores olfativos. Estas observaciones
sugieren que el anlisis de las duplicaciones polimrficas pueden ser aplicadas como marcador
64
de dispersin de poblaciones humanas .
Contenido en genes
64
Trask, B. J. et al. Members of the olfactory receptor gene family are contained in large blocks of DNA duplicated polymorphically near
the ends of human chromosomes. Hum. Mol. Genet. 7, 13-26 (1998). Trask, B. J. et al. Large multi-chromosomal duplications
encompass many members of the olfactory receptor gene family in the human genome. Hum. Mol. Genet. 7, 2007-2020 (1998).
65
Li, W.-H. y D. Graur. Fundamentals of Molecular Evolution. Sinuaer Associates, Sunderland, MA.(1991).
19
Proyecto genoma humano
20
Antonio Jos Caruz Arcos
68
The Fantom Consortium and the RIKEN genome exploration research group phase I & II team. Analysis of the mouse transcriptome
based on functional annotation of 60.770 full-length cDNAs. Nature 420, 563-573. (2002).
21
Proyecto genoma humano
69
Dubchak I. et al. Active conservation of non coding sequences revealed by three-way species comparisons. Genome Research 10,
1304-1306. (2000).
70
Volker A. et al. Collection of mRNA-like non-coding RNAs. Nucl. Acid. Resear. 27, 192-195. (1999).
71
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001). Venter C. et al. The sequence of the human genome. Science 291 1304-1351. (2001).
22
Antonio Jos Caruz Arcos
hombre/perro
hombre/ratn
ratn/perro
hombre/perro
hombre/ratn
ratn/perro
hombre/perro
hombre/ratn
ratn/perro
La estructura de los genes humanos es muy variable tanto en el tamao de los genes
como en el de los intrones. Muchos genes tienen ms de 100 Kb, siendo el mayor la distrofina
que ocupa 2,4 Mb. La variacin en el tamao de la zona codificante no es tan extrema, pero se
observan outliers muy llamativos como el gen titin con 80.780 pb de secuencia codificante, 254
exones y el exn ms largo (17.106 pb). La tabla 6 resume las caractersticas generales de los
genes humanos. Cuando los comparamos con
otros organismos como Drosophila o
Caenorhabditis se observa que el tamao
medio de la secuencia codificante es similar:
1311 en nematodo, 1497 en mosca y 1340 en
humano. Por el contrario el tamao de los
intrones es mayor en humanos (3.300 pb frente
a 267 en nematodo y 487 de mosca) (Figura
3).
Figura 3:Tamao de los intrones en humanos, mosca y
nematodo73
Estudios previos haban sugerido que existe una segmentacin del genoma en compartimentos
con una diferente proporcin de G+C (iscoras) y que el contenido en genes est relacionado
con una mayor concentracin de G+C. Los datos del genoma humano, revelan las zonas ricas
en G+C contienen proporcionalmente mayor cantidad de genes (Figura 4).
23
Proyecto genoma humano
Especialmente significativo es el
hecho de que los extremos 5 proximales
de los genes (promotores y 5UTRs)
suelen estar constituidos por G+C en un
80% de los casos. La asociacin entre
islas CG y los genes es estadsticamente
significativa, con una puntuacin de 0,89 para las regiones intergnicas, 1,2 para intrones, 5,86
para exones y 13,2 para el primer exn.
Con respecto al procesado de los intrones de los genes humanos, el 98,12% utiliza el
dinucletido GT en el extremo 5 y AG en el 3. Otro 0,76% utiliza la pareja GC-AG y slo un
0,1% de los genes tienen una secuencia poco habitual: AT-AC. El uso de splicing alternativo
est muy extendido entre los genes humanos (70%), lo que hace que puedan presentar una
mayor diversidad funcional si los comparamos con Caenorhabditis (22%). Ello implica que por
72
cada gen humano existen una media de 3,4 transcritos frente a 1,34 de Caenorhabditis .
La bsqueda de nuevos genes es un problema complicado de resolver, y el nmero de
genes potenciales depende de los programas bioinformticos utilizados, llegando a variar hasta
un 30% dependiendo del algoritmo. Existen varios problemas importantes:
Los exones constituyen slo el 5% de la secuencia ocupada por el gen.
Pueden existir exones muy pequeos y crpticos (incluso de slo 3 pb) que
enmascaren una pauta abierta de lectura.
Splicing alternativo en un 70% de los genes.
En algunos casos la edicin del ARNm puede introducir cambios en la pauta abierta de
lectura terica encontrada en el ADN.
La bsqueda automatizada de genes utiliza las secuencias consenso de los promotores
(islas CG), cajas TATA, secuencias iniciadoras, sitios donadores y aceptores de splicing, seal
de poliadenilacin y sobre todo homologa de las secuencias con bancos de ADNc tanto de
humanos (localizacin de genes nuevos pertenecientes a familias gnicas conocidas) o de
otros animales (Drosophila, Mus, Caenorhabditis, etc.). El consorcio pblico y la empresa
Celera identificaron en el primer borrador del genoma unos 30.000 genes codificantes para
protenas, sin embargo una comparacin directa entre los dos catlogos de genes revel que
no cuadraban entre s, existiendo grandes diferencias en identidades y propiedades de los
nuevos genes identificados. El consorcio pblico en su primer ndice de protenas codificadas
por el genoma humano estima su nmero en unas 31.778, siendo 14.882 de genes conocidos y
16.896 correspondientes a predicciones. Celera predijo una cantidad superior en torno a 35-
72
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001). Venter C. et al. The sequence of the human genome. Science 291 1304-1351. (2001).
24
Antonio Jos Caruz Arcos
40.000 genes debido a que el mtodo bioinformtico empleado fue ms potente, con un gran
nfasis en la comparacin genmica interespecfica. El conocimiento del nmero definitivo de
genes humanos deber esperar la finalizacin de varios proyectos en curso para determinar el
contenido total del transcriptoma humano. Resulta sorprendente que el genoma humano tenga
slo el doble de genes que Drosophila o Caenorhabditis. Sin embargo, los genes humanos
producen ms isoformas por splicing alternativo, pudiendo codificar quizs unas 5 veces ms
protenas que estos otros animales.
25
Proyecto genoma humano
En la clase I se observa una menor frecuencia de mutaciones lo que indica que han podido
tener ms importancia adaptativa.
74
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001). Bergthorsson U, Adams KL, Thomason B, Palmer JD. Widespread horizontal transfer of mitochondrial genes in flowering plants.
Nature 424(6945):197-201. (2003). Genereux DP, Logsdon JM Jr. Much ado about bacteria-to-vertebrate lateral gene transfer. Trends
Genet. 19(4):191-5. (2003). Katz LA. Lateral gene transfers and the evolution of eukaryotes: theories and data. Int J Syst Evol Microbiol.
52(Pt 5):1893-900. (2002). Roelofs J, Van Haastert PJ. Genes lost during evolution. Nature. 411(6841):1013-4. (2001).
Stanhope MJ, Lupas A, Italia MJ, Koretke KK, Volker C, Brown JR. Phylogenetic analyses do not support horizontal gene transfers from
bacteria to vertebrates. Nature. 411(6840):940-4. (2001). Andersson JO, Doolittle WF, Nesbo CL. Genomics. Are there bugs in our
genome?. Science. 292(5523):1848-1850. (2001).
26
Antonio Jos Caruz Arcos
75
Mouse genome sequencing consortium. Initial sequencing and comparative analysis of the mouse genome. Nature 420, 520-562.
(2002).
76
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001). Venter C. et al. The sequence of the human genome. Science 291 1304-1351. (2001).
27
Proyecto genoma humano
de cambio determinado por presiones selectivas que han hecho difcil la identificacin de un
77
grado significativo de homologa de secuencia .
El grado de conservacin en la estructura de los genes entre Homo y Mus es muy
elevado y permite identificar las regiones bajo seleccin negativa para la incorporacin de
mutaciones. En la Figura 6 se muestra el grado de homologa entre 3.165 genes humanos y de
77
ratn .
Una representacin ms en detalle de los inicios de transcripcin y de las secuencias
donadoras y aceptoras de splicing, revela que el grado de conservacin alcanza casi el 100%,
siendo muy significativo que las terceras posiciones de los codones codificantes no estn
sujetos a tantas limitaciones para el cambio, demostrando la importancia que tiene el tambaleo
de la tercera posicin del ARNt en la variabilidad del uso de codones (Figura 7).
Posicin en el genoma
77
Mouse genome sequencing consortium. Initial sequencing and comparative analysis of the mouse genome. Nature 420, 520-562.
(2002).
78
Venter C. et al. The sequence of the human genome. Science 291 1304-1351. (2001).
28
Antonio Jos Caruz Arcos
Inicio de la traduccin
% de identidad de secuencia
29
Proyecto genoma humano
79
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001). Venter C. et al. The sequence of the human genome. Science 291 1304-1351. (2001).
30
Antonio Jos Caruz Arcos
PERSPECTIVAS
31
Proyecto genoma humano
genmico, regulacin, biologa celular, fisiologa, evolucin, etc. El impacto real de todo ello no
se puede preveer, pero no cabe duda que el genoma humano sienta las bases de un salto
cualitativo y cuantitativo en nuestra visin del mundo vivo. A continuacin repasar las
perspectivas que se abren tanto para la Biologa humana como para la Medicina.
80
Genoma humano y Biologa
1. Identificar los componentes estructurales y funcionales codificados por el genoma
humano. El uso de la genmica comparativa permitir identificar regiones reguladoras en cis
esenciales para el control de la expresin gnica, replicacin del ADN y recombinacin.
Especialmente interesante es el campo de los ARN no codificantes ya que representan una
nueva escala en la expresin gnica y en su regulacin. Poco se conoce de los mecanismos
moleculares por los que algunos de estos ARN regulan procesos como la metilacin del ADN,
impronta o estabilidad de mensajeros. Es de esperar que nuevas estrategias de regulacin de
la expresin gnica puedan ser descubiertos, especialmente la regulacin mediada por ARN de
interferencia durante el desarrollo. El hecho de que el 42% de los genes potencialmente
codificados por el genoma humano no tengan una funcin conocida, ni puedan clasificarse
dentro de ninguna de las familias proteicas descritas es un autntico desafo para los
81
investigadores. Tal como sugieren Christine Debouck y Peter N. Goodfellow , la bsqueda de
la funcin ser el campo de trabajo que ocupe a mayor nmero de bilogos en los prximos
aos. Encontrar la funcin de un gen es una tarea ardua que implica un enfoque multidisciplinar
que podra ser resumido en el refrn de dime con quin vas y te dir quin eres, que se
fundamenta en el argumento de que dos protenas van juntas si participan en un proceso
comn, o dos ARNm se expresan conjuntamente porque estn relacionados funcionalmente.
Tcnicamente estamos hablando de protemica (doble hbrido, inmunoprecipitacin,
MALDITOF) o de estrategias de medida de la expresin gnica con microarrays
(transcriptoma). Este enfoque debe ser complementado con la informacin suministrada por el
bloqueo de la funcin del gen y el anlisis del fenotipo resultante en animales modelo como
ratones (Knock-outs y Knock-downs) o cultivos celulares (ARN de interferencia). La figura 8
podra resumir esta estrategia experimental.
2. La organizacin de las redes de informacin gentica y establecer como contribuyen
al fenotipo celular y orgnico. Los genes y sus productos no funcionan independientemente,
sino que participan en complejas rutas interconectadas y redes de comunicacin que permiten
el mantenimiento celular, la organizacin de tejidos, rganos y el desarrollo ontogentico.
Definir estos sistemas as como determinar sus propiedades e interrelaciones es crucial para
entender como funcionan los sistemas biolgicos. Desde el punto de vista prctico es una
informacin imprescindible para manipularlos y predecir su comportamiento. En cierto sentido
los investigadores tratarn de describir los programas o algoritmos genticos desencadenados
durante el desarrollo o en respuesta a diferentes estmulos como productos txicos, hormonas,
80
Collins F S. et al. A vision for the future of genomics research
81
Debouck C, Goodfellow PN. DNA microarrays in drug discovery and development. Nat Genet. 21(1 Suppl):48-50. (1999).
32
Antonio Jos Caruz Arcos
GEN
M DO BL
COMP ICA HBR E
ARA T IDO RATO
IVA N
KNOC ES
K-OU
T
ARNi
FUNC MOTIV
TRAN
IN O
SEC U E S D E
SC R I NCIA
PTOM
A
MAL EXP
DITO RE
F TISU SIN
N LAR
ENF ORMAL
ERM /
EDA
DES
33
Proyecto genoma humano
82
Genoma humano y Medicina
1. Desarrollar nuevas estrategias para la identificacin de los componentes genticos
que contribuyen al desarrollo de enfermedades y respuesta a drogas. La aplicacin ms
importante de la secuencia del genoma humano es la identificacin de genes de funcin
completamente desconocida, asociados por desequilibrio de ligamiento con una enfermedad
hereditaria. Este sistema se denomina clonacin posicional y era muy potente pero tedioso e
inclua etapas de paseo cromosmico sobre grandes distancias genticas antes de encontrar
un gen candidato donde buscar mutaciones en familias afectadas. La secuencia del genoma
humano permite una identificacin rpida in silico de los genes candidatos, seguido de
bsqueda de mutaciones y ayudado por los programas de prediccin de estructura gnica.
Unos 30 genes asociados con enfermedades se han conseguido clonar partiendo de la
informacin suministrada slo durante el ao antes de la publicacin de la secuencia del
genoma, en los prximos aos asistiremos a la correlacin de genes especficos con
enfermedades hereditarias mendelianas, enfermedades de origen polignicos o susceptibilidad
a desarrollar cncer, arteriosclerosis, hipertensin, etc.
La actividad enzimtica responsable de la metabolizacin de muchos frmacos es
variable entre diferentes pacientes y afecta a la respuesta teraputica de muchos tratamientos.
La identificacin de polimorfismos genticos asociados a esa respuesta (farmacogentica)
mejorar la prctica clnica y permitir al mdico la adopcin de un sistema personalizado de
tratamiento. Hasta el momento se han descrito muchos polimorfismos asociados a respuesta
diferencial al tratamiento farmacolgico (especialmente de la familia del citocromo P450), pero
el nmero real de genes asociados a respuesta diferencial a frmacos slo ha empezado a ser
atisbado.
2. Desarrollo de nuevos frmacos contra dianas moleculares identificadas por su patrn de
expresin gnica. La industria farmacutica depende de un nmero muy limitado de dianas
moleculares de accin farmacolgica, una revisin reciente cita que slo 483 protenas son las
dianas de prcticamente todos los frmacos que hay en el mercado. El listado completo de
genes humanos expandir enormemente el nmero de dianas potenciales de drogas. Algunos
autores predicen que varios miles de genes podran ser candidatos para la accin
farmacolgica. Ello ha llevado a la creacin de poderosos departamentos de investigacin
gentica en todas las grandes compaas farmacuticas.
82
Collins F S. et al. A vision for the future of genomics research
34
Antonio Jos Caruz Arcos
83 84
tipos de personalidad (receptores de la dopamina con personalidad agresiva o serotonina
con tendencias depresivas). Si en el futuro, la investigacin lograse demostrar que nuestro
comportamiento y aptitudes estn fundamentadas en los genes, dnde quedara nuestra
libertad? Dnde el bien o el mal tal como lo entendemos ahora?
Quisiera concluir esta revisin general sobre el proyecto genoma humano con las
palabras de Craig Venter, exdirector cientfico de Celera, y que resume las implicaciones no
slo cientficas sino tambin filosficas que tiene la actual investigacin genmica:
The real challenge of human biology, beyond the task of finding out how genes
orchestrate the construction and maintenance of the miraculous mechanism of our bodies, will
lie ahead as we seek to explain how our minds have come to organize thoughts sufficiently well
to investigate our own existence.
83
Se puede consultar una revisin en: http://www.ncbi.nlm.nih.gov/entrez/dispomim.cgi?id=601696
84
Revisin en http://www.ncbi.nlm.nih.gov/entrez/dispomim.cgi?id=182138
35