Está en la página 1de 35

EL PROYECTO GENOMA HUMANO

ANTONIO JOS CARUZ ARCOS

NDICE PGINA

INTRODUCCIN 2

ESTRATEGIAS DE SECUENCIACIN 5

CONSORCIO PBLICO 5

CELERA 9

ANLISIS DE LA INFORMACIN CONTENIDA EN EL GENOMA HUMANO 10

CONTENIDO EN SECUENCIAS REPETIDAS 10

CONTENIDO EN GENES 19

VARIABILIDAD DEL GENOMA 29

PERSPECTIVAS 31

GENOMA HUMANO Y BIOLOGA 32

GENOMA HUMANO Y MEDICINA 34


Proyecto genoma humano

INTRODUCCIN

El resdescubrimiento de las leyes de Mendel a principios del siglo XX constituy una


1
revolucin en Biologa que cre los cimientos para el desarrollo posterior de la Gentica . El
progreso cientfico en este campo podra dividirse en cuatro fases que se corresponden
aproximadamente con los cuatro cuartos del siglo XX. En la primera se establecieron las bases
celulares de la herencia, los cromosomas, la segunda permiti definir la base molecular de la
herencia: los cidos nucleicos. En la tercera se descubri la base de la expresin de la
informacin gentica, con el descubrimiento de los mecanismos biolgicos por los cuales las
clulas decodifican la informacin contenida en los genes y con la invencin de las tecnologas
del ADN recombinante de clonacin y secuenciacin; la Gentica se dot de unas herramientas
poderossimas para el estudio de la estructura y funcin del material hereditario. El ltimo
cuarto de siglo ha estado marcado por el esfuerzo mantenido por descifrar la informacin de
genomas completos y comprender su estructura, funcin y evolucin. El fruto de este trabajo
incluye actualmente la secuencia completa de los genomas de 570 virus, 16 arqueobacterias,
136 bacterias y 22 eucariotas entre los cuales destacan por su importancia como modelos en
Gentica Saccharomyces cerevisiae, Drosophila melanogaster, Caehnorabditis elegans, Mus
musculus y Arabidopsis thaliana.
El proyecto de secuenciacin del genoma humano (PGH) fue planteado a principios de
la dcada de los 80 por el consejo nacional de investigacin de Estados Unidos (US National
Research Council) que consideraba que adquirir una visin global de la estructura del genoma,
podra acelerar enormemente la investigacin sobre la Biologa humana y comprender:
1. La evolucin de la humanidad
2. El origen de muchas enfermedades
3. La interrelacin entre el ambiente y la herencia en la expresin fenotpica de la
condicin humana
La generacin de esta visin global requera un esfuerzo comn en infraestructura,
financiacin y coordinacin entre diferentes laboratorios como nunca hasta entonces haba sido
planteado en la investigacin biolgica. El PGH estaba sustentado en una base tecnolgica
previa que permitieron cristalizar el proyecto:
En 1977 Sanger describi una nueva metodologa para determinar el orden de
2
nucletidos de ADN utilizando dideoxinucletidos . Ese mismo ao el primer gen
humano fue aislado y secuenciado. Entre 1977 y 1982 se secuenciaron los virus
3 4 5
bacterianos X174 y lambda , el virus animal SV40 y el ADN mitocondrial

1
De Vries, H. Sur la loi de disjonction des hybrides. Comptes Rendus de l'Academie des Sciences (Paris), 130:845-847. (1900).
Tschermak, E. . ber Knstliche Kreuzung bei Pisum sativum. Berichte der Deutsche Botanischen Gesellschaft 18: 232-239, (1900).
Correns, C. G. Mendels Regel ber das Verhalten der Nachkommenschaft der Rassenbastarde. Berichte der Deutschen Botanischen
Gesellschaft,18: 158-168. (1900)
2
Sanger F, Nicklen S, Coulson AR. DNA sequencing with chain-terminating inhibitors. Proc Natl Acad Sci U S A.. Dec;74(12):5463-
7.(1977).
3
Sanger, F. et al. Nucleotide sequence of bacteriophage F X174 DNA. Nature 265, 687-695 (1977).

2
Antonio Jos Caruz Arcos

6
humano . Estos proyectos confirmaron que el ensamblaje de pequeos fragmentos
de secuencia hasta completar pequeos genomas completos era factible, y mostr
el valor de contar con un catlogo completo de los genes y secuencias reguladoras
para comprender el binomio estructura-funcin, que caracteriza la expresin
gentica de los genomas estudiados.
7
En 1986 Hood describi una mejora en el sistema radiactivo de secuenciacin
de Sanger que haca uso de fluorocromos unidos a los dideoxinucletidos lo
que permita la lectura secuencial por un ordenador acoplado a un laser. El
primer secuenciador automtico fue desarrollado por Applied Biosystems en
1987, demostrando su capacidad cuando dos nuevos genes fueron
8
identificados utilizando esta tecnologa . Los primeros intentos de
secuenciacin de fragmentos cromosmicos humanos revelaron que contar
con secuencias de ADNc procedentes de la retrotranscripcin de ARNm sera
esencial para anotar y validar las predicciones de genes en las secuencias
9
humanas . Estos estudios fueron en parte la base para el desarrollo del mtodo
de identificacin gnica denominado Expressed Sequence Tags (EST). La
informacin suministrada por los EST permiti un rpido descubrimiento y
10
mapeo de muchos genes humanos . La cantidad creciente de datos generado
por la secuenciacin de bancos de ADNc hizo imprescindible el desarrollo de
nuevos algoritmos informticos para analizar la informacin y en 1993 The
Institute for Genomics Research (TIGR) puso a punto un programa que
11
permita el ensamblaje y anlisis de cientos de miles de ESTs .
Los programas para crear un mapa fsico de clones que cubrieran los genomas
12 13
de la levadura y nematodo , para permitir el aislamiento de genes y regiones
completas basndose slo en su posicin cromosmica.
El programa para crear un mapa gentico humano que hiciera posible la
localizacin de genes de enfermedades de funcin desconocida, basndose
14
solamente en los patrones de ligamiento a genes de posicin conocida .

4
Sanger, F., Coulson, A. R., Hong, G. F., Hill, D. F. & Petersen, G. B. Nucleotide-sequence of bacteriophage Lambda DNA. J. Mol. Biol.
162, 729-773 (1982).
5
. Fiers, W. et al. Complete nucleotide sequence of SV40 DNA. Nature 273, 113-120 (1978).
6
Anderson, S. et al. Sequence and organization of the human mitochondrial genome. Nature 290, 457-465 (1981).
7
Strauss EC, Kobori JA, Siu G, Hood LE. Specific-primer-directed DNA sequencing. Anal Biochem. Apr;154(1):353-60.(1986).
8
J. Gocayne, et al. Primary structure of rat cardiac beta-adrenergic and muscarinic cholinergic receptors obtained by automated DNA
sequence analysis: further evidence for a multigene family.Proc. Natl. Acad. Sci. U.S.A. 84, 8296 (1987) .
9
McCombie WR, Martin-Gallardo A, Gocayne JD, FitzGerald M, Dubnick M, Kelley JM, Castilla L, Liu LI, Wallace S, Trapp S, et al.
Expressed genes, Alu repeats and polymorphisms in cosmids sequenced from chromosome 4p16.3. Nat Genet. Aug;1(5):348-53.(1992).
10
Adams MD, Dubnick M, Kerlavage AR, Moreno R, Kelley JM, Utterback TR, Nagle JW, Fields C, Venter JC. Sequence identification of
2,375 human brain genes. Nature. 357(6377):367-8.(1992).
11
Adams MD, Kerlavage AR, Fleischmann RD, Fuldner RA, Bult CJ, Lee NH, Kirkness EF, Weinstock KG, Gocayne JD, White O, et al.
Initial assessment of human gene diversity and expression patterns based upon 83 million nucleotides of cDNA sequence. Nature.
377(6547 Suppl):3-174.(1995).
12
Olson, M. V. et al. Random-clone strategy for genomic restriction mapping in yeast. Proc. Natl Acad. Sci. USA 83, 7826-7830 (1986).
13
Coulson, A., Sulston, J., Brenner, S. & Karn, J. Toward a physical map of the genome of the nematode Caenorhabditis elegans. Proc.
Natl Acad. Sci. USA 83, 7821-7825 (1986).

3
Proyecto genoma humano

Desarrollo de poderosas herramientas bioinformticas que permiten el


ensamblaje de secuencias solapantes de grandes fragmentos de informacin
gentica, as como la optimizacin de algoritmos para la identificacin de genes
y secuencias reguladoras.
Desarrollo de nuevos equipos de manipulacin masiva de muestras (robots) as
como de sistemas de secuenciacin a gran escala (ABI 3700).

En 1985, el Consejo Nacional de Investigacin de Estados Unidos, recomend un


programa muy amplio en el que se desarrolla en paralelo la secuenciacin de organismos
15
modelo como bacterias, levadura, mosca y nematodo . A priori, el programa deba centrarse
en las zonas de ADN ms interesantes, as como en las regiones gnicas codificadoras,
dejando para una etapa posterior el anlisis del enorme contenido de ADN repetitivo de
distintas clases que existe en el genoma. Simultneamente haba que ir desarrollando toda una
infraestructura de tcnicas instrumentales y de anlisis de la informacin generada (programas
informticos potentes para gestionar las secuencias y extraer sentido biolgico de ellas, nuevos
algoritmos, redes de ordenadores interconectados, bases de datos entrelazados, etc.). El
proyecto cont con una asignacin inicial slo en Estados Unidos de unos 3000 millones de
dlares para un periodo de 15 aos. Otros pases tambin fueron incluidos en el proyecto
inicial, Gran Bretaa fue financiada por el Consejo de Investigacin Mdica (MRC) y la
fundacin privada Wellcome Trust, en Francia por el Centre dEtude du Polymorphisme Humain
y la asociacin francesa contra la distrofia muscular y Japn por el Ministerio de Educacin y
Ciencia. Posteriormente otros pases se incorporaron al proyecto como China y Alemania.
Pero el proyecto pblico ha tenido un competidor muy serio en la empresa privada
Celera, que en 1999 inici un programa de secuenciacin del genoma humano independiente
motivado por intereses comerciales. Ello supuso una autntica revolucin en el consorcio
pblico que degener en una frentica carrera para alcanzar la meta antes que el competidor.
Aunque Celera estuviese fundamentalmente motivada por intereses econmicos (patentes de
genes, identificacin de genes asociados a enfermedades, etc.) su contribucin ha sido enorme
en estrategia, desarrollo tecnolgico y sobre todo porque ha acelerado de tal forma el trabajo
del consorcio pblico que el borrador del genoma ha sido publicado unos cuatro aos antes de
lo programado inicialmente.
Espaa, como es habitual, qued al margen del mismo, tan slo un grupo de la
Universidad Pompeu Fabra liderado por Roderic Guig, particip en el desafo privado liderado
por Celera, contribuyendo con aplicaciones bioinformticas para el ensamblaje de las
secuencias. Actualmente el Ministerio de Ciencia y Tecnologa de Espaa ha creado una
16
fundacin llamada Genoma-Espaa que financia proyectos de investigacin en genmica.
Tambin existe un programa especfico de financiacin a travs de los fondos generales del
Ministerio, pero considero que llega muy tarde y que las cuantas de los proyectos financiados
14
Berry, R. et al. Gene-based sequence-tagged-sites (STSs) as the basis for a human gene map. Nature Genet. 10, 415-423 (1995).
15
Sinsheimer, R. L. The Santa Cruz Workshop-1985. Genomics 5, 954-956 (1989).
16
www.gen-es.org

4
Antonio Jos Caruz Arcos

no alcanzan el mnimo necesario para que nuestro pas ocupe el puesto en el campo de la
nueva Biologa que le corresponde por su capacidad econmica y por el sustrato de
investigadores en la materia que tiene. La base tecnolgica genmica est constituyendo ya
una nueva revolucin biolgica con aplicaciones en la industria farmacutica, medicina,
agricultura y ganadera, sectores esenciales para el desarrollo econmico del pas.
A continuacin pasaremos a revisar las dos estrategias de secuenciacin que han
seguido tanto el consorcio pblico como Celera. En el siguiente apartado veremos la
informacin obtenida del anlisis de la secuencia, fundamentalmente el contenido de
elementos repetidos (transposones, repeticiones simples y duplicaciones) as como el
contenido en genes del genoma. Luego se analizar la informacin suministrada por la
genmica comparativa y las perspectivas que ha abierto el PGH en la investigacin biomdica
que va a condicionar el desarrollo de la Gentica durante el prximo siglo.

ESTRATEGIAS DE SECUENCIACIN DEL GENOMA HUMANO

Consorcio pblico (Secuenciacin mediante shotgun jerrquico )


Es una estrategia basada en el ordenamiento de los clones de varias genotecas
humanas y su asignacin precisa a una localizacin cromosmica concreta antes de abordar la
17
secuenciacin. Tras las propuestas iniciales , que partieron del ministerio de energa de los
EEUU (DOE), al que enseguida siguieron los Institutos Nacionales de la Salud (NIH), qued
claro que este magno proyecto no poda consistir en la secuenciacin exclusivamente, sino que
habra de constar de varias etapas encadenadas, comenzando por la elaboracin de mapas
genticos y fsicos de resolucin cada vez mayor.
El soporte que se ha utilizado para clonar los distintos fragmentos del genoma son
18
unos plsmidos denominados BAC (Cromosomas Artificiales de Bacterias) y PAC
(Cromosomas Artificiales de P1), que tienen unas caractersticas especiales que los hacen
imprescindibles para el PGH. Los plsmidos BAC derivan del clebre plsmido F de E. coli y
presenta una caracterstica muy importante: tiene un sistema gentico que controla el nmero
de copias por bacteria, limitndolo a una sola. Esta propiedad es fundamental para la
estabilidad de insertos grandes derivados de secuencias genmicas ricas en elementos
repetidos que pueden sufrir procesos de recombinacin y por tanto de prdida, inversin o
translocacin de fragmentos. Los plsmidos PAC incluyen un sistema regulador del nmero de
copias similar en estructura a los BACs pero derivados del bacterifago P1 de E. coli. Entre las
virtudes de estos vectores podramos destacar las siguientes:
Los insertos pueden ser enormes entre 50 y300 Kpb, con un tamao medio de 150 Kpb
Ms estables que los cromosomas artificiales de levadura (YACs)

17
Sinsheimer, R. L. The Santa Cruz Workshop-1985. Genomics 5, 954-956 (1989).
18
Kim, U. J. et al. Construction and characterization of a human bacterial artificial chromosome library. Genomics 34, 213-218 (1996).
Osoegawa, K. et al. Bacterial artificial chromosome libraries for mouse sequencing and functional analysis. Genome Res. 10, 116-128
(2000).

5
Proyecto genoma humano

Crecen ms deprisa que los YACs


Ms fcil purificacin del ADN a partir de cultivos bacterianos
Permite un eficaz escrutinio mediante hibridacin o PCR.
Posibilidad de seleccin por color de clones recombinantes
Sitio de clonacin mltiple muy completo
Las genotecas genmicas fueron construidas a partir de muestras de ADN aisladas de sangre
y semen de 8 hombres annimos procedentes de diferentes orgenes geogrficos, para tener
19
una representacin de la variabilidad gentica humana . El ADN original fue digerido con
varias enzimas de restriccin que producan cortes solapados en un mismo trozo de
cromosoma, consiguindose una redundancia de 65 veces. Una vez generada la genoteca, el
PGH hizo uso de dos tipos de cartografa para caracterizarlas, aunque en ltima instancia los
mapas generados por los distintos mtodos fueron correlacionados e integrados: cartografa
gentica de ligamiento y cartografa fsica.
Cartografa gentica de ligamiento.
La cartografa gentica se basa en el clculo de la frecuencia con la que se coheredan
formas alternativas (alelos) de dos loci genticos que estn ligados formando parte de un
mismo cromosoma. Hasta la aparicin de las tcnicas moleculares, los mapas genticos de
ligamiento en humanos eran bastante rudimentarios, ya que en su elaboracin no se pueden
hacer cruces dirigidos (por obvios motivos ticos) y porque los datos haban de basarse casi
exclusivamente en la comparacin de fenotipos normales y los mutantes correspondientes a
determinadas enfermedades genticas, y en el recurso a anlisis de familias, a ser posible con
registros de varias generaciones y con gran nmero de individuos.
La revolucin de la cartografa gentica de ligamiento sobrevino cuando en los aos 80
se recurre al anlisis molecular de zonas de ADN no codificadoras y que son muy polimrficas:
existen varios tipos de secuencias (algunas de ellas de naturaleza repetitiva, como los VNTR,
los microsatlites, etc.), dispersos por el genoma, cada uno de ellos con varios alelos en el
20
mbito poblacional . Entre las ventajas de los microsatlites se cuentan: contenido informativo
muy alto, con lo que los anlisis estadsticos mejoran en fiabilidad; distribucin abundante y
relativamente uniforme por todo el genoma; y que se pueden identificar fcilmente mediante
PCR. Adems, estos loci genticos sirven en gentica clnica como marcadores tiles para
localizar genes relacionados con enfermedades. Los polimorfismos moleculares han permitido
que en la actualidad el PGH haya generado detallados mapas genticos del genoma humano a
un nivel de resolucin en torno a 1 centimorgan (cM) o incluso menos. Esto ya se logr en
21
1994, un ao antes de lo previsto, y en buena parte con resoluciones mejores (0.7 cM) .

19
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001).
20
Dunham I. Mapping human chromosomes. Curr Opin Genet Dev. 5(3):328-34. (1995).
21
Donis-Keller, H. et al. A genetic linkage map of the human genome. Cell 51, 319-337 (1987). Gyapay, G. et al. The 1993-94 Genethon
human genetic linkage map. Nature Genet. 7, 246-339 (1994). Hudson, T. J. et al. An STS-based map of the human genome. Science
270, 1945-1954 (1995). Dietrich, W. F. et al. A comprehensive genetic map of the mouse genome. Nature 380, 149-152 (1996).
Nusbaum, C. et al. A YAC-based physical map of the mouse genome. Nature Genet. 22, 388-393 (1999).

6
Antonio Jos Caruz Arcos

La cartografa fsica, tiene como objetivo especificar distancias fsicas en pares de


bases (pb) o alguno de sus mltiplos. Obviamente, el mapa fsico de mayor detalle es la propia
secuencia del genoma. Pero antes de llegar a obtenerla, hay que elaborar mapas fsicos
partiendo de resoluciones bajas y avanzando hacia las resoluciones cada vez mayores. En
cierta manera, los mapas fsicos de menor resolucin son los propios cariotipos: la
visualizacin microscpica de la dotacin cromosmica haploide humana teida con colorante
de Giemsa nos muestra un patrn alternante de bandas claras y oscuras, en el que cada banda
tiene una media de unos 7 millones de pares de bases. Si bien los mtodos citogenticos
tienen sus limitaciones, no hay que olvidar que actualmente existen novedosas herramientas
de citogentica molecular (como las sondas fluorescentes in situ o FISH, la "pintura de
22
cromosomas", etc.) que permiten un mayor detalle y que, unidas a otras tcnicas aumentan el
arsenal de enfoques para el estudio de los genomas, de su dinmica y de sus alteraciones.
Los mapas fsicos de mayor resolucin se elaboran a partir de la genotecas en BAC,
utilizando dos estrategias, en cierto modo similar a la de ensamblar un rompecabezas: consiste
en ordenar los fragmentos del genoma a base de buscar grupos de fragmentos que tienen
alguna zona en comn, es decir, ir hallando conjuntos de pares de fragmentos parcialmente
solapados. Ello conduce al concepto de contig: un conjunto de fragmentos de un genoma que
se han clonado por separado, pero que son contiguos y que estn parcialmente solapados.
Los actuales mapas fsicos han de recurrir pues al ensamblaje de esos fragmentos dentro de
un contig, y ulteriormente, los distintos contigs correspondientes al mismo grupo de ligamiento
han de ser ensamblados entre s: el objetivo final (ideal) sera obtener un gran contig por cada
cromosoma, que describiera detalladamente la posicin y distancia fsica (en bases) entre
distintos marcadores (representados, por ejemplo , por dianas para enzimas de restriccin).
La metodologa de los mapas fsicos ha sido el desarrollo de una especie de
"marcadores fsicos universales", fcilmente generables, que permiten que los datos obtenidos
en un laboratorio sean rpidamente compartidos y asumidos por toda la comunidad
investigadora: se trata de los llamados "lugares etiquetados por su secuencia" (Sequence
23
Tagged Site) . Consisten en trechos cortos de ADN de unas 300-500 pb de media, cuya
secuencia exacta se conoce y se sabe que es nica en todo el genoma. Su facilidad de uso y
su aceptacin como "lenguaje comn" estriba en que una vez que un investigador descubre
una STS, cualquier otro puede obtenerla por s mismo (ni siquiera hace falta el envo fsico de
muestras), simplemente fabricando in vitro los cebadores correspondientes a sus extremos y
amplificando la STS por reaccin en cadena de la polimerasa (PCR). Los STS definen puntos
concretos nicos del mapa fsico, y constituyen magnficos "hitos" o balizas fcilmente
detectables.
Uno de los objetivos iniciales del PGH era la obtencin de mapas fsicos con unas
30.000 balizas repartidas de modo ms o menos uniforme, de modo que cada dos marcadores
consecutivos estn separados una media de 100 kb. Este objetivo se acaba de cumplir, en

22
Swansbury J. Cytogenetic studies using FISH: background. Methods Mol Biol. 220:173-91. (2003).
23
Hudson, T. J. et al. An STS-based map of the human genome. Science 270, 1945-1954 (1995).

7
Proyecto genoma humano

buena parte debido al empleo de los STS, que permiten elaborar mapas de contigs segn el
contenido de STS de los clones solapados. Estos mapas de STS permiten la integracin de los
mapas genticos y fsicos, hacen accesible la fase de secuenciacin y facilitan la clonacin de
23
genes implicados en enfermedades mediante la llamada estrategia de clonacin posicional .
Una vez que se construyen los mapas, hay que refinarlos y purgarlos de posibles
errores. Los errores suelen tener dos fuentes principales: algunos clones BACs son en realidad
hbridos o quimeras producidas por artefactos durante el proceso de elaboracin de la
genoteca, y por lo tanto su mapa no refleja el orden genmico autntico; y por otro lado, los
programas de ensamblado de los mapas no son fiables al 100%. De ah la importancia de
confirmar y normalizar los datos mediante estrategias aceptadas por todos los investigadores.
Dentro del PGH se ha abordando un enfoque paralelo y complementario consistente en
secuenciar EST. Estos fragmentos se corresponden con los genes sin intrones que se
expresan en los diferentes tejidos. Los datos obtenidos se integran en "mapas funcionales" que
muestran el patrn de expresin diferencial segn su localizacin histolgica.
La etapa siguiente en la cartografa de cada clon BAC o PAC consiste en una versin
modificada de la tcnica FISH denominada Fiber FISH, que permite hibridar el contenido de
cada clon con el genoma, determinando su posicin exacta dentro de cada cromosoma as
24
como la longitud que ocupa a lo largo del mismo . Una vez que las genotecas estn mapeadas
y est identificada la posicin cromosmica de cada clon, se procede a la secuenciacin de
25
cada uno de ellos mediante un sistema de shotgun clsico . El cual presenta unas indudables
ventajas con respecto al sistema de paseo cromosmico que requiere la sntesis de nuevos
oligonucletidos despus de la secuenciacin de los extremos para determinar la secuencia
interna del clon. Debido a que el PGH ha sido desarrollado en varios laboratorios a lo largo del
mundo, no ha existido una homogeneidad en cuanto a las herramientas utilizadas, talla media
26
de los insertos shotgun as como los sistemas de secuenciacin (cadena simple o doble) . La
automatizacin tambin ha sido variable entre los laboratorios y a lo largo del tiempo, con
secuenciadores basados en tecnologa de electroforesis de acrilamida o capilar. En 1999, la
mayora se automatizaron hasta alcanzar proporciones casi industriales (7 millones de
muestras procesadas cada mes, 1000 nucletidos secuenciados por segundo, 24 horas al da,
26
7 das a la semana) .
La secuencia completa de cada clon BAC es solapada con la de otros clones que
mapean en la misma regin dando lugar a una cadena continua que contiene la informacin de
varios de ellos formando los llamados Contigs, los cuales a su vez se agrupan en secuencias
de mayor tamao denominadas Scaffolds que representan fragmentos de varias Mb de

24
Rosenberg C, Florijn RJ, Van de Rijke FM, Blonden LA, Raap TK, Van Ommen GJ, Den Dunnen JT. High resolution DNA fiber-fish on
yeast artificial chromosomes: direct visualization of DNA replication. Nat Genet. 10(4):477-9. (1995).
25
Anderson, S. Shotgun DNA sequencing using cloned DNase I-generated fragments. Nucleic Acids Res. 9, 3015-3027 (1981). Gardner,
R. C. et al. The complete nucleotide sequence of an infectious clone of cauliflower mosaic virus by M13mp7 shotgun sequencing. Nucleic
Acids Res. 9, 2871-2888 (1981). Deininger, P. L. Random subcloning of sonicated DNA: application to shotgun DNA sequence analysis.
Anal. Biochem. 129, 216-223 (1983).
26
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001).

8
Antonio Jos Caruz Arcos

secuencia. Toda esta fase de ensamblaje es dependiente de la bioinformtica, la cual ha sido


uno de los objetivos esenciales del PGH, debido a la gigantesca cantidad de datos que hay que
recoger, analizar, comparar, interpretar y distribuir.
El ensamblaje completo del genoma humano ha dado una estima aproximada de 3200
Gb de secuencia no redundante, lo que concuerda con datos previos sobre el contenido de
26
ADN del genoma. La talla de la porcin eucromtica del genoma se calcula en torno a 2,9 Gb .

Celera (Secuenciacin mediante shotgun genmico completo)


En 1999, Celera una empresa privada liderada por C. Venter, el antiguo director del
TIGR (The Institut for Genomic Research) emprendi la extraordinaria tarea de secuenciar por
su cuenta el genoma humano, entrando en competencia directa con el consorcio pblico. El
sistema utilizado por Celera para la secuenciacin del genoma difiere del pblico en que
prescinde completamente de las etapas iniciales de localizacin de los clones genmicos sobre
los cromosomas. Est basada en la secuenciacin directa y posterior ensamblaje de trozos
pequeos de informacin gentica aisladas y secuenciadas independientemente y que slo
27
posteriormente son ensambladas en contigs continuos .
La genoteca de Celera es completamente diferente a la del proyecto pblico, se parti
de ADN de 5 individuos de diferentes orgenes tnicos (2 hombres y 3 mujeres) y se hicieron 3
genotecas diferentes, una en plsmidos de alto nmero de copias (tipo pUC-18) y con insertos
de 2 Kb de media. Las otras dos genotecas de 10 Kb y 50 Kb de talla media, fueron clonadas
en el clsico vector pBR322 de bajo nmero de copias. Posteriormente se observaron
fenmenos de inestabilidad de la genoteca de 50 Kb y fue necesario subclonar los insertos
como fragmentos de menor talla. La estrategia de Celera incluy el uso de la ms modernas
tcnicas de manipulacin de muestras mediante sistemas robotizados con rastreo de origen
que permiten trabajar a un ritmo absolutamente fabuloso: 65 tcnicos de laboratorio, 150
secuenciadores automticos que generan unas 175.000 reacciones de secuenciacin diarias
(650 pb de media), durante 24 horas al da y 7 das a la semana (50 millones de reacciones
aproximadamente), permitieron que en slo 9 meses tuviesen secuenciado casi el genoma
28
completo con una redundancia de 5,11 veces por cada segmento .
El ensamblaje de esta enorme cantidad de informacin se llev a cabo utilizando unas
herramientas informticas especialmente diseadas para el proyecto, tanto de hardware como
de software. Incluan dos estrategias generales:
The Overlapper, tiene su origen en la secuenciacin del genoma de Drosophila y su
fundamento es la comparacin de la informacin de cada reaccin de secuenciacin
con todas las dems, bsqueda de homologas con menos del 6% de heterogeneidad
en fragmentos de al menos 40 pb.
Comparacin de los fragmentos ensamblados con la informacin disponible de los
clones BAC hechas pblicas en la red por el consorcio internacional.

27
Venter C. et al. The sequence of the human genome. Science 291 1304-1351. (2001).

9
Proyecto genoma humano

Este sistema puede parecer algo falso ya que el gran problema de la integracin de
grandes fragmentos de informacin generada por el software de Celera tiene un sistema de
verificacin y control independiente que son los clones BAC de acceso pblico. Sin embargo, la
28
secuenciacin posterior del genoma del ratn usando slo el sistema de whole genome
shotgun sin necesidad de recurrir a la informacin de mapeo, valida a posteriori esta radical
metodologa.
Sin embargo, la informacin suministrada por Celera est empobrecida de elementos
repetidos, fraccin muy importante del genoma completo, ya que un mismo transposn puede
tener miles de copias dispersas por todo el genoma con un grado de homologa altsimo (casi
el 100%) lo que implica que si la secuenciacin no incluye las secuencias flanqueantes es
28
virtualmente imposible asignarle una posicin concreta en el laberinto genmico .

ANLISIS DE LA INFORMACIN CONTENIDA EN EL GENOMA HUMANO

En esta seccin estudiaremos las caractersticas biolgicas a gran escala que presenta
el genoma humano, as como el contenido de secuencias repetidas y de genes.
Contenido en secuencias repetidas
Una de las observaciones iniciales de la Gentica Molecular fue que el tamao de los
genomas no est correlacionado con la complejidad del organismo al que pertenece (paradoja
del valor C). Por ejemplo, Homo sapiens tiene un genoma 200 veces mayor que el de
29
Saccharomyces cerevisiae, pero 200 veces ms pequeo que el del protozoo Amoeba dubia .
Este misterio fue resuelto cuando se demostr que los genomas pueden contener una enorme
cantidad de ADN altamente repetido que supera con creces el ADN implicado en la produccin
de protenas. En el genoma humano slo el 5% son genes de los cuales tan slo un 1%
aproximadamente son exones que se traducen a protenas. Por el contrario, las secuencias
repetidas constituyen como mnimo el 50% del total. En general este tipo de secuencia puede
ser clasificada en 3 grupos:
1. Transposones o secuencias derivadas de la actividad de ellos (incluyendo
pseudogenes)
2. Secuencias simples repetidas, constituidas por repeticiones directas cortas de una,
dos, tres o ms bases (satlites, minisatlites y microsatlites)
3. Duplicaciones segmentales, consistentes en bloques de 1-300 Kb que han sido
copiados desde una regin a otra diferente

Estas repeticiones fueron tomadas como ADN basura y minusvaloradas por los
investigadores, sin embargo actualmente estn consideradas como una de las ms potentes

28
Mouse genome sequencing consortium. Initial sequencing and comparative analysis of the mouse genome. Nature 420, 520-562.
(2002).
29
Li, W. -H. Molecular Evolution (Sinauer, Sunderland, Massachusetts, 1997). Gregory, T. R. & Hebert, P. D. The modulation of DNA
content: proximate causes and ultimate consequences. Genome Res. 9, 317-324 (1999). Hartl, D. L. Molecular melodies in high and low
C. Nature Rev. Genet. 1, 145-149 (2000).

10
Antonio Jos Caruz Arcos

fuerzas que determinan la evolucin de los genomas, siendo utilizadas adems como
herramientas en Gentica mdica y forense. Tambin han despertado el inters de los
farmaclogos ya que alguna de las dianas de drogas utilizadas a gran escala presentan genes
parlogos en fragmentos duplicados a lo largo de diferentes cromosomas y algunas
duplicaciones estn asociadas con enfermedades genticas producidas por fenmenos de
microdelecin generados por recombinacin desigual entre ellos.
A continuacin profundizaremos en el anlisis de cada uno de estos tipos de elementos
repetidos de nuestro genoma y evaluaremos las implicaciones que tienen cada uno de ellos en
estudios sobre la evolucin humana y sus implicaciones mdicas.

Repeticiones derivadas de transposones


La mayora de las repeticiones presentes en el genoma humano, derivan de la
actividad de los transposones, aproximadamente un 45% de nuestro genoma pertenece a esta
clase de secuencia. En general los tipos de transposones pueden clasificar de la siguiente
30
forma :

Mecanismo replicativo Autnomos Dependientes


Con intermediario de ARN Retroposones (LINES) Retroposones (SINES)
Retrotransposones (LTR)
Sin intermediario de ARN Transposones de ADN

31
Los LINES (Long Interspersed Elements) tienen un tamao medio de 6 Kb, tienen un
promotor interno para la ARN polimerasa II y codifican para dos protenas. Una vez traducido el
ARNm se une a las propias protenas producidas y se transloca al ncleo, donde una actividad
endonucleasa genera un corte en el ADN nuclear y una actividad retrotranscriptasa utiliza el
ADN monocatenario generado por el corte como cebador para la sntesis del ADNc. Muchas
veces la retrotranscriptasa no alcanza el extremo 5del ARNm generando elementos truncados
no funcionales. De hecho la mayora de estos elementos tienen una talla media de 900 pb
(LINE 1). El sitio de insercin presenta una duplicacin de 7 a 20 pb. La actividad enzimtica de
estos elementos es la responsable de la mayora de la actividad retrotranscriptasa del genoma
humano y pueden actuar en trans sobre ARN que presenten cierta homologa de secuencia en
su extremo 3terminal como son los elementos SINE. En el genoma humano existen 3 familias
31
de LINES y slo una de ellas continua en activo (LINE 1) .
31
Los elementos SINES (Short Interspersed Elements), son pequeos tienen una talla
media de 100-400 pb, no codifican para protenas y contienen un promotor interno de la ARN
polimerasa III. Utilizan en trans la maquinaria de los LINE por homologa con el extremo 3 de
los mismos. La mayora de las familias de SINEs derivan de ARNt (elementos MIR y Ther2)

30
N.L. Craig, R.Craigie, M. Gellert y A.M. Lambowitz. Mobile DNA II. American Society of Microbiology. (1989).
31
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001).

11
Proyecto genoma humano

aunque la ms prolfica y an activa en nuestro genoma, denominada Alu, procede de un ARN


pequeo no codificante que est implicado en el transporte de protenas (7SL).
30
Los retrotransposones estn flanqueados por dos repeticiones largas terminales
(LTR) que contienen todas las seales en cis de inicio de la transcripcin. Contienen dos genes
principales gag y pol, que codifican para varias protenas independientes: proteasa,
retrotranscriptasa, ARNasa-H e integrasa. Los retrovirus derivan de estos elementos por la
incorporacin de un gen extra denominado env (envuelta) que les permite realizar una
transposicin cruzada entre dos genomas. Los datos avalan la hiptesis de que los genes env
32
de retrovirus proceden de receptores de superficie de virus como Baculovirus o Herpesvirus .
El sistema de replicacin incluye tambin un intermediario de ARN pero las
caractersticas de la retrotranscripcin son completamente diferentes a los LINES, utilizando
como cebador para la sntesis del ADNc un ARNt especfico. Los retrotransposones de
mamferos pertenecen a 3 clases generales (I, II y III) cada uno de ellos con muchas familias.
En el genoma humano casi el 85% de las secuencias derivadas de retrotransposones constan
slo de LTRs aisladas o elementos truncados no funcionales.
33
Los transposones de ADN son muy similares a los bacterianos, con repeticiones
terminales invertidas y con una movilidad dependiente de un sistema de corte y pegado que
puede ser replicativo o conservativo. El genoma humano contiene unas 7 clases generales que
se dividen en varias familias segn su grado de parentesco filogentico. Los transposones de
ADN presentan una vida funcional relativamente corta en un genoma, ya que a diferencia de
los elementos LINE en los que hay una preferencia en cis para la insercin (slo se transponen
los funcionales), la transposasa codificada por estos elementos es producida en el citoplasma
pero ejerce su actividad en el ncleo donde no puede distinguir entre las formas activas o
inactivas de los elementos. Por ello cuando el nmero de copias no funcionales se incrementa
en el genoma, la transposicin comienza a ser cada vez menos eficaz y el elemento sufre una
muerte funcional. Para sobrevivir en el tiempo, necesitan colonizar nuevos genomas mediante
34
transferencia horizontal y existen numerosas pruebas que indican que as ocurre .
El censo de transposones en el genoma humano ha revelado unas cifras
extraordinariamente altas (ver tabla 1):
SINES: 13%
LINES: 20%
LTR: 8%
Transposones de ADN: 3%

32
Malik HS, Henikoff S, Eickbush TH. Poised for contagion: evolutionary origins of the infectious abilities of invertebrate retroviruses.
Genome Res. 2000 10(9):1307-18.
33
N.L. Craig, R.Craigie, M. Gellert y A.M. Lambowitz. Mobile DNA II. American Society of Microbiology. (1989).
34
Haring, E., Hagemann, S. & Pinsker, W. Ancient and recent horizontal invasions of Drosophilids by P elements. J. Mol. Evol. 51, 577-
586 (2000). Koga, A. et al. Evidence for recent invasion of the medaka fish genome by the Tol2 transposable element. Genetics 155,
273-281 (2000). Robertson, H. M. & Lampe, D. J. Recent horizontal transfer of a mariner transposable element among and between
Diptera and Neuroptera. Mol. Biol. Evol. 12, 850-862 (1995). Simmons, G. M. Horizontal transfer of hobo transposable elements within
the Drosophila melanogaster species complex: evidence from DNA sequencing. Mol. Biol. Evol. 9, 1050-1060 (1992).

12
Antonio Jos Caruz Arcos

Tabla 1: Nmero de copias y fraccin del genoma para cada clase de transposn35
Total de
Copias bases en el % del N de familias
Tipo de transposn (x1000) genoma genoma (subfamilias)
SINEs 1,558 359.6 13.14 3
Alu 1,090 290.1 10.60 1 (20)
MIR 393 60.1 2.20 1 (1)
MIR3 75 9.3 0.34 1 (1)
LINEs 868 558.8 20.42 3
LINE1 516 462.1 16.89 1 (55)
LINE2 315 88.2 3.22 1 (2)
LINE3 37 8.4 0.31 1 (2)
LTR 443 227.0 8.29 4
ERV-I 112 79.2 2.89 72 (132)
ERV(K)-II 8 8.5 0.31 10 (20)
ERV-L 83 39.5 1.44 21 (42)
MaLR 240 99.8 3.65 1 (31)
Elementos de ADN 294 77.6 2.84 7
MER1-Charlie 182 38.1 1.39 25 (50)
Zaphod 13 4.3 0.16 4 (10)
MER2-Tigger 57 28.0 1.02 12 (28)
Tc2 4 0.9 0.03 1 (5)
Mariner 14 2.6 0.10 4 (5)
Similar a PiggyBac 2 0.5 0.02 10 (20)
Otros 22 3.2 0.12 7 (7)
No clasificados 3 3.8 0.14 3 (4)

Los transposones han constituido una poderosa fuerza en la configuracin actual de


nuestro genoma, la actividad de los transposones ha dado lugar a varios fenmenos
36
importantes que podramos resumir de la siguiente manera :
Produccin de pseudogenes funcionales
Produccin de nuevos genes
Generacin de nuevos patrones de expresin gnica
Agentes del caos cromosmico
Los pseudogenes funcionales pueden aparecer por insercin de un ADNc
retrotranscrito en una posicin cercana a un promotor, cambiando el patrn original de
expresin de dicho gen (tabla 2). Tambin nuevos patrones de expresin gnica pueden
aparecer por la insercin de un elemento completo o un fragmento del mismo en las
proximidades una regin codificante, generando nuevas secuencias reguladoras en cis como
promotores completos, potenciadores y silenciadores de la transcripcin, sitios de splicing. Este
fenmeno ha sido observado fundamentalmente con LTR aisladas procedentes de
retrotransposones defectivos (tabla 3).
Nuevos genes tambien han aparecido por fusin accidental de secuencias procedentes
de transposones con genes humanos como una familia de unos 11 factores de transcripcin
(Zn finger) hbridos o han sido probablemente tomados directamente de transposones por
ejemplo:
35
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001).
36
Brosius J. RNAs from all categories generate retrosequences that may be exapted as novel genes or regulatory elements. Gene 238
115134. (1999).

13
Proyecto genoma humano

Recombinasas RAG1 y RAG2


Protena principal centromrica (CENPB)
Telomerasa
Transposasa de expresin cerebral

Tabla 2: Genes funcionales con origen en la actividad de transposones37

CARACTERSTICAS
Retrogen, expresin, Gen original, expresin
REFERENCIA
cromosoma cromosoma Repeticiones
Intrones Poli-A
directas

Fosfoglicerato kinasa
38
testicular; Pgk-1; constitutiva; chr X No + +
Chr 9

Piruvato
deshidrogenasa Pdha1; constitutiva; chr 39
No + +
(Pdha2); testculo; chr X
12

Calmodulin; tejido 40
CaMIII; ubcua; chr 2 No +
epitelial; chr 10

Glutamato deshid.
(GLUD2); 41
GLUD1; ubcua; chr 10 No + +
retina, testculo,
cerebro; X

Factor splicing
PR264/SC35; timo, bazo, 42
pancreas, bazo, No + +
rin, pulmn; chr 17
prstata; chr 11

CDY, chr 15 CDYL; ubcuo chr 13 No 43

Los transposones no slo han influido a nivel molecular como acabamos de ver, sino
que se han postulado como responsables en parte de procesos de cambio en la estructura de
cromosomas como inversiones, translocaciones y duplicaciones que pueden estar en el origen
de algunos fenmenos de especiacin. Este papel de induccin de la inestabilidad
44 45
cromosmica ha sido estudiado en Drosophila melanogaster y Zea mais entre otros
organismos.

37
Brosius J. RNAs from all categories generate retrosequences that may be exapted as novel genes or regulatory elements. Gene 238
115134. (1999).
38
Adra, C.N., Ellis, N.A., McBurney, M.W. The family of mouse phosphoglycerate kinase genes and pseudogenes. Somatic Cell Mol.
(1988)
39
Fitzgerald, J., Hutchison, W.M., Dahl, H.-H.M. Isolation and rRNA affects translational efficiency. Proc. Natl. Acad. Sci. USA 96, 1339
1344. Biochim. Biophys. Acta 1131, 8390. (1992).
40
Linnenbach, A.J. et al. Retroposition in a family of carcinoma-associated antigen genes. Mol Cell. Biol. 13, 15071515. (1993).
41
Papamatheakis, J., Plaitakis, A., 1994. Novel human glutamate. Alu dehydrogenase expressed in neural and testicular tissues
encoded by an X-linked intronless gene. J. Biol. Chem. 269, 1697116976. (1993).
42
Soret, J. et al. SRp46, a novel human SR splicing factor encoded by a PR264/ SC35 retropseudogene. Mol. Cell. Biol. 18, 49244934.
(1988).
43
Lahn, B.T., Page, D.C. Retroposition of autosomal mRNA sequences in yielded testis-specific gene family on human Y chromosome.
Nat. Genet. 21, 429433. (1999).
44
Cceres M. et al. Generation of a widespread Drosophila inversion by a transposable element. Science 285, 415-418. (1999).
45
Zhang J. & Peterson T. Genome rearrangements by nonlinear transposons in maize. Genetics 153, 1403-1410. (1999).

14
Antonio Jos Caruz Arcos

Tabla 3: Elementos de control de la expresin gnica derivados de transposones46

Origen Elemento Gen influido Sirve como Referencia


47
ERV9 LTR ZNF80 zinc finger Promotor
48
HERV-E LTR Amilasa salival Promotor
49
LINE Promotor apolipoproteina Enhancer

anexina VI, interleucina-4, Silenciador especfico 50


LINE-2 ALF
protena quinasa C-b de tejido

Cadena pesada de las 51


THE-1 Gen especfico Secuencia codificante
inmunoglobulinas

Splicing 52
HERV-K LTR leptin receptor (OBRa)
alternativo

Seal de 53
HERV-H LTR HHLA2
poliadenilacin

Si comparamos el porcentaje del genoma humano ocupado por elementos


transponibles y lo comparamos con la secuencia genmica de otros eucariotas superiores
54 55 56
como Drosophila , Caenorhabditis o Arabidopsis , podemos observar algunas diferencias
significativas. El genoma humano es mucho ms rico en transposones que especies inferiores
en la escala evolutiva, si consideramos el contenido total tendramos la siguiente imagen:
Drosophila: 3,1%
Caenorhabditis: 6,5%
Arabidopsis: 10,5%
Homo: 45%
57
Si lo comparamos con el ratn , el nmero en esta especie es ligeramente inferior al
del hombre (35%), pero existen dudas sobre ello, debido a que el sistema de whole genome
shotgun empleado para la secuenciacin del ratn subestima el nmero real de elementos
46
Brosius J. RNAs from all categories generate retrosequences that may be exapted as novel genes or regulatory elements. Gene 238
115134. (1999).
47
Di Christofano, A., Strazzullo, M., Longo, L., La Mantia, G. Characterization and genomic mapping of the ZN80 locus: expression. A
comprehensive endogenous retroviral family. Nucleic Acids Res. 23, 28232830. (1985).
48
Samuelson, L.C., Wiebauer, K., Snow, C.M., Meisler, M.H. Retroviral and pseudogene insertion sites reveal the lineage of human
salivary and pancreatic amylase genes from a single during primate evolution. Mol. Cell. Biol. 10, 25132520. (1990).
49
Yang, Z., Boffelli, D., Boonmark, N., Schwartz, K., Lawn, R. Apolipoprotein(a) gene enhancer resides within a LINE element.
J. Biol. Chem. 273, 891897. (1998).
50
Morgan, R.O., Fernandez, M.P. TA BC200-derived element and Z-DNA as structural markers in annexin I genes: Relevance to Alu
evolution and annexin tetrad formation. J. Mol. Evol. 41, 973985. (1995).
51
Hakim, I., Amariglio, N., Grossman, Z., Simoni-Brok, F., Ohno, S., Rechavi, G. The genome of the THE I human transposable
repetitive elements is composed of a basic motif homologous to an ancestral immunoglobulin gene sequence. Proc. Natl. Acad. Sci.
USA 91, 79677969. (1994).
52
Kapitonov, V.V., Jurka, J. The Long Terminal Repeat of an endogenous retrovirus induces alternative splicing and encodes an
additional carboxy-terminal sequence in the human leptin receptor. J. Mol. Evol. 48, 248251. (1999).
53
Mager D.L. (Polyadenylation function and sequence variability of the long terminal repeats of the human endogenous retrovirus-
like family RTLV-H. Virology 173, 591599. 1989).
54
Myers, E. W. et al. A whole-genome assembly of Drosophila. Science 287, 2196-2204 (2000).
55
The C. elegans Sequencing Consortium. Genome sequence of the nematode C. elegans: A platform for investigating biology. Science
282, 2012-2018 (1998).
56
Paterson, A. H. et al. Comparative genomics of plant chromosomes. Plant Cell 12, 1523-1540 (2000).
57
Mouse genome sequencing consortium. Initial sequencing and comparative analysis of the mouse genome. Nature 420, 520-562.
(2002).

15
Proyecto genoma humano

transponibles, tal como ocurre cuando se comparan los resultados del consorcio pblico con
los de Celera que da un total de 35% del genoma como transposones (9% inferior al IHGSC).
El genoma humano aparece lleno de fsiles de transposones mientras que los otros genomas
tienen tendencia a tener elementos ms recientes, la explicacin puede estar en que en el
genoma de los insectos se producen deleciones con una frecuencia 75 veces superior al
genoma de mamferos, siendo el tiempo de vida media en el genoma de los elementos no
funcionales de 12 millones de aos en Drosophila y en torno a 800 millones de aos en los
58
mamferos .
En el genoma humano existen dos familias predominantes relacionadas entre si los
LINE1 y Alu que constituyen por si mismas el 60% del total de los elementos repetidos,
mientras que en los otros organismos estudiados son los transposones de ADN los que
predominan, constituyendo:
Drosophila: 25%
Arabidopsis: 49%
Caenorhabditis: 85%
Esta frecuencia es compartida con el genoma del ratn y sugiere que los eventos de
transmisin horizontal a la lnea germinal de transposones de ADN es ms difcil, debido
probablemente a limitaciones impuestas por la anatoma y el sistema inmunitario.
El anlisis de los sitios de insercin de los transposones ha revelado algunos datos
importantes que se aplican en la investigacin de la evolucin y diversificacin de la
humanidad, los elementos LINE 1 estn an activos y su transposicin puede medirse incluso
en cultivos celulares. Las poblaciones humanas no son homogneas en cuanto a la distribucin
de algunos elementos LINE, ya que la insercin en ciertos puntos del genoma se produjo
59
posteriormente a la separacin de dos poblaciones que tenan un origen ancestral . Por ello
han sido utilizados para trazar el grado de parentesco entre poblaciones humanas, los LINES
presentan una serie de ventajas con respecto a otros sistemas de anlisis filogentico:
Diagnstico simple por PCR
Polimorfismos estables
Su presencia indica identidad de antepasados (probababilidad casi cero de
identidad de insercin)
La ausencia de su insercin sera incicativo del origen del rbol filogentico
Pueden ser incluso especficos de una sola familia
El conocimiento del genoma completo va a dotar de una herramienta potente para
estudiar en profundidad los procesos de migracin y seleccin que han caracterizado nuestra
historia durante los ltimos miles de aos.
Otra aplicacin potencial del anlisis de los sitios de insercin de los elementos
transponibles son la identificacin de zonas reguladoras a gran escala del genoma. Por

58
Petrov, D. A., Lozovskaya, E. R. & Hartl, D. L. High intrinsic rate of DNA loss in Drosophila. Nature 384, 346-349 (1996).
59
Sheen F. et al. Reading between the LINEs: Human Genomic Variation Induced by LINE-1 Retrotransposition. Genome Research 10,
1496-1508. (2000).

16
Antonio Jos Caruz Arcos

ejemplo cuando se analiz la zona del cromosoma 2 que contiene algunos genes hometicos,
se ha observado que la frecuencia de transposones es extraordinariamente baja con respecto a
60
otros fragmentos situados en el mismo cromosoma, otros ejemplos son :
8q21: 1,5% de transposones en 63 Kb, contiene genes de factores de transcripcin
1p36: 5% en 100 Kb, sin genes identificables
18q22: 4% en 100 Kb, tres genes de funcin desconocida
La presencia de exones codificantes para protenas o promotores podra limitar
seriamente la insercin, pero la paradoja est en que la mayor parte de la secuencia libre de
transposones tampoco contiene exones codificantes ni ninguna secuencia reguladora
conocida. Es altamente probable que esta observacin nos est indicando la presencia de algo
nuevo, de funcin desconocida pero absolutamente esencial para la supervivencia del
organismo.

Repeticiones simples repetidas en tandem


62
Constituyen el 3% del genoma humano y pueden ser divididos en tres tipos :
1. Satlites: tienen una unidad repetida de <5 hasta > 200 pb, su tamao es muy grande e
incluye varias Mb y forman los centrmeros, aunque pueden tambin aparecer
dispersos por otras localizaciones genmicas
2. Minisatlites: unidad repetida de 14 a 500 pb, su tamao hasta 20 Kb, estn
relacionados con la funcin telomrica
3. Microsatlites: unidad repetida: 1-13pb, tamao < 150pb, son de funcin variada, unos
incluyen exones, UTRs, o tiene funcin desconocida. Son extraordinariamente
polimrficos e inestables (se acortan o alargan a travs de las generaciones).
Los satlites y minisatlites estn poco representados en la secuencia final del genoma
humano, probablemente porque son inestables incluso en los plsmidos BAC. Los
microsatlites por el contrario han recibido mucha atencin por parte de los investigadores
biomdicos. Constituyen la herramienta principal para realizar clonacin posicional, que evala
la frecuencia con la que se cohereda una enfermedad o carcter fenotpico con alguno de los
microsatlites descritos (anlisis de ligamiento). Este sistema est tan perfeccionado que
algunas empresas como Applied Biosystems o Beckman han optimizado un sistema que
permite genotipar el tamao de 1200 microsatlites dispuestos a lo largo del genoma en tan
slo 20 reacciones de PCR mltiple. En unos pocos das, contando con un conjunto lo
suficientemente amplio de familias se puede identificar la zona portadora del gen de inters con
una distancia de 10 centimorgans. El uso de otros marcadores polimrficos de la zona
candidata permite luego ir acotando la regin hasta encontrar un ligamiento absoluto. El
proyecto genoma ha permitido aumentar el catlogo de microsatlites disponibles para este
tipo de aplicaciones.

60
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001).

17
Proyecto genoma humano

Los microsatlites tambin estn asociados con enfermedades ya que si la


inestabilidad en el nmero de repeticiones incluye regiones codificantes o reguladoras puede
afectar a la expresin o funcin del gen afectado, por ejemplo el Sndrome del X frgil o el
Corea de Huntington tienen este origen. Se han descrito algunas enfermedades cuya base
molecular est en la inestabilidad de microsatlites formados por trinucletidos. El
descubrimiento de la base molecular de enfermedades genticas de origen desconocido,
podra verse potenciado mediante la bsqueda de genes que contienen microsatlites y que
61
seran susceptibles de sufrir procesos de expansin .

Duplicacin de segmentos
Un 5% del genoma humano est duplicado en varias localizaciones cromosmicas
independientes, hecho que implica la transferencia de bloques de 1 a 200 Kb a una o varias
62
localizaciones cromosmicas . Probablemente son muy recientes ya que el grado de
homologa es muy alto y no aparecen en especies relacionadas filogenticamente. Las
duplicaciones pueden ser incluso especficas de una poblacin revelando un grado ms en la
variabilidad gentica humana. Las duplicaciones pueden dividirse en dos tipos:
1. Intercromosmicas: Segmentos duplicados entre cromosomas no homlogos, por
ejemplo 9,5 Kb del locus de la adrenoleucodistrofia del cromosoma X aparece
63
duplicado en zonas prximas a los centrmeros de los cromosomas 2, 10, 16 y 22 .
2. Intracromosmicas: Segmentos duplicados dentro del mismo cromosoma, por ejemplo
en el cromosoma 17 aparecen duplicados en tndem 3 fragmentos de 200 Kb
64
separados por 5 Mb con un 99% de homologa .

El anlisis de la distribucin de duplicaciones ha revelado que las regiones


pericentromricas estn constituidas fundamentalmente por duplicaciones intercromosmicas
con poca secuencia nica. Tambien las regiones situadas en los telmeros tienen este origen.
En algunos casos como el cromosoma 22, una regin pericentromrica de 1,5 Mb (5% de la
secuencia total del cromosoma) contiene el 52% del total de duplicaciones intercromosmicas.
Las regiones pericentromricas son muy complejas (figura 1), parecen haber sido
bombardeadas con sucesivas inserciones. El grado de homologa con la secuencia original
parloga es muy alto (96-100%) lo que sugiere que tienen un origen muy reciente en trminos
evolutivos. Las diferentes inserciones aparecen situadas entre minisatlites ricos en A+T o
C+G. A veces un solo fragmento ha sido duplicado en regiones pericentromricas de varios

61
Broman, K. W., Murray, J. C., Sheffield, V. C., White, R. L. & Weber, J. L. Comprehensive human genetic maps: individual and sex-
specific variation in recombination. Am. J. Hum. Genet. 63, 861-869 (1998). The BAC Resource Consortium. Integration of cytogenetic
landmarks into the draft sequence of the human genome. Nature 409, 953-958 (2001).
62
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001).
63
Eichler, E. E. et al. Interchromosomal duplications of the adrenoleukodystrophy locus: a phenomenon of pericentromeric plasticity.
Hum. Mol. Genet. 6, 991-1002 (1997).Horvath, J. E., Schwartz, S. & Eichler, E. E. The mosaic structure of human pericentromeric DNA:
a strategy for characterizing complex regions of the human genome. Genome Res. 10, 839-852 (2000).

18
Antonio Jos Caruz Arcos

cromosomas, por ejemplo la regin que contiene el locus ADL del cromosoma X aparece
duplicada en otros 5 cromosomas.

Figura 1: Patrn de duplicaciones del cromosoma 22, las intercromosmicas estn


representadas en rojo y las intracromosmicas en azul

Varios estudios han demostrado que las poblaciones humanas son polimrficas para
otras duplicaciones, por ejemplo el locus de los receptores olfativos. Estas observaciones
sugieren que el anlisis de las duplicaciones polimrficas pueden ser aplicadas como marcador
64
de dispersin de poblaciones humanas .

Contenido en genes

La definicin de gen ha experimentado una evolucin a lo largo de la historia de la


gentica, desde los factores indivisibles mendelianos hasta un gen-una protena pasando por
un gen-una enzima. Sin embargo la definicin actual de gen es ms amplia: fragmento de ADN
que contiene informacin funcional para la sntesis de una molcula de ARN o protena (la
mayora de los textos se olvidan de los miles de virus con genoma de ARN!). Sin embargo esta
65
definicin oficial tambin podra cambiar en el futuro. Li y Graur proponen que un gen es una
secuencia de ADN o ARN que es esencial para una funcin especfica, bien sea en el
desarrollo o en el mantenimiento de la funcin fisiolgica normal. Esta definicin implica que un
gen esencial podra no necesitar ni siquiera traducirse o transcribirse a ARN.Esta definicin de
gen incluira:

1. Los genes que codifican para protenas.

64
Trask, B. J. et al. Members of the olfactory receptor gene family are contained in large blocks of DNA duplicated polymorphically near
the ends of human chromosomes. Hum. Mol. Genet. 7, 13-26 (1998). Trask, B. J. et al. Large multi-chromosomal duplications
encompass many members of the olfactory receptor gene family in the human genome. Hum. Mol. Genet. 7, 2007-2020 (1998).
65
Li, W.-H. y D. Graur. Fundamentals of Molecular Evolution. Sinuaer Associates, Sunderland, MA.(1991).

19
Proyecto genoma humano

2. ARNs especficos que solo se transcriben.


3. Los genes reguladores sin transcriptos, tales como los orgenes de replicacin (que
especifican el sitio de iniciacin y terminacin de la replicacin del ADN).
4. Genes de recombinacin (que proveen los sitios de engarce para las enzimas de
recombinacin).
5. Genes de segregacin (los sitios especficos para que las fibras del huso durante la
meiosis se adhieran a los cromosomas durante la segregacin en mitosis y
meiosis).
A pesar de lo anterior en esta seccin considerar slo los genes que se transcriben y
66
codifican para protenas o ARN no codificantes de acuerdo con el concepto mas extendido de
gen.

Genes para ARN no codificante


Existen varios tipos de ARN no codificante:
1. ARN de transferencia
2. ARN ribosmico
3. ARN pequeos nucleolares (implicados en la modificacin de las bases del
ARNt y ARNr)
4. ARN pequeos nucleares (implicados en el splicing de los intrones)
5. ARN telomrico (componente de la telomerasa)
6. ARN no codificante variado, a veces con funcin conocida como el ARN 7SL
implicado en el transporte de vesculas o el ARN Xist asociado a la inactivacin
del cromosoma X. Pueden contiener intrones y colas de adenina aunque otros
carecen de ellos.
68
La tabla 3 representa los ARN no codificantes estudiados en el genoma humano .
Se han hallado menos ARNt de los esperados, probablemente debido a que su nmero estaba
sobrevalorado por la presencia de pseudogenes derivados de ellos. El catlogo incluye un
ARNt especfico para la selenocistena, que incorpora este aminocido en el codn UGA en
ciertos ARNm que incorporan una secuencia en cis especfica en su extremo 3 no traducido
(elemento SECIS). Existen miles de pseudogenes derivados de la retrotranscripcin de ARN no
codificantes, especialmente U6, hY y 7SL. Este ltimo es el origen de los elementos Alu
pertenecientes a los SINES que constituyen el 13% de la secuencia total del genoma.
El 98% del total de transcritos del genoma humano son ARN no codificantes, los ARNr
y ARTt constituyen la mayora, sin embargo recientemente estamos asistiendo a un cambio
67
importante en la visin que tenemos de la transcripcin del genoma. Segn John Mattick , el
dogma central de la biologa molecular est incompleto y los ARNnc constituyen una escala
ms en la expresin gnica de los eucariotas que permite la integracin/interrelacin entre
complejos patrones de actividad gnica. En eucariotas superiores existen numerosos
66
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001). Venter C. et al. The sequence of the human genome. Science 291 1304-1351. (2001).
67
Mattick J.S. Non-conding RNAs: the architects of eukaryotic complexity. EMBO reports 21, 986-991. (2001).

20
Antonio Jos Caruz Arcos

fenmenos genticos poco comprendidos que incluyen ARN de interferencia, co-supresin,


silenciamiento de transgenes, impronta, metilacin del ADN y compensacin de dosis del
cromosoma X, todos los cuales comparten algo en comn: interacciones entre ADN-ARN o
69
ARN-ARN, as como remodelacin de la cromatina .

Tabla 4: Genes de ARN no codificante identificados en el genoma humano


Genes Nmero Nmero Genes Funcin
esperado encontrado relacionados
ARNt 1310 497 324 Sntesis protica
ARNr 18 S 150200 0 40 Sntesis protica
ARNr 5,8 S 150200 1 11 Sntesis protica
ARNr 28S 150200 0 181 Sntesis protica
ARNr 5 S 200300 4 520 Sntesis protica
U1 30 16 134 Splicing intrones
U2 1020 6 94 Splicing intrones
U4 ?? 4 87 Splicing intrones
U4atac ?? 1 20 Splicing intrones
U5 ?? 1 31 Splicing intrones
U6 ?? 44 1,135 Splicing intrones
U6atac ?? 4 32 Splicing intrones
U7 1 1 3 Splicing intrones
U11 1 0 6 Splicing intrones
U12 1 1 0 Splicing intrones
7SL 4 3 773 Secrecin protenas
ARNasa P 1 1 2 Procesado ARNt
ARNasa MRP 1 1 6 Procesado ARNr
ARN telomrico 1 1 4 Replicacin telmeros
hY1 1 1 353 Desconocida
hY3 1 25 414 Desconocida
hY4 3 3 115 Desconocida
hY5 1 1 9 Desconocida
Vault 3 1 Desconocida
7SK 1 1 330 Desconocida
H19 1 1 2 Desconocida
Xist 1 1 0 Inactivacin
cromosoma X
ARNsno c/d 811 69 558 Procesado ARNr
ARNsno h/aca 16 15 87 Procesado ARNr

Aunque an no se ha realizado un catlogo completo de los ARNnc del genoma


68
humano, un equipo internacional denominado Phantom ha aislado unos 60.000 ARN
expresados en el ratn. Una de las conclusiones ms impactantes es que 15.815 de ellos son
ARNnc potencialmente funcionales. El 71% de ellos no contienen intrones (frente al 18% de los
codificantes para protenas), pero estn poliadenilados y por ello son probablemente producto
de la ARN polimerasa II. Muchos de ellos presentan ortlogos en el genoma humano. Es
interesante constatar que 2.431 de estos ARNnc forman parejas sentido/antisentido de al
menos 20 bases con exones de otros ARNm previamente descritos, lo que sugiere que podran

68
The Fantom Consortium and the RIKEN genome exploration research group phase I & II team. Analysis of the mouse transcriptome
based on functional annotation of 60.770 full-length cDNAs. Nature 420, 563-573. (2002).

21
Proyecto genoma humano

funcionar como ARN antisentido reguladores. Existen ya suficientes ejemplos de la importancia


de los ARNnc en diferentes etapas de la regulacin de la expresin gnica (Tabla 5). Hay
muchos ms ARNnc de lo que suponamos, uno de los desafos de la Gentica para los
prximos aos ser completar el catlogo y elucidar su funcin. La genmica comparativa con
otros genomas emparentados al humano como el de ratn, constituir una herramienta
poderosa para determinar las regiones del genoma en las que ha existido una gran presin
selectiva en contra de la fijacin de mutaciones y que no cuentan con exones implicados en la
69
sntesis de protenas. Por ejemplo Dubchak , utilizando un novedoso algoritmo bioinformtico
han encontrado zonas no codificantes altsimamente conservadas comparado un fragmento
cromosmico concreto de ratn, perro y humano (Figura 2). Estas regiones podran ser zonas
reguladoras en cis como potenciadores de la transcripcin, pero si se comprueba
experimentalmente que se transcriben, podran constituir candidatos de ARNnc funcionales.

Tabla 5: Procesos afectados por ARNnc70

Proceso Ejemplo Funcin


Transcripcin SRA humano Coactivador receptor esteroides
7SK humano Inhibidor de factor de elongacin P-TEFb
Silenciamiento gnico Xist humano Inactivacin cromosoma X
Air humano Impronta gen IgfII
Replicacin ADN ARN telomerasa Replicacin de los telmeros
Estabilidad ARNm ARNmi eucariota Etiqueta ARNm especficos para degradacin
Traduccin Lin-4 C.elegans Reprime la traduccin
Estabilidad protenas ARNtm de E. coli Degradacin protenas mal plegadas
Translocacin ARN 7SL humano Transporte protenas a travs de membranas
protenas

Los genes codificantes para protenas


La identificacin de este tipo de genes es una de las aplicaciones ms importantes de
los datos de secuenciacin, pero constituye tambin uno de los mayores retos ya que la
cantidad de secuencia codificante es muy baja (1-1,5%), los exones pueden ser muy pequeos
y las regiones conservadas de promotores o maduracin del ARN pueden no ser evidentes.
Antes de comentar los resultados sobre la identificacin de genes de novo a partir de la
secuencia en bruto, analizaremos los datos obtenidos sobre genes previamente conocidos
71
cuya secuencia se encuentra depositada en los bancos de datos (Embl, NCBI, etc.) .

69
Dubchak I. et al. Active conservation of non coding sequences revealed by three-way species comparisons. Genome Research 10,
1304-1306. (2000).
70
Volker A. et al. Collection of mRNA-like non-coding RNAs. Nucl. Acid. Resear. 27, 192-195. (1999).
71
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001). Venter C. et al. The sequence of the human genome. Science 291 1304-1351. (2001).

22
Antonio Jos Caruz Arcos

hombre/perro

hombre/ratn

ratn/perro

hombre/perro

hombre/ratn

ratn/perro

hombre/perro

hombre/ratn

ratn/perro

Figura 2: Comparacin de un fragmento cromosmico de ratn, perro y humano.


Azul: Exones, Rojo: No codificante.

La estructura de los genes humanos es muy variable tanto en el tamao de los genes
como en el de los intrones. Muchos genes tienen ms de 100 Kb, siendo el mayor la distrofina
que ocupa 2,4 Mb. La variacin en el tamao de la zona codificante no es tan extrema, pero se
observan outliers muy llamativos como el gen titin con 80.780 pb de secuencia codificante, 254
exones y el exn ms largo (17.106 pb). La tabla 6 resume las caractersticas generales de los
genes humanos. Cuando los comparamos con
otros organismos como Drosophila o
Caenorhabditis se observa que el tamao
medio de la secuencia codificante es similar:
1311 en nematodo, 1497 en mosca y 1340 en
humano. Por el contrario el tamao de los
intrones es mayor en humanos (3.300 pb frente
a 267 en nematodo y 487 de mosca) (Figura
3).
Figura 3:Tamao de los intrones en humanos, mosca y
nematodo73

Estudios previos haban sugerido que existe una segmentacin del genoma en compartimentos
con una diferente proporcin de G+C (iscoras) y que el contenido en genes est relacionado
con una mayor concentracin de G+C. Los datos del genoma humano, revelan las zonas ricas
en G+C contienen proporcionalmente mayor cantidad de genes (Figura 4).

23
Proyecto genoma humano

Figura 4: Relacin entre la densidad relativa de


genes y el contenido de G+C73

Especialmente significativo es el
hecho de que los extremos 5 proximales
de los genes (promotores y 5UTRs)
suelen estar constituidos por G+C en un
80% de los casos. La asociacin entre
islas CG y los genes es estadsticamente
significativa, con una puntuacin de 0,89 para las regiones intergnicas, 1,2 para intrones, 5,86
para exones y 13,2 para el primer exn.
Con respecto al procesado de los intrones de los genes humanos, el 98,12% utiliza el
dinucletido GT en el extremo 5 y AG en el 3. Otro 0,76% utiliza la pareja GC-AG y slo un
0,1% de los genes tienen una secuencia poco habitual: AT-AC. El uso de splicing alternativo
est muy extendido entre los genes humanos (70%), lo que hace que puedan presentar una
mayor diversidad funcional si los comparamos con Caenorhabditis (22%). Ello implica que por
72
cada gen humano existen una media de 3,4 transcritos frente a 1,34 de Caenorhabditis .
La bsqueda de nuevos genes es un problema complicado de resolver, y el nmero de
genes potenciales depende de los programas bioinformticos utilizados, llegando a variar hasta
un 30% dependiendo del algoritmo. Existen varios problemas importantes:
Los exones constituyen slo el 5% de la secuencia ocupada por el gen.
Pueden existir exones muy pequeos y crpticos (incluso de slo 3 pb) que
enmascaren una pauta abierta de lectura.
Splicing alternativo en un 70% de los genes.
En algunos casos la edicin del ARNm puede introducir cambios en la pauta abierta de
lectura terica encontrada en el ADN.
La bsqueda automatizada de genes utiliza las secuencias consenso de los promotores
(islas CG), cajas TATA, secuencias iniciadoras, sitios donadores y aceptores de splicing, seal
de poliadenilacin y sobre todo homologa de las secuencias con bancos de ADNc tanto de
humanos (localizacin de genes nuevos pertenecientes a familias gnicas conocidas) o de
otros animales (Drosophila, Mus, Caenorhabditis, etc.). El consorcio pblico y la empresa
Celera identificaron en el primer borrador del genoma unos 30.000 genes codificantes para
protenas, sin embargo una comparacin directa entre los dos catlogos de genes revel que
no cuadraban entre s, existiendo grandes diferencias en identidades y propiedades de los
nuevos genes identificados. El consorcio pblico en su primer ndice de protenas codificadas
por el genoma humano estima su nmero en unas 31.778, siendo 14.882 de genes conocidos y
16.896 correspondientes a predicciones. Celera predijo una cantidad superior en torno a 35-

72
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001). Venter C. et al. The sequence of the human genome. Science 291 1304-1351. (2001).

24
Antonio Jos Caruz Arcos

40.000 genes debido a que el mtodo bioinformtico empleado fue ms potente, con un gran
nfasis en la comparacin genmica interespecfica. El conocimiento del nmero definitivo de
genes humanos deber esperar la finalizacin de varios proyectos en curso para determinar el
contenido total del transcriptoma humano. Resulta sorprendente que el genoma humano tenga
slo el doble de genes que Drosophila o Caenorhabditis. Sin embargo, los genes humanos
producen ms isoformas por splicing alternativo, pudiendo codificar quizs unas 5 veces ms
protenas que estos otros animales.

Funciones de los genes codificantes para protenas


Para la clasificacin funcional de los genes codificantes para protenas, se ha tratado
73
de responder a tres preguntas :
1. Cules son las funciones moleculares ms probables de las protenas hipotticas y
cmo pueden ser incorporadas a la clasificacin actual?
2. Cules son las funciones comunes que aparecen en genomas de otros animales?
3. Cules son las protenas que difieren con respecto a otros eucariotas secuenciados?
Para abordar la primera pregunta se han utilizado dos estrategias, la primera consiste en el
anlisis de similitud con familias proteicas conocidas y la segunda la identificacin de dominios
funcionales cortos (por ejemplo, homeodominio, dominio de inmunoglobulinas, etc.). La figura 5
representa una visin global de las funciones moleculares predichas en el catlogo de genes
de Celera (26.383 genes) que incluan al menos dos de estos criterios estrictos:
Protena caracterizada previamente
EST identificada en bancos de ADNc humanos
EST identificada en bancos de ADNc de ratn
Homologa entre el genoma humano y el de ratn
El resultado ms interesante es que aproximadamente el 41% de las protenas son de
funcin desconocida.
La familia ms representada se corresponde con la maquinaria de
transcripcin/traduccin (ADN/ARN metiltransferasas, polimerasas, helicasas, ligasas,
nucleasas, factores de transcripcin y protenas ribosomales). Otros tipos proteicos muy
comunes son enzimas implicadas en el metabolismo intermedio (transferasas,
oxidorreductasas, ligasas, liasas e isomerasas), protenas con funciones reguladoras como
(GTPasas pequeas tipo Ras/Rho, ciclinas y protenas quinasas). Por ltimo otras familias muy
representadas son las protenas transportadoras y las chaperonas.
La funcin especfica que tiene ms genes proporcionalmente es la de los receptores olfativos
que comprende unos 1000 genes y pseudogenes. Aproximadamente el 80% de ellos estn
situados en unos 12 clusters y comprenden el 1% del genoma (30 Mb). Curiosamente en los
receptores de clase II, el 60% de ellos tienen mutaciones que alteran la pauta abierta de
lectura, lo que sugiere que no ha existido una fuerte presin selectiva para su mantenimiento.
73
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001). Venter C. et al. The sequence of the human genome. Science 291 1304-1351. (2001).

25
Proyecto genoma humano

En la clase I se observa una menor frecuencia de mutaciones lo que indica que han podido
tener ms importancia adaptativa.

Figura 5: Distribucin de funciones moleculares de 26.383 genes identificados por celera

Un descubrimiento que ha suscitado una encendida discusin en el ambiente


acadmico ha sido la caracterizacin de 223 protenas humanas que tienen una gran
homologa con protenas bacterianas pero que no aparecen en levadura, mosca, nematodo o
74
Arabidopsis (ver tabla 6) . Estas secuencias podran representar contaminaciones de los
plsmidos de clonacin con ADN bacteriano. Para comprobar su presencia real el consorcio
pblico verific una fraccin de ellos mediante amplificacin por PCR de varios ADN genmicos
humanos, demostrando que efectivamente no son contaminaciones accidentales durante los
procesos de fabricacin de la genoteca genmica. La mitad de estos genes (113) aparecen
ampliamente difundidos entre especies bacterianas sin relacin directa filogentica, pero en los
eucariotas slo aparecen en vertebrados. Se han propuesto dos hiptesis para explicar el
origen de estos genes:
1. Los genes estaban presentes en los eucariotas originales pero se perdieron en alguno
de los linajes.

74
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001). Bergthorsson U, Adams KL, Thomason B, Palmer JD. Widespread horizontal transfer of mitochondrial genes in flowering plants.
Nature 424(6945):197-201. (2003). Genereux DP, Logsdon JM Jr. Much ado about bacteria-to-vertebrate lateral gene transfer. Trends
Genet. 19(4):191-5. (2003). Katz LA. Lateral gene transfers and the evolution of eukaryotes: theories and data. Int J Syst Evol Microbiol.
52(Pt 5):1893-900. (2002). Roelofs J, Van Haastert PJ. Genes lost during evolution. Nature. 411(6841):1013-4. (2001).
Stanhope MJ, Lupas A, Italia MJ, Koretke KK, Volker C, Brown JR. Phylogenetic analyses do not support horizontal gene transfers from
bacteria to vertebrates. Nature. 411(6840):940-4. (2001). Andersson JO, Doolittle WF, Nesbo CL. Genomics. Are there bugs in our
genome?. Science. 292(5523):1848-1850. (2001).

26
Antonio Jos Caruz Arcos

2. Los genes bacterianos entraron en el genoma de un antecesor de los vertebrados


mediante transferencia horizontal a partir de bacterias.
Existen pruebas de transferencia horizontal entre bacterias y el genoma de Caenorhabditis,
lo que sugiere que la segunda hiptesis sera la ms plausible, aunque la discusin sigue
abierta.

Tabla 6: Genes humanos con homologa en bacterias pero no en eucariotas invertebrados


Funcin Ortlogos en Rango de Genero con Confirmado
potencial vertebrados especies mxima por PCR
bacterianas homologa
Ciclodeaminasa Cerdo, ratn, Generalizado Termotoga Si
pollo
Cotransportador Na/glucosa Ungulados, Generalizado Vibrio Si
roedores
Hidrolasa epoxidos Roedores, Generalizado Pseudomonas Si
peces
Oxidorreductasa metionina Vaca Generalizado Synechocystis Si
Monoamino oxidasa Roedores, Generalizado Mycobacterium Si
peces
ADP-ribosil glicohidrolasa No Streptomyces S. coelicolor Si
Timidina fosforilasa No Generalizado H. influenzae Si
Metal binding-protein No Generalizado Borrelia Si
Hidrolasa / No Rickettsia R. prowazekii Si
Histona M-2cA fosfatasa No Thermotoga T. martima Si
Virus de ARN

Genes compartidos con Mus, Drosophila, Caenorhabditis y Saccharomyces.


75
El catlogo de genes humanos contiene ortlogos en el 99% del proteoma de Mus ,
76
61% de Drosophila, 43% de Caenorhabditis y 46% de Saccharomyces . Fueron identificados
1.308 grupos de protenas cada un de los cuales tena al menos un ortlogo en cada especie y
poda contener adems varios genes parlogos. Este grupo estaba constituido por 3.129
protenas humanas, 1.445 de Drosophila, 1.503 de Caenorhabditis y 1.441 de Saccharomyces.
Dentro de este grupo conservado estn incluidos los genes responsables mayoritarios de las
funciones bsicas domsticas celulares como el metabolismo, replicacin/reparacin del ADN y
transcripcin/traduccin.
Los genes especficos de vertebrados representan slo el 7% del total, con 70 familias
y 24 dominios funcionales no compartidos con invertebrados. Cuando comparamos las
posiciones de los genes ortlogos Homo-Mus se observa que ocupan posiciones sintnicas en
77
el 96% de los casos . Slo el 1% de los genes de Mus no tenan ortlogo en Homo,
probablemente por delecin en los antecesores de la lnea humana o por que estos genes
representan nuevas adquisiciones en la lnea evolutiva de los roedores, otras posibles
explicaciones podran ser que los genes ortlogos humanos han sufrido un proceso acelerado

75
Mouse genome sequencing consortium. Initial sequencing and comparative analysis of the mouse genome. Nature 420, 520-562.
(2002).
76
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001). Venter C. et al. The sequence of the human genome. Science 291 1304-1351. (2001).

27
Proyecto genoma humano

de cambio determinado por presiones selectivas que han hecho difcil la identificacin de un
77
grado significativo de homologa de secuencia .
El grado de conservacin en la estructura de los genes entre Homo y Mus es muy
elevado y permite identificar las regiones bajo seleccin negativa para la incorporacin de
mutaciones. En la Figura 6 se muestra el grado de homologa entre 3.165 genes humanos y de
77
ratn .
Una representacin ms en detalle de los inicios de transcripcin y de las secuencias
donadoras y aceptoras de splicing, revela que el grado de conservacin alcanza casi el 100%,
siendo muy significativo que las terceras posiciones de los codones codificantes no estn
sujetos a tantas limitaciones para el cambio, demostrando la importancia que tiene el tambaleo
de la tercera posicin del ARNt en la variabilidad del uso de codones (Figura 7).

Figura 6: Variacin en la conservacin de secuencia a lo largo de gene humanos y de ratn77

Primer exn Exn interno ltimo exn


% identidad de secuencia

Promotor UTR 5 Intrn Intrn UTR 3

Posicin en el genoma

La identificacin de los genes especficos de vertebrados se ha realizado comparando


todos los genes identificados con los genomas de Drosophila y Caenorhabditis, los resultados
muestran que algunas familias han experimentado un cambio importante en el nmero de
78
miembros o bien han aparecido familias completamente nuevas . Las funciones especficas de
vertebrados pueden ser clasificadas en 5 grupos:
1. Sistema inmunitario: La inmunidad adquirida es una funcin poco representada en
invertebrados, el genoma humano y de ratn tienen genes del complejo mayor de
histocompatibilidad (44), inmunoglobulinas (114), receptores especficos (59). Otras
protenas especficas de vertebrados son las citoquinas, quimiocinas y componentes
asociados con la transduccin de seales mediada por receptores de membrana.

77
Mouse genome sequencing consortium. Initial sequencing and comparative analysis of the mouse genome. Nature 420, 520-562.
(2002).
78
Venter C. et al. The sequence of the human genome. Science 291 1304-1351. (2001).

28
Antonio Jos Caruz Arcos

Inicio de la traduccin
% de identidad de secuencia

Posicin relativa con respecto al sitio de inicio de la traduccin


Figura 7: Conservacin en el sitio de inicio de la traduccin79

2. Desarrollo, estructura y funcin neuronal: Marcado incremento en protenas implicadas


en el desarrollo y funcin neuronal como factores de crecimiento nervioso, canales
inicos, mielina y protenas de comunicacin neuronal (sinaptotagmina).
3. Rutas de sealizacin intracelular implicadas en homeostasis y desarrollo: Hormonas,
factores de crecimiento, receptores, factores de transcripcin y molculas de
sealizacin intracelular como TGF-, FGF, NGF, PDGF y efrinas. Tambin se observa
una expansin en el nmero de genes dedicados a la sntesis de molculas de
adhesin extracelular como protenas de la matriz (proteoglicanos) que juegan un papel
importante en procesos de defensa, morfognesis y reparacin de tejidos. Protenas
del citoesqueleto como actina y miosina, as como otras implicadas en la sealizacin
intracelular (superfamilia Ras), factores de transcripcin (por ejemplo protenas con el
dominio Zn-finger C2H2 aparece en 564 protenas humanas frente a 234 de
Drosophila).
4. Hemostasis: Expansin de genes implicados en la interaccin entre clulas
hematopoyticas y la matriz vascular, as como metaloproteasas.
5. Apoptosis: Expansin de genes implicados en las rutas de sealizacin que median la
muerte celular programada como caspasas, Bcl2, etc.

Variabilidad del genoma humano


El catlogo de la base molecular de la variabilidad humana es ms amplio del esperado
a priori, podemos clasificar el origen de la variabilidad en varias categoras:
1. Insercin diferencial de elementos transponibles (fundamentalmente LINES L1 y SINES
tipo Alu).

29
Proyecto genoma humano

2. Duplicaciones polimrficas (por ejemplo un cluster que contiene genes de receptores


olfativos est duplicado en algunas poblaciones)
3. Polimorfismos de nmero de copias de microsatlites, minisatlites y satlites. Siendo
ms conocidos los primeros.
4. Polimorfismos debidos a pequeas deleciones, inserciones o mutaciones puntuales. De
los que los cambios de un solo nucletido constituyen por si mismos la mayor parte de
la variabilidad humana.
Los tres primeros han sido analizados en secciones precedentes, ahora pasaremos a describir
los resultados sobre la variacin debida a pequeos cambios de nucletidos a lo largo del
genoma. Contamos con datos de variabilidad de un total de 13 individuos de diferentes
orgenes tnicos, el consorcio pblico ha secuenciado 8 y la empresa Celera 5. Es importante
destacar que no contamos con la informacin completa de un solo genoma humano por
separado, sino que los datos suministrados estn mezclados y representan la secuencia media
del genoma. El anlisis de la variabilidad ha permitido identificar unos 2 millones de cambios
puntuales denominados SNP (Single Nucleotide Polymorphism) con una frecuencia de
79
aproximadamente un cambio cada 1000 pb . Una conclusin trascendental desde el punto de
vista social y poltico es que los seres humanos comparten entre s ms del 99,99% de la
informacin gentica. La base molecular de las diferencias fenotpicas entre poblaciones de
orgenes geogrficos distintos estn fundamentadas en pocos genes que controlan la
expresin de ciertos caracteres fcilmente distinguibles a simple vista.
La distribucin de SNPs a lo largo del genoma no es homognea sino que existen
zonas calientes que presentan mayor variabilidad, as como se observa una tendencia a
acumular SNPs en regiones de poca importancia funcional (ver tabla 7).

Tabla 7: Distribucin de los SNPs en funcin de la clase funcional del genoma

Clase de regin genmica Talla de la regin Densidad (SNP/Mb)


(Mb)
Intergnica 2185 707
Intrones 615 921
Primer intrn 164 808
Exn 31 529
Primer exn 10 592

La tabla 6 revela un hecho interesante desde el punto de vista funcional. En concreto


en el primer intrn existe una menor frecuencia de SNPs comparado con otros intrones del
mismo gen, ello es debido a que en algunos casos el primer intrn puede contener secuencias
reguladoras en cis de la transcripcin as como en muchos genes existen dos promotores
alternativos, estando el segundo de ello situado dentro del primer intrn. Con respecto a las
secuencias intergnicas se observa que el 75% de los SNPs se localizan dentro de estas
regiones, pero la densidad de SNPs es menor que en los intrones. Esto podra explicarse por

79
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001). Venter C. et al. The sequence of the human genome. Science 291 1304-1351. (2001).

30
Antonio Jos Caruz Arcos

un fenmeno de incremento de la mutagnesis debida a los fenmenos de transcripcin


gnica.
Con respecto a los exones, destacar que el primer exn puede acumular mayor
variabilidad gentica, debido a que suele contener regiones no traducidas importantes para la
unin del ribosoma durante las etapas preliminares de la traduccin, por ello est menos
limitado que el resto de exones a la hora de acumular cambios. Con respecto a los exones
codificantes, los SNPs son muy raros (0,17% del total), siendo la mayora cambios
conservativos por tambaleo de la tercera base del codn o cambios por un aminocido muy
similar funcionalmente al original. Cambios no conservativos constituyen slo el 0,07% del total
descrito. Sin embargo pueden tener un papel importante en explicar las diferencias fenotpicas
entre los seres humanos. Por ejemplo multitud de SNPs en los genes de los citocromos P450
estn asociados a una mayor frecuencia de desarrollo de cncer o enfermedades
cardiovasculares, otros SNPs en genes implicados en la respuesta inmunitaria estn asociados
a enfermedades autoinmunes como la psoriasis o la enfermedad de Crohn. El catlogo
completo de SNPs del genoma humano y su asociacin con diferentes enfermedades es una
tarea importante para el futuro. Tambin van a representar un papel determinante como
marcadores evolutivos que permiten trazar el origen y dispersin de las poblaciones humanas.

PERSPECTIVAS

La publicacin del borrador del genoma humano constituy un hito en la historia de la


ciencia y va a cambiar profundamente la Biologa y la Medicina del futuro. En esta seccin
describir las tendencias que se vislumbran y que condicionarn el trabajo de los futuros
bilogos que estamos formando. Tres paradigmas han aparecido estos aos, el primero est
relacionado con la escala casi industrial de recursos econmicos y materiales necesarios para
llevar a cabo la investigacin. El segundo es la incorporacin de empresas privadas en la
investigacin biolgica, que aportan una perspectiva prctica y comercial. El ltimo es la
necesidad de formar nuevos bilogos capaces de entender varias disciplinas y que trabajen
cmodamente en un entorno de bases de datos, bioinformtica y modelos matemticos.
No hay que olvidar que lo que entendemos por Proyecto Genoma consiste en principio
en la obtencin de informacin estructural desnuda, pero lo realmente importante empieza
ahora: dar sentido biolgico, funcional y evolutivo a la informacin, extrayendo el autntico
conocimiento. El banquete de datos que se nos viene encima habr de ser metabolizado
adecuadamente, impulsando nuevos avances a base de sugerir nuevos enfoques, nuevos
experimentos, renovadas hiptesis de trabajo, todo ello retroalimentndose en un "crculo
virtuoso" que abrir las puertas de una nueva era en las Ciencias Biolgicas. Se habla por ello
de una "Era Postgenmica", en la que se irn integrando los conocimientos acumulados en
diversos "Atlas" del ser humano y de otros seres vivos, en los que se podrn interrelacionar de
modo funcionalmente significativo diversos niveles de comprensin de la materia viva: gnico,

31
Proyecto genoma humano

genmico, regulacin, biologa celular, fisiologa, evolucin, etc. El impacto real de todo ello no
se puede preveer, pero no cabe duda que el genoma humano sienta las bases de un salto
cualitativo y cuantitativo en nuestra visin del mundo vivo. A continuacin repasar las
perspectivas que se abren tanto para la Biologa humana como para la Medicina.

80
Genoma humano y Biologa
1. Identificar los componentes estructurales y funcionales codificados por el genoma
humano. El uso de la genmica comparativa permitir identificar regiones reguladoras en cis
esenciales para el control de la expresin gnica, replicacin del ADN y recombinacin.
Especialmente interesante es el campo de los ARN no codificantes ya que representan una
nueva escala en la expresin gnica y en su regulacin. Poco se conoce de los mecanismos
moleculares por los que algunos de estos ARN regulan procesos como la metilacin del ADN,
impronta o estabilidad de mensajeros. Es de esperar que nuevas estrategias de regulacin de
la expresin gnica puedan ser descubiertos, especialmente la regulacin mediada por ARN de
interferencia durante el desarrollo. El hecho de que el 42% de los genes potencialmente
codificados por el genoma humano no tengan una funcin conocida, ni puedan clasificarse
dentro de ninguna de las familias proteicas descritas es un autntico desafo para los
81
investigadores. Tal como sugieren Christine Debouck y Peter N. Goodfellow , la bsqueda de
la funcin ser el campo de trabajo que ocupe a mayor nmero de bilogos en los prximos
aos. Encontrar la funcin de un gen es una tarea ardua que implica un enfoque multidisciplinar
que podra ser resumido en el refrn de dime con quin vas y te dir quin eres, que se
fundamenta en el argumento de que dos protenas van juntas si participan en un proceso
comn, o dos ARNm se expresan conjuntamente porque estn relacionados funcionalmente.
Tcnicamente estamos hablando de protemica (doble hbrido, inmunoprecipitacin,
MALDITOF) o de estrategias de medida de la expresin gnica con microarrays
(transcriptoma). Este enfoque debe ser complementado con la informacin suministrada por el
bloqueo de la funcin del gen y el anlisis del fenotipo resultante en animales modelo como
ratones (Knock-outs y Knock-downs) o cultivos celulares (ARN de interferencia). La figura 8
podra resumir esta estrategia experimental.
2. La organizacin de las redes de informacin gentica y establecer como contribuyen
al fenotipo celular y orgnico. Los genes y sus productos no funcionan independientemente,
sino que participan en complejas rutas interconectadas y redes de comunicacin que permiten
el mantenimiento celular, la organizacin de tejidos, rganos y el desarrollo ontogentico.
Definir estos sistemas as como determinar sus propiedades e interrelaciones es crucial para
entender como funcionan los sistemas biolgicos. Desde el punto de vista prctico es una
informacin imprescindible para manipularlos y predecir su comportamiento. En cierto sentido
los investigadores tratarn de describir los programas o algoritmos genticos desencadenados
durante el desarrollo o en respuesta a diferentes estmulos como productos txicos, hormonas,

80
Collins F S. et al. A vision for the future of genomics research
81
Debouck C, Goodfellow PN. DNA microarrays in drug discovery and development. Nat Genet. 21(1 Suppl):48-50. (1999).

32
Antonio Jos Caruz Arcos

etc. Modelizarlos computacionalmente y predecir el comportamiento de los mismos en nuevas


situaciones.
Catalogar toda la variabilidad gentica de la humanidad: en cuatro niveles, insercin de
transposones, microsatlites, duplicaciones y SNPs. Esta informacin es esencial para
entender la historia de la humanidad, su origen y dispersin. Tambin, la comprensin de la
interrelacin entre genotipo y fenotipo es un problema serio, a veces un polimorfismo gentico
est asociado con un fenotipo especfico, por ejemplo, susceptibilidad a enfermedades
autoinmunes, cncer o resistencia a enfermedades infecciosas, sin embargo, en muchos casos
no ha sido posible establecer el motivo. Los polimorfismos pueden ser por ellos mismos el
agente causal del fenotipo o bien tan slo un marcador de proximidad porque se cohereda
como un haplotipo nico con el autntico polimorfismo funcional. Desentraar la base
molecular por la cual los polimorfismos afectan al fenotipo, ocupar tambin a muchos
laboratorios de investigacin en los prximos aos.
Figura 8: La bsqueda de la funcin

GEN
M DO BL
COMP ICA HBR E
ARA T IDO RATO
IVA N
KNOC ES
K-OU
T

ARNi
FUNC MOTIV
TRAN
IN O
SEC U E S D E
SC R I NCIA
PTOM
A
MAL EXP
DITO RE
F TISU SIN
N LAR
ENF ORMAL
ERM /
EDA
DES

4. Comprender los mecanismos evolutivos: El genoma es una entidad dinmica,


continuamente sometida a cambios por las fuerzas de la evolucin. El conocimiento de las
diferencias de secuencia entre diferentes especies permitir comprender cmo se han formado
en su configuracin actual los genomas y cuales han sido las presiones selectivas que han
condicionado su estructura. En este apartado, el desafo total est en localizar los genes o
secuencias reguladoras que nos hacen humanos (lenguaje, pensamiento abstracto, etc.). La
secuenciacin del genoma del chimpanc podra arrojar luz sobre cuales son los genes que
podran estar detrs de las diferencias morfolgicas y psicolgicas entre las dos especies.
Filosficamente resulta interesante plantear la hiptesis que la esencia del ser humano pudiera
residir en la expresin diferencial, con respecto al chimpanc, de una pequea batera de
genes.

33
Proyecto genoma humano

82
Genoma humano y Medicina
1. Desarrollar nuevas estrategias para la identificacin de los componentes genticos
que contribuyen al desarrollo de enfermedades y respuesta a drogas. La aplicacin ms
importante de la secuencia del genoma humano es la identificacin de genes de funcin
completamente desconocida, asociados por desequilibrio de ligamiento con una enfermedad
hereditaria. Este sistema se denomina clonacin posicional y era muy potente pero tedioso e
inclua etapas de paseo cromosmico sobre grandes distancias genticas antes de encontrar
un gen candidato donde buscar mutaciones en familias afectadas. La secuencia del genoma
humano permite una identificacin rpida in silico de los genes candidatos, seguido de
bsqueda de mutaciones y ayudado por los programas de prediccin de estructura gnica.
Unos 30 genes asociados con enfermedades se han conseguido clonar partiendo de la
informacin suministrada slo durante el ao antes de la publicacin de la secuencia del
genoma, en los prximos aos asistiremos a la correlacin de genes especficos con
enfermedades hereditarias mendelianas, enfermedades de origen polignicos o susceptibilidad
a desarrollar cncer, arteriosclerosis, hipertensin, etc.
La actividad enzimtica responsable de la metabolizacin de muchos frmacos es
variable entre diferentes pacientes y afecta a la respuesta teraputica de muchos tratamientos.
La identificacin de polimorfismos genticos asociados a esa respuesta (farmacogentica)
mejorar la prctica clnica y permitir al mdico la adopcin de un sistema personalizado de
tratamiento. Hasta el momento se han descrito muchos polimorfismos asociados a respuesta
diferencial al tratamiento farmacolgico (especialmente de la familia del citocromo P450), pero
el nmero real de genes asociados a respuesta diferencial a frmacos slo ha empezado a ser
atisbado.
2. Desarrollo de nuevos frmacos contra dianas moleculares identificadas por su patrn de
expresin gnica. La industria farmacutica depende de un nmero muy limitado de dianas
moleculares de accin farmacolgica, una revisin reciente cita que slo 483 protenas son las
dianas de prcticamente todos los frmacos que hay en el mercado. El listado completo de
genes humanos expandir enormemente el nmero de dianas potenciales de drogas. Algunos
autores predicen que varios miles de genes podran ser candidatos para la accin
farmacolgica. Ello ha llevado a la creacin de poderosos departamentos de investigacin
gentica en todas las grandes compaas farmacuticas.

Como hemos expuesto, las perspectivas son apasionantes para la investigacin


biomdica basada en la extraccin de la informacin contenida en el genoma y el anlisis de su
expresin. Sin embargo muchas cuestiones pueden suscitar una gran polmica social por las
implicaciones ticas que tienen, entre ellas destacara el determinismo y reduccionismo
gentico. En algunos casos parece demostrada una relacin entre polimorfismos genticos y

82
Collins F S. et al. A vision for the future of genomics research

34
Antonio Jos Caruz Arcos

83 84
tipos de personalidad (receptores de la dopamina con personalidad agresiva o serotonina
con tendencias depresivas). Si en el futuro, la investigacin lograse demostrar que nuestro
comportamiento y aptitudes estn fundamentadas en los genes, dnde quedara nuestra
libertad? Dnde el bien o el mal tal como lo entendemos ahora?
Quisiera concluir esta revisin general sobre el proyecto genoma humano con las
palabras de Craig Venter, exdirector cientfico de Celera, y que resume las implicaciones no
slo cientficas sino tambin filosficas que tiene la actual investigacin genmica:
The real challenge of human biology, beyond the task of finding out how genes
orchestrate the construction and maintenance of the miraculous mechanism of our bodies, will
lie ahead as we seek to explain how our minds have come to organize thoughts sufficiently well
to investigate our own existence.

83
Se puede consultar una revisin en: http://www.ncbi.nlm.nih.gov/entrez/dispomim.cgi?id=601696
84
Revisin en http://www.ncbi.nlm.nih.gov/entrez/dispomim.cgi?id=182138

35

También podría gustarte