Está en la página 1de 33

240

CAPTULO NUEVE

ORGANIZACIN DEL GENOMA HUMANO

9 .1

Organizacin general del genom a


hum ano

9.1.1 Generalidades del genoma humano


Genoma humano es el trmino que se utiliza para describir la infor
macin gentica total (contenido de DNA) de las clulas humanas.
En realidad, comprende dos genomas: un genoma nuclear complejo
con unos 30 000 genes y un genoma mitocondrial muy simple con
37 genes (fig. 9-1). El genoma nuclear proporciona el gran volumen
de informacin gentica esencial, que en su mayor parte especifica la
sntesis de polipptidos en ribosomas citoplsmicos.
Las mitocondrias poseen ribosomas propios y los muy pocos ge
nes del genoma mitocondrial que codifican polipptidos producen
mRNA que se traduce en los ribosomas mitocondriales. Sin embar
go, el genoma mitocondrial slo especifica una porcin muy peque
a de las funciones mitocondriales especficas; el mayor volumen
de los polipptidos mitocondriales lo codifican genes nucleares y se
sintetiza en ribosomas citoplsmicos, antes de llevarse al interior
de las mitocondrias.
Las comparaciones entre seres humanos y ratones demostraron
que menos de 5% del genoma est conservado de forma notoria,
incluido 1.5% para el DNA codificante y un porcentaje un poco
mayor que comprende secuencias conservadas dentro de secuencias
no traducidas, elementos reguladores, etc. (Mouse Genome Se
quencing Consortium, 2002; Dermitzakis y cols., 2002). Casi todo
el DNA codificante se emplea para elaborar mRNA y en conse
cuencia polipptidos, pero una minora importante (cuando menos
5% y tal vez casi 10%) de los genes humanos especifica RNA no

codificante (es decir, no traducido) (genes RNA). En fecha recien


te se identific una diversidad de genes RNA nuevos, lo que obli
g a una revaloracin de la funcin del RNA.
Las secuencias codificantes pertenecen con frecuencia a familias
de secuencias relacionadas (fam ilias de secuencias de DNA) que
pueden organizarse en grupos en uno o ms cromosomas o disper
sarse. Estas secuencias duplicadas surgieron por diversos mecanis
mos de duplicacin gnica que ocurrieron en el transcurso de la
evolucin. La secuenciacin del genoma proporcion la primera
valoracin de la duplicacin de todo el genoma y revel una canti
dad considerable de duplicacin segmentaria especfica de prima
tes (como resultado de duplicaciones m uy recientes se encuentran
bloques de secuencias relacionados muy de cerca en diferentes cro
mosomas o distintas regiones de un cromosoma aislado; seccin
12.2.5 y fig. 12-13; vase Bailey y cois., 2002).
Los mecanismos que dan lugar a genes duplicados tambin ori
ginan secuencias no funcionales relacionadas con el gen, entre ellas
seudogenes y fragmentos gnicos (seccin 9.3.6). Existen numero
sas copias defectuosas de genes RNA diseminadas en la totalidad
del genoma; asimismo, para algunos genes que codifican polippti
dos tambin se encuentran muchos genes relacionados: anlisis de
las secuencias terminadas de los cromosomas 21 y 22 predicen un
total cercano a 20 000 genes en el genoma (Harrison y cois., 2002;
Collins y cois., 2003).
Al igual que en otros genomas complejos, un componente muy
considerable del genoma humano est constituido por DNA no co
dificante. Un componente valorable est organizado en repeticio
nes tndem de cabeza a cola (->-*-> ~f), pero la mayor parte consiste
en repeticiones dispersas que se originaron de transcritos de RNA

1.5% -3%
-5 %

<2 %

I I Muy conservado (codificacin)


Muy conservado (otros)
I

G e n o m a n u c le a r

(24 m o l c u la s d e D N A lineai
d e d o b le c a d e n a , 3 200 M b; -3 0 000
genes)

I Repeticiones basadas en
transposn
d ] Heterocromatina
I I Otros no conservados

G e n o m a m ito c o n d ria l

(un D N A c irc u la r d e d o b le c a d e n a
d e 16.6 kb; 37 genes)

Fig. 9-1. Organizacin del genoma humano.


La linea punteada en la parte media representa el tamao relativo del genoma mitocondrial mediante la misma escala para el genoma nuclear.
Obsrvese asimismo la diferencia notable entre los dos genomas en la extensin del DNA muy conservado (secuencia de codificacin, secuencia
reguladora, etc.) y la fraccin de DNA no codificante muy repetida.

9.1 I ORGANIZACIN GENERAL DEL GENOMA HUMANO

por retrotransposicin (las transcriptasas inversas celulares pueden


copiar transcritos de RNA para elaborar cDNA natural que puede
integrarse en cualquier parte del genoma).

9.1.2 El genoma mitocondrial consiste en un dplex


de DNA circular pequeo empacado a densidad
con informacin gentica
Estructura general y herencia del genoma mitocondrial
El genoma mitocondrial humano est definido por un tipo nico
de DNA circular de doble cadena cuya secuencia completa de nudetidos ya se estableci (Anderson y cois., 1981; vase asimismo la
base de datos del genoma mitocondrial Mitomap en http://www.
mitomap.org/). Tiene 16 569 pb de largo y 4 4 % de extensin (G
C). Las dos cadenas de DNA tienen composiciones de bases direrentes en grado notable: la cadena pesada (H, del ingls heavy)
s rica en guaninas, la cadena ligera (L, del ingls light) es abun
dante en citosinas. Aunque el DNA mitocondrial es en especial de
oble cadena, una seccin pequea muestra una estructura de

DNA de cadena triple debido a la sntesis repetida de un segmen


to corto de la cadena pesada de DNA, el DNA 7S (vase fig. 9-2 y
Clayton, 1992, para una revisin general de la transcripcin y replicacin de DNA mitocondriales en animales). De manera carac
terstica, las clulas humanas contienen miles de copias de la
molcula de DNA mitocondrial de doble cadena, pero la cifra pue
de variar de forma considerable en diferentes tipos de clulas (va
se recuadro 9-1).
Durante la formacin del cigoto, el espermatozoo contribuye al
vulo con su genoma nuclear pero no con el mitocondrial. En con
secuencia, al genoma mitocondrial del cigoto lo determina de ma
nera exclusiva el que se encuentra de modo original en el vulo no
fecundado. Por consiguiente, el genoma mitocondrial es de heren
cia materna-, los varones y las mujeres heredan sus mitocondrias de
la madre pero los varones no las transmiten a las generaciones sub
secuentes. Por esta razn, los genes o las variantes de DNA codifi
cados de forma mitocondrial suministran el patrn de genealoga
que se muestra en la figura 4-4. Durante la divisin celular mittica, las molculas de DNA mitocondrial de la clula en divisin se
segregan en una forma aleatoria a las dos clulas hijas.

C lave:
0 H, 0 L, origen y direccin
de la sntesis de las cadenas
pesada y ligera

PH, PL, origen y direccin


de la transcripcin de las
cadenas pesada y ligera
G enes rR N A

G e n e s tR N A
G enes q u e c o d ific a n
p ro te n a s

ig ----- - "

Rg. 9-2. Genoma mitocondrial humano.


E asa D tiene una estructura de triple cadena debido a la sntesis duplicada de una tira de la cadena pesada (H, del ingls heavy). La transcripcin de
cadena pesada se origina a partir de dos promotores espaciados cercanos en la regin del asa D (agrupados por razones de claridad como PH).
_a transcripcin de los promotores PH sigue la direccin dextrgira alrededor del crculo, pero en sentido levgiro del promotor PL de cadena ligera.
Et ambos casos se cortan los transcritos primarios grandes a fin de generar RNA para genes individuales. Todos los genes carecen de intrones y estn
agrupados muy de cerca con un caso de genes superpuestos: el gen de ATP-asa 8 cubre de modo parcial al gen de ATP-asa 6 (vase fig. 9-3). Otros
jsnes que codifican polipptldos especifican siete subunldades de deshidrogenasa NADH (ND4L y ND1-ND6)', tres subunldades de oxldasa de
atocromo c (C01-C03) y citocromo b (CYB).

242

CAPTULO NUEVE

ORGANIZACIN DEL GENOMA HUMANO

R ecuadro 9 -1 . V a ria c i n d e l n m e ro d e c o p ia s d e l g e n o m a en c lu la s h u m a n a s
Con frecuencia, los libros de texto indican que las clulas de un organis
mo muestran poca variacin en su contenido de DNA y ello es sin duda
cierto cuando se compara con el contenido de RNA o protenas. No obs
tante, puede haber diferencias notorias en el contenido de mtDNA y el de
DNA nuclear en diferentes tipos de clulas.
Variacin del nmero de copias del genoma mitocondrial. Ciertas
clulas (p. ej., clulas de la piel diferenciadas de forma terminal) ca
recen de cualquier mitocondria y por consiguiente no tienen mtDNA.
El nmero de copias de mtDNA en otras clulas somticas vara pe
ro, de manera caracterstica, es de 1 000 a 10 000 (p. ej., los M o c i
tos poseen alrededor de 1 000 molculas de mtDNA). Los gametos
son excepcionales: las clulas espermatozoos tienen unos cuantos
cientos de copias de mtDNA y los oocitos tal vez 100 000, lo que
constituye ms de 30% del DNA del oocito.
Variacin del nmero de copias del genoma nuclear. Las clulas
nucleadas (diploldes) muestran poca variacin en el contenido de

Genes mitocondriales
El genoma mitocondrial humano consiste en 37 genes. En 28 de
ellos, la cadena pesada es la cadena de sentido; en los otros nueve,
la cadena de sentido es la ligera (fig. 9-2). De los 37 genes, un to
tal de 24 especifica un producto RNA maduro: 22 molculas de
tRNA mitocondrial y dos molculas de rRNA mitocondrial; un
rRNA 23S (un componente de la subunidad grande de los ribosomas mitocondriales) y un rRNA 16S (un componente de la subu
nidad pequea de los ribosomas mitocondriales). Los 13 genes
restantes codifican polipptidos que se sintetizan en ribosomas mi
tocondriales.
Cada uno de los 13 polipptidos codificados por el genoma mi
tocondrial es una subunidad de uno de los complejos respiratorios
mitocondriales, las enzimas de mltiples cadenas de la fosforila
cin oxidativa que estn encargadas de la produccin de ATP. Sin
embargo, existen casi 100 diferentes subunidades polipptidas en el
sistema mitocondrial de fosforilacin oxidativa y por lo tanto la in
mensa mayora la codifican genes nucleares (vase recuadro 9-2). El
genoma nuclear codifica a todas las otras protenas mitocondriales
y se traducen en ribosomas citoplsmicos antes de llevarse al inte
rior de las mitocondrias (recuadro 9-2; fig. 1-11).

Cdigo gentico mitocondrial


El cdigo gentico mitocondrial se usa para descodificar los trans
critos de cadenas pesada y ligera a fin de proporcionar un total de
slo 13 polipptidos. Esta carga funcional muy pequea permiti
que el cdigo gentico mitocondrial derivara del cdigo gentico
universal (que retienen los genes nucleares por la necesidad de
conservar las funciones de los 30 000 genes). Hay 60 codones mi
tocondriales de sentido, uno menos que en el cdigo gentico nu
clear, y cuatro codones de detencin, dos de los cuales, UAA y
UAG, sirven asimismo como codones de detencin en el cdigo ge
ntico nuclear, pero los otros dos son AGA y AGG y especifican arginina en el cdigo gentico nuclear (vase fig. 1-22). UGA
codifica triptfano en lugar de servir como codn de detencin y
AUA especifica metionina no isoleucina.

DNA, pero la ploida diferencial significa que en algunas clulas hay


divergencias sustanciales en el contenido de DNA: nuliploidia -clu
las que carecen en lo absoluto de DNA, tal y como se observa en mu
chos tipos de clulas diferenciadas de modo terminal, como
eritrocitos (que no tienen ncleo) y clulas de la piel diferenciadas de
modo terminal (sin organelos)-; haploidia -existe la mitad del conteni
do de DNA de las clulas diploides en las clulas vulo y espermato
zoo-; poliploida -algunas clulas tienen de manera natural muchas
copias del juego normal de cromosomas como resultado de replicacin endomittica (en la cual las clulas llevan a cabo varias rondas
de duplicacin de DNA pero sin ninguna divisin celular; p. ej., las c
lulas de regeneracin del hgado y otros tejidos son tetraploides de
manera natural y los megacariocitos gigantes de la mdula sea pue
den contener hasta 16 veces la cantidad de DNA de clulas diploides),
o como efecto de fusin celular sincitial (p. ej., las clulas de las
fibras musculares se forman por fusin de mltiples clulas y dan
lugar a clulas nicas con mltiples ncleos; vase fig. 3-3).

El genoma mitocondrial codifica todas las molculas de rRNA


y tRNA que necesita para sintetizar protenas, pero se basa en los
genes codificantes nucleares para proporcionar todos los otros com
ponentes (como los componentes protenicos de ribosomas mito
condriales, sintetasas de aminoacil-tRNA, etc.). Puesto que slo
existen 22 tipos diferentes de tRNA mitocondrial humano, las mo
lculas de tRNA individuales deben estar disponibles para interpre
tar varios codones distintos. Ello es posible por el bamboleo de la
tercera base en la interpretacin del codn. Ocho de las 22 mo
lculas de tRNA tienen anticodones que son capaces de reconocer
familias de cuatro codones que slo difieren en la tercera base y 14
reconocen pares de codones que son idnticos en las posiciones de
las dos primeras bases y comparten una purina o una pirimidina en
la tercera base. Por consiguiente, entre ellas, las 22 molculas de tR
NA mitocondrial pueden reconocer un total de 60 codones [(8 X
4) + (14 X 2)].
Adems de sus diferencias en la capacidad gentica y distintos
cdigos genticos, los genomas mitocondrial y nuclear difieren en
muchos otros aspectos de su organizacin y expresin (cuadro 9-1).

DNA codificante y no codificante


A diferencia de su contraparte nuclear, el genoma mitocondrial hu
mano es muy compacto: alrededor de 93% de las secuencias de
DNA representa secuencias codificantes. Todos los 37 genes mito
condriales carecen de intrones y estn empacados de forma estrecha
(en promedio uno por 0.45 kb). Las secuencias codificantes de al
gunos genes (en especial los que codifican las subunidades seis y
ocho de la ATP-asa mitocondrial) muestran cierta superposicin
(figs. 9-2 y 9-3) y en casi todos los otros casos las secuencias codifi
cantes de genes vecinos estn contiguas o separadas por una o dos
bases no codificantes. Algunos genes carecen incluso de codones de
terminacin; con la finalidad de superar esta deficiencia, tienen que
introducirse codones UAA a nivel postranscripcional (Anderson y
cois., 1981; vase la fig. 9-3).
La nica regin importante conocida que carece de algn DNA
codificante es la regin de desplazamiento del asa (D). Esta es la
regin en que se genera una estructura de DNA de cadena triple

9.1

ORGANIZACIN GENERAL DEL GENOMA HUMANO

243

---------------------------------------------------R ecuadro 9 -2 . A utonom a lim itada del geno m a m itocondrial


Codificado por el genoma mitocondrial

Codificado por el genoma nuclear

Componentes del sistema de fosforilacin oxidativa

13 subunidades

> 80 subunidades

I Deshidrogenasa de NADH

7 subunidades

> 41 subunidades

0 subunidades

4 subunidades

Componente mitocondrial

Reductasa de succinato de CoQ

1 subundad

10 subunidades

V Complejo de oxidasa c de citocromo

3 subunidades

10 subunidades

. Complejo de sintasa de ATP

2 subunidades

14 subunidades

Componentes del aparato de sntesis de protenas

24

Cerca de 80

Componentes rRNA

2 rRNA

Ninguno

Componentes tRNA

22 tRNA

Ninguno

Protenas ribosmicas

Ninguna

Cerca de 80

Otras protenas mitocondriales

Ninguna

Todas (p. ej., polimerasas de DNA y RNA


mitocondriales aunadas a muchas otras
enzimas, protenas estructurales y de
transporte, etc.)

i Complejo citocromo b-c 1

Cuadro 9 -1 . Genomas nuclear y mitocondrial humanos.


Genoma nuclear

Genoma mitocondrial

Tamao

3 200 Mb

16.6 kb

Nmero de diferentes molculas de DNA

23 (en clulas XX) o 24 (en clulas XY); todo lineal

Una molcula de DNA circular

'...mero total de molculas de DNA por clula

46 en clulas dlploides, pero vara segn sea


la ploidia

Con frecuencia varios miles (pero variable;


vase recuadro 9-1)

Proteina relacionada

Varias clases de protenas histona y no histona

Gran parte sin protenas

\jm e ro de genes

- 3 0 000-35 000

37

Zensidad gnlca

-1 /1 0 0 kb

1/0.45 kb

DNA repetido

Ms de 50% del genoma, vase figura 9-1

Muy poco

Tfanscripcin

El mayor volumen de genes se transcribe


de modo individual (unidades de transcripcin
monocistrnicas)

Con transcripcin de mltiples genes de


cadenas pesada y ligera (unidades
de transcripcin policistrnicas)

nrones

Se encuentra en la mayor parte de los genes

No hay

S de DNA de codificacin

-1 .5 %

-9 3 %

.so de codn

Vase figura 1-22

Vase figura 1-22

: ecombinacin

Cuando menos una vez por cada par de meiosis


homologa

No es obvia

-terencia

Mendellana para secuencias en X y autosomas;


paterna para secuencias en Y

Materna de manera exclusiva

?:: la sntesis duplicada de una pieza corta de DNA de cadena H,


que se conoce como DNA 7S (vase fig. 9-2). La replicacin de las
h ien a s H y L es unidireccional y se inicia en sitios de origen espe
j e o s . En la primera, es en el asa D y slo despus de sintetizarse
--i- dos tercios de la cadena H (mediante la cadena L como plan
tilla y tras desplazar la cadena H antigua) se expone el origen para
la replicacin de la cadena L. Con posterioridad, prosigue la repli

cacin de la cadena L en la direccin opuesta y emplea como plan


tilla la cadena H (fig. 9-2). El asa D contiene tambin el promotor
predominante para la transcripcin de las cadenas H y L. A dife
rencia de la transcripcin de genes nucleares, en la que casi siempre
se transcriben por separado genes individuales con promotores se
parados, la transcripcin del DNA mitocondrial se inicia desde los
promotores en la regin del asa D y contina en direcciones opuestas.

244

CAPTULO NUEVE

ORGANIZACIN DEL GENOMA HUMANO

I-------------------- A TP -asa8 8 366


1
M et
a tg

8 522

8 577 9 202 9 206

53
68
P ro L is Trp Tre L is lie C is S e r Leu H is S e r Leu P ro P ro G ln S e r D e te n c i n
c c a a a tg a a c g a a a a tc tg ttc g c ttc a ttc a ttg c c c c c a c a a tc c ta g g c c ta
M e tA s n G lu A sn Leu Fe A la S e r Fe
-I

lie A la P ro Tre lie Leu G li Leu


17

)
ACATA $
Tre
226

I-------------------- A TP-asa 6 ----------------------------------------------------------------------------------------------------


Fig. 9-3. Los genes de las subunidades 6 y 8 de ATP-asa mitocondrial se superponen y traducen de manera parcial en diferentes marcos
de lectura.
Nota: los genes superpuestos comparten una cadena en sentido comn, la cadena H. Las coordenadas de la secuencia de codificacin son las siguientes:
subunidad 8 de ATP-asa, 8 366-8 569; subunidad 6 de ATP-asa, 8 527-9 204. La terminal C del gen de la subunidad 6 de ATP-asa est definida por
la introduccin postranscripcional de un codn UAA: despus de la transcripcin se corta el RNA ms all de la posicin 9 206 y se poliadenila y el
resultado es un codn UAA en el que los dos primeros nucletidos derivan de TA en las posiciones 9 205-9 206 y el tercer nucletido es la primera A
de la cola poli(A). Se sabe que otros genes humanos estn superpuestos, pero con frecuencia se transcriben a partir de cadenas opuestas.

para las dos cadenas diferentes, alrededor del crculo a fin de gene
rar grandes transcritos multignicos (vase fig. 9-2). De forma sub
secuente, se generan los RNA maduros por el corte de transcritos
multignicos.

9.1.3 El genoma nuclear consiste en 24 molculas


de DNA diferentes que corresponden a los
24 cromosomas humanos distintos
Tamao y estructura de los cromosomas humanos
De forma caracterstica, el ncleo de una clula humana contiene
ms de 99% del DNA celular (excepto algunas clulas especializa
das, sobre todo el oocito; vase el recuadro 9-1). El genoma nuclear
est distribuido entre 24 tipos distintos de molculas de DNA li
neal de doble cadena, cada una de las cuales tiene histonas y otras
protenas no histona enlazadas a ellas para conformar un cromoso
ma. Los 24 diferentes cromosomas (22 tipos de autosomas y dos
cromosomas del sexo, X e Y) pueden distinguirse con facilidad con
las tcnicas de bandeo cromosmico (fig. 2-15) y en gran parte se
clasificaron en grupos de acuerdo con el tamao y, en cierto grado,
con la posicin del centrmero (cuadro 2-3).
El DNA seleccionado para secuenciacin en el Proyecto del Ge
noma Humano no fue el genoma nuclear total, sino la porcin eucromtica, que comprende casi 3 000 Mb. Tambin existen ms de
200 kb de heterocromatina constitutiva condensada de manera
permanente y en regiones inactivas en sentido transcripcional, que
proporcionan un tamao total del genoma del orden de 3 200 Mb.
Por consiguiente, el tamao promedio de un cromosoma humano
se aproxima a 140 Mb, pero con una variacin considerable entre
los cromosomas y cantidades variables de heterocromatina consti
tutiva (cuadro 9-2). La ltima comprende segmentos de alrededor
de 3 Mb en cada centrmero adems de componentes grandes en
varios cromosomas, incluidos los brazos cortos de los cromosomas
acrocntricos 13, 14, 15, 21 y 22, el brazo largo del cromosoma Y
y las regiones grandes de los brazos largos de los cromosomas 1, 9
y 16 (que corresponden a constricciones cromosmicas secundarias-,
vase cuadro 9-2 y fig. 2-15 para una visin grfica).

Composicin de bases del genoma nuclear humano


El esquema de las secuencias del genoma humano (International
Human Cenme Sequencing Co'nsortium, 2001; Venter y cois., 2001)
sugiere un promedio de 41% de GC de la extensin del genoma
para el componente de eucromatina. Sin embargo, la composicin de
bases vara en grado considerable entre los cromosomas, de 38%
de GC para los cromosomas 4 y 13 hasta 49% en el cromosoma
19. De igual modo, vara con amplitud a lo largo de los cromoso
mas. Por ejemplo, el contenido promedio de GC en el cromosoma
17q es de 50% en las 10.3 Mb distales pero disminuye a 38% en
las 3.9 Mb adyacentes. Existen regiones de menos de 300 kb con
variaciones incluso ms amplias del contenido de GC, por ejemplo
de 33.1 a 59.3%.
Hay una correlacin clara entre la composicin de GC y el grado
de tincin con Giemsa durante el bandeo cromosmico. Por ejem
plo, 98% de las clonas de inserto grande que mapean las bandas G
ms oscuras est en regiones de 200 kb con un contenido bajo de GC
(promedio de 37%), mientras que ms de 80% de las clonas que ma
pean las bandas G ms claras se halla en regiones de alto contenido
de GC (promedio de 45%). Sin embargo, los anlisis de datos no
apoyan la existencia de iscoros estrictos, que se definen como regio
nes a gran escala de composicin homognea y se clasifican en cinco
grupos, segn sea el diferente porcentaje de composicin de GC (In
ternational Human Genome Sequencing Consortium, 2001).
La proporcin de algunas combinaciones de nucletidos puede
variar en grado considerable. Por ejemplo, al igual que otros genomas
nucleares de vertebrados, el genoma nuclear humano tiene una esca
sez notable del dinucletido CpG (es decir, prximo a residuos de citosina y guanina en la misma cadena de DNA en la direccin 5' 3 ';
p indica enlace fosfodister). Al tomar en cuenta la cifra promedio
total de 41% de GC, las frecuencias de bases individuales son C =
G = 0.205 y, por consiguiente, la frecuencia esperada del dinucleti
do CpG es (0.205)2 = 0.042. Sin embargo, la frecuencia de CpG ob
servada se aproxima a la quinta parte. A pesar de la falta general de
CpG, ciertas regiones pequeas de DNA activas en sentido transcrip
cional tienen la densidad esperada de CpG y, de manera importante,
no estn metiladas (islotes CpG, vase recuadro 9-3).

9.1 I ORGANIZACIN GENERAL DEL GENOMA HUMANO

245

Cuadro 9 -2 . Contenido de DNA de cromosomas humanos.


Cromosoma

Cantidad total
de 0NA (Mb)

Cantidad de
heterocromatina (Mb)

Cromosoma

Cantidad total
de DNA (Mb)

Cantidad de
heterocromatina (Mb)

279

30

13

118

16

251

14

107

16

221

15

100

17

197

16

104

15

198

17

88

176

18

86

163

19

72

148

20

66

140

22

21

45

11

10

143

22

48

13

11

148

163

12

142

51

27

Datos resumidos del International Human Genome Sequence Consortium (2001). Al utilizar estas cifras, el tamao del genoma humano total es de 3 289 Mb, pero se sabe
que esta cifra (y las cantidades totales de cromosomas individuales) incluye algunas duplicaciones artefactuales; un valor ms realista podra ser ~ 3 200 Mb.

9.1.4 El genoma humano contiene alrededor de 30 000


a 35 000 genes distribuidos de forma irregular
pero las cifras son inexactas
Nmero de genes humanos
En la actualidad se piensa que la cifra total de genes del genoma hu
mano oscila entre 30 000 y 35 000. Dado que con excepcin de 37
de ellos todos se localizan en el genoma nuclear, esto proporciona
un estimado general de 1 400 genes por cromosoma en promedio.
La gran mayora de estos genes codifica polipptidos, pero una mi
nora importante (cuando menos 5% y tal vez alrededor de 10%)
especifica molculas de RNA no traducidas (seccin 9.2).
El International Human Genome Sequencing Consortium (2001)
v Venter y colaboradores (2001) estimaron 30 000 a 40 000 y 26 000
a 38 000 genes, respectivamente, aunque apoyaron las predicciones
ms cercanas a las cifras inferiores de estos lmites. Estos clculos
fueron mucho ms bajos que los anteriores basados en grupos de
datos incompletos (vase seccin 8.3.5), pero hay una gran incerridumbre acerca del nmero preciso de genes. En primer lugar,
existen dificultades generales para identificarlos. Cuando se public
el esquema de secuencias del genoma en el ao 2001, se identifi
caron con seguridad alrededor de 11 000 genes y mediante anlisis
de secuencias basados en computadora se predijeron muchos miles
ms. La prediccin de genes que codifican polipptidos basada en
computadora suele ser muy til, pero no siempre es segura (falsopositivos y falta de precisin en la identificacin de exones genuinos; vase Zhang, 2002). Es en especial mala la prediccin de genes
RNA basada en computadora; vase la seccin 8.3.5.

La cifra de genes humanos comparativamente baja fue una sor


presa. Despus de todo, en el gusano redondo de 1 mm de largo,
muy simple, Caenorhabditis elegans (que consiste slo en 959 clu
las somticas y tiene un genoma de una trigsima parte del tamao
del genoma humano), se demostr con anterioridad que posee
19 099 genes que codifican polipptidos y ms de 1 000 genes
RNA (consorcio de secuenciacin de C. elegans, 1998). Es posible
que la complejidad del genoma no siempre sea paralela a la com
plejidad biolgica (Drosophila melanogaster tiene de manera sustan
cial menos genes que C. elegans), pero los genomas secuenciados de
invertebrados (p. ej., insectos, gusanos redondos, erizo de mar)
tienden a mostrar un orden de 14 000 a 20 000 genes, en tanto que
los vertebrados (seres humanos, ratn, pez soplador, etc.) se incli
nan hacia una cifra aproximada de 30 000 a 35 000 (vase cuadro
12-4). Tambin suele explicarse la baja cifra inesperada de genes a
partir del incremento muy grande de la complejidad transcripcional que se esperara a medida que aumenta el nmero de genes, por
ejemplo de 20 000 a 30 000 (Claverie, 2001) y la complejidad adi
cional que cabe esperar por la frecuencia mayor de empalme (corte
y unin) alternativo en genomas complejos (Maniatis y Tasic,
2002; vase seccin 10.3.2).

Distribucin de genes humanos


Los genes humanos no estn distribuidos de manera uniforme en
los cromosomas. Las regiones constitutivas de heterocromatina ca
recen de genes pero incluso dentro de la porcin eucromtica del
genoma puede variar de manera sustancial la densidad gnica entre
regiones cromosmicas y asimismo en los cromosomas completos.

246

CAPTULO NUEVE

ORGANIZACIN DEL GENOMA HUMANO

Recuadro 9-3. M e tila c i n d e l D N A e is lo te s C p G


Es probable que la metilacin del DNA tenga sitios biolgicos diferentes.
En algunas especies, como la levadura S. cerevisiae y el gusano redondo
C. elegans, al parecer no ocurre en absoluto; en muchas otras tiene sitios
relevantes. En bacterias, la metilacin del DNA se restringe en gran parte
a una proporcin de residuos adenina y citosina y quiz acta como un
mecanismo de defensa del husped: las endonucleasas de restriccin de
la clula husped reconocen y cortan DNA fago invasor (no metilado) en
secuencias de tecot\oc\m\en\o especificas, peto \as mismas secuencias

en el DNA husped estn metiladas de forma especifica y por consiguien


te protegidas de segmentacin (vase recuadro 5-2).
Cuando ocurre en metazoarios (animales multicelulares), la metilacin del
DNA suele incluir la metilacin de una proporcin de residuos de citosina,
con 5-metilcitosina (Cm) resultante. En D. melanogaster, la cantidad de
metilacin de DNA es muy baja y casi toda la 5-metilcitosina se encuen
tra en dinucletidos CpT (Cmpt). En otros animales, el dinucletido CpG
es un blanco comn para la metilacin de citosina mediante metiltransferasas de citosina especfica y forma CmpG (vase figura, grupo A). Los
genomas de la mayor parte de los Invertebrados -aparte de Drosophilatienen valores moderadamente altos de CmpG que se encuentra concen
trado en dominios grandes de DNA metilado separado por dominios tam
bin grandes de DNA no metilado (metilacin en mosaico).
Los vertebrados muestran los valores ms altos de 5-metilcitosina en el
reino animal y en este caso la metilacin est diseminada en la totalidad
del genoma. Se sabe que la metilacin del DNA tiene consecuencias im
portantes para la expresin gnica y permite que patrones particulares de
ella se transmitan de manera estable a clulas hijas (seccin 10.4.2). Se
ha sugerido asimismo que proporciona una forma de defensa de husped
contra transposones (seccin 10.4.3). Aunque la metilacin est disemi
nada en la totalidad del genoma de vertebrados, slo un porcentaje pe
queo de citosinas est metilado (alrededor de 3% en el DNA humano,
sobre todo como CmpG con un porcentaje pequeo como CmpNpG, en el
que N es cualquier nucletido).
Desde el punto de vista qumico, la 5-metilcitosina es inestable y propen
sa a desaminacin, lo que tiene como resultado timina (vase la figura,
grupo A). Las otras bases tambin son propensas a desaminacin (p. ej
la citosina no metilada es proclive a la desaminacin para formar uracilo). Durante periodos prolongados de la evolucin disminuy de manera
gradual el nmero de dinucletidos CpG en el DNA de vertebrados debi
do a la conversin lenta pero constante de CpG en TpG (y en CpA en la
cadena complementaria). Aunque la frecuencia total de CpG en el geno
ma de vertebrados es baja, hay tiras pequeas de DNA no metilado que
se caracterizan por tener la frecuencia CpG esperada normal. Estos Islo
tes de densidad de CpG normal (islotes CpG) son en trminos compara
tivos abundantes en GC (de manera caracterstica ms de 50% de GC) y

HN

/ c \

C -C H ,
CH

NH
T im in a

(formas de incompatibilidad con G;


reconocida de manera ineficiente por
el sistema de reparacin del DNA)
A) La citosina en los dinucletidos CpG es un blanco para metilacin en
el carbono 5 y forma 5-metilcitosina.
Esta ltima se desamina de forma espontnea para formar timina (T), a la que
reconoce de manera insuficiente el sistema de reparacin del DNA y por tanto
tiende a persistir (empero, la desaminacin de citosina no metilada forma uracilo,
al que s reconoce el sistema de reparacin del DNA). El dinucletido CpG de los
vertebrados se sustituye de modo gradual por TpG y CpA.

se extienden cientos de nucletdos, con frecuencia al marcar los extre


mos 5' de genes. Cuando se filtr el esquema de la secuencia del geno
ma humano para eliminar secuencias de DNA no codificante repetidas
con nmero alto de copias, se identificaron alrededor de 30 000 islotes
CpG (International Human Genome Sequencing Consortium, 2001).

9.2

ORGANIZACIN, DISTRIBUCIN Y FUNCIN DE GENES RNA HUMANOS

La primera informacin general sobre la distribucin de genes en el


genoma completo se obtuvo despus de hibridar fracciones de islo
tes CpG purificados del genoma a cromosomas en metafase. Con
base en lo anterior, se concluy que la densidad gnica debe ser al
ta en regiones subtelomricas y que algunos cromosomas (p. ej., 19
y 22) tienen abundancia de genes en tanto que otros (como X, 18)
son escasos en ellos (fig. 8-4). Las predicciones de la densidad dife
rencial de islotes CpG y gnica se confirmaron ms adelante cuan
do se publicaron esquemas de secuencias que incluan alrededor de
90% del genoma (International Human Genome Sequencing Consortium, 2001).
La diferencia en el porcentaje de GC entre las bandas plidas y
oscuras con Giemsa indica asimismo densidades gnicas diferencia
les porque los cromosomas (p. ej., el 19) y las regiones (como las
bandas G plidas) abundantes en GC tambin son comparativa
mente abundantes en genes. Por ejemplo, el complejo de antgeno
de leucocitos humanos (HLA) ricos en genes (180 genes en un tra
mo de 4 Mb) est localizado dentro de la banda plida 6p21.3, en
tanto que una completa de 2.4 Mb de DNA que al parecer est de
dicada casi de modo exclusivo al gen nico mammoth, el gen de la
distrofina, est situada dentro de una banda G oscura.

9 .2

Organizacin, distribucin y
funcin de genes RNA hum anos

Aunque la gran mayora de los genes humanos codifica polipptidos (seccin 9.3), una minora significativa especifica molculas de
RNA no codificante (esto es, no traducidas) como su producto fi
nal y tambin se describen como genes RNA (Eddy, 2001; Huttenhofer y cois., 2002; Storz, 2002; vase asimismo la base de datos de
RNA no codificante en http://biobases.ibch.poznan.pl/ncRNA/). El
genoma mitocondrial es excepcional porque 65% (24/37) de los
genes especifica molculas RNA maduras pero incluso en el geno
ma nuclear tal vez haya alrededor de 3 000 genes RNA, que cons
tituyen casi 10% del nmero total de genes (fig. 9-4).
Es probable que los estimados actuales del nmero de genes RNA
sean conservadores (por la dificultad para identificar genes RNA en
DNA secuenciado; vase seccin 8.3.5). En anlisis amplios de
transcritos de ratn (seccin 9.2.3) y en los basados en microconfiguraciones de transcritos de los cromosomas humanos 21 y 22
(Kapranov y cois., 2002) se interpret que sugieren muchos ms trans
critos que los esperados por las cifras gnicas previstas. Adems de
los genes RNA, hay muchos fragmentos de seudogenes/genes rela
cionados, en especial en los genes RNA transcritos por la polimerasa 111 de RNA.
En comn con otros genomas celulares, la mayor parte de los
genes RNA conocidos est dedicada a elaborar molculas que ayu
dan en el proceso general de expresin gnica (fig. 9-4). Algunos, de
forma notable las familias rRNA y tRNA, participan en la traduc
cin de mRNA. Muchas otras familias de RNA estn relacionadas
con la maduracin del RNA e incluyen corte y modificacin especfica
de bases de otras molculas de RNA (mRNA, rRNA, tRNA y otras
especies de RNA). Adems, en fecha reciente se identific un n
mero notorio de otros genes RNA que pertenecen a diferentes cla
ses de RNA. Muchos tienen, o se espera que tengan, funciones
reguladoras de importancia y resaltan la diversidad funcional muy
considerable de las molculas de RNA (cuadro 9-3; seccin 9.2.3).

-100

-2 0 0

247

I sn o R N A
H f snR N A

m iR N A
I I rR N A
[ I tR N A

-1 7 5
175
250

E 3 RNA
antisentido

500

Fig. 9-4. Genes RNA humanos de acuerdo con la clase.


La mejor estimacin (hacia mediados del ao 2003) era de ms de
3 000 genes RNA humanos distribuidos entre las diferentes clases que
se muestran. Nota: a) por razones operacionales (vase texto), el
esquema de las secuencias del genoma humano excluy grupos
gnicos rRNA y las cifras que se proporcionan se estimaron a partir de
otros datos; 6) debido a la dificultad para identificar genes RNA (vase
seccin 8.3.5), es posible que el nmero de algunas categoras de
RNA pequeas, como los miRNA, sean grandes subestimaciones; c) la
cifra predicha de genes RNA antlsentido se basa en datos de Collins y
colaboradores (2003) y est apoyada por anlisis equivalentes en el
ratn (vase FANT0M Consortium y el RIKEN Genome Exploration
Research Group Phase I & II Team, 2002).

9.2.1 Un total de casi 1 200 genes humanos codifican


rRNA o tRNA y estn organizados sobre todo en
grupos gnicos grandes
Genes RNA ribosmicos (rRNA)
Existen alrededor de 700 a 800 genes rRNA humanos, organizados
en particular en grupos de repeticin tndem y muchos seudogenes
relacionados. Las familias multignicas homogneas que ocurren en
arreglos tndem estn representadas menos en el esquema de se
cuencias del genoma humano (debido a la seleccin de enzimas de
restriccin utilizadas en la elaboracin de genotecas de BAC y la de
cisin para posponer la secuenciacin de BAC con huellas digitales
de baja complejidad que indican DNA de repeticin tndem). Co
mo resultado, podra suponerse el nmero preciso de genes rRNA
a partir del esquema de secuencias del genoma humano.
Adems de las molculas mitocondriales de rRNA 16S y 23S,
existen cuatro tipos de tRNA citoplsmico, tres vinculados con la
subunidad ribosmica grande (rRNA 28S, 5.8S y 5S) y uno con la
subunidad ribosmica pequea (rRNA 18S). De ellos, a los rRNA
28S, 5.8S y 18S los codifica una utiidad de transcripcin nica
(vase fig. 10-2) que est organizada en cinco grupos, cada uno con
30 a 40 repeticiones tndem, localizados en los brazos cortos de los
cromosomas humanos 13, 14, 15, 21 y 22.
Los genes rDNA 5S ocurren asimismo en configuraciones tn
dem, de las cuales la ms grande se encuentra en los cromosomas
lq 4 l-4 2 , cerca del telmero. Existen 200 a 300 genes 5S verdaderos
en estos arreglos pero al parecer hay muchos seudogenes dispersos. La

245

CAPTULO NUEVE

ORGANIZACIN DEL GENOMA HUMANO

Cuadro 9-3. Diversidad funcional del RNA humano.


Clase de RNA

Ejemplos

Funcin

A) CLASES PRINCIPALES DE RNA QUE PARTICIPAN EN LA EXPRESIN GNICA GENERAL


RNA ribosmico (rRNA)

16S rRNA
23S rRNA
28S, 5.8S, y 5S rRNA
18S rRNA

Componente de la subunldad ribosmica mitocondrial pequea (fig. 9-2)


Componente de la subunidad ribosmica mitocondrial grande (fig. 9-2)
Componentes de la subunidad ribosmica citoplsmica grande (fig. 10-2)
Componente de la subunidad ribosmica citoplsmica pequea (fig. 10-2)

RNA de transferencia (tRNA)

22 tipos de tRNA mitocondrial


49 tipos de tRNA citoplsmico

Enlace a codones en mRNA mitocondrial (fig. 9-2)


Enlace a codones en mRNA citoplsmico (fig. 9-4)

RNA nuclear pequeo (snRNA)


(participa en el empalme de RNA)

Muchos, incluidos:
U1,U2, U4 y U6 snRNA
U5snRNA
U4acat, U6acat, U11 y U12 snRNA
U7snRNA

Componentes de espliceosomas mayores


Componente de espliceosomas mayores y menores
Componentes de espliceosoma menor
Terminacin transcripcional de mRNA de histona

RNA nucleolar pequeo (snoRNA)


(participa en la modificacin y
procesamiento del RNA)

Ms de 100 tipos diferentes:


cerca de 80 C/D box snoRNA
cerca de 15 H/ACA snoRNA
U 3y U8snoRNA

Metilacin especfica de sitio del grupo OH 2' de rRNA


Modificacin especfica de sitio de rRNA por formacin de seudouridina
Procesamiento de rRNA

B) OTRAS CLASES DE RNA (vase tambin base de datos de RNA no codificante en http://biobases.ibch.poznan.pl/ncRNA/)
Micro-RNA

Cuando menos 200 clases


probables

Molculas de RNA regulador (seccin 9.2.3) muy pequeas


(22 nucletidos)

Inactivacin del cromosoma X


relacionado

X/S7RNA
75/XRNA

Vase seccin 10.5.6


Vase seccin 10.5.6

Impronta relacionada

Muchos, p. ej., RNAW79

Vase figura 10-24 para algunos ejemplos

Especfica de sistema nervioso

p. ej., RNA BC200

RNA antisentido

Tal vez alrededor de 1 500 tipos

p. ej., a H0XA11, MSX1, etc. (vase fig. 10-24)

Otras

Telomerasa de RNA
PC43RNA
PCGEMm m
Sf/IJRNA
TTY2RNA
7SKRNA
7SLRNA

Componente de telomerasa (seccin 2.2.5)


Antgeno 3 de cncer de prstata
Expresado en gran exceso en cncer de prstata
Coactivador especfico de varios receptores de esferoides
Familia especfica de testculo
Regulador transcripcional negativo del alargamiento de polimerasa II de RNA
Componente de la partcula de reconocimiento de seal para protenas de
transporte

principal justificacin para la repeticin de genes rRNA citoplsmicos se basa en dosis de genes: con una cifra comparativamente
grande de estos genes, la clula puede satisfacer la demanda enor
me de ribosomas citoplsmicos necesarios para la sntesis de pro
tenas.

Genes RNA de transferencia (tRNA)


Adems de los 22 genes tRNA mitocondriales, el esquema de se
cuencias del genoma humano publicado en 2001 revel un total de
497 genes nucleares que codifican molculas de tRNA citoplsmicas y 324 posibles seudogenes derivados de tRNA. Por consiguien
te, al parecer, los seres humanos tienen menos genes que especifican
tRNA citoplsmico que un gusano (584), pero ms que la mosca
(284). En metazoarios, el nmero de genes tRNA no se relaciona
con la complejidad del organismo, sino ms bien con demandas es
peciales para abundancia de tRNA en ciertos tejidos o etapas del
desarrollo embrionario (p. ej., la rana Xenopus laevis tiene oocitos

grandes que deben estar cargados cada uno con 40 ng de tRNA; la


demanda alta de tRNA se satisface al disponer de miles de genes
tRNA).
Los 497 genes tRNA citoplsmicos pueden agruparse en 49 fa
milias segn sean sus especificidades de anticodn. Aunque el c
digo gentico universal proporciona 61 codones de sentido
diferentes que deben reconocer los anticodones en molculas de
tRNA, el bamboleo en la posicin de la tercera base de los codones
significa que cuando la posicin de la tercera base en un codn es
pirimidina (U o C), un anticodn aislado puede formar un par de
bases con los dos codones alternativos. La eleccin del anticodn
para interpretar codones humanos alternativos sigue reglas genera
les para el tRNA citoplsmico eucariota (recuadro 9-4). Con base
en ello, cabra predecir un total de 46 clases diferentes de tRNA hu
mano pero, a pesar de la generalidad del bamboleo de la tercera ba
se, tres pares de estos codones [AU(U/C), UA(U/C), AA(U/C)]
son sensibles al parecer a dos anticodones cada uno y por consi
guiente hay tres clases adicionales de tRNA (vase fig. 9-5). Slo

9.2

ORGANIZACIN, DISTRIBUCIN Y FUNCIN DE GENES RNA HUMANOS

Recuadro 9-4. E s p e c ific id a d d e a n tic o d n d e l tR N A c ito p l s m ic o e u c a rio ta


Como en la interpretacin de codones mitocondriales (seccin 9.1.2), el
bamboleo de la tercera base significa que no hay una correspondencia
1:1 entre los codones de mRNA citoplsmico y los anticodones tRNA que
los reconocen. En este caso, mediante un anticodn aislado pueden re
conocerse codones alternativos que difieren porque tienen una C o U en
la tercera posicin de bases. Las reglas de descodificacin para codones
de mRNA citoplsmico son las siguientes:
codones en "cajas de dos codones" (codones que terminan con /C
que codifican un aminocido diferente en comparacin con los que
terminan con A/G). En este caso, una G en la posicin base 5' en el
anticodn tRNA descodifica de manera caracterstica la posicin
bamboleante U/C. Por lo tanto, no hay un tRNA con un anticodn &AA
para correspondencia con el codn UUJ! para Fe, pero el anticodn
6AA puede reconocer codones UUU y UUC en el mRNA (vase fig.
9-5)-;.
codones no glicina en cajas de cuatro codones" (codones en los
que U, C, A y G en la posicin bamboleante codifican el mismo ami
nocido, pero no la glicina). En este caso, la posicin bamboleante
U/C la descodifica una inosina (I) en la posicin 5' en el anticodn
(la inosina se produce por modificacin postranscripcional de una
adenina: se sustituye el grupo amino en el carbn 6 de la adenosina

existe una correlacin muy general del nmero de genes tRNA hu


manos con la frecuencia de aminocidos (cuadro 9-4).
Aunque, al parecer, los genes tRNA estn esparcidos en la tota
lidad del genoma humano (con excepcin de los cromosomas 22 y
Y, se encuentran en todos los cromosomas), hay un agrupamiento
notable. Ms de la mitad de ellos (280 de 497) reside en el cromo
soma 6 (que contiene 140 genes tRNA, incluidos casi todos los ti
pos diferentes de gen tRNA, en una regin de slo 4 Mb en 6p2)
o el 1 (en donde estn agrupados de forma laxa muchos de los ge
nes tRNA de Asn y Glu). Adems, muchos de los otros genes tR
NA estn agrupados; por ejemplo, 18 de los 30 tRNA de Cis se
hallan en una tira de 0.5 Mb del cromosoma 7.

9.2.2 Los RNA nuclear y nucieolar pequeos estn


codificados por familias gnicas grandes
esparcidas en una gran proporcin
Adems del rRNA y el tRNA, otras dos clases mayores de RNA
participan en la ayuda de la expresin gnica general: el RNA nu
clear pequeo (snRNA) y el RNA nucieolar pequeo (snoRNA).
Los codifican familias de casi 100 genes (snRNA) o un poco ms
(snoRNA) que, aunque diseminadas, muestran cierto agrupamien
to de subfamilias.

Genes RNA nucleares pequeos (snRNA)


El conjunto heterogneo de molculas RNA nucleares pequeas
(snRNA) incluye muchas con uridina abundante y se denominan
de la forma correspondiente; por ejemplo, snRNA U3 representa el
tercer RNA nuclear pequeo rico en uridina por clasificar. Varios
son del tipo RNA espliceosmico y se requieren para la funcin de
los espliceosomas mayor y menor (vase cuadro 9-3) y una familia
de ms de 80 genes los codifica. Ms de 70 de estos genes especifi

249

v '- " .- y
mSmmmmmtm

por un grupo carbonilo C = 0 ). Por ejemplo, a los codones GUS1 y


GU de la caja valina de cuatro codones los descodifica un tRNA con un
anticodn de AAC, que sin duda se modifica en JAC. Adems del pareamiento de bases con C y , la inosina tambin puede formar un
par de bases con A (y por consiguiente el anticodn |AC puede reco
nocer a cada uno de GUU, GU, GUfi). A fin de evitar una posible lec
tura traduccional errnea, en cajas de dos codones no pueden
utilizarse tRNA con inosina en la base 5 del anticodn-;
codones de glicina. Un anticodn SCC, en lugar del anticodn ICC
esperado, codifica los codones GGU y GGC.
Slo se requieren 16 anticodones para descodificar los 32 codones ter
minales en una pirimidna. Por consiguiente, el grupo mnmo de antico
dones es de 61 (el nmero de diferentes codones de sentido), menos 16
= 45. No obstante, adems de un tRNA especializado lleva un anticodn
al codn UGA (que en condiciones normales funciona como un codn de
detencin). En estados de selenio alto, esta tRNA codifica UGA slo en un
nmero muy pequeo de casos a fin de insertar el 21o. aminocido, se/enocisteina, en un grupo selecto de selenoproteinas" (todos los cuales
tienen actividades de oxidorreduccin [rdox]; en mamferos, la reductasa de tiorredoxina y la peroxdasa de glutatin son de las selenoproteinas
que se encuentran de modo ms amplio).

can snRNA utilizados en el espliceosoma mayor; incluyen 44 genes


identificados que especifican snRNA U6 y 16 que especifican snR
NA U l.
Algunas pruebas indican agrupamiento, sobre todo en el caso
de las familias snRNA U l y U2; empero, debido a la forma en que
se seleccionaron los BAC para obtener el esquema de las secuencias
del genoma (vase antes), hay una representacin menor en la se
cuencias del esquema. Se saba con anterioridad que los genes RNA
U2 se localizaban en el locus RNU2, una estructura tndem de 6.1
kb unidades casi idnticas en 17q21-q22 que es muy variable en el
nmero de unidades repetidas (de seis a ms de 30 repeticiones).
Los genes RNA U 1 estn agrupados con alrededor de 30 copias en
el locus RNU1 en lp36.1, aunque se piensa que este agrupamien
to est organizado en forma laxa e irregular. Existe un gran nmero
de secuencias no funcionales relacionadas (seudogenes, fragmentos
gnicos, etc.); por ejemplo, se han identificado 1 135 secuencias re
lacionadas con snRNA U6 en el esquema de secuencias (Internatio
nal Human Geno me Sequencing Consortium, 2001).

Genes RNA nucleolares pequeos (snoRNA)


Una familia grande de RNA nucleolares pequeos (snoRNA) se
usa en especial en el nuclolo para dirigir o guiar modificaciones de
bases especficas de sitio en rRNA (Smith y Steitz, 1997; Filipowicz, 2000), pero tambin se sabe que llevan a cabo modificaciones
de bases en otros RNA estables, incluido el snRNA U6. Existen dos
subfamilias. La snoRNA caja C/D participa sobre todo en la gua
de las metilaciones 2'-0-ribosa especficas de sitio (hay 105 a 107 va
riedades de esta metilacin en rRNA). Los genes snoRNA H/ACA
intervienen sobre todo en la gua de seudouridilaciones especficas de
sitio (en las que se isomeriza la uridina para formar seudouridina,
la base modificada ms comn; para el rRNA se requieren 95 seu
douridilaciones diferentes).

250

CAPTULO NUEVE

UUU

ORGANIZACIN DEL GENOMA HUMANO

AAAO

U CU

AG A10

UAU

AUA 1

UGU

U CC

U U A ~ U AA 8

UCA

UGA 5

Detencin U A A

UUA 0

Detencin ~

UGA

U C A 0*

U UG ~ C A A 6

UCG

CGA 4

Detencin ~ UAG

CUAO

Trp

UGG

CCA 7

C CU

A G G 11

C AU

AUG 0

C GU

ACG 9

C AC

GUG 12

CGC

GCG 0

UUC

A G AA14

T ir

C is
U AC

GU A11

UGC

S er
Leu

CUU

A A G 13

H is
Leu

CUC
CUA

GAGO

CCC

GGGO

A rg

Pro

CCA

U AG 2

UG G 10
G ln

C UG

C AG 6

C CG

CGG 4

AU U

A AU 13

AC U

AGU 8

AUC

G AU 1

AUA

UAU 5

AUG

C AU 17

Tre

GU C

G U A ~ U AC 5
L GUG -

C A C 19

A la
-

G C A 30

U UG 11

CGA

UCG 7

CAG

C U G 21

CGG

C CG 5

AAU

AUU 1

AGU

S er

ACUO

ACC

G GU 0

AAC

GU U 33

ACA

UG U 10

AAA

U UU 16

AGA

UCU 5

AC G

CGU 7

AAG

C U U 22

AGG

CCU 4

" GAU

AUCO

GG U

- G AC

G U C 10

~ GCU y A G C 25

GAC 0

C AA

Lis

~ GUU -J A A C 20
Val

A sn

lie

M et

ACAO

7 GGAO

Fe

GCC

GGC 0

GCA ~

UG C 10

GCG -

CGC 5

A sp

G lu

AGC
A rg

Gli

GG C

GCU 7

ACC 0

G C C 11

G A A U U C 14

GGA

UCC 5

- GAG C U C 8

GGG

CCC 8

Fig. 9-5. Nmero de genes tRNA humanos clasificados de acuerdo con el anticodn.
Los codones estn unidos por lneas a los anticodones (no modificados) en el lado derecho. Las lneas unidas en forma de V enlazan codones alternativos
que terminan en una U o C que pueden descodificarse por la accin de un anticodn aislado debido al bamboleo de la tercera base. El nmero siguiente
de cada anticodn es el nmero de genes humanos que codifican tRNA con ese anticodn. Por consiguiente, por ejemplo, en la parte superior del lado
izquierdo se observa que el codn de fenilalanina UUU no lo descodifica un anticodn AAA, ya que no hay genes tRNA que lleven ese anticodn. Las
adeninas sombreadas casi con seguridad se modifican como nosinas (vase recuadro 9-4). Nota: a) a pesar de la provisin de la tercera base
bamboleante, los genes nicos codifican al parecer tRNA con anticodones que quiz no se esperaba que se necesitaran (AUA, AUU y GAU); b) el
asterisco a continuacin del anticodn UCA significa que hay un tRNA poco comn que lleva este anticodn, que en ocasiones interpreta un subgrupo
pequeo de codones UGA como selenocistena en lugar de detencin; vase recuadro 9-4. Modificado de International Human Genome Sequencing
Consortium (2001), Nature 409, 860-921, con autorizacin de Nature Publishing Group.

Los snoRNA aislados especifican una, o cuando mucho dos, de


estas modificaciones. Los snoRNA se encuentran con frecuencia
dentro de los intrones de otros genes y aunque al parecer casi todos
los genes snoRNA son de copia nica y estn esparcidos, se cono
cen algunos grupos grandes, entre ellos dos que se hallan dentro de
la unidad de transcripcin grande SNURF-SNRPN tn 15q. Los l
timos genes se imprentan de manera paterna, se expresan en el ce
rebro y se considera que poseen un papel relevante en el sndrome
de Prader-Willi (vase fig. 10-24 y las referencias que incluye).

9.2.3 Los micro-RNA y otros RNA reguladores nuevos


son desafiantes preconcepciones sobre
la extensin de la funcin del RNA

de sus funciones y su importancia en la regulacin de la expresin


gnica. Por lo general, las molculas de RNA se han considerado
menos importantes (el artculo de Venter y cois., 2001, del esque
ma de Celera de la secuencia del genoma, no present ningn an
lisis sobre genes RNA humanos!). No obstante, en aos recientes,
diversos descubrimientos han llevado a una revaloracin radical de
la funcin del RNA. El reconocimiento en 1982 de que algunas
molculas de RNA podran tener una funcin cataltica (y en con
secuencia actuar como una ribozima) condujo a la identificacin
de funciones catalticas en varios otros tipos de RNA. Se incluyen
aqu rRNA (datos recientes de cristalografa con rayos X indican
que el rRNA cataliza la formacin del enlace pptido, no las prote
nas; Nissen y cois., 2000) y asimismo snRNA (Valadkhan y Manley,

Los libros de texto suelen insistir en la importancia de las protenas


como puntos finales de la expresin gnica por la amplia variedad

Se ha estudiado bien una diversidad de molculas de RNA fun


damentales, entre ellas la telomerasa de RNA (vase seccin 2.2.5)

2001 ).

9.2

ORGANIZACIN, DISTRIBUCIN Y FUNCIN DE GENES RNA HUMANOS

251

Cuadro 9 -4 . Distribucin de genes en familias gnicas de tRNA citoplsmico humano de acuerdo con el aminocido
especificado.
Aminocido

Frecuencia*

Nmero de genes de
tRNA correspondientes

Aminocido

Alanina

7.06%

40

Usina

5.65%

38

Arginna

5.69%

30

Metionina

2.23%

17

Aspartato

4.78%

10

Fenilalanina

3.75%

14

Asparagina

3.58%

34

Prolina

6.10%

25

Cstena

2.25%

30

Selenocstena

<0.01%

Glutamina

4.63%

32

Serna

8.00%

26

Glutamato

6.93%

22

Treonina

5.31%

25

Glicina

6.62%

24

Triptfano

1.30%

Histidna

2.56%

12

Tirosina

2.76%

12

Isoleucna

4.43%

19

Valina

6.12%

44

Leucina

9.95%

35

Frecuencia*

Nmero de genes de
tRNA correspondientes

Frecuencia promedio en la extensin del proteoma humano.

y el RNA SRP (conocido asimismo como RNA 7SL) de la partcu


la de reconocimiento de seal (el complejo de ribonucleoprotenas que reconoce la secuencia de seal en las protenas destinadas a
enviarse fuera de la clula para permitir el paso de protenas a tra
vs de la membrana celular). En fecha ms reciente se identific
una interesante variedad de nuevas molculas de RNA humano con
funciones reguladoras conocidas o posibles. ste es un proceso con
tinuo, pero el anlisis ms amplio de transcritos de mamferos hasta
la fecha (del genoma de ratn) sugiere que un porcentaje conside
rable de transcritos corresponde a RNA no codificantes (FANTOM
Consortium y RIKEN Genome Exploration Research Group Phase I & II Team, 2002).

Micro-RNA: nuevas molculas de RNA regulador pequeas


Los micro-RNA (miRNA) son molculas de RNA muy pequeas
(cerca de 22 nucletidos de largo) que pueden funcionar como re
guladores antisentido de otros genes (Ambros, 2001; Gottesman,
2002). Derivan de precursores ms largos, unos -70 nucletidos de
largo que contienen una repeticin invertida que permite la forma
cin de horquillas de RNA de doble cadena. Un tipo de ribonucleasa III (especfica de RNA de doble cadena), que se conoce como
dicer, corta estos RNA precursores de horquillas. Las primeras de
estas secuencias descritas en animales, RNA lin-4 y let-7, se identi
ficaron como RNA temporal pequeo (stRNA) mediante anlisis
genticos en C. elegans. RNA lin-4 y let-7 se regulan durante el de
sarrollo y tambin controlan varios programas del desarrollo por s
mismos. Actan como reguladores antisentido al enlazarse a se
cuencias complementarias en la 3' UTR del mRNA de genes blan
co, inhibir la traduccin y, por consiguiente, reprimir la sntesis de
las protenas del gen blanco (fig. 9-6A). Se ha demostrado asimis

mo que otros miRNA, por ejemplo en plantas, son reguladores del


desarrollo y este hallazgo, aunado a la conservacin evolucionista
potente del miRNA, condujo a esperar funciones similares para los
miRNA de mamferos.
Se han operado varios mtodos para identificar miRNA de ma
mferos (vase Gottesman, 2002, para un resumen) y sus resultados
fueron la identificacin reciente de miRNA nuevos en seres huma
nos y ratones (Lagos-Quintana y cois., 2001, 2002; Mourelatos y
cois., 2002). Para la poca en que se escribi este libro (mediados del
2003), se estimaban alrededor 200 genes miRNA humanos. Aun
que estn diseminados en muchos cromosomas, las pruebas indican
cierto agrupamiento, en especial un grupo cuando menos de siete
genes miRNA dentro de una regin de 0.8 kb en el cromosoma 13
(Mourelatos y cois., 2002). En la actualidad se llevan a cabo esfuer
zos activos para identificar genes blanco por la probabilidad de que
los miRNA de mamferos tengan funciones reguladoras de impor
tancia.

aote; se piensa que este tipo de actividad de ribonucleasa forma parte de un


sistema gentico de vigilancia conservado que puede degradar un mRNA especifico
en respuesta a la presencia de RNA de doble cadena correspondiente al mRNA
especfico. Puede utilizarse en ciertos anlisis experimentales, que se conocen como
RNA de interferencia (RNA), para inactivar de forma especfica genes blanco
dentro de clulas al cortar el RNA largo de doble cadena producido por transgenes
introducidos de modo artificial para crear molculas de RNA antisentido de unos 22
nucletidos de largo (conocidas como siRNA, RNA de interferencia corto). Las
molculas de siRNA pueden formar pares de bases con mRNA del gen endgeno que
corresponde al transgn introducido y, en consecuencia, inhibir de manera especfica
la expresin (vase seccin 20.2.6).

252

CAPTULO NUEVE

A)

ORGANIZACIN DEL GENOMA HUMANO

G G

I T

G A

I I

U
G
r r

u c

u
c c

I I I

GAG U G
I I I I I

c u c
u

lin-4

A
A

G G

I I

u u u

U U

A A

G
t
C

U
le t-7

A
A

C C

G U

C A
G U G

C C U C G U

C A A G U A A

C G C

G G G G C A

G U U C A U U

III

B)

l i l i l

C C A G G A U A G G C U G U

T i

I I I I I I I

l l i l i

m ir-26 a

I I f I I I

G G U U C U A U C C G G U A

lin-14 3 ' U TR

lin-28 3 UTR

lin-42 3 ' UTR

d a f-1 2 3 U TR

lin-41 3 U TR

lin -4 1 5
le t-7 3

------------------------------------------------------- ----------^

UUAUACAACC
GAUAUGUUGG
U

GUU
A
CUAC CUCA
GAUG GAGU
AU

5'
3'

_ _ --------------------------------

UUAUACAACC
GAUAUGUUGG
U

AUU
AU

------------------- - 200 n t

= le t-7
__ _
A
- lm -4

CUGCCUC
GAUGGAG
U

Fig. 9-6. Los micro-RNA son RNA muy cortos (21 a 22 nucletidos) que pueden funcionar como reguladores antisentido.
A) Estructura precursora del miRNA. Los stRNA lin-4 y let-7 de C. elegans pertenecen a la clase mIRNA y muestran una similitud importante con
miRNA de mamferos como el miRNA mir-26a humano. Las secuencias maduras de micro-RNA (miRNA) (sombreadas) derivan de un precursor con
repeticiones invertidas (que forman una RNA en horquilla por enlace intramolecular de hidrgeno). El corte del RNA en horquilla se lleva a cabo por un
tipo de nucleasa RN-asa III que se conoce como dicer (mquina cortadora). En ocasiones, dos miRNA diferentes derivan del mismo precursor.
B) Regulacin antisentido por los RNA lin-4 y let-7. El mRNA de genes blanco regulado por los RNA lin-4 y let-7 tiene regiones en sus 3' UTR que
muestran complementaridad muy notoria con estos miRNA. El pareamiento de bases no suele ser perfecto, como se demuestra en el pareamiento de
bases predicho entre el RNA let-7 y sus dos secuencias blanco en la secuencia 3 ' UTR lin-41. Tomado de Banerjee y Slack (2002), Bioessays 24,
119-129, reimpreso con autorizacin de Wiley-Liss, Inc., una subsidiaria de John Wiley & Sons, Inc.

Genes que codifican molculas de RNA reguladoras


de tamao moderado a grande
Un nmero cada vez mayor de genes especifica RNA no codifican
te de tamao moderado a grande con funciones reguladoras cono
cidas o posibles (muchos pueden relacionarse con molculas de
mRNA no codificante porque son transcritos por polimerasa II
de RNA y se someten a recubrimiento y poliadenilacinb). Inclu
yen genes que especifican RNA 7SK, un regulador transcripcional
negativo del alargamiento de la polimerasa II de RNA (Yang y col.,
2001); RNA SRA1 (activador del receptor de esferoides) que sir
ve como un coactivador especfico de varios receptores de esferoi

des (Lanz y cois., 1999); y X IS T , que es central para la inactivacin


del cromosoma X (seccin 10.5.6).
Se conocen asimismo varios RNA antisentido reguladores, de
tamao moderado a grande, entre ellos el transcrito antisentido
TSIX, que regula XIST, una variedad de transcritos antisentido que

bNota: mediante comparacin, la polimerasa I de RNA transcribe los RNA 28S, 18S y
5.8S; la polimerasa III de RNA transcribe los rRNA 5S, tRNA, snoRNA y miRNA; los
snRNA son una mezcla sorprendente: algunos los transcribe la polimerasa III de RNA
y otros la polimerasa II de RNA.

9.3

ORGANIZACIN, DISTRIBUCIN Y FUNCIN DE GENES HUMANOS QUE CODIFICAN POLIPPTIDOS

253

regulan genes improntos (seccin 10.5.5; vase fig. 10-24 para al


gunos ejemplos) y un gran nmero de otros transcritos antisentido
(Lehner y cois., 2002). Aunque no se conoce con precisin el nme
ro total de estos transcritos antisentido en el genoma humano, en
una revaloracin reciente de los genes en el cromosoma 22 huma
no se reconocieron 16 posibles genes RNA antisentido, lo que su
giere que puede haber alrededor de 1 500 genes RNA antisentido
en el genoma humano (Collins y cois., 2003). En apoyo de lo ante
rior, FANTOM Consortium y el RIKEN Genome Exploration Re
search Group Phase I & II Team (2002) predijeron en un estudio
muy amplio varios cientos de RNA antisentido en el ratn median
te las estimaciones ms conservadoras.

complejos es considerable la variacin de tamao de los genes, en


especial en el genoma humano (fig. 9-7). El tamao enorme de al
gunos genes humanos significa que la transcripcin puede tomar
tiempo y requerir alrededor de 16 horas para el gen de distrofina de
2.4 Mb (Tennyson y cois., 1995). Aunque existe una correlacin di
recta entre los tamaos del gen y el producto, hay algunas ano
malas notables. Por ejemplo, la apolipoprotena B tiene 4 563
aminocidos y la codifica un gen de 45 kb, pero la protena ms
grande que codifica el gen de distrofina de 2.4 Mb slo posee 3 685
aminocidos.

Organizacin, distribucin y
funcin de genes hum anos que
codifican polipptidos

Una minora muy pequea de genes humanos carece de intrones


(vase cuadro 9-5) y stos poseen casi siempre un tamao pequeo.
En los que tienen intrones, se observa una correlacin inversa entre
el tamao del gen y la fraccin del DNA codificante (fig. 9-7). Ello
no se debe a que los exones en genes grandes sean ms pequeos
que los de genes pequeos: el tamao promedio del exn en genes
humanos es menor de 200 pb y, aunque se conocen exones muy
grandes (vase recuadro 9-5), el tamao del exn es comparativa
mente independiente de la longitud del gen (cuadro 9-6). Por el
contrario, hay una gran variacin en las longitudes de intrones y los
genes grandes tienden a tener intrones muy grandes (la colgena de

9 .3

Diversidad en la organizacin exn-intrn

9.3.1 Los genes humanos muestran una enorme


variacin de tamao y organizacin interna
Diversidad de tamao
En organismos simples, como las bacterias, los genes tienen un ta
mao comparativamente similar y suelen ser muy cortos; en los

A) M e n o s d e 10 kb

0
h

B) M e n o s d e 100 kb
0

10 kb

10

20

30

M H is to ria H4 100%
In s u lin a 3 3 % |

70

60

80

90

100 kb

f C o l g e n a a-, (II) 2 0 %

In te rfe ro n a 1 0 0 %

50

A lb m in a s ric a 12%

tR N A Tir 10 0%

40

i G lo b in a 5 3 8 %

# 4 FRTH 4 %

'

* A p o lip o p ro te n a B 3 3 %

- 4

c la s e I 4 6 %

R e c e p to r L D L 11 %

H id ro x ila s a d e
fe n ila la n in a 3%

C) M s d e 100 kb
0 100 200 300 400 500 600 700 800 900 1 0 0 0 1 1 0 0 1 2 0 0
1 8 0 0 1 9 0 0 2400 2500 kb
---------1
1-1-------- 1-------- 1-------- 1-------- h ------1-------- -------- 1-------- -------- 1------------- ^ ----- j - ---------- ^ ------1--------1
I

i F actor VIII 3%
i
i
I
ii r
RTFQ
I TV* 2
c..-14 %/ o i!

*-N F l

4%

I
i(

(i

I
,i
i

I
i,
!

I
,i
i
!

,
i

',
i

I I
i, ' ,
i i
!
!

I
1, 1|
i i
!
!
I

U tro fin a 1.4%


Inm unoglobulina de cadena pesada*

In m u n o g lo b u lin a d e c a d e n a lig e ra k *

i i

i i

4 - D is tro fin a 0 .6 %

Fig. 9-7. Los genes humanos varan de tamao y contenido de exones en enorme proporcin.
Se muestra el contenido de exones como porcentaje de las longitudes de los genes indicados. Obsrvese la relacin por lo general inversa entre la
longitud del gen y el porcentaje del contenido de exones. Los asteriscos resaltan que las longitudes proporcionadas para los locus de las cadenas
pesada y ligera de Ig indicadas corresponden a organizaciones de la linea germinal. (Los genes de Ig y del receptor de clula T tienen organizaciones
nicas, que requieren reordenamientos somticos especficos de clula a fin de expresarse en linfocitos B o T, respectivamente; vase seccin 10.6.)
RTFQ, regulador transmembranoso de la fibrosis qustica; FRTH, transferasa de fosforribosilo de hipoxantina; NF1, neurofibromatosis tipo 1.

254

CAPTULO NUEVE

ORGANIZACIN DEL GENOMA HUMANO

Cuadro 9 -5 . Ejemplos de genes humanos con secuencias de codificacin ininterrumpidas.


Para listas ms detalladas, vase http://exppc01.uni-muenster.de/expath/frames.htnn

Todos los 37 genes mitocondriales


Muchos genes RNA (en especial genes que codifican RNA pequeos, p. e casi todos los genes tRNA, pero tambin algunos RNA grandes, como RNA
XIST)
Retrogenes (vase cuadro 9-11)
Interferones
Genes de histona
Muchos genes de ribonucleasa
Genes de proteina de choque por calor
Muchos receptores acoplados a proteina G
Ciertos genes con cajas HMG (p. ej., SRY, muchos genes SOX)
Varios genes de receptor de neurotransmisor y receptor de hormona, p. ej receptores de dopamina D1 y D5, receptor de serotonina 5-HT1B, receptor
de angiotensina II tipo 1, receptor pptido formil, receptor de bradicinina B2, receptor adrenrgico 2a

tipo 7 y los genes titin son excepciones muy notables; vase cuadro
9-6). Pese a ello, la transcripcin de intrones largos requiere tiem
po y energa y la seleccin natural favorece intrones cortos en genes
muy expresados (Castillo-Davis y cois., 2002).

Diversidad del contenido de DNA repetido


Con frecuencia, los genes tienen componentes de DNA repetido
dentro de intrones no codificantes y secuencias de flanqueo, pero
adems se encuentran secuencias de DNA repetido de diferentes
extensiones en DNA codificante. Es comn la repeticin tndem
de secuencias microsatlites (elementos de secuencia cortos; vase
seccin 9.4.3) y muchas reflejan tan slo frecuencias esperadas des
de el punto de vista estadstico para ciertas composiciones de bases.
Tambin es muy comn la repeticin tndem de secuencias que co
difican dominios protenicos conocidos o supuestos y pueden ser
ventajosas desde el punto de vista funcional en algunos casos al pro
porcionar un blanco biolgico ms disponible. En ocasiones, la ho
mologa de secuencias entre las repeticiones puede ser m uy alta; en
otras es posible que sea muy baja (vase cuadro 9-7).

9.3.2 Algunas veces estn agrupados genes similares


desde el punto de vista funcional en el genoma
humano, pero con mayor frecuencia estn
esparcidos en diferentes cromosomas
Como se comenta en la seccin 9.2, algunas familias de genes RNA
estn agrupadas. En familias gnicas que codifican polipptidos,
muchas veces se hallan genes que codifican productos idnticos, o
algunos con secuencias muy relacionadas, en uno o ms grupos que
pueden estar diseminados en varios cromosomas. Sin embargo, en
el genoma suelen estar dispersas algunas familias de genes funcio
nales que codifican productos que slo tienen componentes con
servados (dominios, elementos importantes, etc.). De manera
caracterstica, los genes que codifican productos funcionales rela
cionados que no muestran una homologa de secuencia muy im
portante estn esparcidos.

Genes idnticos en sentido funcional


Se sabe que dos o ms copias gnicas idnticas codifican a unos
cuantos polipptidos humanos. Con frecuencia los codifican genes
recin duplicados en un grupo gnico, por ejemplo los genes dupli
cados de globina alfa. Adems, de modo muy ocasional algunos ge
nes en diferentes cromosomas codifican polipptidos idnticos. Son
ejemplos los siguientes:
genes de histona. La base de datos de secuencias de histona NHGRI incluye una lista de un total de 86 diferentes secuencias de
histona distribuidas en 10 cromosomas distintos, aunque con
dos grupos grandes en 6p (http://genome.nhgri.nih.gov/histones/chrmap.shtml), pero algunos miembros de la subfamilia
son idnticos aunque codificados por genes en diferentes cro
mosomas;
genes de ubiquitina. La ubiquitina, de 76 aminocidos, es una
protena muy conservada que tiene una funcin esencial en la
degradacin de protenas y la respuesta celular de estrs. Los ge
nes humanos de ubiquitina se encuentran en locus diferentes
distribuidos en varios cromosomas. Algunos estn en una serie
de repeticiones de secuencias codificantes de longitud completa
que se someten a cotranscripcin (unidades de transcripcin policistrnicas). Otros son monmeros (pero fusionados con genes
ribosmicos de protenas y constituyen unidades de transcrip
cin bicistrnicas, vase Nei y cois., 2000; seccin 9.3.3).

Genes similares en sentido funcional


Una gran fraccin de los genes humanos es miembro de familias g
nicas en las que los genes individuales estn relacionados muy de cer
ca pero no son idnticos en su secuencia. En muchos de estos casos
los genes estn agrupados y surgieron por duplicacin gnica tn
dem, como en el caso de los diferentes miembros de cada uno de
los grupos de los genes de las globina a y (3 (vase fig. 9-11). Los
genes que codifican productos relacionados con claridad, pero que
se hallan en distintos cromosomas, suelen estar menos relacionados,
como se observa en los genes de las globina a y (3. No obstante,

9.3 | ORGANIZACIN, DISTRIBUCIN Y FUNCIN DE GENES HUMANOS QUE CODIFICAN POLIPPTIDOS | 255

Recuadro 9-5. Genoma humano y estadsticas de genes humanos


Tamao del genoma

-3 200 Mb

Genoma nuclear

~ 3 200 Mb

Genoma mitocondrial

37 kb

Componente eucromtico

~ 2 900-3 000 Mb

Heterocromatina constitutiva

>200 Mb (cuadro 9-2; fig. 2-15)

Fraccin muy conservada

>100 Mb (>3% )

DNA codificante

- 5 0 Mb (-1 .5 % )

Otros (regulador, etc.)

- 1 0 0 Mb (3%)

DNA duplicado de forma segmentaria


DNA repetido no codificante
Repeticiones basadas en transposn
Nmero de genes

>150 Mb (>5% )
> 50% del genoma
- 1 400 Mb (-4 3 % ; vase cuadro 9-15)
- 3 0 000-35 000

Genoma nuclear

- 3 0 000-35 000 (seccin 9.1.3)

Genoma mitocondrial

37 (seccin 9.1.2)

Por cromosoma

Promedio de - 1 400; pero depende de la longitud y tipo de cromosoma (vase fig. 8-4);
- 6 0 por banda en una preparacin cromosmica de 550 bandas

Genes gue codifican polipptidos

- 3 0 000, pero gran inseguridad

Genes RNA

- 3 000, pero cierta inseguridad (vase fig. 9-4)

Seudogenes

- 2 0 000

Densidad gnica

-1 /1 0 0 kb en el genoma nuclear; 1/0.45 kb en el genoma mitocondrial

Tamao gnico (extensin genmica)

Promedio = 27 kb, pero enorme variacin (vase fig. 9-7).

Distancia intergnica

Promedio = cerca de 75 kb en el genoma nuclear.

Numero de islotes CpG

- 3 0 000 (en secuencias del genoma filtrado para eliminar repeticiones no codificantes)

Nmero de exones

Promedio = 9. Por lo regular se correlaciona con la longitud del gen, pero hay una amplia variacin.

Numero ms grande
Nmero ms pequeo
Tamao de exn

363 (en el gen titin)


1 (es decir, sin intrones; cuadro 9-5)
Promedio = 122 pb para exones internos con variacin de longitud comparativamente pequea,
pero los exones 3' pueden ser ms largos de forma notoria (Zhang, 1998).

Exones ms grandes

Muchas kb de largo, p. ej., el exn 26 del gen apoB (APOB) es de 7.6 kb

Exones ms pequeos

< 10 pb

Tamao de intrn

Variacin enorme; correlacin directa potente con el tamao gnico (vase cuadro 9-6);

Intrones ms grandes

Cientos de kb, p. ej el intrn 8 del gen WWOX humano es - 8 0 0 kb.

Intrones ms pequeos

Decenas de pb

Tamao de mRNA

Promedio alrededor de 2.6 kb, pero gran variacin (mRNA titin tiene > 115 kb de largo!)

5' UTR

Promedio alrededor de 0.2-0.3 kb

3' UTR

Promedio alrededor de 0.77 kb pero es probable que sea una subestimacin por menos informacin
de 3' UTR largas

Tamao del RNA no codificante


Tamao de polipptidos

Muy variable; de -2 1 -2 2 nucletidos (micro-RNA) a muchos kb, p. ej., XIST (17 kb)
Promedio alrededor de 500-550 aminocidos

Polipptido ms grande

Titin: 38 138 codones en el gen titin (pero variacin de longitud considerable)

Polipptidos mas pequeos

Decenas de aminocidos, p. ej., varias hormonas pequeas, etc.

en la familia gnica homeobox HOX, que consiste en grupos de


anos 10 genes en cada uno de cuatro cromosomas, genes indivi
duales en diferentes cromosomas pueden estar ms relacionados
entre s que respecto de los miembros del mismo grupo gnico (fig.
.2-9). Adems de lo anterior, genes que codifican isoformas especr.cas de tejido relacionadas, o isozimas especficas de compartimien
to subcelular, casi siempre se localizan en diferentes cromosomas
vase cuadro 9-8).

Genes relacionados en sentido funcional


Algunos genes codifican productos que es muy posible que no ten
gan una secuencia relacionada muy cercana, pero se relacionan con
claridad desde el punto de vista funcional. Los productos pueden
ser subunidades de la misma protena o estructura macromolecular,
componentes de la misma va metablica o del desarrollo o tal vez
se requieran para enlazarse de manera especfica entre s como los

256 1 CAPTULO NUEVE | ORGANIZACIN DEL GENOMA HUMANO

C uadro 9 -6 . Tamaos promedio de exones e intrones en genes humanos.


Producto gnico

Tamao del gen (kb)

Nmero de exones

Tamao promedio
de exn (pb)

Tamao promedio
de intrn (pb)

tRNA,r

0.1

50

20

Insulina

1.4

155

480

Globina p

1.6

150

490

HLA clase 1

3.5

187

260

Albmina srica

18

14

137

1 100

Colgena tipo VII

31

118

77

190

Complemento C3

41

29

122

900

Hidroxilasa de fenilalanina

90

26

96

3 500

Factor VIII

186

26

375

7100

CFTR (fibrosis qulstlca)

250

27

227

9100

Titin

283

363

315

466

2 400

79

180

30 770

Distrofina

Cuadro 9 -7 . Ejemplos de DNA intragnico de codificacin repetida a gran escala.


Producto gnico

Tamao de repeticin
codificada en aminocidos

Nm. de
copias

Homologa de secuencia de nucletidos


entre copias

Involucrina

10

59

Homologa alta para 39 repeticiones centrales

Apolipoprotena? (a)

114 = repeticiones parecidas


a kringle 4a

37

Homologa alta; 24 de las repeticiones tienen una


secuencia idntica

Plasmingeno

~ 75-80

Colgena

18

Albmina srica

195

Homologa baja

Genes de protenas ricos en prolina

16-21

Homologa baja

Tropomiosina de cadena a

42

Homologa baja

Inmunoglobullna de cadena e, regin C

108

Homologa baja

Distrofina

109

24

Homologa baja

5
57

Homologa baja pero dominios protenicos conservados


(kringles3)
Homologa baja pero elementos de aminocidos
conservados basados en (Gli-X-Y)6

aUn kringle es una secuencia rica en cisterna que contiene tres puentes disulfuro internos y crea una estructura en forma de pretzel".

ligandos y sus receptores importantes. En casi todos estos casos, los


genes no estn agrupados y suelen hallarse en diferentes cromoso
mas (vase cuadro 9-8 para algunos ejemplos).

9.3.3 En ocasiones se encuentran en el genoma


humano genes superpuestos, genes dentro de
genes y unidades de transcripcin policistrnicas
Organizacin gnica bidireccional y genes superpuestos
de modo parcial
Los genomas simples tienen densidades gnicas altas (por lo gene
ral uno por 0.5 kb, 1 kb y 2 kb en los genomas de mitocondrias

humanas, E. coli y S. cerevisiae, respectivamente) y a menudo


muestran ejemplos de genes superpuestos de forma parcial. Pue
den utilizarse diferentes marcos de lectura, algunas veces de una
cadena en sentido comn (vase fig. 9-3). Los genes de organismos
complejos estn mucho menos agrupados (slo un gen por 100 kb
en el genoma nuclear humano) y no son tan comunes los genes su
perpuestos. Sin embargo, en ocasiones se encuentran genes veci
nos muy cercanos, algunos con sus extremos 5 ' separados por unos
cuantos cientos de nucletidos y que se transcriben de cadenas
opuestas. Esta organizacin gnica bidireccional suele encon
trarse, por ejemplo, en los genes de reparacin de DNA y pueden
proporcionar regulacin comn del par gnico (Adachi y Lieber,
2002).

9.3

ORGANIZACIN, DISTRIBUCIN Y FUNCIN DE GENES HUMANOS QUE CODIFICAN POLIPPTIDOS

257

Cuadro 9 -8 . Distribucin de genes que codifican productos relacionados desde el punto de vista funcional.
Genes que codifican

Organizacin

Ejemplos

El mismo producto

Con frecuencia agrupados pero


tambin pueden estar en
diferentes cromosomas

Los dos genes de globina a en 11p (fig. 9-11); genes que codifican rRNA
(fig. 10-2); algunas subfamlias de histona
(vase httD://aenome.nhari.nih.aov/histones/chrmaD.shtmh

Isoformas o isozimas de
protena especfica de tejido

En ocasiones agrupados;
algunas veces no sintnicos

Agrupamiento de genes de amilasa pancretica y salival (1p21); no hay


sintenia de genes de actina a expresados en msculo esqueltico (1 p) y
cardiaco (15q)

Isozimas en diferentes
compartimientos celulares

Por lo general no sintnica

Isozimas citoplsmica (c) y mitocondrial (m) para diversas enzimas, p. ej.,


deshidrogenasa de aldehido (c)-9q y deshidrogenasa de aldehido (m)-12q;
cinasa de timidina (c)-17q y cinasa de timidina (m)-16q

Enzimas en la misma va
metablica

Por lo general no sintnica

Genes de enzimas codificantes en esteroidognesis: hidroxilasa 8q de


11 esteroides; hidroxilasa 10q de 17 esterodes; hidroxilasa 6p de 21
esteroides

Subunidades de la misma
protena

Por lo general no sintnica

Globina a-16p y globina (3-11 p; cadena pesada de ferritina 11 q y


cadena ligera de ferritina 22q

Componentes de va de seal
que interactan

Por lo general no sintnica

JAK1 -1 p; STAT1-2q

Ligando ms receptor
relacionado

Por lo general no sintnica

Insulina 11 p y receptor de insulina 19p; interfern p-9p; interfern p


de receptor 21 q

Los genes superpuestos de form a p arcial en los genomas nu


cleares compuestos de mamferos son raros y, cuando se presentan,
suelen transcribirse a partir de dos cadenas de DNA diferentes. Se
observa una agrupacin gnica fuerte en regiones subcromosmicas
con abundancia de GC y las regiones de densidad gnica en parti
cular alta muestran con frecuencia algunos casos de genes super
puestos. Por ejemplo, la regin clase III del complejo HLA en
6p21.3 tiene una densidad gnica aproximada de casi un gen por
! 5 kb y se sabe que incluye varios ejemplos de genes superpuestos
fig. 9-8A).

Genes dentro de genes


Los genes RNA nucleolares pequeos (snoRNA) son poco comunes
porque casi todos estn localizados dentro de otros genes, a menudo
algunos que codifican una protema vinculada con el ribosoma o una
protena nucleolar. Es posible que esta disposicin se conservara pa
ra permitir la produccin coordinada de protenas y componentes
de RNA del ribosoma (Tycowski y cois., 1993). Adems de los genes
noRNA, algunos otros, incluidos varios genes que codifican polipptidos, se hallan dentro de intrones de genes ms grandes. Los
eiemplos ilustrativos son el gen NF1 (neurofibromatosis tipo I; tres
genes internos pequeos transcritos de la cadena opuesta; vase fig.
9-8B); el gen F8 (factor VIII de la coagulacin sangunea; dos genes
internos transcritos en direcciones opuestas; vase fig. 11-20); y el
gen RB1 (susceptibilidad al retinoblastoma; un gen interno transcri
to de la cadena opuesta; vase fig. 9-19).

_ nidades de transcripcin policistrnicas


unidades de transcripcin policistrnicas (es decir, multignison comunes en los genomas simples de bacterias y asimismo
encuentran con gran frecuencia en C. elegans. El genoma mitoa d r ia l humano simple (seccin 9.1.2.) y los grupos mayores del

gen rRNA (fig. 10-2) proporcionan dos ejemplos de unidades de


transcripcin policistrnica en el genoma humano. Adems, se co
nocen algunos ejemplos raros de unidades de transcripcin bicistrnicas que codifican polipptidos en el genoma nuclear: la
transcripcin se inicia a partir de un gen y contina a travs de un
gen contiguo corriente abajo para suministrar una protena precur
sora que se corta para proporcionar diferentes protenas.
Por lo regular se considera que las cadenas A y B de la insulina
derivan de una unidad de transcripcin bicistrnica (fig. 1-23), pe
ro estn relacionadas de manera estrecha desde el punto de vista fun
cional. Sin embargo, algunas veces las unidades de transcripcin
bicistrnicas generan protenas distintas desde el punto de vista fun
cional. Por ejemplo, los genes UBA52 y UBA80 crean ubiquitina y
una protena ribosmica, S27a o L40, respectivamente. Otros genes
de ubiquitina estn organizados como repeticiones tndem de se
cuencia codificante completa que forman unidades de transcripcin
policistrnicas (vase Nei y cois., 2000). En los genes de ubiquitina
no hay intrones pero en otras unidades de transcripcin bicistrni
cas se requiere empalme (corte y unin) para enlazar transcritos de
exones de un gen en los de un gen corriente abajo. La unidad de
transcripcin SNURF-SNRPN proporciona un ejemplo de dos po
lipptidos codificados por diferentes exones (Gray y cois., 1999), pe
ro tambin se utiliza para hacer transcritos de RNA no traducidos
que se improntan de forma paterna; vase la figura 10-24.

9.3.4 Las familias gnicas que codifican polipptidos


pueden clasificarse de acuerdo con el grado
y extensin de la relacin de la secuencia
en miembros de la familia
Un gran porcentaje de genes humanos que se expresan de modo ac
tivo, y codifican RNA no codificante y polipptidos, es miembro
de familias de secuencias de DNA que muestran una gran simili-

258

CAPITOLO NUEVE

ORGANIZACIN DEL GENOMA HUMANO

A)
C4B

PBX2
G18

CYP C4A
21 Ps / G11

G5b CKIIB

/ / C2

LTB nb6
1kBL

G11a
RD G10
' Bf I
G9

I G15 TN-X
I G14 \ X
I / G13

1C7
\B 1 4 4

MICA NOB1 NOB2

PERB10 \
2

I P5-6

BAT1 PERB6 \ \ \
/ DHFRPs
MICB \
\ \ \ | / / 1 7 NOB3

I G9a | G8 \

PPIPs

1200

1300

1400

1500

1600

---I------- 1
1700

---- 1
----

---- 1
----

---- 1
---- n i

1900

1800

2000

(2080)

0.9 M b: - 7 0 g e n e s

B)

E xn 26

E xn 27

In tr n


Cadena de sentido
5' I 1 -------del gen NF1

26
3'
5'

Cadena antisentido 3 ' L


del gen NF1
OGMP

i---------1
2.2 kb

EVI2B
h-

EVI2A
I-

10 kb

4 kb

Fig. 9-8. Genes superpuestos y genes dentro de genes.


A) Genes superpuestos. Los genes en la regin clase III del complejo HLA estn empacados de forma estrecha y superpuestos en algunos casos.
B) Genes dentro de genes. El intrn 26 del gen de la neurofibromatosis tipo 1 (NF1) contiene tres genes de dos exones internos cada uno transcritos de
la cadena opuesta a la utilizada para transcribir el gen NF1. Los genes son: OGMP, glucoprotena de mielina del oligodendrocito; EVI2A y EVI2B,
homlogos humanos de genes murinos que tal vez participen en la leucemognesis y se localicen en sitios de integracin viral Bcotrpicos.

tud secuencial. Sin embargo, la extensin de la secuencia comparti


da y la organizacin de los miembros de la familia pueden variar en
gran proporcin. Es posible que muchos miembros de la familia no
sean funcionales (seudogenes y fragmentos gnicos; vase ms adelan
te) y acumulen en poco tiempo diferencias de secuencias, que con
ducen a una divergencia secuencial notable.

Familias gnicas comunes


Los miembros de familias gnicas comunes muestran una gran ho
mologa de secuencias en la mayor parte de la longitud del gen o,
cuando menos, en el componente de DNA codificante. Los ejemplos
incluyen familias del gen de histona (las histonas estn muy conser
vadas y los miembros de subfamilias son virtualmente idnticos) y las
familias del gen de las globinas a y (3 (los miembros de una familia
individual muestran un alto grado de similitud secuencial).

Familias gnicas que codifican productos con dominios


grandes y muy conservados
En algunas familias gnicas hay una homologa en especial notable
dentro de regiones especficas de los genes muy conservadas; la si
militud secuencial correspondiente entre la porcin restante de la
secuencia codificante en los diferentes genes puede ser muy baja. A
menudo, estas familias codifican factores de transcripcin que tie
nen funciones importantes en el desarrollo temprano y la secuencia
conservada codifica un dominio protenico que se requiere para en
lazarse de forma especfica al DNA de genes blancos seleccionados
(vase cuadro 9-9).

Familias gnicas que codifican productos con secuencias


tpicas conservadas de aminocidos cortos
Es posible que algunos miembros de ciertas familias gnicas no se
relacionen de forma evidente a nivel de las secuencias de DNA, pe
ro no obstante codifican productos gnicos que se caracterizan por
una funcin general comn y la presencia de secuencias tpicas muy
cortas conservadas, como la caja DEAD, la secuencia Asp-Glu-AlaAsp (DEAD en el cdigo de una letra de aminocidos) o la repeti
cin W D (triptfano-aspartato); vase la figura 9-9.

Superfamilias gnicas
Los miembros de una superfam ilia de genes se relacionan de mo
do mucho ms distante en trminos evolucionistas que los de una
familia de genes de dominio/secuencia tpica comn o conservada.
Codifican productos relacionados desde el punto de vista funcional
en un sentido general y slo muestran una homologa de secuencia
muy dbil en un segmento grande, sin secuencias tpicas de ami
nocidos conservadas muy importantes. Por el contrario, es posible
que haya algunas pruebas de caractersticas estructurales generales
comunes y una funcin general vinculada. Los ejemplos ilustrativos
son:
la superfam ilia de inmunoglobulina (fig. 9-10): una familia
muy grande que incluye los genes de inmunoglobulina (Ig), ge
nes del receptor de clula T, genes HLA y muchos otros. Los ge
nes codifican productos divergentes en grado considerable a
nivel secuencial, pero que funcionan en el sistema inmunitario
y contienen dominios parecidos a inmunoglobulina (Ig);

9.3

ORGANIZACIN, DISTRIBUCIN Y FUNCIN DE GENES HUMANOS QUE CODIFICAN POLIPPTIDOS

259

Cuadro 9 -9 . Ejemplos de genes humanos con elementos de secuencia tpica que codifican dominios muy conservados.
Fam ilia gnica

N m ero de genes

E lem entos de secuencia tp ic a /d o m in io

Genes homeobox

38 genes HOX (vase fig. 12-9)


ms 214 genes homeobox hurfanos

Homeobox especifica un homeodominio de unos 60 aminocidos.


Se ha definido una amplia variedad de diferentes subclases

Genes PAX

Box pareada codifica un dominio pareado de -1 2 8 aminocidos;


los genes PAX suelen tener adems un tipo de homeodominio conocido
como homeodominio tipo pareado

Genes SOX

18

Caja HMG parecida a SRY que codifica un dominio de unos 69 aminocidos

Genes TBX

18

Caja T que codifica un dominio de unos 170 aminocidos

Genes de dominio en horquilla

49

El dominio en horquilla tiene - 1 1 0 aminocidos de largo

Genes de dominio POU

24

El dominio POU tiene - 1 5 0 aminocidos de largo

A)

C aja DEAD
22-42

n h 2

B)

axxgxgkt

1 9 -2 9
P TRELA

6 -9 4

17-29
GG

17 -2 3
TP G R

19-51
DEAD

11 5 -1 9 2
SAT

20-25
ARGXD

HRIG R COOH

23-41

R e p e tic i n W D ( ----------------- G H ------------------W D j ) n = 4 -1 6


C e n tro

Fig. 9-9. Algunas familias gnicas se definen por productos gnicos relacionados desde el punto de vista funcional que llevan secuencias
tpicas muy cortas de aminocidos conservados.
A) Secuencias tpicas en la familia caja DEAD. Esta familia gnica codifica productos relacionados con los procesos celulares que incluyen la alteracin
de la estructura secundaria del RNA, como el inicio de traslacin y empalme (corte y unin). Son obvias ocho secuencias tpicas de aminocidos muy
Dien conservadas, incluida la caja DEAD (Asp-Glu-Ala-Asp). Los nmeros se refieren a los lmites de tamao que suelen encontrarse en secuencias
ntermedas de aminocidos (vase Schmid y Linder, 1992). X, cualquier aminocido. Vase la contraportada para el cdigo de aminocidos de una
letra. B) Familia repetida WD. Esta familia gnica codifica productos que participan en una diversidad de funciones reguladoras, como la regulacin
de la divisin celular, transcripcin, sealamiento transmembranoso, modificacin de mRNA, etc. Los productos gnicos se caracterizan por cuatro a 16
repeticiones tndem de WD, que consisten en alrededor de 44 a 60 aminocidos cada una y que contienen una secuencia central de longitud fija que
comienza con un dipptido GH (gii-his) y termina en el dipptido WD (Trp-Asp) precedido por una secuencia de longitud variable (vase Smith y cois.,
1999).

la superfamilia de globina: una familia pequea que no slo


incluye los miembros de las familias gnicas de las globinas a y
(3 (fig. 9-11) que funcionan en el transporte de oxgeno y el al
macenamiento de sangre, sino tambin genes equivalentes que
codifican globinas musculares y cerebrales, mioglobina y neuroglobina, respectivamente (vase fig. 12-4);
la superfamilia del receptor acoplado a protena G: una fa
milia muy grande y diversa de receptores que median seales in
ducidas por ligando entre los ambientes extracelular e
intracelular a travs de la interaccin con protenas G intracelulares. Comparten una estructura comn de siete segmentos
transmembranales de hlice a , pero casi siempre tienen una si
militud secuencial baja (< 40%) entre s.

9.3.5 Los genes en familias gnicas humanas pueden


estar organizados en grupos pequeos o
esparcidos con amplitud, o ambas cosas
Las familias gnicas humanas pueden clasificarse en las que mues
tran pruebas de agrupamiento gnico cercano y las que se encuen
tran diseminadas en varios sitios cromosmicos diferentes. Sin
embargo, esta clasificacin es un poco arbitraria ya que algunas fa
milias gnicas consisten en mltiples grupos de genes en diferentes
sitios cromosmicos (vase cuadro 9-10) y otras, como la familia
de genes de histona (http://genome.nhgri.nih.gov/histones/chrmap.shtml), pueden estar dominadas por uno o dos grupos grandes
pero tambin tienen varios genes hurfanos esparcidos.

260

CAPITULO NUEVE

ORGANIZACIN DEL GENOMA HUMANO

C adena
lig e ra

G!
g !

Cadena^
pesada

.^ s
T4

<b

<S* / v
if .O 1

Y s - s f

a o y

Cadena
pesada

8o

C J

G! IO
i G!i IO
i
Gl IO Gl IO C

(V s,S M)

V I

g
C^S

C adena
pesada

Gv
G\\ (p Q v ^ O
cbQ

/ " 'S

( V I

S^~ x
I V

v_>s
T8

-sS
C I

In m u n o g lo b u lin a en
la s u p e rfic ie c e lu la r

I C t

Cadena
lig e ra

s v _ y (p2M)

A n tg e n o
H L A c la s e I

R e c e p to r
d e c lu la T

A n tg e n o
H L A c la s e I

Fig. 9-10. Los miembros de la superfamilia Ig son protenas de superficie con tipos similares de estructura de dominio.
Se ilustran unos cuantos ejemplos de la superfamilia Ig grande. Muchos miembros son dmeros que consisten en dominios variables (V) extracelulares
localizados en los extremos N y dominios constantes (C), situados en los extremos terminales C (membrana proximal). La cadena ligera de antgenos
HLA clase I, microglobulna p 2, tiene un dominio constante nico y no abarca la membrana. Se vincula con la cadena pesada transmembranosa que
tiene dos dominios variables y uno constante, lo que crea una estructura total similar a la de los antgenos HLA clase II.

10

30

20

40

i
^2

G ru p o de g lo b in a a 16 p 1 3.3

Vlj1 2 Val

50
a2

a-!

60
9

-m Gy

Ay

v|/(3

-m-m

G ru p o d e g lo b in a p 11 p 1 5.5

---------------------------------

Grupo de hormona del crecimiento 17q23


hG H -N

O
C S -L

s
-

I i~

- i b
C S -A

C la ve

Gen
expresado

E xpresado,
p e ro e s ta d o
in c ie rto

S eu d o g e n

- o

--------- hG H -V

C S -B

Gaipo de albmina 4q12


A LB

AFP

20

40

A LF

60

80

G C /D B P

100

120

140

160

180

Fig. 9-11. Ejemplos de familias gnicas agrupadas humanas.


Los genes en un grupo tienen una secuencia relacionada de cerca y se transcriben de manera caracterstica a partir de la misma cadena. Es incierto el
estado funcional de los genes de globina 9 y genes CS-L. Las escalas en la parte superior (grupos de globina y hormona del crecimiento) y en la
inferior (grupo de albmina) aparecen en kilobases.

9.3

ORGANIZACIN, DISTRIBUCIN Y FUNCIN DE GENES HUMANOS QUE CODIFICAN POLIPPTIDOS

261

Cuadro 9 -1 0 . Ejemplos de familias multignicas agrupadas y dispersas.


Familia

Nm. de
copias

Organizacin

Localizacin(es)
cromosmica(s)

Agrupado dentro de 67 kb; un seudogen convencional


Agrupado en - 5 0 kb (vase fig. 9-11)
Agrupado en ms de 2 Mb (vase fig. 9-12)

17q22-24
16p13.3
6p21.3

A) FAMILIAS GNICAS AGRUPADAS


Familias gnicas de grupo nico
Grupo gnico de hormona del crecimiento
Grupo gnico de globina a
Genes de cadena pesada HLA clase 1
Familias gnicas de grupos mltiples
Genes HOX
Familia gnica de histona
Familia gnica del receptor olfatorio

5
7
-2 0
38
61
> 900

Organizado en cuatro grupos en 2p, 7 ,1 2 ,1 7 (vase fig. 12-9)


Grupos de tamao moderado en unas cuantas localizaciones;
dos grupos grandes en el cromosoma 6
Alrededor de 25 grupos grandes diseminados en la totalidad
del genoma

Muchos
Muchos

B) FAMILIAS GNICAS DISPERSAS


Deshidrogenasa de piruvato
Aldolasa

2
5

PAX
NF1 (neurofibromatosis tipo I)

9
> 12

Cadena pesada de ferritina

> 15

Gen que contiene un intrn y un retrogen expresado en testculo


Tres genes funcionales y dos seudogenes en cinco cromosomas
diferentes
Los nueve son genes funcionales
Un gen funcional en 17q; otros son copias de DNA defectuoso
no procesadas (fig. 9-13)
Un gen funcional en el cromosoma 11; casi todos son
seudogenes procesados

Xp22; 4q22-q23
Muchos
Muchos
Muchos; sobre todo
pericentromricos
Muchos

Familias gnicas organizadas en un grupo aislado

Familias de genes organizadas en mltiples grupos gnicos

Se piensa que los genes en un grupo gnico individual se originan


por fenmenos de duplicacin gnica tndem (fig. 12-3). Son ob
vias diferentes organizaciones:

Algunas familias de genes estn organizadas en mltiples grupos.


En ocasiones, estos ltimos pueden estar relacionados muy de cer
ca en el mismo cromosoma como resultado de una duplicacin re
ciente, por ejemplo los grupos invertidos que contienen los genes
SMN1 y SMN2 vinculados con la atrofia muscular espinal (vase
Frugier y cois., 2002). No obstante, con mayor frecuencia estn dis
tribuidos en dos o ms sitios cromosmicos. Son evidentes diferen
tes organizaciones. Algunas familias muestran una similitud
comparativamente alta entre genes en diferentes grupos; en otras es
menor. Un ejemplo notable es la fa m ilia gnica del receptor olfatorio
que codifica un repertorio diverso de receptores que permiten dife
renciar miles de distintos aromas. Los ms de 900 miembros de es
ta familia estn organizados en grupos grandes en ms de 25 sitios
cromosmicos diferentes y representan todos los cromosomas apar
te de los cromosomas 20 y Y (Glusman y cois., 2001).
La homologa secuencial suele ser mayor dentro de un grupo
que entre varios (comprese, por ejemplo, los miembros del gru
po de la globina a en l6 p con los del grupo de la globina p en 1 lp ;
vase fig. 12-4), pero en ocasiones, debido a seleccin funcional
fuerte, los genes en diferentes grupos pueden estar ms relaciona
dos entre s respecto de los de un mismo grupo, como en el caso de
los genes HOX(fig. 12-9).

organizacin gnica tndem. Los genes estn muy relacionados

entre s en trminos de la secuencias y la funcin, aunque cier


tos miembros de la familia tal vez no sean funcionales. Existen
muy pocos ejemplos de genes que codifican polipptidos (los
genes de poliubiquitina son un ejemplo notable), pero varias fa
milias de genes RNA (rRNA, U2 snRNA) muestran esta orga
nizacin;
grupo cerrado. Los genes no estn muy repetidos en tndem;

por el contrario, estn agrupados de manera estrecha y puede


regularlos una regin d e control d el locus nica; vase el ejemplo
de los grupos de genes de las globinas a y P en la figura 9-11.
Los genes individuales suelen mostrar una gran identidad secuencial y funcional entre s, pero muchos miembros de la fa
milia pueden ser seudogenes (seccin 9.3.6);
grupos compuestos. Sin embargo, en otras familias gnicas agru

padas la relacin fsica entre los genes en un grupo puede ser


menos cercana y es posible que un grupo de genes relacionados
tambin contengan dentro de l genes que no estn relaciona
dos en la secuencia y la funcin, lo que constituye un grupo g
nico compuesto. Por ejemplo, el complejo HLA en 6p21.3 lo
dominan familias gnicas que codifican antgenos de clases
HLA clases I y II y varios factores de complemento sricos, pe
ro miembros individuales de la familia pueden estar separados
por genes no relacionados en sentido funcional, como los
miembros de la familia gnica de la 21-hidroxilasa de esteroides,
etctera.

Familias gnicas dispersas


Los miembros de algunas familias estn diseminados en dos o ms
sitios cromosmicos diferentes. Los genes en distintas localizacio
nes suelen divergir mucho en sus secuencias, a menos que ocurra
una duplicacin gnica relativamente reciente o una presin de se
leccin considerable para conservar las secuencias. Es posible que
los miembros de la familia se originen por:

262 t CAPTOLO NUEVE

ORGANIZACIN DEL GENOMA HUMANO

tiene un intrn y una copia gnica procesada funcional (vase


seccin siguiente).

genom as diferentes. El genoma mitocondrial original pudo pro


ceder de una bacteria aerobia con transferencia subsecuente de
muchos de los genes bacterianos originales al genoma nuclear.
Como resultado, este ltimo contiene genes duplicados, que co
difican isoformas especficas de citoplasma y especficas m itocondriales para ciertas enzimas y otros productos metablicos
fundamentales (vase cuadro 9-8 para algunos ejemplos).

acontecim ientos antiguos de duplicacin d el gen!genom a. De ma


nera caracterstica, las familias de este tipo slo contienen unos
cuantos miembros, como se observa en la familia gnica PAX, y
al parecer evolucionaron por una combinacin de aconteci
mientos de duplicacin gnica, duplicacin del genoma, o am
bas, durante un periodo prolongado del tiempo evolucionista.
Por lo general, todos los miembros de la familia, o muchos de
ellos, son funcionales y la homologa secuencial importante en
tre los productos gnicos puede restringirse a dominios cruciales
fundamentales, por ejemplo el dominio pareado de productos
del gen PAX.
m ediante sucesos d e retrotransposicin. Algunas familias gnicas se
expandieron en fecha comparativamente reciente en trminos
evolucionistas por un proceso mediante el cual el RNA transcri
to de uno o un nmero pequeo de genes funcionales se con
vierte por accin de la transcriptasa inversa celular en cDNA
natural, que a continuacin se integra en alguna parte de los
cromosomas. La mayor parte de estas copias no es funcional,
pero algunas familias gnicas tienen un gen funcional que con

A)

9.3.6 En familias multignicas se encuentran casi


siempre seudogenes, copias de genes truncadas
y fragmentos gnicos
Las familias de genes que codifican polipptidos (y genes RNA) se
caracterizan por copias defectuosas (seudogenes), en esencia de toda
la secuencia de un gen funcional (o cuando menos su secuencia co
dificante) o de porciones de ella, por ejemplo copias truncadas que
carecen de los extremos 5' o 3' o fragmentos internos, en algunos
casos un exn aislado. Se encuentra una gran variedad de diferentes
clases. Los ejemplos siguientes ilustran los tipos de copias gnicas
defectuosas que se hallan en diferentes tipos de familias gnicas.

Seudogenes no procesados en un grupo gnico


Con frecuencia, grupos gnicos individuales tienen copias defectuosas
de genes que se copiaron a nivel de DNA genm ico por duplicacin
gnica tndem. Las copias pueden contener secuencias que corres
ponden a exones, intrones y regiones promotoras de los genes funcio
nales (seudogenes no procesados), pero suele reconocerse que son
defectuosas por la presencia de codones de terminacin inapropiados
en secuencias que corresponden a exones. Se encuentran ejemplos co
munes en los grupos de globinas a y (3 (vase fig. 9-11).

3' UTR
L a-) a 2 a 3 T M CY v V M W -

B)

-2 .2 Mb
B

H = H > B K } 0 -D 0 -{ X 1 M

/ n t a

a 2

3' UTS
\ a 2 3 TM

CY W A V W -

3' UTS
agl _ (I3 TM CY ^ v A M W -

Fig. 9-12. Las familias gnicas agrupadas contienen con frecuencia seudogenes no procesados y genes truncados o fragmentos gnicos:
ejemplo de la familia de gen HLA clase I.
A) Estructura del mRNA de una cadena pesada HLA clase I. El mRNA de longitud completa contiene una secuencia que codifica polipptidos; los
cuadros representan diferentes dominios, como sigue: L, secuencia rpida; a ,, a 2, a 3, dominios extracelulares; TM, secuencia transmembranosa; CY,
cola citoplsmica; y una secuencia no traducida 3' (3' UTS). En esencia, los tres dominios extracelulares a r a 3 los codifica un exn aislado. No se
muestra la 5' UTS muy pequea. B) Grupo gnico de la cadena pesada de HLA clase I. El grupo se localiza en 6p21.3 y comprende alrededor de
20 genes. Incluye seis genes expresados (azul), cuatro seudogenes no procesados de longitud completa ( ) y una variedad de copias gnicas
parciales (cuadros rojos, abiertos, pequeos). Algunos de estos ltimos estn truncados en el extremo 5' (p. ej., el siguiente a HLA-B), otros en el
extremo 3' (como el siguiente a HLA-F) y algunos contienen exones nicos (p. ej., el siguiente a HLA-E).

9.3

ORGANIZACIN, DISTRIBUCIN Y FUNCIN DE GENES HUMANOS QUE CODIFICAN POLIPPTIDOS 263

Genes truncados y fragmentos de genes internos


en un grupo genico
La familia del gen HLA clase I en 6p21.3 es un ejemplo tpico de
un grupo genico caracterizado por seudogenes no procesados, co
pias de genes truncadas y fragmentos gnicos. Aunque el nmero
de genes HLA de clase I puede variar en distintos cromosomas 6s,
el anlisis amplio de uno de ellos identific 17 miembros de la fa
milia agrupados en 2 Mb que comprendan: seis genes expresados,
cuatro seudogenes de longitud completa convencionales, cinco co
pias de genes truncadas y dos fragmentos gnicos internos peque
os (Geraghty y cois., 1992; vase fig. 9-12). La familia tambin se
origin por duplicaciones gnicas tndem y las copias de genes
fragmentados surgieron por cruzamiento desigual o intercambio de
sigual d e cromtides hermanas (seccin 11.3.2).

tambin son comparativamente inestables y propensas a duplica


cin (Eichler, 2001; Mefford yTrask, 2002). Son una contribucin
importante a la duplicacin segmentaria especfica de primates
que constituye ms de 150 Mb del genoma humano, aunque al pa
recer el efecto de inestabilidad es en parte especfico de cromoso
mas (vase Bailey y cois., 2002; seccin 12.2.5).
En el gen NF1, estn distribuidas en siete diferentes cromoso
mas cuando menos 11 copias de fragmentos no procesados de seudogn/gen (que contienen secuencias que semejan intrones NF1 y
asimismo exones), nueve de ellas localizadas en las regiones pericen
tromricas (Regnier y cois., 1997; vase fig. 9-13). El gen PKD1 tie
ne 46 exones que abarcan 50 kb. Se replic con fidelidad una copia
del gen 5' truncado que comprende alrededor de 70% del gen
(exones 1 a 34 ms intrones intermedios) cuando menos tres veces
y se insert en un sitio ms proximal en 16pl3.1 (European
Polycystic Kidney Disease Consortium, 1994).

Seudogenes no procesados en una familia genica dispersa


Dos ejemplos ilustrativos son las secuencias relacionadas con los ge
nes NF1 (neurofibromatosis tipo I) y PKD1 (enfermedad poliqustica del rin adulto). Estos genes se localizan, de manera
respectiva, en 17 q l 1.2, cerca del centrmero (pericentrom ricd) , y
16pl3.3, cerca del telmero (subtelomricd) . De manera caracters
tica, las regiones pericentromricas humanas estn compuestas de
secuencias que se copiaron en poca reciente durante la evolucin
y que se hallan en varios cromosomas. Las regiones subtelomricas

Seudogenes procesados en una familia gnica dispersa


que codifica polipptidos
Las familias gnicas dispersas poseen casi siempre copias de genes
defectuosas que contienen secuencias que corresponden a los exo
nes de un gen funcional (pero no los intrones) y por lo general in
cluyen en un extremo una secuencia oligo (dA)/(dT). Estos
seudogenes procesados se copiaron a nivel d el cDNA por retrotransposicin (vase asimismo seccin 9.5.1). Las transcriptasas in-

G en N F 1 17 q 1 1.2; 60 e xo n e s

l l l l l l l l ll I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I MI MIHHIHB
10b
27b
l * * l I I I I I I l |***********|
' II I I I I I I I

2q12-q13
1 4p 1 1o q 11
22p11<>q11
39-41

11

1617

l l l***l

4 f 12q11

-H+

18p11.2
21 p11 <>q11

11p14.3

13

27b

111111111111H H+h
15p11.2 (2x)

Fig. 9-13. Los seudogenes no procesados esparcidos se originan a partir del gen de NF1 perlcentromrico (neurofibromatosis tipo I).
Los exones estn representados como rectngulos verticales delgados. Para conveniencia, los intrones en el gen NF1 se representan como si tuvieran
longitudes iguales. Aunque el gen NF1 tiene 60 exones, la numeracin de los exones discurre del uno al 49 con ciertos exones vecinos a los que se
asign el mismo nmero, pero distintas letras (p. ej., exones 10a, 10b y 10c). Se encuentran copias de seudogenes muy homlogos del gen NF1 en
otras ocho o ms localizaciones del genoma, sobre todo en regiones pericentromricas. En cada caso, el seudogn slo comprende una copia de una
porcin de la longitud total del gen, con algunos exones e intrones intermedios. Son aparentes los reordenamientos de los seudogenes. Algunos
causaron delecin de exones e intrones (se muestran con asteriscos). Uno particip en una inversin de tal manera que la copia 39 del exn est
invertida en comparacin con las copias de exones contiguos. Datos proporcionados gentilmente por Nick Thomas y Meena Upadhyaya, University of
Wales College of Medicine.

264

CAPTULO NUEVE

E1

E2

H
5'

ORGANIZACIN DEL GENOMA HUMANO

E3
3'
5'

T ra n s c rip c i n y
p ro c e s a m ie n to d e R N A

E1 E2 E3
AAAA.... A

3'

In te g ra c i n en
D N A c ro m o s o m ic o

mRNA

AAAAANn

T ra n sc rip ta s a
in v e rs a

TTTTT

5'

5'

S n te sis d e la
segunda cadena
y re p a ra c i n d e D N A

E1 E2 E3
3'

3'

cD N A

5' ------- AAAAAN A A A A .... A A A A A A N n


3' ------- 1 1 1 1 i N' T T T T .... T TTTTTN'

Fig. 9-14. Los seudogenes y retrogenes procesados se originan por transcripcin inversa de transcritos de RNA.
La funcin de la transcriptasa inversa podran proporcionarla las repeticiones LINE-1. El modelo de la integracin que se muestra en la figura slo es una
de varias posibilidades. En este caso, se considera la integracin como roturas tambaleantes (indicadas por flechas onduladas) en secuencias ricas en
A, pero podran recibir la asistencia de la endonucleasa LINE-1 (seccin 9.5.2). Si se incluye una secuencia abundante en A en un extremo saliente 5 ,
podra formar un hbrido con el extremo distal de poli(T) del cDNA, lo que facilita la sntesis de la segunda cadena. Debido a las roturas tambaleantes
durante la integracin, la secuencia insertada est flanqueada por repeticiones directas cortas (secuencias en cuadros). E1-E3 representan exones; R
promotor. Las copias transpuestas no llevan un promotor y por consiguiente, en condiciones normales, no se expresan y adquieren mutaciones perjudi
ciales {seudogenes procesados). Sin embargo, algunas copias procesadas de genes que codifican polipptidos son funcionales (retrogenes), tras in
tegrarse en un sitio adyacente a un promotor funcional y estar sujetas a presin de seleccin para conservar la funcin (cuadro 9-11).

Cuadro 9 - 1 1 . Ejemplos de retrogenes humanos sin intrones y su homologa parental que contiene intrones.
(para mayor informacin, vase http://exppc01 .un-muenster.de/expath/frames.htm)
Retrogen

H om ologa que contiene in tr n

Producto

GK2en 4q13

GK1 en Xp21.3

Cinasa de glicerol

PDHA2 en 4q22-q23

PDHA1 en Xp22

Deshidrogenasa de piruvato

PGK2 en 6p12.3

PGK en Xq13

Cinasa de fosfoglicerato

TAF1L en 9p13.3

TAF1 en Xq13.1

Factor protenico relacionado de enlace de caja TATA, 250 kDA

MYCL1 en 1p34.2

MYCL2 en Xq22-23

Homologa del oncogen v-myc

GLUD1 en 10q23.3

GLUD2 en Xq25

Deshidrogenasa de glutamato

SNAIL1L1 en 2q33-q37

SNAIL1 en 20q13

Regulador del desarrollo relacionado con caracoles

versas celulares transcriben mRNA en cDNA natural, que a conti


nuacin se integran al DNA cromosmico (fig. 9-14) con mayor
probabilidad con ayuda de la maquinaria de transposicin LINE-1
(vase seccin 9.5.2). Los seudogenes procesados pueden ser muy
prolficos. Por ejemplo, hay 79 protenas en ribosomas citoplsmicos y una familia de 95 genes de protenas ribosmicos (16 son du
plicados), pero se identific en el genoma nuclear una asombrosa
cifra de 2 090 seudogenes procesados de este tipo (Zhang, 2002).
De forma caracterstica, los seudogenes procesados no se expre
san (por falta de una secuencia promotora), aunque se conocen al
gunos ejemplos de genes procesados expresados. En este caso, se
integr el cDNA natural en un sitio del DNA cromosmico que,
por azar, est adyacente a un promotor que puede impulsar la ex

presin de la copia del gen procesado. La presin de seleccin pue


de asegurar la expresin continua de la copia del gen procesado que
entonces se considera un retrogen. Se conoce una diversidad de re
trogenes sin intrn que tienen patrones de expresin especficos de
testculo y con frecuencia son homlogos autosmicos de un gen li
gado a X que contiene un intrn (vase cuadro 9-11). La presin
de seleccin en este caso puede ser el requerimiento para la expre
sin durante la meiosis masculina cuando son activos de modo
transcripcional los genes autosmicos, pero cuando se silencian
ambos cromosomas X y Y se condensan para formar heterocromatina. Sin embargo, algunos retrogenes funcionales son copias de ge
nes no ligados a X, como una copia del regulador del desarrollo
SNAIL1 (Locascio y cois., 2002).

9.4

DNA NO CODIFICANTE DE REPETICIN TNDEM

265

Seudogenes procesados en una familia gnica que


codifica RNA

fam ilias de protenas (con base en la similitud funcional gene


ral): vase el cuadro 9-12;

Aunque el tamao de algunas familias gnicas dispersas que codifi


can polipptidos comprueba el xito de la retrotransposicin como
un mecanismo para generar copias de genes procesados, el xito de
' =s retrotransposiciones (en trminos de un nmero alto de copias)
se lleva a cabo en realidad a partir de transcritos de polimerasa III
de RNA. Por ejemplo, se considera que la familia de repeticin Alu
vase seccin 9.5.3) surgi como seudogenes procesados copiados
ie l gen de RNA que codifica SRP (llamado asimismo RNA 7SL),
un componente de la partcula de reconocim iento de seal. Los genes
como el de este ejemplo, que se transcriben mediante polimerasa
III de RNA, suelen contener un prom otor interno (fig. 10-4) que fa
cilita la expresin de copias recin transpuestas en regiones permi
sivas del genoma.

dominios de protenas: vase el cuadro 9-13. El gran nmero


de dedos de cinc testifica su importancia en una amplia varie
dad de interacciones DNA-protena;

9.3.7 Se ha iniciado la clasificacin del proteoma


humano, pero an son inciertas las funciones
precisas de muchas protenas humanas

repeticiones de protenas: las ms comunes son la repeticin


beta de la protena G W D-40 (-400 compatibilidades protenicas) y la repeticin de ancirina (> 260 compatibilidades de pro
tenas).
Se ha iniciado asimismo la clasificacin funcional y el Gene Ontology (GO) consortium defini categoras de clasificacin funcional
de acuerdo con el componente celular en que opera la protena, su
funcin molecular y el proceso biolgico total al que contribuye
(seccin 8.3.6). Por supuesto, este es un proceso constante: an es
necesario determinar las funciones de muchos genes humanos me
diante varios mtodos. En la figura 9.15 se ilustra una clasificacin
inicial de las protenas humanas segn sean la funcin molecular y
el proceso biolgico.
9 .4

La secuenciacin del genoma humano proporcion informacin


valiosa sobre el grupo predicho de protenas humanas, el proteoma
humano. Se haban asignado con anterioridad funciones protenicas en muchos genes, pero el anlisis de un gran nmero de genes
nuevos permiti extender las clasificaciones previas. Varias bases de
datos estn dedicadas a registrar caractersticas de secuencia que son
compartidas por mltiples protenas e indican funciones comunes
o relacionadas (aunque no todas las protenas pueden asignarse a las
categoras disponibles porque algunas protenas no parecen com
partir secuencias con otras). Las bases de datos que se utilizan in
cluyen a menudo la base de datos InterPro conservada por el
European Bioinformatics Institute y la base de datos Pfam preserva
da en el Wellcome Trust Sanger Institute (vase las lecturas adicio
nales). Las categoras incluyen las siguientes:

DNA no codificante de repeticin


tndem

Con frecuencia se reconoce DNA humano no codificante muy re


petido en disposiciones (o bloques) de repeticiones tndem de una se
cuencia que puede ser simple (1 a 10 nucletidos) o compleja en
grado moderado (decenas a cientos de nucletidos). Pueden obser
varse configuraciones individuales en unos cuantos sitios cromos
micos diferentes o en muchos de ellos. Segn sea el tamao de la
configuracin pueden definirse tres subclases mayores: DNA satli
te, DNA minisatlite y DNA microsatlite (cuadro 9-14). El DNA
satlite es inactivo desde el punto de vista transcripcional, al igual
que la inmensa mayora del DNA minisatlite, pero en el DNA mi
crosatlite un porcentaje considerable (aunque muy pequeo) se
localiza en DNA codificante.

Cuadro 9 -1 2 . Las 15 principales familias de protenas en el proteoma humano.


Datos obtenidos en enero de 2003 de la base de datos InterPro conservada por el European Bioinformatlc Institute en http://www.ebi.ac.uk/proteome/

Referencia InterPro

Nombre de la familia protenica

Protenas compatibles

IPR000272

Receptor acoplado a proteina G parecido a rodopsina

826

IPR000719

Cinasa de protena

688

IPR001909

Caja KRAB (caja relacionada con Kruppel)

314

IPR001806

Superfamilia GTP-asa Ras

192

IPR005821

Protena de transporte inico

149

IPR000387

Fosfatasa de proteina especfica de tirosina y fosfatasa de protena de especificidad doble

139

IPR001254

Proteasa de serina, familia tripsina

128

1PR000379

Esterasa/lipasa/tioesterasa, sitio activo

112

IPR007114

Superfamilia facilitadora mayor (SFM)

100

1PR001993

Transportador mitocondrial de sustrato

86

IPR001664

Protena de filamento intermedio

85

IPR001128

Citocromo P-450

84

266

CAPTULO NUEVE

ORGANIZACIN DEL GENOMA HUMANO

Cuadro 9 -1 3 . Los 15 principales dominios protenicos en


el proteoma humano
Datos obtenidos en enero de 2003 de la base de datos InterPro en
http://www.ebi.ac.uk/proteome/

Referencia
InterPro

Nombre del dominio


protenico

Nmero total
en el proteoma

IPR007087

Dedo de cinc, tipo C2H2

28 654

IPR002126

Caderina

4131

IPR006209

Dominio parecido al tactor


de crecimiento epidrmico (EGF)

3107

IPR003006

Inmunoglobulina/complejo
de histocompatibilidad mayor

2 387

IPR002048

Banda EF de enlace de calcio

1 885

IPR001452

Dominio SH3

1 815

IPR003961

Fibronectina, tipo III

1 812

IPR000504

Regin RNP-1 de enlace de RNA


(secuencia tpica de
reconocimiento de RNA)

1 783

IPR001356

Flomeobox

1 435

IPR002965

Extensna rica en prolina

1 229

IPR001478

Dominio PDZ/DHR/GLGF

1 143

IPR001841

Dedo de cinc, RING

1 132

IPR001849

Parecido a plecastrina

1 061

IPR000210

Dominio BTB/P0Z

494

IPR005225

Dominio pequeo de protena


de enlace de GTP

189

9.4.1 El DNA satlite consiste en disposiciones muy


largas de repeticiones tndem que pueden
separarse del volumen del DNA mediante
centrifugacin de gradiente de densidad
El DNA satlite humano est constituido por configuraciones muy
grandes de DNA de repeticin tndem. La unidad repetida puede
ser una secuencia simple (slo unos cuantos nucletidos de largo)
o alguna compleja en moderada proporcin (cuadro 9-14; vase
Singer, 1982). El DNA satlite integra la mayor parte de las regio
nes heterocromticas del genoma y se encuentra de manera notoria
en la cercana de los centrmeros (heterocromatina pericentromric). Cuando la unidad repetida es muy corta, la composicin de
bases de las unidades repetidas, y asimismo la composicin total de
bases del DNA satlite, puede variar de forma sustancial del DNA
genmico total. Como resultado, ha sido posible separar de la ma
sa de DNA tres DNA satlite humanos, los satlites I, II y III, me
diante centrifugacin de gradiente de densidad boyante. Cada clase
satlite incluye varias diferentes familias de secuencias de DNA de
repeticin tndem (subfamilias satlite), algunas de las cuales se
comparten entre distintas clases. Los satlites II y III contienen so
bre todo repeticiones de secuencias simples pero tambin es obvia
una estructura de orden ms alto.

DNA alfoide y heterocromatina centromrica


No es posible resolver con facilidad mediante centrifugacin de
gradiente de densidad otros tipos de secuencias de DNA satlite. Se
han identificado primero por digestin del DNA genmico con
una endonucleasa de restriccin que, de modo caracterstico, tiene
un sitio de reconocimiento nico en la unidad bsica repetida. Ade
ms del tamao de esta ltima (monmero), estas enzimas produ-

A)

B)

70 f

60

60-

50

*50
5T
c 40
<B
p
o 30
Q.
20
10
0

<1>

I 40
*->
g 30
o
20

Jk

i f h i I f l i [ Tu

10
i [Tu

l~li ni n-.
QlLDl f i l i l lU lll.L llH III l i l i III 1 1 miin-.
h ii m
-. i
\ \

,% > % V

<r W

s V

%
'v

V-

w
w

O.'S'
y.

%
%

% %

Fig. 9-15. Clasificacin de protenas humanas y de ratn basada en sus funciones moleculares y los procesos biolgicos en que participan.
Los trminos de ontologia gnica (0G) se agruparon en una decena de categoras situadas dentro de ontologas ms grandes de funcin molecular (A)
y proceso biolgico (B). Barras azules: protenas de ratn; barras rojas: protenas humanas. Modificado a partir de Mouse Genome Sequencing
Consortium (2002), Nature 420, 520-562, con autorizacin de Nature Publishing Group.

9.4 ! DNA NO CODIFICANTE DE REPETICIN TNDEM

cen un patrn tpico de multmeros de longitud de unidad debido


i la prdida ocasional aleatoria del sitio de restriccin en algunas de
las repeticiones (Singer, 1982). El satlite alfa (o DNA alfoide)
consiste en repeticiones tndem de una unidad repetida de 171 pb
v constituye el mayor volumen de la heterocromatina centromrica. La divergencia alta de secuencias entre miembros individuales
de la familia DNA alfoide significa que existen subfamilias espec
ficas para cada uno de los cromosomas humanos (Choo y cois.,
1991).
An es necesario aclarar la funcin precisa del DNA satlite
i vase Csink y Henikoff, 1998; Henikoff y cois., 2001). El DNA
centromrico de cromosomas humanos consiste en buena medida
de varias familias de DNA satlite (vase fig. 9-16). De ellas, slo
se sabe que el satlite a se encuentra en todos los cromosomas y sus
unidades repetidas contienen con frecuencia un sitio de enlace pa
ra una protena centrmera especfica, CENP-B. Se ha demostrado
que las configuraciones satlites alfas clonadas diseminan centrmeros nuevos en clulas humanas, lo cual indica que el satlite alfa
ejerce una accin importante en la funcin del centrmero (Grimes
yC ook, 1998).

9.4.2 El DNA minisatlite est compuesto de


configuraciones de tamao moderado
de repeticiones tndem y con frecuencia se
localiza en telmeros o cerca de ellos
El DNA minisatlite comprende un conjunto de disposiciones de
tamao moderado de secuencias de DNA de repeticin tndem
que estn dispersas en porciones considerables del genoma nuclear
(cuadro 9-14). Al igual que las secuencias de DNA satlite, no se
transcriben en condiciones normales (pero vase ms adelante).
Las secuencias de DNA minisatlite hipervariable son muy
polimrficas y estn organizadas en ms de 1 000 configuraciones

| S a t lite a lfo id e
* S a t lite P
| S a t lite s 2 y 3

267

C . ;)- S a t lite p
=
} rD N A
-. S a t lite P
< S a t lite s 2 y 3
^ S a t l i t e a lfo id e

satlite adicional 1
y otras repeticiones
21
Fig. 9-16. Organizacin del DNA satlite en centrmeros.
Se muestran las localizaciones de diferentes clases de DNA satlite en
los cromosomas 9 y 21 (uno de los cinco cromosomas acrocntricos
autosmicos). La ilustracin se modific a partir de Tyler-Smith y
Willard (1993) Curr. Opin. Genet. Dev. 3, 390-397, con autorizacin de
Elsevier.

(desde 0.1 a 20 kb de largo) de repeticiones tndem cortas (Jeffreys,


1987). Las unidades repetidas en diferentes disposiciones hipervariables cambian de tamao en grado notable, pero comparten una
secuencia central comn, GGGCAGGAXG (en la que X es cual
quier ncleotido), que es similar en tamao y contenido de G a la
secuencia chi, una seal para recombinacin generalizada en E. coli. Si bien muchas de las configuraciones se hallan cerca de telmeros, ocurren varias secuencias de DNA minisatlite hipervariable en
otros sitios cromosmicos. Aunque la gran mayora de las secuen
cias de DNA minisatlite hipervariable no se transcribe, se sabe que
se expresan algunos casos raros (p. ej., el locus M JJC1; Swallow y
cois., 1987).
An no se dilucida la importancia del DNA minisatlite hiper
variable, aunque algunas publicaciones indican que es un punto
crtico (punto caliente) para recombinacin homologa en clulas

Cuadro 9 -1 4 . Principales clases de DNA humano de repeticin tndem.


Clase

Tamao de la unidad
de repeticin (pb)

Principal(es) localizacin(es)
cromosmica(s); estado transcripcional

DNA satlite (a menudo estructuras dentro


de 100 kb para varias Mb de lmite de tamao)

5-171

Sobre todo en centrmeros; no se transcribe

a (DNA alfoide)

171

Heterocromatina centromrlca de todos los cromosomas

p (familia Sau3A)

68

De forma notable la heterocromatina centromrica de 1, 9 ,1 3 ,1 4 ,


15, 21, 22 y Y

Satlite 1 (abundante en AT)

25-48

Heterocromatina centromrlca de casi todos los cromosomas y


otras regiones heterocromticas

Satlites 2 y 3

La mayor parte, quiz todos los cromosomas

9-64

En los telmeros o cerca de ellos de todos los cromosomas;


la inmensa mayora no se transcribe

Familia telomrica

Todos los telmeros

Familia hipervariable

9-64

Todos los cromosomas, con frecuencia telmeros cercanos

12

Esparcido en la totalidad de los cromosomas; algunas configuraciones


pequeas de secuencia muy simple

DNA minisatlite (a menudo estructuras


dentro de los lmites de 0.1-20 kb)

DNA microsatlite (es decir, repeticiones


de secuencia simple, RSS)
(estructuras tpicas < 100 pb)

268

CAPTULO NUEVE j ORGANIZACIN DEL GENOMA HUMANO

humanas (Wahls y cois., 1990). No obstante, encontr muchas apli


caciones. Se caracterizaron varios locus individuales y se utilizan co
mo marcadores genticos, aunque la localizacin preferencial en las
regiones subtelomricas limit su uso para estudios de enlace de to
do el genoma. Un aplicacin mayor es la huella de DNA, en la cual
puede hibridarse una sonda de DNA aislada que contiene la se
cuencia central comn de forma simultnea con mltiples locus de
DNA minisatlite en todos los cromosomas, con un consecuente
patrn complejo de hibridacin especfico de individuo (vase sec
cin 18.7.1).
Otra gran familia de secuencias de DNA minisatlite se encuen
tra en las terminales de cromosomas, los telmeros. Los principales
constituyentes del DNA telomrico de los cromosomas humanos
son unidades de hexanucletidos de repeticin tndem de 3 a 20
kb, en especial TTAGGG, que se aaden mediante una enzima es
pecializada, telomerasa. Actan como amortiguadores para proteger
los extremos de los cromosomas de su degradacin y prdida y pro
porcionan un mecanismo para la replicacin de los extremos del
DNA lineal de los cromosomas; estas repeticiones simples tienen a
su cargo de manera directa la funcin del telmero (fig. 2-6; sec
cin 2.2.5).

9.4.3 El DNA microsatlite consiste en configuraciones


cortas de repeticiones tndem simples y est
disperso en la totalidad del genoma humano
Los DNA microsatlites, tambin conocidos como repeticiones
de secuencias simples (RSS), son disposiciones pequeas de repe
ticiones tndem de una secuencia simple (por lo general menor de
10 pb). Estn diseminados en la totalidad del genoma, constituyen
ms de 60 Mb (2% del genoma) y se piensa que surgieron sobre to
do por deslizamiento de replicacin (fig. 11-5). Las configuraciones
de repeticiones dinucletidas son el tipo ms comn y constituyen
alrededor de 0.5% del genoma. Son muy comunes las repeticiones
CA/TG (una por 36 kb) y con frecuencia muy polimrficas (figs.
7-7, 7-8). Tambin son muy comunes las repeticiones AT/TA (una
por 50 kb) y AG/CT (una por 125 kb), pero muy raras las repeti
ciones CG/GC (una por 10 Mb) debido a que el dinucletido
CpG es propenso a la metilacin y desaminacin subsecuente (sec
cin 9.1.3).
De las repeticiones de mononudetidos, son muy comunes las
corridas de A y T (vase fig. 9-19 para ejemplos intragnicos) y mu
cho ms raras las de G y C. En trminos comparativos, son raras
clases individuales de repeticiones tndem de trinucletidos y tetranudetidos, pero a menudo son muy polimrficas y se investigan
cada vez ms para desarrollar marcadores muy polimrficos. Vase
los cuadros 14 y 15 del International Human Genome Sequencing
Consortium (2001) para obtener informacin ms amplia.
Se desconoce la importancia del DNA microsatlite. Las repeti
ciones alternadas purina-pirimidina, como repeticiones tndem del
par de dinucletidos CA/TG, son capaces de adoptar una confor
macin de DNA alterada, Z-DNA, in vitro, pero existen pocas
pruebas de que lo lleven a cabo en la clula. Aunque por lo general
el DNA microsatlite se identifica en DNA intergnico o dentro de
los intrones de genes, se han registrado unos cuantos ejemplos den
tro de las secuencias gnicas codificantes y suelen ser puntos crti
cos de mutacin porque son propensos a deslizamiento de
replicacin (vase fig. 11-14 para algunos ejemplos) y en ciertos ca
sos limitados a expansin inestable (secciones 11.5.2 y 16.6.4).

DNA no codificante repetido


disperso

9 .5

9.5.1 Las repeticiones derivadas de transposn


constituyen hasta > 40% del genoma humano y
surgieron sobre todo por intermediarios de RNA
Casi todos los DNA no codificantes repetidos dispersos en el geno
ma humano derivan de elementos transponibles (llamados asi
mismo transposones), secuencias movibles de DNA que pueden
migrar a diferentes regiones del genoma (Smit, 1996; Prak y Kazazian, 2000). Es posible reconocer que cerca del 45% del genoma
pertenece a esta clase (International Human Genome Sequencing
Consortium, 2001; Li y col., 2001), pero gran parte del DNA ni
co restante tambin debe derivar de copias antiguas de transposo
nes que se desviaron muy lejos para reconocerse como tales.
Muchas veces descartados con anterioridad como DNA chatarra,
cada vez existen ms pruebas que indican que estos transposones
pueden ser valiosos para las clulas de mamferos (vase Dennis,
2002).

En seres humanos y otros mamferos existen cuatro clases prin


cipales de transposones, pero slo una muy pequea minora se
transpone de modo activo. Pueden organizarse en dos grupos segn
sea el mtodo de transposicin:
retrotransposones (que tambin se abrevian como retroposones). En este caso, el mecanismo de copia utiliza transcriptasa

inversa para formar copias de cDNA de transcritos de RNA,


que semeja la forma en que se generan los seudogenes y retrogenes procesados (seccin 9.3.6). La transposicin replicativa
(o copia) asegura que se haga una copia de una secuencia exis
tente despus de lo cual la copia migra y se inserta en cualquier
parte del genoma. A este grupo corresponden tres clases de
transposones de mamferos: elementos nucleares dispersos lar
gos (LINES); elementos nucleares dispersos cortos (SINES); y
elementos parecidos a retrovirus que contienen repeticiones ter
minales largas;
transposones de DNA. Los miembros de esta cuarta clase de

transposones migran por transposicin conservadora. No hay


copia de la secuencia; por el contrario, se corta la secuencia y a
continuacin se inserta de nueva cuenta en cualquier parte del
genoma (un mecanismo de cortar y pegar).
De acuerdo con su capacidad o imposibilidad para transponerse de
manera independiente, los elementos transponibles pueden ser au
tnomos o no autnomos (fig. 9-17). De las cuatro clases de elemen
to transponible, predominan LINES y SINES y se describen con
mayor detalle en las secciones 9.5.2 y 9.5.3, respectivamente. En
este inciso se describen de manera breve las otras dos clases.

Transposones humanos de repeticiones terminales


largas (RTL)
Los transposones RTL incluyen elementos similares a retrovirus
autnomos y no autnomos que estn flanqueados por repeticio
nes terminales largas (RTL) (directas) que contienen elementos
reguladores transcripcionales necesarios. Los miembros autnomos
se conocen como secuencias retrovirales endgenas (o SRE) y
contienen genes gagy pol, que codifican una proteasa, transcripta
sa inversa, RNA-asa H e integrasa. Hay tres clases mayores de SRE
humanas (SREH) que constituyen un total de casi 4.6% del geno-

9.5 DNA NO CODIFICANTE REPETIDO DISPERSO

NO A U T N O M O

A U T N O M O
ORF1
O R F2(pol)
> P

I I
H n n n iB

LIN ES

269

(A )n i

6 -8 kb
(A)n
1 0 0 -3 0 0 p b

SINES

P a re c id o a re tro viru s

RTL
P

RTL
gag p o i (env)

R TL

(gag) RTL

(T ran sposo nes RTL)


6-11 kb

T ra n sp o s o n e s D N A f s ile s

1.5 -3 kb

tra n s p o s a s a
6 -3 kb

P ____ ^

8 0 p b -3 kb

Fig. 9-17. Familias de transposones de mamferos.


Slo una proporcin pequea de los miembros de cualquiera de las familias que se muestran arriba puede ser capaz de someterse a transposicin;
muchos miembros perdieron esta capacidad y adquirieron mutaciones inactivadoras y muchos son copias truncadas cortas. Vase las figuras 9-18 y
9-19 para las estructuras tpicas de ciertos elementos humanos transponibles. Modificado a partir de International Human Genome Sequencing
Consortion (2001), Nature 409, 860-921, con autorizacin de Nature Publishing Group.

Cuadro 9 -1 5 . Principales clases y familias de DNA repetido dispersas en el genoma humano (excluido el cromosoma Y).
Clase

Familia

Nm. de copias

Fraccin dei genoma (%)

SINE

Familia Alu

~ 1 200 000

10.7

MIR

~ 450 000

2.5

MIR3

~ 85 000

0.4

Familia LINE-1

- 600 000

17.3

Familia LINE-2

- 370 000

3.3

Familia LINE-3

~ 44 000

0.3

Familias SRE

~ 240 000

4.7

MaLR

- 285 000

3.8

MER-1 (Charlie)

- 213 000

1.4

MER-2 (Tigger)

~ 68 000

1.0

Otros

~ 60 000

0.4

UNE

Elementos RTL

Transposn de DNA

Datos del International Human Genome Sequencing Consortium, 2001; Mouse Genome Sequencing Consortium, 2002.

ma humano (cuadro 9-15). Muchsimas son defectuosas y durante


millones de aos han sido en extremo raras las transposiciones. Sin
embargo, el grupo muy pequeo SREH-K muestra una conserva
cin de genes retrovirales intactos (Lower y cois., 1996) y algunos
miembros de la subfamilia SREH-K10 sufrieron transposicin en

poca comparativamente reciente de la evolucin. Los elementos


retrovirales no autnomos carecen del gen poly con frecuencia tam
bin del gen gag (la secuencia interna se pierde por recombinacin
homologa entre las RTL de flanqueo). La familia MaLR de estos
elementos constituye casi 4% del genoma (cuadro 9-15).

270 CAPTULO NUEVE j ORGANIZACIN DELGENOMA HUMANO

Fsiles de transposones de DNA humano


Los transposones de DNA tienen repeticiones terminales inverti
das y codifican una transposasa que regula la transposicin. Re
presentan casi 3% del genoma humano y pueden agruparse en
diferentes clases que suelen subdividirse en muchas familias con
orgenes independientes (vase Smit, 1996, y la base de datos RepBase de secuencias repetidas en http://www.girinst.org/). Existen
dos familias humanas mayores, MERI y MER2, adems de una
diversidad de familias menos frecuentes (cuadro 9-15). Casi sin ex
cepcin, todas las secuencias de transposn de DNA humano resi
dentes ya no son activas y por consiguiente son transposonesfsiles.
Los transposones de DNA tienden a tener periodos de vida cortos
dentro de una especie, a diferencia de algunos otros elementos
transponibles como LINES (seccin 9.5.2). No obstante, al pare
cer, muy pocos genes funcionales humanos se originaron de trans
posones de DNA, en especial genes que codifican las recombinasas
RAG1 y RAG2 y la pro tena mayor de unin de centrmero
CENPB (vase asimismo Jurka y Kapitonov, 1999; Smit, 1999; In
ternational Human Genome Sequencing Consortium, 2001).

9.5.2 Algunos elementos LINE-1 humanos se transponen


de modo activo y permiten la transposicin de
SINES, seudogenes y retrogenes procesados
Los elementos nucleares dispersos largos (LINE) son elementos
transponibles muy satisfactorios y tienen una historia evolucionis
ta larga. Como elementos transponibles autnomos, pueden codi
ficar los productos necesarios para asegurar la retrotransposicin,
incluida la transcriptasa inversa esencial. Los LINES humanos se
integran con tres familias relacionadas de forma distante: LINE-1
(L -l), LINE-2 y LINE-3, que comprenden en conjunto alrededor
del 20% del genoma (cuadro 9-15). Se localizan sobre todo en re

5' UTR

A)

Elemento LINE-1

giones eucromticas y estn situados de preferencia en las bandas G


oscuras abundantes en AT (positivas a Giemsa) de cromosomas en
metafase (Korenberg y Rykowski, 1988). De las tres familias huma
nas, LINE-1 (o L -l) es la nica que an lleva a cabo de modo ac
tivo la transposicin, es predominante y constituye alrededor del
17% del genoma. Es el elemento transponible humano ms impor
tante y se encuentra asimismo en otros mamferos, incluidos los ra
tones (Ostertag y Kazazian, 2001).
El elemento LINE-1 (L-l) de longitud completa tiene alrede
dor de 6.1 kb de largo y codifica dos protenas: una protena de en
lace de RNA y una protena con actividades de endonucleasa y
transcriptasa inversa (fig. 9-18A). De manera excepcional, se loca
liza un promotor interno dentro de la 5'U T R y por consiguiente las
copias de transcritos de longitud completa llevan consigo su pro
motor propio que puede utilizarse despus de la integracin en una
regin permisiva del genoma. Despus de la traduccin, se ensam
bla el RNA LINE-1 con sus protenas codificantes propias y se
mueve hacia el ncleo. La endonucleasa corta un dplex de DNA
en una cadena dejando un grupo OH 3 libre que sirve como ce
bador para la transcripcin inversa del extremo 3' de RNA LINE.
El sitio preferido de corte de las endonucleasas es TTTTA y por
ello la preferencia para integrar regiones con abundancia de AT. El
DNA abundante en AT tiene muy pocos genes y por lo tanto su
tendencia a integrarse en el DNA abundante en AT significa que
LINES impone una carga mutacional ms baja, lo que facilita que
su husped se ajuste a ellos.
Con frecuencia, la transcripcin inversa no prosigue durante la
integracin hasta el extremo 5' y como resultado hay inserciones
truncadas, no funcionales. Por consiguiente, casi todas las repeti
ciones derivadas de LINE son cortas, con un tamao promedio de
900 pb para todas las copias LINE-1 y slo alrededor de una en
100 copias es de longitud completa. La maquinaria LINE-1 tiene a
su cargo la mayor parte de la transcripcin inversa en el genoma y

ORF1

ORF2

3' UTR

AAAAAATTTTTT-

p40

5'

B)

D m ero A lu

T ra n s c rip ta s a in ve rsa
y e n d o n u c le a s a
160

130

.3 '
AAAAAA
TTTTTT-

AAAAAA.-ll
TTTTTT-

32

Fig. 9-18. Elementos humanos de repeticin LINE-1 y Alu.


A) Elemento LINE-1. El elemento LINE-1 (L-1) de 6.1 kb tiene dos marcos de lectura abiertos: un 0RF1 de 1 kb que codifica una protena de enlace de
RNA y un 0RF2 de 4 kb que especifica una protena con actividades de endonucleasa y transcriptasa inversa. Est situado un promotor interno dentro
de una regin de DNA no traducida que antecede 0RF1 (llamada por convencin 5'UTR), en tanto que en el otro extremo hay una secuencia (A)/(T),
que a menudo se describe como la poli(A) cola 3'. La endonucleasa LINE-1 corta (4) una cadena de un dplex de DNA, de preferencia dentro de la
secuencia TTTT4A y la transcriptasa inversa utiliza el extremo OH 3 liberado para cebar la sntesis de cDNA. Los nuevos sitios de insercin estn
flanqueados por una duplicacin de un sitio blanco pequeo de siete a 20 pares de bases (pb). B) Repeticin Alu. Se muestra el dmero Alu estndar de
consenso con dos repeticiones similares que terminan en una secuencia parecida a (A)/(T). Tienen diferentes tamaos debido a la insercin de un
elemento de 32 pb con la repeticin ms grande. Existen asimismo monmeros Alu en el genoma humano, al igual que varias copias truncadas de
monmeros y dmeros.

9.5

rem ite la retrotransposicin de los SINE no autnomos y la crean de seudogenes y retrogenes procesados (Esnault y cois., 2000;
>?jcin 9.3.6). De las cerca de 6 000 secuencias LINE-1 de longicompleta, alrededor de 60 a 100 son capaces an de sufrir
preposicin y, en ocasiones, causan enfermedades al alterar la funn del gen despus de insertarse en una secuencia conservada importante (seccin 11.5.6).

elementos nucleares dispersos cortos (SINES) tienen alrededor de 100 a 400 pb de largo, suelen ser muy tiles para formar coonias en genomas de mamferos y dan por resultado una
diversidad de familias con un nmero de copias notorio. Algunos
>.NES humanos son especficos de primates, como la familia Alu;
:rros no estn restringidos a los primates y tambin se encuentran
en marsupiales y monotremas y se describieron como familias MIR
del ingls mammalian-wide interspersed repeat, repeticin disperen mamferos) (cuadro 9-15). Los SINES no codifican ninguna
rrotena y no son autnomos. LINES y SINES comparten secuen

22 23
18 19 20 2 1 \ 7 2 4 2 5 2 6 27

13 14 15 16
6 7 8 9 1 0 11 12,

3 4 5

271

cias en su extremo 3' y se ha demostrado que SINES se desplaza


por el compaero vecino LINES (Kajikawa y Okada, 2002). Me
diante parasitacin de la maquinaria de transposicin del elemento
LINE, SINES puede alcanzar grandes nmeros de copias.
Los SINES de mamferos se originaron a partir de copias de
tRNA (en muchos casos) o RNA SRP(7SL), como sucede en la re
peticin Alu (Ullu y Tschudi, 1984) y la r e p e tic i n B1 del ratn
(vase seccin 12.4.1). A los genes que codifican tRNA y RNA
SRP los transcribe la polimerasa III de RNA y son poco comunes
porque poseen promotores internos (fig. 10-4). Sin embargo, el pro
motor de polimerasa III interno llevado por las repeticiones Alu no
es suficiente para la transcripcin activa in vivo y se requieren se
cuencias de flanqueo apropiadas para su activacin. Por consiguien
te, despus de la integracin se torna inactiva una copia Alu recin
transpuesta, a menos que se coloque de manera fortuita en una re
gin que permite que sea activo el promotor.
La repeticin Alu es la secuencia ms abundante en el genoma
humano y ocurre en promedio ms de una vez cada 3 kb (Interna
tional Human Genome Sequencing Consortium, 2001; Li y cois.,
2001). Existe una serie de subfamilias Alu de diferentes edades evo
lutivas con slo alrededor de 5 000 copias que se integraron en el
genoma en los ltimos cinco millones de aos desde la divergencia

9.5.3 Las repeticiones Alu ocurren ms de una vez


cada 3 kb en el genoma humano y pueden
someterse a seleccin positiva

DNA NO CODIFICANTE REPETIDO DISPERSO

E xones
RB1
U16

Repeticiones
Alu

5'

t -

Repeticiones
U N E -1

5 ' -------------------------- 1--------------- { - ------------------------------------ 1 ----------------- --------------------------------------- ------------------- 3'


3 ' ------------1----- H -------- --------- 1 --------------------I I --------------------------------------------------------------1 ------------------------------------- 5 '

5 ' -|--------Repeticiones
(AW (T)n
I
'
3
|
/\

t------------------- 3'
III I
I

Js

I I
II
I III,

|
\

III
1

1
1

II
II

I I
1 1

1
1

kb -|------ 1------ 1-------1------ 1------ 1------ 1------ 1-------1------ 1------ 1------ 1------ 1------ 1------ 1------ 1-------1
0

20

40

60

80

100

120

140

160

i
180

Fig. 9-19. Localizaciones de las repeticiones Alu, LINE-1 y (A)/(T) dentro del gen de susceptibilidad al retinoblastoma humano, RB1.
El intrn 17 de 72 kb contiene un gen receptor acoplado a protena G, U16, que se transcribe de modo activo en la direccin opuesta al gen RBI. La
lnea superior (5' - 3 ') de cada par muestra los elementos de repeticin orientados en la direccin en sentido RB1\ la lnea inferior (3' - * 5) los muestra
en la orientacin antisentido. Hay 46 repeticiones Alu y 17 elementos UNE-1 (algunos agrupados de cerca se muestran con lneas divergentes), todos
localizados dentro de intrones. Slo dos de los elementos LINE-1 se aproximan a la longitud completa de 6.1 kb. Las secuencias (A)/(T) (n = 12 o
mayor) indicadas slo son las que se hallan fuera de las repeticiones dispersas. No se encontraron ejemplos de (C y(G ) para n = 12 o mayores.
Redibujado a partir de Toguchida y colaboradores (1993), Genomics 17, 535-543, con autorizacin de Elsevier.

272

CAPTULO NUEVE

ORGANIZACIN DEL GENOMA HUMANO

de los seres humanos y los monos africanos (vase Batzer y Deininger, 2002). La repeticin Alu de longitud completa tiene alrededor
de 280 pb de largo y consiste en dos repeticiones tndem, cada una
de unos 120 pb de longitud seguida de una secuencia corta que es
abundante en residuos A en una cadena y residuos T en la cadena
complementaria. Sin embargo, existe asimetra entre las repeticio
nes tndem: una repeticin contiene una secuencia interna de 32
pb que falta en la otra (fig. 9-18B). Son comunes asimismo monmeros, que slo contienen una de las dos repeticiones tndem y
varias versiones truncadas de dmeros y monmeros, que propor
cionan un promedio de extensin del genoma de 230 pares de
bases.
Las repeticiones Alu poseen un contenido relativamente alto de
GC, aunque estn esparcidas en especial en la totalidad de las re
giones eucromticas del genoma, y se localizan de preferencia en las
bandas cromosmicas R abundantes en GC y asimismo en genes, en
contraste notable con la localizacin preferencia! de LINES en
DNA rico en AT (Korenberg y Rykowski, 1988). No obstante,
cuando se ubican dentro de genes estn, al igual que los elemen
tos LINE-1, confinadas en intrones y regiones no traducidas (fig.
9-19). A pesar de la tendencia a localizarse en DNA abundante en
GC, las repeticiones Alu de transposicin reciente muestran una pre
ferencia por DNA abundante en AT semejante a las de LINE, pe

ro las Alu progresivamente ms viejas muestran una predisposicin


cada vez ms potente hacia DNA abundante en GC (International
Human Genome Sequencing Consortium, 2001).
La predisposicin en la distribucin total de Alu a regiones ri
cas en GC (y, por consiguiente, con abundancia de genes) puede
resultar de una presin de seleccin potente. Ello sugiere que las re
peticiones Alu no son tan slo parsitos del genoma sino que llevan
a cabo una contribucin til a las clulas que las contienen. Se sa
be que algunas secuencias Alu se transcriben de forma activa y es
posible que se incorporaran para una funcin til. El gen BCYRN1
que codifica un RNA citoplsmico pequeo neural, BC200, surgi
de un monmero Alu y es una de las pocas secuencias Alu que son
activas desde el punto de vista transcripcional bajo circunstancias
normales (Martignetti y Brosius, 1993). En muchas especies, los SINE se transcriben en condiciones de estrs y los RNA resultantes
enlazan una cinasa de protena especfica (PKR) y bloquean su ca
pacidad para inhibir la traduccin de protenas. Los RNA SINES
promoveran en consecuencia la traduccin de protenas bajo es
trs. Tal vez una funcin general de los SINES (Schmid, 1998) es
regular la traduccin de protenas (pueden transcribirse con rapidez
RNA SINES en grandes cantidades de miles de elementos y fun
cionar sin traduccin protenica).

Lecturas adicionales
H u m a n G e n o m e Nature Is s u e (15 February 2001). Nature 4 0 9
813-958 (papers are available electronically via the Nature
Genome Gateway at http://wvwv.nature.com/genomics/human/)
H u m a n G e n o m e Science Is s u e (16 February 2001). Science 29 1,
1177-1351 (papers are available electronically at http://www.
sciencemag.org/content/vol291issue5507/index.shtml/)
In te rP ro p ro te o m e a n a ly s is d a ta b a s e at http://www.ebi.ac.uk/
proteome/
M IT O M A P h u m a n m ito c h o n d ria l g e n o m e d a ta b a s e at
http://www.mitomap.org

M o u s e G e n o m e Nature Is s u e (5 December 2002). Nature 4 2 0


447-590 (papers are available electronically via the Nature Ge
nome Gateway at http://www.nature.com/nature/mousegenome/index.html)
N C B I g u id e to o n -lin e in fo rm a tio n r e s o u rc e s o n th e h u m a n
g e n o m e at http://www.ncbi.nlm.nih.gov/genome/guide/human/
N o n c o rd in g R N A s D a ta b a s e at http://biobases.ibch.poznan.pl/ncRNA/
P fa m p ro te in d o m a in fa m ily d a ta b a s e at http://www.sanger.
ac.uk/Software/Pfam/
R e p e a t S e q u e n c e D a ta b a s e at http://www.girinst.org

Bibliografia
A d a c h i N , L ie b e r M R (2002) Bidirectional gene organization: a
common architectural feature of the human genome. Cell 109,
807-809.
A m b ro s V (2001) microRNAs: tiny regulators with great potential.
Cell 10 7. 823-826.
A n d e rs o n S , B a n k ie r AT, B a rre ll B G et at. (1981) Sequence and
organization of the human mitochondrial genome. Nature 2 9 0.
457-465.
B a ile y JA , G u Z , C la rk R A e f al. (2002) Recent segmental dupli
cations in the human genome. Science 2 9 7 , 1003-1007.
B a tz e r M A , D e in in g e r P L (2002) Alu repeats and human genetic
diversity. Nature Rev. Genet. 3, 370-378.
C . elegans s e q u e n c in g c o n s o rtiu m (1998) Genome sequence of
the nematode C. Elegans: a platform for investigating biology.
Science 2 8 2 , 2012-2018.
C a s tillo -D a v is C l, M e k h e d o v S L , H a rtl D L , K o o n in EV, K ond ra s h o v FA (2002) Selection for short introns in highly expres
sed genes. Nature Genet. 3 1 , 425-418.
C h o o K H , V is s e l B, N a g y A , E a rle E, K a lits ls (1991) A survey of
the genomic distribution of alpha satellite DNA on all the human

chromosomes, and derivation of a new consensus sequence.


Nuci. Acids Res. 1 9 1179-1182.
C la v e rie J M (2001) Gene number. What if there are only 30,000 hu
man genes? Science 2 9 1 , 1255-1257.
C la y to n D A (1992) Transcription and replication of animal mito
chondrial DNAs. Int. Rev. Cytol. 141, 217-232.
C o llin s JE , G o w a rd M E , C o le C G e f al. (2003) Reevaluating hu
man gene annotation: a second-generation anlisis of chromo
some 22. Genome Res. 13, 27-36.
C ra ig J M , B ic k m o re W A (1994) The distribution of CpG islands in
mammalian chromosomes. Nature Genet. 7, 376-381.
C s in k A K , H e n ik o ff S (1998) Something from nothing: the evolu
tion and utility of satellite repeats. Trends Genet. 14, 200-204.
D e n n is C (2002) A forage in the junkyard. Nature 4 2 0 , 458-459,
D e rm itz a k is ET, R e y m o n d A , L y le R et al. (2002) Numerous po
tentially functional but non-genic conserved sequences on hu
man chromosome 21. Nature 4 2 0 , 578-582.
E d d y S R (2001) Noncoding RNA genes and the modern RNA
world. Nature Rev. Genet. 2, 919-929.

También podría gustarte