Está en la página 1de 31

Genoma humano

El genoma humano es el genoma del Homo sapiens, es decir, la secuencia


de ADN contenida en 23 pares de cromosomas en el ncleo de
cada clula humana diploide.
De los 23 pares, 22 son cromosomas autosmicos y un par determinante del sexo
(dos cromosomas X en mujeres y uno X y uno Y en varones). El genoma haploide
(es decir, con una sola representacin de cada par) tiene una longitud total
aproximada de 3200 millones de pares de bases de ADN (3200 Mb) que contienen
unos 20 000-25 000 genes1 (las estimaciones ms recientes apuntan a unos
20 500). De las 3200 Mb unas 2950 Mb corresponden a eucromatina y unas 250
Mb a heterocromatina. El Proyecto Genoma Humano produjo una secuencia de
referencia del genoma humano eucromtico, usado en todo el mundo en las
ciencias biomdicas.
La secuencia de ADN que conforma el genoma humano contiene codificada la
informacin necesaria para la expresin, altamente coordinada y adaptable al
ambiente, del proteoma humano, es decir, del conjunto de las protenas del ser
humano. Las protenas, y no el ADN, son las principales biomolculas efectoras;
poseen funciones estructurales, enzimticas, metablicas, reguladoras,
sealizadoras..., organizndose en enormes redes funcionales de interacciones.
En definitiva, el proteoma fundamenta la particular morfologa y funcionalidad de
cada clula. Asimismo, la organizacin estructural y funcional de las distintas
clulas conforma cada tejido y cada rgano, y, finalmente, el organismo vivo en su
conjunto. As, el genoma humano contiene la informacin bsica necesaria para el
desarrollo fsico de un ser humano completo.
El genoma humano presenta una densidad de genes muy inferior a la que
inicialmente se haba predicho, con slo en torno al 1.5 %2 de su longitud
compuesta por exones codificantes de protenas. Un 70 % est compuesto por
ADN extragnico y un 30 % por secuencias relacionadas con genes. Del total de
ADN extragnico, aproximadamente un 70 % corresponde a repeticiones
dispersas, de manera que, ms o menos, la mitad del genoma humano
corresponde a secuencias repetitivas de ADN. Por su parte, del total de ADN
relacionado con genes se estima que el 95 % corresponde a ADN no
codificante: pseudogenes, fragmentos de genes, intrones o secuencias UTR, entre
otros.
En el genoma humano se detectan ms de 280 000 elementos reguladores,
aproximadamente un total de 7Mb de secuencia, que se originaron por medio de
inserciones de elementos mviles. Estas regiones reguladoras se conservan en
elementos no exnicos (CNEEs), fueron nombrados como: SINE, LINE, LTR. Se
sabe que al menos entre un 11 % y un 20 % de estas secuencias reguladoras de
genes, que estn conservadas entre especies, fue formado por elementos
mviles.
El proyecto genoma humano, que se inici en el ao 1990, tuvo como propsito
descifrar el cdigo gentico contenido en los 23 pares de cromosomas, en su

totalidad. En 2005 se dio por finalizado este estudio llegando a secuenciarse


aproximadamente 28 000 genes.
La funcin de la gran mayora de las bases del genoma humano es desconocida.
El Proyecto ENCODE (acrnimo de ENCyclopedia Of DNA Elements) ha trazado
regiones de transcripcin, asociacin a factores de transcripcin, estructura de la
cromatina y modificacin de las histonas. Estos datos han permitido asignar
funciones bioqumicas para el 80 % del genoma, principalmente, fuera de los
exones codificantes de protenas. El proyecto ENCODE proporciona nuevos
conocimientos sobre la organizacin y la regulacin de los genes y el genoma, y
un recurso importante para el estudio de la biologa humana y las enfermedades.
Contenido en genes y tamao del genoma de varios organismos3
Especie

Tamao del
genoma (Mb)

Nmero
de genes

Candidatus Carsonella ruddii

0.15

182

Streptococcus pneumoniae

2.2

2300

Escherichia coli

4.6

4400

Saccharomyces cerevisiae

12

5800

Caenorhabditis elegans

97

19000

Arabidopsis thaliana

125

25500

Drosophila melanogaster (mosca)

180

13700

Oryza sativa (arroz)

466

45 000-55 000

Mus musculus (ratn)

2500

29 000

Homo sapiens (ser humano)

2900

27 000

Componentes
Cromosomas
El genoma humano (como el de cualquier organismo eucariota) est formado
por cromosomas, que son largas secuencias continuas de ADN altamente
organizadas espacialmente (con ayuda de protenas histnicas y no histnicas)
para adoptar una forma ultra condensada en metafase. Son observables

conmicroscopa ptica convencional o de fluorescencia mediante tcnicas


de citogentica y se ordenan formando un cariotipo.
El cariotipo humano normal contiene un total de 23 pares de cromosomas
distintos: 22 pares de autosomas ms 1 par de cromosomas sexuales que
determinan el sexo del individuo. Los cromosomas 1-22 fueron numerados en
orden decreciente de tamao en base al cariotipo. Sin embargo, posteriormente
pudo comprobarse que el cromosoma 22 es en realidad mayor que el 21.

Representacin grfica del cariotipohumano normal.(Imagen 1).

Las clulas somticas de un organismo poseen en su ncleo un total de 46


cromosomas (23 pares): una dotacin de 22 autosomas procedentes de cada
progenitor y un par de cromosomas sexuales, un cromosoma X de la madre y un X
o un Y del padre. (Ver imagen 1). Los gametos -vulos y espermatozoidesposeen una dotacin haploide de 23 cromosomas.

Cromosoma

Genes

Nmero de pares

Pares de bases

de bases

secuenciadosnota 1

4220

247 199 719

224 999 719

1491

242 751 149

237 712 649

1550

199 446 827

194 704 827

446

191 263 063

187 297 063

609

180 837 866

177 702 766

2281

170 896 993

167 273 993

2135

158 821 424

154 952 424

1106

146 274 826

142 612 826

1920

140 442 298

120 312 298

10

1793

135 374 737

131 624 737

11

379

134 452 384

131 130 853

12

1430

132 289 534

130 303 534

Cromosoma

Genes

Nmero de pares

Pares de bases

de bases

secuenciadosnota 1

13

924

114 127 980

95 559 980

14

1347

106 360 585

88 290 585

15

921

100 338 915

81 341 915

16

909

88 822 254

78 884 754

17

1672

78 654 742

77 800 220

18

519

76 117 153

74 656 155

19

1555

63 806 651

55 785 651

20

1008

62 435 965

59 505 254

21

578

46 944 323

34 171 998

22

1092

49 528 953

34 893 953

1846

154 913 754

151 058 754

454

57 741 652

25 121 652

X (cromosoma
sexual)

Y (cromosoma

Cromosoma

Genes

Nmero de pares

Pares de bases

de bases

secuenciadosnota 1

sexual)

Total

32 185

3 079 843 747

2 857 698 560

ADN intragnico
Genes
Un gen es la unidad humana bsica de la herencia, y porta la informacin gentica
necesaria para la sntesis de una protena (genes codificantes) o de un ARN no
codificante (genes de ARN). Est formado por una secuencia promotora, que
regula su expresin, y una secuencia que se transcribe, compuesta a su vez por:
secuencias UTR (regiones flanqueantes no traducidas), necesarias para
la traduccin y la estabilidad del ARNm, exones (codificantes) e intrones, que son
secuencias de ADN no traducidas situadas entre dos exones que sern eliminadas
en el procesamiento del ARNm (ayuste).

Este diagrama esquemtico muestra un gen en relacin a su estructura fsica


(doble hlice de ADN) y a un cromosoma (derecha). Los intrones son regiones
frecuentemente encontradas en los genes de eucariotas, que se transcriben, pero
son eliminadas en el procesamiento del ARN (ayuste) para producir
un ARNm formado slo por exones, encargados de traducir una protena. Este
diagrama es en exceso simplificado ya que muestra un gen compuesto por unos
40 pares de bases cuando en realidad su tamao medio es de 20 000-30 000
pares de bases).

Actualmente se estima que el genoma humano contiene entre 20 000 y


25 000 genes codificantes de protenas, estimacin muy inferior a las predicciones
iniciales que hablaban de unos 100 000 genes o ms. Esto implica que el genoma
humano tiene menos del doble de genes que organismos eucariotas mucho ms
simples, como la mosca de la fruta o el nematodo Caenorhabditis elegans. Sin
embargo, las clulas humanas recurren ampliamente alsplicing (ayuste) alternativo
para producir varias protenas distintas a partir de un mismo gen, como
consecuencia de lo cual el proteoma humano es ms amplio que el de otros
organismos mucho ms simples. En la prctica, el genoma tan slo porta la
informacin necesaria para una expresin perfectamente coordinada y regulada
del conjunto de protenas que conforman el proteoma, siendo ste el encargado
de ejecutar la mayor parte de las funciones celulares.
Con base en los resultados iniciales arrojados por el
proyecto ENCODE4 (acrnimo de ENCyclopedia Of DNAElements), algunos
autores han propuesto redefinir el concepto actual de gen. Las observaciones ms
recientes hacen difcilmente sostenible la visin tradicional de un gen, como una
secuencia formada por las regiones UTRs, los exones y los intrones. Estudios
detallados han hallado un nmero de secuencias de inicio de transcripcin por gen
muy superior a las estimaciones iniciales, y algunas de estas secuencias se sitan
en regiones muy alejadas de la traducida, por lo que los UTR 5' pueden abarcar
secuencias largas dificultando la delimitacin del gen. Por otro lado, un mismo
transcrito puede dar lugar a ARN maduros totalmente diferentes (ausencia total de
solapamiento), debido a una gran utilizacin del splicing alternativo. De este modo,
un mismo transcrito primario puede dar lugar a protenas de secuencia y
funcionalidad muy dispar. En consecuencia, algunos autores han propuesto una
nueva definicin de gen,:5 6 la unin de secuencias genmicas que codifican
un conjunto coherente de productos funcionales, potencialmente
solapantes. De este modo, se identifican como genes los genes ARN y los
conjuntos de secuencias traducidas parcialmente solapantes (se excluyen, as, las
secuencias UTR y los intrones, que pasan a ser considerados como "regiones
asociadas a genes", junto con los promotores). De acuerdo con esta definicin, un
mismo transcrito primario que da lugar a dos transcritos secundarios (y dos
protenas) no solapantes debe considerarse en realidad dos genes diferentes,
independientemente de que estos presenten un solapamiento total o parcial de
sus transcritos primarios.
Las nuevas evidencias aportadas por ENCODE, segn las cuales las regiones
UTR no son fcilmente delimitables y se extienden largas distancias, obligaran a

reidentificar nuevamente los genes que en realidad componen el genoma humano.


De acuerdo con la definicin tradicional (actualmente vigente), sera necesario
identificar como un mismo gen a todos aquellos que muestren un solapamiento
parcial (incluyendo las regiones UTR y los intrones), con lo que a la luz de las
nuevas observaciones, los genes incluiran mltiples protenas de secuencia y
funcionalidad muy diversa. Colateralmente se reducira el nmero de genes que
componen el genoma humano. La definicin propuesta, en cambio, se fundamenta
en el producto funcional del gen, por lo que se mantiene una relacin ms
coherente entre un gen y una funcin biolgica. Como consecuencia, con la
adopcin de esta nueva definicin, el nmero de genes del genoma humano
aumentar significativamente.
Genes de ARN
Adems de los genes codificantes de protenas, el genoma humano contiene
varios miles de genes ARN, cuya transcripcin reproduce ARN de
transferencia(ARNt), ARN ribosmico (ARNr), microARN (miARN), u otros genes
ARN no codificantes. Los ARN ribosmico y de transferencia son esenciales en la
constitucin de los ribosomas y en la traduccin de las protenas. Por su parte, los
microARN tienen gran importancia en la regulacin de la expresin gnica,
estimndose que hasta un 20-30 % de los genes del genoma humano puede estar
regulado por el mecanismo de interferencia por miARN. Hasta el momento se han
identificado ms de 300 genes de miARN y se estima que pueden existir unos
500.

Distribucin de genes
A continuacin se muestran algunos valores promedio del genoma humano. Cabe
advertir, sin embargo, que la enorme heterogeneidad que presentan estas
variables hace poco representativos a los valores promedio, aunque tienen valor
orientativo.
La densidad media de genes es de 1 gen cada 100 kb, con un tamao medio de
20-30 kb, y un nmero de exones promedio de 7-8 por cada gen, con un tamao
medio de 150 nucletidos. El tamao medio de un ARNm es de 1.8-2.2 kb,
incluyendo las regiones UTR (regiones no traducidas flanqueantes), siendo la
longitud media de la regin codificante de 1.4 kb.

Isocoros. Frecuencia y riqueza en G+C y genes, en el genoma humano.


El genoma humano se caracteriza por presentar una gran heterogeneidad en su
secuencia. En particular, la riqueza en bases de guanina (G) y citosina (C) frente a
las de adenina (A) y timina(T) se distribuye heterogneamente, con regiones muy
ricas en G+C flanqueadas por regiones muy pobres, siendo el contenido medio de
G+C del 41 %, menor al tericamente esperado (50 %). Dicha heterogeneidad
esta correlacionada con la riqueza en genes, de manera que los genes tienden a
concentrarse en las regiones ms ricas en G+C. Este hecho era conocido ya
desde hace aos gracias a la separacin mediante centrifugacin en gradiente de
densidad de regiones ricas en G+C (que recibieron el nombre de iscoros H; del
ingls High) y regiones ricas en A+T (iscoros L; del ingls Low).
Secuencias reguladoras
El genoma tiene diversos sistemas de regulacin de la expresin gnica, basados
en la regulacin de la unin de factores de transcripcin a las secuencias
promotoras, en mecanismos de modificacin epigentica (metilacin del ADN o
metilacin-acetilacin de histonas) o en el control de la accesibilidad a los
promotores determinada por el grado de condensacin de la cromatina; todos ellos
muy interrelacionados. Adems hay otros sistemas de regulacin a nivel del
procesamiento, estabilidad y traduccin del ARNm, entre otros. Por lo tanto, la
expresin gnica est intensamente regulada, lo cual permite desarrollar los
mltiples fenotipos que caracterizan los distintos tipos celulares de un
organismo eucariota multicelular, al mismo tiempo que dota a la clula de la
plasticidad necesaria para adaptarse a un medio cambiante. No obstante, toda la
informacin necesaria para la regulacin de la expresin gnica, en funcin del
ambiente celular, est codificada en la secuencia de ADN al igual que lo estn los
genes.
Las secuencias reguladoras son tpicamente secuencias cortas presentes en las
proximidades o en el interior (frecuentemente en intrones) de los genes. En la
actualidad, el conocimiento sistemtico de estas secuencias y de cmo actan en
complejas redes de regulacin gnica, sensibles a seales exgenas, es muy

escaso y est comenzando a desarrollarse mediante estudios de genmica


comparada, bioinformtica y biologa de sistemas. La identificacin de secuencias
reguladoras se basa en parte en la bsqueda de regiones no codificantes
evolutivamente conservadas.7 Por ejemplo, la divergencia evolutiva entre el ratn
y el ser humano ocurri hace 70-90 millones de aos.8 Mediante estudios de
genmica comparada, alineando secuencias de ambos genomas pueden
identificarse regiones con alto grado de coincidencia, muchas correspondientes a
genes y otras a secuencias no codificantes de protenas pero de gran importancia
funcional, dado que han estado sometidas a presin selectiva.
Elementos ultraconservados
Reciben este nombre regiones que han mostrado una constancia evolutiva casi
total, mayor incluso que las secuencias codificantes de protenas, mediante
estudios de genmica comparada. Estas secuencias generalmente se solapan con
intrones de genes implicados en la regulacin de la transcripcin o en el desarrollo
embrionario y con exones de genes relacionados con el procesamiento del ARN.
Su funcin es generalmente poco conocida, pero probablemente de extrema
importancia dado su nivel de conservacin evolutiva, tal y como se ha expuesto en
el punto anterior.
En la actualidad se han encontrado unos 500 segmentos de un tamao mayor a
200 pares de bases totalmente conservados (100 % de coincidencia) entre los
genomas de humano, ratn y rata, y casi totalmente conservados en perro (99 %)
y pollo (95 %).9
Pseudogenes
En el genoma humano se han encontrado asimismo unos 19 000 pseudogenes,
que son versiones completas o parciales de genes que han acumulado
diversasmutaciones y que generalmente no se transcriben. Se clasifican en
pseudogenes no procesados (~30 %) y pseudogenes procesados (~70 %)10

Los pseudogenes no procesados son copias de genes generalmente


originadas por duplicacin, que no se transcriben por carecer de una
secuenciapromotora y haber acumulado mltiples mutaciones, algunas de las
cuales sin sentido (lo que origina codones de parada prematuros). Se
caracterizan por poseer tanto exones como intrones.

Los pseudogenes procesados, por el contrario, son copias de ARN


mensajero retrotranscritas e insertadas en el genoma. En consecuencia
carecen de intrones y de secuencia promotora.

ADN intergnico
Las regiones intergnicas o extragnicas comprenden la mayor parte de la
secuencia del genoma humano, y su funcin es generalmente desconocida.
Buena parte de estas regiones est compuesta por elementos repetitivos,
clasificables como repeticiones en tndem o repeticiones dispersas, aunque el
resto de la secuencia no responde a un patrn definido y clasificable. Gran parte
del ADN intergnico puede ser un artefacto evolutivo sin una funcin determinada
en el genoma actual, por lo que tradicionalmente estas regiones han sido
denominadas ADN "basura" (Junk DNA), denominacin que incluye tambin las
secuencias intrnicas y pseudogenes. No obstante, esta denominacin no es la
ms acertada dado el papel regulador conocido de muchas de estas secuencias.
Adems el notable grado de conservacin evolutiva de algunas de estas
secuencias parece indicar que poseen otras funciones esenciales an
desconocidas o poco conocidas. Por lo tanto, algunos prefieren denominarlo "ADN
no codificante" (aunque el llamado "ADN basura" incluye tambin transposones
codificantes) o "ADN repetitivo". Algunas de estas regiones constituyen en realidad
genes precursores para la sntesis de microARN (reguladores de la expresin
gnica y del silenciamiento gnico).

Frecuencia de las diversas regiones intergnicas e intragnicas del cromosoma


22. Adaptado de: Dunham, I., et al., 1999. The DNA sequence of human
chromosome 22, Nature 402(6761): 489495.

Estudios recientes enmarcados en el proyecto ENCODE han obtenido resultados


sorprendentes, que exigen la reformulacin de nuestra visin de la organizacin y
la dinmica del genoma humano. Segn estos estudios, el 15 % de la secuencia
del genoma humano se transcribe a ARN maduros, y hasta el 90 % se transcribe
al menos a transcritos inmaduros en algn tejido:6 As, una gran parte del genoma
humano codifica genes de ARN funcionales. Esto es coherente con la tendencia
de la literatura cientfica reciente a asignar una importancia creciente al ARN en
la regulacin gnica. Asimismo, estudios detallados han identificado un nmero
mucho mayor de secuencias de inicio de transcripcin por gen, algunas muy
alejadas de la regin prxima a la traducida. Como consecuencia, actualmente
resulta ms complicado definir una regin del genoma como gnica o intergnica,
dado que los genes y las secuencias relacionadas con los genes se extienden en
las regiones habitualmente consideradas intergnicas.
ADN repetido en tndem
Son repeticiones que se ordenan de manera consecutiva, de modo que
secuencias idnticas, o casi, se disponen unas detrs de otras.
Satlites
El conjunto de repeticiones en tndem de tipo satlite comprende un total de 250
Mb del genoma humano. Son secuencias de entre 5 y varios cientos
de nucletidos que se repiten en tndem miles de veces generando regiones
repetidas con tamaos que oscilan entre 100 kb (100 000 nucletidos) hasta
varias megabases.
Reciben su nombre de las observaciones iniciales de centrifugaciones en
gradiente de densidad del ADN genmico fragmentado, que reportaban una banda
principal correspondiente a la mayor parte del genoma y tres bandas satlite de
menor densidad. Esto se debe a que las secuencias satlite tienen una riqueza en
nucletidos A+T superior a la media del genoma y en consecuencia son menos
densas.
Hay principalmente 6 tipos de repeticiones de ADN satlite9
1. Satlite 1: secuencia bsica de 42 nucletidos. Situado en
los centrmeros de los cromosomas 3 y 4 y el brazo corto de los
cromosomas acrocntricos (en posicin distal respecto al clster
codificante de ARNr).

2. Satlite 2: la secuencia bsica es ATTCCATTCG. Presente en las


proximidades de los centrmeros de los cromosomas 2 y 10, y en
la constriccin secundaria de 1 y 16.
3. Satlite 3: la secuencia bsica es ATTCC. Presente en la constriccin
secundaria de los cromosomas 9 e Y, y en posicin proximal respecto al
clster de ADNr del brazo corto de los cromosomas acrocntricos.
4. Satlite alfa: secuencia bsica de 171 nucletidos. Forma parte del ADN de
los centrmeros cromosmicos.
5. Satlite beta: secuencia bsica de 68 nucletidos. Aparece en torno al
centrmero en los cromosomas acrocntricos y en la constriccin
secundaria del cromosoma 1.
6. Satlite gamma: secuencia bsica de 220 nucletidos. Prximo al
centrmero de los cromosomas 8 y X.
Mini satlites
Estn compuestas por una unidad bsica de secuencia de 6-259 nucletidos que
se repite en tndem generando secuencias de entre 100 y 20 000 pares de bases.
Se estima que el genoma humano contiene unos 30 000 minisatlites.
Diversos estudios han relacionado los minisatlites con procesos de regulacin de
la expresin gnica, como el control del nivel de transcripcin, el ayuste(splicing)
alternativo o la impronta (imprinting). Asimismo, se han asociado con puntos de
fragilidad cromosmica dado que se sitan prximos a lugares preferentes de
rotura cromosmica, translocacin gentica y recombinacin meitica. Por ltimo,
algunos minisatlites humanos (~10 %) son hipermutables, presentando una tasa
media de mutacin entre el 0.5 % y el 20 % en las clulas de la lnea germinal,
siendo as las regiones ms inestables del genoma humano conocidas hasta la
fecha.
En el genoma humano, aproximadamente el 90 % de los minisatlites se sitan en
los telmeros de los cromosomas. La secuencia bsica de seis nucletidos
TTAGGG se repite miles de veces en tndem, generando regiones de 5-20 kb que
conforman los telmeros.
Algunos minisatlites por su gran inestabilidad presentan una notable variabilidad
entre individuos distintos. Se consideran polimorfismos multiallicos, dado que
pueden presentarse en un nmero de repeticiones muy variable, y se denominan
VNTR (acrnimo de Variable number tandem repeat). Son marcadores muy
utilizados en gentica forense, ya que permiten establecer una huella gentica

caracterstica de cada individuo, y son identificables mediante Southern


blot ehibridacin.
Microsatlites]
Estn compuestos por secuencias bsicas de 2-4 nucletidos, cuya repeticin en
tndem origina frecuentemente secuencias de menos de 150 nucletidos. Algunos
ejemplos importantes son el dinucletido CA y el trinucletido CAG.
Los microsatlites son tambin polimorfismos multiallicos, denominados STR
(acrnimo de Short Tandem Repeats) y pueden identificarse mediante PCR, de
modo rpido y sencillo. Se estima que el genoma humano contiene unos 200 000
microsatlites, que se distribuyen ms o menos homogneamente, al contrario
que los minisatlites, lo que los hace ms informativos como marcadores.
ADN repetido disperso
Son secuencias de ADN que se repiten de modo disperso por todo el genoma,
constituyendo el 45 % del genoma humano. Los elementos cuantitativamente ms
importantes son los LINEs y SINEs, que se distinguen por el tamao de la unidad
repetida.
Estas secuencias tienen la potencialidad de autopropagarse al transcribirse a una
ARNm intermediario, retrotranscribirse e insertarse en otro punto del genoma. Este
fenmeno se produce con una baja frecuencia, estimndose que 1 de cada 100200 neonatos portan una insercin nueva de un Alu o un L1, que pueden
resultar patognicos por mutagnesis insercional, por desregulacin de la
expresin de genes prximos (por los propios promotores de los SINE y LINE) o
por recombinacin ilegtima entre dos copias idnticas de distinta localizacin
cromosmica (recombinacin intra o intercromosmica), especialmente entre
elementos Alu.
Frecuencias y tipos de repeticiones dispersas en el genoma de varios organismos9
Homo
sapiens

Drosophila
melanogaster

Caenorhabditis
elegans

Arabidopsis
thaliana

LINE,SINE

33.4 %

0.7 %

0.4 %

0.5 %

LTR/HERV

8.1 %

1.5 %

0%

4.8 %

Transposones ADN 2.8 %

0.7 %

5.3 %

5.1 %

Tipo repeticin

Frecuencias y tipos de repeticiones dispersas en el genoma de varios organismos9


Tipo repeticin
Total

Homo
sapiens

Drosophila
melanogaster

Caenorhabditis
elegans

Arabidopsis
thaliana

44.4 %

3.1 %

6.5 %

10.4 %

SINE
Acrnimo del ingls Short Interspersed Nuclear Elements (Elementos nucleares
dispersos cortos). Son secuencias cortas, generalmente de unos pocos cientos de
bases, que aparecen repetidas miles de veces en el genoma humano. Suponen el
13 % del genoma humano,9 un 10 % debido exclusivamente a la familia de
elementos Alu (caracterstica de primates).
Los elementos Alu son secuencias de 250-280 nucletidos presentes en
1 500 0009 de copias dispersas por todo el genoma. Estructuralmente son dmeros
casi idnticos, excepto que la segunda unidad contiene un inserto de 32
nucletidos, siendo mayor que la primera. En cuanto a su secuencia, tienen una
considerable riqueza en G+C (56 %),9 por lo que predominan en las bandas R, y
ambos monmeros presentan una cola poliA (secuencia de adeninas) vestigio de
su origen de ARNm. Adems poseen un promotor de la ARN polimerasa III para
transcribirse. Se consideran retrotransposones no autnomos, ya que dependen
para propagarse de la retrotranscripcin de su ARNm por una retrotranscriptasa
presente en el medio.

LINE

Esquema simplificado del mecanismo de retrotransposicin de un elemento LINE y


un SINE. Un elemento LINE es transcrito produciendo un ARNm que sale
del ncleo celular. En el citoplasma setraduce en sus dos marcos de lectura
abiertos, que no se superponen, generan ambas protenas (vase el texto), que
para simplificar se han representado como ORF1p y ORF2p. Ambas
permiten retrotranscribir el ARNm del LINE y de otros retrotransposones no
autnomos, como SINEs y pseudogenes procesados. Durante la retrotranscripcin
la nueva secuencia de ADN se integra en otro punto del genoma.
Acrnimo del ingls Long Interspersed Nuclear Elements (Elementos nucleares
dispersos largos). Constituyen el 20 % del genoma humano, contiene unos
100 000-500 000 copias de retrotransposones L1 que es la familia de mayor
importancia cuantitativa, es una secuencia de 6 kb repetida unas 800 000 veces
de modo disperso por todo el genoma, aunque la gran mayora de las copias es
incompleta al presentar el extremo 5' truncado por una retrotranscripcin
incompleta. As, se estima que hay unas 5000 copias completas de L1, slo 90 de
las cuales son activas,9 estando el resto inhibidas por metilacin de su promotor.
Su riqueza en G+C es del 42 %,9 prxima a la media del genoma (41 %) y se
localizan preferentemente en las bandas G de los cromosomas. Poseen adems
un promotor de la ARN polimerasa II.
Los elementos LINE completos son codificantes. En concreto LINE-1 codifica dos
protenas:

1. Protena de unin a ARN (RNA-binding protein): codificada por el marco


de lectura abierto 1 (ORF1, acrnimo del ingls Open reading Frame 1)
2. Enzima con actividad retrotranscriptasa y endonucleasa: codificada por el
ORF2. Ambas protenas son necesarias para la retrotransposicin.
Estos elementos mviles estn flanqueados por 2 regiones no codificantes,
denominados como 5UTR y 3UTR.
Por lo tanto, se consideran retrotransopsones autnomos, ya que codifican las
protenas que necesitan para propagarse. La ARN polimerasa II presente en el
medio transcribe el LINE, y este ARNm se traduce en ambos marcos de lectura
produciendo una retrotranscriptasa que acta sobre el ARNm generando una
copia de ADN del LINE, potencialmente capaz de insertarse en el genoma.
Asimismo estas protenas pueden ser utilizadas por pseudogenes procesados o
elementos SINE para su propagacin.
La transcripcin se inicia en un promotor interno del extremo 5UTR. La
endonucleasa de L1 genera una mella en una nica cadena del ADN genmico,
en una secuencia consenso 5TTTTT/A3.
Diversos estudios han mostrado que las secuencias LINE pueden tener
importancia en la regulacin de la expresin gnica, habindose comprobado que
los genes prximos a LINE presentan un nivel de expresin inferior. Esto es
especialmente relevante porque aproximadamente el 80 % de los genes del
genoma humano contiene algn elemento L1 en sus intrones.9
Se ha visto que la insercin aleatoria de L1 activos en el genoma humano ha dado
lugar a enfermedades genticas, ya que interfiere en la expresin normal.
Tambin se observa una predileccin de L1 por regiones ricas en AT.
HERVI
Acrnimo de Human endogenous retrovirus (retrovirus endgenos humanos).
Los retrovirus son virus cuyo genoma est compuesto por ARN, capaces de
retrotranscribirse e integrar su genoma en el de la clula infectada. As, los HERV
son copias parciales del genoma de retrovirus integrados en el genoma humano a
lo largo de la evolucin de los vertebrados, vestigios de antiguas infecciones
retrovirales que afectaron a clulas de la lnea germinal. Algunas estimaciones
establecen que hay unas 98 00011 secuencias HERV, mientras que otras afirman
que son ms de 400 000.9 En cualquier caso, se acepta que en torno al 5-8 % del
genoma humano est constituido por genomas antiguamente virales. El tamao de

un genoma retroviral completo es de en torno a 6-11 kb, pero la mayora de los


HERV son copias incompletas.
A lo largo de la evolucin estas secuencias sin inters para el genoma hospedador
han ido acumulando mutaciones sin sentido y deleciones que los han inactivado.
Aunque la mayora de las HERV tienen millones de aos de antigedad, al menos
una familia de retrovirus se integr durante la divergencia evolutiva de humanos y
chimpancs, la familia HERV-K(HML2), que supone en torno al 1 % de los HERV.
Transposones de ADN
Bajo la denominacin de transposones a veces se incluyen los retrotransposones,
tales como los pseudogenes procesados, los SINEs y los LINEs. En tal caso se
habla de transposones de clase I para hacer referencia a los retrotransposones, y
de clase II para referirse a transposones de ADN, a los que se dedica el presente
apartado.
Los transposones de ADN completos poseen la potencialidad de autopropagarse
sin un intermediario de ARNm seguido de retrotranscripcin. Un transposn
contiene el gen de una enzima transposasa, flanqueado por repeticiones
invertidas. Su mecanismo de transposicin se basa en cortar y pegar, moviendo
su secuencia a otra localizacin distinta del genoma. Los distintos tipos de
transposasas actan de modo diferente, habiendo algunas capaces de unirse a
cualquier parte del genoma mientras que otras se unen a secuencias diana
especficas. La transposasa codificada por el propio transposn lo extrae
realizando dos cortes flanqueantes en la hebra de ADN, generando extremos
cohesivos, y lo inserta en la secuencia diana en otro punto del genoma. Una ADN
polimerasa rellena los huecos generados por los extremos cohesivos y una ADN
ligasa restablece los enlaces fosfodister, recuperando la continuidad de la
secuencia de ADN. Esto conlleva una duplicacin de la secuencia diana en torno
al transposn, en su nueva localizacin.
Se estima que el genoma humano contiene unas 300 000 copias9 de elementos
repetidos dispersos originados por transposones de ADN, constituyendo un 3 %
del genoma. Hay mltiples familias, de las que cabe destacar por su importancia
patognica por la generacin de reordenaciones cromosmicas los elementos
mariner, as como las familias MER1 y MER2.

Variabilidad
Si bien dos seres humanos del mismo sexo comparten un porcentaje elevadsimo
(en torno al 99.9 %)9 de su secuencia de ADN, lo que nos permite trabajar con

una nica secuencia de referencia, pequeas variaciones genmicas fundamentan


buena parte de la variabilidad fenotpica interindividual. Una variacin en el
genoma, por sustitucin, delecin o insercin, se
denomina polimorfismo o alelo gentico. No todo polimorfismo gentico provoca
una alteracin en la secuencia de una protena o de su nivel de expresin, es
decir, muchos son silenciosos y carecen de expresin fenotpica.
SNPs
La principal fuente de variabilidad en los genomas de dos seres humanos procede
de las variaciones en un slo nucletido, conocidas
como SNPs (Singlenucleotide polimorphisms), en las cuales se han centrado la
mayor parte de los estudios. Dada su importancia, en la actualidad existe un
proyecto internacional (International HapMap Project) para catalogar a gran escala
los SNPs del genoma humano. En este contexto, la denominacin de SNP
frecuentemente se restringe a aquellos polimorfismos de un slo nucletido en los
que el alelo menos frecuente aparece en al menos el 1 % de la poblacin.
Los SNP son marcadores tetrallicos, dado que en teora en una posicin puede
haber cuatro nucletidos distintos, cada uno de los cuales identificara un alelo; sin
embargo, en la prctica suelen presentar slo dos alelos en la poblacin. Se
estima que la frecuencia de SNPs en el genoma humano es de un SNP cada 500100 pares de bases,9 de los que una parte relevante son polimorfismos
codificantes, que causan la sustitucin de un aminocido por otro en una protena.
Gracias a su abundancia y a que presentan una distribucin aproximadamente
uniforme en el genoma, han tenido gran utilidad como marcadores para los mapas
de ligamiento, herramienta fundamental del Proyecto Genoma Humano. Adems
son fcilmente detectables a gran escala mediante el empleo de chips de ADN
(comnmente conocidos como microarrays).
Variacin estructural
Este tipo de variaciones se refiere a duplicaciones, inversiones, inserciones o
variantes en el nmero de copias de segmentos grandes del genoma (por lo
general de 1000 nuclotidos o ms). Estas variantes implican a una gran
proporcin del genoma, por lo que se piensa que son, al menos, tan importantes
como losSNPs.12
Variacin estructural es el trmino general para abarcar un grupo de alteraciones
genmicas que implican segmentos de ADN mayores de 1Kb. La variacin
estructural puede ser cuantitativa (variante en nmero de copia, que comprende:
deleciones, inserciones y duplicaciones), posicional (translocaciones) y
orientacional (inversiones).

A pesar de que este campo de estudio es relativamente nuevo (los primeros


estudios a gran escala se publicaron en los aos 2004 y 2005), ha tenido un gran
auge, hasta el punto de que se ha creado un nuevo proyecto para estudiar este
tipo de variantes en los mismos individuos en los que se bas el Proyecto
HapMap.
Aunque an quedan dudas acerca de las causas de este tipo de variantes, cada
vez existe ms evidencia a favor de que es un fenmeno recurrente que todava
continua moldeando y creando nuevas variantes del genoma.
Este tipo de variaciones han potenciado la idea de que el genoma humano no es
una entidad esttica, sino que se encuentra en constante cambio y evolucin.

Enfermedades genticas
La alteracin de la secuencia de ADN que constituye el genoma humano puede
causar la expresin anormal de uno o ms genes, originando un fenotipo
patolgico. Las enfermedades genticas pueden estar causadas por mutacin de
la secuencia de ADN, con afectacin de la secuencia codificante (produciendo
protenas incorrectas) o de secuencias reguladoras (alterando el nivel de
expresin de un gen), o por alteraciones cromosmicas, numricas o
estructurales. La alteracin del genoma de las clulas germinales de un individuo
se transmite frecuentemente a su descendencia. Actualmente el nmero de
enfermedades genticas conocidas es aproximadamente de 4 000, siendo la ms
comn la fibrosis qustica.
El estudio de las enfermedades genticas frecuentemente se ha englobado dentro
de la gentica de poblaciones. Los resultados del Proyecto Genoma Humano son
de gran importancia para la identificacin de nuevas enfermedades genticas y
para el desarrollo de nuevos y mejores sistemas de diagnstico gentico, as
como para la investigacin en nuevos tratamientos, incluida la terapia gnica.
Mutaciones
Las mutaciones gnicas pueden ser:

Sustituciones (cambios de un nucletido por otro): Las sustituciones se


denominan transiciones si suponen un cambio entre bases del mismo tipo
qumico, o transversiones si son un cambio purina (A, G)pirimidina (C, T) o
pirimidinapurina.

Deleciones o inserciones: son respectivamente la eliminacin o adicin de una


determinada secuencia de nucletidos, de longitud variable. Las grandes
deleciones pueden afectar incluso a varios genes, hasta el punto de ser
apreciables a nivel cromosmico con tcnicas de citogentica. Inserciones o
deleciones de unas pocas pares de bases en una secuencia codificante
pueden provocar desplazamiento del marco de lectura (frameshift), de modo
que la secuencia de nucletidos del ARNm se lee de manera incorrecta.

Las mutaciones gnica pueden afectar a:

ADN codificante: Si el cambio en un nucletido provoca en cambio de un


aminocido de la protena la mutacin se denomina no sinnima. En caso
contrario se denominan sinnimas o silenciosas (posible porque el cdigo
gentico es degenerado). Las mutaciones no sinnimas asimismo se clasifican
en mutaciones con cambio de sentido (missense) si provocan el cambio de un
aminocido por otro, mutaciones sin sentido (non-sense) si cambian
un codn codificante por un codn de parada (TAA, TAG, TGA) o con
ganancia de sentido si sucede a la inversa.

ADN no codificante: Pueden afectar a secuencias reguladoras, promotoras o


implicadas en el ayuste (splicing). Estas ltimas pueden causar un errneo
procesamiento del ARNm, con consecuencias diversas en la expresin de la
protena codificada por ese gen.

Trastornos monognicos
Son enfermedades genticas causadas por mutacin en un slo gen, que
presentan una herencia de tipo mendeliano, fcilmente predecible. En la tabla se
resumen los principales patrones de herencia que pueden mostrar, sus
caractersticas y algunos ejemplos.

Patrn
hereditario

Descripcin

Enfermedades que se manifiestan en


Autosmico individuos heterocigticos. Es suficiente
dominante
con una mutacin en una de las dos
copias (recurdese que cada individuo

Ejemplos

Enfermedad de
Huntington,neurofibromatosis
1, sndrome de Marfan, cncer
colorrectal hereditario no

posee un par de cada cromosoma) de un polipsico


gen para que se manifieste la
enfermedad. Los individuos enfermos
generalmente tienen uno de sus dos
progenitores enfermos. La probabilidad
de tener descendencia afectada es del
50 % dado que cada progenitor aporta
uno de los cromosomas de cada par.
Frecuentemente corresponden a
mutaciones con ganancia de funcin (de
modo que el alelo mutado no es inactivo
sino que posee una nueva funcin que
provoca el desarrollo de la enfermedad)
o por prdida de funcin del alelo
mutado con efecto de dosis gnica
tambin conocido como
haploinsuficiencia. Frecuentemente son
enfermedades con baja penetrancia, es
decir, slo una parte de los individuos
que portan la mutacin desarrollan la
enfermedad.

La enfermedad slo se manifiesta en


individuos homocigticos recesivos, es
decir, aquellos en los que ambas copias
de un gen estn mutadas. Son mutaciones
que causan prdida de funcin, de modo
que la causa de la enfermedad es la
ausencia de la accin de un gen. La
mutacin slo en una de las dos copias es
Fibrosis qustica,anemia
Autosmico compensada por la existencia de la otra
falciforme,enfermedad de Tayrecesivo
(cuando una sola copia no es suficiente
Sachs,atrofia muscular espinal
se origina haploinsuficiencia, con
herencia autosmica dominante).
Habitualmente un individuo enfermo
tiene ambos progenitores sanos pero
portadores de la mutacin
(genotipo heterocigtico: Aa). En tal
caso un 25 % de la descendencia estar
afectada.

Dominante
ligado al X

Las enfermedades dominantes ligadas al Hipofosfatemia,sndrome de


cromosoma X estn causadas por
Aicardi
mutaciones en dicho cromosoma, y

presentan un patrn hereditario especial.


Slo unas pocas enfermedades
hereditarias presentan este patrn. Las
mujeres tienen mayor prevalencia de la
enfermedad que los hombres, dado que
reciben un cromosoma X de su madre y
otro de su padre, cualquiera de los cuales
puede portar la mutacin. Los varones en
cambio siempre reciben el cromosoma Y
de su padre. As, un varn enfermo (xY)
tendr todos sus hijos varones sanos
(XY) y todas las hijas enfermas (Xx),
mientras que una mujer enferma (Xx)
tendr un 50 % de su descendencia
enferma, independientemente del sexo.
Algunas de estas enfermedades son
letales en varones (xY), de modo que
slo existen mujeres enfermas (y varones
con sndrome de Klinefelter, XxY).

Recesivo
ligado al X

Las enfermedades recesivas ligadas al X


tambin estn causadas por mutaciones
en el cromosoma X. Los varones estn
ms frecuentemente afectados. Un varn
portador siempre ser enfermo (xY) dado
que slo posee un cromosoma X, que
Hemofilia A,distrofia muscular de
est mutado. Su descendencia sern
Duchenne,daltonismo,distrofia
varones sanos (XY) e
muscularalopecia andrognica
hijas portadoras (Xx). Una mujer
portadora, tendr una descendencia
compuesta por un 50 % de hijas
portadoras y un 50 % de varones
enfermos.

Ligado a Y

Son enfermedades causadas por


mutacin en el cromosoma Y. En
consecuencia, slo puede manifestarse en
varones, cuya descendencia ser del
100 % de hijas sanas y el 100 % de hijos Infertilidad masculina hereditaria
varones enfermos. Dadas las funciones
del cromosoma Y, frecuentemente estas
enfermedades slo causan infertilidad,
que a menudo puede ser superada

teraputicamente.

Enfermedades causadas por mutacin en


genes del genoma mitocondrial. Dadas la
particularidades de dicho genoma, su
transmisin es matrilineal (el genoma
mitocondrial se transfiere de madres a
hijos). La gravedad de una mutacin
Neuropata ptica hereditaria de
Mitocondrial
depende del porcentaje de genomas
Leber (LHON)
afectados en la poblacin de
mitocondrias, fenmeno denominado
heteroplasmia (en contraste con
heterocigosis), que vara por segregacin
mittica asimtrica.

Trastornos polignicos y multifactoriales]


Otras alteraciones genticas pueden ser mucho ms complejas en su asociacin
con un fenotipo patolgico. Son las enfermedades multifactoriales o polignicas,
es decir, aquellas que estn causadas por la combinacin de mltiples alelos
genotpicos y de factores exgenos, tales como el ambiente o el estilo de vida. En
consecuencia no presentan un patrn hereditario claro, y la diversidad de
factores etiolgicos y de riesgo dificulta la estimacin del riesgo, el diagnstico y el
tratamiento.

Algunos ejemplos de enfermedades multifactoriales con etiologa


parcialmente gentica son:

autismo

enfermedad cardiovascular

hipertensin

diabetes

obesidad

cncer
Alteraciones cromosmicas
Las alteraciones genticas pueden producirse tambin a escala cromosmica
(cromosomopatas), causando severos trastornos que afectan a mltiples genes y
que en muchas ocasiones son letales provocando abortos prematuros.
Frecuentemente estn provocadas por un error durante la divisin celular, que sin

embargo no impide su conclusin. Las alteraciones cromosmicas reflejan una


anormalidad en el nmero o en la estructura de los cromosomas, por lo que se
clasifican en numricas y estructurales. Provocan fenotipos muy diversos, pero
frecuentemente presentan unos rasgos comunes:

Retraso mental y retraso del desarrollo.

Alteraciones faciales y anomalas en cabeza y cuello.

Malformaciones congnitas, con afectacin preferente de extremidades,


corazn, etc.

Numricas
Frecuencias de aneuploidas por cada 1000 nacidos vivos.9
Aneuploida

Frecuencia
(/1000)

Sndrome

Trisoma 21

1.5

de Down

Trisoma 18

0.12

de Edwards

Trisoma 13

0.07

de Patau

Monosoma X

0.4

de Turner

XXY

1.5

de Klinefelter

XYY

1.5

del XYY

Es una alteracin del nmero normal de cromosomas de un individuo, que


normalmente presenta 23 pares de cromosomas (46 en total), siendo cada
dotacin cromosmica de un progenitor (diploida). Si la alteracin afecta a un slo
par de cromosomas se habla de aneuploida, de manera que puede haber un slo
cromosoma (monosoma) o ms de dos (trisoma, tetrasoma...). Un ejemplo de
gran prevalencia es la trisoma 21, responsable del Sndrome de Down. Si por el
contrario la alteracin afecta a todos los cromosomas se habla de euploidas, de
manera que en teora el individuo tiene una sola dotacin cromosmica (haploida,
23 cromosomas en total) o ms de dos dotaciones (triploida: 69
cromosomas; tetraploida: 92 cromosomas...). En la prctica las euploidas causan
letalidad embronaria (abortos) siendo muy pocos los nacidos vivos, y fallecen muy
tempranamente. Las aneuploidas son mayoritariamente letales, salvo las

trisomas de los cromosomas 13, 18, 21, X e Y (XXY, XYY), y la monosoma del
cromosoma X. En la tabla se muestran las frecuencias de nacidos vivos con estas
alteraciones.
Estructurales
Se denominan as las alteraciones en la estructura de los cromosomas, tales como
las grandes deleciones o inserciones, reordenaciones del material gentico entre
cromosomas... detectables mediante tcnicas de citogentica.

Deleciones: eliminacin de una porcin del genoma. Algunos trastornos


conocidos son el sndrome de Wolf-Hirschhorn por delecin parcial del brazo
corto del cromosoma 4 (4p), y el sndrome de Jacobsen o delecin 11q
terminal.

Duplicaciones: una regin considerable de un cromosoma se duplica. Un


ejemplo es la enfermedad de Charcot-Marie-Tooth tipo 1A, que puede ser
causada por duplicacin del gen codificante de la protena mielnica perifrica
22 (PMP22) en el cromosoma 17.

Translocaciones: cuando una porcin de un cromosoma se transfiere a otro


cromosoma. Hay dos tipos principales de translocaciones: la translocacin
recproca, en la que se intercambian segmentos de dos cromosomas distintos,
y la translocacin Robertsoniana, en la que dos
cromosomas acrocntricos (13, 14, 15, 21, 22) se fusionan por
sus centrmeros (fusin cntrica).

Inversiones: una parte del genoma se rompe y se reorienta en direccin


opuesta antes de reasociarse, con lo que dicha secuencia aparece invertida.
Pueden ser paracntricas (si afectan slo a una brazo) o pericntricas (si la
secuencia invertida incluye el centrmero).

Cromosomas en anillos: una porcin del genoma se rompe y forma un anillo


por circularizacin. Esto puede ocurrir con prdida de material o sin prdida de
material.

Isocromosomas: cromosomas simtricos, con sus dos brazo idnticos por


delecin de uno de los brazos y duplicacin del otro. El ms habitual es el

isocromosoma X, en el que se pierde el brazo corto del cromosoma X,


originando fenotipos de Sndrome de Turner.
Los sndromes de inestabilidad cromosmica son un grupo de trastornos
caracterizados por una gran inestabilidad de los cromosomas, que sufren con gran
frecuencia alteraciones estructurales. Estn asociados con un aumento de la
malignidad de neoplasias.

Evolucin
Los estudios de genmica comparada se basan en comparacin de secuencias
genmicas a gran escala, generalmente mediante herramientas bioinformticas.
Dichos estudios permiten ahondar en el conocimiento de aspectos evolutivos de
escala temporal y espacial muy diversa, desde el estudio de la evolucin de los
primeros seres vivos hace miles de millones de aos o las radiaciones
filogenticas en mamferos, hasta el estudio de las migraciones de seres humanos
en los ltimos 100 000 aos, que explican la actual distribucin de las distintas
razas humanas.
Genmica comparada entre distintas especies
Los estudios de genmica comparada con genomas de mamferos sugieren que
aproximadamente el 5 % del genoma humano se ha conservado evolutivamente
en los ltimos 200 millones de aos; lo cual incluye la gran mayora de los genes y
secuencias reguladoras. Sin embargo, los genes y las secuencias reguladoras
actualmente conocidas suponen slo el 2 % del genoma, lo que sugiere que la
mayor parte de la secuencia genmica con gran importancia funcional es
desconocida. Un porcentaje importante de los genes humanos presenta un alto
grado de conservacin evolutiva. La similitud entre el genoma humano y el del
chimpanc (Pan troglodytes) es del 98.77 %. En promedio, una protena humana
se diferencia de su ortloga de chimpanc en tan slo dos aminocidos, y casi un
tercio de los genes tiene la misma secuencia. Una diferencia importante entre los
dos genomas es el cromosoma 2 humano, que es el producto de una fusin entre
los cromosomas 12 y 13 del chimpanc13
Otra conclusin de la comparacin del genoma de distintos primates es la notable
prdida de genes de receptores olfativos que se ha producido paralelamente al
desarrollo de la visin en color (tricrmica) durante la evolucin de primates.

Genmica comparada entre genomas humanos

Mapa de las migraciones humanas creado a partir de genmica comparada con


los genomas mitocondriales de individuos actuales. Los nmeros de la leyenda
representan miles de aos antes del presente. La lnea azul rayada delimita el
rea cubierta de hielo o de tundradurante la ltima glaciacin. Las letras
englobadas por crculos indican los halogrupos de ADN mitocondrial; los
halogrupos se usan para definir subpoblaciones genticas, que frecuentemente
tienen una correlacin geogrfica. Los principales halogrupos de ADNmt son:
frica: L, L1, L2, L3. Oriente prximo: J, N. Europa meridional: J, K. Europa
(general): H, V. Europa septentrional: T, U, X. Asia: A, B, C, D, E, F, G (en el
dibujo: M est compuesta por C, D, E, y G). Nativos Americanos: A, B, C, D y a
menudo X. Vase el artculo: Haplogrupos de ADN mitocondrial humano.
Durante dcadas las nicas evidencias que permitan profundizar en el
conocimiento del origen y la expansin del Homo sapiens han sido los escasos
hallazgos arqueolgicos. Sin embargo, en la actualidad, los estudios de genmica
comparada a partir de genomas de individuos actuales de todo el mundo, estn
aportando informacin muy relevante. Su fundamento bsico consiste en
identificar un polimorfismo, una mutacin, que se asume que se origin en un
individuo de una poblacin ancestral, y que ha heredado toda su descendencia
hasta la actualidad. Adems, dado que las mutaciones parecen producirse a un
ritmo constante, puede estimarse la antigedad de una determinada mutacin en
base al tamao del haplotipo en el que se sita, es decir, el tamao de la
secuencia conservada que flanquea la mutacin. Esta metodologa se ve
complicada por el fenmeno de recombinacin entre los pares de cromosomas de
un individuo, procedentes de sus dos progenitores. Sin embargo, hay dos regiones

en las que no existe dicho inconveniente porque presentan una herencia


uniparental: el genoma mitocondrial (de herencia matrilineal), y el cromosoma
Y (de herencia patrilineal).
En las ltimas dcadas, los estudios de genmica comparada basada en el
genoma mitocondrial, y en menor medida en el cromosoma Y, han reportado
conclusiones de gran inters. En diversos estudios se ha trazado la filogenia de
estas secuencias, estimndose que todos los seres humanos actuales comparten
un antepasado femenino comn que vivi en frica hace unos 150 000 aos. Por
su parte, por razones an poco conocidas, la mayor convergencia del ADN del
cromosoma Y establece que el antepasado masculino comn ms reciente data
de hace unos 60 000 aos. Estos individuos han sido bautizados como Eva
mitocondrial e Y-cromosoma Adan.
La mayor diversidad de marcadores genticos y en consecuencia, los haplotipos
de menor longitud, se han hallado en frica. Todo el resto de la poblacin mundial
presenta slo una pequea parte de estos marcadores, de modo que la
composicin genmica del resto de la poblacin humana actual es slo un
subconjunto de la que puede apreciarse en frica. Esto induce a afirmar que un
pequeo grupo de seres humanos (quiz en torno a un millar) emigr del
continente africano hacia las costas de Asia occidental, hace unos 50 000-70 000
aos, segn estudios basados en el genoma mitocondrial. Hace unos 50 000 aos
alcanzaron Australia y hace en torno a 40 000-30 000 aos otras subpoblaciones
colonizaron Europa occidental y el centro de Asia. Asimismo, se estima que hace
20 000-15 000 aos alcanzaron el continente americano a travs del estrecho de
Bering (el nivel del mar era menor durante la ltima glaciacin, o glaciacin de
Wrm o Wisconsin), poblando Sudamrica hace unos 15 000-12 000 aos. No
obstante, estos datos slo son estimaciones, y la metodologa presenta ciertas
limitaciones. En la actualidad, la tendencia es combinar los estudios de genmica
comparada basados en el ADN mitocondrial con anlisis de la secuencia del
cromosoma Y.
Genoma mitocondrial
Es el genoma propio de las mitocondrias de clulas eucariotas. La mitocondria es
un orgnulo subcelular esencial en el metabolismo aerobio u oxidativo de las
clulas eucariotas. Su origen es endosimbionte, es decir, antiguamente fueron
organismos procariotas independientes captados por una clula eucariota
ancestral, con la que desarrollaron una relacin simbitica. Las caractersticas de
su genoma, por tanto, son muy semejantes a las de un organismo procariota
actual, y sucdigo gentico es ligeramente distinto al considerado universal. Para

adaptarse al nicho intracelular y aumentar su tasa de replicacin, el genoma


mitocondrial se ha ido reduciendo sustancialmente a lo largo de su coevolucin,
presentando en la actualidad un tamao de 16 569 pares de bases. As, la gran
mayora de las protenas localizadas en las mitocondrias (~1500 en mamferos)
estn codificadas por el genoma nuclear (al que hacen referencia todos los
apartados anteriores), de modo que muchos de estos genes fueron transferidos de
la mitocondria al ncleo celular durante la coevolucin de la clula eucariota. En la
mayora de mamferos, slo la hembra transmite al zigoto sus mitocondrias, por lo
que presentan, como ya se ha dicho, un patrn hereditario matrilineal. En general
una clula humana media contiene 100-10 000 copias del genoma mitocondrial
por cada clula, a razn de unas 2-10 molculas de ADN por mitocondria.

Diagrama simplificado del genoma mitocondrial. Pueden apreciarse los 37 genes y


la secuencia origen de replicacinno codificante. En este esquema no se seala la
cadena ligera y la pesada.
El genoma mitocondrial posee 37 genes:9

13 genes codificantes de protenas: codifican 13 polipptidos que forman parte


de los complejosmultienzimticos de la fosforilacin oxidativa (sistema
OXPHOS). Son 7 subunidades del Complejo I (NADH deshidrogenasa), una
subunidad del complejo III (citocromo b), 3 subunidades del Complejo IV
(citocromo oxidasa) y 2 subunidades del Complejo V (ATPsintasa).

2 genes ARNr, que codifican las dos subunidades del ARN ribosmico de la
matriz mitocondrial.

22 genes ARNt, que codifican los 22 ARN transferentes necesarios para la


sntesis proteica en la matriz mitocondrial.

Al contrario de lo que suceda con el genoma nuclear, donde slo el 1.5 % era
codificante, en el genoma mitocondrial el 97 % corresponde a secuencias
codificantes. Es una nica molcula de ADN doble hebra circular. Una de las
hemihebras recibe el nombre de cadena pesada o cadena H, y contiene 28 de los
37 genes (2 ARNr, 14 ARNt y 12 polipptidos). La hemihebra complementaria
(cadena ligera o L) codifica los 9 genes restantes. En ambas cadenas, los genes
de los ARNt aparecen distribuidos entre dos genes ARNr o codificantes de
protenas, lo cual es de gran importancia para el procesamiento del ARN
mitocondrial.