Está en la página 1de 18

Elgenomahumanosesubdivideenungrangenomanuclearconmsde26.

000
genes, y un muy pequeo genoma mitocondrial circular con slo 37 genes. El
genoma nuclear se distribuye entre 24 molculas de ADN lineales, uno para cada
uno de los 24 diferentes tipos de cromosoma humano.
Losgeneshumanosporlogeneralnosonentidadesdiscretas:sus
transcripcionesconfrecuenciasesuperponenconlas de otros genes, a veces en
ambas cadenas.
Laduplicacindegenesindividuales,regionessubchromosomal,ogenomas
enteroshadadolugara familias de genes relacionados.
LosgenessontradicionalmentevistoscomoARNquecodificaparalaeventual
sntesisdeprotenas,pero muchos miles de genes de ARN hacen ARN
funcionales que pueden estar implicados en diversas funciones.
RNAsnocodificantesregulanamenudolaexpresindegenesdiana
especficosporapareamientodebasescon sus transcritos de ARN.
Algunascopiasdeungenfuncionalllegadoaadquirirmutacionesqueimpiden
suexpresin. Estos pseudogenes se originan ya sea copiando el ADN genmico o
copiando un procesado Transcrito de ARN en una secuencia de cADN que
reintegra en el genoma (retrotransposicion).
Ocasionalmente,copiasdegenesqueseoriginanporretrotransposicion
conservansufuncinporla presin de seleccin. Estos son conocidos como
retrogenes.
Lostransposonessonsecuenciasquesemuevendeunlugaraotrogenmico
poruncortarypegar o mecanismo de copiar y pegar. Los retrotransposones
hacen una copia de ADNc de un ARN transcripcin, que luego se integra en una
nueva localizacin genmica.
Conjuntosmuygrandesdealtonumerodecopiasderepeticionesentndem,
conocidocomoADNsatlite,son asociados con muy condensada
heterocromatina, transcripcionalmente inactiva en cromosomas humanos.
CONCEPTOS CLAVE

Pgina 2
Captulo 9: Organizacin del Genoma Humano
256
El genoma humano comprende dos partes: un genoma nuclear complejo con ms
de 26.000 genes, y una muy simple genoma mitocondrial con slo 37 genes
(Figura9.1). El genoma nuclear proporciona el grueso de informacin gentica
esencial y se reparti entre ya sea 23 o 24 tipos diferentes de molculas de ADN
cromosomal (22 autosomas ms un cromosoma X en las mujeres, y un
cromosoma Y adicional en los hombres). Las mitocondrias poseen su propio
genoma -un nico tipo de ADN pequeo circular- que codifica algunos de los
componentes necesarios para la sntesis de protena mitocondrial en los
ribosomas mitocondriales. Sin embargo, la mayora de las protenas
mitocondriales son codificadas por genes nucleares y son sintetizadas en los
ribosomas citoplasmticos antes siendo importados en la mitocondria.
Como se detalla en el captulo 10, la comparacin de secuencias con otros
genomas mamferos y genomas de vertebrados indican que alrededor del 5% del
genoma humano ha sido fuertemente conservado durante la evolucin y es
presumiblemente funcionalmente importante. Las secuencias de ADN que
codifican protenas representan slo el 1,1% del genoma.

El otro 4% o secuencias del genoma de manera fuertemente conservadas consiste


en secuencias de ADN proteina no codificante incluyendo los genes cuyos
productos finales son molculas de ARN funcionalmente importantes, y una
variedad de secuencias cis-actuando que regulan la expresin gnica a nivel de
ADN o ARN. Aunque las secuencias que hacen proteina no codificantes de ARN
generalmente no han sido tan bien conservadas durante la evolucin, algunas de
las secuencias reguladoras son mucho ms fuertemente conservadas que las
secuencias que codifican proteinas.

Las secuencias que codifican protenas con frecuencia pertenecen a familias de


secuencias relacionadas que pueden organizarse en grupos de uno o ms
cromosomas o dispersarse por todo el genoma. Estas familias han surgido por la
duplicacin de genes durante evolucin. Los mecanismos que dan lugar a la
duplicacin de genes tambin dan lugar a la secuencias no funcionales
relacionadas con el gen (pseudogenes).

Una de las grandes sorpresas en los ltimos aos ha sido el descubrimiento de


que el genoma humano se transcribe para dar decenas de miles de
diferentes Transcritos de ARN no codificante, incluyendo nuevas clases enteras
de pequeos ARN regulador no anteriormente identificadas en el proyecto de
secuencias del genoma humano publicado en 2001.
A pesar de que estamos cerca de obtener un inventario definitivo de los genes
humanos que codifican proteina, nuestro conocimiento de los genes de ARN no
se ha desarrollado. Est muy claro, sin embargo, que el ARN es funcionalmente
mucho ms verstil de lo que previamente se haba sospechado. Adems de una
lista cada vez mayor de genes de ARN humanos, tenemos tambin que tomar
conciencia de un gran nmero de copias pseudogene de genes de ARN.

Una gran fraccin del genoma humano y otros genomas complejos, estn
compuestas por secuencias de ADN no codificantes altamente repetitivas. Un
componente importante se organiza en repeticiones en tndem de cabeza a cola,
pero la mayora se compone de repeticiones intercaladas que han sido copiadas
de las transcripciones de ARN en la clula por la transciptasa reversa

Pgina 3
Hay una conciencia creciente de la importancia funcional de tales repeticiones.

En este captulo se considera principalmente la arquitectura del genoma humano.


Describimos las diferentes clases de secuencia de ADN, describimos brevemente
cul es su funcin es, y debe tener en cuenta la forma en que se organizan en el
genoma humano. En captulos adelante se describen otros aspectos del genoma
humano: cmo se compara con otros genomas, y cmo la evolucin ha dado
forma (Captulo 10), secuencia de ADN variacin y el polimorfismo (Captulo
13), y los aspectos de la expresin de genes humanos (Captulo 11).

9.1 ORGANIZACIN GENERAL DE LA HUMANA


GENOMA
La secuencia de ADN del genoma mitocondrial humano se public en 1981, y
una comprensin detallada de cmo el ADN mitocondrial (ADNmt) trabaja ha
sido construida desde entonces. El genoma nuclear ms complejo ha sido un
desafo ms formidable. La secuenciacin completa de genoma nuclear comenz
en la ltima parte de la dcada de 1990, y en 2004 prcticamente la totalidad del
la porcin eucromatica del genoma se ha secuenciado. Nuestro conocimiento del
genoma nuclear permanece fragmentario, sin embargo. Como veremos ms
adelante, todava no sabemos cuntos genes hay en el genoma nuclear, y los
datos obtenidos recientemente han cambiando radicalmente nuestra perspectiva
sobre cmo se organiza y se expresa.

El genoma mitocondrial est densamente empaquetado con informacin


gentica
El genoma mitocondrial humano se compone de un solo tipo de doble circular
ADN de cadena que es de 16,6 kilobases de longitud. La composicin base es en
general 44% (G + C), pero las dos cadenas de ADN mitocondrial tienen
significativamente diferentes composiciones base: la pesada cadena (H) es rica en
guaninas, pero la ligera cadena (L) es rica en citosinas. Las clulas contienen
generalmente miles de copias de la hebra doble de la molcula de ADNmt, pero
el nmero puede variar considerablemente en diferentes tipos de clulas.
Durante la formacin del cigoto, un espermatozoide aporta su genoma nuclear,
pero no su genoma mitocondrial, a la clula huevo. En consecuencia, el genoma
mitocondrial del cigoto se determina por lo general exclusivamente por ue
originalmente se encuentra en el vulo no fertilizado. Por consiguiente, el
genoma mitocondrial maternamente heredado: tanto machos y hembras heredan
sus mitocondrias de su madre, pero los machos no transmiten sus mitocondrias a
las generaciones posteriores. Durante la divisin celular mittico, las mltiples
molculas de ADNmt en una clula que se divide la segregacin de una manera
puramente aleatoria de las dos clulas hijas.

La replicacin de ADN mitocondrial


La replicacin de las dos hebras H y L es unidireccional y se inicia en orgenes
concretos. Aunque el ADN mitocondrial es principalmente de doble cadena,
La sntesis de un pequeo segmento de la hebra H del ADN produce una tercera
hebra de ADN corto llamada 7S. La cadena de ADN 7S puede aparearse con la
cadena L y desplazar la hebra H, lo que resulta en una estructura de triple cadena

(Figura9.2). Esta regin contiene muchas de las secuencias de control del


ADNmt (incluyendo la principal regin promotora) y por lo que se conoce como
la regin CR / D-loop (donde denota CR regin de control, y D-loop es sinnimo
de bucle de desplazamiento).
El origen de replicacin para la cadena H se encuentra en la regin / D-loop CR,
y el de la cadena L se intercala entre dos genes tRNA (Figura9.3). Solamente
despus de aproximadamente dos tercios de la cadena hija H ha sido sintetizado
(mediante el uso de la cadena L como una plantilla y el desplazamiento de la
vieja H hebra) hace el origen de
La replicacin-L hebra quedaran al aire. A partir de entonces, la replicacin de la
cadena L procede en la direccin opuesta, utilizando la cadena H como una
plantilla.

Los genes mitocondriales y su transcripcin


El genoma mitocondrial humano contiene 37 genes, 28 de los cuales estn
codificados por la hebra H y los otros nueve por la L hebra (vase la figura
9.3). Mientras genes nucleares a menudo tienen sus propios promotores
dedicados, la transcripcin de genes mitocondriales se parece al de los genes
bacterianos. La transcripcin del ADN mitocondrial

pgina 4
comienza a partir de promotores comunes en la regin / lazo D CR y contina
rodeando el crculo (en direcciones opuestas para las dos hebras diferentes), para
generar grandes transcripciones multigenicas. Los ARN maduros se generan
posteriormente por escisin de las transcripciones multignicas.
Casi dos tercios (24 de 37) de los genes mitocondriales especifican un funcinal
ARN no codificante como su producto final. Hay 22 genes de ARNt, una para
cada uno de los 22 tipos de tRNA mitocondrial. Adems, dos genes de ARNr son
dedicados a hacer ARNr 16S y 12S rRNA (componentes de la grandes y
pequeos subunidades, respectivamente, de los ribosomas mitocondriales). Los
13 genes restantes codifican polipptidos, que se sintetizan en ribosomas
mitocondriales. Estas 13 polipptidos forman parte de los complejos respiratorios
mitocondriales, las enzimas de la fosforilacin oxidativa que se dedican a la
produccin de ATP. Sin embargo, la gran mayora de los polipptidos que
componen el mitocondrial sistema de fosforilacin oxidativa, ms todas las otras
protenas mitocondriales son codificadas por los genes
nucleares (Tabla9.1). Estas protenas se traducen en ribsomas citoplasmticos
antes de ser importados en las mitocondrias.
A diferencia de su homlogo nuclear, el genoma mitocondrial humano es
extremadamente compacta: los 37 genes mitocondriales carecen de intrones y
estn hermticamente (en promedio edad, hay un gen por 0,45 kb). Las
secuencias de codificacin de algunos genes (en particular, los que codifican las
subunidades de sexto y octavo de la ATP sintasa mitocondrial) mostrar cierta
superposicin (Figura9.4) y, en la mayora de los otros casos, las secuencias
codificadoras de genes vecinos son contiguas o separadas por una o dos bases no
codificantes.
Algunos genes an carecen de codones de terminacin; para superar esta
deficiencia, SAU que se han introducido en el nivel post-transcripcional (vase la
Figura 9.4).

El cdigo gentico mitocondrial


Genomas procariotas y los genomas nucleares de eucariotas codifican muchos
cientos hasta usualmente muchos miles de protenas diferentes. Estn sujetos a un
cdigo gentico universal que se mantiene invariable: mutaciones que podran
potencialmente cambiar

pgina 5
259
el cdigo gentico son propensos a producir al menos algunas protenas crticas
disfuncionales y por lo que estn fuertemente seleccionados en contra. Sin
embargo, mucho menor genoma mitocondrial hace muy pocos
polipptidos. Como resultado, el cdigo gentico mitocondrial ha sido capaz de
desplazarse por mutacin a ser un poco diferente del codigo gentico universal.
En el cdigo gentico mitocondrial hay 60 codones que especifican aminocidos,
uno menos que en el cdigo gentico nuclear. Hay cuatro codones de
terminacin: UAA y UAG (que tambin sirven como los codones de parada en el
cdigo gentico nuclear) y AGA y AGG (que especifica la arginina en el cdigo
gentico nuclear; vase la figura 1,25). La parada nuclear codn UGA codifica el
triptfano en la mitocondria, y AUA especifica metionina no isoleucina.
El genoma mitocondrial especifica todas las molculas de ARNr y ARNt
necesarios para la sntesis de protenas en los ribosomas mitocondriales, pero
confa en nucleares genes codificados para que los otros componentes, tales
como los componentes proteicos de los ribosomas mitocondriales y sintetasas de
aminoacil tRNA. Porque hay slo 22 diferentes tipos de tRNA mitocondrial
humano, las molculas de ARNt individuales tenga que ser capaz de interpretar
varios codones diferentes. Esto es posible debido a bamboleo de tercera base en
la interpretacin de codones. Ocho de las 22 molculas de ARNt tienen
anticodones que cada reconocen familias de cuatro codones que slo difieren en
la tercera base. Los otros 14 tRNAs reconocen pares de codones que son
idnticos en la primera dos posiciones de base y comparten una purina o una
pirimidina en la tercera base.
Entre ellos, por lo tanto, las 22 molculas de ARNt mitocondriales pueden
reconocer una total de 60 codones [(8 4) + (14 2)].

Pgina 6
Captulo 9: Organizacin del Genoma Humano
260
Adems de sus diferencias en la capacidad gentica y diferentes cdigos
genticos, los genomas mitocondriales y nucleares difieren en muchos otros
aspectos de su organizacin y expresin (Tabla9.2).
El genoma nuclear humano se compone de 24 ampliamente diferentes
molculas de ADN cromosmico
El genoma nuclear humano es 3,1 Gb (3.100 Mb) de tamao. Se distribuye entre
24 diferentes tipos de molcula de doble cadena lineal de ADN, cada uno de los
cuales tiene histonas y protenas nonhistone ligados a ella, que constituyen un
cromosoma. Ah son 22 tipos de autosoma y dos cromosomas sexuales, X e Y.
Humanos cromosomas puede ser fcilmente diferenciados por bandeo
cromosmico (vase la Figura 2.15), y se han clasificado en grupos en gran
medida en funcin del tamao y, en cierta medida, la posicin del centrmero
(ver Tabla 2.3).
Hay un solo genoma nuclear en espermatozoides y vulos y slo dos copias en
la mayora de las clulas somticas, en contraste con los cientos o incluso miles
de copias de la genoma mitocondrial. Debido a que el tamao del genoma
nuclear es de aproximadamente 186.000 veces el tamao de una molcula de
ADNmt, sin embargo, el ncleo de una clula humana tpicamente contiene ms
de 99% del ADN en la clula; el ovocito es una notable excepcin, ya que
contiene hasta 100.000 molculas de ADNmt.
No todo el genoma nuclear humano ha sido secuenciado. El humano
Proyecto Genoma centra principalmente en la eucromatina secuenciacin, el gen
ricos, transcriptionally regiones activas del genoma nuclear que dan cuenta de 2,9
GB.El otro 200 Mb se compone de condensado de forma permanente y
transcriptionallyinactiva (constitutivo) heterocromatina. La heterocromatina se
compone de largas series de ADN altamente repetitivo que son muy difciles de
secuenciar con precisin.
Por una razn similar, las largas series de unidades de transcripcin repetidas en
tndem codificacin de 28S, 18S y 5.8S rRNA tambin no se secuenciaron.
El ADN de los cromosomas humanos vara considerablemente en longitud y
tambin en las proporciones de eucromatina subyacente y heterocromatina
constitutiva

pgina 7
261 centrmero. Ciertos cromosomas, en particular 1, 9, 16 y 19, tambin tienen
importantes cantidades de heterocromatina en la regin eucromtica cerca del
centrmero (Pericentromere), y los cromosomas acrocntricos tienen cada uno
dos geneidad considerable erochromatic regiones. Pero la representacin ms
importante est en el cromosoma Y algunos, donde la mayor parte del ADN est
organizado como heterocromatina.
La composicin de base del componente euchromatic del genoma humano
promedia en 41% (G + C), pero existe una variacin considerable entre los
cromosomas, de 38% (G + C) de los cromosomas 4 y 13 hasta 49% (para el
cromosoma 19). Tambin vara considerablemente a lo largo de las longitudes de
cromosomas. Por ejemplo, de la media (G + C) contenido en el cromosoma 17q
es 50% para los distales 10.3 Mb pero se reduce a un 38% de los 3,9 Mb
adyacentes. Hay regiones de menos de 300 kb con oscilaciones incluso ms
anchas, por ejemplo, de 33,1% a 59,3% (G + C).
La proporcin de algunas combinaciones de nucletidos puede variar
considerablemente.
Al igual que otros genomas nucleares de vertebrados, el genoma nuclear humano
tiene una escasez del dinucletido CpG. Sin embargo, ciertas pequeas regiones
de transcripcionalmente activo DNA tiene la densidad de CpG esperado y,
significativamente, son (islas CpG; Box9.1) no metilados o hypomethylated.
El genoma humano contiene al menos 26.000 genes, pero la exacta
el nmero de genes es difcil determinar
Varios aos despus de que el Proyecto del Genoma Humano entreg la primera
referencia secuencia del genoma, todava hay muy considerable incertidumbre
sobre el total de nmero de genes humanos. Cuando se informaron los primeros
anlisis del genoma en 2001, el catlogo de genes generadas por la Internacional
secuenciacin del Genoma Humano
ING Consorcio fue muy orientada hacia los genes codificantes de
protenas. Original estimaciones sugieren ms de 30.000 genes codificadores de
protenas humanas, la mayora de cuales eran las predicciones de genes sin
ninguna evidencia experimental de apoyo. Esta nmero fue una sobreestimacin
debido a los errores que se hicieron en los genes que definen
(vase el recuadro 8.5).
Para validar las predicciones de genes evidencia de apoyo se solicit, en su
mayora por lucin comparaciones revolu-. Comparacin con otros genomas de
mamferos, tales como

pgina 8
Captulo 9: Organizacin del Genoma Humano
262
los del ratn y el perro, fallado en identificar homlogos de muchos de los
originalmente predicho los genes humanos. A finales de 2009, el nmero
estimado de humanos genes que codifican protenas parecan estar
estabilizndose en algn lugar alrededor de 20.000
21.000, pero se mantuvo una enorme incertidumbre sobre el nmero de genes de
ARN humanos. Genes de ARN son difciles de identificar mediante el uso de
programas informticos para analizar secuencias del genoma: no hay marcos de
lectura abiertos para detectar el, y muchos Genes de ARN son muy pequeas y no
suelen estar bien conservado durante la evolucin. Ahi esta tambin el problema
de cmo definir un gen de ARN. Como se detalla en el captulo 12, anlisis
integrales han sugerido recientemente que la gran mayora de la
-genoma y, probablemente, al menos el 85% de los nucletidos se transcribe. Es
actualmente desconocido cunto de la actividad transcripcional es el ruido de
fondo y cmo tanto es funcionalmente significativa.
A mediados de 2009 se haban obtenido evidencia de al menos 6000 genes de
ARN humanos, incluyendo miles de genes que codifican los ARN no
codificantes larga que se piensa ser importante en la regulacin de
genes. Adems, hay evidencia de decenas de mil arenas de diferentes ARNs
humanos diminutos, pero en muchos casos bastante grandes nmeros de
diferentes ARNs pequeos se obtienen mediante el procesamiento de los
transcritos de ARN individuales.
Nos fijamos en los ARN no codificantes en detalle en la Seccin 9.3.
La combinacin de unos 20.000 genes codificadores de protenas y ARN al
menos 6000 genes, aporta un total de al menos 26.000 genes humanos. Esto sigue
siendo un provisional el nmero total de genes; la definicin de los genes de
ARN es un reto y que pasar algn tiempo antes de obtener un nmero exacto de
genes humanos.
Metilacin del ADN en los animales multicelulares a menudo implica la
metilacin de una proporcin de residuos de citosina, dando 5-metilcitosina
(mC). En la mayora de los animales (pero no Drosophila melanogaster), el
dinucletido CpG es un objetivo comn para la metilacin de citosina por
citosina especfica methyltransferases, formando mCpG (Figura1A).
La metilacin del ADN tiene importantes consecuencias para el gen
expresin y permite en particular patrones de expresin gnica que sean de forma
estable transmitida a las clulas hijas. Tambin se ha implicado en los sistemas de
la defensa del husped contra los transposones. Los vertebrados tienen la mayor
los niveles de 5-metilcitosina en el reino animal, y la metilacin se dispersa a lo
largo de los genomas de vertebrados. Sin embargo, slo una pequea porcentaje
de las citosinas estn metiladas (alrededor de 3% en el ADN humano, sobre todo
como mCpG pero con un pequeo porcentaje como mCpNpG, donde N es
cualquier nucletido).
5-metilcitosina es qumicamente inestable y es propenso a desaminacin (vase
la Figura 1A). Otras bases desaminados producen derivados que son identificadas
como anormales y se eliminan mediante la Maquinaria de reparacin del ADN
(por ejemplo, citosina no metilada produce uracilo cuando desaminados). Sin
embargo, 5-metil citosina se desamina a dar timina, una base natural en el ADN
que no se reconoce como ser anormal por los sistemas de reparacin del ADN
celular. Durante mucho evolutivamente perodos, por lo tanto, el nmero de
dinucletidos CpG en vertebrados ADN ha ido disminuyendo debido a la lenta
pero constante conversin de C a T pG pG (C ya pA en la complementaria
hebra; Figura 1B).
Aunque la frecuencia global de CpG en el genoma de los vertebrados es baja, hay
pequeos tramos de no metilado o hypomethylated
ADN que se caracterizan por tener la normal y esperado CpG frecuencia. Tales
islas de densidad normal (islas CpG GPC) estn relativamente rica en GC
(tpicamente ms de 50% de GC) y se extienden por encima cientos de
nucletidos. Islas CpG son marcadores genticos porque estn asociados con
regiones transcripcionalmente activas. altamente metilado
Las regiones de ADN son propensos a la adopcin de la cromatina condensada
conformacin, pero para la transcripcin de ADN activamente las necesidades de
la cromatina estar en una conformacin no metilada ms extendida, abierta que
permite que varias protenas reguladoras que se unen ms fcilmente a los
promotores y otras regiones de control de genes.

pgina 9
263
Los genes humanos estn distribuidos de manera desigual entre y dentro de
cromosomas
Genes humanos estn distribuidos de manera desigual sobre las molculas de
ADN nuclear. La estafa- regiones de heterocromatina constitutiva estn
desprovistos de los genes y, aun dentro de la eucromtica porcin del genoma, la
densidad de genes puede variar sustancialmente entreregiones cromosmicas y
tambin entre los cromosomas enteros.La primera idea general de cmo los genes
se distribuyen a travs de la humanase obtuvo genoma cuando se purifica
fracciones isla CpG se hibrid con cromosomas en metafase. Islas CpG durante
mucho tiempo han sido conocidos por ser fuertemente asociado a los genes
(vase el recuadro 9.1). Sobre esta base, se concluy que el gen densidad debe
ser alta en las regiones subtelomricas, y que algunos cromosomas (por ejemplo,
19 y 22) son ricos en genes mientras que otros (por ejemplo, X y 18) son pobres
en genes (vaseFigura 8.17). Las predicciones de la diferencia de densidad isla
CpG y diferenciado la densidad de genes se confirmaron posteriormente
mediante el anlisis del genoma humano secuencia.
Esta diferencia en la densidad de genes tambin puede ser visto con la tincin de
Giemsa (G de bandaing) de cromosomas. Las regiones con un bajo contenido en
(G + C) se correlacionan con la oscuridad est bandas G, y los que tienen un alto
contenido en (G + C) con bandas plidas. Rica en GC cro-mosomes (por
ejemplo, el cromosoma 19) y regiones (por ejemplo plido bandas G) son
tambin
relativamente rica en genes. Por ejemplo, el gen de leucocitos humanos ricos
anti-
gen (HLA) complejos (180 genes codificadores de protenas en un lapso de 4
Mb) se encuentra dentro de
el plido 6p21.3 banda. Instriking contraste, el gen de la distrofina mamut se
extiende
ms de 2,4 Mb de ADN en una banda oscura en G Xp21.2 sin evidencia de
cualquier otra
gen que codifica la protena en esta regin.
La duplicacin de segmentos de ADN que se ha traducido en el nmero de
copias
familias de genes y la variacin
Genomas pequeos, tales como los de bacterias y mitocondrias, son tpicamente
fuertemente
lleno de informacin gentica que se presenta en extremadamente econmico
formas. Grandes genomas, tales como los genomas nucleares de los eucariotas, y
espe-
cialmente de vertebrados genomas, tienen el lujo de no estar tan
restringida. repetitivo
El ADN es una caracterstica llamativa de grandes genomas, tanto en abundancia
y
importancia.
Los diferentes tipos de secuencia de ADN se pueden repetir. Algunos son cortos
no codificantesecuencias que estn presentes en unas pocas copias a millones de
copias. Estos sern se analiza en la Seccin 9.4. Muchos otros son
moderadamente largo a ADN grande secuencias que a menudo contienen genes o
partes de genes. Tales secuencias duplicadas son propensos a diversos
mecanismos genticos que dan lugar a la variacin del nmero de copias
(CNV) en la que el nmero de copias del especfico sequences- moderadamente
largaa menudo de muchos kilobases a varias megabases largo vara entre las
diferentes
haplotipos. Variacin en el nmero de copias genera un tipo de variacin
estructural que consideramos con ms detalle en el captulo 13, pero vamos a
considerar algunos de los meca-meca- a continuacin en el contexto de cmo se
duplican genes. Est claro, sin embargo, que CNV es bastante extensa en el
genoma humano. Por ejemplo, cuando James
Genoma de Watson fue secuenciado, el 1,4% de la secuencia de datos totales
obtenidos hizo
No mapa con la secuencia del genoma humano de referencia. Como genoma
personal secuenciacin se acelera, las nuevas regiones de la CNV se estn
identificando con importantes implicaciones para la expresin de genes y la
enfermedad.
Repetida la duplicacin de una secuencia que contiene el gen da lugar a una fa-
gen AIA. Como veremos en las secciones 9.2 y 9.3, muchos genes humanos son
miembros de multigene familias que pueden variar enormemente en trminos de
nmero de copias y bucin bucin. Surgen por una o ms de una variedad de
diferentes mecanismos que resultan en la duplicacin de genes. Las familias de
genes tambin pueden contener evolutivamente relacionados secuencias que
pueden seguir funcionando como trabajan los genes (pseudogenes).
Mecanismos de duplicacin de genes
La duplicacin de genes ha sido un acontecimiento comn en la evolucin de la
gran nuclear genomas que se encuentran en eucariotas complejos. Las familias
multignicas resultantes tienen a partir de dos a muchas copias del gen. Las
copias de genes pueden ser agrupados juntos enuna ubicacin subchromosomal o
pueden estar dispersas en varios cromosomas
Somal ubicaciones. Pueden producirse varios tipos diferentes de duplicacin de
genes:
ORGANIZACIN GENERAL DEL GENOMA HUMANO

pgina 10
Captulo 9: Organizacin del Genoma Humano
264
Tandem duplicacin de genes normalmente surge por cruce entre desigualmente
cromtidas alineados, ya sea en los cromosomas
homlogos (entrecruzamiento desigual)
o en el mismo cromosoma (intercambio de cromtidas hermanas desigual).
pgina 11
265
9.2 GENES PROTEINCODING
Durante muchos aos, los genetistas moleculares crean que el final- importante
de funcionamiento punto de ADN era de protenas. Los estudios de genomas
procariotas apoyaron esta creencia, en parte porque estos genomas son ricos en
ADN que codifica la protena. Lleg como una superficie premio al encontrar
que los genomas mucho ms grandes de los eucariotas complejos han
comparativa poco ADN codificante de la protena. Por ejemplo, la protena de
codificacin de secuencias de ADN cuenta de cerca de 90% de la E. coli genoma,
pero slo un 1,1% de la humana genoma.

genes que codifican protenas humanas muestran una enorme variacin en


el tamao y la organizacin interna
La diversidad de tamaos
Los genes en organismos simples como las bacterias son relativamente similares
en tamao y son por lo general muy corto (tpicamente alrededor de 1 kb de
largo). En eucariotas complejos, genes puede mostrar gran variacin en el
tamao. Aunque en general hay una correlacin directa entre los genes y
productos tamaos, hay algunas anomalas sorprendentes. Por ejemplo, el gigante
gen de la distrofina 2.4 Mb es ms de 50 veces el tamao de la apolipo-
la protena B gen, pero la protena distrofina tiene una longitud lineal
(aminocidos totales nmero) que es aproximadamente 80% de la de la
apolipoprotena B ( Tabla9.4 ).
Una pequea minora de los genes codificantes de protenas humanas carecen de
intrones y se generan aliado pequea (vase la nota a la Tabla 9.4 para algunos
ejemplos). Para los que s poseen

pgina 12
Captulo 9: Organizacin del Genoma Humano
266
intrones, existe una correlacin inversa entre el tamao de genes y la fraccin de
codificacin ADN (ver Tabla 9.4). Esto no se plantea debido a los exones de
genes grandes son ms pequeos que las de pequeos genes. El tamao medio de
exn en los genes humanos est cerca
300 pb, y el tamao de exn es relativamente independiente de la longitud de
genes. En cambio, hay es enorme variacin en las longitudes de intrones, genes y
grandes tienden a tener muy grandes intrones
(Ver Tabla 9.4). La transcripcin de largo intrones es, sin embargo, costoso en
tiempo y energa; la transcripcin del gen de la distrofina de 2,4 Mb toma
alrededor de 16 horas. Por lo tanto, muy los genes altamente expresados a
menudo tienen intrones cortos o no intrones en absoluto.

Las secuencias repetitivas dentro de ADN que codifica


Las secuencias de ADN altamente repetitivas se encuentran a menudo dentro de
intrones y flanqueandos ecuencias de genes. Ellos sern detallados en la Seccin
9.4. Adems, repetitivo secuencias de ADN que se encuentran en diferentes
grados en los exones. Tandem repeticin de muysecuencias cortas de
oligonucletidos (1-4 pb) es frecuente y simplemente pueden reflejar estacin
estadsticamente esperado frecuencias para ciertas composiciones de base. la
repeticin en tndem de secuencias que codifican dominios proteicos conocidos o
asumidos tambin es bastante y puede ser funcionalmente ventajosa al
proporcionar un bio- ms disponibles objetivo lgico.
Las identidades de secuencia entre los dominios de protenas son a menudo
repetidas bastante bajo, pero a veces puede ser alto. La lipoprotena Lp (a),
codificada por el LPA gen en el cromosoma 6q26, es un ejemplo
clsico. Contiene mltiples repetidos en tndem dominios kringle, que son cada
uno de aproximadamente 114 aminocidos de longitud y formar bucles con
enlaces disulfuro. Los diferentes dominios kringle son a menudo casi idnticos en
secuencia de aminocidos. Incluso a nivel de secuencia de nucletidos del ADN
repeticiones que codifican los dominios kringle muestran niveles muy altos de
secuencia identidad, hacindolos propensos a la desigualdad de crossover. Como
resultado, el LPA gen est sujeta a polimorfismo de la longitud, y el nmero de
dominios kringle en lipoprotena Lp
(A) vara, pero es generalmente 15 o ms.

Diferentes protenas pueden ser especificados por la superposicin de la


transcripcin Unidades La superposicin de los genes y los genes dentro de
otra genes

genomas simples tienen una alta densidad de genes (aproximadamente uno por
cada 0,5, 1, y 2 kb para el genomas de las mitocondrias humano, Escherichia
coli , y Saccharomyces cerevisiae , respectivamente) y, a menudo muestran
ejemplos de genes que se solapan parcialmente. Diferente marcos de lectura se
pueden usar, a veces de la misma cadena con sentido. en complejo
organismos, tales como seres humanos, genes son mucho ms grandes, y hay
menos agrupacin de secuencias codificantes de protenas
Los genes transcritos de forma divergente o co-transcriben a partir de un
comn promotor
Algunos genes codificadores de protenas comparten un promotor. En muchos
casos los 5 extremos de los dos los genes son a menudo separados por unos
pocos cientos de nucletidos y los genes son transcrito en direcciones opuestas
desde el promotor comn. Este tipo de bidi- organizacin de genes direccional
puede proporcionar una regulacin comn del par de genes.
Como alternativa, los genes con un promotor comn se transcriben en la misma
direccin para producir transcripciones multignicas que a continuacin se
escinden para producir una

pgina 13
267

pgina 14
Captulo 9: Organizacin del Genoma Humano
268
transcripcin separada para cada gen. Tales genes se dice que formar parte de
un poli- cistrnico (= multignica) unidad de transcripcin. Unidades de
transcripcin polycistronic son comn en los genomas simples, tales como los de
las bacterias y la mitocondrial genoma (vase la Figura 9.3). Dentro del genoma
nuclear, se conocen algunos ejemplosd e diferentes protenas que se producen a
partir de una unidad de transcripcin comn. Tpicamente, que se producen por
escisin de una protena de precursor hbrido que se traduce de una transcripcin
comn. Las cadenas A y B de la insulina, que son ntimamente relacionados
funcionalmente, se producen de esta manera (vase la figura 1.26), as como el
relacionado pptido somatostatina y hormonas neuronostatin. A veces, sin
embargo, funcionalmente protenas distintas son producidas a partir de un
precursor de la protena comn. Los UBA52 y UBA80 genes, por ejemplo, tanto
generan ubiquitina y un no relacionado protena ribosomal (S27a y L40,
respectivamente).
Anlisis ms recientes han demostrado que la idea desde hace mucho tiempo que
la mayora genes humanos son unidades de transcripcin independientes que no
es cierto, por lo que la definicin tendr que ser revisada radicalmente cin de un
gen. transcripcin Multignico es ahora conocido por ser bastante frecuente en el
genoma humano, y las protenas especficas y Noncoding RNAs funcionales se
pueden hacer por los precursores de ARN comunes. Esta voluntad estudiar ms a
fondo en la seccin 9.3.
genes que codifican protenas humanas a menudo pertenecen a familias de
genes que pueden ser agrupados o dispersos en varios cromosomas
Duplicados genes duplicados y de codificacin de componentes de secuencia son
un comn caracterstica de los genomas de animales, especialmente grandes
genomas de vertebrados. Como veremos en
Captulo 10, la duplicacin de genes ha sido un factor importante en la evolucin
de complejidad funcional y el origen de organismos cada vez ms complejos. Los
genes que operan en las mismas o similares vas funcionales, pero producen
protenas con poca evidencia de la similitud de secuencias estn alejadas en la
evolucin, y que tienden a dispersarse en diferentes localizaciones
cromosmicas. Ejemplos incluyen genes que codifican la insulina (en el
cromosoma 11p) y el receptor de la insulina (19p); fermentacin ritin cadena
pesada (11q) y la cadena ligera de ferritina (22q); esteroide 11-hidroxilasa (8q) y
un esteroide 21-hidroxilasa (6p); y JAK1 (1p) y STAT1 (2q). Sin embargo, los
genes que producen protenas con similitud estructural y funcional tanto son a
menudo organizada en grupos de genes.

pgina 15
269
Las diferentes clases de las familias de genes humanos pueden ser reconocidos de
acuerdo con la grado de similitud de secuencia y la similitud estructural de sus
productos proteicos.
Si dos genes diferentes hacen productos de protenas muy similares, que son ms
propensos a se origin por una duplicacin de genes evolutivamente muy
reciente, muy probablemente algn tipo de evento tndem duplicacin de genes,
y tienden a agruparse juntos en un lugar especfico subchromosomal. Si hacen
protenas que sonms alejadas en secuencia, que muy probablemente surgieron
por una ms antiguala duplicacin de genes. Pueden originalmente se han
agrupado juntos, pero a lo largo evolutivos largas escalas de tiempo de los genes
podran haber sido separadas por translocaciones o inversiones, y que tienden a
estar localizados en diferentes cromosomas ubicaciones.
Algunas familias de genes estn organizados en varios clsteres. El b-, g-, d-, y
genes e-globina se encuentran en un grupo de genes en 11P y estn ms
estrechamente relacionados con entre s de lo que son para los genes en el a-
globina grupo de genes en 16p ( figura 9.8 ).Losgenesenelgrupodegenesde
bglobinaen11Poriginadasporduplicacingnica eventos cin que eran mucho
ms reciente en la evolucin que el gen temprano duplicacin caso que dio
origen a los antepasados de los genes A y B-globina. Un excepcional ejemplo de
una familia de genes organizado como mltiples grupos de genes es la familia de
genes de receptores olfativos. Los genes codifican un repertorio diverso de
receptores que nos permiten discriminar miles de diferentes olores; los genes se
encuentran en grandes racimos en mltiples localizaciones cromosmicas
diferentes ( Tabla9.6 ).
Algunas familias de genes tienen copias de genes individuales en dos o ms
cromosmica lugares sin la agrupacin de genes (vase la Tabla 9.6). Los genes
en los diferentes localizaciones son por lo general bastante divergentes en
secuencia a no ser que se produjo la duplicacin de genes hace relativamente
poco tiempo o que ha habido una considerable presin de seleccin para
mantener conservacin de la secuencia. Se espera que los miembros de la familia
que se origin de duplicaciones de genes antiguos.
Las diferentes clases de familia de genes pueden ser reconocidos de acuerdo
con la extensin de la secuencia y la similitud estructural de la protena
productos
A medida que se enumeran a continuacin, varias clases de familia de genes se
pueden distinguir segn el nivel de identidad de secuencia entre los miembros de
genes individuales.
En las familias de genes con miembros estrechamente relacionados, los genes
tienen un alto grado de de homologa de secuencia sobre la mayor parte de la
longitud del gen o secuencia de codificacin.
Los ejemplos incluyen familias de genes de histonas (histonas estn fuertemente
conservados, y miembros de la subfamilia son prcticamente idnticas), y la A-
globina y b-globina familias de genes. Albmina clster 4q12 hormona de
crecimiento clster 17q23 a-globina clster 16p13 clster b-globina

pgina 16
Captulo 9: Organizacin del Genoma Humano
270
En las familias de genes definidos por una protena de dominio comn, los
miembros podrn tienen muy baja homologa de secuencia pero poseen ciertas
secuencias que especificar una o ms especficos dominios de la protena. Los
ejemplos incluyen el gen PAX familia y SOX familia de genes ( Tabla9.7 ).
Ejemplos de familias de genes definidos por motivos de protenas
funcionalmente similares cortos son familias de genes que codifican protenas
relacionadas funcionalmente con una DEAD box motivo (Asp-Glu-Ala-Asp) o la
repeticin WD ( Figura9.9 ). Algunos genes codifican productos que estn en
relacin funcional en un sentido general pero muestran slo es muy dbil
homologa de secuencia sobre un segmento grande, sin muy aminocidos
conservados motivos importantes. Sin embargo, puede haber alguna evidencia
dencia para las caractersticas estructurales generales comunes. Tales genes se
pueden agrupar en un evolutivamente antigua superfamilia de genes con muy
muchos miembros de genes.
Debido a mltiples diferentes eventos de duplicacin de genes se han producido
peridicamente durante la larga evolucin de una superfamilia de genes, algunos
de los miembros de genes crea protenas que son muy divergentes en secuencia a
las de alguna otra familia miembros, pero los genes resultantes de duplicaciones
ms recientes son ms fcilmente visto estar relacionado en secuencia.

pgina 17
271
Dos ejemplos importantes de superfamilias de genes son la Ig (inmunoglobulina)
y GPCR (receptor acoplado a protena G) Superfamilias. Los miembros de la
super-Ig familia todos tienen dominios globulares se asemejan a los encontrados
en las inmunoglobulinas, y adems de inmunoglobulinas que incluyen una
variedad de superficie de la clula pro- protenas solubles y protenas implicadas
en el reconocimiento, unin, o ceso de adhesin eses de clulas (vase la Figura
4.22 para ver algunos ejemplos). La superfamilia GPCR es muy con al menos
799 miembros de larga duracin en grandes nicas, distribuidos en todo el
Genoma humano. Todas las protenas GPCR tienen una estructura comn de siete
a-hlicesegmentos transmembrana, pero por lo general tienen una baja secuencia
(menos de 40%)similitud entre s. Ellos median la sealizacin celular inducida
por ligando a travs de interaccin con las protenas G intracelulares, y la mayor
parte del trabajo como receptores de rodopsina.

la duplicacin de genes que dan lugar a las familias multignicas tambin


crear pseudogenes y fragmentos de genes
Las familias de genes con frecuencia tienen copias de genes defectuosos, adems
de funcional genes. Una copia del gen defectuoso que contiene por lo menos
varios exones de una funcin gen cional se conoce como un pseudogen ( Box
9,2 ). Otras copias del gen defectuoso puedetener partes solamente limitadas de la
secuencia del gen, a veces un solo exn, y tambin lo son a veces descrito
como fragmentos de genes . familias de genes agrupados a menudo tienen copias
de genes defectuosos que han surgido por duplicacin en tndem. Estos son
ejemplos de pseudogenes no procesados . Proceso de copiarse puede ver que se
han realizado a nivel de ADN genmico, porque no pseudogenes procesados
contienen homlogos de ambos exones e intrones y a veces tambin de regiones
promotoras aguas arriba. Sin embargo, incluso si la copia tiene secuencias que
corresponden a la longitud completa del gen funcional, ms cerca de
examinacin identificar los codones de terminacin inapropiadas en los exones,
empalme aberranteuniones, y as sucesivamente. Ejemplos clsicos de
pseudogenes no procesados se encuentran en la A-globina y grupos de genes b-
globina (vase la Figura 9.8). A veces, ms pequea copias de genes truncados y
copias fragmento de gen tambin son evidentes, ya que en la clase I

pgina 18
Captulo 9: Organizacin del Genoma Humano
272
Pseudogenes se lo suele considerar como copias defectuosas de un funcional gen
a la que muestran homologa de secuencia significativa. Ellos normalmente
surgen por algn tipo de evento de duplicacin de genes que produce dos copias
del gen. La presin de seleccin para conservar la funcin de necesidad genslo
puede ser impuesta a una copia del gen; la otra copia se puede permitirpara mutar
con mayor libertad ( deriva gentica ) y puede recoger la inactivacinmutaciones,
produciendo un pseudogen. Sin embargo, algunas secuencias sonse hace
referencia como pseudogenes a pesar de que no han originadomediante la copia
de ADN. Por ejemplo, como veremos en el captulo 10, los seres humanos tienen
raras pseudogenes solitarios que son claramente ortlogos de funcionales genes
en los grandes simios y se convirtieron defectuoso despus de la adquisicin
perjudiciales mutaciones en el linaje humano.
Diferentes mecanismos de duplicacin de genes puede dar lugar a mltiples
copias de genes funcionales y pseudogenes defectuosos. O bien elsecuencia de
ADN genmico se copia o se hace una copia de ADNc (despus de la
transcripcin inversa de un transcrito de ARN procesado) que integra en el ADN
genmico. Para un gen codificante de la protena, la copia en el genoma nivel del
ADN puede dar lugar a la duplicacin del promotor y aguas arriba secuencias
reguladoras, as como de todos los exones e intrones. Una defectuosa gen que
deriva de una copia de una secuencia de ADN genmico es conocida como
un pseudogen nonprocessed

pgina 19
273
transcripciones tales como ARNm para hacer cDNA que luego pueden integrar en
cromosoma ADN Somal ( Figura9.12 ). Pseudogenes procesados son comunes
en intercaladas familias de genes (vase la Tabla 9.5).
pseudogenes procesados carecen de una secuencia promotora y por lo general no
son expresado. A veces, sin embargo, los ADNc copia integra en un cromosoma
sitio de ADN que sucede, por casualidad, ser adyacente a un promotor que puede
conducir expresin de la copia del gen procesado. La presin de seleccin puede
garantizar que la de copias de genes procesado contina haciendo un producto
gnico funcional, en cuyo caso que se describe como un retrogene . Una
variedad de retrogenes intronless se sabe que tienen
Prueba especfica de patrones de expresin y son homlogos tpicamente
autosmicos de una -intrn que contiene el gen ligado al cromosoma X