Está en la página 1de 48

 Publicado:01 de septiembre de 2005

Secuencia inicial del genoma del


chimpancé y comparación con el genoma
humano
 El Consorcio de Secuenciación y Análisis de Chimpancés

Naturaleza volumen 437 , paginas69–87 ( 2005 ) Citar este artículo


 135k Accesos
 1693 Citas
 448 Altmetric
 Métricadetalles

Abstracto
Aquí presentamos un borrador de la secuencia del genoma del chimpancé
común ( Pan troglodytes). A través de la comparación con el genoma humano,
hemos generado un catálogo en gran parte completo de las diferencias
genéticas que se han acumulado desde que las especies humana y chimpancé
se separaron de nuestro ancestro común, constituyendo aproximadamente
treinta y cinco millones de cambios de un solo nucleótido, cinco millones de
eventos de inserción/deleción y varios reordenamientos
cromosómicos. Usamos este catálogo para explorar la magnitud y la variación
regional de las fuerzas mutacionales que dan forma a estos dos genomas, y la
fuerza de la selección positiva y negativa que actúa sobre sus genes. En
particular, encontramos que los patrones de evolución en genes codificadores
de proteínas humanos y de chimpancé están altamente correlacionados y
dominados por la fijación de alelos neutrales y ligeramente perjudiciales.

Principal
Hace más de un siglo, Darwin 1 y Huxley 2 postularon que los humanos
comparten ancestros comunes recientes con los grandes simios
africanos. Estudios moleculares modernos han confirmado espectacularmente
esta predicción y han refinado las relaciones, mostrando que el chimpancé
común ( Pan troglodytes ) y el bonobo ( Pan paniscus o chimpancé pigmeo)
son nuestros parientes evolutivos vivos más cercanos 3 . Los chimpancés son,
por lo tanto, especialmente adecuados para enseñarnos sobre nosotros
mismos, tanto en términos de sus similitudes como de sus diferencias con los
humanos. Por ejemplo, los estudios pioneros de Goodall sobre el chimpancé
común revelaron sorprendentes similitudes de comportamiento, como el uso
de herramientas y la agresión grupal 4 , 5. Por el contrario, otras características
son obviamente específicas de los humanos, incluyendo la bipedestación
habitual, un cerebro muy agrandado y un lenguaje complejo 5 . También se
han observado similitudes y diferencias importantes en la incidencia y
gravedad de varias enfermedades humanas importantes 6 .

Las comparaciones del genoma de humanos y chimpancés pueden ayudar a


revelar la base molecular de estos rasgos, así como las fuerzas evolutivas que
han moldeado nuestra especie, incluidos los procesos mutacionales
subyacentes y las restricciones selectivas. Los primeros estudios buscaron
sacar inferencias de conjuntos de unas pocas docenas de genes 7 , 8 , 9 , mientras
que estudios recientes han examinado conjuntos de datos más grandes, como
exones codificadores de proteínas 10 , secuencias genómicas aleatorias 11 , 12 y
un cromosoma completo de chimpancé 13 .

Aquí presentamos un proyecto de secuencia del genoma del chimpancé común


y realizamos análisis comparativos con el genoma humano. Esta comparación
difiere fundamentalmente de estudios genómicos comparativos recientes de
ratón, rata, pollo y pescado 14 , 15 , 16 , 17. Debido a que estas especies se han
separado sustancialmente del linaje humano, el enfoque de tales estudios es la
alineación precisa de los genomas y el reconocimiento de regiones de
conservación evolutiva inusualmente alta para identificar elementos
funcionales. Debido a que el chimpancé se encuentra a una distancia evolutiva
tan corta con respecto al ser humano, casi todas las bases son idénticas por
descendencia y las secuencias se pueden alinear fácilmente, excepto en las
grandes regiones repetitivas recientemente derivadas. Por lo tanto, el enfoque
se vuelve hacia las diferencias en lugar de las similitudes. Una diferencia
observada en un sitio casi siempre representa un solo evento, no múltiples
cambios independientes a lo largo del tiempo. La mayoría de las diferencias
reflejan la deriva genética aleatoria, y, por lo tanto, contienen una gran
cantidad de información sobre los procesos mutacionales y la selección
negativa que se puede extraer fácilmente con las técnicas analíticas
actuales. Escondido entre las diferencias hay una minoría de cambios
funcionalmente importantes que subyacen a las diferencias fenotípicas entre
las dos especies. Nuestra capacidad para distinguir tales sitios es actualmente
bastante limitada, pero el catálogo de diferencias entre humanos y chimpancés
abre este tema a una investigación sistemática por primera vez. También
esperamos que, al elaborar las pocas diferencias que separan a las dos
especies, aumentemos la presión para salvar a los chimpancés y otros grandes
simios en la naturaleza. pero el catálogo de diferencias entre humanos y
chimpancés abre este tema a una investigación sistemática por primera vez.

Nuestros resultados confirman muchas observaciones anteriores, pero


cuestionan notablemente algunas afirmaciones anteriores basadas en datos
más limitados. Los datos de todo el genoma también permiten abordar algunas
preguntas por primera vez. (Aquí y en todas partes, nos referimos a la
comparación chimpancé-humano como representación de homínidos y la
comparación ratón-rata como representación de múridos; por supuesto, cada
par cubre solo un subconjunto del clado). Los principales hallazgos incluyen:

 Las sustituciones de un solo nucleótido se producen a una tasa media


del 1,23 % entre las copias del genoma humano y del chimpancé, y el
1,06 % o menos corresponde a una divergencia fija entre las especies.

 La variación regional en las tasas de sustitución de nucleótidos se


conserva entre los genomas de homínidos y múridos, pero las tasas en
las regiones subteloméricas son desproporcionadamente elevadas en los
homínidos.

 Las sustituciones en los dinucleótidos CpG, que constituyen una cuarta


parte de todas las sustituciones observadas, ocurren a tasas más
similares en las líneas germinales masculinas y femeninas que las
sustituciones no CpG.

 Los eventos de inserción y eliminación (indel) son menores en número


que las sustituciones de un solo nucleótido, pero dan como resultado
que aproximadamente el 1,5% de la secuencia eucromática en cada
especie sea específica del linaje.

 Hay diferencias notables en la tasa de inserciones de elementos


transponibles: los elementos intercalados cortos (SINE) han sido tres
veces más activos en humanos, mientras que los chimpancés han
adquirido dos nuevas familias de elementos retrovirales.

 Las proteínas ortólogas en humanos y chimpancés son extremadamente


similares, con ~ 29% idénticas y el ortólogo típico difiere en solo dos
aminoácidos, uno por linaje.

 Las tasas normalizadas de sustituciones que alteran los aminoácidos en


los linajes de homínidos son elevadas en relación con los linajes de
múridos, pero cercanas a las observadas para los polimorfismos
humanos comunes, lo que implica que la selección positiva durante la
evolución de los homínidos representa una fracción más pequeña de la
divergencia de proteínas que la sugerida en algunos informes
anteriores.
 La tasa de sustitución en los sitios silenciosos en los exones es más baja
que la tasa en los sitios intrónicos cercanos, lo que es consistente con
una débil selección purificadora en los sitios silenciosos de los
mamíferos.

 El análisis del patrón de la diversidad humana en relación con la


divergencia de los homínidos identifica varios loci como candidatos
potenciales para fuertes barridos selectivos en la historia humana
reciente.

En este documento, comenzamos con información sobre la generación,


ensamblaje y evaluación de la secuencia preliminar del genoma. Luego
exploramos la evolución general del genoma, con el objetivo de comprender
los procesos mutacionales que actúan en el genoma humano. A continuación
nos centramos en la evolución de los genes codificadores de proteínas, con el
objetivo de caracterizar la naturaleza de la selección. Finalmente, discutimos
brevemente los conocimientos iniciales sobre la genética de poblaciones
humanas.

En reconocimiento a su fuerte apoyo comunitario, nos referiremos a los


cromosomas de chimpancé utilizando la nomenclatura de numeración ortóloga
propuesta por la ref. 18 , que vuelve a numerar los cromosomas de los grandes
simios del estándar del Sistema Internacional para la Nomenclatura
Citogenética Humana (ISCN; 1978) para corresponder directamente a sus
ortólogos humanos, utilizando los términos 2A y 2B para los dos cromosomas
de simio correspondientes al cromosoma 2 humano.

Secuenciación y ensamblaje del genoma


Secuenciamos el genoma de un solo chimpancé macho (Clint; número de
pedigrí de Yerkes C0471; Tabla complementaria S1 ), un descendiente de
chimpancés nacido en cautiverio de la subespecie Pan troglodytes verus
de África Occidental , utilizando un enfoque de escopeta de genoma completo
(WGS) 19 , 20 _ Los datos se ensamblaron utilizando los programas PCAP y
ARACHNE 21 , 22 (consulte la Información complementaria "Secuenciación y
ensamblaje del genoma" y las Tablas complementarias S2–S6 ). El primero
fue un ensamblaje de novo , mientras que el segundo hizo un uso limitado de
la secuencia del genoma humano (NCBI build 34) 23 , 24para facilitar y
confirmar la vinculación contig. El ensamblaje ARACHNE tiene una
continuidad ligeramente mayor ( Tabla 1 ) y se utilizó para el análisis en este
documento. El borrador del ensamblaje del genoma, generado a partir de una
redundancia de secuencia de ~ 3,6 veces de los autosomas y una redundancia
de ~ 1,8 veces de ambos cromosomas sexuales, cubre ~ 94 % del genoma del
chimpancé con >98 % de la secuencia en bases de alta calidad. Un total del
50% de la secuencia (N50) está contenida en contigs de longitud superior a
15,7 kilobases (kb) y supercontigs de longitud superior a 8,6 megabases
(Mb). El ensamblaje representa un consenso de dos haplotipos, con un alelo
de cada posición heterocigótica representado arbitrariamente en la secuencia.

Tabla 1 Estadísticas de ensamblaje de chimpancés


mesa de tamaño completo

Evaluación de calidad y cobertura. El ensamblaje del genoma del


chimpancé se sometió a una evaluación de calidad rigurosa, basada en la
comparación con los cromosomas artificiales bacterianos (BAC) de
chimpancé terminados y con el genoma humano (consulte la Información
complementaria "Secuenciación y ensamblaje del genoma" y las Tablas
complementarias S7–S16 ).

La precisión del nivel de nucleótidos es alta en varias medidas. Alrededor del


98% de la secuencia del genoma del chimpancé tiene puntuaciones de
calidad 25 de al menos 40 (Q40), lo que corresponde a una tasa de error de
≤10 -4 . La comparación de la secuencia WGS con 1.3 Mb de BAC terminados
del individuo secuenciado es consistente con esta estimación, dando una tasa
de discrepancia de alta calidad de 3 × 10 -4 sustituciones y 2 × 10 -4 indeles, que no es
más de lo esperado dado la tasa de heterocigosidad (ver más abajo), ya que el
50% de los alelos polimórficos en la secuencia WGS diferirán de los BAC de
un solo haplotipo. Comparación de regiones codificantes de proteínas
alineadas entre la secuencia WGS, la secuencia recientemente publicada del
cromosoma 21 del chimpancé (ref. 13; anteriormente el cromosoma 22
(ref. 18 )) y el genoma humano tampoco revelaron un exceso de sustituciones
en la secuencia WGS (ver Información complementaria 'Secuenciación y
ensamblaje del genoma'). Por lo tanto, al restringir nuestro análisis a bases de
alta calidad, la precisión a nivel de nucleótidos del ensamblaje WGS es
esencialmente igual a la de la secuencia 'terminada'.

La precisión estructural también es alta en comparación con BAC terminados


del donante primario y otros chimpancés, aunque el nivel relativamente bajo
de redundancia de secuencia limita la contigüidad local. Sobre la base de las
comparaciones con el donante primario, algunos supercontigs pequeños (la
mayoría <5 kb) no se han colocado dentro de los supercontigs grandes ( ∼ 1
evento por 100 kb); estos no son estrictamente errores, pero sin embargo
afectan la utilidad del ensamblaje. También hay pequeñas superposiciones no
detectadas (todas <1 kb) entre contigs consecutivos ( ∼ 1,2 eventos por 100
kb) y desorden local ocasional de pequeños contigs ( ∼ 0,2 eventos por 100
kb). No se encontraron contigs mal orientados. La comparación con la
secuencia final del cromosoma 21 arrojó tasas de discrepancia similares
(verInformación complementaria 'Secuenciación y ensamblaje del genoma').

Las regiones más problemáticas son aquellas que contienen duplicaciones


segmentarias recientes. El análisis de clones BAC de regiones duplicadas ( n =
75) y únicas ( n = 28) mostró que las primeras tienden a fragmentarse en más
contigs (1,6 veces) y más supercontigs (3,2 veces). Las discrepancias en el
orden contig también son más frecuentes en las regiones duplicadas que en las
únicas ( ∼ 0,4 frente a ∼0,1 eventos por 100 kb). La tasa es dos veces mayor
en las regiones duplicadas con la identidad de secuencia más alta (> 98 %). Si
restringimos el análisis a las duplicaciones más antiguas (≤ 98% de identidad)
encontramos menos problemas de ensamblaje: el 72% de las que se pueden
mapear en el genoma humano se comparten como duplicaciones en ambas
especies. Estos resultados son consistentes con las limitaciones descritas del
ensamblaje WGS actual para regiones de duplicación segmentaria 26 . El
análisis detallado de estas regiones del genoma que cambian rápidamente se
está realizando con enfoques más dirigidos 27 .

Polimorfismos de chimpancé
El proyecto de secuencia del genoma del chimpancé también facilita los
estudios de diversidad genética entre los chimpancés en todo el genoma,
ampliando el trabajo reciente 28 , 29 , 30 , 31 . Secuenciamos y analizamos las
lecturas de secuencia del donante principal, otros cuatro chimpancés de África
occidental y tres de África central ( Pan troglodytes troglodytes ) para
descubrir posiciones polimórficas dentro y entre estos individuos ( Tabla
complementaria S17 ).

Se identificaron un total de 1,66 millones de polimorfismos de un solo


nucleótido (SNP) de alta calidad, de los cuales 1,01 millones son
heterocigotos dentro del donante primario, Clint. Las tasas de heterocigosidad
se estimaron en 9,5 × 10 -4 para Clint, 8,0 × 10 -4 entre los chimpancés de
África occidental y 17,6 × 10 -4 entre los chimpancés de África central, siendo
la variación entre los chimpancés de África occidental y central de 19,0 × 10 -
4
. La diversidad en los chimpancés de África occidental es similar a la
observada en las poblaciones humanas 32 , mientras que el nivel de los
chimpancés de África central es aproximadamente el doble.

La heterocigosidad observada en Clint es ampliamente consistente con el


origen de África occidental, aunque hay un pequeño número de regiones de
heterocigosidad claramente más alta. Estos pueden reflejar una pequeña
cantidad de ascendencia centroafricana, pero es más probable que reflejen
regiones no detectadas de duplicaciones segmentarias presentes solo en
chimpancés.
evolución del genoma
Nos propusimos estudiar los eventos mutacionales que han dado forma a los
genomas humano y chimpancé desde su último ancestro común. Exploramos
cambios a nivel de nucleótidos individuales, pequeñas inserciones y
deleciones, repeticiones intercaladas y reordenamientos cromosómicos. El
análisis es casi definitivo para los cambios más pequeños, pero es más
limitado para los cambios más grandes, particularmente las duplicaciones
segmentarias específicas del linaje, debido a la naturaleza preliminar de la
secuencia del genoma.

divergencia de nucleótidos
Las mejores alineaciones recíprocas a nivel de nucleótidos de los genomas de
chimpancé y humano cubren ~ 2,4 gigabases (Gb) de secuencia de alta
calidad, incluidos 89 Mb del cromosoma X y 7,5 Mb del cromosoma Y.

Tasas de todo el genoma. Calculamos que la divergencia de nucleótidos en


todo el genoma entre humanos y chimpancés es del 1,23 %, lo que confirma
resultados recientes de estudios más limitados 12 , 33 , 34 . Las diferencias entre
una copia del genoma humano y una copia del genoma del chimpancé
incluyen tanto los sitios de divergencia fija entre las especies como algunos
sitios polimórficos dentro de cada especie. Al corregir los tiempos de
coalescencia estimados en las poblaciones de humanos y chimpancés
(consulte la Información complementaria 'Evolución del genoma'), estimamos
que el polimorfismo representa del 14 al 22 % de la tasa de divergencia
observada y, por lo tanto, que la divergencia fija es ~ 1,06 % o menos .

Las tasas de divergencia de nucleótidos no son constantes en todo el genoma,


como se ha visto en las comparaciones de los genomas humano y
murid 16 , 17 , 24 , 35 , 36 . La divergencia promedio en segmentos de 1 Mb fluctúa
con una desviación estándar de 0,25 % (coeficiente de variación = 0,20), que
es mucho mayor que el 0,02 % esperado asumiendo una tasa de divergencia
uniforme (Fig. 1a; ver también Fig . S1 complementaria ) .

Figura 1: divergencia humano-chimpancé en segmentos de 1 Mb en todo


el genoma.
a , Distribución de la divergencia de los autosomas (azul), el cromosoma X
(rojo) y el cromosoma Y (verde). b , Distribución de la variación por
cromosoma, mostrada como diagrama de caja. Los bordes de la caja
corresponden a cuartiles; las muescas al error estándar de la mediana; y las
barras verticales al rango. Los cromosomas X e Y son claramente atípicos,
pero también existe una gran variación local dentro de cada uno de los
autosomas.

imagen a tamaño completo

La variación regional en la divergencia podría reflejar la variación local en la


tasa de mutación u otras fuerzas evolutivas. Entre estas últimas, una fuerza
importante es la deriva genética, que puede causar diferencias sustanciales en
el tiempo de divergencia entre loci cuando se comparan especies
estrechamente relacionadas, ya que el tiempo de divergencia para los
ortólogos es la suma de dos términos: t 1 , el tiempo desde
la especiación , y t 2 , el tiempo de coalescencia de los ortólogos dentro de la
población ancestral común 37 . Mientras que t 1 es constante en todos los loci
( ∼ 6–7 millones de años 38 ), t 2es una variable aleatoria que fluctúa entre loci
(con una media que depende del tamaño de la población y aquí puede ser del
orden de 1 a 2 millones de años 39 ). Sin embargo, debido a la recombinación
histórica, la escala característica de tales fluctuaciones será del orden de
decenas de kilobases, que es demasiado pequeña para explicar la variación
observada para las regiones 40 de 1 Mb (ver Información complementaria
'Evolución del genoma ' ) . Otras fuerzas evolutivas potenciales son la selección
positiva o negativa. Aunque es más difícil cuantificar las contribuciones
esperadas de la selección en la población ancestral 41 , 42 , 43, está claro que los
efectos tendrían que ser muy fuertes para explicar la variación a gran escala
observada en los genomas de los mamíferos 16 , 44 . Existe evidencia tentativa
de un análisis en profundidad de la divergencia y la diversidad de que la
selección natural no es el principal contribuyente a los patrones a gran escala
de la variabilidad genética en los seres humanos 45 , 46 , 47 . Por estas razones,
sugerimos que la variación a gran escala en la tasa de divergencia entre
humanos y chimpancés refleja principalmente la variación regional en la tasa
de mutación.

Variación cromosómica en la tasa de divergencia. La variación en la tasa de


divergencia es evidente incluso a nivel de cromosomas completos ( Fig.
1b ). Los valores atípicos más llamativos son los cromosomas sexuales, con
una divergencia media del 1,9 % para el cromosoma Y y del 0,94 % para el
cromosoma X. La explicación probable es una mayor tasa de mutación en la
línea germinal masculina en comparación con la femenina 48 . De hecho, la
proporción de las tasas de mutación masculina/femenina (indicada como α ) se
puede estimar comparando las tasas de divergencia entre los cromosomas
sexuales y los autosomas y corrigiendo el polimorfismo ancestral en función
del tamaño de la población del ancestro común más reciente (MRCA;
ver Información complementaria 'Evolución del genoma'). Estimaciones
para αvarían de 3 a 6, según los cromosomas comparados y el tamaño de la
población ancestral asumido ( Tabla complementaria S18 ). Esto es
significativamente más alto que las estimaciones recientes de α para los
murids ( ∼ 1.9) (ref. ref. 17 ) y resuelve una controversia reciente basada en
conjuntos de datos más pequeños 12 , 24 , 49 , 50 .

La mayor tasa de mutación en la línea germinal masculina generalmente se


atribuye al número 5-6 veces mayor de divisiones celulares que experimentan
las células germinales masculinas 48 . Razonamos que esto afectaría las
mutaciones resultantes de errores de replicación del ADN (la tasa debería
escalar con el número de divisiones celulares) pero no las mutaciones
resultantes del daño del ADN, como la desaminación de metil CpG a TpG (la
tasa debería escalar con el tiempo). En consecuencia, calculamos α por
separado para los sitios CpG, obteniendo un valor de ∼ 2 a partir de la
comparación de las tasas entre los autosomas y el cromosoma X. Este valor
intermedio es una combinación de las tasas de pérdida y ganancia de CpG, y
es consistente con tasas aproximadamente iguales de Transiciones de CpG a
TpG en la línea germinal masculina y femenina 51 ,52 .

También se observa una variación significativa en las tasas de divergencia


entre los autosomas ( Fig. 1b ; P < 3 × 10 -15 , prueba de Kruskal-Wallis en
ventanas de 1 Mb), lo que confirma observaciones anteriores basadas en
muestreo WGS de baja cobertura 12 . Por lo tanto, factores adicionales
influyen en la tasa de divergencia entre los cromosomas de chimpancé y
humanos. Es probable que estos factores actúen en escalas de longitud
significativamente más cortas que un cromosoma, porque la desviación
estándar entre los autosomas (0,21 %) es comparable a la desviación estándar
observada en ventanas de 1 Mb en todo el genoma (0,13–0,35 %). Por lo
tanto, buscamos comprender los factores locales que contribuyen a la
variación en la tasa de divergencia.

Aporte de dinucleótidos CpG. Los sitios que contienen dinucleótidos CpG en


cualquiera de las especies muestran una tasa de divergencia sustancialmente
elevada del 15,2% por base; representan el 25,2% de todas las sustituciones
mientras que constituyen solo el 2,1% de todas las bases alineadas. La
divergencia en los sitios CpG representa tanto la pérdida de los CpG
ancestrales como la creación de nuevos CpG. Se sabe que el primer proceso
ocurre a una velocidad rápida por base debido a la metilación frecuente de las
citosinas en un contexto CpG y su desaminación frecuente 53 , 54 , mientras que
el segundo proceso probablemente avanza a una velocidad más típica de otras
sustituciones de nucleótidos. Suponiendo que la pérdida y la creación de sitios
CpG están cerca del equilibrio, la tasa de mutación de las bases en un
dinucleótido CpG debe ser de 10 a 12 veces mayor que la de otras bases
(verInformación complementaria 'Evolución del genoma' y ref. 51 ).

Debido a la alta tasa de sustituciones de CpG, se esperaría que las tasas de


divergencia regional se correlacionaran con la densidad regional de CpG. De
hecho, la densidad de CpG varía en ventanas de 1 Mb (media = 2,1 %,
coeficiente de variación = 0,44 en comparación con 0,0093 esperado con una
distribución de Poisson), pero solo explica el 4 % de la variación de la tasa de
divergencia. De hecho, la divergencia regional CpG y no CpG está altamente
correlacionada ( r = 0.88; Figura complementaria S2 ), lo que sugiere que los
efectos de orden superior modulan las tasas de dos procesos de mutación muy
diferentes (ver también ref. 47 ).

Aumento de la divergencia en las regiones distales. El patrón regional más


llamativo es un aumento constante de la divergencia hacia los extremos de la
mayoría de los cromosomas ( Fig. 2 ). Los 10 Mb terminales de los
cromosomas (incluidas las regiones distales y las regiones proximales de los
cromosomas acrocéntricos) promedian un 15 % más de divergencia que el
resto del genoma ( prueba U de Mann-Whitney ; P < 10 -30 ), con un fuerte
aumento hacia los telómeros . El fenómeno se correlaciona mejor con la
distancia física que con la posición relativa a lo largo de los cromosomas y
puede explicar parcialmente por qué los cromosomas más pequeños tienden a
tener una mayor divergencia ( Fig. S3 complementaria ; consulte también la
ref. 15) .). Estas observaciones sugieren que la estructura cromosómica a gran
escala, directa o indirectamente, influye en los patrones de divergencia
regional. La causa de este efecto no está clara, pero estas regiones ( ∼ 15% del
genoma) se destacan por tener una alta tasa de recombinación local, alta
densidad de genes y alto contenido de G + C.

Figura 2: Variación regional en las tasas de divergencia.


Divergencia humano-chimpancé (azul), contenido de G + C (verde) y tasas de
recombinación humana (rojo) en ventanas deslizantes de 1 Mb para el
173

cromosoma 1 humano y de chimpancé. La divergencia y el contenido de G +


C están notablemente elevados cerca del telómero 1p, una tendencia que se
mantiene para la mayoría de las regiones subteloméricas (ver
texto). Internamente en el cromosoma, las regiones de bajo contenido de G +
C y alta divergencia a menudo corresponden a las bandas G oscuras.

imagen a tamaño completo

Correlación con el bandeo cromosómico. Otro patrón interesante es que la


divergencia aumenta con la intensidad de la tinción de Giemsa en bandas
cromosómicas definidas citogenéticamente, y las regiones correspondientes a
las bandas oscuras de Giemsa (bandas G) muestran una divergencia un 10 %
mayor que el promedio de todo el genoma (prueba U de Mann- Whitney ; P <
10-14 ) (ver Fig. 2 ). En contraste con las regiones terminales, estas regiones
(17% del genoma) tienden a ser pobres en genes, pobres en (G + C) y bajos en
recombinación 55 , 56. La elevada divergencia observada en dos tipos diferentes
de regiones sugiere que están en funcionamiento múltiples mecanismos y que
ningún factor conocido, como el contenido de G + C o la tasa de
recombinación, es un predictor adecuado de la variación regional en el
genoma de los mamíferos por sí mismo. figura 3 ). La aclaración de las
contribuciones relativas de estos y otros mecanismos será importante para
formular modelos precisos para la genética de poblaciones, la selección
natural, los tiempos de divergencia y la evolución de la composición de
secuencias del genoma completo 57 .

Figura 3: Tasas de divergencia versus contenido G + C para segmentos de


1 Mb en los autosomas.

Condicional a la tasa de recombinación, la relación entre la divergencia y el


contenido de G + C varía. En regiones con tasas de recombinación inferiores a
0,8 cM Mb (azul), existe una relación inversa, donde las regiones de alta
-1

divergencia tienden a ser pobres en (G + C) y las regiones de baja divergencia


tienden a ser ricas en (G + C). . En regiones con tasas de recombinación
superiores a 2,0 cM Mb , ya sea dentro de los 10 Mb (rojo) o proximales
-1

(verde) de los extremos cromosómicos, tanto la divergencia como el


contenido de G + C son uniformemente altos.

imagen a tamaño completo

Correlación con la variación regional en el genoma murid. Dado que la


divergencia de secuencia muestra una variación regional tanto en homínidos
(humano-chimpancé) como en murids (ratón-rata), preguntamos si las tasas
regionales están correlacionadas positivamente entre regiones ortólogas. Tal
correlación sugeriría que la tasa de divergencia es impulsada, en parte, por
factores que se han conservado durante los ∼ 75 millones de años desde que
los roedores, los humanos y los simios compartieron un ancestro común. El
análisis comparativo de los genomas humano y murid ha sugerido tal
correlación 58 , 59 , 60 , pero la secuencia del chimpancé brinda una oportunidad
directa para comparar procesos evolutivos independientes entre dos clados de
mamíferos.

Comparamos las tasas de divergencia local en homínidos y murids a través de


segmentos ortólogos principales en los genomas respectivos ( Fig. 4 ). Para los
segmentos ortólogos que no son distales tanto en homínidos como en murids,
existe una fuerte correlación entre las tasas de divergencia ( r = 0,5, P < 10-
11 ) . Por el contrario, los segmentos ortólogos que están centrados dentro de
los 10 Mb de un telómero homínido tienen tasas de divergencia y contenido
de G + C desproporcionadamente altos en relación con los múridos (prueba U
de Mann-Whitney; P < 10 -11 y P < 10 -4), lo que implica que la elevación en
estas regiones es, al menos parcialmente, específica del linaje. Se observa el
mismo efecto general (aunque menos pronunciado) si se excluyen los
dinucleótidos CpG ( Fig. S4 complementaria ). El aumento de la divergencia y
el contenido de G + C podría explicarse por la "conversión de genes
sesgada" 61 debido a las altas tasas de recombinación de homínidos en estas
regiones distales. Los segmentos que son distales en los murids no muestran
tasas de divergencia elevadas, lo cual es consistente con este modelo, porque
las tasas de recombinación de las regiones distales no son tan elevadas en
ratones y ratas 62 .

Figura 4: divergencia desproporcionadamente elevada y contenido de G +


C cerca de los telómeros homínidos.
Gráfico de dispersión de la proporción de divergencia entre humanos y
chimpancés sobre la divergencia entre ratones y ratas frente a la proporción
entre el contenido de G + C humano y el contenido de G + C de ratón en 199
bloques sinténicos para los que se pudo alinear más de 1 Mb de secuencia
entre las cuatro especies. Los bloques en los que el centro está dentro de los
10 Mb de un telómero solo en homínidos (verde) o en homínidos y múridos
(magenta), pero no solo en múridos (azul claro), muestran una tendencia
significativa hacia proporciones más altas que los bloques internos (azul
oscuro). ). Los bloques en el cromosoma X (rojo) tienden a mostrar una
relación de divergencia más baja que los bloques autosómicos, lo que es
consistente con una diferencia más pequeña entre la divergencia autosómica y
X en los muridos que en los homínidos (α inferior ) .

En conjunto, estas observaciones sugieren que la tasa de divergencia de la secuencia


está influenciada tanto por factores conservados (estables a lo largo de la evolución de
los mamíferos) como por factores específicos del linaje (como la proximidad al
telómero o la tasa de recombinación, que puede cambiar con los reordenamientos
cromosómicos).

Inserciones y eliminaciones
Luego estudiamos los eventos de indel que han ocurrido en los linajes humanos y de
chimpancé alineando las secuencias del genoma para identificar las diferencias de
longitud. Nos referiremos a continuación a todos los eventos como inserciones relativas
al otro genoma, aunque pueden representar inserciones o deleciones relativas al genoma
del ancestro común.

Las inserciones observables se dividen en dos clases: (1) inserciones 'completamente


cubiertas', que ocurren dentro de una secuencia continua en ambas especies; y (2)
inserciones 'incompletamente cubiertas', que ocurren dentro de una secuencia que
contiene uno o más espacios en el chimpancé, pero revelada por una clara discrepancia
entre las especies en la longitud de la secuencia. Se necesitan diferentes métodos para la
identificación confiable de inserciones de tamaño modesto (1 base a 15 kb) e
inserciones grandes (> 15 kb), siendo estas últimas solo identificables de manera
confiable en el genoma humano (ver Información complementaria 'Evolución del
genoma' ) .

El análisis de inserciones de tamaño modesto revela ∼ 32 Mb de secuencia específica


humana y ∼ 35 Mb de secuencia específica de chimpancé, contenidas en ∼ 5 millones
de eventos en cada especie ( Información complementaria 'Evolución del genoma'
y Figura complementaria S5 ). Casi todas las inserciones humanas están completamente
cubiertas, mientras que solo la mitad de las inserciones de chimpancés están
completamente cubiertas. El análisis de las inserciones completamente cubiertas
muestra que la gran mayoría son pequeñas (el 45 % de los eventos cubren solo 1 par de
bases (pb), el 96 % son <20 pb y el 98,6 % son <80 pb), pero que los pocos más grandes
contienen la mayor parte de la secuencia (con los ∼ 70 000 indeles de más de 80 pb que
comprenden el 73 % de los pares de bases afectados) (figura 5 ). Los últimos indeles
>80 pb se dividen en tres categorías: (1) alrededor de una cuarta parte son elementos
transponibles recién insertados; (2) más de un tercio se deben a secuencias de
microsatélites y satélites; (3) y se supone que el resto son en su mayoría deleciones en el
otro genoma.

Figura 5: Distribución de longitud de pequeños eventos indel, según lo determinado usando


espacios de secuencia acotados.
Se muestran las secuencias presentes en el chimpancé pero no en el humano (azul) o
presentes en el humano pero no en el chimpancé (rojo). El pico prominente alrededor de
300 nucleótidos corresponde a eventos de inserción SINE. La mayoría de los indeles
tienen menos de 20 pb, pero los indeles más grandes representan la mayor parte de la
secuencia específica de linaje en los dos genomas.
imagen a tamaño completo

El análisis de inserciones más grandes (> 15 kb) identificó 163 regiones humanas que
contenían 8,3 Mb de secuencia específica humana en total ( Fig. 6 ). Estos casos
incluyen 34 regiones que involucran exones de genes conocidos, que se analizan en una
sección posterior. Aunque no tenemos una medida directa de las inserciones grandes en
el genoma del chimpancé, parece probable que la situación sea similar.

Figura 6: Distribución de longitud de grandes eventos indel (> 15 kb), según lo determinado
usando secuencias de extremos emparejados de chimpancé mapeados contra el genoma
humano.
Se muestra tanto el número total de inserciones humanas candidatas/eliminaciones de
chimpancé (azul) como el número de bases alteradas (rojo).
imagen a tamaño completo

Sobre la base de este análisis, estimamos que los genomas humanos y de chimpancé
contienen cada uno 40–45 Mb de secuencia eucromática específica de la especie, y las
diferencias de indel entre los genomas suman un total de ∼ 90 Mb . Esta diferencia
corresponde a ∼ 3 % de ambos genomas y eclipsa la diferencia de 1,23 % resultante de
las sustituciones de nucleótidos; esto confirma y amplía varios estudios
recientes 63 , 64 , 65 , 66 , 67 . Por supuesto, el número de eventos indel es mucho menor que
el número de eventos de sustitución ( ∼ 5 millones en comparación con ∼ 35 millones,
respectivamente).

Inserciones de elementos transponibles


A continuación, utilizamos el catálogo de copias de elementos transponibles específicos
del linaje para comparar la actividad de los transposones en los linajes de humanos y
chimpancés ( Tabla 2 ).

Tabla 2 Actividad de elementos transponibles en linajes humanos y chimpancés

mesa de tamaño completo

Retrovirus endógenos. Los retrovirus endógenos (ERV) casi se han extinguido en el


linaje humano, con solo un único retrovirus (el retrovirus endógeno humano K (HERV-
K)) aún activo 24 . Se encontró que HERV-K es activo en ambos linajes, con al menos
73 inserciones específicas para humanos (7 repeticiones terminales largas (LTR) de
longitud completa y 66 individuales) y al menos 45 inserciones específicas de
chimpancé (1 de longitud completa y 44 LTR individuales). ). Algunas otras clases de
ERV persistieron en el genoma humano más allá de la división entre humanos y
chimpancés, dejando ~ 9 inserciones específicas para humanos (todas LTR individuales,
incluidos cinco elementos HERV9) antes de desaparecer.

En este contexto, fue sorprendente encontrar que el genoma del chimpancé tiene dos
elementos retrovirales activos (PtERV1 y PtERV2) que no se parecen a ningún
elemento anterior en ninguno de los dos genomas; estos deben haber sido introducidos
por infección de la línea germinal del chimpancé. La familia más pequeña (PtERV2)
tiene solo unas pocas docenas de copias, que sin embargo representan invasiones
múltiples ( ∼ 5–8), porque las diferencias de secuencia entre las subfamilias
reconstruidas son demasiado grandes ( ∼8%) haber surgido por mutación desde la
divergencia del ser humano. Está estrechamente relacionado con un retrovirus endógeno
de mandril (BaEV, 88 % de identidad de producto ORF2) y un virus endógeno felino
(ECE-1, 86 % de identidad de producto ORF2). La familia más grande (PtERV1) es
más homogénea y tiene más de 200 copias. Mientras que los ERV más antiguos, como
HERV-K, están representados principalmente por LTR individuales resultantes de la
recombinación LTR-LTR, más de la mitad de las copias de PtERV1 aún están
completas, lo que probablemente refleja la corta edad de los elementos. Los elementos
similares a PtERV1 están presentes en el mono rhesus, el babuino oliva y los grandes
simios africanos, pero no en humanos, orangutanes o gibones, lo que sugiere invasiones
de líneas germinales separadas en estas especies 68 .

Mayor actividad Alu en humanos. Los elementos SINE (Alu) han sido tres veces más
activos en humanos que en chimpancés ( ∼ 7000 en comparación con ∼ 2300 copias
específicas de linaje en la porción alineada), refinando el rango bastante amplio (2 a 7
veces) estimado en estudios más pequeños 13 , 67 , 69 . La mayoría de los elementos
específicos de los chimpancés pertenecen a una subfamilia (AluYc1) que es muy similar
al gen fuente en el ancestro común. Por el contrario, la mayoría de los elementos Alu
específicos de humanos pertenecen a dos nuevas subfamilias (AluYa5 y AluYb8) que
han evolucionado desde la divergencia chimpancé-humano y difieren sustancialmente
del gen fuente ancestral 69. Parece probable que el resurgimiento de los elementos Alu
en humanos se deba a estos potentes nuevos genes fuente. Sin embargo, según un
examen de la secuencia final disponible, el babuino muestra una actividad Alu 1,6 veces
mayor en relación con las nuevas inserciones humanas, lo que sugiere que también
puede haber habido una disminución general de la actividad en el chimpancé 67 .

Algunos de los elementos Alu específicos de humanos son muy divergentes (92 con
>5% de divergencia), lo que parecería sugerir que son mucho más antiguos que la
división entre humanos y chimpancés. Las posibles explicaciones incluyen: conversión
de genes por elementos más antiguos cercanos; pseudogenes procesados que surgen de
una transcripción espuria de un elemento más antiguo; escisión precisa del genoma del
chimpancé; o alta tasa de mutación local. En cualquier caso, la presencia de tales
anomalías sugiere que se justifica la precaución en el uso de elementos de repetición
única como marcadores filogenéticos libres de homoplasia.
Los nuevos elementos Alu se dirigen al ADN rico en (A + T) en genomas humanos y de
chimpancé. Los elementos SINE más antiguos se encuentran preferentemente en
regiones ricas en genes y ricas en (G + C), mientras que los elementos SINE más
jóvenes se encuentran en regiones pobres en genes y ricas en (A + T) donde el elemento
intercalado largo (LINE)-1 (L1 ) las copias también acumulan 24 , 70 . La última
distribución es consistente con el hecho de que la retrotransposición Alu está mediada
por L1 (ref. 71 ). Los genomas murid no revelaron cambios en la distribución SINE con
la edad de 17 años .

El patrón humano podría reflejar la retención preferencial de SINE en regiones ricas en


(G + C), debido al sesgo de selección o mutación, o un cambio reciente en las
preferencias de inserción de Alu. Con la disponibilidad del genoma del chimpancé, es
posible clasificar las copias Alu más jóvenes con mayor precisión y así comenzar a
distinguir estas posibilidades.

El análisis muestra que los SINE específicos de linaje tanto en humanos como en
chimpancés están sesgados hacia regiones ricas en (A + T), a diferencia incluso de las
copias más recientes en el MRCA (Fig. 7 ) . Esto indica que los SINE se retienen
preferentemente en el ADN rico en (G + C), pero se requiere una comparación con un
primate más distante para descartar formalmente la posibilidad de que el sesgo de
inserción de los SINE no haya cambiado justo antes de la especiación.

Figura 7: Correlación de edad Alu y distribución por contenido G + C.


Los elementos Alu que se insertaron después de la divergencia humano-chimpancé son
más densos en las regiones pobres (G + C) del genoma (con un máximo de 36-40% G +
C), mientras que las copias más antiguas, comunes a ambos genomas, se aglomeran (G
+ C). )-regiones ricas. La figura es similar a la figura 23 de la ref. 24, pero el uso del
chimpancé permite una mejor separación de elementos jóvenes y viejos, lo que lleva a
una transición más nítida en el patrón.
imagen a tamaño completo

Igual actividad de L1 en ambas especies. Tanto el genoma humano como el del


chimpancé muestran ∼ 2000 elementos L1 específicos del linaje, contrariamente a
estimaciones anteriores basadas en muestras pequeñas de que la actividad L1 es de 2 a 3
veces mayor en el chimpancé 72 .

La transcripción de los genes fuente L1 a veces puede continuar en las regiones


flanqueantes 3', que luego pueden cotransponerse 73 , 74 . La comparación entre humanos
y chimpancés reveló que aproximadamente el 15% de las inserciones específicas de la
especie parecen haber llevado consigo al menos 50 pb de secuencia flanqueante
(seguida de una cola de poli(A) y una duplicación del sitio objetivo). En principio, la
transcripción inversa incompleta podría resultar en inserciones de la secuencia
flanqueante únicamente (sin ninguna secuencia L1), movilizando elementos genéticos
como los exones, pero no encontramos evidencia de esto.

Copias de genes retrotranspuestas. La maquinaria L1 también media la


retrotransposición de los ARN mensajeros del huésped, lo que da como resultado
muchos pseudogenes sin intrones (procesados) en el genoma
humano 75 , 76 , 77 . Identificamos 163 copias de genes retrotranspuestos específicos de
linaje en humanos y 246 en chimpancés ( Tabla complementaria S19 ). Al corregir la
cobertura de secuencia incompleta del genoma del chimpancé, estimamos que
hay ~ 200 y ~ 300 copias de genes procesadas en humanos y chimpancés,
respectivamente. Por lo tanto, los genes procesados parecen haber surgido a un ritmo
de ∼50 por millón de años desde la divergencia de humanos y chimpancés; esto es más
bajo que la tasa estimada para la evolución temprana de los primates 75 , quizás
reflejando la disminución general en la actividad L1. Como era de esperar 78 , los genes
de proteínas ribosómicas constituyen la clase más grande en ambas especies. La
segunda clase más grande en chimpancés corresponde a los genes C2H2 con dedos de
zinc, que no son una clase importante en el genoma humano.

El retrotransposón SVA y distribución de islas CpG por elementos transponibles. El


tercer elemento más activo desde la especiación ha sido SVA, que creó unas 1.000
copias en cada linaje. SVA es un elemento compuesto ( ∼ 1,5–2,5 kb) que consta de dos
fragmentos Alu, una repetición en tándem y una región aparentemente derivada del
extremo 3′ de una transcripción de HERV-K; probablemente sea movilizado por L1
(refs 79 , 80 ). Este elemento es de particular interés porque cada copia lleva una
secuencia que satisface la definición de una isla CpG 81 y contiene sitios potenciales de
unión a factores de transcripción; la dispersión de 1.000 copias de SVA podría ser, por
tanto, una fuente de diferencias regulatorias entre chimpancés y humanos (Tabla
complementaria S20 ). Al menos tres genes humanos contienen inserciones de SVA
cerca de sus promotores ( Tabla complementaria S21 ), uno de los cuales se ha
encontrado que se expresa de manera diferencial entre las dos especies 82 , 83 , pero se
requerirán investigaciones adicionales para determinar si la inserción de SVA causó
directamente esto. diferencia.

Recombinación homóloga entre repeticiones intercaladas. La comparación entre


humanos y chimpancés también permite estudiar la recombinación homóloga entre
elementos repetidos cercanos como fuente de deleciones genómicas. Encontramos 612
deleciones (un total de 2 Mb) en el genoma humano que parecen haber resultado de la
recombinación entre dos elementos Alu cercanos presentes en el ancestro común; hay
914 eventos de este tipo en el genoma del chimpancé. (Los eventos no están sesgados
hacia el ADN rico en (A + T) y, por lo tanto, no explicarían la pérdida preferencial de
elementos Alu en dichas regiones discutidas anteriormente). De manera similar,
encontramos 26 y 48 instancias que involucran copias L1 adyacentes y 8 y 22 instancias
involucrando LTR retrovirales en humanos y chimpancés, respectivamente. Ninguna de
las deleciones mediadas por repetición eliminó un exón ortólogo de un gen humano
conocido en el chimpancé.
La comparación del genoma permite estimar la dependencia de la recombinación
homóloga de la divergencia y la distancia. La recombinación homóloga parece ocurrir
entre copias muy divergentes (> 25%) ( Fig. 8 ), mientras que el número de eventos de
recombinación ( n ) varía inversamente con la distancia ( d , en bases) entre las copias
(como n ≈ 6 × 10 6d -1,7 ; r2 = 0,9) .

Figura 8: Dependencia de la recombinación homóloga entre elementos Alu en divergencia y


distancia.
a , mientras que la recombinación homóloga se produce entre copias bastante
divergentes (puntuación de Smith-Waterman <1000) y poco espaciadas, la
recombinación más distante parece favorecer una mejor combinación entre las
repeticiones recombinantes. b , la frecuencia de la recombinación mediada por Alu-Alu
cae notablemente en función de la distancia entre las copias recombinantes. Los
primeros tres puntos (magenta) implican la recombinación entre los brazos izquierdo o
derecho de un Alu insertado en otro. El alto número de ocurrencias a una distancia de
300 a 400 nucleótidos se debe a la preferencia de integración en la cola rica en A; la
exclusión de este punto no cambia los parámetros de la ecuación.
imagen a tamaño completo

Reordenamientos a gran escala


Finalmente, examinamos la secuencia del genoma del chimpancé para obtener
información sobre alteraciones genómicas a gran escala. Los estudios citogenéticos han
demostrado que los cromosomas humanos y de chimpancé difieren en una fusión
cromosómica, al menos nueve inversiones pericéntricas y en el contenido de
heterocromatina constitutiva 84 . El cromosoma humano 2 resultó de una fusión de dos
cromosomas ancestrales que permanecieron separados en el linaje del chimpancé
(cromosomas 2A y 2B en la nomenclatura revisada 18 , anteriormente cromosomas de
chimpancé 12 y 13); se cartografió el punto de fusión preciso y se describió en detalle
su estructura de duplicación 85 , 86 . De acuerdo con esto, la alineación de las secuencias
del genoma humano y del chimpancé muestra una ruptura en la continuidad en este
punto.

Buscamos en la secuencia del genoma del chimpancé las ubicaciones precisas de los 18
puntos de corte correspondientes a las 9 inversiones pericéntricas ( Tabla
complementaria S22 ). Al mapear secuencias de extremos emparejados de clones de
insertos grandes de chimpancé en el genoma humano, pudimos identificar 13 de los
puntos de ruptura dentro del ensamblaje a partir de alineaciones de extremos
discordantes. Las posiciones de cinco puntos de ruptura (en los cromosomas 4, 5 y 12)
se probaron mediante análisis de hibridación in situ con fluorescencia (FISH) y todos se
confirmaron. Además, las posiciones de tres puntos de ruptura de inversión mapeados
previamente (en los cromosomas 15 y 18) coincidieron estrechamente con los
encontrados en el ensamblaje 87 , 88. El análisis de extremos emparejados funciona bien
en regiones de secuencia única, que constituyen la mayor parte del genoma, pero es
menos efectivo en regiones de duplicación reciente debido a las ambigüedades en el
mapeo de las secuencias de extremos emparejados. Más allá de las inversiones
conocidas, también encontramos evidencia sugestiva de muchas inversiones más
pequeñas adicionales, así como duplicaciones segmentarias más antiguas (<98% de
identidad; Fig. S6 complementaria ). Sin embargo, tanto las inversiones más pequeñas
como las duplicaciones segmentarias más recientes requerirán más investigaciones.

evolución genética
A continuación, buscamos utilizar la secuencia del chimpancé para estudiar el papel de
la selección natural en la evolución de los genes codificadores de proteínas
humanas. Las comparaciones de todo el genoma pueden arrojar luz sobre muchos temas
centrales, que incluyen: la magnitud de la selección positiva y negativa; la variación en
la selección entre diferentes linajes, cromosomas, familias de genes y genes
individuales; y la pérdida completa de genes dentro de un linaje.

Comenzamos identificando un conjunto de 13 454 pares de genes humanos y de


chimpancé con una ortología 1: 1 inequívoca para los cuales fue posible generar
alineaciones de secuencias de alta calidad que cubrían prácticamente toda la región de
codificación (ref. Información complementaria 'Evolución de genes' y Tabla S23 ). La
lista contiene una gran fracción del complemento completo de genes humanos, aunque
subrepresenta las familias de genes que han experimentado una expansión local reciente
(como los receptores olfativos y las inmunoglobulinas). Para facilitar la comparación
con el linaje murid, también compilamos un conjunto de 7043 genes de humanos,
chimpancés, ratones y ratas con una ortología inequívoca 1: 1: 1: 1 y alineaciones de
secuencias de alta calidad (Tabla complementaria S24 ) .

Tasas medias de evolución


Para evaluar la tasa de evolución de cada gen, estimamos K A , el número de
sustituciones de bases de codificación que dan como resultado un cambio de
aminoácido como una fracción de todos esos sitios posibles (la tasa de sustitución no
sinónima). Debido a que la tasa de mutación de fondo varía a lo largo del genoma, es
fundamental normalizar K A para las comparaciones entre genes. Una ilustración
llamativa de esta variación es el hecho de que la K A media es un 37% más alta en los
10 Mb distales de cromosomas que divergen rápidamente que en las regiones más
proximales. Clásicamente, la tasa de fondo se estima por K S, la tasa de sustitución de
sinónimos (sustituciones de bases de codificación que, debido a la redundancia de
codones, no dan como resultado un cambio de aminoácido). Debido a que un gen típico
tiene solo unos pocos cambios sinónimos entre humanos y chimpancés, y no pocas
veces es cero, explotamos la secuencia del genoma para estimar la tasa de sustitución
intergénica/intrónica local, K I, cuando corresponda . K A y K S también se estimaron para
cada linaje por separado usando ratones y ratas como grupos externos ( Fig. 9 ).

Figura 9: Árbol humano-chimpancé-ratón-rata con valores K A / K S ( ω ) específicos de rama.


a , Árbol evolutivo. Las longitudes de las ramas son proporcionales a las tasas absolutas
de divergencia de aminoácidos. b , Estimaciones de máxima verosimilitud de las tasas
de evolución en genes codificantes de proteínas para humanos, chimpancés, ratones y
ratas. En el texto, ω homínido es el K A / KS de las ramas combinadas de humano y
chimpancé y ω murid de las ramas combinadas de ratón y rata. La ligera diferencia entre ω humano y ω chimpancéno
es estadísticamente significativo; el enmascaramiento de algunas bases heterocigotas en
la secuencia del chimpancé puede contribuir a la diferencia observada (ver Información
complementaria 'Evolución génica').
imagen a tamaño completo

La relación K A / K S es una medida clásica de la restricción evolutiva general de un gen,


donde K A / K S ≪ 1 indica que una proporción sustancial de los cambios de
aminoácidos debe haberse eliminado mediante la selección purificadora. Bajo el
supuesto de que las sustituciones sinónimas son neutras, K A / K S > 1 implica, pero no
es una condición necesaria para la selección adaptativa o positiva. La
relación K A / K I tiene la misma interpretación. Las proporciones a veces se denotarán a
continuación por ωcon un subíndice apropiado (por ejemplo, ω humano ) para indicar la
rama del árbol evolutivo en estudio.

Restricción evolutiva en los sitios de aminoácidos dentro del linaje homínido. En


general, los genes humanos y de chimpancé son extremadamente similares, con
proteínas codificadas idénticas en las dos especies en el 29% de los casos. La mediana
del número de sustituciones sinónimas y no sinónimas por gen es dos y tres,
respectivamente. Alrededor del 5% de las proteínas muestran indeles en marco, pero
estos tienden a ser pequeños (mediana = 1 codón) y ocurren en regiones de secuencia
repetida. La estrecha similitud de los genes humanos y de chimpancé necesariamente
limita la capacidad de hacer inferencias sólidas sobre genes individuales, pero hay
abundante información para estudiar importantes conjuntos de genes.

La relación K A / K S para el linaje humano-chimpancé ( ω homínido ) es 0,23. El valor es


mucho más bajo que algunas estimaciones recientes basadas en datos de secuencias
limitadas (con un rango tan alto como 0,63 (ref. 7 )), pero es consistente con una
estimación (0,22) de la secuenciación aleatoria de etiquetas de secuencias expresadas
(EST) 45 . De manera similar, K A / K I también se estimó en 0,23.

Bajo el supuesto de que las mutaciones sinónimas son selectivamente neutrales, los
resultados implican que el 77% de las alteraciones de aminoácidos en los genes de los
homínidos son lo suficientemente perjudiciales como para ser eliminadas por selección
natural. Debido a que las mutaciones sinónimas no son completamente neutrales (ver
más abajo), la proporción real de alteraciones de aminoácidos con consecuencias
perjudiciales puede ser mayor. De acuerdo con estudios previos 8 , encontramos
que K A / K S de los polimorfismos humanos con frecuencias de hasta el 15 % es
significativamente más alto que el de las diferencias entre humanos y chimpancés y los
polimorfismos más comunes ( Tabla 3), lo que implica que al menos el 25% de las
alteraciones de aminoácidos perjudiciales a menudo pueden alcanzar frecuencias
fácilmente detectables y, por lo tanto, contribuir significativamente a la carga genética
humana.

Tabla 3 Comparación de K A / K S para divergencia y diversidad humana

mesa de tamaño completo

Restricción evolutiva en sitios sinónimos dentro del linaje homínido. A continuación,


exploramos las restricciones evolutivas en sitios sinónimos, específicamente sitios
degenerados cuádruples. Debido a que dichos sitios no tienen efecto sobre la proteína
codificada, a menudo se los considera selectivamente neutrales en los mamíferos.

Reexaminamos esta suposición comparando la divergencia en sitios degenerados


cuádruples con la divergencia en sitios intrónicos cercanos. Aunque las tasas generales
de divergencia son muy similares en sitios intrónicos y degenerados cuádruples, la
comparación directa es engañosa porque los primeros tienen una frecuencia más alta de
dinucleótidos CpG altamente mutables (9% en comparación con 2%). Cuando los sitios
CpG y no CpG se consideran por separado, encontramos que tanto los sitios CpG como
los sitios no CpG muestran una divergencia marcadamente menor en los sitios
sinónimos exónicos que en los intrones ( ∼ 50% y ∼ 30% menor,
respectivamente). Este resultado resuelve informes contradictorios recientes basados en
conjuntos de datos limitados 45 , 89 al mostrar que tales sitios están realmente
restringidos.
La restricción no parece resultar de la selección sobre el uso de codones preferidos, que
se ha detectado en organismos inferiores 90 como bacterias 91 , levaduras 92 y
moscas 93 . De hecho, la divergencia en sitios degenerados cuádruples aumenta
ligeramente con el sesgo de uso de codones ( τ de Kendall = 0,097, P < 10-
14 ) . Alternativamente, la restricción observada en sitios sinónimos podría reflejar una
'selección de fondo', es decir, el efecto indirecto de purificar la selección en sitios de
aminoácidos que causan una diversidad reducida y, por lo tanto, una divergencia
reducida en sitios estrechamente vinculados 42 . Dada la baja tasa de recombinación en
los genomas de los homínidos (una región de 1 kb experimenta solo∼ 1 cruce cada 100
000 generaciones o 2 millones de años), dicha selección de fondo debería extenderse
más allá de los exones para incluir sitios intrónicos cercanos 94 . Sin embargo, cuando la
tasa de divergencia se grafica en relación con los límites exón-intrón, encontramos que
la tasa salta bruscamente dentro de una región corta de ∼ 7 pb en el límite ( Fig.
10 ). Este patrón sugiere fuertemente que la acción de purificar la selección en sitios
sinónimos es directa en lugar de indirecta, lo que sugiere que otras señales, por ejemplo,
las involucradas en la selección del sitio de empalme, pueden estar incrustadas en la
secuencia codificante y, por lo tanto, restringir los sitios sinónimos.

Figura 10: Selección purificadora en sitios sinónimos.

Divergencia media alrededor de los límites del exón en sitios intrónicos, exónicos,
cuádruplemente degenerados y no CpG, en relación con la unión de empalme de ARNm
más cercana. La tasa de divergencia en los sitios degenerados cuádruples exónicos es
significativamente menor que en los sitios intrónicos cercanos ( prueba U de Mann-
Whitney ; P < 10-27 ) , lo que sugiere que la selección purificadora limita la tasa de
sustituciones de codones sinónimos.
imagen a tamaño completo

Comparación con los murids. Una estimación precisa de K A / K S hace posible estudiar
cómo varía la restricción evolutiva entre los clados. Se predijo hace más de 30
años 95 que la selección contra mutaciones deletéreas dependería del tamaño de la
población, siendo las mutaciones fuertemente seleccionadas solo si reducen la aptitud
en s ≫ 1/4 N (donde N es el tamaño efectivo de la población). Esto predeciría que los
genes estarían bajo una selección de purificación más fuerte en los múridos que en los
homínidos, debido a su supuesto tamaño de población más grande. Análisis iniciales
(con menos de 50 genes 96) sugirió un fuerte efecto, pero la amplia variación en las
estimaciones de K A / K S en homínidos 7 , 8 , 97 y murids 98 ha complicado este
análisis 45 .

Usando la gran colección de 7043 cuartetos ortólogos, calculamos los valores medios
de K A / K S para las diversas ramas del árbol evolutivo de cuatro especies (humano,
chimpancé, ratón y rata; Fig. 9 ). La relación K A / K S para los homínidos es de
0,20. (Esto es ligeramente más bajo que el valor de 0,23 obtenido con todos los
ortólogos humanos-chimpancés, lo que probablemente refleja una restricción
ligeramente mayor en la clase de proteínas con ortólogos claros entre homínidos y
múridos).

La relación K A / K S es notablemente más baja para los múridos que para los homínidos
( ω múrido ≈ 0,13 en comparación con ω homínido ≈ 0,20) ( Fig. 9 ). Esto implica que hay un
exceso de ∼ 35% de las mutaciones de cambio de aminoácidos en los dos homínidos, en
relación con los dos murids. El exceso de divergencia de aminoácidos puede explicarse
por una mayor evolución adaptativa o por una relajación de las restricciones
evolutivas. Como se muestra en la siguiente sección, esta última parece ser la principal
explicación.

Restricciones relajadas en la evolución humana. La relación K A / K S se puede utilizar


para hacer inferencias sobre el papel de la selección positiva en la evolución
humana 99 , 100 . Debido a que los alelos bajo selección positiva se propagan
rápidamente a través de una población, se encontrarán con menos frecuencia como
polimorfismos humanos comunes que como diferencias entre humanos y
chimpancés 8 . Por lo tanto , la selección positiva puede detectarse comparando la
relación K A / KS para polimorfismos humanos comunes con la relación K A / KS para la
divergencia homínida. Estas proporciones se han estimado comoω polimorfismo ≈ 0,20 basado
en una colección inicial de SNP comunes en genes humanos y ω divergencia ≈ 0,34 basado
en la comparación de genes humanos y de monos del Viejo Mundo 8 . Por lo tanto, se
infirió que la proporción de cambios de aminoácidos atribuibles a la selección positiva
era ~ 35% (ref. ref. 8 ). Esto implicaría un enorme papel cuantitativo para la selección
positiva en la evolución humana.
Con la disponibilidad de datos extensos tanto para el polimorfismo humano como para
la divergencia entre humanos y chimpancés, repetimos este análisis (usando el mismo
conjunto de genes para ambas estimaciones). Encontramos que el polimorfismo ω ≈ 0.21–0.23
y la divergencia ω ≈ 0.23 son estadísticamente indistinguibles ( Tabla 3 ). Aunque algunas de
las sustituciones de aminoácidos en la evolución de humanos y chimpancés
seguramente deben reflejar una selección positiva, los resultados indican que la
proporción de cambios fijados por la selección positiva parece ser mucho menor que la
estimación anterior 8. (Debido a que los resultados anteriores involucraron una
comparación con los monos del Viejo Mundo, es posible que reflejen una fuerte
selección positiva más temprana en la evolución de los primates; sin embargo,
sospechamos que reflejan el hecho de que se estudiaron relativamente pocos genes y
que se usaron diferentes genes para estudiar el polimorfismo y divergencia.)

Las presiones de selección negativa relajadas explican principalmente el exceso de


divergencia de aminoácidos en los genes de los homínidos en relación con los
muridos. Además, debido a que tanto el humano ω como el chimpancé ω tienen niveles elevados
similares, esta explicación se aplica por igual a ambos linajes.

A continuación, buscamos estudiar la variación en la tasa evolutiva de los genes dentro


del linaje homínido mediante la búsqueda de niveles inusualmente altos o bajos de
restricción para genes y conjuntos de genes.

Evolución rápida en genes individuales


Buscamos genes individuales que hayan acumulado sustituciones de aminoácidos más
rápido de lo esperado dada la tasa de sustitución neutral; consideramos que estos genes
estaban potencialmente bajo una fuerte selección positiva. Un total de 585 de los 13.454
ortólogos humanos-chimpancés (4,4 %) han observado K A / K I > 1 (ver Información
complementaria 'Evolución genética'). Sin embargo, dada la baja divergencia, la
estadística K A / K I tiene una gran varianza. Las simulaciones muestran que las
estimaciones de K A / K ISe esperaría que > 1 ocurriera simplemente por casualidad en
al menos 263 casos si se permite que la selección purificadora actúe de manera no
uniforme entre los genes ( Figura complementaria S7 ).

No obstante, este conjunto de 585 genes puede enriquecerse con genes que están bajo
selección positiva. Los valores atípicos más extremos incluyen la glicoforina C, que
media una de las vías de invasión de Plasmodium falciparum en los eritrocitos
humanos 101 ; granulisina, que media la actividad antimicrobiana contra patógenos
intracelulares como Mycobacterium tuberculosis 102 ; así como genes que previamente
se ha demostrado que experimentan una evolución adaptativa, como las protaminas y
las semenogelinas implicadas en la reproducción 103 y la familia de genes relacionados
con Mas implicada en la nocicepción 104. Con estudios de seguimiento similares en
candidatos de esta lista, uno puede sacar conclusiones sobre la selección positiva en
otros genes individuales. En secciones posteriores, examinamos la tasa de divergencia
de conjuntos de genes relacionados con el objetivo de detectar señales más sutiles de
evolución acelerada.

Variación en la tasa evolutiva entre genes físicamente vinculados


Exploramos cómo la tasa de evolución varía regionalmente a lo largo del
genoma. Varios estudios de evolución de genes de mamíferos han observado que la tasa
de sustitución de aminoácidos muestra un agrupamiento local, con proteínas codificadas
por genes cercanos que evolucionan a tasas correlacionadas 16 , 105 , 106 , 107 .

Variación a través de los cromosomas. Sobre la base de un análisis de ∼ 100 genes 108 ,
se informó recientemente que la tasa normalizada de evolución de proteínas es mayor en
los nueve cromosomas que sufrieron un importante reordenamiento estructural durante
la evolución humana (cromosomas 1, 2, 5, 9, 12, 15 , 16, 17 y 18); se sugirió que tales
reordenamientos condujeron a un flujo de genes reducido y una evolución adaptativa
acelerada. Un estudio posterior de una colección de tecnologías ecológicamente
racionales de chimpancé dio resultados contradictorios 109 , 110 . Con nuestro conjunto
de datos más grande, volvimos a examinar este problema y no encontramos evidencia
de evolución acelerada en cromosomas con reordenamientos importantes, incluso si
consideramos cada reordenamiento por separado (Tabla complementaria S25).

Entre todos los cromosomas de los homínidos, el valor atípico más extremo es el
cromosoma X con una K A / K I media de 0,32. La media más alta parece reflejar una
distribución sesgada tanto en valores altos como bajos, con el valor medio (0,17) más en
línea con otros cromosomas (0,15). El exceso de valores bajos puede reflejar una mayor
selección purificadora en algunos genes, debido a la hemicigosis del cromosoma X en
los machos. El exceso de valores altos puede reflejar una mayor selección adaptativa
que también resulta de la hemicigosis, si una proporción considerable de alelos
ventajosos son recesivos 111 . Curiosamente, cuanto mayor sea K A / K Iel valor del
cromosoma X frente a los autosomas está restringido en gran medida a los genes
expresados en los testículos 83 .

Variación en los grupos de genes locales. Luego buscamos vecindarios genómicos con
una densidad inusualmente alta de genes que evolucionan
rápidamente. Específicamente, calculamos la mediana K A / K I para ventanas
deslizantes de diez ortólogos e identificamos valores atípicos extremos ( P <0.001 en
comparación con el orden aleatorio de genes; consulte Información
complementaria 'Evolución de genes'). Se encontró un total de 16 vecindarios de este
tipo, lo que supera con creces las expectativas aleatorias ( Tabla 4 ). La repetición del
análisis con ventanas más grandes (25, 50 y 100 ortólogos) no identificó regiones
adicionales rápidamente divergentes.

Tabla 4 Grupos de genes que divergen rápidamente en humanos y chimpancés

mesa de tamaño completo

En casi todos los casos, las regiones contienen grupos locales de genes relacionados
filogenética y funcionalmente. La rápida diversificación de las familias de genes,
postulada por la ref. 112 , por lo tanto, se puede discernir fácilmente incluso a la
distancia relativamente cercana de la divergencia entre humanos y chimpancés. La
mayoría de los grupos están asociados con categorías funcionales como la defensa del
huésped y la quimiosensación (ver más abajo). Los ejemplos incluyen el complejo de
diferenciación epidérmica que codifica proteínas que ayudan a formar la capa
cornificada de la barrera cutánea ( Figura complementaria S8 ), el grupo de dominio
WAP que codifica inhibidores de proteasa secretados con actividad antibacteriana y el
grupo Siglec que codifica CD33-genes relacionados. La rápida evolución en estos
grupos no parece ser exclusiva ni de los humanos ni de los chimpancés 113 , 114 .

Variación en la tasa evolutiva entre genes relacionados funcionalmente


A continuación, estudiamos la variación en la tasa evolutiva de las categorías
funcionales de genes, según la clasificación Gene Ontology (GO) 115 .

Categorías de evolución rápida y lenta dentro del linaje homínido. Comenzamos


buscando conjuntos de genes funcionalmente relacionados con restricciones
excepcionalmente altas o bajas en humanos y chimpancés. Para cada una de las 809
categorías con al menos 20 genes, K A / K S se calculó concatenando las secuencias de
genes. Las proporciones específicas de la categoría se compararon con el promedio de
todos los ortólogos para identificar valores atípicos extremos utilizando una métrica
basada en la prueba binomial ( Información complementaria 'Evolución de genes'
y Tablas complementarias S26–S29). El número de valores atípicos observados por
debajo de un umbral específico (estadística de prueba <0,001) se comparó luego con la
distribución esperada de valores atípicos dados anotaciones aleatoriamente permutadas.

Un total de 98 categorías mostraron proporciones K A / KS elevadas en el umbral especificado ( Tabla


5 ). Solo 30 se esperaría por casualidad, lo que indica que la mayoría (pero no todas) de
estas categorías experimentan una evolución significativamente acelerada en relación
con el promedio de todo el genoma ( P < 10 -4 ). Las categorías que evolucionan
rápidamente dentro del linaje de los homínidos están principalmente relacionadas con la
inmunidad y la defensa del huésped, la reproducción y el olfato, que son las mismas
categorías que se sabe que están experimentando una rápida evolución dentro del linaje
más amplio de los mamíferos, así como especies relacionadas más
lejanamente 15 , 16 , 116. Los homínidos, por lo tanto, parecen ser típicos de los mamíferos
a este respecto (pero véase más abajo).

Tabla 5 Categorías GO con las mayores tasas de divergencia en homínidos

mesa de tamaño completo

Un total de 251 categorías mostraron proporciones K A / K S significativamente bajas (en


comparación con ∼ 32 esperadas por casualidad; P < 10 -4 ). Estos incluyen una amplia
gama de procesos que incluyen la señalización intracelular, el metabolismo, la
neurogénesis y la transmisión sináptica, que evidentemente se encuentran bajo una
selección purificadora más fuerte que el promedio. Más generalmente, los genes
expresados en el cerebro muestran una restricción promedio significativamente más
fuerte que los genes expresados en otros tejidos 83 .

Diferencias entre linajes homínidos y múridos. Habiendo encontrado categorías de


genes que muestran una variación sustancial en la tasa evolutiva absoluta dentro de los
homínidos, a continuación examinamos la variación en las tasas relativas entre múridos
y homínidos. Los K A / K S de cada una de las categorías GO están altamente
correlacionados entre los pares de ortólogos de homínidos y múridos, lo que sugiere que
las presiones selectivas que actúan sobre categorías funcionales particulares han sido en
gran medida proporcionales en la evolución reciente de homínidos y múridos (Fig.
11) .). Sin embargo, hay varias categorías con una divergencia no sinónima
significativamente acelerada en cada uno de los linajes, que podrían representar
funciones que han sufrido una selección positiva específica del linaje o una relajación
de la restricción específica del linaje (Información complementaria 'Evolución génica'
y Tablas complementarias S30 –S39 ).

Figura 11: Homínido y múrido K A / K S ( ω ) en categorías GO con más de 20 genes


analizados.

Se destacan las categorías GO con divergencia no sinónima supuestamente acelerada


(estadística de prueba <0.001; ver Métodos) en los linajes de homínidos (rojo) y en los
linajes de murid (naranja). Debido a la naturaleza jerárquica de GO, no todas las
categorías representan puntos de datos independientes. Se proporciona una lista no
redundante de categorías importantes en la Tabla 8 y una lista completa en la Tabla
complementaria S30.
imagen a tamaño completo

Un total de 59 categorías (en comparación con 11 esperadas al azar, P < 0.0003)


muestran evidencia de divergencia acelerada no sinónima en el linaje murid. Estos están
dominados por funciones y procesos relacionados con la defensa del huésped, como la
respuesta inmunitaria y la activación de linfocitos. Los ejemplos incluyen genes que
codifican interleucinas y varios antígenos de superficie de células T
( Cd4 , Cd8 , Cd80 ). Combinado con la observación reciente de que los genes
involucrados en la defensa del huésped han experimentado una expansión de la familia
de genes en los murids 16 , 17, esto sugiere que el sistema inmunitario ha experimentado
una amplia innovación específica del linaje en los murids. Las categorías adicionales
que también muestran una aceleración relativa en los murids incluyen proteínas
asociadas a la cromatina y proteínas involucradas en la reparación del ADN. Estas
categorías pueden haber experimentado una evolución adaptativa más fuerte en los
múridos o, alternativamente, pueden contener menos sitios para mutaciones con efectos
levemente nocivos (con el resultado de que las proporciones K A / K S se ven menos
afectadas por las diferencias en el tamaño de la población 96 , 117 ).

Otras 58 categorías (frente a 14 esperadas al azar, P < 0,0005) muestran evidencia de


evolución acelerada en homínidos, con el conjunto dominado por genes que codifican
proteínas implicadas en el transporte (por ejemplo, transporte de iones), transmisión
sináptica, espermatogénesis y percepción del sonido ( Tabla 6 ). En particular, algunos
valores atípicos incluyen genes con funciones relacionadas con el cerebro, compatibles
con un hallazgo reciente 118 . También se observó recientemente una posible selección
positiva en los genes de la espermatogénesis en los homínidos 119. Sin embargo, como
se mencionó anteriormente, es posible que estas categorías puedan tener más sitios para
mutaciones levemente perjudiciales y, por lo tanto, verse más afectadas por las
diferencias en el tamaño de la población. Se necesitará información de secuencias de
más especies y de individuos dentro de especies para distinguir entre las posibles
explicaciones.

Tabla 6 Categorías de GO con tasas de divergencia aceleradas en homínidos en relación con


los múridos

mesa de tamaño completo

Diferencias entre el linaje humano y chimpancé. Una de las preguntas más interesantes
es quizás si ciertas categorías han experimentado una evolución acelerada en los
humanos en relación con los chimpancés, porque tales genes podrían ser la base de
aspectos únicos de la evolución humana.

Como se hizo anteriormente para los homínidos y los múridos, comparamos la


divergencia no sinónima para cada categoría para buscar la aceleración relativa en
cualquiera de los linajes ( Fig. 12 ). Siete categorías muestran signos de evolución
acelerada en el linaje humano en relación con el chimpancé, pero esto es solo un poco
más que los cuatro esperados al azar ( P<0,22). Curiosamente, el único valor atípico
más fuerte es la 'actividad del factor de transcripción', con los 348 genes humanos
estudiados que acumularon un 47% más de cambios de aminoácidos que sus ortólogos
de chimpancé. Los genes con divergencia acelerada en humanos incluyen homeóticos,
forkhead y otros factores de transcripción que tienen funciones clave en el desarrollo
temprano. Sin embargo, dada la pequeña cantidad de cambios involucrados, se
requerirán datos adicionales para confirmar esta tendencia. No hubo exceso de
categorías aceleradas en el linaje de los chimpancés.
Figura 12: Humano y chimpancé K A / K S ( ω ) en categorías GO con más de 20 genes
analizados.

Se destacan las categorías GO con divergencia no sinónima supuestamente acelerada


(estadística de prueba <0.001; ver Métodos) en el linaje humano (rojo) y en el linaje de
chimpancé (naranja). La variación de estas estimaciones es mayor que la observada en
la comparación homínido-múrido debido al pequeño número de sustituciones
específicas del linaje. Debido a la naturaleza jerárquica de la ontología GO, no todas las
categorías representan puntos de datos independientes. En la Tabla complementaria S30
se proporciona una lista completa de categorías.
imagen a tamaño completo

También comparamos genes humanos con y sin asociaciones de enfermedades, incluido


el retraso mental, en busca de diferencias en la tasa de mutación en comparación con el
chimpancé. Brevemente, no se observaron diferencias significativas ni en la tasa de
mutación de fondo ni en la proporción de cambios específicos de humanos a cambios de
aminoácidos específicos de chimpancé (consulte la Información
complementaria 'Evolución génica' y las Tablas complementarias S40 y S41 ).

Por lo tanto, encontramos evidencia mínima de aceleración exclusiva del linaje humano
o chimpancé en amplias categorías funcionales. Esto no se debe simplemente a la falta
general de poder resultante de la pequeña cantidad de cambios desde la divergencia de
humanos y chimpancés, porque uno puede detectar la aceleración de categorías en
cualquiera de los homínidos en relación con cualquiera de los murid. Por ejemplo, se
pueden detectar 29 categorías aceleradas versus 9 esperadas al azar ( P < 0.02) en el
linaje humano, y 40 categorías versus 11 esperadas al azar ( P<0.007) en el linaje de
chimpancé, en relación con el ratón. Pero los valores atípicos son en gran medida los
mismos tanto para humanos como para chimpancés, lo que indica que la fracción de
mutaciones de aminoácidos que han contribuido a los patrones de evolución específicos
de humanos y chimpancés debe ser pequeña en relación con la fracción que ha
contribuido a un homínido común y, en gran medida, el patrón de evolución de los
mamíferos.

Recientemente se informó 10 que varias categorías funcionales están enriquecidas para


genes con evidencia de selección positiva en el linaje humano o en el linaje de
chimpancés, y que estas categorías son muy diferentes entre los dos linajes. Estos
resultados y los nuestros difieren en formas que requerirán más investigación. Con la
excepción potencial de algunos reguladores de desarrollo, las categorías que ref. 10 que
muestran el mayor enriquecimiento de selección positiva en un linaje (incluida la
adhesión celular, el transporte de iones y la percepción del sonido) se encuentran entre
los que mostramos con divergencia acelerada tanto en humanos como en
chimpancés. Esto sugiere que la selección positiva y la relajación de las restricciones
pueden estar correlacionadas o, alternativamente, que los resultados de la ref.10 puede
enriquecerse para falsos positivos en categorías que han experimentado una relajación
particularmente fuerte de las restricciones en los homínidos. Los datos de primates
adicionales, así como los avances en los métodos analíticos, serán necesarios para
distinguir entre estas alternativas. En la actualidad, la fuerte evidencia de selección
positiva exclusiva del linaje humano se limita a un puñado de genes 120 .

Nuestro análisis anterior omitió en gran medida los genes que pertenecen a grandes
familias de genes, porque la expansión de la familia de genes dificulta la definición de
ortólogos 1: 1: 1: 1 entre homínidos y múridos. Se sabe que una de las familias más
grandes de este tipo, los receptores olfativos, experimenta una rápida divergencia en los
primates. El estudio dirigido de estos genes en el proyecto de ensamblaje ha sugerido
que es probable que más de 100 receptores olfativos humanos funcionales no estén bajo
ninguna restricción evolutiva 121. Nuestro análisis también omitió la mayoría de los
genes duplicados muy recientemente debido a su menor cobertura en el conjunto actual
de chimpancés. Sin embargo, las duplicaciones específicas de humanos recientes se
pueden identificar fácilmente a partir de la secuencia del genoma humano terminado, y
anteriormente se ha demostrado que están muy enriquecidas para las mismas categorías
que se encontró que tienen altas tasas absolutas de evolución en ortólogos 1: 1 aquí; es
decir, olfato, inmunidad y reproducción 23 .

Alteraciones genéticas en humanos y chimpancés


Mientras que la mayoría de los genes solo han sufrido sustituciones sutiles en su
secuencia de aminoácidos, unas pocas docenas han sufrido cambios más
marcados. Encontramos un total de 53 genes humanos conocidos o previstos que se
eliminan por completo (36) o parcialmente (17) en el chimpancé ( Tabla
complementaria S42). Hasta ahora hemos probado y confirmado 15 de estos casos
mediante reacción en cadena de la polimerasa (PCR) o transferencia de Southern. Otros
ocho genes han sufrido grandes deleciones (> 15 kb) completamente dentro de un
intrón. Es posible que se hayan perdido algunos genes en este recuento debido a las
limitaciones de la secuencia preliminar del genoma. Además, algunos genes pueden
haber sufrido mutaciones de terminación de cadena o marcos de lectura alterados en
chimpancés, pero la identificación precisa de estos requerirá una secuencia de mayor
calidad. La sensibilidad del análisis recíproco de genes interrumpidos en humanos está
actualmente limitada por el pequeño número de modelos de genes predichos de forma
independiente para el chimpancé. Algunas de las alteraciones genéticas pueden estar
relacionadas con diferencias biológicas interesantes entre las especies, como se analiza a
continuación.

Base genética para la biología específica de humanos y chimpancés


Dada la cantidad sustancial de mutaciones neutrales, es probable que solo un pequeño
subconjunto de las diferencias genéticas observadas sea responsable de los cambios
fenotípicos clave en la morfología, fisiología y complejidad del comportamiento entre
humanos y chimpancés. Determinar qué diferencias se encuentran en este subconjunto
importante desde el punto de vista evolutivo e inferir sus consecuencias funcionales
requerirá tipos adicionales de evidencia, incluida la información de las observaciones
clínicas y los sistemas modelo 122 . Describimos algunos ejemplos novedosos de
cambios genéticos para los que se pueden sugerir consecuencias funcionales o
fisiológicas plausibles.

Apoptosis. Se sabe que el ratón y el ser humano difieren con respecto a un importante
mediador de la apoptosis, la caspasa-12 (refs. 123–125). La proteína desencadena la
apoptosis en respuesta a la alteración de la homeostasis del calcio en ratones, pero los
humanos parecen carecer de esta actividad debido a varias mutaciones en el gen
ortólogo que, en conjunto, afectan la proteína producida por todas las formas de corte y
empalme conocidas; las mutaciones incluyen un codón de parada prematuro y una
alteración de la caja SHG necesaria para la actividad enzimática de las caspasas. Por el
contrario, el gen del chimpancé codifica un marco de lectura abierto intacto y una caja
SHG, lo que indica que la pérdida funcional ocurrió en el linaje humano. Curiosamente,
las mutaciones de pérdida de función en ratones confieren una mayor resistencia a la
apoptosis neuronal inducida por amiloide sin causar defectos obvios de desarrollo o
comportamiento 126. La pérdida de función en humanos puede contribuir a la patología
específica de humanos de la enfermedad de Alzheimer, que implica neurotoxicidad
inducida por amiloide y alteración de la homeostasis del calcio.

Respuesta inflamatoria. Humanos y chimpancés muestran una diferencia notable con


respecto a importantes mediadores de respuestas inmunes e inflamatorias. Tres genes
( IL1F7 , IL1F8 e ICEBERG ) que actúan en una vía común que involucra al gen de la
caspasa-1 parecen estar eliminados en el chimpancé. Se cree que ICEBERG reprime la
generación de citocinas IL1 proinflamatorias mediada por caspasa-1 , y su ausencia en
el chimpancé puede indicar una modulación específica de la especie de la respuesta
inflamatoria inducida por interferón-γ y lipopolisacárido 127 .

Resistencia parasitaria. De manera similar, encontramos que dos miembros del grupo
de genes APOL específicos de primates ( APOL1 y APOL4 ) se han eliminado del
genoma del chimpancé. La proteína APOL1 está asociada con la fracción de
lipoproteínas de alta densidad en suero y recientemente se ha propuesto que es el factor
lítico responsable de la resistencia a ciertas subespecies de Trypanosoma brucei , el
parásito que causa la enfermedad del sueño en humanos y la enfermedad veterinaria
nagana 128 . La pérdida del gen APOL1 en los chimpancés podría explicar la
observación de que los humanos, los gorilas y los babuinos poseen el factor lítico del
tripanosoma, mientras que el chimpancé no lo tiene 129 .

Proteínas relacionadas con la biología del ácido siálico. Los ácidos siálicos son
azúcares de la superficie celular que intervienen en muchas funciones
biológicas 130 . De 54 genes implicados en la biología del ácido siálico, 47 eran
adecuados para el análisis. Confirmamos y ampliamos los hallazgos de varios que han
sufrido cambios específicos de humanos, incluidas interrupciones, eliminaciones y
cambios funcionales específicos de dominio 113 , 131 , 132 . También se encontraron
cambios específicos de humanos y chimpancés en motivos sialil conservados
evolutivamente en cuatro sialil transferasas
( ST6GAL1 , ST6GALNAC3 , ST6GALNAC4 y ST8SIA2 ), lo que sugiere cambios en la
unión del donante y/o del aceptor 130. Se encontraron cambios específicos de linaje en
un dominio de unión al ácido siálico del factor H del complemento ( HF1 ) asociado con
enfermedades humanas 133 . El SIGLEC11 humano ha sufrido una conversión génica
con un pseudogén cercano, lo que se correlaciona con la adquisición de la expresión
cerebral específica del ser humano y propiedades de unión alteradas 134 .

Alelos de enfermedades humanas


A continuación, buscamos identificar diferencias funcionales putativas entre las
especies mediante la búsqueda de instancias en las que un alelo causante de
enfermedades humanas parece ser el alelo de tipo salvaje en el chimpancé. A partir de
12 164 variantes de enfermedades catalogadas en 1384 genes humanos, identificamos
16 casos en los que la secuencia alterada en un alelo de la enfermedad coincidía con la
secuencia del chimpancé y tenía un apoyo plausible en la literatura (Tabla 7; ver
también la Tabla Suplementaria S43 ) . Al volver a secuenciar en siete chimpancés, se
confirmaron 15 casos de homocigosis en todos los individuos, mientras que uno
( PON1 I102V) parece ser un polimorfismo compartido ( Tabla complementaria S44 ).

Tabla 7 Variantes candidatas de enfermedades humanas encontradas en chimpancés

mesa de tamaño completo

Seis casos representan mutaciones humanas de novo asociadas con trastornos


mendelianos simples. También se han encontrado casos similares en comparaciones de
mamíferos más distantes 135 , así como entre insectos 136 , y se han interpretado como
consecuencia de una tasa relativamente alta de mutaciones compensatorias. Si es más
probable que las mutaciones compensatorias sean fijadas por selección positiva que por
deriva neutral 136 , entonces las variantes identificadas aquí podrían señalar diferencias
adaptativas entre humanos y chimpancés. Por ejemplo, el alelo ancestral Thr 29 del
tripsinógeno catiónico ( PRSS1 ) causa pancreatitis autosómica dominante en
humanos 137, lo que sugiere que el alelo Asn 29 específico de humanos puede
representar una adaptación molecular relacionada con la digestión 138 .

Los diez casos restantes representan polimorfismos humanos comunes que se ha


informado que están asociados con rasgos complejos, que incluyen enfermedad arterial
coronaria y diabetes mellitus. En todos estos casos, confirmamos que el alelo asociado
con la enfermedad en humanos es, de hecho, el alelo ancestral al mostrar que no solo lo
portan los chimpancés, sino también grupos externos como los macacos. Por lo tanto,
estos alelos ancestrales pueden haberse convertido en factores de riesgo específicos de
los humanos debido a cambios en la fisiología o el entorno humanos, y los
polimorfismos pueden representar adaptaciones en curso. Por ejemplo, PPARG Pro 12
es el alelo de tipo salvaje en el chimpancé, pero se ha asociado claramente con un
mayor riesgo de diabetes tipo 2 en humanos 139. Es tentador especular que este alelo
puede representar un genotipo ancestral 'ahorrativo' 140 .

Los resultados actuales deben interpretarse con cautela, porque se han establecido
firmemente pocas asociaciones de enfermedades complejas. El hecho de que el alelo de
la enfermedad humana sea el alelo de tipo salvaje en el chimpancé puede indicar que
algunas de las supuestas asociaciones son espurias y no causales. Sin embargo, se puede
esperar que este enfoque sea cada vez más fructífero a medida que mejore la calidad y la
integridad de las bases de datos de mutaciones de enfermedades.

genética de poblaciones humanas


El chimpancé tiene un papel especial en la información de los estudios de genética de
poblaciones humanas, un campo que está experimentando una rápida expansión y
adquiriendo una nueva relevancia para la genética médica humana 141 . La secuencia
del chimpancé permite reconocer aquellos alelos humanos que representan el estado
ancestral y el estado derivado. También permite estimaciones de las tasas de mutación
locales, que sirven como una línea de base importante en la búsqueda de signos de
selección natural.

Alelos ancestrales y derivados


De ~ 7,2 millones de SNP asignados al genoma humano en la base de datos pública
actual, podríamos asignar los alelos como ancestrales o derivados en el 80% de los
casos según los cuales el alelo concuerda con la secuencia del genoma del chimpancé
142 ( ver Información complementaria'Genética de poblaciones humanas'). Para los
casos restantes, no se pudo realizar ninguna asignación debido a lo siguiente: la base
ortóloga del chimpancé difería de ambos alelos humanos (1,2 %); fue polimórfica en las
secuencias de chimpancé obtenidas (0,4%); o no pudo identificarse de forma fiable con
el proyecto de secuencia actual del chimpancé (18,8 %), y muchos de ellos se
produjeron en secuencias duplicadas repetidas o segmentarias. Los primeros dos casos
surgen presumiblemente porque ocurrió una segunda mutación en el linaje de los
chimpancés. Debería ser posible resolver la mayoría de estos casos examinando un
grupo externo cercano, como un gorila o un orangután.

Las mutaciones en el chimpancé también pueden conducir a la asignación errónea de


alelos humanos como alelos derivados. Esta tasa de error se puede estimar como la
probabilidad de que una segunda mutación dé como resultado que la secuencia del
chimpancé coincida con el alelo derivado (consulte la Información
complementaria 'Genética de la población humana'). La tasa de error estimada para los
SNP típicos es del 0,5 %, debido a la baja tasa de sustitución de nucleótidos. Las
excepciones son aquellos SNP para los que los alelos humanos son CpG y TpG y la
secuencia de chimpancé es TpG. Para estos, una fracción no despreciable puede haber
surgido por dos eventos de desaminación independientes dentro de un dinucleótido CpG
ancestral, que son puntos críticos mutacionales bien conocidos 51(ver también
arriba). Los SNP humanos en un contexto CpG para los que la secuencia de chimpancé
ortóloga es TpG representan el 12 % del total y tienen una tasa de error estimada del 9,8
%. En todos los SNP, la tasa de error promedio, ɛ , se estima en ~ 1,6 %.

Comparamos la distribución de frecuencias de alelos para alelos ancestrales y derivados


utilizando una base de datos de frecuencias de alelos para ∼ 120,000 SNP
(ver Información complementaria 'Genética de poblaciones humanas'). Como era de
esperar, los alelos ancestrales tienden a tener frecuencias mucho más altas que los alelos
derivados ( Figura complementaria S9 ). No obstante, una proporción significativa de
alelos derivados tienen frecuencias altas: el 9,1% de los alelos derivados tienen una
frecuencia ≥80%.

Un resultado elegante en genética de poblaciones establece que, para una población de


tamaño constante que se cruza aleatoriamente, la probabilidad de que un alelo sea
ancestral es igual a su frecuencia 143 . Exploramos hasta qué punto esta simple
expectativa teórica se ajusta a la población humana. Tabulamos la proporción pa ( x ) de
alelos ancestrales para varias frecuencias de x y comparamos esto con la
predicción pa ( x ) = x ( Fig. 13 ) .

Figura 13: La fracción observada de alelos ancestrales en contenedores del 1% de la


frecuencia observada.
La línea continua muestra la regresión ( b = 0,83). La línea punteada muestra la relación
teórica p a ( x ) = x . Tenga en cuenta que debido a que cada variante produce un alelo
derivado y otro ancestral, los datos son necesariamente simétricos alrededor de 0,5.
imagen a tamaño completo

Los datos se encuentran cerca de la línea predicha, pero la pendiente observada (0.83) es
sustancialmente menor que 1. Una explicación para esta desviación es que algunos
alelos ancestrales están asignados incorrectamente (una tasa de error de ɛ disminuiría
artificialmente la pendiente en un factor de 1 –2 ɛ ). Sin embargo, con ɛ estimado en
solo 1,6%, los errores solo pueden explicar una pequeña parte de la desviación. La
explicación más probable es la presencia de cuellos de botella durante la historia
humana, que tienden a aplanar la distribución de frecuencias alélicas. Los cálculos
teóricos indican que un cuello de botella reciente disminuiría la pendiente por un factor
de (1 - b ), donde b es el coeficiente de consanguinidad inducido por el cuello de botella
(verInformación complementaria 'Genética de la población humana' y Fig. S10
complementaria ). Esto sugiere que las mediciones de la pendiente en diferentes grupos
humanos pueden arrojar luz sobre los cuellos de botella específicos de la población. De
acuerdo con esto, los análisis preliminares de las frecuencias alélicas en varias regiones
para los SNP obtenidos mediante un muestreo uniforme sistemático indican que la
pendiente es significativamente menor que 1 en muestras europeas y asiáticas y cercana
a 1 en una muestra africana (consulte la Información complementaria 'Genética de la
población humana ' y la figura complementaria S11 ).

Firmas de barridos selectivos fuertes en la historia humana reciente


El patrón de variación genética humana contiene información sustancial sobre los
eventos de selección que han dado forma a nuestra especie. La selección positiva fuerte
crea la firma distintiva de un 'barrido selectivo', mediante el cual un alelo raro se eleva
rápidamente hasta la fijación y lleva el haplotipo en el que ocurre a alta frecuencia (el
efecto de 'autostop'). La región circundante debe mostrar dos firmas distintivas: una
reducción significativa de la diversidad general y un exceso de alelos derivados con alta
frecuencia en la población debido al autostop de alelos derivados en el haplotipo
seleccionado (consulte la Información complementaria 'Genética de la población
humana' ) . El patrón podría ser detectable hasta 250.000 años después de que haya
terminado un barrido selectivo 144. En particular, el genoma del chimpancé proporciona
información de referencia crucial necesaria para una evaluación precisa de ambas
firmas.

Se espera que el tamaño del intervalo afectado por un barrido selectivo aumente
aproximadamente con s , la ventaja selectiva debida a la mutación. Las simulaciones se
pueden usar para estudiar la distribución del tamaño del intervalo (consulte la
Información complementaria 'Genética de la población humana'). Con s = 1 %, el
intervalo en el que la heterocigosis cae un 50 % tiene un tamaño modal de 600 kb y una
probabilidad superior al 10 % de superar 1 Mb.

Realizamos un escaneo inicial para regiones grandes (> 1 Mb) con las dos firmas
sugestivas de fuertes barridos selectivos en la historia humana reciente. Comenzamos
identificando regiones en las que la tasa de diversidad humana observada era mucho
más baja que la expectativa basada en la tasa de divergencia observada con los
chimpancés. La tasa de diversidad humana se midió como el número de ocurrencias de
una base de datos de 1,92 millones de SNP identificados por secuenciación de escopeta
en un panel de individuos afroamericanos (ver Información
complementaria 'Secuenciación y ensamblaje del genoma'). La comparación con el
chimpancé elimina las regiones en las que la baja diversidad simplemente refleja una
baja tasa de mutación en la región. Las regiones se identificaron con base en un
procedimiento estadístico simple (ver Información complementaria'Genética de
poblaciones humanas'). Seis regiones genómicas se destacan como valores atípicos
claros que muestran una diversidad significativamente reducida en relación con la
divergencia ( Tabla 8 ; consulte también la Fig. S12 complementaria ).

Tabla 8 Regiones humanas con la señal más fuerte de selección basada en la diversidad
relativa a la divergencia

mesa de tamaño completo


A continuación, probamos si estas seis regiones muestran una alta proporción de SNP
con alelos derivados de alta frecuencia (definidos aquí como alelos con frecuencia
≥80%). Dentro de cada región, nos enfocamos en el intervalo de 1 Mb con la mayor
discrepancia entre diversidad y divergencia y lo comparamos con regiones de 1 Mb en
todo el genoma. Para la base de datos de 120 000 SNP con frecuencias alélicas
discutidas anteriormente, la región típica de 1 Mb en el genoma humano contiene ∼ 40
SNP, y la proporción de pH de SNP con alelos derivados de alta frecuencia es ∼9,1%. Las
seis regiones identificadas por nuestro análisis de diversidad reducida tienen una
fracción superior a la media de alelos derivados de alta frecuencia; los seis caen dentro
del 10% superior en todo el genoma y tres caen dentro del 1% superior. Si bien esta no
es una evidencia definitiva para ninguna región en particular, la probabilidad conjunta
de que las seis regiones obtengan una puntuación aleatoria en el 10 % superior es 10 -
6
. Los resultados indican que las seis regiones son candidatas para fuertes barridos
selectivos durante los últimos 250.000 años 144. Las regiones difieren notablemente en
cuanto al contenido de genes, desde una que contiene 57 genes anotados (cromosoma
22) hasta otra sin genes anotados (cromosoma 4). No tenemos evidencia para implicar a
ningún elemento funcional individual como un objetivo de selección reciente en este
momento, pero las regiones contienen una serie de candidatos interesantes para estudios
de seguimiento. Curiosamente, el desierto del gen del cromosoma 4, que flanquea un
gen de protocadherina y se conserva en todos los vertebrados 15 , ha sido implicado en
dos estudios independientes como asociado con la obesidad 145 , 146 .

Además de las seis regiones, merece mención una región genómica adicional: un
intervalo de 7,6 Mb en el cromosoma 7q (consulte la Información
complementaria 'Genética de la población humana'). El intervalo contiene varias
regiones con puntajes altos en el análisis de diversidad-divergencia (incluido el séptimo
puntaje más alto en general), así como en la proporción de alelos derivados de alta
frecuencia. La región contiene los genes FOXP2 y CFTR . El primero ha sido objeto de
mucho interés como posible objetivo de selección durante la evolución humana 147 y el
segundo como objetivo de selección en poblaciones europeas 148 .

La prueba convincente de la selección pasada requerirá un análisis cuidadoso del patrón


preciso de variación genética en la región y la identificación de un objetivo probable de
selección. No obstante, nuestros hallazgos sugieren que el enfoque descrito aquí puede
ayudar a desbloquear algunos de los secretos de la evolución humana reciente a través
de una combinación de comparación dentro de la especie y entre especies.

Discusión
Nuestro conocimiento del genoma humano ha avanzado mucho gracias a la
disponibilidad de un segundo genoma homínido. Algunas preguntas pueden responderse
directamente comparando las secuencias humanas y de chimpancé, incluidas las
estimaciones de las tasas de mutación regionales y las restricciones selectivas promedio
en las clases de genes. Se pueden abordar otras preguntas junto con otros grandes
conjuntos de datos, como problemas en la genética de la población humana para los
cuales el genoma del chimpancé proporciona controles cruciales. Para otras preguntas,
el genoma del chimpancé simplemente proporciona un punto de partida para futuras
investigaciones.
La pregunta más difícil es: ¿qué nos hace humanos? El desafío radica en el hecho de
que la mayoría de los cambios evolutivos se deben a la deriva neutral. Los cambios
adaptativos comprenden solo una pequeña minoría de la variación genética total entre
dos especies. Como resultado, el grado de variación fenotípica entre organismos no está
estrictamente relacionado con el grado de variación de la secuencia. Por ejemplo, la
variación fenotípica bruta entre humanos y chimpancés es mucho mayor que entre las
especies de ratón Mus musculus y Mus spretus , aunque la diferencia de secuencia en los
dos casos es similar. Por otro lado, los perros muestran una variación fenotípica
considerable a pesar de tener poca variación general de secuencia ( ∼0,15%). La
comparación genómica reduce notablemente la búsqueda de las diferencias
funcionalmente importantes entre las especies, pero se necesitarán conocimientos
biológicos específicos para tamizar la lista aún grande de candidatos para separar los
cambios adaptativos del fondo neutral.

Nuestro análisis comparativo sugiere que los patrones de evolución molecular en los
homínidos son típicos de una clase más amplia de mamíferos en muchos sentidos, pero
distintivos en ciertos aspectos. Al igual que con los murids, las familias de genes que
evolucionan más rápidamente son aquellas involucradas en la reproducción y la defensa
del huésped. Sin embargo, a diferencia de los murids, los homínidos parecen
experimentar una selección negativa sustancialmente más débil; esto probablemente
refleja el tamaño de su población más pequeña. En consecuencia, los homínidos
acumulan mutaciones deletéreas que serían eliminadas mediante una selección
purificadora en los muridos. Esto puede ser tanto una ventaja como una
desventaja. Aunque la disminución de la selección purificadora puede tender a erosionar
la aptitud general,149 , 150 .

Aunque los análisis presentados aquí se centran en las secuencias de codificación de


proteínas, la secuencia del genoma del chimpancé también permite el análisis
sistemático de la evolución reciente de los elementos reguladores de genes por primera
vez. El análisis inicial tanto de los patrones de expresión génica como de las regiones
promotoras sugiere que sus patrones generales de evolución son muy similares a los de
las regiones codificantes de proteínas. En un artículo adjunto 83 , mostramos que las
tasas de cambio en la expresión génica entre diferentes tejidos en humanos y
chimpancés se correlacionan con la divergencia de nucleótidos en los supuestos
promotores proximales y, lo que es aún más interesante, con el nivel promedio de
restricción de proteínas en los mismos tejidos. Otro estudio 151ha utilizado de manera
similar la secuencia de chimpancé descrita aquí para mostrar que las regiones
promotoras de genes también están evolucionando bajo una restricción notablemente
menor en los homínidos que en los múridos.

El borrador de la secuencia del chimpancé aquí es suficiente para los análisis iniciales,
pero aún es imperfecto e incompleto. Los estudios definitivos de la evolución de genes
y genomas, incluida la formación de pseudogenes, la expansión de familias de genes y
la duplicación segmentaria, requerirán una secuencia terminada de alta calidad. En este
sentido, observamos que ya se están realizando esfuerzos para construir un mapa físico
basado en BAC y para aumentar la cobertura de la secuencia de escopeta a una
redundancia de aproximadamente seis veces. La cobertura adicional por sí sola no
afectará en gran medida el análisis, pero existen planes para producir una secuencia
final para segmentos importantes y difíciles de secuenciar del genoma.
Nuestra estrecha relación biológica con los chimpancés no solo permite una visión única
de la biología humana, sino que también crea obligaciones éticas. Aunque la secuencia
del genoma se adquirió sin dañar a los chimpancés, la disponibilidad de la secuencia
puede aumentar la presión para utilizar chimpancés en la experimentación. Nos
oponemos firmemente a reducir la protección de los chimpancés y, en cambio,
defendemos las posiciones políticas sugeridas por un documento adjunto 152. Además,
la civilización humana amenaza cada vez más la existencia de los chimpancés y otros
grandes simios en sus hábitats nativos. Se necesitan con urgencia políticas más eficaces
para protegerlos en la naturaleza. Esperamos que explicar cuán pocas diferencias
separan a nuestra especie amplíe el reconocimiento de nuestro deber para con estos
extraordinarios primates que son nuestros hermanos en la familia de la vida.

Métodos
Secuenciación y ensamblaje
Se obtuvieron aproximadamente 22,5 millones de lecturas de secuencias de ambos
extremos de los insertos (lecturas de extremos emparejados) de clones de 4, 10, 40 y
180 kb, todos preparados a partir de ADN de linfocitos de sangre primaria. Los recursos
genómicos disponibles del animal de origen incluyen una línea de células linfoides
(S006006) y ADN genómico (NS06006) en los depósitos de células de Coriell
( http://locus.umdnj.edu/ccr/ ), así como una biblioteca BAC (CHORI-251 ) 153 (ver
también Información complementaria 'Secuenciación y ensamblaje del genoma').

alineación del genoma


Se usó BLASTZ 154 para alinear regiones de chimpancé no repetitivas contra la
secuencia humana repetidamente enmascarada. BLAT 155 se utilizó posteriormente para
alinear las regiones más repetitivas. Las alineaciones combinadas se encadenaron 156 y
solo se conservaron las mejores alineaciones recíprocas para su posterior análisis.

Inserciones y eliminaciones
Los eventos pequeños de inserción/eliminación (indel) (< 15 kb) se analizaron
directamente desde la alineación del genoma BLASTZ contando el número y el tamaño
de las brechas de alineación entre las bases dentro del mismo contig. Se detectaron
sitios de indeles a gran escala (> 15 kb) a partir de ubicaciones discordantes de lecturas
de secuencias emparejadas contra el ensamblaje humano. Los umbrales de tamaño se
obtuvieron de alineaciones de fósmidos humanos en secuencia humana (40 ± 2,58 kb) y
alineaciones de plásmidos de chimpancé contra el cromosoma 21 humano (4,5 ± 1,84
kb). Los indeles fueron inferidos por dos o más pares que superaban estos umbrales por
más de dos desviaciones estándar y la ausencia de datos de secuencia dentro de la
discordancia.

anotación de genes
Un total de 19 277 transcripciones RefSeq humanas 157 , que representan 16 045 genes
distintos, se alinearon indirectamente con la secuencia del chimpancé a través de la
alineación del genoma. Después de eliminar las secuencias de baja calidad y los
posibles artefactos de alineación, se creó un catálogo inicial que contenía 13 454
ortólogos humanos-chimpancé 1:1 distintos para los análisis descritos aquí. Un
subconjunto de 7043 de estos genes con ortólogos inequívocos de ratón y rata se
realinearon utilizando Clustal W 158 para los análisis específicos de linaje. Los
catálogos de genes actualizados se pueden obtener en http://www.ensembl.org .

Tasas de divergencia
Las tasas de divergencia de nucleótidos se estimaron usando baseml con el modelo
REV. Las tasas no CpG se estimaron a partir de todos los sitios que no se solapaban con
un dinucleótido CG en humanos o chimpancés. K A y KS se estimaron conjuntamente
para cada ortólogo usando codeml con el modelo de frecuencia de codones F3x4 y sin
restricciones adicionales, excepto para la comparación de sustituciones divergentes y
polimórficas donde K A / K S para ambos se estimó como ( ΔA / N A ) /( ΔS / N S ),
con N S / N A, la relación entre sitios sinónimos y no sinónimos, estimada en 0,36 a
partir de las alineaciones ortólogas. A menos que se especifique lo
contrario, K A / K S para un conjunto de genes se calculó sumando el número de
sustituciones y el número de sitios para obtener K A y K S para el conjunto concatenado
antes de tomar la relación. Las tasas por pares de homínidos y múridos se estimaron
independientemente de los codones alineados en las cuatro
especies. K A y K S específicos de linaje humano y de chimpancése estimaron en un
árbol sin raíz con ratones y ratas incluidos. Las tasas específicas de linaje también se
estimaron por parsimonia, con resultados esencialmente idénticos (ver Información
complementaria ). K I se estimó a partir de todas las repeticiones intercaladas dentro de
los 250 kb del punto medio de cada gen.

Evolución acelerada en categorías GO


La probabilidad binomial de observar X o más sustituciones no sinónimas, dado un total
de sustituciones X + Y y la proporción esperada x de todos los ortólogos, se calculó
sumando las sustituciones entre los ortólogos en cada categoría GO. Para la prueba de
tasa absoluta, Y = el número de sustituciones sinónimas en ortólogos en la misma
categoría. Para las pruebas de tasa relativa, Y = el número de sustituciones no sinónimas
en el linaje opuesto. Tenga en cuenta que esta probabilidad binomial es simplemente
una métrica diseñada para identificar categorías potencialmente aceleradas, no es una P-
valor que se puede usar para rechazar directamente la hipótesis nula de no aceleración
en esa categoría en particular. Para cada prueba, el número observado de categorías con
una probabilidad binomial inferior a 0,001 se comparó con la distribución esperada de
dichos valores atípicos repitiendo el procedimiento 10.000 veces en anotaciones GO
permutadas aleatoriamente. La importancia del número de valores atípicos
observados n se estimó como la proporción de ensayos aleatorios que produjeron n o
más valores atípicos.

Detección de barridos selectivos


El número observado de SNP humanos, ui , bases humanas, m i , sustituciones humano-
chimpancé, vi , y bases de chimpancé, n i , dentro de cada conjunto de ventanas de 1 Mb no
superpuestas a lo largo del genoma humano se utilizaron para generar dos números
aleatorios, x i (diversidad humana ajustada) e y i (divergencia humana-chimpancé
ajustada), de las dos distribuciones beta:

donde a = 1, b = 1000, c = 1 y d = 100. Luego, estos números se ajustaron a una


regresión lineal:

Se calculó un valor P para cada ventana para cada ventana en función de ( xi , yi ) y la


línea de regresión . Esto se repitió 100 veces y el promedio de los valores P se tomó
como el valor P para la diversidad dada la divergencia en cada ventana. Las ventanas
superpuestas con P < 0,1 que contenían al menos una ventana de P < 0,05 se fusionaron
y puntuaron como la suma de sus puntuaciones -log( p ).

El Consorcio de Secuenciación y Análisis de


Chimpancés
Tarjei S. Mikkelsen 1,2 , LaDeana W. Hillier 3 , Evan E. Eichler 4 , Michael C. Zody 1 ,
David B. Jaffe 1 , Shiaw-Pyng Yang 3 , Wolfgang Enard 5 , Ines Hellmann 5 , Kerstin
Lindblad-Toh 1 , Tasha K. Altheide 6 , Nicoletta Archidiacono 7 , Peer Bork 8,9 , Jonathan
Butler 1 , Jean L. Chang 1 , Ze Cheng 4 , Asif T. Chinwalla 3 , Pieter deJong 10 ,
Kimberley D. Delehaunty 3 , Catrina C Fronick 3, Lucinda L. Fulton 3 , Yoav Gilad 11 ,
Gustavo Glusman 12 , Sante Gnerre 1 , Tina A. Graves 3 , Toshiyuki Hayakawa 6 , Karen
E. Hayden 13 , Xiaoqiu Huang 14 , Hongkai Ji 15 , W. James Kent 16 , Mary -Claire King 4 ,
Edward J. Kulbokas, III 1 , Ming K. Lee 4 , Ge Liu 13 , Carlos Lopez-Otin 17 , Kateryna D.
Makova 18 , Orna Man 19 , Elaine R. Mardis 3 , Evan Mauceli 1 , Tracie L. Minero3 ,
William E. Nash 3 , Joanne O. Nelson 3 , Svante Pääbo 5 , Nick J. Patterson 1 , Craig S.
Poh l3 , Katherine S. Pollard 16 , Kay Prüfer 5 , Xose S. Puente1 7 , David Reich 1, 20 ,
Mariano Rocchi 7 , Kate Rosenbloom 16 , Maryellen Ruvolo 21 , Daniel J. Richter 1 ,
Stephen F. Schaffner 1 , Arian FA Smit 12 , Scott M. Smith 3 , Mikita Suyama 8 , James
Taylor 18 , David Torrents 8, Eray Tuzun 4 , Ajit Varki 6 , Gloria Velasco1 7 , Mario
Ventura 7 , John W. Wallis 3 , Michael C. Wend l3 , Richard K. Wilson 3 , Eric S.
Lander 1,22,23,24 , Robert H. Waterston 4

Afiliaciones para participantes: 1 Broad Institute of MIT and Harvard, 320 Charles
Street, Cambridge, Massachusetts 02141, USA. 2 División de Ciencias y Tecnología de
la Salud, Instituto de Tecnología de Massachusetts, 77 Massachusetts Avenue,
Cambridge, Massachusetts 02139, EE. UU. 3 Genome Sequencing Center, Washington
University School of Medicine, Campus Box 8501, 4444 Forest Park Avenue, St Louis,
Missouri 63108, EE. UU. 4 Ciencias del Genoma, Facultad de Medicina de la
Universidad de Washington, 1705 NE Pacific Street, Seattle, Washington 98195, EE.
UU. 5 Instituto Max Planck de Antropología Evolutiva, Deutscher Platz 6, D-04103
Leipzig, Alemania. 6Universidad de California, San Diego, 9500 Gilman Drive, La
Jolla, California 92093, EE. UU. 7 Departamento de Genética y Microbiología,
Universidad de Bari, 70126 Bari, Italia. 8 EMBL, Meyerhofstrasse 1, Heidelberg D-
69117, Alemania. 9 Centro Max Delbrück de Medicina Molecular (MDC), Bobert-
Rössle-Strasse 10, D-13125 Berlín, Alemania. 10 Children's Hospital Oakland Research
Institute, 747 52nd Street, Oakland, California 94609, EE. UU. 11 Departamento de
Genética, Facultad de Medicina de la Universidad de Yale, 333 Cedar Street, New
Haven, Connecticut 06520, EE. UU. 12 Instituto de Biología de Sistemas, 1441 North
34th Street, Seattle, Washington 98103, EE. UU. 13Departamento de Genética,
Universidad Case Western Reserve, 10900 Euclid Avenue, Cleveland, Ohio 44106, EE.
UU. 14 Departamento de Ciencias de la Computación, Universidad Estatal de Iowa, 226
Atanasoff Hall, Ames, Iowa 50011, EE. UU. 15 Departamento de Estadística,
Universidad de Harvard, 1 Oxford Street, Cambridge, Massachusetts 02138, EE.
UU. 16 Universidad de California, Santa Cruz, Centro de Ciencia e Ingeniería
Biomolecular, 1156 High Street, Santa Cruz, California 95064, EE.
UU. 17 Departamento de Bioquímica y Biología Molecular, Instituto Universitario de
Oncología del Principado de Asturias, Universidad de Oviedo, C/Fernando Bongera s/n,
33006 Oviedo, España. 18Universidad Estatal de Pensilvania, Centro de Genómica
Comparada y Bioinformática y Departamento de Biología, University Park, Pensilvania
16802, EE. UU. 19 Departamento de Biología Estructural, Instituto de Ciencias
Weizmann, Rehovot 76100, Israel. 20 Departamento de Genética, Facultad de Medicina
de Harvard, Boston, Massachusetts 02115, EE. UU. 21 Departamentos de Antropología y
de Biología Orgánica y Evolutiva, Universidad de Harvard, 11 Divinity Avenue,
Cambridge, Massachusetts 02138, EE. UU. 22 Departamento de Biología de Sistemas,
Facultad de Medicina de Harvard, Boston, Massachusetts 02115, EE. UU. 23 Instituto
Whitehead de Investigación Biomédica, Cambridge, Massachusetts 02142, EE.
UU. 24Departamento de Biología, Instituto Tecnológico de Massachusetts, Cambridge,
Massachusetts 02139, EE. UU.

También podría gustarte