Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Abstracto
Aquí presentamos un borrador de la secuencia del genoma del chimpancé
común ( Pan troglodytes). A través de la comparación con el genoma humano,
hemos generado un catálogo en gran parte completo de las diferencias
genéticas que se han acumulado desde que las especies humana y chimpancé
se separaron de nuestro ancestro común, constituyendo aproximadamente
treinta y cinco millones de cambios de un solo nucleótido, cinco millones de
eventos de inserción/deleción y varios reordenamientos
cromosómicos. Usamos este catálogo para explorar la magnitud y la variación
regional de las fuerzas mutacionales que dan forma a estos dos genomas, y la
fuerza de la selección positiva y negativa que actúa sobre sus genes. En
particular, encontramos que los patrones de evolución en genes codificadores
de proteínas humanos y de chimpancé están altamente correlacionados y
dominados por la fijación de alelos neutrales y ligeramente perjudiciales.
Principal
Hace más de un siglo, Darwin 1 y Huxley 2 postularon que los humanos
comparten ancestros comunes recientes con los grandes simios
africanos. Estudios moleculares modernos han confirmado espectacularmente
esta predicción y han refinado las relaciones, mostrando que el chimpancé
común ( Pan troglodytes ) y el bonobo ( Pan paniscus o chimpancé pigmeo)
son nuestros parientes evolutivos vivos más cercanos 3 . Los chimpancés son,
por lo tanto, especialmente adecuados para enseñarnos sobre nosotros
mismos, tanto en términos de sus similitudes como de sus diferencias con los
humanos. Por ejemplo, los estudios pioneros de Goodall sobre el chimpancé
común revelaron sorprendentes similitudes de comportamiento, como el uso
de herramientas y la agresión grupal 4 , 5. Por el contrario, otras características
son obviamente específicas de los humanos, incluyendo la bipedestación
habitual, un cerebro muy agrandado y un lenguaje complejo 5 . También se
han observado similitudes y diferencias importantes en la incidencia y
gravedad de varias enfermedades humanas importantes 6 .
Polimorfismos de chimpancé
El proyecto de secuencia del genoma del chimpancé también facilita los
estudios de diversidad genética entre los chimpancés en todo el genoma,
ampliando el trabajo reciente 28 , 29 , 30 , 31 . Secuenciamos y analizamos las
lecturas de secuencia del donante principal, otros cuatro chimpancés de África
occidental y tres de África central ( Pan troglodytes troglodytes ) para
descubrir posiciones polimórficas dentro y entre estos individuos ( Tabla
complementaria S17 ).
divergencia de nucleótidos
Las mejores alineaciones recíprocas a nivel de nucleótidos de los genomas de
chimpancé y humano cubren ~ 2,4 gigabases (Gb) de secuencia de alta
calidad, incluidos 89 Mb del cromosoma X y 7,5 Mb del cromosoma Y.
Inserciones y eliminaciones
Luego estudiamos los eventos de indel que han ocurrido en los linajes humanos y de
chimpancé alineando las secuencias del genoma para identificar las diferencias de
longitud. Nos referiremos a continuación a todos los eventos como inserciones relativas
al otro genoma, aunque pueden representar inserciones o deleciones relativas al genoma
del ancestro común.
El análisis de inserciones más grandes (> 15 kb) identificó 163 regiones humanas que
contenían 8,3 Mb de secuencia específica humana en total ( Fig. 6 ). Estos casos
incluyen 34 regiones que involucran exones de genes conocidos, que se analizan en una
sección posterior. Aunque no tenemos una medida directa de las inserciones grandes en
el genoma del chimpancé, parece probable que la situación sea similar.
Figura 6: Distribución de longitud de grandes eventos indel (> 15 kb), según lo determinado
usando secuencias de extremos emparejados de chimpancé mapeados contra el genoma
humano.
Se muestra tanto el número total de inserciones humanas candidatas/eliminaciones de
chimpancé (azul) como el número de bases alteradas (rojo).
imagen a tamaño completo
Sobre la base de este análisis, estimamos que los genomas humanos y de chimpancé
contienen cada uno 40–45 Mb de secuencia eucromática específica de la especie, y las
diferencias de indel entre los genomas suman un total de ∼ 90 Mb . Esta diferencia
corresponde a ∼ 3 % de ambos genomas y eclipsa la diferencia de 1,23 % resultante de
las sustituciones de nucleótidos; esto confirma y amplía varios estudios
recientes 63 , 64 , 65 , 66 , 67 . Por supuesto, el número de eventos indel es mucho menor que
el número de eventos de sustitución ( ∼ 5 millones en comparación con ∼ 35 millones,
respectivamente).
En este contexto, fue sorprendente encontrar que el genoma del chimpancé tiene dos
elementos retrovirales activos (PtERV1 y PtERV2) que no se parecen a ningún
elemento anterior en ninguno de los dos genomas; estos deben haber sido introducidos
por infección de la línea germinal del chimpancé. La familia más pequeña (PtERV2)
tiene solo unas pocas docenas de copias, que sin embargo representan invasiones
múltiples ( ∼ 5–8), porque las diferencias de secuencia entre las subfamilias
reconstruidas son demasiado grandes ( ∼8%) haber surgido por mutación desde la
divergencia del ser humano. Está estrechamente relacionado con un retrovirus endógeno
de mandril (BaEV, 88 % de identidad de producto ORF2) y un virus endógeno felino
(ECE-1, 86 % de identidad de producto ORF2). La familia más grande (PtERV1) es
más homogénea y tiene más de 200 copias. Mientras que los ERV más antiguos, como
HERV-K, están representados principalmente por LTR individuales resultantes de la
recombinación LTR-LTR, más de la mitad de las copias de PtERV1 aún están
completas, lo que probablemente refleja la corta edad de los elementos. Los elementos
similares a PtERV1 están presentes en el mono rhesus, el babuino oliva y los grandes
simios africanos, pero no en humanos, orangutanes o gibones, lo que sugiere invasiones
de líneas germinales separadas en estas especies 68 .
Mayor actividad Alu en humanos. Los elementos SINE (Alu) han sido tres veces más
activos en humanos que en chimpancés ( ∼ 7000 en comparación con ∼ 2300 copias
específicas de linaje en la porción alineada), refinando el rango bastante amplio (2 a 7
veces) estimado en estudios más pequeños 13 , 67 , 69 . La mayoría de los elementos
específicos de los chimpancés pertenecen a una subfamilia (AluYc1) que es muy similar
al gen fuente en el ancestro común. Por el contrario, la mayoría de los elementos Alu
específicos de humanos pertenecen a dos nuevas subfamilias (AluYa5 y AluYb8) que
han evolucionado desde la divergencia chimpancé-humano y difieren sustancialmente
del gen fuente ancestral 69. Parece probable que el resurgimiento de los elementos Alu
en humanos se deba a estos potentes nuevos genes fuente. Sin embargo, según un
examen de la secuencia final disponible, el babuino muestra una actividad Alu 1,6 veces
mayor en relación con las nuevas inserciones humanas, lo que sugiere que también
puede haber habido una disminución general de la actividad en el chimpancé 67 .
Algunos de los elementos Alu específicos de humanos son muy divergentes (92 con
>5% de divergencia), lo que parecería sugerir que son mucho más antiguos que la
división entre humanos y chimpancés. Las posibles explicaciones incluyen: conversión
de genes por elementos más antiguos cercanos; pseudogenes procesados que surgen de
una transcripción espuria de un elemento más antiguo; escisión precisa del genoma del
chimpancé; o alta tasa de mutación local. En cualquier caso, la presencia de tales
anomalías sugiere que se justifica la precaución en el uso de elementos de repetición
única como marcadores filogenéticos libres de homoplasia.
Los nuevos elementos Alu se dirigen al ADN rico en (A + T) en genomas humanos y de
chimpancé. Los elementos SINE más antiguos se encuentran preferentemente en
regiones ricas en genes y ricas en (G + C), mientras que los elementos SINE más
jóvenes se encuentran en regiones pobres en genes y ricas en (A + T) donde el elemento
intercalado largo (LINE)-1 (L1 ) las copias también acumulan 24 , 70 . La última
distribución es consistente con el hecho de que la retrotransposición Alu está mediada
por L1 (ref. 71 ). Los genomas murid no revelaron cambios en la distribución SINE con
la edad de 17 años .
El análisis muestra que los SINE específicos de linaje tanto en humanos como en
chimpancés están sesgados hacia regiones ricas en (A + T), a diferencia incluso de las
copias más recientes en el MRCA (Fig. 7 ) . Esto indica que los SINE se retienen
preferentemente en el ADN rico en (G + C), pero se requiere una comparación con un
primate más distante para descartar formalmente la posibilidad de que el sesgo de
inserción de los SINE no haya cambiado justo antes de la especiación.
Buscamos en la secuencia del genoma del chimpancé las ubicaciones precisas de los 18
puntos de corte correspondientes a las 9 inversiones pericéntricas ( Tabla
complementaria S22 ). Al mapear secuencias de extremos emparejados de clones de
insertos grandes de chimpancé en el genoma humano, pudimos identificar 13 de los
puntos de ruptura dentro del ensamblaje a partir de alineaciones de extremos
discordantes. Las posiciones de cinco puntos de ruptura (en los cromosomas 4, 5 y 12)
se probaron mediante análisis de hibridación in situ con fluorescencia (FISH) y todos se
confirmaron. Además, las posiciones de tres puntos de ruptura de inversión mapeados
previamente (en los cromosomas 15 y 18) coincidieron estrechamente con los
encontrados en el ensamblaje 87 , 88. El análisis de extremos emparejados funciona bien
en regiones de secuencia única, que constituyen la mayor parte del genoma, pero es
menos efectivo en regiones de duplicación reciente debido a las ambigüedades en el
mapeo de las secuencias de extremos emparejados. Más allá de las inversiones
conocidas, también encontramos evidencia sugestiva de muchas inversiones más
pequeñas adicionales, así como duplicaciones segmentarias más antiguas (<98% de
identidad; Fig. S6 complementaria ). Sin embargo, tanto las inversiones más pequeñas
como las duplicaciones segmentarias más recientes requerirán más investigaciones.
evolución genética
A continuación, buscamos utilizar la secuencia del chimpancé para estudiar el papel de
la selección natural en la evolución de los genes codificadores de proteínas
humanas. Las comparaciones de todo el genoma pueden arrojar luz sobre muchos temas
centrales, que incluyen: la magnitud de la selección positiva y negativa; la variación en
la selección entre diferentes linajes, cromosomas, familias de genes y genes
individuales; y la pérdida completa de genes dentro de un linaje.
Bajo el supuesto de que las mutaciones sinónimas son selectivamente neutrales, los
resultados implican que el 77% de las alteraciones de aminoácidos en los genes de los
homínidos son lo suficientemente perjudiciales como para ser eliminadas por selección
natural. Debido a que las mutaciones sinónimas no son completamente neutrales (ver
más abajo), la proporción real de alteraciones de aminoácidos con consecuencias
perjudiciales puede ser mayor. De acuerdo con estudios previos 8 , encontramos
que K A / K S de los polimorfismos humanos con frecuencias de hasta el 15 % es
significativamente más alto que el de las diferencias entre humanos y chimpancés y los
polimorfismos más comunes ( Tabla 3), lo que implica que al menos el 25% de las
alteraciones de aminoácidos perjudiciales a menudo pueden alcanzar frecuencias
fácilmente detectables y, por lo tanto, contribuir significativamente a la carga genética
humana.
Divergencia media alrededor de los límites del exón en sitios intrónicos, exónicos,
cuádruplemente degenerados y no CpG, en relación con la unión de empalme de ARNm
más cercana. La tasa de divergencia en los sitios degenerados cuádruples exónicos es
significativamente menor que en los sitios intrónicos cercanos ( prueba U de Mann-
Whitney ; P < 10-27 ) , lo que sugiere que la selección purificadora limita la tasa de
sustituciones de codones sinónimos.
imagen a tamaño completo
Comparación con los murids. Una estimación precisa de K A / K S hace posible estudiar
cómo varía la restricción evolutiva entre los clados. Se predijo hace más de 30
años 95 que la selección contra mutaciones deletéreas dependería del tamaño de la
población, siendo las mutaciones fuertemente seleccionadas solo si reducen la aptitud
en s ≫ 1/4 N (donde N es el tamaño efectivo de la población). Esto predeciría que los
genes estarían bajo una selección de purificación más fuerte en los múridos que en los
homínidos, debido a su supuesto tamaño de población más grande. Análisis iniciales
(con menos de 50 genes 96) sugirió un fuerte efecto, pero la amplia variación en las
estimaciones de K A / K S en homínidos 7 , 8 , 97 y murids 98 ha complicado este
análisis 45 .
Usando la gran colección de 7043 cuartetos ortólogos, calculamos los valores medios
de K A / K S para las diversas ramas del árbol evolutivo de cuatro especies (humano,
chimpancé, ratón y rata; Fig. 9 ). La relación K A / K S para los homínidos es de
0,20. (Esto es ligeramente más bajo que el valor de 0,23 obtenido con todos los
ortólogos humanos-chimpancés, lo que probablemente refleja una restricción
ligeramente mayor en la clase de proteínas con ortólogos claros entre homínidos y
múridos).
La relación K A / K S es notablemente más baja para los múridos que para los homínidos
( ω múrido ≈ 0,13 en comparación con ω homínido ≈ 0,20) ( Fig. 9 ). Esto implica que hay un
exceso de ∼ 35% de las mutaciones de cambio de aminoácidos en los dos homínidos, en
relación con los dos murids. El exceso de divergencia de aminoácidos puede explicarse
por una mayor evolución adaptativa o por una relajación de las restricciones
evolutivas. Como se muestra en la siguiente sección, esta última parece ser la principal
explicación.
No obstante, este conjunto de 585 genes puede enriquecerse con genes que están bajo
selección positiva. Los valores atípicos más extremos incluyen la glicoforina C, que
media una de las vías de invasión de Plasmodium falciparum en los eritrocitos
humanos 101 ; granulisina, que media la actividad antimicrobiana contra patógenos
intracelulares como Mycobacterium tuberculosis 102 ; así como genes que previamente
se ha demostrado que experimentan una evolución adaptativa, como las protaminas y
las semenogelinas implicadas en la reproducción 103 y la familia de genes relacionados
con Mas implicada en la nocicepción 104. Con estudios de seguimiento similares en
candidatos de esta lista, uno puede sacar conclusiones sobre la selección positiva en
otros genes individuales. En secciones posteriores, examinamos la tasa de divergencia
de conjuntos de genes relacionados con el objetivo de detectar señales más sutiles de
evolución acelerada.
Variación a través de los cromosomas. Sobre la base de un análisis de ∼ 100 genes 108 ,
se informó recientemente que la tasa normalizada de evolución de proteínas es mayor en
los nueve cromosomas que sufrieron un importante reordenamiento estructural durante
la evolución humana (cromosomas 1, 2, 5, 9, 12, 15 , 16, 17 y 18); se sugirió que tales
reordenamientos condujeron a un flujo de genes reducido y una evolución adaptativa
acelerada. Un estudio posterior de una colección de tecnologías ecológicamente
racionales de chimpancé dio resultados contradictorios 109 , 110 . Con nuestro conjunto
de datos más grande, volvimos a examinar este problema y no encontramos evidencia
de evolución acelerada en cromosomas con reordenamientos importantes, incluso si
consideramos cada reordenamiento por separado (Tabla complementaria S25).
Entre todos los cromosomas de los homínidos, el valor atípico más extremo es el
cromosoma X con una K A / K I media de 0,32. La media más alta parece reflejar una
distribución sesgada tanto en valores altos como bajos, con el valor medio (0,17) más en
línea con otros cromosomas (0,15). El exceso de valores bajos puede reflejar una mayor
selección purificadora en algunos genes, debido a la hemicigosis del cromosoma X en
los machos. El exceso de valores altos puede reflejar una mayor selección adaptativa
que también resulta de la hemicigosis, si una proporción considerable de alelos
ventajosos son recesivos 111 . Curiosamente, cuanto mayor sea K A / K Iel valor del
cromosoma X frente a los autosomas está restringido en gran medida a los genes
expresados en los testículos 83 .
Variación en los grupos de genes locales. Luego buscamos vecindarios genómicos con
una densidad inusualmente alta de genes que evolucionan
rápidamente. Específicamente, calculamos la mediana K A / K I para ventanas
deslizantes de diez ortólogos e identificamos valores atípicos extremos ( P <0.001 en
comparación con el orden aleatorio de genes; consulte Información
complementaria 'Evolución de genes'). Se encontró un total de 16 vecindarios de este
tipo, lo que supera con creces las expectativas aleatorias ( Tabla 4 ). La repetición del
análisis con ventanas más grandes (25, 50 y 100 ortólogos) no identificó regiones
adicionales rápidamente divergentes.
En casi todos los casos, las regiones contienen grupos locales de genes relacionados
filogenética y funcionalmente. La rápida diversificación de las familias de genes,
postulada por la ref. 112 , por lo tanto, se puede discernir fácilmente incluso a la
distancia relativamente cercana de la divergencia entre humanos y chimpancés. La
mayoría de los grupos están asociados con categorías funcionales como la defensa del
huésped y la quimiosensación (ver más abajo). Los ejemplos incluyen el complejo de
diferenciación epidérmica que codifica proteínas que ayudan a formar la capa
cornificada de la barrera cutánea ( Figura complementaria S8 ), el grupo de dominio
WAP que codifica inhibidores de proteasa secretados con actividad antibacteriana y el
grupo Siglec que codifica CD33-genes relacionados. La rápida evolución en estos
grupos no parece ser exclusiva ni de los humanos ni de los chimpancés 113 , 114 .
Diferencias entre el linaje humano y chimpancé. Una de las preguntas más interesantes
es quizás si ciertas categorías han experimentado una evolución acelerada en los
humanos en relación con los chimpancés, porque tales genes podrían ser la base de
aspectos únicos de la evolución humana.
Por lo tanto, encontramos evidencia mínima de aceleración exclusiva del linaje humano
o chimpancé en amplias categorías funcionales. Esto no se debe simplemente a la falta
general de poder resultante de la pequeña cantidad de cambios desde la divergencia de
humanos y chimpancés, porque uno puede detectar la aceleración de categorías en
cualquiera de los homínidos en relación con cualquiera de los murid. Por ejemplo, se
pueden detectar 29 categorías aceleradas versus 9 esperadas al azar ( P < 0.02) en el
linaje humano, y 40 categorías versus 11 esperadas al azar ( P<0.007) en el linaje de
chimpancé, en relación con el ratón. Pero los valores atípicos son en gran medida los
mismos tanto para humanos como para chimpancés, lo que indica que la fracción de
mutaciones de aminoácidos que han contribuido a los patrones de evolución específicos
de humanos y chimpancés debe ser pequeña en relación con la fracción que ha
contribuido a un homínido común y, en gran medida, el patrón de evolución de los
mamíferos.
Nuestro análisis anterior omitió en gran medida los genes que pertenecen a grandes
familias de genes, porque la expansión de la familia de genes dificulta la definición de
ortólogos 1: 1: 1: 1 entre homínidos y múridos. Se sabe que una de las familias más
grandes de este tipo, los receptores olfativos, experimenta una rápida divergencia en los
primates. El estudio dirigido de estos genes en el proyecto de ensamblaje ha sugerido
que es probable que más de 100 receptores olfativos humanos funcionales no estén bajo
ninguna restricción evolutiva 121. Nuestro análisis también omitió la mayoría de los
genes duplicados muy recientemente debido a su menor cobertura en el conjunto actual
de chimpancés. Sin embargo, las duplicaciones específicas de humanos recientes se
pueden identificar fácilmente a partir de la secuencia del genoma humano terminado, y
anteriormente se ha demostrado que están muy enriquecidas para las mismas categorías
que se encontró que tienen altas tasas absolutas de evolución en ortólogos 1: 1 aquí; es
decir, olfato, inmunidad y reproducción 23 .
Apoptosis. Se sabe que el ratón y el ser humano difieren con respecto a un importante
mediador de la apoptosis, la caspasa-12 (refs. 123–125). La proteína desencadena la
apoptosis en respuesta a la alteración de la homeostasis del calcio en ratones, pero los
humanos parecen carecer de esta actividad debido a varias mutaciones en el gen
ortólogo que, en conjunto, afectan la proteína producida por todas las formas de corte y
empalme conocidas; las mutaciones incluyen un codón de parada prematuro y una
alteración de la caja SHG necesaria para la actividad enzimática de las caspasas. Por el
contrario, el gen del chimpancé codifica un marco de lectura abierto intacto y una caja
SHG, lo que indica que la pérdida funcional ocurrió en el linaje humano. Curiosamente,
las mutaciones de pérdida de función en ratones confieren una mayor resistencia a la
apoptosis neuronal inducida por amiloide sin causar defectos obvios de desarrollo o
comportamiento 126. La pérdida de función en humanos puede contribuir a la patología
específica de humanos de la enfermedad de Alzheimer, que implica neurotoxicidad
inducida por amiloide y alteración de la homeostasis del calcio.
Resistencia parasitaria. De manera similar, encontramos que dos miembros del grupo
de genes APOL específicos de primates ( APOL1 y APOL4 ) se han eliminado del
genoma del chimpancé. La proteína APOL1 está asociada con la fracción de
lipoproteínas de alta densidad en suero y recientemente se ha propuesto que es el factor
lítico responsable de la resistencia a ciertas subespecies de Trypanosoma brucei , el
parásito que causa la enfermedad del sueño en humanos y la enfermedad veterinaria
nagana 128 . La pérdida del gen APOL1 en los chimpancés podría explicar la
observación de que los humanos, los gorilas y los babuinos poseen el factor lítico del
tripanosoma, mientras que el chimpancé no lo tiene 129 .
Proteínas relacionadas con la biología del ácido siálico. Los ácidos siálicos son
azúcares de la superficie celular que intervienen en muchas funciones
biológicas 130 . De 54 genes implicados en la biología del ácido siálico, 47 eran
adecuados para el análisis. Confirmamos y ampliamos los hallazgos de varios que han
sufrido cambios específicos de humanos, incluidas interrupciones, eliminaciones y
cambios funcionales específicos de dominio 113 , 131 , 132 . También se encontraron
cambios específicos de humanos y chimpancés en motivos sialil conservados
evolutivamente en cuatro sialil transferasas
( ST6GAL1 , ST6GALNAC3 , ST6GALNAC4 y ST8SIA2 ), lo que sugiere cambios en la
unión del donante y/o del aceptor 130. Se encontraron cambios específicos de linaje en
un dominio de unión al ácido siálico del factor H del complemento ( HF1 ) asociado con
enfermedades humanas 133 . El SIGLEC11 humano ha sufrido una conversión génica
con un pseudogén cercano, lo que se correlaciona con la adquisición de la expresión
cerebral específica del ser humano y propiedades de unión alteradas 134 .
Los resultados actuales deben interpretarse con cautela, porque se han establecido
firmemente pocas asociaciones de enfermedades complejas. El hecho de que el alelo de
la enfermedad humana sea el alelo de tipo salvaje en el chimpancé puede indicar que
algunas de las supuestas asociaciones son espurias y no causales. Sin embargo, se puede
esperar que este enfoque sea cada vez más fructífero a medida que mejore la calidad y la
integridad de las bases de datos de mutaciones de enfermedades.
Los datos se encuentran cerca de la línea predicha, pero la pendiente observada (0.83) es
sustancialmente menor que 1. Una explicación para esta desviación es que algunos
alelos ancestrales están asignados incorrectamente (una tasa de error de ɛ disminuiría
artificialmente la pendiente en un factor de 1 –2 ɛ ). Sin embargo, con ɛ estimado en
solo 1,6%, los errores solo pueden explicar una pequeña parte de la desviación. La
explicación más probable es la presencia de cuellos de botella durante la historia
humana, que tienden a aplanar la distribución de frecuencias alélicas. Los cálculos
teóricos indican que un cuello de botella reciente disminuiría la pendiente por un factor
de (1 - b ), donde b es el coeficiente de consanguinidad inducido por el cuello de botella
(verInformación complementaria 'Genética de la población humana' y Fig. S10
complementaria ). Esto sugiere que las mediciones de la pendiente en diferentes grupos
humanos pueden arrojar luz sobre los cuellos de botella específicos de la población. De
acuerdo con esto, los análisis preliminares de las frecuencias alélicas en varias regiones
para los SNP obtenidos mediante un muestreo uniforme sistemático indican que la
pendiente es significativamente menor que 1 en muestras europeas y asiáticas y cercana
a 1 en una muestra africana (consulte la Información complementaria 'Genética de la
población humana ' y la figura complementaria S11 ).
Se espera que el tamaño del intervalo afectado por un barrido selectivo aumente
aproximadamente con s , la ventaja selectiva debida a la mutación. Las simulaciones se
pueden usar para estudiar la distribución del tamaño del intervalo (consulte la
Información complementaria 'Genética de la población humana'). Con s = 1 %, el
intervalo en el que la heterocigosis cae un 50 % tiene un tamaño modal de 600 kb y una
probabilidad superior al 10 % de superar 1 Mb.
Realizamos un escaneo inicial para regiones grandes (> 1 Mb) con las dos firmas
sugestivas de fuertes barridos selectivos en la historia humana reciente. Comenzamos
identificando regiones en las que la tasa de diversidad humana observada era mucho
más baja que la expectativa basada en la tasa de divergencia observada con los
chimpancés. La tasa de diversidad humana se midió como el número de ocurrencias de
una base de datos de 1,92 millones de SNP identificados por secuenciación de escopeta
en un panel de individuos afroamericanos (ver Información
complementaria 'Secuenciación y ensamblaje del genoma'). La comparación con el
chimpancé elimina las regiones en las que la baja diversidad simplemente refleja una
baja tasa de mutación en la región. Las regiones se identificaron con base en un
procedimiento estadístico simple (ver Información complementaria'Genética de
poblaciones humanas'). Seis regiones genómicas se destacan como valores atípicos
claros que muestran una diversidad significativamente reducida en relación con la
divergencia ( Tabla 8 ; consulte también la Fig. S12 complementaria ).
Tabla 8 Regiones humanas con la señal más fuerte de selección basada en la diversidad
relativa a la divergencia
Además de las seis regiones, merece mención una región genómica adicional: un
intervalo de 7,6 Mb en el cromosoma 7q (consulte la Información
complementaria 'Genética de la población humana'). El intervalo contiene varias
regiones con puntajes altos en el análisis de diversidad-divergencia (incluido el séptimo
puntaje más alto en general), así como en la proporción de alelos derivados de alta
frecuencia. La región contiene los genes FOXP2 y CFTR . El primero ha sido objeto de
mucho interés como posible objetivo de selección durante la evolución humana 147 y el
segundo como objetivo de selección en poblaciones europeas 148 .
Discusión
Nuestro conocimiento del genoma humano ha avanzado mucho gracias a la
disponibilidad de un segundo genoma homínido. Algunas preguntas pueden responderse
directamente comparando las secuencias humanas y de chimpancé, incluidas las
estimaciones de las tasas de mutación regionales y las restricciones selectivas promedio
en las clases de genes. Se pueden abordar otras preguntas junto con otros grandes
conjuntos de datos, como problemas en la genética de la población humana para los
cuales el genoma del chimpancé proporciona controles cruciales. Para otras preguntas,
el genoma del chimpancé simplemente proporciona un punto de partida para futuras
investigaciones.
La pregunta más difícil es: ¿qué nos hace humanos? El desafío radica en el hecho de
que la mayoría de los cambios evolutivos se deben a la deriva neutral. Los cambios
adaptativos comprenden solo una pequeña minoría de la variación genética total entre
dos especies. Como resultado, el grado de variación fenotípica entre organismos no está
estrictamente relacionado con el grado de variación de la secuencia. Por ejemplo, la
variación fenotípica bruta entre humanos y chimpancés es mucho mayor que entre las
especies de ratón Mus musculus y Mus spretus , aunque la diferencia de secuencia en los
dos casos es similar. Por otro lado, los perros muestran una variación fenotípica
considerable a pesar de tener poca variación general de secuencia ( ∼0,15%). La
comparación genómica reduce notablemente la búsqueda de las diferencias
funcionalmente importantes entre las especies, pero se necesitarán conocimientos
biológicos específicos para tamizar la lista aún grande de candidatos para separar los
cambios adaptativos del fondo neutral.
Nuestro análisis comparativo sugiere que los patrones de evolución molecular en los
homínidos son típicos de una clase más amplia de mamíferos en muchos sentidos, pero
distintivos en ciertos aspectos. Al igual que con los murids, las familias de genes que
evolucionan más rápidamente son aquellas involucradas en la reproducción y la defensa
del huésped. Sin embargo, a diferencia de los murids, los homínidos parecen
experimentar una selección negativa sustancialmente más débil; esto probablemente
refleja el tamaño de su población más pequeña. En consecuencia, los homínidos
acumulan mutaciones deletéreas que serían eliminadas mediante una selección
purificadora en los muridos. Esto puede ser tanto una ventaja como una
desventaja. Aunque la disminución de la selección purificadora puede tender a erosionar
la aptitud general,149 , 150 .
El borrador de la secuencia del chimpancé aquí es suficiente para los análisis iniciales,
pero aún es imperfecto e incompleto. Los estudios definitivos de la evolución de genes
y genomas, incluida la formación de pseudogenes, la expansión de familias de genes y
la duplicación segmentaria, requerirán una secuencia terminada de alta calidad. En este
sentido, observamos que ya se están realizando esfuerzos para construir un mapa físico
basado en BAC y para aumentar la cobertura de la secuencia de escopeta a una
redundancia de aproximadamente seis veces. La cobertura adicional por sí sola no
afectará en gran medida el análisis, pero existen planes para producir una secuencia
final para segmentos importantes y difíciles de secuenciar del genoma.
Nuestra estrecha relación biológica con los chimpancés no solo permite una visión única
de la biología humana, sino que también crea obligaciones éticas. Aunque la secuencia
del genoma se adquirió sin dañar a los chimpancés, la disponibilidad de la secuencia
puede aumentar la presión para utilizar chimpancés en la experimentación. Nos
oponemos firmemente a reducir la protección de los chimpancés y, en cambio,
defendemos las posiciones políticas sugeridas por un documento adjunto 152. Además,
la civilización humana amenaza cada vez más la existencia de los chimpancés y otros
grandes simios en sus hábitats nativos. Se necesitan con urgencia políticas más eficaces
para protegerlos en la naturaleza. Esperamos que explicar cuán pocas diferencias
separan a nuestra especie amplíe el reconocimiento de nuestro deber para con estos
extraordinarios primates que son nuestros hermanos en la familia de la vida.
Métodos
Secuenciación y ensamblaje
Se obtuvieron aproximadamente 22,5 millones de lecturas de secuencias de ambos
extremos de los insertos (lecturas de extremos emparejados) de clones de 4, 10, 40 y
180 kb, todos preparados a partir de ADN de linfocitos de sangre primaria. Los recursos
genómicos disponibles del animal de origen incluyen una línea de células linfoides
(S006006) y ADN genómico (NS06006) en los depósitos de células de Coriell
( http://locus.umdnj.edu/ccr/ ), así como una biblioteca BAC (CHORI-251 ) 153 (ver
también Información complementaria 'Secuenciación y ensamblaje del genoma').
Inserciones y eliminaciones
Los eventos pequeños de inserción/eliminación (indel) (< 15 kb) se analizaron
directamente desde la alineación del genoma BLASTZ contando el número y el tamaño
de las brechas de alineación entre las bases dentro del mismo contig. Se detectaron
sitios de indeles a gran escala (> 15 kb) a partir de ubicaciones discordantes de lecturas
de secuencias emparejadas contra el ensamblaje humano. Los umbrales de tamaño se
obtuvieron de alineaciones de fósmidos humanos en secuencia humana (40 ± 2,58 kb) y
alineaciones de plásmidos de chimpancé contra el cromosoma 21 humano (4,5 ± 1,84
kb). Los indeles fueron inferidos por dos o más pares que superaban estos umbrales por
más de dos desviaciones estándar y la ausencia de datos de secuencia dentro de la
discordancia.
anotación de genes
Un total de 19 277 transcripciones RefSeq humanas 157 , que representan 16 045 genes
distintos, se alinearon indirectamente con la secuencia del chimpancé a través de la
alineación del genoma. Después de eliminar las secuencias de baja calidad y los
posibles artefactos de alineación, se creó un catálogo inicial que contenía 13 454
ortólogos humanos-chimpancé 1:1 distintos para los análisis descritos aquí. Un
subconjunto de 7043 de estos genes con ortólogos inequívocos de ratón y rata se
realinearon utilizando Clustal W 158 para los análisis específicos de linaje. Los
catálogos de genes actualizados se pueden obtener en http://www.ensembl.org .
Tasas de divergencia
Las tasas de divergencia de nucleótidos se estimaron usando baseml con el modelo
REV. Las tasas no CpG se estimaron a partir de todos los sitios que no se solapaban con
un dinucleótido CG en humanos o chimpancés. K A y KS se estimaron conjuntamente
para cada ortólogo usando codeml con el modelo de frecuencia de codones F3x4 y sin
restricciones adicionales, excepto para la comparación de sustituciones divergentes y
polimórficas donde K A / K S para ambos se estimó como ( ΔA / N A ) /( ΔS / N S ),
con N S / N A, la relación entre sitios sinónimos y no sinónimos, estimada en 0,36 a
partir de las alineaciones ortólogas. A menos que se especifique lo
contrario, K A / K S para un conjunto de genes se calculó sumando el número de
sustituciones y el número de sitios para obtener K A y K S para el conjunto concatenado
antes de tomar la relación. Las tasas por pares de homínidos y múridos se estimaron
independientemente de los codones alineados en las cuatro
especies. K A y K S específicos de linaje humano y de chimpancése estimaron en un
árbol sin raíz con ratones y ratas incluidos. Las tasas específicas de linaje también se
estimaron por parsimonia, con resultados esencialmente idénticos (ver Información
complementaria ). K I se estimó a partir de todas las repeticiones intercaladas dentro de
los 250 kb del punto medio de cada gen.
Afiliaciones para participantes: 1 Broad Institute of MIT and Harvard, 320 Charles
Street, Cambridge, Massachusetts 02141, USA. 2 División de Ciencias y Tecnología de
la Salud, Instituto de Tecnología de Massachusetts, 77 Massachusetts Avenue,
Cambridge, Massachusetts 02139, EE. UU. 3 Genome Sequencing Center, Washington
University School of Medicine, Campus Box 8501, 4444 Forest Park Avenue, St Louis,
Missouri 63108, EE. UU. 4 Ciencias del Genoma, Facultad de Medicina de la
Universidad de Washington, 1705 NE Pacific Street, Seattle, Washington 98195, EE.
UU. 5 Instituto Max Planck de Antropología Evolutiva, Deutscher Platz 6, D-04103
Leipzig, Alemania. 6Universidad de California, San Diego, 9500 Gilman Drive, La
Jolla, California 92093, EE. UU. 7 Departamento de Genética y Microbiología,
Universidad de Bari, 70126 Bari, Italia. 8 EMBL, Meyerhofstrasse 1, Heidelberg D-
69117, Alemania. 9 Centro Max Delbrück de Medicina Molecular (MDC), Bobert-
Rössle-Strasse 10, D-13125 Berlín, Alemania. 10 Children's Hospital Oakland Research
Institute, 747 52nd Street, Oakland, California 94609, EE. UU. 11 Departamento de
Genética, Facultad de Medicina de la Universidad de Yale, 333 Cedar Street, New
Haven, Connecticut 06520, EE. UU. 12 Instituto de Biología de Sistemas, 1441 North
34th Street, Seattle, Washington 98103, EE. UU. 13Departamento de Genética,
Universidad Case Western Reserve, 10900 Euclid Avenue, Cleveland, Ohio 44106, EE.
UU. 14 Departamento de Ciencias de la Computación, Universidad Estatal de Iowa, 226
Atanasoff Hall, Ames, Iowa 50011, EE. UU. 15 Departamento de Estadística,
Universidad de Harvard, 1 Oxford Street, Cambridge, Massachusetts 02138, EE.
UU. 16 Universidad de California, Santa Cruz, Centro de Ciencia e Ingeniería
Biomolecular, 1156 High Street, Santa Cruz, California 95064, EE.
UU. 17 Departamento de Bioquímica y Biología Molecular, Instituto Universitario de
Oncología del Principado de Asturias, Universidad de Oviedo, C/Fernando Bongera s/n,
33006 Oviedo, España. 18Universidad Estatal de Pensilvania, Centro de Genómica
Comparada y Bioinformática y Departamento de Biología, University Park, Pensilvania
16802, EE. UU. 19 Departamento de Biología Estructural, Instituto de Ciencias
Weizmann, Rehovot 76100, Israel. 20 Departamento de Genética, Facultad de Medicina
de Harvard, Boston, Massachusetts 02115, EE. UU. 21 Departamentos de Antropología y
de Biología Orgánica y Evolutiva, Universidad de Harvard, 11 Divinity Avenue,
Cambridge, Massachusetts 02138, EE. UU. 22 Departamento de Biología de Sistemas,
Facultad de Medicina de Harvard, Boston, Massachusetts 02115, EE. UU. 23 Instituto
Whitehead de Investigación Biomédica, Cambridge, Massachusetts 02142, EE.
UU. 24Departamento de Biología, Instituto Tecnológico de Massachusetts, Cambridge,
Massachusetts 02139, EE. UU.