Está en la página 1de 21

Los análisis genómicos de la población del árbol de chocolate, Theobroma cacao

L., proporcionan información sobre su proceso de domesticación.

Omar E. Cornejo ,Muh-Ching Yee ,Victor Dominguez ,María Andrews ,Alexandra


Sockell ,Erika Strandberg ,Donald Livingstone III ,Conrad Stack ,Alberto Romero
,Pathmanathan Umaharan ,Stefan Royaert ,Nilesh R. Tawari ,Pauline Ng ,Osman
Gutiérrez ,Wilbert Phillips ,Keithanne Mockaitis ,Carlos D. Bustamante yJuan C.
Motamayor

Communications Biology volume 1 , número de artículo: 167 ( 2018 ) | Descargar


Citation

Resumen

La domesticación ha tenido un fuerte impacto en el desarrollo de las sociedades


modernas. Secuenciamos 200 genomas de la planta de chocolate Theobroma cacao L.
para demostrar por primera vez que sabemos que una sola población, la población
Criollo, se sometió a una fuerte domesticación hace ~ 3600 años (IC 95%: 2481–13,806
años). También mostramos que durante el proceso de domesticación, hubo una fuerte
selección de genes involucrados en el metabolismo de los protectores de color
antocianinas y el estimulante teobromina, así como los genes de resistencia a las
enfermedades. Nuestros análisis muestran que las poblaciones domesticadas de T.
cacao(Criollo) mantienen una mayor proporción de mutaciones perjudiciales de alta
frecuencia. También mostramos por primera vez las consecuencias negativas del
aumento de la acumulación de mutaciones perjudiciales durante la domesticación en la
aptitud de los individuos (reducción significativa en kilogramos de frijoles por hectárea
por año a medida que aumenta la ascendencia criolla, según se estima a partir de un
GLM, P  = 0,000425) .

Introducción

Las sociedades de estado organizado solo fueron posibles después del desarrollo de la
agricultura, que implicó la domesticación de numerosas plantas y animales 1 , 2 .
Recién estamos comenzando a entender este proceso más desde una perspectiva
genética, gracias a las tecnologías genómicas en expansión. De particular interés es
identificar el escenario demográfico, la línea de tiempo para la domesticación y las
consecuencias genómicas para las especies que han sido críticas en el desarrollo de las
sociedades 2 , 3 , 4 . Entre todas las especies, hay un lugar especial en la cultura general
para la domesticación de Theobroma cacaoL, la planta de la que se hace el chocolate. El
árbol de chocolate ha jugado un papel fundamental en el desarrollo de las civilizaciones
mesoamericanas 5 y ha sido un tema de investigación durante más de 100 años, pero su
historia de domesticación ha sido controvertida 6 , 7 , 8 . Si bien la historia de la
domesticación del cacao ha despertado el interés en diversas disciplinas, nuestro
conocimiento del proceso es incompleto y a menudo involucra información parcial
centrada en unos pocos grupos genéticos, algunas regiones geográficas, información
arqueológica fragmentada o un número limitado de marcadores genéticos 8 , 9 , 10 , 11 ,
12. En este trabajo, informamos y analizamos la variación del genoma completo de 200
individuos de T. cacao (Tabla complementaria 1 ) para investigar el origen evolutivo de
Criollo, el árbol de cacao domesticado en Mesoamérica. También examinamos las
consecuencias del proceso de domesticación en la arquitectura genómica de la
acumulación de mutaciones perjudiciales a lo largo del genoma, lo que a su vez nos
permitió comprender los límites críticos de la productividad del cacao criollo
(domesticado).

El proceso de domesticación del cacao ha despertado el interés de un conjunto diverso


de disciplinas y, sin embargo, nuestro conocimiento del proceso es incompleto y a
menudo implica información parcial centrada en unos pocos grupos genéticos, algunas
regiones geográficas, información arqueológica fragmentada o un Número limitado de
marcadores genéticos 8 , 9 , 10 , 11 , 12 . El dogma actual sugiere que el cacao se
introdujo en Mesoamérica en tiempos olmecas a partir de las variedades de cacao
presentes en el Alto Amazonas (norte de América del Sur), el semillero de diversidad
para las especies 6 , 8.. Otra línea de evidencia sugiere que la ruta de domesticación del
árbol de chocolate podría haberse dispersado por la cuenca del Amazonas a lo largo de
dos rutas: una que conduce al norte y otra al oeste 13 . Según esta hipótesis, la
domesticación del cacao habría ocurrido en América del Sur y luego se habría extendido
a América Central y México, llevada a cabo durante el comercio por los nativos
americanos 14 . La investigación antropológica respalda la visión de un evento de
domesticación que ocurre en Mesoamérica 6 , 9 , 12 . Además, la entremezcla continua
de árboles de cacao cultivados y silvestres probablemente ha seguido dando forma a
ambos grupos genéticos en los últimos tiempos 11 , 15 , 16.. Tanto el impacto de los
antiguos procesos de domesticación como la hibridación moderna sobre la variación
genética en la especie son en gran parte desconocidos en T. cacao .

Las clasificaciones tradicionales de cacao han reconocido los grupos o cultivares Criollo
y Forastero, y un híbrido adicional de Criollo × Forastero llamado Trinitario 7 . Se han
descrito las características biológicas de estos grupos. Los análisis genéticos más
detallados que utilizan marcadores de microsatélites han descubierto una gran cantidad
de grupos genéticos, así como una clara diferenciación entre los árboles encontrados en
la cuenca del Amazonas y las variedades criollas que se encuentran en América Central
10 . Este trabajo ayudó a caracterizar el germoplasma de cacao en diez grandes grupos
genéticamente diferenciados: Amelonado, Contamana, Criollo, Curaray, Guianna,
Iquitos, Marañón, Nacional, Nanay y Purús 10. Análisis adicionales realizados con
microsatélites sugirieron que Criollo, el representante más probable del cacao
domesticado en Mesoamérica, está más estrechamente relacionado con los árboles de la
frontera entre Colombia y Ecuador que los árboles de otros grupos sudamericanos 10 .
Sin embargo, existe una gran brecha en la información sobre el alcance de la variación
genómica en la especie, lo que hace difícil proponer escenarios claros para la evolución
de las poblaciones naturales y la domesticación de T. cacao . Aunque es ampliamente
reconocido que algunas de estas diez poblaciones han contribuido en los últimos
tiempos a la composición genética de los cultivos, la mayoría de ellas permanecen como
poblaciones silvestres 10 . La especie más estrechamente relacionada con T. cacao es
supuestamenteTheobroma grandiflorum 17 , pero las características biológicas de los
árboles y los frutos son dramáticamente diferentes a las que se encuentran en T. cacao
18 .

En este trabajo, exploramos el alcance de la variación del genoma completo en T.


cacaoL. e investigar el origen evolutivo de Criollo, el árbol de cacao domesticado en
Mesoamérica. Proporcionamos un análisis detallado de la estructura genética de la
población en la especie y analizamos la historia evolutiva de las poblaciones, con
énfasis en la domesticación y el proceso de selección durante la domesticación.
Finalmente, mostramos cómo el sistema reproductivo en el cacao y el proceso
relativamente reciente de domesticación han influido fuertemente en la acumulación de
mutaciones perjudiciales en el cacao domesticado, con consecuencias medibles en la
aptitud de los individuos. Este último resultado es una fuerte validación del costo de la
hipótesis de la domesticación que propone que el proceso de domesticación de una
especie dará como resultado un aumento en el número, frecuencia o proporción de
variantes genéticas perjudiciales.19 y 20 . Demostramos no solo que, de hecho, hay un
aumento en las variantes deletéreas de mayor frecuencia, sino también que este aumento
está asociado con una reducción de la aptitud individual en el cacao domesticado.

Resultados

Variación genética en Theobroma cacao L.


La resecuenciación de 200 accesiones (consulte la Tabla 1complementaria  para obtener
detalles sobre las accesiones seleccionadas para el estudio) con una cobertura alta
(cobertura promedio 22 ×) generó ~ 4.52 billones de pares de bases. Después de alinear
las lecturas con la referencia de cacao (Matina-v1.1 21 ), identificamos 7,412,507
polimorfismos de un solo nucleótido (SNP). Descubrimos que el cacao presenta una alta
variabilidad genética de ~ 5 SNP por kilobase por individuo, similar a lo observado en
Arabidopsis 22 ,23 (Figura 1 suplementaria ) Aunque la gran mayoría de las variantes
identificadas no son codificantes, identificamos 322,275 (4,35% del total de SNP)
variantes sin sentido y 220,043 (2,97% del total de SNP) variantes sinónimas en 29,408
genes. También identificamos 10,062 variantes predichas para cambiar los sitios
donantes de empalme, que podrían ser responsables del polimorfismo, afectando el
número de transcripciones producidas 21 . Entre los posibles cambios que alteran la
duración de las transcripciones, identificamos 8470 pérdidas iniciales (0.114% del total
de SNP), 16.956 ganancias de parada (0.229% del total de SNP) y 8588 paradas de
pérdidas (0.116% del total de SNP). En general, este conjunto de datos SNP representa
un nuevo recurso para la biología del cacao que esperamos acelere los programas de
mejoramiento (para un catálogo de SNP contextualizados con respecto a la anotación
genética, consulte la Tabla complementaria  2y la figura  1 ).

Figura 1

Anotación genómica del polimorfismo de un solo nucleótido (SNP) en T. cacao. A  El
número de SNP clasificados por impacto funcional en la variación de transcripción por
cromosoma. B Detalles del número comparativo de mutaciones sinónimos y no
sinónimos.

Estructura genética de la población y firma de domesticación.


El análisis de agrupamiento basado en modelos usando ADMIXTURE 24nos permitió
identificar diez grupos genéticos, consistentes con análisis previos 10 , y nos permitió
asignar correctamente la ascendencia general a accesiones previamente no
caracterizadas (Fig.  2a ). También presentamos, por primera vez, estimaciones de
ascendencia global para individuos naturales mezclados e híbridos artificiales,
revelando la contribución relativa de las diez poblaciones principales a la ascendencia
individual (Fig.  2a y Figura Complementaria  2) Nuestros resultados muestran que hay
una representación excesiva de material genético de ascendencia Amelonado, Criollo y
Nacional en la mayoría de los individuos mezclados. Existe una subutilización
concomitante de otros grupos genéticos en la práctica actual de agrónomos, lo que
brinda oportunidades al Océano Azul para la mejora de los cultivos (ver  Información
complementaria ). Los análisis de la diversidad genética muestran diferencias
significativas en π entre poblaciones (Tabla complementaria  3 , p  <2e -16 ) y a lo largo
de los genomas dentro de las poblaciones, un patrón que es consistente con lo que se ha
observado en otras especies (ver  Información suplementaria para más detalles y Figuras
complementarias  4 y 5)

Figura 2
Estructura genética de la población en T. cacao . a Los diez grupos genéticos
principales se pueden recuperar (A.1), aunque la estructura adicional (11 grupos) parece
ser significativa dado que un número considerable de individuos mezclados presentan la
ascendencia de un subconjunto de ascendencia de Amelonado (A. 2). Las barras de
color en la parte superior de los individuos mezclados muestran nuestra agrupación
sugerida para los híbridos. b Mapa de América Central y del Sur que muestra las
ubicaciones de coordenadas medias para el origen de las muestras de cada población
muestreada en este trabajo (con la excepción de Admixed). doMDS que muestra un
gradiente de diferenciación del lado oeste al este del Amazonas (PC2) y una separación
importante del grupo criollo que corresponde al grupo domesticado mesoamericano
(PC1). d La disminución significativa de la diversidad genética (π) para la especie a lo
largo de PC2 es compatible con el origen de la especie que se encuentra en el lado
occidental de la cuenca del Amazonas (se excluye Criollo, modelo: π ∼ grupo + ε, p  
<2E-16, r 2  = 0,19). e Los diez grupos genéticos de la población que se han descrito
para la especie están altamente diferenciados, y Criollo presenta un promedio de
F ST más grande en comparación con todos los otros grupos

Un análisis adicional de la estructura de la población muestra que el grupo Criollo está


claramente diferenciado del resto de los grupos genéticos a lo largo del primer eje de un
análisis de escalamiento multidimensional (MDS) (Fig.  2b ). El segundo componente
del análisis de MDS presenta un gradiente que separa los grupos genéticos
aproximadamente del Pacífico al Atlántico (de abajo hacia arriba del segundo
componente), consistente con un proceso natural de diferenciación de los grupos de
mayor diversidad en el lado del Pacífico de la cuenca amazónica a aquellos de menor
diversidad en el lado atlántico (ver Fig.  2c , excluyendo Criollo domesticado, Y = 0.202
- 72.71 ×, p  = 0.02, Tabla complementaria  4) Se ha propuesto que el centro de origen
de la especie se encuentre en la Amazonía occidental 7 , 25 . Nuestra observación de la
disminución significativa ( p  = 0.02 según el modelo anterior) en la diversidad genética
del Pacífico al Atlántico es consistente con el centro de origen sugerido para la
especie. La propagación de individuos mezclados en el espacio MDS es consistente con
nuestro análisis de mezcla en el cual los individuos se dividen en dos categorías
generales: una que presenta mezcla entre Criollo y Amelonado con una contribución
menor de otros grupos y otros híbridos que presentan mezcla a lo largo del gradiente
Atlántico-Pacífico . Existe un patrón de fuerte diferenciación entre todos los grupos
genéticos (Fig.  2d, F  STlos valores oscilan entre 0.16 y 0.65), con una diferenciación
mayor entre Criollo y cualquier otro grupo, consistente con un escenario de fuerte
deriva durante un proceso reciente de domesticación o una vieja diversificación de la
población Criollo del resto de los grupos genéticos. Dada la evidencia antropológica y
genética previa 6 , 12 , 14 , es más probable que este patrón sea el resultado de la
domesticación de un pequeño grupo de semillas que se usaron para crear el grupo
Criollo (deriva), sin embargo, también es posible que La fuerte divergencia de Criollo
de todos los otros grupos es el resultado de una combinación de ambos escenarios
(diversificación de la población ancestral Criollo y deriva genética mediada por
humanos).

La hipótesis de un solo evento de domesticación (junto con la deriva genética después


del transporte de América del Sur a América Central) predice que Criollo mostraría una
diferenciación más alta a otros grupos que la observada entre cualquier otra
comparación por pares de las poblaciones. Nuestros análisis de la estructura de la
población son consistentes con esta predicción (Fig.  2b, d ). Nuestro análisis basado en
modelos de diferenciación poblacional con TreeMix 26 proporciona evidencia de que
Criollo fue el resultado de un solo evento de domesticación, que experimentó una deriva
extrema después de separarse de su población más estrechamente relacionada
(representada como una rama más larga en la Figura  3a, b , estructura similar se obtuvo
en un análisis de unión de vecinos presentado en la figura complementaria  3) Este
análisis también muestra que Criollo está más estrechamente relacionado con Curaray,
lo que sugiere que el origen del cacao domesticado fue un subconjunto del antiguo
germoplasma Curaray 10 , un grupo genético que se ha descrito para el norte de
Ecuador y el sur de Colombia 10 , 27 . Después de explorar múltiples modelos de
diferenciación con mezcla, no encontramos evidencia que respalde las contribuciones
posteriores de ningún grupo al Criollo domesticado, con la excepción de una posible
contribución reciente de Purus a Criollo (Fig.  2b ). Sin embargo, aprendimos de este
análisis que se han producido múltiples instancias de mezcla entre múltiples grupos
durante su proceso natural de diferenciación a lo largo de la cuenca del Amazonas
(ver Información complementaria ).
Fig. 3

Demografía de la población de T. cacao . Un árbol de máxima verosimilitud generado


por TreeMix utilizando regiones intergénicas de datos de secuenciación del genoma
completo de individuos que pertenecen a cada uno de los 10 grupos genéticos
principales. b Árbol de máxima verosimilitud que permite la mezcla, según lo generado
por TreeMix , que muestra algunas de las contribuciones ancestrales más significativas
(migraciones) desde y hacia otros grupos. c Cambios en el tamaño efectivo de la
población a lo largo del tiempo, inferidos bajo la fusión con PSMC, para cada uno de
los 10 grupos genéticos en el cacao. Cada línea representa la estimación mediana dentro
de la población, suavizada ajustando una spline cúbica. reDetalle de la reconstrucción
efectiva del tamaño de la población del PSMC para el cacao criollo, representada a una
escala diferente para representar mejor la disminución de la población. e Cambios en el
tamaño efectivo de la población a lo largo del tiempo, inferidos bajo la fusión con SMC
+ +, para cada uno de los 10 grupos genéticos en el cacao. Diferentes líneas de color
corresponden a cada población. Se observó una tendencia similar de reducción histórica
de la población (aunque diferentes magnitudes) con los dos métodos. f Espectro de
frecuencia de sitio bidimensional observado (SFS, panel izquierdo) para el par de
poblaciones Criollo / Curaray y SFS esperado (panel derecho) según el modelo
demográfico inferido representado en gLos colores corresponden a las magnitudes
(número de SNP en cada contenedor de frecuencia de alelos menores). Residuos de
Anscombe (diferencia entre lo observado y lo esperado) por intervalo de frecuencia
(panel izquierdo) y como una distribución general (panel derecho). h Diagrama del
modelo demográfico propuesto para explicar la divergencia Criollo / Curaray, un
modelo de aislamiento con migración. El tiempo progresa de arriba a abajo y el tamaño
horizontal de los cuadros es relativo al tamaño de población efectivo relativo. La
migración estimada es relativamente mayor al pasar de Curaray a Criollo, aunque la
escala de recombinación estimada a partir del modelo es pequeña.

Genómica evolutiva Theobroma cacao L.


Además de los análisis de mezcla y diferenciación de poblaciones, investigamos la
historia demográfica de los diez grupos genéticos para comprender el proceso
demográfico natural que ha caracterizado a la especie históricamente. Dado el número
relativamente pequeño de accesiones por grupo, realizamos análisis con el
modelo 28 coalescente de Markovian (PSMC) secuencial por pares y smc ++ 29 , que
permite la inferencia de la historia evolutiva mediante el análisis de genomas diploides
individuales. En general, la historia evolutiva de T. cacao muestra una tendencia común
hacia la reducción del tamaño de la población / diversidad genética con el tiempo
(Fig.  3c, d, y e) La mediana de la historia demográfica entre las accesiones se utilizó
para mostrar las tendencias generales de la historia evolutiva de los grupos. El proceso
de reducción del tamaño efectivo de la población comenzó antes de la población de los
estadounidenses, lo que sugiere que la reducción general de la diversidad genética en la
especie podría estar vinculada a cambios ambientales o cambios históricos en la
distribución de polinizadores y / o animales involucrados en la dispersión de las
semillas durante el Último Máximo Glacial. Este resultado es consistente con estudios
recientes que sugieren que la mayoría de los grupos de Theobroma cacao podrían
haberse diversificado durante la última glaciación 27. Durante el Último Máximo
Glacial, se infirió que el Amazonas tuvo estaciones secas que duraron el doble que el
día actual y las precipitaciones podrían haber caído un 25-35% de los registros actuales
y presentar una concentración notablemente menor de CO 2 en la atmósfera 30 , 31 . Los
focos de mayor humedad y temperatura más constante durante el año se limitaron a las
proximidades de las principales cuencas fluviales y al desarrollo de refugios 30 , 31 . El
hecho de que las poblaciones de cacao hayan disminuido históricamente es consistente
con estudios recientes que han analizado el estado de conservación de más de 15,000
especies de árboles amazónicos, prediciendo que T. cacao podría sufrir una disminución
adicional del 50% de la población en el futuro cercano 32 . Debido a la falta de
confiabilidad de estos métodos para resolver la demografía más reciente, hay poco que
decir sobre el aparente aumento reciente en el tamaño de la población. Se necesitarán
análisis adicionales con un tamaño de muestra más grande por población e inferencia de
tamaños de población efectivos recientes con métodos basados en enlaces idénticos /
descendientes (IBD) para abordar este problema.

Utilizando lo que aprendimos del análisis de componentes principales / mezcla (PCA)


(Fig.  2a, b ) y nuestra evaluación general de la historia demográfica de las poblaciones
(Fig.  3c, d ), exploramos la historia evolutiva de la domesticación del Criollo. grupo de
un ancestro de Curaray para responder dos preguntas críticas: (1) cuánto tiempo atrás
las poblaciones ancestrales de Curaray dieron lugar a lo que hoy se conoce como el
grupo Criollo y (2) el tamaño de la población fundadora de ascendencia Curaray que
solía domesticar el cacao Criollo en América Central. Para esto, analizamos el espectro
de frecuencia de variantes bajo un modelo de aislamiento, con migración bajo un marco
de máxima verosimilitud con δaδi 33. Nuestros análisis muestran que la fracción de la
población efectiva ancestral de Curaray utilizada para domesticar a Criollo en
Mesoamérica era de hecho muy pequeña y comprendía ~ 738/1476 individuos (IC 95%:
437 / 574–2647 / 3894 individuos para tasas de mutación 7.1 × 10 -9 /3.1 × 10 -9 ,
respectivamente; ver Figuras suplementarias  6 y 7 ). Más importante aún,
proporcionamos un fuerte apoyo de análisis de datos genómicos que este proceso se
inició 3600/7200 años antes del presente (IC del 95%: 2481 / 4162-10,903 / 13.806 años
antes del presente para las tasas de mutación 7,1 × 10 -9 /3.1 × 10 -9 mutaciones bp -
1
 gen -1, respectivamente). La distribución observada de variantes compartidas para
diferentes categorías de frecuencia de alelos menores (Fig.  3f ) se ajusta bien a los
valores pronosticados bajo el modelo mejor ajustado (Fig.  3g ) con una distribución de
residuos que muestran un buen ajuste absoluto (para detalles sobre la demografía
alternativa modelos probados ver  información complementaria ). Nuestras estimaciones
para el momento de la separación de los grupos Curaray y Criollo se superponen bien
con la evidencia arqueológica y lo que se cree que es el inicio del cultivo de Criollo en
Mesoamérica 8 , 9 , 12 ,34.. Estos resultados son consistentes con los hallazgos de
teobromina en la cerámica olmeca de la capital, San Lorenzo, tan antigua como el
Preclásico Temprano (1800–1600 aC) 9 , 35 . Nuestros análisis demográficos también
son consistentes con los análisis a gran escala de ADN moderno y antiguo, que señalan
la colonización del continente americano por humanos hace aproximadamente 13,000
años 36 , 37 , 38. Además, el análisis reciente de la demografía humana posterior a la
colonización en América del Sur es consistente con que las poblaciones humanas
permanezcan en números relativamente bajos durante los primeros 8000 años y luego
con el advenimiento de la agricultura y, por lo tanto, el sedentismo, experimentando una
expansión de la población a ~ 5000 años Hace, similar a lo experimentado durante la
revolución neolítica en otras partes del mundo 39 . En resumen, nuestra comprensión de
la historia demográfica humana sugiere que nuestra inferencia de T. cacao La
domesticación en Mesoamérica entre 2481 y 13,806 años antes del presente son muy
consistentes con la historia de los asentamientos humanos en la región, pero nuestro
conocimiento de la historia humana sugiere que los tiempos más cercanos al límite
inferior del intervalo de confianza o al menos hace menos de 8000 años. más como. En
la Fig. 3h se proporciona un esquema del mejor modelo demográfico que explica los
datos  . Aunque hemos sido lo más rigurosos posible en el análisis (ver
Figura 8 complementaria  ), será importante validar la edad estimada de divergencia
entre Curaray y Criollo con métodos que podrían resolver mejor la demografía reciente
con un mayor número de individuos de cada población .

Nuestros análisis también muestran que los patrones de desequilibrio de ligamiento


(LD) son consistentes con la demografía observada, con poblaciones de Criollo que
muestran un LD más alto en tramos más largos del genoma
(Figura  9 complementaria e información complementaria )

Una de las características muy apreciadas del cacao criollo domesticado es el cotiledón
blanco del frijol, que parece estar asociado con cualidades de sabor deseables. Los
primeros trabajos han sugerido que las concentraciones reducidas de polifenoles,
metilxantinas y precursores de antocianinas en el cotiledón están asociadas con esta
observación 40 , 41 ,42 . Los polifenoles y las metilxantinas son responsables de la
astringencia y el amargor detectados en los granos de cacao 43 , y se cree que la
modificación de estos compuestos durante el proceso de fermentación contribuye al
sabor final de un chocolate 43 . De hecho, durante el proceso de fermentación, la
concentración de polifenoles se reduce hasta en un 70%.44 . Las plantas de la variedad
Criollo probablemente fueron seleccionadas durante la domesticación para reducir este
amargor. Investigamos el impacto de la selección artificial durante la domesticación en
el genoma Criollo buscando regiones de mayor diferenciación entre Criollo y su
población hermana Curaray, utilizando XP-CLR, un método que busca identificar
cambios en la distribución de la variación alélica o cambios en el Espectro de frecuencia
del sitio 2D a lo largo de los cromosomas en ventanas deslizantes 45 . Encontramos
varias regiones del genoma en las que la selección natural ha producido una mayor
diferenciación entre Curaray y Criollo de lo esperado por la demografía sola (Fig.  4 ,
Datos suplementarios  1 y 2) El resultado más interesante deriva de la identificación de
genes que codifican lacasa 14, lacasa / difenol oxidasa. Las lacasas se asocian
normalmente con el proceso de lignificación, pero recientemente se ha demostrado que
las lacasas también están involucradas en el metabolismo de los
polifenoles 46 , 47 , 48 ; Presumimos que la selección de estos genes probablemente
resulte en la reducción de la concentración de polifenoles en el cacao. También
identificamos firmas de selección en una región que contiene el gen que codifica la
xantina deshidrogenasa 1, probablemente involucrado en el metabolismo de las
metilxantinas (como la teobromina) y también es probable que haya sido el resultado
del proceso de selección para reducir el amargor 42. En la tabla complementaria 3 se
proporciona una lista adicional de genes en regiones identificadas como seleccionadas  e
incluye genes involucrados en la estabilidad genómica (mantenimiento estructural de los
cromosomas), resistencia a enfermedades, respuesta al estrés abiótico (proteína de unión
al ADN WRKY), regulación transcripcional (MYB dominio) y señalización (receptor
RLK rico en cisteína, así como genes S-dominio-2 5).

Fig. 4

Evidencia de selección positiva en T. cacao domesticado. Enfoque de máxima


verosimilitud para detectar regiones del genoma que divergieron significativamente de
la demografía representada por el espectro de frecuencia del sitio en la Fig.  2e . Los
puntos rojos corresponden a ventanas supuestamente bajo selección

La mayoría de las mutaciones que aparecen en el genoma son perjudiciales y tienen el


potencial de reducir el éxito reproductivo 49 , 50 ,51 . El destino de estas mutaciones y su
tiempo de tránsito en una población depende en gran medida de la intensidad de la
deriva genética, la selección purificadora y el grado de dominio de las mutaciones. Los
genetistas matemáticos de la población estuvieron preocupados por el impacto de la
acumulación de mutaciones perjudiciales en una población 52 . El proceso de
domesticación en animales y plantas se ha utilizado como marco para estudiar cómo la
selección intensa de algunos rasgos deseables afecta la acumulación de mutaciones
perjudiciales en la población 3 , 53.. Sin embargo, hasta ahora, tenemos poca evidencia
de cómo el proceso de acumulación de mutaciones perjudiciales afecta los rasgos
asociados con la aptitud física o, en el caso de los cultivos, la productividad.

Prueba del costo de la hipótesis de domesticación en T. cacao L.


Las poblaciones de cacao han ido disminuyendo con el tiempo y una consecuencia
natural de la reducción del tamaño de la población está aumentando en la
endogamia. Debido a que las diez poblaciones de cacao están experimentando
reducciones en el tamaño de la población, se espera que este proceso tenga un efecto
similar en todas las poblaciones, y las diferencias en la magnitud de la endogamia
reflejarán diferencias en el tamaño de la población. Observamos un aumento en la
cantidad de endogamia (estimada como estadística F 54 ) cuando el grupo de individuos
mezclados (que se espera que tenga baja endogamia) se compara con las diez
poblaciones definidas en la Fig.  1 (Fig.  5a , prueba de Kruskal-Wallis) chi-cuadrado =
803.45, df = 10, valor p <2.2e −16, pruebas post-hoc significativas de Nemenyi entre
Admixed y todas las poblaciones, excepto Iquitos y Nacional). Estas diferencias entre
los coeficientes de endogamia pueden explicarse parcialmente como una función de las
diferencias en el tamaño histórico de la población entre los grupos genéticos (Fig.  5b ,
ver  Información complementaria ).

Fig. 5

Acumulación de mutaciones perjudiciales durante la domesticación en T.


cacao . unadistribución de los coeficientes de endogamia (F) por la población
(incluyendo el grupo de individuos mezcla). b Coeficientes de Consanguinidad en
función de la media armónica del tamaño efectivo de la población (estimado a partir de
la mediana de PSMC que se muestra en la Fig.  2D , modelo: Grupo F ~ Ne +, p  <=
0.003, r 2  = 0.9). c Distribución de mutaciones deletéreas / toleradas inferidas con SIFT
para los grupos Criollo y Amelonado para clases de frecuencia de alelos menores
agrupados comunes raros y dos que muestran la mayor proporción relativa de cambios
de aminoácidos tolerantes y deletéreos comunes en Criollo.dEstructura de la población
inferida usando una probabilidad máxima bajo un modelo supervisado para un conjunto
independiente de individuos genotipados (ver suplementos) para los cuales se ha
medido la productividad. e Productividad (medida como Kg de frijoles por hectárea por
año) en función de la ascendencia criolla en el conjunto de individuos recién
genotipados; los resultados muestran una reducción significativa en la productividad a
medida que aumenta la proporción de ascendencia criolla, después de corregir la
endogamia

La teoría de la genética de poblaciones predice que el selfing aumenta la eficiencia en la


eliminación de mutaciones perjudiciales recesivas, en comparación con las poblaciones
cruzadas, porque las variantes que de otro modo estarían ocultas en individuos
heterocigotos estarán expuestas a la acción de la selección natural 55 , 56 . En contraste,
la domesticación es un proceso que se ha demostrado que contribuye al mantenimiento
de mutaciones perjudiciales en mayor frecuencia en las poblaciones 3 , 53.. El impacto
de la domesticación en los cultivos arbóreos no se comprende bien, y se comprende aún
menos en un cacao similar a una planta que en las variedades domesticadas utiliza la
autocompatibilidad, un mecanismo que tiende a purgar mutaciones perjudiciales. Para
evaluar el impacto del selfing y la domesticación en la acumulación de mutaciones
perjudiciales en el cacao, anotamos los cambios de aminoácidos en T. cacao basados en
la conservación filogenética (como se implementa en SIFT4, ver Métodos) ya sea como
tolerado o perjudicial (ver  Métodos complementarios )

Inferimos la distribución de cambios perjudiciales / tolerados para categorías


combinadas de frecuencia de alelos menores en Amelonado y Criollo. La inferencia de
que una mutación es perjudicial o tolerada para cada modelo de gen se realizó con un
método que evalúa el conservadurismo filogenético en los cambios polimórficos,
utilizando SIFT4 57 , 58 . Amelonado se usó para generar una expectativa sobre la
acumulación de mutaciones perjudiciales para un escenario con fuerte selfing (similar a
Criollo) en ausencia de una fuerte domesticación para comprender el impacto de la
domesticación en la distribución de perjudiciales / tolerados en Criollo
(Fig.  5c) Amelonado presenta una distribución de mutaciones perjudiciales / toleradas
con una alta frecuencia de variantes raras y una representación reducida de variantes en
frecuencias de alelos menores intermedios y grandes. Esto es consistente con la mayoría
de las mutaciones deletéreas que se purgan mediante el self en la población. Por otro
lado, observamos recuentos significativos y más grandes de mutaciones perjudiciales en
las clases de frecuencia de alelos menores mayores en Criollo (Fig.  5c y la Figura
complementaria  10 y la Tabla complementaria  5 ), una observación que fue
significativa en todas las clases de frecuencia (prueba de Mantel-
Haenszel, Valor p <2.2e −16 , Figura complementaria  10) Estas diferencias indican que
el selfing en las poblaciones criollas (cuando se combina con una fuerte deriva genética
debido al proceso de domesticación en América Central) no ha sido lo suficientemente
fuerte como para purgar mutaciones perjudiciales en la población, como era evidente en
Amelonado, a pesar de ser un predominio forma de apareamiento Se han informado
patrones similares de acumulación de mutaciones perjudiciales durante el proceso de
domesticación en animales y plantas, como en la comparación del teosinte y el maíz
domesticado 59 , pero aquí se informa por primera vez para un cultivo arbóreo. En la
mayoría de los análisis que se han realizado hasta la fecha en otros organismos,
incluidos perros y humanos 53 , 60, no se ha demostrado cuál es el impacto de la
acumulación de mutaciones perjudiciales en la forma física. Probamos la hipótesis de
que la acumulación de mutaciones perjudiciales debido a la domesticación disminuiría
la aptitud al examinar la relación entre los antepasados criollos y una medida del
rendimiento en el cacao utilizando un conjunto de datos independiente. Los individuos
fueron genotipados con una matriz SNP que fue desarrollada usando un subconjunto de
genotipos inferidos como parte de este trabajo y publicados en otra parte 61 . Medimos
la productividad del frijol (semilla) (rendimiento en kilogramos de frijol por hectárea
por año para cada planta) como una medida de aptitud. Inferimos ascendencia
proporcional a un nuevo conjunto de individuos mezclados para los cuales se había
evaluado la productividad (Fig.  5d y Figura 11 complementaria ) y demostró que existe
una relación negativa significativa entre la ascendencia criolla y la aptitud física
(Fig.  5e , con descendencia criolla disminuyendo el rendimiento por hectárea por año
en ~ 319.9 unidades por unidad porcentual de ascendencia, p  = 0.000425, hay detalles
adicionales disponibles para el modelo en la  información complementaria ). También
demostramos que a pesar de la disminución de la aptitud física en las poblaciones
domesticadas, no hay pérdida de calidad y capacidad para preparar chocolate a partir de
sus granos (Figura complementaria  12 ).

En resumen, proporcionamos la primera visión general de cómo la diversificación


natural ha dado forma a la variación genética en Theobroma cacao . Proporcionamos la
primera visión integral del escenario demográfico involucrado en la domesticación de la
variedad Criollo e identificamos genes que podrían funcionar en los atributos de sabor
deseables de la variedad Criollo. Más importante aún, mostramos cómo los recursos
genómicos se pueden usar con éxito para evaluar cómo el proceso de domesticación ha
moldeado el patrón de acumulación de mutaciones perjudiciales en cultivos arbóreos,
impactando la aptitud de una manera considerable, validando para esta especie la
hipótesis del costo de la domesticación 20 .

Conclusiones

Nuestro estudio ha proporcionado una mirada más cercana a la historia evolutiva


de Theobroma cacao L. Hemos desarrollado un gran recurso para criadores e
investigadores, que incluye más de 7 M SNP y la anotación genómica correspondiente
para esas variantes. Los resultados del trabajo presentado en este manuscrito arrojan luz
sobre una amplia gama de preguntas que van desde una caracterización más profunda de
la estructura de la población genética en las poblaciones de cacao hasta aumentar
nuestra comprensión de la historia evolutiva de la domesticación en el cacao. Lo más
importante, nuestro trabajo ha proporcionado una fuerte evidencia genómica que
respalda la hipótesis del costo de la domesticación, afirmando que el proceso de mejora
y selección de rasgos deseables se ve obstaculizado por la acumulación acelerada no
deseada de mutaciones perjudiciales.
Métodos

Muestreo
Tomamos muestras de las hojas de las accesiones en la Unidad de Investigación del
Cacao de la Universidad de las Indias Occidentales y el CATIE en Costa Rica (Tabla
complementaria  1 ).

Extracción de ADN y preparación de bibliotecas de secuenciación


Las muestras procesadas en la Universidad de Stanford se prepararon de la siguiente
manera:

El ADN se extrajo usando ZR Plant / Seed DNA MiniPrep ™ (Zymo Research Inc). Se
cortaron aproximadamente 3 g de material de hoja por extracción por muestra y se
colocaron en tubos de homogeneización con perlas de cerámica y tampón de lisis. Las
muestras se homogeneizaron en un FastPrep-24 TM (MP Biomedicals, LLC) colocado en
una habitación fría a 4 ° C durante 60 s a una velocidad de 4.5 m sec -1 . Si el tejido no
se homogeneizó completamente, los tejidos se homogeneizaron durante 20–40 s
adicionales a la misma velocidad. El ADN se cuantificó usando un Qubit TMFluorómetro
3.0 (ThermoFisher Scientific), utilizando un kit de ensayo dsDNA HS. Además, se
evaluó la calidad general del ADN extraído con E-Gel al 2% (Invitrogen, Carlsbad,
CA). La mayoría de las muestras se prepararon utilizando los kits de preparación de
muestras de ADN Nextera (Epicenter, Chicago, IL, EE. UU.) Y el kit de preparación de
biblioteca NEBnext® Ultra DNA Library para Illumina (New England BioLabs,
Inc). Las muestras restantes se prepararon cortando primero el ADN genómico usando
un M220 Focused-ultrasonicator ™ (Covaris Inc) y NEBnext® Ultra DNA Library Prep
Kit para Illumina (New England BioLabs, Inc). Las bibliotecas se cuantificaron en el
chip de ADN Agilent 2100 Bioanalyzer High Sensitivity para la concentración y la
distribución del tamaño, se agruparon en conjuntos de 3 a 4 por lote y se secuenciaron
en la plataforma HiSeq 2000/2500 en el Centro de Servicio de Secuencia de Stanford
(100 ciclos, modo de lectura emparejado) .

Las muestras procesadas en la Universidad de Indiana se prepararon de la siguiente


manera:

El ADN se extrajo utilizando un protocolo personalizado para enriquecer el ADN de


alto peso molecular de las hojas de cacao. Aproximadamente se molió 450 mg de
material de hojas por muestra a polvo bajo líquido N 2usando mortero y mano de
mortero. El polvo de tejido se homogeneizó y se lavó dos veces mediante vórtex en 3 ml
de HEPES 100 mM enfriado con hielo, PVP-40 al 0,1%, b-mercaptoetanol al 4%,
seguido de centrifugación a 7000 rpm en un rotor Eppendorf F35-6-30. Se extrajeron
los núcleos de los gránulos de tejido en hielo en Tris-Cl 50 mM, pH 8,0, EDTA 50 mM
y NaCl 50 mM con sacarosa al 15%, y se centrifugaron a 3600 rpm para que el gránulo
rastreara los restos celulares. Los núcleos se lisaron a 70 ° C durante 15 minutos en
Tris-Cl 20 mM, pH 8,0, EDTA 10 mM con la adición de SDS a una concentración final
de 1,5%. La proteína se precipitó en hielo con la adición de NH 4OAc a una
concentración final de 2.7 M, sedimentado dos veces por centrifugación a 7000 rpm. El
ADN se precipitó usando una inversión suave en un volumen igual de isopropanol frío,
seguido de centrifugación a 7000 rpm. Los sedimentos de ADN se lavaron en etanol al
70% y se resuspendieron en Tris-Cl 10 mM, EDTA 1 mM usando puntas de pipeta de
gran diámetro. La calidad y cantidad de ADN en la fracción de alto peso molecular (24
a ≥ 60 kb) se evaluó mediante migración en cinta de pantalla de ADN genómico,
software Agilent TapeStation 2200 (A.01.04) (Agilent) y cuantificada secundariamente
por fluorimetría usando el kit de ensayo dsDNA HS (Invitrogen) con un
Qubit TMFluorómetro 2.0 (ThermoFisher). Las bibliotecas de secuenciación se
prepararon como bibliotecas NGS no amplificadas, utilizando el kit de biblioteca de
ADN libre de PCR (KAPPA) o las bibliotecas mínimamente amplificadas se prepararon
utilizando el Kit de preparación de muestras de ADN TruSeq (Illumina) con cuatro
ciclos de PCR en el Centro de Biotecnología Roy J. Carver , Universidad de Illinois en
Urbana – Champaign (UIUC). Todos los pasos de preparación de la biblioteca fueron de
acuerdo con el fabricante, con la excepción de que después del corte para bibliotecas
mínimamente amplificadas, el ADN se limpió a través de una columna Zymo y se
seleccionó el tamaño para retener solo fragmentos de 400-600 pb. Se evaluó la calidad
de todas las bibliotecas utilizando un ensayo de ADN de alta sensibilidad Bioanalyzer
Agilent 2100 (Agilent), cuantificado por qPCR, agrupado en conjuntos de 12 a
concentración equimolar.

Procesamiento de lectura e identificación SNP


Los datos de Illumina se basaron utilizando el software de Illumina CASAVA 1.8.2, y
las secuencias se demultiplexaron con un requisito de coincidencia completa del índice
de seis nucleótidos que se usó para la preparación de la biblioteca. Las muestras
preparadas usando Nextera se recortaron duramente a 13 nt del extremo 5 '. Después de
la demultiplexación, se analizó la calidad de los datos sin procesar secuenciados
utilizando FastQC 62 . Realizamos un ajuste de calidad adaptativo (estableciendo un
umbral de calidad de 25) y un ajuste duro adicional de las lecturas basado en la
estabilización de la composición base en el extremo 5 'de las secuencias usando
TrimGalore! y cutadapt 63 ,64 . Conjuntos de lecturas de muestras individuales se
mapearon en el genoma 21 de referencia Matina-v1.1 , utilizando el alineador de
madriguera BWA 65con condiciones relajadas para la distancia de edición (0.06), ya
que se esperaba que T. cacao tenga una alta diversidad genética. Los archivos sam
alineados se preprocesaron antes de realizar la identificación SNP con Samtools / Picard
Tools y Bamtools 66 , 67 , 68 para marcar duplicados, corregir información de pares de
parejas, corregir indicadores de lecturas sin asignar y obtener estadísticas generales de
mapeo. Seguimos las recomendaciones del Genome Analysis Toolkit para realizar una
recalibración de calidad de base y una realineación local para minimizar los falsos
positivos durante el procedimiento de llamada SNP 69 . Finalmente, realizamos
llamadas de genotipo usando la herramienta de análisis de población Real Time
Genomics para acelerar el proceso de identificación SNP 70. Las llamadas también se
llamaron con GATK, y se mantuvo un subconjunto adecuado de SNP después de una
combinación de Recalibración del Nivel de Calidad Variante (VQSR) y filtros duros
que incluían umbrales en la cobertura (cobertura máxima = 200 * 50 ×), calidad por
profundidad (QD 2 ) estimado a partir de la división de la confianza de la variante por la
profundidad sin filtrar de las muestras sin referencia, la prueba de hebra de pescador (FS
50) y el cuadrado medio de la calidad del mapeo entre muestras (MQ 30). Las variantes
identificadas fueron escalonadas, por población, utilizando shapeit v2.12 en un
subconjunto de variantes en las que la frecuencia de alelos menores (MAF)>
0.05 71 , 72 . La fase se realizó por cromosoma para los diez cromosomas principales
utilizando solo sitios bialélicos.

Los SNP identificados se anotaron usando SNPEff 73 . Para esto, utilizamos la


anotación genética actual del genoma 21 de referencia de Matina-v1.1 para construir
una nueva base de datos para Theobroma cacao. Esta base de datos se usó para anotar
los polimorfismos observados después de su efecto potencial sobre la expresión génica
y la funcionalidad de acuerdo con su posición con respecto a las regiones de
codificación.

Análisis genéticos poblacionales


Caracterizamos la distribución de la variación genética en las poblaciones, estimando la
variación utilizando dos aproximaciones para la inferencia de la variación genética:
theta de Watterson (θ w ) 74 y el número de diferencias por pares por sitio
(π) 75 . Utilizamos vcftools 76para estimar ambas estadísticas en ventanas de 1 kb. Los
modelos lineales generalizados para explicar las diferencias en la diversidad entre
poblaciones se explican en la sección Distribución de variación genética entre grupos
genéticos en el  texto complementario .

Utilizamos un ADMIXTURE 24 , una implementación de un enfoque similar al


conocido STRUCTURE 77 . Basado en un algoritmo de maximización de expectativas,
ADMIXTURE utiliza un enfoque basado en la máxima verosimilitud para asignar una
amplia ascendencia del genoma y visualizar la estructura genética de las poblaciones
de T. cacao . Se utiliza un procedimiento de validación cruzada para seleccionar el
número más probable de grupos que explican la estructura de los datos 24 . Filtramos
nuestros datos y restringimos nuestro análisis a SNP con una menor frecuencia de alelos
por encima del 5%, y también recortamos los datos para LD ya que las aproximaciones
suponen loci no vinculados. Para esto, utilizamos vcftools 76estimar los puntajes de LD
(r2) para cada par de SNP en ventanas de 2000 SNP y excluyó uno del par si r 2  >
0,45. Las ventanas se seleccionaron con 500 SNP de superposición. El conjunto de
datos final contenía 63.374 SNP. Analizamos este conjunto de datos
usando ADMIXTURE y establecemos 2–18 poblaciones ancestrales ( K  = 2 a K  = 18)
en 100 repeticiones. Se verificó la convergencia de la persona ADITIVO se ejecuta en
cada K mediante la evaluación de la máxima diferencia en las puntuaciones de
probabilidad log en fracciones de carreras con las puntuaciones más altas probabilidad
de acceder a cada uno de K . Suponemos que se alcanzó un máximo de probabilidad de
registro global en una K dadasi al menos el 10% de las carreras con la puntuación más
alta muestran una variación mínima en las puntuaciones de probabilidad de registro y
presentan una asignación consistente a los grupos. Se ha demostrado 78 que un umbral
de 5 unidades de probabilidad logarítmica es lo suficientemente conservador como para
garantizar resultados similares a los obtenidos con CLUMPP 79 . Además del análisis
de mezcla, realizamos un análisis de escalamiento multidimensional en el mismo
conjunto de SNP empleados para ADMIXTURE . Primero, normalizamos los datos
(centrados y estandarizados) siguiendo las recomendaciones anteriores 80 y realizamos
análisis de MDS usando la Descomposición de valores singulares en los datos
normalizados usando la función de escala cmd en R.

Medimos la diferenciación de la población resultante de las restricciones en el flujo de


genes entre las poblaciones utilizando el estimador F ST 81 deWeir y Cockerham en
ventanas de 5 kb, después de filtrar alelos de baja frecuencia. Para resumir la
diferenciación de todo el genoma entre las poblaciones, estimamos la media de
los estimadores F ST a través de las ventanas y el error estándar para cada par de
comparaciones.

El mapa y la ubicación de las poblaciones en América del Sur se creó utilizando ggmaps
en R. Los mapas utilizados en ggmaps se obtienen de los mapas de Google (fuente de
acceso abierto) y los diamantes utilizados para el posicionamiento de las poblaciones se
modificaron para aumentar el tamaño en Illustrator .

Ajustamos un modelo lineal generalizado para explicar las diferencias en la diversidad


genética a lo largo del eje Pacífico / Atlántico de diferenciación genética capturado en el
segundo componente de una escala multidimensional. Para esto, estimamos los
centroides para PC1 y PC2 de los datos presentados en la Fig.  1b . Estos centroides se
usaron como predictores ( β  i ) para explicar las diferencias en la diversidad genética
media por población (medida como π, Y en el siguiente modelo) bajo un modelo lineal
simple con una familia gaussianaY= βo+ βyo+ ϵY=βo+βyo+ϵ. Los individuos
mezclados fueron excluidos del análisis.
Utilizamos un enfoque basado en modelos para inferir las relaciones de la población
entre los diez grupos principales tal como se implementa en TreeMix 26 para identificar
las relaciones entre las poblaciones e identificar las firmas de domesticación.

Utilizamos dos métodos para inferir la historia demográfica de las poblaciones


utilizando genomas individuales y pequeños grupos de individuos por
población. Primero, utilizamos el Markovian secuencialmente por pares, coalescente, tal
como se implementó en PSMC; 28 segundos, utilizamos SMC ++, un método libre de
probabilidades que puede aprovechar la información de múltiples individuos de la
población (a diferencia de PSMC) para inferir cambios en el tamaño de la población en
los últimos 29 . Asumimos una tasa de mutación μ = 7.1 × 10 −9 mutaciones  ×  pb  -
1
  ×   gen  -1  82 . 83. También examinamos el efecto de la incertidumbre en las tasas de
mutación al incluir un análisis posterior a un trabajo reciente que sugiere que las tasas
de mutación podrían ser la mitad de las estimadas previamente en el orden de 3.1 ×
10 −9 mutaciones  ×   pb  −1   ×   gen  −1  84 . Se proporcionan detalles adicionales en
el  texto complementario . Asumimos un tiempo de generación de 5 años, basado en la
observación de que se necesitan 5 años en promedio para pasar de semilla a semilla en
el cacao. Las cifras que describen la historia evolutiva inferida con PSMC se obtuvieron
ajustando una spline de suavizado a través de historias individuales inferidas para cada
muestra que correspondía a la misma población.

Estimamos la endogamia usando un estimador de momento simple F = 1 - Het obs /


He exp 85 para evaluar la magnitud de la endogamia experimentada por los individuos en
cada población. Luego abordamos el impacto del tamaño histórico de la población en la
endogamia estimada utilizando un ANOVA para comparar las estadísticas F estimadas
de endogamia entre las poblaciones.

La asociación entre el tamaño efectivo de la población y la endogamia se examinó con


un modelo lineal generalizado de la forma. Y= β0 0+ βyo+ ϵY=β0 0+βyo+ϵ, donde Y es
el coeficiente de endogamia F, β 0 es la intersección y β i es el efecto del tamaño
efectivo de la población. Como predictor, utilizamos la media armónica de los tamaños
de población efectivos estimados bajo el modelo PSMC para cada población bajo el
supuesto genético de población de que el tamaño de población más pequeño
experimentado por la población influirá fuertemente en la magnitud de la deriva.
Utilizando las relaciones inferidas entre las poblaciones obtenidas con TreeMix,
seleccionamos la población más estrechamente relacionada con Criollo domesticado (la
población de Curaray) para realizar análisis demográficos detallados e inferir el tiempo
de divergencia entre las poblaciones y las trayectorias demográficas para las
poblaciones. Utilizamos una aproximación basada en la comparación del espectro de
frecuencia del sitio observado y las simulaciones en un marco de máxima verosimilitud
para decidir qué modelo explica mejor los datos, tal como se implementa en el
programa δaδi 33 . Informamos los tres modelos principales probados (ver  Información
complementaria) con la ayuda de los resultados del PSMC. Los criterios de información
de Akaike y la magnitud de los residuos se emplearon para la selección del
modelo. Para la estimación de los intervalos de confianza, realizamos 1000 bootstraps
del conjunto de datos observado y realizamos estimaciones utilizando el modelo
demográfico seleccionado. Detalles adicionales sobre la estimación de intervalos de
confianza, la incertidumbre del tiempo de generación y las tasas de mutación, y el
análisis detallado de la superficie de probabilidad para los parámetros de interés se
proporcionan en la  información suplementaria .
Las regiones bajo selección se infirieron analizando las desviaciones del espectro de
frecuencia del sitio. Los análisis realizados con XP-CLR 45 nos permitieron detectar
desviaciones locales del espectro de frecuencia del sitio de todo el genoma. Para esto,
configuramos ventanas fijas de 0.05 cM para 200 SNP y un tamaño de cuadrícula de 2
kb. Para estos análisis, utilizamos la población de Curaray como referencia y tomamos
las ventanas superiores del 1% con una puntuación significativa de XP-CLR. Además,
seleccionamos aquellas ventanas de 5 kb en las que los valores de F ST correspondían al
1% superior de la distribución para examinar las regiones del genoma que
potencialmente presentan una diferenciación más alta de lo esperado.

Análisis de costo de domesticación


Inferimos efectos nocivos y tolerados para mutaciones no sinónimas utilizando un
método que utiliza el conservadurismo filogenético. Para implementar este método tal
como se implementó en Sorting Intolerant from Tolerant (SIFT) 4G 58 , creamos una
base de datos personalizada de predicciones para todos los SNP no sinónimos que usan
SIFT4G para T. cacao . SIFT genera una puntuación SIFT para cada sustitución de
aminoácidos; el puntaje varía de 0 a 1. La sustitución de aminoácidos se predice
perjudicial si el puntaje es ≤ 0.05 y se tolera si el puntaje es> 0.05.

Utilizamos un modelo logarítmico lineal para probar las diferencias en el número de


mutaciones perjudiciales y toleradas entre Criollo y Amelonado. Se eligió Amelonado
debido a los niveles similares de endogamia observados. Debido a las diferencias en el
tamaño de la muestra, estimamos para cada población el número de mutaciones
perjudiciales y toleradas en tres clases diferentes de frecuencia de alelos: raro (0–0.25),
intermedio (0.25–0.375) y frecuente (0.375–0.5). Este modelo nos permitió probar las
tendencias generales en los datos y mostrar que hay una diferencia significativa en el
número de mutaciones perjudiciales entre Criollo y Amelonado a lo largo de clases
agrupadas de frecuencia de alelos menores. Se realizó un análisis post-hoc con la prueba
de Mantel-Haenszel para evaluar los efectos específicos. Ver  información
complementaria para detalles adicionales sobre la implementación.

Finalmente, genotipamos un conjunto adicional de 151 accesiones usando un chip


personalizado de 15 K SNPs específicos para cacao que se desarrolló en paralelo a este
trabajo utilizando las variantes novedosas identificadas en un subconjunto de las
accesiones 61 . Integramos el conjunto genotipado con las 79 accesiones de este trabajo
que pertenecen claramente a cada una de las poblaciones supuestamente genéticamente
diferenciadas y realizamos un análisis de ascendencia supervisado en ADMIXTURE
con condiciones similares a las explicadas anteriormente. Medimos la productividad
(medida en kg  ×  ha  −1   ×  año  −1) en las 151 accesiones. El impacto de la acumulación
de mutaciones perjudiciales en la productividad se evaluó ajustando un modelo lineal
generalizado para explicar la productividad (medida en kg × ha −1  × año −1) en función
de la ascendencia criolla después de corregir la endogamia ( Información
complementaria para más detalles ) Construimos un modelo lineal generalizado con una
familia gaussiana de la forma:

Y = β  0 + β  1 + β  2 + ε , donde Y corresponde al rendimiento, β  0corresponde a la


intersección, β  1 corresponde a la proporción de ascendencia criolla y β  2 es el
coeficiente de endogamia F estimado para cada individuo .

Comparamos las estimaciones obtenidas cuando se usa la ascendencia Criollo versus las
obtenidas cuando la ascendencia Amelonado se usa como un predictor para evaluar el
efecto específico de la domesticación y no solo la endogamia. La
Figura 13 complementaria  muestra los resultados del análisis de asociación entre
ascendencia de Amelonado y productividad. Se proporcionan detalles adicionales sobre
el análisis en la  Información complementaria .

Disponibilidad de código
El código informático está disponible por OEC a través de un repositorio de github
oeco28 / Cacao_Genomics en https://github.com/oeco28/Cacao_Genomics/

Disponibilidad de datos

Los SNP están disponibles en el European Variation Archive con los códigos de acceso
PRJEB28591 (proyecto) y ERZ696780 (análisis). Se puede acceder a los datos de
secuenciación sin procesar en el SRA desde ncbi a través del BioProject PRJNA486011.

También podría gustarte