Está en la página 1de 44

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/323570587

El rastreo genómico de los peruanos muestra una gran predominancia del


legado ancestral precolombino

Article  in  Journal of Human Genetics · July 2013

CITATIONS READS
0 86

7 authors, including:

Jose Raul Sandoval Sandoval Alberto Alcibíades Salazar Granara


University of San Martín de Porres University of San Martín de Porres
46 PUBLICATIONS   148 CITATIONS    164 PUBLICATIONS   802 CITATIONS   

SEE PROFILE SEE PROFILE

Oscar Acosta Ricardo Fujita


USMP / UNMSM Universidad de San Martín de Porres, Lima, Perú
52 PUBLICATIONS   108 CITATIONS    122 PUBLICATIONS   1,599 CITATIONS   

SEE PROFILE SEE PROFILE

Some of the authors of this publication are also working on these related projects:

The niche and phylogeography of a passerine reveal the history of biological diversification between the Andean and the Atlantic forests View project

CENTRO DE INVESTIGACIÓN DE MEDICINA TRADICIONAL Y FARMACOLOGÍA FMH USMP View project

All content following this page was uploaded by Jose Raul Sandoval Sandoval on 06 March 2018.

The user has requested enhancement of the downloaded file.


El rastreo genómico de los peruanos muestra una gran predominancia

del legado ancestral precolombino *

José R. Sandoval1,2, Alberto Salazar-Granara2, Oscar Acosta2, Wilder Castillo-Herrera2,

Ricardo Fujita2, Sergio D. J. Pena3,4 & Fabricio R. Santos1

1
Laboratório de Biodiversidade e Evolução Molecular (LBEM), Universidade Federal de

Minas Gerais, Belo Horizonte, Brasil.


2
Centro de Genética y Biología Molecular (CGBM), Facultad de Medicina Humana,

Universidad de San Martín de Porres, Lima, Perú.


3
GENE-Núcleo de Genética Médica, Belo Horizonte, MG, Brasil.
4
Laboratório de Genética Bioquímica (LGB), Universidade Federal de Minas Gerais,

Belo Horizonte, Brasil.

José R. Sandoval: jsandovals@usmp.pe

* Jose R Sandoval, Alberto Salazar-Granara, Oscar Acosta, Wilder Castillo-Herrera, Ricardo

Fujita, Sergio DJ Pena & Fabricio R Santos (2013) Tracing the genomic ancestry of Peruvians

reveals a major legacy of pre-Columbian ancestors. J Hum Genet 58:627-634.

Enlace en internet: http://www.nature.com/jhg/journal/v58/n9/full/jhg201373a.html

1
Resumen

En el presente estudio, con el objetivo de develar la estructura genética y las proporciones

de ancestralidad de las poblaciones peruanas, analizamos muestras de ADN de 551

individuos de 25 poblaciones de los Andes, Selva y de la Costa, usando 40 marcadores de

ancestralidad de tipo inserción-deleción. Al comparar los genotipos con las de las

poblaciones de referencia de los diferentes continentes, los resultados muestran una

predominancia de la proporción de ancestralidad nativa americana en las 25 poblaciones

peruanas. En las poblaciones de Taquile, Amantani, Anapia, Los Uros (islas en el Lago

Titicaca) y Yanque (en la región Arequipa), localizadas en el sur, se detectan las más

elevadas proporciones de ancestralidad autóctona, indicando que su perfil genómico

deriva de los primeros pobladores de Sudamérica. En contraste, en las poblaciones de San

Marcos, Cajamarca (Cajamarca), Characato (Arequipa), Chogo (Ancash), Lambayeque y

Lima, se detecta una baja proporción, pero notoriamente significativa de ancestralidad

europea. Asimismo, hay pequeñas proporciones, comparadas a las anteriores, de

ancestralidad euroasiática (las de ancestralidad africana son pequeñísimas),

principalmente europea, en las poblaciones de Pucallpa, Lamas, Chachapoyas, Ayacucho

y Huancayo. Los resultados obtenidos a través del ADN son concordantes con las

documentaciones sobre las inmigraciones poscolombinas al Perú, así como consistentes

con los registros históricos que describen la continuidad de la alta densidad poblacional

autóctona desde la formación de los imperios prehispánicos.

2
Introducción

En los últimos años, algunos estudios realizados en las poblaciones de América Central y

Sudamérica muestran que hay diferentes grados de proporciones de ancestralidad

genómica en relación a las poblaciones “autóctonas” de los continentes o de referencia.

Los índices de las proporciones de ancestralidad dependen fundamentalmente de los

eventos de “mestizaje” sucedidos desde la colonización de América.1-4

De manera similar a otras poblaciones de Latinoamérica,2,4 las poblaciones peruanas se

constituyeron como tales en el transcurso de la colonización europea y en gran parte son

el resultado de la dinámica demográfica de tres componentes ancestrales: autóctonos

americanos, euroasiáticos (principalmente de Europa) y africanos. Sin embargo, cuando

los españoles arribaron al Perú durante la época del imperio incaico, se encontraron con

una gran población nativa en la región, distribuida en grandes ciudades, especialmente a

lo largo del Tawantinsuyu.5

Para develar el pasado histórico sobre la dinámica demográfica y el flujo génico de las

poblaciones latinoamericanas, los componentes de ancestralidad y los grados de

“mestizaje”, se han implementado un juego de marcadores ADN autosómicos de

ancestralidad. Un previo estudio6 en poblaciones autóctonas de referencia a nivel

continental, conocida como el panel de HGDP-CEPH, y usando 642,690 SNPs

(polimorfismos de un solo nucleótido), mostró que existe una marcada correlación entre

la estructuración genética de una población y la región geográfica de su procedencia.

Asimismo, otro estudio preliminar obtuvo prácticamente los mismos resultados a través

de un selecto juego de 40 marcadores autosómicos de tipo Inserción-Deleción (INDEL)7

en el mismo panel de poblaciones de HGD-CEPH, indicando a su vez que su uso es

adecuado para caracterizar la estructura poblacional a nivel global. Gracias a la peculiar


3
distribución de las frecuencias alélicas de esos marcadores informativos de ancestralidad

(AIMs) en las poblaciones continentales, se puede determinar con alta resolución las

proporciones de ancestralidad de cualquier individuo o su respectiva vinculación

genética. Así, por ejemplo, utilizando los 40 INDELs, un estudio sobre el “mestizaje” de

las diferentes poblaciones de Brasil, develó sus proporciones de ancestralidad nativa

americana, europea o africana.3

Sobre el poblamiento precolombino del Perú

Según las evidencias arqueológicas, paleontológicas y restos óseos de humanos, los

primeros grupos de cazadores y recolectores aparecieron en Perú alrededor de 12 mil

años atrás (en el Pleistoceno tardío). Estos antiguos pobladores se asentaron en los

Andes, por ejemplo, alrededor de la gruta de Guitarrero, en Ancash, y del complejo

arqueológico de Pikimachay en Ayacucho.9 Por su parte, a lo largo de la Costa, fueron

hallados algunos vestigios de otros grupos de cazadores y recolectores, datados alrededor

de 7 mil años, y los que posteriormente originaron algunas civilizaciones antiguas, entre

ellas probablemente Caral (al norte de Lima). Otras evidencias remotas muestran la

formación de sociedades emergentes en torno al Lago Titicaca desde hace 4 mil años.

Aproximadamente, hace 3 mil años, aparecieron otras civilizaciones tales como Paracas

en el sur; Chavín en el norte, y posteriormente cerca de 2100 años emergieron otras

culturas como Nazca (costa central), Wari (Andes Centrales y Sur), Moche, Chimú (costa

norte), Chachapoyas (departamento de Amazonas) y que finalmente todas las anteriores

culturas dieron paso al Tawantinsuyu o imperio incaico (1432-1532). Este último abarcó

las regiones andinas y costeñas desde parte de Colombia, pasando por Ecuador, Perú,

Bolivia, hasta parte de Argentina y Chile.5

Durante el apogeo del Tawantinsuyu, la lengua franca fue el idioma Quechua y su uso se

extendió a lo largo de sus dominios a través del sistema conocido como Qhapaq Ñan
4
(Gran Camino Real). Debido a esa situación y al sistema de mitimaes, probablemente el

escenario de esos tiempos facilitó aún más las migraciones y el flujo génico entre las

poblaciones del norte y sur del Tawantinsuyu, incluyendo a los Incas.

El “mestizaje” y los flujos migratorios en el periodo poscolombino del Perú

En el siglo XVI, los primeros europeos que arribaron a Perú fueron principalmente de

España y trajeron como esclavos algunos grupos de africanos.5 En 1849 se dio inicio la

llegada masiva de chinos (en labores agrícolas y del guano) y luego en 1853 de algunas

familias de alemanes, quienes se ubicaron en algunas localidades de la Selva.

Posteriormente, en 1899 los japoneses también inmigraron al Perú. A comienzos del siglo

XX y entre los años 1918 – 1938, a causa de los efectos de las guerras sucedidas en

Europa (I y II guerra mundial), hubo una gran oleada migratoria al Perú, principalmente

de Italia y otros países de Eurasia.

Por otra parte, durante la primera década del siglo XX a causa del “boom” de la industria

del caucho5 y la colonización migratoria foránea sucedieron desplazamientos de muchas

comunidades nativas de la Amazonía peruana, incluyendo su explotación por el sistema

político-comercial imperante. Entretanto, por el año 1940 tuvo lugar una gran migración

interna en el país, principalmente hacia Lima desde los departamentos de Junín,

Ayacucho, La Libertad, Ica, Lambayeque, Cajamarca, Piura y en menor grado de otros

departamentos.5 A lo largo del siglo XX, la mayoría de las migraciones se dieron desde

las áreas rurales hacia los centros urbanos y dicho escenario demográfico repercutió en la

estructura genética de las poblaciones, por ejemplo, de las ciudades como Lima.

El presente estudio está enfocado en develar la estructura poblacional del Perú, sus raíces

ancestrales, basada en los perfiles genéticos de las poblaciones contemporáneas y a través


7
del uso de 40 marcadores ADN de tipo INDELs. Así, se ha determinado las

proporciones de ancestralidad genómica de 551 individuos procedentes de 25


5
poblaciones, las cuales comprenden a localidades representativas de las tres regiones del

país, Costa, Sierra y Selva. Desde un marco histórico, se realizó la inferencia de los

grados de “mestizaje” de los individuos/poblaciones según la contribución genética de los

mismos. En general, nuestro estudio revela una predominancia del legado genético

precolombino en todas las poblaciones consideradas y los grados de mestizaje son

concordantes con los registros históricos sobre las inmigraciones extranjeras al Perú.

Materiales y métodos

Participantes

Las muestras biológicas (sangre o hisopado bucal) fueron colectadas en diferentes

regiones del Perú y con consentimiento informado de personas voluntarias de ambos

géneros, entre los años 1998 y 2010. Para el presente estudio hemos analizado 551

muestras de ADN, obtenidas de 25 poblaciones o localidades del Perú (Figura 1). 122

muestras representan a la región Selva/ceja de Selva (Andoas_LO=71, Iquitos_LO=8,

Pucallpa_UC=10, Chachapoyas_AM=15, Lamas_SM=18); 355 a la región Andes

(Cajamarca_CA=34, San Marcos_CA=19, Ocopon_AN=11, Chogo_AN=14,

Huarochiri_LI=15, Huancayo_JU=29, Ayacucho_AY=31, Andahuaylas_AP=19,

Kaquiabamba_AP=9, Cabanaconde_AR=20, Chivay_AR=25, Yanque_AR=10,

Characato_AR=8, Mollebaya_AR=8, Taquile_PU=23, Amantani_PU=31, Uros_PU=25,

Anapia_PU=24); y 74 a la región Costa (Lambayeque_LA=31, Lima_LI=43).

Los códigos y las respectivas abreviaturas empleadas para las localidades en estudio son

los siguientes:

1=AY (Ayacucho), 2=Hyo (Huancayo), 3=Cb (Cabanaconde), 4=Cy (Chivay), 5=Yke

(Yanque), 6=Char (Characato), 7=Mll (Mollebaya), 8=Oco (Ocopon), 9=Ch (Chogo),

10=CA (Cajamarca), 11=CAsm (San Marcos), 12=Ahy (Andahuaylas), 13=Kaq

(Kaquiabamba), 14=LIhr (Huarochiri), 15=Ur (Uros), 16=Ap (Anapia), 17=Amt


6
(Amantani), 18=Taq (Taquile), 19=And (Andoas), 20=Iq (Iquitos), 21=Puc (Pucallpa),

22=Chp (Chachapoyas), 23=SMla (Lamas), 24=LA (Lambayeque), 25=LI (Lima).

Las abreviaturas de los departamentos según a los cuales corresponden las mencionadas

localidades son las siguientes:

LO=Loreto, UC=Ucayali, AM=Amazonas, SM=San Martín, CA=Cajamarca,

AN=Ancash, JU=Junín, AY=Ayacucho, AP=Apurímac, AR=Arequipa, PU=Puno,

LA=Lambayeque, LI=Lima.

Aplicación de la técnica PCR y análisis de los genotipos

Se realizó la extracción y cuantificación del ADN acorde a los protocolos normalizados19

de los laboratorios de CGBM (USMP, Perú) y de LBEM (UFMG, Brasil). Las reacciones

“multiplex” de PCR para los 40 marcadores INDELs siguieron protocolos

estandarizados.7,20 Luego, la mezcla de 2 ul del amplicón PCR y 8 ul de la solución de

formamida Hi-Di/GeneScan-500-LIZ se inyectó en el sistema de electroforesis capilar

ABI 3130xl Genetic Analyzer (Life Technologies, Carlsbad, CA, USA). Para visualizar

el tamaño de los alelos, según una referencia de control estándar, se usó el programa

GeneMapper ID v3.2 (Life Technologies).

Los 40 marcadores INDELs (conocidos como MID #), las secuencias nucleotídicas de los

mismos (rs #) y listados en Pena et al.,3 están disponibles en la base de datos dbSNP de

NCBI Nucleotide Sequence Variation database (http://www.ncbi.nlm.nih.gov/snp), así

como en Marshfield Clinic Research Foundation

(http://research.marshfieldclinic.org/genetics/home).

Para la comparación de genotipos de los 40 INDELs, se utilizó los datos de 1064

individuos de 52 poblaciones continentales de referencia,7 conocida como el panel

HGDP-CEPH, las cuales representan a siete regiones del mundo

(http://www.ceph.fr/HGDP-CEPH-Panel).
7
Análisis estadísticos

Para inferir la variabilidad genética a nivel de poblaciones, se realizaron pruebas

estadísticas usando el sistema AMOVA (Análisis de Varianza Molecular), implementado

en los programas ARLEQUIN v3.5.1.2 (Bern, Switzerland)21 y GENEPOP 4.0

(Montpelier, France)22. Por otro lado, para estimar las proporciones de ancestralidad tal

como de nativa americana, euroasiática o africana de las poblaciones peruanas, se usó un

sistema de agrupamientos basado en una plataforma de algoritmos de simulaciones

bayesianas conocidas como MCMC, implementado en el programa STRUCTURE v2.3

(Chicago, IL, USA)23,24. Luego, esos resultados fueron procesados y visualizados en los

programas STRUCTURE HARVESTER,25 DISTRUCT,26 CLUMP,27 así como SimCo y

ade4 en la plataforma R (http://www.r-project.org/main.shtml).

Para contrastar las inferencias obtenidas por STRUCTURE, se usaron otros programas

independientes y complementarios, tales como ADMIX

(www.genetica.fmed.edu.uy/software.htm), BAPS (Análisis Bayesiano de la Estructura

Poblacional),28 y PCAGEN (http://www2.unil.ch/popgen/softwares/pcagen.htm). El

programa ADMIX está basado en el método mínimos cuadrados ponderado, mientras que

PCAGEN en el análisis de componentes principales (PCA).

Resultados

Proporciones de ancestralidad en las poblaciones peruanas según STRUCTURE

Usando el método de conglomeración bayesiano MCMC en el programa STRUCTURE,

se estimaron las proporciones de ancestralidad de los individuos analizados. Partiendo de

la distribución de las frecuencias alélicas, la técnica bayesiana permite estimar la

distribución a posteriori de probabilidades de “filiación Q” (coeficiente de la proporción

de ancestralidad) de los individuos en un determinado agrupamiento poblacional


8
(denominado K a priori o número “esperado” de poblaciones) y supone que esa

distribución de frecuencias alélicas es independiente, ajustado según al principio de

Hardy-Weinberg, tal como fue demostrado previamente en 360 individuos de Brasil.20

Tomando en cuenta los registros históricos sobre las inmigraciones sucedidas durante el

periodo poscolombino en Perú, se optó por un modelo demográfico de “mezcla” con las

respectivas “frecuencias alélicas correlacionadas” entre los grupos poblacionales y con

parámetros MCMC = 200 mil; simulación inicial (burn-in) = 50 mil; y MCMC = 2

millones; simulación inicial = 100 mil.

Se emplearon dos estrategias en los análisis sobre las proporciones de ancestralidad,

según los parámetros mencionados. En un primer plano solamente se incluyeron a las 25

poblaciones peruanas sin ninguna información acerca del lugar geográfico continental

(PopFlag=0), con una cantidad de 10 simulaciones bayesianas por cada valor K (desde 1

hasta 10). Para identificar la subestructura poblacional, los datos generados por

STRUCTURE sobre la “filiación Q” se procesaron a través de STRUCTURE

HARVESTER25 según el método de Evanno, el cual mostró un valor modal denominado

K=2 como el conglomerado poblacional con mayor probabilidad de ajuste de los datos

(Figura 1 en el Suplemento). Por otra parte, en un segundo plano (también 10

simulaciones para cada K, de valor 1 a 10), a los genotipos de las poblaciones peruanas se

adicionaron los genotipos de poblaciones de referencia, seleccionadas del panel HGDP-

CEPH (161 muestras de Europa, 251 del Este Asiático y 105 de América) y publicados

por Bastos-Rodrigues et al.7 Los datos, tanto las poblaciones de diferentes regiones

continentales, consideradas como de referencia (PopFlag=1), como las 25 poblaciones

peruanas etiquetadas como “desconocidas” (PopFlag=0), se montaron en un formato de

entrada de datos del programa STRUCTURE.

9
En ambos abordajes independientes pero con los mismos parámetros, los resultados

mostraron el mismo conglomerado de las poblaciones peruanas, es decir, en K=2. Los

valores promedios de los coeficientes de “filiación Q” generados por CLUMP27 fueron

procesados y luego visualizados a través del método Análisis de Correspondencia en el

programa estadístico ade4. Esos resultados (para ilustración solamente sin poblaciones de

referencia) indican que hay una subestructuración genética en forma de gradiente (Figura

2 en el Suplemento).

Por otra parte, los resultados de las 10 simulaciones bayesianas de STRUCTURE, según

K=2, se compararon entre sí usando el programa SimCo. Así, analizando las 25

poblaciones peruanas sin incluir las poblaciones de referencia, el promedio del

coeficiente de similitud (SimCoef) fue de 0.978 (SE=0.002, SE=error estándar). Luego,

incluyendo las poblaciones seleccionadas como referencia, el valor promedio SimCoef

fue de 0.995 (SE=0.0004). En ambos casos los valores promedio SimCoef indican que el

agrupamiento inferido por STRUCTURE fue muy similar entre las simulaciones

bayesianas (98 y 99 % respectivamente). De la misma forma, se realizaron las pruebas de

similitud de las simulaciones bayesianas a nivel de individuos. Por otra parte, los valores

promedio de “filiación Q” procesados por CLUMP fueron graficados a través del

programa DISTRUCT. El resultado de los análisis en partición K=2 (Figura 2), donde se

incluye el grupo de poblaciones de referencia de Europa, Este Asiático y América,

muestra claramente los patrones genéticos de los individuos o poblaciones, de los cuales

hay varios con diferentes grados de “mestizaje” (más detalles en Figura 3).

Para calcular con alta resolución las proporciones de ancestralidad de los peruanos, en los

análisis también se incluyeron 1064 individuos de 52 poblaciones del mundo como

referencia del panel HGDP-CEPH, las cuales se dividieron convencionalmente en cuatro

10
macro regiones (África; Eurasia (incluye Europa, Oriente Medio, Asia Central, Este

Asiático); Oceanía y América). Los resultados de STRUCTURE de las particiones desde

K=3 hasta K=6 se muestran en la Figura 3 del Suplemento. Para fines ilustrativos,

también mostramos un gráfico tridimensional sobre los resultados de la partición K=3

(Figura 4 en el Suplemento), donde las poblaciones peruanas se distribuyen en forma de

gradiente dependiendo de los grados de “mestizaje” de los individuos. Concretamente, las

inferencias bayesianas de STRUCTURE sugieren que la mejor partición de todas las

poblaciones puede ser en K=5, es decir, en 5 macro regiones geográficas: África; Eurasia

(comprende Europa, Oriente Medio, Asia Central); Este Asiático; Oceanía y América

(Figura 3). Cabe mencionar que el grupo de Eurasia es relativamente homogéneo, es

decir, hay poco diferenciación entre sus componentes, además de contar con gran

proporción de “mezcla” con los de Oceanía.

Según el modelo de algoritmo bayesiano de STRUCTURE, el agrupamiento de las

poblaciones ya sea en dos o más va depender del grado de diferenciación o parentesco

entre ellas, específicamente de los individuos. Por ejemplo, la partición en K=3 o K=4

sería equivalente a la partición en K=5, ya que en esos escenarios se mantiene un patrón

de similitud genética entre las poblaciones de Eurasia y Oceanía (Figura 3 en el

Suplemento). Probablemente, esa observación esté relacionada con el hecho que los 40

INDELs fueron seleccionados, inicialmente, como marcadores informativos de

ancestralidad para diferenciar principalmente entre nativos americanos, africanos y

europeos, y no de los de Oceanía.3,7 Sin embargo, aplicando otro abordaje distinto, tal

como el método de mínimos cuadrados ponderado (en el programa ADMIX, basado en

probabilidades estadísticas de identidad genética)29, se obtuvieron valores de

proporciones de ancestralidad (Tabla 1 en el Suplemento) muy similares a los obtenidos

11
por STRUCTURE. Las poblaciones que se seleccionaron como referencia para esas

pruebas estadísticas en ADMIX han sido 8 de Europa (n=161) y 5 de América (n=108).

Por otra parte, en STRUCTURE, el modelo condicional “no mezcla” y “frecuencias

alélicas no correlacionadas”, partición en K=5 (Figura 5 en el Suplemento), mostró

resultados similares al modelo opuesto, es decir, con mezcla. Esto quiere decir, que

independientemente del modelo a considerar (de mezcla o no), las inferencias bayesianas

de nuestros datos convergen a resultados parecidos. Sin embargo, los resultados del

modelo condicional de “mezcla” se ajustan mejor al escenario descrito sobre la historia

del poblamiento del Perú.

Los valores de las proporciones de “filiación Q” obtenidos a través de STRUCTURE se

muestran en la Tabla 1 y como referencia o marco comparativo, se incluyeron 52

poblaciones (n=1064) del panel HGDP-CEPH. Las particiones se muestran en K=5 o

cinco agrupamientos (América; Oceanía; Este Asiático; Europa_ME (Oriente Medio)

_CA (Asia Central); y África) y en K=2 o dos agrupamientos (América y No América).

En general, las poblaciones peruanas se caracterizan por presentar una elevada

proporción de ancestralidad nativa americana (Q=0.538 – 0.965) y diferentes niveles de

“mezcla” con poblaciones de otros continentes (Tabla 1). Basado en esos resultados, en

la Figura 4 mostramos la relación de esas proporciones según los coeficientes Q entre

América y Europe_ME_CA (Europa, Oriente Medio, Asia Central). En la Tabla 1 se

observa que en las localidades de San Marcos, Characato, Cajamarca, Chogo,

Lambayeque y Lima, hay una proporción notoria (pero menor comparada a la de nativo

americano) de ancestralidad genómica relacionada a la macro región Eurasia (31.2%;

24.4%; 20.5%; 14.6%; 14.5%; 14.3%, respectivamente), es decir, con componentes

ancestrales de Europa, Oriente Medio o Asia Central. Se detectaron algunas proporciones

intermedias (menores a las anteriores), asociadas a las mismas regiones euroasiáticas, en


12
las localidades de Lamas, Ayacucho y Huancayo (8.7%; 8.1%; 6.1%, respectivamente).

Asimismo, las poblaciones “mestizas”, relacionadas en parte a Eurasia, también

presentan una proporción, aunque muy pequeña, de ancestralidad de poblaciones

africanas (<3.4%). Cabe resaltar que en algunas poblaciones peruanas hay proporciones

de ancestralidad relacionadas al Este Asiático, como por ejemplo, en las localidades de

Chachapoyas, Mollebaya e Iquitos (8.2%; 8%; 6%, respectivamente). En la localidad de

Pucallpa se detecta una proporción de 8% relacionado a Eurasia, 9% a Oceanía y 5.2% al

Este Asiático. Las proporciones de “mezcla” con poblaciones del Este Asiático

probablemente estén asociadas a los eventos migratorios sucedidos durante el periodo

poscolombino en esas regiones del Perú.18 Sin embargo, debido al anonimato y a falta de

datos genealógicos de los individuos, no es posible confirmar tal asociación.

Análisis de las poblaciones peruanas según el programa BAPS

Para contrastar los resultados obtenidos por el programa STRUCTURE, hemos

considerado hacer otras simulaciones bayesianas con un programa independiente

denominado BAPS28 y usando los mismos datos de los 40 marcadores INDELs generados

en las 25 poblaciones peruanas. Según las condiciones establecidas a priori y usando el

límite superior de K=25, MCMC=10 mil y de 10 veces las simulaciones bayesianas, la

distribución posterior de probabilidades MCMC llegó a una partición óptima de K=2

(Agrupamiento 1: Cabanaconde, Chivay, Yanque, Mollebaya, Ocopon, Andahuaylas,

Kaquiabamba, Huarochiri, Uros, Anapia, Amantani, Taquile, Andoas, Iquitos; y

Agrupamiento 2: Ayacucho, Huancayo, Characato, Chogo, Cajamarca, San Marcos,

Pucallpa, Chachapoyas, Lamas, Lambayeque, Lima), con un valor Log (marginal

likelihood) = -24471.48 (valor p=0.986)

Como describimos, ese análisis independiente de BAPS dio una partición de K=2, igual

resultado al cual se llegó por medio del programa STRUCTURE (Figura 2 en el


13
Suplemento). Asimismo, usando el panel de poblaciones de HGDP-CEPH y las de Perú,

en condiciones de K=4, las simulaciones bayesianas muestran similares perfiles de

“mezcla” en las poblaciones peruanas tal como en el programa STRUCTURE (Figuras 5

y 6 en el Suplemento).

Análisis multivariado de las poblaciones peruanas a través del método PCA

Se realizaron análisis complementarios de datos de los 40 marcadores INDELs a través

del método PCA con el objetivo de visualizar la correlación de la distribución de las

frecuencias alélicas o genotípicas en las poblaciones peruanas. Primero, usando el

programa PCAGEN, se calcularon los porcentajes de variabilidad genética de las

poblaciones, asociado a sus respectivos componentes principales o coordenadas; y basado

en 10 mil simulaciones aleatorias de los genotipos así como sus respectivos valores p

(probabilidad). Posteriormente, los datos generados se resumieron y graficaron en dos

componentes principales acorde a la máxima variabilidad genética inferida entre las

poblaciones, según los valores denominados eigen (PC1=23.8% y PC2=11.3%), con una

probabilidad estadísticamente significativa (valor de p=0). Además de eso, el índice de

variabilidad genética denominado Fst (1%) en PC1 muestra mejor la diferenciación

genética entre las poblaciones que el de Fst (0.5%) en PC2. El índice Fst en global fue de

4.4% y el índice de heterocigosidad total de 37.3%. Por ejemplo, en la Figura 7 del

Suplemento se observa que las poblaciones de CAsm (San Marcos), CA (Cajamarca),

Char (Characato), LA (Lambayeque), LI (Lima), y Ch (Chogo) se hallan muy distantes

de las de Taq (Taquile), Amt (Amantani), Ap (Anapia), Ur (Uros), y Yke (Yanque).

Grados de diferenciación y niveles de diversidad genética en las poblaciones

peruanas

Para caracterizar la diferenciación genética así como los niveles de diversidad genética en

las 25 poblaciones peruanas, se usaron los programas ARLEQUIN y GENEPOP.


14
En el marco analítico de AMOVA y Fst, implementado en ARLEQUIN, las poblaciones

peruanas fueron estudiadas convencionalmente bajo tres estratos jerárquicos a seguir: a)

según su localización geográfica, las poblaciones fueron agrupadas en tres macro

regiones, es decir, en Selva, Andes y Costa. Bajo este contexto, se obtuvo un índice de

0.33% de diferenciación genética entre los tres grupos, así como 2.18% entre las

poblaciones dentro de los mismos; b) las poblaciones de cada macro región geográfica

fueron analizadas en forma independientemente. En este caso, el índice de diferenciación

genética entre las poblaciones de la Selva (n=122) fue de 0.99% (valor p=0.88); mientras

que 2.74% (valor p=0) entre las de los Andes (n=355) y de 0.37% (valor p=0.86) entre las

poblaciones de la Costa (n=74); c) las poblaciones se analizaron como un solo grupo

peruano sin ninguna división geográfica. En esta situación, aunque el índice de

diferenciación genética entre las poblaciones fue relativamente bajo (Fst=2.37%),

estadísticamente fue significativo (valor de p=0). Según las tres estrategias probadas en el

sistema AMOVA, los resultados indican un bajo grado de diferenciación entre las

poblaciones (<2.74%) y en ellas gran parte de la diferenciación se debe entre los

individuos (>96%) (Tabla 2 en el Suplemento). Estos resultados, que muestran poca

diferenciación entre las poblaciones peruanas, guardan coherencia con la historia

conocida sobre el poblamiento pre y poscolombino del Perú, donde las migraciones

(incluido el mestizaje) e intercambios comerciales son comunes entre las poblaciones de

la Costa, los Andes y la Selva. Mientras tanto, las pruebas G exactas de diferenciación

poblacional, realizadas a través del programa GENEPOP (100 mil permutaciones en

datos de los 40 marcadores INDELs), mostraron valores de p estadísticamente

significativos; especialmente entre el grupo de poblaciones del Lago Titicaca (Taquile,

Amantani, Anapia, Los Uros) y las poblaciones de San Marcos, Cajamarca, Characato,

Lambayeque y Lima. Concretamente, en el análisis de Coordenadas Principales de tipo


15
MDS (generado en el programa GenAlEx)30, basado en distancias genéticas phiFst, sea

entre las 25 poblaciones peruanas (figura no mostrada) o incluyendo poblaciones de

referencia del panel HGDP-CEPH (Figura 5), los resultados indican coherencia entre los

datos obtenidos a través de los programas STRUCTURE, BAPS y PCA.

Según los análisis de diversidad genética, en las 25 poblaciones analizadas, los

porcentajes del nivel de heterocigosidad observada (Ho=36%) y del nivel de

heterocigosidad esperada (He=37%) fueron muy similares. Considerando todas las 25

poblaciones como un solo grupo, esos valores prácticamente son iguales entre sí

(Ho=36%, He=36%) y muy similares al valor obtenido por el programa PCAGEN

(Htotal=37.3%). Sin embargo, hay que resaltar que los niveles de heterocigosidad de los

40 INDELs están asociados al grado de “mestizaje” de las poblaciones peruanas. Así, se

ha detectado un elevado nivel de heterocigosidad esperada (He) en Characato, San

Marcos, Cajamarca, Lambayeque, Lima y Chogo (0.425, 0.418, 0.41, 0.408, 0.407, 0.40,

respectivamente). En contraste, se halló bajísimos niveles de heterocigosidad en Taquile,

Anapia, Amantani, Yanque y Los Uros (0.307, 0.308, 0.319, 0.332, 0.333,

respectivamente). De hecho, se observó una correlación estadística entre los niveles de

heterocigosidad esperada y los grados de “mestizaje” de las poblaciones peruanas

(Figura 8 en el Suplemento). Estos segundos datos consisten de los índices de las

proporciones de ancestralidad (“filiación Q”) en relación a la variable no nativos

americano (etiquetado como Not America en K=2 de la Tabla 1). La forma de ese

gradiente poblacional se sustenta estadísticamente en el índice de correlación de Pearson

que es altamente significativo (r=0.975; valor de p=2.20E-16).

Discusión

En los últimos años, con el propósito de estimar las proporciones de ancestralidad de los

individuos, se desarrollaron diferentes juegos de marcadores de ancestralidad (AIMs)


16
basados en la comparación de sus distribuciones alélicas en poblaciones de referencia, las

cuales representan a diversos grupos étnicos diferenciados que habitan diversas regiones

geográficas del mundo.2,3,31 Particularmente, en este estudio de las poblaciones peruanas

se usó un juego de 40 marcadores INDELs7 para inferir el impacto de las migraciones pre

y poscolombinas en el poblamiento del Perú.

Previo a este estudio, la aplicación de esos marcadores INDELs en las poblaciones de

Brasil3 reveló una distribución relativamente uniforme de los grados de “mestizaje” en

todas regiones (norte, noreste, sur y sudeste de Brasil, n=934) con predominancia de las

proporciones de ancestralidad genómica derivada de las poblaciones de Europa (rango de

60.6% a 77.7%). Al contrario, en las poblaciones peruanas, usando los mismos

marcadores INDELs, nuestros resultados muestran una predominancia del legado

genómico precolombino o autóctono (rango de 53.8% a 96.5%). Las diferencias

observadas en esos resultados están plenamente correlacionadas con la historia conocida

sobre la colonización sucedida tanto en Brasil como en Perú. En este último, durante el

periodo incaico y contacto inicial con los españoles, hubo un gran tamaño poblacional

“autóctono”, especialmente a lo largo del Tawantinsuyu.32

También, algunos estudios previos sugirieron algún grado de estructuración poblacional

en el Perú. Por ejemplo, un estudio33 reportó una similitud de rasgos de los patrones

dermatoglíficos entre las poblaciones del norte y centro, pero que habría marcadas

diferencias con los de las poblaciones del Altiplano peruano. Otro estudio basado en

marcadores STRs (repeticiones de microsatélites DNA)34 sugirió que las poblaciones

peruanas estarían agrupadas según las regiones geográficas como norte, centro y sur;

además, ese estudio, si bien no mostró evidencias, reportó que habría alrededor de 30%

de “mestizaje” con poblaciones no nativas de América. En nuestro estudio el valor total

(expresado en proporción) de no América (es decir, que no derivan de nativos


17
americanos) en la partición K=2 (Tabla 1) es 20%, coincidentemente, alrededor de aquel

porcentaje.

Por otra parte, cabe mencionar que en muchas investigaciones desarrolladas en las

poblaciones continentales o “nativas”, se asume que ellas estarían geográficamente

estructuradas y sin mestizaje; pero esa premisa podría conducir a un sesgo estadístico o

inferencial en los análisis. Por ejemplo, los individuos de las poblaciones aborígenes de

Europa, Oriente Medio/Asia Central y norte de África comparten entre sí una gran

proporción de sus perfiles genómicos (Figura 3) (lo que se explicaría por la interacción

demográfica o flujo génico ocurrido a lo largo de su historia en el Mediterráneo tal como

en Asia Central). A esas mismas conclusiones se llegó al usar microchips de ADN que

contienen variaciones de un solo nucleótido (SNP).35 Por otro lado, nuestros resultados en

STRUCTURE según la partición en K=2, modelo con “mezcla”, las poblaciones de

Europa y del Este Asiático se encuentran agrupadas como un solo macro grupo, mientras

que los nativos Americanos en otro grupo (Figura 2). Tal escenario coincide con los

resultados de 678 STRs autosómicos reportados por Wang et al.36 pero se distingue de

otras publicaciones6,7,37 donde las poblaciones del Este Asiático resultan agrupados con

los Nativos Americanos. No obstante a esa discrepancia en K=2, nuestros resultados

sobre el retrato molecular de agrupamiento en las particiones desde K=3 hasta K=6

(Figura 3 en el Suplemento), incluyendo todas las 52 poblaciones del panel HGDP-

CEPH, son similares a los demás estudios mencionados. Pero, en cualquier caso, el índice

de la proporción de ancestralidad genómica (conocida como “filiación Q”) de cada

individuo o población hay que considerarlo como un valor aproximado “ad hoc” que

puede cambiar y que es específico para cada situación particular; ya que ello va a

depender del número y tipo de marcadores genéticos usados, cantidad de muestras, las

18
poblaciones de referencia que se usen, así como de la historia demográfica o del grado de

diferenciación interpoblacional.38

Los análisis sobre la estructura genética de las 25 poblaciones peruanas,

considerando la partición en K=5, nos muestran que hay un grado considerable de

“mestizaje” poscolombino con Eurasia (principalmente con europeos) en las localidades

de San Marcos, Cajamarca, Characato, Lima, Lambayeque, Chogo, Lamas, Huancayo y

Ayacucho. Esos resultados son concordantes con los procesos demográficos de la

colonización del Perú. Por otra parte, se ha detectado también rastros significativos de

“mestizaje” con los del Este Asiático en las localidades de Mollebaya (Arequipa),

Pucallpa, Chachapoyas e Iquitos, lo que estaría relacionado a la historia sobre la oleada

migratoria de “culíes” (de China) hacia varios lugares del Perú desde 1870,18 incluyendo

a los lugares mencionados.

Nuestros resultados muestran que no hay una proporción significativa de

mestizaje con poblaciones no autóctonas de América (subdivisión en K=5) en las

poblaciones de Taquile, Amantani, Uros, Anapia (islas en el Lago Titicaca) y Yanque

(Cañón del Colca, Arequipa). Esto se explicaría por el sistema endogámico imperante y

al aislamiento geográfico en las que viven. Por ejemplo, en la isla de Taquile, la

costumbre es la práctica del matrimonio entre parientes de la comunidad, excluyendo a

los foráneos (según nuestras entrevistas personales). Además, los registros históricos

acerca del periodo precolombino describen un escenario demográfico similar tanto en las

poblaciones del Lago Titicaca como de la comunidad de Yanque (Arequipa),

característico de las poblaciones rurales de los Andes Centrales.39

Según los resultados de AMOVA, en general, hay un bajo nivel de diferenciación

genética entre las poblaciones peruanas analizadas, pero es un poco es más alto entre las

poblaciones de los Andes que entre las de la Selva y la Costa. Sin embargo, algunos
19
estudios previos sobre las poblaciones sudamericanas14-17 usando marcadores ADN

autosómicos y uniparentales (excluyendo mestizaje con no-autóctonos) sugirieron un

menor grado de diferenciación genética entre las poblaciones andinas en comparación a

las poblaciones amazónicas. Durante el periodo precolombino, parte de esa

homogenización genética en los Andes parece que sucedió a través del sistema de

mitimaes (desplazamiento forzado de familias o individuos de una a otra región) llevado

a cabo por los Incas.32 Las diferencias observadas en los resultados obtenidos sobre

estudios de las poblaciones peruanas, usando por un lado marcadores INDELs

autosómicos, y por otro, marcadores uniparentales; nos muestra claramente el impacto

del mestizaje poscolombino en la dinámica y flujo de genes en las poblaciones. De hecho,

durante la colonia, el sistema de la mita fue continuado por los encomenderos

españoles,32 quienes se encargaron de desplazar a grupos de individuos a varios centros

mineros de Perú y Bolivia.

Por otra parte, nuestros resultados muestran los más bajos niveles de

heterocigosidad (<31.8%) en las poblaciones de Taquile, Anapia y Amantani, asociado al

no mestizaje; en contraste al elevado nivel de heterocigosidad, y a su vez de mestizaje, en

Cajamarca y Characato (Arequipa). Las poblaciones de estas dos localidades, en el

análisis MDS (Figura 5), forman un conglomerado con las poblaciones de San Marcos,

Lima, Lambayeque y Chogo; lo que sugiere un gran impacto de los eventos de mestizaje

en el periodo poscolombino, los cuales son coherentes con los registros históricos.5,32 En

tanto, las poblaciones de Ayacucho, Huancayo, Lamas, Chachapoyas y Pucallpa,

aparecen muy cercanos entre sí, lo cual podría indicar un grado similar de mestizaje con

euroasiáticos, así como un gradiente de su ancestralidad nativa.40 Otras relaciones entre

las poblaciones, tanto en el MDS como en el PCA, quizás podrían tener similares

interpretaciones. También, en el MDS, hay una corta distancia genética entre las
20
poblaciones de Taquile y Amantani, lo cual corresponde muy bien con la cercanía

geográfica entre ellas (son islas vecinas) así como con los reportes de ancestros comunes,

incluyendo a los quechua-hablantes de Capachica (www.ogdpuno.org). Además, en el

espacio MDS, las poblaciones de Taquile y Amantani están cercanas a la de Anapia

(aymara-hablantes), otra isla del lago localizada entre la frontera de Perú y Bolivia.

Mientras tanto, la población de Los Uros (habitantes de las islas flotantes en el Lago

Titicaca) parece más asociada a otras poblaciones alejadas (Andoas, Chivay y

Cabanaconde), a pesar de que sus perfiles mitocondriales41 muestran su estrecha relación

con quechuas y aymaras del Lago Titicaca. Observando el MDS, hay afinidad genética

entre las poblaciones de Cabanaconde y Chivay, pero no con la comunidad de Yanque

(las tres están ubicadas en el Cañón del Colca), la que se diferencia de las anteriores por

mantenerse prácticamente sin mestizaje con euroasiáticos. Curiosamente, las poblaciones

de Anapia, Taquile, Amantani y Yanque presentan cercanía genética a la comunidad

Karitiana (ubicada en la Amazonía de Brasil), quizás debido por un lado a la ausencia de

mestizaje con no autóctonos, y por otro, un origen común; y además, todas ellas muestran

un elevado nivel de homocigosidad. A su vez, las poblaciones de Pucallpa, Iquitos y

Chachapoyas están estrechamente relacionadas con las de la Amazonía, tales como

Piapoco (Colombia) y Surui (Brasil). Por otra parte, aunque existe una gran distancia

geográfica entre Mollebaya (Arequipa) y Ocopon (Ancash), ambas poblaciones se

muestran afines en el espacio MDS. Esta cercanía, probablemente sea un reflejo de sus

proporciones de mestizaje (según STRUCTURE), las cuales son muy parecidas entre

ellas; y similar escenario ocurre también entre las poblaciones de Characato (Arequipa) y

Cajamarca. Sin embargo, nuestros datos muestran un gradiente de “mestizaje” en las

poblaciones peruanas e indican que las proporciones de ancestralidad dependen de la

historia de cada población específica.


21
En resumen, los análisis de agrupamiento enmarcados en K=5 sobre la

ancestralidad de los peruanos muestran una proporción total de 83% de ancestralidad

nativa americana y un 17% de ascendencia no autóctona, particularmente de indígenas

europeos. Según el marco de análisis en K=2, el peruano en promedio posee alrededor de

80% de proporción derivado de los antepasados del periodo precolombino y el restante, el

20%, de poblaciones de otras regiones continentales, es decir, de inmigrantes luego de

1532, de la época colonial y poscolonial del Perú. Nuestros resultados muestran el gran

impacto del mestizaje en la estructura de las poblaciones peruanas.

El suplemento de este artículo está disponible en la página web

http://www.nature.com/jhg e incluye ocho figuras y dos tablas.

Conflictos de interés

Los autores declaran no tener conflictos de interés.

Agradecimientos

Nuestro agradecimiento a todos los voluntarios que participaron en este proyecto, así

como a Jaime Descailleaux y Margarita Velásquez (UNMSM, Lima, Perú), Cesar Ñique

(USAT, Lambayeque, Perú) por algunas muestras, a Daniela Lacerda (LBEM, Brasil) y

Heloisa B. Pena (GENE-MG, Brasil) por el apoyo técnico, a PEC-PG CAPES/Brasil por

la beca del doctorado, y a FAPEMIG y CNPq de Brasil por el financiamiento.

Referencias

1. Avena, S., Via, M., Ziv, E., Pérez-Stable, E. J., Gignoux, C. R., Dejean, C. et al.

Heterogeneity in Genetic Admixture across Different Regions of Argentina. PLoS

ONE 7, e34695 (2012).


22
2. Galanter, J. M., Fernandez-Lopez, J. C., Gignoux, C. R., Barnholtz-Sloan, J.,

Fernandez-Rozadilla, C., Via, M. et al. Development of a Panel of Genome-Wide

Ancestry Informative Markers to Study Admixture Throughout the Americas.

PLoS Genet. 8, e1002554 (2012).

3. Pena, S. D. J., Di Pietro, G., Fuchshuber-Moraes, M., Genro, J. P., Hutz, M. H.,

Kehdy, F. D. S. G. et al. The genomic ancestry of individuals from different

geographical regions of Brazil is more uniform than expected. PLoS ONE 6,

e17063 (2011).

4. Wang, S., Ray, N., Rojas, W., Parra, M.V., Bedoya, G., Gallo, C. et al.

Geographic Patterns of Genome Admixture in Latin American Mestizos. PLoS

Genet. 4, e1000037 (2008).

5. Lexus Edit. Gran Enciclopedia del Perú (Barcelona, España, 1998).

6. Li, J. Z., Absher, D. M., Tang, H., Southwick, A. M., Casto, A. M.,

Ramachandran, S. et al. Worldwide human relationships inferred from genome-

wide patterns of variation. Science 319, 1100–1104 (2008).

7. Bastos-Rodrigues, L., Pimenta, J. R.  Pena, S. D. J. The genetic structure of

human populations studied through short insertion-deletion polymorphisms. Ann.

Hum. Genet. 70, 658–665 (2006).

8. Lynch, T. A.  Kennedy, K. A. R. Early Human Cultural and Skeletal Remains

from Guitarrero Cave, Northern Peru. Science 169, 1307–1309 (1970).

9. MacNeish, R. S., Berger, R., Protscha, R. Megafauna and man from Ayacucho,

highland Peru. Science 168, 975–977 (1970).

10. Leon, C. E. Origenes humanos en los Andes del Perú (Ed. USMP. Lima, Perú,

2007).

23
11. Aldenderfer, M., Craig, N. M., Speakman, R. J.  Popelka-Filcoff, R. Four-

thousand-year-old gold artifacts from the Lake Titicaca basin, southern Peru.

Proc. Natl. Acad. Sci. U.S.A. 105, 5002–5005 (2008).

12. Caceres, M. J. Las culturas pre-hispánicas del Perú (3ra. Ed. CONCYTEC, Lima,

Perú, 1989).

13. Lumbreras, L. Los orígenes de la civilización en el Perú (5ta. Ed. Milla Batres,

Lima, Perú, 1981).

14. Cavalli-Sforza, L. L., Menozzi, P.  Piazza, A. The History and Geography of

Human Genes (New Jersey, Princeton University Press, 1994).

15. Luiselli, D., Simoni, L., Tarazona-Santos, E., Pastor, S.  Pettener, D. Genetic

structure of Quechua-speakers of the Central Andes and geographic patterns of

gene frequencies in South Amerindian populations. Am. J. Phys. Anthropol. 113,

5–17 (2000).

16. Rodriguez-Delfin, L. A., Rubin-de-Celis, V. E.  Zago, M. A. Genetic diversity

in an Andean population from Peru and regional migration patterns of

Amerindians in South America: data from Y chromosome and mitochondrial

DNA. Hum. Hered. 51, 97–106 (2001).

17. Tarazona-Santos, E., Carvalho-Silva, D. R., Pettener, D., Luiselli, D., De Stefano,

G. F., Labarga, C. M. et al. Genetic differentiation in South Amerindians is

related to environmental and cultural diversity: evidence from the Y chromosome.

Am. J. Hum. Genet. 68, 1485–1496 (2001).

18. Herrera, I. L. Los Inmigrantes Chinos en la Amazonia Peruana.

Bull.Inst.Fr.Et.And. XV, N3-4, pp. 49-60 (1986).

24
19. Jota, M. S., Lacerda, D. R., Sandoval, J. R., Vieira, P. P. R., Santos-Lopes, S. S.,

Bisso-Machado, R. et al. A new subhaplogroup of native American Y-

Chromosomes from the Andes. Am. J. Phys. Anthropol. 146, 553–559 (2011).

20. Pimenta, J. R.  Pena, S. D. J. Efficient human paternity testing with a panel of

40 short insertion-deletion polymorphisms. Genet. Mol. Res. 9, 601–607 (2010).

21. Excoffier, L.  Lischer, H. E. L. Arlequin suite ver 3.5: a new series of programs

to perform population genetics analyses under Linux and Windows. Mol. Ecol.

Resour. 10, 564–567 (2010).

22. Rousset, F. GENEPOP’007: a complete re-implementation of the genepop

software for Windows and Linux. Mol. Ecol. Resour. 8, 103–106 (2008).

23. Falush, D., Stephens, M.  Pritchard, J. K. Inference of population structure using

multilocus genotype data: linked loci and correlated allele frequencies. Genetics

164, 1567–1587 (2003).

24. Pritchard, J. K., Stephens, M.  Donnelly, P. Inference of population structure

using multilocus genotype data. Genetics 155, 945–959 (2000).

25. Earl, D. A.  vonHoldt, B. M. STRUCTURE HARVESTER: a website and

program for visualizing STRUCTURE output and implementing the Evanno

method. Conserv. Genet. Resour. doi. 10.1007/s12686-011-9548-7 (2011).

26. Rosenberg, N. A. Distruct: a Program for the Graphical Display of Population

Structure. Mol. Ecol. 4, 137–138 (2003).

27. Jakobsson, M.  Rosenberg, N. A. CLUMPP: a cluster matching and permutation

program for dealing with label switching and multimodality in analysis of

population structure. Bioinformatics 23, 1801–1806 (2007).

25
28. Corander, J., Marttinen, P., Sirén, J.  Tang, J. Enhanced Bayesian modelling in

BAPS software for learning genetic structures of populations. BMC

Bioinformatics 9, 539 (2008).

29. Chakraborty, R., Kamboh, M. I., Nwankwo. M.  Ferrell, R. E. Caucasian genes

in American blacks: new data. Am. J. Hum. Genet. 50, 145–155 (1992).

30. Peakall, R.  Smouse, P. E. GENALEX 6: genetic analysis in Excel. Population

genetic software for teaching and research. Mol. Ecol. 6, 288–295 (2006).

31. Santos, N. P. C., Ribeiro-Rodrigues, E. M., Ribeiro-Dos-Santos, A. K. C., Pereira,

R., Gusmão, L., Amorim, A. et al. Assessing individual interethnic admixture and

population substructure using a 48-insertion-deletion (INSEL) ancestry-

informative marker (AIM) panel. Hum. Mut. 31, 184–190 (2010).

32. Hunefeldt, C. A brief history of Peru (Lexington Associates, New York, 2004).

33. Ramirez, B. O., Del Valle, M. L.  Arzola, G. N. Dermatoglyphics of a high

altitude Peruvian population and interpopulation comparisons. High Alt. Med. &

Biol. 2, 31–40 (2001).

34. Iannacone, G. C., Parra, R., Bermejo, M., Rojas, Y., Valencia, C., Portugues, L. et

al. Peruvian genetic structure and their impact in the identification of Andean

missing persons: A perspective from Ayacucho. Forensic Sci. Int.: Genet. Suppl.

Series 3, e291–e292 (2011).

35. Reich, D., Patterson, N., Campbell, D., Tandon, A., Mazieres, S., Ray, N. et al.

Reconstructing Native American population history. Nature 1–6.

doi:10.1038/nature11258 (2012).

26
36. Wang, S., Lewis, C. M., Jakobsson, M., Ramachandran, S., Ray, N., Bedoya, G.

et al. Genetic variation and population structure in native Americans. PLoS Genet.

3, e185 (2007).

37. Rosenberg, N. A., Pritchard, J. K., Weber, J. L., Cann, H. M., Kidd, K. K.,

Zhivotovsky, L. A. et al. Genetic structure of human populations. Science 298,

2381–2385 (2002).

38. Latch, E. K., Dharmarajan, G., Glaubitz, J. C.  Rhodes, O. E. Relative

performance of Bayesian clustering software for inferring population substructure

and individual assignment at low levels of population differentiation. Conserv.

Genet. 7, 295–302 (2006).

39. Bouysse-Cassagne, T. Poblaciones humanas antiguas y actuales (ORSTOM,

HISBL) 481-498 (Bolivia, 1991).

40. Pardo, C. M., Doherty, V. J., Sangama, S. I. Los Kechuas Lamistas y la

Educacion Bilingue Intercultural: Historia y Razon de un compromiso (Ed. SAC

PT, Tarapoto, San Martin, Perú, 2001).

41. Sandoval, J., Delgado, B., Rivas, L., Bonilla, B., Nugent, D. y Fujita, R. Variantes

del ADNmt en isleños del lago Titicaca: máxima frecuencia del haplotipo B1 y

evidencia de efecto fundador. Rev. peru. biol. 11, 161–168 (2004).

27
Figura 1 Ubicación de las 25 localidades peruanas de cuyas poblaciones se obtuvieron

las muestras para el presente estudio. Ver los respectivos códigos en la sección

MATERIALES Y METODOS.

28
Figura 2 Representación espacial del conglomerado en K=2, visualizados por el

programa DISTRUCT y según los resultados del programa STRUCTURE (ver el código

de las 25 poblaciones en MATERIALES Y METODOS). Poblaciones del panel de

HGDP-CEPH: Europa (n=161), Este Asiático (n=251) y América (n=105). Las

proporciones de ancestralidad de los individuos están representados por barras verticales

de diferentes colores, mientras que a nivel de poblaciones por delimitados segmentos

verticales. East Asia=Este Asiático

29
Figura 3 Representación espacial en forma de “códigos de barras” de la partición en

K=5, visualizado por DISTRUCT, según resultados de STRUCTURE para 52

poblaciones del panel HGDP-CEPH junto a las 25 poblaciones peruanas (códigos en

MATERIALES Y METODOS). Las proporciones de ancestralidad (coeficientes Q) de

los individuos están representados por barras verticales de diferentes colores, mientras

que a nivel de poblaciones por delimitados segmentos verticales. El gráfico en la parte

inferior es un aumento para visualizar mejor los detalles en las 25 poblaciones peruanas.

Middle East=Oriente Medio; East Asia=Este Asiático; Peruvian locations = localidades

peruanas.

30
Figura 4 Relación entre los índices de las proporciones de ancestralidad de los peruanos,

según la contribución de América y del conjunto Europe_ME_CA (Tabla 1).

ME=Oriente Medio; CA=Asia Central. Ver las respectivas abreviaturas poblacionales en

la sección MATERIALES Y METODOS.

31
Figura 5 Representación bidimensional MDS (según distancias genéticas PhiST) entre 18

poblaciones (n=386) del panel HGD-CEPH (África, n=55; Oceanía, n=17; Oriente

Medio, n=29; Europa, n=43; Asia Central, n=25; Este Asiático, n=109; América, n=108)

y las 25 poblaciones peruanas. Ver los respectivos códigos numéricos en la sección

MATERIALES Y METODOS.

32
Tabla 1 Valores promedios de coeficientes de las proporciones de ancestralidad (filiación

Q) según la partición K=5, generados por STRUCTURE. Para la determinación de esos

valores en las poblaciones peruanas, se usó como referencia las 52 poblaciones del panel

HGDP-CEPH. Además, se muestran los valores Q según la partición K=2: Not America

y America. ME=Oriente Medio; CA=Asia Central. East Asia=Este Asiático;

Europe=Europa).

K=5 K=2

Location n America Oceania East Asia Europe_ ME_CA Africa Not America America

Andes
Ayacucho 31 0.808 0.058 0.031 0.081 0.022 0.228 0.772
Huancayo 29 0.822 0.040 0.049 0.061 0.028 0.213 0.787
Cabanaconde 20 0.923 0.022 0.019 0.026 0.01 0.156 0.844
Chivay 25 0.930 0.019 0.019 0.023 0.009 0.151 0.849
Characato 8 0.548 0.136 0.041 0.244 0.031 0.346 0.654
Mollebaya 8 0.852 0.026 0.080 0.031 0.011 0.179 0.821
Ocopon 11 0.903 0.024 0.019 0.037 0.017 0.171 0.829
Chogo 14 0.725 0.068 0.033 0.146 0.028 0.267 0.733
Cajamarca 34 0.619 0.093 0.049 0.205 0.034 0.311 0.689
San Marcos 19 0.538 0.093 0.037 0.312 0.02 0.336 0.664
Andahuaylas 19 0.934 0.017 0.022 0.018 0.008 0.131 0.869
Kaquiabamba 9 0.918 0.018 0.041 0.016 0.007 0.149 0.851
Huarochirı́ 15 0.911 0.020 0.037 0.02 0.012 0.175 0.825
Yanque 10 0.955 0.011 0.015 0.011 0.008 0.124 0.876
Uros 25 0.936 0.020 0.014 0.018 0.012 0.145 0.855
Anapia 24 0.958 0.009 0.017 0.009 0.007 0.112 0.888
Amantani 31 0.961 0.009 0.013 0.01 0.006 0.107 0.893
Taquile 23 0.965 0.009 0.011 0.009 0.006 0.105 0.895

Amazon
Andoas 71 0.903 0.026 0.022 0.037 0.012 0.153 0.847
Iquitos 8 0.882 0.022 0.060 0.018 0.018 0.196 0.804
Pucallpa 10 0.764 0.090 0.052 0.080 0.014 0.242 0.758
Chachapoyas 15 0.806 0.034 0.082 0.054 0.024 0.218 0.782
Lamas 18 0.800 0.060 0.035 0.087 0.018 0.222 0.778

Coast
Lambayeque 31 0.710 0.067 0.046 0.145 0.033 0.280 0.720
Lima 43 0.690 0.099 0.044 0.143 0.023 0.283 0.717
Total 551 0.830 0.044 0.035 0.074 0.017 0.200 0.800

33
Suplemento

Figura 1. Gráfico del resultado del programa STRUCTURE HARVESTER según el

método de Evanno, mostrando K=2, como el valor modal=190.05 correspondiente a

K=2. La conglomeración de las poblaciones en dos sugiere la mayor probabilidad de

ajuste de los datos de los INDELs (n=551). Media Ln P (K)=-24225.1; SD=2.32;

Ln’(K)=213.33; Ln’(K)=440.45; 10 simulaciones bayesianas para cada valor de K (de 1

a 10).

34
Figura 2. Gráfico de los valores de los coeficientes Q, según K=2, calculados por

STRUCTURE y visualizado por ade4. 14 poblaciones se incluyeron en el agrupamiento

1, mientras que 11 en el grupo 2.

35
Figura 3. Visualización por el programa DISTRUCT, según las particiones de K=3 a

K=6, obtenidos por STRUCTURE. Las poblaciones peruanas (enumeradas del 1 al 25,

según los códigos indicados en MATERIALES Y METODOS) y las de referencia del

panel HGDP-CEPH (África, Europa, Oriente Medio, Asia Central, Este Asiático;

O=Oceanía, Amer=América) están representadas por delimitados segmentos verticales,

mientras que los individuos por delgadas barras verticales de diferentes colores según las

proporciones de ancestralidad de los mismos.

36
Figura 4. Representación tridimensional de la partición K=3 (África, n=157; Eurasia,

n=760; Oceanía, n=39; y América, n=108). Las poblaciones peruanas y las de referencia

nativa americana (Americans) son mostradas por esferas amarillas (abreviaturas de las

poblaciones peruanas en MATERIALES Y METODOS); las poblaciones euroasiáticas

por cuadrado rojo, las de Oceanía por cuadrado anaranjado y las de África por cuadrado

verde.

37
Figura 5. Representación espacial en forma de “códigos de barras” de la partición en

K=5, obtenido por STRUCTURE y bajo el modelo condicional “no mestizaje” y

“frecuencias alélicas no correlacionadas” (MCMC=2x106, burn-in=100,000). Las

poblaciones peruanas (enumeradas del 1 al 25, según los códigos indicados en

MATERIALES Y METODOS) y las de referencia del panel HGDP-CEPH (África,

Europa, Oriente Medio, Asia Central, Este Asiático, Oceanía, América) están

representadas por delimitados segmentos verticales, mientras que los individuos por

delgadas barras verticales de diferentes colores según las proporciones de ancestralidad

de los mismos.

38
Figura 6. Agrupamiento bayesiano por el programa BAPS, a priori como K=4, bajo el

modelo condicional “mestizaje”. Las poblaciones peruanas (enumeradas del 1 al 25,

según los códigos indicados en MATERIALES Y METODOS) y las de referencia del

panel HGDP-CEPH: AFR=África, EURASIA= Europa, Oriente Medio, Asia Central,

Este Asiático), O=Oceanía, A=América) están representadas por delimitados segmentos

verticales, mientras que los individuos por delgadas barras verticales de diferentes colores

según las proporciones de ancestralidad de los mismos. En el gráfico aumentado de

tamaño, para los detalles, se visualizan los grados de mestizaje.

39
Figura 7. Gráfico PCA de los dos principales componentes, donde se muestra la

diferenciación genética entre las poblaciones peruanas (abreviaturas en MATERIALES Y

METODOS). Para comparar con los resultados de STRUCTURE, las poblaciones más

mestizas están representados por cuadrados de color rojo, mientras que las poblaciones

sin mestizaje por triángulos de color azul.

40
Figura 8. Gráfico de la relación entre los índices de heterocigosidad esperada (He) y los

coeficientes de filiación Q, tanto de las poblaciones peruanas (abreviaturas en

MATERIALES Y METODOS) como de las no autóctonas (No America), basado en la

Tabla 1, en caso K=2. El índice de correlación de Pearson (r) es de 0.975.

41
Tabla 1. Comparación entre las proporciones de mestizaje (media) de las poblaciones

peruanas, según los resultados de los programas STRUCTURE y ADMIX. Poblaciones

de referencia del panel HGDP-CEPH: Europa (n=161) y América (n=108).

STRUCTURE ADMIX
K=2 (América y Europa) (América y Europa)
Localidad América Europa América Europa
Ayacucho 0.778 0.222 0.787 0.213

Huancayo 0.798 0.202 0.793 0.207

Cabanaconde 0.887 0.113 0.916 0.085

Chivay 0.910 0.090 0.901 0.099

Yanque 0.945 0.055 0.948 0.052

Characato 0.539 0.461 0.594 0.406

Mollebaya 0.847 0.153 0.929 0.071

Ocopon 0.861 0.139 0.853 0.147

Chogo 0.711 0.289 0.692 0.308

Cajamarca 0.617 0.383 0.661 0.339

San Marcos 0.521 0.479 0.576 0.424

Andahuaylas 0.911 0.089 0.958 0.042

Kaquiabamba 0.918 0.082 0.943 0.057

Huarochiri 0.905 0.095 0.856 0.144

Uros 0.909 0.091 0.893 0.107

Anapia 0.955 0.045 0.962 0.038

Amantani 0.953 0.047 0.975 0.025

Taquile 0.956 0.044 0.945 0.056

Andoas 0.886 0.114 0.942 0.059

Iquitos 0.904 0.096 0.914 0.086

Pucallpa 0.762 0.238 0.770 0.230

Chachapoyas 0.802 0.198 0.840 0.160

Lamas 0.788 0.212 0.807 0.193

Lambayeque 0.696 0.304 0.688 0.312

Lima 0.675 0.325 0.711 0.289

42
Tabla 2. Resultados de la plataforma AMOVA según el programa Arlequin, usando

diferentes niveles de agrupamiento de las poblaciones peruanas.

Entre Entre Entre Entre Dentro de


Agrupamiento grupos poblaciones poblaciones individuos individuos
(%) WG (%) (%) WP (%) (%)

3 regiones
(Selva, Andes, y 0.330 2.182 1.373 96.120
Costa)
Selva 0.995 2.088 96.917
Andes 2.740 0.816 96.444
Costa 0.365 2.652 96.982

1 región (Perú) 2.366 1.375 96.259

WG=dentro de grupo, WP=dentro de poblaciones.

43

View publication stats

También podría gustarte