Está en la página 1de 10

Virus del Papiloma Humano tipo 16 variantes genticas: Filogenia y Clasificacin basada en E6 y LCR De origen natural las variantes

genticas de papiloma humano tipo 16 (HPV16) son comunes y previamente han sido clasificadas en 4 grandes linajes; europeo-asiticas (EAS), incluyendo el europeo sublineages (EUR) y de Asia (As), africanos 1 (AFR1), African 2 (AFR2), y NorthAmerican/Asian-American (NA / AA). Weaimed para mejorar la clasificacin de HPV16 distintas especies mediante el uso de un gran recurso de HPV16-positivas las muestras cervicales recogidas de poblaciones geogrficamente diversas de estudios onHPVand / o cncer cervical llevada a cabo por la Agencia Internacional para la Investigacin sobre el Cncer. En total, se secuenciaron los genes E6 enteras y regiones largas de control (LCR) de 953 HPV16 aislados procedentes de 27 pases diferentes. Los anlisis filogenticos confirmado variante descrita anteriormente linajes y subclasificaciones. Wecharacterized dos sublinajes nuevas dentro de cada uno de los linajes AFR1 y AFR2 que son fuertemente clasificados de E6 y / o LCR. Comoparapoder diferenciar AA1 previamente identificados, AA2, y sublineages NA, aunque podran no se distinguen por E6 solo, que requiere la LCR para la clasificacin filogentica correcta. Wethus proporcionar un sistema de clasificacin para los HPV16 genomas basados en 13 y 32 filogenticamente posiciones distintivas en E6 y la LCR, respectivamente, que distinguir nueve HPV16 sublineages variantes (EUR, As, AFR1a, AFR1b, AFR2a, AFR2b, NA, AA1, y AA2). El noventa y siete por ciento de los 953 muestras provistas esta clasificacin perfectamente. Otras posiciones eran frecuentemente polimrficos dentro de uno o ms linajes pero no defini filogentico subgrupos. Esta clasificacin estandarizada de HPV16 variantes es importante para futuros estudios epidemiolgicos y biolgicos de el potencial carcinognico de HPV16 distintas especies.

Los virus del papiloma humano (VPH) son circulares de doble cadena Virus de ADN que son altamente prevalentes en la poblacin general. Los VPH se pueden dividir en dos grupos, la mucosa y cutnea, de acuerdo con el tropismo tisular. Varios tipos de VPH mucosales han sido identificados como los agentes etiolgicos para el cncer cervical y se denominan tipos de VPH de alto riesgo (HR) (17). El VPH tipo 16 (HPV16) es el ms frecuente de recursos humanos en todo el mundo y es de tipo de VPH encontrado en la mayora de los casos de cncer cervical (7, 21). El genoma de HPV16 es de aproximadamente 7.900 pb de longitud y consta de 8 codificacin de protenas-genes (L1, L2, E1, E2, E4, E5, E6, y E7) y 2 regiones no codificantes (la regin no codificante [NCR] y el largo regin de control [LCR]) (20). E6 y E7 son los principales oncoprotenas, que estn implicados en la tumorignesis y son altamente expresado en tumores. La LCR, adyacente a E6 rio abajo, contiene principios de los aos promotor y elementos reguladores implicados en la replicacin del ADN viral y la transcripcin. El NCR es una regin localizada entre corto E5 y L2.

El genoma de referencia HPV16 se secuenci por primera Seedorf et al. en 1985 (19) y se revis por Myers et al. en 1995 (18). Muchas variantes de origen natural han encontrado desde entonces. El primer estudio mundial de HPV16 en variantes se hizo en 1993 por Ho et al. (11), quien inform que las variantes HPV16 LCR segregar robustamente en un rbol filogentico con cinco linajes variantes principales: Europea (EUR), Asitico (As), Asian-American (AA), y dos linajes africanos, Africano y afro-1-2 (AFR1 y AFR2) (11, 12). Linaje Los nombres se derivan de la procedencia geogrfica de las poblaciones en que son los ms frecuentes (11, 12). Yamada et al. con posterioridad secuenciado varios genes y describe un linaje adicional, Amrica del Norte (NA) (23, 26, 27). Los VPH mutan muy lentamente, ya que son de doble cadena Virus de ADN que utilizan la DNA polimerasa excelente correccin de pruebas capacidad de su husped. Sin embargo, los polimorfismos de nucletidos puede ocurrir a travs de la mutacin aleatoria y puede establecerse en una poblacin. Esta deriva gentica se ha observado entre HPV16 variantes, lo que sugiere su coevolucin con la humanidad (4, 11). Una variante de HPV es un genoma definido por una combinacin nica de polimorfismos de nucletido nico (SNPs). Una reciente propuesta definira linajes principales variantes por una diferencia de aproximadamente el 1,0% entre los genomas completos del mismo tipo de HPV, con diferencias de 0,5 a 0,9% que definen sublinajes (3, 5, 6). Varios estudios, basados principalmente en la secuenciacin de E6 y / o la LCR en estudios realizados en Europa y Amrica, han sugerido que el VPH 16 variantes pueden influir en la persistencia viral y el desarrollo del cncer cervical (9, 24, 25, 28, 30). Sin embargo, para los futuros estudios a gran escala epidemiolgicos, es importante contar con una clasificacin completa y estandarizada de HPV16 sublinajes variantes en todo el mundo. Por lo tanto, hemos secuenciado los genes E6 y todo LCRs de 953 pacientes procedentes de 27 pases diferentes, entre ellos un mayor enfoque en HPV16 aislados procedentes de frica y Asia, con el fin de examinar la clasificacin prctica de HPV16 sublinajes variantes mediante el uso de una regin frecuentemente analizados.

Resultados El gen E6 y la LCR fueron secuenciados en un total de 985 HPV16-positivas las muestras cervicales. Siete muestras coinfectadas con ms de una variante de HPV16 y 25 muestras con deleciones en el LCR fueron excluidos, dejando 953 muestras en el anlisis posterior. Las muestras se incluyeron desde el norte de frica (n= 221), frica subsahariana (n= 191), las Amricas (n= 116), Asia Occidental (n= 137), Asia oriental (n= 175) y Europa (n= 113) (Tabla 1). En total, se identificaron 49 variables en E6 nucletidos (nt de 104 a nt 559), que ocurrieron en 68 combinaciones nicas, y 169 nucletidos variables en el LCR (de 7157 a nt nt 83), que se producen

en 288 combinaciones nicas. Para E6 y el combinado LCR, haba 353 variantes nicas. Estos incluyeron 99 variantes se encuentran por lo menos dos veces (que constituyen el 73% de todas las muestras), los cuales fueron incluidos en el anlisis del rbol de capital filogentico (Fig. 1). El rbol filogentico separados en cuatro ramas principales (es decir, los linajes) que podran ser reconocidos por la nomenclatura de los estudios previos: (i) EAS, incluyendo los sublineages Europeas (EUR) y asiticos (As), (ii) africana 1 (AFR1) , incluyendo dos sublineages que tentativamente definidas como AFR1a y AFR1b, (iii) africanos 2 (AFR2), incluyendo dos sublineages que tentativamente definidas como AFR2a y AFR2b, y (iv), AA / NA, incluyendo Amrica del Norte (NA) Asian-American-1 (AA1), y de origen asitico-2 (AA2) sublinages. Un segundo, ms grande, rbol filogentico fue generado incluyendo todas las 353 variantes E6/LCR nicas del presente estudio, as como nuevos adicional publicado secuencias E6/LCR recuperados de la obra de Kammer et al. (2002) (n= 9), Bhattacharjee et al. (2008) (n= 18), y Smith et al. (2011) (n= 46) (1, 15, 20) (Fig. 2). Este rbol ms grande tena una estructura similar, con los mismos nueve sublineages (EUR, As, AFR1a, AFR1b, AFR2a, AFR2b, NA, AA1, AA2), incluso si la distincin entre AA1 y AA2 se volvi menos clara, lo que demuestra la robustez de la rbol. Secuencias de la agrupacin en cada uno de estos nueve sublineages mostr un especfico "ncleo" patrn de SNPs. La Tabla 2 muestra una clasificacin basada en SNPs (13 y 32 en E6 y LCR, respectivamente) que distinguen al menos dos de los nueve sublineages una de la otra. Algunos SNP eran "diagnstico" para un sublinaje dado (vase a continuacin), lo que significa que eran exclusivas de un sublinaje especfico. No SNPs de diagnstico tales estaban disponibles para NA o AFR2b (Tabla 2). Equivalente a las designaciones nuestros sublinaje nomenclatura, basada en la secuenciacin del genoma completo (RD Burk, comunicacin personal), tambin se da. Del total de 953 muestras, 96,5% perfectamente equipado la clasificacin indicada anteriormente (Tabla 3). De las 33 muestras que no encajaban perfectamente, 30 de diferencia de slo un SNP de una de las variantes sublineages (todos cayeron claramente en una de las ramas principales del rbol filogentico en la fig. 2). Clasificaciones variante sublinaje basado en E6 altamente correlacionados con los basados en el LCR (Tabla 3). Las nicas excepciones fueron dos cepas que se clasificaron como Como en el LCR, pero que faltaban T178G / C, dando lugar a la clasificacin errnea de estos dos aislamientos como EUR, sobre la base de E6, y un aislamiento que fue clasificado como AFR2b en el LCR, pero tena G132C , dando lugar a una clasificacin errnea como AFR1a, basado en E6. Europa y Asia linaje. El principal euroasitico rama puede ser especficamente diagnosticados por tres posiciones de nucletidos en E6 (145G, 286T, y 289A) y tres en el LCR (7489G, 7764C, 7786C y) (Tabla 2). El sublinaje EUR no puede ser especficamente diagnosticada por cualquier posicin de nucletidos. Varias posiciones de nucletidos que distinguen filogenticamente otros HPV16 sublineages, sin embargo, puede ser polimrficos dentro de la sublinaje Europea (posiciones 109, 131, 178, 335, y 350 en E6; posiciones 7233, 7507, 7730, y 24 en el LCR), de las cuales la ms frecuentemente observada SNP se T350G (54,5%), dando lugar al cambio L83V cido amino. Estos

anlisis SNP se encuentra solo o en combinacin unos con otros. Sin embargo, no parecen definir las ramas filogenticas dentro del sublinaje EUR. En la LCR, T7193G y G7521A estn presentes en 77,6% y 80,5% de los aislados EUR (comparado con el 100% de los aislados de todos los otros linajes). El nico otro SNP comn (> 10%) en aislados EUR era T7450C en el LCR (25,8%). El sublinaje Como se diagnostica especficamente por dos SNPs en 178 nucletidos en E6: T178G, que da lugar a la D25E cido cambio amino, y T178C, un silencioso SNP. El sublinaje Como muestra una combinacin especfica de 8SNPsin la LCR, de los cuales seis son de diagnstico (T7177C, T7201C, C7270T, A7287C, G7842A / T, y C24T). Curiosamente, el SNP T178A (n= 4), que previamente ha sido mal clasificados en la medida sublinaje sobre la base de E6 solo, se muestra claramente que es especfica para la sublinaje EUR cuando el LCR se tiene en cuenta. El sublinaje Como se diagnostica especficamente por dos SNPs en 178 nucletidos en E6: T178G, que da lugar a la D25E cido cambio amino, y T178C, un silencioso SNP. El sublinaje Como muestra una combinacin especfica de 8SNPsin la LCR, de los cuales seis son de diagnstico (T7177C, T7201C, C7270T, A7287C, G7842A / T, y C24T). Linajes africanos. La rama principal AFR puede ser especficamente diagnosticada por la presencia de C143G en E6 y C31T en el LCR (Tabla 2). Todos los aislamientos AFR muestran un patrn comn de cinco SNPs en E6, a saber, C143G, G145T, T286A, A289G, y C335T, que dan lugar a dos cambios de aminocidos, Q14D y H78Y. Los dos linajes africanos anteriormente descritas, AFR1 y AFR2, se confirmaron y se podan distinguir especficamente entre s sobre la base de 4 posiciones de nucletidos en el LCR (posiciones 7485, 7669, 7826, y 7837). No SNPs en E6 poda distinguir AFR1 de AFR2. AFR2 podra ser especficamente diagnosticada por la presencia de G7826A y A7837C en el LCR. No poda diagnosticar especficamente SNPs AFR1. Los AFR1 y AFR2 sucursales cada uno mostr una divisin adicional en dos sublineages, que tentativamente llamado Afro-1a, 1b-africano, African-2a, 2b y africanos. Aunque estas divisiones fueron menos estables que otros linajes en el rbol filogentico (Fig. 1 y 2), la clasificacin basada en los SNP distintivo en la E6 y la LCR se correlacion muy bien (Tabla 3). Estos cuatro sublineages africanos podan distinguirse unas de otras por la combinacin de los seis SNPs en E6 (en las posiciones 109, 131, 132, 295, 350, y 403) y 11 en el LCR (en las posiciones 7232, 7233, 7435, 7485, 7669, 7826, 7837, 7839, 7876, 25, y 83). SNPs diagnstico parecen existir en la E6 y LCR para AFR1a (G132C y A83C), AFR1b (T295G, A7232C, A7438C, y T25C), y AFR2a (G132T, A403G, G7435A, y A7839G) pero no para AFR2b. Adems, dentro de la rama AFR2a del rbol filogentico, una ramificacin adicional se puede observar (pero no est incluida en la clasificacin en la Tabla 2). Esto es debido a dos SNPs en el LCR, T7282G y A7372C, que estn siempre presentes en una, pero siempre ausentes en el otro.

Otro SNPs comn (> 10% de cualquier sublinaje) en aislados AFR se T7293G (12,3%), A7611G (17,3%), y T7714A (43,2%) en AFR1a; G7868A (37,5%) en AFR1b; T7282G (45,9%), G7372C (46,6%), G7387C (45,6%), y G7868A (35,6%) en AFR2a, y T7282G (10,4%), A7348G (10,4%), T7450G (17,2%), T7643G (24,1%), A7688T (24,1%), y A7688G (13,8%) en AFR2b Linajes norteamericanos y asiticos-americanos. Los linajes NA / AA se agrupan en una rama principal del rbol filogentico (Fig. 1 y 2). Sin embargo, ningn SNP en E6 o la LCR puede reconocer especficamente la mayor NA / AA rama (Tabla 2). Todas las cepas NA / AA muestran un patrn comn de cinco SNPs en E6, a saber G145T, T286A, A289G, C335T y T350G (que dan lugar a tres cambios de aminocidos, Q14H, H78Y, y L83V), y 7 SNPs en el LCR, a saber, A7233C, A7485C, G7489A, C7669T, C7689A, C7764T y C7786T. El linaje NA / AA se divide en dos ramas, una para los dos sublineages AA y otro para el sublinaje NA (Fig. 1 y 2). La NA, AA1, AA2 y sublineages se pueden distinguir sobre la base de la combinacin de los seis SNPs en el LCR (en las posiciones 7339, 7394, 7507, 7743, 7834, y 7886). De estos, A7507C y T7743G son diagnsticos para las sublineages y AA2 AA1, respectivamente. Sin embargo, los sublineages NA, AA1, AA2 y no poda distinguirse sobre la base de E6 solo. Mientras A532G estaba siempre presente en AA1 y siempre ausente en NA, podra estar ausente o presente en AA2. De nota, en nuestras muestras, 100% de los aislados AA2 contenida A7894C. Sin embargo, como esto parece no suele ser el caso en otros conjuntos de muestras publicados (20), no incluimos esta posicin en nuestra clasificacin. Otro SNPs comn (? 10% de cualquier sublinaje) ocurri slo inNAisolates: T183G (78,6%) (que resulta en el cambio de aminocidos I27R), T271C (21,4%) (un silencioso SNP), G7359A (70,0%), G7360A (70,0 %), T7441G (70,0%), y C7784T (70,0%). Distribucin geogrfica de HPV16 sublineages. La Figura 3 muestra la distribucin de los HPV16 sublineages por regin geogrfica. Las muestras con theEURlineage fueron bien distribuidos entre las distintas regiones geogrficas. Las distintas especies As y AFR predominaron en las muestras procedentes del Este de Asia y frica, respectivamente. Sin embargo, el linaje AFR1a se encuentra principalmente en el frica subsahariana y el linaje AFR1b en el norte de frica (sin diferencias para los AFR2 linajes). Los linajes AA1 y AA2 fueron comnmente visto en las muestras de Sur / Amrica Central, pero el linaje AA1 era ms probable que se encontraron en las muestras de Asia. Por ltimo, el linaje NA fue encontrado que es particularmente frecuente en muestras procedentes de frica del Norte.

DISCUSIONES Esta actualizacin HPV16 anlisis filogentico confirm previamente reportados distintas especies (4, 11, 12, 23, 26, 27) y fue capaz de identificar niveles adicionales de estratificacin filogentico HPV16. Sobre la base de un total de 953 secuencias E6/LCR aislados en todo el mundo, con una alta proporcin de los aislamientos procedentes de frica y Asia, hemos sido capaces de producir

un rbol filogentico actualizado que claramente identificado nueve sublineages: EUR, As, AA1, AA2, NA, AFR1a , AFR1b, AFR2a, y AFR2b. Esta estructura de rbol era robusto, con independencia de si todas las secuencias nicas, o slo los encontrados en al menos dos muestras se consideraron. Anlisis ThiOur era particularmente informativo con respecto a la elaboracin de las ramas africanos del rbol filogentico, desde frica HPV16 aislados estuvieron mejor representadas que en estudios anteriores. Hemos identificado dos nuevas sucursales, en tanto AFR1 y AFR2, que tentativamente identificados como afro-1a, 1b-africana, afro-2a, 2b y africanos. Cada uno de estos cuatro sublineages mostr una combinacin especfica de SNPs en tanto E6 y la LCR. La caracterizacin de estos sublineages muestra que no hay un nico SNP en E6 que puede distinguir AFR1 de AFR2, como se haba sugerido previamente. Es de destacar que la fuerte representacin de AFR1b (y NA) en el presente anlisis actualizado se debi principalmente a la inclusin de las muestras del norte de frica (Argelia y Marruecos), lo que sugiere que esta regin geogrfica representa una rama poco estudiada previamente de HPV16 evolucin. Este anlisis actualizado tambin revel que solo E6 no permite la distincin entre el AA1 tres sublineages estrechamente relacionados, AA2, y NA, como se haba sugerido previamente (13). Aunque el SNP A532G est siempre presente en AA1 y siempre ausente en NA, puede estar ausente o presente en AA2. La incapacidad de E6 para distinguir estos sublineages es importante para los estudios epidemiolgicos, ya que es particularmente el sublinaje AA1 que se ha sugerido que se asocia con neoplasia intraepitelial cervical grado 3 o peor (CIN3?) Del riesgo basada en el anlisis de genoma completo (20). Clasificaciones anteriores basados en E6 solo han situado aislados que contenan T178A en el Como linaje (debido a la presencia comn de la T178G similares SNP en la medida linaje) (13). Sin embargo, los cuatro aislamientos tales presentes en nuestro anlisis se clasificaron como claramente EUR sobre la base de la LCR. La LCR se confirm que contienen mucha ms informacin filogentica de E6 y distinguir los nueve sublineages propuestos, sin el requisito de E6. Ciertas partes de la LCR eran ms densas en informacin filogentica que otros. El fragmento ms corto de la LCR que permiti la distincin de los nueve sublineages era la regin desde el nt 7743 al nucletido 25 (~300 pb). Para los estudios epidemiolgicos basados en la deteccin de SNPs en E6 y / o la LCR, es por lo tanto proponer una clasificacin prctica de distintas especies utilizando 45 posiciones de nucletidos (13 y 32 posiciones en E6 y la LCR, respectivamente) que se pueden distinguir cada uno al menos dos de las nueve descritas anteriormente sublineages el uno del otro. Sin embargo, hay una redundancia tanto en esta clasificacin, por lo que no todas las 45 posiciones en E6 y la LCR son necesarios para la clasificacin en una de las nueve sublineages. De hecho, existe un menor nmero de SNPs de diagnstico que son especficos para un sublinaje dado. Sin embargo, no existen en SNPs diagnstico E6/LCR para EUR, NA, o AFR2b. Adems, muchos E6/LCR SNPs diagnstico previamente propuesto por Smith et al. (20) (basado en 62 genomas completos HPV16) demostr no ser verdaderamente sublinaje en concreto de nuestro anlisis ms amplio. En

E6, por ejemplo, C335T no es diagnstico para no EAS linajes, y T109C, G132T, y A403G no son diagnsticas para AFR2 (20). Esto indica que con una expansin de muestras de todo el mundo, tales como los presentados en este estudio, el nmero de serie nico de diagnstico de SNPs para linajes especficos o sublinajes disminuir. La robustez de la clasificacin fue confirmada por la correlacin casi perfecta del patrn de SNPs en E6 y la LCR, lo que confirma los hallazgos previos de que los patrones de SNPs correlacin a lo largo de la totalidad del genoma HPV16 (6, 20). Dada esta correlacin, anlisis epidemiolgicos de la historia natural y el potencial carcinognico de HPV16 variantes genticas no podrn para distinguir causal linaje especfico de SNPs no causal de linaje especfico de SNPs (20) y por lo tanto, debe centrarse en determinar robustos riesgos relativos al nivel de HPV16 sublineages. Tambin se identific un gran nmero de no-linaje especfico de SNPs, principalmente en el LCR. Slo unos pocos no linaje especfico de SNPs se produjo en E6 en? 10% de las muestras en cualquier sublinaje uno, a saber, la bien caracterizada T350G SNP en el linaje EUR (ver ms abajo), as como T183G, T271C, y A532G en el linaje AA2. Sin embargo, estos SNPs no mostr evidencia de definir subgrupos filogenticos. As, los estudios epidemiolgicos deberan comparar estos SNPs no de linaje especfico dentro de un determinado linaje nico, siguiendo el ejemplo de los estudios que han sugerido que los sublineages EUR-350G y EUR-350T difieren en sus riesgos para la persistencia viral (9) y / o cncer cervical (9, 10, 22, 28). Sin embargo, este enfoque es poco probable que sea posible estadsticamente para SNPs ms rara, y la atencin tambin se debe procurar no sobreinterpretar su importancia (13). Nuestra clasificacin utilizado recientemente E6/LCR es consistente con las definiciones de linaje previos basados en la secuenciacin completa del genoma HPV16, adems de destacar algunas estratificaciones finas (6, 20). De hecho, se ha incluido la traduccin al equivalente nomenclatura ms reciente basado en la secuenciacin del genoma completo (R. Burk, comunicacin personal) en la Tabla 2. Sin embargo, mientras que los ltimos de todo el genoma anlisis incluyeron aislados muy pocos representan la NA, AFR1b, y sublineages AFR2b, nuestro anlisis (mientras que sobre la base de E6 y el LCR solamente) incluye aproximadamente 30 aislados de cada uno de estos sublineages (20). Por lo tanto, una seleccin de las cepas ms informativos E6/LCRcharacterized justificara la secuenciacin a travs de sus genomas completos a fin de reforzar la imagen completa de HPV16 evolucin gentica. En resumen, hemos hecho uso de la amplia representacin geogrfica de la muestra cervical IARC biobanco para proporcionar la clasificacin ms completa y prctica para HPV16 sublineages variantes hasta la fecha. Este trabajo puede ayudar a la normalizacin de los futuros estudios epidemiolgicos de la historia natural y la carcinogenicidad de HPV16 variantes genticas, adems de permitir la puesta en comn de los datos de diferentes estudios para superar los problemas de limitaciones de tamao de la muestra de los estudios individuales.

La figura 1 HPV16 rbol filogentico basado en secuencias de 99 E6/LCR nicas encontradas en al menos 2 muestras. Este es un bootstrap (100 repeticiones) rbol UPGMA consenso. La figura 2 HPV16 rbol filogentico basado en 353 secuencias nicas E6/LCR del presente estudio ms secuencias adicionales E6/LCR del trabajo de Smith et al. (20), Bhattacharjee et al. (1), y Kammer et al. (15). Este es un bootstrapped (100 repeticiones) consenso rbol UPGMA.