Está en la página 1de 29

La Dinámica Organizada del Genoma en las Especies de Escherichia coli resulta en Caminos

Adaptativos Altamente Diversos

Resumen La especie Escherichia coli representa uno de los organismos modelo mejor estudiados,
pero también abarca una variedad de cepas comensales y patógenas que se diversifican con altas
tasas de cambio genético. De manera uniforme (re-) anotamos los genomas de 20 cepas
comensales y patógenas de E. coli y una cepa de E. fergusonii (la especie más cercana relacionada
con E. coli), incluyendo siete que secuenciamos hasta su finalización. Dentro de las 18.000 familias
de genes ortólogos, encontramos 2.000 comunes a todas las cepas. Aunque las tasas de
recombinación son mucho más altas que las tasas de mutación, demostramos, tanto teóricamente
como utilizando la inferencia filogenética, que esto no oculta la señal filogenética, que coloca al
grupo filogenético B2 y a una cepa del grupo D en la posición basal. A partir de esta filogenia,
inferimos eventos evolutivos pasados de ganancia y pérdida de genes, identificando clases
funcionales bajo presiones de selección opuestas. Encontramos un importante papel adaptativo
para la diversificación del metabolismo dentro de las cepas del grupo B2 y Shigella, pero
identificamos pocos o ningún gen específico de la virulencia extraintestinal, lo que podría dificultar
el desarrollo de una vacuna contra las infecciones extraintestinales. El flujo genómico en E. coli se
limita a un pequeño número de posiciones conservadas en el cromosoma, que con mayor
frecuencia no están asociadas con integrasas o genes de tRNA. Los genes centrales que flanquean
algunas de estas regiones muestran tasas más altas de recombinación, lo que sugiere que un gen,
una vez adquirido por una cepa, se propaga dentro de la especie por recombinación homóloga en
los genes flanqueantes. Finalmente, la estructura de recombinación a larga escala del genoma
indica tasas de recombinación más bajas, pero no tasas de mutación más altas, al final de la
replicación. El efecto resultante de la selección de fondo y de la conversión génica sesgada puede
explicar por qué esta región es rica en A+T y muestra una alta divergencia de secuencias pero un
polimorfismo de baja secuencia. En general, a pesar de un flujo genético muy alto, los genes
coexisten en un genoma organizado.

Introducción

Escherichia coli fue introducida en los laboratorios hace casi un siglo para convertirse en uno de
los organismos modelo más importantes y, con mucho, el procarionte mejor estudiado. Los
principales hallazgos en genética fágica, conjugación bacteriana, recombinación, regulación
genética y replicación cromosómica implicaron el uso de E. coli, especialmente los derivados de
laboratorio de la cepa K-12, originalmente aislados de las heces de un paciente con difteria
convaleciente en Palo Alto en 1922[1]. Sin embargo, los derivados K-12 están lejos de representar
la totalidad de la especie E. coli[2]. El hábitat primario de E. coli es el tracto intestinal inferior de
los humanos y otros vertebrados, con los que típicamente establece asociaciones comensales. Los
seres humanos sanos normalmente transportan más de mil millones de células de E. coli en su
intestino. Se ha estimado que la mitad de las células vivas de E. coli están fuera de su huésped, en
su hábitat secundario[3]. Además de estos hábitats, ciertas cepas tienen el potencial de causar un
amplio espectro de enfermedades intestinales y extra-intestinales como infecciones del tracto
urinario, septicemia, meningitis y neumonía en humanos y animales[4]. Además, las Shigella, que
han sido elevadas al orden del género con cuatro especies (disenteriae, flexneri, boydii, sonnei)
por su capacidad de generar una diarrea invasiva específica de la mucosa estrictamente en
humanos y sus características bioquímicas, pertenecen de hecho a la especie E. coli[5-7]. Cabe
destacar que la Shigella y la E. coli enteroinvasiva se consideran los únicos patógenos obligatorios
de la especie, mientras que otras cepas son patógenos facultativos con una amplia gama de
hospedantes. Por lo tanto, los aislados naturales de E. coli/Shigella viven en condiciones muy
diferentes a las del laboratorio y deben hacer frente a entornos muy diversos que proporcionan
tensiones que van desde el ataque al sistema inmunológico y el pastoreo protozoario hasta la
inanición, las bajas temperaturas y, más recientemente, la terapia antibiótica. Con su amplia gama
de patologías, la E. coli es una de las principales causas de morbilidad y mortalidad humana en
todo el mundo. Cada año, la E. coli causa más de dos millones de muertes por diarrea infantil[8,9]
e infecciones extraintestinales (principalmente septicemia derivada de infecciones del tracto
urinario)[10], y también es responsable de aproximadamente 150 millones de casos de cistitis no
complicada[10]. Dado que los seres humanos y los animales para consumo humano portan tantas
células de E. coli que pueden establecer interacciones comensales o antagonistas con sus
huéspedes, es obligatorio definir los determinantes genéticos y poblacionales que impulsan a las
cepas comensales a adoptar un comportamiento patógeno. Los estudios de genética de
poblaciones basados tanto en la electroforesis de enzimas multilocus[11-13] como en varios
marcadores de ADN[14-18] han identificado cuatro grupos filogenéticos principales (A, B1, D y B2)
y un posible quinto grupo (E) entre las cepas de E. coli. Las cepas de estos grupos difieren en sus
características fenotípicas, incluyendo la capacidad de usar ciertos azúcares, los perfiles de
resistencia a los antibióticos y las relaciones entre la tasa de crecimiento y la temperatura[19]. La
distribución (presencia/ausencia) de una serie de factores de virulencia que se cree que están
implicados en la capacidad de una cepa para causar diversas enfermedades también varía entre
las cepas de estos grupos filogenéticos[20-22], lo que indica un papel del trasfondo genético en la
expresión de la virulencia[23]. En consecuencia, estos grupos se asocian de manera diferente con
ciertos nichos ecológicos, características de la historia de la vida y propensión a causar
enfermedades. Por ejemplo, las cepas de los grupos B2 y D se aíslan con menos frecuencia del
medio ambiente[24], pero se recuperan con más frecuencia de zonas extra-intestinales del
cuerpo[23]. Mientras que las cepas B2 representan entre el 30 y el 50% de las cepas aisladas de las
heces de los seres humanos sanos que viven en los países industrializados, representan menos del
5% en los amerindios de la Guayana Francesa[25-26]. La clara agrupación de las cepas de E. coli en
grupos monofílicamente significativos se ha utilizado durante mucho tiempo como argumento a
favor de la clonalidad dentro de la especie. Sin embargo, el análisis de las secuencias de genes
muestra una recombinación generalizada, que se corresponde con la conocida eficacia de
conjugación y transducción de la especie[17,27]. Por lo tanto, sigue siendo polémico si una
recombinación tan frecuente borra la señal filogenética. Los genomas de E. coli muestran
evidencia de adquisición generalizada de funciones por transferencia horizontal de genes,
concomitante con cantidades similares de deleción de genes[28-29]. Mientras que menos del 3%
de la divergencia de nucleótidos se encuentra entre genes conservados, el contenido de genes
entre pares de genomas de E. coli puede divergir en más del 30%[30]. Esta diversificación del
contenido genético debido a la transferencia horizontal de genes contribuye en gran medida a la
diversidad de los fenotipos de las cepas y sólo puede cuantificarse con precisión mediante la
secuenciación de un gran número de cepas hasta su finalización y cierre.

Hasta ahora, los esfuerzos de secuenciación en E. coli se han centrado principalmente en las cepas
patógenas, en particular en las cepas diarreicas y en las cepas patógenas extraintestinales del
grupo B2 (véase el Cuadro 1), lo que impide una evaluación imparcial de la diversidad de la
especie. Por lo tanto, hemos secuenciado con alta cobertura y hasta completar los genomas de 6
cepas de E. coli de origen humano. Las cepas de E. coli se eligieron para complementar las
secuencias disponibles y otros proyectos de secuenciación en curso
(http://msc.jcvi.org/e_coli_and_shigella/ index.shtml,
http://www.sanger.ac.uk/Projects/Escherichia_Shigella/). Abarcan dos cepas comensales de los
grupos filogenéticos B1 y B2, una cepa enteroagregante del grupo B1, dos cepas de infección del
tracto urinario del grupo D y una cepa de meningitis neonatal del grupo B2 (Tabla 1). También
secuenciamos la cepa tipo del pariente más cercano de E. coli, es decir, E. fergusonii[31], como un
grupo externo para permitir análisis evolutivos precisos y significativos con los 6 nuevos genomas
de E. coli y los otros 14 genomas de E. coli/Shigella actualmente disponibles. Para corroborar
estadísticamente la identificación de genes asociados a la virulencia extraintestinal, también
aplicamos un ensayo de letalidad en ratones a las cepas[32] para cuantificar la virulencia intrínseca
de la cepa, excluyendo la variabilidad del huésped y otros factores potenciales de confusión (Tabla
1). Nuestro objetivo era aprovechar la excelente oportunidad que nos brinda la disponibilidad de
muchos genomas de una sola especie bacteriana, sobre los cuales se ha acumulado una
considerable cantidad de conocimientos a lo largo de los años, para responder a las siguientes
preguntas. (i) ¿Existe evidencia de recombinación frecuente en todo el genoma y varía según la
ubicación del genoma? ii) En caso afirmativo, ¿puede deducirse, no obstante, una filogenia
bacteriana intraespecífica? iii) ¿Cómo pueden los diferentes factores de la dinámica del genoma
(mutación, transferencia horizontal de genes con o sin recombinación) dar lugar a la diversificación
de las cepas? iv) ¿Está la dinámica del genoma en conflicto con la organización del genoma? v)
¿Cómo evoluciona la dualidad comensalismo/patogenicidad? Resultados/Discusión Las
Características Generales de los Siete Genomas Secuenciados Secuenciamos completamente los
cromosomas y los plásmidos, si los hubiera, de 6 cepas de E. coli y la cepa de tipo de referencia de
E. fergusonii. Las características generales de estas réplicas se enumeran en los Cuadros 2 y 3. Los
genomas se secuenciaron a un promedio de 12 veces la cobertura y luego se terminaron. Los 6
cromosomas E. coli de nueva secuencia contienen entre 4,7 Mb y 5,2 Mb cada uno, lo que
corresponde a entre 4627 y 5129 genes codificadores de proteínas, ligeramente por encima del
valor medio dentro de los 20 genomas que analizamos (4700 genes, que oscilan entre 4068 y
5379). El cromosoma de E. fergusonii es ligeramente más pequeño, con genes codificadores de
proteínas de ,4,6 Mb y ,4500. El contenido de G+C es muy similar entre las 6 cepas y cercano al
valor de E. coli K-12 MG1655 (50,8%). El contenido de G+C de E. fergusonii es inferior al 49,9%.
Estos cromosomas tienen densidades similares de genes codificadores y números de genes de
ARN estables. Por el contrario, el número de pseudogenes varía más ampliamente, de 22 en E.
fergusonii a 95 en la cepa ED1a (Tabla 2). La lista de seudogenes está disponible en la Tabla S1. La
variación en el número de pseudogenes no está correlacionada con el número de elementos
transponibles y genes asociados a la fase, que varían en el rango 42-224 y 201-517
respectivamente. Mientras que algunos genes asociados a los fagos están dispersos a través de los
cromosomas, la mayoría se concentran en regiones prophage bien definidas. Los análisis de los
profetas sugieren que muchos aún pueden ser funcionales. Estos profetas a menudo llevan en su
extremidad algunos genes de carga no relacionados que probablemente surgieron de genomas de
bacterias previamente infectadas, como las que se encuentran en Salmonella[33]. Se secuenciaron
un total de 6 plásmidos, variando en tamaño de 34 a 134 kbp: cuatro cepas poseen un plásmido
cada una mientras que una cepa tiene 2 plásmidos (Tabla 3). Como se observa con frecuencia, los
plásmidos tienen una menor densidad genética (84%, frente a 87% para los cromosomas), menor
contenido de G+C (47,4%, frente a 50,7% para los cromosomas) y más seudogénicos (2,7%, frente
a 1,5% para los cromosomas). El porcentaje de proteínas huérfanas (es decir, que no tienen un
homólogo detectable en otros organismos) también es alto en los plásmidos (6,5 a 52,2%),
mientras que oscila entre 1-3% en los cromosomas.

Se realizó una anotación manual experta de las nuevas cepas de E. coli en genes y regiones que no
se encuentran en E. coli K-12 MG1655 (alrededor de 10 000 genes en total; Tabla S2A). Esto
permitió la re-annotación de ortólogos en los genomas de Escherichia y Shigella previamente
disponibles (ver Materiales y Métodos). Los datos de anotación, junto con los resultados del
análisis comparativo, se almacenaron en una base de datos relacional llamada ColiScope, que está
a disposición del público utilizando la interfaz basada en la web de MaGe en
http://www.genoscope.cns.fr/agc/mage. Este proceso de re-annotación reveló amplias
variaciones en el número de genes recientemente predichos (Tabla S2B). Por ejemplo, entre las
dos cepas de E. coli O157:H7 encontramos el doble de genes recientemente predichos en una
cepa que en la otra. En algunos genomas faltaban genes importantes. Por ejemplo, en E. coli APEC
O1 faltaban varias subunidades del ribosoma, la ADN polimerasa III y la ATP sintasa en la anotación
original (Cuadro S3, hoja de E. coli APEC). En otros genomas, la re-annotación nos permitió
estandarizar la definición e identificación de los pseudogenes. Por ejemplo, en S. sonnei Ss 046 la
mayoría de los genes recientemente anotados corresponden a secuencias de inserción (ISs) y
pequeños fragmentos de pseudogenes incompletamente anotados (Tabla S3, hoja de S. sonnei).
Como resultado de este esfuerzo, la actual base de datos ColiScope contiene un conjunto
completo y consistente de anotaciones para los 7 genomas de nueva secuenciación y los 14
genomas de Escherichia y Shigella disponibles. Estos datos fueron el punto de partida del trabajo
que aquí se presenta. Analizamos la conservación del orden genético dentro de los 21 genomas
(Tabla S4). Más de la mitad de los genomas tienen exactamente el orden genético de E. coli K-12
MG1655, que inferimos como ancestral. Por lo tanto, la organización del genoma central es
estable en la mayoría de las cepas. Tres genomas muestran 1 o 2 reorganizaciones. Siete genomas
muestran más de 10 bloques de sintonía: 6 de estos genomas son de Shigella, cuyas altas tasas de
reordenación resultaron en hasta 65 bloques de sintonía en S. dysenteriae. Estos genomas tienen
un gran número de ISs, que van de 549 a 1155 en S. flexneri y S. dysenteriae, respectivamente,
que son bien conocidos por mezclar genomas. E. fergusonii también muestra un gran número de
reordenamientos relativos a la organización ancestral del genoma de E. coli. Dado que la
organización de algunas cepas de la Salmonella enterica más distantemente relacionada se
asemeja mucho a la de E. coli K-12 MG1655, muchos reordenamientos deben haber tenido lugar
en la rama que conduce a E. fergusonii. La figura S1 proporciona la representación del círculo
concéntrico clásico para los 7 genomas que secuenciamos, mostrando sesgos de GC, variación de
G+C, y una descripción de la presencia de genes en clades cada vez mayores dentro del género, en
relación con el genoma ancestral inferido. La primera posición de las secuencias se eligió para que
coincidiera con la región ortóloga del genoma de E. coli K-12 MG1655 y corresponde a la región
intergénica entre lasT y thrL. Los orígenes y los términos de la replicación se identificaron por los
desvíos de GC y la homología con las respectivas regiones de E. coli K-12 MG1655. Estas cifras
muestran que las divergencias con respecto al contenido medio de G+C se producen a menudo en
regiones genómicas ausentes en las otras cepas. También revelan la estructura altamente mosaica
de estos genomas, que comprende los genes centrales y los genes accesorios, que luego nos
proponemos cuantificar. El análisis de los primeros genomas de E. coli cambió nuestra visión sobre
la evolución de los repertorios de genes en las bacterias. Los genomas dentro de la especie varían
en tamaño en más de 1 Mb, es decir, en más de 1000 genes, e incluso los repertorios genéticos de
genomas de tamaño similar difieren ampliamente[30,34]. De este modo, hemos aprovechado la
disponibilidad sin precedentes de 20 genomas completamente secuenciados de la misma especie
para analizar la evolución del repertorio genético. Primero identificamos el núcleo y los pan-
genomas de E. coli, es decir, los genes presentes en todos los genomas y el conjunto completo de
genes no ortólogos entre todos los genomas. En nuestro conjunto de datos, el genoma promedio
de E. coli contiene 4721 genes, el genoma central contiene 1976 genes, y el pan-genoma contiene
17 838 genes. El muestreo aleatorio de un gen dentro de un genoma de E. coli seleccionado al azar
tiene una probabilidad de sólo ,42% de revelar un gen ubicuo. Por otro lado, la secuenciación
completa de una cepa de E. coli permite la observación de sólo una cuarta parte del pan-genoma
observado. Esto implica que, aunque algunas funciones fundamentales pueden estudiarse bien
utilizando una cepa modelo, ninguna de ellas puede considerarse altamente representativa de la
especie.

Es poco probable que un muestreo adicional de los genomas de E. coli cambie significativamente
la estimación del genoma central, sin embargo, el pangenoma está lejos de ser completamente
descubierto (Figura 1). Los artefactos de anotación y secuenciación pueden afectar las
estimaciones del tamaño del núcleo y del pangenoma, por ejemplo, mediante anotaciones
espurias de genes pequeños o pseudogenes. Esperamos haber minimizado estos problemas
utilizando un conjunto coherente de anotaciones. Aún así, encontramos que 40 genes
considerados esenciales en E. coli K-12 W3110[35] faltaban en el genoma central. Entre ellos, 17
corresponden a genes con informes contradictorios de esencialidad, o genes contextualmente
esenciales como los represores de profagios, y están ausentes en la mayoría de los genomas. Los
otros 23 genes tienen ortólogos en la mayoría de los genomas y 19 faltan en un solo genoma
donde se pueden encontrar como pseudogenes interrumpidos por un desplazamiento de
fotogramas de un solo nucleótido. Mientras que la "pseudogenización" comienza a menudo con
tales desplazamientos de fotogramas[36], estos genes corresponden a las funciones básicas de la
casa, por lo que los desplazamientos de fotogramas reportados probablemente representan
errores de secuenciación. Por ejemplo, es difícil ver cómo S. boydii podría replicarse sin la
subunidad a catalítica de la ADN polimerasa III o cómo E. coli 536 podría sobrevivir sin una tirosina
tRNA sintetasa. Encontramos algo de consuelo al verificar que ninguno de los 23 genes estaba
ausente de los 7 genomas que secuenciamos. Si se supone que estos genes esenciales no pueden
ser eliminados y que no se ha tenido especial cuidado en comprobar la existencia de errores de
secuenciación en estos loci, entonces nuestra estimación del genoma central debería
incrementarse en un factor de 260/(260-23) a 2167 genes. Esto todavía hace que el genoma
central sea menos de la mitad del genoma promedio de E. coli (,46%). Es importante destacar que
ningún gen del genoma central, ni ningún operón ubicuo en E. coli, era único de la especie, es
decir, siempre se podía encontrar un homólogo en al menos uno de los otros genomas bacterianos
completamente secuenciados. Algunos elementos recientemente amplificados en el genoma,
como los elementos transponibles, crean múltiples copias que no son orthologs sensu strictu,
aunque probablemente tengan la misma función. Por lo tanto, inflarán el tamaño del pan-genoma
al aumentar el número de genes específicos de la cepa. Por lo tanto, realizamos dos análisis
complementarios. Primero, clasificamos juntos a todos los paralógicos con más del 80% de
similitud de secuencia. Esto condujo a 11 432 genes de un pan-genoma funcionalmente diverso
(Figura 1). En segundo lugar, eliminamos todos los elementos transponibles y prophages, pero no
sus genes de carga, del pan-genoma para obtener un conjunto de 10 131 genes. Estos análisis
todavía conducen a un vasto pan-genoma para la especie y muestran que su gran tamaño no es
una simple consecuencia de la presencia de genes egoístas o de recientes amplificaciones del
material genético. También muestran que es probable que un muestreo adicional de los genomas
de E. coli descubra un número significativo de genes actualmente no reconocidos que pueden
conferir un valor adaptativo duradero para la diversificación de la especie. El muestreo progresivo
de los genomas de E. coli tenderá a reducir el núcleo del genoma a la lista de genes esenciales
porque sólo las deleciones letales instantáneas nunca se encontrarán en las poblaciones naturales
de células vivas. Por lo tanto, es más relevante cuantificar la frecuencia relativa de cada gen del
pan-genoma entre los genomas existentes (Figura 2). De los genes en un genoma promedio de E.
coli, aproximadamente el 62% están presentes en al menos 18 genomas, y por lo tanto podrían
llamarse los genes persistentes[37], mientras que el 26% existen en 4 o menos genomas, y por lo
tanto podrían llamarse los genes volátiles. Así, la mayoría de los genes del pan-genoma existen en
muy pocos (#20%) o casi todos ($90%) de los genomas, dejando sólo un pequeño subconjunto de
genes que están presentes en alrededor de la mitad de los genomas. El patrón funcional de estos
grupos de genes varía. Los genes de función conocida están muy sobrerrepresentados entre los
genes persistentes, mientras que los genes de función desconocida y especialmente el ADN
egoísta, como los elementos transponibles y prophage, están sobrerrepresentados entre los genes
específicos de la cepa (volátiles) (Figura 2). Aunque algunos de estos genes específicos de la cepa
pueden conferir funciones adaptativas que permiten la exploración de nuevos nichos (véase más
adelante la sección sobre la dinámica del repertorio del genoma), la volatilidad de este conjunto y
las funciones por lo tanto sobrerrepresentadas sugieren que la mayoría de estos genes no son
adaptables.

Se evaluó la diferencia entre E. fergusonii y las cepas de E. coli y se calculó el núcleo genómico de
los 21 genomas (20 E. coli+1 E. fergusonii), que contenían 1878 genes. Luego hicimos
experimentos en los que calculamos el genoma central de todas las combinaciones de 20 genomas
y luego añadimos el 21 al final. Clasificamos los genomas en términos de lo que llevó a la mayor
disminución en el tamaño del genoma central. S. dysenteriae (174 genes) condujo a la mayor
reducción del genoma central, seguido por E. fergusonii (98 genes). Luego repetimos el
experimento con el pan-genoma. En este análisis, también encontramos que el genoma 21 más
contribuyente fue S. dysenteriae (1434 genes), seguido por E. fergusonii (984 genes). Sin embargo,
esto se debe al gran número de especies invasoras de la primera cepa. Cuando calculamos el pan-
genoma fusionando paralogs que son más del 80% idénticos, encontramos que E. fergusonii ocupa
el primer lugar (709 genes), muy por delante de la cepa del segundo lugar (E.coli CFT073 con 462
genes). Esta última diferencia coincide con la distancia filogenética de E. fergusonii, pero el análisis
general muestra que cruzar la barrera de especies de E. coli no conduce a cambios dramáticos en
el núcleo y el pan-genoma.

La conversión genética es frecuente, pero no lo suficiente para oscurecer la señal filogenética


La transferencia horizontal de nuevos genes implica necesariamente diferentes filogenias para
estos genes, pero tiene pocas implicaciones para la inferencia de la filogenia en el genoma central.
Sin embargo, se espera que una fracción considerable de las grandes cantidades de ADN que
aparentemente entran en las células de E. coli provengan de especies consustanciales o
estrechamente relacionadas. Tal ADN puede integrarse en el cromosoma por recombinación
homóloga y por lo tanto llevar a reemplazos alélicos que oscurecen la señal filogenética. Para
responder a esta pregunta, primero estimamos la tasa de recombinación en los genomas y luego
probamos si dicha tasa podría afectar la reconstrucción filogenética. Utilizando métodos basados
en el marco coalescente, es posible estimar la relación entre las tasas de recombinación y las tasas
de mutación, es decir, comparar la probabilidad de que se inicie una recombinación en un
nucleótido determinado con la probabilidad de que se produzca una mutación en ese mismo
nucleótido. Analizamos cada gen central con LDHat, un estimador de recombinación basado en el
coalescente[38], y estimamos una proporción promedio de recombinación a mutación cercana a
1.0 (datos no mostrados). Los modelos clásicos de genética de poblaciones, como el utilizado en
LDHat, asumen que la recombinación ocurre a través del intercambio recíproco de ADN con un
solo cruce. En los procariotas, las secuencias de ADN entrantes son cortas y el proceso de
recombinación es similar a la conversión génica, por lo que la relación entre dos regiones cercanas
puede ser más débil que entre dos regiones distantes si una de las primeras se ha comprometido
en la conversión con el ADN entrante. El intercambio genético bacteriano no siempre implica
mecanismos estrictamente análogos a los que intervienen en la conversión de genes eucariotas.
Sin embargo, dado que nos preocupa más la firma de la conversión génica en el desequilibrio del
enlace que los mecanismos moleculares subyacentes, utilizaremos el término conversión génica
de aquí en adelante para referirnos genéricamente a los intercambios genéticos bacterianos. Se
aprovechó la peculiar firma de la conversión génica en el desequilibrio de la conexión[39] para
estimar las tasas por base de mutación (theta) y conversión génica (Cgc), así como la longitud
media del tracto (Lgc) (suponiendo una distribución geométrica), con el método de Cálculo
Bayesiano Aproximado[40,41] (ver modelo en Materiales y Métodos). Aplicamos el método a
genes individuales del genoma central y a ventanas deslizantes de 3 kbp a lo largo de toda la
alineación múltiple del genoma (ver Materiales y Métodos, Figura S2). Ambos análisis
proporcionaron valores promedio similares, pero como los genes difieren ampliamente en
tamaño, preferimos usar la alineación del genoma para el resto de los análisis. La proporción
promedio de conversión de genes a mutación (Cgc/theta) fue de 2.4760.05. La longitud media del
tracto fue muy corta: 50 pb en promedio, inferior a nuestra estimación anterior de 120 pb basada
en datos de tipificación de secuencia multi-locus (MLST)[42], e inferior a la esperada basada en
datos experimentales[43]. Contrariamente a las expectativas basadas en experimentos aleatorios
(ver Materiales y Métodos), observamos una fuerte correlación negativa (Pearson r =20,55,
p,0,001) entre la relación entre la recombinación y la mutación y la longitud de los fragmentos de
conversión. Esto puede explicarse por la superposición de fragmentos de conversión génica en
regiones de alto tipo de cambio, lo que da lugar a valores artificialmente bajos de Lgc, lo que da
más apoyo a la existencia de altos tipos de conversión en la población. En cualquier caso, estas
longitudes de tracto no deben equipararse necesariamente con el tamaño de los fragmentos de
ADN entrantes. Nuestro modelo asume una población homogénea.

Sin embargo, en el intestino de un vertebrado, el vecino más probable para una célula es
probablemente otra célula del mismo clon, ya que el moco proporciona un entorno estructurado
dentro del cual las células hermanas probablemente permanecerán juntas durante algún tiempo.
Las transferencias entre estas cepas estrechamente relacionadas se ven menos afectadas por la
restricción[43] o la divergencia[44]. Cada vez que tal transferencia se superpone con una
transferencia previa de un clon distante, eliminará efectivamente algún rastro de recombinación y,
por lo tanto, conducirá a una menor longitud del tracto observado. A pesar de estas limitaciones,
encontramos que un evento de conversión génica tiene el doble de probabilidades de ocurrir en
una posición determinada que una mutación. Por lo tanto, teniendo en cuenta la longitud
estimada del tracto (50 pb), una base tiene 100 veces más probabilidades de estar involucrada en
una conversión genética que en una mutación. Esto es el doble de la estimación clásica[27]. ¿Es
esta tasa de conversión genética compatible con una filogenia significativa? Si no consideramos las
especificidades del intercambio genético bacteriano, la respuesta es no. Las estimaciones
proporcionadas bajo un modelo de cruce simple son incompatibles con cualquier enfoque
filogenético (no se muestran los datos). Sin embargo, la respuesta podría ser diferente si se
considera que el intercambio de bacterias da lugar a la conversión genética. Para probar esta idea
cuantitativamente, realizamos simulaciones coalescentes en las que utilizamos los parámetros
estimados previamente (theta =0,014 y Lgc = 50) y varias tasas de conversión génica a mutación
(100 experimentos por cada valor) para simular la evolución de secuencias de 25 kbp (ver
Materiales y Métodos). Luego comparamos el árbol inferido por máxima probabilidad con el árbol
derivado directamente de la historia simulada, que refleja la historia del fondo cromosómico.
Comparamos las topologías de árboles con las distancias de Robinson y Foulds[45] y las pruebas
SH, KH y ELW (ver Materiales y Métodos). La distancia media entre las topologías del par de
árboles sólo comienza a aumentar para la conversión génica a tasas de mutación (Cgc/theta) muy
superiores al valor observado (Figura 3). Por lo tanto, sorprendentemente, no se espera que el
nivel sustancial de conversión genética en E. coli desdibuje la señal filogenética, y se puede extraer
de las secuencias una topología arbórea significativa y robusta.

Reconstrucción de genomas ancestrales El hallazgo de un árbol filogenético fuerte y fiable para las
cepas permite inferir la dinámica del repertorio genético a lo largo de la historia de la especie
(Figuras 6 y 7, Figura S5). Se dedujo la presencia/ausencia de genes por la máxima probabilidad
utilizando la filogenia de referencia en cada nodo ancestral, incluyendo el antepasado inferido de
todos los E. coli. Luego cuantificamos el flujo de genes entrantes y salientes entre nodos
consecutivos del árbol, es decir, en cada rama, e inferimos el cambio asociado en la longitud del
genoma. Hay una diferencia de casi mil genes entre el repertorio genético que podemos inferir de
forma fiable en el antepasado (4043 genes) y el esperado dada la longitud inferida del genoma
(,5000). Esto se debe a que la mayoría de los genes entrantes se pierden rápidamente. Los genes
volátiles adquiridos antiguamente sin valor adaptativo duradero han sido purgados, si no
readquiridos posteriormente, mientras que los adquiridos recientemente pueden persistir en las
poblaciones. De hecho, la brecha entre los números de genes esperados e inferidos aumenta
linealmente con la distancia desde el nodo hasta las puntas del árbol, es decir, con la antigüedad
del nodo (Pearson r = 0.75, p,0.001, Figura S6). Confirmando esta interpretación, una comparación
de genomas separados por un lapso de tiempo equivalente a la distancia entre los genomas
existentes y el antepasado, por ejemplo, las cepas APEC O1 y 55989, muestra un número de genes
distintos cercanos a la diferencia de 1000 genes observada en el genoma ancestral inferido. Al
contabilizar el proceso de especiación de E. coli a partir de las otras especies de Escherichia, se
debe tener en cuenta que los genes implicados en la especiación pueden haber desaparecido por
completo de los linajes existentes. Para analizar en detalle las ganancias y pérdidas de genes
consideramos que los genes estaban presentes en un nodo ancestral si la probabilidad de
presencia era superior al 50%, y que por lo demás estaban ausentes. Los genes se clasificaron en
cuatro categorías mutuamente excluyentes: genoma central, clade-inespecífico (es decir, también
presente en algunos genomas que no descienden del nódulo focal), clade-específico y presente en
todos los descendientes del nódulo focal, o clade-específico pero presente sólo en algunos de los
descendientes (Figura 5). La mayoría de los genes no esenciales están revestidos de forma
inespecífica, especialmente en los nodos cercanos a la raíz. Esto se entiende mejor si se revisa la
Figura 2, que muestra que la mayoría de los genes no esenciales están presentes en muy pocos
genomas. Como resultado, pocos genes en los nodos internos están revestidos de forma específica
y están presentes en todos los genomas del clado.

El último antepasado común es una excepción porque contiene muchos genes presentes en
algunos genomas de E. coli pero ausentes en E. fergusonii. En otros lugares, muy pocos genes
están vestidos específicamente, lo que concuerda con la idea de que la mayoría de los genes
transferidos desaparecen rápidamente de las poblaciones. Adquisiciones muy recientes están
altamente enriquecidas en genes relacionados con el fago, excepto en las ramas que conducen a
Shigella, donde dominan los elementos transponibles (Figura 7). Pocas ramas terminales muestran
cantidades significativas de adquisición de genes de función conocidos. Las excepciones, UMN026
e IAI39, corresponden a las ramas de terminales más grandes, que incluyen adquisiciones muy
antiguas y muy recientes. Este patrón sugiere la adquisición poco común de genes de función
conocida, seguida de una menor probabilidad de pérdida de estos genes. Dicho de otra manera, la
adquisición de genes de función conocida es rara, pero estos genes tienen una mayor probabilidad
de ser adaptables y, por lo tanto, es menos probable que se pierdan.

En el extremo opuesto, los elementos transponibles y los genes relacionados con el prophage-
relacionados tienen altas probabilidades de ser adquiridos, pero puesto que a menudo tienen
consecuencias deletéreas, son rápidamente purgados de las poblaciones. Como resultado, las
ganancias inferidas en los nodos ancestrales, es decir, aquellas para las que todavía podemos
inferir una adquisición de genomas existentes, se enriquecen en genes adaptativos y se
empobrecen en elementos transponibles y fágicos. El pan-genoma incluye el genoma ancestral,
que a su vez incluye el genoma central. A medida que se va del gen más pequeño al más grande,
se espera encontrar más accesorios y menos funciones esenciales. De hecho, las funciones que se
encuentran con mayor frecuencia en los conjuntos más pequeños incluyen la biosíntesis de
aminoácidos, nucleótidos, cofactores y proteínas y, en menor medida, el metabolismo del ADN, los
ácidos grasos y los fosfolípidos, la transcripción y el destino de las proteínas (Tabla S5). Por otro
lado, los reguladores, la envoltura celular, los procesos biológicos y los elementos móviles están
sobrerrepresentados en los conjuntos más grandes. Curiosamente, el antepasado inferido de
todos los E. coli no carece de ninguno de los 23 genes esenciales de alta confianza que faltan en el
genoma central. Por lo tanto, proporciona una mejor representación de las tareas domésticas y las
funciones esenciales de la célula de E. coli que el genoma central.

El papel de la dinámica del repertorio del genoma en la dualidad comensalismo/patogenicidad


La adquisición y la pérdida de genes tienen un papel importante en las transiciones entre
comensalismo y patogenicidad[51,52]. Las interacciones epistáticas entre los determinantes de la
virulencia y los antecedentes genéticos también pueden ser importantes[22]. De hecho, las cepas
con la mayor patogenicidad y clasificadas como de nivel de bioseguridad 3 (S. dysenteriae serotipo
1 y E. coli enterohemorrágica O157:H7) (Tabla 1) están estrechamente relacionadas (Figura 4).
Este alto grado de patogenicidad se debe a toxinas que podrían requerir un fondo genético
específico para lograr una expresión adecuada. Para entender el vínculo entre la virulencia y el
trasfondo genético, primero buscamos genes funcionales categóricamente presentes (es decir,
ubicuos en el clado pero ausentes en otros lugares) o ausentes (es decir, ausentes en el clado pero
ubicuamente presentes en otros lugares) dentro de tres grupos filogenéticos principales: A, B1 y
B2 (siendo el grupo D inadecuado para el análisis ya que es parafílico) (cuadro 4 y cuadro S6). Dado
que sólo se disponía de una cepa del grupo A (E. coli K-12 MG1655), añadimos a este análisis el
genoma de la cepa HS (http://msc.jcvi.org/e_coli_and_shigella/escherichia_coli_hs/index. shtml),
una cepa humana comensal del grupo A. Se encontró que pocos genes (de 5 a 81 por grupo
filogenético, dependiendo del grupo) eran específicos y ubicuos dentro del grupo filogenético en
particular, de acuerdo con el alto flujo genético observado en la especie. Sin embargo, el número
de genes específicos fue mayor dentro del grupo B2 que dentro de otros grupos filogenéticos, a
pesar del mayor número de genomas B2 estudiados y el mayor tiempo de divergencia de este
grupo filogenético (dos factores que deberían disminuir el número de genes compartidos) (Tabla
4).

Mientras que el 51% de todas las regiones intergénicas entre pares de genes de núcleo contiguo
no muestran una sola inserción o deleción en ninguno de los 21 genomas, encontramos 133 de
estos lugares con un promedio de más de 5 genes codificadores de proteínas no centrales por
genoma. Estas localizaciones acumulan el 71% de todos los genes pan-genómenos no esenciales.
Casi dos tercios de los puntos calientes (62%) carecen de profetas en todos los genomas. Los genes
en los puntos calientes tienen un promedio de 4 ortólogos en los otros genomas. Sin embargo,
este promedio es algo engañoso ya que algunos genes tienen muchos ortólogos y la mayoría no
tiene prácticamente ninguno. Por lo tanto, los puntos calientes corresponden a regiones de
inserciones y deleciones abundantes y paralelas de material genético. Mientras que la existencia
de grandes inserciones y deleciones en E. coli ha sido descrita abundantemente[62,63], nuestros
datos muestran que estos eventos tienen lugar sistemáticamente en las mismas regiones en
diferentes genomas. ¿Qué es lo que crea tales puntos críticos de adquisición y pérdida de genes?
Los genomas de E. coli albergan muchas islas prophages y genomic (e.g., patogenicity), que
integran típicamente en los cromosomas por la recombinación site-specific en un gen del tRNA
con la acción de integrases phage-like[64]. Se evaluó la frecuencia con la que estos elementos se
asocian con los puntos calientes. Encontramos que el 83% de los puntos calientes no mostraron
ningún gen de ARNt en el borde del elemento, dentro de una ventana de 3 genes, en ninguno de
los genomas. Cuando los genes de tRNA fueron encontrados, tendían a estar presentes en
prácticamente todos los genomas. Dado que cada genoma de E. coli tiene cerca de 100 genes de
tRNA, la aparición de genes de tRNA en el entorno del 17% de los puntos calientes puede deberse
en parte a la casualidad. Por lo tanto, se buscaron en los puntos calientes los homólogos de un
conjunto de 8067 integrasas obtenidas de Swissprot utilizando Blastx para incluir integrasasas
potencialmente pseudogenizadas. Utilizando nuestros criterios estándar de homología (ver
Materiales y Métodos) encontramos que más de la mitad de los puntos calientes no tienen
homólogos de la integrasa en ningún genoma, mientras que menos del 6% tienen integrasasas en
la mayoría de los genomas. Disminuir el criterio de similitud de un homólogo a un 40% de
identidad aumenta el número de integrasas putativas, pero la mitad de los puntos calientes
todavía tienen como máximo dos homólogos distantes de las integrasas, y éstas están presentes
en la mayoría de los genomas en sólo el 17% de los puntos calientes. Esto desafía seriamente la
opinión generalizada de que los puntos calientes de integración de E. coli están determinados
principalmente por la distribución de genes de ARNt y que tales integraciones tienen lugar
sistemáticamente por elementos de la integrasa de tipo fásico. ¿Qué más podría crear tales puntos
calientes? Se podría predecir que la selección para preservar la integridad de los elementos
reguladores compuestos, genes, operones, estructuras supraoperónicas, dominios plegables de
nucleótidos y macrodominios debería reducir el número de ubicaciones en las que pueden
producirse grandes inserciones sin causar una pérdida significativa de forma física[59]. Por
ejemplo, el 90% de los genomas están formados por genes y la mitad del 10% restante representa
regiones intergénicas dentro de los operones. Por lo tanto, la selección debería prohibir
efectivamente la mayoría de los puntos de inserción en el genoma. Sin embargo, una vez que una
región permisiva ha adquirido un elemento grande, y puesto que la mayoría del ADN transferido
no tiene valor adaptativo, la integración subsiguiente en la región se hace más probable porque la
región ofrece un blanco más grande para la inserción neutral. La inserción de un elemento de gran
tamaño en una región permisiva dará lugar a un efecto fundador que amplifica la probabilidad de
que la región permisiva se convierta en un hotspot.

Algunas regiones pueden ser más propensas a la recombinación debido a su composición


secuencial/motiva, por ejemplo, la presencia de motivos reconocidos por las integrasas o la
maquinaria de recombinación homóloga. Se probó si las regiones que flanquean los puntos
calientes mostraban frecuencias más altas de secuencias de chi, pero no se encontró ningún
efecto significativo. La estructura del ADN también puede jugar un papel, por ejemplo, porque el
plegamiento de cromosomas deja algunas regiones más expuestas que otras para la
recombinación con el ADN entrante[65]. Los 133 puntos críticos contienen el 61% de todos los
puntos de ruptura sintetizados, lo que es mucho más de lo esperado dado el número de estos
lugares (prueba de Chi cuadrado, p,0.0001), pero cerca del valor esperado si se considera que los
reordenamientos no pueden interrumpir los genes centrales y que los puntos críticos son muy
grandes (prueba de Chi cuadrado, p.0.05). Esto muestra que los hotspots de inserción/eliminación
también son hotspots de reordenación, a pesar de que inicialmente eliminamos las posiciones
reordenadas para identificar los hotspots de inserción/eliminación (siendo así conservadores).
También sugiere que los reordenamientos ocurren en estas regiones porque son permisivos al
cambio y no porque sean intrínsecamente recombinantes, ya que la frecuencia con la que se
reordenan refleja simplemente su mayor tamaño. Sin embargo, incluso si los puntos calientes no
son intrínsecamente recombinantes, pueden ser causados por el efecto de intermediación de la
recombinación homóloga. De hecho, el ADN entrante, una vez integrado en un genoma, puede
propagarse dentro de la población mediante transferencia lateral a través de la recombinación
homóloga clásica que involucra a las regiones homólogas que lo flanquean. Dadas las tasas
observadas de recombinación en la especie, este mecanismo podría conducir rápidamente a la
propagación horizontal de genes recientemente adquiridos altamente adaptables. En la siguiente
sección se describen algunas pruebas de ello. Para cualquier alineación de secuencia dada, la
probabilidad de la topología general del árbol genético, es decir, la congruencia filogenética,
refleja hasta qué punto la señal filogenética de las secuencias fue alterada por la recombinación.
Mientras que el concatenado de genes proporciona una fuerte señal filogenética, la historia de los
genes individuales puede ser muy diversa como resultado de la recombinación. Además, estas
historias pueden depender del posicionamiento de los genes en el cromosoma. En particular, si la
recombinación homóloga ayuda a diseminar las adquisiciones recientes, como proponemos, el
genoma central alrededor de estos puntos críticos debería mostrar signos de recombinación como
lo indica la incongruencia filogenética. Por lo tanto, realizamos un análisis en ventanas deslizantes
de 5 kbp a lo largo de la alineación del genoma múltiple para identificar las regiones más
incongruentes desde el punto de vista filogenético (ver Material y Métodos). Este método
identificó dos grandes regiones de incongruencia muy fuerte, una centrada alrededor de rfb
(Figura S8), el operón involucrado en la síntesis del antígeno O, y la otra alrededor del gen del
ARNt leucocitario, e incluyendo fimA, que está bajo selección diversificada y está involucrada en la
adhesión de bacterias a las células huéspedes[66]. Ambos loci fueron previamente identificados
como puntos calientes de incongruencia filogenética[67,68]; el presente análisis revela en qué
medida afectan al cromosoma.

La recombinación en el locus de rfb afecta significativamente la congruencia dentro de una


sorprendente región circundante de 150 kbp, es decir, desde las posiciones 1988 kbp a 2138 kbp
(el 100% de las ventanas probadas tuvieron puntuaciones inferiores a 1,96 de desviación estándar
con respecto a la media, con una media de 24,84 y picos de 210,19). El locus fim incluye una
región de incongruencia de cerca de 200 kbp de longitud (de las posiciones 4421 kbp a 4618 kbp,
con un promedio de 22.54 de desviación estándar y 73% con menos de 21.96 de desviación
estándar y picos en 26.65). Curiosamente, estas dos regiones se centran en los hotspots de
integración y abarcan 11 de los 133 hotspots de integración. Los genes presentes en tales loci
surgieron muy probablemente por transferencia lateral, ya que son muy diferentes entre las
cepas. Por ejemplo, los genes en los genes del locus de rfb pueden exhibir menos del 50% de
similitud, mientras que el locus de leucemia abarca un surtido altamente variable de insertos no
homólogos en todos los genomas secuenciados. De ahí que al menos para esos dos grandes loci
encontremos un vínculo sorprendente entre los hotspots de integración y los hotspots de
recombinación homóloga. En el caso del locus rfb, cabe destacar que la señal de incongruencia
que observamos podría ser una señal compuesta, debido no sólo a rfb sino también a los loci
vecinos. Dentro de la región de incongruencia de rfb definida anteriormente, un flagelo locus (fli
operón) asociado con dos puntos críticos de integración también está siendo objeto de una
selección diversificada. Además, la isla de alta patogenicidad (HPI) está integrada dentro de esa
región de alta recombinación en muchos aislados y corresponde también a un punto caliente de
integración. Se ha sugerido que después de un evento de integración reciente y único, el IPH se ha
propagado dentro de la especie por recombinación homóloga[69]. La propagación o
diversificación de estos loci, situados a la izquierda de rfb, mediante recombinación homóloga
podría generar el patrón asimétrico de incongruencia filogenética que observamos alrededor del
locus rfb (incongruencia extendida en el lado izquierdo del locus rfb) (Figura S8). Encontramos
otras 23 regiones con firmas de incongruencia más débiles (es decir, con una puntuación de
incongruencia de secuencia de 5 kbp más de 2 desviaciones estándar del promedio), cada una con
menos de 20 kbp. Es importante señalar que la mayoría de estas regiones incongruentes incluyen
genes implicados en la diversificación de la información genética y, a menudo, en la patogenicidad.
La gran mayoría de estos incluyen 3 grupos de genes comunes. En primer lugar, las regiones con
los genes ompA y ompC que codifican la porina, los genes que codifican los flagelos, el locus rfa
que codifican el núcleo del lipopolisacárido y los genes que codifican varias proteínas de la
membrana como LolCDE, CcmABCDE, ABC transportador, AroP APC transportador, LplTaas, FadK,
YeaY, EamB, YhgE y YicG proteínas de la membrana. Estos loci están probablemente involucrados
en la diversificación de la selección, ya que codifican las proteínas antigénicas expuestas en la
superficie de la célula. En segundo lugar, hay dos regiones que abarcan genes de reparación del
desajuste (mutS y mutH) que han demostrado estar bajo selección para ciclos de inactivación y
readquisición mediante recombinación[70]. La tercera es una región asociada a la integración de
un locus que puede proporcionar resistencia a los fagos a través de repeticiones palandrómicas
cortas y espaciadas (CRISPRs)[71]. Todos los métodos disponibles estiman la tasa de
recombinación efectiva, no la intrínseca. La recombinación efectiva resulta de la tasa de
recombinación intrínseca y la consiguiente selección de recombinantes. La mayoría de los puntos
críticos de incongruencia filogenética que encontramos contienen genes bajo selección
diversificada, por ejemplo para escapar de la presión inmunológica o para adquirir resistencia al
fago. Por lo tanto, es muy probable que las diferencias en la intensidad de la selección puedan ser
responsables de las diferencias observadas en el tamaño de las regiones afectadas por un punto
caliente de incongruencia filogenética. Se seleccionará un alelo recombinante portador de un
nuevo alelo en un lugar de fuerte selección diversificada y, por lo tanto, aumentará rápidamente
su frecuencia en las poblaciones. Por lo tanto, el recombinante invadirá la población local antes de
que ocurra cualquier recombinación adicional en el lugar[72]. En ese caso, el muestreo del
genoma después de la acción de la selección natural permite identificar el fragmento
recombinante original. En contraste, si la selección es moderada, el fragmento recombinante que
trajo el alelo interesante al genoma será cubierto por muchos otros eventos de recombinación
antes de que alcance alta frecuencia. En este caso, sólo los fragmentos alrededor del alelo
seleccionado conservarán el rastro del evento de recombinación. Como consecuencia, cuando la
selección es intensa, se espera identificar fragmentos recombinantes largos en algunas cepas,
como hicimos en los loci de rfb o leuX.

Nuestras observaciones sugieren que la intensidad de la selección de diversificación que actúa


sobre los loci de rfb y leuX-fimH está bajo una presión selectiva muy fuerte en comparación con la
selección de diversificación que actúa sobre el núcleo del LPS, los flagelos o algunos de los poros.
El hecho de que la mayoría de los puntos críticos de integración (117 entre 133) no dan lugar a
puntos críticos de incongruencia filogenética sugiere que portan genes neutros o nocivos. Por el
contrario, también sugiere que algunos genes adquiridos horizontalmente pueden ser altamente
beneficiosos (por ejemplo, 11 puntos calientes de incongruencia filogenética alrededor del locus
rfb o leuX-fimH) o moderadamente beneficiosos (por ejemplo, 4 puntos calientes de integración
asociados con puntos calientes de incongruencia filogenética) y que esto resulta en diferentes
huellas de selección en el genoma central vecino.

Esto podría indicar que estos genes ganados o perdidos de forma estable, contribuyen a la aptitud
de las cepas del grupo B2. En efecto, sólo uno de estos genes corresponde a una transposasa y
ninguno a los fagos, mientras que el 75% tiene una función asignada. Esto es significativamente
más alto (prueba de Chi cuadrado, p,0.001) que la proporción de genes con funciones asignadas
en el pan-genoma B2 (4097 de 8439, 48.5%). Además, la distribución de los genes con funciones
asignadas entre diferentes categorías funcionales (anotaciones de "tipo de producto", Tabla 4) es
significativamente diferente para los genes específicos en comparación con el pan-genoma
(prueba de Chi cuadrado, p=0,049). El estudio de los residuos de Pearson muestra que las enzimas
y las categorías de transportadores y portadores contribuyen significativamente a esta diferencia.
El análisis integrador de las funciones documentadas de los genes específicos muestra que una
gran parte de ellos están involucrados en el metabolismo (Tabla 5). Estas observaciones
representan un sello de selección y sugieren un papel importante para el metabolismo en la
adaptación del nicho de las cepas del grupo B2 que necesita ser corroborado mediante análisis
experimentales.

Luego se examinó si la presencia de genes específicos podría estar relacionada con un fenotipo
específico. Ningún gen era específico de las cepas comensales ni de las cepas patógenas en
general. Sin embargo, en las cepas patógenas extraintestinales (patotipo ExPEC) 16 genes estaban
específicamente presentes y 1 estaba específicamente ausente (Tabla 4). La mayoría de estos
genes tienen una función asignada que corresponde principalmente a dos grupos: (i) el pap
operón, un determinante bien conocido de la adhesina implicado en la patogénesis de la infección
del tracto urinario[53], y (ii) dos genes que codifican una actividad aldo-keto reductasa (uno de
estos genes comparte el 95% de la identidad con el gen akr5f1 de Klebsiella spp[54]) y un gen
regulador divergente de la familia lysR (Tabla S6). Además, al considerar el potencial de virulencia
extraintestinal intrínseca evaluado mediante un modelo de septicemia en ratones que evita la
variabilidad del huésped[32], no se identificó ningún gen específico del fenotipo virulento. Todos
estos datos indican que la virulencia extraintestinal es un proceso multigénico resultante de
numerosas combinaciones de genes y múltiples redundancias. Además, el hecho de que no se
haya podido identificar ningún gen específico de la infección extraintestinal refuerza la hipótesis
de que la virulencia extraintestinal es un subproducto coincidente del comensalismo[42]. Esto
sugiere que el desarrollo de vacunas específicas para las infecciones extraintestinales será
extremadamente difícil. Cualquier blanco genético probable también estará presente en algunas
cepas comensales; por lo tanto, tales vacunas probablemente conducirán a una modificación
potencialmente indeseable de la microbiota residente. Veinte y cuatro genes estaban
específicamente presentes y ausentes, respectivamente, en cepas patógenas intestinales (con
Shigella excluida del análisis). Todos excepto 2 de estos genes son de origen fágico e IS o de
función desconocida. También aprovechamos la oportunidad única de hacer un análisis genómico
comparativo del recientemente reportado clon comensal humano B2 (representado por la cepa
ED1a, como secuenciado en este trabajo), que es avirulento en el modelo de letalidad de
ratones[55]. Treinta y un genes estaban específicamente presentes y nueve estaban
específicamente ausentes en las cepas B2 que eran virulentas en el modelo de letalidad de ratones
(cepas asesinas de ratones B2) (Tabla 4 y Tabla S6). Curiosamente, entre los 9 genes ausentes, 8
pertenecen al mhp operón. La vía catabólica del fenilpropionato y sus derivados se divide en E. coli
en dos operones, el mhpR mhpR mhpABCDFET y el hcaR hcaEFCBD operons. El hca operón está
específicamente ausente en todas las cepas del grupo B2 (Tabla 5).
La cepa ED1a es por lo tanto una excepción, ya que posee el mhp, pero no el hca operón. Esto
puede sugerir algún tipo de implicación de los compuestos aromáticos en la virulencia de las cepas
B2. Un análisis genómico comparativo similar con las cepas de Shigella identificó 38 genes (30 del
plásmido de virulencia[56], como se esperaba) que estaban específicamente presentes, pero
también 32 genes que estaban específicamente ausentes (Tabla 4). Excluyendo los genes
plasmídicos, el 70% tienen una función asignada, que es significativamente mayor (prueba de Chi
cuadrado, p,0.001) que la de los genes del pan-genoma de la Shigella (3832 de 9351, 41%). Aquí
también, la distribución de los genes con funciones asignadas entre diferentes categorías (Tabla 4)
es significativamente diferente del pan-genoma de Shigella (prueba de Chi cuadrado, p=0.027),
con un énfasis desproporcionado en la categoría de transportadores y portadores, y más
generalmente en las funciones relacionadas con el metabolismo (Tabla 6). La especificidad de este
patrón de pérdida de genes sugiere una huella de selección a través de un mecanismo de
adaptación pleiotropía antagonista[57] durante el muy peculiar estilo de vida intracelular de
Shigella. Este estilo de vida también conduce a la reducción del tamaño efectivo de la población de
Shigella y a una selección menos eficiente[49].

Por lo tanto, se ha argumentado con frecuencia que la pérdida de genes en Shigella es el resultado
de la acumulación independiente de mutaciones. Es probable que la mayor parte de la pérdida de
genes en Shigella sea el resultado de una selección menos eficiente, pero nuestros datos sugieren
que la inactivación de estos 32 genes, o una fracción de ellos, es seleccionada positivamente. Se
corroboró el papel del metabolismo y transporte de la poliamina en la virulencia de la Shigella al
identificar la ausencia de (i) speG implicados en la biosíntesis de la espermidina y (ii) los genes cad
implicados en la biosíntesis de la cadaverina[52]. Se ha demostrado que la presencia de cadaverina
impide el escape de S. flexneri del fagolisosoma[58]. La ausencia de acetilación de espermidina por
SpeG podría impedir la exportación de acetil-espermidina. Otro fenotipo negativo de la Shigella,
poco discutido en relación a la patogenicidad, es su carácter lactosa-negativo, al que se llega por
evolución convergente[7]. Encontramos que dentro de la región de la lactosa operón, el único gen
siempre inactivado es el lacY, el gen codificador de la permeasa. Como el papel del pH es esencial
para la colonización de un nuevo nicho, la lactosa permeasa, un transportador impulsado por
protones, puede actuar contra la adaptación de las bacterias al fagolisosoma ácido. Se podría
especular que un beta-galactosido presente en el fagolisosoma podría ser transportado con la
importación de protones, lo que llevaría a una afluencia de protones que mataría rápidamente a la
bacteria. La descomposición de los genes habría protegido a Shigella contra este mecanismo de
protección del huésped.

Los puntos críticos de la adquisición y pérdida de genes son los mismos en todos los genomas

Los cromosomas bacterianos están altamente organizados con respecto a su interacción con
procesos celulares como la replicación, Tabla 5. Análisis integrador de las actividades celulares
específicamente presentes o ausentes en las cepas del grupo B2. Genes Función codificada
Actividad celular Presente ptsG Subunidad de la permeasa PTS específica de la glucosa 1a
Transporte de carbohidratos sucABCD como Subunidades del complejo deshidrogenasa 2-keto-
glutarato 1 Ciclo TCA Ausente cynRTSX Degradación de cianato 1 Degradación xenobiótica arsRB
Degradación de arsRB Degradación de arsRB Degradación de arsenato 1 Degradación de arsRB
Degradación de arsRB Degradación de puuPADRCBE Degradación de Putrescina II 1 Degradación
de Poliamina abgAR p-a-ARDegradación de aminobenzoilglutamato 1 Degradación de compuestos
aromáticos ddpFDCBAX D-Ala-D-Ala Degradación 1 Degradación de dipéptidos hcaREFCB 3-
Fenilpropionato degradación 1 Degradación de compuestos aromáticos melB Melibiosa permeasa
1 Degradación de carbohidratos argKygfGH Degradación de succinato 1 Degradación de ácido
carboxílico codA Citosina deaminasa 1 Biosíntesis de nucleótidos de pirimidina lsrBFG AI-2
transporte 1 transporte dependiente de ATP glvC Arbutina específica PTS permeasa 1 Transporte
de compuestos aromáticos hyfABCDEFGHIJ Subunidades de hidrogenasa 4 1 Respiración
anaeróbica sfmACDHFfimZ Exportación de proteína adhesiva de tipo fimbrial 1 Biosíntesis de Pilus
lhr ATP Putativo---yggF Degradación de la hexosa putativa fosfato fosfatasa Degradación de
carbohidratos a1 indica que los genes están presentes o ausentes cuando la cepa enteropatógena
E2348/69 (grupo filogenético B2) (http://www.sanger.ac.uk/Projects/Escherichia_Shigella/) está
incluido. doi:10.1371/journal.pgen.1000344.t005 Trastorno organizado en la segregación y
transcripción de la genética de E. coli PLoS[59]. Para entender cómo el flujo masivo de genes que
hemos documentado puede ser compatible con la organización cromosómica, inferimos el número
de eventos de inserción y supresión en cada rama del árbol de la especie (ver Materiales y
Métodos, Figura 7 y Figura S5). El fragmento promedio adquirido contiene 4,3 genes, mientras que
las pérdidas promedian sólo 3 genes (prueba de Wilcoxon, p,0.001).

Estos valores son casi la mitad de los publicados anteriormente[60], muy probablemente porque
nuestro análisis incluye muchas cepas más estrechamente relacionadas y utiliza la inferencia de
estados ancestrales, lo que lleva a una estimación más precisa de múltiples inserciones y
eliminaciones contiguas. Se espera que el número total de genes ganados y perdidos sea
aproximadamente similar, ya que los genomas enterobacterianos tienen tamaños relativamente
similares. Por lo tanto, las ganancias corresponden a fragmentos más grandes y las pérdidas a
eventos más frecuentes. El tamaño de los fragmentos de ganancias o pérdidas varía ampliamente.
Más de la mitad de las pérdidas y ganancias inferidas involucran un solo gen. Sólo el 5% de las
pérdidas y el 8% de las ganancias corresponden a eventos que incluyen más de 10 genes, pero
éstos incluyen alrededor de la mitad de los genes involucrados en las ganancias y pérdidas (54% y
40%, respectivamente). Estos valores son similares para las ramas internas, las pequeñas ramas
externas y las largas ramas externas (prueba de Kruskal-Wallis, p.0.05), lo que sugiere que nuestra
inferencia es imparcial con respecto a los sucesivos eventos que tienen lugar en las mismas
ubicaciones en las ramas largas o mediante la selección y purga de eventos más antiguos en las
ramas internas. La variación en los repertorios de genes ha sido descrita como dispersa en el
cromosoma de E. coli y equilibrada entre los dos replicadores[61].

Para las numerosas inserciones y deleciones pequeñas, esta distribución resulta naturalmente de
la inserción/eliminación aleatoria de material genético. Se espera que estos pequeños indelos
tengan poco impacto en la organización a gran escala del genoma. ¿Qué pasa con las
inserciones/eliminaciones muy grandes? Los 554 eventos de este tipo que involucran más de 10
inserciones de genes sobrerrepresentantes sobre deleciones (prueba exacta de Fisher, p,0.001),
como se esperaba, dado que las inserciones son típicamente más grandes. Estos eventos
involucran un promedio de 29 genes cada uno, con un máximo de 157 genes para un solo evento.
No es de extrañar que en estos grandes eventos se incluyan islas y profetas de patogenicidad
conocidas. La inserción de segmentos de ADN muy grandes, aunque tenga lugar en regiones
intergénicas, tendrá consecuencias importantes para la organización de los genomas. Por lo tanto,
investigamos dónde se realizaron dichas inserciones. Utilizamos el orden ancestral del genoma
central y calculamos, para cada genoma, el número de genes no centrales entre genes centrales
consecutivos. (Las posiciones raras que corresponden a los puntos de ruptura sintetizados en un
genoma fueron ignoradas para ese genoma.) Este análisis reveló que en la mayoría de los genomas
la adquisición y pérdida de genes tiene lugar precisamente en los mismos lugares entre los
genomas, es decir, entre los mismos dos genes del núcleo genómico contiguo (Figura 8, Figura S7).
Por lo tanto, el genoma de E. coli contiene llamativos puntos críticos de integración. Un ejemplo
de un punto caliente de inserción en el gen pheV tRNA en 12 cepas de E. coli se representa en la
Figura 9. Este ejemplo muestra que información genética muy diferente ocurre en el mismo punto
de acceso en genomas diferentes. Curiosamente, también muestra una estructura desigual, con la
información segmentada en módulos que se pueden encontrar de forma independiente en otras
localizaciones de otros genomas. La presencia o ausencia de módulos específicos no está
relacionada con el grupo filogenético ni con el patotipo. Por ejemplo, el módulo 14 (genes de
unión a la inmunoglobulina, que codifican una proteína expuesta a la superficie que se une a las
inmunoglobulinas de manera no inmune) está presente en las cepas 55989 (grupo B1, EAEC), APEC
O1 y S88 (grupo B2, ExPEC); el módulo 19 (degradación del ácido N-acetilneuramínico) está
presente en las cepas UMN026 (grupo D, ExPEC) y CFT073 (grupo B2, ExPEC) únicamente; y el
módulo 2 (síntesis del ácido nacetilneuramínico), con el patrón[1-2-3-4-5] está ausente en las
cepas UMN026, CFT073, ED1a (grupo B2, comensal) y 536 (grupo B2, ExPEC). En realidad, la
organización de los módulos es idéntica en APEC O1 y S88, y muy similar en UMN026 y CFT073.
Esta estructura modular de los hotpots sugiere ya sea integraciones múltiples o recombinaciones
frecuentes entre elementos integradores.

Recombinación y organización cromosómica

La existencia de puntos críticos de integración e incongruencia filogenética pone de relieve el


conflicto entre la dinámica del genoma y la organización. Por lo tanto, se analizó la variación en la
recombinación a lo largo de la secuencia de la columna vertebral (estimada mediante un enfoque
basado en la genética de la población), utilizando una ventana deslizante de 3 kbp en la alineación
del genoma múltiple y un tamaño de paso de 500 bp. Este análisis reveló una gran región
alrededor de la terminación de la replicación con una relación particularmente baja entre la
conversión génica y las tasas de mutación (Cgc/theta) (Figura 10). La región entre 1 Mb y 2 Mb
muestra tasas de conversión génica más bajas, ya que hay un 20% menos de probabilidad de que
una base participe en un evento de conversión génica (Cgc6Lgc, prueba t unilateral: p=1e-21). Esta
región también muestra niveles 10% más bajos de polimorfismo (theta de Watterson, p=1e-7), es
decir, variaciones dentro de la especie E. coli, y un 2% menos de contenido de G+C (Figura 10). Se
ha sugerido que la riqueza de A+T en la región terminal es el resultado de tasas de mutación más
altas[73].
Basándose en la genómica comparativa con la Salmonella, también se demostró que la
divergencia, es decir, la distancia genética entre especies, aumentaba ligeramente más cerca de la
terminación[74,75], lo que apoyaba aún más la hipótesis de una mayor tasa de mutación local.
Usando nuestro genoma de grupo externo recién secuenciado E. fergusonii, que a diferencia de
Salmonella no muestra saturación de sustituciones sinónimas, encontramos que el dominio
terminal tiene tasas de sustitución sinónimas y no sinónimas dos veces más altas que el resto del
cromosoma. Mientras que la disminución del contenido de G+C y el aumento de la divergencia
podrían reflejar una mayor tasa de mutación en el extremo, tal interpretación se contradice con el
menor polimorfismo observado.

Los estudios teóricos de genética poblacional han demostrado que la fluctuación de la frecuencia
de recombinación a lo largo de los cromosomas afecta el nivel de polimorfismo y la eficacia de la
selección[76]. Cuando hay numerosas mutaciones deletéreas y bajas tasas de recombinación, una
fracción de la población con alelos deletéreos está condenada a desaparecer a largo plazo sin
contribuir a la reserva genética de la población futura. La relevancia de este fenómeno,
denominado selección de fondo, requiere la existencia de mutaciones deletéreas de efectos
moderados, es decir, mutaciones que pueden persistir durante algún tiempo en la población antes
de que la selección las elimine. A nivel poblacional, esto resulta en un exceso de alelos raros, que
pueden ser estimados por las estadísticas D de Tajima. Encontramos que en general el promedio
de D de un gen de Tajima fue ligeramente negativo (lo que indica un exceso de alelos raros). Sin
embargo, la D de mutaciones sinónimas del Tajima era nula, mientras que la de mutaciones no
sinónimas era mucho más negativa (Figura S9). Esto sugiere que la mayoría de las mutaciones no
sinónimas son deletéreas ya que, a diferencia de las mutaciones sinónimas, no aumentan en
frecuencia dentro de la población, lo que refleja el efecto purgante de la selección natural. Por lo
tanto, se cumplen las condiciones para la acción de selección de fondo. Además, en la selección de
fondo, una tasa de recombinación reducida resulta en una disminución del polimorfismo (como la
que observamos alrededor de la terminal), un aumento de la fracción de alelos raros y una
disminución de la eficiencia de la selección[76]. La región terminal muestra una D de Tajima más
baja que el resto del cromosoma (Student bilateral test, p,0.00001). También muestra una
proporción reducida de polimorfismo no sinónimo a polimorfismo sinónimo (Student bilateral test,
p,0.002). Esto sugiere que más mutaciones no sinónimas, presumiblemente ligeramente
deletéreas, persisten alrededor de la terminal. Al aplicar el mismo enfoque a la relación entre
divergencia no sinónima y divergencia sinónima, encontramos más mutaciones no sinónimas
fijadas alrededor de la terminación (Student bilateral test, p,0.05). Todas estas observaciones
están de acuerdo con una menor eficiencia de selección en esta región, compatible con los efectos
de la selección de fondo en regiones de baja recombinación.

La co-ocurrencia observada de un menor GC% y una menor tasa de recombinación en la terminal


también podría indicar una reducción de la acción de recombinación para purgar mutaciones
deletéreas en esa región. La mayoría de las mutaciones tienden a ser de GC a AT y, como reveló
nuestro análisis de la D de Tajima, la mayoría de las mutaciones no sinónimas son
presumiblemente deletéreas. En consecuencia, si un segmento de ADN que carece de mutaciones
nocivas sustituye a un fragmento que contiene muchos de ellos, presumiblemente GC hacia
adelante-AT, el recombinante resultante se seleccionará para y, por lo tanto, aumentará el
contenido de GC. Por lo tanto, en regiones de baja tasa de recombinación, se acumulará un mayor
número de mutaciones deletéreas GC hacia adelante-AT. Esto concuerda con análisis recientes
que muestran una asociación entre el enriquecimiento con G+C y la selección purificadora de
sustituciones no sinónimas[77]. Alternativamente, la recombinación podría tener un efecto
mutagénico directo. La hipótesis de conversión génica sesgada, que goza de una creciente
popularidad para explicar la heterogeneidad de G+C en los genomas de mamíferos, afirma que los
desajustes en los heterodúplex de recombinación se reparan a favor de G y C[78]. Si en E. coli,
como en humanos y elefantes, la conversión génica sesgada resulta en enriquecimiento de G+C,
entonces tasas de conversión más bajas en la terminal deben resultar en un menor contenido de
G+C observado. La conversión génica sesgada resulta en la segregación sesgada de nucleótidos y,
por lo tanto, en una brecha entre la composición de los genomas y sus patrones de mutación.
Anteriormente habíamos encontrado que tal brecha era común en los genomas bacterianos[79].
La reevaluación de esos datos mostró que en los 6 genomas de E. coli considerados en nuestro
trabajo anterior, el contenido de G+C era mayor de lo esperado, dados los patrones mutacionales
observados. Esto sugiere que las mutaciones hacia G y C tienen más probabilidades de alcanzar la
fijación, de acuerdo con la hipótesis de conversión génica sesgada en E. coli. Ambas hipótesis son
compatibles con el patrón observado, pero atribuyen un significado diferente a la reducción del
GC% al final. En la hipótesis de conversión génica sesgada, un menor GC% es sólo el resultado del
sesgo mutacional inducido directamente por la recombinación, mientras que en la segunda, un
menor GC% refleja la menor eficiencia de la recombinación para purgar las mutaciones
ligeramente deletéreas y, por lo tanto, es una señal de mala adaptación. ¿Por qué las tasas de
conversión deben ser más bajas en el terminal? Esto podría explicarse por los patrones de
organización del genoma. En primer lugar, en el crecimiento exponencial de las células de E. coli,
las regiones cercanas al origen de la replicación están presentes en muchas más copias que las
regiones cercanas al terminal[80]. Por lo tanto, proporcionan dianas más abundantes para la
conversión de genes con ADN extraño. Debido a los efectos de la dosis de los genes, el origen de la
replicación también se enriquece en genes altamente expresados, que se encuentran bajo una
selección purificadora más fuerte. Esto podría conducir a tasas de mutación observadas más bajas
o a tasas de recombinación más altas, si el papel de la recombinación es mantener las funciones
domésticas[81]. En segundo lugar, la región de baja recombinación / alto contenido de A+T cerca
del terminal coincide con los límites del macrodominio Ter del plegamiento cromosómico en E.
coli[82]. Se han descrito cuatro macrodominios (Ori, Ter y dos Ter flanqueantes denominados
Derecha e Izquierda: Figura 10)[82]. Estos macrodominios son estructuras compactadas que
actúan como aislantes de recombinación intracromosómica. Una compactación estrecha del
dominio Ter podría dar lugar a tasas de conversión más bajas con el ADN entrante. El vínculo entre
la frecuencia de la conversión génica, la composición de la secuencia sesgada, la compactación y
selección cromosómica pone de relieve la íntima asociación entre la dinámica del genoma y la
organización cromosómica. Las nuevas tecnologías de secuenciación de alto rendimiento pronto
permitirán la secuenciación de cientos de cepas de la misma especie, pero no hasta su finalización
y cierre. Los genomas de Escherichia que secuenciamos, los previamente secuenciados, más otros
y nuestros esfuerzos de reannotación, proporcionarán una base sólida para la próxima fase de la
genómica de E. coli en la que la genética poblacional y la evolución experimental tendrán un papel
importante. También esperamos haber contribuido a reducir la brecha entre los enfoques
genético y filogenético de la población en el estudio de la evolución del genoma, demostrando que
ambos pueden utilizarse para desenmarañar los efectos de la dinámica génica sobre la adaptación
y la organización del genoma. Dentro de una especie bacteriana, el núcleo del genoma evoluciona
principalmente a través de la mutación y la recombinación, mientras que el resto del genoma
también está sujeto a la transferencia horizontal de genes. Mientras que esto encaja con las
observaciones cualitativas en otras especies[83-85], en E. coli las tasas de transferencia lateral son
particularmente altas y conducen a tiempos de residencia de genes muy cortos. Además, una vez
introducidos por transferencia lateral, los genes pueden propagarse por recombinación homóloga
en las regiones laterales. A pesar de este elevado flujo genético, los genes coexisten en los
genomas organizados.

El conflicto entre la dinámica del genoma y la organización puede haber dado lugar a los llamativos
focos de integración, que limitan las regiones de alta inestabilidad. También puede haber dado
lugar a una conversión génica regionalizada.

La plasticidad cromosómica ciertamente acelera la adaptación de la E. coli a ambientes variados.

En primer lugar, permite muchas vías evolutivas paralelas y específicas de ganancia y pérdida de
genes que conducen a fenotipos convergentes. Segundo, permite múltiples combinaciones de
genes que, con interacciones epistáticas, darán lugar a la diversificación fenotípica. Como
resultado de estos complejos patrones evolutivos, en la mayoría de los casos no existe una
asociación simple entre la presencia de un gen y un fenotipo determinado. Por ejemplo, nuestro
análisis genómico del fenotipo de virulencia extraintestinal sugiere que será muy difícil desarrollar
una vacuna contra las infecciones extraintestinales sin afectar también a la microbiota intestinal
residente porque no existe un único determinante de la primera. La gran diversidad entre los
genomas de E. coli sugiere que la clave para comprender la aparición de tales fenotipos reside en
un muestreo más amplio de aislados naturales combinado con un análisis sistemático de los datos
a nivel fisiológico. Se seleccionaron seis cepas de E. coli, así como la cepa tipo (ATCC 35469T) de E.
fergusonii, la especie más cercana relacionada con E. coli[31], para la secuenciación completa del
genoma (Tabla 1). Entre las cepas de E. coli, 2 eran comensales: El IAI1 (serogrupo O8) fue aislado
de las heces de un joven y sano recluta militar en la década de 1980 en Francia[23] y el ED1a
(serogrupo O81) fue aislado en la década de 2000 de las heces de un hombre sano en Francia y
pertenece a un clon comensal generalizado y específico de cada persona que está aumentando en
frecuencia[55]. Cuatro cepas de E. coli eran patógenas. La cepa 55989 de E. coli enteroagregante
se aisló originalmente de las heces diarreicas de un adulto VIH positivo que sufría de diarrea
acuosa persistente en la República Centroafricana[86]. El patotipo enteroagragia es reconocido
como una causa emergente de diarrea en niños y adultos en todo el mundo[87]. Entre las tres
cepas patógenas extraintestinales, IAI 39 (serotipo O7:K1) se aisló de la orina de un paciente con
pielonefritis en la década de 1980 en Francia[23]. UMN026 (serotipo O17:K52:H18) fue aislado de
una mujer con cistitis aguda no complicada en 1999 en los EE.UU. (Minnesota) y es representante
de un grupo clonal de E. coli recientemente surgido ("grupo clonal A") que ahora está
ampliamente diseminado y es causa de infecciones del tracto urinario resistentes a los
medicamentos y otras infecciones extraintestinales[88]. S88 (serotipo O45:K1:H7) fue aislado en
1999 del líquido cefalorraquídeo de un recién nacido con meningitis neonatal de aparición tardía
en Francia y representa lo que ahora se considera un clon emergente muy virulento en
Francia[89]. Estas cepas se distribuyeron en 3 de los 4 grupos filogenéticos principales de E. coli:
IAI1 y 55989 pertenecen al grupo B1, UMN026 y IAI392 pertenecen a cada uno de los dos
subgrupos principales dentro del grupo D, y ED1a y S88 pertenecen a los subgrupos VIII y IX,
respectivamente, dentro del grupo B2[42]. Existen pocos datos disponibles sobre las cepas de E.
fergusonii. Se han aislado de humanos y animales de sangre caliente, a veces en condiciones
patógenas (intestinales y extraintestinales)[90-92]. Las principales características de las 14 cepas (8
E. coli sensu strictu y 6 Shigella) con genomas de libre disponibilidad en el momento del estudio se
presentan en la Tabla 1. Estos genomas se utilizaron con fines de comparación. Secuenciación Se
construyeron tres bibliotecas de ADN para determinar, para cada cepa, la secuencia completa del
genoma. Dos de las bibliotecas se obtuvieron tras el corte mecánico del ADN genómico y la
clonación de las inserciones resultantes de 3 kbp y 10 kbp en plásmidos pcDNA2.1 (Invitrogen) y
pCNS (derivados de pSU18), respectivamente. Se introdujeron en pBeloBac11 fragmentos de ADN
de unos 30 kbp generados tras una digestión parcial utilizando HindIII y/o Sau3A. Los ADNs
vectoriales fueron purificados y secuenciados usando químicos de terminación de colorantes en
los secuenciadores ABI3730 para proporcionar un promedio de 12 veces más de cobertura para
cada genoma. Se realizó un premontaje sin secuencias de repetición, como se describió
anteriormente[93] utilizando el paquete de software Phred/Phrap/Consed (www.phrap.com). El
paso final se logró con la aplicación de la imprimación, la transposición y la PCR. Anotación y re-
annotación de los genomas de Escherichia Una vez que la secuencia de consenso de un primer
ensamblaje completo (contiguo simple) estuvo disponible para uno de los nuevos genomas, la
predicción génica se realizó utilizando el software AMIGene[94].

Utilizando la alineación global de MAUVE también extraímos un concatenado de la columna


vertebral que introducimos en Tree-puzzzle con el modelo HKY+gamma (con 8 categorías)+I para
obtener una matriz de distancias. BioNJ se utilizó para reconstruir el árbol no enraizado a partir de
la matriz de distancia. Congruencia filogenética a lo largo del cromosoma Usando la alineación del
genoma múltiple cromosómico, estudiamos la probabilidad del árbol de la especie para cualquier
ventana de 5 kbp de secuencia conservada a lo largo del genoma. Dado que la probabilidad,
estimada con PHYML[103] bajo el modelo HKY, depende tanto de la longitud de la secuencia
estudiada como de la fracción de sitios polimórficos informativos, calculamos la regresión entre el
número de sitios y la probabilidad de secuencias del mismo tamaño, y luego estimamos una
puntuación como la desviación de esa predicción. Por lo tanto, una puntuación filogenética de 0
refleja una región en la que la probabilidad del árbol de la especie es igual a la media de todo el
genoma. Una puntuación negativa refleja una probabilidad inferior a la media, es decir, la filogenia
se ve más afectada que la media por la recombinación. Simulaciones coalescentes Simulamos
secuencias de 2 millones, 3 kbp bajo un marco de trabajo coalescente neutro con conversión
génica pura usando el software MS[110]. Todas las simulaciones tenían valores diferentes de la
tasa de mutación por base (theta), la tasa de conversión génica por base (Cgc) y la longitud media
del tracto (Lgc) (suponiendo una distribución geométrica). Para cada una de estas simulaciones, se
calcularon las estadísticas del desequilibrio del enlace específico de la firma de conversión génica,
tal como se describe en otra parte[39]. Básicamente, el desequilibrio de los enlaces de larga y
corta distancia se mide por pares y trillizos de sitios. Dado que anteriormente habíamos estimado
longitudes de tracto de conversión génica bastante pequeñas[42], utilizamos tamaños de ventana
de 1 kbp, 0,2 kbp y 0,1 kbp, en lugar de los valores predeterminados más grandes. Utilizando el
software ABCest[41], un método de cálculo bayesiano aproximado, estimamos estos parámetros
para todos los genes del genoma y todas las ventanas deslizantes de 3 kbp a lo largo de la
alineación del genoma con un paso de 500 bp. Para evaluar la fiabilidad del método, lo probamos
en 1500 nuevas simulaciones. La correlación de Pearson entre el cociente Cgc/theta observado y
estimado fue muy alta (0.897, 0.885 para los valores logarítmicos transformados) y el 92% de las
simulaciones proporcionaron un intervalo de confianza del 95% alrededor del valor estimado que
abarca el valor real. La longitud del tracto, Lgc, proporcionó intervalos de confianza del 95%
bastante grandes, de modo que incluso si el 92% de las simulaciones abarcaban el valor real en
este intervalo, la correlación de Pearson entre el valor observado y el estimado fue menor: 0,585
(0,676 para los valores logarítmicos transformados). Por lo tanto, este enfoque proporciona
estimaciones adecuadas de los parámetros y, una vez que se han realizado los 2 millones de
simulaciones, permite una estimación rápida (varios segundos) de los parámetros para cada
conjunto de datos. Para estudiar cómo la conversión génica afectaba al proceso de reconstrucción
filogenética, modificamos el software de la EM[110] para permitir que 25 kbp de secuencias
evolucionaran en un modelo de conversión génica pura, pero manteniendo un nucleótido sin
ninguna conversión, de modo que su historia reflejara la historia de la columna vertebral
cromosómica. Luego comparamos con varios métodos (ver sección de análisis filogenéticos) la
topología del árbol filogenético reconstruido con PHYML[103] a partir de los 25 kbp,
evolucionando a lo largo de topologías locales derivadas de EM bajo el modelo HKY con Seq-
Gen[111], con la verdadera historia del último nucleótido no combinable, tal como se extrajo
directamente de la EM. Estimación de los caracteres ancestrales Usamos la función "ACE".
(paquete ''APE''' en R[112]) para estimar los estados de carácter ancestral para caracteres
continuos (tamaño del genoma) y discretos (presencia o ausencia de genes) en todas las ramas de
árboles que involucran estos taxones. Para los personajes continuos utilizamos un modelo de
movimiento browniano en el que los personajes evolucionan siguiendo un recorrido aleatorio.
Este modelo estaba provisto de mínimos cuadrados[113]. Estimamos los caracteres discretos
ancestrales por probabilidad máxima[114]. Para ello construimos una matriz en la que el número
de filas corresponde al número de caracteres (es decir, 18 822 genes ortólogos posicionales
correspondientes al pan-genoma) y el número de columnas corresponde al número de genomas
(es decir, 1 E. fergusoni y 20 cepas de E. coli). El modelo tiene dos estados de carácter (0= ausencia
del gen, 1= presencia del gen). Dado que el tamaño del genoma es relativamente constante entre
los géneros estrechamente relacionados Escherichia, Salmonella y Yersinia, asumimos una
probabilidad de inserción igual a la probabilidad de deleción, es decir, asumimos que los genomas
están cerca del equilibrio en términos de tamaño del genoma.

Por lo tanto, las variaciones de tamaño se consideran fluctuaciones estocásticas asociadas a la


inserción de ciertos elementos de gran tamaño, como los fagos. Utilizamos el árbol filogenético de
referencia y el patrón filogenético que indica la presencia/ausencia de cada gen (del pangenoma)
para inferir la probabilidad de presencia de cada gen en cada nodo interno del árbol. Para cada
uno de estos nodos se consideraba presente un gen si tenía una probabilidad de presencia de 0,5
dólares. Los números de genes perdidos y ganados, respectivamente, se determinaron de la
siguiente manera: si el gen estaba ausente (vs. presente) en un nodo dado pero presente (vs.
ausente) en su antepasado, se consideraba como ganado (vs. perdido) a lo largo de la rama que
conduce al nodo dado. El orden de los genes ancestrales se determinó en todas las ramas de los
árboles utilizando el criterio de la parsimonia. Considerando el orden interno de los genes del
nodo, se definió el número de eventos de adquisición y pérdida para conjuntos de pares
consecutivos de genes (permitiendo brechas de 1 gen).

El número de eventos en cada rama del árbol de la especie se calculó reconstruyendo el orden
relativo de los genes centrales en el genoma ancestral por parsimonia. Luego combinamos en un
solo evento las ganancias o pérdidas contiguas de genes en la misma rama, permitiendo brechas
de 1 gen. Se utilizó un modelo de ratón de infección sistémica para evaluar la virulencia
extraintestinal intrínseca de las cepas disponibles[23]. Para cada cepa, 10 ratones OF1 hembra
suizos (3-4 semanas de edad, 14-16 gm) fueron desafiados subcutáneamente en el abdomen con
un inóculo bacteriano estandarizado (0.2 ml de solución Ringer con 109 cfu/ml de bacterias en
fase logarítmica). La mortalidad se evaluó a los 7 días después del desafío. En este sistema modelo,
la letalidad es un parámetro bastante claro y, basado en el número de ratones muertos, casi todas
las cepas se clasificaron como no mortales (2 de 10 ratones muertos) o mortales (0,8 ratones
muertos)[32].

Figura S1 Representación circular de los seis genomas de Escherichia coli y del genoma de E.
fergusonii. Los círculos se muestran de adentro hacia afuera: (1) Desviación de GC (G+C/G2C
usando una ventana deslizante de 1 kbp). (2) Localización de genes de tRNA, operadores de rRNA y
secuencias de inserción (ISs). (3) Desviación de GC (diferencia entre el contenido medio de GC en
un intervalo de 1 kbp y el contenido medio global de GC). Las áreas rojas indican que la desviación
es mayor que 2 desviaciones estándar. (4) Genoma ancestral de E. coli. Las áreas amarillas
denotan genes que están presentes en todos los genomas bajo estudio. (5) Escala. (6)
Especificidad genética a nivel de cepa. Los genes que comparten al menos un homólogo en otra
cepa de E. coli del mismo grupo filogenético y que tienen más del 85% de identidad en al menos el
80% de su longitud se consideraron no específicos. Para simplificar la visualización de regiones
específicas, hemos creado un gradiente de color que denota el porcentaje de organismos que
poseen un homólogo de un determinado gen dentro del genoma de referencia. Si este gen en
particular está presente en todos los organismos bajo estudio, se marca en gris claro. Por el
contrario, si está presente sólo en el genoma de referencia, se marca en color oscuro. En otras
palabras, cuanto más pronunciado es el color, mayor es la especificidad. (7) Especificidad genética
a nivel de grupo. Se utilizaron los mismos criterios que para el círculo (6), pero el genoma
analizado se compara con cepas de E. coli que pertenecen a otros grupos filogenéticos. La
comparación también incluye Shigella. (8) Especificidad genética a nivel de especie. Se utilizó el
mismo protocolo que para los círculos (6) y (7) excepto que la comparación involucra a E.
fergusonii, que se considera como el outgroup para este estudio. Encontrado en:
doi:10.1371/journal.pgen.1000344.s001 (1.82 MB PPT)

Figura S2 Representación visual de la alineación múltiple MAUVE de 20 genomas de Escherichia


coli/Shigella. La representación se realizó utilizando la base de datos MOSAIC (http://genome.jouy.
inra.fr/mosaic/), visor de alineación múltiple. Las líneas horizontales corresponden a una
representación lineal de cada secuencia del genoma dibujada a escala. La línea azul corresponde a
los genes anotados. Los bloques de color corresponden a los bloques colineales locales (LCBs) de la
alineación definida por MAUVE. Los LCBs correspondientes a las inversiones se representan en una
segunda línea. Un LCB de un genoma está vinculado al LCB correspondiente del genoma siguiente
con una parcela del mismo color. Esta representación visual muestra que, aparte de los
reordenamientos presentes en los cromosomas Shigella, los genomas de E. coli son en su mayoría
colineales. Se encuentra en: doi:10.1371/journal.pgen.1000344.s002 (0.11 MB PPT) Figura S3
Árbol filogenético de la columna vertebral de las 20 cepas de Escherichia coli y Shigella
reconstruidas por el software MAUVE. Este árbol sin enraizar se construyó utilizando Tree-puzzzle
con el modelo HKY+gamma (con 8 categorías)+I seguido de BioNJ para reconstruir el árbol a partir
de la matriz de distancia. Los valores en los nodos corresponden a los valores de soporte para cada
rama interna, según lo estimado por Treepuzzle (rango 0-100), y pueden ser interpretados de
manera muy similar a los valores de bootstrap. Se encuentra en:
doi:10.1371/journal.pgen.1000344.s003 (0.09 MB PPT) Figura S4 Asociación entre la relación entre
el repertorio de genes y la distancia filogenética. R. Los genomas se colocaron a una distancia
filogenética para mayor claridad. Para los dos primeros compartimentos, que corresponden a los
genes más estrechamente relacionados, existe un alto porcentaje de genoma en común, lo que no
es el caso para los otros compartimentos, que corresponden a los genes más distantes
relacionados. B. Histograma de las distancias filogenéticas entre pares de genomas. Se encuentra
en: doi:10.1371/journal.pgen.1000344.s004 (0.04 MB PPT) Figura S5 Reconstrucción de ganancias
y pérdidas de genes en la evolución de Escherichia coli. El cladograma muestra las relaciones
filogenéticas entre los 20 genomas de E. coli/Shigella enraizados en el genoma de E. fergusonii,
como en la Figura 4, sin tener en cuenta la longitud de las ramas para mayor claridad. Cada cepa y
nodo interno del árbol se etiqueta con los números inferidos de genes ganados (rojo: arriba) y
perdidos (negro: arriba), y los números inferidos de eventos correspondientes de adquisición de
genes (rojo: abajo) y pérdida (negro: abajo) a lo largo de la rama. Los diagramas de tarta en cada
rama indican la clasificación funcional de los genes perdidos, utilizando la escala de colores
(detalles en las claves). Las clases funcionales de los genes de función conocida están
representadas por números explicados por una clave en la Tabla Suplementaria 4. Se encuentra
en: doi:10.1371/journal.pgen.1000344.s005 (0.31 MB PPT) Figura S6 Asociación entre la distancia
de un nodo a la punta del árbol y la diferencia entre el tamaño del genoma ancestral predicho y el
número efectivo de genes predicho de forma fiable que estarán presentes en el nodo. La
asociación es muy significativa (R2 = 0,56, p,0,001). Se encuentra en:
doi:10.1371/journal.pgen.1000344.s006 (0.03 MB PPT) Figura S7 Características de los puntos
calientes de inserción/eliminación de material genético. Los círculos indican los valores por
ubicación entre genes contiguos en el genoma central. Los datos son (desde el círculo exterior
hacia el interior): número medio de genes, desviación estándar, suma de genes, número de
elementos similares a los profagogas, número de secuencias de inserción como elementos, suma
de genes de tRNA y tasa de heterogeneidad en los puntos calientes. Esta última es la relación
entre el número observado de ortólogos y el valor esperado si todos los genes tuvieran ortólogos
en todos los genomas, después de excluir los genomas que carecen de genes en el punto caliente y
aquellos para los que la región tiene un punto de ruptura sintomática. Se encuentra en:
doi:10.1371/journal.pgen.1000344.s007 (0.14 MB PPT) Figura S8 Congruencia filogenética en la
codificación del locus rfb para el antígeno O. Seguimos la probabilidad de la topología de la
especie para ventanas de 5 kbp (espaciadas por 250 bp) a lo largo de la columna vertebral
cromosómica. Después de corregir el número de sitios polimórficos, cada ventana recibió una
puntuación Z de congruencia filogenética. Los valores bajos reflejan una congruencia filogenética
inferior a la media. Una región grande (flecha verde) tiene una congruencia significativamente
menor que el resto del genoma. Las flechas rojas indican los puntos calientes de integración y los
correspondientes loci cuando se identifican. HPI: isla de alta patogenicidad. Se encuentra en:
doi:10.1371/journal.pgen.1000344.s008 (0.03 MB PPT)

A las secuencias de codificación previstas (CDSs) se les asignó un identificador único prefijado con
''ECED1_'' para E. coli ED1a, ''EC55989_'', para E. coli 55989, ''ECIAI1_'' para E. coli IAI1, ''ECIAI39_''
para E. coli IAI39, ''ECS88_'' para E. coli S88, ''ECUMN_'' para E. coli UMN026, y ''EFER_'' para E.
fergusonii ATCC. Estos identificadores comienzan con "p" si los CDS correspondientes están
codificados en plásmidos. Los conjuntos de genes pronosticados fueron sometidos a una
anotación funcional automática, como se describió anteriormente[95]. Aparte de los genes
codificados por plasma, la asignación funcional final se basó en la transferencia de las anotaciones
recientemente actualizadas de E. coli K-12 MG1655[96] entre ortólogos fuertes, es decir, 85% de
identidad en al menos el 80% de la longitud de la proteína más pequeña (Tabla S2A). Los datos de
secuencia para los análisis comparativos se obtuvieron de la base de datos del NCBI (sección
RefSeq, http://www.ncbi.nlm.nih.gov/RefSeq). Los ortólogos putativos y los grupos de sintenia (es
decir, la conservación de la co-localización cromosómica entre pares de genes ortólogos de
diferentes genomas) se calcularon entre cada genoma de nueva secuenciación y todos los demás
genomas completos, como se describió anteriormente[95]. Todos estos datos (anotaciones
sintácticas y funcionales, resultados de análisis comparativos) se almacenan en una base de datos
relacional, llamada ColiScope. La validación manual de la anotación automática por parte de
múltiples usuarios en diferentes ubicaciones se realizó utilizando la interfaz basada en web MaGe
(Magnifying Genomes, http://www.genoscope. cns.fr). Para cada genoma recién secuenciado, sólo
se anotaron manualmente las regiones "específicas", es decir, aquellas que contenían genes no
ortólogos de E. coli K-12 MG1655 o de genes anotados por expertos en otro genoma del proyecto
ColiScope (Tabla S2A). En total, 9776 genes fueron anotados por nuestro grupo.

Este trabajo de expertos también se utilizó para re-anotar el otro público y los genomas de
Shigella. Esto permitió la creación de un conjunto de anotaciones de expertos coherentes para los
20 genomas. En primer lugar, hemos integrado estos genomas en la base de datos ColiScope
utilizando MICheck, un método que permite la verificación rápida de conjuntos de genes anotados
y frameshifts en genomas bacterianos previamente publicados[97]. Se definieron algunas
anotaciones inexactas o que no se cumplieron para estos genomas (ver la Tabla S2B y la Tabla S3
para la lista de genes recientemente pronosticados en los 14 genomas analizados). En segundo
lugar, transferimos automáticamente la anotación funcional de los genes de E. coli K-12 MG1655,
o genes anotados en el contexto de este proyecto, a los genes de los otros genomas que
mostraron una similitud secuencial muy fuerte (85% de identidad en al menos el 80% de la
longitud de la proteína más pequeña). Los genes restantes, es decir, los que no tienen ortólogos
en E. coli K-12 MG1655 o uno de los nuevos genomas de Escherichia, conservaron las anotaciones
funcionales originales (columna genes'específicos' en la Tabla S2B). Las nuevas secuencias de
nucleótidos de E. coli y E. fergusonii y los datos de anotaciones se han depositado en la base de
datos del EMBL (http://www.ebi.ac.uk/embl; véase la lista de números de acceso más adelante).
Además, la base de datos ColiScope, que incluye todos los datos del conjunto de cepas de
Escherichia y Shigella secuenciadas hasta la fecha, está disponible al público a través de la interfaz
MaGe en https://www.genoscope.cns. fr/agc/mage.

Asignación de Ortología

Se definió un conjunto preliminar de ortólogos identificando los mejores resultados únicos


recíprocos por pares, con al menos un 80% de similitud (,85% de identidad) en la secuencia de
aminoácidos y menos de un 20% de diferencia en la longitud de la proteína. El análisis de la
ortología se hizo para cada par de genomas de E. coli/Shigella. El genoma central, que consiste en
genes que se encuentran ubicuamente entre todas las cepas de la especie, se definió como la
intersección de listas por parejas. Para cada par de genomas se complementó esta lista de
ortólogos persistentes, prestando atención a la conservación del orden genético. Debido a que (i)
se observan pocos reordenamientos a estas cortas distancias evolutivas, y (ii) es frecuente la
transferencia horizontal de genes, es probable que los genes fuera de los bloques conservados de
la sintenia sean xenólogos o paralógicos. Por lo tanto, combinamos el análisis homológico
(similitud de la secuencia de proteínas $80%, diferencia #20% en la longitud de la proteína) con la
clasificación de estos genes como sinténicos o no sinténicos, para la determinación de la ortología
posicional. El análisis se realizó para cada par de genomas de E. coli/Shigella. La lista definitiva de
ortólogos del pan-genoma se definió entonces como la unión de listas por parejas. Un bloqueo
sinténico se definió como un conjunto de pares consecutivos de genes en el genoma central. Los
bloques de genes de orden conservado se obtienen mediante la comparación de la localización de
los mejores pares de golpes bidireccionales en el genoma central, adoptando un tamaño de
ventana de una abertura. Estas listas también se utilizaron para realizar curvas de acumulación de
genes utilizando R, que describen el número de nuevos genes y genes en común, con la adición de
nuevos genomas comparativos (Figura 1). El procedimiento se repitió 1000 veces modificando
aleatoriamente el orden de inserción del genoma para obtener la mediana y los cuartiles.

Asignación de Homología y Ortología

En la misma especie bacteriana, los homólogos (paralogs, orthologs, xenologs) fueron definidos
identificando la explosión recíproca, con $80% de similitud en la secuencia de aminoácidos y #20%
de diferencia en la longitud de la proteína. Entre las diferentes especies de proteobacterias, los
ortólogos se definieron identificando los mejores resultados únicos recíprocos, con una similitud
de $40% en la secuencia de aminoácidos y una diferencia de #20% en la longitud de la proteína. El
análisis de la ortopedia se realizó con 99 genomas proteobacterianos. Multialineaciones de todo el
genoma de las 20 cepas de E. coli Se realizaron alineaciones de todo el genoma de las 20 cepas de
estudio de E. coli/Shigella utilizando el algoritmo Aligner del programa MAUVE, versión 2.0.0[98],
con los siguientes parámetros: -island-size = 20 -backbone-size = 20 -max-backbone- gap = 20 -
seed-size = 19 -gapped-aligner = clustal -maxgapped- aligner-length =10000 -min-recursive-gap-
length = 5000 -weight =5000. El archivo de salida MAUVE se trató más a fondo para asignar cada
parte de la alineación a una de las dos categorías,'backbone' o'segmento variable' (anteriormente
llamado'loops'), como se describe en[99]. Brevemente, las regiones que no pertenecen a un
"partido", según la definición de MAUVE y de menos de 10 kbp de longitud, se alinearon utilizando
ClustalW y la alineación se inspeccionó automáticamente. La región fue considerada como un
segmento central si todas las comparaciones por pares daban más de un 76% de identidad, con
nunca más de 20 brechas consecutivas. En todos los demás casos, toda la región fue considerada
como un segmento variable.

Para producir el archivo de alineación de ADN a partir de dicho procedimiento, se extrajeron las
coordenadas de todos los segmentos de la columna vertebral de cada genoma y se alinearon con
MAFFT, versión 6.24[100], utilizando un script Perl hecho en casa. Los segmentos se alinearon
primero con la opción'-globalpair', que es adecuada para un conjunto de secuencias alineables
globalmente. Cuando se produjeron problemas (especialmente en los segmentos largos de la red
troncal), las alineaciones MAFFT se calcularon utilizando la opción"-auto", que selecciona
automáticamente un algoritmo de alineación adecuado en función del tamaño de los datos.
Análisis estadístico a lo largo del cromosoma (escáneres). A lo largo de la alineación del genoma
múltiple cromosómico estudiamos la variación de las estadísticas descriptivas, como el GC% y las
estimaciones de las tasas de mutación y recombinación. Calculamos cada estadística, F, en una
ventana deslizante de tamaño constante a lo largo de la alineación concatenada. A continuación se
ha estimado el valor medio de la estadística m y sus desviaciones estándar s con la mediana y la
distancia entre cuartiles (normalizada por un factor de 1,38), ya que estas estimaciones se ven
menos afectadas por la existencia de valores extremos. Entonces calculamos la suma acumulativa
estandarizada a lo largo del genoma S x ð Þ~ P x i~0 ðFðiÞ{mÞ s. Cuando la suma acumulativa está
disminuyendo en una región, significa que esta región alberga un valor inferior al promedio de las
estadísticas. Por lo tanto, para cada estadística podemos identificar los límites de las regiones que
tienen valores atípicos. Análisis filogenéticos Para reconstruir la filogenia de las cepas, utilizamos
dos conjuntos de datos: los genes comunes a todas las cepas de E. coli/Shigella y E. fergusonii
(genoma central de Escherichia) y la espina dorsal del genoma, definida como arriba. También
utilizamos varios métodos para cada conjunto de datos. i) El árbol filogenético de referencia de los
genes del genoma central de Escherichia se reconstruyó a partir de las alineaciones concatenadas
de 1878 genes del genoma central de las cepas E. coli/Shigella y E. fergusonii. Usamos Tree-puzzzle
5.2[101] para calcular la matriz de distancia entre todas las cepas usando la máxima verosimilitud
bajo el modelo HKY+gamma (con 8 categorías)+I. El árbol se construyó a partir de la matriz de
distancia utilizando BioNJ[102]. Realizamos 1000 experimentos de bootstrap en las secuencias
concatenadas para evaluar la robustez de la topología. (ii) También inferimos un árbol para cada
uno de los 1878 genes del genoma central, utilizando la probabilidad máxima con PHYML 2.4.4 con
un modelo GTR+gamma+I para cada gen[103]. Para cada árbol se extrajeron los parámetros
relevantes del modelo y se hizo un promedio ponderado para obtener un modelo de promedio
global. Utilizamos las longitudes de los genes como pesos del promedio. El modelo global así
obtenido se utilizó para inferir un árbol basado en la concatenación de los genes utilizando Tree-
puzzzle 5.2. El árbol se construyó a partir de la matriz de distancias utilizando el algoritmo BioNJ.

Para comprobar que las longitudes de rama obtenidas con este método son correctas, las
calculamos por probabilidad máxima imponiendo la topología del árbol (baseML del paquete
PAML 4 implementación[104]). Las diferencias encontradas fueron extremadamente pequeñas.
Para evaluar la robustez del árbol arrancamos 1000 veces las secuencias concatenadas, cada vez
lanzando Tree-puzzzle con el mismo modelo global previamente inferido. (iii) Se realizaron
comparaciones entre árboles filogenéticos. Para comprobar si el árbol filogenético de cada gen (tal
como se deduce por la máxima probabilidad utilizando el modelo PHYML 2.4.4: GTR+gamma+I) es
significativamente diferente del árbol global reconstruido a partir de la concatenación de genes
del genoma del núcleo de Escherichia, realizamos varias pruebas para comparar topologías de
árboles utilizando la probabilidad. Estos incluyeron una prueba de SH[105], dos tipos de prueba de
Kishino y Hasegawa (prueba de KH) (es decir, la prueba original de KH de dos lados como se
describe en[106] y la prueba de KH de un lado[107] usando pruebas de SH de dos lados), y los
pesos de verosimilitud esperados (ELW)[108]. Para las simulaciones, utilizamos estas pruebas, así
como la prueba de Robinson y Foulds[45]. Todas las pruebas utilizaron un criterio de significación
del 5%. (iv) También construimos un árbol de consenso (regla de mayoría extendida tal como se
implementó en CONSENSE) usando el paquete PHYLIP 3.66[109] del conjunto de árboles inferido
en (ii).

Figura S9 Distribución de las estadísticas de Tajima sobre los genes del genoma central de
Escherichia coli de 1976. El código de color es el siguiente: todas las mutaciones (rojo), mutaciones
sinónimas (verde) y mutaciones no sinónimas (amarillo). Los valores D de Tajima negativos[126]
reflejan una frecuencia mayor de lo esperado de alelos raros. El valor más negativo de la D de
Tajima para las mutaciones no sinónimas sugiere que son en promedio deletéreas: persisten algún
tiempo en las poblaciones antes de que la selección las elimine. Se encuentra en:
doi:10.1371/journal.pgen.1000344.s009 (0.08 MB PPT) Table S1 Pseudogenes encontrados en
Escherichia coli K-12 MG1655 y los 7 genomas recientemente secuenciados del proyecto
ColiScope. La columna'Referencia' da el identificador de la secuencia de codificación (CDS) de la
forma de tipo salvaje del gen, en uno de los 21 genomas bacterianos analizados de Escherichia y
Shigella. Para cada uno de estos 21 genomas, el estado particular del gen se indica como funcional
("1"), ausente ("0") o un pseudogeno ("21"). Los nombres de los genes en negrita corresponden a
genes que son pseudogénicos sólo en la cepa considerada. Se encuentra en:
doi:10.1371/journal.pgen.1000344.s010 (0.25MB XLS) Table S2 A) Número de proteínas previstas
que codifican genes en los genomas de las nuevas cepas secuenciadas de Escherichia coli y E.
fergusonii. Los genes fueron (a) funcionalidad anotada usando transferencia automática de
anotaciones de ortólogos K-12 MG1655 u otros genes ortólogos anotados manualmente por
ColiScope, (b) anotados manualmente usando la interfaz gráfica basada en la web de MaGe, o (c)
considerados como predicciones de genes falsos positivos. B) Genomas Escherichia y Shigella
disponibles públicamente incluidos en la base de datos ColiScope. (a) Se han encontrado
anotaciones inexactas (estado "incorrecto") o no se han encontrado anotaciones de genes (estado
"nuevo") utilizando nuestro procedimiento MICheck. Para los 14 genomas analizados, la lista de
genes recientemente predichos se presenta en la Tabla Suplementaria 3. (b) La transferencia
automática de anotaciones funcionales entre genes ortólogos (85% de identidad sobre al menos el
80% de la longitud de la proteína más pequeña) comenzó con resultados de similitud obtenidos
con E. coli K-12 MG1655, luego con los nuevos genomas del proyecto ColiScope. Las predicciones
de genes falsos (es decir, artefactos) fueron las que se definieron en el curso de la anotación de los
expertos de las secuencias de ColiScope. (c) `Genes específicos' son genes que no tienen ortólogo
en E. coli K-12 MG1655 o en cualquiera de los genomas recientemente secuenciados y anotados.
Se encuentra en: doi:10.1371/journal.pgen.1000344.s011 (0.05 MB DOC) Table S3 Genes faltantes
en los genomas de Escherichia coli y Shigella disponibles públicamente. Los genes están ordenados
por longitud (se dan en pares de bases). Los que son similares a los genes del gen mínimo definido
por[127] se destacan en negrita. Se proporcionan descripciones funcionales de los genes,
comenzando con "fragmento de" (columna de producto), para pseudogenes putativos (ya sean
pseudogenes reales o errores de secuenciación). Para algunas manchas de E. coli, por ejemplo,
UTI89, los pseudogenes correspondientes fueron probablemente correctamente anotados por los
autores (numeración de las etiquetas del gen locus_tags), pero no fueron reportados en los
archivos del banco de datos (GeneBank y EMsBL), y por lo tanto fueron anotados como genes
perdidos por el procedimiento MICheck[97]. Se encuentra en:
doi:10.1371/journal.pgen.1000344.s012 (0.36MB XLS) Table S4 Bloques sintéticos y elementos de
secuencia de inserción (IS) entre los 21 genomas de Escherichia coli/Shigella/E. fergusonii. Se
encuentra en: doi:10.1371/journal.pgen.1000344.s013 (0.03 MB DOC)

Tabla S5 Clasificación de los bioprocesos (clave para la Figura 7). Las pruebas indican el sentido de
la diferencia en el número de genes asociados con un bioproceso dado. +/2" significa más/menos
genes en la primera clase, es decir, más/menos en el genoma central que en el conjunto
complementario. ++/22" significa que la diferencia es significativa en el nivel del 5%, utilizando una
prueba de ji cuadrado seguida de una corrección secuencial de Bonferroni para múltiples pruebas.
Se encuentra en: doi:10.1371/journal.pgen.1000344.s014 (0.02 MB DOC) Table S6 Genes (y
características asociadas) asociados categóricamente con ciertos grupos filogenéticos o patotipos.
Las características principales de los genes se dedujeron del proceso de anotación. Se encuentra
en: doi:10.1371/journal.pgen.1000344.s015 (0.23 MB DOC) Tabla S7 Genes de la isla genómica en
el punto caliente de inserción del tRNA pheV (ver Figura 9). Encontrado en:
doi:10.1371/journal.pgen.1000344.s016 (0.08 MB XLS)

También podría gustarte