Está en la página 1de 11

Desbloqueando el potencial de la metagenómica a través del diseño experimental replicado

La metagenómica es una gran promesa para descubrir nuevas enzimas y organismos que son biomarcadores
o impulsores de procesos relevantes para las enfermedades, la industria y el medioambiente. En los últimos
dos años, hemos visto un cambio de paradigma en la metagenómica a la aplicación de estudios
transversales y longitudinales habilitados por los avances en la secuenciación del ADN y la computación de
alto rendimiento. Estas tecnologías ahora permiten evaluar ampliamente la diversidad y la función
microbiana, permitiendo la investigación sistemática de la frontera de la vida microbiana en gran parte
inexplorada. Para lograr este objetivo, la comunidad científica mundial debe colaborar y acordar objetivos
comunes y estándares de datos para permitir la investigación comparativa en todo el microbioma de la
Tierra. Las mejoras en la comparabilidad de los datos facilitarán el estudio de procesos
biotecnológicamente relevantes, como la bioprospección de nuevas glucósido hidrolasas o la identificación
de nuevas fuentes de energía.
La Tierra alberga> 1030 células microbianas1, una cifra que excede el número de estrellas conocidas en el
universo en nueve órdenes de magnitud. Esta riqueza de vida unicelular, la primera vida en evolucionar en
el planeta, sigue representando la gran mayoría de los impulsores funcionales de los ecosistemas de nuestro
planeta2. Sin embargo, la diversidad y las interdependencias de estos organismos microscópicos siguen
siendo en gran parte desconocidas. Del mismo modo, nuestra comprensión del potencial funcional de la
mayoría de los taxones microbianos individuales que residen dentro de cualquier ecosistema es
extremadamente limitada y, en general, se limita a las mediciones de los procesos enzimáticos generales de
la comunidad. Además, los conjuntos de datos metagenómicos secuenciados han desempeñado, hasta la
fecha, solo un pequeño papel en la investigación biotecnológica, y la mayoría de los desarrollos noveles se
producen a través de la expresión heteróloga de enzimas.
Nuestro conocimiento de la diversidad microbiana en la Tierra se verá impulsado por el desarrollo de
nuevas tecnologías que nos permitan "ver" quién, qué, cuándo, dónde, por qué y cómo de las comunidades
microbianas. Más recientemente, los métodos de secuenciación de alto rendimiento han facilitado la
investigación de procesos funcionales y evolutivos en ecosistemas microbianos. Concomitantemente con
estos avances tecnológicos se ha incrementado la cooperación entre disciplinas científicas y el desarrollo de
estándares para la adquisición de metadatos experimentales y contextuales de muestra, que son esenciales
para la interpretación descendente (D.F., J.A.G., R.K., F.M. y colaboradores).
Aquí, discutimos cómo los avances en la secuenciación del ADN, el manejo de datos contextuales y las
mejoras en el diseño del estudio pueden desbloquear el potencial de la metagenómica. Discutimos la
necesidad de un diseño experimental robusto4 (por ejemplo, replicación y caracterización mejorada del
ecosistema) y resaltamos la necesidad de un proyecto de microbioma terrestre que se base en
metagenómica para explorar la materia oscura microbiana de la Tierra a escalas temporales y espaciales y
simultáneamente facilitar el descubrimiento de nuevos genes. A través de enfoques estandarizados de
generación de datos y recolección de metadatos, estamos preparados para avanzar rápidamente hacia el
avance de los objetivos biotecnológicos.
Cambiando el paradigma en el diseño experimental metagenómico
Durante> 80 años, se ha reconocido que la mayoría de la vida microbiana no se puede cultivar fácilmente
en el laboratorio. Esto ha limitado la comprensión de los ecosistemas microbianos y ha impedido nuestra
capacidad para descubrir y utilizar nuevas funciones beneficiosas derivadas de microorganismos (por
ejemplo, enzimas para impulsar reacciones biotecnológicas, procesos para mejorar la biorremediación y
biomarcadores para el diagnóstico de enfermedades y objetivos terapéuticos). La biotecnología actual
todavía se basa en un pequeño establo de especies "domesticadas", sin embargo, las mejoras técnicas en
ecología microbiana molecular y biología sintética ofrecen el potencial para el descubrimiento y la
explotación de nuevas enzimas de ramas del árbol de la vida previamente inaccesibles. Sin embargo, en
esta era de exploración y descubrimiento, al evaluar la capacidad y los límites de las nuevas herramientas,
no es sorprendente que la mayoría de los estudios no hayan cumplido con las expectativas.
Esto ha creado una paradoja, ya que las agencias de financiamiento no están proporcionando los recursos
necesarios para llevar a cabo la secuenciación metagenómica y el análisis de los conjuntos de muestras
grandes y suficientemente replicados necesarios para producir investigaciones científicamente válidas. Las
restricciones financieras no deben comprometer la necesidad de rigor científico. Existe una preocupación
genuina de que tales restricciones hayan llevado a algunas revistas y revisores a aceptar el argumento de
que el diseño experimental y la replicación verdadera no son factibles desde el punto de vista logístico y,
por lo tanto, no deberían ser necesarios para la publicación de las observaciones realizadas. Sin embargo, a
medida que los esfuerzos de investigación pasan de la descripción de la aparente diversidad al estudio de la
complejidad y la función, ya no es aceptable ni deseable.
Es posible que la metagenómica no haya logrado lo que prometió: un método rápido, económico y
completo para explorar la bioquímica funcional en el mundo natural. Creemos que es demasiado pronto
para llegar a esta conclusión, pero varios déficits en la investigación lo respaldan, incluida la subestimación
de la complejidad de la diversidad microbiana, datos limitados sobre la fuente de cada muestra y la
identidad de muchos genes, dificultades para integrar y comparar resultados obtenidos con diferentes
tecnologías en diferentes laboratorios, expectativas desajustadas entre investigadores que buscaban generar
una comprensión de los patrones ecológicos con aquellos que estaban ansiosos por probar los límites de las
nuevas tecnologías, y la falta de estándares de datos acordados. Por ejemplo, un estudio destinado a
descubrir enzimas, como glucósido hidrolasas (JAG et al.) 5 (importante para la descomposición de la
biomasa) debe registrar metadatos sobre el tipo de biomasa, pretratamiento biológico o fisicoquímico (p.
Ej., Molienda de biomasa mediante alimentación con madera insectos), condiciones redox, pH y
temperatura. Tener una base de datos de estos metadatos, que puede considerarse como 'listas de
verificación de datos ambientales', para muchos conjuntos de muestras ayudará enormemente a encontrar
genes relevantes para una aplicación de biotecnología objetivo.
Se necesitará cooperación nacional y mundial para adoptar estándares mínimos en el diseño experimental y
para convencer a las agencias de financiamiento de que hagan los niveles apropiados de inversión. Los
avances iniciales hacia el descubrimiento de genes novedosos utilizando metagenómica se basaron en la
clonación directa y la secuenciación de fragmentos de ADN extraídos de comunidades microbianas no
cultivadas. A pesar de ser un importante paso adelante, estos métodos también fueron lentos y caros. Por
ejemplo, la generación de datos metagenómicos durante el primer tramo de la expedición Global Ocean
Sampling se estimó en un costo> $ 10 millones, y aunque es costoso, el conjunto de datos está limitado por
los estándares actuales. Desde la introducción de la primera ola de secuenciadores de ADN altamente
paralelos de próxima generación en 2006, ha habido una explosión en los proyectos de secuenciación
metagenómica a escala de terabase (gigabase) a escala terabase (J.J.) 6. Una lista ilustrativa, aunque no
exhaustiva, incluye la Encuesta Global del Océano (GOS), el Censo Internacional de Microbios Marinos,
MetaHIT, el Proyecto del Microbioma Humano (HMP), los océanos TARA, DeepSoil, MetaSoil,
Observatorios Genómicos (DF y colaboradores) 7, el estudio piloto JGI Great Prairie y la Red Nacional del
Observatorio Ecológico (NEON).
Estudios metagenómicos pioneros de la composición y función de la comunidad microbiana en diferentes
ambientes (p. Ej., Drenaje ácido de minas (PH y colaboradores) 8, suelo / permafrost (JK y colegas9 y FM,
JAG y colaboradores10), GOS11 marino, series oceánicas de Hawai12, Western Channel El Observatorio
L4 (JAG, DF et al.) 13, el intestino termitero (PH y colaboradores) 14, el rumen de la vaca15, el tracto
gastrointestinal humano (JIG y colaboradores) 16 y el tracto gastrointestinal del ratón (JIG y colaboradores)
17) proporcionaron un primer vistazo al potencial de este enfoque para descubrir genes funcionales
previamente desconocidos, tipos filogenéticos e interacciones entre miembros de la comunidad. De hecho,
los análisis metagenómicos comparativos han arrojado una información considerable sobre la distribución
de las familias de genes en diferentes ecosistemas y el papel de los atributos funcionales específicos en la
adaptación a las condiciones físicas y químicas18-20. Sin embargo, estos estudios iniciales estuvieron
limitados por su condición de estudios piloto, a menudo emprendidos como tales debido al alto costo de la
secuenciación y la necesidad de desarrollar y probar las tecnologías. Por lo tanto, la mayoría de estos
estudios fueron observacionales y no recopilaron un número suficiente de muestras experimentales
replicadas para permitir análisis estadísticamente rigurosos21 de la variación biológica.
Ahora que los costos de secuenciación han disminuido a medida que el rendimiento ha aumentado,
esperamos, salvo excepciones razonables, que se aplique un diseño experimental riguroso a los futuros
experimentos de metagenómica. Además, debemos aprovechar al máximo este nuevo y valiente mundo de
diseño de estudio metagenómico riguroso, pensando como los cartógrafos para crear un mapa que se puede
utilizar para navegar por las regiones desconocidas del universo microbiano. Un ejemplo de este mapa
podría ser un catálogo de todas las proteínas conocidas y los entornos (incluidos los metadatos completos)
en los que se encontraron. Para hacer esto, será necesario caracterizar mejor los ecosistemas individuales
con investigaciones prolongadas y en profundidad; datos contextuales completos físicos, químicos y
biológicos; diseño estadístico apropiado; y una mejor interpretación de las características funcionales y
taxonómicas (Recuadro 1 y Tabla 1). Así como los formatos estándar facilitan la comparación de mapas,
los esfuerzos de estandarización en metagenómica harán más fácil descubrir qué características son
comunes a sistemas múltiples o específicas para cada sistema y determinar la distribución de estos
elementos a través del tiempo y el espacio, mejorando así nuestra comprensión de dinámica microbiana en
todo el planeta Tierra.
Definición del campo de juego mediante secuenciación superficial y profunda
La secuenciación ultradelgada de genes marcadores taxonómicos o funcionales, como la subunidad
pequeña del gen de ARN ribosómico nifH, ha permitido la catalogación exhaustiva de los habitantes de una
variedad de ecosistemas microbianos22-26. La secuenciación profunda de algunas muestras puede
proporcionar información sobre taxones raros y genes raros, pero sin analizar un mayor número de
muestras, surgen limitaciones: no se puede determinar la significación estadística de los patrones
observados, los patrones de co-ocurrencia entre genes y taxones son difíciles de evaluar, y los factores
bióticos o abióticos dominantes que estructuran las comunidades a través del tiempo y el espacio
permanecen indeterminados. Como analogía, si los naturalistas en el siglo diecinueve se hubieran enfocado
solo en la diversidad de plantas y animales en unas pocas parcelas aisladas en vez de explorar ecosistemas
en amplias franjas del globo, los campos de botánica y zoología se habrían detenido, y el los patrones
globales de biogeografía, que fueron cruciales para formar nuestra comprensión moderna de la ecología y
la evolución, habrían permanecido desconocidos. Por lo tanto, o biogeografía microbiana, muchas muestras
de comunidades relacionadas o contrastantes deben estudiarse en paralelo.
Reconocemos los avances recientes que se han logrado mediante la secuenciación profunda de algunas
muestras (por ejemplo, generar miles de millones o billones de pares de bases de una sola muestra). Incluso
aquí, la secuenciación amplia y superficial de muchos miles de muestras es esencial para dirigir qué
muestras se deben elegir para una secuenciación más profunda, permitiendo así análisis de datos que
pueden conducir a una mejor interpretación de la información biológica en muestras secuenciadas
profundas y profundas. La secuenciación profunda de ADN de escopeta aleatoria, por ejemplo, es esencial
para obtener suficiente información para ensamblar de manera confiable fragmentos genómicos específicos
(utilizando las tecnologías de secuenciación disponibles actualmente). El trabajo reciente en muestras de
rumen obtenidas de dos vacas ilustra este punto. Hess et al.15 ensamblaron 15 genomas bacterianos casi
completos a partir de datos de secuenciación de escopeta de longitud de lectura corta. Sin embargo, la
cobertura mejorada del genoma sigue siendo impráctica para muchas muestras, aunque puede ayudar a
enfocar preguntas biológicas: por ejemplo, usando un cálculo aproximado de 4 pares de megabases por
genoma y mil millones de células por gramo, un solo gramo de suelo podría contener hasta 3 pares de
petabase de datos genéticos. Recientemente, Mackelprang et al.9 utilizaron la secuenciación profunda para
ensamblar con éxito un genoma preliminar de un metanógeno novedoso de un suelo de permafrost muy
diverso. Aunque el suelo es uno de los ecosistemas más desafiantes para la metagenómica debido a su gran
diversidad, los avances en los nuevos algoritmos de ensamblaje muestran una gran promesa para el
ensamblaje del genoma a partir de estudios de secuencias profundas (N.D., J.A.G., F.M. y colaboradores).
La decisión de secuenciar algunas muestras profundamente o muchas muestras superficialmente depende
de la pregunta que se va a responder. Se requiere una secuenciación profunda para observar miembros raros
de comunidades microbianas. Independientemente del hábitat en cuestión, los miembros raros de la
comunidad pueden tener funciones funcionales clave, como el ciclo de nutrientes (por ejemplo,
metanogénesis28 o fijación de nitrógeno26), la patogénesis, la estimulación del sistema inmune y la
producción de metabolitos (por ejemplo, butirato en el intestino o antibióticos ) Además, los microbios que
son raros en una muestra pueden ser comunes en otra. Por ejemplo, en el proyecto europeo Meta-HIT, se
obtuvieron secuencias metagenómicas de muestras fecales de 124 individuos, y la presencia de microbios
intestinales humanos identificados como compartidos entre individuos varió de 8 a 1.500 veces entre
diferentes huéspedes.
La secuenciación superficial, por el contrario, permite la exploración de la dinámica microbiana de la
estructura de la comunidad, que es fundamental para construir una comprensión predictiva de un
ecosistema (D.F., J.A.G. y colega) 30. La evidencia reciente sugiere que algunos ecosistemas mantienen un
"banco de semillas" microbiano temporalmente persistente (DF, RK, JAG y colegas) 31, lo que sugiere que
los taxones identificados por estudios poco profundos son meramente indicativos de los abundantes taxones
seleccionados por los químicos, físicos y biológicos procesos previos y presentes en el momento del
muestreo. Sin embargo, una hipótesis probable establece que los microorganismos dominantes en una
muestra son los que desempeñan los papeles funcionales más importantes en condiciones normales. Por lo
tanto, si uno está interesado en la ecología de procesos o taxones más abundantes, la secuenciación
metagenómica ultraprofunda no es esencial; los datos de fracciones relativamente pequeñas de la
diversidad genética contenida en las muestras pueden revelar patrones ecológicos que ayudan a definir la
estructura del ecosistema13. El potencial para confiar en datos de secuencia superficial (ya sea amplicón o
escopeta) para algunos estudios está respaldado por un estudio de ratones gnotobióticos que albergan un
consorcio de microbios definido donde se conocía la secuencia completa del genoma de cada miembro de
la comunidad. En ese estudio, fue posible obtener descripciones precisas del meta-transcriptoma y meta-
proteoma de la comunidad microbiana en base a lecturas de secuencia corta (J.I.G. y colegas).
Crear una imagen muy detallada de una muestra individual o ambiental bajo condiciones específicas en un
instante en el tiempo crea una vista estática de esa muestra que puede ser útil. Sin embargo, se gana mucho
más al complementar una instantánea con otras, incluso si esas otras se toman a menor resolución, porque
tal conjunto de datos permite una reconstrucción más precisa de la dinámica temporal o la variabilidad
entre individuos o hábitats. Todas estas instantáneas deben estar bien organizadas, ya que es de poco valor
tenerlas ordenadas en una pila que prohíbe la recuperación de la serie de conjuntos de datos o imágenes
necesarios para reconstruir una vista de un fenómeno específico en estudio.
Figura 1: Diagrama conceptual de por qué las muestras replicadas, especialmente a través de un gradiente o a lo largo
de una serie temporal, son fundamentales para la interpretación de los resultados. La estructura externamente impuesta
por el diseño del estudio mejora enormemente nuestra capacidad de recuperar relaciones biológicamente significativas
en lugar de simplemente encontrar diferencias estadísticas entre las muestras (especialmente importante porque cada
par de muestras biológicas será diferente si se secuencia lo suficientemente). En este caso, mostramos las muestras de
la serie temporal oceánica L4 Western English Channel (Gráfico reimpreso de Gilbert et al.22). El muestreo solo
durante el verano, resaltado por el sombreado azul, solo revelaría la punta del iceberg de variabilidad en este
ecosistema, que está impulsado por el cambio estacional. Principios similares se aplican a otros ecosistemas que
tienen otros importantes factores de variación que, cuando se pasan por alto, pueden influir en los resultados de
manera desconcertante o dar una imagen engañosa de la variación.

Para determinar los procesos dinámicos, se debe aplicar un muestreo amplio (tanto en tiempo como en
espacio) a una resolución apropiada para determinar la frecuencia de la dinámica. Con la mayoría de los
estudios, un aumento en el número de muestras analizadas tiene un impacto importante en el poder
analítico (tablas 2-5). Uno de nosotros (J.A.G.) y colegas33 generaron una encuesta de 12 muestras de los
cambios anuales en la microbiota de aguas superficiales en el Canal de la Mancha, y encontraron evidencia
de la sucesión estacional causada por la temperatura y la disponibilidad de nutrientes. Sin embargo, cuando
los investigadores aumentaron esto con 60 muestras más, haciendo una serie temporal contigua de 72
muestras durante 6 años22, los patrones se refinaron sustancialmente, con la estacionalidad
extremadamente robusta y la duración del día identificándose como el impulsor clave de la riqueza en la
comunidad (Fig. 1 y Tabla 2). Además, Arumugam et al.34 han utilizado la secuenciación metagenómica
de 22 individuos para mostrar que la microbiota intestinal humana podría clasificarse en tres enterotipos,
que no mostraron ninguna correlación con la dieta o la etnia. Sin embargo, otro estudio que involucró a uno
de nosotros (R.K. y colaboradores) 35 realizó el mismo análisis en 98 individuos y demostró que el poder
analítico incrementado encontró correlaciones distintas con la dieta (Tabla 3). Otros ejemplos del poder de
la amplitud del muestreo se pueden encontrar rutinariamente en la literatura (tablas 2-5), y demuestran que
el uso de un diseño experimental estadísticamente relevante es vital para generar análisis precisos.
Definir el tamaño del efecto y el poder de un estudio es un desafío particularmente importante en el diseño
de ensayos clínicos de varios microbiomas (por ejemplo, los de probióticos, prebióticos, antibióticos y
trasplantes de heces) o la alteración natural o provocada por el hombre en cualquier entorno terrestre o
ecosistema oceánico. Un intento reciente de definir tamaños de efecto en los estudios del microbioma
humano (N.F., J.I.G., R.K. y colegas) 36 fracasó debido a la incapacidad de comparar datos y metodologías
para la detección y asignación de taxones. Dichos tamaños de efecto se pueden determinar solo con
tamaños de muestra suficientemente grandes de estados normales versus estados alterados, estudiados en
escalas temporales y espaciales suficientemente grandes para revelar la variación. El dilema, especialmente
para estudios en humanos, es que se requieren grandes muestras para determinar el tamaño del efecto, pero
dichos estudios no pueden obtener la aprobación de la junta de revisión institucional porque se desconoce
el tamaño del efecto y, por lo tanto, el número correcto de sujetos necesarios para alcanzar el poder
estadístico.
Definir el tamaño del efecto y el poder de un estudio es un desafío particularmente importante en el diseño
de ensayos clínicos de varios microbiomas (por ejemplo, los de probióticos, prebióticos, antibióticos y
trasplantes de heces) o la alteración natural o provocada por el hombre en cualquier entorno terrestre o
ecosistema oceánico. Un intento reciente de definir tamaños de efecto en los estudios del microbioma
humano (N.F., J.I.G., R.K. y colegas) 36 fracasó debido a la incapacidad de comparar datos y metodologías
para la detección y asignación de taxones. Dichos tamaños de efecto se pueden determinar solo con
tamaños de muestra suficientemente grandes de estados normales versus estados alterados, estudiados en
escalas temporales y espaciales suficientemente grandes para revelar la variación. El dilema, especialmente
para estudios en humanos, es que se requieren grandes muestras para determinar el tamaño del efecto, pero
dichos estudios no pueden obtener la aprobación de la junta de revisión institucional porque se desconoce
el tamaño del efecto y, por lo tanto, el número correcto de sujetos necesarios para alcanzar el poder
estadístico.
Hacia un proyecto de microbioma terrestre
En reconocimiento del valor de un estudio multi-ambiental de la diversidad microbiana, hemos lanzado una
iniciativa llamada Earth Microbiome Project (EMP: http://www.earthmicrobiome.org/). El EMP busca
caracterizar sistemáticamente la biodiversidad microbiana taxonómica y funcional en los ecosistemas
globales y organizar la investigación internacional de microbiología ambiental mediante la estandarización
de los protocolos utilizados para generar y analizar los datos entre los estudios. El EMP constituye una
reestructuración y reenfoque de la ecología microbiana. Los proyectos individuales se agrupan (por el
único investigador principal o consorcio) en preguntas científicas generales que pueden usarse para definir
el propósito fundamental de un proyecto individual, o los estudios individuales basados en hipótesis se
pueden agrupar bajo una pregunta más amplia. Aunque este marco proporciona una forma de influenciar y
organizar globalmente la investigación en microbiología ambiental, su novedad radica en la magnitud del
esfuerzo y la estandarización de los protocolos utilizados para generar y analizar los datos entre los
estudios.
El EMP define procedimientos operativos estándar diseñados para minimizar el sesgo entre los análisis de
la comunidad asociados con diferentes técnicas de extracción de material, métodos analíticos y control y
análisis de calidad de datos centrales. Actualmente, el EMP no promueve un protocolo estándar de
adquisición de muestra física o técnica de preservación, pero está trabajando para explorar el impacto de
estas variables en la interpretación ecológica (JAG, FM, JJ, JIG, NF, DF, RS, RK y colegas). . El marco
EMP promueve la investigación de acceso abierto; por lo tanto, todos los datos se publican, incluso en la
industria, y son comparables dentro de un foro de acceso abierto, lo que crea un recurso de datos útil para
responder y formular preguntas fundamentales sobre la función de los microbios en diferentes hábitats
ambientales. Sin embargo, no se trata solo de datos que deben ser de acceso abierto. Los propios científicos
también necesitan ser más accesibles a través de iniciativas de ciencia abierta, asegurando que los
investigadores adecuados puedan trabajar en los temas más relevantes.
Además, el marco EMP facilita la cooperación multidisciplinaria entre las agencias de financiación y las
áreas de investigación científica. Los proyectos autónomos se mapean en temas de investigación más
amplios, y estos se ajustan a las preguntas generales, produciendo múltiples capas y escalas de
investigación. Este enfoque en la actividad multidisciplinaria aporta nuevas dimensiones a la investigación
microbiana, a través del renovado interés en el procesamiento de datos, requisitos para infraestructura
computacional a gran escala, modelado de dinámica comunitaria y capacidad funcional, y vinculación de
los datos analizados y modelos generados con los programas informáticos de modelado climático. También
combina aspectos de biogeoquímica, microbiología, interacción proteína-enzima y retroalimentación
transcripcional, a medida que pasamos de procesos a escala molecular a procesos y dinámicas en otras
escalas. Estos van desde la interacción celular a la ecología de la comunidad a escala local, regional,
nacional, continental y global. Tal base de conocimiento amplia será crítica para desarrollar una
comprensión predictiva de genes y organismos de interés biotecnológico.
Por supuesto, para que los esfuerzos de secuenciación a gran escala como el EMP se enfoquen y coordinen,
la comunidad debe evitar el enfoque de secuenciar todo, simplemente porque es posible. Las hipótesis
deben guiar nuestra selección de las muestras más apropiadas para secuenciar. En gran medida, se tratará
de conjuntos de muestras con metadatos y muestras enriquecidos que pueden proporcionar nuevos
conocimientos fundamentales.
El papel de la adquisición de metadatos en el diseño experimental mejorado
Iniciativas como el EMP se salvan de convertirse en simples ejercicios de historia natural en la
recopilación de datos al requerir la adquisición y organización apropiada de los metadatos que acompañan
a cada conjunto de datos de secuencia generado. Estos metadatos ambientales y experimentales son los
datos primarios de muchos grupos de investigación multidisciplinarios, que ya trabajan en conjunto para
generar una comprensión integral de un entorno particular (por ejemplo, una expedición de campo de
muestreo marino o una exploración temporal de la dinámica del suelo y del ecosistema en un solo lugar).
Dichos parámetros ambientales ponen el origen de los datos de secuencia en contexto y son útiles para
generar análisis interpretativos (figura 2). Los parámetros pueden incluir temperatura, latitud y longitud,
altitud, contenido de humedad, concentraciones de nutrientes y ontologías estándar para geolocalizadores y
descriptores de ecosistemas. Estos también deben ir acompañados de metadatos experimentales que
describan adecuadamente los métodos utilizados para crear los datos de secuencia, como la manipulación
de muestras, la extracción de ácidos nucleicos, el método de amplificación por PCR, el protocolo de
secuencia y el análisis bioinformático. Estos metadatos son esenciales para el EMP porque proporcionan
una base ecológica para el análisis de la capacidad taxonómica y funcional de la comunidad microbiana
secuenciada. Por lo tanto, este sólido marco para la recopilación rutinaria de metadatos y estándares
confiables permitirá la comparación entre los estudios.
Un conjunto de lenguajes estándar, llamados Información mínima sobre cualquier (x) secuencia de
verificación (MIxS; D.F., R.K., J.A.G., N.F., J.F., J.I.G., P.H., J.J., F.M. y colaboradores39), proporcionan
formatos para registrar datos ambientales y experimentales. Estas incluyen listas de verificación MIGS
(información mínima sobre una secuencia de genoma) y MIMS (información mínima sobre una secuencia
de metagenoma) 3. MIMARKS (Información mínima sobre una secuencia de MARKer), la última lista de
verificación, se basa en los fundamentos de MIGS y MIMS por la abundante información contextual sobre
cada muestra ambiental. Lo que se graba depende del origen de la muestra. Por ejemplo, las muestras
humanas pueden anotarse con campos como la edad, el peso y el estado de salud del sujeto, mientras que
las muestras de agua de mar pueden anotarse con campos, como el pH, la salinidad, la profundidad y la
temperatura. Además, también se requiere información técnica detallada, como la plataforma de
secuenciación, y los genes y regiones seleccionados, lo que hace que los metanálisis de muchos estudios
sean mucho más fáciles de realizar e interpretar, porque los valores atípicos se pueden remontar
automáticamente a las diferencias técnicas o biológicas. en lugar de exigir que el investigador lea decenas
de artículos necesarios para los metanálisis de hoy (RK y colega) 40. Esta integración es especialmente
importante para encontrar enzimas que participan en procesos que son potencialmente útiles desde el punto
de vista industrial, pero cuyo origen es irrelevante para la aplicación industrial, excepto para mejorar la
posibilidad de que la enzima funcione en las condiciones necesarias.
Figura 2 Importancia de los estudios
habilitados con metadatos. Diagramas de
pares coincidentes que muestran
visualizaciones de estudios recientemente
publicados y de alto impacto. La
agrupación estándar de los datos
(izquierda) se contrasta con el mismo
diagrama en el que cada punto de datos se
colorea de acuerdo con los metadatos
(derecha). (a) La gráfica principal de
análisis de coordenadas de las distancias
UniFrac entre las comunidades asociadas al
hábitat del cuerpo humano revela que los
Creemos que el estándar MIxS jugará
microbios se agrupan por tipo de hábitat
un papel clave por tres razones. En
(Reimpreso con autorización de AAAS de
primer
Costello ylugar, permitirá
otros (N.F., J.I.G., que
R.K. losy
proyectos a gran escala
colegas) 46). (b) Un diagrama de red recopilen
conjuntos de datosque
bipartito muestra masivos de acuerdo
las comunidades
con
fecalesprotocolos estándar se
de mamíferos en múltiples
agrupan
sitios y que compartan
principalmente por dieta estos datos con
(Reimpreso para
autorización la
facilitar de AAAS de Ley et al. global.
comprensión (R.K.,
J.I.G. y colegas)
Segundo, 47).la(c)integración
permitirá Un diagrama de de
los
escala multidimensional
proyectos individuales no métrico
de de las
cada
distancias
laboratorio deen UniFrac
este universo entre las
de
comunidades del suelo muestra que el
secuencias, facilitando comparaciones a
factor principal que impulsa la variación en
nivel comunitario, exploración de la
estas comunidades es el pH (Reimpreso
diversidad
con permiso ydedistribución
PNAS de Fierer de la vida,
y otros
detección y exclusión de muestras
(N.F., R.K. y colegas) 48). Estas relaciones
contaminadas
son inmediata ye análisis de patrones
intuitivamente obviasde
co-ocurrencia
cuando se aplicandelosgenes
metadatos o taxones.
correctos, .
pero sería
Estas esencialmente
características sonimposible ver lo
especialmente
contrario.
cruciales para acceder e integrar datos
de cada clínica o cada sitio de campo.
En tercer lugar, proporcionará un marco
para la integración de esfuerzos a gran
escala, especialmente el modelado
predictivo. Como observó el matemático
Stanislaw Ulam: "Los grandes científicos ven analogías entre teoremas o teorías. Los mejores ven
analogías entre analogías. "Proporcionar un método para integrar los resultados sistemáticamente
recopilados de proyectos a gran escala (por ejemplo, el EMP) y los esfuerzos altamente distribuidos de
grupos más pequeños (por ejemplo, estándares como MIxS) permitirá un futuro en el que las analogías a
través de escalas espaciales, escalas temporales e incluso teorías no solo son posibles sino rutinarias.
Como el costo de la secuencia continúa disminuyendo, se ha adoptado rápidamente el estándar MIxS y los
principios de muestreo de sonido. Por ejemplo, herramientas tales como QIIME (N.F., J.I.G., R.K. y
colegas) 41 y MG-RAST (F.M., R.S. et al.) 42 ya son compatibles con MIxS y proporcionan formas de
visualizar y analizar datos que cumplen con MIxS. La International Nucleotide Sequence Database
Collaboration se ha comprometido a incorporar una palabra clave MIxS como estándar, y grandes
proyectos, como HMP (https://commonfund.nih.gov/hmp/), NEON (http: //www.neoninc). .org /), el EMP,
el Bio Weather Map (http://bioweathermap.org/) y el Proyecto Personal Genome ya se han comprometido a
apoyar el estándar. Esta respuesta rápida es oportuna. A medida que la secuencia y los métodos
computacionales co-evolucionan en una carrera dinámica que impulsa su crecimiento y progreso mutuo,
también deben evolucionar los estándares de datos.
Las actividades internacionales, como el EMP, proporcionan bancos de pruebas para ayudar a la
comunidad a acordar estándares para el intercambio de productos de datos que van más allá del comercio
de secuencias de consenso y anotaciones (por ejemplo, GenBank). Incluso dados los avances esperados en
computación en la nube y la disminución prevista en los costos de cómputo según la ley de Moore, uno de
los principales impulsores de la innovación será la necesidad de proporcionar análisis de conjuntos de datos
de mayor magnitud sin la necesidad correspondiente de grandes aumentos en el presupuesto
bioinformático. Las inversiones en reutilización de datos y estándares de datos utilizables son
fundamentales. Aun así, es más fácil crear estándares que promover su uso con éxito. El Consorcio de
Estándares Genómicos ha llevado a cabo un trabajo pionero en listas de verificación de información
mínima que han permitido estándares de procedencia, y ahora está asumiendo la tarea mucho más
complicada de definir estándares para productos de datos computados. En este sentido, las revistas pueden
desempeñar un papel al adoptar tales estándares como requisito para aceptar y publicar manuscritos.
El papel de la generación de datos en el descubrimiento de enzimas novedosas y la estructura filogenética
en la biodiversidad microbiana debe complementarse con bases de datos funcionales y taxonómicas
mejoradas que representen más adecuadamente la amplitud completa de la diversidad microbiana. Un
aspecto crítico de este desarrollo será el mapeo de lecturas metagenómicas contra genomas de referencia.
El Proyecto Earth Microbiome se asoció con la Enciclopedia Genómica de Bacterias y las iniciativas
Archaea y Microbial Earth (P.H. y colaboradores) 43 que apuntan a mejorar la representación filogenética
de los genomas secuenciados. Estos esfuerzos combinados con la mejora de la conservación de bases de
datos de genes y proteínas (por ejemplo, IMG e IMG / M44,45) ayudarán con la interpretación de datos
metagenómicos, facilitando un biodescubrimiento más eficiente.
Conclusiones
La metagenómica está en un momento de transición. Las tecnologías de secuenciación que solían ser
implementadas centralmente por grandes organizaciones y departamentos ahora están disponibles para
laboratorios individuales y quizás pronto para individuos, quizás incluso en un formato portátil. Los
protocolos estándar son necesarios para integrar la información y permitir una fácil comunicación entre los
estudios; después de todo, el papel que desempeña Internet en el mundo de hoy es posible solo porque las
computadoras en todas partes se pueden comunicar con un conjunto de protocolos estándar abiertos.
Aunque actualmente estas iniciativas se centran en la secuenciación del ADN (secuenciación de
amplicones y metagenómica), será necesario integrar la metabolómica, la proteómica y la genómica
unicelular en estos esfuerzos para mejorar la caracterización de la comunidad y las inferencias ecológicas
más apropiadas. La relación ómicas (relación de técnicas aplicadas, p. Ej., Genómica / transcriptómica /
proteómica / metabolómica) siempre debe estar determinada por la hipótesis. Creemos y esperamos que
MIxS y el EMP permitan el mismo tipo de funcionalidad para los ecologistas, permitiéndonos construir no
solo un catálogo de organismos en la Tierra sino también comprender y explotar los procesos críticos que
realizan en el medio ambiente en una amplia gama de escalas espaciales y temporales.

También podría gustarte