Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Antecedentes
Esclarecer la base genómica de la adaptación y la especiación es un gran desafío
en los sistemas naturales con grandes cantidades de datos ambientales y
fenotípicos, principalmente debido a la escasez de recursos genómicos para un
modelo de organismos.
Topote del atlantico (Poecilia mexicana), es un pequeño pez vivíparo que ha sido
ampliamente estudiado por investigación de ecología evolutiva, particularmente
porque esta especie ha colonizado repetidamente ambientes extremos en forma
de cuevas y manantiales que contienen sulfuro de hidrógeno tóxico. En ambientes
tan extremos, las poblaciones muestran patrones fuertes de la divergencia de los
rasgos adaptativos y la aparición del aislamiento reproductivo. Aquí, usamos la
secuenciación de ARN para ensamblar y anotar el primer transcriptoma de P.
mexicana para facilitar los estudios de genómica ecológica en el futuro y ayudar a
la identificación de genes subyacentes a la adaptación y especiación en el
sistema.
¿Qué se hizo en este estudio?
Descripción: Proporcionamos el primer transcriptoma de referencia anotado de P.
mexicana, este transcriptoma muestro alta congruencia con otros transcriptomas
de peces publicados, como el del guppy, medaka, pez cebra y espinoso.
Montaje de novo
-Las lecturas se ordenaron por código de barras y se recortaron a 87 pares de bases (5
bases fueron recortadas desde el comienzo de cada lectura y 11 bases desde el final de
la lectura, debido a la menor calidad de secuencia al principio y al final). Se eliminaron las
lecturas con bases ambiguas restantes y solo se usaron lecturas emparejadas para el
análisis, lo que resultó en la eliminación de menos del 5% de las lecturas.
Datos de los seis individuos fueron concatenados para la asamblea de novo utilizando
Trinity [51], con la configuración predeterminada. Para eliminar posibles transcripciones
espurias, con bajas transcripciones expresadas, una versión modificada de RSEM (RNA-
Seq por maximización de expectativas [52]) disponible con el paquete Trinity se aplicó, y
las transcripciones con un FPKM (fragmentos por kilobase de exón por millón fragmentos
mapeados) menos de 0.1 fueron eliminados.
Para eliminar isoformas y parálogos, realizamos un análisis recíproco Explosión a nuestro
propio conjunto de datos. Para secuencias con >97% similitud, solo conservamos la
secuencia más larga para más análisis. Finalmente, probamos la lectura abierta predicha
marcos (ORF) utilizando OrfPredictor [53]. Solo secuencias con un ORF previsto se
conservaron para análisis posteriores.
Se validaron seis transcripciones usando Invitrogen SuperScript One-Step-transcriptasa-
reversa-polimerasa reacción en cadena (RT-PCR) con cebadores diseñados para cada
transcripción (Archivo adicional 2: Tabla S1). Interno anidado, Se usaron cebadores en un
segundo paso de PCR con Kapa Library Amplification Readymix polimerasa (Kapa
Biosystems), cuyo producto fue secuenciado por Sanger para la validación.
Comparación con otros transcriptomas
Se compararon los datos en NCBI Unigene registros
(ftp://ftp.ncbi.nih.gov/repository/UniGene/) para:
Medaka (Oryzias latipes; 21.803 transcripciones)
Tres espinas espinoso ( Gasterosteus aculeatus ; 18.681 transcripciones)
Pez cebra (Danio rerio; 52.653 transcripciones).
También comparamos nuestro conjunto de datos para el guppy (Poecilia reticulata;
71.138 transcripciones) transcriptoma [54], que se obtuvo de
http://www.bio.fsu.edu/kahughes/Databases.html. Se realizaron búsquedas de similitud
recíproca utilizando tblastx con un umbral de valor E de 0,001.
Anotación transcriptoma
Para anotar las transcripciones, primero llevamos a cabo una ráfaga búsqueda de todos
los contigs únicos con un ORF predicho contra la base de datos SwissProt
(http://ca.expassy.org/brote/; blastx, valor E crítico = 0,001.) usando Blast2GO [55-57].
Cualquier secuencia que no tuvo un partido en SwissProt fueron posteriormente
chorreado contra la proteína NCBI no redundante (NR) base de datos (blastx, valor E
crítico = 0,001.
Este procedimiento fue empleado porque la base de datos SwissProt proporciona más
información sobre anotaciones funcionales, pero la base de datos NR es más grande y
tiene la posibilidad de anotar secuencias no disponibles en SwissProt. para cada
secuencia. Por último, los contigs sin coincidencia en ninguna de las bases de datos
fueron traducido y buscado en el Pfam-A y Pfam-Bases de datos de familias de proteínas
B [58] con un valor E corte de 0.01, y contra la base de datos Rfam para no codificar
Familias de ARN.
Secuencias con una coincidencia en SwissProt o NR La base de datos se anotó
posteriormente con Gene Ontology (GO) ID [60] tal como se implementó en Blast2GO.
GO ID describen características del producto génico y están jerárquicamente organizado
en términos de procesos biológicos, moleculares funciones y componentes celulares.
-Debido a la organización jerárquica, las anotaciones GO se pueden simplificar a un
conjunto más pequeño de términos GO de alto nivel (GO slims). Nosotros obtenido GO
slims a través de Blast2GO con el genérico slim desarrollado por GO Consortium
(http://www.geneontology.org/GO.slims.shtml). Comparar la anotación del transcriptoma
en P. mexicana a anotaciones publicadas previamente de P. reticulata [54], el conjunto de
datos reducido de P. reticulata (http://www.bio.fsu.edu/kahughes/Databases.html) se
volvió a anotar con el mismo procedimiento descrito anteriormente para P. mexicana para
reducir los efectos de las metodologías diferenciales y la base de datos fechas de acceso.
-Representación diferencial de registros en cada término GO slim luego se comparó entre
las dos especies contando el número de secuencias asociado con cada categoría GO
slim. Probamos para diferencias en la representación para cada categoría GO Slim con
una prueba de Chi-cuadrado.
Finalmente, buscamos en el transcriptoma de P. mexicana genes candidatos de interés
en futuros estudios comparativos. Nos centramos particularmente en los genes
relacionados con el medio ambiente estrés y vivir en ambientes extremos. A ese final,
buscamos en nuestra base de datos de anotaciones el gen productos que se sabe que
están involucrados en el estrés general y oxidativo respuestas de estrés. Dado que P.
mexicana también colonizó varios manantiales con altas concentraciones de sulfuro de
hidrógeno e hipoxia severa, también se buscó para productos genéticos relacionados con
la desintoxicación de sulfuro y metabolismo, así como respuestas inducidas por hipoxia.
Descubrimiento de SNP
-Para facilitar la investigación futura sobre la variación genómica en P. mexicana,
desarrollamos una base de datos de un solo nucleótido de polimorfismos (SNP). Los SNP
fueron identificados por mapeo de lecturas de RNAseq recortadas al transcriptoma de
referencia utilizando el alineador Burrows-Wheeler.
Luego aplicamos el kit de herramientas de análisis del genoma (GATK [62]) a las lecturas
asignadas para la eliminación de duplicados de PCR, base recalibración de la puntuación
de calidad y realineación indel. SNP y se realizó el descubrimiento INDEL así como el
genotipado en las 6 muestras usando filtrado duro estándar parámetros [63]. Los SNP
resultantes se anotaron como sinónimo o no sinónimo utilizando un script interno basado
en el marco de lectura abierto predicho para cada transcripción.
-También cuantificamos el número de suplentes fijos alelos entre individuos de P.
mexicana de los dos drenajes.
Análisis de expresiones diferenciales
Se probó si existía diferencias en la expresión génica, patrones en las tres réplicas
biológicas de P. mexicana de los dos drenajes diferentes. Recortado las lecturas se
asignaron al transcriptoma de referencia utilizandoBowtie y RSEM dentro del Trinity .
Los conteos de lectura mapeados estaban altamente correlacionados entre individuos
(entre y dentro de los drenajes; Correlación de Pearson: r ≥ 0,91 para datos
transformados logarítmicamente y r ≥ 0,99 para datos no transformados en todos los
casos). Nosotros luego utilizó el paquete edgeR de Bioconductor [65-67] para identificar
genes que se expresan diferencialmente entre los drenajes Usamos la dispersión común
estimada de un binomio negativo implementado en edgeR. Para reducir sesgo en
nuestros análisis debido a la baja o alta expresión en individuos solteros, filtramos las
transcripciones de baja expresión y las que sólo se expresaron en un pequeño número de
muestras mediante la retención selectiva de transcripciones con al menos una cuenta por
millón en al menos 3 muestras. De las 53.245 transcripciones originales, 21.480 cumplen
estos criterios. Secuencias que se expresaron diferencialmente a través de los drenajes
fueron anotado en base al procedimiento descrito anteriormente.
Utilidad
Ensamblaje del transcriptoma
-Secuenciación de transcriptomas de tejido branquial en seis hembras de P. mexicana
produjo más de 70 millones de lecturas (Tabla 1), lo que representó, en promedio, una
cobertura de 23,7 veces del transcriptoma de cada individuo; tomando el tamaño del
transcriptoma de 49,5 Mb, la suma del número de bases en nuestro transcriptoma
ensamblado, como referencia.
*Tabla 1. Estadísticas de secuenciación y ensamblaje para Illumina secuenciación
utilizada para el ensamblaje de la P. mexicana transcriptoma.
Los datos presentados representan lecturas de N = 6 individuos con código de
barras.
La distribución de frecuencia de las longitudes de contig se representa en la Figura 1.
Como se esperaba, el número de lecturas mapeadas por se correlacionó
significativamente con la longitud de contig (Correlación de Pearson en valores
transformados logarítmicamente: r = 0,87, p < 0,001). El nivel promedio (± SE) de
expresión génica controlado por longitud de contig fue 19.4 (± 1.2) FPKM, variando desde
un mínimo de 0,02 hasta un máximo de 33.072,50.
Se seleccionaron seis transcripciones predichas para RT-PCR y validación de
secuenciación (Archivo adicional 2: Tabla S1).
Las seis transcripciones predichas fueron validadas a través de secuenciación.
Comparación con otros transcriptomas de peces
Se comparó el transcriptoma de P. mexicana con datos disponible de otros cuatro peces
de agua dulce (guppy, medaka, espinoso y pez cebra; Tabla 2) usando recíproco
búsquedas explosivas. Mapeo de contigs únicos de P. mexicana para los transcriptomas
de estas especies resultaron en explosión coincidencia de más del 50% (51-74%) en cada
especie examinado.
Tabla 2 Resultados de búsquedas recíprocas del transcriptoma de P. mexicana a la base
de datos del guppy (Poecilia reticulata) [54], y bases de datos Uniprot de medaka (Oryzias
latipes), pez cebra (Danio rerio) y espinoso (Gasterosteus aculeatus).
La tabla enumera la cantidad de transcripciones únicas que se asignan al transcriptoma
de la especie de referencia, la cantidad de transcripciones únicas que recibieron
resultados en las especies de referencia y el porcentaje de cobertura en la base de datos
de especies de referencia.
Anotación
Figura 2. Esta representó 17.814 registros únicos. de las restantes secuencias, 3.475
(6,6%) tenían una coincidencia con 2.497 únicos registros en la base de datos de NR. De
los contigs sin igual, 766 tenían coincidencias en la base de datos de Pfam y 31 tenían
coincidencias en la base de datos de Rfam, indicando al menos una parte de los contigs
no emparejados representan una transcripción real.
Las 29.792 secuencias con partido en el SwissProt o las bases de datos NR se anotaron
adicionalmente con Gene Términos de ontología (GO) basados en la base de datos
Uniprot, que arrojó resultados para 22.184 (74,5%) de las secuencias. De estos, 13.002
secuencias fueron anotadas con un biológico proceso GO término, 13.623 con una
función molecular, y 14.430 con componente celular. La frecuencia relativa de términos
GO de nivel 2 se visualiza en la Figura 2.
También comparó la representación de registros en cada genérico delgado entre P.
mexicana y P. reticulata. Mientras que la representación fue cualitativamente muy similar
entre los dos especies, 20 de 30 categorías GO de nivel 5 mostró diferencias significativas
entre las especies, incluso al tener en cuenta los efectos de múltiples pruebas (Chi2 ≥
13.545, P ≤ 0.0002, α’ = 0.001).
Anotaciones tabla 3
Se encontramos una diversidad conjunta de genes candidatos para futuros estudios
genómicos relacionados a la vida en ambientes extremos (Tabla 3).
Tabla 3 Para cada gen candidato, informamos la base de datos y el número de acceso, el
porcentaje de similitud y el valor E, así como el número total de contigs que coincidieron
con un registro especifico de la base de datos.