Está en la página 1de 7

Recursos genómicos para un modelo en adaptación e investigación de especiación:

caracterización del transcriptoma de poecilia mexicana

 Antecedentes
Esclarecer la base genómica de la adaptación y la especiación es un gran desafío
en los sistemas naturales con grandes cantidades de datos ambientales y
fenotípicos, principalmente debido a la escasez de recursos genómicos para un
modelo de organismos.
Topote del atlantico (Poecilia mexicana), es un pequeño pez vivíparo que ha sido
ampliamente estudiado por investigación de ecología evolutiva, particularmente
porque esta especie ha colonizado repetidamente ambientes extremos en forma
de cuevas y manantiales que contienen sulfuro de hidrógeno tóxico. En ambientes
tan extremos, las poblaciones muestran patrones fuertes de la divergencia de los
rasgos adaptativos y la aparición del aislamiento reproductivo. Aquí, usamos la
secuenciación de ARN para ensamblar y anotar el primer transcriptoma de P.
mexicana para facilitar los estudios de genómica ecológica en el futuro y ayudar a
la identificación de genes subyacentes a la adaptación y especiación en el
sistema.
 ¿Qué se hizo en este estudio?
Descripción: Proporcionamos el primer transcriptoma de referencia anotado de P.
mexicana, este transcriptoma muestro alta congruencia con otros transcriptomas
de peces publicados, como el del guppy, medaka, pez cebra y espinoso.

Transcriptoma ¿que es?


Es el tudio de todas las moléculas de ARN en una célula. El ARN se copia de
piezas de ADN y contiene información para elaborar proteímas y realizar otras
funciones importantes en la células.

¿Que se descubrió con el transcriptoma de P. mexicana?


La anotación del transcriptoma descubrió la presencia de genes candidatos
relevantes en el estudio de la adaptación a condiciones extremas, a los diferentes
entornos. Se descubrió genes de respuesta al estrés oxidativo y general, así como
genes involucrados en vías inducidas por hipoxia o implicados en el metabolismo
de los sulfuros.

Para facilitar futuros análisis comparativos, también llevamos a cabo análisis


cuantitativos. comparaciones entre P. mexicana de diferentes drenajes de ríos.
106,524 polimorfismos de un solo nucleótido fueron detectados en nuestro
conjunto de datos, incluidos los marcadores potenciales que supuestamente se
fijan a través de los drenajes. Además, especímenes de diferentes drenajes
exhibieron algunas diferencias consistentes en la regulación de genes.
Construcción y contenido
Métodos de recolección de muestras
1. Se obtuvieron muestras de branquias para el perfil transcriptómico. a partir de
peces recogidos en su medio natural. Tres se colectaron hembras adultas tanto en
el Arroyo Rosita(drenaje del Río Pichucalco) y Arroyo Bonita (Río drenaje de
Tacotalpa).
2. Se eligieron lugares para representan la zona más oriental (Tacotalpa) y la más
occidental (Pichucalco) drenajes habitados por manantial sulfuroso peces en el sur
de México.
3. Los análisis fueron restringidos a especímenes de hábitats con condiciones
ambientales similares condiciones (es decir, corrientes superficiales no sulfurosas)
para facilitar montaje de novo.
4. Los peces fueron capturados con una red de cerco (2 × 6 m). Inmediatamente
después de la captura, los peces fueron sacrificados, medidos y pesados, y se
extrajo tejido branquial de ambos lados del cuerpo utilizando tijeras y fórceps
previamente esterilizados.
Tejidos se conservaron en 2 ml de RNAlater (Ambion, Inc.) y se almacenaron en hielo
durante el transporte al laboratorio.
Aislamiento de ARN y construcción de bibliotecas de RNAseq
-El ARN se aisló de las branquias pulverizando 50–100 mg de tejido congelado en
nitrógeno líquido en tubos individuales con un Covaris Cryoprep en el ajuste 3.
-A continuación, el ARN fue extraído con el mini kit RNeasy Plus de Qiagen. PoliA+ El
ARNm se preparó a partir de 50 μg de ARN total utilizando Kit de purificación de ARNm
Dynabeads de Invitrogen.
- El ARN fue enlazado y eluido dos veces a Dynabeads para minimizar ribosomal
contaminación por ARN. El ARNm se fragmentó en un tamaño promedio de 400 nt
utilizando la fragmentación de ARNm de NEB Módulo por incubación a 94°C durante 4
minutos. El ARNm fragmentado se purificó usando Agencourt Cuentas RNAClean XP y
eluidas en 12 μl de ddH2O.
-Primero La cadena de ADNc se sintetizó en una reacción de 20 μl utilizando Kit de ADNc
de doble cadena de Invitrogen, preparado con 1 μl de una mezcla de hexámeros
aleatorios:cebadores oligo dT (2 μg:1 μg), e incubado con Superscript II a 45°C por una
hora.
- Se usó la reacción de cDNA de la primera cadena directamente en el kit NEBNext
mRNA Second Strand Synthesis. Después de la síntesis de la segunda cadena de cDNA,
la reacción fue purificado con perlas Agencourt Ampure XP y eluido en 25 ul de agua.
-Se usó ADNc de doble cadena como entrada para la preparación de bibliotecas de
secuenciación de Illumina con endrepair usando el kit de reparación de extremo NEBNext,
cola A con Taq polimerasa, ligadura con adaptadores con código de barras Truseq, y
amplificación con Kapa Library Amplification Premezclado.
Todos los pasos se limpiaron con Ampure XP rosario. Las bibliotecas RNAseq se
cuantificaron en un Agilent 2100 Bioanalyzer Chip de ADN de alta sensibilidad y
combinado, basado en la concentración nM. Las bibliotecas fueron secuenciadas en un
Illumina HiSeq 2000 con 101 pb de extremo emparejado lee.

Montaje de novo
-Las lecturas se ordenaron por código de barras y se recortaron a 87 pares de bases (5
bases fueron recortadas desde el comienzo de cada lectura y 11 bases desde el final de
la lectura, debido a la menor calidad de secuencia al principio y al final). Se eliminaron las
lecturas con bases ambiguas restantes y solo se usaron lecturas emparejadas para el
análisis, lo que resultó en la eliminación de menos del 5% de las lecturas.
Datos de los seis individuos fueron concatenados para la asamblea de novo utilizando
Trinity [51], con la configuración predeterminada. Para eliminar posibles transcripciones
espurias, con bajas transcripciones expresadas, una versión modificada de RSEM (RNA-
Seq por maximización de expectativas [52]) disponible con el paquete Trinity se aplicó, y
las transcripciones con un FPKM (fragmentos por kilobase de exón por millón fragmentos
mapeados) menos de 0.1 fueron eliminados.
Para eliminar isoformas y parálogos, realizamos un análisis recíproco Explosión a nuestro
propio conjunto de datos. Para secuencias con >97% similitud, solo conservamos la
secuencia más larga para más análisis. Finalmente, probamos la lectura abierta predicha
marcos (ORF) utilizando OrfPredictor [53]. Solo secuencias con un ORF previsto se
conservaron para análisis posteriores.
Se validaron seis transcripciones usando Invitrogen SuperScript One-Step-transcriptasa-
reversa-polimerasa reacción en cadena (RT-PCR) con cebadores diseñados para cada
transcripción (Archivo adicional 2: Tabla S1). Interno anidado, Se usaron cebadores en un
segundo paso de PCR con Kapa Library Amplification Readymix polimerasa (Kapa
Biosystems), cuyo producto fue secuenciado por Sanger para la validación.
Comparación con otros transcriptomas
Se compararon los datos en NCBI Unigene registros
(ftp://ftp.ncbi.nih.gov/repository/UniGene/) para:
Medaka (Oryzias latipes; 21.803 transcripciones)
Tres espinas espinoso ( Gasterosteus aculeatus ; 18.681 transcripciones)
Pez cebra (Danio rerio; 52.653 transcripciones).
También comparamos nuestro conjunto de datos para el guppy (Poecilia reticulata;
71.138 transcripciones) transcriptoma [54], que se obtuvo de
http://www.bio.fsu.edu/kahughes/Databases.html. Se realizaron búsquedas de similitud
recíproca utilizando tblastx con un umbral de valor E de 0,001.
Anotación transcriptoma
Para anotar las transcripciones, primero llevamos a cabo una ráfaga búsqueda de todos
los contigs únicos con un ORF predicho contra la base de datos SwissProt
(http://ca.expassy.org/brote/; blastx, valor E crítico = 0,001.) usando Blast2GO [55-57].
Cualquier secuencia que no tuvo un partido en SwissProt fueron posteriormente
chorreado contra la proteína NCBI no redundante (NR) base de datos (blastx, valor E
crítico = 0,001.
Este procedimiento fue empleado porque la base de datos SwissProt proporciona más
información sobre anotaciones funcionales, pero la base de datos NR es más grande y
tiene la posibilidad de anotar secuencias no disponibles en SwissProt. para cada
secuencia. Por último, los contigs sin coincidencia en ninguna de las bases de datos
fueron traducido y buscado en el Pfam-A y Pfam-Bases de datos de familias de proteínas
B [58] con un valor E corte de 0.01, y contra la base de datos Rfam para no codificar
Familias de ARN.
Secuencias con una coincidencia en SwissProt o NR La base de datos se anotó
posteriormente con Gene Ontology (GO) ID [60] tal como se implementó en Blast2GO.
GO ID describen características del producto génico y están jerárquicamente organizado
en términos de procesos biológicos, moleculares funciones y componentes celulares.
-Debido a la organización jerárquica, las anotaciones GO se pueden simplificar a un
conjunto más pequeño de términos GO de alto nivel (GO slims). Nosotros obtenido GO
slims a través de Blast2GO con el genérico slim desarrollado por GO Consortium
(http://www.geneontology.org/GO.slims.shtml). Comparar la anotación del transcriptoma
en P. mexicana a anotaciones publicadas previamente de P. reticulata [54], el conjunto de
datos reducido de P. reticulata (http://www.bio.fsu.edu/kahughes/Databases.html) se
volvió a anotar con el mismo procedimiento descrito anteriormente para P. mexicana para
reducir los efectos de las metodologías diferenciales y la base de datos fechas de acceso.
-Representación diferencial de registros en cada término GO slim luego se comparó entre
las dos especies contando el número de secuencias asociado con cada categoría GO
slim. Probamos para diferencias en la representación para cada categoría GO Slim con
una prueba de Chi-cuadrado.
Finalmente, buscamos en el transcriptoma de P. mexicana genes candidatos de interés
en futuros estudios comparativos. Nos centramos particularmente en los genes
relacionados con el medio ambiente estrés y vivir en ambientes extremos. A ese final,
buscamos en nuestra base de datos de anotaciones el gen productos que se sabe que
están involucrados en el estrés general y oxidativo respuestas de estrés. Dado que P.
mexicana también colonizó varios manantiales con altas concentraciones de sulfuro de
hidrógeno e hipoxia severa, también se buscó para productos genéticos relacionados con
la desintoxicación de sulfuro y metabolismo, así como respuestas inducidas por hipoxia.
Descubrimiento de SNP
-Para facilitar la investigación futura sobre la variación genómica en P. mexicana,
desarrollamos una base de datos de un solo nucleótido de polimorfismos (SNP). Los SNP
fueron identificados por mapeo de lecturas de RNAseq recortadas al transcriptoma de
referencia utilizando el alineador Burrows-Wheeler.
Luego aplicamos el kit de herramientas de análisis del genoma (GATK [62]) a las lecturas
asignadas para la eliminación de duplicados de PCR, base recalibración de la puntuación
de calidad y realineación indel. SNP y se realizó el descubrimiento INDEL así como el
genotipado en las 6 muestras usando filtrado duro estándar parámetros [63]. Los SNP
resultantes se anotaron como sinónimo o no sinónimo utilizando un script interno basado
en el marco de lectura abierto predicho para cada transcripción.
-También cuantificamos el número de suplentes fijos alelos entre individuos de P.
mexicana de los dos drenajes.
Análisis de expresiones diferenciales
Se probó si existía diferencias en la expresión génica, patrones en las tres réplicas
biológicas de P. mexicana de los dos drenajes diferentes. Recortado las lecturas se
asignaron al transcriptoma de referencia utilizandoBowtie y RSEM dentro del Trinity .
Los conteos de lectura mapeados estaban altamente correlacionados entre individuos
(entre y dentro de los drenajes; Correlación de Pearson: r ≥ 0,91 para datos
transformados logarítmicamente y r ≥ 0,99 para datos no transformados en todos los
casos). Nosotros luego utilizó el paquete edgeR de Bioconductor [65-67] para identificar
genes que se expresan diferencialmente entre los drenajes Usamos la dispersión común
estimada de un binomio negativo implementado en edgeR. Para reducir sesgo en
nuestros análisis debido a la baja o alta expresión en individuos solteros, filtramos las
transcripciones de baja expresión y las que sólo se expresaron en un pequeño número de
muestras mediante la retención selectiva de transcripciones con al menos una cuenta por
millón en al menos 3 muestras. De las 53.245 transcripciones originales, 21.480 cumplen
estos criterios. Secuencias que se expresaron diferencialmente a través de los drenajes
fueron anotado en base al procedimiento descrito anteriormente.
Utilidad
Ensamblaje del transcriptoma
-Secuenciación de transcriptomas de tejido branquial en seis hembras de P. mexicana
produjo más de 70 millones de lecturas (Tabla 1), lo que representó, en promedio, una
cobertura de 23,7 veces del transcriptoma de cada individuo; tomando el tamaño del
transcriptoma de 49,5 Mb, la suma del número de bases en nuestro transcriptoma
ensamblado, como referencia.
*Tabla 1. Estadísticas de secuenciación y ensamblaje para Illumina secuenciación
utilizada para el ensamblaje de la P. mexicana transcriptoma.
Los datos presentados representan lecturas de N = 6 individuos con código de
barras.
La distribución de frecuencia de las longitudes de contig se representa en la Figura 1.
Como se esperaba, el número de lecturas mapeadas por se correlacionó
significativamente con la longitud de contig (Correlación de Pearson en valores
transformados logarítmicamente: r = 0,87, p < 0,001). El nivel promedio (± SE) de
expresión génica controlado por longitud de contig fue 19.4 (± 1.2) FPKM, variando desde
un mínimo de 0,02 hasta un máximo de 33.072,50.
Se seleccionaron seis transcripciones predichas para RT-PCR y validación de
secuenciación (Archivo adicional 2: Tabla S1).
Las seis transcripciones predichas fueron validadas a través de secuenciación.
Comparación con otros transcriptomas de peces
Se comparó el transcriptoma de P. mexicana con datos disponible de otros cuatro peces
de agua dulce (guppy, medaka, espinoso y pez cebra; Tabla 2) usando recíproco
búsquedas explosivas. Mapeo de contigs únicos de P. mexicana para los transcriptomas
de estas especies resultaron en explosión coincidencia de más del 50% (51-74%) en cada
especie examinado.
Tabla 2 Resultados de búsquedas recíprocas del transcriptoma de P. mexicana a la base
de datos del guppy (Poecilia reticulata) [54], y bases de datos Uniprot de medaka (Oryzias
latipes), pez cebra (Danio rerio) y espinoso (Gasterosteus aculeatus).
La tabla enumera la cantidad de transcripciones únicas que se asignan al transcriptoma
de la especie de referencia, la cantidad de transcripciones únicas que recibieron
resultados en las especies de referencia y el porcentaje de cobertura en la base de datos
de especies de referencia.
Anotación
Figura 2. Esta representó 17.814 registros únicos. de las restantes secuencias, 3.475
(6,6%) tenían una coincidencia con 2.497 únicos registros en la base de datos de NR. De
los contigs sin igual, 766 tenían coincidencias en la base de datos de Pfam y 31 tenían
coincidencias en la base de datos de Rfam, indicando al menos una parte de los contigs
no emparejados representan una transcripción real.
Las 29.792 secuencias con partido en el SwissProt o las bases de datos NR se anotaron
adicionalmente con Gene Términos de ontología (GO) basados en la base de datos
Uniprot, que arrojó resultados para 22.184 (74,5%) de las secuencias. De estos, 13.002
secuencias fueron anotadas con un biológico proceso GO término, 13.623 con una
función molecular, y 14.430 con componente celular. La frecuencia relativa de términos
GO de nivel 2 se visualiza en la Figura 2.
También comparó la representación de registros en cada genérico delgado entre P.
mexicana y P. reticulata. Mientras que la representación fue cualitativamente muy similar
entre los dos especies, 20 de 30 categorías GO de nivel 5 mostró diferencias significativas
entre las especies, incluso al tener en cuenta los efectos de múltiples pruebas (Chi2 ≥
13.545, P ≤ 0.0002, α’ = 0.001).
Anotaciones tabla 3
Se encontramos una diversidad conjunta de genes candidatos para futuros estudios
genómicos relacionados a la vida en ambientes extremos (Tabla 3).
Tabla 3 Para cada gen candidato, informamos la base de datos y el número de acceso, el
porcentaje de similitud y el valor E, así como el número total de contigs que coincidieron
con un registro especifico de la base de datos.

Expresión diferencial entre drenajes


Se compararon los niveles de expresión en réplicas biológicas través de los dos drenajes
investigados para identificar loci que se expresan diferencialmente en P. mexicana, de los
dos drenajes se analizaron 21,480 transcripciones para diferencial expresión. 382
transcripciones (que representan menos de 2% de las transcripciones analizadas) mostró
evidencia de diferencial expresión (con un valor P ≤ 0.01) entre los dos drenajes.
Figura 3 Gráfico del cambio logarítmico entre los dos drenajes frente a la concentración
logarítmica de cada transcrito. Lo más diferencial
las transcripciones expresadas (P ≤ 0.01) están coloreadas en rojo. Las líneas azules son
un cambio logarítmico de 2, lo que indica un cambio de 4.
229 transcripciones (59,9% de diferencialmente transcripciones expresadas) fueron
reguladas al alza en Pichucalco en comparación con el drenaje de Tacotalpa, y 153 genes
estaban regulados al alza en Tacotalpa en comparación con el drenaje de Pichucalco
(Figura 3).
De las 382 transcripciones expresadas diferencialmente, 251 tenían aciertos en las bases
de datos SwissProt o NR en nuestra anotación base de datos; 172 de ellos también
fueron anotados con ID de GO. En total, se anotaron 87 secuencias con un término de
función molecular (estos en su mayoría relacionados con la unión y actividad catalítica),
82 secuencias con biológica Término de proceso (principalmente relacionado con
procesos metabólicos, procesos celulares y regulación biológica), y 83 secuencias con un
término de componente celular (principalmente células y orgánulos; consulte el archivo
adicional 4: Figura S3 para detalles).
Conclusión
El transcriptoma recién secuenciado, ensamblado y anotado de P. mexicana proporciona
un valioso recurso genómico estudiar los fundamentos moleculares de la adaptación a
ambiente extremo en manantial de sulfuro replicado y cueva entornos.
Este estudio proporciona un valioso recurso genómico para estudiar los fundamentos
moleculares de la adaptación a ambientes extremos en manantiales de sulfuro replicados
y ambientes de cuevas. Además, este estudio se suma al creciente número de recursos
genómicos en la familia Poeciliidae, que son ampliamente utilizados en análisis
comparativos de comportamiento, ecología, evolución y genética médica.

También podría gustarte