Está en la página 1de 31

Transcriptómica

Carlos J. Minahk
Instituto de Química Biológica “Dr. Bernabé Bloj”. Fac. de Bioq., Qca y Fcia. - UNT
Instituto Superior de Investigaciones Biológicas (CONICET/UNT)
carlos.minahk@fbqf.unt.edu.ar
Tel: 0381-4248921 int. 205
Si bien conociendo el genoma de un organismo podemos predecir hasta cierto punto la
expresión de los genes codificados e inferir las diferentes actividades enzimáticas y
metabólicas derivadas (genómica), el mero conocimiento de la secuencia completa del
DNA no puede darnos ninguna certeza. Es preciso estudiar qué genes se expresan en un
determinado momento y en una determinada condición (transcriptómica), y para conocer
el cuadro completo es necesario hacer un estudio de las proteínas presentes en cada
situación y cómo interaccionan entre sí (proteómica e interactómica). Los diferentes
procesos biológicos que se activan o desactivan a consecuencia de estos cambios tiene
impacto en los metabolitos que se generan en las células (metabolómica).
El genoma es algo fijo, no cambia la información con el tiempo en una misma célula.

Por el contrario, los RNA que se expresen en cada célula sí cambian en el tiempo, cambian en respuesta a los
estímulos a los que son sometidas las células.

El hecho que una célula tenga presente en su genoma un determinado gen no significa necesariamente que ese
gen se expresará en algún momento. Por ejemplo el gen que codifica para la albúmina no se expresará nunca
en una neurona.

Las funciones y actividades metabólicas que desarrolle una determinada célula dependerá entonces no de los
genes presentes en su DNA sino de aquellos genes que se expresen.

El conjunto de todos los RNA de todo tipo que presenta un célula se denomina transcriptoma y su estudio se
denomina transcriptómica.

El transcriptoma es dinámico a diferencia del genoma.


Tipos de RNA
RNA codificante

RNA de transferencia (~15% del total de RNA)


ncRNA “housekeeping”
RNA mensajero
(1 al 5% del RNA
~360 mil moléculas) RNA ribosómico (≥ 80% del total de RNA)

≥ 200 nucleótidos

RNA no codificante largo


RNA no codificante

ncRNA regulatorio
(de 19 a 22 nucleótidos)

< 200 nucleótidos


RNA pequeño nucleolar

RNA pequeño de interferencia

RNA pequeño nuclear

RNA asociados a PIWI (piRNA)

RNA por masa Inamura (2017) Cells 6(2):1


RNA por número de moléculas
Palazzo & Lee (2015) Front. Genet. 6:2
Para estudiar la expresión de RNA se pueden utilizar técnicas de hibridación como Northern blot y microarray

El Northern blot solo permite analizar en forma semi-cuantitativa la expresión de genes utilizando sondas específicas
para los mRNA en estudio. Similar a lo que sucede con la PCR en tiempo real, que es una excelente herramienta,
cuantitativa, pero limitada a un grupo reducido de genes (cebadores específicos para cada uno)

El microarray permite estudiar todos los mRNA que se están expresando en un determinado tiempo, mediante el uso
de chips conteniendo las secuencias de todos los genes conocidos. Sin embargo, esta técnica no permite encontrar
nuevos transcriptos ya que está limitada a las sondas que tiene cada chip, fusiones de genes e isoformas no se
pueden encontrar, tampoco variantes de nucléotido único. Por último, no son sensibles para detectar diferencias
sutiles en los niveles de expresión.

Las tecnologías de secuenciación de nueva generación (NGS) son las más utilizadas en los últimos años para
estudiar el transcriptoma.

proyectos que incluyen microarrays

proyectos que incluyen NGS

Proyectos de investigación
aprobados por NIH para
estudiar expresión de Chimenti (2017)
genes https://www.youtube.com/watch?v=7BLS_YY9HeM&t=51s
mRNA Seq

El primer paso luego de realizar el experimento es extraer y purificar el RNA mensajero. Será diferente el
procedimiento según se esté trabajando con una célula eucariota o con una célula procariota. Luego se procede a la
secuenciación

1) poliA para captura de RNA


Ejemplo de análisis de
mRNA de célula eucariota
2) fragmentación del RNA por Illumina

3) síntesis de la primera hebra de cDNA

4) síntesis de la segunda hebra de cDNA

5) reparación de los extremos 5’ y adenilación de los extremos 3’

6) ligación de los adaptadores de secuenciación

7) amplificación por PCR de los fragmentos ligados

https://rockefelleruniversity.github.io/RU_RNAseq/presentations/slides/RU_RNAseq_p1.html#1
Secuenciación sin síntesis de ac. nucleicos largos (Nanopore)
Mediante una secuencia adaptadora se une a
un motor que permite la entrada de una hebra
de DNA a través de un poro por el que pasa
corriente. Los cambios que se ven en la
corriente dependerá del tamaño de la base
nitrogenada que esté entrando.
Permite secuenciar fragmentos muy largos de
DNA (tercera generación de secuenciadores).
Leggett & Clark (2017) J Exp Bot 20: 5419–5429

Utilizando esta tecnología se puede


secuenciar RNA, ya se convirtiendo
primero el RNA a cDNA y luego
pasandolo por el poro o secuenciar
directamente el RNA sin necesidad del
paso de retrotranscripción.

Este método aún necesita ser pulido,


pero tiene un gran potencial.

Soneson et al (2019) Nat Commun 10: 3359


Para bacterias es mucho más complicado porque los mRNA no tienen poliA

En primer lugar es preciso enriquecer las a. captura de RNA b. degradación del RNA procesado
muestras en mRNA por lo menos del 1-5% al perlas magnéticas con sondas que se
50% del total de RNA disminuyendo el rRNA + unen específicamente al rRNA
tRNA de 95% a 50%.

Existen diferentes métodos, el más común es


el “ribosomal RNA capture”.
exonucleasa que específicamente degrada los 5’P RNAs
(exonucleasa terminadora dependiente de 5’ monofosfato - TEX)
Otro método muy común es utilizar una
enzima de E. coli para agregar
RNA total
específicamente poliA al mRNA (y luego se
puede seguir trabajando como mRNA de Solo el 5% del total del
RNA es mRNA, el resto
células eucariotas).
es rRNA y tRNA

También se puede hacer “pull-down” utilizando


algún anticuerpo específico contra una
proteína que interaccione con el rRNA y así c. poliadenilación selectiva de los mRNAs d. captura de RNAs que interactúan con una proteína específica
eliminarlo enzima poliA polimerasa de E. coli que
lisis de células
selectivamente poliadenila los mRNAs
Por último, se puede degradar el rRNA y el Co-IP de RNA con proteína de unión a rRNA
tRNA porque tienen en su extremo 5’ un
monofosfato en lugar del trifosfato que tienen
los mRNA y hay nucleasas específicas para purificación del RNA
eso.
conversión a cDNA
poliA RNA puede ser purificado con oligo dT para de Sorek & Cossart
ahí formar directamente cDNA secuenciación (2010) Nat Rev Genet
11: 9-16
Por esta razón se utiliza el tag-RNA Seq

Problema de usar TEX: puede


pasar que algunos mRNA tengan
un procesamiento tal que haga que
no presenten un trifosfato en su
extremo 5’ y en ese caso son
degradados por este sistema y no
los vemos en la secuenciación.

Consiste en ligar primero una secuencia a los RNA procesados.


PSS-tag (secuencia “start” de procesado)

Luego se trata con la fosfatasa alcalina del tabaco para eliminar un


pirofosfato de los RNA no procesados (mayormente mRNA).

Finalmente se realiza una segunda ligación. TSS-tag (secuencia


“start” de transcripción)
Una vez enriquecida la muestra de RNA en mRNA se procede a obtener el cDNA
utilizando cebadores al azar o un oligo dT si se usó la estrategia de unir la cola de
poliA

cebadores de hexámeros al azar

3’ Secuenciación por NGS, al igual


5’
que el RNA de células eucariotas,
plan B: unir poliA a cada mRNA la plataforma más utilizada es
Illumina
5’ 3’
A diferencia del genoma, donde todos los genes están presentes en el mismo orden (salvo alguna duplicación), no todos
los mRNA se expresan al mismo nivel, por eso es muy importante la cobertura de secuencia, es decir cuántas veces se
leerá en promedio cada secuencia. Si no hay demasiadas lecturas es posible que la expresión de algunos genes pase
desapercibida, en particular los genes que se expresan en niveles bajos. Por otro lado, un mRNA puede que no sea
encontrado en un experimento, pero al repetir el exp. (réplica) hay más chances de encontrarlo.
Estos dos parámetros son importantes: tanto cuantos millones de lecturas hace el equipo por experimento como el
número de réplicas que tenga dicho experimento.
genes expresados diferencialmente (DE)
réplicas Vs. número de lecturas por experimento (en millones)

genes con altos niveles de expresión todos los otros genes

Chimenti (2017) https://www.youtube.com/watch?v=7BLS_YY9HeM&t=51s Liu & White (2014) Bioinformatics 30:301-4


Una vez completada la secuenciación se realizan los controles de calidad de las secuencias obtenidas de la misma
forma que se analizaban las secuencias de genomas secuenciados.

El paso siguiente es el de alinear cada fragmento


secuenciado con un genoma o alternativamente con un
transcriptoma ya depositado. En el caso de comparar
las secuencias con un genoma hay que tener cuidado
con las uniones debidas a diferentes procesos de
“splicing”. Es un trabajo muy complejo.

Se requiere el uso de diferentes programas para llegar


al resultado final:

1) primero controlar y corregir las secuencias


2) alinear las secuencias para saber la identidad de c/u
3) ensamblar las secuencias y calcular el grado de
expresión
4) de ser necesario, comparar la expresión diferencial
entre diferentes condiciones
Una lectura corta puede estar
cortada por un intrón cuando
se alinea con un genoma de
referencia
HiSAT2 y StringTie son algunas de
las herramientas bioinformáticas
más utilizadas para analizar los
fragmentos secuenciados y
compararlos con alguna referencia.
También pueden realizar anotación
de novo.

En todos los casos, deben


utilizarse diferentes programas
para analizar los datos siguiendo
un orden.

Chung, M., Bruno, V.M., Rasko, D.A. et al. Best practices on the differential expression
analysis of multi-species RNA-seq. Genome Biol 22, 121 (2021)
Por otro lado, también se pueden alinear las secuencias obtenidas en la secuenciación con transciptomas anotados (en
vez de hacerlo contra genomas de referencia). Esto se llama pseudo-alineamiento y es una salida mucho más rápida
que la anterior, solo que está limitada a que existan transcriptomas depositados. Por otro lado, haciendo esto se
sacrifica la posibilidad de encontrar nuevos transcriptos. Es una estrategia mucho más ágil y más corta que comparar
genomas.

En estos casos, son precisos otros programas como ser Kallisto y Salmon-Quasi

genoma

ventajas: puede alinear isoformas nuevas


desventajas: difícil, alineamientos incorrectos, problemas con el “splicing”, alineamiento con pseudogenes o con genes relacionados

transcriptoma
La transcriptómica se utiliza principalmente para conocer qué genes se expresan en una condición comparada
con otra. Análisis cualitativo

Pero las NGS aplicadas al estudio del transcriptoma también permiten cuantificar cuánto hay de cada
transcripto. Cuantas más copias haya de un determinado mRNA, tanto mayor será la señal/lectura obtenida.

En general se compara la expresión de los transcriptos entre 2 o más situaciones o condiciones diferentes pero
también se puede comparar la expresión de varios genes en una misma condición.

Otro problema al momento de


Un inconveniente
comparar la expresión en 2
de la cuantificación
condiciones diferentes es el
por NGS es que los
número de lecturas (“reads”) en
transcriptos largos
cada una de esas mediciones. Si
tendrán más
en un experimento se obtienen
lecturas que los
más lecturas, habrá más
cortos, lo que
profundidad, mayores lecturas para
introduce un sesgo
cada gen y se puede concluir
que es preciso
erroneamente que tiene mayor
corregir en cada
expresión.
medición.
Kadakkuzha et al. (2016) Nutraceuticals cap 18: 227-237
Lo mismo pasa si se tienen más millones de lecturas y se
quiere comparar la expresión de un gen
Aún cuando haya mismo número de copias de estos 3
transcriptos, voy a creer erróneamente que hay A>B>C

A
D 1 copia y 60 lecturas

B
E
2 copias y 48 lecturas

F
3 copias y 48 lecturas
Las lecturas obtenidas se deben normalizar para evitar estos problemas. Una forma es la RPKM (reads per
kilobase million) o también FPKM (fragments per kilobase milion). Alternativamente se puede utilizar TPM (transcripts
per million)

Ejemplo: estudio de 4 genes de diferente


tamaño. La expresión se mide en 3
experimentos independientes Primero se debe normalizar por profundidad de lectura
Secuenciación de los fragmentos

En RPKM primero se suman todas las lecturas de cada


experimento (cada réplica)

4 genes Luego se dividen esos números en un millon (en este


ejemplo se divide en 10 porque se están considerando
muy pocas lecturas)

Lecturas en cada réplica

Lecturas por millón


Normalización de resultados de transcriptómica por RPKM

Luego se debe normalizar


por el tamaño de los genes
en estudio

Estos son los valores


finales luego de dividir por
los millones de lecturas de
cada experimento y los
tamalos de cada gen
Para nomalizar por TPM (transcriptos por millón) se hacen los mismos cálculos pero en otro orden

Primero se normaliza por el tamaño de cada gen Luego se normaliza por la profundidad de lecturas sobre los
(se dividen las lecturas en las kilobases de cada gen) valores ya normalizados por los tamaños de los genes

Se suman las lecturas en cada réplica (cada columna por


separado), se dividen en un millón (en 10 en este ejemplo) y
luego se dividen los valores normalizados por el tamaño de los
genes por el factor obtenido de las lecturas
Una alternativa para cuantificar niveles de 2 ó más mRNAs en una misma condición es cuantificar por secuenciación
de los extremos 3’ de los mRNAs

Con esta estrategia se pierde la capacidad de analizar los posibles cambios en las secuencias de los transcriptos
(análisis cualitativo) para enfocarse exclusivamente en la medición cuantitativa

Es un procedimiento mucho más


rápido y sencillo.
El método 3’RNA Seq da solo una
secuencia por cada transcripto

Tandonnet & Torres (2016) Genom Data 11:9-16


Una forma de expresar los resultados de transcriptómica es la gráfica de volcán
Permita realizar una rápida comparasión de la expresión entre 2 condiciones diferentes
Además de permitir cuantificar los mRNA y de realizar análisis de expresión diferencial de genes en diferentes
condiciones y tiempos, el estudio del transcriptoma permite corregir y complementar los estudios genómicos:

a. descubrimiento de nuevos genes


una secuencia, un RNA, que aparece donde no
había nada en el genoma anotado puede deberse
a dos razones:

1) gen que codifica para un péptido pequeño 2) un nuevo RNA no codificante

b. corrección en la anotación de genes


También puede pasar que la predicción de un gen haya estado mal hecha y se
haya anotado una secuencia de inicio incorrecta. Al secuenciar los RNA
aparecerá un transcripto con otro inicio y eso permitirá la posterior corrección del
gen

Sorek & Cossart


(2010) Nat Rev Genet
codón de inicio predicho codón de inicio real 11: 9-16
c. definición de URs A diferencia del anterior punto, si el transcripto
secuenciado es más largo que el predicho, eso
implica que ese RNA tiene una región no traducida

d. definición de la estructura de los operones

Los estudios in silico del genoma pueden haber predicho una determinada estructura de un operón, en este
Sorek & Cossart
ejemplo, un operón de 4 genes. Sin embargo, los resultados de la transcriptómica permiten ver que en realidad (2010) Nat Rev Genet
el sistema tiene un operón de 3 genes y luego el cuarto gen se transcribe en forma independiente 11: 9-16
La transcriptómica trajo asociada la cuarta generación de secuenciación de ácidos nucleicos: secuenciación in situ

Existe una variedad de técnicas relacionadas, pero todas apuntan a obtener información de la expresión genética en
una célula determinada o en diferentes células de un tejido.

Stahl et al. (2016) Science 353: 78-82


En este protocolo, un corte fino de un tejido se coloca sobre un chip diseñado con 1007 regiones separadas, cada
una de las cuales contiene muchas copias de un oligonucleótido único y de secuencia conocida para ese punto en
el chip.

Los cortes son analizados por imágenes, cada pixel identificado y asociado a un tipo celular.

Una vez permeabilizadas las células, los mRNA se unirán por su poliA a las regiones de captura conteniendo poli dT. Se
realizará una retrotranscripción y luego los cDNA conteniendo el código de barras se cortarán y serán secuenciados por
Illumina.

Finalmente se analizará qué secuencias fueron identificadas y cuánto había de cada una en cada spot del chip,
correlacionando esto con la información del tipo celular presente
Además de los mRNA existen otros RNA que son estudiados por secuenciación: los RNA cortos y los RNA largos no
codificantes.
Los diferentes lncRNA
intrónico intergénico divergente reciben su nombre de
acuerdo a dónde se
encuentran codificados
RNA codificando proteína

Arrigoni et al (2016) Polycomb Group Proteins pp 125-135

RNA codificando proteína


antisentido

Los miRNA y los siRNA


tienen una actividad
regulatoria
postranscripcional,
aunque por mecanismos
diferentes

(no son los únicos RNA


pequeños, pero sí los más
estudiados)
https://bit.ly/3aSwE10
Koturbash et al. (2015) Biomark Med 9:1153-76
Las claves para identificar exitosamente RNA no codificantes es secuenciar todos los RNA que no sean RNA
ribosómico y luego eliminar de la base de datos obtenida todos los RNA que codifiquen para alguna proteína
(mRNA) o sean RNA procesados a tRNA.

No se purifica el
extracción de RNA total RNA con oligo dT
y eliminación del rRNA
(a diferencia de todos los
casos anteriores, para Remoción de los transcriptos que
RNA no codificante no se codifican para proteínas
transcriptos ensamblados
puede porque no todos
preparación de la los ncRNA tienen poliA) transcriptos conocidos por
biblioteca y secuenciación codificar proteínas

selección de tamaño >200 nt dentro de los


RNA no codificantes encontrados para
lncRNA y <200 nt para RNA pequeños
alineamiento de las lecturas con un
genoma de referencia
Análisis del potencial codificante de
los transcriptos largos encontrados

ensamble de los transcriptos sets de transcriptos no codificantes largos lncRNA y RNA


cortos siRNA, miRNA, piwiRNA, etc

adaptado de: Arrigoni et al (2016) Polycomb Group Proteins pp 125-135


si se purificaran los RNA a partir de sus poliA, aproximadamente la mitad de los lncRNA y todos los RNA pequeños se
perderían porque no tienen esta secuencia en su extremo 3’. Por eso se prefiere obtener el RNA total y luego eliminar
específicamente en rRNA por algún método (similar a lo visto en bacterias)

Illumina ribo-zero magnetic kit


(https://bit.ly/378Ha30)

NEBNext rRNA Depletion kit


(https://www.neb.ca/E6310)

También podría gustarte