Está en la página 1de 22

OFICIAL JOURNAL OF ASIAN

PACIFIC RESPIRATORY
Insights into respiratory disease through
bioinformatics
TÉCNICAS MOLECULARES PARA
ENFERMEDADES RESPIRATORIAS
INTRODUCCIÓN
Las enfermedades respiratorias como asma EPOC Y
cáncer de pulmón son las mas comunes y se dan en la
sociedad afectando todo tipo de edades aunque no son
transmisibles, afectan en un promedio a 200 millones de
personas.
Debido a estas cifras se han creado estrategias para la
prevención y tratamiento interiorizando en el estudio
genético, celular y molecular de datos, identificando las
causas mas comunes de estas enfermedades en cada
individuo.
TRANSCRIPTOMÍA: DE LECTURAS CORTAS DE
SECUENCIACIÓN HASTA MECANISMOS
BIOLÓGICOS

 Las primeras distinciones entre el asma de Th2 alta y Th2 baja se basaron en los
niveles de expresión de un panel de genes inducidos por IL-13.

 Los datos mostraron que la inflamación asociada a Th2 se incrementó en sujetos


alérgicos a los ácaros del polvo doméstico independientemente de la presencia o
ausencia de asma.

 Sin embargo, en los sujetos con asma, las vías relacionadas con Th2 formaron
redes interconectadas con las vías epiteliales de las vías respiratorias , lo que
sugiere que la inflamación patológica de Th2 implica el recableado de las redes
de genes Th2 con redes de reparación/ remodelación epiteliales.
TRANSCRIPTOMA

Es el conjunto completo de transcripciones


de ARNm y ARN no codificante expresados
en un momento dado ,cambia dinámicamente
en respuesta a exposiciones ambientales y
estados de enfermedad.

La evaluación del transcriptoma puede


proporcionar información importante sobre
los mecanismos moleculares de la
enfermedad.
RNA-Seq Es actualmente el método
de elección para la
evaluación del transcriptoma
y tiene varias ventajas sobre
el microarray de ADN

Se realiza en fragmentos
cortos de RNA (normalmente
mRNA) para generar
decenas de millones de
lecturas de secuenciación
cortas por muestra.

El mayor desafío al que se


enfrentan los investigadores
es extraer el significado
biológico de estas lecturas.
1 2 3

6
FLUJO DE TRABAJO PARA EL ANÁLISIS
DE DATOS DE RNA-SEQ.
7
DATOS DE RNA-SEQ

1
FASTQC: Comprueban las lecturas Cada archivo de secuenciación se
de secuenciación sin procesar para evalúa con respecto a varias
determinar la calidad de métricas de control de calidad.
secuenciación genera.

A cada archivo se le asigna un


'aprobado', 'advertencia' o 'falla' para
cada una de estas métricas.

TRIMMOMATIC: Herramientas de recorte


de datos, se puede utilizar para limpiar los
datos de secuenciación sin procesar antes
de la alineación del genoma, mediante la
eliminación de secuencias artificiales o
aquellas con puntuaciones de baja calidad.
MULTIQC: se emplea para agregar
los resultados de FastQC en todas
las muestras.
2 3 4
TOPHAT,HI SAM-STAT FEATURECOUNTS
SAT ,STAR: • Realiza las estadísticas • Cuenta el número de
posteriores a la alineación.
• Herramientas de alineación de lecturas que se alinean
lectura compatibles que mapean de forma única con cada
cada secuenciación leída a un gen, lo que finalmente
genoma de referencia, para produce una gran matriz
determinar a qué genes de recuentos de genes,
pertenecen. donde cada columna
contiene una muestra y
• El porcentaje de lecturas cada fila corresponde a
mapeadas es una métrica de un gen.
calidad importante y debería
estar alrededor del 70-90% en
conjuntos de datos humanos de
buena calidad.
5 R o RSTUDIO
• En primer lugar, se realizan técnicas
de análisis de datos exploratorios,
como el agrupamiento no
supervisado, en los datos del
recuento de genes para visualizar
cómo Las muestras se agrupan e • PCA opera directamente sobre la
identifican valores atípicos o la información del recuento de genes.
presencia de efectos de lote.
• MDS se basa en una medida de
• Las técnicas más comunes son el distancia entre muestras (derivada de
análisis de componentes principales los recuentos de genes).
(PCA) y el escalado multidimensional
(MDS). Son técnicas de reducción de • En ambos, se espera que las
datos, que se aplican a datos muestras estrechamente relacionadas
normalizados en lugar de a los se agrupen.
recuentos de genes sin procesar para
tener en cuenta las diferencias
técnicas que puedan estar presentes
entre las muestras.
6 RUVseq
• Puede modelar sistemáticamente
variaciones no deseadas en los datos
y eliminarlas del análisis.

• Encontrar problemas con la calidad


de los datos, también se pueden
utilizar técnicas de agrupación para
identificar subfenotipos.
• Identificar genes expresados
diferencialmente.

• El resultado típico de un análisis de


expresión diferencial de genes
contiene una lista de genes con un
identificador de gen oficial (p. Ej., ID
de Ensamblé y símbolo de gen) junto
con una estadística de prueba, un
cambio de pliegue logarítmico (no
ajustado y ajustado para
comparaciones múltiples).

EdgeR, DESeq2 o limma-voom 7


8 DAVID,INNATEDB,ENRIQUECER Y LA BASE DE
DATOS DE FIRMAS MOLECULARES.

• Algoritmo popular para el análisis de


• Es en este punto que comienza la
redes de datos de expresión génica
interpretación biológica de los datos. es el análisis de redes de coexpresión
génica ponderada.
• Donde se realiza análisis de rutas
proporciona información importante • Infiere la estructura de la red a partir
sobre las funciones biológicas de datos experimentales en función
colectivas de un conjunto de genes. de los patrones de correlación entre
todos los pares de genes en las
• Cada herramienta tiene sesgos
muestras.
inherentes (por ejemplo, algunas
herramientas se especializan en vías • Los genes pueden clasificarse de
inmunológicas). acuerdo con propiedades como la
conectividad intramodular (definida
• Los análisis de rutas no pueden
como la suma de los patrones de
revelar los mecanismos reguladores correlación para un determinado
que están impulsando una respuesta dentro de cada módulo) para
biológica o un proceso de

9
identificar genes 'concentradores' y
enfermedad priorizarlos para estudios de
seguimiento.

(WGCNA)
ESTUDIOS DE ASOCIACIÓN EN TODO EL Pasos principales
involucrados en el análisis
GENOMA de datos de un GWAS
típico

DATOS DE VARIANTE DE CONTROLES DE


SECUENCIACIÓN SALIDA CALIDAD
Un desafío clave de interpretar
GWAS es que muchas de las
variantes candidatas no se replican
en los estudios, reflejando así la
complejidad de estas
enfermedades y la marcada
heterogeneidad observada entre el
asma y Endotipos de EPOC.
DROGA COMPUTACIONAL
REPROPONER
Gene Expression
• Un nuevo medicamento en el
mercado requiere mucho tiempo y
es costoso, y muchos
medicamentos con buenos perfiles
de seguridad fracasan debido a
problemas de eficacia.

• Firmas celulares integradas,


basadas en redes (LINCS) para
perfilar sistemáticamente la
respuesta de múltiples líneas
celulares y células primarias a
miles de alteraciones genéticas y
moléculas pequeñas.
PASOS Y MÉTODOS
DIFERENTES ENFOQUES

• Empleando un modelo de mesotelioma de ratón


que se caracterizó por una respuesta dicotómica a
• Se puede acceder a los datos de la terapia anti-CTLA4, se obtuvieron perfiles de
LINCS a través de un motor de expresión génica en tumores completos
búsqueda basado en la web. derivados de ratones que respondieron y no
respondieron. Se realizó WGCNA para identificar
• Los investigadores pueden consultar módulos asociados con la respuesta al
tratamiento.
este motor de búsqueda enviando
listas de genes regulados al alza y a • Pasos de control de calidad que se aplican a los
la baja. datos genéticos antes del análisis estadístico en
GWAS. El orden en el que aparecen estos
• Este enfoque se ha empleado para pasos no refleja el orden real en el que se
encontrar fármacos reutilizados que llevarían a cabo.
mejoren la inmunoterapia contra el
• Métodos estadísticos utilizados para corregir
cáncer. múltiples pruebas. Estos están disponibles en
PLINK.

.
ANÁLISIS Y DESARROLLO

Este análisis reveló el ácido retinoico Se ha desarrollado un enfoque


todo-trans como un candidato que se sistemático para priorizar los
predijo para mejorar la tasa de respuesta candidatos a inhibidores de
a la terapia de bloqueo de puntos de reguladores transcripcionales, se basa
control inmunológico, y esta predicción en un algoritmo llamado VIPER, que
se confirmó en estudios experimentales estima la actividad de los reguladores
de validación. transcripcionales de forma no sesgada
basándose en el perfil de expresión de
sus genes diana inferidos. 

Los compuestos que modulan la


actividad de los reguladores
transcripcionales se identifican
ejecutando VIPER en las bases de datos
Como prueba de concepto, varios cMap o LINCS. VIPER requiere que se
inhibidores candidatos deMI Cy STAT3 especifique un modelo de red que
fueron identificados y validados conecte reguladores transcripcionales
experimentalmente. a sus genes diana.
INTEGRACIÓN DE DATOS
MULTIÓMICOS
• La integración de datos multiómicos es una tarea
computacionalmente desafiante y un área en curso de
desarrollo de métodos.

• Un desafío importante es la gran cantidad de variables


que se miden en comparación con la pequeña cantidad
de muestras.

• Otro desafío es la variación en la escala, la complejidad


y la estructura de correlación entre los conjuntos de
datos.

• Inferir la estructura de la red a partir de datos


multiómicos es un desafío porque hay una gran
cantidad de variables altamente correlacionadas.

• La integración de perfiles multiómicos puede


proporcionar información sobre las vastas conexiones
entre los genes y los factores ambientales que influyen
en el riesgo de enfermedad.

.
SIMILARITY NETWORK
FUSION
• Es un nuevo método computacional de datos.

• El enfoque implica la construcción de redes de


pacientes en lugar de características moleculares para
integrar perfiles multiómicos.

• Se construye una matriz de similitud de sujeto a sujeto


para cada tipo de datos ómicos, y luego se emplea la
teoría del paso de mensajes para fusionar las redes en
una única matriz de similitud.

• El método es muy adecuado para integrar conjuntos de


datos ómicos muy heterogéneos.

• Además, la naturaleza no supervisada del análisis se


adapta bien al descubrimiento de nuevos subfenotipos
moleculares.

.
SNF EN PACIENTES CON EPOC Y OTROS

• Combinaron nueve
bloques de datos ómicos
en múltiples niveles
moleculares (ARNm,
• Sempleó Similarity miARN, proteínas y
Network Fusión para metabolitos) y
integrar perfiles ubicaciones anatómicas
multiómicos de (epitelio de las vías
pacientes con EPOC, no respiratorias, células
fumadores sanos y inmunes residentes en
fumadores con función los pulmones, exudados
pulmonar normal. de las vías respiratorias,
exosomas y suero).
.
.
ANÁLISIS

• Descubrieron que la precisión media de la


predicción de subgrupos era de 0,28 cuando
cada bloque de datos ómicos se analizaba de
forma aislada. Sin embargo, la combinación de
datos de múltiples plataformas ómicas aumentó
la precisión media de la predicción a 0,9.

• Además, también se evaluó la relación entre la


precisión de la clasificación y el tamaño de la
muestra, y encontraron que la combinación de
datos de al menos cinco bloques ómicos podría
clasificar a los pacientes con EPOC con una
precisión del 100%, incluso con tamaños de
grupo tan pequeños.
CONCLUSIONES
Las enfermedades respiratorias como asma EPOC Y cáncer
de pulmón afectan a millones de personas en el mundo y
por eso la investigación medica esta enfocada en estas
patologías para encontrar las bases de estas
enfermedades.
Para reducir el numero de enfermedades se diseñaron
estrategias para el tratamiento y prevención de las
enfermedades.

Los estudios realizados fue el análisis del ARN y las


moléculas celulares en varios individuos.

Realizaron las lecturas de los genes a todas las células por


medio de la transcriptomia.

Fue usado un método estadístico como el PCA que


simplifica la complejidad de espacios muéstrales
conservando la información a través de muchas
dimensiones.

También podría gustarte