Está en la página 1de 2

Universidad Nacional de Colombia

Facultad de Ciencias - Departamento de Estadı́stica


Maestrı́a en Ciencias - Estadı́stica
Estadı́stica genómica
Yesica Alejandra Salas Cardenas 1
Bogotá, 28 de Noviembre de 2018

PARCIAL
Estadı́stica genómica

• Indique los pasos que se deben realizar sobre un conjunto de datos de expresión génica
obtenidos por hibridación con un chip de Affymetrix antes de realizar los análisis estadı́sticos
(preprocesamiento de los datos).

Una vez obtenidos los datos de expresión génica obtenidos por hibridación con un chip de
Affymetrix, debemos implementar las técnicas de pre-procesamiento antes de realizar los
análisis estadı́sticos, esto con el fin de hacer una correcta interpretación sobre los datos,
ya que es importante quitar el ruido de las muestras. Para hacer dicho pre-procesamiento
implementamos técnicas de control de calidad, como boxplot, histogramas, diagramas de
dispersión de una réplica vs otra, grafico qc, meansplot, heatmap, cada una de estos diagramas
me va indicar la naturaleza de los datos, como se encuentran los datos, y cúales son las
muestras que debo quitar para obtener unos datos con mayor calidad.

Después es importante hacer una sumarización, ya que los datos iniciales pueden corresponder
a sondas por muestras, y para el al final necesitamos datos de expresión génica almacenados
en una matriz de genes por muestras, para esto hacemos la correspondencia entre genes y
sondas, y se toma el máximo del valor de la expresión.
Finalmente normalizamos los datos, con el fin de hacer un re-escalamiento, mejorar la asimetrı́a
y estabilizar la varianza.

• En qué consiste la identificación del umbral de similitud en la construcción de redes de co-


expresión?

En el proceso de construcción de redes de co-expresión génica este es uno de los pasos más
importantes ya que este me permite ver cuales son las correlaciones finales que existen entre
los genes. Este paso me permite pasar de la matriz de similitud a la matriz de adyacencia,
que representa las aristas de la red. Existen diferentes métodos entre los más usuales están
el percentil del 90% y los métodos basados en la topologı́a de la red.

• Cómo está relacionado el valor M, también denominado Fold change con el estadı́stico de
prueba de diferencia de medias calculado por el método ACDE (Artificial Components De-
tection of Differentially Expressed Genes)? Es correcto afirmar que estos dos datos calculados
para todos los genes tienen una correlación lineal positiva?
1
yasalasc@unal.edu.co

1
La relación entre el valor M y el estadı́stico de prueba de diferencia de medias calculado
por el método ACDE, es que ambos miden la diferencia entre expresión génica de las dos
condiciones, con ambos se quiere ver cuales son los genes que están sobre expresados o sub-
expresados. Si es correcto afirmar que estos dos datos calculados para todos los genes tienen
una correlación lineal positiva ya que si M aumenta, el estadı́stico por el otro método debe
aumentar, a pesar de que se tiene diferente escala en cada uno de los métodos.

También podría gustarte