Documentos de Académico
Documentos de Profesional
Documentos de Cultura
BMS Sem Olga Soler
BMS Sem Olga Soler
a) El grafico escogido es un PCA del primer artículo. No había visto otro con
anterioridad, pero se interpretarlo.
1
Seminario 2: Obtención de datos para trabajar
2
El ID de la glicólisis es el SMP0000040.
Una vez sabemos el ID de nuestra ruta, se usa el PubChem para buscar la descripción
del biosistema y la base de datos KEGG para visualizar el diagrama la ruta.
3
En el PubCHem buscamos los genes implicados en la glicolisis. Hay 14 genes.
Una vez identificados los genes, se hace una búsqueda en el GEO DataSets. En
nuestro caso hacemos la búsqueda del cáncer de mama y la glicólisis.
Filtramos los resultados para un DataSets, en un organismos Homo Sapiens y con
expression profilling by array. Elegimos la única entrada que nos aparece.
4
En este caso tenemos seis tipos de muestras diferentes donde las dos primeras son
control, las dos siguientes inducen la glicólisis y cambios de pH y las dos últimas
inician la muerte celular y cambia la impedancia.
Tras el análisis de las seis muestras, se debe obtener la expresión génica de los genes de
nuestro sistema biológico. Para ello, seleccionamos el Data Analysis Tools y
buscamos cada gen de nuestro listado de genes en Excel.
5
Seminario 3: Análisis estadísticos de los datos (Día 1)
Abrimos nuestro documento con formato TxT en el PSPP y delimitamos los datos que
tenemos dentro del Group Code. En nuestro caso debemos separa nuestros datos en
tres grupos. El resultado es el siguiente:
6
Seminario 3: Análisis estadísticos de los datos (Día 2)
En el día de hoy, debemos determinar si existen diferencias significativas entre los datos
de los diferentes grupos. Los test estadísticos nos permiten saber si las diferencias
observadas son reales o pueden ser solo casualidad. Eso se mide con el p-valor el cual
debe ser inferior a 0.05, lo que indica que las diferencia entre nuestro grupo solo se
pueden explicar por el azar en un 5% de los casos. Si el p-valor es más elevado, el azar
no se puede descartar y los datos no nos servirían para llegar a conclusiones.
Lo que haremos a continuación será determinar este valor y veremos si en nuestro grupo
tienen diferencias significativas. Hay dos tipos de test para hacer el estudio: el test de
student, se usa sólo cuando se estudian dos grupos de muestras, y ANOVA, se usa
cuando se estudian más de dos grupos de muestras.
En nuestro caso debemos hacer el análisis con ANOVA porque nuestro estudio tiene
tres grupos. No obstante, también hemos realizado un t-student con nuestros datos ( a
pesar de que no corresponde) para aprender a hacer este tipo de análisis.
T-Student:
7
Definimos dos grupos porque es una T-student. Tras clicar en aceptar, ya tendremos
nuestra prueba T para muestras independientes.
Como podemos ver en nuestros resultados, nuestro p-valor (sign) es <0.05 por lo que el
resultado es estadísticamente significativo.
A pesar de esto, hay que tener en cuenta la varianza de cada grupo según la prueba de
Levene para igualdad de variancias. Si la probabilidad asociada al estadístico Levene es
>0.05, se suponen varianzas iguales; si es <0.05, se suponen varianzas distintas.
En nuestro caso al ser >0.05, son varianzas iguales.
8
Genes Grupos N Media Desv. Estándar
Control 2 4033,48 901,8
ALDOA
Glicólisis 2 4266,76 818,26
Control 2 218,76 8,8
BPGM
Glicólisis 2 210,06 2,17
Control 2 94,68 34,45
ENO1
Glicólisis 2 62,14 5,89
Control 2 25,89 13,52
G6PC1
Glicólisis 2 26,4 3,07
Control 2 7510,19 1037,07
GAPDH
Glicólisis 2 7244,52 983,92
Control 2 332,85 192,97
GPI
Glicólisis 2 294,69 149,25
Control 2 429,94 7,5
HK2
Glicólisis 2 246,64 43,95
Control 2 522,11 99,98
PFKM
Glicólisis 2 628,2 57,21
Control 2 3252,85 42,84
PGAM1
Glicólisis 2 3143,03 185,03
Control 2 2,21 0
PGAM2
Glicólisis 2 1,33 0,46
Control 2 28,04 4,33
PGK1
Glicólisis 2 37,81 16,3
Control 2 8,55 2,22
PKLR
Glicólisis 2 12,09 3,9
Control 2 3,05 1,81
SLC2A2
Glicólisis 2 4,61 2,09
Control 2 64,58 10,93
GALM
Glicólisis 2 65,95 6,34
t-student
Prueba de Levene ¿Hay diferencias entre los grupos?
Gen f Sign
ALDOA Si -0,27 0,812 No
BPGM Si 1,36 0,385 No
ENO1 Si 1,32 0,404 No
G6PC1 Si -0,05 0,966 No
GAPDH Si 0,26 0,817 No
GPI Si -0,11 0,847 No
HK2 Si 0,42 0,099 No
PFKM Si -1,3 0,35 No
PGAM1 Si 0,82 0,553 No
PGAM2 Si 2,72 0,224 No
PGK1 Si -0,82 0,499 No
PKLR Si -1,11 0,406 No
SLC2A2 Si -0,8 0,51 No
GALM Si -0,15 0,896 No
9
Seminario 4: Análisis estadísticos de los datos (Dia 3) y creación
de una tabla de comparación de medias
10
Sin embargo, la prueba de ANOVA de los genes no es estadísticamente significativa, es
decir, todo los grupos son iguales. Esto es debido a que el p- valor es mayor a 0,05.
ANOVA
Prueba de Levene ¿Hay diferencias entre los grupos?
Gen f Sign
ALDOA Si 0,2 0,832 No
BPGM Si 2,29 0,249 No
ENO1 Si 1,84 0,301 No
G6PC1 Si 0,04 0,966 No
GAPDH Si 0,56 0,619 No
GPI Si 0,05 0,955 No
HK2 Si 36,35 0,008 Si, hay diferencias entre el control y la glicòlisi y el control y la impedancia
PFKM Si 0,54 0,632 No
PGAM1 Si 0,31 0,752 No
PGAM2 Si 11,14 0,041 Si, hay diferencias entre el control y la impedancia
PGK1 Si 0,36 0,725 No
PKLR Si 0,36 0,722 No
SLC2A2 Si 0,46 0,668 No
GALM Si 0,34 0,736 No
11
Para realizar una comparación de medias entre grupos experimentales hacemos una
análisis comparativo grupo a grupo. Para ello, usamos el visor de sintaxis del PSPP.
Para llevarlo a cabo, en el visor de sintaxis podemos copiar el orden que hemos
establecido con anterioridad y copiarlo en una nueva línea. En la nueva línea copiada,
borramos “/statistics=descriptivas homogeneity” y añadimos “/posthoc=tukey”.
Seleccionamos ejecutar En la siguiente línea se abrirá el visor de resultados con el
resultado del test.
Como tenemos más de dos grupos debemos hacer una comparación dos a dos, además
de la comparación general.
12
Tabla de comparación de medias
Table 6. Average gene expression compared among the control, the glycolysis and the impedance groups. An
ANOVA test was performed to obtain the p-value of the different genes. The * indicates the ones that are significant.
13
Gene Group Mean Significance
Impedance 1.00 ± 0.00
Control 28.04 ± 3.07
PGK1 Glycolysis 37.81 ± 11.52 0.725
Impedance 30.87 ± 8.32
Control 8.55 ± 1.57
PKLR Glycolysis 12.09 ± 2.75 0.722
Impedance 15.43 ± 9.36
Control 3.05 ± 1.28
SLC2A2 Glycolysis 4.61 ± 1.48 0.668
Impedance 3.63 ± 0.45
Control 64.58 ± 7.73
GALM Glycolysis 65.95 ± 4.49 0.736
Impedance 78.56 ± 21.07
14
Seminario 5: Creación de un gráfico de barras por
comparación de medias
En el caso de querer comparar las medias de tres grupos, crearemos un gráfico en Excel
mediante los datos que obtuvimos del análisis estadístico ANOVA.
Para ello crearemos una tabla con los genes en filas y los valores promedios y desviaciones
estándar de cada grupo en columnas.
Grupo 1 Grupo 2 Grupo 3
Promedio Desv. Est. Promedio Desv. Est. Promedio Desv. Est.
ALDOA 4033,48 901,8 4266,76 818,26 4517,29 559,04
BPGM 218,76 8,8 210,06 2,17 267,82 49,64
ENO1 94,68 34,45 62,14 5,89 60,20 0,89
G6PC1 25,89 13,52 26,4 3,07 23,9 10,01
GAPDH 7510,19 1037,07 7244,52 983,92 6620,40 417,74
GPI 332,85 192,97 249,69 149,25 260,90 326,08
HK2 429,94 7,5 246,64 43,95 233,04 2,8
PFKM 522,11 99,98 628,2 57,21 627,2 168,03
PGAM1 3252,85 42,84 3143,03 185,03 3192,91 147,56
PGAM2 2,21 0 1,33 0,46 1,00 0
PGK1 28,04 4,33 37,81 16,3 30,87 11,77
PKLR 8,55 2,22 12,09 3,9 15,43 13,24
SLC2A2 3,05 1,81 4,61 2,09 3,63 0,63
GALM 64,58 10,93 65,95 6,34 78,56 29,79
15
Agregaremos los datos especificando como el Nombre de la serie el nombre del
primer grupo (Grupo 1) y como Valores de la serie los valores promedio de este
mismo grupo. Este procedimiento lo repetiremos con el Grupo 2 y el Grupo 3.
Una vez añadidos los datos, se debe editar el eje horizontal añadiendo el nombre de los
genes.
16
Para concluir, le añadiremos varios elementos a nuestro gráfico como los ejes y sus
respectivos títulos, la leyenda, un título al gráfico y las barras de error.
Los asteriscos negros indican que los genes HK2 y PGAM2 si tiene diferencias significativas
según el resultado del estadístico ANOVA.
17
Seminario 6: Metagenómica y Metaproteómica
18
Seminario 7: Creación de una figura para comparación entre
grupos. Diagrama de Caja o Box Plot
A partir de los datos de expresión de los genes que tenemos, creamos una tabla para
obtener el diagrama de caja.
Los diagramas de caja o Box Plot proporcionan información sobre cómo se distribuyen
los datos. Es un gráfico que suministra información sobre la media, la existencia de
valores atípicos, así como de la simetría de la distribución.
19
Una vez seleccionados los grupos, completamos nuestro diagrama añadiéndole
elementos del gráfico como la leyenda y el título de los ejes.
20
Seminario 8: Creación de tabla de correlaciones
Tabla de correlación:
Usamos los datos de la Tabla 9, y aplicamos la herramienta de Excel “Análisis de
Datos” “Coeficiente de correlación”.
Definimos el rango de entrada seleccionando todas las columnas con los datos de
expresión, agrupándolo en columnas. Para que salga correctamente la tabla y en una
hoja nueva de Excel debemos marcar las casillas “Rótulos en la primera fila y “En una
hoja nueva”.
21
Una vez tengamos los datos en un página nueva los debemos diferenciar en una escala
de colores, para ello clicamos "Inicio" seleccionar todas las columnas con los datos
de correlación Seleccionar "Formato condicional" "Escalas de colores"
Debemos elegir los genes que mejor correlacionan, los cuales son los que se aproximan
más a 1 o a -1.
En nuestro caso los genes que mejor correlacionan son PGAM1 y PGK1 con un valor de
correlación de -0,9906601
22
Gráfico de correlación:
Para hacer el gráfico de correlación debemos ir a la tabla inicial de datos de expresión
de los genes en los diferentes grupos de muestras (Tabla 9), e insertar un gráfico de
dispersión.
Debemos determinar los datos que deben representarse en la gráfica. En nuestro caso
son los datos del gen PGK1 frente los del PGAM1.
Al gráfico resultante le añadimos una línea de tendencia lineal y representamos el valor
de R cuadrado.
23
Seminario 9: Metabolómica
Para saber si el efecto del GSPE es dependiente del tiempo se usa el análisis estadístico
OPLS-DA. De esta manera se pueden hallar cambios más leves, los cuales son los que
suceden normalmente en las intervenciones nutricionales.
24
Seminario 10: Creación de un Heatmap y dendogramas
Un Heatmap es la visualización de una matriz de datos que nos permite ver nuestros
resultados de una manera global y a simple vista. Los Heatmaps se agrupan en clústers,
de esta manera, se ordenan los genes según su similitud y se ponen juntas las muestras.
Agrupar en clusters mediante un gradiente de colores nos facilita la representación y la
interpretación de los datos, ya que los hace más visuales. Los heatmap no tienen valor
estadístico sirven para interpretar los mejor datos.
Cada celda representa la expresión de un gen para una muestra. Así pues, hay tantas
filas como genes analizados y tantas columnas como muestras tengamos en nuestro
estudio.
Hay dos maneras de clusterizar:
- Clustering Jerárquico
- Clustering K-means
25
Con los datos de la siguiente tabla, podemos generar un heatmap con esta herramienta
(http://www.heatmapper.ca/expression/).
Una vez en el sitio web de esta herramienta debemos subir un Excel con nuestros datos,
especificando el tipo de distancia que queremos y el método de clustering.
Figura 4: Heatmap con distancia euclidiana y con el método de clustering Average Linkage. Como
podemos observar, no se agrupan las muestras.
26
Figura 5: Heatmap con distancia Manhattan y con el método de clustering Average Linkage. Como
podemos observar, no se agrupan las muestras.
27