Está en la página 1de 29

Seminarios BMS

Olga Soler López


Grado en Biotecnología
2021-2022
Índice
Seminario 1: Introducción de los datos ómicos............................................1
Seminario 2: Obtención de datos para trabajar.............................................2
Seminario 3: Análisis estadísticos de los datos (Día 1)................................6
Seminario 3: Análisis estadísticos de los datos (Día 2)................................7
Seminario 4: Análisis estadísticos de los datos (Dia 3) y creación de una
tabla de comparación de medias.................................................................10
Seminario 5: Creación de un gráfico de barras por comparación de
medias.........................................................................................................15
Seminario 6: Metagenómica y Metaproteómica.........................................18
Seminario 7: Creación de una figura para comparación entre grupos.
Diagrama de Caja o Box Plot.....................................................................19
Seminario 8: Creación de tabla de correlaciones........................................21
Seminario 9: Metabolómica........................................................................24
Seminario 10: Creación de un Heatmap y dendogramas............................25
Seminario 1: Introducción de los datos ómicos

a) El grafico escogido es un PCA del primer artículo. No había visto otro con
anterioridad, pero se interpretarlo.

Ilustración 1: Gráfico PCA

Este es el gráfico en cuestión, en él se puede apreciar que cada color es un tipo de


muestra y cada punto es una muestra diferente. En los ejes tenemos los parámetros a
estudiar separados en dos grupos, lo que nos permite representar las diferentes muestras
en un gráfico bidimensional.
La distancia entre dos puntos indica lo diferentes que son, a más distancia, más
diferentes son las muestras que representan.

1
Seminario 2: Obtención de datos para trabajar

En este seminario vamos a realizar un análisis de la expresión génica de un sistema


biológico, para ello, se tendrá que elegir un sistema biológico a estudiar en un contexto
determinado (patología)
Escogemos la ruta metabólica de la glicólisis y como patología el cáncer de mama para
hacer el estudio.
Se comienza con una búsqueda en el PubMed.

Se prosigue con la búsqueda en el Pathbank para encontrar el ID de la ruta metabólica.


En nuestro caso buscamos la glicólisis en la especie Homo sapiens.

2
El ID de la glicólisis es el SMP0000040.

Una vez sabemos el ID de nuestra ruta, se usa el PubChem para buscar la descripción
del biosistema y la base de datos KEGG para visualizar el diagrama la ruta.

3
En el PubCHem buscamos los genes implicados en la glicolisis. Hay 14 genes.

En una hoja de Excel hacemos un listado de genes, especificando su código, su nombre


y la descripción del propio gen.

GEN ID Código Genename Descripción


226 ALDOA aldolase, fructose-bisphosphate A Fructose-bisphosphate aldolase A
669 BPGM bisphosphoglycerate mutase Bisphosphoglycerate mu
2023 ENO1 enolase 1 Alpha-e
2538 G6PC1 glucose-6-phosphatase catalytic subunit 1 Gl
2597 GAPDH glyceraldehyde-3-phosphate dehydrogenase Gly
2821 GPI glucose-6-phosphate isomerase
3099 HK2 hexokinase 2
5213 PFKM phosphofructokinase, mu
5223 PGAM1 phosphoglycer
5224 PGAM2 phos
5230 PGK1
5313 PKLR
6514
1

Tabla 1: Listado de genes

Una vez identificados los genes, se hace una búsqueda en el GEO DataSets. En
nuestro caso hacemos la búsqueda del cáncer de mama y la glicólisis.
Filtramos los resultados para un DataSets, en un organismos Homo Sapiens y con
expression profilling by array. Elegimos la única entrada que nos aparece.

4
En este caso tenemos seis tipos de muestras diferentes donde las dos primeras son
control, las dos siguientes inducen la glicólisis y cambios de pH y las dos últimas
inician la muerte celular y cambia la impedancia.

Tras el análisis de las seis muestras, se debe obtener la expresión génica de los genes de
nuestro sistema biológico. Para ello, seleccionamos el Data Analysis Tools y
buscamos cada gen de nuestro listado de genes en Excel.

5
Seminario 3: Análisis estadísticos de los datos (Día 1)

En el seminario de hoy empezaremos a analizar los datos recopilados la semana


anterior.
Guardamos los datos en un formato TxT con columnas separadas para tabulaciones para
poder usarlo con el programa PSPP. Es importante definir el Group Code en nuestro
Excel.

Tabla 2: Datos de expresión de genes para usarlos en el programa PSPP

Abrimos nuestro documento con formato TxT en el PSPP y delimitamos los datos que
tenemos dentro del Group Code. En nuestro caso debemos separa nuestros datos en
tres grupos. El resultado es el siguiente:

6
Seminario 3: Análisis estadísticos de los datos (Día 2)

En el día de hoy, debemos determinar si existen diferencias significativas entre los datos
de los diferentes grupos. Los test estadísticos nos permiten saber si las diferencias
observadas son reales o pueden ser solo casualidad. Eso se mide con el p-valor el cual
debe ser inferior a 0.05, lo que indica que las diferencia entre nuestro grupo solo se
pueden explicar por el azar en un 5% de los casos. Si el p-valor es más elevado, el azar
no se puede descartar y los datos no nos servirían para llegar a conclusiones.
Lo que haremos a continuación será determinar este valor y veremos si en nuestro grupo
tienen diferencias significativas. Hay dos tipos de test para hacer el estudio: el test de
student, se usa sólo cuando se estudian dos grupos de muestras, y ANOVA, se usa
cuando se estudian más de dos grupos de muestras.
En nuestro caso debemos hacer el análisis con ANOVA porque nuestro estudio tiene
tres grupos. No obstante, también hemos realizado un t-student con nuestros datos ( a
pesar de que no corresponde) para aprender a hacer este tipo de análisis.

T-Student:

Seleccionamos: Analizar  Comparar medias  Prueba T para muestras


independientes.
Se abre la siguiente ventana donde debemos de insertar los genes en la variable de
contraste, seleccionar el ¨Group_Code¨ como variable de agrupación y después
definiremos los grupos.

7
Definimos dos grupos porque es una T-student. Tras clicar en aceptar, ya tendremos
nuestra prueba T para muestras independientes.

Como podemos ver en nuestros resultados, nuestro p-valor (sign) es <0.05 por lo que el
resultado es estadísticamente significativo.
A pesar de esto, hay que tener en cuenta la varianza de cada grupo según la prueba de
Levene para igualdad de variancias. Si la probabilidad asociada al estadístico Levene es
>0.05, se suponen varianzas iguales; si es <0.05, se suponen varianzas distintas.
En nuestro caso al ser >0.05, son varianzas iguales.

8
Genes Grupos N Media Desv. Estándar
Control 2 4033,48 901,8
ALDOA
Glicólisis 2 4266,76 818,26
Control 2 218,76 8,8
BPGM
Glicólisis 2 210,06 2,17
Control 2 94,68 34,45
ENO1
Glicólisis 2 62,14 5,89
Control 2 25,89 13,52
G6PC1
Glicólisis 2 26,4 3,07
Control 2 7510,19 1037,07
GAPDH
Glicólisis 2 7244,52 983,92
Control 2 332,85 192,97
GPI
Glicólisis 2 294,69 149,25
Control 2 429,94 7,5
HK2
Glicólisis 2 246,64 43,95
Control 2 522,11 99,98
PFKM
Glicólisis 2 628,2 57,21
Control 2 3252,85 42,84
PGAM1
Glicólisis 2 3143,03 185,03
Control 2 2,21 0
PGAM2
Glicólisis 2 1,33 0,46
Control 2 28,04 4,33
PGK1
Glicólisis 2 37,81 16,3
Control 2 8,55 2,22
PKLR
Glicólisis 2 12,09 3,9
Control 2 3,05 1,81
SLC2A2
Glicólisis 2 4,61 2,09
Control 2 64,58 10,93
GALM
Glicólisis 2 65,95 6,34

Tabla 3:: Estadísticas de grupo

t-student
Prueba de Levene ¿Hay diferencias entre los grupos?
Gen f Sign
ALDOA Si -0,27 0,812 No
BPGM Si 1,36 0,385 No
ENO1 Si 1,32 0,404 No
G6PC1 Si -0,05 0,966 No
GAPDH Si 0,26 0,817 No
GPI Si -0,11 0,847 No
HK2 Si 0,42 0,099 No
PFKM Si -1,3 0,35 No
PGAM1 Si 0,82 0,553 No
PGAM2 Si 2,72 0,224 No
PGK1 Si -0,82 0,499 No
PKLR Si -1,11 0,406 No
SLC2A2 Si -0,8 0,51 No
GALM Si -0,15 0,896 No

Tabla 4: Resultado T-student

9
Seminario 4: Análisis estadísticos de los datos (Dia 3) y creación
de una tabla de comparación de medias

Como ya se indicó en el seminario anterior, para nuestros tres grupos de muestras


debemos realizar un estudio estadístico ANOVA. Lo realizaremos en el programa PSPP.
ANOVA:
Seleccionamos: Comparar medias  ANOVA de un factor

Hay que definir los grupos y seleccionar la casilla de descriptivos y homogeneidad.

El test de homogeneidad de varianzas, la prueba de Levene, sale estadísticamente


significativa ya que es menor de 0,05.

10
Sin embargo, la prueba de ANOVA de los genes no es estadísticamente significativa, es
decir, todo los grupos son iguales. Esto es debido a que el p- valor es mayor a 0,05.

ANOVA
Prueba de Levene ¿Hay diferencias entre los grupos?
Gen f Sign
ALDOA Si 0,2 0,832 No
BPGM Si 2,29 0,249 No
ENO1 Si 1,84 0,301 No
G6PC1 Si 0,04 0,966 No
GAPDH Si 0,56 0,619 No
GPI Si 0,05 0,955 No
HK2 Si 36,35 0,008 Si, hay diferencias entre el control y la glicòlisi y el control y la impedancia
PFKM Si 0,54 0,632 No
PGAM1 Si 0,31 0,752 No
PGAM2 Si 11,14 0,041 Si, hay diferencias entre el control y la impedancia
PGK1 Si 0,36 0,725 No
PKLR Si 0,36 0,722 No
SLC2A2 Si 0,46 0,668 No
GALM Si 0,34 0,736 No

Tabla 5: Resultado ANOVA

11
Para realizar una comparación de medias entre grupos experimentales hacemos una
análisis comparativo grupo a grupo. Para ello, usamos el visor de sintaxis del PSPP.
Para llevarlo a cabo, en el visor de sintaxis podemos copiar el orden que hemos
establecido con anterioridad y copiarlo en una nueva línea. En la nueva línea copiada,
borramos “/statistics=descriptivas homogeneity” y añadimos “/posthoc=tukey”.
Seleccionamos ejecutar  En la siguiente línea se abrirá el visor de resultados con el
resultado del test.

Como tenemos más de dos grupos debemos hacer una comparación dos a dos, además
de la comparación general.

12
Tabla de comparación de medias
Table 6. Average gene expression compared among the control, the glycolysis and the impedance groups. An
ANOVA test was performed to obtain the p-value of the different genes. The * indicates the ones that are significant.

Gene Group Mean Significance


4033.48 ±
Control
637.77
ALDOA 4266.76 ± 0.832
Glycolysis
578.60
Impedance 4517.29 ± 395.30
Control 218.76 ± 6.22
BPGM Glycolysis 210.06 ± 1.53 0.249
Impedance 267.82 ± 35.10
Control 94.68 ± 24.36
ENO1 Glycolysis 62.14 ± 4.17 0.301
Impedance 60.20 ± 0.63
Control 25.89 ± 9.56
G6PC1 Glycolysis 26.40 ± 2.17 0.966
Impedance 23.93 ± 7.07
Control 7510.19 ± 733.32
7244.52 ±
Glycolysis
GAPDH 695.74 0.619
6620.40 ±
Impedance
295.39
Control 332.82 ± 136.45
GPI Glycolysis 294.69 ± 105.54 0.955
Impedance 260.90 ± 230.57
Control 429.94 ± 5.30
HK2 Glycolysis 246.64 ± 31.08 0.008*
Impedance 233.04 ± 1.98
Control 522.11 ± 70.70
PFKM Glycolysis 628.20 ± 40.45 0.632
Impedance 627.18 ± 118.82
Control 3252.85 ± 30.29
PGAM1 Glycolysis 3143.03 ± 130.84 0.752
Impedance 3192.91 ± 104.34
Control 2.21 ± 0.00
PGAM2 0.041*
Glycolysis 1.33 ± 0.32

13
Gene Group Mean Significance
Impedance 1.00 ± 0.00
Control 28.04 ± 3.07
PGK1 Glycolysis 37.81 ± 11.52 0.725
Impedance 30.87 ± 8.32
Control 8.55 ± 1.57
PKLR Glycolysis 12.09 ± 2.75 0.722
Impedance 15.43 ± 9.36
Control 3.05 ± 1.28
SLC2A2 Glycolysis 4.61 ± 1.48 0.668
Impedance 3.63 ± 0.45
Control 64.58 ± 7.73
GALM Glycolysis 65.95 ± 4.49 0.736
Impedance 78.56 ± 21.07

14
Seminario 5: Creación de un gráfico de barras por
comparación de medias

En el caso de querer comparar las medias de tres grupos, crearemos un gráfico en Excel
mediante los datos que obtuvimos del análisis estadístico ANOVA.
Para ello crearemos una tabla con los genes en filas y los valores promedios y desviaciones
estándar de cada grupo en columnas.
Grupo 1 Grupo 2 Grupo 3
Promedio Desv. Est. Promedio Desv. Est. Promedio Desv. Est.
ALDOA 4033,48 901,8 4266,76 818,26 4517,29 559,04
BPGM 218,76 8,8 210,06 2,17 267,82 49,64
ENO1 94,68 34,45 62,14 5,89 60,20 0,89
G6PC1 25,89 13,52 26,4 3,07 23,9 10,01
GAPDH 7510,19 1037,07 7244,52 983,92 6620,40 417,74
GPI 332,85 192,97 249,69 149,25 260,90 326,08
HK2 429,94 7,5 246,64 43,95 233,04 2,8
PFKM 522,11 99,98 628,2 57,21 627,2 168,03
PGAM1 3252,85 42,84 3143,03 185,03 3192,91 147,56
PGAM2 2,21 0 1,33 0,46 1,00 0
PGK1 28,04 4,33 37,81 16,3 30,87 11,77
PKLR 8,55 2,22 12,09 3,9 15,43 13,24
SLC2A2 3,05 1,81 4,61 2,09 3,63 0,63
GALM 64,58 10,93 65,95 6,34 78,56 29,79

Tabla 7: Datos análisis estadístico ANOVA

Para representar el gráfico usamos el gráfico de columna en 2D y clicaremos en


seleccionar datos.

15
Agregaremos los datos especificando como el Nombre de la serie el nombre del
primer grupo (Grupo 1) y como Valores de la serie los valores promedio de este
mismo grupo. Este procedimiento lo repetiremos con el Grupo 2 y el Grupo 3.

Una vez añadidos los datos, se debe editar el eje horizontal añadiendo el nombre de los
genes.

16
Para concluir, le añadiremos varios elementos a nuestro gráfico como los ejes y sus
respectivos títulos, la leyenda, un título al gráfico y las barras de error.
Los asteriscos negros indican que los genes HK2 y PGAM2 si tiene diferencias significativas
según el resultado del estadístico ANOVA.

Figura 1: Gráfico de barras por comparación de medias

17
Seminario 6: Metagenómica y Metaproteómica

¿Por qué usamos los datos obtenidos a partir de la metagenómica para


construir la base de datos de la metaproteómica?

La metagenómica es el estudio continuo del genoma de una muestra y la


metaproteómica estudia las proteínas de una comunidad microbiana.

Las proteínas se estructuran a partir de aminoácidos, y estos a su vez se forman a partir


de codones, es por lo que, si usamos como base los datos la metagenómica podremos
hacer un pronóstico de la metaproteómica de una comunidad microbiana.

18
Seminario 7: Creación de una figura para comparación entre
grupos. Diagrama de Caja o Box Plot

A partir de los datos de expresión de los genes que tenemos, creamos una tabla para
obtener el diagrama de caja.
Los diagramas de caja o Box Plot proporcionan información sobre cómo se distribuyen
los datos. Es un gráfico que suministra información sobre la media, la existencia de
valores atípicos, así como de la simetría de la distribución.

Tabla 8: Datos de expresión

Para crear un Box Plot en Excel elegimos un gráfico de cajas y bigotes.

Seleccionamos los datos y modificamos la entrada de leyenda (serie) hasta completar


los datos para tres genes, ya que tenemos tres grupos diferentes.

19
Una vez seleccionados los grupos, completamos nuestro diagrama añadiéndole
elementos del gráfico como la leyenda y el título de los ejes.

Figura 2: Box Plot de los genes ALDOA, GPI y GAPDH

20
Seminario 8: Creación de tabla de correlaciones

La correlación es un tipo de asociación entre dos variables numéricas, específicamente


evalúa la tendencia (creciente o decreciente) en los datos. Dos variables están asociadas
cuando una variable nos da información acerca de la otra. Se puede representar
mediante una tabla o un gráfico de correlaciones.
Para comparar todos nuestros genes vamos a crear una tabla de correlaciones, después,
compararemos los genes que tengan una correlación elevada mediante una gráfica.
Tanto la tabla como la gráfica las realizaremos en Excel.

Tabla de correlación:
Usamos los datos de la Tabla 9, y aplicamos la herramienta de Excel “Análisis de
Datos”  “Coeficiente de correlación”.
Definimos el rango de entrada seleccionando todas las columnas con los datos de
expresión, agrupándolo en columnas. Para que salga correctamente la tabla y en una
hoja nueva de Excel debemos marcar las casillas “Rótulos en la primera fila y “En una
hoja nueva”.

21
Una vez tengamos los datos en un página nueva los debemos diferenciar en una escala
de colores, para ello clicamos "Inicio" seleccionar todas las columnas con los datos
de correlación  Seleccionar "Formato condicional"  "Escalas de colores"

Debemos elegir los genes que mejor correlacionan, los cuales son los que se aproximan
más a 1 o a -1.

Tabla 6: Tabla de correlación

En nuestro caso los genes que mejor correlacionan son PGAM1 y PGK1 con un valor de
correlación de -0,9906601

22
Gráfico de correlación:
Para hacer el gráfico de correlación debemos ir a la tabla inicial de datos de expresión
de los genes en los diferentes grupos de muestras (Tabla 9), e insertar un gráfico de
dispersión.
Debemos determinar los datos que deben representarse en la gráfica. En nuestro caso
son los datos del gen PGK1 frente los del PGAM1.
Al gráfico resultante le añadimos una línea de tendencia lineal y representamos el valor
de R cuadrado.

Figura 3: Gráfico de correlación de dos genes

Como se puede observar por la R cuadrado, la correlación de los genes es buena.

23
Seminario 9: Metabolómica

¿Qué análisis estadístico se utilizó para determinar si el efecto del GSPE es


dependiente del tiempo?

Para saber si el efecto del GSPE es dependiente del tiempo se usa el análisis estadístico
OPLS-DA. De esta manera se pueden hallar cambios más leves, los cuales son los que
suceden normalmente en las intervenciones nutricionales.

24
Seminario 10: Creación de un Heatmap y dendogramas

Un Heatmap es la visualización de una matriz de datos que nos permite ver nuestros
resultados de una manera global y a simple vista. Los Heatmaps se agrupan en clústers,
de esta manera, se ordenan los genes según su similitud y se ponen juntas las muestras.
Agrupar en clusters mediante un gradiente de colores nos facilita la representación y la
interpretación de los datos, ya que los hace más visuales. Los heatmap no tienen valor
estadístico sirven para interpretar los mejor datos.
Cada celda representa la expresión de un gen para una muestra. Así pues, hay tantas
filas como genes analizados y tantas columnas como muestras tengamos en nuestro
estudio.
Hay dos maneras de clusterizar:
- Clustering Jerárquico
- Clustering K-means

El clustering K-means es un método de agrupamiento que tiene como objetivo la


partición de un conjunto de observaciones en k grupos en el que cada observación
pertenece al grupo más cercano a al promedio.
Se diferencia del clustering jerárquico en que el K-means nos divide las muestras en el
número de clústers que nosotros queramos.
En el clustering jerárquico se combinan los genes o las muestras dos a dos, creando
un clúster con los genes o muestras que tengan más similitud entre sí. Puede suceder que
un gen se asemeje a un clúster, creando un nuevo clúster entre ellos.
Cuando se realiza una agrupación jerárquica suele venir acompañada de un
dendrograma. Los dendrogramas nos indican tanto la similitud de las muestras como
el orden en el que se han creado.
Se sabe si un hay semejanza según la distancia que hay entre ella. Hay cálculos
matemáticos para medir la distancia como la distancia euclidiana y la distancia de
Manhattan. Se escoge el método matemático según la facilidad que te dé para interpretar
el heatmap.
Mediante la distancia determinarnos la disimilitud. Hay tres maneras de comparar
clúster:
1) Comparar un punto con el promedio de cada clúster → Centroid Method
2) Comparar un punto con el más cercano de cada clúster → Single-
Linkage
3) Comparar este punto, con el más lejano de cada clúster → Complete
Linkage

25
Con los datos de la siguiente tabla, podemos generar un heatmap con esta herramienta
(http://www.heatmapper.ca/expression/).

Tabla 7: Datos de expresión para Heatmap

Una vez en el sitio web de esta herramienta debemos subir un Excel con nuestros datos,
especificando el tipo de distancia que queremos y el método de clustering.

Figura 4: Heatmap con distancia euclidiana y con el método de clustering Average Linkage. Como
podemos observar, no se agrupan las muestras.

26
Figura 5: Heatmap con distancia Manhattan y con el método de clustering Average Linkage. Como
podemos observar, no se agrupan las muestras.

27

También podría gustarte