Está en la página 1de 25

Prácticas

Técnicas ómicas para el análisis masivo de datos

Paula Henarejos Escudero


Grado en Biotecnología
Índice de contenidos

PRÁCTICA1: El proyecto BioMart (Ensembl).................................1


Actividad 1. Descripción de BioMart................................................................................................................................
Actividad 2. Filtros y atributos de BioMart.......................................................................................................................
Actividad 3. BioMart: trabajar con listas..........................................................................................................................
Actividad 4. BioMart : trabajar con múltiples regiones de genes....................................................................................
Actividad 5. Variantes con BioMart..................................................................................................................................

PRÁCTICA 2: COSMIC (https://cancer.sanger.ac.uk/cosmic).......4


Actividad 1. Descripción de COSMIC (Sanger)................................................................................................................
Actividad 2. Secciones de COSMIC...................................................................................................................................

PRÁCTICA 3: COSMIC: Cancer Browser........................................5


Actividad 1. Descripción...................................................................................................................................................
Actividad 2: Cáncer de pulmón de células no pequeñas o no microcítico........................................................................
Actividad 3: Vaya a la herramienta Cancer Browser de COSMIC...................................................................................

PRÁCTICA 4: UCSC XENA...............................................................7


Actividad 1: Nuestro objetivo es crear una hoja de cálculo visual y comprender la relación entre las columnas de
datos. 7
Actividad 2: Interpretación biológica...............................................................................................................................
Actividad 3: Pon en práctica lo aprendido........................................................................................................................
Actividad 4: Nuestro objetivo es filtrar solo las muestras que nos interesan...................................................................
Actividad 5: Nuestro objetivo es crear subgrupos............................................................................................................
Actividad 6: Cómo ejecutar un análisis de supervivencia de Kaplan Meier..................................................................10
Actividad 7: Pon en práctica lo aprendido......................................................................................................................10
Actividad 8: Crear un diagrama de caja usando la vista de gráficos y estadísticas......................................................10
Actividad 9: Pon en práctica lo aprendido......................................................................................................................12
Actividad 10. Aprende a ver cromosomas completos y conjuntos de datos avanzados, como la expresión de exones.
13
Actividad 11: Pon en práctica lo aprendido....................................................................................................................15
Actividad 12: Investigaremos los subtipos moleculares PAM50 en el cáncer de mama................................................15
Actividad 13. Tumor vs Normal......................................................................................................................................18
Actividad 14. Pon en práctica lo aprendido....................................................................................................................19

ANEXO.............................................................................................20
PRÁCTICA1: El proyecto BioMart (Ensembl)
Actividad 1. Descripción de BioMart

Escriba unas lineas describiendo en que consiste BioMart

Actividad 2. Filtros y atributos de BioMart

Acceso a la información desde BioMart: el locus de la beta globina.

(1) Vaya a http://www.ensembl.org y siga el enlace a BioMart.

(2) Primero elija una base de datos; seleccionaremos Ensembl Genes


110. ¿Qué otras bases de datos encuentra? ¿Qué información te permite
recuperar cada una de ellas?

(3) Elija un conjunto de datos Genes de Homo sapiens (GRCh38.p14).


Tenga en cuenta los otros conjuntos de datos disponibles.

(4) Elija un filtro. Aquí las opciones incluyen región, gen, evento de
transcripción, expresión, comparaciones de múltiples especies, dominios
de proteínas y variación. Seleccione "región", cromosoma 11 e ingrese
5240000 para el inicio del gen (pares de bases) y 5300000 para el
extremo del gen. (Nótese que esta región abarca 60 kilobases)

(5) Elija atributos. Seleccione las siguientes entidades. En "Gene",


seleccione el contenido de Ensembl Gene ID y contenido del %GC; en
"External" seleccione las referencias externas símbolo HGNC (este es el
símbolo oficial del gen) y la ID(s) HGNC. Si aparece que hay demasiados
atributos y no puede obtener los resultados borre el contenido del %GC.

(6) En la parte superior izquierda, seleccione "Count". Actualmente


¿Cuánto genes hay que cumplan estos criterios?

(7) Para ver estos resultados, seleccione "Results". Tenga en cuenta que
puede exportar sus resultados en varios formatos (incluidos valores
separados por comas o archivo CSV) que se pueden manipular aún más.

(8) Abra el archivo en Excel para ver los resultados y anótelos aquí.

Actividad 3. BioMart: trabajar con listas.

El objetivo de este ejercicio es acceder a la información de BioMart cargando


una lista de los genes de interés.
(1) Siga los pasos del problema anterior, pero para el conjunto de filtros,
elija Gen (en lugar de Región), seleccione y ajuste el menú
desplegable a símbolo HGNC
(2) Busque los símbolos oficiales de HGNC para 3 genes de globina
humana (CYGB, MB, HBB).
(3) Dele a “Count” y anote cuantos genes aparecen con ese filtro.
(4) Vaya a la sección de atributos, en la sección de external, señale
HGNC symbol, RefSeq peptide ID.
(5) Dele a Results. Tenga en cuenta a la hora de visionar los resultados
que de forma automática solo le saldrán 10 filas. Esto lo puede
modificar.
(6) Puede pinchar sobre la casilla Unique results only, por si aparecen
transcritos repetidos

Actividad 4. BioMart : trabajar con múltiples regiones de genes

(7) Siga los pasos del problema anterior, pero para el conjunto de filtros,
elija región, multiple regions, siga la nomenclatura de la aplicación:
chr5:87,267,883-87,391,916
chr3:141,487,027-141,615,344
chr13:113,977,783-114,132,623

(8) En filtros, ahora vaya a gene y señale los que codifican proteínas.
Gene_Gene type_protein coding.
(9) Ahora vaya a Atributes y seleccione sequences y cDNA. Pulse
Results.

Actividad 5. Variantes con BioMart.

(10) Desde BioMart vaya en Dataset a Ensembl Variation, y ponga


Human Short Variant.
(11) En filtros, en general variants filters, marque Filter by Variant
name :
Use estos :

rs1563885473
rs1404245817
rs190538376
rs1563885484
rs929343241
rs929343241
rs549291513
rs1363743201
rs1325008282
rs1800001
rs1800002
rs1800003
rs1800004
rs1801161
rs6633107
rs7523538
rs73028893
rs9803659
rs10918682

(12) En atributos voy a marcar Gene name y Gene stable ID,


deseleccione los demás.
(13) Ahora voy a hacer otro Dataset (pincha en el segundo Dataset,
donde no tendrá nada seleccionado, panel de la izquierda), marco el
genoma humano. En atributos de su segundo Dataset, deseleccione
Gene name y Gene stable ID, solo deje transcript stable ID y en
«External» marco HGNC symbol e HGNC ID. En el panel de
resultados deben aparecer los atributos de ambas configuraciones.
Haga una captura de los resultados.
(14) Deseleccione todos los atributos excepto variant name del primer
Dataset y HGNC symbol del segundo Dataset. En resultados, en
vista, pinche en ALL. Pinche en resultados únicos. Haz una captura
de pantalla
(15) Puede pinchar en los hipervículos para obtener información acerca
de esos genes. Escriba y describa cada uno de los genes que están
relacionados con esas variantes
Técnicas ómicas para el análisis masivo de datos

PRÁCTICA 2: COSMIC
(https://cancer.sanger.ac.uk/cosmic)
Actividad 1. Descripción de COSMIC (Sanger)

Escriba unas líneas describiendo en que consiste esta web y responda a la


pregunta ¿Qué es COSMIC? ¿Cuántos proyectos encontramos?

Actividad 2. Secciones de COSMIC

Escriba en el buscador el gen ABL1


(1) Haga zoom en el histograma en las posiciones donde se hayan
detectado más mutaciones. ¿En qué posición se encuentra un mayor
número de sustituciones? ¿Cuál es la mutación más frecuente en esa
posición?, ¿cuántas se han contabilizado?
(2) ¿A nivel de que biomolécula tenemos estos datos? ¿Qué dominios
proteicos encontramos en este gen?
(3) En overview podrá encontrar en que cromosoma se encuentra este
gen, sus coordenadas y cuantas pb tiene de extensión. Anótelo aqui.
(4) ¿Qué codifia este gen?
(5) ¿En cuantas y en que fusiones está involucrado este gen?
(6) En Hallmark gene (Señales de identidad del gen), tenemos
información muy relevante. Acceda a este enlace. ¿Qué tipo de gen
es ABL-1?
(7) En Hallmark gene, encontraremos una representación gráfica de
aquello que el gen promueve o suprime. Si le da a switch view,
obtendrá una tabla con esta información. ¿ Que mecanismos
promueve y cuales suprime?
(8) Vea que censo tiene este gen. ¿A que «Tier» pertenece? ¿Qué
significan esos Tier?
(9) Vaya a la estructura 3-D de la proteína que codifica este gen. En rojo
encontrará la mutación más frecuente.
(10) En la sección de resistencia a medicamentos “Resistance drugs” se
muestra los medicamentos asociados con las mutaciones de
resistencia al gen. Seleccione el medicamento Imanitib y vea que
genes presentan resistencia. ¿Cuál es el que presenta un mayor

6
Técnicas ómicas para el análisis masivo de datos

porcentaje de frecuencia de resistencia? ¿Qué porcentaje observa?


¿Cuál es el segundo gen que presenta un mayor porcentaje?
(11) ¿Qué encontramos en la tabla de distribución de tejidos? ¿Cuál es el
tejido con un mayor porcentaje de mutaciones?
(12) En el navegador genómico podemos hacer zoom en el gen de
interés y marcar que nos enseñe también los datos que hay en
Ensembl. Haga una captura con esta información y péguela aquí.
Explore que hay otras categorías que nos podrían interesar.
(13) Vaya a la sección distribución de las mutaciones. El primer gráfico
de esta sección muestra un resumen de los tipos de mutación de
este gen que se han observado en diferentes muestras. La tabla
muestra el número de muestras registradas con un tipo particular de
mutación, y el número entre paréntesis indica el porcentaje de
muestras con ese tipo de mutación. ¿Cuál es la mutación más
común en este gen?
(14) En cuanto a las sustituciones, ¿Cuál es la más común? ¿Que tipo
es?
(15) En la sección de la tabla de variantes puede observar todas las
variantes descubiertas. Realice la búsqueda de la mutación en la
proteína que codifica este gen donde se ha cambiado una alanina en
la posición 75 por una treonina. ¿Qué tipo de mutación provoca?
¿Esa mutación donde se produjo en el ADN, que tipo de mutación
es?
(16) Pincha en dicha mutación e indica en que tejidos se ha encontrado.
¿En qué tipos de cáncer se encuentran?

PRÁCTICA 3: COSMIC: Cancer Browser


Vamos a utilizar la herramienta Cancer Browser de COSMIC. Acceda a ella

Actividad 1. Descripción

Escriba unas líneas acerca de esta herramienta.

7
Técnicas ómicas para el análisis masivo de datos

Actividad 2: Cáncer de pulmón de células no pequeñas o no


microcítico.

Busque información acerca de este cáncer y responda estas preguntas. ¿Cómo


de común es este cáncer dentro de los cánceres de pulmón? Indique el
porcentaje. ¿Qué subtipos encontramos? ¿Se produce un diagnóstico antes de
que se produzca la metástasis?

Actividad 3: Vaya a la herramienta Cancer Browser de COSMIC.

Seleccione el tejido para este tipo de cáncer, en la comuna de la izquierda


aparecerá una lista de los cánceres primarias (Lung). En la selección del subtipo
vamos a seleccionar todos. En cuanto a la selección histológica vamos a
seleccionar carcinoma y en sub-histología: Non small cell carcinoma.

(17) ¿Qué indica el histograma que vemos con barras de colores azules y
rojas?
(18) ¿Cuál es el top 3 de genes mutados en este cáncer? ¿Que
porcentajes encontramos en cada uno de estos genes?
(19) Vamos a comenzar estudiando el tercer gen más mutado. Pinche en
él. A continuación, le parecerá un histograma de las mutaciones que
encontramos en el gen. Encuentra mutaciones a lo largo de todo el
gen o solo en una zona concreta. ¿Cree que esto está relacionado
con el tipo de gen del que se trata? ¿Qué tipo de gen es?
(20) En los filtros de la izquierda (abajo) puede hacer búsquedas según la
mutación que quiera estudiar. Selecciona: confirmed somatic y
patogenic mutation. Aplique los filtros. En qué posición de
aminoacídica encontramos la mutación que se ha descrito más veces.
¿Cuántas veces se ha contado? ¿Qué mutación es?
(21) Vamos ahora «atras » con el gen más mutado de este cáncer. Pinche
en él. Vea el perfil del histograma que aparece. ¿Qué tipo de gen es
este? ¿Cúantas mutaciones recurrentes aparecen?
(22) Diga cual es el impacto de estas mutaciones en la actividad del gen Si
va a Hallmark puede ver el impacto de estas mutaciones en la
actividad de este gen.
(23) Ve al segundo gen más mutado en este cáncer. ¿Qué histograma
encuentras?. ¿De qué tipo de gen se trata? ¿Qué impacto tienen las
mutaciones en este gen?

8
Técnicas ómicas para el análisis masivo de datos

9
Técnicas ómicas para el análisis masivo de datos

PRÁCTICA 4: UCSC XENA


Actividad 1: Nuestro objetivo es crear una hoja de cálculo visual
y comprender la relación entre las columnas de datos.

(1) Escribe "GDC TCGA Lung Adenocarcinoma (LUAD)", seleccione este


estudio en el menú desplegable y haga clic en " A la primera variable".
(2) Escriba 'EGFR', seleccione las casillas de verificación para Expresión
genética, Número de copia y Mutación somática, y haga clic en 'A la
segunda variable'
(3) Las muestras están en el eje “Y” y sus columnas de datos están en el eje
“X”. Alineamos columnas para que cada fila sea la misma muestra, lo que te
permite ver fácilmente las tendencias en los datos. Los datos siempre se
ordenan de izquierda a derecha y, posteriormente, se subordenan en
columnas.

Actividad 2: Interpretación biológica

(4) Podemos ver que las muestras de pacientes TCGA (The Cancer Genoma
Atlas) que tienen una _____expresión de EGFR (rojo, columna B) tienden a
tener _________ de EGFR (rojo, columna C) o ___________ en EGFR
(marcas azules, columna D).
(5) Ahora moveremos las columnas para cambiar el orden de clasificación y
cambiar el tamaño de las columnas. Ampliaremos toda la Hoja de Cálculo
Visual y también dentro de una columna.
(6) Mover columnas. Haga clic en la columna C, variación del número de copias
y arrástrela hacia la izquierda para que se convierta en la primera columna
después de la columna de muestras (es decir, la columna B). Tenga en
cuenta que las muestras ahora están ordenadas por los valores de esta
columna. Haga una captura de pantalla y péguela aquí.

(7) Ahora vamos a ver cómo podemos modificar esta pantalla:


 Cambiar el tamaño de las columnas. Haga clic en el controlador en la
esquina inferior derecha de la columna D, mutación. Muévalo hacia la
derecha para agrandar la columna.

10
Técnicas ómicas para el análisis masivo de datos

 Ampliar una columna. Haga clic y arrastre dentro de la columna D.


Suelte para hacer zoom.
 Alejar una columna. Haga clic en el texto rojo para alejar en la parte
superior de la columna D.
 Ampliar las muestras. Haga clic y arrastre verticalmente en cualquier
columna de la hoja de cálculo visual para ampliar estas muestras.
 Alejar las muestras. Para alejar, haga clic en 'Zoom out' o 'Clear
zoom' en la parte superior de la hoja de cálculo visual.

Actividad 3: Pon en práctica lo aprendido

(8) Cree una hoja de cálculo visual que observe la expresión y mutación del
gen TP53 en muestras de pacientes del estudio GDC TCGA Lower Grade
Glioma. Haga una captura de pantalla y péguela aquí.
(9) Cambie la hoja de cálculo visual de la pregunta anterior para que las
muestras del paciente se clasifiquen por mutaciones en lugar de por
expresión genética. Haga una captura de pantalla y péguela aquí

Actividad 4: Nuestro objetivo es filtrar solo las muestras que nos


interesan.

En la actividad anterior descubrimos que las muestras de pacientes que tienen


aberraciones en EGFR tienen una expresión relativamente mayor. Estas
aberraciones podrían ser mutaciones o amplificaciones del número de copias.

(10)Ahora vamos a ver si aquellos pacientes con aberraciones en sus muestras


también tienen peor pronóstico de supervivencia. Por lo que, el objetivo es
eliminar de la vista las muestras de pacientes sin datos (es decir, nulas).
Esto hará que la vista se vea más limpia y eliminará muestras irrelevantes
de nuestro análisis de supervivencia de Kaplan Meier.
Si no lo tiene de esta manera, ordénalo como en la imagen siguiente:

11
Técnicas ómicas para el análisis masivo de datos

(11) Escriba "null" en la barra de búsqueda de muestras. Esto resaltará las


muestras que tengan valores "nulos" en cualquier columna de la pantalla.
Null significa que no hay datos para esa muestra para esa columna.
(12)Haz clic en el menú de filtro y seleccione "Remove samples".
(13)Eliminar el término en la barra de búsqueda. Haga una captura de pantalla.
(14)Atajo. En lugar de escribir "null" y eliminar esas muestras de la vista,
también puede utilizar el acceso directo "Eliminar muestras con valores
nulos" en el menú de filtro.

Actividad 5: Nuestro objetivo es crear subgrupos.

(15)Vamos a crear dos subgrupos, aquellos pacientes con muestras con


aberraciones en EGFR y aquellas muestras de pacientes sin aberraciones
en EGFR. Luego nombraremos los subgrupos.
(16)Escriba ' (mis OR infra) OR C:>0.5' en la barra de búsqueda de muestras.
Esto seleccionará muestras que tengan un sentido erróneo o una
eliminación dentro del marco '(mis OR infra)', o donde la variación del
número de copias (columna C) sea mayor que 0,5. Tenga en cuenta que
elijo arbitrariamente un límite de 0,5
(17)Haz clic en el menú de filtro y seleccione 'New subgrup column'. Esto
creará una nueva columna que tendrá muestras que cumplieron con nuestro
término de búsqueda marcadas como "verdaderas" (es decir, aquellas que
tienen una aberración EGFR) y aquellas que no cumplieron con nuestro
término de búsqueda como "falsas" (es decir, aquellas que no tienen una
aberración EGFR).
(18)Haz clic en el menú de la columna que acabamos de crear (columna B) y
elija 'Mostrar'.
(19)Cambia el nombre de la pantalla para que las muestras que son
"verdaderas" se etiqueten como "Aberraciones EGFR" y las muestras que
son "falsas" se etiqueten como "Sin aberraciones EGFR". Haga clic en
'Done'

12
Técnicas ómicas para el análisis masivo de datos

(20)Eliminar el término de búsqueda. Esto eliminará las marcas negras de las


muestras coincidentes.Haz una captura de pantalla.

Actividad 6: Cómo ejecutar un análisis de supervivencia de


Kaplan Meier

Ahora que tenemos nuestros subgrupos, realizaremos un análisis de


supervivencia de Kaplan Meier. Tenga en cuenta que los datos de
supervivencia de TCGA están en días, por lo que el eje x estará en días.
(21)Haz clic en el menú de la columna en la parte superior de la columna B.
(22)Elije 'Kaplan Meier Plot'.
(23)En el apartado de «Custom survival time cutoff » ingresa 3650, ya que son
10 años. Haz una captura de pantalla

Actividad 7: Pon en práctica lo aprendido

(24)Comenzando en el punto 14 (al final de la actividad 4), filtre solo aquellas


muestras de pacientes que tengan una mutación con cambio de sentido
(missense). ¿En cuantas muestras encontramos este tipo de mutación?
(25)Comenzando en el punto 14 (al final de la actividad 4), cree dos subgrupos:
las muestras de pacientes con expresión de EGFR superior a 17 y aquellas
con expresión de EGFR inferior a 17.
(26)Comenzando en el punto 14 (al final de la actividad 4), ejecute un análisis
de Kaplan Meier en la columna de expresión de EGFR. ¿Cuándo es más
probable sobrevivir al cabo de 10 años?

13
Técnicas ómicas para el análisis masivo de datos

Actividad 8: Crear un diagrama de caja usando la vista de


gráficos y estadísticas

(27)Ahora vamos a utilizar los subgrupos creados en la sección anterior para


ver si existe una diferencia estadística en la expresión genética entre los
dos subgrupos. También veremos si las muestras de pacientes masculinos
o femeninos tienen más aberraciones. Partimos de la siguiente pantalla.

Si lo recordamos, anteriormente descubrimos que las muestras de


pacientes que tienen aberraciones en EGFR tienen una mayor expresión
genética.
(28)Ahora vamos a investigar si esta diferencia en la expresión genética es
estadísticamente significativa. Para ello siga los siguientes pasos:
1- Haga clic en el icono de gráfico en la esquina superior derecha para
ingresar a la Vista de gráfico.
2- Haga clic en 'Comparar subgrupos', ya que queremos comparar el grupo
de muestras que tienen aberraciones en EGFR con el grupo de
muestras que no las tienen.
3- Haga clic en el menú desplegable para "Show data from" y elija
"columna C: EGFR - expresión genética RNAseq - HTSeq - FPKM-UQ".
4- Haga clic en el menú desplegable para 'Subgrup samples by’ y elija
'columna B: (mis OR infra) O C:>0.5 - Subgrup'.

14
Técnicas ómicas para el análisis masivo de datos

5- Haga clic en "Done".

(29)Haz una captura de pantalla y pégala aquí.


(30)¿Qué test estadístico se ha usado? ¿Que tipo de test es?
(31)Ahora investigaremos cómo se comparan las aberraciones de EGFR entre
muestras de hombres y mujeres. ¿Las aberraciones de EGFR son más
comunes en muestras de mujeres o de hombres?. Para responder a la
pregunta siga los siguientes pasos:
1- Haga clic en la 'x' en la esquina superior derecha para salir de la Vista
de gráfico.
2- Pase el cursor entre las columnas B y C hasta que se haga visible
"Haga clic para insertar una columna". Haz click en eso.
3- Elija "Fenotípico", haga clic en la barra de búsqueda y elija "Advance".
4- Escriba "gender" en la barra de búsqueda, seleccione
"gender.demographic" en el menú desplegable y haga clic en "Listo".
5- Haga clic en el menú de la columna en la parte superior de la columna
C y seleccione "Gráficos y estadísticas". Tenga en cuenta que esta es
sólo otra forma de ingresar a la Vista de gráfico.
6- Haga clic en 'Comparar subgrupos', ya que queremos comparar el
grupo de muestras que tienen aberraciones en EGFR con el grupo de
muestras que no las tienen.
7- La 'columna C: género.demográfico' ya debería estar seleccionada
para 'Mostrar datos de'. Si no, selecciónelo.
8- La 'columna B: (mis OR infra) O C:>0.5 - Subgrupo' ya debería estar
seleccionada para 'Subgrupo de muestras por'. Si no, selecciónelo.
9- Haga clic en "Listo"
(32) ¿Cuántas muestras de hombres no tenían la aberración (n)?

15
Técnicas ómicas para el análisis masivo de datos

Actividad 9: Pon en práctica lo aprendido

(33) Comenzando en el ejercicio 29, cree un gráfico de violín que compare la


variación del número de copias entre las muestras del paciente que tienen
aberraciones de EGFR y las que no.

(34)Comenzando al final del punto 31, agregue los datos del fenotipo
'age_at_initial_pathologic_diagnosis' al gráfico. En cuanto a la edad a la que
se hace el diagnóstico inicial ¿Cuál es la mediana en el caso de las mujeres
y de los hombres?

Actividad 10. Aprende a ver cromosomas completos y conjuntos


de datos avanzados, como la expresión de exones.

Analizaremos la fusión del gen ERG-TMPRSS2 en pacientes del estudio TCGA


Prostate Cancer.
ERG es un oncogén que se expresa en niveles bajos en el tejido prostático
normal. Las muestras de cáncer de próstata de algunos pacientes tienen una
mayor expresión de ERG . Estas muestras tienden a tener una deleción
intracromosómica que fusiona ERG con TMPRSS2. TMPRSS2 se expresa en
niveles elevados en el tejido prostático normal. Esto permite a ERG utilizar el
promotor TMPRSS2 para aumentar la expresión de ERG.

16
Técnicas ómicas para el análisis masivo de datos

Comience en la página de inicio de la aplicación de Xena


1- Escriba 'TCGA Cáncer de próstata (PRAD)', seleccione este estudio en
el menú desplegable y haga clic en 'A la primera variable'.
2- Escriba ' ERG ', seleccione la casilla de verificación para Expresión
genética y haga clic en 'A la segunda variable'.
3- Escriba ' ERG ', haga clic en 'Mostrar avanzado', seleccione la casilla de
verificación 'IlluminaHiSeq' en 'exón expresión RNAseq' y haga clic en
'Listo'.
4- Haga clic en el texto "Haga clic para insertar una columna" después de
la columna C. Escriba "chr21", seleccione la casilla de verificación para
Copy number y haga clic en "Listo".
5- Haga clic en el menú de filtro y seleccione 'Eliminar muestras con
valores nulos'
6- Haga clic en el asa en la esquina inferior derecha de la columna D, copie
el número del cromosoma 21. Muévalo hacia la derecha para agrandar
la columna.
7- Haga clic y arrastre dentro de la columna D, seleccione y amplie la
región del cromosoma 21 donde vea la eliminación intracromosómica.

17
Técnicas ómicas para el análisis masivo de datos

(35)Haga una captura de pantalla de sus resultados, péguela aquí y responda


a las siguientes preguntas :
(36)La expresión alta en el gen ERG que se aprecia (columna B). ¿Es uniforme
en todos los exones? ¿Dónde se encuentra?
(37)Las muestras tienen una deleción intracromosómica en el cromosoma 21.
Si pasamos el cursor sobre los genes en cualquiera de los extremos de la
deleción, ¿dentro de que genes podemos ver que los puntos iniciales y
finales de rotura?

Actividad 11: Pon en práctica lo aprendido

(38)Agregue datos del número de copias para el cromosoma 1. Haga una


captura de pantalla
(39)Agregue datos de metilación de ADN para ERG. Haga una captura de
pantalla

Actividad 12: Investigaremos los subtipos moleculares PAM50 en


el cáncer de mama.

La prueba de firma genómica para el pronóstico de cáncer de mama Prosigna


(anteriormente denominada “análisis PAM50”), es una prueba genómica mediante
la cual se analiza la actividad de ciertos genes en el cáncer de mama positivo
para receptores de hormonas, en estadio temprano.

PAM50 es una firma de 50 genes que clasifica el cáncer de mama en cinco


subtipos moleculares intrínsecos: luminal A, luminal B, enriquecido en HER2,
similar al basal y similar al normal.
Link al estudio: https://ascopubs.org/doi/full/10.1200/JCO.2008.18.1370

18
Técnicas ómicas para el análisis masivo de datos

Haremos una hoja de cálculo visual donde podremos explorar la relación, los
subtipos y los 50 genes que componen PAM50.

(40)Para ello seguiremos los siguientes pasos:


1- Comience en la página de inicio de Xena
2- Escriba "TCGA Breast Cancer (BRCA)", seleccione este estudio en el
menú desplegable y haga clic en "A la primera variable".
3- Elija 'Fenotípico', seleccione 'tipo_muestra' en el menú desplegable y
haga clic en 'A la segunda variable'.
4- Elija "Fenotípico", haga clic en "avanzado", escriba "pam" en la barra de
búsqueda, seleccione "PAM50Call_RNAseq" en el menú desplegable y
haga clic en "Listo". Esto saldrá del asistente.
5- Haga clic en 'Haga clic para insertar una columna' después de la
columna C. Copie y pegue los 50 genes, elija 'Expresión genética' y
haga clic en 'Listo'.
 Lista de 50 genes utilizados para calcular la llamada del subtipo PAM50:
UBE2T BIRC5 NUF2 CDC6 CCNB1 TYMS MYBL2 CEP55 MELK
NDC80 RRM2 UBE2C CENPF PTTG1 EXO1 ORC6L ANLN CCNE1
CDC20 MKI67 KIF2C ACTR3B MYC EGFR KRT5 PHGDH CDH3 MIA
KRT17 FOXC1 SFRP1 KRT14 ESR1 SLC39A6 BAG1 MAPT PGR C
XXC5 MLPH BCL2 MDM2 NAT1 FOXA1 BLVRA MMP11 GPR160
FGFR4 GRB7 TMEM45B ERBB2

6- Haga clic en el controlador en la esquina inferior derecha de la columna


D. Muévalo hacia la derecha para agrandar la columna. Haga una
captura.
7- Haga clic en el icono de selección (pick samples, parece un
cuentagotas) al lado del menú de filtro para ingresar al modo de
selección de muestras.

19
Técnicas ómicas para el análisis masivo de datos

8- Haga clic en las muestras de primary tumors.


9- Haga clic en el menú de filtro y seleccione "Conservar muestras".
10-Salga del modo de selección de muestras haciendo clic nuevamente en
el icono del selector.
11-Haga clic en el menú de filtro y seleccione "Eliminar muestras con
valores nulos". Haga una captura.

Ahora veremos la firma del gen TFAC30 y veremos cómo se relaciona con
las clasificaciones del subtipo PAM50. Esta firma de expresión genética de
más de 30 genes predice la respuesta patológica completa (pCR) a la
quimioterapia preoperatoria semanal con paclitaxel y fluorouracilo-
doxorrubicina-ciclofosfamida (T/FAC).

Firma de expresión del gen TFAC30:


=E2F3 + MELK + RRM2 + BTG3 - CTNND2 - GAMT - METRN - ERBB4 -
ZNF552 - CA12 - KDM4B - NKAIN1 - SCUBE2 - KIAA1467 - MAPT -
FLJ10916 - BECN1 - RAMP1 - GFRA1 - IGFBP4 - FGFR1OP - MDM2 -
KIF3A - AMFR - MED13L -BBS4

(41)Siga los siguientes pasos :


1- Haga clic en 'Haga clic para insertar una columna' después de la columna
D.
2- Copie y pegue la firma, a continuación, elija 'Expresión genética' y haga clic
en 'Listo'.
*Tenga en cuenta que debe incluir el '=" ya que esto le dice a Xena que desea
la firma en lugar de ver todos los genes individualmente

(42)Las muestras etiquetadas como Her2 y Basal ¿tendrán mas o menos


probabilidad de lograr una pCR a la quimioterapea TFAC ?.

20
Técnicas ómicas para el análisis masivo de datos

(43)A continuación realizaremos un análisis de expresión diferencial


comparando muestras basales con muestras de Luminal A y Luminal B.
Pasos a seguir:

1- Haga clic en el menú de columnas para PAM50Call_RNAseq (columna


C) y elija 'Expresión diferencial'. Esto abrirá una nueva pestaña donde
ejecutaremos el análisis.
2- Elija que el primer subgrupo sea 'Basal' y el segundo subgrupo sea
'LumA' y 'LumB'. Mantenga presionada la tecla Mayús mientras hace
clic para seleccionar varios grupos.
3- Haga clic en 'Enviar'. Tenga en cuenta que el análisis puede tardar un
poco en ejecutarse. Espere hasta que diga "Éxito" en la parte superior
4- Haga una captura al gráfico “Volcano plot for Basal vs. LumA_LumB”.
Mas abajo tiene tablas donde aparece información acerca de los
mecanismos en los que están involucrados estos genes

Actividad 13. Tumor vs Normal.

Aprenda a comparar muestras tumorales con muestras normales utilizando el


estudio TCGA TARGET GTEx
(44)Compararemos la expresión del gen MYC entre muestras de pacientes con
tumores de adenocarcinoma de colon TCGA y tejido de colon normal de
individuos en GTEx. Nuestro objetivo es crear una hoja de cálculo visual
con las columnas "sitio primario", "sitio de muestra", "estudio" y expresión
genética de MYC para el estudio TCGA TARGET GTEx. Luego filtraremos
muestras en el colon. Para ello seguiremos los siguientes pasos:
1- Comience en la página de inicio http://xena.ucsc.edu/ y haga clic
en 'Iniciar Xena'.

21
Técnicas ómicas para el análisis masivo de datos

2- Escriba 'TCGA TARGET GTEx', seleccione este estudio en el


menú desplegable y haga clic en 'A la primera variable'.
3- Escriba ' MYC ', seleccione la casilla de verificación para
Expresión genética y haga clic en 'A la segunda variable'.
4- Elija "Fenotípico" y seleccione las casillas de verificación para
"tipo de muestra", "estudio" y "sitio principal", y haga clic en
"Listo".
5- Escriba "colon" en la barra de búsqueda de muestras y elija
"Conservar muestras". Haga una captura de pantalla y responda a
esta pregunta: ¿Las muestras normales tienden a tener una
mayor o una menor expresión del gen MYC ?
(45)A continuación, nuestro objetivo es ver si la diferencia en la expresión
genética, del gen MYC, es estadísticamente significativa. Para ello siga los
siguientes pasos:
1- Haga clic en el menú de la columna B (expresión del gen MYC) y
elija "Gráficos y estadísticas".
2- Haga clic en 'Comparar subgrupos', haga clic en el menú
desplegable para 'Mostrar datos de' y elija 'columna B: MYC -
expresión genética RNAseq - RSEM norm_count' si aún no está
seleccionada
3- Haga clic en el menú desplegable para 'Subagrupar muestras por' y
elija 'columna C: Tipo de muestra'.
4- Deje el tipo de gráfico como "diagrama de caja" y haga clic en
"Listo". Haga una captura de pantalla.

(46)Ahora podemos ver que las muestras de tumores del paciente, tanto
___________,_______________,como metastásicas, tienen una expresión
___ ______ en comparación con el tejido normal, tanto en el caso del tejido

22
Técnicas ómicas para el análisis masivo de datos

normal compatible del paciente de TCGA, como el tejido normal de


individuo de GTEx (sano).

Actividad 14. Pon en práctica lo aprendido

(47)Comparar la expresión del gen EGFR entre las muestras tumorales del
paciente y el tejido pulmonar normal del individuo. Haga una captura y
responda a la siguiente pregunta :
(48)¿Se diferencias las muestras de los pacientes y la de las personas sanas,
en relación con la expresión de EGFR?

23
Técnicas ómicas para el análisis masivo de datos

ANEXO
En genética, una mutación con cambio de sentido (del inglés missense
mutation), es un tipo de mutación puntual no sinónima en la cual se
produce un cambio en un único nucleótido, provocando la aparición de un
codón que codifica para un aminoácido diferente, mientras que las
mutaciones que causan el cambio de un aminoácido por un codón de

24
Técnicas ómicas para el análisis masivo de datos

terminación son consideradas mutaciones sinsentido, del inglés


nonsense.

25

También podría gustarte