Está en la página 1de 4

MÁSTER UNIVERSITARIO EN BIOINFORMÁTICA Y BIOESTADÍSTICA

SOFTWARE PARA EL ANÁLISIS DE DATOS (SAD)

PEC 2

Objetivos El objetivo de la PEC2 es validar los conocimientos del análisis


de los resultados de probabilidad y simulación utilizando R, así
como otros relacionados con la regresión lineal y múltiple,
ANOVA y tratamientos de clustering.

Fecha y hora Del 2 de mayo al 23 de mayo de 2023

Formato de La PEC2 ha de estar realizada en Rmarkdown y se ha de entregar


entrega de la el documento en el formato pdf, html o docx generado a partir del
PEC2 archivo .rmd.
Es necesario que este documento contenga el código, el resultado
de la ejecución de dicho código y las
valoraciones/interpretaciones que se requieran en cada ejercicio.

Entrega REC (Registro de evaluación continua) del aula.

Contenidos Esta PEC2 comprende los contenidos teóricos y prácticos


trabajados en el LAB4 y LAB5:

1. Distribuciones de probabilidad y simulación de Montecarlo.


2. Inferencia estadística con R.
3. Machine learning con R.
Sección 1. Distribuciones de probabilidad y simulación (4 puntos)

1. (1 punto) A partir del conjunto de datos "women" del paquete MASS, guardad
en un vector los pesos de las mujeres cuyo peso está entre 60 y 70 kg. Calculad
la media del vector y las posiciones asociadas a los valores incluidos en el nuevo
vector creado (los índices del conjunto de datos "women" que contienen pesos
entre 60 y 70 kg).
2. (3 puntos) En este ejercicio, compararemos modelos para estimar los casos de
una enfermedad contagiosa mediante simulación. Modelaremos el número de
casos en un mes en una región que está subdividida en tres subregiones: A, B y
C. En la región A viven 101523 personas, en la región B 203591 personas y en
la región C 105921 personas. Para que todos obtengamos los mismos resultados,
usad el comando set.seed(2023) antes de hacer las simulaciones.
a. (1.25 puntos) Suponed que el número de casos en una subregión en un
mes se modela con distribuciones independientes Poisson(0.1*número de
habitantes). Simulad el número de casos por subregión 100000 veces.
Una vez hagáis las simulaciones por subregión, graficadlas. Luego,
estimad los percentiles 25%, 50% y 75% del número de casos por
subregión y el total de casos en la región. Comentad los resultados.
b. (1.25 puntos) Ahora suponed que el número de casos en una subregión
en un mes se modela con distribuciones independientes
Binomial(número de habitantes, 0.1). Simulad el número de casos por
subregión 100000 veces. Una vez hagáis las simulaciones por subregión,
graficadlas. Luego, estimad los percentiles 25%, 50% y 75% del número
de casos por subregión y el total de casos en la región. Comentad los
resultados.
c. (0.5 puntos) Comparad los resultados de las partes a. y b ¿Qué modelo os
parece más adecuado, sobre todo si los tamaños de las poblaciones son
pequeños y la enfermedad es muy contagiosa?
Sección 2. Machine learning con R (4,5 puntos)

Tal y como habéis trabajado en los ejercicios del LAB5, a continuación se pide realizar
un breve análisis de datos utilizando algunas técnicas de machine learning.

2.1. (2,5 puntos) Este estudio se procederá a partir del conjunto de datos “anorexia” del
paquete MASS.

a Analiza la estructura del conjunto de datos y realiza un ajuste de datos, si fuera


el caso (eliminar nulos, cambiar tipos de variables,..).
b Crea gráficos bivariantes para todos los pares de variables: Treat y Prewt, Treat
y Postwt, Prewt y Postwt.
c Calcula la correlación entre las variables numéricas y crea una representación
gráfica que enseñe las tres variables a la vez.
d Realiza diversos estudios univariantes de regresión lineal entre pares de
variables que, según lo visto en el apartado b, puedan estar relacionadas.

e En base a los datos de anteriores apartados, realiza un estudio de regresión


múltiple. Explica en qué casos sería conveniente realizar un estudio de regresión
múltiple.

2.2. (2 puntos) En este ejercicio, trabajaréis con el conjunto de datos “UScereal” del
paquete MASS.

a) Ajustad un modelo ANOVA cuya variable de respuesta sean las calorías por
ración y la variable explicativa la marca de cereales. Comprobad si los supuestos
del modelo se cumplen y comentad los resultados del summary del objeto
ANOVA.
b) Seleccionad solamente las variables numéricas y haced un análisis clúster de
tipo k-means con k = 3 grupos. Comparad los grupos (mirando las medias de las
variables por clúster) e interpretadlos.
Sección 3. Investigación de herramientas de R (1,5 puntos)

3. (1,5 puntos) R contiene múltiples herramientas, paquetes, repositorios que son de


utilidad según el tipo de estudio a realizar. En este ejercicio os pedimos que investiguéis
uno de ellos y expliquéis un ejemplo de su uso o aplicación en el ámbito de la
bioinformática o bioestadística.

Os sugerimos a continuación algunos, de los cuáles sólo tenéis que elegir uno o bien
proponer alguno que no esté en la siguiente lista y justificar por qué es interesante
realizar su estudio:

a. Shiny es un framework para el desarrollo de aplicaciones web en R, de manera


que se puedan convertir los análisis a aplicaciones web interactivas. Localizad
una aplicación (https://shiny.rstudio.com/gallery/) que pueda tener un uso
potencial en bioinformática/bioestadística.
b. R representa información en mapas utilizando el paquete ggmap. Localizad una
aplicación (https://www.rdocumentation.org/packages/ggmap/versions/2.6.2 )
que pueda tener un uso potencial en bioinformática/bioestadística.
c. ¿Cuáles son los paquetes principales que un científico de datos debe conocer de
R? ¿Cuál es la finalidad principal de cada uno de estos paquetes?
d. Repositorio Bioconductor, ¿qué aplicaciones puede tener a la
bioinformática/bioestadística?
e. Aplicación web scrapping con R, ¿en qué casos puede aplicarse a la
bioinformática/bioestadística?

También podría gustarte