Documentos de Académico
Documentos de Profesional
Documentos de Cultura
PEC 2
1. (1 punto) A partir del conjunto de datos "women" del paquete MASS, guardad
en un vector los pesos de las mujeres cuyo peso está entre 60 y 70 kg. Calculad
la media del vector y las posiciones asociadas a los valores incluidos en el nuevo
vector creado (los índices del conjunto de datos "women" que contienen pesos
entre 60 y 70 kg).
2. (3 puntos) En este ejercicio, compararemos modelos para estimar los casos de
una enfermedad contagiosa mediante simulación. Modelaremos el número de
casos en un mes en una región que está subdividida en tres subregiones: A, B y
C. En la región A viven 101523 personas, en la región B 203591 personas y en
la región C 105921 personas. Para que todos obtengamos los mismos resultados,
usad el comando set.seed(2023) antes de hacer las simulaciones.
a. (1.25 puntos) Suponed que el número de casos en una subregión en un
mes se modela con distribuciones independientes Poisson(0.1*número de
habitantes). Simulad el número de casos por subregión 100000 veces.
Una vez hagáis las simulaciones por subregión, graficadlas. Luego,
estimad los percentiles 25%, 50% y 75% del número de casos por
subregión y el total de casos en la región. Comentad los resultados.
b. (1.25 puntos) Ahora suponed que el número de casos en una subregión
en un mes se modela con distribuciones independientes
Binomial(número de habitantes, 0.1). Simulad el número de casos por
subregión 100000 veces. Una vez hagáis las simulaciones por subregión,
graficadlas. Luego, estimad los percentiles 25%, 50% y 75% del número
de casos por subregión y el total de casos en la región. Comentad los
resultados.
c. (0.5 puntos) Comparad los resultados de las partes a. y b ¿Qué modelo os
parece más adecuado, sobre todo si los tamaños de las poblaciones son
pequeños y la enfermedad es muy contagiosa?
Sección 2. Machine learning con R (4,5 puntos)
Tal y como habéis trabajado en los ejercicios del LAB5, a continuación se pide realizar
un breve análisis de datos utilizando algunas técnicas de machine learning.
2.1. (2,5 puntos) Este estudio se procederá a partir del conjunto de datos “anorexia” del
paquete MASS.
2.2. (2 puntos) En este ejercicio, trabajaréis con el conjunto de datos “UScereal” del
paquete MASS.
a) Ajustad un modelo ANOVA cuya variable de respuesta sean las calorías por
ración y la variable explicativa la marca de cereales. Comprobad si los supuestos
del modelo se cumplen y comentad los resultados del summary del objeto
ANOVA.
b) Seleccionad solamente las variables numéricas y haced un análisis clúster de
tipo k-means con k = 3 grupos. Comparad los grupos (mirando las medias de las
variables por clúster) e interpretadlos.
Sección 3. Investigación de herramientas de R (1,5 puntos)
Os sugerimos a continuación algunos, de los cuáles sólo tenéis que elegir uno o bien
proponer alguno que no esté en la siguiente lista y justificar por qué es interesante
realizar su estudio: