Está en la página 1de 13

UNIVERSIDAD DE COSTA RICA METODOS BIOESTADISTICOS

SISTEMAS DE ESTUDIOS DE POSGRADO II CICLO 2022

II EXAMEN PARCIAL – PARTE ASINCRÓNICA

Estudiante: Luis Diego Ramírez Fallas Carnet: C29921

Instrucciones:
• Resuelva cada uno de los enunciados según corresponda. El examen es de resolución
individual y cuenta con una semana para resolver la prueba.
• Todas las respuestas deben ser desarrolladas en un Script de R y solamente las
secciones que no son de R deben estar acá mostradas (hipótesis, interpretaciones
y otro texto se pueden poner en R como comentario). Cálculos en plataformas TIC
deben ser claramente incorporados en este documento (“pantallazos”). Las
expresiones matemáticas deben estar adecuadamente escritas con formato de
ecuación (En Word: insertar - ecuación). Las gráficas deben tener títulos y nombres
en los ejes según corresponda (si se entiende bien, puede usar los datos que se
generan por defecto). (Puntaje de estilo 3 pts).
• Debe adjuntar en Mediación Virtual: el archivo PDF del examen (entregar también
impreso), un Script de R desarrollado para la prueba y el set de datos usado en la
primera pregunta.
• Para todas las preguntas: Las pruebas de contraste de hipótesis deben ser
formuladas de acuerdo al método científico: Hipótesis, cálculos (software R o
herramienta TIC según corresponda), conclusión de hipótesis (referente al valor p)
e interpretación en contexto.
• El valor total es de 40 pts.

EVALUACION

Pregunta Valor en puntos Puntos obtenidos Comentarios


1-A 7
1-B 10
2 10
3 10
Estilos 3
Opcional 5
Total 40 (+5)

PUNTAJE OBTENIDO: ___________________ NOTA: ________________


PARTE I. PRUEBAS PARAMÉTRICAS Y NO PARAMÉTRICAS PARA VARIABLES
CUANTITATIVAS (17 pts).

EJERCICIO A
Para esta parte debe usar los datos generados en la pregunta 1 del Examen anterior,
referente al analito de escogencia y las 2 categorías asignadas. En caso de que no lo tenga,
debe generar de nuevo el archivo usando las instrucciones del examen 1.
1. Presente acá los datos totales del archivo (tabla o imagen) (1 pt).

WBC Condición Sexo


5007 Normal M
4927 Normal F
5186 Normal M
5134 Normal F
5085 Normal M
5272 Normal F
5084 Normal M
4897 Normal F
5054 Normal M
5227 Normal M
20012 patológico F
19865 patológico F
19636 patológico M
20295 patológico M
19925 patológico F
20181 patológico F
19785 patológico f
19891 patológico M
20198 patológico M
20150 patológico F

2. Usando una herramienta TIC en línea, realice el análisis de prueba T (paramétrica)


para los datos del analito y la categoría 1 (2 pts).

Respuestas en la próxima página


3. Usando una herramienta TIC en línea, realice el análisis de prueba U (no
paramétrica) para los datos del analito y la categoría 1 (2 pts).
4. Usando una herramienta TIC en línea, realice el análisis ANOVA para los datos del
analito y las categorías (2 pts).
EJERCICIO B
Se quiere estudiar el consumo de cervezas por mes de un grupo de individuos en tres
categorías: "Universitario", "Trabajador", "Ni-empleado-ni-estudiante" (1 pt cada
pregunta).
1. En R, registre los datos con los comandos:

frecuencia <- c(11,14,7,15,11,13,11,16,10,15,18,12,9,9,10,10,15,10, 14, 10, 10, 12, 14, 12,


15, 7, 13, 6, 10, 15, 20, 10, 13, 10, 6, 14, 8, 10, 8, 11,13, 10, 12, 7, 5, 10, 10, 16, 9, 7, 7, 2, 6,
9, 9, 8, 8, 10, 3, 6, 5, 2, 9, 3, 4, 5, 10, 8, 5, 9, 10, 8, 13, 10, 0, 2, 1, 1, 0, 4,6, 7, 3, 5, 9, 6, 1, 6,
0, 2, 5, 6, 11, 6, 7, 0, 5, 7, 5, 4, 7, 4, 2, 8, 9, 6, 1, 4, 7, 7, 8, 9, 7, 5, 1, 6, 9, 4, 7, 6)

categoria <- as.factor(c(rep(c("Universitario","Trabajador","Ni-empleado-ni-estudiante"),


each =40)))

2. Genere un boxplot que compare el consumo por cada categoría.


3. Calcule el promedio de consumo por grupo. Repita para la mediana.
4. Realice el análisis usando una prueba paramétrica para determinar si hay
diferencias de consumo entre los grupos.
5. Realice una prueba post-hoc para la comparación grupo a grupo.
6. Verifique el cumplimiento de independencia gráficamente.
7. Verifique el cumplimiento de normalidad con histograma, gráfico Q-Q y prueba
estadística. Interprete.
8. Verifique el cumplimiento de homocedasticidad con gráfico y prueba estadística.
9. Realice el análisis usando una prueba no paramétrica para determinar si hay
diferencias de consumo entre los grupos.
10. Realice una prueba post-hoc para la comparación grupo a grupo.

PARTE II. MODELOS LINEALES GENERALES (10 pts).

En este ejercicio debe realizar un análisis basado en modelos lineales generales usando R.
El set de datos corresponde a la evaluación de la posibilidad de adquirir una infección intra-
hospitalaria de acuerdo con parámetros como estancia (días), edad, y parámetros
relacionados con el tamaño y capacidades del hospital: porcentaje de cultivos bacterianos
que salen positivos, número de facilidades, camas, enfermeros, y número promedio de
exámenes de rayos X.
1. Cargar los datos " Datos-riesgo-infección". Obtenga las estadísticas básica y gráficos
para la totalidad de datos con las funciones: summary, boxplot, pairs, multi.hist,
pairs.panels y corrplot.mixed.
2. Realizar un modelo de regresión lineal simple usando la “Stay” como predictor del
riesgo de infección “InfctRsk”. Muestre las estadísticas de la regresión y determine
si hay o no asociación significativa. Interprete el R2. Defina la ecuación del modelo.
3. Usando las funciones pairs.panels y plot, explore la asociación entre las variables del
modelo lineal.
4. Predecir el valor de la presión si la estancia es de la altura es 1, 10 y 18 días con el
modelo anterior.
5. Realizar un modelo de regresión lineal múltiple usando todos los predictores y el
riesgo de infección. Muestre las estadísticas de la regresión y determine si hay o no
asociación significativa por cada factor. Interprete el R2.
6. Realizar un modelo de regresión lineal múltiple usando únicamente los predictores
significativos del caso anterior y el riesgo de infección. Muestre las estadísticas de la
regresión y determine si hay o no asociación significativa por cada factor. Interprete
el R2.
7. Realizar un modelo de regresión lineal múltiple similar al anterior, pero
incorporando la interacción Estancia*rayosX. Muestre las estadísticas de la
regresión y determine si hay o no asociación significativa por cada factor. Interprete
el R2.
8. Basado en los valores R2 en un cuadro comparativo, seleccione el mejor modelo
múltiple (indique ecuación) e interprete brevemente. Usando el modelo finalmente
seleccionado, explore las posibles correlaciones entre los predictores con las
funciones pairs.panels y corrplot.mixed.

Modelo R2 Variables significativas


Simple con variable “estancia” 0.2781 stay
Múltiple con todos los 0.5249 Stay, culture y xray
predictores
Múltiple reducido 0.455 Stay, culture y xray
Múltiple con interacción 0.4538 Culture

9. Usado una visualización de cuadrícula 2X2, explore los resultados del modelo
seleccionado en función de los supuestos. Concluya si los supuestos se cumplen.
10. Realice el análisis automático de los datos totales usando la herramienta TIC en línea
https://www.statskingdom.com/410multi_linear_regression.html y compare con
los resultados en R.
Interpretación:
La herramienta web nos evidencia que las categorías Stay, Culture, y Xray son significativas
en el modelo realizado, que concuerda con lo realizado anteriormente en el programa
informático R. La diferencia que se aprecia es que la herramienta en línea elige como mejor
modelo el que incluye todas las variables basándose en el R y sin considerar parsimonia.

PARTE III. MODELOS LINEALES GENERALIZADOS (10 pts).


En este ejercicio debe realizar un análisis basado en modelos lineales generalizados usando
R. El set de datos corresponde a una evaluación del efecto de polifenoles en inhibir el
crecimiento bacteriano en cultivo in vitro (0: no crece, 1: crece). Se evalúa la concentración
de bacterias sembradas y la concentración de polifenoles como predictores.
1. Explique brevemente la razón por la que se usa un modelo logístico. Cargar los datos
“Datos-crecimiento-polifenoles” y explore los datos con la función multi.hist.
2. Realice un modelo de regresión logística usando el “Polifenoles” como predictor y
“Crecimiento” como variable dependiente. Interprete los resultados y muestre la
ecuación asociada.
3. Genere una gráfica del modelo de regresión para comparar con los datos
experimentales.
4. Realice un modelo de regresión logística usando el “Bacteria” como predictor y
“Crecimiento” como variable dependiente. Interprete los resultados.
5. Realice un modelo de regresión logística usando los 2 predictores y “Crecimiento”
como variable dependiente.
6. Realice un modelo de regresión logística usando los 2 predictores, incluyendo la
interacción entre ellos, y “fisión” como variable dependiente.
7. Basado en los resultados y valores AIC, seleccione el mejor modelo entre los 4
realizados. Muestre la ecuación. Calcule el radio ODD que corresponde e interprete.
Realice una tabla comparativa similar a la mostrada en los modelos generales.

Modelo de Regresión AIC


Logística
Simple (Predictor: 23.98
Polifenoles)
Simple (Predictor: 84.87
Bacterias)
Múltiple 22.81
Múltiple con Interacción 23.533

8. Evalúe el desempeño del modelo resultante con una matriz de confusión y calcule
la exactitud ofrecida por el modelo seleccionado. Interprete los resultados
anteriores en función de los predictores y el desempeño.
9. Ejercicio a realizar sin uso de R: ¿Cuál es la ecuación que modela el Crecimiento (Y
despejado) y cuál es el valor esperado de crecimiento y categoría final (crece o no
crece) si la concentración es de 20 000? Detalle las expresiones matemáticas.

𝑦𝑦
ln( )=9.72 – 0.016 * Polifenoles
1−𝑦𝑦
𝑒𝑒 9.72−0.016∗𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝
crecimiento (y)=
1−𝑒𝑒 9.72−0.016∗𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝

Si la Concentración es de 20 000, entonces


𝑒𝑒 9.72−0.016∗20000
(y)= 9.72−0.016∗20000
1−𝑒𝑒
(y)=0.
Respuesta: En la concentración de 20 000 fenoles no se presenta crecimiento.
10. Realice el análisis automático de los datos totales usando la herramienta TIC en línea
https://www.statskingdom.com/430logistic_regression.html y compare con los
resultados en R.
Interpretación:
Los resultados presentados mediante la herramienta TIC en línea son congruentes con los
obtenidos utilizando la herramienta R, ambas plataformas coinciden que el predictor
determinante de que haya o no crecimiento es la concentración de polifenoles utilizada.

PREGUNTA OPCIONAL (5 PTS)


Desarrolle manualmente la solución al siguiente ejercicio de ANOVA. Verifique sus resultados con
una herramienta en línea.
Ejercicio: Se han probado tres analizadores hematológicos de diferentes casas comerciales, para
así determinar el tiempo promedio que tardan en el procesamiento de 25 hemogramas. En la tabla
1 se encuentran los tiempos de análisis en minutos de los tres analizadores.

Analizador 1 Analizador 2 Analizador 3


30 27 30
32 29 31
27 28 32
31 32 33
Indique SSbetween, SSwithin, SStotal y el estadístico F calculado y F crítico (muestre el valor usando
tabla). Concluya si la H0 se rechaza o no, así como la interpretación en el contexto.

Resolución de Ejercicio Extra.


H0: Las medias de las variables estudiadas es la misma en los diferentes grupos
H1: Al menos una de las medias de los grupos es diferente

SS
(120)2 (116)2 (126)2
3614- 3378- 3974-
4 4 4

=14 =14 =5

(120)2 (116)2 (126)2 (362)2


SSb: + + = 10933 − = 12.66
4 4 4 12
SSw: 14 + 14 + 5 =33

Grados SS Ms Fcalculado
de
Libertad
SSb (k-1) 2 12.66 6.33 1.73
SSw (n- 12-3=9 33 3.66
k)
Total 11 45.66

Interpretación:
Debido a que el Fcalculado <Fcrítico, No se rechaza la H0, por lo tanto, se
concluye que las medias de las variables estudiadas es la misma en los diferentes
grupos, en el contexto del ejemplo, los 3 analizadores hematológicos tienen el
mismo promedio de tiempo en que tardan en procesar 25 hemogramas

También podría gustarte