Caso Datatón para prevenir la tercera ola: 20 y 21 de agosto del 2021
La presidencia de consejo de ministros ha desarrollado una Datatón para
prevenir la tercera ola. Una de las tareas que les gustaría automatizar es el diagnostico de sospechas de síntomas. Se tiene la data con respecto a los distintos síntomas y en la columna “Flag_sospechoso” señalado si es sospechoso de tener covid o no es sospechoso. Las columnas son las siguientes: id_persona: consecutivo fecha_Contacto: Fecha de contacto de la persona a traves del 113 Flag_sospechoso: Flag: 1 (Sospechoso covid), 0 (No Sospechoso covid) fecha_sintomas: Fecha de inicio de sintomas tos: Flag: 1 (Persona con sintoma tos), 0 (Persona sin sintoma tos) cefalea: Flag: 1 (Persona con sintoma cefalea), 0 (Persona sin sintoma cefalea) congestion_nasal: Flag: 1 (Persona con sintoma congestion nasal), 0 (Persona sin sintoma congestion nasal) dificultad_respiratoria: Flag: 1 (Persona con sintoma dificultad respiratoria), 0 (Persona sin sintoma dificultad respiratoria) dolor_garganta: Flag: 1 (Persona con sintoma dolor garganta), 0 (Persona sin sintoma dolor garganta) fiebre: Flag: 1 (Persona con sintoma fiebre), 0 (Persona sin sintoma fiebre) diarrea: Flag: 1 (Persona con sintoma diarrea), 0 (Persona sin sintoma diarrea) nauseas: Flag: 1 (Persona con sintoma nauseas), 0 (Persona sin sintoma nauseas) anosmia_hiposmia: Flag: 1 (Persona con sintoma anosmia hiposmia), 0 (Persona sin sintoma anosmia hiposmia) dolor_abdominal: Flag: 1 (Persona con sintoma dolor abdominal), 0 (Persona sin sintoma dolor abdominal) dolor_articulaciones: Flag: 1 (Persona con sintoma dolor articulaciones), 0 (Persona sin sintoma dolor articulaciones) dolor_muscular: Flag: 1 (Persona con sintoma dolor muscular), 0 (Persona sin sintoma dolor muscular) dolor_pecho: Flag: 1 (Persona con sintoma dolor pecho), 0 (Persona sin sintoma dolor pecho) otros_sintomas: Flag: 1 (Persona con otros sintomas), 0 (Persona sin otros sintomas) id_ubigeo_f00: ID del ubigeo de la persona. Responder las siguientes preguntas: Link dataset: https://www.datosabiertos.gob.pe/dataset/sospechoso-de-covid-19 a) Crear el dataset “TB_F00_SICOVID” b) Seleccionar las siguientes columnas: Flag_sospechoso, tos, cefalea, congestion_nasal, dificultad_respiratoria, dolor_garganta, fiebre, diarrea,nauseas,anosmia_hiposmia,dolor_abdominal,dolor_articulac iones,dolor_muscular,dolor_pecho,otros_sintomas c) Volver categóricas a las siguientes variables: Flag_sospechoso, tos, cefalea,congestion_nasal,dificultad_respiratoria,dolor_garganta,fieb re,diarrea,nauseas,anosmia_hiposmia,dolor_abdominal,dolor_articul aciones,dolor_muscular,dolor_pecho,otros_sintomas d) Remover las filas con datos nulos (Cleaning mode: Remove entire row) e) Editar la metadata (Edit Metadata), para que la columna “Flag sospechoso” se vuelva label. f) Partir la data en una proporción 80% para entrenamiento y 20% para prueba g) Implementar el “Two-Class Boosted Decision Tree” h) Entrenar el modelo con la variable objetivo: “Flag sospechoso” i) Implementar el score del modelo j) Implementar la evaluación del modelo k) ¿Qué valor tiene el AUC? ¿Es un buen modelo? Explicar. l) ¿Cómo se interpreta los falsos negativos? ¿Cuántos casos se presentaron? m)Si tuviera que tomar decisión sobre mejorar algún indicador, ¿cuál sería? ¿Porqué? n) ¿Entre un Threshold de 0.5 y 0.2 cuál considera mejor y por qué? o) En este contexto ¿La existencia de más casos falsos negativos es mejor que falsos positivos? Justifique en el contexto del caso. p) Elija un indicador y mejórelo. Indique los pasos que utilizó y con qué valor final quedó. ¿Al mejorar algún otro empeoró?
Link dataset: https://www.datosabiertos.gob.pe/dataset/sospechoso-de-covid-19