Está en la página 1de 2

FCI-Adm-4.

01
PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ
FACULTAD DE CIENCIAS E INGENIERÍA

DATA MINING
Séptimo laboratorio (tipo B)
(Primer semestre 2023)

Indicaciones generales:
● Duración: 110 min
● Se desarrollará por grupos.
● Podrán utilizar apuntes de clase y bibliografía del curso.
● La presentación, la ortografía y la gramática de los trabajos influirán en la calificación.

Puntaje total: 20 puntos

CUESTIONARIO SOBRE EL TRABAJO GRUPAL

El grupo debe redactar un informe académico relacionado al dataset utilizado en el trabajo


grupal del curso. Para realizar el informe de este laboratorio, el grupo deberá emplear lo
aprendido en las sesiones anteriores y en particular en las sesiones 07, 08 y 09 del curso. La
organización del texto debe ser fluida y contestar a las preguntas de manera directa, clara y
razonable. En la presentación es válido (y recomendable) el uso de ejemplos, esquemas,
figuras, flujogramas, así como, herramientas gráficas que permitan mejorar la comprensión
de conceptos, modelamientos y resultados.

Parte I

Del total de registros, se deberán crear dos datasets; los de entrenamiento y los de prueba
en una ratio de 37:17 respectivamente. La selección de los registros pertenecientes al
dataset de prueba debe de realizarse de forma aleatoria, pero garantizando que la variable
objetivo se encuentre debidamente estratificada. Tomar en cuenta que esto deberá
realizarse sin realizar actividad alguna de preprocesamiento. (2,0 puntos)

Parte II

Utilizar la Parte I para construir 3 modelos en Orange utilizando para cada uno los
algoritmos: Naïve-Bayes, KNN y Regresión Logística. Tener en cuenta que se deberá
utilizar la opción “Test on test data” en el widget: “Test and Score” de Orange para evaluar
el modelo y así garantizar que los algoritmos creen el modelo basado únicamente en el
dataset de entrenamiento y que la evaluación se realice en el dataset de prueba. Se pide
convertir la variable objetivo en una variable binaria (en caso de que por defecto no sea
así) y evaluar los resultados utilizando una matriz de confusión y la curva ROC (incluyendo
el uso de la opción de Analysis). En esta parte se pide no realizar cambios a los parámetros
de los algoritmos ni incluir actividades de preprocesamiento. Comentar los resultados
obtenidos. (7,0 puntos)

Parte III

Utilizar la Parte II del modelamiento y realizar cambios a los parámetros de los algoritmos
para obtener mejores resultados. Explicar con un esquema la metodología que se utilizó

Página 1 de 2
en cada uno de los modelos y cuál fue la métrica seleccionada como indicador a evaluar.
Comentar cuáles fueron las mejoras obtenidas respecto a la Parte II. (5,0 puntos)

Parte III

Realizar lo mismo que en la Parte III, pero esta vez incluyendo actividades de
preprocesamiento. Explicar detalladamente la metodología realizada para buscar mejorar
el rendimiento del indicador de evaluación escogido y comentar sobre los resultados
obtenidos. Para finalizar, incluir una conclusión final sobre las actividades realizadas en
este laboratorio. (6,0 puntos)

Nota:
I. Para el desarrollo de este informe escrito se deberá tener en cuenta aspectos de
formato, estilo, citaciones y demás aspectos de forma contemplados en el “Instructivo
para la Elaboración de Documentos Académicos” ubicado en PAIDEIA.
II. Tomar en cuenta que, para evidenciar la realización de algunos de los puntos, se
tendrá que utilizar capturas de pantalla (bien recortadas) que muestren el debido
cumplimiento de la actividad y ser agregados de forma oportuna al informe.
III. Tener en cuenta que para la entrega del informe deberán considerarse, al menos, dos
(02) archivos:
a. Archivo en MS Word con el informe grupal (en formato: docx).
b. Archivo en Orange del modelo creado (en formato: ows).
c. Archivo en Python (en formato .py)

Profesor del curso:


Luciano Silva Alarco

Lima, 9 de junio de 2023

Página 2 de 2

También podría gustarte