Está en la página 1de 3

FCI-Adm-4.

01
PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ
FACULTAD DE CIENCIAS E INGENIERÍA

DATA MINING
Cuarto laboratorio (tipo B)
(Primer semestre 2023)

Indicaciones generales:
● Duración: 110 min
● Se desarrollará por grupos.
● Podrán utilizar apuntes de clase y bibliografía del curso.
● La presentación, la ortografía y la gramática de los trabajos influirán en la calificación.

Puntaje total: 20 puntos

CUESTIONARIO SOBRE EL DATASET

El grupo debe redactar un informe académico relacionado al dataset ubicado en la siguiente


dirección web: https://archive.ics.uci.edu/ml/datasets/Cylinder+Bands cuyo cuestionario se
presenta a continuación. Para ello deberá emplear lo aprendido en la sesión 04 y la sesión 05
del curso. Si bien los puntos pueden ser formulados como preguntas, la organización del texto
debe ser fluida y contestar a las preguntas de manera directa, clara y razonable. En la
presentación es válido (y recomendable) el uso de ejemplos, esquemas, figuras, flujogramas,
y herramientas gráficas que permitan mejorar la comprensión de conceptos.

1. Realizar una descripción total del dataset, incluyendo, una explicación breve describiendo
el modelo de clasificación (variables independientes y variable dependiente), los tipos de
variables (numéricas, categóricas y metas) y la descripción estadística de cada variable,
indicando datos faltantes, media/moda, rango, desviación estándar y distribución
aparente. Para trabajar los archivos en Excel, incluir la extensión TXT en los archivos
descargados y utilizar la opción “From Text/CSV” bajo la pestaña “Data”. (5,0 puntos)
2. Después de haber llevado a cabo la parte 1. y haber hecho la migración a Orange, realizar
de forma independiente (de forma separada un solo flujo por punto) cada una de las
siguientes actividades de preprocesamiento.
I. Imputación de datos.
II. Normalización de datos.
III. Discretización de datos.
IV. Vectorización de datos.
V. Oversampling.
VI. Undersampling.
VII. Detección y tratamiento de datos atípicos (outliers).
VIII. Reducción dimensional (con PCA y con el widget: Rank)
IX. Ingeniería de variables (analizando la dependencia entre variables independientes)
Realizar una breve descripción (incluyendo los objetivos) de cómo llevar a cabo cada una
de estas actividades garantizando resultados válidos. (9,0 puntos)
3. Desarrollar tres modelos diferentes de preprocesamiento (utilizando diferentes
combinaciones de actividades de preprocesamiento) y explicar la metodología y el
razonamiento utilizado para su construcción. La metodología debería ser capaz de
responder a lo siguiente:
I. ¿Cuál o cuáles son los criterios utilizados para seleccionar las actividades de
preprocesamiento y su ordenamiento en el flujo de los tres modelos?
II. ¿Cuáles son las ventajas y desventajas de cada una de las metodologías
planteadas, en la construcción de los flujos de los tres modelos?

Página 1 de 3
Los resultados de los tres flujos desarrollados deben poder compararse entre sí. ¿Cuál
de los tres modelos tuvo el mejor resultado? Comentar y discutir (6,0 puntos)

Nota:
I. Para el desarrollo de este informe escrito se deberá tener en cuenta aspectos de
formato, estilo, citaciones y demás aspectos de forma contemplados en el “Instructivo
para la Elaboración de Documentos Académicos” ubicado en PAIDEIA.
II. Tomar en cuenta que, para evidenciar la realización de algunos de los puntos, se
tendrá que utilizar capturas de pantalla (bien recortadas) que muestren el debido
cumplimiento de la actividad y ser agregados de forma oportuna al informe.
III. Tener en cuenta que para la entrega del informe deberá haber, al menos, tres (03)
archivos:
a. Archivo en Word con el informe grupal (en formato .docx).
b. Archivo en Excel con los resultados obtenidos (en formato .xlsx o .csv)
c. Archivo en Orange del modelo creado (en formato. ows)
d. Archivo en Python (en formato .py)

Profesor del curso:


Luciano Silva Alarco

Página 2 de 3
Lima, 5 de mayo de 2023

Página 3 de 3

También podría gustarte