Documentos de Académico
Documentos de Profesional
Documentos de Cultura
01
PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ
FACULTAD DE CIENCIAS E INGENIERÍA
DATA MINING
Cuarto laboratorio (tipo B)
(Primer semestre 2023)
Indicaciones generales:
● Duración: 110 min
● Se desarrollará por grupos.
● Podrán utilizar apuntes de clase y bibliografía del curso.
● La presentación, la ortografía y la gramática de los trabajos influirán en la calificación.
1. Realizar una descripción total del dataset, incluyendo, una explicación breve describiendo
el modelo de clasificación (variables independientes y variable dependiente), los tipos de
variables (numéricas, categóricas y metas) y la descripción estadística de cada variable,
indicando datos faltantes, media/moda, rango, desviación estándar y distribución
aparente. Para trabajar los archivos en Excel, incluir la extensión TXT en los archivos
descargados y utilizar la opción “From Text/CSV” bajo la pestaña “Data”. (5,0 puntos)
2. Después de haber llevado a cabo la parte 1. y haber hecho la migración a Orange, realizar
de forma independiente (de forma separada un solo flujo por punto) cada una de las
siguientes actividades de preprocesamiento.
I. Imputación de datos.
II. Normalización de datos.
III. Discretización de datos.
IV. Vectorización de datos.
V. Oversampling.
VI. Undersampling.
VII. Detección y tratamiento de datos atípicos (outliers).
VIII. Reducción dimensional (con PCA y con el widget: Rank)
IX. Ingeniería de variables (analizando la dependencia entre variables independientes)
Realizar una breve descripción (incluyendo los objetivos) de cómo llevar a cabo cada una
de estas actividades garantizando resultados válidos. (9,0 puntos)
3. Desarrollar tres modelos diferentes de preprocesamiento (utilizando diferentes
combinaciones de actividades de preprocesamiento) y explicar la metodología y el
razonamiento utilizado para su construcción. La metodología debería ser capaz de
responder a lo siguiente:
I. ¿Cuál o cuáles son los criterios utilizados para seleccionar las actividades de
preprocesamiento y su ordenamiento en el flujo de los tres modelos?
II. ¿Cuáles son las ventajas y desventajas de cada una de las metodologías
planteadas, en la construcción de los flujos de los tres modelos?
Página 1 de 3
Los resultados de los tres flujos desarrollados deben poder compararse entre sí. ¿Cuál
de los tres modelos tuvo el mejor resultado? Comentar y discutir (6,0 puntos)
Nota:
I. Para el desarrollo de este informe escrito se deberá tener en cuenta aspectos de
formato, estilo, citaciones y demás aspectos de forma contemplados en el “Instructivo
para la Elaboración de Documentos Académicos” ubicado en PAIDEIA.
II. Tomar en cuenta que, para evidenciar la realización de algunos de los puntos, se
tendrá que utilizar capturas de pantalla (bien recortadas) que muestren el debido
cumplimiento de la actividad y ser agregados de forma oportuna al informe.
III. Tener en cuenta que para la entrega del informe deberá haber, al menos, tres (03)
archivos:
a. Archivo en Word con el informe grupal (en formato .docx).
b. Archivo en Excel con los resultados obtenidos (en formato .xlsx o .csv)
c. Archivo en Orange del modelo creado (en formato. ows)
d. Archivo en Python (en formato .py)
Página 2 de 3
Lima, 5 de mayo de 2023
Página 3 de 3