Está en la página 1de 3

FCI-Adm-4.

01

PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ


FACULTAD DE CIENCIAS E INGENIERÍA

DATA MINING
Examen 1
(2020-1)

Indicaciones generales:
• Duración: 120 minutos.
• La presentación, ortografía y gramática influirán en la calificación.
• Puntaje debido al cuestionario: 20 puntos.

Indicaciones:
• Está permitido utilizar MS Excel, MS Word, Orange (el programa de data mining),
lenguajes de programación como R y Python, DBMS como MSSQL Server, Internet y la
plataforma PAIDEIA para bajar y subir los archivos relacionados a la evaluación.
• El tiempo máximo para desarrollar esta evaluación es de 120 minutos (uso de Orange y
redacción de su informe) pero contará con 12 horas (desde las 08:00 hasta las 20:00)
para asegurar que pueda ordenar, nombrar y subir sus archivos a la plataforma PAIDEIA.
• Pasado el tiempo de la evaluación (duración en punto) se cerrará la actividad en PAIDEIA.
Los archivos no podrán ser subidos pasado el tiempo máximo permitido, y el envío de
archivos por correo estará prohibido (no serán calificados). No olvidar que NO PODRÁ
DEJAR LOS ARCHIVOS EN BORRADOR.
• Deberá subir el archivo con el contenido de su informe en MS Word, en el formato:
E1_CÓDIGO_APELLIDO1_APELLIDO2_NOMBRE1.docx.
• Deberá subir los archivos XLSX (Excel), OWS (Orange), etc., empleados para desarrollar
su informe, utilizando la nomenclatura mostrada en el punto anterior.
• El uso de herramientas compresoras como RAR y ZIP es opcional y de utilizarse, deberán
cumplir con la nomenclatura detallada anteriormente.

PREGUNTA 1 (20 puntos)


Usted ha sido contratado por un banco alemán y después de haber demostrado sus
conocimientos en minería de datos, uno de los directores decide brindarles el acceso a datos
históricos (estructurados) con la información que se presenta en el archivo adjunto
“Metadatos German.pdf”.
Se pide desarrollar un informe en MS Word que contenga el desarrollo y los hallazgos de las
siguientes acciones:

1.01 Realizar el proceso de ETL con los datos provistos y tipificar los atributos del dataset
en la categoría que correspondan. (1,0 punto)
1.02 Cargar el archivo “preparado” a Orange y comentar sobre la información más relevante
sobre los datos del dataset en esta primera etapa, como datos faltantes, número de
instancias, número de atributos y cualquier elemento estructural que considere
pertinente. (1,0 punto)
1.03 Analizar los datos de forma inicial y realizar un esquema general (estrategia) de todos
los procesos relacionados al preprocesamiento de datos a la cual le llamará: estrategia
1 - a priori. Deberá fundamentar (con razones, con gráficos y/o estadísticamente) las
razones por la cuales ha optado por ese camino de manera detallada. (2,0 puntos)

Los puntos 1.04 al 1.08 pueden realizarse en el orden planteado en su estrategia


explicando a modo de proceso (entrada – operación – salida) lo que ha realizado y los
resultados obtenidos. Si considera no conveniente o irrelevante realizar alguno de estos

Página 1 de 3
preprocesos tendrá que explicarlo y argumentarlo debidamente. Recuerde que deberá
ser claro en explicar el camino que va construyendo sus datos.

1.04 Realizar el preproceso de normalización/estandarización. (1,0 punto)


1.05 Realizar el preproceso de imputación de datos. (1,0 punto)
1.06 Realizar el preproceso de detección y manejo de outliers. (1,0 punto)
1.07 Realizar el preproceso de reducción dimensional. (1,0 punto)
1.08 Realizar el preproceso de discretización y/o continuación. (1,0 punto)

Después del preprocesamiento deberá de:

1.09 Realizar manipulación de datos. Este punto puede estar distribuido entre los puntos
anteriores (y posteriores). Lo que se evaluará es el uso de los widgets de Orange para
ir acomodando los datos entre un preproceso y el siguiente o entre una estrategia y otra
como se verá más adelante (es válido también realizar este acomodamiento en Excel o
en cualquier otro programa siempre y cuando lo explique debidamente en su informe)
(1,0 punto)
1.10 Realizar el análisis de su modelo y/o preprocesos (y/o procesos) con el uso de
herramientas gráficas utilizando dos técnicas (o tipos de gráficos distintos) al menos
en cuatro oportunidades. Este punto se evaluará del mismo modo (mismos criterios)
que el punto anterior (1.09) (2,0 puntos)
1.11 Realizar el entrenamiento y evaluación de datos utilizando el o los algoritmos de su
predilección y comentar sobre el método de entrenamiento empleado y sobre sus
resultados. (2,0 punto)
1.12 Analizando los resultados de la matriz de confusión y el modelo creado por medio de la
estrategia 1 - a priori, usted observa varios espacios de mejora (o de repente que ya
mejoró). Describir detalladamente cada uno de ellos (al menos 4 distintivos), explicando
la lógica que subyace su argumento, a partir tanto de sus conocimientos teóricos de
data mining y las técnicas de preprocesamiento, como a partir de lo observado
(empíricamente) en Orange al cual llamara de forma colectiva: estrategia 2 - a
posteriori. Utilice la matriz de confusión para validar si efectivamente la estrategia 2
tuvo un efecto positivo sobre el modelo (4,0 puntos).
1.13 Utilizar el archivo llamado solo_predictoras.data para realizar la clasificación de la
variable dependiente para TODAS las instancias que en el archivo se presentan
utilizando la estrategia 2 o la estrategia 1 según lo que usted considere más
conveniente. No olvidar subir a PAIDEIA los resultados finales a través de un archivo
con extensión XLSX (con la estructura similar a la competencia Kaggle). (2,0 punto).

Consideraciones importantes:

I. El uso del archivo german.data-numeric que es mencionado en el archivo de los


metadatos es de uso opcional; sin embargo, el uso adecuado de estos datos
(arreglárselas para cumplir con el punto 1.13) podría significar un puntaje adicional,
como BONUS. El archivo german.data es el de uso obligatorio.
II. Si bien las extensiones de los archivos de entramiento tienen las extensiones .data y
.data-numeric, su estructura es plana, es decir del tipo texto separados por TAB.
III. Todos los puntos deben ser desarrollados exhaustivamente en su informe, explicando
de forma clara, directa y rigurosa cada uno de los pasos realizados, justificando las
elecciones tomadas o criterios evaluados y documentando en todo momento los
hallazgos y resultados obtenidos.
IV. El uso de herramientas gráficas (punto 1.10) y la manipulación de datos (punto
1.09) puede realizarse para cada uno de los puntos y formar parte de todo el proceso
de modelamiento y análisis, validando y perfeccionando las decisiones que se tomen.
V. La evaluación y corrección del Examen 1 (parcial) se realizará ÚNICA Y
ENTERAMENTE RESPECTO AL CONTENIDO DEL INFORME Y NO SOBRE EL

Página 2 de 3
ARCHIVO DE ORANGE. Si bien los archivos (en Excel, Orange, etc.) tienen que
obligatoriamente ser subidos a la plataforma PAIDEIA, estos solo se utilizarán como
medios de acreditación de lo presentado en el informe. En ese sentido, todos los
modelos, tablas, figuras, gráficos, etc. deberán estar plasmados en el informe. Tanto
la presentación como la redacción, organización y orden afectarán considerablemente
la calificación. Utilizar la estructura de informe que considere mejor pueda explicar su
contenido y resaltar siempre lo más relevante.
VI. Cualquier decisión que crear conveniente tomar debido a algún supuesto que desee
realizar será perfectamente reconocido siempre y cuando no vaya en contra de la
lógica descrita en cualquiera de los puntos a desarrollar en el examen, así como
tampoco contradiga supuestos conceptuales del curso que usted debería
saber/dominar. De realizar algún: supuesto, asunción, consideración, restricción,
reducción o adición, tendrá que explicarlo detalladamente en su informe. Ejemplo:
“Para realizar el entrenamiento del modelo de aprendizaje supervisado, se utilizará el
método de “cross-validation” estratificado con un número de pruebas igual a veinte
(20)”.
VII. Es posible y válido que para el diseño de sus estrategias 1 y 2 utilice métodos y
técnicas que ya ha utilizado anteriormente (preferiblemente con éxito) tanto para la
TA1 como para la TA2.
VIII. Se creará un foro estrictamente para preguntas de carácter técnico o de interpretación
y no se atenderán a preguntas relacionadas a aspectos propios del curso que en
esencia el alumno debería saber.
IX. ESTÁ TERMINANTEMENTE PROHIBIDO COMPARTIR ARCHIVOS, cuyos
metadatos serán revisados durante la calificación. De haber metadatos iguales en
cualquier par o número superior de archivos, todos los implicados obtendrá la nota
cero (0). Por favor, no incurrir en esta falta ya que es considerada como plagio.

Profesor del curso:


Luciano Silva Alarco
San Miguel, 03 de junio de 2020

Página 3 de 3

También podría gustarte