Está en la página 1de 5

IIN-3007 Analítica de Datos

PROYECTO FINAL

El objetivo de este proyecto es que los estudiantes apliquen los conceptos/algoritmos


aprendidos en clase a una competencia/challenge de su interés en Kaggle. Se espera que la base de
datos que se utilice para la competencia sea considerablemente grande ó que el problema que se
quiera resolver sea complejo. Adicionalmente, se espera que se haga un análisis apropiado de los
datos, donde se comparen varios algoritmos/modelos (al menos 5). Se debe utilizar Python para el
proyecto. Puede trabajar individualmente, o en un grupo de máximo 3 personas. Existen 2
entregables para este proyecto, como se detallan a continuación.

1. Propuesta del Proyecto


La propuesta del proyecto debe tener un máximo de 500 palabras e incluirá lo siguiente:
• Nombre de los integrantes del grupo
• Descripción de la competencia de Kaggle que seleccionó y los objetivos del mismo.
• Descripción de la base de datos (incluir el tamaño).
• Describir al menos 3 algoritmos que utilizarán y porque los escogió.

Una vez aprobado el proyecto por el profesor, deberá unirse a la correspondiente competencia
haciendo click en “Join Competition” y creando un equipo.

2. Proyecto Final y Presentación


El proyecto requerirá (pero no está limitado a) las siguientes actividades:
2.1 Realizar un Exploratory Data Analysis de la base de datos: Referirse al Proyecto 1
2.2 Visualización de Datos: Visualice las principales variables y sus correlaciones.
2.3 Aplique al menos 5 algoritmos en la base de datos, justificando su uso.
2.4 Compare y seleccione el mejor algoritmo utilizando una métrica apropiada. Justifique la
métrica utilizada. Realice una sola submission al challenge, utilizando los resultados del
mejor modelo.
2.5 Analice los resultados obtenidos.

El reporte del proyecto final debe tener un máximo de 9 páginas sin anexos y debe contener las
siguientes partes:
a. Carátula según los lineamientos del syllabus
b. Memo ejecutivo (1 página): Resumen del problema, descripción de la base de datos
utilizada, método aplicado y resultados en el challenge.
c. Estudio técnico (8 páginas). En este se presentan los puntos más importantes del análisis
(sea conciso y puntual):
• Introducción y contextualización del proyecto/competencia.
• Resuma el preprocesamiento realizado, EDA y presente las visualizaciones más
importantes.
• Mencione y justifique los algoritmos y los hiperparámetros seleccionados (los
detalles de los algoritmos no deben ser explicados).
• Resuma, en modo de tabla, los resultados de los algoritmos. Explique la selección
del mejor algoritmo.
• Presente el puntaje obtenido con el mejor algoritmo (incluir como anexos la captura
de pantalla con su lugar en el leaderboard).
• Analice los resultados obtenidos y limitaciones.
• Conclusiones y Recomendaciones.
• Referencias

Asegurarse que todos las figuras, tablas y anexos estén titulados de tal manera que puedan ser
fácilmente entendibles. Esto es, no tener “Anexo A” como título y luego un montón de números
listados en una tabla. Cada figura, tabla y anexo debe estar referido en el reporte o no hay razón
para que se incluya.

Finalmente, se realizará una presentación final en la hora de clase que durará un máximo de 15
minutos.

Entregables del proyecto final


• Se deben subir todos los archivos con el código utilizado en Jupyter Notebook, el Reporte
Final en PDF (La carátula, memo y reporte técnico se suben en 1 solo archivo PDF) y el
Detalle e Archivos en PDF. Los archivos deben tener un nombre específico y deben estar
explicados claramente en el Detalle de Archivos como se explica a continuación:
● Detalle de Archivos
o Se debe crear un folder con todos los archivos organizados de manera adecuada,
e incluir un archivo PDF donde se detalle el objetivo de cada archivo. Ejemplo:

Nombre del Archivo Comentarios

K-Nearest-Neighbors.ipynb Jupyter Notebook con el modelo K-Nearest-Neighbors.

ReporteFinal.pdf Reporte Final (Memo + Estudio Técnico)

• Asegúrese que el Jupyter notebook este organizado, con títulos claramente identificados
(EDA, Visualización, Modelo 1, Modelo 2…, Modelo 5), y comentarios donde se explique
que se está haciendo. Si su código esta desorganizado se penalizará considerablemente la
nota del proyecto.

Rúbrica

A (88-100) B (78-87.99) C (65-77.99) D (< 65)


- Presentación - Presentación - Presentación sin - Presentación
mantiene una mantiene secuencia, algo desorganizada y
secuencia lógica, mayormente una clara y poco sin secuencia
Estructura y clara y secuencia lógica, organizada. lógica.
organizada. clara y - Incluye algunas - Incluye pocas de
Presentación - Incluye todas las organizada. de las partes de las partes de
partes de - Incluye todas las desarrollo desarrollo
del Reporte desarrollo partes de requeridas. requeridas.
Final requeridas. desarrollo - Anexos - Anexos no
- Anexos están requeridas. identificados y no identificados y no
bien identificados - Anexos están referenciados, o referenciados. -
y referenciados. bien identificados no hay anexos. - Gramática con
15% - Buena gramática y no Varios errores de graves fallas
y ortografía referenciados. gramática y
- Algunos errores ortografía
de gramática y
ortografía
- Contenido - Contenido - Contenido - Contenido
demuestra demuestra demuestra demuestra
pensamiento mayormente un pensamiento pensamiento
crítico elevado a pensamiento crítico reducido a crítico nulo a la
la hora de explicar crítico a la hora de la hora de explicar hora de explicar y
y analizar el explicar y analizar y analizar el analizar el
producto el producto producto producto
alcanzado alcanzado alcanzado alcanzado
- Desarrollo del - Desarrollo del - Desarrollo del - Desarrollo del
EDA, EDA, EDA, EDA,
Calidad de visualización de visualización de visualización de visualización de
datos es coherente datos es datos es datos es
Contenido de y se extraen mayormente medianamente mínimamente
Presentación conclusiones coherente y se coherente y se coherente y se
valiosas del extraen extraen extraen
mismo conclusiones conclusiones conclusiones
- Desarrollo de mayormente medianamente mínimamente
40%
modelos es valiosas del valiosas del valiosas del
adecuado y las mismo mismo mismo
variables
utilizadas se basan - Desarrollo de - Desarrollo de - Desarrollo de
en gran parte en modelos es modelos es modelos es
los resultados del mayormente medianamente mínimamente
EDA adecuado y las adecuado y las adecuado y las
variables variables variables
- Interpretación de utilizadas se basan utilizadas se basan utilizadas no se
resultados de en parte en los mínimamente en basan en los
modelos es resultados del los resultados del resultados del
coherente con el EDA EDA EDA
contexto del tema - Interpretación de - Interpretación de - Interpretación de
del proyecto resultados de resultados de resultados de
- Conclusiones modelos es modelos es modelos es
son claras y se mayormente medianamente mínimamente
respaldan con coherente con el coherente con el coherente con el
evidencia contexto del tema contexto del tema contexto del tema
del proyecto del proyecto del proyecto
- Conclusiones - Conclusiones - Conclusiones
son mayormente son medianamente son mínimamente
claras y se claras y se claras y se
respaldan respaldan respaldan
mayormente con medianamente mínimamente con
evidencia con evidencia evidencia

- EDA, - EDA, - EDA, - EDA,


visualización de visualización de visualización de visualización de
datos tiene los datos tiene la datos solamente datos solamente
Cumplimiento requerimientos mayoría de los tiene los tiene los
mínimos y requerimientos requerimientos requerimientos
de elementos mínimos y mínimos y no mínimos y no
adicionales para elementos incluye otros incluye otros
Requerimientos entender los datos adicionales para elementos para elementos para
Generales - entender los datos entender los datos entender los datos
Preprocesamiento - - -
de datos basado Preprocesamiento Preprocesamiento Preprocesamiento
en EDA completo de datos basado de datos basado de datos basado
40% - Al menos 3 en EDA en EDA en EDA
modelos están incompleto incompleto incompleto
completos y su - Al menos 3 - 2 modelos están - 1 modelo está
justificación modelos están completos y su completos y su
descrita. completos y su justificación justificación
- Modelo con justificación descrita. El resto descrita. El resto
mejores resultados descrita. de las modelos de las modelos
ha sido subido a - Modelo con están incompletos están incompletos
Kaggle mejores resultados - Modelo con o no existen más
- Archivos están ha sido subido a mejores resultados - Modelo con
organizados en Kaggle no ha sido subido mejores resultados
una sola carpeta - Archivos están a Kaggle no ha sido subido
con Detalle de mayormente - Archivos están a Kaggle
Archivos en pdf organizados en medianamente - Archivos están
una sola carpeta organizados en mínimamente
con Detalle de una sola carpeta organizados en
Archivos en pdf con Detalle de una sola carpeta y
Archivos en pdf sin Detalle de
Archivos en pdf
Fuentes y - Existe referencia - Existe referencia - Existe referencia - Existe referencia
bibliográfica y bibliográfica y bibliográfica. No bibliográfica, pero
Bibliografía sigue formato sigue formato sigue formato no sigue formato
5% adecuado (APA). adecuado (APA) adecuado (APA). bibliográfico
con pocos errores. alguno.

También podría gustarte