Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Capstone Project y Datasets Disponibles
Capstone Project y Datasets Disponibles
Descripción
En esta asignatura los estudiantes desarrollarán y ejecutarán un proyecto de grado que
involucra datos del mundo real, cuyo objetivo es aplicar los conocimientos adquiridos y
demostrar las competencias desarrolladas por los estudiantes durante el magíster en data
science. La ejecución del proyecto aborda todo el proceso de resolución de un problema:
desde la recopilación y el procesamiento de datos, hasta el diseño del mejor método para
resolver el problema y la implementación de una solución. Los problemas y los conjuntos de
datos provienen de entornos realistas similares a los que el estudiante encontraría en la
industria, la academia o el gobierno. Por lo tanto, los proyectos incluirán: formulación de una
pregunta para ser respondida por los datos; limpieza y procesamiento de datos; elegir y
aplicar un modelo y/o método analítico adecuado al problema; y comunicar los resultados a
una audiencia no técnica.
Durante la ejecución del proyecto los estudiantes podrán opcionalmente decidir integrar
datasets adicionales a las bases de datos elegidas para complementar sus análisis durante
el proyecto. Por ejemplo, incorporar “shapefiles” de ciudades, datos de encuestas públicas,
Openstreetmap, etc, en caso de que estos datos puedan aportar una mejor respuesta al
problema planteado.
La nota de la presentación oral final (50% de la nota final del Capstone Project), la que se
realizará en una sesión final única y conjunta en un día a definir, se calculará usando la
rúbrica asociada a la presentación detallada más abajo. Tanto el profesor guía como los
evaluadores externos serán libres de descontar los puntos que estimen convenientes por
claridad y calidad de la presentación. El cálculo de la nota correspondiente a la presentación
oral será el promedio simple entre la nota de todos los profesores evaluadores (profesor
guía, evaluadores internos y evaluadores externos).
Calificaciones
En el trabajo escrito el profesor podrá modificar el puntaje en cada etapa en función del
trabajo de los estudiantes. Para la presentación oral ver abajo Etapa 3 Parte 2.
Etapa 1 (semana 3): Planificación. Los estudiantes realizan un pitch de 3 minutos al
profesor guía donde se muestra la motivación del trabajo identificando la pregunta
y/o hipótesis a abordar y su impacto potencial. También los estudiantes entregan un
breve documento con el contendio del pitch y una Carta Gantt al profesor guía. Los
estudiantes deben incluir en este documento una nota de coevaluación y una
autoevaluación. El profesor guía evaluará, entregará feedback y dará visto bueno
para continuar con el proyecto. En caso de que el avance sea insuficiente, el
profesor guía coordinará una nueva fecha para repetir la etapa 1 en la semana
inmediatamente siguiente.
Etapa 2 (semana 6): Los estudiantes realizan presentación intermedia al profesor guía.
Esta etapa debe abarcar al menos hasta la exploración de datos y resultados
preliminares. Los estudiantes deben entregar una nota de coevaluación y una
autoevaluación.
El profesor guía evaluará, entregará feedback y dará visto bueno para continuar con
el proyecto. En caso de que el avance sea insuficiente, el profesor guía coordinará
una nueva fecha para repetir etapa 2 en la semana inmediatamente siguiente.
Etapa 3:
Parte 1 (semana 12): Evaluación escrita. Los estudiantes deben entregar un reporte
escrito a su profesor guía. Posteriormente, sujeto al visto bueno del profesor,
podrán realizar su presentación oral.
Parte 2 (semana 14 - una vez terminado el curso): Evaluación oral. Las
presentaciones orales se realizarán en un día determinado por la dirección
del programa dos semanas después de finalizado el curso. Los horarios de
presentación se sortearán al azar. La evaluación corresponderá al promedio
simple entre la nota de todos los profesores evaluadores presentes ( profesor
guía, evaluadores internos y evaluadores externos). Los estudiantes deben
entregar una nota de coevaluación y una autoevaluación.
Anexo: Datasets Disponibles IDS
1. Human Mobility: XDR Movistar. Un día de XDRs anonimizados de Movistar. Los
XDRs son los registros de usos de datos de todos los clientes de movistar. El
dataset registra las conexiones a las antenas, la hora de la conexión, el número de
teléfono anonimizado y el número de kbs asociados a ese registro.
12. Cord-19: es una base de datos de publicaciones del COVID, preparado por una
serie de importantes instituciones en EEUU. Es promovido por la Casa Blanca. La
idea es procesar texto para poder relacionar las diferentes publicaciones y buscar
relaciones ocultas y estadísticas acerca de esta enfermedad. En la actualidad el
dataset contiene 20 Gb de datos, recolectando una creciente cantidad de
publicaciones científicas acerca del tema. La explicación se encuentra en
https://www.kaggle.com/datasets/allen-institute-for-ai/CORD-19-research-challenge