Capstone Project y Datasets Disponibles

Capstone Project MDS 2021-2022
Desde el 2 de septiembre al 25 de noviembre de 2022 (12 semanas)
Profesores a cargo curso:

Takeshi Asahi (t.asahi@udd.cl) y Cristian Candia (cristiancandia@udd.cl).
Profesores guía proyectos:

Loreto Bravo (núcleo MDS)
Leonardo Ferres (núcleo MDS)
Mauricio Herrera (núcleo MDS)
Takeshi Asahi
Daniela Opitz
Tomás Fontecilla
Victor Landaeta
María Paz Raveau
Melanie Oyarzún
Alonso Astroza
Cristian Candia (núcleo MDS)
Descripción
En esta asignatura los estudiantes desarrollarán y ejecutarán un proyecto de grado que
involucra datos del mundo real, cuyo objetivo es aplicar los conocimientos adquiridos y
demostrar las competencias desarrolladas por los estudiantes durante el magíster en data
science. La ejecución del proyecto aborda todo el proceso de resolución de un problema:
desde la recopilación y el procesamiento de datos, hasta el diseño del mejor método para
resolver el problema y la implementación de una solución. Los problemas y los conjuntos de
datos provienen de entornos realistas similares a los que el estudiante encontraría en la
industria, la academia o el gobierno. Por lo tanto, los proyectos incluirán: formulación de una
pregunta para ser respondida por los datos; limpieza y procesamiento de datos; elegir y
aplicar un modelo y/o método analítico adecuado al problema; y comunicar los resultados a
una audiencia no técnica.
El proyecto se desarrollará en parejas. Los estudiantes deberán comunicar hasta el día

23 de agosto, a través del formulario online, el nombre de su pareja con la cual va a
trabajar o manifestar su voluntad de trabajar individualmente. De lo contrario, se
asignarán parejas al azar (notar que esto es un deadline duro).
Sobre los Datos

En el anexo de este documento encontrarán una breve descripción de los datasets
disponibles, desde el Instituto de Data Science, para que elijan uno con el cuál trabajar.
También pueden proponer datos propios para el desarrollo del capstone. Quienes opten por
trabajar con sus propios datos deben enviar su Formulario de Datos (adjunto) a Takeshi
Asahi (t.asahi@udd.cl) con copia a Cristian Candia (cristiancandia@udd.cl) hasta el
día 23 de agosto (no se recibirán formularios de datos posterior a esa fecha) y subirlo al
formulario en linea https://forms.gle/sK99P1j8xism4w6k9 en la misma fecha.
Durante la ejecución del proyecto los estudiantes podrán opcionalmente decidir integrar
datasets adicionales a las bases de datos elegidas para complementar sus análisis durante
el proyecto. Por ejemplo, incorporar “shapefiles” de ciudades, datos de encuestas públicas,
Openstreetmap, etc, en caso de que estos datos puedan aportar una mejor respuesta al
problema planteado.
Sobre las Fechas

1) Envío de formulario en línea y formulario de datos: 23 de Agosto de 2022.
2) Sesión híbrida inicial comienzo Capstone Project: 2 de Septiembre de 2022.
3) Evaluación etapa 1: Semana 3
4) Evaluación etapa 2: Semana 6
5) Entrega etapa 3 parte 1 (informe profesor guía): Semana 12
6) Evaluación etapa 3 parte 2 (presentación oral): Semana 14 (dos semanas después
terminado el curso Capstone Project).
Sobre las calificaciones

Los profesores guías utilizarán la rúbrica detallada más abajo en cada etapa de evaluación.
Los profesores podrán ir modificando los puntajes de actividades pasadas si existen
avances significativos sobre ellas. Esta nota del trabajo escrito pondera un 50% de la nota
final del Capstone Project.
La nota de la presentación oral final (50% de la nota final del Capstone Project), la que se
realizará en una sesión final única y conjunta en un día a definir, se calculará usando la
rúbrica asociada a la presentación detallada más abajo. Tanto el profesor guía como los
evaluadores externos serán libres de descontar los puntos que estimen convenientes por
claridad y calidad de la presentación. El cálculo de la nota correspondiente a la presentación
oral será el promedio simple entre la nota de todos los profesores evaluadores (profesor
guía, evaluadores internos y evaluadores externos).
Los profesores tendrán la posibilidad de declarar inmediatamente reprobado el proyecto si

encuentran indicios de plagio a otros proyectos ya sea en la web o en algún otro lugar. Para
estas situaciones se seguirá adicionalmente el proceso formal de la Facultad de Ingeniería
para estos casos.
Puntajes Trabajo Escrito:

● Objetivo, hipótesis y plan de trabajo. (3 pts.)
● Revisión bibliográfica. (6 ptos.)
● Limpieza de datos. (7 ptos.)
● Análisis Exploratorio: Correlaciones, visualización de datos, asociaciones, etc. (7
ptos.)
● Desarrollo (13 pts.). Ejemplo:
○ Descubrir patrones usando modelos no-supervisados.
○ Modelar-Predecir usando modelos supervisados.
○ Otros.
● Conclusiones y limitaciones. (10 pts)
● Coevaluación estudiantes. Los estudiantes se evalúan mutuamente. (7 ptos.)
● Autoevaluación estudiantes. Los estudiantes se autoevalúan. (7 ptos.)
Rúbrica Presentación Oral:
Criterio % Excelente (3) Bueno (2) Adecuado (1) Débil (0)
Explica el tema
Explica el tema
del proyecto, sin
de proyecto de
embargo El tema del
Motivación y Explica claramente la manera
presenta de proyecto no
Descripción 15 el tema del proyecto, parcialmente
manera está bien
del Problema motiva su relevancia adecuada, y
superficial la definido.
motiva su
importancia del
relevancia.
estudio.
La hipótesis y
Hipótesis y
La hipótesis y objetivos son
Establece hipótesis y objetivos no
objetivos están vagamente
Preguntas de objetivos alcanzables están
parcialmente de expresadas,
investigació 10 y de acuerdo al nivel alineados con
acuerdo al nivel aunque están de
n /Hipótesis de un proyecto el nivel de un
de un proyecto acuerdo al nivel
profesional. proyecto
profesional. de un proyecto
profesional
profesional.
Los datos y
metodología están
Los datos y
explicados con Los datos y
metodología no
claridad y son metodología
están
Descripción adecuados para están detallados Los datos y
debidamente
de los Datos resolver el problema pero no son metodología
10 explicados, pero
y planteado (por ej., se adecuados para no están
son adecuados
Metodología pueden responder las resolver el detallados.
para resolver el
preguntas con ellos, y problema
problema
los datos están a una planteado
planteado
granularidad
suficiente)
Se ha realizado
un proyecto con
Se ha realizado un
resultados de
proyecto con
nivel de Los logros
resultados no triviales Se ha realizado
Magíster. Se presentados
y de nivel de Magíster. un buen análisis
probaron muestran
Se probaron modelos pero los
Resultados 30 modelos análisis
adecuados y/o se resultados no
adecuados y/o preliminares
realizó un análisis son del nivel
se realizó un muy básicos y
avanzado para esperado.
buen análisis triviales.
resolver el problema
para resolver el
planteado.
problema
planteado.
Presenta una
conclusión
relevante sobre
No presenta
Presenta una los resultados
conclusiones o
conclusión relevante del análisis y el Presenta una
presenta
sobre los resultados insight conclusión sobre
conclusiones
del análisis y el insight adquirido. los resultados
irrelevantes.
adquirido. Explica de Realiza una del análisis y el
Conclusione Por ejemplo:
manera adecuada las discusión insight adquirido.
s 15 "Se concluye
fortalezas, debilidades parcialmente Realiza una
Limitaciones que con
y limitaciones de su adecuada, discusión
Pandas se
análisis. Presenta aunque superficial, pero
pueden
trabajo futuro para soportada por el soportada por el
responder
darle continuidad a su análisis análisis.
preguntas de
trabajo presentado.
data science."
Describe
posibles futuros
trabajos.
La presentación
La presentación cumple
cumple con los parcialmente con
estándares de calidad La presentación los estándares
La
de una presentación cumple con los de calidad de
presentación
con los siguientes estándares de una
Calidad de la tiene una
requerimientos: calidad de una presentación, y
Presentación estructura
10 - Está bien presentación, tiene deficiencia
y material pobre que
estructurada, pero con en varios de los
gráfico. perjudica su
- Utiliza apoyo visual deficiencia en requerimientos.
efectividad y
adecuado alguno de los La presentación
claridad
- Tiene un largo requerimientos. no permite
acorde a el tiempo comunicar en
asignado forma óptima los
resultados.
El presentador
El presentador El presentador,
El presentador está está
está preparado tienen que leer
bien preparado, se razonablemente
Expresión pero lo que
comunica en forma preparado pero
oral y ocasionalmente presenta, no
efectiva, teniendo tiende a leer de
capacidad de 10 fallan en su usa su voz o
contacto visual con la las diapositivas,
síntesis del forma de hablar actitud para
audiencia, habla con y no es capaz de
proyecto. o se alejan del entusiasmar a
claridad, hace buen comunicar
foco de la la audiencia en
uso del tiempo. claramente todo
presentación el tema.
el contenido.
Calificaciones
En el trabajo escrito el profesor podrá modificar el puntaje en cada etapa en función del
trabajo de los estudiantes. Para la presentación oral ver abajo Etapa 3 Parte 2.
Etapa 1 (semana 3): Planificación. Los estudiantes realizan un pitch de 3 minutos al
profesor guía donde se muestra la motivación del trabajo identificando la pregunta
y/o hipótesis a abordar y su impacto potencial. También los estudiantes entregan un
breve documento con el contendio del pitch y una Carta Gantt al profesor guía. Los
estudiantes deben incluir en este documento una nota de coevaluación y una
autoevaluación. El profesor guía evaluará, entregará feedback y dará visto bueno
para continuar con el proyecto. En caso de que el avance sea insuficiente, el
profesor guía coordinará una nueva fecha para repetir la etapa 1 en la semana
inmediatamente siguiente.
Etapa 2 (semana 6): Los estudiantes realizan presentación intermedia al profesor guía.
Esta etapa debe abarcar al menos hasta la exploración de datos y resultados
preliminares. Los estudiantes deben entregar una nota de coevaluación y una
autoevaluación.
El profesor guía evaluará, entregará feedback y dará visto bueno para continuar con
el proyecto. En caso de que el avance sea insuficiente, el profesor guía coordinará
una nueva fecha para repetir etapa 2 en la semana inmediatamente siguiente.
Etapa 3:
Parte 1 (semana 12): Evaluación escrita. Los estudiantes deben entregar un reporte
escrito a su profesor guía. Posteriormente, sujeto al visto bueno del profesor,
podrán realizar su presentación oral.
Parte 2 (semana 14 - una vez terminado el curso): Evaluación oral. Las
presentaciones orales se realizarán en un día determinado por la dirección
del programa dos semanas después de finalizado el curso. Los horarios de
presentación se sortearán al azar. La evaluación corresponderá al promedio
simple entre la nota de todos los profesores evaluadores presentes ( profesor
guía, evaluadores internos y evaluadores externos). Los estudiantes deben
entregar una nota de coevaluación y una autoevaluación.
Anexo: Datasets Disponibles IDS
1. Human Mobility: XDR Movistar. Un día de XDRs anonimizados de Movistar. Los
XDRs son los registros de usos de datos de todos los clientes de movistar. El
dataset registra las conexiones a las antenas, la hora de la conexión, el número de
teléfono anonimizado y el número de kbs asociados a ese registro.
2. Human Mobility: Migración Interna. A partir de una semana de datos de telefonía

de Marzo 2020, Marzo 2021 y Marzo 2022, realizar un estudio detallado de la
migración interna en Chile, es decir, los cambios de comuna que experimentaron las
personas producto de la pandemia.
3. Sports Analytics: Fútbol

a. Registros de partidos: registro de todos los partidos de los últimos 5 años
de los equipos que actualmente se encuentran en la primera división. Para
cada partido se cuenta con más de 30 atributos incluyendo: posesión, pases,
pases logrados, duelos, regates, goles, tiros, etc.
b. Registros de Jugadores: registro de todos los jugadores chilenos activos y
sus estadísticas de juegos del último año. Considera más de 30 atributos
sobre su juego: minutos jugados, posición, pases/logrados, duelos/ganados,
regates, goles, tiros/al arco, etc.
Posibles proyectos asociados a este dataset:

1. PlayeRank: Asignar un puntaje a cada jugador de acuerdo a sus
características de juego utilizando técnicas de IA. Ver artículo de Luca
Pappalardo (https://dl.acm.org/doi/10.1145/3343172). Este proyecto sería
guiado por Loreto Bravo y Hugo Contreras.
2. ¿Corrupción en el fútbol? Análisis de redes de contratación de jugadores.

Se contrata por características del jugador o porque el jugador tiene el mismo
representante que el DT? Para realizar este proyecto habría que
complementar la información disponible con - fechas de contratación de
jugadores y DTs, y nombre del representante de los jugadores y DTs. Una
posible fuente de información es https://www.transfermarkt.com/ pero no es
claro si se puede obtener toda la información necesaria. Este proyecto sería
guiado por Loreto Bravo. (Notar que este proyecto tiene el riesgo de que la
información de los Directores Técnicos puede que no se ecuentre de manera
pública, limitando el alcance del estudio).
4. Encuesta Alumni UDD. Se realizó una encuesta al universo de 12.000 alumnos

graduados del pregrado de la UDD. Se recolectaron más de 6000 respuestas que
contienen respuestas a preguntas cerradas y otras de texto abierto. La idea es
analizar los datos utilizando técnicas de Data Science para generar información
accionable a partir de este dataset. Este proyecto tiene como supervisora a Loreto
Bravo y como sponsor interno UDD a Ana Petterman.
5. Recomendador de palabras. Este dataset se compone de:
a. Registros artículos noticieros
b. Publicaciones de Blog
c. Tweets de Twitter
Posibles Proyectos con este dataset:
a. Predictor de palabra: se puede generar iniciando una frase un predictor de la
siguiente palabra a escribir, permitiendo ahorrar tiempo en la escritura.
b. Predictor de siguiente letra: Analizando las palabras en estas fuentes, podrá
completar la palabra que esté escribiendo el operador.
c. A qué origen pertenece: ¿Es un artículo, un tweet o un blog? Analizando la
estructura de los documentos podrá hacer un clasficador de origen de datos.
Este proyecto tiene como supervisor a Tomás Fontecilla.
6. Proceso constituyente 2016. Este dataset se compone de los textos generados en

los encuentros autoconvocados ocurridos en el año 2016. Hubo más de 8000 grupos
dónde se generaron textos y participaron más de 100,000 personas. Se sugiere que
las preguntas para este dataset estén asociadas a cuantificar la complejidad
argumentativa de los textos generados por los participantes, cuantificación de
emociones y moralización en los textos y sus asociaciones con variables a nivel de
comuna (CENSO, CASEN, SERVEL, etc), entre otros. Este proyecto tiene
potencialmente como supervisora a María Paz Raveau y a Cristian Candia.
7. Hate speech in social networks. Este dataset se compone de 2 millones de posts

en redes sociales (Twitter, Reddit y 8Chan) sobre tópicos políticamante polarizados.
Se sugiere que las preguntas para este dataset estén asociadas a detectar discursos
de odio en redes sociales a partir de características de los textos, a explorar scaling
laws en moralización y emociones en textos, entre otros. Este proyecto tiene
potencialmente como supervisor a Cristian Candia.
8. Toma de decisiones: Postulaciones, matrículas y puntajes en el sistema de

educación superior. Este dataset se compone de todas las postulaciones al
sistema único de admisión (SUA) entre los años 2012 al 2021. El dataset cuenta con
información a nivel de:
a. Postuantes A: Inscritos y sus puntajes.
b. Postulantes B: Datos socioeconómicos y domicilios de los postulantes.
c. Proceso de admisión año académico. Postulaciones y selección.
d. Proceso de admisión año académico. Matrícula vacantes regulares.
e. Avance curricular: Información reportada al ministerio de educación sobre la
continuidad de estudiantes en cada carrera e institución.
Se sugiere que las preguntas para este dataset estén asociadas a la toma de
decisiones bajo incertidubre, deserción, sesgos de género en educación superior,
entre otros. Este proyecto tiene potencialmente como supervisora a Melanie
Oyarzún y a Cristian Candia.
9. Science of Science: Microsoft academic graph 2020. Este dataset se compone

de más de 200 millones de artículos científicos publicados entre 1900 y 2020.
Incluye sus citas, información sobre los autores, afiliaciones, revistas académicas,
entre muchos otros. Se sugiere que las preguntas para este dataset estén asociadas
a las dinámicas sociales en el ecosistema científico, difusión de conocimiento e
innovación, procesos de olvido, exploración de métricas de disrupción, novedad,
interdisciplinariedad, entre otras. Este proyecto tiene potencialmente como
supervisor a Cristian Candia.
10. Permisos vehiculares chile 2016-2021. Este dataset se compone de más de 45

millones de registros de renovación de permisos vehiculares entre 2016 y 2021. Los
datos incluyen un ID único para cada usuario y los vehículos asociados a ellos en
cada año. Además, de dispone de datos a nivel cliente (debidamente anonimizados)
para complementar trabajo. Se sugiere que las preguntas para este dataset estén
asociadas al entendimiento del mercado automotriz chileno. Este proyecto tiene
potencialmente como supervisores asociados a Alonso Astroza, Cristian Candia y
Germán Gomez (Derco).
11. Deportes Online. VALORANT es un videojuego competitivo tipo shooter, que se

juega en equipos de 5vs5 jugadores y el objetivo es ganar rondas mediante
enfrentamientos a tiros (gunfight) donde en cada enfrentamiento se elimina a un
oponente. Es considerado uno de los deportes electrónicos (esport) con mayor
crecimiento, con 15 millones de jugadores y un circuito de torneos profesional que
reparte más de $5 MUSD cada año. Los datos se obtuvieron desde la API de RIOT
Games (la empresa creadora del juego). Se cuentan con más de 3000 rondas y
cerca de 20000 gunfights registradas en los torneos de alta competencia
desarrollados en agosto, septiembre y octubre de 2021. Se sugiere que las
preguntas para este dataset estén asociadas a Evaluación de jugadores,
Formación/entrenamiento de jugadores y dinámicas sociales en contextos online.
Este proyecto tiene potencialmente como supervisores asociados a Alonso Astroza
y Cristian Candia.
12. Cord-19: es una base de datos de publicaciones del COVID, preparado por una
serie de importantes instituciones en EEUU. Es promovido por la Casa Blanca. La
idea es procesar texto para poder relacionar las diferentes publicaciones y buscar
relaciones ocultas y estadísticas acerca de esta enfermedad. En la actualidad el
dataset contiene 20 Gb de datos, recolectando una creciente cantidad de
publicaciones científicas acerca del tema. La explicación se encuentra en
https://www.kaggle.com/datasets/allen-institute-for-ai/CORD-19-research-challenge
13. Diagnóstico de enfermedades: El diagnóstico de ciertas enfermedades mediante

exámenes de bajo costo puede ser de gran valor considerando ser utilizados en
países de recursos más escasos. En diferentes zonas y países no siempre se
dispone de especialistas que pudieran diagnosticar en forma más certera ciertas
enfermedades como la neumonía. En el presente dataset se disponibiliza imágenes
de rayos X de tórax de diferentes pacientes, los cuales tienen neumonía y otros que
no. Los datos fueron disponibilizados a través de Kaggle, para el desafío de generar
un clasificador automatizado de esta enfermedad. Corresponde a 5683 imágenes
etiquetadas con pacientes con y sin neumonía. Estas imágenes ya vienen
etiquetadas.
https://www.kaggle.com/datasets/paultimothymooney/chest-xray-pneumonia
14. Identificación de tejidos: Dentro de la histopatología, la correcta identificación de

diferentes tejidos posibilitarán en un futuro el siguiente paso de asociar la función de
un tejido con su composición celular. Debido al gran tamaño de las imágenes y a los
pocos especialistas en esta área, la automatización de estos procesos genera un
tremendo valor. Las diferentes regiones de la imagen deben ser etiquetadas según
esta composición celular para facilitar el posterior análisis de las regiones. Este
dataset se disponibilizó como un desafío Kaggle, donde más de 500 imágenes están
etiquetadas. Las imágenes tienen una resolución de unos 3000x3000 píxeles y sus
áreas están etiquetadas en forma manual. También se proveen algunos metadatos
del paciente. https://www.kaggle.com/competitions/hubmap-organ-segmentation/

Capstone Project y Datasets Disponibles

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Capstone Project y Datasets Disponibles

Cargado por

Copyright:

Formatos disponibles

Capstone Project MDS 2021-2022

Desde el 2 de septiembre al 25 de noviembre de 2022 (12 semanas)

Profesores a cargo curso:

Profesores guía proyectos:

El proyecto se desarrollará en parejas. Los estudiantes deberán comunicar hasta el día

Sobre los Datos

Sobre las Fechas

Sobre las calificaciones

Los profesores tendrán la posibilidad de declarar inmediatamente reprobado el proyecto si

Puntajes Trabajo Escrito:

2. Human Mobility: Migración Interna. A partir de una semana de datos de telefonía

3. Sports Analytics: Fútbol

Posibles proyectos asociados a este dataset:

2. ¿Corrupción en el fútbol? Análisis de redes de contratación de jugadores.

4. Encuesta Alumni UDD. Se realizó una encuesta al universo de 12.000 alumnos

6. Proceso constituyente 2016. Este dataset se compone de los textos generados en

7. Hate speech in social networks. Este dataset se compone de 2 millones de posts

8. Toma de decisiones: Postulaciones, matrículas y puntajes en el sistema de

9. Science of Science: Microsoft academic graph 2020. Este dataset se compone

10. Permisos vehiculares chile 2016-2021. Este dataset se compone de más de 45

11. Deportes Online. VALORANT es un videojuego competitivo tipo shooter, que se

13. Diagnóstico de enfermedades: El diagnóstico de ciertas enfermedades mediante

14. Identificación de tejidos: Dentro de la histopatología, la correcta identificación de

También podría gustarte