Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Recursos necesarios: Ordenador de sobremesa/portátil, apuntes del módulo, Python, Microsoft Word, recursos de
biblioteca, Internet.
Fechas importantes:
Entrega de trabajos
Teams
Microsoft Teams
1
Introducción
Este curso proporciona experiencia en el uso de los métodos desarrollados teóricamente en clase. En
particular, se le proporcionará un problema del mundo real y se le pedirá que proporcione una solución
utilizando el aprendizaje automático.
Deberá presentar un breve informe que resuma el trabajo realizado y las predicciones del modelo final que
desarrolle y que considere el mejor posible.
No se trata de un curso prescriptivo con un camino claro hacia la solución. En su lugar, requiere que conciba,
codifique y pruebe varios enfoques antes de llegar a una solución final. Además, el entrenamiento de
modelos de aprendizaje automático (ML) requiere cierto tiempo de computación que puede ralentizar aún
más su progreso. Por lo tanto, es muy poco aconsejable dejar el trabajo para el último momento. También
se espera que una parte importante del trabajo se lleve a cabo durante las sesiones posteriores del
laboratorio de informática.
Como parte de la evaluación del curso, se creará una tabla de clasificación. Para ello, deberá enviar sus
predicciones en un formato de archivo estándar. Consulte los detalles en la sección "Qué debe enviar".
Con este trabajo de curso, se le pide que proponga una solución utilizando ML para realizar el
reconocimiento de la actividad humana (HAR). HAR es un proceso dirigido a la clasificación de acciones
humanas en un periodo de tiempo determinado basado en mediciones discretas (aceleración, velocidad de
rotación, coordenadas geográficas, etc.) realizadas por dispositivos digitales personales. Con el fin de tomar
una decisión informada, deberá desarrollar y probar varios modelos ML antes de sugerir un enfoque final para
resolver la tarea. Se le proporcionará una base de datos que consta de datos recogidos de 36 usuarios diferentes
que realizan seis tipos de actividades humanas (subir y bajar escaleras, sentarse, caminar, correr y estar de
pie) durante periodos de tiempo específicos. Estos datos se adquirieron a partir de acelerómetros, que son
capaces de detectar la orientación del dispositivo midiendo la aceleración a lo largo de las tres dimensiones
diferentes. Se recogieron utilizando una frecuencia de muestreo de 20 Hz (1 muestra cada 50 milisegundos), lo
que equivale a 20 muestras por segundo.
La base de datos del curso consiste en datos sintéticos generados a partir de un extracto de datos recogidos por el
WISDM Lab (https://www.cis.fordham.edu/wisdm/). Tenga en cuenta que la base de datos del trabajo del
curso es única, por lo que no hay ninguna equivalente disponible en Internet. Por lo tanto, correrá el riesgo
de plagio si su trabajo de curso utiliza principalmente código ya publicado (consulte más detalles en la
2
sección de Faltas académicas de esta tarea). No obstante, puede navegar por Internet para encontrar ideas sobre
cómo resolver el trabajo del curso. Si tiene alguna duda, coménteme la situación lo antes posible, pero
siempre antes de la entrega.
3
Descripción de la base de datos
La base de datos del trabajo de curso se distribuirá a través de un concurso de la Comunidad Kaggle
(https://www.kaggle.com/competitions/mlea-challenge-2023i ) cuyo acceso está restringido a los alumnos
matriculados en este módulo. Es la base de datos oficial que se utilizará en este trabajo de curso, y no se
permite el uso de ninguna otra variante que pudiera estar disponible en otro lugar.
La base de datos contiene información sobre 36 usuarios que realizaron seis actividades humanas diferentes,
como subir y bajar escaleras, sentarse, caminar, correr y estar de pie. Los datos se recogieron con
acelerómetros, que miden la aceleración en tres dimensiones y determinan la orientación del dispositivo.
Los datos de las series temporales se dividieron en fragmentos de 10 segundos y de cada fragmento se
extrajeron características estadísticas o metadatos. Usted tendrá acceso a los metadatos y a las series
temporales, por lo que podrá optar por construir modelos ML basados en cualquiera de ellos. Además,
puede considerar extraer características adicionales de las series temporales.
2. El archivo "signals_test.csv " tiene una estructura similar a la del archivo "signals.csv".
Resultado
El principal resultado del curso es predecir la actividad del usuario en un fragmento de tiempo determinado.
Las predicciones finales que envíe se utilizarán para generar una clasificación basada en el rendimiento del
modelo en los datos de prueba, medido mediante la precisión del modelo. Para evitar el sobreajuste del
conjunto de datos de prueba, éste se divide aleatoriamente en dos subconjuntos de tamaño similar. La
puntuación de precisión se calcula en ambas divisiones. Ganará la competición el alumno que obtenga la
mayor precisión media en las divisiones de prueba.
Se utilizará un archivo de predicción para cada estudiante. Sin embargo, puede enviar tantos archivos de
predicción como desee a través de MS Teams. El único que se utilizará para la tabla de clasificación será el
envío más reciente después de que se cierre el sistema de envío.
Hay una competición comunitaria de Kaggle asociada a esta evaluación que podrías utilizar para poner a
prueba tus predicciones y ver cómo se comparan con las de tus compañeros de clase. Recomiendo
encarecidamente el uso de esta herramienta. Más información en la sección Community Kaggle Competition.
5
Presentación del informe final
Deberá elaborar un informe que resuma sus principales resultados. Aunque el contenido principal de su informe
debe ser la presentación y discusión de sus resultados, también debe describir cómo abordó la tarea,
soluciones alternativas, posibles razones de éxito/fracaso. También debe incluir una breve reflexión sobre su
trabajo. Debe incluir su código como apéndice.
1. Enfoque metodológico: Descripción de los enfoques utilizados para resolver el problema (indicando
enfoques finales y alternativos, métodos, partes de los datos utilizados, etc.)
2. Análisis exploratorio de datos: Presente los resultados de cualquier paso de preprocesamiento para
obtener los datos adecuados para el modelado (por ejemplo, extracciones de características
adicionales, normalización de datos, selección de características, etc.), visualización de datos,
agrupación, etc.
3. Modelización: Presentar los resultados de los modelos ML. Se espera el uso de varios algoritmos de
ML. Deberá informar de los resultados del ajuste de hiperparámetros, el rendimiento del modelo y
otros resultados que puedan aportar más información sobre la calidad de los modelos
implementados.
4. Debate: Debe discutir los resultados del análisis exploratorio y la modelización. Debe explicar las
razones del éxito/fracaso de los enfoques considerados y las ideas para futuras mejoras.
Sin contar los apéndices, se espera que el informe tenga entre 2000 y 3000 palabras. Deberá utilizar tablas y
figuras para enriquecer el contenido de su informe. Debe presentar un único archivo en formato
PDF/DOC/DOCX (preferiblemente PDF) que contenga el informe sin el código. No se aceptará ningún otro
archivo. Si presenta más de un archivo, sólo se puntuará el primero más reciente. Puede utilizar cualquier
procesador de textos, siempre que consiga exportar su informe a cualquiera de los formatos de archivo
aceptables.
7
Criterios de evaluación
El trabajo del curso constituye el 100% de la evaluación de este módulo. Se calificará sobre 50 puntos. El
desglose de las notas disponibles es el siguiente:
• Informe - hasta el 40
• Predicciones de modelos: hasta el 10
Es tu responsabilidad asegurarte de que entiendes lo que constituye una falta de ética académica y de que
no infringes las normas. Si no tiene claro qué es lo que debe hacer, pregunte.
8
Apéndice - Rúbrica de calificación
Rúbrica utilizada para evaluar las predicciones finales del modelo (puntos)
Criterios 10 sobre 10 9 sobre 10 8 sobre 10 6 sobre 10 4 sobre 10 2 sobre 10 0 sobre 10
Modelo Enviado Enviado Enviado Enviado Enviado Enviado No hay archivo de
predicción
rendimiento en archivo de archivo de archivo de archivo de archivo de archivo de se presentó, o
predicción predicción predicción predicción predicción predicción
el conjunto de correctamente correctamente correctamente correctamente correctamente correctamente no era utilizable
pruebas como
medido utilizando el formateado. formateado. formateado. formateado. formateado. formateado. (es decir,
erróneamente
precisión media Clasificación Clasificación Clasificación Clasificación Clasificación Clasificación formateado)
posición 1. posición 2. posición 3. posición 4 o 5. posición 6 a 8. posición 9 o
abajo.
9
Análisis Los detalles Se Falta el
El análisis El análisis El análisis El análisis El análisis El análisis del análisis proporcionan análisis
exploratorio
exploratorio es exploratorio es exploratorio es exploratorio es exploratorio exploratorio es exploratorio y apoyan exploratori
de datos (8 extraordinario. excepcional. excelente. fluido. es bueno. adecuado.
puntos) son detalles o o se
El análisis se insuficientes. erróneos proporcion
realiza El análisis se El análisis El análisis se El análisis El análisis
realiza se realiza realiza se realiza se realiza El análisis se sobre el an muy
utilizando una limita a un análisis pocos
amplia gama utilizando utilizando utilizando un utilizando utilizando
una amplia un puñado puñado de un puñado algunos modelo. exploratorio. detalles.
de modelos. [2 puntos] El análisis se Pruebas
[8 puntos] gama de de modelos. de modelos.
modelos. modelos. modelos. [3 puntos] limita a un muy
[5 puntos]
modelo. [1 limitadas
[7 puntos] [6 puntos] [4 puntos]
punto] de que se
realizó el
análisis.
[0 puntos]
Modelización Descripción de Descripción de Descripción de Descripción de Descripción de Descripción de Detalles Detalles Los
(hasta 14 la modelización la modelización la modelización la modelización la modelización la modelización inadecuados erróneos resultados
puntos) de la sobre la de la
modelización modelización modelizació
n son
desaparecid
a.
1
0
resultados es resultados es resultados resultados es resultad resultados es Se facilitan y Se facilitan y Pruebas
extraordinaria. excepcional. es fluida. El os es adecuada. El apoyan los apoyan los muy
El análisis se El análisis se Excelente. análisis se bueno. análisis se resultados. El resultados. El limitadas
realiza realiza El análisis realiza El análisis realiza análisis se análisis se de que se
utilizando una utilizando se realiza utilizando un se realiza utilizando limita a un limita a un realizó el
amplia gama una amplia utilizando puñado de utilizando algunos modelo. modelo. Los análisis. [0
de modelos. gama de un puñado modelos. un puñado modelos. Los modelos modelos no puntos]
Los modelos se modelos. de Los modelos de Validación y no se validan se validan y
validan y Los modelos modelos. se validan y modelos. comparación y comparan comparan
comparan de se validan y Los modelos comparan de Los modelos limitadas del adecuadame adecuadame
muchas comparan de se validan y varias se validan y modelo. [7 nte. nte.
maneras. muchas comparan de maneras. comparan de puntos] [4 puntos] [2 puntos]
[14 puntos] maneras. varias [11 puntos] varias
[13 puntos] maneras. maneras.
[12 puntos] [9 puntos]
Discusión de La discusión La discusión La discusión La discusión La discusión La discusión La discusión La discusión No se
los resultados de los de los de los de los de los de los de los de los discuten
(hasta 12 resultados resultados es resultados resultados resultados resultados resultados resultados los
puntos) es sobresaliente es una es creíble y es precisa y es adecuada. es imprecisa, es ambigua, resultados
excepcional y y perspicaz. excelente precisa. coherente. [7 puntos] limitada y/o incoherente, o no
claramente [11 puntos] crítica. [9 puntos] [8 puntos] inadecuada. irrelevante guardan
distintiva. [10 puntos] [4 puntos] y/o errónea. relación
[12 puntos] [2 puntos] con los
resultados
o el
problema.
[0 puntos]
Listados de El código se adjunta y parece proporcionar un camino claro hacia una solución al problema. Falta
códigos (hasta [2 puntos] código o
2 puntos) éste es tan
limitado
que no
ofrece una
solución
clara al
problema.
[0 puntos]
1
1