Documentos de Académico
Documentos de Profesional
Documentos de Cultura
MATERIA:
SISTEMAS DECISIONALES DE MINERÍA DE DATOS
PRESENTA:
LI. Cinthya Elizabeth Pedroza Mercado
II. Adrián Emilio Caldera Hermosillo
IC. Carlos Sandoval Medina
PROFESOR:
Dra. Eunice Esther Ponce de León Sentí
Introducción...............................................................................................................5
1. Comprensión del problema o negocio................................................................6
1.1 Determinar los objetivos del negocio...........................................................6
1.2 Evaluación de la situación............................................................................7
1.3 Determinar los objetivos de la minería de datos..........................................9
1.4 Realizar el plan del proyecto........................................................................9
2. Comprensión de los datos................................................................................10
2.1 Recolectar los datos iniciales.....................................................................11
2.2 Descripción de los datos............................................................................12
2.3 Exploración de los datos............................................................................13
2.4 Verificar la calidad de los datos..................................................................21
3. Preparación de los datos..................................................................................22
3.1 Selección de datos.....................................................................................22
3.2 Limpieza de datos......................................................................................24
3.3 Construcción de nuevos datos...................................................................24
3.4 Integración de datos...................................................................................24
3.5 Formato de datos.......................................................................................25
4. Modelado...........................................................................................................25
4.1 Escoger la Técnica de Modelado...............................................................25
4.2 Generar el Plan de Prueba.........................................................................26
4.3 Construir el Modelo....................................................................................27
4.4 Evaluar el Modelo.......................................................................................29
5. Evaluación.........................................................................................................30
5.1 Evaluar los Resultados...............................................................................30
5.2 Revisar el Proceso.....................................................................................31
5.3 Determinar los Próximos Pasos.................................................................31
6. Implantación......................................................................................................31
6.1 Planear la Implantación..............................................................................32
6.2 Planear la Monitorización y Mantenimiento...............................................32
6.3 Producir el Informe Final............................................................................33
6.4 Revisar el Proyecto....................................................................................34
Bibliografía...............................................................................................................35
Anexo 1. Glosario de Terminología de Minería de Datos Utilizada........................36
Introducción
Para llevar a cabo todo el proceso general de minería de datos, existen una serie
metodologías estudiadas y reconocidas. Una de las metodologías más utilizadas
son la metodología CRISP-DM (Cross-Industry Standard Process for Data Mining),
la cual integra todas las tareas necesarias en los proyectos de minería de datos,
desde la fase de comprensión del problema hasta la puesta en producción de
sistemas automatizados analíticos, predictivos. Por lo general, un proyecto de
minería de datos implica una combinación de diferentes tipos de problemas, los
cuales se atienden según los objetivos de minería de datos que, en conjunto,
resuelven el problema y cumplen con el objetivo del negocio (Chapman & Clinton,
2000)
Hardware:
Características técnicas
Modelo
Asus Strix GL753VD-GC045T (Strix GL753 Series)
Procesador
Intel Core i7-7700HQ
Adaptador gráfico
NVIDIA GeForce GTX 1050 Mobile - 4096 MB, Núcleo: 1354 MHz, Memoria:
1752 MHz, GDDR5 376.19, Optimus
Memoria
16384 MB, DDR4 SDRAM Dual-Channel
Placa base
Intel HM175
Disco duro
Micrón SSD 1100 (MTFDDAV256TBN) 256 GB + Toshiba MQ01ABD100 1 TB
HDD (2.5”)
Conexiones
1 USB 2.0, 4 USB 3.0, 1 HDMI, 1 DisplayPort, 1 Kensington Lock Audio,
Headset 3.5mm, Card Reader: lector SD
Equipamiento de red
Realtek RTL8168/8111 Gigabit-LAN (10/100/1000/2500/5000MBit/s), Intel
Wireless-AC 7265 (a/b/g/n = Wi-Fi 4/ac = Wi-Fi 5), Bluetooth 4.0
Sistema Operativo
Microsoft Windows 10 Home 64 Bit
Los datos con los que se cuenta son de dos grupos de primer semestre de la
carrera de ISC de la UAA, en el periodo Agosto – Diciembre 2020, y tres grupos
de segundo semestre de la carrera ISC de la UAA en el periodo Enero – Julio
2021.
Costos y beneficios
Los datos recolectados en el proyecto no representaron ningún costo adicional ya
que las herramientas utilizadas son las mismas proporcionadas por la Universidad,
en este caso se utilizó Forms de Microsoft.
Las herramientas por utilizar para desarrollar el proyecto de minería de datos son,
Weka para el modelo de regresión y el lenguaje R para los componentes
principales, ya que son las herramientas vistas en clase.
2. Comprensión de los datos
● Alumnos:
Se tiene un listado con el nombre del alumno y su ID escolar.
● Calificación segundo parcial:
Calificación obtenida en el segundo parcial de la materia de
Programación I.
● Calificación tercer parcial:
Calificación obtenida en el tercer parcial de la materia de
Programación I.
● Respuestas del cuestionario de carga cognitiva aplicado a los
alumnos
El formato de las respuestas del cuestionario es en una escala de 0
– 10.
Para el proyecto en particular, a excepción del nombre del alumno, todos los datos
o atributos serán fundamentales para realizar el proceso de minería de datos y
alcanzar los objetivos deseados.
Solo se ha tenido que agregar una columna adicional en los archivos de los
cuestionarios para la medición de carga cognitiva para calcular el total de carga
cognitiva correspondiente a cada alumno y suprimir la columna del nombre del
estudiante.
En esta fase se procede a la exploración de los datos que nos ayude a realizar un
mejor análisis de lo que tenemos y cómo utilizarlo para el cumplimiento de los
objetivos planteados, en este caso para el proyecto en particular se presentan las
siguientes gráficas:
7.00
6.00
5.00
4.00
3.00
2.00
1.00
0.00
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
10.00
8.00
6.00
4.00
2.00
0.00
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
10.00
8.00
6.00
4.00
2.00
0.00
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
10.00
8.00
6.00
4.00
2.00
0.00
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
6.00
5.00
4.00
3.00
2.00
1.00
0.00
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
10.00
8.00
6.00
4.00
2.00
0.00
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
10.0
8.0
6.0
4.0
2.0
0.0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
10.0
8.0
6.0
4.0
2.0
0.0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
10.0
8.0
6.0
4.0
2.0
0.0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
10.0
8.0
6.0
4.0
2.0
0.0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
10.0
8.0
6.0
4.0
2.0
0.0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
10.0
8.0
6.0
4.0
2.0
0.0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
Esta fase de preparación de los datos es una de las más importantes y también de
las que más tiempo se requiere para su realización. Si se realizó un buen trabajo
en las fases anteriores influye de forma positiva en el trabajo a realizar en esta
fase. La preparación de los datos implica las siguientes tareas:
● Selección de datos
● Limpieza de datos
● Construcción de nuevos datos
● Integración de datos
● Formato de datos
● Tabla_CalGE1
ID
Pre
Post
● Tabla_CalGE2
ID
Pre
Post
● Tabla_CalGE3
ID
Pre
Post
● Tabla_Cuestionario CL (GE1) (1-25)
ID:
CargaIyE
● Tabla_Cuestionario CL (GE2) (1-30)
ID:
CargaIyE
● Tabla_Cuestionario CL (GE3) (1-23)
ID:
CargaIyE
● Tabla_Alumnos_Calif
CargaIyE
3.5 Formato de datos
4. Modelado
En esta fase se deben escoger las técnicas necesarias para el modelado y lograr
los dos objetivos marcados en este proyecto de minería de datos. Los objetivos
son:
Objetivo 1: Predecir la calificación de un alumno con base en los resultados
obtenidos en el cuestionario para la medición de carga cognitiva.
Además de elegir las técnicas, se debe establecer un plan de prueba para las
técnicas escogidas para el modelado. Después del plan de prueba, se continua
con la generación del modelado tomando en cuenta los datos y por último se
evalúa si el modelo cumple con los criterios de éxito
De los modelos que ofrece Weka, el que mejor se adapta al objetivo mencionado
es el análisis de regresión, ya que el problema que se quieren resolver es de
predicción.
Objetivo 2: Identificar las preguntas del cuestionario que aportan más información.
Objetivo 2: Identificar las preguntas del cuestionario que aportan más información.
Ajuste de parámetros
Modelos
Objetivo 2: Identificar las preguntas del cuestionario que aportan más información.
Error absoluto medio (mean absolute error) para el algoritmo tiene un valor de 0,44
Error cuadrático medio (root mean square error) para el algoritmo tiene un valor de
0,58
Objetivo 2: Identificar las preguntas del cuestionario que aportan más información.
5. Evaluación
6. Implantación
En esta fase explicamos como utilizar los modelos generados en este proyecto,
con el fin de guiar al cliente al momento de hacer uso de ellos. También incluimos
un plan para controlar y mantenerlo y mostrar un informe con posibles mejoras a
futuro y las limitaciones y problemas durante la realización del proyecto.
• La distribución de los datos se divide según los modelos, es decir, los datos de
las calificaciones y la CargaIyE se generan en un archivo aparte para el modelo de
regresión, y los valores de las respuestas del cuestionario de Carga Cognitiva en
otro.
La etapa de obtención de los datos fue algo laboriosa pero no complicada, ya que
ya se contaban con los datos ya relacionados para este estudio. Estos datos ya se
tenían previamente analizados y estructurados, por lo que la limpieza de los datos,
conversiones o formateo de estos fue laboriosa, pero no muy tardado.
Bibliografía
Chapman, P., & Clinton, J. (2000). “CRISP-DM 1.0 Step by step guide.”
Gorunescu, F. (2011). Data Mining Concepts, Models and Techniques. In
Intelligent Systems Reference Library (Vol. 12). Springer-Verlag Berlin
Heidelberg. https://doi.org/10.1007/978-3-642-19721-5_1
Anexo 1. Glosario de Terminología de Minería de Datos
Utilizada