Mineria de Datos

CENTRO DE CIENCIAS BÁSICAS
DEPARTAMENTO DE SISTEMAS DE INFORMACIÓN
MAESTRÍA EN INFORMÁTICA Y TECNOLOGÍAS COMPUTACIONALES
MATERIA:
SISTEMAS DECISIONALES DE MINERÍA DE DATOS
APLICACIÓN DE LA METODOLOGÍA CRISP AL PROBLEMA DE

MINERÍA DE DATOS DE LAS CALIFICACIONES DE LOS
ALUMNOS Y DE LOS CUESTIONARIOS BASADOS EN LA TEORÍA
DE CARGA COGNITIVA
PRESENTA:
LI. Cinthya Elizabeth Pedroza Mercado
II. Adrián Emilio Caldera Hermosillo
IC. Carlos Sandoval Medina
PROFESOR:
Dra. Eunice Esther Ponce de León Sentí
AGUASCALIENTES, AGS., 25 DE JUNIO DE 2021

Resumen
En este proyecto se presenta paso a paso la aplicación de la metodología CRISP-
DM, desde la concepción del problema, el cuál fue la búsqueda constante de
soluciones en materia educativa al problema y la dificultad que representa el
aprendizaje de la programación para la mayoría de los estudiantes de la
Universidad Autónoma de Aguascalientes, donde se han presentado altos índices
de reprobación principalmente en materias de programación lo que provoca a su
vez una alta deserción educativa en dichas carreras; mediante la carga cognitiva
en los estudiantes se ha detectado como un factor que influye en este problema,
por ello se ha aplicado un estudio cuasi experimental mediante un cuestionario
para la medición de la carga cognitiva a los estudiantes de la carrera de Ingeniería
en Sistemas Computacionales de segundo semestre y se reunieron sus
calificaciones.
Siguiendo la metodología se busca cumplir con los objetivos propuestos y utilizar

los modelos que servirían a la Universidad en el sentido de indicar al maestro si el
material que brinda es complejo y la posible calificación que obtendrían, para
poder tomar la decisión de buscar alternativas de enseñanzas y reducir la
reprobación de los alumnos.
Índice General
Introducción...............................................................................................................5
1. Comprensión del problema o negocio................................................................6
1.1 Determinar los objetivos del negocio...........................................................6
1.2 Evaluación de la situación............................................................................7
1.3 Determinar los objetivos de la minería de datos..........................................9
1.4 Realizar el plan del proyecto........................................................................9
2. Comprensión de los datos................................................................................10
2.1 Recolectar los datos iniciales.....................................................................11
2.2 Descripción de los datos............................................................................12
2.3 Exploración de los datos............................................................................13
2.4 Verificar la calidad de los datos..................................................................21
3. Preparación de los datos..................................................................................22
3.1 Selección de datos.....................................................................................22
3.2 Limpieza de datos......................................................................................24
3.3 Construcción de nuevos datos...................................................................24
3.4 Integración de datos...................................................................................24
3.5 Formato de datos.......................................................................................25
4. Modelado...........................................................................................................25
4.1 Escoger la Técnica de Modelado...............................................................25
4.2 Generar el Plan de Prueba.........................................................................26
4.3 Construir el Modelo....................................................................................27
4.4 Evaluar el Modelo.......................................................................................29
5. Evaluación.........................................................................................................30
5.1 Evaluar los Resultados...............................................................................30
5.2 Revisar el Proceso.....................................................................................31
5.3 Determinar los Próximos Pasos.................................................................31
6. Implantación......................................................................................................31
6.1 Planear la Implantación..............................................................................32
6.2 Planear la Monitorización y Mantenimiento...............................................32
6.3 Producir el Informe Final............................................................................33
6.4 Revisar el Proyecto....................................................................................34
Bibliografía...............................................................................................................35
Anexo 1. Glosario de Terminología de Minería de Datos Utilizada........................36
Introducción
La minería de datos es el conjunto de técnicas y tecnologías que permiten explorar

grandes bases de datos, de manera automática o semiautomática, con el objetivo
de encontrar patrones repetitivos, tendencias o reglas que expliquen el
comportamiento de los datos en un determinado contexto. La minería de datos es,
básicamente, de gran relevancia y la solución definitiva a muchos problemas de la
vida real como, por ejemplo: para los bancos como puede ser la modelización y
previsión del fraude crediticio; evaluación de riesgos; análisis de tendencia;
análisis de rentabilidad. Para la venta de productos y servicios como estrategias
de venta de nuevos productos; identificación del perfil de cliente potencial y leal;
identificar los factores que influyen en el comportamiento de sus clientes, entre
muchos otros más (Gorunescu, 2011).
Tiene aplicaciones incluso en la atención de la salud, como prediciendo los costos

de la atención médica y predicción de diagnósticos médicos. En resumen, la
minería de datos surge para intentar ayudar a comprender y ver más allá de los
datos. Con este fin, hace uso de prácticas estadísticas y, en algunos casos, de
algoritmos cada vez más complejos. El proceso central de la minería de datos
consiste en construir un modelo particular para representar el conjunto de datos
que se extrae para resolver algunos problemas concretos de la vida real
(Gorunescu, 2011).
Para llevar a cabo todo el proceso general de minería de datos, existen una serie
metodologías estudiadas y reconocidas. Una de las metodologías más utilizadas
son la metodología CRISP-DM (Cross-Industry Standard Process for Data Mining),
la cual integra todas las tareas necesarias en los proyectos de minería de datos,
desde la fase de comprensión del problema hasta la puesta en producción de
sistemas automatizados analíticos, predictivos. Por lo general, un proyecto de
minería de datos implica una combinación de diferentes tipos de problemas, los
cuales se atienden según los objetivos de minería de datos que, en conjunto,
resuelven el problema y cumplen con el objetivo del negocio (Chapman & Clinton,
2000)
1. Comprensión del problema o negocio
Es la fase más importante de la metodología CRISP-DM, ya que es fundamental

comprender el problema o negocio correctamente, sino se comprende
correctamente el problema o negocio, las fases siguientes de la metodología no
funcionarán y no se obtendrán los resultados esperados. Las actividades
principales de esta fase o etapa de la metodología son:
● Determinar los objetivos del negocio

● Evaluación de la situación
● Determinar los objetivos de la minería de datos
● Realizar el plan del proyecto
1.1 Determinar los objetivos del negocio
La formación de profesionales en el área de programación a lo largo de la historia

ha representado un reto, debido a que la mayoría de los estudiantes de las
carreras afines a las ciencias computacionales presentan dificultades en el
aprendizaje de la programación, lo que provoca índices de reprobación y
abandono significativos. Lo anterior se ha traducido en una búsqueda constante
de soluciones en materia educativa al problema o dificultad que representa el
aprendizaje de la programación para la mayoría de los estudiantes. En el caso de
la Universidad Autónoma de Aguascalientes también se tiene este problema en las
carreras afines a las ciencias computacionales con altos índices de reprobación
principalmente en materias de programación lo que provoca a su vez una alta
deserción educativa en dichas carreras. La carga cognitiva en los estudiantes se
ha detectado como un factor que influye en este problema, por ello se ha aplicado
un estudio cuasi experimental mediante un cuestionario para la medición de la
carga cognitiva a los estudiantes de la carrera de Ingeniería en Sistemas
Computacionales de segundo semestre. El cuestionario consta de 10 preguntas
utilizando una escala de 0-10.
En este contexto, el objetivo de minería de datos consiste en determinar cuáles de

las preguntas del cuestionario para la medición de carga cognitiva aportan más
información y poder predecir la calificación de un estudiante basándonos en los
resultados del cuestionario para la medición de carga cognitiva. El objetivo es
proporcionar una herramienta de apoyo a la toma de decisiones, para predecir el
índice de reprobación en las materias de programación y así poder implementar
soluciones alternativas.
Criterio de éxito del negocio

El criterio de éxito del negocio es, brindar a los maestros alternativas de
enseñanza en materias de programación y poder reducir los índices de
reprobación.
1.2 Evaluación de la situación
Actualmente se cuenta con los datos de los cuestionarios aplicados a 5 grupos de

la carrera de Ingeniería en Sistemas Computacionales de la Universidad
Autónoma de Aguascalientes. Los resultados se tienen almacenados en archivos
en Excel con información de ID del alumno, correo y las respuestas a cada una de
las preguntas en escalas de 0 a 10.
Por otra parte, los algoritmos de minería de datos de componentes principales y

análisis de regresión se llevarán a cabo utilizando software especializado como lo
es Weka y el lenguaje R.
Hardware:
Características técnicas
Modelo
Asus Strix GL753VD-GC045T (Strix GL753 Series)
Procesador
Intel Core i7-7700HQ
Adaptador gráfico
NVIDIA GeForce GTX 1050 Mobile - 4096 MB, Núcleo: 1354 MHz, Memoria:
1752 MHz, GDDR5 376.19, Optimus
Memoria
16384 MB, DDR4 SDRAM Dual-Channel
Placa base
Intel HM175
Disco duro
Micrón SSD 1100 (MTFDDAV256TBN) 256 GB + Toshiba MQ01ABD100 1 TB
HDD (2.5”)
Conexiones
1 USB 2.0, 4 USB 3.0, 1 HDMI, 1 DisplayPort, 1 Kensington Lock Audio,
Headset 3.5mm, Card Reader: lector SD
Equipamiento de red
Realtek RTL8168/8111 Gigabit-LAN (10/100/1000/2500/5000MBit/s), Intel
Wireless-AC 7265 (a/b/g/n = Wi-Fi 4/ac = Wi-Fi 5), Bluetooth 4.0
Sistema Operativo
Microsoft Windows 10 Home 64 Bit
Los datos con los que se cuenta son de dos grupos de primer semestre de la
carrera de ISC de la UAA, en el periodo Agosto – Diciembre 2020, y tres grupos
de segundo semestre de la carrera ISC de la UAA en el periodo Enero – Julio
2021.
Costos y beneficios
Los datos recolectados en el proyecto no representaron ningún costo adicional ya
que las herramientas utilizadas son las mismas proporcionadas por la Universidad,
en este caso se utilizó Forms de Microsoft.
En los beneficios, se espera reducir los índices de reprobación y abandono en las

materias de programación, proporcionando a los maestros una herramienta de
apoyo para la toma de decisiones para la búsqueda de alternativas de enseñanza.
1.3 Determinar los objetivos de la minería de datos
Los objetivos en términos de minería de datos son:
● Objetivo1: Predecir la calificación de un alumno con base en los resultados

obtenidos en el cuestionario para la medición de carga cognitiva.
● Objetivo2: Identificar las preguntas del cuestionario que aportan más

información.
Criterios de éxito de minería de datos

Los criterios de éxito que se establecen son, realizar predicciones de posibles
calificaciones con un alto grado de fiabilidad, brindando la posibilidad a los
maestros de poder tomar decisiones para buscar alternativas de enseñanza y
poder reducir los índices de reprobación en las materias de programación. El
grado de fiabilidad se determinará en la etapa de evaluación de acuerdo con el
modelo seleccionado.
1.4 Realizar el plan del proyecto
En el proyecto se contemplan las siguientes etapas generales:
1. Análisis de la estructura de los datos. Incluye una depuración inicial. Tiempo

estimado (Semana 1).
2. Exploración y verificación de calidad de los datos. Tiempo estimado (Semana
1).
3. Preparación de los datos para el análisis, lo que implica principalmente

eliminación de datos incompletos. Tiempo estimado (Semana 2).
4. Modelado. En esta etapa se utilizarán las herramientas de análisis Weka y el

lenguaje R para encontrar los componentes principales y hacer el modelo de
regresión para la predicción de las calificaciones. Tiempo estimado (Semana 3).
5. Evaluación de los resultados. Se evaluarán los resultados de los análisis a la luz

de la evidencia existente (datos originales). Tiempo estimado (Semana 3).
6. Implementación. Para este trabajo, se plantean algunas recomendaciones

basadas en los resultados de los análisis. De la misma forma, se dará lugar a
nuevas inquietudes que son a su vez la semilla de otros proyectos de minería de
datos. Tiempo estimado (Semana 4).
Las herramientas por utilizar para desarrollar el proyecto de minería de datos son,
Weka para el modelo de regresión y el lenguaje R para los componentes
principales, ya que son las herramientas vistas en clase.
2. Comprensión de los datos
En la fase de compresión de los datos es necesario estudiar más de cerca y

comprender los datos que vamos a utilizar para el proceso de minería de datos.
Este punto es esencial para no tener problemas en la siguiente fase que es la
preparación de los datos. La fase de compresión de los datos implica las
siguientes actividades:
● Recolectar los datos iniciales

● Descripción de los datos
● Exploración de los datos
● Verificar la calidad de los datos
2.1 Recolectar los datos iniciales
Los datos recolectados para este proyecto corresponden a alumnos de la carrera

de Ingeniería en Sistemas Computacionales de la Universidad Autónoma de
Aguascalientes, donde se cuenta con información de 3 grupos A, B y C, que
corresponde a las calificaciones del segundo y tercer parcial de la materia de
programación I, así como los resultados del cuestionario aplicado para la medición
de carga cognitiva, y en base a la relación del resultado del cuestionario con las
calificaciones, realizar predicciones de posibles calificaciones que cumplan con el
objetivo del proyecto.
Los datos recolectados son:
● Alumnos:
 Se tiene un listado con el nombre del alumno y su ID escolar.
● Calificación segundo parcial:
 Calificación obtenida en el segundo parcial de la materia de
Programación I.
● Calificación tercer parcial:
 Calificación obtenida en el tercer parcial de la materia de
Programación I.
● Respuestas del cuestionario de carga cognitiva aplicado a los
alumnos
 El formato de las respuestas del cuestionario es en una escala de 0
– 10.
Para el proyecto en particular, a excepción del nombre del alumno, todos los datos
o atributos serán fundamentales para realizar el proceso de minería de datos y
alcanzar los objetivos deseados.
La información es recabada a través de listas en archivos en Excel, donde se

enlistan los alumnos participantes, en lo que respecta a las respuestas del
cuestionario para la medición de carga cognitiva se realiza en línea mediante la
herramienta de Forms de Microsoft, donde los resultados son exportados a
archivos en Excel.
Solo se ha tenido que agregar una columna adicional en los archivos de los
cuestionarios para la medición de carga cognitiva para calcular el total de carga
cognitiva correspondiente a cada alumno y suprimir la columna del nombre del
estudiante.
2.2 Descripción de los datos
Los datos se tienen almacenados en archivos de Excel, un archivo para las

calificaciones de los parciales 2 y 3 de la materia de programación, con el nombre
del alumno e ID, esto para cada grupo participante. De igual forma en otro archivo
se tiene las respuestas obtenidas de la aplicación del cuestionario para la
medición de la carga cognitiva con el ID del alumno y sus respuestas, un archivo
por cada grupo participante. A continuación, imágenes de los archivos con los
registros de calificaciones, así como del cuestionario de carga cognitiva.
2.3 Exploración de los datos
En esta fase se procede a la exploración de los datos que nos ayude a realizar un
mejor análisis de lo que tenemos y cómo utilizarlo para el cumplimiento de los
objetivos planteados, en este caso para el proyecto en particular se presentan las
siguientes gráficas:
Carga Intrínseca y Extrínsica Grupo E1

8.00
7.00
6.00
5.00
4.00
3.00
2.00
1.00
0.00
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
Ilustración 1. Resultados medición carga cognitiva Intrínseca y Extrínseca grupo

experimental 1.
Carga Relevante Grupo E1
12.00
10.00
8.00
6.00
4.00
2.00
0.00
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
Ilustración 2. Resultados medición carga cognitiva Relevante grupo experimental

1.
Carga Intrínseca y Extrínseca Grupo E2

12.00
10.00
8.00
6.00
4.00
2.00
0.00
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

experimental 2.
12.00
10.00
8.00
6.00
4.00
2.00
0.00
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

experimental 2.
Carga Intrínseca y Extrínseca Grupo E3

7.00
6.00
5.00
4.00
3.00
2.00
1.00
0.00
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

experimental 3.
12.00
10.00
8.00
6.00
4.00
2.00
0.00
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
Ilustración 6. Resultados medición carga cognitiva Relevante grupo experimental

3.
Calificaciones 2 parcial Grupo E1

12.0
10.0
8.0
6.0
4.0
2.0
0.0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
Ilustración 7. Calificaciones 2 parcial grupo experimental 1.

Calificaciones 3 parcialGrupo E1
12.0
10.0
8.0
6.0
4.0
2.0
0.0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

12.0
10.0
8.0
6.0
4.0
2.0
0.0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

12.0
10.0
8.0
6.0
4.0
2.0
0.0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

12.0
10.0
8.0
6.0
4.0
2.0
0.0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

12.0
10.0
8.0
6.0
4.0
2.0
0.0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
Ilustración 13. Histograma calificaciones grupo experimental 1.

2.4 Verificar la calidad de los datos
Cuando trabajamos en proyectos de minería de datos, los datos no suelen ser

perfectos. De hecho, la mayoría de los datos contienen errores de codificación,
valores perdidos u otro tipo de incoherencias que hacen que los análisis resulten
difíciles en algunas ocasiones. Una forma de evitar posibles problemas es realizar
un análisis de calidad de los datos disponibles antes de proceder al modelado.
Para el proyecto en particular, solo se realizó un filtrado de los alumnos que

contestaron el cuestionario y se reajustaron los grupos puesto que no participó el
total de los alumnos de cada grupo. En la exploración realizada anteriormente, se
encontró que los datos cumplen con la calidad requerida, no contienen errores, y
los valores para cada campo son correctos.
3. Preparación de los datos
Esta fase de preparación de los datos es una de las más importantes y también de
las que más tiempo se requiere para su realización. Si se realizó un buen trabajo
en las fases anteriores influye de forma positiva en el trabajo a realizar en esta
fase. La preparación de los datos implica las siguientes tareas:
● Selección de datos
● Limpieza de datos
● Construcción de nuevos datos
● Integración de datos
● Formato de datos
3.1 Selección de datos
En base a la recolección inicial de datos, se realiza una selección específica de los

datos relevantes que van a ser utilizados en el proceso de minería de datos para
llevar a cabo el alcance de los objetivos planteados. En base a lo anterior se
plantea la selección de los datos como se indica a continuación.
Se utilizará la totalidad de los registros recopilados de cada uno de los alumnos
participantes de los 3 grupos, pero de estos algunos campos no serán utilizados
puesto que no aportan información para el cumplimiento de nuestros objetivos.
Los campos seleccionados para el análisis son los siguientes:
● Calificación segundo parcial:

 Calificación obtenida en el segundo parcial de la materia de
Programación I.
● Respuestas del cuestionario de carga cognitiva aplicado a los
alumnos
 El formato de las respuestas del cuestionario es en una escala de 0
– 10.
● Tabla_CalGE1
 ID
 Pre
 Post
● Tabla_CalGE2
 ID
 Pre
 Post
● Tabla_CalGE3
 ID
 Pre
 Post
● Tabla_Cuestionario CL (GE1) (1-25)
 ID:
 CargaIyE
 ID:
 CargaIyE
 ID:
 CargaIyE
3.2 Limpieza de datos
La información que se tiene para el proyecto contiene toda la información

necesaria para poder cumplir los objetivos de la minería de datos, además, estos
datos son datos limpios y por lo tanto no hay necesidad de hacer una limpieza
más profunda sobre ellos. Tampoco tenemos campos en los que falten valores y
tampoco hay valores nulos, por lo que no se consideran como datos faltantes, por
lo que no es necesario realizar ningún tipo de estimación de valores faltantes.
Para generar el modelo relacionado con el objetivo de la minería de datos, es

decir, predecir la calificación de un alumno con base en los resultados obtenidos
en el cuestionario para la medición de carga cognitiva, será necesario utilizar el
campo “CargaIyE”, este campo se calcula en base al promedio de las respuestas
de las preguntas 1 a la 6.
3.3 Construcción de nuevos datos
Para este apartado se considera agregar una tabla llamada Tabla_Alumnos_Calif

en un archivo en formato Excel donde se considera el ID del alumno y la
calificación en un solo archivo ya que se tienen separados por grupo.
● Tabla_Alumnos_Calif
También se crea una nueva tabla en un archivo Excel ConcentradoCuestionario,

donde se integran los datos de los resultados de los cuestionarios de todos los
grupos en un solo archivo, dejando solamente los campos a utilizar para el
segundo objetivo de minería de datos el cual es saber cuáles son las preguntas
del cuestionario que aportan más información, para ello solo se dejó en el archivo
los campos necesarios como se muestra en la siguiente imagen:
3.4 Integración de datos
En esta sección se considera integrar en la nueva tabla Tabla_Alumnos_Calif el

siguiente campo, que corresponde al cálculo de carga cognitiva de acuerdo con
las respuestas obtenidas en el cuestionario de carga cognitiva:
 CargaIyE
3.5 Formato de datos
No se tiene ningún problema con los datos, ya que se encuentran en formato

numérico.
4. Modelado
En esta fase se deben escoger las técnicas necesarias para el modelado y lograr
los dos objetivos marcados en este proyecto de minería de datos. Los objetivos
son:
Objetivo 1: Predecir la calificación de un alumno con base en los resultados
Objetivo 2: Identificar las preguntas del cuestionario que aportan más

información.
Además de elegir las técnicas, se debe establecer un plan de prueba para las
técnicas escogidas para el modelado. Después del plan de prueba, se continua
con la generación del modelado tomando en cuenta los datos y por último se
evalúa si el modelo cumple con los criterios de éxito
4.1 Escoger la Técnica de Modelado
Debido a que se va a utilizar Weka y el lenguaje R para realizar la minería de

datos, se utilizarán las técnicas de modelado que ofrece la herramienta de
acuerdo con los objetivos del proyecto, como son:

De los modelos que ofrece Weka, el que mejor se adapta al objetivo mencionado
es el análisis de regresión, ya que el problema que se quieren resolver es de
predicción.
Objetivo 2: Identificar las preguntas del cuestionario que aportan más información.
De los modelos que ofrece R, el que mejor se adapta al objetivo mencionado es el

Análisis de Componentes Principales, ya que el problema que se quieren resolver
es la extracción de las variables más importantes, en este caso, las preguntas del
cuestionario que aportan más información.
4.2 Generar el Plan de Prueba

Para el Objetivo 1, el Plan de Prueba consistirá en calcular las medidas más
habituales que arrojan los modelos de regresión. Estas medidas son el error
cuadrático medio, el error absoluto medio y la confianza predictiva. Al momento de
ejecutar el modelo de regresión, el Weka automáticamente nos genera estas
medidas las cuales posteriormente se consideran para la evaluación del modelo.
Como parte del Plan de Prueba, se puede dividir los datos en dos grupos antes de
generar el modelo: por un lado, está el conjunto de datos que se van a utilizar para
generar el modelo, llamados datos de entrenamiento, y un segundo conjunto de
datos que se emplea para realizar las pruebas y medir la calidad del modelo,
llamados datos de prueba o de evaluación. En la Figura se muestran las opciones
que ofrece Weka:
Para el Objetivo 2, las preguntas con más información del Análisis de

Componentes Principales se seleccionan de acuerdo con el siguiente método:
calcular la proporción de variación explicada de cada característica e ir tomando
dimensiones hasta alcanzar un mínimo del 85% de la variabilidad total.
4.3 Construir el Modelo

En este punto se muestra el procedimiento de la ejecución del modelo con las
técnicas seleccionadas, comenzado por el ajuste de los parámetros que permite
manipular el Weka, los resultados de la ejecución del modelo según los datos
separados como entrenamiento y, por último, la evaluación de este. El
procedimiento se divide por cada objetivo de minería de datos como se muestra a
continuación:

El atributo sobre el cual queremos hacer la predicción es “Cal”, el cual se refiere a

la calificación del alumno, con base a el valor obtenido de Carga Cognitiva
“CargaIyE”. Todas las filas de los datos son completas, es decir, no tenemos
ninguna observación de algún atributo como nulo. En resumen, para el modelo se
manejan los siguientes atributos: “ID”, “Cal” y “CargaIyE”. Se utilizan los
parámetros que vienen por default para la regresión lineal en Weka, como se
muestra a continuación:
Sobre las preguntas del cuestionario de Carga Cognitiva, para el modelo

utilizaremos todas las preguntas del cuestionario con el fin de extraer las
preguntas más importantes. Para esto, se llevará a cabo el Análisis de
Componentes Principales y se sigue el método de: “elegir arbitrariamente las
primeras 4 dimensiones”.
Ajuste de parámetros

Parámetros del Objetivo 1: Los parámetros empleados para el algoritmo, fueron lo

que vienen como predeterminados en el Weka. En la Figura se muestran los
parámetros mencionados:
Parámetros del Objetivo 2: Los parámetros para el PCA se muestran a

continuación:
Modelos

Modelo del Objetivo 1: Para ejecutar el modelo, los datos se dividieron en datos de
entrenamiento y datos para el conjunto de prueba. Además de lo anterior, los
cálculos de la ejecución del modelo se muestran a continuación:
Modelo del Objetivo 2: Los detalles del PCA se muestran a continuación:
Descripción de los resultados del modelo

Descripción de los resultados del modelo Objetivo 1: A continuación, se describen
los resultados de la ejecución del Modelo del Objetivo 1, tomando en cuenta las
medidas establecidas en el Plan de Prueba:
Este modelo ha devuelto los siguientes resultados:
Confianza predictiva (predictive confidence) para el algoritmo tiene un valor del

68,05%
Error absoluto medio (mean absolute error) para el algoritmo tiene un valor de 0,44
Error cuadrático medio (root mean square error) para el algoritmo tiene un valor de
0,58
Descripción de los resultados del modelo Objetivo 2: A continuación, se describen

los resultados de la ejecución del Modelo del Objetivo 2:
4.4 Evaluar el Modelo

Recordando el Plan de Prueba, se requiere calcular las medidas más habituales

que arrojan los modelos de regresión. Estas medidas son el error cuadrático
medio, el error absoluto medio y la confianza predictiva. Al momento de ejecutar el
modelo de regresión, el Weka automáticamente nos genera estas medidas las
cuales posteriormente se consideran para la evaluación del modelo.
Tomando en cuenta los valores resumidos en el punto 4.3 del proyecto, se

concluye que:
El modelo tiene un valor de un 68,05% de confianza predictiva para el algoritmo.

El valor del error absoluto medio es (0,44). Tomando en cuenta estos valores, es
conveniente utilizar este modelo para resolver el objetivo 1.
(En caso de que los valores del modelo no sean buenos) Estos valores indican
que no son suficientes para garantizar una predicción muy fiable para la
calificación de los alumnos en base a la CargaIyE y es probable la relación de los
datos, por lo que es posible que sea necesario obtener más datos.
5. Evaluación
La evaluación que se presenta a continuación es evaluar los modelos obtenidos

desde el enfoque del objetivo del negocio con el fin concluir si los objetivos fueron
cumplidos y en su caso, continuar con la implementación del modelo. El grado de
evaluación aceptable para el modelo de regresión es del 60% de fiabilidad como
mínimo. Para el PCA se deben seleccionar los Componentes que en conjunto
reúnan por lo menos el 85% de la variabilidad total.
5.1 Evaluar los Resultados
Tomando en cuenta las medidas obtenidas mediante las herramientas de minería

de datos como Weka y R, a continuación, se realiza la evaluación de los modelos
para así aceptar los que cumplan con los objetivos:
Modelo del Objetivo 1:
El Modelo del Objetivo 1 se acepta ya que se pueden hacer predicciones acerca

de la calificación de un alumno a partir del valor obtenido en el atributo CargaIyE
con un porcentaje de fiabilidad de un 68%.
Modelo del Objetivo 1:
El Modelo del Objetivo 1 se acepta ya que se pudieron seleccionar 4

Componentes con un porcentaje de variabilidad total de un 85%.
Modelos aprobados
Según el punto 5.1 del proyecto, los modelos aprobados son el modelo 1 y el
modelo 2 que cumplen con los criterios de éxito de negocio.
5.2 Revisar el Proceso
Durante la ejecución del modelo no se presentaron problemas debido a que la

base de datos utilizada cuenta con todos los datos necesarios para cumplir con el
Objetivo 1 y Objetivo 2 de minería de datos, logrando una predicción fiable sobre
las calificaciones de los alumnos.
5.3 Determinar los Próximos Pasos
Una vez aprobados los modelos, continuamos con la etapa de implantación de

estos.
6. Implantación
En esta fase explicamos como utilizar los modelos generados en este proyecto,
con el fin de guiar al cliente al momento de hacer uso de ellos. También incluimos
un plan para controlar y mantenerlo y mostrar un informe con posibles mejoras a
futuro y las limitaciones y problemas durante la realización del proyecto.
6.1 Planear la Implantación
Para la implantación, primeramente, sería muy importante y de gran ayuda para el

modelo, reunir más información de muchos más alumnos para entrenar con más
datos el modelo y obtener mejores resultados. Una vez hecho esto, se debe seguir
la misma metodología aplicada en este proyecto (CRISP-DM). Las fases más
difíciles de desarrollar son las primeras, las cuales serían la de comprensión y
preparación de todos los datos necesarios, lo cual puede llevar mayor tiempo ya
que se espera generar una base de datos con muchos más registros y todo el
proceso de limpieza.
Después, la Universidad deberá instalar y mantener las herramientas de software

Weka y R para utilizar el modelo guardado de regresión y el Script en R para
generar los Componentes Principales. Una vez contando con más datos, y con las
herramientas, los modelos pueden ser utilizados y lograr los objetivos del cliente.
6.2 Planear la Monitorización y Mantenimiento
Los datos que requiere el modelo se refieren a la calificación de la materia de los

alumnos de la Universidad, es decir, la extracción de los datos se obtiene en
períodos semestrales. Al momento de integrar los nuevos datos a la base de datos
existente se deben seguir los siguientes pasos:
• Se recomienda que la extracción de los datos sea semestral, guardando la

información obtenida en formato de hoja de cálculo,
• La distribución de los datos se divide según los modelos, es decir, los datos de
las calificaciones y la CargaIyE se generan en un archivo aparte para el modelo de
regresión, y los valores de las respuestas del cuestionario de Carga Cognitiva en
otro.
• Se recomienda guardar los archivos separados por modelo y por semestre, y

llevar un concentrado de todos aparte para su utilización en los modelos.
6.3 Producir el Informe Final

La metodología CRISP-DM nos permitió integrar todas las tareas necesarias en el
proyecto de minería de datos, desde la fase de comprensión del problema hasta la
implantación de los modelos generados para el análisis y la predicción.
Como parte de nuestra experiencia a lo largo del proyecto tenemos que:
La etapa de obtención de los datos fue algo laboriosa pero no complicada, ya que
ya se contaban con los datos ya relacionados para este estudio. Estos datos ya se
tenían previamente analizados y estructurados, por lo que la limpieza de los datos,
conversiones o formateo de estos fue laboriosa, pero no muy tardado.
Después, en la elección de las técnicas de modelado y la ejecución de este en las

herramientas Weka y R, se facilitó la aplicación de los modelos ya que las
herramientas fueron bien explicadas a lo largo de toda la materia, por lo que
pudimos realizar estas etapas sin grandes complicaciones.
Al final, después de seguir todos los pasos de la metodología, como conclusión

obtuvimos que, de acuerdo con el criterio de éxito del negocio, el cual fue, brindar
a los maestros alternativas de enseñanza en materias de programación y poder
reducir los índices de reprobación, los modelos generados del Objetivo 1 servirían
para predecir la calificación de un alumno con base al valor obtenido en la
CargaIyE. El valor de CargaIyE indica qué tan complejo considera el alumno que
es el material de enseñanza. Esta información serviría al objetivo del negocio en el
sentido de indicar al maestro si el material que brinda es complejo y la posible
calificación que obtendrían, para poder tomar la decisión de buscar alternativas de
enseñanzas y reducir la reprobación de los alumnos. Igualmente, el Análisis de
Componentes Principales servirían al maestro para darse cuenta específicamente
en qué aspecto tomar mayor importancia según la respuesta del alumno. Del
Objetivo 2, se han sacado otras conclusiones a partir de los datos estudiados,
concretamente se han identificado las preguntas del cuestionario de Carga
Cognitiva con mayor “importancia”.
6.4 Revisar el Proyecto
Los resultados positivos que obtuvimos en este proyecto fueron:
● Con los datos utilizados obtuvimos un modelo de regresión y el análisis de los

componentes que cumplieron con los objetivos propuestos.
Los resultados a mejorar en futuros proyectos:
● Para la obtención de más datos, es necesario mencionar que es posible que

influyen muchos factores que no podemos manejar que causan que los datos
obtenidos de los alumnos del cuestionario de Carga no sean tan confiables.
● Creemos que al disponer de la cantidad y veracidad de datos necesaria se
obtendrían mejores resultados.
Bibliografía
Chapman, P., & Clinton, J. (2000). “CRISP-DM 1.0 Step by step guide.”
Gorunescu, F. (2011). Data Mining Concepts, Models and Techniques. In
Intelligent Systems Reference Library (Vol. 12). Springer-Verlag Berlin
Heidelberg. https://doi.org/10.1007/978-3-642-19721-5_1
Anexo 1. Glosario de Terminología de Minería de Datos
Utilizada
Carga Cognitiva: demanda de recursos de la memoria de trabajo para aprender y

resolver una tarea o problema de aprendizaje
Metodología CRISP-DM: término general para todos los conceptos desarrollados y
definidos en CRISP-DM.
Minería de datos: representa un conjunto de tecnologías y técnicas en muchas
disciplinas: matemáticas, estadística, informática, física, ingeniería, biología, etc., y
con diversas aplicaciones en una gran variedad de diferentes dominios: negocios,
salud, ciencia e ingeniería, etc.
Modelo: la capacidad de aplicar algoritmos a un conjunto de datos para resolver
un problema.
Fase: parte de alto nivel del modelo de proceso CRISP-DM; consta de tareas
relacionadas.
Índice de reprobación: es el porcentaje de alumnos que reprueban en exámenes
finales
Predecir: obtener un valor aproximado según una o muchas variables
independiente.
R: entorno de programación libre que se utiliza para el procesamiento y análisis
estadístico de datos
Técnicas de minería de datos: el tipo de herramientas de acuerdo con un dominio
de aplicación.
Teoría de la Carga Cognitiva: es una teoría sobre cómo el cerebro humano
aprende y almacena conocimientos.
Tipo de datos: es un atributo de los datos, como por ejemplo numérico.
Tipo de problema de minería de datos: una clase de problemas típicos de minería
de datos, como descripción y resumen de datos, segmentación, descripciones de
conceptos, clasificación, predicción, análisis de dependencia.
Weka: plataforma de software para el aprendizaje automático y la minería de datos
escrito en Java

Mineria de Datos

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Mineria de Datos

Cargado por

Copyright:

Formatos disponibles

CENTRO DE CIENCIAS BÁSICAS

DEPARTAMENTO DE SISTEMAS DE INFORMACIÓN

MAESTRÍA EN INFORMÁTICA Y TECNOLOGÍAS COMPUTACIONALES

APLICACIÓN DE LA METODOLOGÍA CRISP AL PROBLEMA DE

AGUASCALIENTES, AGS., 25 DE JUNIO DE 2021

Siguiendo la metodología se busca cumplir con los objetivos propuestos y utilizar

La minería de datos es el conjunto de técnicas y tecnologías que permiten explorar

Tiene aplicaciones incluso en la atención de la salud, como prediciendo los costos

1. Comprensión del problema o negocio

Es la fase más importante de la metodología CRISP-DM, ya que es fundamental

● Determinar los objetivos del negocio

1.1 Determinar los objetivos del negocio

La formación de profesionales en el área de programación a lo largo de la historia

En este contexto, el objetivo de minería de datos consiste en determinar cuáles de

Criterio de éxito del negocio

1.2 Evaluación de la situación

Actualmente se cuenta con los datos de los cuestionarios aplicados a 5 grupos de

Por otra parte, los algoritmos de minería de datos de componentes principales y

En los beneficios, se espera reducir los índices de reprobación y abandono en las

1.3 Determinar los objetivos de la minería de datos

Los objetivos en términos de minería de datos son:

● Objetivo1: Predecir la calificación de un alumno con base en los resultados

● Objetivo2: Identificar las preguntas del cuestionario que aportan más

Criterios de éxito de minería de datos

1.4 Realizar el plan del proyecto

En el proyecto se contemplan las siguientes etapas generales:

1. Análisis de la estructura de los datos. Incluye una depuración inicial. Tiempo

3. Preparación de los datos para el análisis, lo que implica principalmente

4. Modelado. En esta etapa se utilizarán las herramientas de análisis Weka y el

5. Evaluación de los resultados. Se evaluarán los resultados de los análisis a la luz

6. Implementación. Para este trabajo, se plantean algunas recomendaciones

En la fase de compresión de los datos es necesario estudiar más de cerca y

● Recolectar los datos iniciales

2.1 Recolectar los datos iniciales

Los datos recolectados para este proyecto corresponden a alumnos de la carrera

Los datos recolectados son:

La información es recabada a través de listas en archivos en Excel, donde se

2.2 Descripción de los datos

Los datos se tienen almacenados en archivos de Excel, un archivo para las

Carga Intrínseca y Extrínsica Grupo E1

Ilustración 1. Resultados medición carga cognitiva Intrínseca y Extrínseca grupo

Ilustración 2. Resultados medición carga cognitiva Relevante grupo experimental

Carga Intrínseca y Extrínseca Grupo E2

Ilustración 3. Resultados medición carga cognitiva Intrínseca y Extrínseca grupo

Ilustración 4. Resultados medición carga cognitiva Intrínseca y Extrínseca grupo

Carga Intrínseca y Extrínseca Grupo E3

Ilustración 5. Resultados medición carga cognitiva Intrínseca y Extrínseca grupo

Ilustración 6. Resultados medición carga cognitiva Relevante grupo experimental

Calificaciones 2 parcial Grupo E1

Ilustración 7. Calificaciones 2 parcial grupo experimental 1.

Ilustración 8. Calificaciones 3 parcial grupo experimental 1.

Calificaciones 2 parcial Grupo E2

Ilustración 9. Calificaciones 2 parcial grupo experimental 2.

Ilustración 10. Calificaciones 3 parcial grupo experimental 2.

Calificaciones 2 parcial Grupo E3

Ilustración 11. Calificaciones 2 parcial grupo experimental 3.

Ilustración 12. Calificaciones 3 parcial grupo experimental 3.

Ilustración 13. Histograma calificaciones grupo experimental 1.

Ilustración 15. Histograma calificaciones grupo experimental 3.

2.4 Verificar la calidad de los datos

Cuando trabajamos en proyectos de minería de datos, los datos no suelen ser

Para el proyecto en particular, solo se realizó un filtrado de los alumnos que