Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Nota: el archivo de Word que van a cargar en la plataforma con la solución del taller debe ir
nombrado de la siguiente manera: 92642317_BELTRAN_VEGA
1 (30ptos).
Objetivo general de Minería de Datos:
2 (15ptos). (análisis).
Cuadro descripción de variables que va a utilizar en la Clasificación (análisis).
ID Nombre de la Variable Unidad o Tipo de Escala Propósito u objeto de la
categorías Variable (Ordinal, variable
(Cualitativa Nominal,
o Continua,
Cuantitativa Discreta)
)
1 MOD_INGLES_DESEM_2 Nivel A / Nivel B Cualitativa Ordinal Determinar el nivel del
leguaje Ingles del
estudiante.
2 EDAD_2 Meno 18, entre Cualitativa Ordinal Establecer los grupos de
19 – 25, mayores edades de los estudiantes.
26
3 PUNT_GLOBAL_2 Alto, Bajo, Medio Cualitativa Ordinal Determinar el puntaje
promedio de cada
programa.
4 ESTU_GENERO Femenino/Mascul Cualitativa Nominal Determinar las cantidades
ino referente al genero
5 ESTU_NUCLEO_PREGRADO Todos los Cualitativo Nominal Determinar el porcentaje
programas del de estudiantes
núcleo de matriculados en el mayor
administración programa académico
6 FAMI_ESTRATOVIVIENDA Estrato Cuantitativo ordinal Determinar los
0,1,2,3,4,5,6 estudiantes que
pertenecen a los
diferentes estratos.
7 ESTU_COMOCAPACITOEXA Capacitación/ No Cualitativas Nominal Determina los estudiantes
MENSB11 capacitación que se capacitan
8 ESTU_VALORMATRICULAUN Entre 1 millón y Cualitativas Ordinal Determina el valor de
IVERSIDAD menos de 2.5 matrícula de los
millones y mas estudiantes
3 (25ptos). (análisis).
Estadística descriptiva de las variables que va a utilizar en la Clasificación (análisis).
2 Gráfico 2
En el grafico N° 2, observamos
que la mayoría de los
estudiantes que se encuentran
en el programa de pregrado
de administración de
empresas en la modalidad a
distancia virtual están en el
rango de mas de 25 años con
un 77.6% del total, seguido del
grupo de edad entre los 19 a
25 años que corresponde a un
20.8% del total, esto muestra
que los en su mayoría son
estudiantes finalizando
carreras a las cuales cursan.
3 Tabla 1 Se analiza la tabla N°1 donde
observamos el promedio del
puntaje global para cada
programa de administración
en la modalidad virtual del
politécnico gran colombiano.
Se muestra que el programa
de Administración Tecnológica
y Administración turística
tiene un promedio alto en los
puntajes globales significa que
los estudiantes se preparan
para afrontar las pruebas de
manera responsable, así
mismo el programa de
Mercadeo y publicidad. Se
observa también en la tabla
que el programa que obtiene
el promedio bajo es la
Administración de empresa -
Ciclo Profesional.
4 Gráfico 3 Analizamos el grafico N° 3 que
muestra la cantidad de
estudiantes por regenero del
programa académico de
administración en modalidad
virtual, como resultado el 64%
del total se encuentra el
género femenino y el
masculino con un 35.9%.
5 Grafico 4
El mayor porcentaje de
inscritos en el posgrado de la
facultad de administración en
la modalidad a distancia
virtual del politécnico gran
colombiano se encuentra en el
programa de administración
de empresa con el 78,4% del
total, seguido del programa de
administración y dirección de
empresas con el 5,33% y
negocios internacionales con
el 4,56%.
6 Gráfico 4
7 Gráfico 6
Analizamos el indicador de
estudiantes que realizan
capacitaciones para poder
tener un buen puntaje en las
pruebas PRO, se observa que
el 77,74% repasa por cuenta
propia, así mismo el 21% no
realiza ninguna clase de
preparación y el 1 % solo logra
adquirir un curso de
preparación a las pruebas,
esto puede indicar que la falta
de capacitación o
entrenamiento en los temas
específicos para la
presentación de la prueba
puede tener resultado de los
promedios muy bajos.
8 Grafico 7
Se observa en el grafico N° 7,
para el valor de la matricula se
encuentra en un rango de 1 y
menos de 2.5 millones en su
mayoría, se puede saber que
estos estudiantes están entre
los estratos 2 y 3 que tengan
esa capacidad de pago
teniendo en cuenta el ingreso
de las familias.
4 (15ptos). (análisis).
Matriz de confusión (score) y análisis soportado si el modelo obtenido es bueno, regular o malo y
por qué.
El modelo tiene una precisión del 98,9 % considerando que es un muy buen modelo para predecir
asumiendo que va tener un error del 1,092%.
5 (15ptos). (análisis).
Determinar el ranking de las variables que permite entender el rendimiento en la prueba Saber
Pro.
Variable # Nombre detallado de la variable (Puntaje Nombre detallado de la variable
bajo) (Puntaje alto)
1 PUNT_GLOBAL_2
2 ESTU_NSE_INDIVIDUAL
3 ESTU_GENERO
4 MOD_INGLES_DESEM
5 FAMI_ESTRATOVIVIENDA
6 ESTU_NUCLEO_PREGRADO
7 EDAD_2
6 (30ptos). (análisis).
Establecer el patrón de comportamiento o regla de decisión que siguen los estudiantes que
obtienen un puntaje bajo y alto.
7 (20ptos). (análisis).
Estrategias que van a dar respuesta al “para” del objetivo general de MD (Para = Para generar
estrategias que mejoren el rendimiento de los estudiantes clasificados con bajo puntaje), estas
estrategias deben salir de las características encontradas en el Ranking de variables y las reglas de
decisión encontradas.
Anexos:
Anexo #1:
Imágenes del árbol de decisión (pantallazos).
Nodos Clasificación:
Excel Reader
Missing Value
Row Filter
Number To String
Column Filter
Normalizer
Partitioning
PMML Reader
Excel Reader
Decision Tree Predictor
Excel Writer
PMML Predictor
Data to Report
Missing Value
Hierarchical Clustering
Imagen nodos
https://youtu.be/W5rIeOsOxxI?si=irWfAXW6k6-ELS6v
Buen día,
Se envía el taller de Análisis de Clasificación que se debe realizar para la 1ra entrega (taller
individual), en la próxima sesión sincrónica se mostrara el paso a paso para para solución el taller y
se responderán todas las dudas que tengan, por favor tener en cuenta:
1) Cargar los nodos que se adjuntan en un flujo de trabajo como se muestra en la imagen dejada
en el documento de Word adjunto, el proceso a detalle del uso de cada nodo se mostrara en
clase.
2) Cargar la base de datos (Excel) adjunta en el nodo Excel Reader.
3) Revisar todos los puntos del taller adjunto y el flujo de trabajo para poder discutir las dudas
que se tengan.
4) Revisar los conceptos de Análisis de Clasificación vistos en la clase anterior.
5) La variable “y” que ustedes van a utilizar para la segunda entrega es
“MOD_INGLES_DESEM_2”
En el siguiente enlace encuentran el paso a paso del desarrollo del taller, ya deben haber
descargado el programa KNIME:
https://youtu.be/W5rIeOsOxxI?si=irWfAXW6k6-ELS6v
Les comparto el curso de Minería de Datos con Knime, este software (KNIME) es el que
utilizaremos en el curso:
https://youtube.com/playlist?list=PLYqPCyWfFHmb-Bb5nBrDBQF_h73ATdll7
Quedo atento.
Gracias.
Enlace reunión: