Está en la página 1de 12

Nombres: JORGE LUIS

Apellidos: BELTRAN VEGA


Cédula: 92642317
Correo electrónico institucional: jluibeltran@poligran.edu.co

Nota: el archivo de Word que van a cargar en la plataforma con la solución del taller debe ir
nombrado de la siguiente manera: 92642317_BELTRAN_VEGA

Taller Análisis de Clasificación


Base de datos: Prueba Saber Pro

1 (30ptos).
Objetivo general de Minería de Datos:

Verbo en infinitivo Qué Cómo Para qué


Crear un modelo que Un modelo que Por medio de sus Para generar y
permita predecir el permita predecir el variables fortalecer las
puntaje en las puntaje que sacarán sociodemográficas estrategias que
pruebas saber PRO los estudiantes permitan mejorar el
para el 2024, a los modalidad a distancia rendimiento de los
estudiantes en Virtual en el núcleo estudiantes del
modalidad distancia de pregrado de núcleo de pregrado
virtual en el núcleo de Administración del de Administración
pregrado de Politécnico bajo la modalidad
Administración del Grancolombiano sede virtual clasificados
Politécnico Bogotá en la prueba con bajo puntaje.
Grancolombiano sede Saber Pro 2024
Bogotá.

Objetivos específicos de Minería de Datos:

✓ Determinar el ranking de las variables que permite entender el rendimiento en la prueba


Saber Pro a los estudiantes del núcleo de pregrado de Administración bajo la modalidad
distancia virtual del Politécnico Grancolombiano sede Bogotá.
✓ Establecer el patrón de comportamiento o regla de decisión que siguen los estudiantes que
obtienen un puntaje alto a los estudiantes del núcleo de pregrado de Administración bajo la
modalidad distancia virtual del Politécnico Grancolombiano sede Bogotá.
✓ Establecer el patrón de comportamiento o regla de decisión que siguen los estudiantes que
obtienen un puntaje bajo en el núcleo de pregrado de Administración bajo la modalidad
virtual del Politécnico Grancolombiano sede Bogotá.
✓ Generar 3 estrategias que fortalezcan el rendimiento de los estudiantes clasificados con bajo
puntaje utilizando el ranking de las variables y los patrones de comportamiento obtenidos en
las pruebas de saber PRO para la vigencia 2024.

2 (15ptos). (análisis).
Cuadro descripción de variables que va a utilizar en la Clasificación (análisis).
ID Nombre de la Variable Unidad o Tipo de Escala Propósito u objeto de la
categorías Variable (Ordinal, variable
(Cualitativa Nominal,
o Continua,
Cuantitativa Discreta)
)
1 MOD_INGLES_DESEM_2 Nivel A / Nivel B Cualitativa Ordinal Determinar el nivel del
leguaje Ingles del
estudiante.
2 EDAD_2 Meno 18, entre Cualitativa Ordinal Establecer los grupos de
19 – 25, mayores edades de los estudiantes.
26
3 PUNT_GLOBAL_2 Alto, Bajo, Medio Cualitativa Ordinal Determinar el puntaje
promedio de cada
programa.
4 ESTU_GENERO Femenino/Mascul Cualitativa Nominal Determinar las cantidades
ino referente al genero
5 ESTU_NUCLEO_PREGRADO Todos los Cualitativo Nominal Determinar el porcentaje
programas del de estudiantes
núcleo de matriculados en el mayor
administración programa académico
6 FAMI_ESTRATOVIVIENDA Estrato Cuantitativo ordinal Determinar los
0,1,2,3,4,5,6 estudiantes que
pertenecen a los
diferentes estratos.
7 ESTU_COMOCAPACITOEXA Capacitación/ No Cualitativas Nominal Determina los estudiantes
MENSB11 capacitación que se capacitan
8 ESTU_VALORMATRICULAUN Entre 1 millón y Cualitativas Ordinal Determina el valor de
IVERSIDAD menos de 2.5 matrícula de los
millones y mas estudiantes
3 (25ptos). (análisis).
Estadística descriptiva de las variables que va a utilizar en la Clasificación (análisis).

ID Gráfico o Tabla Análisis


1 Gráfico 1

Teniendo en cuenta el grafico


1, podemos analizar el
comportamiento de los
estudiantes de pregrado de
administración referente al
nivel de conocimiento de
lenguaje de Ingles que la gran
mayoría se encuentra en un
58,46% en el nivel A1 y un
29.5% en el nivel A2 que
corresponde al nivel básico de
los estudiantes que presentan
las pruebas saber pro.

2 Gráfico 2

En el grafico N° 2, observamos
que la mayoría de los
estudiantes que se encuentran
en el programa de pregrado
de administración de
empresas en la modalidad a
distancia virtual están en el
rango de mas de 25 años con
un 77.6% del total, seguido del
grupo de edad entre los 19 a
25 años que corresponde a un
20.8% del total, esto muestra
que los en su mayoría son
estudiantes finalizando
carreras a las cuales cursan.
3 Tabla 1 Se analiza la tabla N°1 donde
observamos el promedio del
puntaje global para cada
programa de administración
en la modalidad virtual del
politécnico gran colombiano.
Se muestra que el programa
de Administración Tecnológica
y Administración turística
tiene un promedio alto en los
puntajes globales significa que
los estudiantes se preparan
para afrontar las pruebas de
manera responsable, así
mismo el programa de
Mercadeo y publicidad. Se
observa también en la tabla
que el programa que obtiene
el promedio bajo es la
Administración de empresa -
Ciclo Profesional.
4 Gráfico 3 Analizamos el grafico N° 3 que
muestra la cantidad de
estudiantes por regenero del
programa académico de
administración en modalidad
virtual, como resultado el 64%
del total se encuentra el
género femenino y el
masculino con un 35.9%.

5 Grafico 4

El mayor porcentaje de
inscritos en el posgrado de la
facultad de administración en
la modalidad a distancia
virtual del politécnico gran
colombiano se encuentra en el
programa de administración
de empresa con el 78,4% del
total, seguido del programa de
administración y dirección de
empresas con el 5,33% y
negocios internacionales con
el 4,56%.
6 Gráfico 4

Para el grafico N° 4, se decide


analizar el factor
socioeconómico de los
estudiantes del programa de
administración de empresas
en la modalidad virtual del
politécnico gran colombiano,
se observa que la mayoría
pertenece a los estratos 2 con
un 40.7% y estrato 3 con un
38.5%, sin embargo, muy
pocos estudiantes de los
estratos 1 con un porcentaje
de 9.2% la cual presentó la
prueba saber,

7 Gráfico 6

Analizamos el indicador de
estudiantes que realizan
capacitaciones para poder
tener un buen puntaje en las
pruebas PRO, se observa que
el 77,74% repasa por cuenta
propia, así mismo el 21% no
realiza ninguna clase de
preparación y el 1 % solo logra
adquirir un curso de
preparación a las pruebas,
esto puede indicar que la falta
de capacitación o
entrenamiento en los temas
específicos para la
presentación de la prueba
puede tener resultado de los
promedios muy bajos.
8 Grafico 7

Se observa en el grafico N° 7,
para el valor de la matricula se
encuentra en un rango de 1 y
menos de 2.5 millones en su
mayoría, se puede saber que
estos estudiantes están entre
los estratos 2 y 3 que tengan
esa capacidad de pago
teniendo en cuenta el ingreso
de las familias.

4 (15ptos). (análisis).
Matriz de confusión (score) y análisis soportado si el modelo obtenido es bueno, regular o malo y
por qué.
El modelo tiene una precisión del 98,9 % considerando que es un muy buen modelo para predecir
asumiendo que va tener un error del 1,092%.

5 (15ptos). (análisis).
Determinar el ranking de las variables que permite entender el rendimiento en la prueba Saber
Pro.
Variable # Nombre detallado de la variable (Puntaje Nombre detallado de la variable
bajo) (Puntaje alto)
1 PUNT_GLOBAL_2
2 ESTU_NSE_INDIVIDUAL
3 ESTU_GENERO
4 MOD_INGLES_DESEM
5 FAMI_ESTRATOVIVIENDA
6 ESTU_NUCLEO_PREGRADO
7 EDAD_2

6 (30ptos). (análisis).
Establecer el patrón de comportamiento o regla de decisión que siguen los estudiantes que
obtienen un puntaje bajo y alto.

Variable comportamiento o regla de decisión #1 comportamiento o regla de decisión #2


Puntaje bajo Puntaje alto
Con una probabilidad de 72,1 % los Con una probabilidad de xxxxx los
estudiantes que sacan un “A” ingles estudiantes que sacan un alto puntaje
puntaje son: son:
1 Edad
2 Puntaje Global
3
4
5
6

7 (20ptos). (análisis).
Estrategias que van a dar respuesta al “para” del objetivo general de MD (Para = Para generar
estrategias que mejoren el rendimiento de los estudiantes clasificados con bajo puntaje), estas
estrategias deben salir de las características encontradas en el Ranking de variables y las reglas de
decisión encontradas.

Estrategia Sustentación de la estrategia (Ranking de


variables y las reglas de decisión u la soportan)
Estrategia #1: Ya que hay una tendencia de puntaje bajo de
Fortalecer la educación y capacitación integral los estudiantes de administración menores y
para la prueba Saber Pro mayores de 22 años, se recomienda fortalecer
en los temas específicos y realizar simulacros
de las pruebas.
Estrategia #2: Se evidencia que la mayor parte de los
Establecer becas a estudiantes con puntaje estudiantes mayores de 22 años la gran
alto del programa académico. mayoría tuvieron puntajes globales menores
de 146, se requiere establecer un programa de
becas para incentivar a lo estudiantes
esforzase por la oportunidad que brinda la
Universidad.
Estrategia #3: Generar planes de fortalecimiento de estudio
Fortalecer los niveles de estudio a nivel de la prueba saber pro de la universidad
general. Politécnico modalidad virtual a los estudiantes
de administración.

Anexos:

Anexo #1:
Imágenes del árbol de decisión (pantallazos).

Nodos Clasificación:

Excel Reader
Missing Value
Row Filter
Number To String
Column Filter
Normalizer
Partitioning

Decision Tree Learner


Decision Tree Predictor
Scorer
PMML Writer
Decision Tree to Ruleset
Decision Tree View (JavaScript)

PMML Reader
Excel Reader
Decision Tree Predictor
Excel Writer

PMML Predictor
Data to Report

Logistic Regression Learner


Logistic Regression Predictor
Scorer

Naive Bayes Learner


Naive Bayes Predictor
Scorer

Missing Value
Hierarchical Clustering

Imagen nodos

https://youtu.be/W5rIeOsOxxI?si=irWfAXW6k6-ELS6v
Buen día,

Se envía el taller de Análisis de Clasificación que se debe realizar para la 1ra entrega (taller
individual), en la próxima sesión sincrónica se mostrara el paso a paso para para solución el taller y
se responderán todas las dudas que tengan, por favor tener en cuenta:

1) Cargar los nodos que se adjuntan en un flujo de trabajo como se muestra en la imagen dejada
en el documento de Word adjunto, el proceso a detalle del uso de cada nodo se mostrara en
clase.
2) Cargar la base de datos (Excel) adjunta en el nodo Excel Reader.
3) Revisar todos los puntos del taller adjunto y el flujo de trabajo para poder discutir las dudas
que se tengan.
4) Revisar los conceptos de Análisis de Clasificación vistos en la clase anterior.
5) La variable “y” que ustedes van a utilizar para la segunda entrega es
“MOD_INGLES_DESEM_2”

En el siguiente enlace encuentran el paso a paso del desarrollo del taller, ya deben haber
descargado el programa KNIME:
https://youtu.be/W5rIeOsOxxI?si=irWfAXW6k6-ELS6v

Les comparto el curso de Minería de Datos con Knime, este software (KNIME) es el que
utilizaremos en el curso:
https://youtube.com/playlist?list=PLYqPCyWfFHmb-Bb5nBrDBQF_h73ATdll7

Quedo atento.
Gracias.

Enlace reunión:

También podría gustarte