Está en la página 1de 16

UNIVERSIDAD CENTRAL DE CHILE

FACULTAD DE INGENIERÍA Y ARQUITECTURA

Proyecto de Grado II:


Formulario de Inscripción de
Proyecto de Grado

Análisis estadístico y desarrollo de modelos de machine learning de


predicción, de la deserción estudiantil de educación superior aplicado en la
UCSH

Autor(es): Orlando José Paz Soto


(imprimir en doble cara)

Título del proyecto : Análisis estadístico y desarrollo de modelos de machine learning para la
predicción, de la deserción estudiantil de educación superior de la UCSH
Profesor revisor propuesto : Claudio Henríquez
Fecha :13/10/2019

Nombre alumno : Orlando José Paz Soto


Rut : 13550901-9
Email :orlandopaz645@gmail.com
Teléfono :968203363
Programa :Análisis de datos para la inteligencia de negocios

_________________________

(Nombre y firma estudiante)


Tabla de Contenidos
Índice
1. Identificación y Resumen del proyecto

El proyecto de tesis consiste en un análisis estadístico del fenómeno de la deserción de educación


superior aplicado la UCSH con sus factores asociados y el desarrollo de modelos de machine
learning de predicción del riesgo de los estudiantes de desertar divididos una muestra de la
matrícula de estudiantes de todos los años de estudio del 2016 al 2018 y otra muestra para los
estudiantes de 1 año de estudio del 2018

Para esto se comienza con la extracción y procesamiento de los datos asociados a la deserción
informada por eliminación o retiro definitivo o temporal sin reincorporación a la fecha y deserción
no informada en cuanto a:

Factores de ingreso como rendimiento y asistencia de los estudiantes en su enseñanza media,


evaluación de colegio de egreso de la enseñanza media, puntaje en la PSU, caracterización
socioeconómica del estudiante al momento de ingreso, beneficios que obtienen el estudiante para
cursar la educación superior como gratuidad etc.

Factores de rendimiento de tipo académico (Promedio de notas parciales y finales), asistencia que
tiene el estudiante en la carrera que cursa en la educación superior, cantidad de cursos
reprobados, retraso académico etc.

Una vez obtenidos los datos realizaremos un análisis estadístico detallado de los factores
asociados a la deserción, divididos en factores de ingreso a la educación superior y los factores
rendimiento de tipo académico que los estudiantes tienen mientras cursan la carrera de educación
superior.

Por ultimo a partir de los análisis estadísticos se construirá un modelo de predicción del riesgo de
deserción de estudiantes divididos en una muestra de todos los años de estudio de la carrera y
otra muestra de primer año de estudio del año 2018
2. Descripción del problema u oportunidad
En la actualidad las instituciones de educación superior se ven enfrentados a una fuerte
competencia por la captación y retención de matrícula, que permita a través de los ingresos por
concepto de aranceles dar sustentabilidad económica a las organizaciones.

De acuerdo a estadísticas de deserción de instituciones de educación superior de Chile, la tasa de


deserción de distintas universidades y sus carreras se ubica por sobre el 20%. De acuerdo al
informe, la retención del 1er año de pregrado para 2016 fue de 72,4%, considerado al total de
instituciones de educación superior. En el caso específico de las universidades, esta cifra llega al
76,9%, por otro lado, según una investigación conducida por el Centro de Micro datos del
Departamento de Economía de la Universidad de Chile, la principal causa detrás del abandono de
los estudios es el bajo rendimiento académico, desmotivados por las bajas calificaciones, muchos
estudiantes optan por desertar.

Las instituciones están obligadas a informar la tasa de retención y por consiguiente la tasa de
deserción de estudiantes de 1° año, Sin embargo, la mayoría no dispone de un análisis de los
factores que influyen en la deserción, ya que la gran cantidad de información que se debe extraer
de distintas fuentes para poder definir de manera eficiente conjunto de datos manejable para su
análisis, hace que los recursos computacionales para las instituciones de educación superior no les
permita llegar a este detalle.

Para el caso especifica de la UCSH, el nivel deserción estudiantil se sitúa con aproximadamente un
17,34 % de deserción anual de estudiantes de primer año del año 2018 y un 6,21 % de deserción
total para el semestre académico 2019-1.
Gráfico: Estadísticas de deserción estudiantil de la UCSH

Fuente: Elaboración propia con datos extraídos del sistema de gestión académica de la UCSH
Problemática

Actualmente en la mayoría de las instituciones de educación superior en Chile, no se cuenta con


sistemas que permitan el procesamiento y análisis de información de diversas fuentes para la
predicción de la deserción estudiantil en tiempos oportunos, además las formas de dar apoyo para
poder prevenir la deserción estudiantil, no se basan en el análisis del fenómeno en su totalidad,
por lo que no se puede abarcar a todos los estudiantes con riesgo.

En el análisis y posterior estimación del riesgo de deserción estudiantil de educación superior hay
múltiples variables que pueden ser factores de esta, por lo cual, cuando revisamos los estudios que
abordan esta problemática nos encontramos que la gran mayoría analiza una parte de las variables
de la deserción, limitándose a la información disponible tanto de los factores, como de la cantidad
de estudiantes que forman el universo o muestra de dichos estudios, con lo cual se tiene una
visión parcial del fenómeno.
Descripción de la solución propuesta
La propuesta del presente proyecto es procesar información de las causas de la deserción desde
distintas fuentes, analizar de manera estadística estas causas y desarrollar modelos de machine
learning de predicción de la deserción estudiantil de la educación superior aplicado en la UCSH
divididos una muestra de la matrícula de estudiantes de todos los años de estudio del 2016 al
2018 y otra muestra para los estudiantes de 1 año de estudio del 2018

Los procesos y entregas son:

La extracción de los datos de diversas fuentes más su transformación y posterior carga y


almacenamiento
Los datos a extraer de acuerdo a sus fuentes son:
 Información open-data del Ministerio de educación de Chile que nos entrega el
rendimiento académico y asistencia de enseñanza media y los datos de la posterior
matricula de los estudiantes que desertan en otra institución de educación superior
 Promedio de PSU de estudiantes
 Información de la encuesta de caracterización de ingreso de estudiantes de la UCSH
 Información de beneficios que adquieren los estudiantes para cursar una carrera
universitario
 información de los sistemas transaccionales de gestión académica de la UCSH del proceso
de cursar una carrera en la universidad como el rendimiento, la asistencia y el avance
curricular etc.
Partiremos con la comprensión del negocio y los datos de forma paralela al proceso de
transformación, preparación y carga de los datos, incluyendo el filtro, agregación y consolidación
de los datos en un modelo analítico para posteriormente desarrollar un modelo de predicción,
siendo necesario poder entender los datos que estamos preparando.
Un análisis estadístico de los datos asociados a la deserción campo factores influyentes en esta y
su correlación.

Luego una vez consolidado los datos podemos hacer un análisis estadístico de asociación y de
correlación de variables, que nos permiten de forma anticipada visualizar el nivel de asociación y
correlación respectivamente de las variables independientes y la variable dependiente. A demás de
técnicas exploratorias para el descubrimiento de estructuras y patrones en los datos capturados.

El desarrollo y análisis de modelos de machine learning de predicción y la publicación de los


resultados.
Por último el desarrollo de modelos de machine learning de predicción de la deserción estudiantil
comienza con la selección de las variables que mayor peso tienen en la predicción, para luego
seleccionar una muestra de la matrícula de estudiantes de todos los años de estudio del 2016 al
2018 y otra muestra para los estudiantes de 1 año de estudio del 2018, ambas de forma
equilibrada respecto a las categorías de deserción y no deserción aproximadamente en un 20% y
80%, para luego con esta muestra construir los modelos de predicción con un entrenamiento y
test.
Objetivo general, objetivos específicos, resultados
esperados del Proyecto
1- Objetivos

3.1 Objetivo General

- Analizar estadísticamente y desarrollar modelos de machine learning de


predicción, de la deserción estudiantil de educación superior aplicado en la UCSH

3.2 Objetivos Específicos

- Extraer, procesar desde diversas fuentes (datos de ingreso y proceso académico)


como variables que influyen en la deserción estudiantil.

- Analizar de forma estadística los factores s asociados a la deserción en cuanto a


cómo influyentes en esta y su correlación.

- Desarrollar modelos de machine learning de predicción de la deserción estudiantil


de la educación superior dividido en una muestra de la matrícula de estudiantes de
todos los años de estudio del 2016 al 2018 y otra muestra para los estudiantes de
1 año de estudio del 2018, y analizar la eficiencia de los modelos de predicción

- Distribuir los resultados de la estimación de la deserción estudiantil en la UCSH


Hipótesis de Trabajo (si corresponde)
Hipótesis de Trabajo solo si corresponde a un trabajo de investigación.
Hipótesis: Los factores que mayormente influyen en la deserción estudiantil de la UCSH son variables
asociadas al periodo en que se cursa la carrera de educación superior en la institución como el rendimiento
y la asistencia, especialmente en la deserción informada por eliminación y en algunos casos de deserción por
retiro temporal por motivos académicos o retiro no informado con un alto % de inasistencia en el periodo.
Sin embargo, en los otros tipos de deserciones como la deserción informada por retiro definitivo y en los
casos de retiro temporal o deserción no informada por motivos extra-académicos es posible que las
variables de ingreso de tipo socio-económico y el contar o no con beneficios influyan mayormente en la
decisión del estudiante.

Por otro lado en el caso de la deserción general las variables de rendimiento de tipo académico de los
estudiantes (Promedio de notas, cantidad de cursos reprobados, retraso etc.) cuando cursan la carrera de
educación superior son mayor mente explicativas, sin embargo en el caso de la deserción de primer año las
variables asociadas al ingreso del estudiante tienen mayor importancia e influencia que en el caso anterior,
ya que son más recientes y no disponemos de datos histórico del curso de la carrera

Hipótesis: De acuerdo a la deserción informada que se produce por un mal rendimiento del estudiante,
tenemos un periodo de tiempo en que el estudiante ya no puede revertir la situación y opta por un retiro
temporal o definitivamente sale eliminado, sim embargo hay un periodo o lapsus de tiempo anterior en que,
si bien el estudiante puede presentar un mal rendimiento dado por la ausencia sistemática a clases o
dificultades o desidia en el estudio, este si cambia su comportamiento tienen posibilidades de revertir la
situación de futura eliminación, este periodo podemos acotarlo luego de las primeras evaluación de cada
asignatura.

Hipótesis: En la deserción no informada podemos estimar que los estudiantes con un periodo de inasistencia
superior a 15 días de corrido tienen mayor probabilidad de deserción.

Hipótesis: Los principales motivos de deserción informada por retiro definitivo de tipo extracadémico son
por enfermedad, viajes o desinterés por la carrera, dándose este tipo de deserción principalmente en
carreras específicas.

Hipótesis: Los estudiantes con un retraso académico importante dado por mal rendimiento o retiros
temporales sucesivos terminan por desertar de la carrera que cursan por eliminación, retiro definitivo o
retiro temporal

Hipótesis: Los estudiantes que desertan de la UCSH con gratuidad se matriculan en otras instituciones de
forma inmediata o en el periodo posterior a su deserción para poder seguir con el beneficio, sin embargo,
los estudiantes que no tienen beneficios no vuelven a matricularse en otra institución de forma inmediata y
muchos casos desertan definitivamente de la educación superior
Metodología

Metodología primera parte de proyecto:Como metodología para el proyecto se utilizará una


metodología mixta que incluye por un lado una metodología de investigación cuantitativa
adecuada al desarrollo del modelo de minería de datos para la predicción de la deserción
estudiantil de educación superior de la universidad UCSH complementado con una metodología de
desarrollo ágil.

Metodología de desarrollo de modelo de predicción de la deserción estudiantil.


Específicamente Crisp-DM (Cross-Industry Standard Process Data Mining) que incluye las
siguientes etapas:
Comprensión del Negocio: Esta etapa comprende comprender las reglas del negocio que en este
caso es el sistema académico universitario de la UCSH y específicamente deserción estudiantil de
una institución de educación superior o la lógica que aplica para que el estudiante se defina en
este estado.
Comprensión de los Datos (a nivel de metadatos): Esta etapa incluye una comprensión a grandes
rasgos de los datos que se deben extraer, principalmente a nivel de meta data
Preparación de los Datos: La preparación de los datos incluye la relación de los datos de las tablas
transaccionales del sistema de gestión académica de la UCSH con los datos de rendimiento de la
enseñanza media y de caracterización de ingreso de estudiantes a la UCSH, la depuración de los
datos, trasformación de variables para consolidar una data set final con el cual construir el modelo
de predicción de la deserción.
Comprensión de los Datos (a nivel estadístico): Si bien dentro de la metodología Cris-DM existe
una etapa de comprensión de los datos anterior a la preparación de los datos, en este proyecto
incluimos una etapa de análisis descriptivo y asociativo de tipo estadístico de los datos y variables
involucradas en la deserción estudiantil de una institución de educación superior, luego de la
preparación de los datos
Desarrollo del modelo: Contempla la selección de las variables, muestra y el uso de técnicas de
Machine Learning para construir un modelo de predicción
Evaluación del modelo: Para la evaluación del modelo analicemos los indicadores de rendimiento
de los algoritmos como matriz de confusión, análisis de curva ROC, análisis de costes/beneficios,
RSD, RMS, etc. Con lo cual elegiremos el mejor modelo.
Distribución del modelo: La distribución de los resultados del análisis y predicción de la deserción
estudiantil de la UCSH se llevará a cabo a través de la presentación de un Dashboard en Tableau.
Desarrollo ágil
En el presente proyecto usaremos como complemento metodológico un enfoque ágil siendo
pertinente al desarrollo del presente por el hecho que permite entregar software que funciona,
desde un par de semanas a un par de meses, prefiriendo los periodos más cortos, y que la medida
primaria del progreso es su funcionamiento. Dentro de los enfoques agiles se utilizará Scrum, el
cual es incremental en las funcionalidades y auto organizado, es iterativo con ciclos de 2 o 4
semanas llamados Sprint, partiendo de una planificación y terminando con revisión y
retrospectiva.
De acuerdo a la metodología Scrum las etapas de desarrollo no necesariamente tienen una
progresión lineal, ni tampoco es necesario cumplir con todas las etapas
De acuerdo a la metodología de Scrum tenemos los siguientes sprint el proyecto
- Extracción- transformación-carga de los datos
- Análisis estadístico de variables que influyen en la deserción estudiantil
- Desarrollo de modelos de Machine Learning para la predicción de la deserción estudiantil y
análisis de acierto y la eficiencia de estos.
- Distribución de los resultados de análisis y predicción de la deserción estudiantil

Roles.

Product Owner: Estudiante Tesista del proyecto


Scrum Master: Profesor Guía del proyecto de titulo
Equipo: Estudiante Tesista del proyecto, Encargado de plataforma de la UCSH, Profesor informante
o contraparte Técnica
Cronograma de trabajo
Cronograma de trabajo propuesto para el proyecto completo.

Tareas o back-log del Fecha de Fecha de


Sprint Duración
sprint inicio termino
Extracción- transformación-carga Extracción de información 31 días 01/10/2019 15/10/2019
de los datos de diversas fuentes que
son variables afectan la
deserción estudiantil

Preparación de los datos: 5 días 01/10/2019 19/10/2019


Relación, trasformación y
depuración de los datos

Análisis estadístico de 4 días 20/10/2019 23/10/2019


datos para comprensión
Análisis estadístico de variables de los datos
que influyen en la deserción
estudiantil Análisis estadístico de 5 días 24/10/2019 27/10/2019
asociación y correlación
de variables

Desarrollo de modelo de Desarrollo y codificación 14 días 28/10/2019 03/11/2019


predicción de modelo de machine
learning

Evaluación del modelo: 4 días 04/11/2019 10/11/2019


análisis de indicadores de
rendimiento (análisis de
estadísticos de eficiencia
de modelo de predicción)

Distribución de los resultados Desarrollo de Dashboard 12 días 11/11/2019 17/11/2019


para distribución de
resultados

Desarrollo de documento 56 días 03/09/2019 17/11/2019


de Proyecto de título y
Papers
Alcances, Limitaciones, Factibilidad y Medios.
Alcances y limitaciones

El alcance del presente proyecto es el análisis estadístico de los factores y el desarrollo de un


modelo de predicción, de la deserción estudiantil de la educación superior en la Universidad
Católica Silva Henríquez.

Los datos de asistencia y rendimiento de los años de enseñanza media de los estudiantes, y los
datos de la posterior matricula de los estudiantes que desertan en otra institución de educación
superior, se extraerán desde el portal de datos abiertos del MINEDUC, sin embargo estos datos
tienen una máscara para el Rut, que es la variable necesaria para el cruce de esta información con
los registros del sistema académico de la UCSH, siendo necesario un proceso de Búsqueda
aproximada del Rut con los datos disponibles de fecha de nacimiento, código del colegio y carrera
de matrícula de enseñanza superior, con lo cual no llegaremos al 100% de acierto en la búsqueda,
limitándonos a poder trabajar con los datos obtenidos.

Por otro la encuesta de caracterización socioeconómica aplicada a los estudiantes que ingresan a
una carrera en la universidad Católica Silva Henríquez no se alcanza a aplicar al 100% de estos, por
tanto, en el análisis de la asociación de esta variable de caracterización socio económica con la
deserción estudiantil también nos vemos limitados en los casos.

En cuanto al desarrollo del modelo de predicción del riesgo de deserción de la educación superior
de estudiantes de la UCSH, este modelo se dividirá en dos muestras de datos, la primera con datos
de todos los estudiantes de la UCSH matriculados del 2016 al 2018 y la segunda con datos de
estudiantes del primer año de la matrícula del año 2018.

Con cada muestra se desarrollarán modelos de predicción que tienen alcances diferentes, ya que
con la primera muestra el alcance es la predicción de estudiantes de todos los años de estudio, y
con la segunda muestra el alcance es la predicción de solo estudiantes de primer año
Factibilidad y medios

La factibilidad y los medios o recursos necesarios para el desarrollo del presente proyecto están
definidos por un tiempo acotado de desarrollo de aproximadamente 3 meses, la disponibilidad de
los datos necesarios para el análisis estadístico y el desarrollo de un modelo de predicción, de la
deserción de estudiantes de la UCSH, y las herramientas tecnológicas como software y/o lenguaje
e IDE de programación para el análisis estadístico y el desarrollo del modelo de machine learning.

En cuanto a los tiempos de desarrollo se espera poder cumplir con los plazos de acuerdo a la carta
Gantt del proyecto.

Para el caso de la disponibilidad de los datos, se cuenta con la autorización para la extracción de
los datos del sistema académico de estudiantes de la UCSH y las encuestas de caracterización
socioeconómica de parte de los estudiantes de la UCSH desde el 2015 al 2019, y por otro lado el
acceso libre a datos abiertos del MINEDUC para extraer información de asistencia y rendimiento
de los años de enseñanza media de los estudiantes, y la posible posterior matricula de los
estudiantes que desertan en otra institución de educación

En el caso de las herramientas técnicas se cuenta con el software de análisis estadístico y minería
de datos de IBM, SPSS STATICS Y MODELER respectivamente, y para el caso de lenguajes de
programación e IDES desarrollo se usará Python y sus IDES Notebook Júpiter y Spyder que son de
uso gratuito de tipo open source.
Referencias.
Referencias en formato APA.

También podría gustarte