Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Título del proyecto : Análisis estadístico y desarrollo de modelos de machine learning para la
predicción, de la deserción estudiantil de educación superior de la UCSH
Profesor revisor propuesto : Claudio Henríquez
Fecha :13/10/2019
_________________________
Para esto se comienza con la extracción y procesamiento de los datos asociados a la deserción
informada por eliminación o retiro definitivo o temporal sin reincorporación a la fecha y deserción
no informada en cuanto a:
Factores de rendimiento de tipo académico (Promedio de notas parciales y finales), asistencia que
tiene el estudiante en la carrera que cursa en la educación superior, cantidad de cursos
reprobados, retraso académico etc.
Una vez obtenidos los datos realizaremos un análisis estadístico detallado de los factores
asociados a la deserción, divididos en factores de ingreso a la educación superior y los factores
rendimiento de tipo académico que los estudiantes tienen mientras cursan la carrera de educación
superior.
Por ultimo a partir de los análisis estadísticos se construirá un modelo de predicción del riesgo de
deserción de estudiantes divididos en una muestra de todos los años de estudio de la carrera y
otra muestra de primer año de estudio del año 2018
2. Descripción del problema u oportunidad
En la actualidad las instituciones de educación superior se ven enfrentados a una fuerte
competencia por la captación y retención de matrícula, que permita a través de los ingresos por
concepto de aranceles dar sustentabilidad económica a las organizaciones.
Las instituciones están obligadas a informar la tasa de retención y por consiguiente la tasa de
deserción de estudiantes de 1° año, Sin embargo, la mayoría no dispone de un análisis de los
factores que influyen en la deserción, ya que la gran cantidad de información que se debe extraer
de distintas fuentes para poder definir de manera eficiente conjunto de datos manejable para su
análisis, hace que los recursos computacionales para las instituciones de educación superior no les
permita llegar a este detalle.
Para el caso especifica de la UCSH, el nivel deserción estudiantil se sitúa con aproximadamente un
17,34 % de deserción anual de estudiantes de primer año del año 2018 y un 6,21 % de deserción
total para el semestre académico 2019-1.
Gráfico: Estadísticas de deserción estudiantil de la UCSH
Fuente: Elaboración propia con datos extraídos del sistema de gestión académica de la UCSH
Problemática
En el análisis y posterior estimación del riesgo de deserción estudiantil de educación superior hay
múltiples variables que pueden ser factores de esta, por lo cual, cuando revisamos los estudios que
abordan esta problemática nos encontramos que la gran mayoría analiza una parte de las variables
de la deserción, limitándose a la información disponible tanto de los factores, como de la cantidad
de estudiantes que forman el universo o muestra de dichos estudios, con lo cual se tiene una
visión parcial del fenómeno.
Descripción de la solución propuesta
La propuesta del presente proyecto es procesar información de las causas de la deserción desde
distintas fuentes, analizar de manera estadística estas causas y desarrollar modelos de machine
learning de predicción de la deserción estudiantil de la educación superior aplicado en la UCSH
divididos una muestra de la matrícula de estudiantes de todos los años de estudio del 2016 al
2018 y otra muestra para los estudiantes de 1 año de estudio del 2018
Luego una vez consolidado los datos podemos hacer un análisis estadístico de asociación y de
correlación de variables, que nos permiten de forma anticipada visualizar el nivel de asociación y
correlación respectivamente de las variables independientes y la variable dependiente. A demás de
técnicas exploratorias para el descubrimiento de estructuras y patrones en los datos capturados.
Por otro lado en el caso de la deserción general las variables de rendimiento de tipo académico de los
estudiantes (Promedio de notas, cantidad de cursos reprobados, retraso etc.) cuando cursan la carrera de
educación superior son mayor mente explicativas, sin embargo en el caso de la deserción de primer año las
variables asociadas al ingreso del estudiante tienen mayor importancia e influencia que en el caso anterior,
ya que son más recientes y no disponemos de datos histórico del curso de la carrera
Hipótesis: De acuerdo a la deserción informada que se produce por un mal rendimiento del estudiante,
tenemos un periodo de tiempo en que el estudiante ya no puede revertir la situación y opta por un retiro
temporal o definitivamente sale eliminado, sim embargo hay un periodo o lapsus de tiempo anterior en que,
si bien el estudiante puede presentar un mal rendimiento dado por la ausencia sistemática a clases o
dificultades o desidia en el estudio, este si cambia su comportamiento tienen posibilidades de revertir la
situación de futura eliminación, este periodo podemos acotarlo luego de las primeras evaluación de cada
asignatura.
Hipótesis: En la deserción no informada podemos estimar que los estudiantes con un periodo de inasistencia
superior a 15 días de corrido tienen mayor probabilidad de deserción.
Hipótesis: Los principales motivos de deserción informada por retiro definitivo de tipo extracadémico son
por enfermedad, viajes o desinterés por la carrera, dándose este tipo de deserción principalmente en
carreras específicas.
Hipótesis: Los estudiantes con un retraso académico importante dado por mal rendimiento o retiros
temporales sucesivos terminan por desertar de la carrera que cursan por eliminación, retiro definitivo o
retiro temporal
Hipótesis: Los estudiantes que desertan de la UCSH con gratuidad se matriculan en otras instituciones de
forma inmediata o en el periodo posterior a su deserción para poder seguir con el beneficio, sin embargo,
los estudiantes que no tienen beneficios no vuelven a matricularse en otra institución de forma inmediata y
muchos casos desertan definitivamente de la educación superior
Metodología
Roles.
Los datos de asistencia y rendimiento de los años de enseñanza media de los estudiantes, y los
datos de la posterior matricula de los estudiantes que desertan en otra institución de educación
superior, se extraerán desde el portal de datos abiertos del MINEDUC, sin embargo estos datos
tienen una máscara para el Rut, que es la variable necesaria para el cruce de esta información con
los registros del sistema académico de la UCSH, siendo necesario un proceso de Búsqueda
aproximada del Rut con los datos disponibles de fecha de nacimiento, código del colegio y carrera
de matrícula de enseñanza superior, con lo cual no llegaremos al 100% de acierto en la búsqueda,
limitándonos a poder trabajar con los datos obtenidos.
Por otro la encuesta de caracterización socioeconómica aplicada a los estudiantes que ingresan a
una carrera en la universidad Católica Silva Henríquez no se alcanza a aplicar al 100% de estos, por
tanto, en el análisis de la asociación de esta variable de caracterización socio económica con la
deserción estudiantil también nos vemos limitados en los casos.
En cuanto al desarrollo del modelo de predicción del riesgo de deserción de la educación superior
de estudiantes de la UCSH, este modelo se dividirá en dos muestras de datos, la primera con datos
de todos los estudiantes de la UCSH matriculados del 2016 al 2018 y la segunda con datos de
estudiantes del primer año de la matrícula del año 2018.
Con cada muestra se desarrollarán modelos de predicción que tienen alcances diferentes, ya que
con la primera muestra el alcance es la predicción de estudiantes de todos los años de estudio, y
con la segunda muestra el alcance es la predicción de solo estudiantes de primer año
Factibilidad y medios
La factibilidad y los medios o recursos necesarios para el desarrollo del presente proyecto están
definidos por un tiempo acotado de desarrollo de aproximadamente 3 meses, la disponibilidad de
los datos necesarios para el análisis estadístico y el desarrollo de un modelo de predicción, de la
deserción de estudiantes de la UCSH, y las herramientas tecnológicas como software y/o lenguaje
e IDE de programación para el análisis estadístico y el desarrollo del modelo de machine learning.
En cuanto a los tiempos de desarrollo se espera poder cumplir con los plazos de acuerdo a la carta
Gantt del proyecto.
Para el caso de la disponibilidad de los datos, se cuenta con la autorización para la extracción de
los datos del sistema académico de estudiantes de la UCSH y las encuestas de caracterización
socioeconómica de parte de los estudiantes de la UCSH desde el 2015 al 2019, y por otro lado el
acceso libre a datos abiertos del MINEDUC para extraer información de asistencia y rendimiento
de los años de enseñanza media de los estudiantes, y la posible posterior matricula de los
estudiantes que desertan en otra institución de educación
En el caso de las herramientas técnicas se cuenta con el software de análisis estadístico y minería
de datos de IBM, SPSS STATICS Y MODELER respectivamente, y para el caso de lenguajes de
programación e IDES desarrollo se usará Python y sus IDES Notebook Júpiter y Spyder que son de
uso gratuito de tipo open source.
Referencias.
Referencias en formato APA.