Está en la página 1de 3

Trabajo Práctico Unidad 4: DATA MINING

INTRODUCCIÓN
El objetivo del presente trabajo, es crear un pre-proyecto técnico para realizar Big Data y
Data Mining, que pueda permitir tomar decisiones estratégicas en una empresa, comercio
o ente gubernamental, considerando la posible infraestructura necesaria, proponiendo
utilizar servicios Cloud de diferentes proveedores, o con infraestructura propia a adquirir.
En este caso

OBJETIVO
El objetivo de esta fase es integrar los resultados de la minería de datos en los sistemas de
información del Sistema Académico de la Facultad Regional San Francisco de la
Universidad Tecnológica Nacional respecto a cantidad de alumnos por carrera, por año,
estado académico, mesas de exámenes. Esta intervención áulica virtual permitirá diseñar,
e implementar estrategias tecnológicas tendientes a realizar un seguimiento de las
trayectorias educativas de aquellos estudiantes con rezago académico o riesgos de
deserción; se espera que ello contribuya a minimizar la deserción.

DATOS
Los datos a utilizar están disponibles desde el SysAcad, sistema académico de la Facultad
Regional San Francisco, y serán extraídos a través de un proceso ETL.
La preparación de la ingesta de datos implica acciones de sumarización, clasificación y
asociaciones a los fines de brindar el dataset necesario para la ejecución.
Estos datos son:
● Año de consulta
● Año de Ingreso de estudiantes
● Curso (de 1° a 6° año)
● Condición (Inscripto, Libre, Aprobación directa, Regular Promoción TP, abandonó)
● Estado (Activo, Aspirante a ingreso, de baja, pase a facultad, Egresado, Graduado,
Solicitud de título intermedio, Título intermedio)
● Modalidad de dictado de las materias (anual, 1° cuatrimestre, 2° cuatrimestre)
● Materias
● Apellido y nombre de estudiantes
● Legajo
● Sexo
● Nombre de colegio secundario proveniente
● Ciudad de origen
● Carrera
● Inasistencias (sin faltas, mayor a 2 faltas, menor a 2 faltas)

Las operaciones de Data Mining que se utilizarán son:


● Modelos de clasificación
● Análisis de asociaciones

Ing. Carolina Inés Apendino – Ing. Juan Pablo Bono Página 1 de 3


● Segmentación de bases de datos

EQUIPO TÉCNICO

SERVICIO CLOUD
Datastudio
Es una herramienta gratuita que convierte sus datos en informes y paneles claros,
totalmente personalizables y fáciles de consultar y compartir. ... Con el control de datos
puedes convertir cualquier informe en uno de plantilla flexible que todo el mundo podrá
usar para ver sus propios datos.
Permite acceder fácilmente a una gran variedad de datos. Los conectores integrados y
asociados de Data Studio permiten conectarse a prácticamente cualquier tipo de datos.
Permite convertir los datos en atractivas historias de arte de visualización de datos. Cree
rápidamente informes y cuadros de mando interactivos con las herramientas de
elaboración de informes basadas en la web de Data Studio.

Google Drive
Es un servicio de alojamiento de archivos que fue introducido por la empresa
estadounidense Google.
Planillas CSV que permiten resolver mediante enlaces porciones del dataset a combinar
dado que la interfaz de algunos procesos de salida del SysAcad se condicen con esta
estructura.

SysAcad UTN
Sistema de gestión académica para la administración y gestión de los legajos estudiantiles
de la UTN San Francisco.

Pub/Sub
Servicio de Mensajería e ingestión para sistemas basados en eventos y analíticas en
tiempo real.
Pub/Sub al ser full administrado por Google escala según la necesidad de forma
automática, y tiene una muy alta performance

Cloud Functions
Cloud Functions ofrece una experiencia de desarrollo fácil e intuitiva. Solo tienes que
escribir el código y dejar que Google Cloud se ocupe de la infraestructura operativa.
Además, podrás escribir y ejecutar pequeños fragmentos de código que responden a
eventos para agilizar las tareas de desarrollo. Conéctate a Google Cloud o a servicios en la
nube de terceros a través de activadores para resolver problemas de orquestación
complejos.

Ing. Carolina Inés Apendino – Ing. Juan Pablo Bono Página 2 de 3


GKE (Cluster Kubernetes )
Cluster con Kubernetes, con addon de Prometheus & Grafana, que permite especificar la
cantidad de CPU y de memoria RAM que necesita cada contenedor para que se pueda
organizar mejor las cargas de trabajo de tu clúster

CRONOGRAMA
El tiempo estimado de instalación es de 3 meses, lo cual suman 480 horas

VENTAJAS
El BI puede llegar a convertirse en una ventaja competitiva fuerte, ya que proporciona
conclusiones robustas para la toma de decisiones. Contar con un esquema de este tipo
aporta ventajas tales como:
● disponer de la información correcta en el momento adecuado para la toma de
decisiones,
● proveer la capacidad de evaluar distintos escenarios al mismo tiempo,
● generar capacidad de reacción ante situaciones imprevistas con un nivel de riesgo
menor,
● agrupar la información de distintas áreas en un único repositorio.

CONCLUSIONES
La mayoría de las carreras de ingeniería ofrece esta facultad, no están en el ranking de las
más elegidas por aspirantes, ya que son carreras complejas, que demandan mucho
esfuerzo y tienen una duración de 5 años como mínimo. Por lo tanto se deben tomar
decisiones estratégicas no solo para aumentar la matrícula cada año, sino también
sostener el alumnado evitando grandes porcentajes de deserción y llevarlos a terminar
con el objetivo, el cual es graduarse.
Esta implementación permitirá hacer un análisi global de la situación, no solo actual, sino
histórica y futura, para llevar a cabo mecanismos que cubran esta situación problemática.

Ing. Carolina Inés Apendino – Ing. Juan Pablo Bono Página 3 de 3

También podría gustarte