Paper Oficial

Evaluación del Modelo de Aprendizaje Automático
Supervisado y No Supervisado para Predecir

Promoción de Empleados
29 de junio del 2023
Alicia Rodríguez Aldo Morales Eric Jara

Tecnologia Analista Sistemas
Visma Latam Adecco Software y Sistemas del Perú sac
Lima, Perú Zúrich, Suiza Iquitos, Perú
alicia.rodriguez.c@uni.pe aldo.morales.c@uni.pe eric.jara.p@uni.pe
Resumen—En el estudio de este trabajo de investigación se II. ESTADO DEL ARTE

evaluó los modelos de Machine Learning Supervisado de
clasificación y No Supervisado de agrupación para este caso de A. Predicción del Rendimiento de los Empleados Mediante
evaluación de promoción de empleados en una agencia de Distintos Clasificadores Supervisados.
reclutamiento internacional. La lección de este estudio es, que (Merry Grace T. Li, Macrina Lazo, Ariel Kelly Balan y
el aprendizaje automático ayude a predecir que empleados Joel de Goma), la misión principal de esta evaluación del
puede ser promovidos por algoritmos Supervisados como rendimiento de los empleados es dar un premio a los
“J48”, “REPTree”, “Random Forest” y “MultilayerPerceptron”
empleados al alcanzar un objetivo propuesto por el negocio
y No Supervisado como “SimpleKMeans” con agrupaciones de
(meta) y también identificar las metas que no se cumplen en
2 y 4 de Cluster aplicados de una base de datos que contiene
una cantidad de registros de 52,249 que incluye información la organización. Esto es por motivo para garantizar el
como el identificador de los empleados, los departamentos del desarrollo organizacional en un futuro inmediato, entonces
empleado, nivel educativo, género, canal de contratación, edad, para hacer una evaluación automatizada se necesita utilizar la
duración de servicio, calificación previo, premios otorgados, tecnología de minería de datos para proporcionar la
promedio de evaluaciones y la variables objetivo que es la información suficiente para tomar decisiones claves en la
promoción. Finalmente, como resultado del análisis se da una cuestión laboral, es decir, ascensos, aumentos de sueldo y
propuesta de solución para hacer aplicable con datos en vivo y despidos.
predecir las evaluaciones en el mundo real.
En este trabajo de investigación se utilizó algoritmos de
Palabras clave—Aprendizaje Automático, Supervisado, No clasificación supervisada para poder predecir el rendimiento
Supervisado, clasificación, agrupación. de los empleados, los algoritmos utilizados es Support Vector
Machines, Random Forest, Naive Bayes, Neural Networks y
I. INTRODUCCIÓN Regresión Logística. Se utilizó los datos con las siguientes
La empresa Adecco con sede en Zúrich, Suiza, ha tomado características para este estudio:
su nombre y forma actuales con la fusión de Adia y Ecco, De
dos de las principales empresas de reclutamiento del mundo,
en 1996. La fundación de Adia por Henri-Ferdinand
Lavanchy en 1957 y la fundación de Ecco por Philippe
Foriel-Destezet en 1964, constituye la base de Adecco. Hoy,
con más de 5.000 oficinas en más de 60 países, Adecco es
una de las mejores agencias de contratación internacional.
El equipo de Recursos Humanos Adecco almacenó datos
del ciclo de promoción del año 2022, que consta la
información de todos los empleados que se contrataron para
empresas externas y también si fueron ascendidos o no, pero
cada vez que este proceso se retrasa debido a la gran cantidad
de detalles disponibles para cada empleado se hace difícil
comparar y decidir.
La empresa Adecco tiene la necesidad de mejorar la
modalidad de promoción de empleados para garantizar una
buena gestión de contrataciones, para esto se debe brinda
soluciones flexibles de contratación de personal de acuerdo a
los departamentos, como por ejemplo Finanzas, Ventas y
Marketing, Operaciones, Tecnología, etc. Gestión del
personal de acuerdo a la necesidad de trabajo que pueden
surgir como resultado del inicio de una campaña o temporada
alta de producción.
acuerdo a los resultados obtenido del estudio se encontró que
29 de Junio de 2023 XXX-X-XXXX-XXXX-X/XX/$XX.00 ©20XX IEEE

el algoritmo de Regresión Logística, árbol de decisión y su calidad y que consta de diecinueve categorías, las cuales
Naive Bayes dieron resultados similares pero el que fue más son; inteligencia, mentalidad, capacidad, planificación,
efectivo es la Regresión Logística por su predicción del trabajo en equipo, expresión oral, expresión escrita etc. Esas
rendimiento de los empleados. categorías son valoradas para poner en la escala de
rendimiento.
B. Análisis y Predicción del Rendimiento de los Empleados
Mediante el Algoritmo K-Means Clustering y el Árbol de
Decisión.
El empleado es un elemento muy importante en el

sistema organizacional, por motivo que llegar hacer un Los resultados de este trabajo se pueden observar por la
eslabón clave porque depende del rendimiento de los demostración gráfica de agrupación de los empleados en
empleados para que la empresa tenga éxito o un triste función a su rendimiento mediante el algoritmo de
fracaso. Por lo que este artículo científico mencionado agrupación K-Means.
ayudar a evaluar el rendimiento de los empleados, para hacer
a proceder a la toma de decisiones. Los factores que se tiene
en cuenta son las características y capacidades de los
empleados en grupos homogéneos mediante agrupación.
Teniendo en cuenta la agrupación como metodología
principal para la predicción de los datos se tiene que explicar
cómo funciona el algoritmo K-Means para que sea
contextualizado en el proyecto mencionado. Entonces
tenemos entendido que el algoritmo K-Means es un
procedimiento de agrupación de datos no supervisados y
aritmético que buscan el análisis en datos conglomerados.
Cada Cluster es un arreglo de objetos de datos que son
semejantes entre ellos en el mismo Cluster, pero diferentes si
comparamos con otro Cluster. Para evaluar el rendimiento de
los empleados mediante aprendizaje no supervisado y con
agrupación se tiene que usar el algoritmo K-Means para
separar el rendimiento de los empleados en “4” número de
Cluster para así clasificar si son: excelente, bueno, medio y
malo. Este tipo de aprendizaje trabaja de manera iterativa
para asignar a cada punto de datos a uno de los “n” grupos,
fundamentándose en las caracterizas y capacidades.
El objetivo de la agrupación es minimizar la variación
intraclúster de acuerdo a conjuntos de datos (x1, x2, … xn)
donde lo primordial es particionar n datos k Cluster (k ≤ n)
con la minimización de una función objetiva, la cual es:
C. Predicción del rendimiento de los empleados utilizando
Naïve Bayes.
El rendimiento de los empleados es fundamental para el

éxito de una empresa en la consecución de sus objetivos.
Predecir el rendimiento de los empleados es una necesidad
Donde la función J es la función objeto, k número de para las empresas. En este estudio, se presenta la predicción
Cluster, n número de casos y donde está ubicada el valor del rendimiento de los empleados en una empresa utilizando
absoluto es la distancia entre los puntos. A continuación, se el aprendizaje automático. Se emplea el método de
va agregar el diagrama de flujo del algoritmo de K-Means: clasificación de Naive Bayes para crear un modelo de
predicción. Los resultados muestran una tasa de clasificación
correcta del 95.48% utilizando Naïve Bayes. Las palabras
clave de este estudio son Recursos Humanos, Rendimiento
de los Empleados y Naive Bayes. Este estudio aborda la
importancia de la satisfacción del empleado y los indicadores
clave de rendimiento (KPI) en la predicción del rendimiento
de los empleados. La predicción precisa del rendimiento de
los empleados puede ayudar a las empresas a tomar medidas
para reducir la rotación y mejorar la eficiencia
organizacional.
La investigación utiliza la metodología CRIPS-DM para
desarrollar un proyecto de aprendizaje automático. Se enfoca
en reducir la rotación de empleados como objetivo
empresarial. Se siguen las fases de comprensión del negocio,
Las comprensión de los datos, preparación de los datos,
evaluaciones de los empleados se realizan mediante modelado y evaluación.
formulario de informe de confidencialidad para poder medir
El estudio utiliza un conjunto de datos que contiene Se utilizó el método de Naïve Bayes para predecir una
información de 310 empleados. Los atributos del conjunto de puntuación de rendimiento actualizada, logrando una
datos incluyen género, estado civil, estado del empleado, precisión del 96.77%. Los resultados muestran que a medida
puntuación de rendimiento, posición y estado de terminación. que aumenta el número de instancias, la precisión también
aumenta. La matriz de confusión revela que hay más
verdaderos positivos que falsos positivos, y más falsos
negativos que falsos positivos.
Las figuras 10 y 11 ilustran la relación entre el número de

instancias y las curvas ROC y AUC en el conjunto de datos.
Los resultados obtenidos mediante el método de clasificación
de Naive Bayes muestran que atributos como la tasa de pago,
el estado del empleado y los días empleados tienen una
influencia significativa en el rendimiento de los empleados
en la empresa. Estos atributos son considerados como los
más importantes para predecir el rendimiento de los
empleados.
D. Predicción de la rotación de empleados con aprendizaje

automático: Un enfoque confiable.
Este estudio analiza y evalúa diversos métodos de
aprendizaje automático supervisado para predecir la rotación
de empleados en organizaciones. Se emplean métodos como
árboles de decisión, bosques aleatorios, aumento de
gradiente, regresión logística, redes neuronales, entre otros.
Se realiza una evaluación exhaustiva para establecer el
rendimiento de cada método utilizando conjuntos de datos
de recursos humanos reales y simulados. Además, se
proporcionan pautas confiables para la selección y uso de
estos métodos en diferentes tamaños y complejidades de
conjuntos de datos de recursos humanos.
En este estudio, se recopilaron dos conjuntos de datos
principales de recursos humanos y se crearon ocho
conjuntos de datos adicionales utilizando métodos de
muestreo. Los conjuntos de datos representan
organizaciones de diferentes tamaños y contienen
características comunes de recursos humanos. Esto permite
una evaluación más completa del rendimiento de los
algoritmos de aprendizaje automático en diferentes
configuraciones de datos. Los conjuntos de datos se
categorizan en grupos según su tamaño para facilitar el
análisis comparativo.
E. Sistemas de predicción de desempeño de empleados.

Un empleado es un activo para cualquier organización de
cualquier nivel. Conocer el valor de los empleados, lo que
podría ser útil para mantener el nivel de conocimiento y el
desempeño de los empleados, es muy importante.
Arquitectura
Proporciona un producto de sistema, método y programa
En este estudio se presentan los resultados de experimentos informático para el seguimiento del rendimiento de un
numéricos realizados para predecir la rotación de empleados empleado. Se capturan diversos detalles relacionados con
utilizando diferentes métodos de aprendizaje supervisado. Se cada actividad realizada por el empleado.
utilizaron conjuntos de datos reales y simulados que
Los detalles analizados y observados pueden utilizarse para
representan organizaciones de diferentes tamaños. Se
monitorear las actividades que actualmente realiza el
aplicaron diversos métodos estadísticos para analizar y
empleado, generando informes que detallan el tiempo
comparar el rendimiento de los algoritmos. Los resultados
dedicado por el empleado a diversas actividades, la
muestran que no hubo un algoritmo que sobresaliera
disponibilidad del empleado.
consistentemente en todos los conjuntos de datos pequeños.
Se destaca la importancia de realizar un análisis completo y
comparativo de los algoritmos de aprendizaje automático en
diferentes configuraciones.
Además, se proporcionan pautas confiables para la selección,
uso e interpretación de estos métodos en el análisis de
conjuntos de datos de recursos humanos de distintos tamaños
y complejidades. Se menciona que este estudio se enfoca en
comprender la rotación de empleados, y no en abordar cómo
reducirla.
Los resultados y discusiones ofrecen información valiosa
para futuras investigaciones en este campo.
Metodología
En la gestión de empleados, es deseable realizar un
seguimiento de cómo los empleados pasan su tiempo. Dicho
seguimiento es útil para determinar el desempeño de los
empleados.
Parámetros: Tareas, incluidos proyectos y procesos que se
realizan, tiempo dedicado a una tarea en particular,
eficiencia, productividad, rendimiento, tiempo de inactividad
y similares. Los gerentes utilizan estos parámetros para,
evaluar los costos laborales, programar a los empleados para
cumplir con las demandas laborales, evaluar la productividad
individual y grupal. Sin embargo, la recopilación y análisis
de estas informaciones son tediosos y complicados, por ello un empleado individual. Los campos en el conjunto de datos
se hace uso de algoritmos que nos permiten realizar los incluyen las siguientes 10 variables (ver tabla 6).
análisis en tiempo y costo optima.
El conjunto de datos se prepara, procesa y limpia utilizando
Algoritmo la pestaña de preprocesamiento de la ventana del explorador
de WEKA. Las capacidades de preprocesamiento de WEKA
Minería de datos, se utiliza esta técnica como asociación, se resumen en un amplio conjunto de rutinas conocidas como
agrupación, clasificación y predicción de cantidades para filtros. El preprocesamiento de un filtro se centra
establecer matrices de rendimiento y predecir los resultados básicamente en dos tipos de valores: instancia y atributo, en
futuros. los cuales se utilizan los conjuntos de datos para reorganizar
los valores. Las instancias se dividen en dos conjuntos de
datos: un conjunto de entrenamiento y un conjunto de
pruebas. El 70% del conjunto de datos se selecciona para el
entrenamiento y el 30% para las pruebas, y se ha
seleccionado una sección invertida para verificar la relación
de los dos valores.
B. Preprocesamiento de datos: Los datos disponibles para
la minería son datos en bruto, es decir, los datos originales.
Los datos pueden tener diferentes formatos y provienen de
diferentes fuentes. Los datos ruidosos pueden ser
irrelevantes, por lo que es necesario preprocesar los datos
antes de aplicar técnicas de minería de datos. El algoritmo de
minería de datos utiliza los siguientes pasos:
1) Integración de datos: Si los datos provienen de muchas
fuentes diferentes, entonces los datos deben tener diferentes
Regresión agregaciones, incluyendo la eliminación de
incompatibilidades entre conjuntos de datos con diferentes
El método de clasificación de vectores de soporte se puede propiedades o valores de atributos entre las fuentes de los
extender para resolver problemas de regresión. Este método conjuntos de datos.
se llama regresión de vectores de soporte. El modelo
producido por este método depende solo de un subconjunto 2) Discretización: Cuando el algoritmo de minería de datos
de los datos de entrenamiento, porque la función de costo no puede enfrentar características continuas, es necesario
para construir el modelo ignora cualquier dato de implementar la discretización. En esta fase, se cambia un
entrenamiento cercano a la predicción del modelo. Hay tres atributo continuo a un atributo categórico, tomando solo
implementaciones diferentes como SVR, NuSVR y Lineal. algunos valores discretos. La discretización a menudo mejora
la comprensión del conocimiento buscado.
Actualmente, durante la investigación se descubre que la
regresión SVR respalda la predicción cuantitativa con una 3) Selección de atributos: Todas las características están
buena precisión tomando como referencia la figura 16. relacionadas, por lo que seleccionar un subconjunto de
características asociadas requiere explorar todas las
RVS propiedades en la característica seleccionada.
En la investigación se busca predecir los resultados de la
cantidad, es decir el rendimiento de la categoría de conjunto
de habilidades para los próximos meses, SVR ayuda aquí.
Conclusión
En el artículo se propone un sistema de predicción del
desempeño de los empleados en base a algoritmos de minería
de datos. El trabajo futuro incluye la integración de este
sistema con interfaces web y bases de datos.
F. Análisis predictivo de recursos humanos mediante

minería de datos: Técnicas de Clasificación.
Metodología propuesta:
A. Conjunto de datos: Los datos primarios y la
información básica sobre Analítica Predictiva de Recursos
Humanos se recopilan del sitio web Kaggle, realizado por
Vivek Aggrawal (Ingeniero de software en Tata Consultancy
Services, Gurugram, Haryana, India), con el propósito de ser
evaluados mediante el método seleccionado. Además, los
datos se convierten en formato ARFF (Formato de Archivo
de Relación de Atributos) para su procesamiento en WEKA.
El conjunto de datos utilizado en este estudio propuesto
incluye 14,999 observaciones, donde cada fila representa a
La selección de características es crucial en la minería de
datos, ya que muchas veces hay características no
relacionadas que deben eliminarse. Antes de aplicar
algoritmos de minería, es importante seleccionar las
características adecuadas para evitar el sobreajuste y mejorar
la eficiencia del modelo. En este estudio, se utilizaron
técnicas de selección de características, como CFS, para
seleccionar las características más relevantes.
En cuanto a los experimentos, se utilizaron enfoques de
clasificación de árboles de decisión para distinguir el diseño
de aptitudes en la base de datos de Recursos Humanos. Se
emplearon diferentes clasificadores, como J48, Naive Bayes,
Bayes Net, Logistic, OneR, Jrip, Random Tree, SVM, entre
otros. Para evaluar la precisión de los clasificadores, se
aplicó una validación cruzada de 10 pliegues en el conjunto
de datos.
Los resultados mostraron que J48 obtuvo la mayor
precisión en la clasificación. Además, se utilizaron técnicas
como Naive Bayes, Bayes Net, Logistic y OneR, cada una
con sus propias características y ventajas.
En resumen, la selección de características y la aplicación
de diferentes clasificadores permitieron obtener modelos de
predicción precisos para el diseño de aptitudes en Recursos
Humanos. Estos resultados tienen implicaciones importantes
para mejorar la eficiencia y la toma de decisiones en el
ámbito laboral.
G. Predicción de la rotación de empleados utilizando el
método de validación cruzada de redes neuronales. El análisis experimental concluye que el método propuesto
Este artículo se centra en predecir las probabilidades de supera a los clasificadores mencionados en términos de
rotación de empleados mediante la implementación de una métricas de rendimiento. La rotación de empleados es un
herramienta automatizada. El sistema propuesto utiliza una problema importante en cualquier organización, y para
red neuronal de alimentación directa junto con el maximizar los beneficios, es necesario considerar las tasas de
procedimiento de validación cruzada de 10 pliegues en una rotación de empleados.
sola plataforma para predecir la rotación de empleados. Este Este artículo propone un sistema que predice
método propuesto se evalúa y se compara con seis automáticamente las posibilidades de rotación de empleados.
clasificadores, como Máquinas de Vectores de Soporte, La predicción temprana de la rotación de empleados puede
Vecinos más Cercanos, Bayes Ingenuo, Árbol de Decisiones, ayudar a aumentar la eficiencia y la dedicación de los
Adaboost y Bosques Aleatorios. empleados.
Se implementa una red neuronal de alimentación directa
basada en el aprendizaje profundo junto con el método de
validación cruzada de 10 pliegues para mejorar la eficiencia
en la determinación de las probabilidades de rotación de
empleados. Además, se implementan seis clasificadores para
comparar el rendimiento del modelo propuesto. El estudio
demuestra que el modelo propuesto es superior a los otros
clasificadores mencionados.
En resumen, este estudio presenta un enfoque basado en
redes neuronales para predecir la rotación de empleados y
demuestra su superioridad sobre otros clasificadores. Este
enfoque tiene el potencial de ayudar a las organizaciones a
identificar y retener a los empleados con mayor riesgo de
rotación.
H. Rotación de empleados: una solución de red neuronal.

Este artículo se centra en el problema de la rotación de
empleados en las organizaciones y propone una solución
basada en redes neuronales. La rotación de empleados es un
desafío significativo para las empresas, ya que puede
resultar en altos costos financieros y pérdida de talento.
El objetivo de este estudio es desarrollar un modelo de En resumen, este estudio demuestra que las redes
predicción de rotación de empleados utilizando redes
neuronales, con el fin de identificar a los empleados
propensos a abandonar la organización y tomar medidas
preventivas. El modelo propuesto utiliza una red neuronal de
alimentación directa con múltiples capas ocultas.
Para entrenar la red neuronal, se recopilan datos

históricos de empleados, que incluyen características como
neuronales son una herramienta efectiva para predecir la
edad, antigüedad en la empresa, nivel de satisfacción
rotación de empleados. Su capacidad para identificar a los
laboral, rendimiento, entre otros. Estos datos se utilizan para empleados propensos a abandonar la organización brinda a
alimentar la red neuronal y aprender los patrones que las empresas la oportunidad de implementar medidas de
indican la probabilidad de rotación de un empleado. retención específicas y mejorar su estrategia de gestión del
talento.
Una vez entrenada la red neuronal, se evalúa su
rendimiento utilizando métricas como precisión, sensibilidad I. La aplicación de minería de datos para construir
y especificidad. Los resultados muestran que la red neuronal Modelo de Clasificación para Predecir Posgrado
logra una alta precisión en la predicción de la rotación de Empleo.
empleados, lo que indica su capacidad para identificar a
Este estudio es para construir el Modelo de Empleo de
aquellos empleados que tienen más probabilidades de
Graduados utilizando la tarea de clasificación en la minería
abandonar la organización.
de datos, y para comparar varios enfoques de minería de
datos como el método Bayesiano y el método del Árbol.
Este enfoque basado en redes neuronales ofrece varias
ventajas. En primer lugar, permite un análisis más profundo Metodología
y preciso de los datos de los empleados, ya que la red
neuronal puede capturar relaciones no lineales entre las El objetivo principal de la metodología propuesta es construir
variables. En segundo lugar, proporciona una herramienta el modelo de clasificación que clasifique un perfil de
automatizada para la predicción de la rotación de graduado como empleado, desempleado o indeterminado
empleados, lo que facilita la toma de decisiones y la utilizando datos de la Universidad de Maejo en Tailandia
implementación de estrategias de retención. durante 3 años académicos, que consta de 11853 instancias.
Resultados: Una vez que los 10 conjuntos de

entrenamiento terminaron de entrenar, probamos las
soluciones en sus respectivos conjuntos de prueba. Desde el
número de empleados que se quedaron en un año dado
superó con creces a los empleados que se fueron,
necesitábamos para establecer el punto de corte para tener
en cuenta los datos sesgados. En el conjunto completo de
datos de 447 observaciones, hay 35 observaciones de
empleados que se fueron (o codificadas como 1s). Luego
dividimos este número por el total observaciones dándonos
el valor .0783. Esto significa que cualquier estimación de
NN por debajo de .0783 se clasificaría como quedarse y
cualquier cosa por encima de .0783 se clasificaría como irse.
La aplicación se desarrolló en el lenguaje de programación
Python y las predicciones se realizan con la ayuda de ciencia
de datos y los modelos de aprendizaje automático.
Tecnología
Se ha utilizado el lenguaje de programación de Python, que
es un dialecto traducido, progresivamente escrito y menos
difícil en gramática. Python contiene varias bibliotecas
accesibles en él, lo que hace que sea fácil de usar para cada
aplicación.
Resultados y discusión
A continuación, se muestra la precisión de la clasificación
utilizando varios algoritmos bajo el método de árbol en
WEKA. Además, la tabla proporciona resultados
comparativos para las estadísticas Kappa, el error absoluto
Fig. 19. Metodología de predicción.
medio, el error cuadrático medio, el error absoluto relativo y
el error cuadrático relativo de la raíz del total.
Técnicas de preprocesamiento
La información que recibimos del cliente es información
curda, por lo que necesita perfeccionarse, cambiarse y
disminuirse para que sea adecuada para aplicar estrategias
sobre ella, este procedimiento se conoce como
preprocesamiento. ETLT (eliminar, cambiar, apilar y
cambiar) para obtener información en la zona de pruebas.
Mejora la naturaleza general de la información y la
efectividad del modelo a entregar.
Escalado de características
Es la estrategia para restringir el alcance de los factores con
el objetivo de que se puedan considerar en términos básicos.
Se realiza sobre factores constantes.
Conclusiones Codificación de etiquetas
Sklearn ofrece una herramienta extremadamente eficiente
A medida que aumenta el número de graduados producidos
por las instituciones de educación superior cada año, los para codificar los niveles de un resumen total en valores
graduados se enfrentan a una mayor competencia para numéricos.
asegurar su empleo en el mercado laboral. El propósito del Codificación One-Hot
estudio es ayudar a las instituciones de educación superior a One-Hot Encoding cambia cada elemento definido con n
equipar a sus graduados con las habilidades suficientes para valores posibles en n aspectos destacados paralelos, con una
ingresar al mercado laboral. sola dinámica. La mayoría de los cálculos de ML toman un
El estudio intenta predecir si un egresado ha tenido solo peso para cada componente o las cifras se eliminan entre
empleo, permanece desempleado o se encuentra en una los ejemplos.
situación indeterminada después de graduarse. La predicción
se realizó con varios algoritmos bayesianos y de decisión Metodología
para clasificar un perfil de egresado, los resultados muestran
que el algoritmo WAODE, una variante del algoritmo Bayes, Se tiene la intención de prever si un representante continuará
logró la mayor precisión del 99.77%. La precisión promedio o dejará la asociación en función de la investigación de los
de otros algoritmos de Tree fue del 98.31%. datos de trabajadores anteriores. Los factores de expectativa
incluyen el nivel de cumplimiento, la última evaluación, las
horas normales de mes a mes, la compensación, la mala
J. Predecir la retención de empleados mediante la ciencia suerte laboral, el avance, el tiempo dedicado a la
de datos. organización y la división. Los modelos de aprendizaje
La idea principal de este informe es averiguar que automáticos como la recaída calculada, el orden del árbol de
empleado valioso dejará la empresa y las características que elección, etc. Son algunos que se eligieron para la predicción.
lo están afectando para tomar esta decisión, como el nivel
salarial, número de horas gastadas en una semana,  Regresión lineal
promoción, número de accidentes de trabajo, etc.  Regresión logística
 Regresión de lazo
Resultados y discusión
El informe pretende prever si un trabajador procederá o
abandonará la asociación en vista del examen de la
información de los pasados representantes. Aquí se
proporciona la información utilizada para generar
expectativas, se encuentra en un marco impensable que
contiene segmentos como nivel de cumplimiento, última
evaluación, número de compromisos, horas normales de mes
a mes, años de permanencia en la organización, infortunio
laboral, oficina y pago.
Fig. 20. Conjunto de datos para predicción.

A. Fuentes de datos del Dataset.
Se obtuvo el resultado en comparación con los datos
El equipo de recursos humanos almacenó datos del ciclo
analizados anteriormente con la ayuda de la matriz de de promoción del año pasado, que consta de detalles de todos
confusión y la puntuación de precisión, este resultado se los empleados de la empresa que trabajaron el año pasado y
compara con los datos disponibles para encontrar la precisión también si fueron ascendidos o no, pero cada vez que este
del resultado y el 97% de las predicciones con correctas. proceso se retrasa debido a la gran cantidad de detalles
disponibles para cada empleado - Se hace difícil comparar y
decidir.
Entonces, esta vez el equipo de recursos humanos quiere
utilizar los datos almacenados para hacer un modelo que
Fig. 21. Resultado prediga si una persona es elegible para una promoción o no.
Necesidad de idear un modelo que ayude al equipo de
Conclusiones
recursos humanos a predecir si una persona es elegible para
En la investigación se familiarizó con el mantenimiento de una promoción o no.
un representante dentro de la asociación. Se puede describir Para este caso de estudio se tiene un conjunto de 13
utilizando el procedimiento de recaída estratégica, que ofrece variables que se detalla en la siguiente tabla. Además, que
un resultado con un 97% de precisión. este dataset tiene 52,249 instancias para la aplicación de
También puede ayudar a descubrir los componentes que aprendizaje automático con una variable objetivo que decide
influyen en los representantes de la asociación, como nivel si se promueve o no al trabajador (0 o 1).
de pago, la pila de trabajo, los avances, etc.
III. MODELOS DE MACHINE LEARNING PROPUESTOS

Se propone la siguiente metodología para la aplicación de
algoritmos supervisados y no supervisados para la predicción
de Promoción de Empleados.
15,183, el cual la clase mayoritaria (0, empleados no
promovidos) era 66,7% del total del dataset y la clase
minoritaria (1, empleados si promovidos) era 33,3%.
Esto genera que el entrenamiento del algoritmo tenga un
paupérrimo rango para predecir si el empleado es promovido,
por lo que se tuvo que instalar el filtro para balancear las
clases llamado “SMOTE”, este filtro lo que hace es analizar
la sensibilidad de las clases mayoritaria y minoritaria para
aplicar sobremuestreo y submuestreo de datos, para que así
obtener un conjunto de datos balanceados, que por
consecuencia, mejora los resultados de la aplicación de los
algoritmos, por lo consiguiente tener mejores resultados.
C. Modelamiento.
En este caso de estudio, el modelamiento se rige por la
metodología indica, es decir, se divide en 2 partes
importantes, en algoritmos supervisados y no supervisados,
B. Preprocesamiento de datos. los cuales cada uno de esas partes tiene sus técnicas de
El dataset es una recopilación de estructuras organizadas predicción. Los cuales son las siguientes: En la categoría de
en filas y columnas, similares a una tabla, pero en este caso modelos supervisados se tiene los siguientes algoritmos con
el dataset puede haber tenido valores nulos o vacíos por lo un entrenamiento 70%:
que se tendría que hacer una limpieza, integración y
filtración de los datos, luego de hacer todo ese procedimiento 1) J48:
se terminó con un número de instancia aproximadamente de Es uno de los algoritmos de clasificación más importantes
15,183 y se asignó como valores numéricos 0 a los desarrollado en Java, que utiliza la recursividad y la
empleados que no pudieron ser promovidos y 1 a los regresión para dividir los datos en partes más pequeñas
empleados que sí pudieron ser promovidos. según sus características de los atributos. Construye un
árbol de decisión, de acuerdo a las instancias asignados a
1) Limpieza de datos: la variable objetivo.
Tiene la prioridad de remover los datos que sean
incoherente a su semántica, presentación o formato. En esta 2) REPTree:
faceta se tiene que identificar los errores de interpretación Algoritmo de clasificación fundamentado en árboles de
(por ejemplo; que un usuario tenga la edad 500 años), clasificación, que utiliza la recursividad. Divide los datos
inconsistencia (por ejemplo; que se respete una fuente, si es de la misma manera que el algoritmo J48, en
“No” sea 0 y “Si” sea 1), valores nulos o vacíos, este último subconjuntos más pequeños de acuerdo a sus
genera muchos problemas al momento de procesar los datos, características, pero la diferencia es el tamaño del árbol y
por ese motivo es recomendable eliminar registros que tiene evita el sobreajuste.
datos vacíos, y valores atípicos que se puede identificar
fácilmente porque no respetan el planteamiento de su 3) Random Forest:
estructura. Algoritmo de clasificación y regresión, que combina
2) Integración de datos: varias técnicas de múltiples árboles de decisión para
En esta etapa se tiene que verificar los datos, para que mejor predicción y robustez del modelo. Construye cada
sea integrados a un formato universal de la colección de árbol con muestras aleatorias (con reemplazo) del
datos, es decir, los datos deben ser consistentes en tamaño, conjunto original de datos de entrenamiento y utiliza solo
tipo y estructura. Un ejemplo claro que tenía el dataset era un solo subconjuntos de datos de acuerdo a sus
que la fecha de algunas instancias era diferente, por motivo características del atributos. Este algoritmo tiene la
que algunos tenían formato día, mes y años, y otros eran mes, capacidad de manejar datos más complejos y conjuntos
día y años, entonces se procedió arreglar el formato para que de datos grandes, además, que es resistente al sobreajuste
tenga una versión universal. de los datos, por lo que como resultado modelos más
precisos y estables.
3) Filtración de datos
Para que el dataset sea analizado de manera correcta, se 4) Multilayer Perceptron (Redes Neuronales):
tiene que eliminar los datos que no aporten un promedio al Algoritmo perteneciente a la familia de las redes
análisis o que no sean aplicables estadísticamente hablando, neuronales artificiales, es uno de los más populares en el
por ese motivo las variables de “employee_id” y “region” campo de aprendizaje automático profundo y se utiliza
deben ser eliminados para que no interfieran al momento de ampliamente para aplicaciones de dataset de clasificación
aplicar los algoritmos del aprendizaje automático. y regresión. Este algoritmo tiene la capacidad de aprender
Además, para que el dataset sea aplicable a los hacer relaciones lineales y no lineales con datos
algoritmos de clasificación los datos numéricos deben ser complejos y utiliza una gran variedad de problemas,
pasados a tipo de dato nominal. Este proceso se tiene que además de utilizar en aplicaciones de rubro médico,
hacer con un filtro que tiene la herramienta Weka llamado seguridad y procesamiento de texto, sin embargo, es
“NumericToNominal” que convierte los datos numéricos a algoritmo requiere gran cantidad de datos y fuerza
nominal, para que las estadísticas sean aplicables a computacional. Por ese motivo se tiene que proponer de
algoritmos de clasificación. manera correcta los hiperparámetros y técnicas de
ordenamiento para tener un modelo de alta precisión.
Después de aplicar los 2 procesos anteriores el dataset
queda con un total de registros validados e integrados de 5) Support Machine Vectorial (SMV):
Es un poderoso algoritmo de aprendizaje automático, IV. ANÁLISIS DE RESULTADO CON ORIGEN EN EL
utilizando métodos de clasificación y regresión. Este DATASET
algoritmo se usa para separar muestras de diferentes
After the text edit has been completed, the paper is ready
clases en el ámbito de sus características. La idea de este
for the template. Duplicate the template file by using the
algoritmo es poner los datos en un hiperplano en el
Save As command, and use the naming convention
ámbito de las características para maximizar sus
prescribed by your conference for the name of your paper. In
márgenes de muestra de acuerdo a sus clases.
this newly created file, highlight all of the contents and
El hiperplano se puede denominar “hiperplano de import your prepared text file. You are now ready to style
separación máximo” y esta personificado por una función your paper; use the scroll down window on the left of the MS
lineal para separar las clases, en donde las muestra se Word Formatting toolbar.
convierte en un vector de características. Este algoritmo
A. Aprendizaje supervisado.
tiene la capacidad de manejar problemas de alta
dimensionalidad y adapta los problemas a clasificación The template is designed for, but not limited to, six
binaria como multiclase. En conclusión, este algoritmo authors. A minimum of one author is required for all
llega ser muy eficaz y versátil para su aplicación de conference articles. Author names should be listed starting
variedad de problemas de clasificación y regresión, sin from left to right and then moving down to the next line. This
embargo, puede consumir recursos computacionales muy is the author sequence that will be used in future citations and
cuantiosos por el conjuntos de datos muy grandes para su by indexing services. Names should not be listed in columns
procesamiento y con características muy complejas. nor group by affiliation. Please keep your affiliations as
succinct as possible (for example, do not differentiate among
6) BayesNet (Redes Bayesianas): departments of the same organization).
Es un algoritmo de clasificación y un modelo de
probabilidad que se basa en la teoría de grafos dirigidos 1) For papers with more than six authors: Add author
para definir y razonar las relacionas de dependencia names horizontally, moving to a third row if needed for
probabilística entre variables. more than 8 authors.
2) For papers with less than six authors: To change the
El aprendizaje de las redes bayesianas consta en estimar
las estructuras en probabilidades condicionales a partir de default, adjust the template as follows.
un conjunto de datos de entrenamiento. Pero las redes 3) For papers with more than six authors: Add author
bayesianas tienen varios métodos de aprendizaje por lo names horizontally, moving to a third row if needed for
que de acuerdo al caso de clasificación se puede usar el more than 8 authors.
aprendizaje de máxima verosimilitud o el aprendizaje 4) For papers with less than six authors: To change the
basado en enfoques Bayesianos. default, adjust the template as follows.
En la categoría de modelos no supervisados se tiene los a) Selection: Highlight all author and affiliation lines.
siguientes algoritmos con el uso total del dataset: b) Change number of columns: Select the Columns
icon from the MS Word Standard toolbar and then select the
7) SimpleKMeans:
correct number of columns from the selection palette.
Es un algoritmo de agrupación que pertenece al enfoque
de aprendizaje no supervisado, es decir, no da etiquetas a c) Deletion: Delete the author and affiliation lines for
los valores objetivos o los datos, sino, que busca una the extra authors.
estructura semántica entre los datos para definirlos entre 5) For papers with less than six authors: To change the
elementos similares. Este algoritmo busca minimizar la default, adjust the template as follows.
sima de los cuadrados de las distancias que hay entre
instancia con el centroide de un grupo asignado, es decir,
halla el mejor promedio entre el centroide con las B. Aprendizaje no supervisado.
instancias. Este algoritmo destaca porque puede dar Headings, or heads, are organizational devices that guide
diferentes resultados dependiendo a la inicialización de the reader through your paper. There are two types:
los centroides. component heads and text heads.
Component heads identify the different components of
your paper and are not topically subordinate to each other.
8) EM (Expectation-Maximization): Examples include Acknowledgments and References and, for
Este algoritmo no supervisado busca calcular la mejor these, the correct style to use is “Heading 5”. Use “figure
estimación agrupaciones de acuerdo a los parámetros de caption” for your Figure captions, and “table head” for your
los datos estadísticos. table title. Run-in heads, such as “Abstract”, will require you
Después de la aplicación de los algoritmos propuestos to apply a style (in this case, italic) in addition to the style
para este caso de estudio se hace los cálculo del número de provided by the drop down menu to differentiate the head
agrupaciones promedio que debe tener este dataset. Este from the text.
cálculo se realizó en la herramienta R Studio, mediante
1) For papers with more than six authors: Add author
métodos de cálculo óptimos de Cluster. Además, para
calcular la variable de mayor importancia se tiene que ir a la names horizontally, moving to a third row if needed for
sección “Select Attributes” en Weka, después ubicar el more than 8 authors.
atributo evaluador “InfoGainAttributeEval” y el método de 2) For papers with less than six authors: To change the
búsqueda llamado “Ranker”. Y por último se utilizó el auto default, adjust the template as follows.
aprendizaje, que busca el mejor algoritmo para el dataset con
todo sus filtros y parámetros, para dar el modelo más óptimo Text heads organize the topics on a relational,
y eficiente, el cual es “Random Forest”. hierarchical basis. For example, the paper title is the primary
text head because all subsequent material relates and Identification in Telecom Sector” (PDF). Department of Information
elaborates on this one topic. If there are two or more sub- and Communication Engineering, Yeungnam University, Gyeongsan
38542, South Korea. Gyeongsan, Korea del Sur. IEEE Access. Digital
topics, the next level head (uppercase Roman numerals) Object Identifier 10.1109/ACCESS.2019.2914999.
should be used and, conversely, if there are not at least two [3] C. Soto-Valero (2013), “Minería de datos para series temporales en
sub-topics, then no subheads should be introduced. Styles Weka y su aplicación en el pronóstico de precipitaciones” (PDF).
named “Heading 1”, “Heading 2”, “Heading 3”, and Facultad de Matemática, Física y Computación, Universidad Central
“Heading 4” are prescribed. Marta Abreu de las Villas, Cuba. Santa Clara, Cu. DOI:
10.13140/RG.2.2.16669.13284.
V. DISCUSIÓN [4] J. Gusmán, J. Huamán, J. Salas (2022), “Modelo de aprendizaje
automático supervisado para predecir si un titular de una tarjeta de
Este caso de investigación se diferencia a otros estudios crédito (de una empresa retail financiero) pagará o no el saldo en mora
por motivo que pone en aplicación 2 de las 3 categorías de del “pago mínimo facturado” (PDF). Facultas de Ingeniería de
aprendizaje automatizado. Además, que la aplicación de los Industrial y Sistemas, Universidad Nacional de Ingeniería (UNI),
Perú. Lima, Perú, pp. 1-12.
algoritmos es personalizada de acuerdo al caso, que es la
promoción de empleados. Por lo pone en juicio, ¿Cuál es la [5] P. Gajbhiye, A. Gaikwad (2020), “Employee Performance Prediction
System” (PDF). Deogiri Institute of Engineering and Management
mejor categoría de aprendizaje? Entonces tenemos que Studies, India. Aurangabad, India, pp. 1-4. www.jetir.org (ISSN-
recordar a la rama de la matemática llamada Investigación de 2349-5162).
Operaciones que indica lo siguiente, Taha (2017) “cualquier [6] R. Jayadi, H. Firmantyo, M. Dzaka, M. Suaidy, A. Putra (2019),
problema que tenga soluciones óptimas múltiples, tendrá un “Employee Performance Prediction using Naïve Bayes” (PDF).
número infinito de soluciones, con el mismo valor de la International Journal of Advanced Trends in Computer Science and
Engineering, Indonesia. Jakarta, Indonesia, pp. 1-5.
función objetiva”. Tomando en cuenta lo mencionado, se https://doi.org/10.30534/ijatcse/ 2019/59862019.
puede decir que los trabajos tuvieron factores únicos que le
[7] Y. Zhao, M. Hryniewicki, F. Cheng, B. Fu, X. Zhu (2019),
hicieron diferentes al nuestro, por lo consiguiente tuvieron “Employee Turnover Prediction with Machine Learning: A Reliable
como resultado un algoritmo óptimo diferente a nuestro caso Approach” (PDF). Department of Computer Science, University of
de investigación. Pero se tuvo en cuenta que el estudio es Toronto. Toronto, Canada. K. Arai et al. (Eds.): IntelliSys 2018, AISC
congruente y coherente con la aplicación. Por lo que 869, pp. 737–758, 2019. DOI: https://doi.org/10.1007/978-3-030-
01057-7_56.
podemos decir que la estructura del dataset, limpieza,
[8] E. Carmona (2017), “Aprendizaje Autómatico - Máquinas de Vectores
integración y filtrado de datos, y el balanceo de datos fueron Soporte en Tareas de Regresión” (PDF). Departamento de Inteligencia
realizados de manera deferente a la tipología de los estudios Artificial. ETS de Ingeniería Informática, Universidad Nacional de
citados en el capítulo del estado del arte. Educación a Distancia (UNED), España. Madrid, España, pp. 1-6.
[9] Huang, B., Kechadi, M. -T., & Buckley, B. (2010). "A new feature set
VI. CONCLUSIÓN with new window techniques for customer churn prediction in land-
line telecommunication". Expert Systems with Applications, 37(5),
En conclusión, definimos como grupo que la inteligencia 3657–3665.
artificial es una materia que nos puede ayudar a describir,
[10] B. Huang, M. T. Kechadi, B. Buckley. "Customer churn prediction in
predecir y dar una predicción de situaciones reales mediante telecommunications", Expert Systems with Applications, Volume 39,
análisis de los datos. La inteligencia artificial simula las Issue 1, 2012.
características que tiene los expertos de un dominio mediante [11] Ghazzawi, A.; Alharbi, B (2019). Analysis of Customer Complaints
un motor de inferencia para comprender, simular y resolver Data using Data Mining Techniques. 1-2.
problemas, por ese motivo la inteligencia artificial contiene [12] Haykin, Simon (1998). Neural Networks: A Comprehensive
soluciones de Machine Learning que a su vez tiene Foundation (2 edición). Prentice Hall. ISBN 0-13-273350-1.
soluciones de aprendizaje profundo, se menciona esto porque [13] Ben-Gal, Irad (2007). Bayesian Networks (PDF). En Ruggeri,
se usó herramientas de Machine Learning (Weka y R Studio) Fabrizio; Kennett, Ron S.; Faltin, Frederick W, ed. «Encyclopedia of
Statistics in Quality and Reliability». Encyclopedia of Statistics in
para el caso de estudio de predicción de “Promoción de Quality and Reliability. John Wiley & Sons. ISBN 978-0-470-01861-
Empleados” de la empresa Adecco. 3. doi:10.1002/9780470061572.eqr089.
En particular se usó los algoritmos de clasificación “J48”, [14] R. Islam, S. Mohd Rasad (2006), “Employee performance evaluation
by the AHP: A case study” (PDF). Department of Business
“REPTree”, “Random Forest”, “Multilayer Perceptron”, Administration International Islamic University Malaysia. Kuala
“Soporte de Máquinas Vectorial SMV” y “BayesNet” y Lumpur, Malaysia. Asia Pacific Management Review.
algoritmos de agrupación como “SimpleKMeans” y “EM”. [15] F. Kalyoncu, E. Zeydan, I. O. Yigit, y A. Yildirim, "A Customer
Pero para el uso de los algoritmos de clasificación se tuvo Complaint Analysis Tool for Mobile Network Operators", en 2018
que hacer preprocesado de datos mediante métodos de IEEE/ACM International Conference on Advances in Social
Networks Analysis and Mining (ASONAM), Barcelona, ago. 2018,
sobremuestreo y submuestreo, y balanceo de datos aplicando
pp. 609-612. doi: 10.1109/ASONAM.2018.8508289.
el filtro “SMOTE”, para tener un modelo de predicción más
[16] L. Pinto (2015), “Modelo algorítmico para la clasificación de
eficiente en el “TP Rate” de los empleados que son documentos de carácter judicial en lenguaje portugués según su
promovidos o no. Esto apoyará mucho a la problemática de contenido” (PDF). Facultad de Ciencias e Ingeniería, Pontificia
la empresa porque les mostrara cual es clave con mayor Universidad Católica del Perú (PUCP), Perú. Lima, Perú, pp. 1-61.
importancia para que un empleado sea promovido o no.
REFERENCIAS
[1] K. Sahinbaş (2022), “Employee Promotion Prediction by using
Machine Learning Algorithms for Imbalanced Dataset” (PDF).
Department of Management Information System, Istanbul Medipol
Universitu. Istanbul, Turkey. 2nd International Conference on
Computing and Machine Intelligence (ICMI)978-1-6654-7483-
2/22/$31.00 ©2022 IEEE. DOI: 10.1109/ICMI55296.2022.9873744.
[2] I. Ullah, B. Raza, A. Kamran Malik, M. Imran, S. Islam, S. Won Kim
(2019), “A Churn Prediction Model Using Random Forest: Analysis
of Machine Learning Techniques for Churn Prediction and Factor

Paper Oficial

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Paper Oficial

Cargado por

Copyright:

Formatos disponibles

Evaluación del Modelo de Aprendizaje Automático

Supervisado y No Supervisado para Predecir

Alicia Rodríguez Aldo Morales Eric Jara

Resumen—En el estudio de este trabajo de investigación se II. ESTADO DEL ARTE

29 de Junio de 2023 XXX-X-XXXX-XXXX-X/XX/$XX.00 ©20XX IEEE

El empleado es un elemento muy importante en el

El rendimiento de los empleados es fundamental para el

Las figuras 10 y 11 ilustran la relación entre el número de

D. Predicción de la rotación de empleados con aprendizaje

E. Sistemas de predicción de desempeño de empleados.

F. Análisis predictivo de recursos humanos mediante

H. Rotación de empleados: una solución de red neuronal.

Para entrenar la red neuronal, se recopilan datos

Resultados: Una vez que los 10 conjuntos de

Fig. 20. Conjunto de datos para predicción.

III. MODELOS DE MACHINE LEARNING PROPUESTOS

También podría gustarte