Está en la página 1de 39

Presentación del Equipo

Keven Fernández Carrillo André Chávez Panduro Sergio Arakaki Shimabukuro

1
2

Agenda
Agenda

1 Entendimiento del Negocio

2 Análisis Exploratorio de Datos

3 Limpieza de Datos

4 Feature Engineering

5 Entrenamiento y Validación

6 Interpretación de Resultados

7 Conclusiones

3
4

Entendimiento del Negocio


HR Analytics

1 2 3

Adquisición del Talento Training Motivación

4 5

Promociones Retención del Talento

5
Caso de Estudio

MNC Enterprise

Proceso para Promover a un Empleado:

1. 2. 3.
Identificar Programa de Elección del
Empleados Training y Empleado a
Potenciales Evaluación Promover

6
Planteamiento del Modelo

Objetivo
Predecir si un empleado será promovido o no después de un proceso de evaluación en un punto de
control en particular.

Unidad de estudio
Un empleado dentro de las 9 unidades de negocio principales de la organización.

7
8

Análisis Exploratorio de Datos


Análisis Exploratorio de Datos

Train
Target: 1: es promovido 4,668 (8.5%)
36,538 registros
is_promoted 0: no es promovido 50,140 (91.5%)
(66.7%)
5 vars categóricas
Test 12 features 5 vars numéricas
18,270 registros 2 vars binarias
(33.3%)

54,808 registros

Entre los tipos de variables predictoras se contaba con información:


- Sociodemográficas
- Educación
- Laboral
- Resultados de Capacitaciones y Evaluaciones previas
- Indicadores de Entrenamientos actuales

9
Variables y Tipos de Datos
Variable Definición Tipo

employee_id ID único de Empleado ID

department Departamento del Empleado Categórica Nominal

region Región de Empleo Categórica Nominal

education Nivel de Educación Categórica Ordinal

gender Sexo del Empleado Categórica Nominal

recruitment_channel Canal de Reclutamiento del Empleado Categórica Nominal

no_of_trainings Número de capacitaciones completadas en el año anterior sobre Numérica


habilidades blandas, habilidades técnicas, etc.

age Edad del Empleado Numérica

previous_year_rating Calificación del Empleado en el año anterior Numérica

length_of_service Duración del servicio en años Numérica

KPIs_met >80% Si su KPI del empleado es mayor o no al 80% Binaria

awards_won? Si ganó o no premios/reconocimientos el año anterior Binaria

avg_training_score Puntaje promedio en evaluaciones de entrenamiento actuales Numérica

is_promoted (Target) Recomendado para promoción TARGET


10
EDA

11
EDA

12
EDA

13
14

Limpieza de Datos
Limpieza de Datos

15
Análisis de Correlaciones

16
17

Feature Engineering
Feature Engineering

18
Feature Engineering
Feature Engineering

Seleccionamos los Drivers o Features candidatos:


21

Entrenamiento y Validación
Entrenamiento y Validación

Random Forest Light GBM Logistic Regression


Entrenamiento y Validación

Dataset utilizando LABEL ENCODER


Entrenamiento y Validación

Dataset utilizando ONE HOT ENCODER


Entrenamiento y Validación

Dataset utilizando FEATURE ENGINEERING


Importancia de Variables
Entrenamiento y Validación

● Seleccionamos el modelo LightGBM ya que tiene mejor performance y se mantiene estable

● Al cambiar el tratamiento de variables de Label encoding a One hot encoding aumenta el


performance en LGBM y Logistic Regression, en mayor medida en el último

● Utilizamos validación cruzada estratificada para mantener el scores estables y tener mejor
control sobre el sobreajuste de los modelos
28

Interpretación de Resultados
Interpretación de Resultados

● La importancia de variable se ordena de


mayor a menor

● La distribución horizontal explica la


relación que tiene el valor de la variable
con el target

● Los colores indican el nivel de una


variable
○ ROJO: valores altos
○ AZUL: valores bajos

● Si una variable tiene valores rojos en los


SHAP values mayores a 0 (CERO) indica
correlación positiva

● Si una variable tiene valores azules en los


SAHP values mayores a 0 (CERO) indica
correlación negativa

30
Interpretación de Resultados

● La importancia de variable se ordena de mayor a


menor

● La distribución horizontal explica la relación que


tiene el valor de la variable con el target

● Los colores indican la relación de una variable

○ NARANJA: Favorece al target “promoted”


○ AZUL: Favorece al target “not_promoted”
Interpretación de Resultados

Retención del talento

Motivación

Entrenamiento
33

Conclusiones
Conclusiones

❖ Un buen tratamiento de variables pueden potenciar la efectividad de un modelo predictivo.

❖ La Analítica Predictiva nos puede ayudar a reducir los costos y tiempos dentro del Proceso de
Promociones

❖ Tener claro las variables que mayor aportan en la predicción de que un empleado sea ascendido
pueden ayudar a elaborar estrategias de retención del mejor talento

❖ Considerar hacer el trade off entre un modelo predictivo tipo “BLACKBOX” que nos da mejores
resultados a nivel predictivo y un modelo más conservador que nos permite interpretar mejor la
relación del Target con las variables drivers de negocio.

34
35

Anexos
Interpretación de Resultados

SHAP (SHapley Additive exPlanations):

● Basado en la teoría de juegos

● Interpretación global:

Los valores colectivos pueden identificar la


relación que hay entre una variable predictora con el
valor
del target.

● Interpretación local:

Podemos ver cómo impacta cada variable en una


persona, tanto de forma negativa o positiva.

● Mejor aplicación en modelos basados en árboles


Interpretación de Resultados

LIME (local interpretable model-agnostic explanations):

● Se genera valores sintéticos sobre una observación

● Genera un modelo lineal sobre el límite se la


predicción de una observación, lo que permite
ajustar y observar la relación que tiene cada variable

● Interpretación local:

Podemos ver cómo impacta cada variable en una


persona, tanto de forma negativa o positiva.

● Puede ser aplicado sobre cualquier algoritmo


“BLACKBOX”

También podría gustarte