Está en la página 1de 11

Detección y clasificación de

posibles fraudes en
afiliaciones en la ARL
Positiva
Aplicación Procesamiento de Data y Modelos de clasificación

Presentado por:

• Stephany Alejandra Bogoya Contreras


• Julissa Fernanda Cabrera Sassin
• Diana Milena Murcia Méndez
• Sandra Karina Osorio Chaparro
• Miguel Ángel Salgado Burgos

29 de Mayo 2021 Análisis de Caso II


2021-01
CONTENIDO

1 Justificación del Problema y Objetivos

2 Arquitectura

3 Perfilado de los datos

4 Preparación de los datos

5 Balanceo y normalización de los datos

6 Pasos a seguir
Análisis de Caso II
2021-01
Justificación del Problema

Contexto Colombiano Ley 1562 del 2021


Existen entidades denominadas “Sistema de riesgos laborales: El
“agrupadoras” que, sin contar con la conjunto de entidades públicas y
autorización del Ministerio de Salud y
Protección Social, ofrecen a través de
diferentes medios publicitarios la
1 2 privadas, normas y procedimientos,
destinados a prevenir, proteger y
atender a los trabajadores de los
posibilidad de que trabajadores efectos de las enfermedades y los
realicen pagos a Seguridad social en accidentes que puedan ocurrirles con
unos porcentajes muy inferiores a los ocasión o como consecuencia del
determinados por la Norma. trabajo que desarrollan.”

Afiliación fraudulenta Ahorro de costos


“Aquella que no guarda Actualmente se evidencia que, las

3 4
correspondencia con la situación real empresas y los trabajadores
del trabajador y su grupo familiar, independientes en la búsqueda de
específicamente en su condición reducir costos de afiliación, incurren en
laboral, dependiente o independiente, la modalidad de afiliación fraudulenta
o en la realidad económica de sus al sistema de seguridad social.
ingresos, con el fin de sacar provecho
de las prestaciones asistenciales y
económicas que otorga la seguridad
social” Análisis de Caso II
2021-01
Objetivos

Objetivo General

Proponer un modelo de clasificación y detección de empresas marcadas como inconsistentes antes de la


afiliación para la ARL Positiva.

Objetivos Específicos

 Conocer la Empresa de Seguros y los datos necesarios para la identificación de las diferentes
variables requeridas en el proceso.
 Preparar los datos mediante la depuración, estandarización, imputación y alistamiento. 
 Aplicar diferentes técnicas de balanceo, normalización y modelos para la clasificación y detección de
empresas marcadas como inconsistentes antes de la afiliación. 
 Evaluar la efectividad de los modelos aplicados, que permita garantizar mayor precisión en la
clasificación y detección de empresas marcadas como inconsistentes antes de la afiliación.

Análisis de Caso II
2021-01
Justificación del Problema
Arquitectura

Análisis de Caso II
2021-01
Perfilamiento de datos

Imputación del Categorización de las


recaudo variables
Se debe realizer imputación • 10 Categoricas
con base en el tamaño de la • 6 Númericas
empresa
01
06

Asignación de tipo
riesgo
02 Cantidad de registros

Con base en la actividad PERFILADO


PERFILADO Base entregada con 837.237:
economica 1529 registros • Descartados 415.140
05 • Tabajados 421.336

03
Marcación municipio y 04 Partición de bases
Departamento Se particiona por ESTADO:
Se debe realizar la imputación de • Afiliadas 419.790 (99%)
1677 datos vacios de la base • Desafiliadas 1.529 ((1%)

Análisis de Caso II
2021-01
Preparación de los datos 2. Estandarización de 419.790 registros,
eliminación de acentos , ajuste de mayúsculas y 3. Cruces de información
Transformación de datos (Para cruces) para completar datos
faltantes (Divipola)
1. Eliminación de registros duplicados (92.529) y
4. Transformación de
registros incompletos (123) y columnas que no se
variables categóricas a
van a utilizar para el Modelo
númericas

5. Concatenación de
Base empresas afiliadas data con Desafiliadas
511.821 Registros

Bases Iniciales: Data Procesada


 Datos_Afiliados: 837.237 Registros Proceso de Depuración, 421.336 Registros
 Divipola: 1.122 Registros
 Actividad Económica: 605 Registros
01 Estandarización y Clasificación:
0 = 419.169 Registros
Completitud de data 1 = 2.167 Registros

Se divide la base por empresa con estado


“AFILIADA” y “DESAFILADA” debido a la
diferencia de data que contenían

5. Concatenación de
Base empresas desafiliadas data con Afiliadas

1. Eliminación de registros duplicados (323.232) y


registros incompletos (638) y columnas que no se 4. Transformación de
van a utilizar para el Modelo 3. Cruces de información para variables categóricas a
2. Estandarización de 1.546 registros, completar datos faltantes númericas
eliminación de acentos , ajuste de (Divipola) e imputación de datos
mayúsculas y Transformación de datos (3 variables: Cód sucursal, Análisis de Caso II
(Para cruces) recaudo mes y riesgo)
2021-01
Balanceo y Normalización de los Datos

Bal n
a nc e c i ó
od a
eD aliz
ato o rm
UnderSampler: s N
NearMiss-3 
Data Procesada

Data Modelo
UnderSampler: BASE
Umbral de dureza de BALANCEADA Y
Sklearn
instancia NORMALIZADA (StandardScaler)

SMOTETomek

Análisis de Caso II
2021-01
Resultados Balanceo de Datos

UnderSampler:
Base Inicial  NearMiss-3 SMOTETomek
 Umbral de dureza de instancia

418.816
1 2.167 2.167

418.816
0 419.169 2.167

Análisis de Caso II
2021-01
Pasos a Seguir

Validación de
métricas
Se evaluará las métricas de
Elección del mejor
Concluir pruebas cada modelo implementado modelo y
(Accuracy, precisión, recall, f1-
de modelos score y Matriz de Confusión), conclusiones
Con la base procesada, para seleccionar el mejor. Con base en los resultados
balanceada y normalizada se obtenidos se entregará el
iniciará a correr diferentes documento, código y
modelos de Machine Learning. conclusión de los resultados
obtenidos.

Análisis de Caso II
2021-01
GRACIAS…
Análisis de Caso II
2021-01

También podría gustarte