Presentación de Proyecto - Detección de Fraude - 2

Detección y clasificación de
posibles fraudes en
afiliaciones en la ARL
Positiva
Aplicación Procesamiento de Data y Modelos de clasificación
Presentado por:
• Stephany Alejandra Bogoya Contreras

• Julissa Fernanda Cabrera Sassin
• Diana Milena Murcia Méndez
• Sandra Karina Osorio Chaparro
• Miguel Ángel Salgado Burgos
29 de Mayo 2021 Análisis de Caso II

2021-01
CONTENIDO
1 Justificación del Problema y Objetivos
2 Arquitectura
3 Perfilado de los datos
4 Preparación de los datos
5 Balanceo y normalización de los datos
6 Pasos a seguir
Análisis de Caso II
2021-01
Justificación del Problema
Contexto Colombiano Ley 1562 del 2021

Existen entidades denominadas “Sistema de riesgos laborales: El
“agrupadoras” que, sin contar con la conjunto de entidades públicas y
autorización del Ministerio de Salud y
Protección Social, ofrecen a través de
diferentes medios publicitarios la
1 2 privadas, normas y procedimientos,
destinados a prevenir, proteger y
atender a los trabajadores de los
posibilidad de que trabajadores efectos de las enfermedades y los
realicen pagos a Seguridad social en accidentes que puedan ocurrirles con
unos porcentajes muy inferiores a los ocasión o como consecuencia del
determinados por la Norma. trabajo que desarrollan.”
Afiliación fraudulenta Ahorro de costos

“Aquella que no guarda Actualmente se evidencia que, las
3 4
correspondencia con la situación real empresas y los trabajadores
del trabajador y su grupo familiar, independientes en la búsqueda de
específicamente en su condición reducir costos de afiliación, incurren en
laboral, dependiente o independiente, la modalidad de afiliación fraudulenta
o en la realidad económica de sus al sistema de seguridad social.
ingresos, con el fin de sacar provecho
de las prestaciones asistenciales y
económicas que otorga la seguridad
social” Análisis de Caso II
2021-01
Objetivos
Objetivo General
Proponer un modelo de clasificación y detección de empresas marcadas como inconsistentes antes de la

afiliación para la ARL Positiva.
Objetivos Específicos
 Conocer la Empresa de Seguros y los datos necesarios para la identificación de las diferentes
variables requeridas en el proceso.
 Preparar los datos mediante la depuración, estandarización, imputación y alistamiento.
 Aplicar diferentes técnicas de balanceo, normalización y modelos para la clasificación y detección de
empresas marcadas como inconsistentes antes de la afiliación.
 Evaluar la efectividad de los modelos aplicados, que permita garantizar mayor precisión en la
clasificación y detección de empresas marcadas como inconsistentes antes de la afiliación.
2021-01
Justificación del Problema
Arquitectura
2021-01
Perfilamiento de datos
Imputación del Categorización de las

recaudo variables
Se debe realizer imputación • 10 Categoricas
con base en el tamaño de la • 6 Númericas
empresa
01
06
Asignación de tipo
riesgo
02 Cantidad de registros
Con base en la actividad PERFILADO

PERFILADO Base entregada con 837.237:
economica 1529 registros • Descartados 415.140
05 • Tabajados 421.336
03
Marcación municipio y 04 Partición de bases
Departamento Se particiona por ESTADO:
Se debe realizar la imputación de • Afiliadas 419.790 (99%)
1677 datos vacios de la base • Desafiliadas 1.529 ((1%)
2021-01
Preparación de los datos 2. Estandarización de 419.790 registros,
eliminación de acentos , ajuste de mayúsculas y 3. Cruces de información
Transformación de datos (Para cruces) para completar datos
faltantes (Divipola)
1. Eliminación de registros duplicados (92.529) y
4. Transformación de
registros incompletos (123) y columnas que no se
variables categóricas a
van a utilizar para el Modelo
númericas
5. Concatenación de
Base empresas afiliadas data con Desafiliadas
511.821 Registros
Bases Iniciales: Data Procesada

 Datos_Afiliados: 837.237 Registros Proceso de Depuración, 421.336 Registros
 Divipola: 1.122 Registros
 Actividad Económica: 605 Registros
01 Estandarización y Clasificación:
0 = 419.169 Registros
Completitud de data 1 = 2.167 Registros
Se divide la base por empresa con estado

“AFILIADA” y “DESAFILADA” debido a la
diferencia de data que contenían
5. Concatenación de
Base empresas desafiliadas data con Afiliadas
1. Eliminación de registros duplicados (323.232) y

registros incompletos (638) y columnas que no se 4. Transformación de
van a utilizar para el Modelo 3. Cruces de información para variables categóricas a
2. Estandarización de 1.546 registros, completar datos faltantes númericas
eliminación de acentos , ajuste de (Divipola) e imputación de datos
mayúsculas y Transformación de datos (3 variables: Cód sucursal, Análisis de Caso II
(Para cruces) recaudo mes y riesgo)
2021-01
Balanceo y Normalización de los Datos
Bal n
a nc e c i ó
od a
eD aliz
ato o rm
UnderSampler: s N
NearMiss-3
Data Procesada
Data Modelo
UnderSampler: BASE
Umbral de dureza de BALANCEADA Y
Sklearn
instancia NORMALIZADA (StandardScaler)
SMOTETomek
2021-01
Resultados Balanceo de Datos
UnderSampler:
Base Inicial  NearMiss-3 SMOTETomek
 Umbral de dureza de instancia
418.816
1 2.167 2.167
418.816
0 419.169 2.167
2021-01
Pasos a Seguir
Validación de
métricas
Se evaluará las métricas de
Elección del mejor
Concluir pruebas cada modelo implementado modelo y
(Accuracy, precisión, recall, f1-
de modelos score y Matriz de Confusión), conclusiones
Con la base procesada, para seleccionar el mejor. Con base en los resultados
balanceada y normalizada se obtenidos se entregará el
iniciará a correr diferentes documento, código y
modelos de Machine Learning. conclusión de los resultados
obtenidos.
2021-01
GRACIAS…
2021-01

Presentación de Proyecto - Detección de Fraude - 2

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Presentación de Proyecto - Detección de Fraude - 2

Cargado por

Copyright:

Formatos disponibles

Detección y clasificación de

• Stephany Alejandra Bogoya Contreras

29 de Mayo 2021 Análisis de Caso II

1 Justificación del Problema y Objetivos

3 Perfilado de los datos

4 Preparación de los datos

5 Balanceo y normalización de los datos

Contexto Colombiano Ley 1562 del 2021

Afiliación fraudulenta Ahorro de costos

Proponer un modelo de clasificación y detección de empresas marcadas como inconsistentes antes de la

Imputación del Categorización de las

Con base en la actividad PERFILADO

Bases Iniciales: Data Procesada

Se divide la base por empresa con estado

1. Eliminación de registros duplicados (323.232) y

También podría gustarte