Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Presentación de Proyecto - Detección de Fraude - 2
Presentación de Proyecto - Detección de Fraude - 2
posibles fraudes en
afiliaciones en la ARL
Positiva
Aplicación Procesamiento de Data y Modelos de clasificación
Presentado por:
2 Arquitectura
6 Pasos a seguir
Análisis de Caso II
2021-01
Justificación del Problema
3 4
correspondencia con la situación real empresas y los trabajadores
del trabajador y su grupo familiar, independientes en la búsqueda de
específicamente en su condición reducir costos de afiliación, incurren en
laboral, dependiente o independiente, la modalidad de afiliación fraudulenta
o en la realidad económica de sus al sistema de seguridad social.
ingresos, con el fin de sacar provecho
de las prestaciones asistenciales y
económicas que otorga la seguridad
social” Análisis de Caso II
2021-01
Objetivos
Objetivo General
Objetivos Específicos
Conocer la Empresa de Seguros y los datos necesarios para la identificación de las diferentes
variables requeridas en el proceso.
Preparar los datos mediante la depuración, estandarización, imputación y alistamiento.
Aplicar diferentes técnicas de balanceo, normalización y modelos para la clasificación y detección de
empresas marcadas como inconsistentes antes de la afiliación.
Evaluar la efectividad de los modelos aplicados, que permita garantizar mayor precisión en la
clasificación y detección de empresas marcadas como inconsistentes antes de la afiliación.
Análisis de Caso II
2021-01
Justificación del Problema
Arquitectura
Análisis de Caso II
2021-01
Perfilamiento de datos
Asignación de tipo
riesgo
02 Cantidad de registros
03
Marcación municipio y 04 Partición de bases
Departamento Se particiona por ESTADO:
Se debe realizar la imputación de • Afiliadas 419.790 (99%)
1677 datos vacios de la base • Desafiliadas 1.529 ((1%)
Análisis de Caso II
2021-01
Preparación de los datos 2. Estandarización de 419.790 registros,
eliminación de acentos , ajuste de mayúsculas y 3. Cruces de información
Transformación de datos (Para cruces) para completar datos
faltantes (Divipola)
1. Eliminación de registros duplicados (92.529) y
4. Transformación de
registros incompletos (123) y columnas que no se
variables categóricas a
van a utilizar para el Modelo
númericas
5. Concatenación de
Base empresas afiliadas data con Desafiliadas
511.821 Registros
5. Concatenación de
Base empresas desafiliadas data con Afiliadas
Bal n
a nc e c i ó
od a
eD aliz
ato o rm
UnderSampler: s N
NearMiss-3
Data Procesada
Data Modelo
UnderSampler: BASE
Umbral de dureza de BALANCEADA Y
Sklearn
instancia NORMALIZADA (StandardScaler)
SMOTETomek
Análisis de Caso II
2021-01
Resultados Balanceo de Datos
UnderSampler:
Base Inicial NearMiss-3 SMOTETomek
Umbral de dureza de instancia
418.816
1 2.167 2.167
418.816
0 419.169 2.167
Análisis de Caso II
2021-01
Pasos a Seguir
Validación de
métricas
Se evaluará las métricas de
Elección del mejor
Concluir pruebas cada modelo implementado modelo y
(Accuracy, precisión, recall, f1-
de modelos score y Matriz de Confusión), conclusiones
Con la base procesada, para seleccionar el mejor. Con base en los resultados
balanceada y normalizada se obtenidos se entregará el
iniciará a correr diferentes documento, código y
modelos de Machine Learning. conclusión de los resultados
obtenidos.
Análisis de Caso II
2021-01
GRACIAS…
Análisis de Caso II
2021-01