Está en la página 1de 27

1

SCORING DE RIESGO DE LAVADO DE ACTIVOS Y FINANCIACION DEL TERRORISMO

Presenta:
Anderson Solano Bernal

Director:

Jesús Antonio Villarraga Palomino

Bogotá, Colombia, junio de 2022


2

SCORING DE RIESGO DE LAVADO DE ACTIVOS Y FINANCIACION DEL


TERRORISMO ............................................................................................................................... 3
RESUMEN ...................................................................................................................................... 3
ABSTRACT .................................................................................................................................... 4
1. Introducción ............................................................................................................................. 5
2. Marco Teórico .......................................................................................................................... 8
2.1 Ámbito Internacional ........................................................................................................ 9
2.2 Ámbito Nacional ............................................................................................................. 11
3. Metodología ........................................................................................................................... 12
Fase 1. Comprensión del negocio .......................................................................................... 13
Fase 2. Comprensión de los datos .......................................................................................... 14
Fase 3. Preparación de los datos ............................................................................................ 15
Fase 4. Modelado ................................................................................................................... 17
4. Resultados .............................................................................................................................. 19
Métrica Matriz de confusión .................................................................................................. 22
Métrica Curva ROC ............................................................................................................... 23
Métrica de Clasificación ........................................................................................................ 23
Métrica Accuracy y Validación Cruzada ................................................................................24
5. Conclusiones .......................................................................................................................... 25
Referencias Bibliográficas ............................................................................................................ 27
3

SCORING DE RIESGO DE LAVADO DE ACTIVOS Y FINANCIACION DEL

TERRORISMO

RESUMEN

La investigación elegida parte de la necesidad de una entidad del sector cooperativo colombiano,

vigilada por la Superintendencia de la Economía Solidaria – SUPERSOLIDARIA.

Por normatividad debe dar cumplimiento con lo señalado en el título V “Instrucciones para la

administración del riesgo de lavado de activos y de la financiación del terrorismo” de la circular

básica jurídica; de acuerdo a esta normatividad y como buena práctica desea implementar un

scoring de riesgo de Lavado de Activos y Financiación del Terrorismo - LAFT para cada uno de

sus contrapartes; esta investigación se enfocara en el factor de riesgo “clientes”, principalmente

para los clientes que se afilian a la cooperativa y reciben la condición de asociado y se encuentren

en estado Activo.

El objetivo principal para la entidad financiera en la implementación del Scoring de Riesgo Lavado

de Activos y Financiación del Terrorismo – LAFT, es crear un modelo predictivo de riesgo para la

identificación de clientes que puedan utilizar la entidad como un instrumento para realizar

operaciones de Lavado de Activos y Financiación del Terrorismo.

El desarrollo de esta investigación se realizara bajo la metodología CRISM-DM, aplicando

modelos de Machine Learning, con el fin, de establecer cuál de los modelos se ajustan o predicen

de mejor manera la variable respuesta.

Para la selección del modelo de Machine Learning se utilizaran las métricas de matriz de

confusión, curva ROC, Accuracy y validación cruzada de cada uno de los modelos, medidas que
4

permitirán realizar una comparación entre los modelos, indicando cuál de los modelos mejor

presenta probabilidades de predicción del requerimiento planteado por la entidad financiera.

ABSTRACT

The search chose based on the needs of a entity from the Cooperative area in Colombia, supervised

by the solidarity economic superintendency SUPERSOLIDARIA.

By law, the must comply with the stipulated in title V: instructions for Asset Laundering and

Financing of Terrorism risk management, from the basic juridical circular; according to this

legislation and, as a good practice, wants to deploy a risk-scoring of Asset Laundering and

Financing of Terrorism- LAFT for each of its counterparts; this search will focus on the risk factor

'customer' mainly for those who join the cooperative and receives the affiliated condition of

member and, whose status is active.

The main objective for the financial entity in implementing risk scoring Asset Laundering and

Financing of Terrorism- LAFT is to create a predictive risk model to identify clients that could use

the entity as a tool to make Asset laundering and Financing of Terrorism operations.

The development of this search will be made under the methodology CRISM-DM, applying

machine learning models to establish which models match or predict in a better way the variable

answer.
5

1. Introducción

Para hablar de lavado de activos, lo primero que tenemos que señalar es del origen de esta actividad

ilegal, todo comienza en los años 20 en Estados Unidos, las mafias norteamericanas crearon una

red de lavanderías para esconder la procedencia del dinero conseguido por medio de actividades

ilícitas, esta práctica la realizaban para dar apariencia de legalidad por medio de las utilidades

generadas por la actividad de la prestación del servicio de lavandería, negocios que para la fecha

recibían efectivo, haciendo difícil establecer que dinero era ilícito y que provenían de las

actividades delincuenciales como extorsión, tráfico de armas, alcohol y prostitución. En los años

setenta se presentó un nuevo fenómeno llamado “narcotráfico”, para esta época el dinero origen de

este delito era depositado en los bancos los cuales no generaban ningún control a estos dineros1.

Sin embargo, se dice que la actividad de dinero se originó desde antes de los años 20, esta actividad

se remonta a la época de los piratas, quienes asaltaban las embarcaciones y estos tesoros eran

ocultados (lavado de oro) para luego ser disfrutados2.

Ya en una época más reciente en nuestro país el fenómeno de lavado de activos se daba a conocer

por los dineros que movía el narcotráfico, transcurría la época de los 80 principios de los 90, es en

esta época donde el gobierno nacional empieza a combatir este flagelo por medio de expedición de

normas que estaban orientas a cerrar el sesgo del lavado de activos. Se relaciona a continuación la

evolución normativa durante los últimos 25 años.

https://es.wikipedia.org/wiki/Lavado_de_dinero#:~:text=La%20palabra'lavado%2C%20tiene%20su,trav%C3%A9s%
20de%20sus%20actividades%20criminales.
2

https://es.wikipedia.org/wiki/Lavado_de_dinero#:~:text=La%20palabra'lavado%2C%20tiene%20su,trav%C3%A9s%
20de%20sus%20actividades%20criminales.
6

Tabla 1
Evolución Normativa en Colombia – Lavado de Activos y Financiación del Terrorismo.
Año Hecho Descripción
1992 Creación de la Fiscalía de la Se le atribuyó la tarea de investigar los delitos cometidos en
Nación Colombia para llevar a los presuntos responsables antes los
jueces de la República”
1992 Primer Decreto La primera norma emitida en Colombia para prevenir el
lavado de activos fue el Decreto 1872 del 23 de noviembre de
1992. Se exigió a los bancos conocer la actividad económica
que desarrollaran sus clientes, la frecuencia y volumen de sus
transacciones.
1992 Reporte de transacciones en El Decreto 1872 de 1992 obligó a todas las instituciones
efectivo financieras que tuvieran operaciones en Colombia a “dejar
constancia, en formulario especialmente diseñado al efecto,
de la información relativa a las transacciones en efectivo que
realice [el cliente).
1993 Emisión del Estatuto Orgánico El Gobierno expidió el Decreto 663 del mismo año, conocido
como Estatuto Orgánico del Sistema Financiero (EOSF),
cuyo capítulo XVI impone la adopción de unas medidas para
prevenir actividades delictivas a través de sus artículos 102,
103, 104, 105, 106 y 107.
1995 Tipificación del lavado El primer antecedente que se tiene de la tipificación del
ocultamiento de bienes de origen ilegal en Colombia es el
artículo 31 de la ley 190 de 1995, el cual incluyó el delito de
receptación en el Código Penal colombiano.
1995 Primera ley anticorrupción El 6 de junio de 1995 el Congreso de la República expidió el
Estatuto Anticorrupción a través de la ley 190 del mismo año.
1999 Creación de la UIAF La Unidad de Información y Análisis Financiero (UIAF) fue
creada mediante la ley 526 de 1999 con el objetivo de
detectar, prevenir y luchar contra el lavado de activos.
2000 Creación del Gafisud El Grupo de Acción Financiera de Sudamérica (Gafisud),
organismo continental encargado de coordinar la lucha contra
el lavado de activos, fue creado en Colombia el 8 de
diciembre del año 2000, específicamente en la ciudad de
Cartagena de Indias.
2004 Campaña “No preste su nombre” La primera campaña de concientización masiva acerca del
impacto que tiene el delito de lavado de activos en la sociedad
lo hizo la Unidad de Información y Análisis Financiero
(UIAF) en 2004.
2005 La primera publicación de La UIAF publicó el documento ‘Tipologías de lavado de
tipologías activos (secuestro extorsivo y extorsión)’ en la que se
explicaba el comportamiento y evolución de estos fenómenos
delictivos.
2008 Creación del Sarlaft La Superintendencia Financiera emitió la implementación de
sistemas de administración de riesgo de lavado de activos
y financiación del terrorismo (Sarlaft), sistema que
reemplazó al hasta entonces vigente Sipla.
2017 Creación del Sarlaft La Superintendencia de la Economía Solidaria tiene el deber
legal de velar porque sus vigiladas adopten Sistemas de
Administración de Riesgo de Lavado de Activos y
Financiación del Terrorismo (SARLAFT)
Nota: infolaft.com/hitos-de-la-lucha-contra-el-lavado-de-activos-en-colombia/
7

Como se observa en la Tabla 1, el gobierno a través de los años ha desarrollado e implementado

normas que permitan enfrentar el flagelo del lavado de activos.

Como estrategia involucro inicialmente al sector financiero, ya que identifico que este sector era el

más susceptible de ser utilizado por los delincuentes para intentar legalizar los recursos generados

de las actividades ilícitas que se tenían identificadas para la época de los 90 (lavado de activos,

producto de la actividad ilícita del narcotráfico), es por esta razón, que el sector financiero es uno

de los pioneros en Colombia en el tema de lavado de activos y financiación del terrorismo - LAFT,

sin embargo, el gobierno se dio cuenta que a medida que transcurría los años este delito se

transformaba emigrando hacia a otros sectores económicos del país, por lo cual, con el fin de cerrar

la brecha a los delincuentes, el gobierno involucro a diferentes sectores económicos que podrían

ser susceptibles a ser utilizados como medios para intentar dar apariencia de legalidad a estos

recursos, atendiendo las recomendaciones emitidas por el organismo internacional “Grupo de

Acción Financiera de Latinoamérica – GAFILAT”, estos nuevos sectores involucrados para

combatir y luchar contra este flagelo fueron: sector de la salud, el sector del deporte, el sector de

juegos de suerte y azar, el sector de transporte, el sector que está vigilado por la superintendencia

de sociedades y del sector solidario.

De acuerdo al contexto general del flagelo de lavado de activos y financiación del terrorismo, la

entidad financiera que pertenece al sector solidario quien está vigilada por la Superintendencia de

la Economía Solidaria - SUPERSOLIDARIA y están obligadas a implementar un sistema de

administración de riesgo de Lavado de Activos y Financiación del Terrorismo, desea como buen

practica crea un modelo de riesgo baso en Lavado de Activos y Financiación del Terrorismo, es

por eso que para el desarrollo de esta investigación se planteó como objetivo principal “Evaluar

un modelo predictivo de riesgo para identificar potenciales clientes que puedan utilizar la entidad
8

como un instrumento para realizar operaciones de Lavado de Activos y Financiación del

Terrorismo”, apoyados en los siguientes objetivos específicos como (i) Identificar variables en las

bases de datos que permitan caracterizar fenómeno Lavado de Activos y Financiación y

Terrorismo, (ii) Analizar estadísticamente las variables de la base de datos con el fin de determinar

patrones en el conjunto de datos y (iii) Aplicar modelos de aprendizaje supervisados, con el fin, de

identificar posibles clientes que puedan utilizar la entidad financiera en operaciones de Lavado de

Activos y Financiación del Terrorismo.

Con el fin de modelar el scoring de riesgo, la investigación se apoyara en la información

sociodemográfica de la entidad financiera, con el firme propósito de crear modelos supervisados

de Machine Learnig que permitan predecir la variable respuesta (objetivo principal) planteada en

la investigación, apoyándose en las métricas de matriz de confusión, curva ROC, Accuracy y

validación cruzada de cada uno de los modelos, con el propósito de evaluar y seleccionar el mejor

modelo predictivo.

2. Marco Teórico

Al hacer referencia del concepto de scoring de riesgo de Lavado de Activos y Financiación del

Terrorismo, para muchas personas o sectores de la economía no es un concepto familiar, más para

los sectores que por normatividad no están obligados a implementar un sistema de administración

de riesgo, es por esto, que la gran mayoría de las personas cuando se habla del tema scoring lo

asimilan o lo relacionan con un scoring de crédito, ya que este es el más socializado y utilizado en

el sector financiero.

Indagando en la literatura, investigaciones y artículos especializados, se observa que el tema de

scoring de riesgo de Lavado de Activos y Financiación del Terrorismo, no presenta una gran
9

afluencia de documentos que hagan referencia, sin embargo, se evidenciaron que se han publicado

trabajos de investigación que abordan este tema, los cuales indican:

2.1 Ámbito Internacional

Córdova, (2017) – Ecuador3, Hacen referencia al tema “scoring para medir el riesgo de lavado de

activos y financiamiento de delitos a personas naturales para empresas del sector público o

privado”; en la investigación realizaron un análisis de variables que pueden ser utilizados por los

sujetos obligados para gestionar el riesgo de lavado de activos al momento de establecer una

relación comercial con un cliente persona natural, en esta investigación se determinaron las

variables cualitativas que permitían realizar una debida diligencia enfocada al factor de riesgo de

clientes; dentro de las variables identificadas por el investigador fueron: (i) variable “Actividad

Económica”, (ii) variable “Edad”, (iii) y la variable “Año de Relación Comercial”.

Los investigadores utilizaron la metodología del criterio y experiencia de expertos, apoyados a su

vez en la metodología del Estándar Australiano de Administración de Riesgos AS/NZS 4360.

Figura 1. Elementos principales de la gestión de riesgo

3
Córdova, G. C. S., Beltrán, Y. V. E., & Paguay, E. R. B. (2017). Scoring para medir el riesgo de lavado de activos y financiamiento
de delitos a personas naturales para empresas del sector público o privado. Revista Publicando, 4(12 (2)), 68-87.
10

Como resultado de la metodología utilizada para la identificación de las variables, se observa que

las variables seleccionadas corresponde a (i) riesgo cliente persona natural, (ii) edad, (iii) actividad

económica y (iv) años de relación; asignándole a cada variable una categorización de riesgo.

Alave Regente, R. A. (2017) país Perú4, los investigadores se enfocaron en el tema “Factores de

riesgo de lavado de activos y del financiamiento del terrorismo que intervienen en la generación

del modelo scoring de la cooperativa de ahorro y crédito toquepala”; esta investigación se orientó

en la implementación de un sistema de prevención de lavado de activos y del financiación del

terrorismo, con el fin, de identificar los factores que tienen un mayor de riesgo y que determinaran

la probabilidad de exposición ante el lavado de activos y financiación del terrorismo.

La metodología utilizada fue de tipo “investigación aplicada”, ya que el estudio plantea

conocimientos teóricos, leyes y resoluciones; incorporando la investigación de tipo correlacional,

4
Alave Regente, R. A. (2017). Factores de Riesgo de Lavado de Activos y del Financiamiento del Terrorismo Que Intervienen en la
Generación del Modelo Scoring de la Cooperativa de Ahorro y Crédito Toquepala–Periodo 2016.
11

investigando grados de correlación y dimensionando las variables y calculando para ello el valor

de p-valor, coeficiente de determinación y de correlación.

Desarrollaron un modelo de probabilidad lineal – logit, donde utilizaron las variables: (i)

independientes: “actividad económica”, “zona geográfica”, “clasificación crediticia”, “ingresos

mensuales”, “ser una persona expuesta políticamente”, “pertenecer a la lista de investigados”, (ii)

dependiente: “nivel de riesgo” y “zona de riesgo”; como resultado de la selección de las variables

llegaron a la conclusión que solo las variables “clasificación crediticia” y “ingresos mensuales”

fueron las variables más significantes para determinar la probabilidad de exposición al riesgo de

lavado de activos y financiación del terrorismo.

2.2 Ámbito Nacional

En el ámbito nacional no se evidencia literatura disponible en fuentes públicas, que hagan

referencia a estudios o investigaciones enfocadas a un scoring de riesgo de lavado de activos y

financiación del terrorismo, sin embargo, se identificaron estudios que plantean temas relevantes

del flagelo de lavado de activos y financiación del terrorismo en los diferentes sectores económicos

del país y el desarrollo de modelos de otros tipos de riesgo como el crediticio (scoring de riesgo

para otorgamiento de créditos).

Pinto Torres, (2020)5, realizaron una investigación llamada “Gestión del riesgo del lavado de

activos (LA) y financiación del terrorismo (FT) en la minería Colombiana”, investigación enfocada

principalmente a identificar cómo se gestiona los riesgos de lavado de activos y financiación del

terrorismo en la minería colombiana.

5
Pinto Torres, C. R., & Triana Saenz, P. A. (2020). Gestión del riesgo del lavado de activos (LA) y financiación del terrorismo (FT)
en la minería Colombiana.
12

La metodología utilizada es de tipo cualitativo deductivo, basada en el análisis de datos numéricos

y estudios de aspectos reales del sector minero de Colombia, relacionados con temas de lavado de

activos y financiación del terrorismo; realizando (i) un análisis del marco normativo nacional que

rige el Sistema de Administración del Riesgo de Lavado de Activos y Financiación del Terrorismo

(SARLAFT), (ii) investigación de las empresas mineras que están constituidas, donde se describen

los lineamientos actuales para mitigar el lavado de activos y financiación del terrorismo.

De acuerdo al marco teórico a nivel internacional y nacional, se puede afirmar que la investigación

planteada genera gran beneficio tanto para la academia, como para los diferentes sectores

económicos que estén obligados a implementar un sistema de administración de riesgo o por buenas

practicas implementen un scoring de riesgo basado en LAFT.

3. Metodología

Para realizar esta investigación se basara en el diseño de investigación mixta, utilizando la

inteligencia Artificial – IA, enfocada a la aplicación de modelos de Machine Learning,

conjuntamente con la metodología CRISP-DM (Cross Industry Standard Process for Data Mining),

la cual integra todas las tareas necesarias en los proyectos de minería de datos, desde la fase de

comprensión del problema hasta la puesta en producción de sistemas automatizados analíticos,

predictivos y/o prospectivos6, tal como se puede ver en la gráfica.

6
https://www.adictosaltrabajo.com/2021/01/14/metodologia-crisp-dm/
13

Figura 2. Metodología CRISP-DM

https://www.adictosaltrabajo.com/2021/01/14/metodologia-crisp-dm/

Fase 1. Comprensión del negocio, en esta fase se analiza el objeto social de la entidad con el fin

de contextualizar el sector y el mercado objetivo donde se desarrolla la actividad económica de la

entidad.

La entidad financiera es una cooperativa especializada en la prestación de servicios de ahorro y

crédito, su objeto social es prestar servicios de ahorro y crédito y demás actividades financieras

permitidos por la normatividad vigente, y su mercado objetivo está enfocado hacia el nicho de los

profesionales del país. Es una entidad que lleva más de 50 años en el mercado y tiene oficinas en

las principales ciudades del país, consolidándose como una entidad referente dentro del sector

solidario.

Las entidades financieras del sector solidario están vigiladas por la Superintendencia de la

Economía Solidaria - SUPERSOLIDARIA y están obligadas a implementar un sistema de

administración de riesgo de Lavado de Activos y Financiación del Terrorismo, tal como lo señala
14

en la circular básica jurídica en el título V - INSTRUCCIONES PARA LA ADMINISTRACIÓN

DEL RIESGO DE LAVADO DE ACTIVOS Y DE LA FINANCIACIÓN DEL TERRORISMO.

Fase 2. Comprensión de los datos, se inició con el entendimiento de la data que la entidad

financiera captura, procesa y almacena en bases de datos; esta información se origina de un

formulario de conocimiento que ha implementado la entidad financiera, cumpliendo con la

normatividad que los regula.

Una vez identificado el origen de los datos y realizado una exploración de los datos y el

entendimiento de la data capturada, se procedió a realizar un análisis descriptivo, tomando como

base la información de la data sociodemográfica de los asociados, con corte al periodo del 31 de

Diciembre de 2021, la cual presenta las siguientes características:

(i) N° de registros: 17.399 registros

(ii) N° de variables: 27 variables, conformadas así: 13 variables de tipo cualitativas y 14 de tipo

cuantitativas.

(iii) Variable de repuesta: [0] si el cliente “presenta Riesgo” - [1] si el cliente “no presenta

Riesgo”.

Figura 3. Variables base de datos


15

Nota: Se relacionan los campos sociodemográficos que hacen parte de la base de datos de la entidad
financiera.

Fase 3. Preparación de los datos, de la información capturada y almacenada en las bases de datos

por la entidad financiera, la cual presenta: 17.399 registros y 27 variables; se seleccionara las

variables más representativas, con el propósito, de ser incorporadas en los diferentes modelos de

Machine Learning y que permitan evaluar su eficacia.

Para la selección de las variables se inicia con la exploración de la base de datos con el propósito

de identificar valores faltantes y/o valores atípicos, con el fin de aplicar técnicas de imputación;

como resultado de esta exploración se observa que la data no presenta datos faltantes, por lo tanto,

no se aplica técnicas de imputación.

Se utilizó el lenguaje de programación de R y Paython, donde se ejecutaron diferentes códigos

para la identificación de las variables; para esto se parte del análisis la distribución normal de las

variables y de la correlación que se pueda presentar con el fin de determinar la posible

multicolinealidad.

Para comprobar el supuesto de la distribución normal, se realizó la prueba de normalidad de Jarque

- Bera, con el fin de establecer el p-value y determinar si se cumple o se viola el supuesto de

normalidad; como resultado se observa que p-value es igual a 0.022.

Figura 4. Prueba de normalidad - de Jarque-Bera


16

Nota: La prueba de normalidad de multivalente de Jarque-Bera arroja un resultado de p-value igual

a 0,022, indicando que el supuesto de normalidad multivariante no se cumple ya que es menor al

alpha del 0.05, reflejando que una o más variables individuales no se distribuyen normalmente,

rechazando la Hipótesis Nula. (H0).

En la selección de las variables se realizó un análisis multivariado, aplicando el método de

interdependencia de análisis factorial de datos mixtos (FAMD)7, es un método de componente

principal dedicado a analizar un conjunto de datos que contiene variables tanto cuantitativas como

cualitativas8.

Identificadas las variables por medio del análisis factorial de datos mixtos (FAMD) se analizaron

en conjunto con un grupo de expertos (juicio de expertos) para definir las variables a utilizar en el

modelo, seleccionado las siguientes:

Figura 5. Variables data_modelo

Nota: La grafica representa las variables seleccionadas para ser incluidas en los modelos de
Machine Learning.

7
El análisis factorial de datos mixtos (FAMD) es un método de componente principal dedicado a analizar un
conjunto de datos que contiene variables tanto cuantitativas como cualitativas (Pagès 2004)
8
http://www.sthda.com/english/articles/31-principal-component-methods-in-r-practical-guide/115-famd-factor-
analysis-of-mixed-data-in-r-essentials/
17

En el análisis de la variables cualitativas se observó que existían variables que su representación

no se comportaban de manera adecuada entre la codificación interna, generando que en la

aplicación de los modelos no se garantizara que se incluyera esta codificación en la división de la

data de entrenamiento y de prueba del modelo, por lo tanto, se utilizó la función de “stratify” en

las variables que presentaban esta condición, en la investigación se le aplico la función “stratify”

a la variable 'c_activ_sector', con el fin, de garantizar que la variable estuviera dentro del división

de la data del modelo. Adicionalmente, las variables cualitativas se transformaron en variables

cuantitativas.

Con el propósito de que los modelos funcionaran mejor se aplicó un escalado Standard de variables,

con el fin, de lograr mejores resultados al correr los modelos de Machine Learning.

Fase 4. Modelado, para el desarrollo de la investigación se aplicara los modelos de Machine

Learnig supervisados (i) Random Forest, (ii) Light GBM, (iii) AdaBoost, (iv) Gradient Boosting,

(v) Decision Tree, (vi) knn, (vii) Support Vector Machine, (viii) Stochastic Gradient Decent, (ix)

Logistic Regression, (x) Naive Bayes; con el fin de determinar cuál de estos se comporta de manera

más eficiente basados en las métricas de matriz de confusión, curva ROC y validación cruzada, y

de esta manera poder seleccionar el modelo que mejor se comporte para predecir los clientes que

puedan exponer en un mayor riesgo de lavado de activos y financiación del terrorismo ([0] si el

cliente “presenta Riesgo”) a la entidad financiera. Se hacen referencia algunos modelos utilizados

en la investigación:

Modelo Random Forest9, también conocidos en castellano como "Bosques Aleatorios" es una

combinación de árboles predictores tal que cada árbol depende de los valores de un vector aleatorio

9
https://es.wikipedia.org/wiki/Random_forest#cite_note-:0-1
18

probado independientemente y con la misma distribución para cada uno de estos. Es una

modificación sustancial de bagging que construye una larga colección de árboles no

correlacionados y luego los promedia.

Modelo LightGBM10, abreviatura de Light Gradient Boosting Machine, es un marco de mejora de

gradiente que utiliza algoritmos de aprendizaje basados en árboles. Está diseñado para ser

distribuido y eficiente con las siguientes ventajas: (i) Mayor velocidad de entrenamiento y mayor

eficiencia, (ii) Menor uso de memoria, (iii) Mejor precisión, (iV) Capaz de manejar datos a gran

escala.

Modelo AdaBoost11 (adaptive boosting), fue propuesto por (Freund and Schapire 1995) y consiste

en crear varios predictores sencillos en secuencia, de tal manera que el segundo ajuste bien lo que

el primero no ajustó, que el tercero ajuste un poco mejor lo que el segundo no pudo ajustar y así

sucesivamente.

Modelo Regresión Logística12, es un proceso de modelado de la probabilidad de un resultado

discreto dada una variable de entrada. Los modelos de regresión logística más común son un

resultado binario; algo que puede tomar dos valores como verdadero/falso, sí/no, etc. La regresión

logística es un método de análisis útil para problemas de clasificación, en los que intenta determinar

si una nueva muestra encaja mejor en una categoría.

1. Piryonesi, S. Madeh; El-Diraby, Tamer E. (2020-06). «Role of Data Analytics in Infrastructure Asset Management:
Overcoming Data Size and Quality Problems». Journal of Transportation Engineering, Part B: Pavements (en
inglés) 146 (2): 04020022. ISSN 2573-5438. doi:10.1061/JPEODX.0000175. Consultado el 7 de agosto de 2020.
Hastie, Trevor.; Friedman, J. H. (Jerome H.) (2001). The elements of statistical learning : data mining, inference, and prediction :
with 200 full-color illustrations. Springer. ISBN 0-387-95284-5. OCLC 46809224. Consultado el 7 de agosto de 2020.
10
https://lightgbm.readthedocs.io/en/latest/
11
https://fhernanb.github.io/libro_mod_pred/adaboost.html
12
https://www.sciencedirect.com/topics/computer-science/logistic-regression
19

4. Resultados

Para la aplicación de los modelos, se realizó división y entrenamiento de la base de datos, aplicando

la proporción del 20% para entrenamiento y el 80% de validación.

En la selección de los modelos se contempló varios escenarios, (i) el primer escenario consistía en

aplicar los modelos en la data sin transformaciones (data pura), (ii) el segundo escenario contemplo

transformaciones de la data utilizando escalamiento de la data, (iii) el tercer escenario contemplo

transformaciones de la data utilizando escalamiento y balanceo de la data, (iv) el cuarto escenario

contemplo transformaciones de la data utilizando escalamiento, balanceo y transformación

dummies de las variables cualitativas de la data.

El objetivo de aplicar estos escenarios en los modelos es realizar una comparación del rendimiento

de cada uno de los modelos y seleccionar el modelo de mejor rendimiento.

Comparación rendimiento de modelos:

Tabla 2
---> Modelos, Data = Data Pura
Modelo Accuracy
6 Gradient Boosting 0.997414 ***
8 AdaBoost 0.997414 ***
9 Light GBM 0.996839 ***
2 Decision Tree 0.995115
3 Random Forest 0.989655
0 Logistic Regression 0.841379
4 Support Vector Machine 0.841379
7 Stochastic Gradient Decent 0.825862
1 knn 0.791092
5 Naive Bayes 0.198851
Nota: Modelos - data sin transformaciones (data pura)
20

Tabla 3
---> Modelos, Data = Escalada
Modelo Accuracy
6 Gradient Boosting 0.997414 ***
8 AdaBoost 0.997126 ***
9 Light GBM 0.996839 ***
2 Decision Tree 0.991954
3 Random Forest 0.988793
0 Logistic Regression 0.841379
1 knn 0.882184
4 Support Vector Machine 0.863793
7 Stochastic Gradient 0.852874
Decent
5 Naive Bayes 0.158908
Nota: Modelos - data con transformación (escalada)

Tabla 4
---> Modelos, Data = Escalada + Balanceo
Modelo Accuracy
9 Light GBM 0.997234 ***
6 Gradient Boosting 0.996543 ***
3 Random Forest 0.996197 ***
2 Decision Tree 0.995333
8 AdaBoost 0.995160
1 Knn 0.929473
4 Support Vector Machine 0.875713
7 Stochastic Gradient Decent 0.780812
0 Logistic Regression 0.754192
5 Naive Bayes 0.509075
Nota: Modelos - data con transformación (escalada) y
Balanceo
21

Tabla 5
---> Modelos, Data = Escalada + Balanceo + Dummies
Modelo Accuracy
3 Random Forest 0.998099 ***
9 Light GBM 0.996197 ***
8 AdaBoost 0.996024 ***
0 Logistic Regression 0.996024
6 Gradient Boosting 0.996024
2 Decision Tree 0.993086
4 Support Vector Machine 0.992394
7 Stochastic Gradient Decent 0.989455
1 Knn 0.980985
5 Naive Bayes 0.955748
Nota: Modelos - data con transformación (escalada),
Balanceo y Dummies

Una vez finalizado la ejecución de cada uno de los escenarios, da a conocer el espectro estadístico

de cómo se comporta los modelos aplicando diversas técnicas y/o funciones de preprocesamiento,

con el fin, de analizar y evaluar los resultados, para la selección del modelo que más se ajuste a la

investigación.

Como se observa en las tablas de cada uno de los escenarios, los modelos presentan un excelente

comportamiento, sin embargo, para la selección de los modelos se basó en el criterio “distancia”,

esto con el fin de evaluar el escenario que más se ajustara a este criterio, por lo tanto, el escenario

seleccionado fue el cuarto escenario que contempla las transformaciones de la data utilizando

escalamiento, balanceo y transformación dummies de las variables cualitativas de la data.

Se ilustra a continuación los 3 modelos que mejor comportamiento presentaron frente a la data y

las transformaciones realizadas.


22

La selección de los modelos se apoyó en los resultados de las métricas de matriz de confusión,

curva ROC, Accuracy y validación cruzada de cada uno de los modelos.

---> Modelos, Data = Escalada + Balanceo + Dummies


Modelo Accuracy
3 Random Forest 0.998099 ***
9 Light GBM 0.996197 ***
8 AdaBoost 0.996024 ***
Nota: Modelos - data con transformación (escalada),
Balanceo y Dummies

Métrica Matriz de confusión:


23

Métrica Curva ROC:

Métrica de Clasificación:
24

Métrica Accuracy y Validación Cruzada:

De acuerdo al propósito de la investigación y pronostico esperado se puede observar que el mejor

modelo que se comporta para predecir los clientes que puedan exponer en un mayor riesgo de

lavado de activos y financiación del terrorismo ([0] si el cliente “presenta Riesgo”) a la entidad

financiera, es el modelo de Random Forest, también conocido como "Bosques Aleatorios", de

acuerdo a las métricas que se contemplaron para la evaluación y selección del modelo de Machine

Learnig, como se puede observar la métrica del Accuracy arroja una precisión del modelo del

0.99809, métrica que se puede constatar por medio de la matriz de confusión donde refleja que el
25

valor 2.807 corresponde a clientes representa riesgo y el modelo así lo predijo (verdadero positivo),

el valor de 2.967 corresponde a clientes que no representa riesgo y el modelo así lo predijo

(verdadero negativo), el valor 1 corresponde a clientes representa riesgo y el modelo lo predijo

como que no representa riesgo (falso negativo) y el valor 10 corresponde a clientes que no

representa riesgo y el modelo lo predijo como que representa riesgo (falso positivo),

adicionalmente, validando la métrica de la validación cruzada se observa que los valores son

estables, concluyendo que el modelo no presenta overfitting.

5. Conclusiones.

El lavado de activos y financiación del terrorismo es un fenómeno que puede afectar al sector

público o privado de la sociedad, tanto personas naturales como personas jurídicas; causando que

la economía de un país se vea afectada hasta punto de impactar la inflación del país, a ser incluido

el país en listas negras, causando que las relaciones diplomáticas y comerciales entre los demás

países se deterioren hasta el punto de generar un bloqueo transnacional (riesgo reputacional),

afectando a toda la población del país, de igual manera, puede generar un deterioro de las

instituciones democráticas y de la seguridad nacional, con llevando a la generación de más delitos

y el fortalecimiento de los grupos al margen de la ley.

En el sector privado, el flagelo de lavado de activos y financiación del terrorismo no es ajeno ya

puede afectar a las empresas, grupos comerciales, emporios o sectores de la economía; causando

perdida de la reputación (riesgo reputacional) tanto para las empresas, sectores de la económica,

como para las personas naturales (administradores, responsables del sistema de administración de

riesgo de LAFT y las personas que interactúan en las operaciones o actividades diarias), en

conclusión afecta el ecosistema económico de la sociedad, generando un escepticismo en el sector,


26

empresa e individuo que se vea involucrado o relacionado en delitos LAFT; sumándole las

diferentes sanciones de tipo penal, administrativo, laboral y patrimonial (riesgo legal).

Por lo tanto, la necesidad de la entidad financiera de implementar un scoring de riesgo de lavado

de activos cobra relevancia de acuerdo a lo antes planteado, es por eso, que la selección del modelo

de Machine Learnig debe en lo posible ser muy predictivo, con el fin, de generar a la entidad alertas

tempranas para la toma de decisiones y acciones de tipo administrativo, de control, monitoreo y

normativo.

Por lo tanto, se propone seleccionar y aplicar el modelo Random Forest – Bosques Aleatorios de

Machine Learning, con el fin, de identificar los clientes que puedan exponer a la entidad financiera

en una operación de lavado de activos y financiación del terrorismo y que pueda afectar la imagen

reputación y legal.

La selección del modelo se apoya en las métricas establecidas en la investigación, por medio de

estas métricas permitió realizar el análisis de los resultados y comportamiento de cada uno de los

modelos, facilitando al investigador seleccionar y recomendar el modelo que mejor predicción

permita atender la necesidad planteada por la entidad financiera.


27

Referencias Bibliográficas

https://es.wikipedia.org/wiki/Lavado_de_dinero#:~:text=La%20palabra'lavado%2C%20tiene%20
su,trav%C3%A9s%20de%20sus%20actividades%20criminales.
Córdova, G. C. S., Beltrán, Y. V. E., & Paguay, E. R. B. (2017). Scoring para medir el riesgo de
lavado de activos y financiamiento de delitos a personas naturales para empresas del sector
público o privado. Revista Publicando, 4(12 (2)), 68-87.
Alave Regente, R. A. (2017). Factores de Riesgo de Lavado de Activos y del Financiamiento del
Terrorismo Que Intervienen en la Generación del Modelo Scoring de la Cooperativa de Ahorro y
Crédito Toquepala–Periodo 2016.
Pinto Torres, C. R., & Triana Saenz, P. A. (2020). Gestión del riesgo del lavado de activos (LA)
y financiación del terrorismo (FT) en la minería Colombiana.
https://www.adictosaltrabajo.com/2021/01/14/metodologia-crisp-dm/
El análisis factorial de datos mixtos (FAMD) es un método de componente principal dedicado a
analizar un conjunto de datos que contiene variables tanto cuantitativas como cualitativas (Pagès
2004)
http://www.sthda.com/english/articles/31-principal-component-methods-in-r-practical-guide/115-
famd-factor-analysis-of-mixed-data-in-r-essentials/
https://es.wikipedia.org/wiki/Random_forest#cite_note-:0-1
1. Piryonesi, S. Madeh; El-Diraby, Tamer E. (2020-06). «Role of Data Analytics in
Infrastructure Asset Management: Overcoming Data Size and Quality Problems». Journal of
Transportation Engineering, Part B: Pavements (en inglés) 146 (2): 04020022. ISSN 2573-5438.
doi:10.1061/JPEODX.0000175. Consultado el 7 de agosto de 2020.
Hastie, Trevor.; Friedman, J. H. (Jerome H.) (2001). The elements of statistical learning : data
mining, inference, and prediction : with 200 full-color illustrations. Springer. ISBN 0-387-95284-
5. OCLC 46809224. Consultado el 7 de agosto de 2020.
https://lightgbm.readthedocs.io/en/latest/
https://fhernanb.github.io/libro_mod_pred/adaboost.html
https://www.sciencedirect.com/topics/computer-science/logistic-regression

También podría gustarte