Documentos de Académico
Documentos de Profesional
Documentos de Cultura
DE DATOS PARA LA
DETECCIN Y PREVENCIN
DEL LAVADO DE ACTIVOS
Y LA FINANCIACIN
DEL TERRORISMO (LA/FT)
DOCUMENTOS UIAF
Bogot D.C.
2014
/1
2014
Esta publicacin fue realizada por la Unidad de
Informacin y Anlisis Financiero (UIAF), Unidad
Administrativa Especial adscrita al Ministerio de
Hacienda y Crdito Pblico.
DIRECTOR GENERAL
EQUIPO DE PRODUCCIN
ISBN:
978-958-58578-5-8
Primera edicin 2014, UIAF
/4
TABLA DE CONTENIDO
INTRODUCCIN
pag 8
pag 10
2 PROCESO DE GENERACIN DE
CONOCIMIENTO O KDD
pag 13
/5
3
APLICACIN DE TCNICAS
DE MINERA DE DATOS PARA LA
DETECCIN Y PREVENCIN DEL LA/FT
pag 20
CONCLUSIONES
pag 30
/6
Puedes utilizar todos los datos cuantitativos a tu alcance; aun as, debes
desconfiar de ellos y utilizar tu propia inteligencia y juicio (Alvin Toffler,
escritor y doctor en Letras, Leyes y Ciencias, 1928 - presente).
/7
El lavado de activos consiste en
INTRODUCCIN
ocultar, manejar, invertir o apro-
vechar, en cualquier forma, dine-
ro u otros bienes provenientes de
actividades delictivas, o para dar
apariencia de legalidad a las tran-
sacciones y fondos vinculados con
las mismas, actividad que con el
tiempo ha trascendido del sector
financiero a diferentes entornos
de la economa, donde contami-
na y desestabiliza los mercados,
poniendo en riesgo los pilares eco-
nmicos, polticos y sociales de la
democracia (Blanco, 1997).
1
Crdenas Rojas, Liliam (2010). Anlisis Predictivo para la Prevencin de LA/FT Caso Bancolombia. Oficina de Naciones Unidas contra la droga y el delito,
Cmara de Comercio de Bogot, Embajada Britnica. http://incp.org.co/Site/info/archivos/bancolombia.pdf.
2
Para conocer el contexto histrico de la minera de datos, consultar, (2014) Aplicabilidad de la Minera de Datos y el Anlisis de Redes Sociales en la Inteligencia
Financiera. Bogot: Unidad de Informacin y Anlisis Financiero.
/10
01
EL MODELO SAB
Y LA MINERIA DE DATOS
Con el diseo y aplicacin en la En particular, las herramientas de
UIAF del modelo de gestin Sis- minera de datos, objeto de este
tmico, Amplio y Bidireccional documento, facilitan la identifica-
(SAB)3, se han potencializado las cin de patrones y tendencias. As
capacidades de anlisis y respues- mismo, permiten identificar tran-
ta del Sistema Nacional Antilavado sacciones atpicas, posiblemente
de Activos y Contra la Financiacin relacionadas con los delitos men-
del Terrorismo (ALA/CFT). En parti- cionados.
cular, su componente Amplio, al
incorporar nuevas fuentes de infor- La aplicacin de estas tcnicas le
macin, propende por la creacin ha permitido a la UIAF optimizar
de ms y mejores sensores que tiempo y recursos en el desarrollo
aporten datos sobre la evolucin de la inteligencia financiera y, prin-
de las diferentes actividades eco- cipalmente, robustecer la informa-
nmicas en el pas, requiriendo, as cin y anlisis que produce en apo-
mismo, una mayor capacidad de yo a las autoridades competentes,
anlisis. (como fuerzas del orden, Fiscala
General de la Nacin), entre otros
En este contexto, bajo el mode- agentes, de acuerdo con las posi- /11
lo SAB, la UIAF crea la Plataforma bilidades y restricciones legales de
de Inteligencia Econmica (PIE), cada uno. Lo anterior reafirma el
basada en un conjunto de hard- carcter Amplio y Bidireccional del
ware y software, que se potencia- modelo SAB, al fortalecer la articu-
liza gracias a la integracin de un lacin entre los agentes del siste-
equipo humano con las capacida- ma, para mejorar la efectividad de
des necesarias para utilizar estas sus resultados.
herramientas, implementando
metodologas provenientes de las La estructura del modelo SAB, des-
Matemticas, Estadstica, Econo- de la perspectiva de la recoleccin
ma, Finanzas y otras ciencias, con y procesamiento de informacin,
el fin de mejorar el entendimiento se resume en la Figura 1; tener este
de la amenaza y producir mejores contexto presente, ayudar a ilus-
resultados en el Sistema ALA/CFT. trar la utilidad de las tcnicas de
minera de datos abordadas en el
3
Para conocer el contexto histrico, la estructura y los componentes del modelo SAB, consultar. Surez Soto, Luis Edmundo (2014). Las Unidades de Inteligencia
Financiera y el Sistema Antilavado de Activos y Contra la Financiacin del Terrorismo. Un Nuevo Modelo de Gestin: Sistmico, Amplio y Bidireccional. Segunda
edicin. Bogot: Unidad de Informacin y Anlisis Financiero (UIAF). https://www.uiaf.gov.co/index.php?idcategoria=20569
presente documento, el cual busca mente, pero no exclusivamente,
ofrecer una perspectiva detallada otras Unidades de Inteligencia Fi-
sobre la aplicacin de las mismas y nanciera - UIF), para quienes el co-
servir como punto de referencia de nocimiento aqu desarrollado pue-
especialistas del sistema nacional de aportar a sus propias labores y
efectividad.
e internacional ALA/CFT (especial-
Plataforma de
Inteligencia
Econmica
Inteligencia Mejor
Ms y Mejores Base de Datos Financiera y Entendimiento de
Sensores Politemticas Econmica la Amenaza
Ms Capacidades
de Deteccin y
Judicializacin:
Mejoras en la Calidad de dos Reportes: Mejores
Resultados
Crecimiento Continuo del Sistema ALA/CFT
/13
PROCESO
02
DE GENERACIN
DE CONOCIMIENTO O KDD
El proceso de Knowledge Disco- A continuacin se expone una for-
very in DataBases (KDD) surte cua- ma de representar el proceso que
tro pasos para la generacin de puede ser empleado por cualquier
conocimiento. Estas etapas pue- unidad de inteligencia financiera
den ser recursivas, es decir, que se para la generacin de conocimien-
retorna a ellas una y otra vez (pro- to sobre posibles operaciones de
ceso iterativo) a medida que se ob- LA/FT (ver Figura 2).
tienen resultados preliminares que
requieren replantear las variables
iniciales.
Interpretacin y
resultados
Minera
de datos
Transformacin
/14
Procesamiento Generacin
de conocimiento
Patrones
Seleccin
Datos
Transformados
Limpieza base
de datos Datos
Preprocesados
Seleccin de
atributos
Nueva
base de datos
Bases de datos
En adelante se describen cada una
de las etapas del proceso.
4
Identifica elementos comunes en los individuos analizados y determinan agrupaciones que surgen de manera natural, dados los datos disponibles.
El proceso ms importante en mi-
nera de datos es el proceso de 5. Interpretacin y
limpieza de los datos y definicin Resultados
de las variables. Si los datos no son
correctos el modelo creado no ser-
vir. Del mismo modo, la validez de Se analizan los resultados de los
los patrones descubiertos depen- patrones obtenidos en la fase de
de de cmo se apliquen al mundo MD, mediante tcnicas de visuali-
real o a las circunstancias. Aunque zacin y de representacin, con el
integra el conocimiento de dife- fin de generar conocimiento que
rentes fuentes como la Biologa, aporte mayor valor a los datos. En
Matemticas, Estadstica, Ciencias esta fase se evalan los resultados
Sociales, entre otras, la minera de con los expertos y, si es necesario,
datos presenta diferencias impor- se retorna a las fases anteriores
tantes, por ejemplo, respecto a la para una nueva iteracin. Las ac-
estadstica, la cual plantea una hi- tividades mencionadas anterior-
ptesis y usa datos para probarla mente se resumen en la Figura 3.
o refutarla. La eficacia de este en-
foque se ve limitada por la creati-
/18 vidad del usuario para desarrollar
las diversas hiptesis, as como por
la estructura del software que uti-
liza; por el contrario, la minera de
datos emplea una aproximacin
de descubrimiento para examinar
simultneamente varias relaciones
en bases de datos multidimensio-
nales, identificando aquellas que
se presentan con frecuencia (2008).
Figura 3. Proceso de generacin de conocimiento automtico
Transformacin de
Comprensin y datos (discretizacion,
analisis de normalizacin otros Evaluacin
informacin depende del conjunto
de datos)
Preprocesamiento
Despliegue
Modelacin /19
03
APLICACIN DE TCNICAS
DE MINERA DE DATOS
PARA LA DETECCIN Y PREVENCIN
DEL LA/FT
Durante la ltima dcada, el
tas tecnolgicas para identificar
operaciones potencialmente rela-
crecimiento de las bases de datos cionadas con LA, configurando as
(BD) ha trado consigo la dificul- un sistema antilavado automtico
tad para analizar la informacin, lo (ALM) (Senator et. al., 1995), el cual
que ha llevado a desarrollar herra- se entiende como una inversin a
mientas de anlisis cada vez ms largo plazo para prevenir el ingreso
sofisticadas y potentes que per- de dinero de origen ilcito a la eco-
mitan la exploracin y anlisis de noma legal.
informacin, generando patrones
de conocimiento no trivial vlidos, Varias tcnicas de aprendizaje au-
tiles y comprensibles. Uno de es- tomtico han sido implementa-
tos casos es el de la informacin das para la deteccin de fraude y
respecto a actividades criminales de lavado de activos, cuya tasa de
como el trfico de drogas, soborno clasificacin ha sido alta (verda-
y contrabando, delitos que gene- deros positivos y falsos positivos
ran cuantiosas ganancias y derivan bajos), comparados con tcni-
en un alto volumen de transaccio- cas tradicionales (Maimon et.al.,
nes, realizadas con un creciente 2003/2007/2010).
nivel de complejidad para escon- /21
der el origen ilcito de los recursos, Tomando el caso de los Sistemas
dificultando as la deteccin de los Antilavado de Activos y Contra la
entes de control. Financiacin del Terrorismo (ALA/
CFT), los procedimientos aplicados
En este sentido, diversos pases de- ms conocidos son:
sarrollados han avanzado significa-
tivamente en emplear sistemas de Algoritmos de agrupa-
monitoreo online para la deteccin cin: Tambin denominados pro-
de operaciones de lavado de acti- cedimientos de clustering, buscan
vos y financiacin del terrorismo generar nuevos conjuntos a partir
(LA/FT). El Financial Artificial Inte- de los datos analizados, tales que
lligence System (FAIS) del Financial los individuos en un mismo grupo
Crime Enforcement Network (Fin- sean lo ms parecidos posible y
CEN) de Estados Unidos, integra el que, simultneamente, cada grupo
criterio de expertos con herramien- sea lo ms diferente posible. Estos
mtodos trabajan con la distancia nmica. Las reglas de asociacin
que hay entre cada elemento y el evalan todas las posibles combi-
centro de cada uno de los grupos, naciones de estas caractersticas
asignando el individuo al grupo al y determinan las configuraciones
cual se encuentre ms cerca. ms probables (Maimon y Rokach,
2010).
La complejidad de estos algorit-
mos radica en la definicin de un Los modelos predictivos de MD
criterio para establecer distancias buscan obtener los valores adqui-
o similitudes y el procedimiento ridos por una variable de inters
recursivo que se sigue para confor- en situaciones no observadas (ej:
mar cada uno de los grupos hasta el futuro), en funcin de los valores
satisfacer los criterios establecidos. que toman otras series relaciona-
Entre estos mtodos se encuen- das. En el contexto de la lucha ALA/
tran los jerrquicos, de particin, CFT, este tipo de algoritmos permi-
basados en densidades, modelos y te establecer los comportamientos
cuadrculas y los computacionales del individuo relacionados con su
(Maimon y Rokach, 2010). Ejemplo: judicializacin por una actividad
para la deteccin de outliers. Sin delictiva, o su inclusin en un caso
/22 embargo, estos mtodos no pue- de inteligencia financiera o reporte
den identificar tendencias de com- de operacin sospechosa (ROS). A
portamiento sospechoso. continuacin se describen algunos
mtodos principales:
Reglas de asociacin:
Examinan todas las posibles com- rboles de decisin: Un
binaciones de caractersticas con- rbol de decisin es un modelo de
tenidas en una base de datos y clasificacin que divide un conjun-
determinan la probabilidad de to de anlisis, buscando el mayor
configuracin de estos rasgos. grado de pureza entre los grupos
Ejemplo: un individuo se puede resultantes5 . En todo rbol hay un
definir de acuerdo con el tipo de nodo inicial denominado raz, que
persona (natural o jurdica), sector contiene la totalidad de la informa-
econmico, grupo de frecuencia de cin. Este grupo se subdivide en
transacciones y relacin con una dos o ms grupos denominados
investigacin de inteligencia eco- como internos, si continan sub-
5
Pureza se entiende como la presencia representativa de una de las caractersticas que toma la variable de inters (junto con la participacin insignificante
de la otra categora).
dividindose, o terminales u hojas, una de las categoras que toma la
si no enfrentan ms segmentacin variable de inters. Se dispone de
(Maimon y Rokach, 2010). varios algoritmos para la genera-
cin de rboles de decisin, entre
En un rbol de clasificacin cada los cuales se cuentan ID3 (intro-
nodo interno se parte de acuerdo ducido por Quinlan en 1986), C4.5
a una funcin discreta sobre las o J486 , CART, CHAID Random Tree
variables utilizadas para el anlisis, y QUEST (Safavin y Landgrebe,
hasta llegar a los nodos termina- 1991). En la Figura 4 se presenta un
les donde se tiene la proporcin ejemplo de la aplicacin del C4.5.
de individuos ubicados en cada
a3
> 2.450 < 2.450
> 5.350
a3
< 5.350
Iris Virginica
a3
< 4.950
> 4.950
a4 Iris Versicolor
6
Dependiendo del lenguaje de desarrollo empleado para la construccin del algoritmo, se denota su nombre. El C4.5 fue desarrollado en C++, mientras que
J48 fue desarrollado en Java.
Redes neuronales arti- tangente hiperblica (para obtener
ficiales (RNA): Son un sistema valores en el intervalo [-1,1]).
de aprendizaje y procesamiento
automtico inspirado en la forma Las RNA usualmente implemen-
como funciona el sistema nervio- tadas dependen del patrn de co-
so animal, que parte de la interco- nexiones que representan. Existen
nexin de neuronas que colaboran varias formas de clasificarlas. Por
entre s para generar un resultado. topologa se definen dos tipos b-
Esta salida o resultado proviene de sicos:
tres funciones (Maimon y Rokach,
2010): 1. Feed-forward Neural Net (FNN):
Redes de propagacin progresivas
1. Propagacin (funcin de excita- o acclicas, en las que las seales
cin): Es la sumatoria de cada en- avanzan desde la capa de entrada
trada multiplicada por el peso de hacia la salida, sin presentar ciclos
su interconexin (valor neto). Si el ni conexiones entre neuronas de
peso es positivo, la conexin se de- la misma capa. Pueden ser de dos
nomina excitatoria, y si es negativo, tipos: monocapa (ej. perceptrn,
se denomina inhibitoria. Adaline) y multicapa (ej. Percep-
/24 trn multicapa. Ver Figura 5).
2. Activacin (modifica a la fun-
cin anterior): su existencia no es 2. Recurrent Neural Network (RNN):
obligatoria, siendo en este caso la Redes neuronales recurrentes, que
salida, la misma funcin de propa- presentan al menos un ciclo cerra-
gacin. do de activacin neuronal (ej. El-
man, Hopfield, mquina de Boltz-
3. Transferencia: se aplica al valor mann).
devuelto por la funcin de activa-
cin. Se utiliza para acotar la sali-
da de la neurona y generalmente
viene dada por la interpretacin
que se desee dar a dichas salidas.
Algunas de las ms utilizadas son
la funcin sigmoidea (para obte-
ner valores en el intervalo [0,1]) y la
Figura 5. RNA perceptrn multicapa
1
Entrada 2
2
Salida
2 1
Entrada 3
3
m
/25
Entrada n
n
x1
Tabla 1
RNA MSV
Las capas ocultas transforman a Kernels Transforma a espacios de /27
espacios de cualquier dimensin. dimensin muy alta.
El espacio de bsqueda tiene El espacio de bsqueda tiene
mltiples mnimos locales. un mnimo global.
El entrenamiento es costoso. El entrenamiento es
altamente eficiente
Se establece el nmero de nodos Se disea la funcin de kernel y el
y capas ocultas. parametro de coste C.
Alto funcionamiento en Muy buen funcionamiento en pro-
problemas tpicos. blemas tipicos.
Extremadamente robusto para gene-
ralizacin.
Menos necesidad de emplear heurs-
ticos en el entrenamiento.
Fuente: LiuXuan, 2007; Shijia Gao, 2007; Shijia Gao y Huaiqing Wang, 2006
Reglas de induccin: Yang, 2007), para dar mayor clari-
Considerando que los patrones dad al uso de las herramientas de
ocultos en grandes bases de datos minera de datos en la deteccin
suelen expresarse como un conjun- de operaciones de LA o FT. Los
to de reglas, aquellas de induccin autores emplean el mtodo de r-
se adaptan a los objetivos de la MD boles de decisin para obtener re-
aun cuando son una de las tcni- glas que determinen el riesgo que
cas ms representativas del apren- tienen los diferentes tipos de clien-
dizaje de mquina. Aqu, una regla tes, de un banco comercial en un
suele consistir de instrucciones del determinado pas, de estar involu-
tipo Si (caracterstica 1, atributo 1) crados en una operacin de lavado
y Si (caracterstica 2, atributo 2) y de activos7. Los datos utilizados
y Si (caracterstica n, atributo n) en- corresponden a una muestra alea-
tonces (decisin, valor), aunque se toria de 28 individuos provenientes
pueden encontrar reglas ms com- de un universo de 160 mil clientes,
plejas. La informacin utilizada por para los cuales se utilizan cuatro de
este algoritmo es de carcter cate- 52 variables disponibles: industria,
grico, lo cual facilita en gran me- localizacin, tamao del negocio y
dida el procesamiento de los datos productos abiertos con el banco.
/28 y el entendimiento de los resulta- Las categoras de cada variable se
dos. Los algoritmos utilizados por califican en tres niveles de acuerdo
las reglas de induccin son LEM1, con el riesgo de LA que perciben
LEM2 y AQ. los gerentes de oficina: L (riesgo
bajo), M (riesgo medio) y H (riesgo
A continuacin se documentan los alto). Por ejemplo, para la variable
resultados presentados en (Wang y industria:
Tabla 2
Industria Riesgo LA
Manufacturera L
Qumica L
Comercio domstico M
Medicina M
Tecnologa M
Comercio internacional H
Comercio al por menor H
Publicidad H
Venta de Automviles H
/
Este enfoque difiere de otros ms tradicionales donde el anlisis se centra en las transacciones.
Los autores utilizan el algoritmo tenecen a una industria con bajo
ID3 sobre una muestra de entrena- riesgo de LA (rama marcada como
miento de 21 individuos y prueban L originada en industria, nmero 1
la validez de los resultados sobre en la figura) y una localizacin con
los 7 individuos restantes. La repre- bajo o mediano riesgo (ramas mar-
sentacin grfica de los resultados cadas como L y M, nmeros 2 y 3
obtenidos es la que se muestra en en la figura) tienen un bajo riesgo
la Figura 7. En este caso, se eviden- de estar involucradas en LA. Por
cia que la industria es la variable el contrario, un individuo de una
ms relevante en la determinacin industria con alto riesgo (rama
del riesgo de LA del cliente (se ubi- marcada como H originada en in-
ca al principio del rbol de deci- dustria, nmero 1 en la figura) y
sin), seguida por localizacin y tamao de bajo riesgo (rama mar-
tamao del negocio. cada como L originada en tamao
del negocio, nmero 4 en la figura),
Al observar el rbol de decisin se en realidad tienen un alto riesgo de
observa que los clientes que per- LA.
1
Industry
L M H
2 3 4
Location Bussines Size Bussines Size
L M H L M H L M H
Bank Bank
Low Low Middle Middle products Middle High High
products
L M H L M H
L M H
CONCLUSIONES
Unidades de Inteligencia Finan-
ciera (UIF) y la complejidad de su
anlisis, son fundamentales las
herramientas computacionales
robustas, que permitan extraer co-
nocimiento no trivial y faciliten la
identificacin de seales de alerta
y construccin y seguimiento de
perfiles por sector, respecto a ca-
sos atpicos u outliers.
Senator, Ted E., Goldberg, Henry G. Wang, Su-Nan and Yang, Jian-Gang
y Wooton, Jerry (1995). The finan- (2007). A money Laundering Risk
/32 cial crimes enforcement network AI Evaluation Method Based on Deci-
system (FAIS) identifying potential sion Tree. Proceedings of the sixth
money laundering from reports of international conference on Machi-
large cash transactions[J], AI Maga- ne Learning and Cybernetics, Hong
zine, Vol.16, No.4, pp. 21-39. Kong.
Bogot D.C.
2014