Tecnicas de Mineria de Datos para La Prevencion Del LAFT PDF

TCNICAS DE MINERA
DE DATOS PARA LA
DETECCIN Y PREVENCIN
DEL LAVADO DE ACTIVOS
Y LA FINANCIACIN
DEL TERRORISMO (LA/FT)
DOCUMENTOS UIAF
Bogot D.C.
2014
/1
Tcnicas de minera de datos

para la deteccin y prevencin
del lavado de activos y la nanciacin
del terrorismo (LA/FT)
2014
Esta publicacin fue realizada por la Unidad de
Informacin y Anlisis Financiero (UIAF), Unidad
Administrativa Especial adscrita al Ministerio de
Hacienda y Crdito Pblico.
DIRECTOR GENERAL
Unidad de Informacin y Anlisis Financiero

Luis Edmundo Surez Soto
EQUIPO DE PRODUCCIN
Unidad de Informacin y Anlisis Financiero

Este documento fue desarrollado por servidores
/2 pblicos de la UIAF, con el soporte de un equipo in-
terno de coordinacin editorial y bajo la direccin
del Director General y el Subdirector de Anlisis Es-
tratgico.
CORRECCIN DE ESTILO, DISEO,

DIAGRAMACIN E IMPRESIN
Garca Solano y Compaa SAS - Caliche Impresores

Impresores Molher LTDA
De acuerdo con lo previsto en el Artcu-
lo 91 de la Ley 23 de 1982, los derechos
de autor del presente documento per-
tenecen a la Unidad de Informacin y
Anlisis Financiero (UIAF).
Queda prohibida cualquier repro-

duccin, parcial o total, del con-
tenido de este documento sin la
autorizacin previa y escrita de la
UIAF. Los anlisis contenidos son
de carcter general y no hacen re-
ferencia ni constituyen prueba so-
bre vnculos ciertos y permanentes
de individuos con actividades aso-
ciadas al lavado de activos y finan-
ciacin del terrorismo.
La UIAF no se responsabiliza por el /3

uso (accin u omisin) que haga
cualquier persona o grupo de per-
sonas de la informacin (total o
parcial) contenida en el texto.
ISBN:
978-958-58578-5-8
Primera edicin 2014, UIAF
/4
TABLA DE CONTENIDO
INTRODUCCIN
pag 8
1 EL MODELO SAB Y LA MINERA DE

DATOS
pag 10
2 PROCESO DE GENERACIN DE
CONOCIMIENTO O KDD
pag 13
/5
3
APLICACIN DE TCNICAS
DE MINERA DE DATOS PARA LA
DETECCIN Y PREVENCIN DEL LA/FT
pag 20
CONCLUSIONES
pag 30
/6
TCNICAS DE MINERA DE DATOS

PARA LA DETECCIN Y PREVENCIN
DEL LAVADO DE ACTIVOS Y LA FINANCIACIN
Puedes utilizar todos los datos cuantitativos a tu alcance; aun as, debes
desconfiar de ellos y utilizar tu propia inteligencia y juicio (Alvin Toffler,
escritor y doctor en Letras, Leyes y Ciencias, 1928 - presente).
/7
El lavado de activos consiste en
INTRODUCCIN
ocultar, manejar, invertir o apro-
vechar, en cualquier forma, dine-
ro u otros bienes provenientes de
actividades delictivas, o para dar
apariencia de legalidad a las tran-
sacciones y fondos vinculados con
las mismas, actividad que con el
tiempo ha trascendido del sector
financiero a diferentes entornos
de la economa, donde contami-
na y desestabiliza los mercados,
poniendo en riesgo los pilares eco-
nmicos, polticos y sociales de la
democracia (Blanco, 1997).
La inteligencia financiera y econ-

mica juega un papel fundamental
/8 en ese contexto, dado que a travs
del anlisis y conocimiento que
produce, busca prevenir y detectar
muchas de las actividades ilcitas
antes descritas y, as mismo, con-
tener sus impactos. Ante un cre-
ciente volumen de informacin por
centralizar y estudiar, y en aras de
desempear una labor ms efec-
tiva, se hace necesario emplear
tcnicas de anlisis de datos ms
complejas y dinmicas a la esta-
dstica, para lograr, finalmente, la
extraccin de conocimiento no
implcito. Concretamente, se trata
de herramientas como la minera
de datos, la cual apoya el proceso desarrollo tecnolgico de la UIAF,
de Knowledge Discovery in Data Ba- desde la implementacin del mo-
ses (KDD), que consiste en analizar delo de gestin Sistmico, Amplio
grandes volmenes de datos para y Bidireccional (SAB), en los lti-
generar conocimiento til a favor mos casi cuatro aos; contina,
de la toma de decisiones. con una presentacin del proceso
de generacin de conocimiento
El objetivo de este documento es KDD, que abarca desde la obten-
presentar las principales tcnicas cin de informacin hasta la apli-
de minera de datos (MD) utilizadas cacin del conocimiento adquirido
para describir, clasificar y detectar para la toma de decisiones, segui-
irregularidades a partir de la crea- da por una explicacin de la apli-
cin de perfiles normales tran- cacin de tcnicas de minera de
saccionales, facilitando el hallaz- datos para la deteccin y preven-
go de patrones o reglas generales cin del lavado de activos (LA) y la
(incluye mtodos de agrupacin) financiacin del terrorismo (FT); y,
en el registro histrico de las tran- finalmente, ofrece unas conclusio-
sacciones. En contraste, los proce- nes generales.
dimientos de prediccin describen
las proyecciones obtenidas a partir /9
de diversas metodologas1 para
pronosticar el comportamiento
futuro de las transacciones reali-
zadas. En la actualidad se utilizan
las siguientes: Redes Neuronales,
rboles de Decisin y Bayes; as
mismo, se emplean sistemas de
aprendizaje autnomo para reco-
nocimiento de patrones que par-
ten de eventos histricos.
Este documento consta de cuatro

secciones: primero, una contex-
tualizacin sobre la aplicacin de
tcnicas de minera de datos2 en el
1
Crdenas Rojas, Liliam (2010). Anlisis Predictivo para la Prevencin de LA/FT Caso Bancolombia. Oficina de Naciones Unidas contra la droga y el delito,
Cmara de Comercio de Bogot, Embajada Britnica. http://incp.org.co/Site/info/archivos/bancolombia.pdf.
2
Para conocer el contexto histrico de la minera de datos, consultar, (2014) Aplicabilidad de la Minera de Datos y el Anlisis de Redes Sociales en la Inteligencia
Financiera. Bogot: Unidad de Informacin y Anlisis Financiero.
/10
01
EL MODELO SAB
Y LA MINERIA DE DATOS
Con el diseo y aplicacin en la En particular, las herramientas de
UIAF del modelo de gestin Sis- minera de datos, objeto de este
tmico, Amplio y Bidireccional documento, facilitan la identifica-
(SAB)3, se han potencializado las cin de patrones y tendencias. As
capacidades de anlisis y respues- mismo, permiten identificar tran-
ta del Sistema Nacional Antilavado sacciones atpicas, posiblemente
de Activos y Contra la Financiacin relacionadas con los delitos men-
del Terrorismo (ALA/CFT). En parti- cionados.
cular, su componente Amplio, al
incorporar nuevas fuentes de infor- La aplicacin de estas tcnicas le
macin, propende por la creacin ha permitido a la UIAF optimizar
de ms y mejores sensores que tiempo y recursos en el desarrollo
aporten datos sobre la evolucin de la inteligencia financiera y, prin-
de las diferentes actividades eco- cipalmente, robustecer la informa-
nmicas en el pas, requiriendo, as cin y anlisis que produce en apo-
mismo, una mayor capacidad de yo a las autoridades competentes,
anlisis. (como fuerzas del orden, Fiscala
General de la Nacin), entre otros
En este contexto, bajo el mode- agentes, de acuerdo con las posi- /11
lo SAB, la UIAF crea la Plataforma bilidades y restricciones legales de
de Inteligencia Econmica (PIE), cada uno. Lo anterior reafirma el
basada en un conjunto de hard- carcter Amplio y Bidireccional del
ware y software, que se potencia- modelo SAB, al fortalecer la articu-
liza gracias a la integracin de un lacin entre los agentes del siste-
equipo humano con las capacida- ma, para mejorar la efectividad de
des necesarias para utilizar estas sus resultados.
herramientas, implementando
metodologas provenientes de las La estructura del modelo SAB, des-
Matemticas, Estadstica, Econo- de la perspectiva de la recoleccin
ma, Finanzas y otras ciencias, con y procesamiento de informacin,
el fin de mejorar el entendimiento se resume en la Figura 1; tener este
de la amenaza y producir mejores contexto presente, ayudar a ilus-
resultados en el Sistema ALA/CFT. trar la utilidad de las tcnicas de
minera de datos abordadas en el
3
Para conocer el contexto histrico, la estructura y los componentes del modelo SAB, consultar. Surez Soto, Luis Edmundo (2014). Las Unidades de Inteligencia
Financiera y el Sistema Antilavado de Activos y Contra la Financiacin del Terrorismo. Un Nuevo Modelo de Gestin: Sistmico, Amplio y Bidireccional. Segunda
edicin. Bogot: Unidad de Informacin y Anlisis Financiero (UIAF). https://www.uiaf.gov.co/index.php?idcategoria=20569
presente documento, el cual busca mente, pero no exclusivamente,
ofrecer una perspectiva detallada otras Unidades de Inteligencia Fi-
sobre la aplicacin de las mismas y nanciera - UIF), para quienes el co-
servir como punto de referencia de nocimiento aqu desarrollado pue-
especialistas del sistema nacional de aportar a sus propias labores y
efectividad.
e internacional ALA/CFT (especial-
Figura 1. Modelo SAB

recoleccin, manejo y procesamiento de informacin
Plataforma de
Inteligencia
Econmica
Inteligencia Mejor
Ms y Mejores Base de Datos Financiera y Entendimiento de
Sensores Politemticas Econmica la Amenaza
Reportantes *Volumen *Anlisis financiero

*Entidades del estado *Velocidad *Anlisis econmico
/12 *Gremios *Variedad *Anlisis matemtico *Entender el Pasado
*Organismos internacionales *Veracidad y Estadstico *Monitorear el Presente
*Centros acadmicos *Anlisis visual *Anticipar el Futuro
Ms Capacidades
de Deteccin y
Judicializacin:
Mejoras en la Calidad de dos Reportes: Mejores
Resultados
Crecimiento Continuo del Sistema ALA/CFT
/13
PROCESO
02
DE GENERACIN
DE CONOCIMIENTO O KDD
El proceso de Knowledge Disco- A continuacin se expone una for-
very in DataBases (KDD) surte cua- ma de representar el proceso que
tro pasos para la generacin de puede ser empleado por cualquier
conocimiento. Estas etapas pue- unidad de inteligencia financiera
den ser recursivas, es decir, que se para la generacin de conocimien-
retorna a ellas una y otra vez (pro- to sobre posibles operaciones de
ceso iterativo) a medida que se ob- LA/FT (ver Figura 2).
tienen resultados preliminares que
requieren replantear las variables
iniciales.
Figura 2. Proceso de KDD
Interpretacin y
resultados
Minera
de datos
Transformacin
/14
Procesamiento Generacin
de conocimiento
Patrones
Seleccin
Datos
Transformados
Limpieza base
de datos Datos
Preprocesados
Seleccin de
atributos
Nueva
base de datos
Bases de datos
En adelante se describen cada una
de las etapas del proceso.
1. Seleccin de los 2. Pre procesa-

datos miento de datos
Es la etapa ms dispendiosa (re- Integracin de datos: Se

quiere cerca del 90% del tiempo), analiza si la base de datos requiere
como se describe en Fayyad et. al. incluir o integrar informacin o va-
(1996), ya que consiste en la reco- riables que reposan en otras bases
leccin y preparacin de los datos. de datos, y que ser relevante para
En este proceso se comprende la el modelo de minera de datos. Si
problemtica asociada a la base es necesario, se realiza un modelo
de datos y se establecen objetivos. de entidad-relacin entre tablas,
A la vez, se identifican las variables el cual permite representar las en-
que sern consideradas para la tidades relevantes (representacio-
construccin del modelo de mine- nes grficas y lingsticas) de un
ra de datos (MD). sistema, as como sus propiedades /15
e interrelaciones (vila, 2005).
De acuerdo con el origen de cada
tabla(s) de datos, se establece el Reconocimiento y lim-
mecanismo que se utilizar para pieza: Se depura el conjunto de
extraer la informacin requerida datos respecto a valores atpicos,
por el modelo; tambin incide la faltantes y errneos (eliminacin
opinin del experto, quien puede ruido e inconsistencias).
de sugerir las series que explican
parcialmente la variable objetivo
(clase).
lado (simple y multidimensional) y
3. Seleccin de estandarizacin.
caractersticas
Reduccin de datos: Se
disminuye el tamao de los datos
Exploracin y limpieza mediante la eliminacin de carac-
de datos: Aplicando tcnicas de tersticas redundantes.
anlisis exploratorio de datos (es-
tadstico, grfico, entre otros), se Seleccin/extraccin de atributos:
busca identificar la distribucin Se realiza un proceso de identi-
de los datos, simetra, pruebas de ficacin y seleccin de variables
normalidad y correlaciones exis- relevantes. Entre las tcnicas ms
tentes entre los datos. En esta utilizadas para este proceso se en-
etapa es til el anlisis descriptivo cuentran, mtodos basados en fil-
del conjunto de datos (clustering tros y en wrappers (seleccionan los
y segmentacin, escalamiento, re- atributos en funcin de la calidad
glas de asociacin y dependencia, del modelo de MD asociado a los
reduccin de la dimensin), iden- atributos utilizados).
tificacin de datos nulos, ruido y
/16 outliers, as como el uso de matri- Construccin de atributos:
ces de correlacin (si las variables En caso que los datos se encuen-
son numricas), diagramas (barras, tren asociados a patrones comple-
histogramas, caja y bigotes), entre jos, se construye un atributo sen-
otras tcnicas adecuadas de mues- cillo que facilite la interpretacin
treo. del algoritmo. Se puede recurrir a
diferentes tcnicas, como la cons-
Transformacin: Se es- truccin guiada por los datos, el
tandariza o normaliza la infor- modelo o el conocimiento; finaliza
macin (colocarla en los mismos cuando se han analizado y selec-
trminos de formato y forma). La cionado las tcnicas de extraccin
seleccin de la tcnica a aplicar de- de conocimiento que mejor se
pender del algoritmo que se utili- adapten al lote de datos.
zar para la generacin de conoci-
miento. Las tcnicas comnmente
utilizadas son: discretizacin, esca-
Identificacin: Eviden-
4. Minera ciar la existencia de objetos, even-
tos y actividades en el conjunto de
de Datos datos (anlisis factorial, discrimi-
nante, regresivo, de correlaciones).
La minera de datos segn Esteban
(2008) et. al. (1991 / 1995), se puede Clasificacin: Particionar
definir como un proceso no trivial los datos de acuerdo a las clases o
de identificacin vlida, novedosa, etiquetas asignadas al conjunto de
potencialmente til y entendible datos (ej: tablas de decisin, reglas
de patrones comprensibles que se de decisin, clasificadores basados
encuentran ocultos en los datos, en casos, redes neuronales, clasifi-
que a su vez, facilita la toma de cadores bayesianos y clasificado-
decisiones y emplea tcnicas de res basados en acoplamientos).
aprendizaje supervisado y no-su-
pervisado. En la fase se define el Agrupacin: Permitir la
tipo de investigacin a realizar de maximizacin de similitudes y mi-
acuerdo con las caractersticas nimizacin de diferencias entre
de los atributos que conforman la objetos, mediante la aplicacin de
base de datos, que pueden ser de algn criterio de agrupacin. /17
tipo descriptivo4 y/o predictivo. El
siguiente paso es la eleccin y apli- Asociacin: Tener pre-
cacin de mtodos de extraccin sente que las reglas de asociacin
de conocimiento y la seleccin de buscan descubrir conexiones exis-
medidas de validacin para eva- tentes entre objetos identificados.
luar el rendimiento y la precisin
del(os) mtodo(s) escogido(s) por Prediccin: Descubrir el
el analista de MD. comportamiento de ciertos atribu-
tos en el futuro. (Regresin y series
A continuacin se presentan las temporales, anlisis discriminante,
tcnicas empleadas, las cuales mtodos bayesianos, algoritmos
pueden ser de tipo supervisado o genricos, rboles de decisin, re-
no supervisado. des neuronales).
4
Identifica elementos comunes en los individuos analizados y determinan agrupaciones que surgen de manera natural, dados los datos disponibles.
El proceso ms importante en mi-
nera de datos es el proceso de 5. Interpretacin y
limpieza de los datos y definicin Resultados
de las variables. Si los datos no son
correctos el modelo creado no ser-
vir. Del mismo modo, la validez de Se analizan los resultados de los
los patrones descubiertos depen- patrones obtenidos en la fase de
de de cmo se apliquen al mundo MD, mediante tcnicas de visuali-
real o a las circunstancias. Aunque zacin y de representacin, con el
integra el conocimiento de dife- fin de generar conocimiento que
rentes fuentes como la Biologa, aporte mayor valor a los datos. En
Matemticas, Estadstica, Ciencias esta fase se evalan los resultados
Sociales, entre otras, la minera de con los expertos y, si es necesario,
datos presenta diferencias impor- se retorna a las fases anteriores
tantes, por ejemplo, respecto a la para una nueva iteracin. Las ac-
estadstica, la cual plantea una hi- tividades mencionadas anterior-
ptesis y usa datos para probarla mente se resumen en la Figura 3.
o refutarla. La eficacia de este en-
foque se ve limitada por la creati-
/18 vidad del usuario para desarrollar
las diversas hiptesis, as como por
la estructura del software que uti-
liza; por el contrario, la minera de
datos emplea una aproximacin
de descubrimiento para examinar
simultneamente varias relaciones
en bases de datos multidimensio-
nales, identificando aquellas que
se presentan con frecuencia (2008).
Figura 3. Proceso de generacin de conocimiento automtico
Transformacin de
Comprensin y datos (discretizacion,
analisis de normalizacin otros Evaluacin
informacin depende del conjunto
de datos)
Reduccin de datos Resultados de

Eliminacin de datos Data-set
redundantes, seleccin vs. algoritmos de
de atributos, clases y validacin (cross
conjuntos. validation, split
Construccin de validation, otros)
atributos.
Preprocesamiento
Despliegue
Modelacin /19
Integracin Seleccin de Consolidacin de

reconocimiento y tcnicas de conocimiento -
limpieza de datos MD: Patrones de
Det. Algoritmica y conocimiento
(analisis exploratorio anlisis de
y estadstico) resultados parciales.
/20
03
APLICACIN DE TCNICAS
DE MINERA DE DATOS
PARA LA DETECCIN Y PREVENCIN
DEL LA/FT
Durante la ltima dcada, el
tas tecnolgicas para identificar
operaciones potencialmente rela-
crecimiento de las bases de datos cionadas con LA, configurando as
(BD) ha trado consigo la dificul- un sistema antilavado automtico
tad para analizar la informacin, lo (ALM) (Senator et. al., 1995), el cual
que ha llevado a desarrollar herra- se entiende como una inversin a
mientas de anlisis cada vez ms largo plazo para prevenir el ingreso
sofisticadas y potentes que per- de dinero de origen ilcito a la eco-
mitan la exploracin y anlisis de noma legal.
informacin, generando patrones
de conocimiento no trivial vlidos, Varias tcnicas de aprendizaje au-
tiles y comprensibles. Uno de es- tomtico han sido implementa-
tos casos es el de la informacin das para la deteccin de fraude y
respecto a actividades criminales de lavado de activos, cuya tasa de
como el trfico de drogas, soborno clasificacin ha sido alta (verda-
y contrabando, delitos que gene- deros positivos y falsos positivos
ran cuantiosas ganancias y derivan bajos), comparados con tcni-
en un alto volumen de transaccio- cas tradicionales (Maimon et.al.,
nes, realizadas con un creciente 2003/2007/2010).
nivel de complejidad para escon- /21
der el origen ilcito de los recursos, Tomando el caso de los Sistemas
dificultando as la deteccin de los Antilavado de Activos y Contra la
entes de control. Financiacin del Terrorismo (ALA/
CFT), los procedimientos aplicados
En este sentido, diversos pases de- ms conocidos son:
sarrollados han avanzado significa-
tivamente en emplear sistemas de Algoritmos de agrupa-
monitoreo online para la deteccin cin: Tambin denominados pro-
de operaciones de lavado de acti- cedimientos de clustering, buscan
vos y financiacin del terrorismo generar nuevos conjuntos a partir
(LA/FT). El Financial Artificial Inte- de los datos analizados, tales que
lligence System (FAIS) del Financial los individuos en un mismo grupo
Crime Enforcement Network (Fin- sean lo ms parecidos posible y
CEN) de Estados Unidos, integra el que, simultneamente, cada grupo
criterio de expertos con herramien- sea lo ms diferente posible. Estos
mtodos trabajan con la distancia nmica. Las reglas de asociacin
que hay entre cada elemento y el evalan todas las posibles combi-
centro de cada uno de los grupos, naciones de estas caractersticas
asignando el individuo al grupo al y determinan las configuraciones
cual se encuentre ms cerca. ms probables (Maimon y Rokach,
2010).
La complejidad de estos algorit-
mos radica en la definicin de un Los modelos predictivos de MD
criterio para establecer distancias buscan obtener los valores adqui-
o similitudes y el procedimiento ridos por una variable de inters
recursivo que se sigue para confor- en situaciones no observadas (ej:
mar cada uno de los grupos hasta el futuro), en funcin de los valores
satisfacer los criterios establecidos. que toman otras series relaciona-
Entre estos mtodos se encuen- das. En el contexto de la lucha ALA/
tran los jerrquicos, de particin, CFT, este tipo de algoritmos permi-
basados en densidades, modelos y te establecer los comportamientos
cuadrculas y los computacionales del individuo relacionados con su
(Maimon y Rokach, 2010). Ejemplo: judicializacin por una actividad
para la deteccin de outliers. Sin delictiva, o su inclusin en un caso
/22 embargo, estos mtodos no puede inteligencia financiera o reporte
den identificar tendencias de com- de operacin sospechosa (ROS). A
portamiento sospechoso. continuacin se describen algunos
mtodos principales:
Reglas de asociacin:
Examinan todas las posibles com- rboles de decisin: Un
binaciones de caractersticas con- rbol de decisin es un modelo de
tenidas en una base de datos y clasificacin que divide un conjun-
determinan la probabilidad de to de anlisis, buscando el mayor
configuracin de estos rasgos. grado de pureza entre los grupos
Ejemplo: un individuo se puede resultantes5 . En todo rbol hay un
definir de acuerdo con el tipo de nodo inicial denominado raz, que
persona (natural o jurdica), sector contiene la totalidad de la informa-
econmico, grupo de frecuencia de cin. Este grupo se subdivide en
transacciones y relacin con una dos o ms grupos denominados
investigacin de inteligencia eco- como internos, si continan sub-
5
Pureza se entiende como la presencia representativa de una de las caractersticas que toma la variable de inters (junto con la participacin insignificante
de la otra categora).
dividindose, o terminales u hojas, una de las categoras que toma la
si no enfrentan ms segmentacin variable de inters. Se dispone de
(Maimon y Rokach, 2010). varios algoritmos para la genera-
cin de rboles de decisin, entre
En un rbol de clasificacin cada los cuales se cuentan ID3 (intro-
nodo interno se parte de acuerdo ducido por Quinlan en 1986), C4.5
a una funcin discreta sobre las o J486 , CART, CHAID Random Tree
variables utilizadas para el anlisis, y QUEST (Safavin y Landgrebe,
hasta llegar a los nodos termina- 1991). En la Figura 4 se presenta un
les donde se tiene la proporcin ejemplo de la aplicacin del C4.5.
de individuos ubicados en cada
Figura 4. Ejemplo de aplicacin de C4.5
a3
> 2.450 < 2.450
> 1.750 /23

a4
Iris Virginica < 1.750 Iris-setosa
> 5.350
a3
< 5.350
Iris Virginica
a3
< 4.950
> 4.950
a4 Iris Versicolor
> 1.550 < 1.550
Iris Versicolor Iris Virginica
6
Dependiendo del lenguaje de desarrollo empleado para la construccin del algoritmo, se denota su nombre. El C4.5 fue desarrollado en C++, mientras que
J48 fue desarrollado en Java.
Redes neuronales arti- tangente hiperblica (para obtener
ficiales (RNA): Son un sistema valores en el intervalo [-1,1]).
de aprendizaje y procesamiento
automtico inspirado en la forma Las RNA usualmente implemen-
como funciona el sistema nervio- tadas dependen del patrn de co-
so animal, que parte de la interco- nexiones que representan. Existen
nexin de neuronas que colaboran varias formas de clasificarlas. Por
entre s para generar un resultado. topologa se definen dos tipos b-
Esta salida o resultado proviene de sicos:
tres funciones (Maimon y Rokach,
2010): 1. Feed-forward Neural Net (FNN):
Redes de propagacin progresivas
1. Propagacin (funcin de excita- o acclicas, en las que las seales
cin): Es la sumatoria de cada en- avanzan desde la capa de entrada
trada multiplicada por el peso de hacia la salida, sin presentar ciclos
su interconexin (valor neto). Si el ni conexiones entre neuronas de
peso es positivo, la conexin se de- la misma capa. Pueden ser de dos
nomina excitatoria, y si es negativo, tipos: monocapa (ej. perceptrn,
se denomina inhibitoria. Adaline) y multicapa (ej. Percep-
/24 trn multicapa. Ver Figura 5).
2. Activacin (modifica a la fun-
cin anterior): su existencia no es 2. Recurrent Neural Network (RNN):
obligatoria, siendo en este caso la Redes neuronales recurrentes, que
salida, la misma funcin de propa- presentan al menos un ciclo cerra-
gacin. do de activacin neuronal (ej. El-
man, Hopfield, mquina de Boltz-
3. Transferencia: se aplica al valor mann).
devuelto por la funcin de activa-
cin. Se utiliza para acotar la sali-
da de la neurona y generalmente
viene dada por la interpretacin
que se desee dar a dichas salidas.
Algunas de las ms utilizadas son
la funcin sigmoidea (para obte-
ner valores en el intervalo [0,1]) y la
Figura 5. RNA perceptrn multicapa
Capa de Capa Capa de

entrada oculta salida
Entrada 1
1
1
Entrada 2
2
Salida
2 1
Entrada 3
3
m
/25
Entrada n
n
Una segunda clasificacin es en 2. No supervisado o autoorganiza-

funcin del tipo de aprendizaje: do: No necesitan de un conjunto
previamente clasificado. Tal es el
1. Supervisado: Requieren un con- caso de las memorias asociativas,
junto de datos de entrada previa- las redes de Hopfield, la mqui-
mente clasificado. Tal es el caso na de Boltzmann y la mquina de
del perceptrn simple, la red Ada- Cauchy, las redes de aprendizaje
line, el perceptrn multicapa, red competitivo, las redes de Koho-
backpropagation, y la memoria nen o mapas autoorganizados y
asociativa bidireccional. las redes de resonancia adaptativa
(ART).
3. Redes hbridas: Son un enfoque bilidad para manejar modelos pro-
mixto en el que se utiliza una fun- babilsticos complejos al descom-
cin de mejora para facilitar la con- ponerlos en componentes ms
vergencia. Ej: redes de base radial. pequeos y digeribles. Se utilizan
para investigar relaciones entre
4. Reforzado: Se sita a medio ca- variables y para predecir y explicar
mino entre el supervisado y el au- su comportamiento al calcular la
toorganizado. distribucin de probabilidad con-
dicional de una variable, dados los
Una tercera clasificacin est en valores de otras series de inters
funcin del tipo de entrada: (Maimon y Rokach, 2010).
1. Redes analgicas: Procesan da- Mquinas de soporte

tos de entrada con valores conti- vectorial (MSV): Son un conjun-
nuos que normalmente son aco- to de algoritmos de aprendizaje
tados. Ej. Hopfield, Kohonen y las supervisado, relacionados con
redes de aprendizaje competitivo. problemas de clasificacin y regre-
sin. En este contexto, el aprendi-
2. Redes discretas: Procesan datos zaje se relaciona con la estimacin
/26 de entrada de naturaleza discre- de funciones a partir de un conjun-
ta (habitualmente valores lgicos to de entrenamiento, que permi-
booleanos). Ej: mquinas de Boltz- te etiquetar las clases y entrenar
mann y Cauchy, y la red discreta de una MSV para construir un mo-
Hopfield. delo que prediga la clase de una
nueva muestra. La MSV construye
Naive Bayes: Este tipo de un hiperplano(s) en un espacio
algoritmo comparte elementos de hiperdimensional de mxima dis-
la biologa, inteligencia artificial tancia respecto a los puntos que
y estadstica. Estn definidos por estn ms cerca del mismo. Estos
un grafo donde existen nodos que modelos estn estrechamente re-
representan variables aleatorias lacionados con las RNA e incorpo-
junto con sus enlaces, los cuales ra la funcin de Kernel (ej. radial,
hacen referencia a dependencias polinomial, neural, anova, epach-
entre las mismas. El xito de las nenikov, combinacin gaussiana y
redes bayesianas se debe a su ha- multicuadrtica). Ver Figura 6.
Figura 6. MSV Las MSV y las RNA obtienen un me-
jor resultado pero su costo com-
putacional es muy alto, lo que se
suma a la complejidad asociada a
su interpretacin y al entrenamien-
x2 to requerido para obtener un buen
Hi
pe
resultado (LiuXuan, 2007; Shijia
rp
la
no
Gao, 2007; Shijia Gao y Huaiqing
p
tim Wang, 2006). A continuacin, un
o
comparativo entre las RNA y MSV
(ver tabla 1):
Margen
mximo
x1
Tabla 1
RNA MSV
Las capas ocultas transforman a Kernels Transforma a espacios de /27
espacios de cualquier dimensin. dimensin muy alta.
El espacio de bsqueda tiene El espacio de bsqueda tiene
mltiples mnimos locales. un mnimo global.
El entrenamiento es costoso. El entrenamiento es
altamente eficiente
Se establece el nmero de nodos Se disea la funcin de kernel y el
y capas ocultas. parametro de coste C.
Alto funcionamiento en Muy buen funcionamiento en pro-
problemas tpicos. blemas tipicos.
Extremadamente robusto para gene-
ralizacin.
Menos necesidad de emplear heurs-
ticos en el entrenamiento.
Fuente: LiuXuan, 2007; Shijia Gao, 2007; Shijia Gao y Huaiqing Wang, 2006
Reglas de induccin: Yang, 2007), para dar mayor clari-
Considerando que los patrones dad al uso de las herramientas de
ocultos en grandes bases de datos minera de datos en la deteccin
suelen expresarse como un conjun- de operaciones de LA o FT. Los
to de reglas, aquellas de induccin autores emplean el mtodo de r-
se adaptan a los objetivos de la MD boles de decisin para obtener re-
aun cuando son una de las tcni- glas que determinen el riesgo que
cas ms representativas del apren- tienen los diferentes tipos de clien-
dizaje de mquina. Aqu, una regla tes, de un banco comercial en un
suele consistir de instrucciones del determinado pas, de estar involu-
tipo Si (caracterstica 1, atributo 1) crados en una operacin de lavado
y Si (caracterstica 2, atributo 2) y de activos7. Los datos utilizados
y Si (caracterstica n, atributo n) en- corresponden a una muestra alea-
tonces (decisin, valor), aunque se toria de 28 individuos provenientes
pueden encontrar reglas ms com- de un universo de 160 mil clientes,
plejas. La informacin utilizada por para los cuales se utilizan cuatro de
este algoritmo es de carcter cate- 52 variables disponibles: industria,
grico, lo cual facilita en gran me- localizacin, tamao del negocio y
dida el procesamiento de los datos productos abiertos con el banco.
/28 y el entendimiento de los resulta- Las categoras de cada variable se
dos. Los algoritmos utilizados por califican en tres niveles de acuerdo
las reglas de induccin son LEM1, con el riesgo de LA que perciben
LEM2 y AQ. los gerentes de oficina: L (riesgo
bajo), M (riesgo medio) y H (riesgo
A continuacin se documentan los alto). Por ejemplo, para la variable
resultados presentados en (Wang y industria:
Tabla 2
Industria Riesgo LA
Manufacturera L
Qumica L
Comercio domstico M
Medicina M
Tecnologa M
Comercio internacional H
Comercio al por menor H
Publicidad H
Venta de Automviles H
/
Este enfoque difiere de otros ms tradicionales donde el anlisis se centra en las transacciones.
Los autores utilizan el algoritmo tenecen a una industria con bajo
ID3 sobre una muestra de entrena- riesgo de LA (rama marcada como
miento de 21 individuos y prueban L originada en industria, nmero 1
la validez de los resultados sobre en la figura) y una localizacin con
los 7 individuos restantes. La repre- bajo o mediano riesgo (ramas mar-
sentacin grfica de los resultados cadas como L y M, nmeros 2 y 3
obtenidos es la que se muestra en en la figura) tienen un bajo riesgo
la Figura 7. En este caso, se eviden- de estar involucradas en LA. Por
cia que la industria es la variable el contrario, un individuo de una
ms relevante en la determinacin industria con alto riesgo (rama
del riesgo de LA del cliente (se ubi- marcada como H originada en in-
ca al principio del rbol de deci- dustria, nmero 1 en la figura) y
sin), seguida por localizacin y tamao de bajo riesgo (rama mar-
tamao del negocio. cada como L originada en tamao
del negocio, nmero 4 en la figura),
Al observar el rbol de decisin se en realidad tienen un alto riesgo de
observa que los clientes que per- LA.
Figura 7. Resultados presentados en Wang y Yang, 2007.

/29
1
Industry
L M H
2 3 4
Location Bussines Size Bussines Size
L M H L M H L M H
Bank Bank
Low Low Middle Middle products Middle High High
products
L M H L M H
Low Middle Middle Middle Location Middle
L M H
High Middle High

Dado el incremento del volumen
de la informacin reportada a las
CONCLUSIONES
Unidades de Inteligencia Finan-
ciera (UIF) y la complejidad de su
anlisis, son fundamentales las
herramientas computacionales
robustas, que permitan extraer co-
nocimiento no trivial y faciliten la
identificacin de seales de alerta
y construccin y seguimiento de
perfiles por sector, respecto a ca-
sos atpicos u outliers.
Especficamente, los resultados

obtenidos mediante la seleccin y
aplicacin de tcnicas de minera
de datos pueden contribuir al pro-
ceso de toma de decisiones en en-
tidades especializadas en preven-
/30 cin, deteccin y/o administracin
del riesgo de LA/FT.
Experiencias nacionales e interna-

cionales demuestran que la adop-
cin de tcnicas de minera de da-
tos para la prevencin y deteccin
de delitos ha arrojado importantes
resultados respecto al hallazgo de
patrones de comportamiento de
anomalas.
FUENTES
ACADMICAS
BIBLIOGRAFA vila Flores, Jos Salvador (2005).

Sistema de Administracin de Red
(S.A.R.) Versin 1.0. Universidad
Autnoma del Estado de Hidalgo.
Instituto de Ciencias Bsicas e In-
geniera. Mxico.
Blanco Cordero, Isidoro (1997). El

delito de blanqueo de capitales.
Edit. Aranzadi.
Fayyad, Usama, Piatetsky-Sha-

piro, Gregory and Smyth, Pad-
hraic (1996). From Data Mining to
Knowledge Discovery in Databa-
ses. American Association for Arti- /31
ficial Intelligence.
Esteban Talaya, gueda (2008).

Principios de marketing. ESIC Edi-
torial. Tercera edicin.
LiuXuan, Zhang Pengzhu (2007).

An agent based Anti-Money Laun-
dering system architecture for fi-
nancial supervision. International
Conference on Wireless Commu-
nications, Networking and Mobile
Computing, Septiembre, pp: 5472-
5475.
Maimon, Oded and Rokach, Lior Anti-money Laundering System.
(2010). Data Mining and Knowled- International Conference on Ser-
ge Discovery Handbook. Second vice Operation and Loqistics, and
Edition. Springer. Informatics, SOLI06, IEEE. pp: 851-
856.
Ramrez Quintana, Mara Jos y
Hernndez Orallo, Jos (2003). Sudjianto, A., Nair, S., Yuan, M.,
Extraccin Automtica de Conoci- Zhang, A., Kern, D., Cela-Daz, F.
miento en Bases de Datos e Inge- (2010). Statistical Methods for Figh-
niera del Software. Espaa. ting Financial Crimes. Technome-
trics 52(1) 519.
Safavin, S.R., Landgrebe, D (1991).
A survey of decision tree classifier Virseda Benito, Fernando y Romn
methodology [J]. IEEE Transac- Carrillo, Javier (sin ao). Minera
tions on Systems, Man and Cyber- de datos y aplicaciones. Universi-
netics, Vol.21, No.3, pp.660-667. dad Carlos III.
Senator, Ted E., Goldberg, Henry G. Wang, Su-Nan and Yang, Jian-Gang
y Wooton, Jerry (1995). The finan- (2007). A money Laundering Risk
/32 cial crimes enforcement network AI Evaluation Method Based on Deci-
system (FAIS) identifying potential sion Tree. Proceedings of the sixth
money laundering from reports of international conference on Machi-
large cash transactions[J], AI Maga- ne Learning and Cybernetics, Hong
zine, Vol.16, No.4, pp. 21-39. Kong.
Shijia Gao, Dongming Xu (2007). Yue, D., Wu, X. y Wang, Y. (2007). A

Conceptual modeling and develo- Review of Data Mining-Based Fi-
pment of an intelligent agent-as- nancial Fraud Detection Research.
sisted decision support system In: 2007 Wireless Comm., Networ-
for anti-money laundering. Ex- king and Mobile Computing, IEEE.
pert System with Applications,
doi:10.1016/j.eswa. Zhang, Z. y Salerno, J. (2003). Appl-
ying data mining in investigating
, Huaiqing Wang, money laundering crimes. Disco-
Yingfeng Wang (2006). Intelligent very and data mining (Mlc) 747.
FUENTES q=isbn:8497324927. Consultado el
14 de agosto de 2014.
INSTITUCIONALES
Cruz Arrela, Liliana (2010). Minera
de datos con aplicaciones. Univer-
Asobancaria (2011). Banco Central
sidad Nacional Autnoma de Mxi-
Rumiahui. Construccin y calibra-
co.
cin de un ndice multicriterio para
la deteccin de Lavado de Activos.
http://132.248.9.195/ptd2010/
abril/0656187/0656187_A1.pdf.
Consultado el 14 de agosto de
FUENTES 2014.
ELECTRNICAS
Artculos estadsticos. http://www.
estadistico.com/arts.html. Consul-
tado el 14 de agosto de 2014.
Crdenas Rojas, Liliam (2010). An- /33

lisis Predictivo para la Prevencin
de LA/FT Caso Bancolombia. Ofi-
cina de Naciones Unidas contra la
droga y el delito, Cmara de Co-
mercio de Bogot, Embajada Bri-
tnica.
http://incp.org.co/Site/info/archi-
vos/bancolombia.pdf. Consultado
el 14 de agosto de 2014.
Prez Lpez, Cesar y Santn Gonz-

lez, Daniel (2007). Minera de datos:
conceptos, tcnicas y sistemas.
https://www.google.com.co/
search?hl=es&tbo=p&tbm=bks&-
TCNICAS DE MINERA
DE DATOS PARA LA
DETECCIN Y PREVENCIN
DEL LAVADO DE ACTIVOS
Y LA FINANCIACIN
DOCUMENTOS UIAF
Bogot D.C.
2014

Tecnicas de Mineria de Datos para La Prevencion Del LAFT PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tecnicas de Mineria de Datos para La Prevencion Del LAFT PDF

Cargado por

Copyright:

Formatos disponibles

TCNICAS DE MINERA

Tcnicas de minera de datos

Unidad de Informacin y Anlisis Financiero

Unidad de Informacin y Anlisis Financiero

CORRECCIN DE ESTILO, DISEO,

Garca Solano y Compaa SAS - Caliche Impresores

Queda prohibida cualquier repro-

La UIAF no se responsabiliza por el /3

1 EL MODELO SAB Y LA MINERA DE

TCNICAS DE MINERA DE DATOS

La inteligencia financiera y econ-

Este documento consta de cuatro

Figura 1. Modelo SAB

Reportantes *Volumen *Anlisis financiero

Figura 2. Proceso de KDD

1. Seleccin de los 2. Pre procesa-

Es la etapa ms dispendiosa (re- Integracin de datos: Se

Reduccin de datos Resultados de

Integracin Seleccin de Consolidacin de

Figura 4. Ejemplo de aplicacin de C4.5

> 1.750 /23

> 1.550 < 1.550

Iris Versicolor Iris Virginica

Capa de Capa Capa de

Una segunda clasificacin es en 2. No supervisado o autoorganiza-

1. Redes analgicas: Procesan da- Mquinas de soporte

Figura 7. Resultados presentados en Wang y Yang, 2007.

Low Middle Middle Middle Location Middle

High Middle High

Especficamente, los resultados

Experiencias nacionales e interna-

BIBLIOGRAFA vila Flores, Jos Salvador (2005).

Blanco Cordero, Isidoro (1997). El

Fayyad, Usama, Piatetsky-Sha-

Esteban Talaya, gueda (2008).

LiuXuan, Zhang Pengzhu (2007).

Shijia Gao, Dongming Xu (2007). Yue, D., Wu, X. y Wang, Y. (2007). A

Crdenas Rojas, Liliam (2010). An- /33

Prez Lpez, Cesar y Santn Gonz-

También podría gustarte

Reportantes Volumen Anlisis financiero