La Mineria de Datos

APLICABILIDAD DE LA MINERA DE DATOS Y EL ANLISIS DE REDES SOCIALES EN LA INTELIGENCIA FINANCIERA
Bogot D.C.
2014
APLICABILIDAD DE
LA MINERA DE
DATOS Y EL ANLISIS
DE REDES SOCIALES
EN LA INTELIGENCIA
FINANCIERA
DOCUMENTOS UIAF
/1
Aplicabilidad de la minera de datos

y el anlisis de redes sociales
en la inteligencia nanciera
2014
Esta publicacin fue realizada por la Unidad de

Informacin y Anlisis Financiero (UIAF), Unidad
Administrativa Especial adscrita al Ministerio de
Hacienda y Crdito Pblico.
DIRECTOR GENERAL
Unidad de Informacin y Anlisis Financiero
Luis Edmundo Surez Soto
EQUIPO DE PRODUCCIN
/2
Unidad de Informacin y Anlisis Financiero

Este documento fue desarrollado por servidores
pblicos de la UIAF, con el soporte de un equipo interno de coordinacin editorial y bajo la direccin
del Director General y el Subdirector de Anlisis Estratgico.
CORRECCIN DE ESTILO, DISEO,

DIAGRAMACIN E IMPRESIN
Garca Solano y Compaa SAS - Caliche Impresores
Impresores Molher LTDA
De acuerdo con lo previsto en el Artculo 91 de la Ley 23 de 1982, los derechos

de autor del presente documento pertenecen a la Unidad de Informacin y
Anlisis Financiero (UIAF).
Queda prohibida cualquier reproduccin, parcial o total, del contenido de este documento sin la
autorizacin previa y escrita de la
UIAF. Los anlisis contenidos son
de carcter general y no hacen referencia ni constituyen prueba sobre vnculos ciertos y permanentes
de individuos con actividades asociadas al lavado de activos y financiacin del terrorismo.
/3
La UIAF no se responsabiliza por el

uso (accin u omisin) que haga
cualquier persona o grupo de personas de la informacin (total o
parcial) contenida en el texto.
ISBN:
978-958-58578-3-4
Primera edicin 2014, UIAF
/4
TABLA DE CONTENIDO
INTRODUCCIN
pag 8
1
2
3
4
5
EL MODELO SAB Y EL ANLISIS

CUANTITATIVO DE INFORMACIN
pag 10
ASPECTOS GENERALES
pag 14
ANTECEDENTES DE
LA MINERA DE DATOS
/5
pag 18
LA MINERA DE DATOS APLICADA AL

SISTEMA NACIONAL ANTILAVADO DE
ACTVOS Y CONTRA LA
FINANCIACIN DEL TERRORISMO
pag 23
ANLISIS DE REDES SOCIALES

pag 30
CONCLUSIONES
pag 43
/6
APLICABILIDAD
DE LA MINERA DE DATOS
Y EL ANLISIS DE REDES SOCIALES
EN LA INTELIGENCIA FINANCIERA
La estructura social se hace visible en un hormiguero; los movimientos y
contactos que uno ve no son aleatorios sino que siguen un patrn. Tambin
deberamos poder ver estructura en la vida de [cualquier] comunidad si
tuviramos un ngulo de vista suficientemente distante, desde el cual las
personas pareceran ser pequeos puntos en movimiento. Deberamos
ver que estos puntos no se acercan entre ellos aleatoriamente, que algunos
estn juntos regularmente, algunos se encuentran frecuentemente, algunos nunca. Si uno pudiera alejarse lo suficiente, la vida humana se convertira en puro patrn (Roger Brown, experto en redes sociales).
/7
INTRODUCCIN
/8
Las Unidades de Inteligencia Fi-
nanciera en todo el mundo se ven

enfrentadas a una labor altamente
compleja: detectar operaciones de
lavado de activos y financiacin
del terrorismo las cuales, por su
naturaleza ilegal, se ocultan deliberadamente del escrutinio pblico,
particularmente de los ojos de las
autoridades. Esta situacin motiva
el uso de nuevas tecnologas que
no se limitan a la visin tradicional
de hardware y software, sino que
incluyen todo mtodo que permita
aprovechar los recursos disponibles con el objetivo de identificar
actividades econmicas y financieras ilcitas.
Es as como al tomar en consideracin que uno de los activos ms valiosos con los que cuentan las UIF
es la informacin que centralizan,
es necesaria la implementacin de
herramientas idneas que aprovechen estos datos y extraigan conocimiento no trivial sobre la dinmica de las operaciones que realizan
los individuos. De esta forma ser
posible caracterizar el comportamiento usual de un grupo determinado de personas, naturales o
jurdicas, generando alertas ante
movimientos extraos.
Como se ver en el resto del documento, la minera de datos y el

anlisis de redes surgen como dos
metodologas relacionadas que
permiten aprovechar los grandes
volmenes de informacin disponibles para apoyar la investigacin
de Inteligencia Financiera; mediante la primera, se generan patrones
y tendencias para la caracterizacin de operaciones usuales e inusuales. Con la segunda, se logra
analizar las interrelaciones entre
individuos, capturando situaciones de riesgo.
Es importante mencionar que la
minera de datos y el anlisis de
redes se articulan en el modelo
de gestin Sistmico, Amplio y Bidireccional (SAB) de la Unidad de
Informacin y Anlisis Financiero
(UIAF), como un apoyo al proceso
de Inteligencia Financiera, el cual
se ve fortalecido por las posibilidades que estas dos metodologas
brindan (Surez - UIAF, 2014).
El objetivo de este documento es
presentar de manera sencilla los
instrumentos descritos brevemente en esta introduccin y las posibilidades que brindan a quienes
realizan procesos de produccin
de Inteligencia, para robustecer

la efectividad de los sistemas antilavado de activos y contra la financiacin del terrorismo y fundamentalmente destinados a generar
seales de alerta y puntos de partida para la deteccin de posibles
operaciones de lavado de activos o
financiacin del terrorismo.
/9
/10
01
EL MODELO SAB
Y EL ANLISIS
CUANTITATIVO DE INFORMACIN
El modelo de gestin Sistmico,
Amplio y Bidireccional (SAB)1, diseado y aplicado en la UIAF desde

noviembre de 2010, ha potencializado las capacidades de anlisis
y respuesta del Sistema Nacional
Antilavado de Activos y Contra la
Financiacin del Terrorismo (ALA/
CFT), a travs del fortalecimiento
tecnolgico y la implementacin
de nuevas herramientas que permiten el procesamiento oportuno
de los grandes volmenes de informacin que se centralizan en la
Unidad. En particular, el componente Amplio del modelo SAB, al
incorporar nuevas fuentes de informacin, propende por la creacin
de ms y mejores sensores2 que
aporten datos sobre la evolucin
de las diferentes actividades econmicas en las regiones del pas.
Sin embargo, con relacin a lo
anterior, ms datos no necesariamente se traducen en mayor conocimiento y mejores decisiones. Por
esto, es fundamental contar con
un mecanismo de anlisis basado
en herramientas adecuadas para
generar conocimiento no trivial sobre el fenmeno de inters, en este
caso, el lavado de activos y la financiacin del terrorismo (LA/FT).
En este contexto, bajo el modelo

SAB se crea la Plataforma de Inteligencia Econmica (PIE), basada en un conjunto de hardware y
software, utilizado bajo la ptica
de la Inteligencia Financiera y Econmica. Es as como se integra un
equipo humano con las capacidades necesarias para aprovechar estas herramientas, implementando
metodologas provenientes de las
Matemticas, Estadstica, Economa, Finanzas y el anlisis visual,
con el fin de mejorar el entendimiento de la amenaza y producir
mejores resultados en el Sistema
ALA/CFT.
En particular, las tcnicas de minera de datos y anlisis de redes
sociales de las cuales trata este
documento, identifican patrones,
tendencias y relaciones que no
son evidentes a simple vista y que
sirven para caracterizar transacciones inusuales que pueden estar relacionadas con LA o FT; adicionalmente, permiten establecer
vnculos entre individuos de inters para las autoridades y terceros
que de otra forma permaneceran
invisibles a los ojos del sistema
ALA/CFT.
1
Para conocer el contexto histrico, la estructura y los componentes del modelo SAB, consultar. Surez Soto, Luis Edmundo (2014). Las Unidades de Inteligencia
Financiera y el Sistema Antilavado de Activos y Contra la Financiacin del Terrorismo. Un Nuevo Modelo de Gestin: Sistmico, Amplio y Bidireccional. Segunda
edicin. Bogot: Unidad de Informacin y Anlisis Financiero (UIAF). https://www.uiaf.gov.co/index.php?idcategoria=20569
2
En relacin a ms sectores reportantes, cada vez ms conocedores del fenmeno de lavado de activos y financiacin del terrorismo (LA/FT).
/11
La aplicacin de estas tcnicas le

ha permitido a la UIAF optimizar
tiempo y recursos en el desarrollo
de la inteligencia financiera y, ms
importante an, robustecer la informacin y anlisis que produce
en apoyo a las autoridades competentes (como fuerzas del orden,
Fiscala General de la Nacin, entre
otros agentes), de acuerdo con las
posibilidades legales de cada uno.
Lo anterior reafirma el carcter
Amplio y Bidireccional del modelo SAB, al fortalecer la articulacin
entre los agentes del sistema, para
mejorar la efectividad de sus resultados.
/12
La estructura del modelo SAB,

desde la perspectiva de la recoleccin, manejo y procesamiento
de informacin con el soporte de
tecnologa y tcnicas de anlisis,
se resume en la Figura 1. Tener este
contexto presente, servir para una
mejor interpretacin de las tcnicas de minera de datos y anlisis
de redes, abordadas en este documento, con el fin de sintetizar y
difundir el conocimiento y la experiencia adquirida por la UIAF en
los ltimos casi cuatro aos, en el
desarrollo de uno de los principales pilares del modelo SAB: la integracin entre tecnologa avanzada
y recurso humano calificado, capaz
de producir conocimiento holstico
e interdisciplinario, en funcin de
la prevencin y deteccin del lavado de activos y la financiacin del
terrorismo.
*Volumen
*Velocidad
*Variedad
*Veracidad
Base de Datos
Politemticas
Mejoras en la Calidad de dos Reportes:

Crecimiento Continuo del Sistema ALA/CFT
Reportantes
*Entidades del estado
*Gremios
*Organismos internacionales
*Centros acadmicos
Ms y Mejores
Sensores
*Entender el Pasado
*Monitorear el Presente
*Anticipar el Futuro
*Anlisis financiero
*Anlisis econmico
*Anlisis matemtico
y Estadstico
*Anlisis visual
Ms Capacidades
de Deteccin y
Judicializacin:
Mejores
Resultados
Mejor
Entendimiento de
la Amenaza
Inteligencia
Financiera y
Econmica
Plataforma de
Inteligencia
Econmica
Figura 1. Modelo SAB

recoleccin, manejo y procesamiento de informacin
/13
/14
02
ASPECTOS
GENERALES
La necesidad de anlisis de datos
y extraccin automtica de conocimiento no implcito, deriv en

el nacimiento de una nueva disciplina denominada KDD (Knowledge Discovery in Databases). Con
el nacimiento de esta disciplina,
los datos pasan de ser el producto generado por los diferentes
procesos inherentes a la actividad
desarrollada a ser la materia prima, de forma que a partir de grandes volmenes de datos se extrae
conocimiento til que ayuda a
tomar decisiones en los mbitos
de donde fueron extrados. El proceso de KDD comprende diversas
etapas, desde la obtencin de los
datos hasta la aplicacin del conocimiento adquirido en la toma de
decisiones.
Una forma de visualizar el proceso

de extraccin del conocimiento,
se resume en las cuatro fases presentadas en la siguiente pgina,
Figura 2.
/15
Figura 2. Proceso de extraccin del conocimiento

1. PREPARACIN DE LOS DATOS:
SELECCIN, EXPLORACIN, LIMPIEZA
Y TRANSFORMACIN
2. MINERA DE DATOS - ANLISIS DE

REDES SOCIALES
3. EVALUACIN Y/O INTERPRETACIN

DE RESULTADOS
/16
4. DIFUSIN Y/O USO DE MODELOS
Preparacin de los datos

Seleccin: integracin y recopilacin de datos. Determinacin
de las fuentes de informacin que
pueden ser tiles, identificacin y
seleccin de variables relevantes
en los datos y aplicacin de tcnicas adecuadas de muestreo.
Exploracin: aplicacin de tcnicas de anlisis exploratorio de
datos, buscando la distribucin

de los datos, simetra, normalidad
y correlaciones existentes en la informacin.
Limpieza: depuracin de los datos respecto a faltantes y valores
errneos.
Transformacin: se produce la
transformacin de los datos, generalmente mediante tcnicas de
reduccin o de aumento de la dimensin y de escalado simple y

multidimensional.
Minera de datos
Se decide cul es la tarea a realizar
(clasificacin, agrupacin, otras)
y se elige la tcnica descriptiva
(clustering y segmentacin, escalamiento, reglas de asociacin y
dependencia, anlisis exploratorio, reduccin de la dimensin) o
predictiva (regresin y series temporales, anlisis discriminante,
mtodos bayesianos, algoritmos
genricos, rboles de decisin, redes neuronales).
Evaluacin e interpretacin
Expertos evalan y analizas los patrones y, si es necesario, se retorna
a las fases anteriores para una nueva iteracin.
Difusin
Se aplica el nuevo conocimiento
y se involucra a todos los posibles
usuarios.
/17
/18
03
ANTECEDENTES DE LA
MINERA DE DATOS
La minera de datos surge a prin-
cipios de los aos ochenta cuando la Administracin de Hacienda

de Estados Unidos desarroll un
programa de investigacin para
detectar fraudes en la declaracin
y evasin de impuestos, mediante
lgica difusa, redes neuronales y
tcnicas de reconocimiento de patrones. Sin embargo, su expansin
se produce hasta la dcada de los
noventa, principalmente debido a:

El incremento en la potencia de procesamiento de las computadoras, as como en la capacidad de almacenamiento.

El crecimiento de la cantidad de datos almacenados se ve
favorecido no solo por el abaratamiento de los discos y sistemas
de almacenamiento masivo, sino
tambin por la automatizacin de
trabajos y tcnicas de acopio de
datos (observacin con nuevas
tecnologas, entrevistas ms prcticas, encuestas por internet, etc.).

La aparicin de nuevos
mtodos y tcnicas de aprendizaje
y almacenamiento de datos, como
las redes neuronales, la Inteligencia Artificial y el surgimiento del almacn de datos - Data Ware House
(disponible en http://www.estadistico.com/arts.html).
La idea de minera de datos no es

nueva, ya que desde los aos sesenta los estadsticos manejaban
trminos como data fishing, minera de datos o data archaeology,
con el propsito de hallar correlaciones sin una hiptesis previa en
bases de datos. A principios de los
aos ochenta, Rakesh Agrawal, Gio
Wiederhold, Robert Blum y Gregory
Piatetsky-Shapiro, entre otros, empezaron a consolidar los trminos
de minera de datos y descubrimiento de conocimiento en bases
de datos. A finales de esa misma
dcada slo existan un par de empresas dedicadas a esta tecnologa. En el ao 2002, figuraban ms
de 100 empresas en el mundo que
ofrecan alrededor de 300 soluciones. Actualmente, existen reas
dedicadas a la minera de datos
dentro de un nmero amplio de
empresas a nivel global, ya que es
una herramienta ptima para obtener informacin valiosa e importante de manera rpida y eficaz, a
travs de procesos especializados
y sistemticos.
Una serie de avances en la tecnologa y los procesos de negocio han
contribuido al creciente inters en
la minera de datos en los sectores
/19
/20
pblico (deteccin de fraudes, residuos y medicin y mejora de programas) y privado (banca, seguros,
ventas, entre otros). Algunos de estos cambios incluyen el crecimiento de las redes de computadoras,
que se utilizan para conectar bases
de datos. El desarrollo de una mayor bsqueda de relaciones con
tcnicas como las redes neuronales y algoritmos avanzados, la propagacin de las aplicaciones cliente/servidor, permite a los usuarios
acceder a los recursos centralizados de datos desde el escritorio y
una mayor capacidad para combinar datos de diferentes fuentes
en una sola bsqueda (Ramrez y
Orallo, 2003).
Existen varias definiciones de minera de datos, entre ellas:

Es el proceso por el cual
generamos un modelo que sirva
para la prediccin. Este modelo se
genera a partir de los datos que se
encuentran en una base de datos
aplicndoles algn algoritmo que
construya el modelo (disponible
en
http://catarina.udlap.mx/u_
dl_a/tales/documentos/msp/gonzalez_r_l/apendiceC.pdf).

Es un proceso no trivial de
identificacin vlida, novedosa,
potencialmente til y entendible

sobre patrones comprensibles que
se encuentran ocultos en los datos
(Fayad et. al., 1996).

Es la integracin de un
conjunto de reas que tienen como
propsito la identificacin de un
conocimiento obtenido a partir de
las bases de datos que aporten un
sesgo hacia la toma de decisiones
(Fernndez y De Moya, 1996).

Es un mecanismo de explotacin, consistente en la bsqueda de informacin valiosa en
grandes volmenes de datos. Est
muy ligada a las bodegas de datos
que proporcionan la informacin
histrica con la cual los algoritmos
de minera de datos tienen la informacin necesaria para la toma de
decisiones.
La minera de datos es un proceso que invierte la dinmica del
mtodo cientfico, el cual consiste
en formular una hiptesis y luego
disear el experimento para confirmarla o refutarla; primero se
disea y realiza el experimento y
finalmente se obtiene el nuevo conocimiento (disponible en http://
exa.unne.edu.ar/depar/areas/informatica/SistemasOperativos/Mineria_Datos_Vallejos.pdf).
Las limitaciones de la minera de

datos son los primeros datos o datos puros, ms que la tecnologa
o herramientas para el anlisis. Es
decir, depende mucho de la limpieza de los datos y de la definicin
de las variables. Si los datos son
incorrectos, el modelo creado no
servir. Del mismo modo, la validez de los patrones descubiertos
depende de cmo se apliquen al
mundo real o a las circunstancias.
La minera de datos como enfoque
para el anlisis y descubrimiento
de la informacin o conocimiento
a realizar en grandes bases de datos, combina tcnicas como: estadstica (anlisis factorial, discriminante, regresivo, de correlaciones),
redes neuronales, sistemas expertos o basados en el conocimiento,
sistemas de reglas de induccin,
lgica difusa, algoritmos genticos,
algoritmos matemticos (teora de
fractales y del caos, simulacin).
La minera de datos es diferente de
la estadstica, ya que la segunda
consiste en desarrollar una hiptesis y probarla o refutarla a travs
de los datos obtenidos y revisados. La eficacia de este enfoque se
ve limitado por la creatividad del
usuario para desarrollar diversas
hiptesis, as como la estructura

del software que utiliza. La minera
de datos, por otra parte, utiliza un
enfoque de descubrimiento en los
algoritmos que son usados para
examinar varias relaciones en bases de datos multidimensionales
de manera simultnea e identificar
a aquellos que se presentan con
frecuencia (Esteban, 2008).
En la minera de datos casi nunca
se menciona el tiempo que se invierte en la limpieza y la verificacin
de los datos, as como la definicin
de las variables, pero este proceso
es muy importante ya que por lo regular las bases de datos contienen
informacin duplicada, a veces
errnea, superflua o incompleta. A
esto se le suman los errores por la
operacin de los sistemas.
La minera de datos hace referencia a un conjunto de algoritmos
que permiten la identificacin de
patrones tiles y novedosos que se
encuentran ocultos en grandes
bases de datos. Previo al desarrollo
de los modelos es necesario surtir
4 pasos contemplados por el KDD,
los que en adelante se describen.
/21
Entendimiento del problema: se

define la pregunta que se quiere resolver y se establecen los objetivos
especficos a trabajar.
Seleccin de datos: se determina
qu bases de datos pueden ser utilizadas para analizar el problema y
se consolidan los conjuntos de informacin.
Pre-procesamiento y limpieza:
se busca manejar los datos faltantes junto con los valores atpicos
que se identifiquen en las bases de
datos.
/22
Transformacin de datos: se
busca generar nuevos indicadores
que puedan ser ms representativos del fenmeno analizado o
contener mejor informacin que la
de las variables disponibles por s
mismas, tomando la informacin
acumulada hasta este momento.
Posteriormente, la minera de datos deber establecer el tipo de
investigacin a realizar de acuerdo
con las caractersticas de la informacin y los objetivos establecidos, eligiendo entre dos grandes
grupos: anlisis descriptivo y anlisis predictivo. Estas tcnicas no
son excluyentes, pueden comple-
mentarse en diferentes etapas del

estudio.
En el siguiente paso se selecciona
entre los algoritmos disponibles
el ms adecuado y se implementa
tomando en consideracin los supuestos y las restricciones de cada
mtodo. Los resultados obtenidos
se evalan en cuanto a su validez y
representatividad antes de llegar a
la etapa final de produccin.
El tiempo que se utiliza en el proceso KDD suele concentrarse en las
fases iniciales, particularmente en
lo relacionado con la recoleccin y
preparacin de los datos. Adems,
estas etapas pueden ser recursivas,
es decir, se retorna a ellas una y
otra vez (proceso iterativo), a medida que se obtienen resultados preliminares que requieren replantear
las variables de entrada.
/23
04
LA MINERA DE DATOS
APLICADA AL SISTEMA
NACIONAL ANTILAVADO DE ACTIVOS Y

CONTRA LA FINANCIACIN DEL TERRORISMO
Aplicados a los Sistemas Antila-
vado de Activos y Contra la Financiacin del Terrorismo (ALA/CFT),

los algoritmos descriptivos de la
minera de datos permiten encontrar grupos de personas, naturales
o jurdicas, que muestran un comportamiento atpico en lo relacionado con su manejo financiero y
econmico, al compararse con sus
semejantes. Los procedimientos
ms conocidos en esta parte, segn se recoge de Maimon y Rokach
(2010), son:
Algoritmos de agrupacin
/24
Conocidos como procedimientos de clustering, buscan generar

nuevos conjuntos a partir de los
datos analizados, tales que los individuos en un mismo grupo sean
similares y que, simultneamente,
cada grupo sea lo ms diferente
posible. Estos mtodos trabajan
con la distancia que hay entre cada
elemento y el centro de cada uno
de los grupos, asignando el individuo al grupo al cual se encuentre
ms cerca. La complejidad de estos algoritmos radica en la definicin de un criterio para establecer
distancias o similitudes y el procedimiento recursivo que se sigue
para conformar cada uno de los

grupos hasta satisfacer los criterios
establecidos. Entre estos mtodos se encuentran los jerrquicos
y computacionales, as como los
basados en particin, densidades,
modelos y cuadrculas.
Reglas de asociacin
Examinan todas las posibles combinaciones de caractersticas que
se dan en una base de datos y determinan la probabilidad con la
cual se configuran estos rasgos. A
manera de ejemplo, un individuo
se puede definir de acuerdo con
el tipo de persona (natural o jurdica), sector econmico, grupo
de frecuencia de transacciones y
relacin con una investigacin de
Inteligencia Econmica. Las reglas
de asociacin evalan todas las
posibles combinaciones de estas
caractersticas y determinan las
configuraciones ms probables.
Los modelos predictivos de minera de datos buscan obtener los
valores que tomar una variable de
inters en situaciones no observadas (el futuro, por ejemplo), en funcin de los valores que toman otras
series relacionadas. En el contexto
de la lucha ALA/CFT, este tipo de
algoritmos permiten establecer los

comportamientos del individuo relacionados con su judicializacin
por una actividad delictiva, o su inclusin en un caso de Inteligencia
Financiera o reporte de operacin
sospechosa (ROS). A continuacin,
se describen los mtodos ms reconocidos.
hasta llegar a los nodos terminales

donde se tiene la proporcin de individuos que estn en cada una de
las categoras que toma la variable
de inters. Se dispone de varios algoritmos para la generacin de rboles de decisin, entre los cuales
se cuentan ID3, C4.5, CART, CHAID
y QUEST.
rboles de decisin
Redes bayesianas
Un rbol de decisin es un modelo de clasificacin que divide

de manera recursiva un conjunto de anlisis buscando el mayor
grado de pureza entre los grupos
resultantes. En este caso, pureza
se entiende como la presencia representativa de una de las caractersticas que toma la variable de
inters (junto con la participacin
insignificante de la otra categora).
En todo rbol hay un nodo inicial
denominado raz, que contiene la
totalidad de la informacin. Este
grupo se subdivide en dos o ms
grupos que se denominan como
internos (si continan subdividindose) o terminales u hojas (si
no enfrentan ms segmentacin).
En un rbol de clasificacin cada
nodo interno se parte de acuerdo
con una funcin discreta sobre las
variables utilizadas para el anlisis
Este tipo de algoritmos, que comparten elementos de la inteligencia artificial, estadstica y probabilidad, pertenecen a los modelos
probabilsticos de grafos. Estos
estn definidos por un grafo donde existen nodos que representan
variables aleatorias junto con sus
enlaces, los cuales hacen referencia a dependencias entre estas variables. El xito de las redes bayesianas se debe a su habilidad para
manejar modelos probabilsticos
complejos al descomponerlos en
componentes ms pequeos y manejables. Se utilizan para investigar
relaciones entre variables y para
predecir y explicar su comportamiento al calcular la distribucin
de probabilidad condicional de
una variable, dados los valores de
otras series de inters.
/25
Mquinas de vectores
de soporte
/26
La tcnica de mquinas de vectores de soporte se desarroll con el

nimo de implementar los principios de la teora de aprendizaje estadstico para resolver problemas
de clasificacin y regresin en el
contexto del aprendizaje supervisado. En este contexto, aprendizaje se relaciona con la estimacin
de funciones a partir de un conjunto de ejemplos. Para esto, una
mquina de aprendizaje escoge
una funcin de un grupo de funciones, minimizando el riesgo de
que la funcin seleccionada sea
diferente de la funcin real (aunque desconocida). El riesgo est en
funcin de la complejidad del conjunto de funciones y el conjunto de
informacin disponible, as que el
algoritmo debe encontrar el mejor
conjunto de funciones dado por su
complejidad, y la mejor funcin en
ese conjunto.
Reglas de induccin
Una regla de induccin suele consistir de instrucciones del tipo Si
(caracterstica 1, atributo 1) y Si
(caracterstica 2, atributo 2) y y
Si (caracterstica n, atributo n) en-
tonces (decisin, valor), aunque se

pueden encontrar reglas ms complejas. La informacin utilizada por
este algoritmo es de carcter categrico, lo cual facilita en gran medida el procesamiento de los datos
y el entendimiento de los resultados. Los algoritmos utilizados por
las reglas de induccin son LEM1,
LEM2 y AQ.
Para aclarar los conceptos presentados hasta este punto, a manera de ejemplo, considrense los
reportes sobre transacciones en
efectivo. Esta informacin conforma una base de datos con las transacciones en efectivo que realizan
las personas, naturales y jurdicas,
siempre que estas cumplan con las
condiciones establecidas por las
autoridades respectivas.
Entre las variables disponibles es
usual encontrar la fecha y el valor
de cada movimiento, con lo cual
se puede construir una tabla con
el valor total, valor promedio mensual y frecuencia de transacciones
para cada una de las personas
relacionadas. Hasta aqu, se han
surtido de manera sencilla las primeras etapas del proceso de KDD:
a. entendimiento del problema, b.
seleccin de datos, c. pre procesa-
miento y limpieza y d. transformacin de datos. Ahora es posible generar un modelo descriptivo para
encontrar grupos de individuos
con un comportamiento similar, de
acuerdo con las variables mencionadas anteriormente. Los grupos
menos representativos en trminos de cantidad de personas sern
los que relacionan a los individuos
ms atpicos, que son los mismos
que pueden llegar a priorizarse
para un anlisis ms detallado que
confirme o descarte un manejo
sospechoso del efectivo.
En cuanto a los modelos predictivos, la misma base de datos puede
complementarse con la informacin sobre cules de estos individuos han estado inmersos en un
anlisis de Inteligencia Financiera.
En este caso se puede utilizar un
modelo como, por ejemplo, un rbol de clasificacin, con el nimo
de determinar qu caractersticas
del efectivo se asocian con el hecho de estar o no en un caso. Los
resultados del algoritmo de clasificacin son como se muestran en la
Figura 3.
/27
Figura 3. Posibles resultados del rbol de decisin
Base de datos de
transacciones en efectivo
Casos: 20%
No casos: 80%
Poblacin: 100%
Caracteristica 2
Valor total
Caracteristica 1
Valor total
Casos: 2%
No casos: 98%
Poblacin: 45%
Caracteristica 1
Frecuencia
Casos: 6%
No casos: 94%
Poblacin: 9%
Casos: 35%
No casos: 65%
Poblacin: 55%
Caracteristica 3
Frecuencia
Caracteristica 2
Frecuencia
Casos: 12%
No casos: 88%
Poblacin: 8%
Caracteristica 3
Valor promedio
/28
Casos: 1%
No casos: 99%
Poblacin: 15%
Como se puede observar, se inicia

con la base de datos completa, la
cual tiene 20% de individuos con
casos de Inteligencia Financiera. La primera divisin se efecta
respecto al valor total transado
por cada persona, generando dos
grupos: el primero, basado en la
caracterstica 1 del valor total de
los movimientos en efectivo, tiene
tan solo 2% de casos, mientras que
Casos: 46%
No casos: 54%
Poblacin: 38%
Caracteristica 2
Valor promedio
Casos: 74%
No casos:26%
Poblacin: 23%
el segundo, de acuerdo con la caracterstica 2 del valor total de transacciones, muestra sujetos con un
35% de ocurrencia de casos.
La segunda subdivisin se hace
respecto a las caractersticas 1, 2 y
3 de la frecuencia de transaccin.
En el ltimo paso se segmenta segn el valor promedio del movimiento en efectivo, consiguiendo
dos grupos, uno de los cuales tiene

74% de individuos con casos de
Inteligencia Financiera. De esta forma, se puede concluir que las personas con valor total, caracterstica
2, frecuencia caracterstica 3 y valor
promedio mensual caracterstica 2,
tienen un 74% de probabilidad de
estar involucrados en un caso de
Inteligencia Financiera, lo cual los
hace ms riesgosos desde el punto
de vista del lavado de activos (LA) y
la financiacin del terrorismo (FT).
El sistema ALA/CFT puede beneficiarse en gran medida de la implementacin de la minera de datos
ya que esta le permite enfocar sus
recursos escasos en la identificacin y anlisis de los individuos
ms riesgosos, tomando en cuenta
su comportamiento econmico y
financiero. Adicionalmente, la implementacin de esta tecnologa
en las UIF consigue un monitoreo
ms completo que no se puede articular en el resto del sistema por
la fragmentacin inherente a la informacin que reposa en cada entidad. Aunque el objetivo ms evidente es utilizar las capacidades de
la minera de datos para la deteccin de operaciones sospechosas,
tambin permite generar conocimiento sobre el fenmeno de LA/
FT que apoye la labor del sistema,
propendiendo por la seguridad del
sistema econmico nacional.
Por ltimo, es recomendable que

las Unidades de Inteligencia Financiera (UIF) implementen los mecanismos descritos en esta seccin,
en la medida de sus posibilidades
econmicas, tcnicas y jurdicas,
para conseguir un accionar complementario, que puede resultar
ms eficiente y eficaz en contra de
los recursos generados por las actividades delictivas a nivel mundial.
/29
/30
05
ANLISIS
DE REDES SOCIALES
El Anlisis de Redes Sociales
(ARS) es una tcnica que permite estudiar y representar grficamente las relaciones establecidas
entre determinadas unidades interactuantes junto con la estructura que estas determinan. Dicha
tcnica puede ser utilizada bajo
dos tipos de enfoque: exploratorio
y confirmatorio. El primero abarca
la visualizacin y manipulacin de
la informacin, mientras que el segundo consiste en pruebas de hiptesis y distribuciones de probabilidad. Debido a que esta tcnica
se enfoca en el estudio de las interacciones entre dichas Unidades,
es posible el descubrimiento de
patrones sobre el comportamiento estructural de sus relaciones, lo
cual trasciende a la red social frente al conjunto de sus partes, puesto
que el valor de la informacin que
tiene la red como tal, es mayor que
la suma de los valores individuales
de sus partes. No obstante, ms
all de la actual tendencia a la diseminacin de informacin por
medio de las redes sociales de internet (Facebook, Twitter, MySpace, LinkedIn, Google+, entre otras)
y su crecimiento exponencial tanto
en nmero de usuarios como en
frecuencia de uso, las redes socia-
les son una forma de representar

una estructura social, compuesta
por una serie de agentes y sus relaciones. Esta perspectiva est respaldada como un concepto terico
perteneciente a las ciencias sociales, especficamente a la sociologa
y la antropologa.
Aparte de la representacin grfica de los actores y sus vnculos
(la cual revela una estructura implcita inicialmente desconocida)
y en virtud del objeto misional de
las UIF, es deseable que el fruto de
dicho anlisis sea tal que permita
el desarrollo de estrategias para la
desarticulacin de organizaciones
dedicadas a efectuar operaciones
de lavado de activos y/o financiacin del terrorismo (LA/FT). Para
ello, dentro del anlisis exploratorio es posible calcular indicadores
que proporcionen informacin sobre las caractersticas principales,
tanto de la red como de sus agentes, los cuales ofrecen el soporte
necesario para encaminar esfuerzos hacia los actores estratgicos
de una organizacin, ya sea por el
manejo de recursos econmicos
y/o flujo de informacin y poder,
entre otros. Sin embargo, el resultado del clculo de esos indicadores est sujeto a la interpretacin
/31
del analista y a los lmites que este

establezca para su anlisis, puesto que la escogencia de los datos
y las relaciones all representadas
dependen de la intencin de cada
estudio y de las expectativas que
este genere. En consecuencia, es
necesario contextualizar de manera clara, concreta y objetiva cada
estudio, entendiendo que se deben escoger cuidadosamente las
relaciones objeto de anlisis y establecer lmites claros que determinen el inicio y el final de una red,
en aras de enfocar esfuerzos hacia
las estructuras realmente relevantes.
/32
En esta seccin se presentan los

fundamentos y la terminologa
presentes en el ARS, as como las
formas de representacin utilizadas para visualizar la informacin
de la red. Seguidamente, se enumeran las propiedades bsicas
tanto de los actores como de las
redes, junto con su interpretacin.
A continuacin, se relacionan los
primeros conceptos que incluyen
subconjuntos de actores y sus
vnculos, estableciendo distancias
entre ellos y conceptos similares.
Posteriormente, se discute sobre la
conectividad de la red para continuar con el estudio de sus estruc-
turas locales, seccin que culmina

en el estudio estructural de las
relaciones presentes. Finalmente, se presentan algunas medidas
de centralidad sobre la estructura
determinada por los actores y sus
relaciones, para terminar con un
ejemplo hipottico en el que se
incluyen varios de los conceptos
mencionados a lo largo del captulo. En este ejemplo, enmarcado
dentro del objeto misional de las
UIF, se presenta la aplicacin del
ARS como una herramienta de Inteligencia, de manera que permita
generar conocimiento til acerca
de las entidades objeto de estudio.
1
Fundamentos,
terminologa y
representacin
La generacin de conocimiento
permite a las instituciones establecer lineamientos misionales
desde una perspectiva estratgica.
Para ello, se cuenta con analistas

que agregan valor a la informacin
objeto de estudio y elaboran informes que a su vez son consumidos
por las juntas directivas en aras de
tomar decisiones, cuyo impacto favorezca a la entidad. El ARS ofrece
una panormica alternativa para
estudiar comportamientos de determinadas entidades dadas sus
relaciones, identificando actores
clave en su estructura relacional y
caractersticas propias de la misma, lo cual se traduce en directivas
enfocadas en el beneficio institucional.
Si bien la terminologa utilizada
dentro de este tipo de estudios es
sencilla, vale la pena precisar los
elementos que se estudian bajo el
ARS desde su fundamento terico
matemtico, es decir, la teora de
grafos. Un grafo se define como un
conjunto de vrtices que representan unidades interactuantes junto con un conjunto de aristas que
conectan pares de ellos entre s,
representando a su vez la existencia de una relacin. Dichos vrtices
(nodos, agentes, actores) pueden
corresponder a personas, telfonos, ciudades, organizaciones, pases, entre otros, mientras que las
mencionadas aristas (enlaces,
vnculos, arcos, conexiones) estn

directamente asociadas con el tipo
de relacin presente entre el par
de vrtices que conectan. Dichas
aristas pueden tener una direccin
o no tenerla. Si no la tienen, se entiende que la relacin representada por esa arista no es de carcter
direccional, mientras que si la tienen, significa que dicha relacin es
direccional, es decir, tiene origen y
destino.
Consecuentemente, si una arista
conectando los vrtices A y B representa el vnculo generado entre
esos vrtices dada su pertenencia
a la misma sociedad (club, organizacin, empresa), no es posible
establecer origen ni destino, por lo
tanto se dice que esa arista no es
dirigida. En contraste, una arista
tiene direccin cuando la relacin
entre los vrtices que conecta est
descrita en trminos de origen y
destino. Por ejemplo, si la arista
que conecta los vrtices A y B representa una llamada telefnica
o una consignacin bancaria, se
entiende que en ambos casos hay
un origen (quien llama o quien
consigna) y un destino (a quien llaman o a quien le consignan), por
consiguiente, AB es diferente de
BA, razn por la cual se dice que
/33
la arista es dirigida. Sin embargo,

un par de aristas entre los mismos
vrtices, pero cuya direccin es
opuesta, son tratadas de manera
independiente en lugar de tratarse como una arista bidireccional,
caso diferente a una arista no dirigida. Esto debido a que el carcter direccional de un grafo es para
todas las aristas, lo cual separa los
grafos en dos tipos: dirigidos y no
dirigidos.
/34
Adicional a la posibilidad de representar una direccin, cada arista

puede tener asociado un valor
numrico. Este recibe una connotacin de peso o costo y se presta
para incluir otra dimensin de anlisis asociada propiamente a la relacin que dicha arista representa.
Por su parte, el tamao de los vrtices tambin sirve para representar
alguna caracterstica de la entidad
que representan. Por ejemplo, en
un grafo que represente las llamadas telefnicas realizadas entre
miembros de una organizacin, el
peso asignado a las aristas puede
asociarse con la duracin de esas
llamadas, mientras que el valor de
los vrtices puede representar el
nmero acumulado de llamadas
realizadas o recibidas.
Ahora bien, existen dos maneras

ampliamente usadas para plasmar la data de una red social: una
matriz y un grafo3. En la Figura 4 se
pueden observar tanto la matriz
como el grafo. Respecto a la matriz,
las relaciones se establecen desde
la fila i hacia la columna j, mientras
que el grafo resume dicha informacin en una imagen. Ntese que
la fila correspondiente al vrtice A
tiene dos valores: 1 en la columna
B y 2 en la columna C, lo cual se traduce en las dos aristas originadas
en el vrtice A, una hacia B, con un
peso valuado en 1, y otra hacia C,
con un peso valuado en 2. Si bien
ambos tipos de representacin
provienen de la misma data, se
debe recalcar que el grafo posee
una estructura que no es revelada
en la matriz, razn por la cual resulta ms til en aras de optar por una
visualizacin resumida, concreta e
informativa.
3
Para evitar ambigedades, es necesario diferenciar entre la definicin matemtica de grafo (conjunto de vrtices y aristas) y su representacin grfica, tambin
conocida como grafo. Es decir, la palabra grafo hace referencia tanto al dibujo como al ente matemtico. Debido a su uso constante y al alcance de este texto,
el uso de la palabra grafo en adelante har referencia a la representacin grfica del ente matemtico.
Figura 4. Dos maneras de

representar un grafo dirigido
3
B
2
A
B
C
A
0
0
0
B
1
0
3
C
2
2
0
2
Propiedades
bsicas de las
redes y sus actores
Una vez entendido el contexto y
delimitado el objeto de anlisis, los
actores y la misma red se pueden
caracterizar por las propiedades
enumeradas a continuacin.
Tamao de la red: se determina en trminos del nmero

de aristas o del nmero de nodos,
siendo este ltimo crtico para la
estructura de la red a causa de los
recursos limitados que cada actor
pueda tener destinados a la construccin y el sostenimiento de sus
vnculos.
Densidad de la red: es el
nmero de vnculos de la red expresado como una proporcin del
nmero total de vnculos posibles.
En una red dirigida de tamao n,
el nmero de vnculos posibles es
n(n-1), mientras que en una red
no dirigida del mismo tamao, el
nmero de vnculos posibles es
n(n-1)/2. Esta medida genera conocimiento acerca de fenmenos
como la velocidad a la cual se difunde informacin entre los nodos
o la conectividad de la red.
Grado de los actores: en
una red no dirigida, esta media es
el nmero de vnculos que tiene
determinado nodo, mientras que
en una red dirigida hay que distinguir entre los vnculos que llegan
(grado de entrada) y los que salen
(grado de salida), medida asociada
a la influencia que un actor puede
tener.
/35
3
Distancia social
y conceptos
relacionados
/36
Dado que las conexiones de los vecinos sociales de un determinado

actor eventualmente pueden llegar a ser importantes, incluso si el
actor no est directamente conectado a ellos, vale la pena analizar
distancias sociales y otros conceptos que revelan informacin sobre
dichas relaciones.

Distancia entre actores:
nmero mnimo de aristas que hay
al ir de uno a otro.

Recorrido (walk): secuencia de actores y vnculos que comienza y termina con actores. Puede ser cerrado (si inicia y termina
en el mismo actor) y no son restringidos. Tambin pueden incluir al
mismo actor o a la misma arista en
mltiples ocasiones, razn que los
convierte en la forma ms general
de conexin entre dos actores.

Ciclo: es una camino cerrado de 3 o ms actores diferentes
excepto por el actor origen/destino.

Camino (trail): cualquier
recorrido en el que una relacin es
incluida una sola vez.

Ruta (path): recorrido en el
que cada actor es incluido una sola
vez.

Excentricidad de los actores: para cada actor se puede
calcular la distribucin de las mnimas distancias al resto de actores.
De stas, la mayor se denomina
excentricidad y mide qu tan lejos
est un actor de su contraparte
ms lejana.

Dimetro y radio de la red:
el primero es la mxima excentricidad entre todos los actores de
la red y da el nmero de pasos
suficientes para ir desde cualquier
nodo a cualquier otro, y el segundo
es la mnima excentricidad entre
todos los actores de la red.
Conectividad y
accesibilidad
Estructuras locales
en redes
La existencia de una ruta entre nodos establece la accesibilidad. En

trminos ms simples, un actor es
accesible para otro si existe un conjunto de conexiones por medio de
las cuales se puede ir desde el origen hacia el destino. Por su parte,
la conectividad es una propiedad
de la red, en vez de pertenecer a
sus actores individuales. Si es posible establecer una ruta desde cualquier actor hacia cualquier otro, se
dice que la red es conectada, de lo
contrario la red es desconectada.
Un componente es el mximo conjunto de nodos que estn conectados, es decir, todos los nodos en
un subgrafo que son alcanzables
desde todos los otros nodos de ese
subgrafo.
Hasta este punto se han presentado herramientas y conceptos para

examinar las formas en que se conectan los individuos y las distancias entre ellos. A continuacin se
analiza este mismo concepto de
conectividad, pero desde otro enfoque: el estudio de la estructura
social, ms all del de los individuos.
Diadas y reciprocidad. La
estructura social ms pequea en
la que puede estar embebido se
denomina diada (par de actores).
Para vnculos binarios (ausencia o
presencia) hay dos posibilidades
para cada par de nodos en la red:
o ambos tienen vnculo o ninguno
lo tiene. Si se considera el caso de
relaciones dirigidas, hay tres tipos
de diadas: sin vnculo, uno hacia el
otro y los dos unidos el uno al otro
(reciprocidad). Un anlisis poten-
/37
/38
cialmente interesante es estudiar

la proporcin de la poblacin que
es caracterizada por vnculos recprocos, lo cual puede dar indicios
sobre el grado de cohesin, la confianza y el capital social presente.
Triadas y transitividad. Las
estructuras sociales conformadas
por tres actores se denominan
triadas y permiten un rango ms
amplio de posibles conjuntos de
relaciones. Con data representada
como redes dirigidas, existen 64
tipos de relaciones posibles entre
tres actores especficos, incluyendo relaciones que exhiben jerarqua, igualdad y la formacin de
grupos exclusivos, lo cual se presta
para un anlisis potencialmente
interesante estudiando la proporcin de triadas que son transitivas,
es decir, que muestran cierto equilibrio donde, si AB y BC, entonces AC.
Cliqu. Es un subconjunto
de vrtices, tal que cada par de vrtices del subconjunto est conectado por medio de una arista; por
ende, todo miembro de un grupo
de gente en un cliqu social conoce a todos los dems.
Agrupacin (clustering).
El fenmeno del mundo pequeo
ha sido propuesto por varios autores y no deja de sorprender por su
simpleza. Por un lado, la distancia

promedio entre dos nodos es relativamente pequea6, por otro, la
mayora de actores reside en vecindarios o barrios de carcter local,
donde muchos de ellos estn conectados entre s. Lo anterior implica que una gran proporcin del
nmero total de vnculos presentes
en redes grandes se encuentra altamente conglomerada en vecindarios locales. Bsicamente, esto
se puede resumir en que la mayora de las personas que conocemos
pueden tambin conocerse entre
ellas, localizndonos en un mundo pequeo donde podemos estar
a muy corta distancia de un vasto
nmero de personas que ni siquiera conocemos. Esta propiedad se
puede cuantificar por medio de
un coeficiente de conglomeracin,
definido para un nodo, como la razn del nmero de vnculos entre
sus vecinos, al mximo nmero posible de esos vnculos (en terminologa de redes, esto se traduce en,
cuntos de mis amigos son amigos
entre s). Para nodos con menos
de dos vecinos, este coeficiente es
indeterminado. Ms an, este concepto se puede extender a toda la
red, si su clculo se promedia sobre todos sus nodos.
4
Como ejemplo de esto, se sugiere investigar el fenmeno de los seis grados de separacin. Incluso, esta teora inspir una pelcula de 1993 denominada Six
Degrees of Separation.
6
Medidas de
centralidad
La centralidad de un nodo en una
red es una medida de su importancia estructural, por ejemplo,
qu tan importante es un servidor
entre una red de cmputo, cun
importante es una avenida entre
una red urbana, entre otros factores. Dada la subjetividad del trmino importancia, no sorprende
que haya varias medidas de centralidad en teora de grafos. Si bien
todas ellas estn dirigidas a cuantificar la prominencia de un actor
embebido en la red, difieren en los
criterios utilizados para ello.

Centralidad de grado (Degree centrality). Entre ms vnculos
tenga un determinado actor, ms
importante resulta ser. Vale la pena
anotar que para el caso de los grafos dirigidos, existen dos tipos de
medidas diferentes: grado de entrada y grado de salida, las cuales
identifican actores de alto prestigio

y actores influenciables, respectivamente.

Centralidad de cercana
(Closeness centrality). Entre ms
actores pueda alcanzar determinado actor por medio de caminos
cortos, tendr mayor acceso a los
dems y por ende una posicin favorecida.

Centralidad de intermediacin (Betweenness centrality).
Estar en medio de la mayora de
los caminos cortos de los dems
actores hace a determinado actor
central.

Centralidad de vector propio (eigenvector centrality). Tener
vnculos con los actores ms importantes, teniendo en cuenta los
criterios anteriores, hace a un determinado actor relevante.
Ejemplo ilustrativo: consignaciones en cheque entre organizaciones pertenecientes a un grupo empresarial.
Se quiere utilizar el ARS para entender las caractersticas de la estructura de pagos realizados en cheque
por diez organizaciones que pertenecen al mismo grupo empresarial, asumiendo que la informacin
inicial reside en una base de datos
/39
con los siguientes campos: origen

(corresponde al identificador del
girador), destino (al del beneficiario) y valor (en cualquier moneda
local y al monto del cheque). En
esa base de datos cada registro
corresponde a un solo cheque, es
decir, que si una entidad ha girado
dos cheques al mismo beneficiario, existen dos registros (uno para
cada cheque). Para este ejemplo,
aleatoriamente se ha definido el
tamao de la base: 1.681 registros
(cheques).
yormente relacionado con otros

actores altamente activos o conectados. En la Tabla 1 se resumen estos indicadores para todos los nodos y sus respectivos montos.
Figura 5.
Consignaciones en cheque
entre un grupo de
10 empresas
3
65
60
10
/40
61
70
69
92
70
56
88
51
84
En la Figura 5 se presenta el grafo

que representa la red estudiada. El
tamao de los vrtices corresponde, en proporcin, al dinero total
que ha sido girado por cada empresa mientras que el nmero que
acompaa a cada una de las aristas corresponde al nmero de cheques girados por el origen hacia el
destino. Por su parte, los vrtices
coloreados corresponden a los actores ms importantes, dada sus
posiciones en la red. Dicha importancia surge directamente de una
medida de centralidad diferente
para cada color: rojo, actor con
mayor intermediacin; amarillo,
actor con mayor nmero de vnculos; cian, actor con mayor acceso al
resto de la red; y verde, actor ma-
76
51
69
83
99
53
89
Es de notar que el actor 4 es importante debido a que tiene el mayor

nmero de relaciones. Por su parte, el actor 2 posee una posicin
privilegiada en el flujo de recursos
puesto que es el nodo que ms intermedia en los caminos posibles
de los dems nodos, por ende puede arbitrar en el flujo de recursos
o informacin. Seguidamente, el
actor 6 posee una posicin estratgica que le permite acceder a los
dems nodos con mayor facilidad,
lo cual resulta til en trminos de
proliferacin de rdenes o direc-
tivas. Por ltimo, el actor 3 ostenta tener relaciones con los actores ms
importantes. Segn los criterios anteriores, se relaciona con los actores 2,
3 y 6.
Con la informacin mencionada anteriormente, se identifican los actores
ms importantes en la red con el fin de establecer estrategias para su desarticulacin, entendiendo que el contexto de este ejemplo lo enmarca en
alguna actividad sospechosa o reporte que involucra a alguna de esas entidades y su entorno.
Tabla 1. Resumen de los indicadores calculados en el ARS para

el ejercicio ilustrativo
Actor Monto[$] Intermediacin Grado Grado
In
1
4783,18 10,50
5
3
2
5120,39 18,00
6
2
3
4359,61 3,83
5
4
4
5223,76 15,17
8
5
5
3264,86 17,00
4
2
6
5609,14 9,67
6
2
7
4709,55 0,00
3
0
Grado
Out
2
4
1
3
2
4
3
Cercana Eigenvector
0,3680
0,4335
0,3079
0,2968
0,3275
0,4423
0,3932
0,0478
0,1874
0,2485
0,1852
0,0899
0,0206
0,0000
8
9
10
2
1
2
0,2682
0,2417
0,3398
0,1817
0,0389
0,0000
5875,45
5625,82
3849,74
2,33
3,50
0,00
6
3
2
Con la utilizacin del ARS como

herramienta de apoyo para el desarrollo de casos de Inteligencia
financiera operativa, las UIF estn
en capacidad de inferir el rol que
desempean agentes cruciales en
determinado caso y de establecer
los vnculos que estos pudiesen
4
2
0
tener. Lo anterior con base en la informacin que estas entidades sistematizan y centralizan, lo cual es
de gran aplicabilidad en trminos
de prevencin y deteccin de operaciones de LA/FT. En este sentido,
el valor agregado del ARS radica
principalmente en el carcter rela-
/41
cional bajo el cual se desempean

los actores sociales, junto con la
capacidad para encontrar agentes
que bajo los mtodos tradicionales de anlisis, no sera posible o
llevara mucho tiempo identificar,
ampliando as el panorama inicial
de anlisis.
Por otra parte, la utilizacin del ARS
en la lucha contra estructuras criminales permite obtener informacin y generar conocimiento til en
aras de desarticular dichas organizaciones, razn por la cual se convierte en parte activa y productiva
del sistema ALA/CFT. No obstante,
el ARS pertenece a una nueva rama
/42
de la ciencia conocida como ciencia de redes, a partir de la cual una

gran variedad de investigadores
aportan conocimiento desde su
especialidad. Consecuentemente,
toda la rigurosidad de la ciencia
junto con su metodologa de anlisis, puede ser de utilidad para cualquier UIF, incluyendo simulaciones
computacionales y estudios de redes complejas, entre otros.
CONCLUSIONES
Para cumplir con su labor en la lucha contra el lavado de activos y

la financiacin del terrorismo, las
Unidades de Inteligencia Financiera (UIF) pueden y deben optimizar
el uso de la informacin que centralizan con respecto a las diversas transacciones econmicas y
financieras que ocurren dentro de
su zona de operacin. Para esto,
la minera de datos y el anlisis de
redes sociales se configuran como
herramientas idneas, dada su capacidad de procesar y extraer conocimiento de grandes volmenes
de datos.
En particular, mediante la minera
de datos es posible extraer patrones sobre los comportamientos tpicos de los individuos, los cuales
permiten caracterizar operaciones
extraas que merecen una investigacin de Inteligencia Financiera ms detallada. Por su parte, el
anlisis de redes sociales consigue
investigar una dimensin que de
otra forma suele no considerarse:
la de las relaciones y vnculos entre las personas. La combinacin
de estas dos herramientas otorga a
las UIF grandes posibilidades para
apoyar sus anlisis de inteligencia,
potencializando sus esfuerzos en la
lucha contra el lavado de activos y
/43
la financiacin del terrorismo, tal

como la ha demostrado la experiencia de la UIAF, a partir del diseo e implementacin del modelo
de gestin Sistmico, Amplio y Bidireccional (SAB), uno de cuyos pilares principales, es la integracin
entre tecnologa avanzada, tcnicas de anlisis y talento humano
especializado.
GLOSARIO
Actor/Nodo/Vrtice/Agente:
entidades sociales como personas,
organizaciones, ciudades, entre
otros.
/44
Vnculo/Enlace/Borde/Lnea/Arco:
representan relaciones entre actores.
Dada: consiste en un par de actores y el (los) posible(s) vnculo(s)
entre ellos.
Trada: subconjunto de tres actores
y los posibles vnculos entre ellos.
Subgrupo: subconjunto de actores
y todos los vnculos entre ellos.
Grupo: coleccin de todos los actores sobre los cuales se miden los
vnculos.
Relacin: coleccin de vnculos de

un tipo especfico entre miembros
de un grupo.
Red social: conjuntos o conjunto
finito de actores y la relacin o las
relaciones definidas entre ellos.
BIBLIOGRAFA
FUENTES
ACADMICAS
Esteban Talaya, gueda. Principios de
marketing. ESIC Editorial.
Fernndez Molina, Juan Carlos y De
Moya Anegn, Flix (1998). Los catlogos de acceso pblico en lnea: el
futuro de la recuperacin de informacin bibliogrfica. Mlaga: Asociacin
Andaluza de Bibliotecarios.
Gentleman, Robert, Kurt Hornik y Giovanni Parmigiani (2011). Data Mining
with Rattle and R. Springer. Nueva
York: Estados Unidos.
Maimon, Oded y Lior Rokach (2010).
Data Mining and Knowledge Discovery
Handbook. Segunda Edicin. Springer.
Nueva York: Estados Unidos.
Ramrez Quintana, Mara Jos y Hernndez Orallo, Jos (2003). Extraccin
Automtica de Conocimiento en Bases de Datos e Ingeniera del Software.
Espaa. Tambin, Fernando Virseda
Benito y Javier Romn Carrillo (ao).
Minera de datos y aplicaciones. Espaa: Universidad Carlos III.
Surez Soto, Luis Edmundo (2014). Las
Unidades de Inteligencia Financiera
/45
y el Sistema Antilavado de Activos y

Contra la Financiacin del Terrorismo.
Un Nuevo Modelo de Gestin: Sistmico, Amplio y Bidireccional. Segunda
edicin. Bogot: Unidad de Informacin y Anlisis Financiero (UIAF).
FUENTES
ELECTRNICAS
Artculos estadsticos.
http://www.estadistico.com/arts.
html.
/46
Cruz Arrela, Liliana. Minera de

datos con aplicaciones. Universidad Nacional Autnoma de Mxico, 2010.
http://132.248.9.195/
ptd2010/abril/0656187/0656187_
A1.pdf.
Fayyad, Piatetsy- Shapiro, Smyth y
Uthurusamy eds. In Advances in
Knowledge Discovery and Data Mining. AAAI Press, Menlo Park, California, pp. 1-34, 1996. http://www.
kdnuggets.com/gpspubs/ aimagkdd-overview-1996-Fayyad.pdf
Izquierdo, L.R. y Hanneman R.A.
Introduction to Formal Social Networks Analysis Using Mathematica. Publicado en formato digital
en http://www.luis.izquierdo.name
(2006)
Minera de datos.
http://catarina.udlap.mx/u_dl_a/
tales/documentos/msp/gonzalez_r_l/apendiceC.pdf
Perez Lpez, Cesar y Santn Gonzlez, Daniel. Minera de datos:
conceptos, tcnicas y sistemas.
2007.
https://www.google.com.co/search?hl=es&tbo=p&tbm=bks&q=isbn:8497324927
Toledano Muoz, Mara Jos.
http://datamining.iespana.es/dataminig_enfoque.html
Trabajo de adscripcin minera de
datos.
Universidad Nacional del Nordeste, Sofa J. Vallejos.
http://exa.unne.edu.ar/depar/
areas/informatica/SistemasOperativos/Mineria_Datos_Valle-jos.pdf
APLICABILIDAD DE LA MINERA DE DATOS Y EL ANLISIS DE REDES SOCIALES EN LA INTELIGENCIA FINANCIERA
Bogot D.C.
2014
APLICABILIDAD DE
LA MINERA DE
DATOS Y EL ANLISIS
DE REDES SOCIALES
EN LA INTELIGENCIA
FINANCIERA
DOCUMENTOS UIAF

La Mineria de Datos

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

La Mineria de Datos

Cargado por

Copyright:

Formatos disponibles

APLICABILIDAD DE LA MINERA DE DATOS Y EL ANLISIS DE REDES SOCIALES EN LA INTELIGENCIA FINANCIERA

Aplicabilidad de la minera de datos

Esta publicacin fue realizada por la Unidad de

Unidad de Informacin y Anlisis Financiero

CORRECCIN DE ESTILO, DISEO,

De acuerdo con lo previsto en el Artculo 91 de la Ley 23 de 1982, los derechos

La UIAF no se responsabiliza por el

EL MODELO SAB Y EL ANLISIS

LA MINERA DE DATOS APLICADA AL

ANLISIS DE REDES SOCIALES

Las Unidades de Inteligencia Fi-

nanciera en todo el mundo se ven

Como se ver en el resto del documento, la minera de datos y el

de Inteligencia, para robustecer

El modelo de gestin Sistmico,

Amplio y Bidireccional (SAB)1, diseado y aplicado en la UIAF desde

En este contexto, bajo el modelo

La aplicacin de estas tcnicas le

La estructura del modelo SAB,

Mejoras en la Calidad de dos Reportes:

Figura 1. Modelo SAB

La necesidad de anlisis de datos

y extraccin automtica de conocimiento no implcito, deriv en

Una forma de visualizar el proceso

Figura 2. Proceso de extraccin del conocimiento

2. MINERA DE DATOS - ANLISIS DE

3. EVALUACIN Y/O INTERPRETACIN

4. DIFUSIN Y/O USO DE MODELOS

Preparacin de los datos

datos, buscando la distribucin

reduccin o de aumento de la dimensin y de escalado simple y

La minera de datos surge a prin-

cipios de los aos ochenta cuando la Administracin de Hacienda

La idea de minera de datos no es

potencialmente til y entendible

Las limitaciones de la minera de

hiptesis, as como la estructura

Entendimiento del problema: se

mentarse en diferentes etapas del

NACIONAL ANTILAVADO DE ACTIVOS Y

Aplicados a los Sistemas Antila-

vado de Activos y Contra la Financiacin del Terrorismo (ALA/CFT),

Conocidos como procedimientos de clustering, buscan generar

para conformar cada uno de los

algoritmos permiten establecer los

hasta llegar a los nodos terminales

Un rbol de decisin es un modelo de clasificacin que divide

La tcnica de mquinas de vectores de soporte se desarroll con el

tonces (decisin, valor), aunque se

Figura 3. Posibles resultados del rbol de decisin

Como se puede observar, se inicia

dos grupos, uno de los cuales tiene

Por ltimo, es recomendable que

El Anlisis de Redes Sociales

les son una forma de representar

del analista y a los lmites que este

En esta seccin se presentan los

turas locales, seccin que culmina

Para ello, se cuenta con analistas

vnculos, arcos, conexiones) estn

la arista es dirigida. Sin embargo,

Adicional a la posibilidad de representar una direccin, cada arista

Ahora bien, existen dos maneras

Figura 4. Dos maneras de