Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Bogot D.C.
2014
APLICABILIDAD DE
LA MINERA DE
DATOS Y EL ANLISIS
DE REDES SOCIALES
EN LA INTELIGENCIA
FINANCIERA
DOCUMENTOS UIAF
/1
DIRECTOR GENERAL
Unidad de Informacin y Anlisis Financiero
Luis Edmundo Surez Soto
EQUIPO DE PRODUCCIN
/2
ISBN:
978-958-58578-3-4
Primera edicin 2014, UIAF
/4
TABLA DE CONTENIDO
INTRODUCCIN
pag 8
1
2
3
4
5
ASPECTOS GENERALES
pag 14
ANTECEDENTES DE
LA MINERA DE DATOS
/5
pag 18
CONCLUSIONES
pag 43
/6
APLICABILIDAD
DE LA MINERA DE DATOS
Y EL ANLISIS DE REDES SOCIALES
EN LA INTELIGENCIA FINANCIERA
La estructura social se hace visible en un hormiguero; los movimientos y
contactos que uno ve no son aleatorios sino que siguen un patrn. Tambin
deberamos poder ver estructura en la vida de [cualquier] comunidad si
tuviramos un ngulo de vista suficientemente distante, desde el cual las
personas pareceran ser pequeos puntos en movimiento. Deberamos
ver que estos puntos no se acercan entre ellos aleatoriamente, que algunos
estn juntos regularmente, algunos se encuentran frecuentemente, algunos nunca. Si uno pudiera alejarse lo suficiente, la vida humana se convertira en puro patrn (Roger Brown, experto en redes sociales).
/7
INTRODUCCIN
/8
/9
/10
01
EL MODELO SAB
Y EL ANLISIS
CUANTITATIVO DE INFORMACIN
1
Para conocer el contexto histrico, la estructura y los componentes del modelo SAB, consultar. Surez Soto, Luis Edmundo (2014). Las Unidades de Inteligencia
Financiera y el Sistema Antilavado de Activos y Contra la Financiacin del Terrorismo. Un Nuevo Modelo de Gestin: Sistmico, Amplio y Bidireccional. Segunda
edicin. Bogot: Unidad de Informacin y Anlisis Financiero (UIAF). https://www.uiaf.gov.co/index.php?idcategoria=20569
2
En relacin a ms sectores reportantes, cada vez ms conocedores del fenmeno de lavado de activos y financiacin del terrorismo (LA/FT).
/11
*Volumen
*Velocidad
*Variedad
*Veracidad
Base de Datos
Politemticas
Reportantes
*Entidades del estado
*Gremios
*Organismos internacionales
*Centros acadmicos
Ms y Mejores
Sensores
*Entender el Pasado
*Monitorear el Presente
*Anticipar el Futuro
*Anlisis financiero
*Anlisis econmico
*Anlisis matemtico
y Estadstico
*Anlisis visual
Ms Capacidades
de Deteccin y
Judicializacin:
Mejores
Resultados
Mejor
Entendimiento de
la Amenaza
Inteligencia
Financiera y
Econmica
Plataforma de
Inteligencia
Econmica
/13
/14
02
ASPECTOS
GENERALES
/15
/16
Evaluacin e interpretacin
Expertos evalan y analizas los patrones y, si es necesario, se retorna
a las fases anteriores para una nueva iteracin.
Difusin
Se aplica el nuevo conocimiento
y se involucra a todos los posibles
usuarios.
/17
/18
03
ANTECEDENTES DE LA
MINERA DE DATOS
El incremento en la potencia de procesamiento de las computadoras, as como en la capacidad de almacenamiento.
El crecimiento de la cantidad de datos almacenados se ve
favorecido no solo por el abaratamiento de los discos y sistemas
de almacenamiento masivo, sino
tambin por la automatizacin de
trabajos y tcnicas de acopio de
datos (observacin con nuevas
tecnologas, entrevistas ms prcticas, encuestas por internet, etc.).
La aparicin de nuevos
mtodos y tcnicas de aprendizaje
y almacenamiento de datos, como
las redes neuronales, la Inteligencia Artificial y el surgimiento del almacn de datos - Data Ware House
(disponible en http://www.estadistico.com/arts.html).
/19
/20
pblico (deteccin de fraudes, residuos y medicin y mejora de programas) y privado (banca, seguros,
ventas, entre otros). Algunos de estos cambios incluyen el crecimiento de las redes de computadoras,
que se utilizan para conectar bases
de datos. El desarrollo de una mayor bsqueda de relaciones con
tcnicas como las redes neuronales y algoritmos avanzados, la propagacin de las aplicaciones cliente/servidor, permite a los usuarios
acceder a los recursos centralizados de datos desde el escritorio y
una mayor capacidad para combinar datos de diferentes fuentes
en una sola bsqueda (Ramrez y
Orallo, 2003).
Existen varias definiciones de minera de datos, entre ellas:
Es el proceso por el cual
generamos un modelo que sirva
para la prediccin. Este modelo se
genera a partir de los datos que se
encuentran en una base de datos
aplicndoles algn algoritmo que
construya el modelo (disponible
en
http://catarina.udlap.mx/u_
dl_a/tales/documentos/msp/gonzalez_r_l/apendiceC.pdf).
Es un proceso no trivial de
identificacin vlida, novedosa,
/21
/22
Transformacin de datos: se
busca generar nuevos indicadores
que puedan ser ms representativos del fenmeno analizado o
contener mejor informacin que la
de las variables disponibles por s
mismas, tomando la informacin
acumulada hasta este momento.
Posteriormente, la minera de datos deber establecer el tipo de
investigacin a realizar de acuerdo
con las caractersticas de la informacin y los objetivos establecidos, eligiendo entre dos grandes
grupos: anlisis descriptivo y anlisis predictivo. Estas tcnicas no
son excluyentes, pueden comple-
/23
04
LA MINERA DE DATOS
APLICADA AL SISTEMA
/24
rboles de decisin
Redes bayesianas
Este tipo de algoritmos, que comparten elementos de la inteligencia artificial, estadstica y probabilidad, pertenecen a los modelos
probabilsticos de grafos. Estos
estn definidos por un grafo donde existen nodos que representan
variables aleatorias junto con sus
enlaces, los cuales hacen referencia a dependencias entre estas variables. El xito de las redes bayesianas se debe a su habilidad para
manejar modelos probabilsticos
complejos al descomponerlos en
componentes ms pequeos y manejables. Se utilizan para investigar
relaciones entre variables y para
predecir y explicar su comportamiento al calcular la distribucin
de probabilidad condicional de
una variable, dados los valores de
otras series de inters.
/25
Mquinas de vectores
de soporte
/26
miento y limpieza y d. transformacin de datos. Ahora es posible generar un modelo descriptivo para
encontrar grupos de individuos
con un comportamiento similar, de
acuerdo con las variables mencionadas anteriormente. Los grupos
menos representativos en trminos de cantidad de personas sern
los que relacionan a los individuos
ms atpicos, que son los mismos
que pueden llegar a priorizarse
para un anlisis ms detallado que
confirme o descarte un manejo
sospechoso del efectivo.
En cuanto a los modelos predictivos, la misma base de datos puede
complementarse con la informacin sobre cules de estos individuos han estado inmersos en un
anlisis de Inteligencia Financiera.
En este caso se puede utilizar un
modelo como, por ejemplo, un rbol de clasificacin, con el nimo
de determinar qu caractersticas
del efectivo se asocian con el hecho de estar o no en un caso. Los
resultados del algoritmo de clasificacin son como se muestran en la
Figura 3.
/27
Base de datos de
transacciones en efectivo
Casos: 20%
No casos: 80%
Poblacin: 100%
Caracteristica 2
Valor total
Caracteristica 1
Valor total
Casos: 2%
No casos: 98%
Poblacin: 45%
Caracteristica 1
Frecuencia
Casos: 6%
No casos: 94%
Poblacin: 9%
Casos: 35%
No casos: 65%
Poblacin: 55%
Caracteristica 3
Frecuencia
Caracteristica 2
Frecuencia
Casos: 12%
No casos: 88%
Poblacin: 8%
Caracteristica 3
Valor promedio
/28
Casos: 1%
No casos: 99%
Poblacin: 15%
Casos: 46%
No casos: 54%
Poblacin: 38%
Caracteristica 2
Valor promedio
Casos: 74%
No casos:26%
Poblacin: 23%
el segundo, de acuerdo con la caracterstica 2 del valor total de transacciones, muestra sujetos con un
35% de ocurrencia de casos.
La segunda subdivisin se hace
respecto a las caractersticas 1, 2 y
3 de la frecuencia de transaccin.
En el ltimo paso se segmenta segn el valor promedio del movimiento en efectivo, consiguiendo
/29
/30
05
ANLISIS
DE REDES SOCIALES
(ARS) es una tcnica que permite estudiar y representar grficamente las relaciones establecidas
entre determinadas unidades interactuantes junto con la estructura que estas determinan. Dicha
tcnica puede ser utilizada bajo
dos tipos de enfoque: exploratorio
y confirmatorio. El primero abarca
la visualizacin y manipulacin de
la informacin, mientras que el segundo consiste en pruebas de hiptesis y distribuciones de probabilidad. Debido a que esta tcnica
se enfoca en el estudio de las interacciones entre dichas Unidades,
es posible el descubrimiento de
patrones sobre el comportamiento estructural de sus relaciones, lo
cual trasciende a la red social frente al conjunto de sus partes, puesto
que el valor de la informacin que
tiene la red como tal, es mayor que
la suma de los valores individuales
de sus partes. No obstante, ms
all de la actual tendencia a la diseminacin de informacin por
medio de las redes sociales de internet (Facebook, Twitter, MySpace, LinkedIn, Google+, entre otras)
y su crecimiento exponencial tanto
en nmero de usuarios como en
frecuencia de uso, las redes socia-
/31
1
Fundamentos,
terminologa y
representacin
La generacin de conocimiento
permite a las instituciones establecer lineamientos misionales
desde una perspectiva estratgica.
/33
/34
3
Para evitar ambigedades, es necesario diferenciar entre la definicin matemtica de grafo (conjunto de vrtices y aristas) y su representacin grfica, tambin
conocida como grafo. Es decir, la palabra grafo hace referencia tanto al dibujo como al ente matemtico. Debido a su uso constante y al alcance de este texto,
el uso de la palabra grafo en adelante har referencia a la representacin grfica del ente matemtico.
B
2
A
B
C
A
0
0
0
B
1
0
3
C
2
2
0
2
Propiedades
bsicas de las
redes y sus actores
Una vez entendido el contexto y
delimitado el objeto de anlisis, los
actores y la misma red se pueden
caracterizar por las propiedades
enumeradas a continuacin.
/35
3
Distancia social
y conceptos
relacionados
/36
Ciclo: es una camino cerrado de 3 o ms actores diferentes
excepto por el actor origen/destino.
Camino (trail): cualquier
recorrido en el que una relacin es
incluida una sola vez.
Ruta (path): recorrido en el
que cada actor es incluido una sola
vez.
Excentricidad de los actores: para cada actor se puede
calcular la distribucin de las mnimas distancias al resto de actores.
De stas, la mayor se denomina
excentricidad y mide qu tan lejos
est un actor de su contraparte
ms lejana.
Dimetro y radio de la red:
el primero es la mxima excentricidad entre todos los actores de
la red y da el nmero de pasos
suficientes para ir desde cualquier
nodo a cualquier otro, y el segundo
es la mnima excentricidad entre
todos los actores de la red.
Conectividad y
accesibilidad
Estructuras locales
en redes
/37
/38
4
Como ejemplo de esto, se sugiere investigar el fenmeno de los seis grados de separacin. Incluso, esta teora inspir una pelcula de 1993 denominada Six
Degrees of Separation.
6
Medidas de
centralidad
La centralidad de un nodo en una
red es una medida de su importancia estructural, por ejemplo,
qu tan importante es un servidor
entre una red de cmputo, cun
importante es una avenida entre
una red urbana, entre otros factores. Dada la subjetividad del trmino importancia, no sorprende
que haya varias medidas de centralidad en teora de grafos. Si bien
todas ellas estn dirigidas a cuantificar la prominencia de un actor
embebido en la red, difieren en los
criterios utilizados para ello.
Centralidad de grado (Degree centrality). Entre ms vnculos
tenga un determinado actor, ms
importante resulta ser. Vale la pena
anotar que para el caso de los grafos dirigidos, existen dos tipos de
medidas diferentes: grado de entrada y grado de salida, las cuales
/39
Figura 5.
Consignaciones en cheque
entre un grupo de
10 empresas
3
65
60
10
/40
61
70
69
92
70
56
88
51
84
76
51
69
83
99
53
89
tivas. Por ltimo, el actor 3 ostenta tener relaciones con los actores ms
importantes. Segn los criterios anteriores, se relaciona con los actores 2,
3 y 6.
Con la informacin mencionada anteriormente, se identifican los actores
ms importantes en la red con el fin de establecer estrategias para su desarticulacin, entendiendo que el contexto de este ejemplo lo enmarca en
alguna actividad sospechosa o reporte que involucra a alguna de esas entidades y su entorno.
Grado
Out
2
4
1
3
2
4
3
Cercana Eigenvector
0,3680
0,4335
0,3079
0,2968
0,3275
0,4423
0,3932
0,0478
0,1874
0,2485
0,1852
0,0899
0,0206
0,0000
8
9
10
2
1
2
0,2682
0,2417
0,3398
0,1817
0,0389
0,0000
5875,45
5625,82
3849,74
2,33
3,50
0,00
6
3
2
4
2
0
tener. Lo anterior con base en la informacin que estas entidades sistematizan y centralizan, lo cual es
de gran aplicabilidad en trminos
de prevencin y deteccin de operaciones de LA/FT. En este sentido,
el valor agregado del ARS radica
principalmente en el carcter rela-
/41
CONCLUSIONES
/43
Vnculo/Enlace/Borde/Lnea/Arco:
representan relaciones entre actores.
Dada: consiste en un par de actores y el (los) posible(s) vnculo(s)
entre ellos.
Trada: subconjunto de tres actores
y los posibles vnculos entre ellos.
Subgrupo: subconjunto de actores
y todos los vnculos entre ellos.
Grupo: coleccin de todos los actores sobre los cuales se miden los
vnculos.
BIBLIOGRAFA
FUENTES
ACADMICAS
Esteban Talaya, gueda. Principios de
marketing. ESIC Editorial.
Fernndez Molina, Juan Carlos y De
Moya Anegn, Flix (1998). Los catlogos de acceso pblico en lnea: el
futuro de la recuperacin de informacin bibliogrfica. Mlaga: Asociacin
Andaluza de Bibliotecarios.
Gentleman, Robert, Kurt Hornik y Giovanni Parmigiani (2011). Data Mining
with Rattle and R. Springer. Nueva
York: Estados Unidos.
Maimon, Oded y Lior Rokach (2010).
Data Mining and Knowledge Discovery
Handbook. Segunda Edicin. Springer.
Nueva York: Estados Unidos.
Ramrez Quintana, Mara Jos y Hernndez Orallo, Jos (2003). Extraccin
Automtica de Conocimiento en Bases de Datos e Ingeniera del Software.
Espaa. Tambin, Fernando Virseda
Benito y Javier Romn Carrillo (ao).
Minera de datos y aplicaciones. Espaa: Universidad Carlos III.
Surez Soto, Luis Edmundo (2014). Las
Unidades de Inteligencia Financiera
/45
FUENTES
ELECTRNICAS
Artculos estadsticos.
http://www.estadistico.com/arts.
html.
/46
en http://www.luis.izquierdo.name
(2006)
Minera de datos.
http://catarina.udlap.mx/u_dl_a/
tales/documentos/msp/gonzalez_r_l/apendiceC.pdf
Perez Lpez, Cesar y Santn Gonzlez, Daniel. Minera de datos:
conceptos, tcnicas y sistemas.
2007.
https://www.google.com.co/search?hl=es&tbo=p&tbm=bks&q=isbn:8497324927
Toledano Muoz, Mara Jos.
http://datamining.iespana.es/dataminig_enfoque.html
Trabajo de adscripcin minera de
datos.
Universidad Nacional del Nordeste, Sofa J. Vallejos.
http://exa.unne.edu.ar/depar/
areas/informatica/SistemasOperativos/Mineria_Datos_Valle-jos.pdf
Bogot D.C.
2014
APLICABILIDAD DE
LA MINERA DE
DATOS Y EL ANLISIS
DE REDES SOCIALES
EN LA INTELIGENCIA
FINANCIERA
DOCUMENTOS UIAF