Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Minería de Datos para La Predicción de Fraudes en Tarjetas de Crédito
Minería de Datos para La Predicción de Fraudes en Tarjetas de Crédito
* Ingeniero de sistemas, especialista en ingeniería de software de la Universidad Distrital Francisco José de Caldas.
Docente de la facultad tecnológica. lwanumen@udistrital.edu.co
V Í N C U L O S
JULIO-DICIEMBRE DE 2010
VOLUMEN 7 NÚMERO 2
Abstract:
In this article describes the use of data mining algorithms
through classification trees (specifically, J48) and rules of as-
sociation (a priori) for the possible detection of fraud in credit
cards. In addition, a comparison of the results obtained with
both techniques, and proposes a number of suggestions for
the development of this procedure using Data Mining.
Key words:
Data mining, skimming, credit card fraud, classification trees,
association rules, algorithm J48, Rule priori.
Introducción ¿Abstract?
Después de los ataques del 11 de septiembre Concept Space se apoyó en el uso de minería
de 2001, agencias como la CIA y el FBI incre- de datos y, concretamente, en Clustering je-
mentaron sus bloques de inteligenca con un rárquico [4]. Cabe resaltar que los recursos
propósito principal: hallar información re- ofrecidos por este tipo de técnicas han dado
lacionada con los grupos terroristas. Por su frutos; entre 1985 y 2002 el Gobierno de Es-
parte, las técnicas más utilizadas en este pro- tados Unidos detectó 16 miembros clave de
ceso son: grandes organizaciones delictivas [5].
El mayor desarrollo del uso de la Explota- en la sociedad ya que le permite —a las fuer-
ción de Información en actividades relacio- zas del orden público— tener tiempos de
nadas con la auditoría de sistemas tiene que reacción más rápidos y evitar, de esta manera,
ver con la detección de intrusos en redes de retrasarse llegando a la escenas del crimen.
telecomunicaciones. Incluso, en la literatura No obstante, también puede generar un im-
científica se encuentran antecedentes vincu- pacto negativo si se prejuzga erróneamente
lados a la localización de fraudes usando mi- a un ciudadano debido a mala documenta-
nería de datos [10]. ción del sistema (falsificación de documen-
to público, por ejemplo) [12]. La revisión ma-
Este texto hace alusión a un caso específico nual y técnica de la prevención de fraudes no
de fraude asociado con las tarjetas de crédi- detecta algunos de los patrones más preva-
to y conocido comúnmente como la <<clona- lentes como el uso de una tarjeta de crédito
ción de tarjetas>>, circunstancia que repre- varias veces, en múltiples locaciones (físicas
senta un riesgo para los clientes adscritos a o digitales) y en poco tiempo.
un banco.
Factibilidad de usar minería en el
Estado del arte caso de una institución bancaria
colombiana
Teoría sobre las transacciones
delictivas La idea central de este proyecto es encontrar
transacciones fraudulentas las cuales, por lo
Los seres humanos, al tener capacidad cogni- general, no son la mayoría. Así pues, como
tiva, desarrollan una serie de conductas que método de solución, una buena alternativa
se pueden definir como <<patrones>> de- es la implementación de la minería de datos;
pendiendo de ciertas situaciones. A su vez, mediante ella pueden identificarse patrones
el momento en el que se comete un crimen ocultos y no triviales en grandes bases de
no es la excepción; un grupo de psicólogos datos.
determinó que existen patrones de compor-
tamiento asociados a factores como la locali- Técnicas y algoritmos usados
zación, la hora del día y la temperatura. Di-
cha información, administrada mediante la
minería de datos, permite desarrollar un mo- Técnicas Definición
delo predictivo sobre las situaciones ideales
1. Discretización Proceso en la preparación
—escenarios— donde podría suceder un cri-
de datos en el cual los va-
men. Para el ejemplo citado se establecen tres
lores continuos se vuelven
escenarios que se identifican con los patro-
discretos.
nes mencionados: robo de bicicleta, robo con
arma de fuego y robo de carteras [11]. 2. Normalización Proceso en la preparación de
datos en el cual los valores
4646
Minería de datos para la predicción de fraudes en tarjetas de crédito
V Í N C U L O S
JULIO-DICIEMBRE DE 2010
VOLUMEN 7 NÚMERO 2
• Modelización estadística.
• Modelización bayesiana.
• Modelos relacionales y declarativos. La muestra, entonces, se redujo a 30 instan-
• Redes neuronales artificiales. cias tal como muestra la siguiente figura:
• Modelos estocásticos y difusos.
• Árboles de Decisión y Sistemas de Apren-
dizaje de Reglas.
• Modelos basados en núcleo y máquinas
de soporte vectorial.
• Modelos basados en casos, densidad o
distancia.
49
49
Number of leaves : 2
a b <-- classified as
FASE 4: EVALUACIÓN E 2| a=N
INTEPRETACIÓN DEL MODELO 1 7| b=V
RESULTANTE
Regla 2 Regla 6
Si el cliente tiene casi la totalidad (o entera) Si el cupo está libre y las transacciones no so-
del cupo, entonces no posee deudas ni ha brepasan el promedio usual, es casi seguro
realizado mayores transacciones. Con esto que no se trata de un cliente al que le clona-
la probabilidad de que haya realizado movi- ron su tarjeta. Esta es una de las reglas más
mientos sospechosos es mínima. coherentes.
Evaluación de la regla: coherente. 51
51
Apriori
=======
5252
Minería de datos para la predicción de fraudes en tarjetas de crédito
V Í N C U L O S
JULIO-DICIEMBRE DE 2010
VOLUMEN 7 NÚMERO 2
53
53
Observando la matriz es notable que el grado una clasificación sobre un atributo numéri-
de precisión está expresado. La muestra ge- co como, por ejemplo, el caso presentado en
neral de 1000 datos manejaba un porcentaje este proyecto.
de aproximadamente el 3% de los mismos
para contrarrestar los supuestos de no frau- En el proceso de discretización no supervisa-
de; es decir, de los datos sospechosos. do de atributos pudieron haberse fijado to-
das las cajas de la misma anchura; no obs-
Estos resultados fueron enseñados al exper- tante, para la distribución de los datos que
to del banco, quien estuvo de acuerdo en que se tenía, resultó mucho más útil no hacerlo;
la muestra de datos original ofrecía errores al es decir, forzar a una distribución uniforme
ser generada a partir de dos bases de datos de instancias por categoría. Para ello se em-
distintas —logrando confundir al experto en pleó la opción de Weka “useEqualFrequency”
la selección de los atributos para generar la con lo cual pudo determianrse que modifi-
predicción. De esta manera, por más prepa- car este parámetro influye notablemente en
ración de los datos que se hiciera, la calidad los resultados obtenidos con los algoritmos.
de estos no mejoraría.
usar varios algoritmos, deba emplearse un Por consiguiente, es necesario generar con-
mayor número de vistas minables. Lo ante- sultas sobre la base de datos de manera pre-
rior eleva la complejidad de los proyectos de via al proceso de preparación de los mismos;
minería de datos y genera que dicho proce- sucesos como promedios, diferencias o lap-
so esté supeditado, en un porcentaje alto, a la sos son decisivos para estimar patrones de
destreza con la que se haga el proceso de pre- comportamiento en este caso de estudio.
paración de datos.
El proceso de minería descrito en este artícu-
Por su parte, para el manejo del algoritmo de lo no habría tenido éxito sin la creación del
asociación es estrictamente necesario que los campo TRANSMAYORQUEPROMTRAN;
datos a asociar están previamente discretiza- así pues, no está de más suponer que debe
dos, mientras que para la técnica de clasifica- contarse con algunas nociones de arte y ol-
ción deben estén normalizados previamente. fato de minero para saber en qué momento
crear campos calculados (gracias a ellos los
Un estudio que implique seguimiento de algoritmos producen los datos requeridos).
transacciones fraudulentas tiene una dura-
ción finita que se puede definir en la etapa Si el banco quisiera adoptar soluciones más
de planeación. Además, es posible que al- robustas para determinar con mayor di-
gunos clientes del banco no hayan realiza- namismo comportamientos sospechosos y
do transacciones fraudulentas al momento fraudulentos por parte de sus clientes o de
de concluir el estudio. Por otra parte, no es terceros, tendría que hacer uso de otras he-
posible determinar el tiempo en el que estos rramientas más robustas que Weka como,
clientes se comportan sin realizar transaccio- por ejemplo, soluciones de ETL (extracción,
nes delictivas; entonces, podría omitirse la transformación y carga); pueden obtenerse
información de aquellos que no presentan mejores resultados. Entre ellas se destacan:
transacciones delictivas, hecho poco adecua-
do porque al descartarlos se perdería la in- a. WPS (World Programming System) [25]:
formación acerca del tiempo durante el cual puede reemplazar a SAS en empresas
han estado afiliados al banco —dato de gran con una dependencia importante respec-
utilidad que debe ser incorporado en el aná- to a este producto. Sus ventajas princi-
lisis. A este tipo de datos se le conoce como pales son de compatibilidad de código y,
<<censuras>> o <<casos censurados>>. Por lo fundamentalmente, de precio.
anterior, es sugerible tener en cuenta dichos b. Kettle [26]: sumamente intuitiva y con
aspectos en trabajos futuros. una curva de aprendizaje prácticamente
plana. Su costo es nulo.
La necesidad de una predicción de fraude so- c. Talend [27]: parecida a la anterior. Es
bre unos datos bancarios requiere que la se- gratuita y de código abierto que incluye,
lección de los atributos esté basada en la nece- además, módulos sofisticados de depu-
sidad de encontrar una variable dependiente ración de datos.
respecto a unas independientes; por tanto,
se recomienda tener un control específico en Como aspectos interesantes se destaca uno
la migración de los datos cuando estos no se primordialmente: en el momento de extraer la
traen sobre una misma base de datos. información de una base de datos, el proceso
55
55
de limpieza se llevó cabo con la herramienta Coplink (2007), “COPLINK Solution Suite”,
Weka y, en ningún caso, los datos se consoli- [en línea], disponible en: http://www.
daron en un datawarehouse; entonces, el tipo coplink.com, recuperado el 1 de marzo
de solución propuesto resulta demasiado ar- de 2007.
tesanal y poco escalable. De hecho, al reali- Coplink, (2004), Crime Data Mining and Vi-
zar otro proceso de minería (no cuentan con sualization for Intelligence and Security.
un repositorio único para obtener sus datos) Informatics: The COPLINK Research. Uni-
como el descrito, debe extraerse la informa- versity of Arizona Artificial Intelligence
ción nuevamente. Por ende, la implementa- Lab. URL: http://ai.bpa.arizona.edu/
ción de un datawarehouse como repositorio en research/coplink/index.htm. Acceso
donde residan los datos históricos le brinda- Marzo 2011.
ría a este proyecto una mayor escalabilidad Clark, P. y Boswell R. (2000), Practical Ma-
a futuro. chine Learning Tools and Techniques with
Java Implementation, CIUDAD, Morgan
Agradecimientos Kaufmann Publisher.
Britos, P.; Dieste, O. y García, R. (2008), “Re-
A todas las personas que han contribuido en quirements Elicitation in Data Mining
mi formación bancaria y a la entidad que me for Business Intelligence Projects” en
facilitó los datos (por razones de confidencia- Advances in Information Systems Re-
lidad no puede mencionarse el área ni la ins- search, Education and Practice, VOL.,
titución). Sin esta información no habría sido NÚM, pp. 139 – 150.
posible desarrollar este artículo en el que se Fayyad U.M.; Piatetsky, G. y Smyth, P. (1996),
demuestra cómo, mediante la minería, pue- “From Data Mining to Knowledge Dis-
den llevarse a cabo proyectos tan reales y ál- covery: An Overview. Advances in
gidos como la seguridad informática. Knowledge Discovery and Data Mi-
ning” NOMBRE, VOL, NÚM, pp. 1-34.
Referencias Britos, P. et al. (2005), Minería de Datos Basada
en Sistemas Inteligentes, CIUDAD, Nue-
Eck, J. et. al. (2005), “Mapping Crime: Un- va Librería.
derstanding Hot Spots. Crime Map- Britos, P. et al. (2008), Detecting Unusual
ping Research Center U.S. Department Changes of Users Consumption. In
of Justice. Office of Justice Programs”. Artificial Intelligence and Practice II.
ICJIA, (2007), “Illinois Criminal Justice Infor- Springer. p. 297-306.R. W. Lucky, “Au-
mation Authority”, [en línea], disponi- tomatic equalization for digital com-
ble en: http://www.icjia.state.il.us/pu- munication,” Bell Syst. Tech. J., vol. 44,
blic/index.cfm?metasection=Data&m no. 4, pp. 547–588, Apr. 1965.
etapage=StacFacts, recuperado el 1 de Gunderson, L. (2002), “Using data mining
marzo de 2011. and judgment analysis to construct a
CrimeStat (2007), “CrimeStat: A Spatial Sta- predictive model of crime” IEEE Inter-
tistics Program for the Analysis of Cri- national Conference, CIUDAD.
me Incident Locations”, [en línea], dis- Brown, D. y Oxford, R. (2001), “Data mining
ponible en: http://www.icpsr.umich. time series with applications to crime
edu/NACJD/crimestat.html, recupera- analysis,” IEEE International Conferen-
do el 1 de marzo de 2011. ce, CIUDAD.
5656
Minería de datos para la predicción de fraudes en tarjetas de crédito
V Í N C U L O S
JULIO-DICIEMBRE DE 2010
VOLUMEN 7 NÚMERO 2
Hernandez, O.; Ramírez, Q. y Ferri, R. (2004), Sierra, B. et al. (2006), Aprendizaje automáti-
Introducción a la Minería de Datos, Ma- co: conceptos básicos y avanzados: aspec-
drid, Editorial Pearson Prentice Hall. tos prácticos utilizando el Software WEKA,
Fayyad, U.; Piatetsky-Shapiro G. y Smyth P. CIUDAD, Pearson.
(1996), From Data Mining to Knowled- Dapozo, G. (2006), “Aplicación de minería
ge Discovery: An Overview. Advances in de datos con una herramienta de soft-
Knowledge Discovery and Data Mining, ware libre en la evaluación del rendi-
CIUDAD, AAAI/MIT Press. miento académico de los alumnos de la
Chen, M.; Han J. y Yu P. (1996), “Data Mining: carrera de Sistemas de la FACENA-UN-
An Overview from Database Perspecti- NE”, Anales del Octavo Workshop de
ve”, en IEEE Transactions on Knowledge Investigadores en Ciencias de la Com-
and Data Engineering, VOL, NÚM, PP. putación WICC 2006, Buenos Aires,
Han, J. y Kamber, M. (2006), Data Mining Argentina.
Concepts and Techniques, San Francisco, Machine Learning Project at the Department
Morgan Kaufmann Publishers. of Computer Science of the Universi-
Hand, D.; Mannila, H. y Smyth P. (2001), ty of Waikato, New Zealand. http://
Principles of Data Mining, CIUDAD, www.cs.waikato.ac.nz/ml/weka/
MIT Press. Witten, I. y Frank, E. (2005), Data Mining
Timarán, P. (2009): “Detección de Patrones de Practical Machine Learning Tools and Te-
Bajo Rendimiento Académico y Deser- chniques. San Francisco, Morgan Kauf-
ción Estudiantil con Técnicas de Mine- mann Publishers.
ría de Datos”, Memorias de la VIII Con- http://www.teamwpc.co.uk/products/wps
ferencia Iberoamericana en Sistemas, http://kettle.pentaho.com/
Orlando, Estados Unidos de América. http://www.talend.com/
Hernandez, O.; Ramí rez, Q. M. y Ferri, R.
C. (2004), Introducción a la Minería de Da-
tos, Madrid, Editorial Pearson Prentice
Hall.
57
57