Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Resumen
Hoy en da, la minera de datos (MD) est consiguiendo cada vez ms captar la atencin de las empresas. Todava es
infrecuente or frases como deberamos segmentar a nuestros clientes utilizando herramientas de MD, la MD
incrementar la satisfaccin del cliente, o la competencia est utilizando MD para ganar cuota de mercado. Sin
embargo, todo apunta a que ms temprano que tarde la minera de datos ser usada por la sociedad, al menos con el
mismo peso que actualmente tiene la Estadstica. As que qu es la minera de datos y qu beneficios aporta?
Cmo puede influir esta tecnologa en la resolucin de los problemas diarios de las empresas y la sociedad en
general? Qu tecnologas estn detrs de la minera de datos? Cul es el ciclo de vida de un proyecto tpico de
minera de datos? En este artculo, se intantarn aclarar estas cuestiones mediante una introduccin a la minera de
datos: definicin, ejemplificar problemas que se pueden resolver con minera de datos, las tareas de la minera de
datos, tcnicas usadas y finalmente retos y tendencias en minera de datos.
1. Introduccin
Hoy en da, los datos no estn restringidos a tuplas
La revolucin digital ha hecho posible que la representadas nicamente con nmeros o caracteres.
informacin digitalizada sea fcil de capturar, El avance de la tecnologa para la gestin de bases
procesar, almacenar, distribuir, y transmitir [10]. de datos hace posible integrar diferentes tipos de
Con el importante progreso en informtica y en las datos, tales como imagen, video, texto, y otros datos
tecnologas relacionadas y la expansin de su uso en numricos, en una base de datos sencilla, facilitando
diferentes aspectos de la vida, se contina el procesamiento multimedia. Como resultado, la
recogiendo y almacenando en bases de datos gran mezcla tradicional ad hoc de tcnicas estadsticas y
cantidad de info rmacin. herramientas de gestin de datos no son adecuadas
por ms tiempo para analizar esta vasta coleccin de
Descubrir conocimiento de este enorme volumen de datos desiguales.
datos es un reto en s mismo. La minera de datos
(MD) es un intento de buscarle sentido a la La tecnologa de Internet actual y su creciente
explosin de informacin que actualmente puede ser demanda necesita el desarrollo de tecnologas de
almacenada [10]. minera de datos ms avanzadas para interpretar la
Inteligencia Artificial, Revista Iberoamericana de Inteligencia Artificial. No.29 (2006), pp. 11-18.
ISSN: 1137-3601. AEPIA (http://www.aepia.org).
12 Inteligencia Artificial Vol. 10 No 29 (2006)
concreta en mente. Sobrepasar este lmite ser un coeficientes y si usamos los k-vecinos ms cercanos
reto a conseguir. necesitamos fijar una mtrica y k, etc.
Esta fase de aprendizaje ajusta el modelo buscando
Sealemos por ltimo que existen cientos de unos valores que intenten maximizar la bondad
productos de minera de datos y de compaas de del mismo. Esta cuestin nos vuelve a plantear dos
consultora. KDNuggets (kdnuggets.com) tiene una problemas: uno Cmo se define la bondad de un
lista de estas compaas y sus productos en el modelo para unos datos? Y dos, Cmo realizar esa
campo de la minera de datos. Pueden resaltarse por bsqueda?
su mayor expansin las siguientes: SAS con SAS Respecto a la primera, normalemente todo modelo
Script y SAS Enterprise Miner; SPSS y el paquete debe venir acompaado por una funcin de
de minera Clementine; IBM con Intelligent Miner; adaptacin que sea capaz de medir el ajuste (en
Microsoft incluye caractersticas de minera de datos ingls se emplea el concepto de fitness function).
en las bases de datos relacionales; otras compaas Esto es fcil en numerosos casos, por ejemplo en
son Oracle, Angoss y Kxen. En la lnea del software problemas de clasificacin o regresin, sin embargo
libre Weka [13] es un producto con mayor puede plantear serios retos en otros como el
orientacin a las tcnicas provenientes de la IA, clustering.
pero de fuerte impacto. Adems relacionado con este concepto se encuentra
un fenmeno conocido como sobreajuste, es decir,
4. Tcnicas usadas por la minera de que se aprendan los datos de entrenamiento pero
datos no se generalice bien para cuando vengan nuevos
casos. Exisen numerosos estudios en la literatura
La Minera de Datos se podra abstraer como la sobre distintas formas de separar convenientemente
construccin de un modelo que ajustado a unos datos de entrenamiento de datos de prueba [1,2,5].
datos proporciona un conocimiento. En cuanto a la bsqueda de los valores que
Por tanto podemos distinguir dos pasos en una tarea maximizan la bondad, se dispone de un importante
de MD, por un lado la eleccin del modelo y por nmero de posibilidades: desde la clsicas
otro el ajuste final de ste a los datos. procedentes del anlisis matemtico cuando la
La eleccin del modelo viene determinada funcin de bondad se conoce completamente hasta
bsicamente por dos condicionantes: el tipo de los las heursticas que proporciona la investigacin
datos y el objetivo que se quiera obtener. As por operativa, pasando por tcnicas como los
ejemplo no sera apropiado aplicar regresin a unos Algoritmos Evolutivos (sin duda una de las ms
datos constituidos por texto o modelos basados en presentes en la literatura), bsquedas tab,
distancia a datos simblicos. bsquedas dispersas, etc.
En cuanto a la relacin modelo-objetivo, la literatura Debido a que esta bsqueda u optimizacin est
presenta un catalogo de distintos modelos para los presente en todos los procesos de MD, a menudo se
diferentes objetivos. As, si se tiene un problema de confunden, pudiendo presentarse por ejemplo los
clasificacin se utilizarn mquinas de vectores algoritmos evolutivos como un modelo de MD,
soporte o rboles de decisin, si es un problema de cuando realmente es una tcnica que se puede usar
regresin se pueden usar rboles de regresin o para ajustarlo.
redes neuronales, si se desea hacer clustering se Por ltimo, otro factor a tener en cuenta junto con
puede optar por modelos jerrquicos o los anteriores es el tratamiento que deseamos dar a
interrelacionados, etc. la incertidumbre que el propio modelo genera. Por
Tambin es importante en esta eleccin el nivel de ejemplo, supongamos un modelo basado en reglas
comprensibilidad que se quiera obtener del modelo que define una as:
final, ya que hay modelos fciles de explicar al Si x [1.4, 3.4] entonces y [-2.1, 6.5]
usuario como por ejemplo las reglas de asociacin y
otros que entraan claras dificultades como las redes Qu podramos afirmar si x vale 3.5 1.3? y si
neuronales o los vectores soporte. vale 3.6 1.2? Este razonamiento lleva a usar
El segundo paso consiste en realizar una fase de lgicas distintas de la clsica como son la lgica
aprendizaje con los datos disponibles para ajustar borrosa o difusa (fuzzy) o los menos conocidos
el modelo anterior a nuestro problema particular. rough sets. Relacionado con esto aparece un ltimo
As si tenemos una red neuronal habr que definir su concepto: softcomputing, para referirse al conjunto
arquitectura y ajustar los valores de los pesos de sus de tcnicas computacionales (lgica borrosa,
conexiones. Si vamos a obtener una recta de razonamiento probabilstico, algoritmos evolutivos,
regresin hay que hallar los valores de los ) que posibilitan las herramientas de aprendizaje.
16 Inteligencia Artificial Vol. 10 No 29 (2006)
La minera de datos es un rea de estudio cientfico [7] P. Flach, H. Blockeel, C. Ferri, J. Hernndez-
con grandes expectativas para la comunidad Orallo and J. Struyf. Decision Support for Data
investigadora, principalmente por las expectativas Mining: Introduction to ROC analysis and its
de transferencia a la sociedad que plantea. Desde applications. Book chapter in Data Mining and
hace ms de 50 aos se han publicado infinidad de Decision Support, Kluwer, 2003.
artculos en conferencias y revistas destacadas sobre [8] J. Hernndez-Orallo, M. J. Ramrez-Quintana
la materia. Sin embargo, queda por delante un and C. Ferri. Introduccin a la Minera de Datos.
campo frtil y prometedor con muchos retos en Prentice Hall / Addison-Wesley, 2004.
investigacin. Este artculo ha proporcionado una
introduccin al descubrimiento de conocimiento y la [9] H. Kargupta, A. Joshi, K. Sivakumar and
minera de datos. Se han descrito las principales Y.Yesha. Data mining: next generation
posibilidades que la minera de datos proporciona, challenges and future directions. MIT/AAAI
as como una relacin de las principales Press, 2004.
metodologas usadas. Adems se han resaltado [10] S. Mitra and T. Acharya. Data mining:
diferentes dominios de aplicacin y los principales multimedia, soft computing and bioinformatics.
retos y tendencias en investigacin. John Wiley & Sons, 2003.
[11] S. J. Russell and P. Norvig. Artificial
Agradecimientos
Intelligence: A Modern Approach. Prentice Hall,
Los autores agradecen a los profesores Francisco Herrera
2002.
de la U. de Granada y Jos Hernndez-Orallo de la U.P. [12] Z. Tang and J. MacLennan. Data Mining with
de Valencia las sugerencias aportadas para la redaccin de SQL Server 2005. Wiley Publishing, 2005.
este artculo. 'Inteligencia Artificial' es una publicacin
peridica distribuida por la Asociacin Espaola para la [13] Witten, IH and Frank, E: "Data Mining:
Inteligencia Artificial (AEPIA). Practical Machine Learning Tools and
Techniques", 2nd Edition. Morgan Kaufmann,
2005
18 Inteligencia Artificial Vol. 10 No 29 (2006)