Está en la página 1de 8

ARTCULO

Minera de Datos: Conceptos y Tendencias

Jos C. Riquelme(1), Roberto Ruiz(2), Karina Gilbert(3)


(1)Departamento de Lenguajes y Sistemas Informticos
Universidad de Sevilla
riquelme@lsi.us.es
(2) rea de Lenguajes y Sistemas Informticos

Universidad Pablo de Olavide, Sevilla


rruisan1@upo.es
(3) Departamento de Estadstica e Investigacin Operativa

Universidad Politcnica de Catalua, Barcelona


karina.gibert@upc.edu

Resumen

Hoy en da, la minera de datos (MD) est consiguiendo cada vez ms captar la atencin de las empresas. Todava es
infrecuente or frases como deberamos segmentar a nuestros clientes utilizando herramientas de MD, la MD
incrementar la satisfaccin del cliente, o la competencia est utilizando MD para ganar cuota de mercado. Sin
embargo, todo apunta a que ms temprano que tarde la minera de datos ser usada por la sociedad, al menos con el
mismo peso que actualmente tiene la Estadstica. As que qu es la minera de datos y qu beneficios aporta?
Cmo puede influir esta tecnologa en la resolucin de los problemas diarios de las empresas y la sociedad en
general? Qu tecnologas estn detrs de la minera de datos? Cul es el ciclo de vida de un proyecto tpico de
minera de datos? En este artculo, se intantarn aclarar estas cuestiones mediante una introduccin a la minera de
datos: definicin, ejemplificar problemas que se pueden resolver con minera de datos, las tareas de la minera de
datos, tcnicas usadas y finalmente retos y tendencias en minera de datos.

Palabras clave: Minera de Datos.

1. Introduccin
Hoy en da, los datos no estn restringidos a tuplas
La revolucin digital ha hecho posible que la representadas nicamente con nmeros o caracteres.
informacin digitalizada sea fcil de capturar, El avance de la tecnologa para la gestin de bases
procesar, almacenar, distribuir, y transmitir [10]. de datos hace posible integrar diferentes tipos de
Con el importante progreso en informtica y en las datos, tales como imagen, video, texto, y otros datos
tecnologas relacionadas y la expansin de su uso en numricos, en una base de datos sencilla, facilitando
diferentes aspectos de la vida, se contina el procesamiento multimedia. Como resultado, la
recogiendo y almacenando en bases de datos gran mezcla tradicional ad hoc de tcnicas estadsticas y
cantidad de info rmacin. herramientas de gestin de datos no son adecuadas
por ms tiempo para analizar esta vasta coleccin de
Descubrir conocimiento de este enorme volumen de datos desiguales.
datos es un reto en s mismo. La minera de datos
(MD) es un intento de buscarle sentido a la La tecnologa de Internet actual y su creciente
explosin de informacin que actualmente puede ser demanda necesita el desarrollo de tecnologas de
almacenada [10]. minera de datos ms avanzadas para interpretar la

Inteligencia Artificial, Revista Iberoamericana de Inteligencia Artificial. No.29 (2006), pp. 11-18.
ISSN: 1137-3601. AEPIA (http://www.aepia.org).
12 Inteligencia Artificial Vol. 10 No 29 (2006)

informacin y el conocimiento de los datos lo que claramente apunta a la importancia de incluir


distribuidos por todo el mundo. En este siglo la en la metodologa el preproceso de los datos, o la
demanda continuar creciendo, y el acceso a formalizacin del conocimiento descubierto.
grandes volmenes de datos multimedia traer la
mayor transformacin para el global de la sociedad. En realidad, los trminos MD y KDD son a menudo
Por tanto, el desarrollo de la tecnologa de minera confundidos como sinnimos. En general se acepta
de datos avanzada continuar siendo una importante que la MD es un paso particular en el proceso
rea de estudio, y en consecuencia se espera gastar consistiendo en la aplicacin de algoritmos
muchos recursos en esta rea de desarrollo en los especficos para extraer patrones (modelos) de los
prximos aos. Existen diversos dominios donde se datos. Otros pasos en el proceso KDD, son la
almacenan grandes volmenes de informacin en preparacin de los datos, la seleccin y limpieza de
bases de datos centralizadas y distribuidas, como los mismos, la incorporacin de conocimiento
por ejemplo libreras digitales, archivos de previo, y la propia interpretacin de los resultados
imgenes, bioinformtica, cuidados mdicos, de minera. Estos pasos aplicados de una manera
finanzas e inversin, fabricacin y produccin, iterativa e interactiva aseguran que un conocimiento
negocios y marketing, redes de telecomunicacin, til se extraiga de los datos.
etc.
Las tareas propias de la fase de minera de datos
Es conocida la frase los datos en bruto raramente pueden ser descriptivas, (i.e. descubrir patrones
son beneficiosos directamente. Su verdadero valor interesantes o relaciones describiendo los datos), o
se basa en: (a) la habilidad para extraer informacin predictivas (i.e. clasificar nuevos datos basndose en
til la toma de decisiones o la exploracin, y (b) la los anteriormente disponibles). En otras palabras, es
comprensin del fenmeno gobernante en la fuente un campo interdisciplinar con el objetivo general de
de datos. En muchos dominios, el anlisis de datos predecir las salidas y revelar relaciones en los datos
fue tradicionalmente un proceso manual. Uno o ms [10]. Para ello se utilizan herramientas automticas
analistas familiarizados con los datos, con la ayuda que (a) emplean algoritmos sofisticados para
de tcnicas estadsticas, proporcionaban resmenes descubrir principalmente patrones ocultos,
y generaban informes. En efecto, el analista haca de asociaciones, anomalas, y/o estructuras de la gran
procesador de preguntas sofisticado. Sin embargo, cantidad de datos almacenados en los data
tal enfoque cambi como consecuencia del warehouses u otros repositorios de informacin, y
crecimiento del volumen de datos. Cada vez es ms (b) filtran la informacin necesaria de las grandes
comn encontrarse con bases de los datos con un bases de datos.
nmero de ejemplos del orden de 109 o superior y
103 dimensiones. Cuando la escala de manipulacin El concepto de KDD se ha desarrollado, y contina
de datos, exploracin e inferencia va ms all de la desarrollndose, desde la interseccin de la
capacidad humana, se necesita la ayuda de las investigacin de reas tales como bases de datos,
tecnologas informticas para automatizar el aprendizaje automtico, reconocimiento de patrones,
proceso. estadstica, teora de la informacin, inteligencia
artificial, razonamiento con incertidumbre,
Todo apunta a la necesidad de metodologas de visualizacin de datos y computacin de altas
anlisis inteligente de datos, las cuales puedan prestaciones. Los sistemas KDD incorporan teoras,
descubrir conocimiento til de los datos. El trmino algoritmos, y mtodos de todos estos campos. Una
KDD (inciales de Knowledge Discovery in buena perspectiva general del KDD se puede
Databases), acuado en 1989 se refiere a todo el encontrar en la referencias [8] y [10].
proceso de extraccin de conocimiento a partir de
una base de datos y marca un cambio de paradigma Otro concepto relacionado con el KDD es el de Data
en el que lo importante es el conocimiento til que warehousing [4,8,10,12], que se refiere a las
seamos capaces de descubrir a partir de los datos. tendencias actuales en la recoleccin y limpieza de
En el primer estado del arte sobre el rea, [Fayy96] datos transaccionales para dejarlos disponible para
se dice: el anlisis y la toma de decisiones. La MD debe
La mayora de los trabajos previos en KDD, se trabajar mano a mano con los almacenes de datos,
centraban en [...] la etapa de Minera de Datos. Sin sobre todo en los casos de volumnes de datos muy
embargo, los otros pasos son de considerable grandes o de inter-relaciones entre los datos
importancia para el xito de las aplicaciones de complejas, es decir, que no puedan ser expresadas
KDD en la prctica.
en una tabla plana. El KDD se centra en el proceso
Inteligencia Artificial Vol. 10 No 29 (2006) 13

global de descubrir conocimiento de grandes proceso global consiste en transformar informacin


volmenes de datos, incluyendo el almacenaje y de bajo nivel en conocimiento de alto nivel. El
acceso a tales datos, escalado de algoritmos a bases proceso KDD es interactivo e iterativo conteniendo
de datos masivas, interpretacin y visualizacin de los siguientes pasos:
resultados, y el modelado y soporte de la interaccin
1. Comprender el dominio de aplicacin: este
general hombre mquina. Un almacenaje eficiente
paso incluye el conocimiento relevante
de los datos, y por lo tanto su estructura, es muy
previo y las metas de la aplicacin.
importante para su representacin acceso. Los
conocimientos de las tecnologas de comprensin 2. Extraer la base de datos objetivo: recogida de
modernas deberan ser utilizados para explorar los datos, evaluar la calidad de los datos y
como estos mecanismos de almacenaje pueden ser utilizar anlisis exploratorio de los datos para
mejorados. familiarizarse con ellos.
Como hemos sealado el concepto de MD tambin
3. Preparar los datos: incluye limpieza,
se solapa con los conceptos de aprendizaje
transformacin, integracin y reduccin de
automtico y de estadstica. En general, la
datos. Se intenta mejorar la calidad de los
estadstica es la primera ciencia que historicamente
datos a la vez que disminuir el tiempo
extrae informacin de los datos bsicamente
mediante metodologas procedentes de las requerido por el algoritmo de aprendizaje
matemticas. Cuando se empez a usar los aplicado posteriormente.
ordenadores como apoyo para esta tarea surgi el 4. Minera de datos: como se ha sealado
concepto de Machine Learning, traducido como anteriormente, este es la fase fundamental del
Aprendizaje Automtico. Posteriormente con el proceso. Est constituido por una o ms de
incremento del tamao y con la estructuracin de los las siguientes funciones, clasificacin,
datos es cuando se empieza a hablar de MD. regresin, clustering, resumen, recuperacin
De esta manera la MD hace hincapi en: de imgenes, extraccin de reglas, etc.
la escalabilidad del nmero de atributos y de 5. Interpretacin: explicar los patrones
instancias descubiertos, as como la posibilidad de
visualizarlos.
algoritmos y arquitecturas (proporcionando
la estadstica y el aprendizaje automtico los 6. Utilizar el conocimiento descubierto: hacer
fundamentos de los mtodos y las uso del modelo creado.
formulaciones), y
El paso fundamental del proceso es el sealado con
la automatizacin para manejar grandes el nmero 4. A continuacin se comentan
volmenes de datos heterogneos. brevemente las tareas ms comunes de la minera de
datos, con un ejemplo de uso.
En el resto del artculo consideraremos la minera de
datos desde diversas perspectivas. En la prxima Clasificacin: clasifica un dato dentro de una
seccin se proporcionan las bases del de las clases categricas predefinidas.
descubrimiento de conocimiento y la minera de Responde a preguntas tales como, Cul es el
datos. En la seccin 3 se enumeran algunas de las riesgo de conceder un crdito a este cliente?
aplicaciones ms frecuentes en los negocios. En la Dado este nuevo paciente qu estado de la
seccin 4 se describe brevemente las tcnicas ms enfermedad indican sus anlisis?
utilizadas. Las tendencias en la minera de datos se
Regresin: el propsito de este modelo es
muestran en la seccin 5. Y para finalizar se
hacer corresponder un dato con un valor real
extraern las principales conclusiones.
de una variable. Responde a cuestiones como
Cul es la previsin de ventas para el mes
2. Extraccin de conocimiento en bases que viene? De qu depende?
de datos y minera de datos
Clustering: se refiere a la agrupacin de
El descubrimiento de conocimiento en bases de registros, observaciones, o casos en clases de
datos (KDD) se define como el proceso de objetos similares. Un cluster es una coleccin
identificar patrones significativos en los datos que de registros que son similares entre s, y
sean vlidos, novedosos, potencialmente tiles y distintos a los registros de otro cluster.
comprensibles para un usuario [4,8,10,12]. El Cuntos tipos de clientes vienen a mi
14 Inteligencia Artificial Vol. 10 No 29 (2006)

negocio? Qu perfiles de necesidades se dan 3. Aplicaciones de la minera de datos


en un cierto grupo de pacientes?
Generacin de reglas: aqu se extraen o Algunas de las tareas importantes de la minera de
generan reglas de los datos. Estas reglas datos incluyen la identificacin de aplicaciones para
hacen referencia al descubrimiento de las tcnicas existentes, y desarrollar nuevas tcnicas
relaciones de asociacin y dependencias para dominios tradicionales o de nueva aplicacin,
funcionales entre los diferentes atributos. como el comercio electrnico y la bioinformtica..
Cunto debe valer este indicador en sangre Existen numerosas reas donde la minera de datos
para que un paciente se considere grave? Si se puede aplicar, prcticamente en todas las
un cliente de un hipermercado compra actividades humanas que generen datos:
paales tambin compra cerveza?
Resumen o sumarizacin: estos modelos Comercio y banca: segementacin de
proporcionan una descripcin compacta de clientes, previsin de ventas, anlisis de
un subconjunto de datos. Cules son las riesgo.
principales caractersticas de mis clientes? Medicina y Farmacia: diagnostico de
Anlisis de secuencias: se modelan patrones enfermedades y la efectividad de los
secuenciales, como anlisis de series tratamientos.
temporales, secuencias de genes, etc. El Seguridad y deteccin de fraude:
objetivo es modelar los estados del proceso, o reconocimiento facial, identificaciones
extraer e informar de la desviacin y biomtricas, accesos a redes no permitidos,
tendencias en el tiempo. El consumo de etc.
energa elctrica de este mes es similar al del
ao pasado? Dados los niveles de Recuperacin de informacin no numerca:
contaminacin atmosfrica de la ltima minera de texto, minera web, bsqueda e
semana cul es la previsin para las prximas identificacin de imagen, video, voz y texto
24 horas. de bases de datos multimedia.
Astronoma: identificacin de nuevas
Como resumen podramos sealar que el rpido estrellas y galaxias.
crecimiento del inters en la minera de datos es
debido (i) al avance de la tecnologa de Internet y a Geologa, minera, agricultura y pesca:
la gran participacin en aplicaciones multimedia en identificacin de reas de uso para distintos
este dominio, (ii) a la facilidad en la captura de cultivos o de pesca o de explotacin minera
datos y el abaratamiento de su almacenaje, (iii) a en bases de datos de imgenes de satelites
compartir y distribuir los datos en la red, junto con
Ciencias Ambientales: identificacin de
el aumento de nuevas bases de datos en los
modelos de funcionamiento de ecosistemas
repositorios, (iv) al desarrollo de algoritmos de
naturales y/o artificiales (p.e. plantas
aprendizaje automtico robustos y eficientes para
depuradoras de aguas residuales) para
procesar estos datos, (v) al avance de las
mejorar su observacin, gestin y/o control.
arquitecturas de las computadoras y la cada del
coste del poder computacional, permitiendo utilizar Ciencias Sociales: Estudio de los flujos de la
mtodos computacionalmente intensivos para el opinin pblica. Planificacin de ciudades:
anlisis de datos, (vi) la falta de adaptacin de los identificar barrios con conflicto en funcin de
mtodos de anlisis y consulta convencionales a valores sociodemogrficos.
nuevas formas de interaccin y finalmente (vii) a la
potencia que este tipo de anlisis vienen mostrando En la actualidad se puede afirmar que la MD ha
como herramientas de soporte a la toma de demostrado la validez de una primera generacin de
decisiones frente a realidades complejas (viii) fuerte algoritmos mediante diferentes aplicaciones al
presin de los productos comerciales disponibles. mundo real. Sin embargo estas tcnicas todava
estn limitadas por bases de datos simples, donde
los datos se describen mediante atributos numricos
o simblicos, no conteniendo atributos de tipo texto
o imgenes, y los datos se preparan con una tarea
Inteligencia Artificial Vol. 10 No 29 (2006) 15

concreta en mente. Sobrepasar este lmite ser un coeficientes y si usamos los k-vecinos ms cercanos
reto a conseguir. necesitamos fijar una mtrica y k, etc.
Esta fase de aprendizaje ajusta el modelo buscando
Sealemos por ltimo que existen cientos de unos valores que intenten maximizar la bondad
productos de minera de datos y de compaas de del mismo. Esta cuestin nos vuelve a plantear dos
consultora. KDNuggets (kdnuggets.com) tiene una problemas: uno Cmo se define la bondad de un
lista de estas compaas y sus productos en el modelo para unos datos? Y dos, Cmo realizar esa
campo de la minera de datos. Pueden resaltarse por bsqueda?
su mayor expansin las siguientes: SAS con SAS Respecto a la primera, normalemente todo modelo
Script y SAS Enterprise Miner; SPSS y el paquete debe venir acompaado por una funcin de
de minera Clementine; IBM con Intelligent Miner; adaptacin que sea capaz de medir el ajuste (en
Microsoft incluye caractersticas de minera de datos ingls se emplea el concepto de fitness function).
en las bases de datos relacionales; otras compaas Esto es fcil en numerosos casos, por ejemplo en
son Oracle, Angoss y Kxen. En la lnea del software problemas de clasificacin o regresin, sin embargo
libre Weka [13] es un producto con mayor puede plantear serios retos en otros como el
orientacin a las tcnicas provenientes de la IA, clustering.
pero de fuerte impacto. Adems relacionado con este concepto se encuentra
un fenmeno conocido como sobreajuste, es decir,
4. Tcnicas usadas por la minera de que se aprendan los datos de entrenamiento pero
datos no se generalice bien para cuando vengan nuevos
casos. Exisen numerosos estudios en la literatura
La Minera de Datos se podra abstraer como la sobre distintas formas de separar convenientemente
construccin de un modelo que ajustado a unos datos de entrenamiento de datos de prueba [1,2,5].
datos proporciona un conocimiento. En cuanto a la bsqueda de los valores que
Por tanto podemos distinguir dos pasos en una tarea maximizan la bondad, se dispone de un importante
de MD, por un lado la eleccin del modelo y por nmero de posibilidades: desde la clsicas
otro el ajuste final de ste a los datos. procedentes del anlisis matemtico cuando la
La eleccin del modelo viene determinada funcin de bondad se conoce completamente hasta
bsicamente por dos condicionantes: el tipo de los las heursticas que proporciona la investigacin
datos y el objetivo que se quiera obtener. As por operativa, pasando por tcnicas como los
ejemplo no sera apropiado aplicar regresin a unos Algoritmos Evolutivos (sin duda una de las ms
datos constituidos por texto o modelos basados en presentes en la literatura), bsquedas tab,
distancia a datos simblicos. bsquedas dispersas, etc.
En cuanto a la relacin modelo-objetivo, la literatura Debido a que esta bsqueda u optimizacin est
presenta un catalogo de distintos modelos para los presente en todos los procesos de MD, a menudo se
diferentes objetivos. As, si se tiene un problema de confunden, pudiendo presentarse por ejemplo los
clasificacin se utilizarn mquinas de vectores algoritmos evolutivos como un modelo de MD,
soporte o rboles de decisin, si es un problema de cuando realmente es una tcnica que se puede usar
regresin se pueden usar rboles de regresin o para ajustarlo.
redes neuronales, si se desea hacer clustering se Por ltimo, otro factor a tener en cuenta junto con
puede optar por modelos jerrquicos o los anteriores es el tratamiento que deseamos dar a
interrelacionados, etc. la incertidumbre que el propio modelo genera. Por
Tambin es importante en esta eleccin el nivel de ejemplo, supongamos un modelo basado en reglas
comprensibilidad que se quiera obtener del modelo que define una as:
final, ya que hay modelos fciles de explicar al Si x [1.4, 3.4] entonces y [-2.1, 6.5]
usuario como por ejemplo las reglas de asociacin y
otros que entraan claras dificultades como las redes Qu podramos afirmar si x vale 3.5 1.3? y si
neuronales o los vectores soporte. vale 3.6 1.2? Este razonamiento lleva a usar
El segundo paso consiste en realizar una fase de lgicas distintas de la clsica como son la lgica
aprendizaje con los datos disponibles para ajustar borrosa o difusa (fuzzy) o los menos conocidos
el modelo anterior a nuestro problema particular. rough sets. Relacionado con esto aparece un ltimo
As si tenemos una red neuronal habr que definir su concepto: softcomputing, para referirse al conjunto
arquitectura y ajustar los valores de los pesos de sus de tcnicas computacionales (lgica borrosa,
conexiones. Si vamos a obtener una recta de razonamiento probabilstico, algoritmos evolutivos,
regresin hay que hallar los valores de los ) que posibilitan las herramientas de aprendizaje.
16 Inteligencia Artificial Vol. 10 No 29 (2006)

Softcomputing se refiere a la caracterstica de tambin se localiza la minera de data streams de


imprecisin o incertidumbre que acompaa por su muy alta velocidad con posibles cambios de
propia naturaleza al concepto de MD [15]. estructura, dimensin o modelo de generacin
Todos los conceptos presentados en esta seccin dinmico durante la fase de entrenamiento. Esto
(modelo, tipo de datos, lgica, funcin de bondad y obliga a terner un modelo de conocimiento en todo
tcnica de bsqueda) convenientemente hibridizados momento.
han dado lugar a infinidad de metodologas en MD.
Simulacin, integracin en la toma de decisiones
As es fcil encontrar referencias a redes
y minera de datos: los modelos extrados para un
neuronales borrosas para datos numricos
mbito de inters de una organizacin. Bsicamente
entrenadas mediante algoritmos evolutivos,
se trata de utilizar las salidas de unos modelos como
clustering mediante rough sets aplicando una
entradas de otros y maximizar el beneficio del
bsqueda dispersa, definicin de una mtrica para
conjunto de modelos. Adems, pueden aadirse al
bsqueda tab de reglas que clasifiquen texto, etc.
modelo global restricciones de valores mximos o
mnimos (saturacin), etc. Las tcnicas tradicionales
5. Retos y tendencias de la minera de de combinacin de modelos [6,8] no pueden
datos aplicarse directamente. Las tcnicas de simulacin
en minera de datos (vase el captulo 18 de [8]),
Existen algunos retos que superar antes de que la ms relacionadas con el problema de una
minera de datos se convierta en una tecnologa de maximizacin global no han recibido la atencin
masas [9,14]. Sealamos en este epgrafe algunos de suficiente desde el rea de la minera de datos. La
los retos actualmente planteados. obtencin de modelos que globalmente se
Aspectos metodolgicos: Sera muy til la comporten bien y que se mantengan dentro de unas
existencia de una API Standard, de forma que los restricciones, requiere no slo de matrices de costes
desarrolladores puedan integrar sin dificultad los y de tcnicas como el anlisis ROC [7], sino de
resultados de los diversos algoritmos de minera. otros tipos de mtricas y tcnicas para el aprendizaje
Esto podra facilitar tambin la tarea de automatizar y la evaluacin. La prediccin local ms idnea para
y simplificar todo el proceso, integrando aspectos un problema puede implicar la eleccin de una
como muestreo, limpieza de datos, minera, menos idnea para otro, mientras puede existir una
visualizacin, etc.. En este mismo sentido sera decisin global mejor. Si bien este tipo de
deseable que los productos de minera de datos decisiones globales han sido estudiadas por la teora
estuvieran orientados al programador para fomentar de la decisin [3] y por el rea de planificacin en
su uso y ampliacin. Sera asimismo necesario inteligencia artificial [11], esta interrelacin entre
unificar la teora sobre la materia: as se puede modelos predictores, su aprendizaje y problemas de
observar que los estados del arte no son optimizacin y planificacin no ha sido estudiada a
generalizables, no existe un estndar para la fondo.
validacin de resultados y, en general, la Minera para datos con una estructura compleja:
investigacin se realiza demasiado aislada. en numerosas ocasiones los datos procedentes de
Asimismo se necesitara mejorar la formacin en aplicaciones del mundo real no tienen una
esta rea entre los titulados universitarios, que sera representacin directa en forma de una nica tabla,
la mejor manera de expandir su uso, y finalmente, sino que deben ser representadas mediante
sigue siendo un asunto pendiente la integracin del estructuras jerrquicas (rboles), interrelacionadas
conocimiento del dominio en el algoritmo, y (grafos), conjuntos, etc. Por lo tanto, el reto que se
viceversa, es decir, mejorar la interpretabilidad y lanza a la comunidad cientfica que investiga en
facilidad de uso del modelo hallado. aprendizaje automtico y minera de datos, es el de
Escalabilidad: la escalabilidad de la minera de adaptar o proponer nuevas tcnicas que permitan
datos hacia grandes volmenes de datos es y ser trabajar directamente con este tipo de
siempre una de las tendencias futuras, ya que el representaciones. En este campo tambin entrara la
volumen de informacin que se ha de tratar crece de minera de datos distribuida, donde los datos no se
manera exponencial, con lo que los avances en esta encuentran en una nica localizacin sino como es
rea quedan siempre superados por las necesidades cada vez ms habitual en una red de computadores.
crecientes. Datos con miles de atributos es ya algo Un caso particular sera la minera de datos
habitual, pero es probable que las tcnicas no estn multimedia, para datos que integran voz, imgenes,
preparadas an para centenares de miles o incluso texto, video, y que, debido a la complejidad de los
millones de caractersticas. Dentro de esta lnea datos, el volumen y el gran abanico de aplicaciones
Inteligencia Artificial Vol. 10 No 29 (2006) 17

posibles constituye un reto en la actualidad. Referencias


Otros temas que se estn abordando y donde se debe
profundizar son: la comprensibilidad de los patrones [1] E. Alpaydin. Combined 5x2 cv f test for
extrados; potenciar las aplicaciones en campos comparing supervised classification learning
nuevos como privacidad, anti-terrorismo, crisis algorithms. Neural Computation, 11: 1885-1892,
energtica, medioambiente, bioinformtica; asegurar 1999.
la privacidad e integridad de los datos que son [2] C. Ambroise and G. McLachlan. Selection bias
sometidos a minera; datos no balanceados entre las in gene extraction on the basis of microarray
distintas clases; datos sensitivos al coste, no slo en gene-expression data. Proc. Natl. Acad. Sci.
el error al asignar una clase sino en la obtencin de USA 99, pages 6562-6566, 2002.
los atributos; datos en secuencia y series temporales
cada vez ms utilizadas; etc. [3] Y. Ben-Haim. Information-Gap Decision
Theory. Academic Press, 2001.
Podemos concluir sealando que la minera de datos [4] M.J.A. Berry and G.S. Linoff. Data mining
se considera todava un nicho y un mercado techniques for marketing, sales, and Customer
emergente. Una de las razones es que la mayora de Relationship Management. Wiley Publishing,
los paquetes de minera de datos estn dirigidos a 2004.
expertos, y esta cuestin no facilita su uso por los
usuarios. Se piensa que en los prximos aos habr [5] T. Dietterich. Approximate statistical test for
ms desarrolladores de aplicaciones comerciales de comparing supervised classification learning
gestin que sean capaces de integrar en stas algorithms. Neural Computation, 10 (7): 1895-
mdulos de minera de datos. Con ello se conseguir 1924, 1998.
extender y generalizar su uso a usuarios de los ms [6] V. Estruch, C. Ferri, J. Hernndez-Orallo and M.
diversos campos de la actividad humana. J. Ramrez-Quintana. Bagging Decision Multi-
trees. Multiple Classifier Systems, pages 41-51,
6. Conclusiones 2004.

La minera de datos es un rea de estudio cientfico [7] P. Flach, H. Blockeel, C. Ferri, J. Hernndez-
con grandes expectativas para la comunidad Orallo and J. Struyf. Decision Support for Data
investigadora, principalmente por las expectativas Mining: Introduction to ROC analysis and its
de transferencia a la sociedad que plantea. Desde applications. Book chapter in Data Mining and
hace ms de 50 aos se han publicado infinidad de Decision Support, Kluwer, 2003.
artculos en conferencias y revistas destacadas sobre [8] J. Hernndez-Orallo, M. J. Ramrez-Quintana
la materia. Sin embargo, queda por delante un and C. Ferri. Introduccin a la Minera de Datos.
campo frtil y prometedor con muchos retos en Prentice Hall / Addison-Wesley, 2004.
investigacin. Este artculo ha proporcionado una
introduccin al descubrimiento de conocimiento y la [9] H. Kargupta, A. Joshi, K. Sivakumar and
minera de datos. Se han descrito las principales Y.Yesha. Data mining: next generation
posibilidades que la minera de datos proporciona, challenges and future directions. MIT/AAAI
as como una relacin de las principales Press, 2004.
metodologas usadas. Adems se han resaltado [10] S. Mitra and T. Acharya. Data mining:
diferentes dominios de aplicacin y los principales multimedia, soft computing and bioinformatics.
retos y tendencias en investigacin. John Wiley & Sons, 2003.
[11] S. J. Russell and P. Norvig. Artificial
Agradecimientos
Intelligence: A Modern Approach. Prentice Hall,
Los autores agradecen a los profesores Francisco Herrera
2002.
de la U. de Granada y Jos Hernndez-Orallo de la U.P. [12] Z. Tang and J. MacLennan. Data Mining with
de Valencia las sugerencias aportadas para la redaccin de SQL Server 2005. Wiley Publishing, 2005.
este artculo. 'Inteligencia Artificial' es una publicacin
peridica distribuida por la Asociacin Espaola para la [13] Witten, IH and Frank, E: "Data Mining:
Inteligencia Artificial (AEPIA). Practical Machine Learning Tools and
Techniques", 2nd Edition. Morgan Kaufmann,
2005
18 Inteligencia Artificial Vol. 10 No 29 (2006)

[14] Q. Yang and X. Wu. Challenging Problems in


Data Mining Research ICDM 2005
http://www.cs.ust.hk/~qyang.
[15] L.A. Zadeh. What is Soft Computing?. Soft
Computing, 1(1), 1, 1997.

También podría gustarte