Está en la página 1de 5

La minera de datos o exploracin de datos (es la etapa de anlisis de "Knowledge Discovery in Databases" o KDD) es

un campo de las ciencias de la computacin referido al proceso que intenta descubrir patrones en grandes volmenes de
conjuntos de datos.
1
Utiliza los mtodos de la inteligencia artificial, aprendizaje automtico, estadstica y sistemas de bases
de datos. El objetivo general del proceso de minera de datos consiste en extraer informacin de un conjunto de datos y
transformarla en una estructura comprensible para su uso posterior. Adems de la etapa de anlisis en bruto, que involucra
aspectos de bases de datos y de gestin de datos, de procesamiento de datos, del modelo y de las consideraciones de
inferencia, de mtricas de Intereses, de consideraciones de la Teora de la complejidad computacional, de post-
procesamiento de las estructuras descubiertas, de la visualizacin y de la actualizacin en lnea.
El trmino es una palabra de moda, y es frecuentemente mal utilizado para referirse a cualquier forma de datos a gran
escala o procesamiento de la informacin (recoleccin, extraccin, almacenamiento, anlisis y estadsticas), pero tambin
se ha generalizado a cualquier tipo de sistema de apoyo informtico decisin, incluyendo la inteligencia artificial, aprendizaje
automtico y la inteligencia empresarial. En el uso de la palabra, el trmino clave es el descubrimiento, comnmente se
define como "la deteccin de algo nuevo". Incluso el popular libro "La minera de datos: sistema de prcticas herramientas
de aprendizaje y tcnicas con Java" (que cubre todo el material de aprendizaje automtico) originalmente iba a ser llamado
simplemente "la mquina de aprendizaje prctico", y el trmino "minera de datos" se aadi por razones de marketing. A
menudo, los trminos ms generales "(gran escala) el anlisis de datos", o "anlisis" -. o cuando se refiere a los mtodos
actuales, la inteligencia artificial y aprendizaje automtico, son ms apropiados.
La tarea de minera de datos real es el anlisis automtico o semi-automtico de grandes cantidades de datos para extraer
patrones interesantes hasta ahora desconocidos, como los grupos de registros de datos (anlisis cluster), registros poco
usuales (la deteccin de anomalas) y dependencias (minera por reglas de asociacin). Esto generalmente implica el uso
de tcnicas de bases de datos como los ndices espaciales. Estos patrones pueden entonces ser vistos como una especie
de resumen de los datos de entrada, y pueden ser utilizados en el anlisis adicional o, por ejemplo, en la mquina de
aprendizaje y anlisis predictivo. Por ejemplo, el paso de minera de datos podra identificar varios grupos en los datos, que
luego pueden ser utilizados para obtener resultados ms precisos de prediccin por un sistema de soporte de decisiones. Ni
la recoleccin de datos, preparacin de datos, ni la interpretacin de los resultados y la informacin son parte de la etapa de
minera de datos, pero que pertenecen a todo el proceso KDD como pasos adicionales.
Los trminos relacionados con la obtencin de datos, la pesca de datos y espionaje de los datos se refieren a la utilizacin
de mtodos de minera de datos a las partes de la muestra de un conjunto de datos de poblacin ms grandes establecidas
que son (o pueden ser) demasiado pequeas para las inferencias estadsticas fiables que se hizo acerca de la validez de
cualquier patrn descubierto. Estos mtodos pueden, sin embargo, ser utilizados en la creacin de nuevas hiptesis que se
prueban contra poblaciones de datos ms grandes.
Proceso
Un proceso tpico de minera de datos consta de los siguientes pasos generales:
1. Seleccin del conjunto de datos, tanto en lo que se refiere a las variables objetivo (aquellas que se quiere
predecir, calcular o inferir), como a las variables independientes (las que sirven para hacer el clculo o proceso),
como posiblemente al muestreo de los registros disponibles.
2. Anlisis de las propiedades de los datos, en especial los histogramas, diagramas de dispersin, presencia de
valores atpicos y ausencia de datos (valores nulos).
3. Transformacin del conjunto de datos de entrada, se realizar de diversas formas en funcin del anlisis
previo, con el objetivo de prepararlo para aplicar la tcnica de minera de datos que mejor se adapte a los datos y
al problema, a este paso tambin se le conoce como preprocesamiento de los datos.
4. Seleccionar y aplicar la tcnica de minera de datos, se construye el modelo predictivo, de clasificacin o
segmentacin.
5. Extraccin de conocimiento, mediante una tcnica de minera de datos, se obtiene un modelo de conocimiento,
que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones
de asociacin entre dichas variables. Tambin pueden usarse varias tcnicas a la vez para generar distintos
modelos, aunque generalmente cada tcnica obliga a un preprocesado diferente de los datos.
6. Interpretacin y evaluacin de datos, una vez obtenido el modelo, se debe proceder a su validacin
comprobando que las conclusiones que arroja son vlidas y suficientemente satisfactorias. En el caso de haber
obtenido varios modelos mediante el uso de distintas tcnicas, se deben comparar los modelos en busca de aquel
que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse
alguno de los pasos anteriores para generar nuevos modelos.
Si el modelo final no superara esta evaluacin el proceso se podra repetir desde el principio o, si el experto lo considera
oportuno, a partir de cualquiera de los pasos anteriores. Esta retroalimentacin se podr repetir cuantas veces se considere
necesario hasta obtener un modelo vlido.
Una vez validado el modelo, si resulta ser aceptable (proporciona salidas adecuadas y/o con mrgenes de error admisibles)
ste ya est listo para su explotacin. Los modelos obtenidos por tcnicas de minera de datos se aplican incorporndolos
en los sistemas de anlisis de informacin de las organizaciones, e incluso, en los sistemas transaccionales. En este
sentido cabe destacar los esfuerzos del Data Mining Group, que est estandarizando el lenguaje PMML (Predictive Model
Markup Language), de manera que los modelos de minera de datos sean interoperables en distintas plataformas, con
independencia del sistema con el que han sido construidos. Los principales fabricantes de sistemas de bases de datos y
programas de anlisis de la informacin hacen uso de este estndar.
Tradicionalmente, las tcnicas de minera de datos se aplicaban sobre informacin contenida en almacenes de datos. De
hecho, muchas grandes empresas e instituciones han creado y alimentan bases de datos especialmente diseadas para
proyectos de minera de datos en las que centralizan informacin potencialmente til de todas sus reas de negocio. No
obstante, actualmente est cobrando una importancia cada vez mayor la minera de datos desestructurados como
informacin contenida en ficheros de texto, en Internet, etc.
Protocolo de un proyecto de minera de datos
Un proyecto de minera de datos tiene varias fases necesarias que son, esencialmente:
Comprensin: del negocio y del problema que se quiere resolver.
Determinacin, obtencin y limpieza: de los datos necesarios.
Creacin de modelos matemticos.
Validacin, comunicacin: de los resultados obtenidos.
Integracin: si procede, de los resultados en un sistema transaccional o similar.
La relacin entre todas estas fases slo es lineal sobre el papel. En realidad, es mucho ms compleja y esconde toda una
jerarqua de subfases. A travs de la experiencia acumulada en proyectos de minera de datos se han ido desarrollando
metodologas que permiten gestionar esta complejidad de una manera ms o menos uniforme.
Tcnicas de minera de datos
Como ya se ha comentado, las tcnicas de la minera de datos provienen de la inteligencia artificial y de la estadstica,
dichas tcnicas, no son ms que algoritmos, ms o menos sofisticados que se aplican sobre un conjunto de datos para
obtener unos resultados.
Las tcnicas ms representativas son:
Redes neuronales.- Son un paradigma de aprendizaje y procesamiento automtico inspirado en la forma en que
funciona el sistema nervioso de los animales. Se trata de un sistema de interconexin de neuronas en una red
que colabora para producir un estmulo de salida. Algunos ejemplos de red neuronal son:
o El perceptrn.
o El perceptrn multicapa.
o Los mapas autoorganizados, tambin conocidos como redes de Kohonen.
Regresin lineal.- Es la ms utilizada para formar relaciones entre datos. Rpida y eficaz pero insuficiente en
espacios multidimensionales donde puedan relacionarse ms de 2 variables.
rboles de decisin.- Un rbol de decisin es un modelo de prediccin utilizado en el mbito de la inteligencia
artificial, dada una base de datos se construyen estos diagramas de construcciones lgicas, muy similares a los
sistemas de prediccin basados en reglas, que sirven para representar y categorizar una serie de condiciones
que suceden de forma sucesiva, para la resolucin de un problema. Ejemplos:
o Algoritmo ID3.
o Algoritmo C4.5.
Modelos estadsticos.- Es una expresin simblica en forma de igualdad o ecuacin que se emplea en todos los
diseos experimentales y en la regresin para indicar los diferentes factores que modifican la variable de
respuesta.
Agrupamiento o Clustering.- Es un procedimiento de agrupacin de una serie de vectores segn criterios
habitualmente de distancia; se tratar de disponer los vectores de entrada de forma que estn ms cercanos
aquellos que tengan caractersticas comunes. Ejemplos:
o Algoritmo K-means.
o Algoritmo K-medoids.
Reglas de asociacin.- Se utilizan para descubrir hechos que ocurren en comn dentro de un determinado
conjunto de datos.

Segn el objetivo del anlisis de los datos, los algoritmos utilizados se clasifican en supervisados y no supervisados (Weiss
y Indurkhya, 1998):
Algoritmos supervisados (o predictivos): predicen un dato (o un conjunto de ellos) desconocido a priori, a partir de
otros conocidos.
Algoritmos no supervisados (o del descubrimiento del conocimiento): se descubren patrones y tendencias en los
datos.
Ejemplos de uso de la minera de datos
Negocios
La minera de datos puede contribuir significativamente en las aplicaciones de administracin empresarial basada en la
relacin con el cliente. En lugar de contactar con el cliente de forma indiscriminada a travs de un centro de llamadas o
enviando cartas, slo se contactar con aquellos que se perciba que tienen una mayor probabilidad de responder
positivamente a una determinada oferta o promocin.
Por lo general, las empresas que emplean minera de datos ven rpidamente el retorno de la inversin, pero tambin
reconocen que el nmero de modelos predictivos desarrollados puede crecer muy rpidamente.
En lugar de crear modelos para predecir qu clientes pueden cambiar, la empresa podra construir modelos separados para
cada regin y/o para cada tipo de cliente. Tambin puede querer determinar qu clientes van a ser rentables durante una
ventana de tiempo (una quincena, un mes, ...) y slo enviar las ofertas a las personas que es probable que sean rentables.
Para mantener esta cantidad de modelos, es necesario gestionar las versiones de cada modelo y pasar a una minera de
datos lo ms automatizada posible.
Anlisis de la cesta de la compra
El ejemplo clsico de aplicacin de la minera de datos tiene que ver con la deteccin de hbitos de compra en
supermercados. Un estudio muy citado detect que los viernes haba una cantidad inusualmente elevada de clientes que
adquiran a la vez paales y cerveza. Se detect que se deba a que dicho da solan acudir al supermercado padres
jvenes cuya perspectiva para el fin de semana consista en quedarse en casa cuidando de su hijo y viendo la televisin
con una cerveza en la mano. El supermercado pudo incrementar sus ventas de cerveza colocndolas prximas a los
paales para fomentar las ventas compulsivas.
Patrones de fuga
Un ejemplo ms habitual es el de la deteccin de patrones de fuga. En muchas industrias como la banca, las
telecomunicaciones, etc. existe un comprensible inters en detectar cuanto antes aquellos clientes que puedan estar
pensando en rescindir sus contratos para, posiblemente, pasarse a la competencia. A estos clientes y en funcin de su
valor se les podran hacer ofertas personalizadas, ofrecer promociones especiales, etc., con el objetivo ltimo de
retenerlos. La minera de datos ayuda a determinar qu clientes son los ms proclives a darse de baja estudiando sus
patrones de comportamiento y comparndolos con muestras de clientes que, efectivamente, se dieron de baja en el pasado.
Fraudes
Un caso anlogo es el de la deteccin de transacciones de lavado de dinero o de fraude en el uso de tarjetas de crdito o
de servicios de telefona mvil e, incluso, en la relacin de los contribuyentes con el fisco. Generalmente, estas operaciones
fraudulentas o ilegales suelen seguir patrones caractersticos que permiten, con cierto grado de probabilidad, distinguirlas
de las legtimas y desarrollar as mecanismos para tomar medidas rpidas frente a ellas.
Recursos humanos
La minera de datos tambin puede ser til para los departamentos de recursos humanos en la identificacin de las
caractersticas de sus empleados de mayor xito. La informacin obtenida puede ayudar a la contratacin de personal,
centrndose en los esfuerzos de sus empleados y los resultados obtenidos por stos. Adems, la ayuda ofrecida por las
aplicaciones para Direccin estratgica en una empresa se traducen en la obtencin de ventajas a nivel corporativo, tales
como mejorar el margen de beneficios o compartir objetivos; y en la mejora de las decisiones operativas, tales como
desarrollo de planes de produccin o gestin de mano de obra.
Comportamiento en Internet
Tambin es un rea en boga el del anlisis del comportamiento de los visitantes sobre todo, cuando son clientes
potenciales en una pgina de Internet. O la utilizacin de la informacin obtenida por medios ms o menos legtimos
sobre ellos para ofrecerles propaganda adaptada especficamente a su perfil. O para, una vez que adquieren un
determinado producto, saber inmediatamente qu otro ofrecerle teniendo en cuenta la informacin histrica disponible
acerca de los clientes que han comprado el primero.
Terrorismo
La minera de datos ha sido citada como el mtodo por el cual la unidad Able Danger del Ejrcito de los EE. UU. haba
identificado al lder de los atentados del 11 de septiembre de 2001, Mohammed Atta, y a otros tres secuestradores del "11-
S" como posibles miembros de una clula de Al Qaeda que operan en los EE. UU. ms de un ao antes del ataque. Se ha
sugerido que tanto la Agencia Central de Inteligencia y su homloga canadiense, Servicio de Inteligencia y Seguridad
Canadiense, tambin han empleado este mtodo.
2

Juegos
Desde comienzos de la dcada de 1960, con la disponibilidad de orculos para determinados juegos combinacionales,
tambin llamados finales de juego de tablero (por ejemplo, para las tres en raya o en finales de ajedrez) con cualquier
configuracin de inicio, se ha abierto una nueva rea en la minera de datos que consiste en la extraccin de estrategias
utilizadas por personas para estos orculos. Los planteamientos actuales sobre reconocimiento de patrones, no parecen
poder aplicarse con xito al funcionamiento de estos orculos. En su lugar, la produccin de patrones perspicaces se basa
en una amplia experimentacin con bases de datos sobre esos finales de juego, combinado con un estudio intensivo de los
propios finales de juego en problemas bien diseados y con conocimiento de la tcnica (datos previos sobre el final del
juego). Ejemplos notables de investigadores que trabajan en este campo son Berlekamp en el juego de puntos-y-cajas (o
Timbiriche) y John Nunn en finales de ajedrez.
Ciencia e Ingeniera
En los ltimos aos la minera de datos se est utilizando ampliamente en diversas reas relacionadas con la ciencia y la
ingeniera. Algunos ejemplos de aplicacin en estos campos son:
Gentica
En el estudio de la gentica humana, el objetivo principal es entender la relacin cartogrfica entre las partes y la variacin
individual en las secuencias del ADN humano y la variabilidad en la susceptibilidad a las enfermedades. En trminos ms
llanos, se trata de saber cmo los cambios en la secuencia de ADN de un individuo afectan al riesgo de desarrollar
enfermedades comunes (como por ejemplo el cncer). Esto es muy importante para ayudar a mejorar el diagnstico,
prevencin y tratamiento de las enfermedades. La tcnica de minera de datos que se utiliza para realizar esta tarea se
conoce como "reduccin de dimensionalidad multifactorial".
3

Ingeniera elctrica
En el mbito de la ingeniera elctrica, las tcnicas de minera de datos han sido ampliamente utilizadas para monitorizar las
condiciones de las instalaciones de alta tensin. La finalidad de esta monitorizacin es obtener informacin valiosa sobre el
estado del aislamiento de los equipos. Para la vigilancia de las vibraciones o el anlisis de los cambios de carga en
transformadores se utilizan ciertas tcnicas para agrupacin de datos (clustering) tales como los mapas auto-organizativos
(SOM: Self-organizing map). Estos mapas sirven para detectar condiciones anormales y para estimar la naturaleza de
dichas anomalas.
4

Anlisis de gases
Tambin se han aplicado tcnicas de minera de datos para el anlisis de gases disueltos (DGA: Dissolved gas analysis) en
transformadores elctricos. El anlisis de gases disueltos se conoce desde hace mucho tiempo como la herramienta para
diagnosticar transformadores. Los mapas auto-organizativos (SOM) se utilizan para analizar datos y determinar tendencias
que podran pasarse por alto utilizando las tcnicas clsicas (DGA).
Minera de datos y otras disciplinas anlogas
Suscita cierta polmica el definir las fronteras existentes entre la minera de datos y las disciplinas anlogas, como pueden
serlo la estadstica, la inteligencia artificial, etc. Hay quienes sostienen que la minera de datos no es sino estadstica
envuelta en una jerga de negocios que la conviertan en un producto vendible. Otros, en cambio, encuentran en ella una
serie de problemas y mtodos especficos que la hacen distinta de otras disciplinas.
El hecho es que, en la prctica la totalidad de los modelos y algoritmos de uso general en minera de datos redes
neuronales, rboles de regresin y clasificacin, modelos logsticos, anlisis de componentes principales, etc. gozan de
una tradicin relativamente larga en otros campos.
De la estadstica
Ciertamente, la minera de datos bebe de la estadstica, de la que toma las siguientes tcnicas:
Anlisis de varianza, mediante el cual se evala la existencia de diferencias significativas entre las medias de una
o ms variables continuas en poblaciones distintas.
Regresin: define la relacin entre una o ms variables y un conjunto de variables predictoras de las primeras.
Prueba chi-cuadrado: por medio de la cual se realiza el contraste de la hiptesis de dependencia entre variables.
Anlisis de agrupamiento o clustering: permite la clasificacin de una poblacin de individuos caracterizados por
mltiples atributos (binarios, cualitativos o cuantitativos) en un nmero determinado de grupos, con base en las
semejanzas o diferencias de los individuos.
Anlisis discriminante: permite la clasificacin de individuos en grupos que previamente se han establecido,
permite encontrar la regla de clasificacin de los elementos de estos grupos, y por tanto una mejor identificacin
de cules son las variables que definan la pertenencia al grupo.
Series de tiempo: permite el estudio de la evolucin de una variable a travs del tiempo para poder realizar
predicciones, a partir de ese conocimiento y bajo el supuesto de que no van a producirse cambios estructurales.
De la informtica
De la informtica toma las siguientes tcnicas:
Algoritmos genticos: Son mtodos numricos de optimizacin, en los que aquella variable o variables que se
pretenden optimizar junto con las variables de estudio constituyen un segmento de informacin. Aquellas
configuraciones de las variables de anlisis que obtengan mejores valores para la variable de respuesta,
correspondern a segmentos con mayor capacidad reproductiva. A travs de la reproduccin, los mejores
segmentos perduran y su proporcin crece de generacin en generacin. Se puede adems introducir elementos
aleatorios para la modificacin de las variables (mutaciones). Al cabo de cierto nmero de iteraciones, la
poblacin estar constituida por buenas soluciones al problema de optimizacin, pues las malas soluciones han
ido descartndose, iteracin tras iteracin.
Inteligencia Artificial: Mediante un sistema informtico que simula un sistema inteligente, se procede al anlisis de
los datos disponibles. Entre los sistemas de Inteligencia Artificial se encuadraran los Sistemas Expertos y las
Redes Neuronales.
Sistemas Expertos: Son sistemas que han sido creados a partir de reglas prcticas extradas del conocimiento de
expertos. Principalmente a base de inferencias o de causa-efecto.
Sistemas Inteligentes: Son similares a los sistemas expertos, pero con mayor ventaja ante nuevas situaciones
desconocidas para el experto.
Redes neuronales: Genricamente, son mtodos de proceso numrico en paralelo, en el que las variables
interactan mediante transformaciones lineales o no lineales, hasta obtener unas salidas. Estas salidas se
contrastan con los que tenan que haber salido, basndose en unos datos de prueba, dando lugar a un proceso
de retroalimentacin mediante el cual la red se reconfigura, hasta obtener un modelo adecuado.
Minera de datos basada en teora de la informacin
Todas las herramientas tradicionales de minera de datos asumen que los datos que usarn para construir los modelos
contienen la informacin necesaria para lograr el propsito buscado: obtener suficiente conocimiento que pueda ser
aplicado al negocio (o problema) para obtener un beneficio (o solucin).
El inconveniente es que sto no es necesariamente cierto. Adems, existe otro problema mayor an. Una vez construido el
modelo no es posible conocer si el mismo ha capturado toda la informacin disponible en los datos. Por esta razn la
prctica comn es realizar varios modelos con distintos parmetros para ver si alguno logra mejores resultados.
Un enfoque relativamente nuevo al anlisis de datos soluciona estos problemas haciendo que la prctica de la minera de
datos se parezca ms a una ciencia que a un arte.
En 1948 Claude Shannon public un trabajo llamado Una teora matemtica de la comunicacin. Posteriormente sta
pas a llamarse Teora de la informacin y sent las bases de la comunicacin y la codificacin de la informacin. Shannon
propuso una manera de medir la cantidad de informacin a ser expresada en bits.
En 1999 Dorian Pyle public un libro llamado Data Preparation for Data Mining en el que propone una manera de usar la
Teora de la Informacin para analizar datos. En este nuevo enfoque, una base de datos es un canal que transmite
informacin. Por un lado est el mundo real que captura datos generados por el negocio. Por el otro estn todas las
situaciones y problemas importantes del negocio. Y la informacin fluye desde el mundo real y a travs de los datos, hasta
la problemtica del negocio.
Con esta perspectiva y usando la Teora de la informacin, es posible medir la cantidad de informacin disponible en los
datos y qu porcin de la misma podr utilizarse para resolver la problemtica del negocio. Como un ejemplo prctico,
podra encontrarse que los datos contienen un 65% de la informacin necesaria para predecir qu cliente rescindirn sus
contratos. De esta manera, si el modelo final es capaz de hacer predicciones con un 60% de acierto, se puede asegurar que
la herramienta que gener el modelo hizo un buen trabajo capturando la informacin disponible. Ahora, si el modelo hubiese
tenido un porcentaje de aciertos de slo el 10%, por ejemplo, entonces intentar otros modelos o incluso con otras
herramientas podra valer la pena.
La capacidad de medir informacin contenida en los datos tiene otras ventajas importantes.
Al analizar los datos desde esta nueva perspectiva se genera un mapa de informacin que hace innecesario la preparacin
previa de los datos, una tarea absolutamente imprescindible si se desea buenos resultados, pero que lleva enorme cantidad
de tiempo.
Es posible seleccionar un grupo de variables ptimo que contenga la informacin necesaria para realizar un modelo de
prediccin.
Una vez que las variables son procesadas con el fin de crear el mapa de informacin y luego seleccionadas aquellas que
aportan la mayor informacin, la eleccin de la herramienta que se usar para crear el modelo deja de tener importancia, ya
que el mayor trabajo fue realizado en los pasos previos.
Tendencias
La Minera de Datos ha sufrido transformaciones en los ltimos aos de acuerdo con cambios tecnolgicos, de estrategias
de marketing, la extensin de los modelos de compra en lnea, etc. Los ms importantes de ellos son:
La importancia que han cobrado los datos no estructurados (texto, pginas de Internet, etc.).
La necesidad de integrar los algoritmos y resultados obtenidos en sistemas operacionales, portales de Internet,
etc.
La exigencia de que los procesos funcionen prcticamente en lnea (por ejemplo, en casos de fraude con una
tarjeta de crdito).
Los tiempos de respuesta. El gran volumen de datos que hay que procesar en muchos casos para obtener un
modelo vlido es un inconveniente; esto implica grandes cantidades de tiempo de proceso y hay problemas que
requieren una respuesta en tiempo real.
Herramientas de software
Existen muchas herramientas de software para el desarrollo de modelos de minera de datos tanto libres como comerciales
como, por ejemplo:
dVelox de APARA
KXEN
KNIME
Neural Designer
OpenNN
Orange
Powerhouse
Quiterian
RapidMiner
R
SPSS Clementine
SAS Enterprise Miner
STATISTICA Data Miner
Weka
KEEL

También podría gustarte