Está en la página 1de 9

La minera de datos o exploracin de datos (es la etapa de anlisis de

"Knowledge Discovery in Databases" o KDD) es un campo de las ciencias de la


computacin referido al proceso que intenta descubrir patrones en grandes
volmenes

de

conjuntos

de

datos.1 Utiliza

los

mtodos

de

la inteligencia

artificial, aprendizaje automtico, estadstica y sistemas de bases de datos. El


objetivo general del proceso de minera de datos consiste en extraer informacin de
un conjunto de datos y transformarla en una estructura comprensible para su uso
posterior. Adems de la etapa de anlisis en bruto, que involucra aspectos de bases
de datos y de gestin de datos, de procesamiento de datos, del modelo y de las
consideraciones de inferencia, de mtricas de Intereses, de consideraciones de
la Teora

de

la

complejidad

computacional,

de

post-procesamiento

de

las

estructuras descubiertas, de la visualizacin y de la actualizacin en lnea.


El trmino es una palabra de moda, y es frecuentemente mal utilizado para referirse
a cualquier forma de datos a gran escala o procesamiento de la informacin
(recoleccin, extraccin, almacenamiento, anlisis y estadsticas), pero tambin se
ha generalizado a cualquier tipo de sistema de apoyo informtico decisin,
incluyendo la inteligencia artificial, aprendizaje automtico y la inteligencia
empresarial. En el uso de la palabra, el trmino clave es el descubrimiento,
comnmente se define como "la deteccin de algo nuevo". Incluso el popular libro
"La minera de datos: sistema de prcticas herramientas de aprendizaje y tcnicas
con Java" (que cubre todo el material de aprendizaje automtico) originalmente iba
a ser llamado simplemente "la mquina de aprendizaje prctico", y el trmino
"minera de datos" se aadi por razones de marketing. A menudo, los trminos
ms generales "(gran escala) el anlisis de datos", o "anlisis" -. o cuando se refiere
a los mtodos actuales, la inteligencia artificial y aprendizaje automtico, son ms
apropiados.
La tarea de minera de datos real es el anlisis automtico o semi-automtico de
grandes cantidades de datos para extraer patrones interesantes hasta ahora
desconocidos, como los grupos de registros de datos (anlisis clster), registros
poco usuales (la deteccin de anomalas) y dependencias (minera por reglas de
asociacin). Esto generalmente implica el uso de tcnicas de bases de datos como
los ndices espaciales. Estos patrones pueden entonces ser vistos como una especie
de resumen de los datos de entrada, y pueden ser utilizados en el anlisis adicional
o, por ejemplo, en la mquina de aprendizaje y anlisis predictivo. Por ejemplo, el
paso de minera de datos podra identificar varios grupos en los datos, que luego
pueden ser utilizados para obtener resultados ms precisos de prediccin por un
sistema de soporte de decisiones. Ni la recoleccin de datos, preparacin de datos,
ni la interpretacin de los resultados y la informacin son parte de la etapa de

minera de datos, pero que pertenecen a todo el proceso KDD como pasos
adicionales.
Los trminos relacionados con la obtencin de datos, la pesca de datos y espionaje
de los datos se refieren a la utilizacin de mtodos de minera de datos a las partes
de la muestra de un conjunto de datos de poblacin ms grandes establecidas que
son (o pueden ser) demasiado pequeas para las inferencias estadsticas fiables
que se hizo acerca de la validez de cualquier patrn descubierto. Estos mtodos
pueden, sin embargo, ser utilizados en la creacin de nuevas hiptesis que se
prueban contra poblaciones de datos ms grandes.

Proceso[editar]
Un proceso tpico de minera de datos consta de los siguientes pasos generales:
1. Seleccin del conjunto de datos, tanto en lo que se refiere a las
variables objetivo (aquellas que se quiere predecir, calcular o inferir),
como a las variables independientes (las que sirven para hacer el clculo
o proceso), como posiblemente al muestreo de los registros disponibles.
2. Anlisis de las propiedades de los datos, en especial
los histogramas, diagramas de dispersin, presencia de valores
atpicos y ausencia de datos (valores nulos).
3. Transformacin del conjunto de datos de entrada, se realizar de
diversas formas en funcin del anlisis previo, con el objetivo de
prepararlo para aplicar la tcnica de minera de datos que mejor se
adapte a los datos y al problema, a este paso tambin se le conoce
como preprocesamiento de los datos.
4. Seleccionar y aplicar la tcnica de minera de datos, se construye
el modelo predictivo, de clasificacin o segmentacin.
5. Extraccin de conocimiento, mediante una tcnica de minera de
datos, se obtiene un modelo de conocimiento, que representa patrones
de comportamiento observados en los valores de las variables del
problema o relaciones de asociacin entre dichas variables. Tambin
pueden usarse varias tcnicas a la vez para generar distintos modelos,
aunque generalmente cada tcnica obliga a un preprocesado diferente
de los datos.
6. Interpretacin y evaluacin de datos, una vez obtenido el modelo,
se debe proceder a su validacin comprobando que las conclusiones que

arroja son vlidas y suficientemente satisfactorias. En el caso de haber


obtenido varios modelos mediante el uso de distintas tcnicas, se deben
comparar los modelos en busca de aquel que se ajuste mejor al
problema. Si ninguno de los modelos alcanza los resultados esperados,
debe alterarse alguno de los pasos anteriores para generar nuevos
modelos.
Si el modelo final no superara esta evaluacin el proceso se podra repetir
desde el principio o, si el experto lo considera oportuno, a partir de cualquiera
de los pasos anteriores. Esta retroalimentacin se podr repetir cuantas veces
se considere necesario hasta obtener un modelo vlido.
Una vez validado el modelo, si resulta ser aceptable (proporciona salidas
adecuadas y/o con mrgenes de error admisibles) ste ya est listo para su
explotacin. Los modelos obtenidos por tcnicas de minera de datos se aplican
incorporndolos en los sistemas de anlisis de informacin de las
organizaciones, e incluso, en los sistemas transaccionales. En este sentido cabe
destacar los esfuerzos del Data Mining Group, que est estandarizando el
lenguaje PMML (Predictive Model Markup Language), de manera que los
modelos de minera de datos seaninteroperables en distintas plataformas, con
independencia del sistema con el que han sido construidos. Los principales
fabricantes de sistemas de bases de datos y programas de anlisis de la
informacin hacen uso de este estndar.
Tradicionalmente, las tcnicas de minera de datos se aplicaban sobre
informacin contenida en almacenes de datos. De hecho, muchas grandes
empresas e instituciones han creado y alimentan bases de datos especialmente
diseadas para proyectos de minera de datos en las que centralizan
informacin potencialmente til de todas sus reas de negocio. No obstante,
actualmente est cobrando una importancia cada vez mayor la minera de
datos desestructurados como informacin contenida en ficheros de texto, en
Internet, etc.

Protocolo de un proyecto de minera de


datos[editar]
Un proyecto de minera de datos tiene varias fases necesarias que son,
esencialmente:

Comprensin: del negocio y del problema que se quiere resolver.

Determinacin, obtencin y limpieza: de los datos necesarios.

Creacin de modelos matemticos.

Validacin, comunicacin: de los resultados obtenidos.

Integracin: si procede, de los resultados en un sistema transaccional o


similar.

La relacin entre todas estas fases slo es lineal sobre el papel. En realidad, es
mucho ms compleja y esconde toda una jerarqua de subfases. A travs de la
experiencia acumulada en proyectos de minera de datos se han ido
desarrollando metodologas que permiten gestionar esta complejidad de una
manera ms o menos uniforme.

Tcnicas de minera de datos[editar]


Como ya se ha comentado, las tcnicas de la minera de datos provienen de
la inteligencia artificial y de la estadstica, dichas tcnicas, no son ms
que algoritmos, ms o menos sofisticados que se aplican sobre un conjunto de
datos para obtener unos resultados.
Las tcnicas ms representativas son:

Redes neuronales.- Son un paradigma de aprendizaje y procesamiento


automtico inspirado en la forma en que funciona el sistema nervioso de los
animales. Se trata de un sistema de interconexin de neuronas en
una red que colabora para producir un estmulo de salida. Algunos ejemplos
de red neuronal son:

El perceptrn.

El perceptrn multicapa.

Los mapas autoorganizados, tambin conocidos como redes


de Kohonen.

Regresin lineal.- Es la ms utilizada para formar relaciones entre


datos. Rpida y eficaz pero insuficiente en espacios multidimensionales
donde puedan relacionarse ms de 2 variables.

rboles de decisin.- Un rbol de decisin es un modelo de prediccin


utilizado en el mbito de la inteligencia artificial y el anlisis predictivo,
dada una base de datos se construyen estos diagramas de construcciones
lgicas, muy similares a los sistemas de prediccin basados en reglas, que
sirven para representar y categorizar una serie de condiciones que suceden
de forma sucesiva, para la resolucin de un problema. Ejemplos:

Algoritmo ID3.

Algoritmo C4.5.

Modelos estadsticos.- Es una expresin simblica en forma de


igualdad o ecuacin que se emplea en todos los diseos experimentales y
en la regresin para indicar los diferentes factores que modifican la variable
de respuesta.

Agrupamiento o Clustering.- Es un procedimiento de agrupacin de


una serie de vectores segn criterios habitualmente de distancia; se tratar
de disponer los vectores de entrada de forma que estn ms cercanos
aquellos que tengan caractersticas comunes. Ejemplos:

Algoritmo K-means.

Algoritmo K-medoids.
Reglas de asociacin.- Se utilizan para descubrir hechos que ocurren

en comn dentro de un determinado conjunto de datos.


Segn el objetivo del anlisis de los datos, los algoritmos utilizados se clasifican
en supervisados y no supervisados (Weiss y Indurkhya, 1998):

Algoritmos supervisados (o predictivos): predicen un dato (o un conjunto


de ellos) desconocido a priori, a partir de otros conocidos.

Algoritmos no supervisados (o del descubrimiento del conocimiento): se


descubren patrones y tendencias en los datos.

Ejemplos de uso de la minera de datos[editar]

Negocios[editar]
La minera de datos puede contribuir significativamente en las aplicaciones
de administracin empresarial basada en la relacin con el cliente. En lugar de contactar
con el cliente de forma indiscriminada a travs de un centro de llamadas o enviando emails, slo se contactar con aquellos que se perciba que tienen una mayor probabilidad
de responder positivamente a una determinada oferta o promocin.
Las empresas que emplean minera de datos ven habitualmente el retorno de la inversin,
pero tambin reconocen que el nmero de modelos predictivos desarrollados puede crecer

muy rpidamente. En lugar de crear modelos para predecir qu clientes pueden cambiar,
la empresa podra construir modelos separados para cada regin y/o para cada tipo de
cliente. Tambin puede querer determinar qu clientes van a ser rentables durante una
ventana de tiempo (una quincena, un mes, ...) y slo enviar las ofertas a las personas que
es probable que sean rentables. Para mantener esta cantidad de modelos, es necesario
gestionar las versiones de cada modelo y pasar a una minera de datos lo ms
automatizada posible.
En un entorno tan cambiante donde el volmenes de datos medibles crece
exponencialmente gracias al marketing digital 2 , "las esperas producidas por
dependencias de departamentos tcnicos y los expertos estadistas consiguen que
finalmente los resultados de los anlisis sean inservibles" a los usuarios de negocio y
decisores 3 . Esto explica que los proveedores de herramientas de minera de datos estn
trabajando en aplicaciones ms fciles de utilizar en lo que se conoce como minera de
datos visual 4 y la demanda de empleo de este tipo de usuario analista de negocio se est
disparando en los ltimos aos. Segn Gartner es previsible que durante 2016-2017 slo
haya "profesionales cualificados para cubrir una tercera parte de los puestos" 5 .
Anlisis de la cesta de la compra[editar]
El ejemplo clsico de aplicacin de la minera de datos tiene que ver con la deteccin
de hbitos de compra en supermercados. Un estudio muy citado detect que los viernes
haba una cantidad inusualmente elevada de clientes que adquiran a la vez paales y
cerveza. Se detect que se deba a que dicho da solan acudir al supermercado padres
jvenes cuya perspectiva para el fin de semana consista en quedarse en casa cuidando
de su hijo y viendo la televisin con una cerveza en la mano. El supermercado pudo
incrementar sus ventas de cerveza colocndolas prximas a los paales para fomentar las
ventas compulsivas.
Patrones de fuga[editar]
Un ejemplo ms habitual es el de la deteccin de patrones de fuga. En muchas industrias
como la banca, las telecomunicaciones, etc. existe un comprensible inters en
detectar cuanto antes aquellos clientes que puedan estar pensando en rescindir sus
contratos para, posiblemente, pasarse a la competencia. A estos clientes y en funcin de
su valor se les podran hacer ofertas personalizadas, ofrecer promociones especiales,
etc., con el objetivo ltimo de retenerlos. La minera de datos ayuda a determinar qu
clientes son los ms proclives a darse de baja estudiando sus patrones de comportamiento
y comparndolos con muestras de clientes que, efectivamente, se dieron de baja en el
pasado.

Fraudes[editar]
Un caso anlogo es el de la deteccin de transacciones de lavado de dinero o
de fraude en el uso de tarjetas de crdito o de servicios de telefona mvil e, incluso, en la
relacin de los contribuyentes con el fisco. Generalmente, estas operaciones fraudulentas
o ilegales suelen seguir patrones caractersticos que permiten, con cierto grado de
probabilidad, distinguirlas de las legtimas y desarrollar as mecanismos para tomar
medidas rpidas frente a ellas.
Recursos humanos[editar]
La minera de datos tambin puede ser til para los departamentos de recursos
humanos en la identificacin de las caractersticas de sus empleados de mayor xito. La
informacin obtenida puede ayudar a la contratacin de personal, centrndose en los
esfuerzos de sus empleados y los resultados obtenidos por stos. Adems, la ayuda
ofrecida por las aplicaciones para Direccin estratgica en una empresa se traducen en
la obtencin de ventajas a nivel corporativo, tales como mejorar el margen de beneficios o
compartir objetivos; y en la mejora de las decisiones operativas, tales como desarrollo de
planes de produccin o gestin de mano de obra.

Comportamiento en Internet[editar]
Tambin es un rea en boga el del anlisis del comportamiento de los visitantes sobre
todo, cuando son clientes potenciales en una pgina de Internet. O la utilizacin de la
informacin obtenida por medios ms o menos legtimos sobre ellos para ofrecerles
propaganda adaptada especficamente a su perfil. O para, una vez que adquieren un
determinado producto, saber inmediatamente qu otro ofrecerle teniendo en cuenta la
informacin histrica disponible acerca de los clientes que han comprado el primero.

Terrorismo[editar]
La minera de datos ha sido citada como el mtodo por el cual la unidad Able Danger del
Ejrcito de los EE. UU. haba identificado al lder de los atentados del 11 de septiembre de
2001,Mohammed Atta, y a otros tres secuestradores del "11-S" como posibles miembros
de una clula de Al Qaeda que operan en los EE. UU. ms de un ao antes del ataque. Se
ha sugerido que tanto la Agencia Central de Inteligencia y su homloga
canadiense, Servicio de Inteligencia y Seguridad Canadiense, tambin han empleado este
mtodo.6

Juegos[editar]
Desde comienzos de la dcada de 1960, con la disponibilidad de orculos para
determinados juegos combinacionales, tambin llamados finales de juego de tablero (por
ejemplo, para lastres en raya o en finales de ajedrez) con cualquier configuracin de inicio,
se ha abierto una nueva rea en la minera de datos que consiste en la extraccin de
estrategias utilizadas por personas para estos orculos. Los planteamientos actuales
sobre reconocimiento de patrones, no parecen poder aplicarse con xito al funcionamiento
de estos orculos. En su lugar, la produccin de patrones perspicaces se basa en una
amplia experimentacin con bases de datos sobre esos finales de juego, combinado con
un estudio intensivo de los propios finales de juego en problemas bien diseados y con
conocimiento de la tcnica (datos previos sobre el final del juego). Ejemplos notables de
investigadores que trabajan en este campo son Berlekampen el juego de puntos-ycajas (o Timbiriche) y John Nunn en finales de ajedrez.

Ciencia e Ingeniera[editar]
En los ltimos aos la minera de datos se est utilizando ampliamente en diversas reas
relacionadas con la ciencia y la ingeniera. Algunos ejemplos de aplicacin en estos
campos son:
Gentica[editar]
En el estudio de la gentica humana, el objetivo principal es entender la
relacin cartogrfica entre las partes y la variacin individual en las secuencias
del ADN humano y la variabilidad en la susceptibilidad a las enfermedades. En trminos
ms llanos, se trata de saber cmo los cambios en la secuencia de ADN de un individuo
afectan al riesgo de desarrollar enfermedades comunes (como por ejemplo el cncer).
Esto es muy importante para ayudar a mejorar el diagnstico, prevencin y tratamiento de
las enfermedades. La tcnica de minera de datos que se utiliza para realizar esta tarea se
conoce como "reduccin de dimensionalidad multifactorial".7
Ingeniera elctrica[editar]
En el mbito de la ingeniera elctrica, las tcnicas de minera de datos han sido
ampliamente utilizadas para monitorizar las condiciones de las instalaciones de alta
tensin. La finalidad de esta monitorizacin es obtener informacin valiosa sobre el estado
del aislamiento de los equipos. Para la vigilancia de las vibraciones o el anlisis de los
cambios de carga en transformadores se utilizan ciertas tcnicas para agrupacin de
datos (clustering) tales como los mapas auto-organizativos (SOM: Self-organizing map).
Estos mapas sirven para detectar condiciones anormales y para estimar la naturaleza de
dichas anomalas.8

Anlisis de gases[editar]
Tambin se han aplicado tcnicas de minera de datos para el anlisis de gases
disueltos (DGA: Dissolved gas analysis) en transformadores elctricos. El anlisis de
gases disueltos se conoce desde hace mucho tiempo como la herramienta para
diagnosticar transformadores. Los mapas auto-organizativos (SOM) se utilizan para
analizar datos y determinar tendencias que podran pasarse por alto utilizando las tcnicas
clsicas (DGA).

También podría gustarte