Está en la página 1de 4

Proceso KDD

El descubrimiento de conocimiento en bases de datos es un campo de la inteligencia


artificial de rpido crecimiento, que combina tcnicas del aprendizaje de mquina,
reconocimiento de patrones, estadstica, bases de datos, y visualizacin para
automticamente extraer conocimiento (o informacin), de un nivel bajo de datos
(bases de datos). El KDD es un rea que est tomando importancia dado el crecimiento
actual de las bases de datos (incluyendo bases de datos relacionales, bases de datos de
objetos, bases de datos spatialtime y otras), y de la capacidad del hardware disponible
para procesar estos datos. Estas son las fases o etapas del proceso KDD:

1. Integracin y recopilacin de datos: en esta fase se pone en prctica el


Procesamiento Transaccional en lnea, el cual, cubre las necesidades diarias
como por ejemplo: control de inventario, facturacin, etc.
Decisiones estratgicas basadas en el anlisis, la planificacin y la prediccin, es
decir, datos de varios departamentos. Generalmente, la informacin que se
quiere investigar sobre un cierto dominio de la organizacin se encuentra en
bases de datos y otras fuentes muy diversas, tanto internas como externas,
muchas de estas fuentes son las que se utilizan para el trabajo transaccional.
El proceso subsiguiente de minera de datos depende mucho de la fuente tipo
OLAP u OLTP, Datawarehouse o copia con el esquema original, ROLAP o
MOLAP.
Depende tambin del tipo de usuario:
Picapedreros o granjeros: se dedican fundamentalmente a realizar
informes peridicos, ver la evolucin de determinados parmetros,
controlar valores anmalos, etc.
Exploradores: encargados de encontrar nuevos patrones significativos
utilizando tcnicas de minera de datos.

Aparte de informacin interna de la organizacin, los almacenes de datos


pueden recoger informacin externa:

Demogrficas (censo), pginas amarillas, psicografias (perfiles por zonas),


uso de internet, informacin de otras organizaciones.
Datos compartidos en una industria o rea de negocio, organizaciones y
colegios profesionales, catlogos, etc.
Datos resumidos de reas geogrficas, distribucin de la competencia,
evolucin de la economa, informacin de calendarios y climatolgicas,
programaciones televisivas-deportivas, catstrofes.
Bases de datos externas compradas a otras compaas.
2. Seleccin, limpieza y transformacin: primero seleccionamos los datos a minar.
Se hace la seleccin de variables relevantes. Luego se eliminan o corrigen los
datos incorrectos, es decir, se hace la parte de limpieza y transformacin de los
datos.
Algunos de los mtodos estadsticos que se utilizan:
Resmenes e histogramas (deteccin de datos anmalos).
Seleccin de datos (muestreo).
Redefinicin de atributos (agrupacin o separacin).

La seleccin y limpieza pueden acompaarse de transformacin de atributos


(numeracin, discretizacin, etc.)

El resultado es un conjunto de filas y columnas denominadas Vista Minable, la


vista minable integra datos de diferentes fuentes, los limpia, selecciona y
transforma, y los tipa, con el fin de prepararlos para la modelizacin.

Estos son los tipos de datos que nos podemos encontrar en esta fase y como
tratarlos:

Datos perdidos (missing): rellenarlos manualmente, ignorarlos, eliminar la


fila/columna, usar un valor especial p.e. unknow, inferirlos usando
tcnicas estadsticas.
Datos anmalos (outliers): primero identificarlos y despus el tratamiento
es parecido al caso anterior, solo que el valor puede darnos aluna idea.
Ruido: error aleatorio o siguiendo una varianza en los datos. El
tratamiento bsico es suavizar mediante tcnicas estadsticas (binning,
regresin, etc.)
Inconsistencias: registros duplicados, datos inconsistentes, normalmente
ya tratado en la elaboracin del DW.
3. Minera de datos: aqu se utilizan dos tipos de modelos, el modelo descriptivo y
el modelo predictivo. Se decide cual es la tarea a realizar y se elige el mtodo
que se va a utilizar. En esta etapa es donde se elige que informacin especfica
se quiere sacar de la base de datos y para qu.
Una vez recogidos los datos de inters, un explorador puede decir que tipo de
patrn quiere descubrir, el tipo de conocimiento que se desea extraer va a
marcar claramente la tcnica de minera de datos a utilizar.
Segn como sea la bsqueda del conocimiento se puede distinguir entre:
Directed data mining: se sabe claramente lo que se busca, generalmente
predecir unos ciertos datos o clases.
Undirected data mining: no se sabe lo que se busca, se trabaja con los
datos hasta que se encuentren relaciones.
4. Evaluacin e interpretacin: En esta ltima etapa se evalan los datos para
obtener los objetivos y se interpretan, de tal forma que sea lo ms legible
posible para el usuario. Se evalan los patrones y se analizan por los expertos, y
si es necesario se vuelve a las fases anteriores para una nueva interaccin.
La fase anterior produce una o ms hiptesis de modelos, para seleccionar y
validar estos modelos es necesario el uso de criterios de evaluacin de hiptesis.
Por ejemplo:
1ra Fase: comprobacin de la precisin del modelo en un banco de
ejemplos independientes del que se ha utilizado para aprender el
modelo. Se puede elegir el mejor modelo.
2da Fase: Se puede realizar una experiencia piloto con ese modelo. Por
ejemplo, si el modelo encontrado se quiere utilizar para predecir la
respuesta de los clientes a un nuevo producto, se puede enviar un
mailing a un subconjunto de clientes y evaluar la fiabilidad del modelo.

El despliegue del modelo a veces es trivial pero otras veces requiere un proceso
de implementacin o interpretacin:

El modelo puede requerir implementacin (p. ej. en tiempo real la


deteccin de tarjetas fraudulentas).
El modelo es descriptivo y requiere interpretacin (p. ej. una caracterstica
de zonas geogrficas segn la distribucin de los productos vendidos).
El modelo puede tener muchos usuarios y necesita difusin: el modelo
requiere ser expresado de una manera comprensible para ser distribuido
en la organizacin (p.ej. las cervezas y los productos congelados se
compran frecuentemente en conjunto, entonces, ponerlos en estantes
distantes).

Referencias:

https://pensamiento-integral-ia.wikispaces.com/file/view/dm-II_kdd.pdf

http://sedici.unlp.edu.ar/bitstream/handle/10915/21220/Documento_completo.pd
f?sequence=1
http://users.dsic.upv.es/~jorallo/master/dm2.pdf

https://prezi.com/dd67mvcfb_rk/fases-de-kdd/

También podría gustarte