Está en la página 1de 5

QUE ES KDD

PROCESO DEL DESCUBRIMIENTO DEL CONOCIMIENTO EN BASE DE DATOS

La idea general de descubrir "conocimiento" en grandes base de datos es intuitiva y


llamativa, pero tcnicamente hablando es todo un desafo. El KDD es considerado como el
proceso no trivial de la extraccin de datos ocultos, previamente desconocidos y
potencialmente tiles. El proceso del Knowledge discovery debe ayudarnos a entender
como realmente se debera hacer el descubrimiento y como apoyar de esta forma al
analista, que es una persona humana despus de todo, sin ellos el proceso de descubrir
nuevos conocimientos simplemente no existira.

La extraccin de conocimiento es un proceso interactivo y repetitivo, no un sistema que


automticamente analiza los datos y nos da como resultado conocimiento til. La
interactividad del proceso se refiere a que el usuario debe entender y participar de todo el
proceso porque es l quien te da una pista de cual va a ser el dominio de la aplicacin, o sea
sobre que aspecto de los datos el quiere trabajar. Para entender mejor la funcin de los
usuarios que utilizan KDD, en este trabajo reconoceremos tres clases de usuarios: 1.el
experto del dominio, que debe entender muy bien sobre el dominio de la aplicacin; 2. el
analista, que es el que ejecuta todo el proceso y que por eso debe tener mucho
conocimiento sobre todos los pasos que tiene el proceso y 3. el usuario final, que no
necesita poseer mucho conocimiento pero es el que despus de terminado el proceso
utilizar el conocimiento extrado. El xito del proceso depende mucho de la interactividad
y comunicacin entre las diferentes clases de usuarios. Por ejemplo, es muy poco probable
que el Analista encuentre conocimiento til en una gran cantidad de datos sin que el
Experto le diga que le ser til para un dominio especfico.

El proceso

El proceso comienza cuando despus de presentado el problema por el usuario, (por


ejemplo administrador de empresas), se define el dominio con el cual se trabajar (esto lo
hace el experto), luego el analista en respuesta a esto se dispone a interrogar a la base de
datos en busca de datos relevantes al problema. El analista luego de encontrar datos
interesantes se dispone a "analizar" los mismos utilizando herramientas para el anlisis o
tcnicas de visualizacin. Este anlisis le da una percepcin especial acerca de los datos,
luego el analista presenta esta percepcin al usuario final.
Por ejemplo, consideremos un analista que trabaja para una compaa de ventas al por
menor que quiere saber "Cules son los factores que llevan al xito a una campaa de
promocin por del Da del Padre?" . En respuesta a este problema, el analista extraer datos
como el volumen de venta de productos durante una promocin por el Da del Padre,
extraer el volumen de ventas que se hicieron una semana antes de la promocin y el
volumen de ventas durante la promocin, querr saber que productos se vendieron, sus
caractersticas, marca, fbrica,etc; y las caractersticas que tuvo la promocin, como los
descuentos en los precios, si se hizo publicidad o no , y en que medios, como radio,
televisin o los peridicos.

El analista luego deber armar un anlisis definiendo algo que le permitir medir si la
promocin tuvo xito o no, como por ejemplo "el porcentaje en que se incrementaron las
ventas". Despus de definir esto, separar los productos que ms se vendieron, de los otros
y esto le permitir evaluar sus caractersticas para despus comparar estas caractersticas
con la de los productos que no se vendieron tanto.

La visualizacin de la separacin de los datos, le permitir tambin darse cuenta de que los
productos que ms se vendieron, fue por ejemplo porque tuvieron ms publicidad, y esto no
es una caracterstica propia del producto sino es algo que viene de afuera.

En este punto el analista puede querer preparar un reporte, presentando estos


descubrimientos utilizando herramientas como un Procesador de Textos, o un programa que
le permita representar sus resultados grficamente. En el reporte, se incluirn, la separacin
de los datos (los que ms se vendieron, los que menos se vendieron), grficos presentando
las relaciones que existen entre los productos que ms se vendieron y las caractersticas de
la promocin, y una descripcin textual de lo que haya encontrado.

En el ejemplo de arriba, el analista estuvo envuelto en 3 tareas principales: 1. seleccin y


evolucin del modelo, 2. anlisis de datos, 3.generacin de resultados. Los pasos 1 y 2 son
hechos por medio del anlisis y la utilizacin de tcnicas de visualizacin y estn apoyados
por una variedad de herramientas que interrogan a la base de datos. Ahora analizaremos
estos pasos con ms detenimiento empezando con el anlisis de datos.

Anlisis de datos

Como vimos en el ejemplo, el analista en la tarea de descubrir conocimientos pasa por


muchos pasos, pero el corazn del proceso es el anlisis de datos para confirmar una
posible hiptesis sobre los mismos, y algn tipo de herramienta para el anlisis es usada
para construir el modelo(los modelos que se construyen son generalmente de regresin o
clasificacin). En general, la idea es entender como ciertos grupos se comportan de una u
otra manera, determinar que reglas rigen el comportamiento de un segmento que nos
interesa de toda la poblacin, como por ejemplo "productos que fueron parte de la
promocin del da del padre"

Las herramientas que se utilizan para el anlisis pueden estar:

- Basadas en algoritmos: incluyen tcnicas estadsticas o la utilizacin de algoritmos como


las redes neuronales, rboles de decisin, etc.

- Basadas en la visualizacin: la hiptesis en este tipo de herramientas se presenta en forma


de grfico. El grfico producido es de por si un modelo que el analista puede analizar Las
tcnicas de la visualizacin de datos se ha convertido en un mtodo muy utilizado para
descubrir patrones en los datos porque causan un impacto directo en el analista o usuario.
Las tcnicas de visualizacin se utilizan en algunos pasos previos del proceso del
descubrimiento del conocimiento, se pueden utilizar para visualizar el modelo producido
por un determinado algoritmo de Data Mining, o en la parte del pre-procesamiento para
visualizar todos los datos en general.

El analista tratar de utilizar y combinar estas dos tcnicas repetitivamente. Los resultados
de una tcnica ayudan a mejorar las entradas que utilizar la otra, y as sucesivamente. Para
obtener mejores resultados la relacin entre estas dos tcnicas es sumamente importante en
todo el proceso de KDD.

Desarrollo del Modelo

En muchas aplicaciones de descubrimiento (por ejemplo, anlisis de datos de marketing), la


clave es encontrar sub poblaciones que se comporten de manera parecida para as enfocar el
anlisis hacia ellas. En otras palabras, en muchos casos trabajar con toda la poblacin puede
ser muy complicado.

Debemos restringir los parmetros. Esto nos lleva a que antes del anlisis de datos hay una
fase previa, la interaccin con los datos que nos llevar a formular la hiptesis. Ejemplo: En
esta fase el arquelogo de datos mira su paisaje de datos y decide donde empezar la
excavacin, basado en el conocimiento previo que tiene sobre los datos y su experiencia.
Una vez en el sitio, sacar todo el polvo (limpieza de datos), y empezar a juntar las piezas
que parecen congeniar y decidir que hacer luego para confirmar su hiptesis. El
arquelogo decide tambin que datos utilizar para seguir explorando y que deber ser
ignorado. El analista utiliza tcnicas de clustering para segmentar los datos, paramodelar
utiliza diferentes tipos de algoritmos (analizando bien cual le conviene ms), que pueden
ser redes neuronales, regresin, etc. Una parte esencial de todo este proceso es el
conocimiento previo que se tiene de los datos. Aqu interactan las tres clases de usuarios
compartiendo sus conocimientos y ayudndose mutuamente, tanto para definir el dominio
de la aplicacin, como para saber que algoritmo se utilizar finalmente, etc.

En el ejemplo del Da del Padre, el analista utiliz sus conocimientos previos para saber
que elementos de los datos deba analizar para encontrar el porcentaje con las cuales se
incrementaron las ventas y as usar este criterio para evaluar la promocin.

Est muy claro hasta ahora que el anlisis de los datos y el desarrollo del modelo son fases
que se complementan una a otra, y que el analista tiene que ser capaz de saltar de una fase a
otra repetitivamente.

Generacin del resultado

En el ms simple de los escenarios, un anlisis da como resultado un reporte de algn tipo.


Pero en los escenarios reales los resultados pueden ser muy variados y complicados. Un
buen grfico que capture todas las relaciones en el modelo puede ser muy apropiado.
Tambin es bueno pensar en el resultado del KDD como una especificacin para la
aplicacin que se construye, que luego va a responder una pregunta clave para el usuario
final.

Aspectos adicionales que deben ser tenidos en cuenta dentro del KDD

Descubrimiento de la Tarea

El usuario viene con un problema o una meta como si esta estuviera muy clara y bien
enfocada, pero siempre debemos hace una investigacin posterior. El analista debe pasar
tiempo con el usuario y conocer su compaa para as encontrar los elementos que necesita
completar la tarea que se le asign y para definir bien sus aplicaciones. Cuanto ms
profundamente el analista se cuestiona las cosas que emergieron al principio, y cuanto ms
tiempo pasa analizando los datos crudos, es cuando encontrar la meta real del
descubrimiento. Este proceso puede consumir mucho tiempo y es difcil, pero es mejor
perder el tiempo en esto que perder el tiempo tratando de contestar las preguntas
equivocadas.

Descubrimiento de Datos

Como un complemento de pasar tiempo con el usuario , los analistas tambin deben pasar
mucho tiempo analizando los datos crudos, para as conocerlos en su totalidad, ver como
lucen, y ver que cubren estos datos y que no. Deben entender la estructura, calidad y que
campo cubren los datos.

Limpieza de Datos

Los datos del cliente casi siempre tiene problemas. Por ejemplo, se encuentran campos
incompletos a los cuales les faltan archivos, errores en las entradas de los datos, etc. El
proceso KDD no tendr xito si no se pone atencin a esta parte, el analista se debe esforzar
por limpiar los datos. Sin la fase del descubrimiento de datos, el analista no sabr si los
datos le sirven para terminar su tarea o no. Usualmente los datos necesitan de mucho
trabajo antes de que puedan ser sometidos a un serio anlisis.

En esta fase nuevamente, es crucial el conocimiento previo que el analista tenga so bre el
campo sobre el cual quiere trabajar y sobre la tarea que va a realizar.