Descubrimiento de Conocimiento en Base de Datos

SISTEMAS OPERATIVOS TRABAJO MONOGRFICO REALIZADO POR: VERNICA S. BOGADO Y MARIANA C.
ARRUZAZABALA COMO ADSCRIPTAS A LA ASIGNATURA SISTEMAS OPERATIVOS SEPTIEMBRE - 2003
Descubrimiento de Conocimiento en Bases de Datos (KDD)
Minera de Datos (MD)
Introduccin
De forma general, los datos son la materia prima bruta. En el momento que el usuario les atribuye algn significado especial pasan a convertirse en informacin. Cuando los especialistas elaboran o encuentran un modelo, haciendo que la interpretacin de la informacin y ese modelo representen un valor agregado, entonces nos referimos al conocimiento. En la figura siguiente se ilustra la jerarqua que existe en una base de datos entre datos, informacin y conocimiento. Se observa igualmente el volumen que presenta en cada nivel y el valor que los responsables de las decisiones le dan en esa
jerarqua. El rea interna dentro del tringulo representa los objetivos que se han propuesto. La separacin del tringulo representa la estrecha unin entre dato e informacin, no as entre la informacin y el conocimiento.
La capacidad de generar y almacenar informacin creci considerablemente en los ltimos tiempos, se ha estimado que la cantidad de datos en el mundo almacenados en bases de datos se duplica cada 20 meses. Es as que hoy las organizaciones tienen gran cantidad de datos almacenados y organizados, pero a los cuales no les pueden analizar eficientemente en su totalidad. Con las sentencias SQL se puede realizar un primer anlisis, aproximadamente el 80% de la informacin se obtiene con estas tcnicas. El 20% restante, que la mayora de las veces, contiene la informacin ms importante, requiere la utilizacin de tcnicas ms avanzadas. El Descubrimiento de Conocimiento en Bases de Datos (KDD)apunta a procesar automticamente grandes cantidades de
datos para encontrar conocimiento til en ellos, de esta manera permitir al usuario el uso de esta informacin valiosa para su conveniencia.
Descubrimiento de Datos (KDD)

KDD
de
Conocimiento
en
Bases
El
es el
Proceso no trivial de identificar patrones vlidos, novedosos, potencialmente tiles y, en ltima instancia, comprensibles a partir de los datos . (Fayyad et al., 1996)
El objetivo fundamental del KDD es encontrar conocimiento til, vlido, relevante y nuevo sobre un fenmeno o actividad mediante algoritmos eficientes, dadas las crecientes rdenes de magnitud en los datos. Al mismo tiempo hay un profundo inters por presentar los resultados de manera visual o al menos de manera que su interpretacin sea muy clara. Otro aspecto es que la interaccin humano-mquina deber ser flexible, dinmica y colaboradora. El resultado de la exploracin deber ser interesante y su calidad no debe ser afectada por mayores volmenes de datos o por ruido en los datos. En este sentido, los algoritmos de descubrimiento de informacin deben ser altamente robustos.
Metas
Las metas del KDD son: Procesar crudos. Identificar los patrones ms significativos y relevantes. Presentarlos como conocimiento apropiado para satisfacer las metas del usuario. automticamente grandes cantidades de datos
Relacin con otras disciplinas
KDD nace como interfaz y se nutre de diferentes disciplinas:
Sistemas de informacin / bases de datos: tecnologas de bases de datos y bodegas de datos, maneras eficientes de almacenar, accesar y manipular datos.
Estadstica, aprendizaje automtico / IA (redes neuronales, lgica difusa, algoritmos genticos, razonamiento probabilstico): desarrollo de tcnicas para extraer conocimiento a partir de datos.
Reconocimiento de patrones: desarrollo de herramientas de clasificacin.
Visualizacin de datos: interfaz datos, y entre humanos y patrones.
entre
humanos
Computacin paralela / distribuida: cmputo de alto desempeo, mejora de desempeo de algoritmos debido a su complejidad y a la cantidad de datos.
Interfaces de lenguaje natural a bases de datos.
Grficamente stas relaciones pueden ser representadas de la siguiente manera:
Componentes
Conocimiento del dominio y preferencias del usuario: Incluye el diccionario de datos, informacin adicional de las estructuras de los datos, restricciones entre campos, metas o preferencias del usuario, campos relevantes, listas de clases, jerarquas de generalizacin, modelos causales o funcionales, etc.
El objetivo del conocimiento del dominio es orientar y ayudar en la bsqueda de patrones interesantes (aunque a veces puede causar resultados contraproducentes). Se tiene que hacer un balance entre eficiencia y completes del conocimiento.
Control del descubrimiento: Toma el conocimiento del dominio, lo interpreta y decide qu hacer (en la mayora de los sistemas el control lo hace el usuario).
Interfaces: Con la base de datos y con el usuario. Foco de atencin: Especifica qu tablas, campos y registros accesar. Tiene que tener mecanismos de seleccin aleatoria de registros tomando muestras estadsticamente significativas, puede usar predicados para seleccionar un subconjunto de los registros que comparten cierta caracterstica, etc.
Algunas tcnicas para enfocar la atencin incluyen: Agregacin: junta valores (por los ms bajos y los ms altos) ejemplo,
Particin de datos: sobre la base de valores de atributos (por ejemplo, slo aquellos datos que tengan ciertos valores) Proyeccin: ignorar algn(os) atributo(s) Particin y proyeccin implican menos dimensiones. Agregacin y proyeccin implican menos dispersin.
Extraccin de patrones: Donde patrn se refiere a cualquier relacin entre los elementos de la base de datos. Pueden incluir medidas de incertidumbre. Aqu se aplican una gran cantidad de algoritmos de aprendizaje y estadsticos. Evaluacin: Un patrn es interesante en la medida que sea confiable, novedoso y til respecto al conocimiento y los objetivos del usuario. La evaluacin normalmente se le deja a los algoritmos de extraccin de patrones que generalmente estn basados en significado estadstico (sin embargo, no es ni debe ser el nico criterio).
El proceso de KDD
El proceso de KDD consiste en usar mtodos de minera de datos (algoritmos) para extraer (identificar) lo que se considera como conocimiento de acuerdo a la especificacin de ciertos parmetros usando una base de datos junto con preprocesamientos y post-procesamientos. Se estima que la extraccin de patrones (minera) de los datos ocupa solo el 15% - 20% del esfuerzo total del proceso de KDD. El proceso de descubrimiento de conocimiento en bases de datos involucra varios pasos: Determinar las fuentes de informacin: ser tiles y dnde conseguirlas. que pueden
Disear el esquema de un almacn de datos (Data Warehouse): que consiga unificar de manera operativa toda la informacin recogida.
Implantacin del almacn de datos: que permita la navegacin y visualizacin previa de sus datos, para discernir qu aspectos puede interesar que sean estudiados. Esta es la etapa que puede llegar a consumir el mayor tiempo. Seleccin, limpieza y transformacin de los datos que se van a analizar: la seleccin incluye tanto una criba o fusin horizontal (filas) como vertical (atributos).La limpieza y prepocesamiento de datos se logra diseando una estrategia adecuada para manejar ruido, valores incompletos, secuencias de tiempo, casos extremos (si es necesario), etc. Seleccionar y aplicar el mtodo de minera de datos apropiado: esto incluye la seleccin de la tarea de descubrimiento a realizar, por ejemplo, clasificacin, agrupamiento o clustering, regresin, etc. La seleccin de l o de los algoritmos a utilizar. La transformacin de los datos al formato requerido por el algoritmo especfico de minera de datos. Y llevar a cabo el proceso de minera de datos, se buscan patrones que puedan expresarse como un modelo o simplemente que expresen dependencias de los datos, el modelo encontrado depende de su funcin (clasificacin) y de su forma de representarlo (rboles de decisin, reglas, etc.), se tiene que especificar un criterio de preferencia para seleccionar un modelo dentro de un conjunto posible de modelos, se tiene que especificar la estrategia de bsqueda a utilizar (normalmente est predeterminada en el algoritmo de minera). Evaluacin, interpretacin, transformacin y representacin de los patrones extrados: Interpretar los resultados y posiblemente regresar a los pasos anteriores. Esto puede involucrar repetir el proceso, quizs con otros datos, otros algoritmos, otras metas y otras estrategias. Este es un paso crucial en donde se requiere tener conocimiento del dominio. La interpretacin puede beneficiarse de procesos de visualizacin, y sirve tambin para borrar patrones redundantes o irrelevantes. Difusin y uso del nuevo conocimiento.
10
Incorporar el conocimiento descubierto al sistema (normalmente para mejorarlo) lo cual puede incluir resolver conflictos potenciales con el conocimiento existente. El conocimiento se obtiene para realizar acciones, ya sea incorporndolo dentro de un sistema de desempeo o simplemente para almacenarlo y reportarlo a las personas interesadas.
En este sentido, KDD implica un proceso interactivo e iterativo involucrando la aplicacin de varios algoritmos de minera de datos.
11
Minera de datos
La Minera de Datos proceso de KDD: es la etapa de descubrimiento en el
paso consistente en el uso de algoritmos concretos que generan una enumeracin de patrones a partir de los datos preprocesados (Fayyad et al., 1996) Aunque se suelen Minera de Datos. usar indistintamente los trminos KDD y
Principales caractersticas y objetivos de la Minera de Datos

Explorar los datos se encuentran en las profundidades de las bases de datos, como los almacenes de datos, que algunas veces contienen informacin almacenada durante varios aos. En algunos casos, los datos se consolidan en un almacn de datos y en mercados de datos; en otros, se mantienen en servidores de Internet e Intranet. El entorno de la minera de datos suele tener una arquitectura cliente-servidor. Las herramientas de la minera de datos ayudan a extraer el mineral de la informacin enterrado en archivos corporativos o en registros pblicos, archivados El minero es, muchas veces un usuario final con poca o ninguna habilidad de programacin, facultado por barrenadoras de datos y otras poderosas herramientas indagatorias para efectuar preguntas ad hoc y obtener rpidamente respuestas. Hurgar y sacudir a menudo implica el descubrimiento de resultados valiosos e inesperados. Las herramientas de la minera de datos se combinan fcilmente y pueden analizarse y procesarse rpidamente. Debido a la gran cantidad de datos, algunas veces resulta necesario usar procesamiento en paralelo para la minera de datos. La minera informacin: de datos produce cinco tipos de
12
asociaciones secuencias clasificaciones agrupamientos pronsticos de datos usan varias herramientas y
Los mineros tcnicas.
La minera de datos es un proceso que invierte la dinmica del mtodo cientfico en el siguiente sentido: En el mtodo cientfico, primero se formula la hiptesis y luego se disea el experimento para coleccionar los datos que confirmen o refuten la hiptesis. Si esto se hace con la formalidad adecuada (cuidando cules son las variables controladas y cules experimentales), se obtiene un nuevo conocimiento. En la minera de datos, se coleccionan los datos y se espera que de ellos emerjan hiptesis. Se busca que los datos describan o indiquen por qu son como son. Luego entonces, se valida esa hiptesis inspirada por los datos en los datos mismos, ser numricamente significativa, pero experimentalmente invlida. De ah que la minera de datos debe presentar un enfoque exploratorio, y no confirmador. Usar la minera de datos para confirmar las hiptesis formuladas puede ser peligroso, pues se est haciendo una inferencia poco vlida. La minera de datos es una tecnologa compuesta por etapas que integra varias reas y que no se debe confundir con un gran software. Durante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que pueden ser estadsticas, de visualizacin de datos o de inteligencia artificial, principalmente. Actualmente existen aplicaciones o herramientas comerciales de minera de datos muy poderosas que contienen un sinfn de utileras que facilitan el desarrollo de un proyecto. Sin embargo, casi siempre acaban complementndose con otra herramienta.
Historia
La idea de minera de datos no es nueva. Ya desde los aos sesenta los estadsticos manejaban trminos como data fishing, data mining o data archaeology con la idea de encontrar
13
correlaciones sin una hiptesis previa en bases de datos con ruido. A principios de los aos ochenta, Rakesh Agrawal, Gio Wiederhold, Robert Blum y Gregory Piatetsky-Shapiro, entre otros, empezaron a consolidar los trminos de minera de datos y KDD. A finales de los aos ochenta slo existan un par de empresas dedicadas a esta tecnologa; en 2002 existen ms de 100 empresas en el mundo que ofrecen alrededor de 300 soluciones. Las listas de discusin sobre este tema las forman investigadores de ms de ochenta pases. Esta tecnologa ha sido un buen punto de encuentro entre personas pertenecientes al mbito acadmico y al de los negocios. La evolucin de sus herramientas en el transcurso del tiempo puede dividirse en cuatro etapas principales:

Coleccin de datos (1960) Acceso de datos (1980) Almacn de datos y apoyo a las decisiones (principios de la dcada de 1990) Minera de datos inteligente ( finales de la dcada de 1990)
Aplicaciones actuales de la Minera de Datos

Anlisis de la cesta de la compra mediante reglas de asociacin. Modelos para crditos...). anlisis de riesgos (seguros,
Evaluacin de campaas publicitarias. Anlisis de la fidelidad de clientes (churning). Anlisis de valores de bolsa. Deteccin y electrnico. prevencin de fraude en comercio
Modelos de trfico a partir de datos GPS. Perfiles de usuarios de redes. Deteccin de intrusos en redes. 14
Herramientas y tcnicas del KDD

Existen muchas metodologas del descubrimiento del conocimiento en uso y bajo desarrollo. Algunas de estas tcnicas son genricas, mientras otros son de dominio especfico. Caractersticas bsicas que comparten todas las tcnicas KDD :
Grandes cantidades de datos: para poder derivar un conocimiento adicional.
Eficiencia debido al volumen de datos.
Exactitud: es un elemento esencial para asegurar que el descubrimiento del conocimiento es vlido
Uso de un lenguaje de alto nivel: los resultados debern ser presentados de una manera entendible para el ser humano
Uso de alguna forma de aprendizaje automatizado: tcnicas de aprendizaje inteligente que van examinando los datos a travs de procesos automatizados.
Produccin de resultados interesantes: debe tener un valor potencial para el usuario.
KDD proporciona la capacidad para descubrir informacin nueva y significativa usando los datos existentes. KDD rpidamente excede la capacidad humana para analizar grandes cantidades de datos. La cantidad de datos que requieren procesamiento y anlisis en grandes bases de datos exceden las capacidades humanas y la dificultad de transformar los datos con precisin es un conocimiento que va ms all de los lmites de las bases de datos tradicionales. Por consiguiente, la utilizacin plena
15
de los datos almacenados depende descubrimiento del conocimiento.
del
uso
de
tcnicas
del
Tcnicas de KDD
Las tcnicas de aprendizaje podrn ser supervisadas o no supervisadas. En general, las tcnicas de aprendizaje dirigidas disfrutan de un rango de xito definido por la utilidad del descubrimiento del conocimiento. KDD tpicamente combina mtodos automatizados con la interaccin humana para asegurar resultados exactos, tiles, y entendibles.
Mtodo Probabilstico Utiliza modelos de representacin grfica para comparar las diferentes representaciones del conocimiento. Estos modelos estn basados en las probabilidades e independencias de los datos. Estos son tiles para aplicaciones que involucran incertidumbre y aplicaciones estructuradas tal que una probabilidad puede asignarse a cada uno de los ``resultados'' o pequea cantidad del descubrimiento del conocimiento. Las tcnicas probabilsticas pueden usarse en los sistemas de diagnstico, planeacin y sistemas de control
Mtodo estadstico Usa la regla del descubrimiento y se basa en las relaciones de los datos. El algoritmo de aprendizaje inductivo puede seleccionar automticamente trayectorias tiles y atributos para construir las reglas de una base de datos con muchas relaciones'. Este tipo de induccin es usado para generalizar los modelos en los datos y construir las reglas de los modelos nombrados. El proceso analtico en lnea (OLAP) es un ejemplo de un mtodo orientado a la estadstica.
Mtodo de clasificacin Es el mtodo ms viejo y ms usado de todos los mtodos de KDD. Este mtodo agrupa los datos de acuerdo a similitudes o clases. Hay muchos tipos de clasificacin de tcnicas y numerosas herramientas disponible que son automatizadas.
16
Mtodo Bayesian: es un modelo grfico que usa directamente los arcos exclusivamente para formar un [sic] grfica acclica. Usa los medios probabilsticos y grficos de representacin, pero tambin es considerado un tipo de clasificacin. Redes de Bayesian: se usan cuando la incertidumbre se asocia con un resultado y puede expresarse en trminos de una probabilidad. Este mtodo cuenta con un dominio del conocimiento codificado y ha sido usado para los sistemas de diagnstico.
Descubrimiento de patrones y de datos: es otro tipo de clasificacin que sistemticamente reduce una base de datos grande a unos cuantos archivos informativos. Si el dato es redundante y poco interesante se elimina, la tarea de descubrir los patrones en los datos se simplifica. Este mtodo trabaja en la premisa de un dicho viejo, `` menos es ms''. El descubrimiento de patrones y las tcnicas de limpia de datos son tiles para reducir volmenes enormes de datos en las aplicaciones, tal como aquellos encontrados al analizar las grabaciones de un sensor automatizado. Una vez que las lecturas del sensor se reducen a un tamao manejable usando la tcnica de limpia de datos, pueden reconocerse con ms facilidad los patrones de datos.
El mtodo del rbol de decisin usa las reglas de produccin, construidas como figuras grficas basado en datos premisos, y clasificacin de los datos segn sus atributos. Este mtodo requiere clases de datos que son discretos y predefinidos. El uso primario de este mtodo es para predecir modelos que pueden ser apropiados para cualquier clasificacin o tcnicas de regresin.
Mtodo de desviacin y tendencia del anlisis La base de este mtodo es el mtodo de deteccin por filtrado. Normalmente las tcnicas de anlisis y desviacin son aplicadas temporalmente en las bases de datos. Una buena aplicacin para este tipo de KDD es el anlisis de trfico en las grandes redes de telecomunicaciones. AT&T usa tales sistemas para localizar e identificar circuitos que exhiben la desviacin (conducta defectuosa). El volumen 17
total de datos que requieren anlisis generan una tcnica imperativa automatizada. Este tipo de tendencia de anlisis tambin podra demostrar utilidad en los datos astronmicos y oceanogrficos, ya que sus datos estn basados en el tiempo y volumen.
Otros Mtodos Redes neuronales son particularmente tiles para el reconocimiento de patrones y algunas veces se pueden agrupar con los mtodos de clasificacin. Algoritmos genticos son usados para la clasificacin, son similares a las redes neuronales aunque estas son consideradas ms poderosos.
Mtodo hbrido Tambin es llamado mtodo multi-paradigmtico. Combina la potencia de ms de un mtodo, aunque la implementacin puede ser ms difcil. Algunos de los mtodos comnmente usados combinan tcnicas de visualizacin, induccin, redes neuronales y los sistemas basados en reglas para llevar a cabo el descubrimiento de conocimiento deseado. Tambin se han usado bases de datos deductivas y algoritmos genticos en los mtodos hbridos.
Herramientas adicionales
La tendencia es proveer al usuario herramientas y facilidades para poder realizar KDD. Desde este punto de vista, el proceso de KDD involucra interacciones complejas a travs del tiempo entre un humano y una base de datos usando un conjunto de herramientas heterogneas. Ayudas para analizar datos; entendimiento estructura, cobertura y calidad de los datos Herramientas para seleccionar ajustarlas y refinar el modelo Visualizacin de datos y de patrones
de
la
herramientas,
18
Integracin de mdulos (la salida de uno sirva de entrada en otro) Segmentacin (seleccin) y discretizacin de datos Incorporacin de conocimiento del dominio Interpretacin de salidas Descubrimiento de la tarea a realizar Limpieza de datos (sin eliminar datos interesantes) Acoplamiento fuerte con bases de datos Desarrollo de algoritmos ms eficientes, escalables y su paralelizacin
Minera de Datos: algoritmos y modelos

El proceso de minera involucra ajustar modelos o determinar patrones a partir de datos. Este ajuste normalmente es de tipo estadstico, en el sentido que se permite un cierto ruido o error dentro del modelo. Los algoritmos de minera de datos realizan en general tareas de descripcin (de datos y patrones), de prediccin (de datos desconocidos) y de segmentacin (de datos). Otras, como anlisis de dependencias e identificacin de anomalas se pueden utilizar tanto para descripcin como para prediccin. Descripcin: se utiliza para el anlisis preliminar de los datos (resumen, caractersticas de los datos, casos extremos, etc.). Con esto, el usuario se familiariza con los datos y sus estructuras. Busca derivar descripciones concisas de caractersticas de los datos ( medias, desviaciones estndares, etc.).
Prediccin : Clasificacin: Los datos son objetos caracterizados por atributos que pertenecen a diferentes clases (etiquetas discretas).
19
La meta es inducir un modelo para poder predecir una clase dados los valores de los atributos. Se usan por ejemplo, rboles de decisin, reglas, anlisis de discriminantes, etc.
Estimacin continuas.
Regresin:
las
clases
son
La meta es inducir un modelo para poder predecir el valor de la clase dados los valores de los atributos. Se usan por ejemplo, rboles de regresin, regresin lineal, redes neuronales, kNN, etc.
Segmentacin: separacin de los datos en subgrupos o clases interesantes. Las clases pueden ser exhaustivas y mutuamente exclusivas o jerrquicas y con traslapes. Se puede utilizar con otras tcnicas de minera de datos: considerar cada subgrupo de datos por separado, etiquetarlos y utilizar un algoritmo de clasificacin. Se usan algoritmos de clustering, SOM (selforganization maps), EM (expectation maximization), k-means, etc. Normalmente el usuario tiene una buena capacidad de formar las clases y se han desarrollado herramientas visuales interactivas para ayudar al usuario.
Anlisis de dependencias: El valor de un elemento puede usarse para predecir el valor de otro. La dependencia puede ser probabilstica, puede definir una red de dependencias o puede ser funcional (leyes fsicas). Tambin se ha enfocado a encontrar si existe una alta proporcin de valores de algunos atributos que ocurren con cierta medida de confianza junto con valores de otros atributos. Se pueden utilizar redes Bayesianas, redes causales, y reglas de asociacin.
20
Deteccin de desviaciones, casos extremos o anomalas: Detectar los cambios ms significativos en los datos con respecto a valores pasados o normales. Sirve para filtrar grandes volmenes de datos que son menos probables de ser interesantes. El problema est en determinar cundo una desviacin es significativa para ser de inters.
La aplicacin de los algoritmos de minera de datos requiere la realizacin de una serie de actividades previas encaminadas a preparar los datos de entrada debido a que, en muchas ocasiones dichos datos proceden de fuentes heterogneas, no tienen el formato adecuado o contienen ruido. Por otra parte, es necesario interpretar y evaluar los resultados obtenidos. El proceso completo consta de las siguientes etapas [Cabena et al., 1998]:
1. Determinacin de los objetivos 2. Preparacin de los datos 3. Seleccin: Identificacin de las fuentes de informacin
externas e internas y seleccin del subconjunto de datos necesario.
4. Preprocesamiento: estudio de la calidad de los datos y

determinacin de las operaciones de minera que se pueden realizar.
5. Transformacin de datos: conversin de datos en un modelo

analtico.
6. Minera de datos: tratamiento automatizado de los datos

seleccionados algoritmos. con una combinacin apropiada de
7. Anlisis de resultados: interpretacin de los resultados

obtenidos en la etapa anterior, generalmente con la ayuda de una tcnica de visualizacin.
8. Asimilacin del conocimiento: aplicacin del conocimiento

descubierto. Aunque los pasos anteriores se realizan en el orden en que aparecen, el proceso es altamente iterativo, establecindose
21
retroalimentacin entre los mismos. Adems, no todos los pasos requieren el mismo esfuerzo, generalmente la etapa de preprocesamiento es la ms costosa ya que representa aproximadamente el 60 % del esfuerzo total, mientras que la etapa de minera slo representa el 10%.
Componentes bsicas de los modelos de minera de datos

Lenguaje de representacin del modelo: es muy importante que se sepan las suposiciones y restricciones en la representacin empleada para construir modelos. Evaluacin del modelo: En cuanto a predictividad se basa en tcnicas de validacin cruzada (cross validation) en cuanto a calidad descriptiva del modelo se basan en principios como el de mxima verosimilitud (maximum likelihood) o en el principio de longitud de descripcin mnima o MDL (minimum description length). Mtodo de bsqueda: se puede dividir en bsqueda de parmetros y bsqueda del modelo, y determinan los criterios que se siguen para encontrar los modelos (hiptesis).
Modelos de Minera de Datos
Predictivos o Basados en la Memoria Tcnicas: Clasificacin, Prediccin de valores. Ejemplos: Cul es el riesgo de este cliente?, Se quedar el cliente? Los modelos predictivos requieren de un set de pruebas y de interacciones de entrenamiento:
1. Seleccin de pruebas. 2. Minado inicial. 3. Resultado. 4. Aplicacin

de representativa. una segunda muestra
5. Anlisis de los resultados
22
6. Interacciones
consistente.
hasta
lograr
un
modelo
7. Aplicar al negocio.
Descriptivos Tcnicas : Asociacin, Segmentacin o 'Clustering' Ejemplos: Un cliente que compra productos dietticos es tres veces ms probable que compre caramelos.
Recomendaciones para implementar la tecnologa de Minera de Datos
Primer Paso
-Construir la Infraestructura (Data Warehouse). -Implementar el proceso y crear la cultura
Segundo Paso
-Incorporar Minera de datos al proceso. -Seleccionar la herramienta. -Identificar reas de aplicacin o problemas de negocio en dnde la minera de datos puede ayudarnos.
Tcnicas ms comnmente usadas en Minera de Datos

Redes neuronales artificiales: modelos predecible no-lineales que aprenden a travs del entrenamiento y semejan la estructura de una red neuronal biolgica.
23
rboles de decisin: estructuras de forma de rbol que representan conjuntos de decisiones. Estas decisiones generan reglas para la clasificacin de un conjunto de datos. Se realizan cortes sobre una variable, lo cual limita su expresividad, pero facilita su comprensin. Generalmente se usan tcnicas heursticas en su construccin Los mtodos especficos de rboles de decisin incluyen rboles de Clasificacin y Regresin (CART: Classification And Regression Tree) y Deteccin de Interaccin Automtica de Chi Cuadrado (CHAI: Chi Square Automatic Interaction Detection) Algoritmos genticos: tcnicas de optimizacin que usan procesos tales como combinaciones genticas, mutaciones y seleccin natural en un diseo basado en los conceptos de evolucin. Inspirados en el principio de la supervivencia de los ms aptos. La recombinacin de soluciones buenas en promedio produce mejores soluciones. Es una analoga con la evolucin natural. Programacin Gentica: se basan en la evolucin de programas de cmputos que permitan explicar o predecir con mnimo error un determinado fenmeno. Mtodo del vecino ms cercano: una tcnica que clasifica cada registro en un conjunto de datos basado en una combinacin de las clases del/de los k registro (s) ms similar/es a l en un conjunto de datos histricos (donde k 1). Algunas veces se llama la tcnica del vecino k-ms cercano. Regla de induccin: la extraccin de reglas if-then de datos basados en significado estadstico. Modelos grficos de dependencias probabilsticas: bsicamente redes bayesianas, en donde la evaluacin se basa en probabilidad y el encontrar el modelo en heursticas. Clustering: agrupan datos cuya distancia multidimensional introclase es pequea e interclase es grande. (incluye clasificadores difusos).Agrupa los datas basndose en las similitudes de los mismos. Ej: descripcin de cada uno de los consumidores. En este caso se agrupara consumidores con caractersticas similares y al mismo tiempo se maximizaran las diferencias entre los distintos 24
grupos de consumidores. Existen diferentes tcnicas de clustering y cada una de las mismas tiene sus propias aproximaciones para descubrir las aproximaciones que existen entre sus datos. Anlisis de Enlace (Link analysis): describe una familia de tcnicas que determinan asociaciones entre los registros de datos. El tipo de anlisis de enlace ms conocido es el Anlisis de la canasta de mercado; en este caso los registros son los items comprados por un cliente durante la misma transaccin y debido a que la tcnica fue derivada del anlisis de los datos de un supermercado, se considera que estos se encuentran en la misma canasta al momento de la compra o transaccin. El anlisis de la Canasta de Mercados descubre la combinacin de items que fueron comprados por diferentes consumidores, y por asociacin o enlace se puede determinar que tipos de productos son comprados juntos. El anlisis de enlace no se restringe solo al anlisis de la canasta de mercado, teniendo en cuenta que la canasta es un grupo de registros de datos la tcnica puede ser usada en cualquier situacin donde haya un nmero grande de grupos de registros de datos. Anlisis de Frecuencia (Frequency anlisis): comprende aquellas tcnicas de minera de datos que son aplicadas al anlisis de registros ordenados en el tiempo o cualquier conjunto de datos que puedan ser ordenado en el tiempo. Estas tcnicas de minera de datos intenta detectar secuencias o subsecuencias similares en los datos ordenados.
Muchas de estas tecnologas han estado en uso por ms de una dcada en herramientas de anlisis especializadas que trabajan con volmenes de datos relativamente pequeos. Estas capacidades estn ahora evolucionando para integrarse directamente con herramientas OLAP y de Data Warehousing.
25
Bibliografa
http://dns1.mor.itesm.mx/~emorales/Cursos/KDD01 http://www.lania.mx/spanish/actividades/newsletters/1999otono-invierno/retos_mineria.html http://dns1.mor.itesm.mx/~emorales/Cursos/KDD01/principal .html
Documentos en PDF:
Aplicacin de tcnicas de minera de datos en la Construccin y validacin de modelos predictivos y Asociativos a partir de especificaciones de requisitos De software. Mara N. Moreno Garca, Luis A. Miguel Quintales, Francisco J. Garca Pealvo y M.Jos Polo Martn-Universidad de SalamancaBodegas de Datos como Apoyo a la Toma de Decisiones. Dr. Jos Torres Jimnez Minera de Datos e Minera de Datos e Inteligencia de Negocios Inteligencia de Negocios. Francisco J. CantCentro de Sistemas InteligentesMinera y Almacenes de Datos. http://usuarios.lycos.es/sachavir. Minera de datos- Conceptos y Objetivos. www.daedalus.es Mining Your Own Business in Retail Using DB2 Intelligent Miner for Data . ibm.com/redbooks Minera de Datos-Jos Hernndez Orallo.
26

Descubrimiento de Conocimiento en Base de Datos

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Descubrimiento de Conocimiento en Base de Datos

Cargado por

Copyright:

Formatos disponibles

SISTEMAS OPERATIVOS TRABAJO MONOGRFICO REALIZADO POR: VERNICA S. BOGADO Y MARIANA C.

ARRUZAZABALA COMO ADSCRIPTAS A LA ASIGNATURA SISTEMAS OPERATIVOS SEPTIEMBRE - 2003

Descubrimiento de Conocimiento en Bases de Datos (KDD)

Minera de Datos (MD)

Descubrimiento de Datos (KDD)

Relacin con otras disciplinas

KDD nace como interfaz y se nutre de diferentes disciplinas:

Reconocimiento de patrones: desarrollo de herramientas de clasificacin.

Visualizacin de datos: interfaz datos, y entre humanos y patrones.

Interfaces de lenguaje natural a bases de datos.

Grficamente stas relaciones pueden ser representadas de la siguiente manera:

Principales caractersticas y objetivos de la Minera de Datos

asociaciones secuencias clasificaciones agrupamientos pronsticos de datos usan varias herramientas y

Los mineros tcnicas.

Aplicaciones actuales de la Minera de Datos

Herramientas y tcnicas del KDD

Grandes cantidades de datos: para poder derivar un conocimiento adicional.

Eficiencia debido al volumen de datos.

Produccin de resultados interesantes: debe tener un valor potencial para el usuario.

de los datos almacenados depende descubrimiento del conocimiento.

Minera de Datos: algoritmos y modelos

4. Preprocesamiento: estudio de la calidad de los datos y

5. Transformacin de datos: conversin de datos en un modelo

6. Minera de datos: tratamiento automatizado de los datos

7. Anlisis de resultados: interpretacin de los resultados

8. Asimilacin del conocimiento: aplicacin del conocimiento

Componentes bsicas de los modelos de minera de datos

Modelos de Minera de Datos

1. Seleccin de pruebas. 2. Minado inicial. 3. Resultado. 4. Aplicacin

5. Anlisis de los resultados

Recomendaciones para implementar la tecnologa de Minera de Datos

-Construir la Infraestructura (Data Warehouse). -Implementar el proceso y crear la cultura

Tcnicas ms comnmente usadas en Minera de Datos

También podría gustarte