Está en la página 1de 8

Diferencia entre "Descubrimiento del

Conocimiento" y "Minería de Datos".
KDD es un proceso no trivial de identificar válidos, nuevos, potencialmente útiles y últimamente
comprensibles patrones en los datos que consta de nueve pasos que se inicia con el desarrollo y
comprensión del dominio de la aplicación hasta la actuación sobre el conocimiento descubierto. La
Minería de Datos es uno de los pasos (séptimo) del proceso de KDD y consiste, básicamente, en la
búsqueda de patrones de interés in una forma representacional particular o en un conjunto de
éstas representaciones.
Áreas donde más se utiliza el KDD.
1.

Astronomía: SKICAT, un sistema usado por astrónomos para realizar el análisis de

imágenes, el clasificación y catalogación de objetos del cielo de las imágenes en estudio.
2.

Marketing: analizan las bases de datos del cliente para identificar diferentes grupos de

clientes y prever su conducta.
3.

Inversión: usa sistemas expertos, redes neuronales y algoritmos genéticos para manejar

carpetas, detección de fraudes. HNC Falcon y Nestor PRISMA para monitorear fraudes en tarjetas
de crédito y CASSIOPEE se aplicó, usando cluster para derivar familias de fallas, en tres
aerolíneas grandes europeas para diagnosticar y predecir problemas en los Boing 737.
4.

Fabricación: FAIS se utiliza para identificar transacciones financieras que podrían indicar

actividades de lavado de dinero).

5.

Telecomunicaciones: TASA para localizar episodios de alarma que ocurren frecuentemente

desde el stream de alarma y las presenta como reglas ofrece herramienta de poda, agrupación y
ordenamiento.
6.

Limpieza de datos: MERGE-PURGE se aplicó para la identificación de reclamos de

asistencia social y ADVANCED SCOUT es un sistema de minería de datos especializado que
ayuda a los entrenadores de la NBA a organizar e interpretar datos obtenidos en los juegos de la
NBA.
7.

Internet FIREFLY es un agente de recomendación personal de música, CRAYON permite a

los usuarios crear su propio periódico libre y FARCAST busca información automáticamente para
el usuario de una amplia variedad de fuentes, etc.

Limpieza de datos: En la medida en que las organizaciones son forzadas a pensar que poseen una vista lógica unificada de una amplia variedad de datos y bases de datos. manejando ruido y errores. cuando sea posible. los datos almacenados fuera de línea). El data warehousing ayuda a establecer la etapa para KDD de dos maneras importantes: 1. históricamente. Las herramientas OLAP se centran en proporcionar análisis de datos multidimensionales lo cual es superior a SQL en la computación de resúmenes y cortes de control a través de múltiples dimensiones. la cual consiste en consultas a estructuras multidimensionales que contienen datos resumidos de grandes Bases de Datos o Sistemas Transaccionales. Etapas del proceso KDD 1. Acceso a datos: Se debe crear métodos uniformes y bien definidos para el acceso a los datos y proveer rutas de acceso a los datos que. pero el objetivo de las herramientas KDD es automatizar el proceso al máximo posible. . Desarrollo y comprensión del dominio de la aplicación y del conocimiento previo relevante y la identificación del objetivo del proceso KDD desde la perspectiva del cliente. Las herramientas OLAP están orientadas hacia la simplificación y el soporte del análisis de datos interactivos. 2. tienen que preocuparse de mapear los datos a una convención única de nombres representando y manejando datos faltantes uniformemente y.Que es el Data warehouse y cuales son sus etapas Tendencia popular de coleccionar y limpiar datos transaccionales para dejarlos disponibles para el análisis en línea y de apoyo a la toma de decisiones. son difíciles de obtener (por ejemplo. Definición de OLAP Es una solución utilizada en el campo de la Inteligencia de Negocios.

Creación de un conjunto de datos objetivo: seleccionar el conjunto de datos. decidir sobre estrategias para manejar campos de datos faltantes y contabilizar información sobre secuencias temporales y cambios conocidos. A través de métodos de reducción de dimensionalidades o transformación. coleccionar la información necesaria para modelar o contabilizar el ruido. dependiendo del objetivo de la tarea. 3. 6. o representaciones invariantes para los datos pueden ser encontradas. sumarización. Por ejemplo. clasificación. . Limpieza de los datos y preprocesamiento. Análisis exploratorio y modelamiento y selección de hipótesis: el elegir el o los algoritmos de minería de datos y seleccionar el o los métodos a ser usados en la búsqueda de patrones de datos. clustering y otros. 5. el usuario final podrías estar más interesado en comprender el modelo que en sus capacidades predictivas). la cantidad efectiva de variables bajo consideración puede ser reducida. regresión.2. Las operaciones básicas incluyen el remover ruidos si es apropiado. Reducción de datos y proyección: el encontrar características útiles para representar los datos. o enfocarse en un conjunto de variables o muestras de datos sobre los cuales se realizará el descubrimiento. Este proceso incluye el decidir qué modelo y parámetros pueden ser apropiados (por ejemplo. Matching de los objetivos de proceso: KDD con (paso 1) un método de minería de datos particular. 4. modelos de datos categóricos son diferentes a modelos de vectores sobre los reales) y el matching de un métodos de minería de datos particular con el criterio general del proceso KDD (por ejemplo.

bajo limitaciones de eficiencia computacional aceptables. 9. Este paso puede también involucrar la visualización de los patrones extraídos y modelos o la visualización de los datos dados los modelos extraídos. producen una enumeración particular de patrones (o modelos) sobre los datos. El usuario puede ayudar significativamente al método de minería de datos realizando correctamente los pasos precedentes. regresión y agrupamiento. posiblemente retornando a alguno de los pasos entre el paso 1 y 7 para iteraciones adicionales. Minería de datos: la búsqueda de patrones de interés in una forma representacional particular o en un conjunto de éstas representaciones. Nótese que el espacio de patrones es generalmente infinito y la enumeración de patrones involucra alguna forma de búsqueda en ese espacio.7. incorporando el conocimiento en otro sistema para acciones adicionales. Interpretación de los patrones minados. Que es la Minería de datos La minería de datos es un paso en el proceso KDD que consiste en aplicar análisis de datos y algoritmos de descubrimiento que. . o simplemente documentándolo e informándolo a los interesados. Actuar sobre el conocimiento descubierto: usando el conocimiento directamente. Este proceso también incluye la comprobación y resolución de potenciales conflictos con conocimiento previamente creído (o extraído). 8. incluyendo reglas de clasificación o árboles.

. Regresión es el aprendizaje de una función que mapea un ítem de datos a una variable de predicción con valores en R. Estadístico: permite efectos no determinísticos en el modelo 2. Lógico: es puramente determinístico. Sumarización involucra métodos para encontrar una descripción compacta para un conjunto de datos. Métodos de minería de datos 1.Se utilizan dos formalismos matemáticos primarios para el ajuste de modelos: 1. 3. Clustering es una tarea descriptiva común donde se busca identificar un conjunto finito de categorías o clusters para describir los datos 4. Clasificación es el aprendizaje de una función que mapea (clasifica) un ítem de dato en una de varias clases predefinidas. 2.

un patrón particular (un modelo y sus parámetros). 2. Criterio de evaluación del modelo son sentencias cuantitativas (o funciones de ajuste) sobre qué tan bien. Detección de cambios y desviaciones se enfocan en el descubrimiento de los cambios más significativos de los datos a partir de mediciones previas o valores normativos Componentes del Algoritmo de minería de datos 1. Método de búsqueda consiste de dos componentes: a) Búsqueda de parámetro b) Búsqueda de modelo .5. nivel estructural del modelo especifica (generalmente en forma gráfica) cuál de las variables son localmente dependientes de otras 2. satisface los objetivos del proceso de KDD. 3. Modelamiento de dependencias consiste en encontrar un modelo que describa las dependencias significativas entre los modelos de dependencia existen en dos niveles: 1. Representación del Modelo es el lenguaje utilizado para describir los patrones descubribles. 6. nivel cuantitativo modelo especifica la fuerza de las dependencias utilizando alguna escala numérica.

polinomios) con combinaciones de variables de entrada. entonces el problema de minería de datos ha sido reducido a simplemente una tarea de optimización: encontrar los parámetros y modelos a partir de la familia seleccionada que optimizan el criterio de evaluación Ejemplos de Métodos de Data Mininig 1. Si uno agranda el espacio del modelo para permitir más expresiones generales (tales como hiperplanos multivariantes en ángulos arbitrarios). con variados grados de sofisticación en términos de penalizar la complejidad del modelo. haciendo el modelo inferido relativamente fácil de comprender para el usuario. splines. Árboles de decisión y reglas que utilizan divisiones univariantes. así. .Una vez que la representación del modelo (o familia de representaciones) y el criterio de evaluación del modelo se establecen. En una gran parte. el poder de aproximación) del modelo. 2. tienen una simple forma de representación. Métodos de clasificación y regresión no lineal consisten en una familia de técnicas de predicción que hacen calzar combinaciones lineales y no lineales de funciones base (sigmoides. ellos dependen de la probabilidad de métodos basados en la evaluación de modelos. entonces el modelo es más poderoso en su predicción pero puede ser mucho más difícil de comprender. Sin embargo la restricción de la representación de un árbol particular o regla puede restringir significativamente la forma funcional (y.

Modelos de dependencia gráfica probabilística especifican dependencias probabilísticas utilizando una estructura gráfica. En su forma más simple. Modelos de aprendizaje relacional a pesar de que la representación de los árboles y reglas de decisión está restringida a una lógica proposicional. Las técnicas incluyen clasificación del vecino más cercano. las predicciones de nuevos ejemplos son derivadas de las propiedades de ejemplos similares en aquellos modelos en donde la predicción es conocida. Métodos basados en ejemplos usan ejemplos representativos sacados de las bases de datos para aproximar un modelo. algoritmos de regresión y sistemas de razonamiento.3. . esto es. el aprendizaje relacional (también conocido como programación de inducción lógica) usa el patrón de lenguaje de primer orden más flexible. Una desventaja potencial de métodos basados en ejemplos (comparados con los métodos basados en árboles) es que se requiere una métrica de distancia bien definida para evaluar la distancia entre puntos de datos. 4. 5. el modelo especifica cuáles variables son directamente proporcionales unas de otras.