Está en la página 1de 20

Minera de Datos

Integrantes : Solange Bunster Berros Susana Donoso Jorquera Keber Flores Bustos Asignatura : Complejidad de Algoritmos Profesor : Mladen Nanidic Fecha : 03/07/2007

Introduccin

La revolucin digital ha permitido que la captura de datos sea fcil, y su almacenamiento tenga un costo casi nulo. Enormes cantidades de datos son recogidas y almacenadas en BD en la vida diaria. Resultado: Para analizar estas enormes cantidades de datos, las herramientas tradicionales de gestin de datos y las herramientas estadsticas no son adecuadas.

Introduccin

Los datos por s solos no producen beneficio directo. Su verdadero valor consiste en poder extraer informacin til para la toma de decisiones. Tradicionalmente se analizaban datos con la ayuda de tcnicas estadsticas (resumiendo y generando informes) o validando modelos sugeridos manualmente por los expertos.

Introduccin

Estos procesos son irrealizables a medida que aumenta el tamao de los datos. Bases de datos con un n de registros del orden de 109 y 103 de dimensin, son fenmenos relativamente comunes. La tecnologa informtica puede automatizar este proceso. Minera de datos

Qu es la Minera de Datos?

Es un mecanismo de explotacin que consiste en la bsqueda de informacin valiosa en grandes volmenes de datos. Ligada a las bodegas de datos (informacin histrica) con la cual los algoritmos de minera de datos obtienen informacin necesaria para la toma de decisiones.

Qu es la Minera de Datos?
La minera de datos se puede dividir en:

Minera de datos predictiva (mdp): usa primordialmente tcnicas estadsticas. Minera de datos para descubrimiento de conocimiento (mddc): usa principalmente tcnicas de inteligencia artificial.

Qu es la Minera de Datos?

Definiciones necesarias:
Datos: hechos o medidas que describen caractersticas de objetos, eventos o personas, es la materia prima de la que se obtendr la informacin.
Informacin: Datos analizados y presentados en forma adecuada, de inters para un observador en un momento determinado. Conocimiento: informacin procesada para emitir juicios que llevan a conclusiones. Meta Conocimiento: Reglas que permiten obtener conocimiento.

Qu es la Minera de Datos?

Una definicin de Minera de datos es: Un proceso no trivial de identificacin vlida, novedosa, potencialmente til y entendible de obtencin de patrones de los datos Un proceso ms general es KDD (Knowledge Discovery on Databases/ Descubrimiento de conocimiento en Bases de Datos). KDD es empleado para describir el proceso de extraccin de conocimiento de los datos. Definicin: La extraccin no-trivial de conocimiento implcito en los datos que resulte ser previamente desconocido y potencialmente til. El conocimiento debe ser nuevo, no obvio y debe estar disponible para el uso.

Qu es la Minera de Datos?

La minera de datos tiene como propsito la identificacin de un conocimiento obtenido a partir de las bases de datos que aporten hacia la toma de decisin.

Principales etapas en el proceso de Minera de Datos

Los pasos a seguir para la realizacin de un proyecto de minera de datos son siempre los mismos, independientemente de la tcnica especfica de extraccin de conocimiento usada. El proceso parece secuencial con desarrollo lineal, pero en la prctica, en cualquier etapa se detiene y vuelve atrs.

Filtro de Datos

El formato de los datos contenidos en la fuente de datos (base de datos, Data Warehouse) nunca es el idneo, y la mayora de las veces no es posible ni siquiera utilizar ningn algoritmo de minera sobre los datos "en bruto". Mediante el preprocesado, se filtran los datos (de forma que se eliminan valores incorrectos, no vlidos, desconocidos), se obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del proceso), o se reducen el nmero de valores posibles (mediante redondeo, clustering,...).

Seleccin de variables

An despus de haber sido preprocesados, en la mayora de los casos se tiene una cantidad bastante grande de datos. La seleccin de variables se realiza generalmente de una base de datos operacional. Para facilitar el proceso, los datos son copiados en otra base de datos denominada analtica. Las principales caractersticas de una Base de Datos Analtica, es que contienen gran cantidad de registros (informacin corporativa), son diseadas para fines especficos y siempre son de consulta. El principal objetivo de la seleccin de variables es escoger datos que contengan la informacin o el conocimiento que se desea obtener

Extraccin de Conocimiento

Mediante una tcnica de minera de datos (visualizacin, verificacin y descubrimiento), se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociacin entre dichas variables. Tambin pueden usarse varias tcnicas a la vez para generar distintos modelos, aunque generalmente cada tcnica obliga a un preprocesado diferente de los datos. El problema de la extraccin de conocimiento en general se puede reducir a la forma como se manipulan los diferentes tipos de datos.

Interpretacin y Evaluacin

Una vez obtenido el modelo, se debe proceder a su validacin, comprobando que las conclusiones que arroja son vlidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas tcnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos.

Lneas de Investigacin

Web Mining: consiste en aplicar tecnicas de mineria de datos a servicios web.

Text mining: trata de obtener informacin sin haber partido de algo.

Software

Software Weka: Completo y recurrente software de minera de datos de libre distribucin. MLC++: Conjunto de libreras y utilidades de minera de datos. Xelopes: Librera con licencia pblica GNU para el desarrollo de aplicaciones de minera de datos. C4.5: Sistema clsico de aprendizaje de rboles de decisin. FOIL: Software que permite el aprendizaje de modelos relacionales.

Ventajas de Minera de Datos

Contribuye a la toma de decisiones tcticas y estratgicas proporcionando un sentido automatizado para identificar informacin clave desde volmenes de datos generados por procesos tradicionales y de e-Business.

Proporciona poderes de decisin a los usuarios del negocio que mejor entienden el problema y el entorno y es capaz de medir la acciones y los resultados de la mejor forma . Genera Modelos descriptivos: permite a empresas, sin tener en cuenta el rubro o el tamao, explorar automticamente, visualizar y comprender los datos e identificar patrones, relaciones y dependencias que impactan en los resultados finales de la cuenta de resultados (tales como el aumento de los ingresos, incremento de los beneficios, contencin de costes y gestin de riesgos).
Genera Modelos predictivos: permite que relaciones no descubiertas e identificadas a travs del proceso de Minera de Datos sean expresadas como reglas de negocio o modelos predictivos. Estos outputs pueden comunicarse en formatos tradicionales (presentaciones, informes, informacin electrnica compartida, etc.) para guiar la estrategia y planificacin de la empresa.

Ejemplos

Clientes que compran paales tienden a comprar cerveza. Casi el 5% de clientes de un banco nacieron el 11 del noviembre de 1911. Comportamiento y perfil de los usuarios de una red LAN, mediante anlisis de trfico. Clusterizacin e Identificacin de Tendencias Temporales en Bases de datos de Documentos

Ej: Clusterizacin e Identificacin de Tendencias Temporales en Bases de datos de Documentos

Aplicacin: Weka (Waikato Environment for Knowledge Analysis)

También podría gustarte