Está en la página 1de 26

3.

4 Minera de datos

Leonardo Nevrez

3.4.1 Definiciones y conceptos.

(MSDN) La minera de datos es el proceso de detectar la informacin procesable de los conjuntos grandes de datos. Utiliza el anlisis matemtico para deducir los patrones y tendencias que existen en los datos. Normalmente, estos patrones no se pueden detectar mediante la exploracin tradicional de los datos porque las relaciones son demasiado complejas o porque hay demasiado datos.

La minera de datos (DM, Data Mining) consiste en la extraccin no trivial de informacin que reside de manera implcita en los datos. Dicha informacin era previamente desconocida y podr resultar til para algn proceso. En otras palabras, la minera de datos prepara, sondea y explora los datos para sacar la informacin oculta en ellos.

Las bases de la minera de datos se encuentran en la inteligencia artificial y en el anlisis estadstico.


Mediante los modelos extrados utilizando tcnicas de minera de datos se aborda la solucin a problemas de prediccin, clasificacin y segmentacin.

3.4.2 Aplicaciones de la minera de datos.


Ejemplos de uso de la minera de datos

Negocios

Hbitos de compra en supermercados Patrones de fuga Fraudes Recursos humanos

Comportamiento en Internet Terrorismo Juegos Ciencia e Ingeniera


Gentica Ingeniera elctrica Anlisis de gases

Aplicaciones de la minera.
(MSDN) Los modelos de minera de datos se pueden aplicar a situaciones empresariales como las siguientes: Predecir ventas.

Dirigir correo a clientes especficos. Determinar los productos que se pueden vender juntos. Buscar secuencias en el orden en que los clientes agregan productos a una cesta de compra.

3.4.3. Diseo de mineros de datos


Un proceso tpico de minera de datos consta de los siguientes pasos generales:
1. Seleccin del conjunto de datos. 2. Anlisis de las propiedades de los datos. 3. Transformacin del conjunto de datos de entrada. 4. Seleccionar y aplicar la tcnica de minera de datos, se construye el modelo de prediccin, de clasificacin o segmentacin. 5. Evaluar los resultados contrastndolos con un conjunto de datos previamente reservado para validar la generalidad del modelo.

Una vez validado el modelo, si resulta ser aceptable (proporciona salidas adecuadas y/o con mrgenes de error admisibles) ste ya est listo para su explotacin. Los modelos obtenidos por tcnicas de minera de datos se aplican incorporndolos en los sistemas de anlisis de informacin de las organizaciones, e incluso, en los sistemas transaccionales.

(MSDN) El proceso para obtener un modelo de minera de datos, se puede definir mediante los seis pasos bsicos siguientes:

Definir el problema Preparar los datos Explorar los datos Generar modelos Explorar y validar los modelos Implementar y actualizar los modelos

Diseo de mineros de datos.


WEKA. (Waikato Environment for Knowledge Analysis - Entorno para Anlisis del Conocimiento de la Universidad de Waikato) es un software para aprendizaje automtico y minera de datos escrito en Java. WEKA es un software libre distribuido bajo licencia GNU-GPL.

Diseo de mineros de datos.


WEKA puede usar varios formatos de los datos a analizar:
ARFF (Attribute-Relation File Format) XRFF (Xml attribute Relation File Format ) Datos externos (bases de datos)

El archivo weather.nominal.arff visto con el Weka Viewer.

El archivo weather.nominal.arff visto con el Bloc de notas.

Un archivo en formato .arff se puede leer, interpretar y procesar en WEKA.

El mismo archivo al aplicar un proceso de minera de datos.

Usar el modelo generado en una aplicacin.

Crear una aplicacin de usuario final, donde el usuario proporcione las entradas, el sistema aplique el modelo y muestre el resultado.

Usar el modelo generado en una aplicacin.

Para la aplicacin se us VS2008, en un proyecto de Formas de Windows, y como lenguaje Visual BASIC.NET.

Cdigo que usa el modelo.

3.4.4. Obtencin de informacin a travs de patrones de bsqueda.

Modelo o patrn. Un modelo es una descripcin global del conjunto de datos. Toma una perspectiva completa y total. En contraste un patrn es una propiedad local de los datos, tal vez slo la tienen ciertas instancias o atributos.

Reconocimiento de patrones

El reconocimiento de patrones, tambin llamado lectura de patrones, identificacin de figuras y reconocimiento de formas es el reconocimiento de patrones en seales. No slo es un campo de la informtica sino un proceso fundamental que se encuentra en casi todas las acciones humanas.

Entre las aplicaciones del reconocimiento de patrones son el reconocimiento de voz, la clasificacin de documentos (por ejemplo spam/no spam), el reconocimiento de escritura y el reconocimiento de caras humanas.

3.4.5. Tcnicas y herramientas de la minera de datos.


Las tcnicas de la minera de datos provienen de la Inteligencia artificial y de la estadstica.
Dichas tcnicas, no son ms que algoritmos, ms o menos sofisticados que se aplican sobre un conjunto de datos para obtener unos resultados.

Las tcnicas ms representativas son:


Redes neuronales. Regresin lineal. rboles de decisin. Modelos estadsticos. Agrupamiento o cluster.

Algunos algoritmos de WEKA.

Se encuentran en la ficha Classify. Se indica el algoritmo J48 para rboles de decisin. Usado en el ejemplo mostrado.

Segn el objetivo del anlisis de los datos, los algoritmos utilizados se clasifican en supervisados y no supervisados (Weiss y Indurkhya, 1998):

Algoritmos supervisados (o predictivos): predicen un dato (o un conjunto de ellos) desconocido a priori, a partir de otros conocidos. Algoritmos no supervisados (o del descubrimiento del conocimiento): se descubren patrones y tendencias en los datos.

3.4.6. Tendencias en minera de datos.


La Minera de Datos ha sufrido transformaciones en los ltimos aos de acuerdo con cambios tecnolgicos, de estrategias de marketing, la extensin de los modelos de compra en lnea, etc. Los ms importantes de ellos son:

La importancia que han cobrado los datos no estructurados (texto, pginas de Internet, etc.) La necesidad de integrar los algoritmos y resultados obtenidos en sistemas operacionales, portales de Internet, etc. La exigencia de que los procesos funcionen prcticamente en lnea (por ejemplo, frente a un fraude con una tarjeta de crdito). Los tiempos de respuesta. El gran volumen de datos que hay que procesar en muchos casos para obtener un modelo vlido es un inconveniente; esto implica grandes cantidades de tiempo de proceso y hay problemas que requieren una respuesta en tiempo real.

También podría gustarte