Documentos de Académico
Documentos de Profesional
Documentos de Cultura
4 Minera de datos
Leonardo Nevrez
(MSDN) La minera de datos es el proceso de detectar la informacin procesable de los conjuntos grandes de datos. Utiliza el anlisis matemtico para deducir los patrones y tendencias que existen en los datos. Normalmente, estos patrones no se pueden detectar mediante la exploracin tradicional de los datos porque las relaciones son demasiado complejas o porque hay demasiado datos.
La minera de datos (DM, Data Mining) consiste en la extraccin no trivial de informacin que reside de manera implcita en los datos. Dicha informacin era previamente desconocida y podr resultar til para algn proceso. En otras palabras, la minera de datos prepara, sondea y explora los datos para sacar la informacin oculta en ellos.
Negocios
Aplicaciones de la minera.
(MSDN) Los modelos de minera de datos se pueden aplicar a situaciones empresariales como las siguientes: Predecir ventas.
Dirigir correo a clientes especficos. Determinar los productos que se pueden vender juntos. Buscar secuencias en el orden en que los clientes agregan productos a una cesta de compra.
Una vez validado el modelo, si resulta ser aceptable (proporciona salidas adecuadas y/o con mrgenes de error admisibles) ste ya est listo para su explotacin. Los modelos obtenidos por tcnicas de minera de datos se aplican incorporndolos en los sistemas de anlisis de informacin de las organizaciones, e incluso, en los sistemas transaccionales.
(MSDN) El proceso para obtener un modelo de minera de datos, se puede definir mediante los seis pasos bsicos siguientes:
Definir el problema Preparar los datos Explorar los datos Generar modelos Explorar y validar los modelos Implementar y actualizar los modelos
Crear una aplicacin de usuario final, donde el usuario proporcione las entradas, el sistema aplique el modelo y muestre el resultado.
Para la aplicacin se us VS2008, en un proyecto de Formas de Windows, y como lenguaje Visual BASIC.NET.
Modelo o patrn. Un modelo es una descripcin global del conjunto de datos. Toma una perspectiva completa y total. En contraste un patrn es una propiedad local de los datos, tal vez slo la tienen ciertas instancias o atributos.
Reconocimiento de patrones
El reconocimiento de patrones, tambin llamado lectura de patrones, identificacin de figuras y reconocimiento de formas es el reconocimiento de patrones en seales. No slo es un campo de la informtica sino un proceso fundamental que se encuentra en casi todas las acciones humanas.
Entre las aplicaciones del reconocimiento de patrones son el reconocimiento de voz, la clasificacin de documentos (por ejemplo spam/no spam), el reconocimiento de escritura y el reconocimiento de caras humanas.
Se encuentran en la ficha Classify. Se indica el algoritmo J48 para rboles de decisin. Usado en el ejemplo mostrado.
Segn el objetivo del anlisis de los datos, los algoritmos utilizados se clasifican en supervisados y no supervisados (Weiss y Indurkhya, 1998):
Algoritmos supervisados (o predictivos): predicen un dato (o un conjunto de ellos) desconocido a priori, a partir de otros conocidos. Algoritmos no supervisados (o del descubrimiento del conocimiento): se descubren patrones y tendencias en los datos.
La importancia que han cobrado los datos no estructurados (texto, pginas de Internet, etc.) La necesidad de integrar los algoritmos y resultados obtenidos en sistemas operacionales, portales de Internet, etc. La exigencia de que los procesos funcionen prcticamente en lnea (por ejemplo, frente a un fraude con una tarjeta de crdito). Los tiempos de respuesta. El gran volumen de datos que hay que procesar en muchos casos para obtener un modelo vlido es un inconveniente; esto implica grandes cantidades de tiempo de proceso y hay problemas que requieren una respuesta en tiempo real.