Está en la página 1de 6

MINERA DE DATOS Nombre: Josselyn Arias Facilitador: Ing.

Alexandra Gonzalez

Concepto: Es el proceso de detectar la informacin procesable de los conjuntos grandes de datos. Utiliza el anlisis matemtico para deducir los patrones y tendencias que existen en los datos. Normalmente, estos patrones no se pueden detectar mediante la exploracin tradicional de los datos porque las relaciones son demasiado complejas o porque hay demasiado datos.

Los modelos de minera de datos se pueden aplicar en escenarios como los siguientes:

Pronstico: clculo de las ventas y prediccin de las cargas del servidor o del tiempo de inactividad del servidor.

Riesgo y probabilidad: eleccin de los mejores clientes para la distribucin de correo directo, determinacin del punto de equilibrio probable para los escenarios de riesgo, y asignacin de probabilidades a diagnsticos y otros resultados.

Recomendaciones: determinacin de los productos que se pueden vender juntos y generacin de recomendaciones.

Bsqueda de secuencias: anlisis de los artculos que los clientes han introducido en el carrito de la compra y prediccin de posibles eventos.

Agrupacin: distribucin de clientes o eventos en grupos de elementos relacionados, y anlisis y prediccin de afinidades.

Existen seis pasos bsicos siguientes:

1. 2. 3. 4. 5. 6.

Definir el problema Preparar los datos Explorar los datos Generar modelos Explorar y validar los modelos Implementar y actualizar los modelos

METODOGAS: CRISP-DM, en sus primeros aos de divulgacin tena apoyos de empresas privadas y organismos pblicos, pero poco a poco ha ido perdiendo uno que otro Project Partner. Desconocemos el motivo de esta aparente perdida de apoyo, pero estamos seguros que no corresponde a la falta de calidad o efectividad del mtodo, porque ha sido adoptado por otros organismos y empresas.

El estndar incluye un modelo y una gua, estructurados en seis fases, algunas de estas fases son bidireccionales, lo que significa que algunas fases permitirn revisar parcial o totalmente las fases anteriores. Esta requiere: Comprensin del negocio (Objetivos y requerimientos desde una perspectiva no tcnica)

Establecimiento de los objetivos del negocio (Contexto inicial, objetivos, criterios de xito) Evaluacin de la situacin (Inventario de recursos, requerimientos, supuestos, terminologas propias del negocio,) Establecimiento de los objetivos de la minera de datos (objetivos y criterios de xito) Generacin del plan del proyecto (plan, herramientas, equipo y tcnicas)

Comprensin de los datos (Familiarizarse con los datos teniendo presente los objetivos del negocio)

Recopilacin inicial de datos Descripcin de los datos Exploracin de los datos Verificacin de calidad de datos

Preparacin de los datos (Obtener la vista minable o dataset)


Seleccin de los datos Limpieza de datos Construccin de datos Integracin de datos Formateo de datos

Modelado (Aplicar las tcnicas de minera de datos a los dataset)


Seleccin de la tcnica de modelado Diseo de la evaluacin Construccin del modelo Evaluacin del modelo

Evaluacin (De los modelos de la fase anteriores para determinar si son tiles a las necesidades del negocio) Despliegue (Explotar utilidad de los modelos, integrndolos en las tareas de toma de decisiones de la organizacin)

Planificacin de despliegue Planificacin de la monitorizacin y del mantenimiento Generacin de informe final Revisin del proyecto

EL PROCESO DE KDD El proceso de KDD consiste en usar mtodos de minera de datos(algoritmos) para extraer (identificar) lo que se considera como conocimiento de acuerdo a la especificacin de ciertos parmetros usando una base de datos junto con preprocesamientos y postprocesamientos. En la figura2.2 de la pagina 9se ilustra el proceso de KDD. Se estima que la extraccin de patrones (minera) de los datos ocupa solo el 15% - 20% del esfuerzo total del proceso de KDD. El proceso de descubrimiento de conocimiento en bases de datos involucra varios pasos: Determinar las fuentes de informacin: que pueden ser tiles y dnde conseguirlas.

Proceso de KDD

Disear el esquema de un almacn de datos (Data Warehouse): que consiga unificar de manera operativa toda la informacin recogida. Implantacin del almacn de datos: que permita la navegacin y visualizacin previa de sus datos, para discernir qu aspectos puede interesar que sean estudiados. Esta es la etapa que puede llegar a consumir el mayor tiempo. Seleccin, limpieza y transformacin de los datos que se van a analizar: la seleccin incluye tanto una criba o fusin horizontal (filas) como vertical (atributos).La limpieza y prepocesamiento de datos se logra diseando una estrategia adecuada para manejar ruido, valores incompletos, secuencias de tiempo, casos extremos (si es necesario), etc.

Seleccionar y aplicar el mtodo de minera de datos apropiado: esto incluye la seleccin de la tarea de descubrimiento a realizar, por ejemplo, clasificacin, agrupamiento o clustering, regresin, etc. La seleccin de l o de los algoritmos a utilizar. La transformacin de los datos al formato requerido por el algoritmo especfico de minera de datos. Y llevar a cabo el proceso de minera de datos, se buscan patrones que puedan expresarse como un modelo o simplemente que expresen dependencias de los datos, el modelo encontrado depende de su funcin (clasificacin) y de su forma de representarlo (rboles de decisin, reglas, etc.), se tiene que especificar un criterio de preferencia para seleccionar un modelo dentro de un conjunto posible de modelos, se tiene que especificar la estrategia de bsqueda a utilizar (normalmente est predeterminada en el algoritmo de minera). Evaluacin, interpretacin, transformacin y representacin de los patrones extrados: Interpretar los resultados y posiblemente regresar a los pasos anteriores. Esto puede involucrar repetir el proceso, quizs con otros datos, otros algoritmos, otras metas y otras estrategias. Este es un paso crucial en donde se requiere tener conocimiento del dominio. La interpretacin puede beneficiarse de procesos de visualizacin, y sirve tambin para borrar patrones redundantes o irrelevantes. Difusin y uso del nuevo conocimiento. Incorporar el conocimiento descubierto al sistema (normalmente para mejorarlo) lo cual puede incluir resolver conflictos potenciales con el conocimiento existente. El conocimiento se obtiene para realizar acciones, ya sea incorporndolo dentro de un sistema de desempeo o simplemente para almacenarlo y reportarlo a las personas interesadas. En este sentido, KDD implica un proceso interactivo e iterativo involucrando la aplicacin de varios algoritmos de minera de datos.

Evaluacin de resultados Revisar el proceso Establecimiento de los siguientes pasos o acciones

DEFINICIN DEL PROYECTO DE MINERA DE DATOSS Trabajar con el siguiente dataset: http://aws.amazon.com/datasets/8172056142375670

Google Books Ngrams


Public Data Sets>Google Books Ngrams

A data set containing Google Books n-gram corpuses. This data set is freely available on Amazon S3 in a Hadoop friendly file format and is licensed under a Creative Commons Attribution 3.0 Unported License. The original dataset is available from http://books.google.com/ngrams/. Bibliografa Pgina Web. CONCEPTOS DE MINERA, Consultado el 12 de abril de 2012, Disponible en: http://msdn.microsoft.com/es-es/library/ms174949.aspx MARN CARLOS, Proceso KDD, Consultado el 12 de abril de 2012, Disponible en: http://mineriadatos.blogspot.com/2009/04/el-proceso-de-kdd.html

También podría gustarte