Está en la página 1de 3

TAREA DE INVESTIGACION

Minería de Datos y KDD


Minería de Datos
Definición
La minería de datos (Data Mining) es un conjunto de técnicas y tecnologías que permiten procesar
grandes cantidades de datos, con el objetivo de encontrar patrones, tendencias o reglas que existen
dentro de los datos.
Objetivo
La minería de datos surgió con la intención o el objetivo de ayudar a comprender una enorme
cantidad de datos, y que estos, pudieran ser utilizados para extraer conclusiones para contribuir en la
mejora y crecimiento de las empresas, sobre todo, por lo que hace a las ventas o fidelización de clientes.

Su principal finalidad es explorar, mediante la utilización de distintas técnicas y tecnologías, bases


de datos enormes de manera automática con el objetivo de encontrar patrones repetitivos, tendencias o
reglas que expliquen el comportamiento de los datos que se han ido recopilando con el tiempo. Estos
patrones pueden encontrarse utilizando estadísticas o algoritmos de búsqueda próximos a la Inteligencia
Artificial y a las redes neuronales.

Pasos de minería de datos

Los mineros o exploradores de datos a la hora de llevar a cabo un análisis de Data Mining, deberán
realizar cuatro pasos distintos:

 Determinación de los objetivos: Trata de la delimitación de los objetivos que el cliente desea
bajo la orientación del especialista en data mining.
 Procesamiento de los datos: Se refiere a la selección, la limpieza, el enriquecimiento, la
reducción y la transformación de los datos. Esta etapa consume generalmente alrededor del 70%
del tiempo total de un proyecto de data mining.
 Determinación del modelo: Se comienza realizando unos análisis estadísticos de los datos, y
después se lleva a cabo una visualización gráfica de los mismos para tener una primera
aproximación. Según los objetivos planteados y la tarea que debe llevarse a cabo, pueden
utilizarse algoritmos desarrollados en diferentes áreas de la Inteligencia Artificial.
 Análisis de los resultados: En este paso se deberán verificar si los resultados obtenidos son
coherentes.
El cliente determina si son novedosos y si le aportan un nuevo conocimiento que le permita
considerar sus decisiones.
Diferencia entre Big Data y Minería de Datos

El Big Data es una tecnología que tiene la capacidad de capturar, gestionar y procesar de forma
veraz todo tipo de datos, utilizando herramientas o softwares que identifican patrones comunes. Estos
patrones podrían ser características específicas de los consumidores, generación de parámetros, métricas,
entre muchos otros. Y, tienen la capacidad de cambiar la manera de hacer negocios, ya que permiten
aumentar la rentabilidad y productividad de las compañías.

A diferencia del Big Data, tal y como se ha comentado anteriormente, cuando hablamos de Data
Mining nos referimos al análisis de los grandes datos o Big Data para buscar y obtener una información
concreta, y así, poder ofrecer resultados que sirvan como solución para optimizar las actividades de una
empresa.

En resumen, Big Data y Minería de datos podrían ser definidos como el “activo” y el “manejo”,
respectivamente.

KDD – (Knowledge Discovery in Databases)

El Descubrimiento de conocimiento en bases de datos (KDD, del inglés Knowledge Discovery in


Databases) es básicamente un proceso automático en el que se combinan descubrimiento y análisis. El
proceso consiste en extraer patrones en forma de reglas o funciones, a partir de los datos, para que el
usuario los analice.

Esta tarea implica generalmente preprocesar los datos, hacer minería de datos (data mining) y presentar
resultados Las fases del proceso KDD se definen de la siguiente forma:

Recopilación: Consiste en la integración de diferentes fuentes de datos en un mismo almacén de


datos, data warehouse. En próximos artículos te explicaré en qué consiste un data warehouse.

Selección, limpieza y transformación de datos: Los datos integrados deben de ser tratados antes
de realizar el proceso de minería de datos. Debe realizarse una selección de aquellos datos que van a
utilizarse, y sobre ese subconjunto de datos hay que realizar un proceso de limpieza y transformado para
dejarlos en condiciones de ser tratados en fases posteriores. El objetivo de esta fase es obtener una vista
minable para la fase siguiente.

Minería de datos: Es considerada la fase más importante del proceso de KDD, se define como el
proceso de exploración y análisis, por medios automáticos o semiautomáticos, de los datos existentes en
la vista minable obtenida en la fase anterior con el fin de descubrir patrones/modelos significativos y
reglas. El resultado de la fase son los patrones/modelos de esa minería.

Interpretación y evaluación de modelos: El primer paso de esta fase es la evaluación de los


patrones y modelos obtenidos, ya que, antes de ser interpretados para la obtención de conocimiento,
debe de comprobarse que tienen la calidad suficiente para poder realizar la interpretación.

También podría gustarte