Está en la página 1de 7

Introducción

Data Mining
Introducción

Profesor: Danilo Gómez Correa

Universidad del Bio Bio

Primer Semestre 2021

Profesor: Danilo Gómez Correa. Minería de Datos


Introducción

Contenidos

1 Introducción
Generalidades
Proceso KDD
Minería de Datos

Profesor: Danilo Gómez Correa. Minería de Datos


Generalidades
Introducción Proceso KDD
Minería de Datos

La Minería de Datos es la habilidad para transformar los datos en información, y la


información en conocimiento, de forma que se pueda optimizar el proceso de toma de
decisiones en los negocios.

La ciencia de datos actúa como un factor estratégico para una empresa u organi-
zación, generando una potencial ventaja competitiva, que no es otra que proporcionar
información privilegiada para responder a los problemas de negocio:

entrada a nuevos mercados. planicación de la producción.


promociones u ofertas de
productos. análisis de perles de clientes.
control nanciero. rentabilidad de un producto
optimización de costes. concreto.
Profesor: Danilo Gómez Correa. Minería de Datos
Generalidades
Introducción Proceso KDD
Minería de Datos

Proceso (KDD) de Extracción del Conocimiento


El proceso KDD (Knowledge Discovery in Databases) lo podemos denir como el pro-
ceso no trivial de identicar patrones válidos, novedosos y potencialmente útiles y
en última instancia, comprensible a partir de los datos. Las etapas del Proceso son:
Selección de datos: Consiste en buscar el objetivo y las herramientas del proceso
de minería, identicando los datos que han ser extraídos.
Limpieza de datos:. En este paso se limpian los datos, incluyendo los datos
incompletos, el ruido y datos inconsistentes. Los datos sucios en algunos casos
deben ser eliminados ya que pueden contribuir a un análisis inexacto y resultados
incorrectos.
Transformación de datos: consisten principalmente en modicaciones sintácticas
llevadas a cabo sobre datos sin que supongan un cambio para la técnica de minería
aplicada.
Minería de Datos: Consiste en la búsqueda de los patrones de interés que pueden,
además, se tiene que especicar la estrategia de búsqueda a utilizar (normalmente
está determinado en el algoritmo de minería).
Evaluación de los patrones: Se identican verdaderamente patrones interesan-
tes que representan conocimiento usando diferentes técnicas incluyendo análisis
estadísticos y lenguajes de consultas.
Interpretación de resultados: Consiste en entender los resultados del análisis y
sus implicaciones y puede llevar a regresar a algunos de los pasos anteriores.
Profesor: Danilo Gómez Correa. Minería de Datos
Generalidades
Introducción Proceso KDD
Minería de Datos

Etapas del Proceso

Figura: Proceso KDD.

Profesor: Danilo Gómez Correa. Minería de Datos


Generalidades
Introducción Proceso KDD
Minería de Datos

Data Mining

La minería de datos es algo que empieza por los alrededores de los años sesenta, ya
los estadísticos manejaban términos como Data Fishing, Data Mining (DM) o Data
Archaeology con la idea de encontrar correlaciones sin una Denición previa de bases
de datos.
En los principios de los años ochenta, Rakesh Agrawal, GioWiederhold, Robert Blum y
Gregory Piatetsky-Shapiro y otros, empezaron a consolidar los términos de Minería de
Datos y KDD.

La Minería de Datos la podemos denir como una etapa particular en el proceso KDD,
donde la Minería de Datos aplica algoritmos especícos o técnicas especícas para la
extracción de patrones de los datos

Las aplicaciones son diversas por nombrar algunas:

Segmentación de clientes. Detección de fraude.


Predicción de compra. Investigación de mercado.

Profesor: Danilo Gómez Correa. Minería de Datos


Generalidades
Introducción Proceso KDD
Minería de Datos

Técnicas usadas en Data Mining

Estadística Descriptiva: Se ocupa Cluster: El análisis de cluster es una


principalmente de la limpieza de los técnica cuya idea básica es agrupar
datos, además de, ordenar, analizar un conjunto de observaciones en un
y representar a un conjunto de da- número dado de clusters o grupos.
tos, con el n de describir apropia- Este agrupamiento se basa en la idea
damente las características de este. de distancia o similitud entre las ob-
Reglas de Asociación: se utilizan servaciones.
para descubrir hechos que ocurren
en común dentro de un determina-
do conjunto de datos. Redes neuronales: son un paradig-
Árboles de Decision: es un mode- ma de aprendizaje y procesamien-
lo de predicción. Dada una base de to automático inspirado en la forma
datos se construyen diagramas de en que funciona el sistema nervioso
construcciones lógicas, muy simila- de los animales. Se trata de un sis-
res a los sistemas de predicción ba- tema de interconexión de neuronas
sados en reglas, que sirven para re- que colaboran entre sí para producir
presentar y categorizar una serie de un estímulo de salida. En inteligen-
condiciones que ocurren de forma cia articial es frecuente referirse a
sucesiva, para la resolución de un ellas como redes de neuronas o redes
problema. neuronales.

Profesor: Danilo Gómez Correa. Minería de Datos

También podría gustarte