Está en la página 1de 22

Bases de Datos

Minera de Datos
Introduccin
Da a da generamos informacin y esto nos lleva a tener
una gran cantidad de esta, lo cual implica que el generar
informacin, nos puede ayudar a controlar, optimizar,
administrar, examinar, investigar, planificar, predecir,
someter, negociar o tomar decisiones de cualquier
mbito segn el dominio en que nos desarrollemos.
Qu es Minera de Datos?

- La extraccin no trivial de informacin implcita,


previamente desconocida y potencialmente til, a
partir de datos. (1)

- La integracin de un conjunto de reas que tienen


como propsito la identificacin de un
conocimiento obtenido a partir de las bases de
datos que aporten un sesgo hacia la toma de
decisin(2)
Proceso de Minera de Datos

Los pasos a seguir para la realizacin de un proyecto de minera de


datos son:

1. La Determinacin de los Objetivos. Trata sobre la delimitacin de


los objetivos que el cliente desea

2. Pre procesamiento de los Datos. Se refiere a la seleccin, la


limpieza, el enriquecimiento, la reduccin y transformacin de las
bases de datos.
Proceso de Minera de Datos
3. Determinacin del Modelo. Se comienza realizando unos anlisis
estadsticos de los datos y despus se lleva a cabo una visualizacin
grfica de los mismos para tener una primera aproximacin. Segn los
objetivos planteados y la tarea que debe llevarse a cabo son los
algoritmos a utilizarse.

4. Anlisis de los Resultados. Verifica si los resultados obtenidos son


coherentes con los obtenidos por el anlisis y la visualizacin grfica.
Y el cliente determina si le aporta nuevos conocimientos que le
permita la toma de decisiones.
Principales Caractersticas de MD
Explorar los datos que se encuentran en las profundidades de las bases
de datos, o almacenes de datos, que algunas veces contienen informacin
almacenada durante varios aos.
El entorno de la minera de datos suele tener una arquitectura cliente-
servidor.
Las herramientas de la minera de datos ayudan a extraer el mineral de
la informacin enterrado en archivos corporativos o en registros pblicos
archivados.
Las herramientas de la minera de datos se combinan fcilmente y
pueden analizarse y procesarse rpidamente.
La minera de datos produce cinco tipos de informacin:
Asociaciones.
Secuencias.
Clasificaciones.
Agrupamientos.
Pronsticos.
Aplicaciones de Minera de Datos
Qu es el proceso de KDD?
Extraccin de Conocimiento en Bases de Datos

- Es la extraccin automatizada de conocimiento o patrones


interesantes, no triviales, implcitos, previamente
desconocidos, potencialmente tiles y predictivos de la
informacin de grandes Bases de Datos.(3)

- El proceso de KDD consiste en usar mtodos de minera de


datos(algoritmos) para extraer (identificar) lo que se
considera como conocimiento de acuerdo a la especificacin
de ciertos parmetros usando una base de datos junto con
preprocesamientos y post-procesamientos.
Fases del KDD
Fases del KDD
Determinar las fuentes de informacin.
Disear el esquema de un almacn de datos (Data Warehouse): que
consiga unificar de manera operativa toda la informacin recogida.
Implantacin del almacn de datos: que permita la navegacin y
visualizacin previa de sus datos, para decidir qu aspectos puede
interesar que sean estudiados.
Seleccin, limpieza y transformacin de los datos que se van a analizar:
la seleccin incluye tanto una divisin o fusin horizontal (filas) como
vertical (atributos).La limpieza y prepocesamiento de datos se logra
diseando una estrategia adecuada para manejar errores, valores
incompletos, secuencias de tiempo, etc.
Seleccionar y aplicar el mtodo de minera de datos apropiado: esto
incluye la seleccin de la tarea de descubrimiento a realizar, por ejemplo,
clasificacin, agrupamiento o clustering, regresin, etc. La
transformacin de los datos al formato requerido por el algoritmo
especfico de minera de datos.
Fases del KDD
Evaluacin, interpretacin, transformacin y representacin de los
patrones extrados, interpretar los resultados y posiblemente regresar a
los pasos anteriores. Esto puede involucrar repetir el proceso, quizs con
otros datos, otros algoritmos, otras metas y otras estrategias.

Difusin y uso del nuevo conocimiento. Incorporar el conocimiento


descubierto al sistema lo cual puede incluir resolver conflictos existentes.
El conocimiento se obtiene para realizar acciones o la toma de decisiones.
DATOS

PROBLEMAS TCNICAS DE
DATA MINING
A
L
G
O
R
I
T
M IMPLANTAR
O
S
MODELO DE
DATA MINING

Estadstica o Inteligencia Artificial No esttico


1
2
Con el modelado se construye un modelo en una situacin donde se
conoce la respuesta y luego se aplica en otra situacin de la cual se
desconoce la respuesta.

1
3
CLASIFICACION DE ALGORITMOS DE
MINERIA DE DATOS

1
4
Descripcin
Normalmente esta tcnica es usada para anlisis preliminar de
los datos (resumen, caractersticas de los datos, etc.).

Describir un comportamiento en una base de datos compleja


para aumentar el conocimiento y entendimiento sobre gente,
productos, procesos etc. (Visualizacin Diferenciacin)

Establecer que las mujeres presentan menor siniestralidad en


seguros de automvil que los hombres
Identificar las caractersticas de personas que apoya uno u otro
partido poltico

1
5
Ejemplo
Gestin de personal de una empresa: Qu clases de empleados
hay contratados?

Datos:

Modelo generado:
Minera de datos

Grupo 1: Sin nios y en una casa alquilada. Bajo nmero de uniones. Muchos das enfermos

Grupo 2: Sin nios y con coche. Alto nmero de uniones. Pocos das enfermos. Ms mujeres y en una casa alquilada

Grupo 3: Con nios, casados y con coche. Ms hombres y normalmente propietarios de casa. Bajo nmero de uniones
1
6
ALGORITMOS DE MINERIA DE DATOS

Prediccin
La meta es inducir un modelo para poder predecir una
clase dados los valores de los atributos
Ejemplo: Diagnostico medico, deteccin de fraude o que
Clasificacin producto compraran ms unos clientes, clasificar solicitudes de
crdito (alto, medio, bajo)
Se usan arboles de decisin, reglas, anlisis de discriminantes,
etc.

La meta es inducir un modelo para poder predecir el


valor de la clase dados los valores de los atributos
Estimacin Ejemplo: Estimar el valor del ingreso total de un grupo
familiar, Determinar probabilidad de transaccin sea
o Regresin fraudulenta , Estimar nmero de hijos en un grupo
familiar
Se usan rboles de regresin, regresin lineal, redes
neuronales, maquinas de vectores, etc.
1
7
rboles de decisin

SE SELECCIONA EL NODO
RAIZ Y ESTE SE DIVIDE DE
ACUERDO A LOS VALORES
DEL ATRIBUTO RAIZ
rboles de decisin
Representan reglas donde atributos independientes determinan los valores finales. En
estos rboles cada nodo representa una propiedad que puede tomar diversos valores,
cada uno de los cuales genera una rama. Los nodos hojas representan las clasificaciones
finales.
Nos pueden servir para tareas como:
Clasificacin en general y validaciones
Usadas donde se deben tomar decisiones a partir de varias alternativas
Son tiles en problemas de alta dimensionalidad y pequeo numero de valores
para cada atributo. Ingreso

> $5000 <=$5000


Genero Edad Modelo predictivo generado

M F >35 <= 35
Ingreso Genero Antigedad
0 Casado Soltera F M >=4 >4

0 1 0 1 0 1
If (Ingreso=>5000 AND Genero=F AND Estado = Soltera Then P(Coche)=1
1
9
rboles de decisin
rboles de decisin

Agente comercial: Debo conceder una hipoteca a un cliente?

Datos:

Modelo generado:
Minera de datos

If Defaulter-accounts > 0 then Returns-credit = no

If Defaulter-accounts = 0 and [(Salary > 2500) or (Credit-p > 10)] then Returns-credit = yes

2
1
Ejemplo
Tienda de TV: Cuntas televisiones planas se vendern el
prximo mes?

Datos:

Modelo generado:
Minera de datos

Modelo lineal: nmero de televisiones para el prximo mes


V(month)flatTV = 0.62 V(Month-1)flat-TV + 0.33 V(Month-2)flat-TV + 0.12 V(Month-1)DVD-Recorder 0.05

2
2

También podría gustarte