Está en la página 1de 41

Minera de Datos

Introduccin
Da a da generamos informacin y esto nos lleva a tener
una gran cantidad de esta, lo cual implica que el
generar informacin, nos puede ayudar a controlar,
optimizar, administrar, examinar, investigar, planificar,
predecir, someter, negociar o tomar decisiones de
cualquier mbito segn el dominio en que nos
desarrollemos.
Qu es Minera de Datos?

- La extraccin no trivial de informacin implcita,


previamente desconocida y potencialmente til,
a partir de datos. (1)

- La integracin de un conjunto de reas que


tienen como propsito la identificacin de un
conocimiento obtenido a partir de las bases de
datos que aporten un sesgo hacia la toma de
decisin(2)
Proceso de Minera de Datos

Los pasos a seguir para la realizacin de un proyecto de minera de


datos son:

1. La Determinacin de los Objetivos. Trata sobre la delimitacin de


los objetivos que el cliente desea

2. Pre procesamiento de los Datos. Se refiere a la seleccin, la


limpieza, el enriquecimiento, la reduccin y transformacin de las
bases de datos.
Proceso de Minera de Datos
3. Determinacin del Modelo. Se comienza realizando unos anlisis
estadsticos de los datos y despus se lleva a cabo una visualizacin
grfica de los mismos para tener una primera aproximacin. Segn
los objetivos planteados y la tarea que debe llevarse a cabo son los
algoritmos a utilizarse.

4. Anlisis de los Resultados. Verifica si los resultados obtenidos son


coherentes con los obtenidos por el anlisis y la visualizacin grfica.
Y el cliente determina si le aporta nuevos conocimientos que le
permita la toma de decisiones.
Principales Caractersticas de MD
Explorar los datos que se encuentran en las profundidades de las bases
de datos, o almacenes de datos, que algunas veces contienen informacin
almacenada durante varios aos.
El entorno de la minera de datos suele tener una arquitectura cliente-
servidor.
Las herramientas de la minera de datos ayudan a extraer el mineral de
la informacin enterrado en archivos corporativos o en registros pblicos
archivados.
Las herramientas de la minera de datos se combinan fcilmente y
pueden analizarse y procesarse rpidamente.
La minera de datos produce cinco tipos de informacin:
Asociaciones.
Secuencias.
Clasificaciones.
Agrupamientos.
Pronsticos.
Aplicaciones de Minera de Datos
Qu es el proceso de KDD?
Extraccin de Conocimiento en Bases de Datos

- Es la extraccin automatizada de conocimiento o patrones


interesantes, no triviales, implcitos, previamente
desconocidos, potencialmente tiles y predictivos de la
informacin de grandes Bases de Datos.(3)

- El proceso de KDD consiste en usar mtodos de minera de


datos(algoritmos) para extraer (identificar) lo que se
considera como conocimiento de acuerdo a la especificacin
de ciertos parmetros usando una base de datos junto con
preprocesamientos y post-procesamientos.
Fases del KDD
Fases del KDD
Determinar las fuentes de informacin.
Disear el esquema de un almacn de datos (Data Warehouse): que
consiga unificar de manera operativa toda la informacin recogida.
Implantacin del almacn de datos: que permita la navegacin y
visualizacin previa de sus datos, para decidir qu aspectos puede
interesar que sean estudiados.
Seleccin, limpieza y transformacin de los datos que se van a analizar:
la seleccin incluye tanto una divisin o fusin horizontal (filas) como
vertical (atributos).La limpieza y prepocesamiento de datos se logra
diseando una estrategia adecuada para manejar errores, valores
incompletos, secuencias de tiempo, etc.
Seleccionar y aplicar el mtodo de minera de datos apropiado: esto
incluye la seleccin de la tarea de descubrimiento a realizar, por ejemplo,
clasificacin, agrupamiento o clustering, regresin, etc. La
transformacin de los datos al formato requerido por el algoritmo
especfico de minera de datos.
Fases del KDD
Evaluacin, interpretacin, transformacin y representacin de los
patrones extrados, interpretar los resultados y posiblemente regresar a
los pasos anteriores. Esto puede involucrar repetir el proceso, quizs con
otros datos, otros algoritmos, otras metas y otras estrategias.

Difusin y uso del nuevo conocimiento. Incorporar el conocimiento


descubierto al sistema lo cual puede incluir resolver conflictos existentes.
El conocimiento se obtiene para realizar acciones o la toma de decisiones.
DATOS

PROBLEMAS TCNICAS DE
DATA MINING
A
L
G
O
R
I
T
M IMPLANTAR
O
S
MODELO DE
DATA MINING

Estadstica o Inteligencia Artificial No esttico


1
2
Con el modelado se construye un modelo en una situacin donde se
conoce la respuesta y luego se aplica en otra situacin de la cual se
desconoce la respuesta.

1
3
CLASIFICACION DE ALGORITMOS DE
MINERIA DE DATOS

1
4
Descripcin
Normalmente esta tcnica es usada para anlisis preliminar de
los datos (resumen, caractersticas de los datos, etc.).

Describir un comportamiento en una base de datos compleja


para aumentar el conocimiento y entendimiento sobre gente,
productos, procesos etc. (Visualizacin Diferenciacin)

Establecer que las mujeres presentan menor siniestralidad en


seguros de automvil que los hombres
Identificar las caractersticas de personas que apoya uno u otro
partido poltico

1
5
Ejemplo
Gestin de personal de una empresa: Qu clases de empleados
hay contratados?

Datos:

Modelo generado:
Minera de datos

Grupo 1: Sin nios y en una casa alquilada. Bajo nmero de uniones. Muchos das enfermos

Grupo 2: Sin nios y con coche. Alto nmero de uniones. Pocos das enfermos. Ms mujeres y en una casa alquilada

Grupo 3: Con nios, casados y con coche. Ms hombres y normalmente propietarios de casa. Bajo nmero de uniones
1
6
ALGORITMOS DE MINERIA DE DATOS

Prediccin
La meta es inducir un modelo para poder predecir una
clase dados los valores de los atributos
Clasificacin Ejemplo: Diagnostico medico, deteccin de fraude o que
producto compraran ms unos clientes, clasificar solicitudes
de crdito (alto, medio, bajo)
Se usan arboles de decisin, reglas, anlisis de discriminantes,
etc.

La meta es inducir un modelo para poder predecir el


valor de la clase dados los valores de los atributos
Estimacin Ejemplo: Estimar el valor del ingreso total de un grupo
familiar, Determinar probabilidad de transaccin sea
o Regresin fraudulenta , Estimar nmero de hijos en un grupo
familiar
Se usan rboles de regresin, regresin lineal, redes
neuronales, maquinas de vectores, etc.
1
7
rboles de decisin

SE SELECCIONA EL NODO
RAIZ Y ESTE SE DIVIDE DE
ACUERDO A LOS VALORES
DEL ATRIBUTO RAIZ
rboles de decisin
Representan reglas donde atributos independientes determinan los valores finales. En
estos rboles cada nodo representa una propiedad que puede tomar diversos valores,
cada uno de los cuales genera una rama. Los nodos hojas representan las clasificaciones
finales.
Nos pueden servir para tareas como:
Clasificacin en general y validaciones
Usadas donde se deben tomar decisiones a partir de varias alternativas
Son tiles en problemas de alta dimensionalidad y pequeo numero de valores
para cada atributo. Ingreso

> $5000 <=$5000


Genero Edad Modelo predictivo generado

M F >35 <= 35
Ingreso Genero Antigedad
0 Casado Soltera F M >=4 >4

0 1 0 1 0 1
If (Ingreso=>5000 AND Genero=F AND Estado = Soltera Then P(Coche)=1
1
9
rboles de decisin
rboles de decisin

Agente comercial: Debo conceder una hipoteca a un cliente?

Datos:

Modelo generado:
Minera de datos

If Defaulter-accounts > 0 then Returns-credit = no

If Defaulter-accounts = 0 and [(Salary > 2500) or (Credit-p > 10)] then Returns-credit = yes

2
1
Ejemplo
Tienda de TV: Cuntas televisiones planas se vendern el
prximo mes?

Datos:

Modelo generado:
Minera de datos

Modelo lineal: nmero de televisiones para el prximo mes


V(month)flatTV = 0.62 V(Month-1)flat-TV + 0.33 V(Month-2)flat-TV + 0.12 V(Month-1)DVD-Recorder 0.05

2
2
ALGORITMOS DE MINERIA DE DATOS

Exploracin
Una dependencia funcional es un patrn en el que se
establece que uno a ms atributos determinan el valor
Dependencia de otro.
Se puede utilizar redes bayesianas, redes casuales.
Por ejemplo si un paciente ingresa por maternidad
determina su sexo

Detecta eventos que ocurren de manera simultnea


Se usan por ejemplo las reglas de asociacin.
Asociacin Ejemplo: Un cliente que compra cerveza, compra paales
con prb P1, Un cliente que compra Pizza, compra Vino
con prb P1, Un cliente que compra Vino, compra Pizza
con prb P2

2
3
Neural Network (Redes neuronales)

Al igual que los rboles de decisin, este algoritmo tambin resuelve problemas de
clasificacin y regresin. Puede ser adecuado para detectar patrones no lineales,
difcilmente descriptibles por medio de reglas.

Se usa como alternativa al algoritmo de arboles de decisin


Nos pueden servir para tareas como:
Las mismas tareas que los rboles de decisin.
Regresiones (similar a la clasificacin, pero predice una magnitud continua).
Son usadas para reconocimiento de patrones, clasificaciones de voz e imagen,
procesamiento de lenguaje natural, prediccin y optimizacin.
2
4
ALGORITMOS DE MINERIA DE DATOS

Segmentacin

Separacin de los datos en subgrupos o clases interesantes


Se usan algoritmos de clustering, SOM(sef-organizacin), EM(expectation
maximizacin), K-means etc.
Sirve sobre todo para buscar elementos afines dentro de un conjunto.
Por ejemplo, podemos usarlo para saber que en una poblacin hay
hombres y mujeres jvenes solteros, hombres mayores solteros, hombres
y mujeres mayores casados... pero no mujeres mayores solteras.
Nos puede servir para:
Segmentar un mercado.
Validaciones (las entradas que no pertenecen a un cluster,
pueden ser "outliners" o elementos anmalos).

2
5
ALGORITMOS DE MINERIA DE DATOS

Algoritmo de Naive Bayes

Este algoritmo busca correlaciones entre atributos y pertenece a la


clasificacin de dependencias .
Cuando no tenemos muy claro qu atributo se puede predecir en funcin
de otros, una tcnica muy habitual es tratar de utilizar el algoritmo de Naive
Bayes tratando de predecir el valor de todos los atributos en funcin de
todos los atributos (un "todos contra todos").
El resultado de esta correlaciones suele ser un modelo en el que tenemos
ms o menos claro qu vamos a poder predecir en esos datos.
Ventaja: se entrena muy rpido
Desventaja: No es muy preciso.
Se usa para: Exploracin inicial de los dato

2
6
Anlisis de Canasta

(Market Basket Analysis)

Reglas de Asociacin

2
7
Anlisis de Canasta
Ejemplo
Un ejemplo tradicional de minera de datos es el
relacionado con una bsqueda en una bodega de datos, de
un negocio de cadena, de hechos comunes y relevantes:
Luego del proceso se dio como resultado la siguiente:

Si edad < 35;


y sexo = masculino;
y dia = jueves
entonces compras incluyen
paales;
y cerveza

Esto sirvi para que empresa tomara medidas relacionada


con la ubicacin de ciertos productos en sitios comunes.
2
8
Anlisis de Canasta (Market Basket Analysis)

Los hbitos de compra de los clientes pueden ser representados a travs de


asociaciones o correlaciones entre los diferentes productos que compran en
sus canastas.

Cliente 1: Cliente 2: Cliente 1:

Arroz, pur, bebida Arroz, helado, Arroz, bebida,


pan cerveza

2
9
Anlisis de Canasta: Indicadores

Las relaciones entre productos se miden por:

Importancia Relativa (support):indica el porcentaje de transacciones que llevan


el antecedente y el consecuente, con respecto al total de transacciones analizadas

Ejemplo:
{arroz, pur, cerveza}, {arroz, helado, pan}, {arroz, bebida, cerveza}

Importancia Relativa(arroz cerveza)= 2/3=66%

Este indicador seala que tan frecuente es la relacin entre productos con respecto al
universo de boletas. Pero no indica si existe vnculo entre ambos productos.

3
0
Anlisis de Canasta: Indicadores

Confiabilidad (confidence) : Indica el porcentaje de transacciones que llevan el


antecedente y el consecuente juntos, con respecto al total de transacciones que llevan el
antecedente.

Ejemplo: {arroz, pur, cerveza}, {arroz, helado, pan}, {arroz, bebida, cerveza}

Confianza (cerveza pur)= 1/2=50%

Esta relacin seala el vnculo entre ambos productos (probabilidad condicional).


Pero, qu pasa en el siguiente caso:

Confianza(helado arroz)=1/1= 100%

Quiere decir que hay una fuerte relacin entre estos productos?

3
1
Anlisis de Canasta: Indicadores

Ganancia (gain or Improvement): puntaje que representa el aumento en la


probabilidad de seleccin del consecuente, al ser comprado en conjunto con el
antecedente.

Ganancia (AB)=Confianza(AB)/Importancia Relativa(B)

Ejemplo: {arroz, pur, cerveza}, {arroz, helado, pan}, {arroz, bebida, cerveza}

Ganancia(helado arroz)=1/1= 1
Ganancia(bebida pur)=0,5/0,3= 1,5

Con estos indicadores podemos entender las relaciones entre clientes

3
2
Ejemplo
Supermercado: Cundo los clientes compran huevos, tambin
compran aceite?

Datos:

Modelo generado:
Minera de datos

Eggs -> Oil: Confianza = 75%, Soporte = 37%


3
3
Beneficios para el Supermercado:

Las relaciones entre productos permiten apoyar decisiones como:


Armado de Packs (Consulta de Canasta)
o Entre 2 productos de alta rotacin de distintas categoras pero del mismo proveedor + un producto
de baja rotacin y alto margen.
o Entre 2 productos de alta rotacin de categoras y proveedores distintos + un producto de baja
rotacin y alto margen.
Descuentos: Polticas agresivas para productos que se venden juntos, con alta confiabilidad
Relaciones entre proveedores y sus productos
Identificacin de preferencias y gustos de los clientes
Reforzar esas preferencias
Incentivar a otros clientes a tomar estas preferencias
Se encuentran relaciones entre productos de distintas categoras por ejemplo:
Detergente con Yogurt, Detergente con Leche o Yogurt con Mayonesa
Anticipar cambios en las preferencias de los clientes y actuar oportunamente
Aumento en las ventas de la cadena

3
4
Herramientas de software
Existen muchas herramientas de software para el desarrollo de modelos de
minera de datos tanto libres como comerciales como, por ejemplo:

KNIME
SPSS Clementine
(software)
SAS Enterprise
Miner
RapidMiner
Weka
KXEN
Orange

3
5
Herramienta Weka
La Weka (Gallirallus australis) es un ave originaria
de Nueva Zelanda. Esta Gallincea en peligro de
extincin es famosa por su curiosidad y agresividad.
De aspecto pardo y tamao similar a una gallina, las
wekas se alimentan fundamentalmente de insectos
y frutos.

Weka es un software programado en Java que est orientado a la extraccin


de conocimientos desde bases de datos con grandes cantidades de
informacin.

3
6
Herramienta Weka

Caractersticas principales de Weka:

Est disponible libremente bajo la licencia pblica


General de GNU.
Es muy portable porque est completamente
implementado en Java y puede correr en casi cualquier
plataforma.
Contiene una extensa coleccin de tcnicas para
preprocesamiento de datos y modelado.
Es fcil de utilizar por un principiante gracias a su
interfaz grfica de usuario.

3
7
Herramienta Weka

3
8
Herramienta Weka

3
9
Referencias
- (1)http://www.daedalus.es/mineria-de-datos/
- (2)(Molina y otros, 2001)
- (3)http://www.monografias.com/trabajos55/mineria-de-datos/mineria-de-
datos.shtm
-(4)http://www.uccor.edu.ar/paginas/seminarios/Cursos/DM-
Medicine/Clase1-FIUNER.pdf
-(5)http://www.microsoft.com/business/smb/es-
es/tecnologia/data_mining.mspx
-(6) http://www.tecnicas.com/conceptos/data-mining/metodos.aspx
-(7)http://www.scielo.org.co/scielo.php?pid=S0120-
56092009000100008&script=sci_arttext
-(8)http://www.youtube.com/watch?v=-aPU13W7Xvw&NR=1&feature=fvwp
-(9)http://www.youtube.com/watch?v=CBLRKqHoAIs&NR=1
http://ccc.inaoep.mx/~emorales/Cursos/KDD03/node7.html
4
0