Está en la página 1de 24

Minera de Datos

Inteligencia de Negocios
Herr. Query, EIS

Extracci n, Limpieza y carga de datos Almacn de Datos Data Marts

Herr. OLAP

Datos Operacionales y Externos


Berson y Smith, 1997

Herr. Minera de datos

Minera de Datos
Proceso de descubrir nuevas correlaciones, patrones y tendencias significativas a travs del minado de una gran cantidad de datos.
Proceso de extraer conocimiento de una gran cantidad de datos.

El Proceso de Minera de Datos


Presentacin de conocimiento

Seleccin, Transformacin

Evaluacin de Patrones, Tendencias

Minera de Datos
Limpieza, Integracin

DW

DB DB
Archivo plano
Han y Kamber, 2001

Aplicaciones de Minera de Datos

Mercadeo directo Retencin de clientes

Ventas cruzadas Cross-selling

Tcnicas y Algoritmos

rboles de decisin
Reglas de asociacin

Clasificacin
Examen de las propiedades, caractersticas o atributos de un objeto, caso, o registro con el propsito de asignarlo a una clase predefinida.
Clasificacin se caracteriza por la definicin de las clases y de un conjunto de entrenamiento que comprende registros preclasificados.

Berry y Linoff, 2000

Proceso de Clasificacin
Comprende dos fases: 1. Construccin de un modelo a partir de registros existentes. Cada registro debe pertenecer a una de las clases predefinidas, en funcin a un atributo (class label attribute). El conjunto de registros analizados para construir el modelo, recibe el nombre de Conjunto de entrenamiento. Los registros que conforman el tconjunto de entrenamiento son obtenidos de manera aleatoria del total de registros (poblacin). Tpicamente, el modelo (learned model) se representa en forma de reglas de clasificacin, rboles de decisin o frmulas matemticas.
Han y Kamber, 2001

Proceso de Clasificacin
2. Utilizacin del modelo con fines de clasificacin de nuevos registros. En esta segunda fase, en primer lugar se estima la precisin del modelo. Con este propsito se utiliza un conjunto de prueba que comprende registros seleccionados de manera aleatoria, independientes del conjunto de entrenamiento. La precisin del modelo se define como el porcentaje de registros del conjunto de prueba que fueron correctamente clasificados por el modelo. Si el modelo es considerado aceptable, entonces puede ser utilizado para clasificar futuros objetos.
Han y Kamber, 2001

Primera Fase: Aprendizaje


Datos de entrenamiento
Nombre Pedro Torres Carmen Rios Edad <=30 <=30 Ingresos Bajo Bajo Credit_rating Regular Excelente

Algoritmo de clasificacin

Susana Paz
Juan Salas Daniel Rojas Carla Ramos

31...40
>40 >40 31...40

Alto
Medio Medio Alto

Excelente
Regular Regular Excelente

Reglas de clasificacin

...

...

...

...

If edad = 31...40 and ingresos = alto then Credit_rating = excelente

Han y Kamber, 2001

Segunda Fase: Clasificacin


Reglas de Clasificacin

Datos de prueba
Nombre
Sandra Rivas Hugo Reyes Renzo Otoya

Nuevos Datos
Credit_rating
Regular Regular Excelente

Edad
>40 <=30 31...40

Ingresos
Alto Bajo Alto

(Patricia Llanos, 31...40, Alto) Credit_rating?

...

...

...

...

Excelente

Han y Kamber, 2001

rboles de Decisin
Cdigo Cliente 1 2 3 4 5 6 7
Microsoft

Nivel Deuda Alto Alto Alto Bajo Bajo Bajo Bajo

Nivel Ingresos Alto Alto Bajo Bajo Bajo Alto Alto

Tipo Empleo Independiente Dependiente Dependiente Dependiente Independiente Independiente Dependiente

Riesgo Crdito Malo Malo Malo Bueno Malo Bueno Bueno

rboles de Decisin
All Riesgo Crdito = bueno: 3 Riesgo Crdito = malo: 4

Microsoft

rboles de Decisin
Cdigo Cliente 1 2 3 4 5 6 7
Microsoft

Nivel Deuda Alto Alto Alto Bajo Bajo Bajo Bajo

Nivel Ingresos Alto Alto Bajo Bajo Bajo Alto Alto

Tipo Empleo Independiente Dependiente Dependiente Dependiente Independiente Independiente Dependiente

Riesgo Crdito Malo Malo Malo Bueno Malo Bueno Bueno

rboles de Decisin
Cdigo Cliente 1 2 3 4 5 6 7
Microsoft

Nivel Deuda Alto Alto Alto Bajo Bajo Bajo Bajo

Nivel Ingresos Alto Alto Bajo Bajo Bajo Alto Alto

Tipo Empleo Independiente Dependiente Dependiente Dependiente Independiente Independiente Dependiente

Riesgo Crdito Malo Malo Malo Bueno Malo Bueno Bueno

rboles de Decisin
All Riesgo Crdito = bueno: 3 Riesgo Crdito = malo: 4

Nivel Deuda = Bajo Riesgo Crdito = bueno: 3 Riesgo Crdito = malo: 1

Microsoft

rboles de Decisin
Cdigo Cliente 1 2 3 4 5 6 7
Microsoft

Nivel Deuda Alto Alto Alto Bajo Bajo Bajo Bajo

Nivel Ingresos Alto Alto Bajo Bajo Bajo Alto Alto

Tipo Empleo Independiente Dependiente Dependiente Dependiente Independiente Independiente Dependiente

Riesgo Crdito Malo Malo Malo Bueno Malo Bueno Bueno

rboles de Decisin
All Riesgo Crdito = bueno: 3 Riesgo Crdito = malo: 4

Nivel Deuda = Bajo Riesgo Crdito = bueno: 3 Riesgo Crdito = malo: 1

Nivel Deuda = Alto Riesgo Crdito = bueno: 0 Riesgo Crdito = malo: 3

Microsoft

rboles de Decisin
Cdigo Cliente 1 2 3 4 5 6 7
Microsoft

Nivel Deuda Alto Alto Alto Bajo Bajo Bajo Bajo

Nivel Ingresos Alto Alto Bajo Bajo Bajo Alto Alto

Tipo Empleo Independiente Dependiente Dependiente Dependiente Independiente Independiente Dependiente

Riesgo Crdito Malo Malo Malo Bueno Malo Bueno Bueno

rboles de Decisin
Cdigo Cliente 1 2 3 4 5 6 7
Microsoft

Nivel Deuda Alto Alto Alto Bajo Bajo Bajo Bajo

Nivel Ingresos Alto Alto Bajo Bajo Bajo Alto Alto

Tipo Empleo Independiente Dependiente Dependiente Dependiente Independiente Independiente Dependiente

Riesgo Crdito Malo Malo Malo Bueno Malo Bueno Bueno

rboles de Decisin
All Riesgo Crdito = bueno: 3 Riesgo Crdito = malo: 4

Nivel Deuda = Bajo Riesgo Crdito = bueno: 3 Riesgo Crdito = malo: 1

Nivel Deuda = Alto Riesgo Crdito = bueno: 0 Riesgo Crdito = malo: 3

Tipo Empleo = Independ. Riesgo Crdito = bueno: 1 Riesgo Crdito = malo: 1


Microsoft

rboles de Decisin
Cdigo Cliente 1 2 3 4 5 6 7
Microsoft

Nivel Deuda Alto Alto Alto Bajo Bajo Bajo Bajo

Nivel Ingresos Alto Alto Bajo Bajo Bajo Alto Alto

Tipo Empleo Independiente Dependiente Dependiente Dependiente Independiente Independiente Dependiente

Riesgo Crdito Malo Malo Malo Bueno Malo Bueno Bueno

rboles de Decisin
All Riesgo Crdito = bueno: 3 Riesgo Crdito = malo: 4

Nivel Deuda = Bajo Riesgo Crdito = bueno: 3 Riesgo Crdito = malo: 1

Nivel Deuda = Alto Riesgo Crdito = bueno: 0 Riesgo Crdito = malo: 3

Tipo Empleo = Independ. Riesgo Crdito = bueno: 1 Riesgo Crdito = malo: 1


Microsoft

Tipo Empleo = Depend. Riesgo Crdito = bueno: 2 Riesgo Crdito = malo: 0

Escenario
El Departamento de Mercadotecnia desea incrementar el nivel de satisfaccin de los clientes as como la tasa de retencin de clientes. Se han propuesto una serie de iniciativas. Una de ellas involucra al programa de tarjeta de membresa, el cual ser redefinido para ofrecer un mejor servicio y proveer servicios que se ajusten ms a las necesidades de los clientes. Con este propsito, el Departamento de Mercadotecnia desea analizar las ventas actuales y descubrir relaciones entre la informacin demogrfica de los clientes (estado civil, nivel de ingresos, nmero de hijos, etc.) y el tipo de tarjeta al cual aplicaron. Con este conocimiento, las tarjetas sern redefinidas a base de las caractersticas de los clientes que aplicaron a ellas.
Microsoft