Está en la página 1de 46

Introduccin a la Minera de Datos y al Aprendizaje Automtico

Carlos Alonso Gonzlez Grupo de Sistemas Inteligentes Departamento de Informtica Universidad de Valladolid

Juan Jos Rodriguez Diez Grupo de Sistemas Inteligentes Departamento de Ingeniera Civil Universidad de Burgos

Contenidos
1.
2. 3. 4. 5. 6.

Inters Definicin de aprendizaje Tareas Bsicas de aprendizaje Dimensiones de Anlisis Paradigmas de aprendizaje Minera de datos
1.

2.
3. 4. 5.

Motivacin Qu es la minera de datos? Etapas Ejemplos tica y Minera de da datos


Mtodos y tcnicas de minera de datos: introduccin 2

GSI UVA/UBU

1 Inters

No hay inteligencia sin aprendizaje (adaptacin, mejora, descubrimiento) En la prctica


Exceso de informacin Escasez de conocimiento Necesidad de automatizar la obtencin de conocimiento a partir de informacin

GSI UVA/UBU

Mtodos y tcnicas de minera de datos: introduccin

Nichos de aplicacin

Minera de datos: uso de datos histricos para mejorar la toma de decisiones


Registros mdicos Conocimiento mdico Imgenes del firmamento -> catlogo de objetos estelares

Aplicaciones software que no se pueden programar con tcnicas convencionales


Reconocimiento del habla Vehculos autnomos

Software personalizado

Filtro de noticias de inters Gestin de Agenda


Mtodos y tcnicas de minera de datos: introduccin 4

GSI UVA/UBU

2 Una definicin de aprendizaje

Un programa de ordenador APRENDE de la experiencia E con respecto a una clase de tareas T y medida de desempeo P si su rendimiento en tareas de T, segn la medida P, mejora con la experiencia E (Mitchell, 97)

GSI UVA/UBU

Mtodos y tcnicas de minera de datos: introduccin

Ejemplos

Aprender a Jugar a las Damas


Aprender a reconocer la escritura manual


T: jugar a las damas P: porcentaje de juegos ganados al adversario E: juegos de entrenamiento consigo mismo T: reconocer y clasificar palabras manuscritas en una imagen P: porcentaje de palabras reconocidas correctamente E: base de datos de imgenes de palabras manuscritas, clasificadas T: conducir en una autopista pblica de 4 carriles utilizando sensores de visin P: distancia media viajada antes de un error (segn instructor humano) E: secuencia de imgenes y comandos de guiado registrados a partir de la observacin de un conductor humano

Aprender a conducir

GSI UVA/UBU

Mtodos y tcnicas de minera de datos: introduccin

3 Tareas bsicas en el aprendizaje automtico

Descripcin de conceptos Formacin de conceptos Mejora de la eficiencia


Anlisis de regularidades en datos

GSI UVA/UBU

Mtodos y tcnicas de minera de datos: introduccin

Descripcin de conceptos

Planteamiento general

Ejemplos (clasificados) Conocimiento Base

Algoritmo Aprendizaje

Descripcin Concepto

GSI UVA/UBU

Mtodos y tcnicas de minera de datos: introduccin

Descripcin de conceptos
Dado

Obtener

Concepto objetivo Instancias del mismo Conocimiento base

Caracterizacin del concepto

Tpicamente clasificador a partir de atributos (identificar/predecir el valor de la clase) Tambin regresin (predecir valor atributo numrico)

Ejemplos

Anlisis de riesgos en asignacin de crditos Diagnosis Vehculos autnomos

GSI UVA/UBU

Mtodos y tcnicas de minera de datos: introduccin

10

ALVINN, RALPH

GSI UVA/UBU

Mtodos y tcnicas de minera de datos: introduccin

11

Anlisis riesgos concesin de crditos


N 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Riesgo alto alto moderado alto bajo bajo alto moderado bajo bajo alto moderado bajo alto Historia mala desconocida desconocida desconocida desconocida desconocida mala mala buena buena buena buena buena mala Deuda alta alta baja baja baja baja baja baja baja alta alta alta alta alta Avales no no no no no adecuados no adecuados no adecuados no no no no Ingresos 0 a 2M 2 a 5M 2 a 5M 0 a 2M ms de 5M ms de 5M 0 a 2M ms de 5M ms de 5M ms de 5M 0 a 2M 2 a 5M ms de 5M 2 a 5M
12

GSI UVA/UBU

Mtodos y tcnicas de minera de datos: introduccin

Anlisis riesgos concesin de crditos


Ingresos 0a2 Alto Desconocida Deuda Alta Alto Alto Baja Moderado Historia Mala Buena Moderado Desconocida Bajo 2a5 ms de 5 Historia Mala Moderado Buena Bajo

Induccin de rboles de decisin


Mtodos y tcnicas de minera de datos: introduccin 13

GSI UVA/UBU

Anlisis riesgos concesin de crditos

historia
deuda avales ingresos crdito

Redes de neuronas
GSI UVA/UBU Mtodos y tcnicas de minera de datos: introduccin 14

Concepto: Poltica accesos


(Ejemplos, conocimiento base)

Ejemplos

puede_operar(smith, pabxb_17), puede_operar(miller, lod_2)...

Conocimiento base

manager(smith), trabaja_para(smith, betecom), alquila(betecom, pabxb_17)...

GSI UVA/UBU

Mtodos y tcnicas de minera de datos: introduccin

15

Concepto: Poltica accesos


(Concepto)

trabaja_para(Persona, Compaa), alquila(Compaa, Sistema,) manager(Persona) puede_operar(Persona, Sistema)

Programacin lgica inductiva


GSI UVA/UBU Mtodos y tcnicas de minera de datos: introduccin 16

Formacin de conceptos

Planteamiento general

Ejemplos
Conocimiento Base

Algoritmo Aprendizaje

Nuevo Concepto (Descripcin)

GSI UVA/UBU

Mtodos y tcnicas de minera de datos: introduccin

17

Formacin de conceptos

Dado

Instancias de un concepto, posiblemente desconocido Caracterizacin del concepto

Obtener

Tres aproximaciones principales

Agrupamiento (clustering) Asociacin Descubrimiento


Mtodos y tcnicas de minera de datos: introduccin 18

GSI UVA/UBU

Agrupamiento

GSI UVA/UBU

Mtodos y tcnicas de minera de datos: introduccin

19

Agrupamiento

GSI UVA/UBU

Mtodos y tcnicas de minera de datos: introduccin

20

Reglas de asociacin

Ejemplo: anlisis de la cesta de la compra

Si edad < 40 Y contiene paales Entonces contiene cerveza

GSI UVA/UBU

Mtodos y tcnicas de minera de datos: introduccin

21

4 Dimensiones de Anlisis

Ejemplos

N ejemplos: mltiples / nico (pocos) Clasificacin: supervisado / no supervisado Procesamiento: no incremental (lotes) / incremental No utilizan /utilizan Simblico / subsimblico

Conocimiento bsico

Representacin conocimiento

Sesgos (bias) inductivos: factores adicionales que determinan que conceptos se pueden aprender

Representacionales Restrictivos De preferencia


Mtodos y tcnicas de minera de datos: introduccin 22

GSI UVA/UBU

Papel del Bias

Propiedad de la inferencia inductiva


Un sistema de aprendizaje que no haga suposiciones a priori sobre la identidad del concepto objetivo no tiene ninguna base racional para clasificar instancias no vistas (Mitchell, 97)

GSI UVA/UBU

Mtodos y tcnicas de minera de datos: introduccin

23

5 Paradigmas principales

Aprendizaje Aprendizaje Aprendizaje Aprendizaje Aprendizaje Aprendizaje

memorstico inductivo deductivo multiestrategia por analoga por refuerzo

En este curso: aprendizaje inductivo


Mtodos y tcnicas de minera de datos: introduccin 24

GSI UVA/UBU

6 Minera de datos 6.1 Motivacin I

Crecimiento explosivo de los datos.

De terabytes a petabyes.

Cada da se crean 52.000.000.000 MB de datos (1997). La cantidad de datos almacenados se duplica cada 10 meses. Cada persona est en 8001000 bases de datos. Slo el 4% de los datos se usa para algo (IBM).
Mtodos y tcnicas de minera de datos: introduccin 25

GSI UVA/UBU

Aprendizaje memorstico

Discutible: no tiene capacidad de generalizacin Primer paradigma utilizado con xito: Samuel (Damas, 50)

GSI UVA/UBU

Mtodos y tcnicas de minera de datos: introduccin

26

Aprendizaje inductivo

Tambin denominado basado en ejemplos

Se caracteriza por utilizar (numerosos) ejemplos de un concepto

Objetivo: caracterizar un (nuevo) concepto Numerosas aproximaciones de inters

GENERALIZACION a PARTIR DE EJEMPLOS

GSI UVA/UBU

Mtodos y tcnicas de minera de datos: introduccin

27

Aprendizaje deductivo

Objetivo: aumentar eficiencia, mediante caracterizaciones alternativas de un concepto conocido Requiere:


Definicin inicial del concepto 1+ ejemplos del concepto Teora del dominio Criterios operacionales

Paradigmas: aprendizaje basado en explicaciones ESPECIALIZACION de una teora general a EJEMPLOS

GSI UVA/UBU

Mtodos y tcnicas de minera de datos: introduccin

28

Aprendizaje por analoga

Objetivo: encontrar la solucin a partir de soluciones previas a problemas similares Requiere: Ejemplo de problemas y sus soluciones Paradigmas: Razonamiento basado en casos
PROBLEMAS Y SOLUCIONES PASADOS adaptados a PROBLEMA y SOLUCION ACTUAL

GSI UVA/UBU

Mtodos y tcnicas de minera de datos: introduccin

29

Aprendizaje por refuerzo

No hay ejemplos El sistema aprende mediante prueba y error Especialmente orientado a agentes que interaccionan con el entorno

El entorno ha de cuantificar el xito o fracaso de las acciones

EXPLORACIN del ENTORNO para obtener MODELO de COMPORTAMIENTO

GSI UVA/UBU

Mtodos y tcnicas de minera de datos: introduccin

30

Motivacin II

Recogida de datos y disponibilidad de los mismos.

Recogida de datos automtica, sistemas de bases de datos, web, sociedad informatizada. Negocios: web, comercio electrnico, transacciones, stocks. . . Ciencia: teledeteccin, bioinformtica, simulaciones. .. Sociedad, todos: noticias, cmaras digitales.

Principales fuentes de datos.

GSI UVA/UBU

Mtodos y tcnicas de minera de datos: introduccin

31

Motivacin III

We are drowing in data, but starving for knowledge Si se pudiera hacer algo til con tanto dato. . . La necesidad es la madre de la invencin.

Minera de Datos: anlisis automtico de conjuntos de datos masivos.

GSI UVA/UBU

Mtodos y tcnicas de minera de datos: introduccin

32

6.2 Qu es la minera de datos?

La aplicacin de tcnicas de la inteligencia artificial sobre grandes cantidades de datos, con el objetivo de descubrir tendencias, patrones, o relaciones ocultas. Un paso en el proceso de descubrimiento de conocimiento en bases de datos (KDD) que consiste en la aplicacin de algoritmos de anlisis de datos y descubrimiento que, sometidos a restricciones de eficiencia, producen una enumeracin particular de patrones sobre los datos.

Un rea en la interseccin del aprendizaje computacional, la estadstica y las bases de datos.


El proceso de seleccionar, explorar y modelar grandes cantidades de datos para descubrir patrones, previamente desconocidos, que proporcionen una ventaja competitiva.
Mtodos y tcnicas de minera de datos: introduccin 33

GSI UVA/UBU

Definicin

El anlisis de conjuntos de datos (a menudo grandes) observados con el objetivo de


encontrar relaciones insospechadas resumir los datos de maneras novedosas que sean

comprensibles tiles

Tpicamente los datos se han recopilado para algn otro propsito


Mtodos y tcnicas de minera de datos: introduccin 34

GSI UVA/UBU

Relacin con otras disciplinas I

GSI UVA/UBU

Mtodos y tcnicas de minera de datos: introduccin

35

Relacin con otras disciplinas II

Bases de datos. De donde provienen los datos. Tcnicas de indexacin y acceso a datos.

Diferencia: extraer conocimiento novedoso y comprensible.

Recuperacin de la informacin. Obtener informacin a partir de datos textuales.

E.g., clasificacin de documentos en funcin de palabras clave.

Estadstica. Fuente de conceptos, algoritmos, tcnicas.

Comprobar hiptesis frente a encontrar hiptesis.

Aprendizaje automtico. rea de la IA, algoritmos capaces de aprender.


Mtodos y tcnicas de minera de datos: introduccin 36

GSI UVA/UBU

Relacin con otras disciplinas III

Sistemas para la toma de la decisin. Asistencia a directivos, diagnstico. . .


Visualizacin de datos. Describir, intuir o entender patrones. Difciles de comprender a partir de frmulas matemticas o descripciones textuales. Computacin paralela y distribuida. Elevado coste computacional de las tareas ms complejas en MD, BD distribudas. Otras. Dependientes del tipo de datos. Procesamiento del lenguaje natural, anlisis de imgenes, procesamiento de seales. . .

GSI UVA/UBU

Mtodos y tcnicas de minera de datos: introduccin

37

6.3 Etapas del KDD

[TSK06]
GSI UVA/UBU Mtodos y tcnicas de minera de datos: introduccin 38

Etapas KDD

[HK06]
GSI UVA/UBU

Mtodos y tcnicas de minera de datos: introduccin

39

Etapas del KDD


Limpieza de datos. Eliminar ruido y datos inconsistentes Integracin de datos. De distintas fuentes Seleccin de datos. Recuperar de la BD los datos relevantes para la tarea de anlisis Transformacin de datos. Los datos se transforman o consolidan en formas apropiadas para su minera (e.g., sumarios, agregacin) Minera de datos. Aplicacin de mtodos inteligentes con el objetivo de extraer patrones Evaluacin de patrones. Identificar los patrones verdaderamente interesantes Presentacin del conocimiento. Visualizacin y representacin del conocimiento para presentar el conocimiento extrado del usuario
Mtodos y tcnicas de minera de datos: introduccin 40

GSI UVA/UBU

6.4 Posibles aplicaciones

Anlisis de dato y soporte a la decisin.

Anlisis y gestin del mercado.

Marketing personalizado, CRM (Customer Relationship Management), market basket analysis, cross selling, segmentacin del mercado Prediccin, retencin de clientes, aseguracin mejorada, control de calidad, anlisis competitivo.

Anlisis y gestin de riesgos.

Deteccin de fraudes y patrones inusuales (outliers). Text mining, minera sobre flujos de datos, bioinformtica.

Otros.

GSI UVA/UBU

Mtodos y tcnicas de minera de datos: introduccin

41

Ejemplos de aplicacin

Diagnosis: lentes duras o blandas Bancarias: conceder o no un crdito Deteccin de fraudes: es una transaccin sospechosa? Mailings: a quin? Rendimiento de ordenadores: como configurar Teledeteccin: polucin del agua Prediccin de carga: demanda de electricidad Cajeros inteligentes: cuanto dinero necesito Identificar grupos de usuarios similares de tarjetas Organizar e-mails Caracterizar intereses de un usuario de internet

GSI UVA/UBU

Mtodos y tcnicas de minera de datos: introduccin

42

Skicat
Sky Image Cataloging and Analysis Tool

GSI UVA/UBU

Mtodos y tcnicas de minera de datos: introduccin

43

6.5 tica y minera de datos I


La minera de datos se suele usar para discriminar La discriminacin por ciertos criterios no es tica, e incluso puede ser ilegal Todo depende de la aplicacin

Aunque se eliminen ciertas variable, otras pueden indicar dicha informacin indirectamente

S que se puede utilizar el sexo o la raza para diagnosis mdica E.g.: cdigo postal

Al suministrar informacin, debe conocerse para que va a usarse

Muchas veces, en minera de datos, se pretende extraer informacin de datos que fueron recopilados para otro propsito

GSI UVA/UBU

Mtodos y tcnicas de minera de datos: introduccin

44

tica y minera de datos II

Resultados sorprendentes

Las personas que compran coches rojos son ms propensas fallar en el pago del crdito Quin tiene permitido el acceso Para que propsito se recopil Qu tipo de conclusiones es legtimo obtener E.g.: privacidad de los usuarios de bibliotecas

Al trabajar con un conjunto de datos


Normas de los usuarios habituales de los datos

GSI UVA/UBU

Mtodos y tcnicas de minera de datos: introduccin

45

Referencias

Krzysztof J. Cios, Witold Pedrycz, Roman W. Swiniarski, Lukasz A. Kurgan. Data Mining: A Knowledge discovery Approach. Spriner, 2007. Margaret H. Dunham. Data Mining: Introductory and Advanced Topics. Prentice Hall, 2003. Jiawei Han and Micheline Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann, 2nd edition, 2006. David Hand, Heikki Mannila, Padhraic Smyth. Principles of Data Mining. The MIT Press, 2001. Jos Hernndez Orallo, M. Jos Ramrez Quintana, and Csar Ferri Ramrez, editors. Introduccin a la Minera de Datos. Pearson Educacin, 2004. Tom M. Mitchell. Machine Learning. McGraw-Hill, 1997. Sankar K. Pal, Pabitra Mitra. Pattern Recognition Algorithms for Data Mining. Chapman & Hall/CRC, 2004. Basilio Sierra. Aprendizaje Automtico: conceptos bsicos y avanzados. Pearson Educacin, 2006. Pang-Ning Tan, Michael Steinbach, and Vipin Kumar. Introduction to Data Mining. Addison Wesley, 2006. I. H. Witten and E. Frank. Data Mining: Practical Machine Learning Tools and Techniques. Morgan Kaufmann, 2nd edition, 2005.

GSI UVA/UBU

Mtodos y tcnicas de minera de datos: introduccin

46

También podría gustarte