Documentos de Académico
Documentos de Profesional
Documentos de Cultura
01 Introduccion MDy AA
01 Introduccion MDy AA
Carlos Alonso Gonzlez Grupo de Sistemas Inteligentes Departamento de Informtica Universidad de Valladolid
Juan Jos Rodriguez Diez Grupo de Sistemas Inteligentes Departamento de Ingeniera Civil Universidad de Burgos
Contenidos
1.
2. 3. 4. 5. 6.
Inters Definicin de aprendizaje Tareas Bsicas de aprendizaje Dimensiones de Anlisis Paradigmas de aprendizaje Minera de datos
1.
2.
3. 4. 5.
GSI UVA/UBU
1 Inters
Exceso de informacin Escasez de conocimiento Necesidad de automatizar la obtencin de conocimiento a partir de informacin
GSI UVA/UBU
Nichos de aplicacin
Registros mdicos Conocimiento mdico Imgenes del firmamento -> catlogo de objetos estelares
Software personalizado
GSI UVA/UBU
Un programa de ordenador APRENDE de la experiencia E con respecto a una clase de tareas T y medida de desempeo P si su rendimiento en tareas de T, segn la medida P, mejora con la experiencia E (Mitchell, 97)
GSI UVA/UBU
Ejemplos
T: jugar a las damas P: porcentaje de juegos ganados al adversario E: juegos de entrenamiento consigo mismo T: reconocer y clasificar palabras manuscritas en una imagen P: porcentaje de palabras reconocidas correctamente E: base de datos de imgenes de palabras manuscritas, clasificadas T: conducir en una autopista pblica de 4 carriles utilizando sensores de visin P: distancia media viajada antes de un error (segn instructor humano) E: secuencia de imgenes y comandos de guiado registrados a partir de la observacin de un conductor humano
Aprender a conducir
GSI UVA/UBU
GSI UVA/UBU
Descripcin de conceptos
Planteamiento general
Algoritmo Aprendizaje
Descripcin Concepto
GSI UVA/UBU
Descripcin de conceptos
Dado
Obtener
Tpicamente clasificador a partir de atributos (identificar/predecir el valor de la clase) Tambin regresin (predecir valor atributo numrico)
Ejemplos
GSI UVA/UBU
10
ALVINN, RALPH
GSI UVA/UBU
11
GSI UVA/UBU
GSI UVA/UBU
historia
deuda avales ingresos crdito
Redes de neuronas
GSI UVA/UBU Mtodos y tcnicas de minera de datos: introduccin 14
Ejemplos
Conocimiento base
GSI UVA/UBU
15
Formacin de conceptos
Planteamiento general
Ejemplos
Conocimiento Base
Algoritmo Aprendizaje
GSI UVA/UBU
17
Formacin de conceptos
Dado
Obtener
GSI UVA/UBU
Agrupamiento
GSI UVA/UBU
19
Agrupamiento
GSI UVA/UBU
20
Reglas de asociacin
GSI UVA/UBU
21
4 Dimensiones de Anlisis
Ejemplos
N ejemplos: mltiples / nico (pocos) Clasificacin: supervisado / no supervisado Procesamiento: no incremental (lotes) / incremental No utilizan /utilizan Simblico / subsimblico
Conocimiento bsico
Representacin conocimiento
Sesgos (bias) inductivos: factores adicionales que determinan que conceptos se pueden aprender
GSI UVA/UBU
GSI UVA/UBU
23
5 Paradigmas principales
GSI UVA/UBU
De terabytes a petabyes.
Cada da se crean 52.000.000.000 MB de datos (1997). La cantidad de datos almacenados se duplica cada 10 meses. Cada persona est en 8001000 bases de datos. Slo el 4% de los datos se usa para algo (IBM).
Mtodos y tcnicas de minera de datos: introduccin 25
GSI UVA/UBU
Aprendizaje memorstico
Discutible: no tiene capacidad de generalizacin Primer paradigma utilizado con xito: Samuel (Damas, 50)
GSI UVA/UBU
26
Aprendizaje inductivo
GSI UVA/UBU
27
Aprendizaje deductivo
Definicin inicial del concepto 1+ ejemplos del concepto Teora del dominio Criterios operacionales
GSI UVA/UBU
28
Objetivo: encontrar la solucin a partir de soluciones previas a problemas similares Requiere: Ejemplo de problemas y sus soluciones Paradigmas: Razonamiento basado en casos
PROBLEMAS Y SOLUCIONES PASADOS adaptados a PROBLEMA y SOLUCION ACTUAL
GSI UVA/UBU
29
No hay ejemplos El sistema aprende mediante prueba y error Especialmente orientado a agentes que interaccionan con el entorno
GSI UVA/UBU
30
Motivacin II
Recogida de datos automtica, sistemas de bases de datos, web, sociedad informatizada. Negocios: web, comercio electrnico, transacciones, stocks. . . Ciencia: teledeteccin, bioinformtica, simulaciones. .. Sociedad, todos: noticias, cmaras digitales.
GSI UVA/UBU
31
Motivacin III
We are drowing in data, but starving for knowledge Si se pudiera hacer algo til con tanto dato. . . La necesidad es la madre de la invencin.
GSI UVA/UBU
32
La aplicacin de tcnicas de la inteligencia artificial sobre grandes cantidades de datos, con el objetivo de descubrir tendencias, patrones, o relaciones ocultas. Un paso en el proceso de descubrimiento de conocimiento en bases de datos (KDD) que consiste en la aplicacin de algoritmos de anlisis de datos y descubrimiento que, sometidos a restricciones de eficiencia, producen una enumeracin particular de patrones sobre los datos.
GSI UVA/UBU
Definicin
encontrar relaciones insospechadas resumir los datos de maneras novedosas que sean
comprensibles tiles
GSI UVA/UBU
GSI UVA/UBU
35
Bases de datos. De donde provienen los datos. Tcnicas de indexacin y acceso a datos.
GSI UVA/UBU
GSI UVA/UBU
37
[TSK06]
GSI UVA/UBU Mtodos y tcnicas de minera de datos: introduccin 38
Etapas KDD
[HK06]
GSI UVA/UBU
39
Limpieza de datos. Eliminar ruido y datos inconsistentes Integracin de datos. De distintas fuentes Seleccin de datos. Recuperar de la BD los datos relevantes para la tarea de anlisis Transformacin de datos. Los datos se transforman o consolidan en formas apropiadas para su minera (e.g., sumarios, agregacin) Minera de datos. Aplicacin de mtodos inteligentes con el objetivo de extraer patrones Evaluacin de patrones. Identificar los patrones verdaderamente interesantes Presentacin del conocimiento. Visualizacin y representacin del conocimiento para presentar el conocimiento extrado del usuario
Mtodos y tcnicas de minera de datos: introduccin 40
GSI UVA/UBU
Marketing personalizado, CRM (Customer Relationship Management), market basket analysis, cross selling, segmentacin del mercado Prediccin, retencin de clientes, aseguracin mejorada, control de calidad, anlisis competitivo.
Deteccin de fraudes y patrones inusuales (outliers). Text mining, minera sobre flujos de datos, bioinformtica.
Otros.
GSI UVA/UBU
41
Ejemplos de aplicacin
Diagnosis: lentes duras o blandas Bancarias: conceder o no un crdito Deteccin de fraudes: es una transaccin sospechosa? Mailings: a quin? Rendimiento de ordenadores: como configurar Teledeteccin: polucin del agua Prediccin de carga: demanda de electricidad Cajeros inteligentes: cuanto dinero necesito Identificar grupos de usuarios similares de tarjetas Organizar e-mails Caracterizar intereses de un usuario de internet
GSI UVA/UBU
42
Skicat
Sky Image Cataloging and Analysis Tool
GSI UVA/UBU
43
La minera de datos se suele usar para discriminar La discriminacin por ciertos criterios no es tica, e incluso puede ser ilegal Todo depende de la aplicacin
Aunque se eliminen ciertas variable, otras pueden indicar dicha informacin indirectamente
S que se puede utilizar el sexo o la raza para diagnosis mdica E.g.: cdigo postal
Muchas veces, en minera de datos, se pretende extraer informacin de datos que fueron recopilados para otro propsito
GSI UVA/UBU
44
Resultados sorprendentes
Las personas que compran coches rojos son ms propensas fallar en el pago del crdito Quin tiene permitido el acceso Para que propsito se recopil Qu tipo de conclusiones es legtimo obtener E.g.: privacidad de los usuarios de bibliotecas
GSI UVA/UBU
45
Referencias
Krzysztof J. Cios, Witold Pedrycz, Roman W. Swiniarski, Lukasz A. Kurgan. Data Mining: A Knowledge discovery Approach. Spriner, 2007. Margaret H. Dunham. Data Mining: Introductory and Advanced Topics. Prentice Hall, 2003. Jiawei Han and Micheline Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann, 2nd edition, 2006. David Hand, Heikki Mannila, Padhraic Smyth. Principles of Data Mining. The MIT Press, 2001. Jos Hernndez Orallo, M. Jos Ramrez Quintana, and Csar Ferri Ramrez, editors. Introduccin a la Minera de Datos. Pearson Educacin, 2004. Tom M. Mitchell. Machine Learning. McGraw-Hill, 1997. Sankar K. Pal, Pabitra Mitra. Pattern Recognition Algorithms for Data Mining. Chapman & Hall/CRC, 2004. Basilio Sierra. Aprendizaje Automtico: conceptos bsicos y avanzados. Pearson Educacin, 2006. Pang-Ning Tan, Michael Steinbach, and Vipin Kumar. Introduction to Data Mining. Addison Wesley, 2006. I. H. Witten and E. Frank. Data Mining: Practical Machine Learning Tools and Techniques. Morgan Kaufmann, 2nd edition, 2005.
GSI UVA/UBU
46