Está en la página 1de 17

Fundamentos de Minería de Datos

Introducción al
Data Mining

Fernando Berzal
fberzal@decsai.ugr.es

Intelligent Databases and Information Systems research group


Department of Computer Science and Artificial Intelligence
E.T.S Ingeniería Informática – Universidad de Granada (Spain)
¿Qué es la minería de datos?
Definición
Técnicas de Extracción de patrones (“conocimiento”)
Data Mining
Evaluación
en grandes cantidades de datos
de resultados
Sistemas de
Data Mining
Temas de
investigación
Bibliografía

1
¿Qué es la minería de datos?
Definición
Técnicas de Extracción de patrones (“conocimiento”)
Data Mining
Evaluación
en grandes cantidades de datos
de resultados
Sistemas de
Data Mining
Temas de
Requisitos
investigación  No trivial
Bibliografía
 Implícito
 Previamente desconocido
 Potencialmente útil

2
¿Qué es la minería de datos?
Definición
Técnicas de
Data Mining
Evaluación
de resultados
Sistemas de
Data Mining
Temas de
investigación
Bibliografía

“Data rich, Conocimiento


Information poor” (patrones interesantes)

3
KDD (Knowledge Discovery in Databases)
Extracción de conocimiento en bases de datos
Definición
Técnicas de
Data Mining
Evaluación
de resultados
Sistemas de
Data Mining
Temas de
investigación
Bibliografía

4
KDD (Knowledge Discovery in Databases)
Extracción de conocimiento en bases de datos
Definición
Técnicas de  Limpieza de datos
Data Mining (eliminación de ruido e inconsistencias)
Evaluación
de resultados  Integración de datos
Sistemas de (combinación de múltiples fuentes de datos)
Data Mining
Temas de
 Reducción/Selección de datos
investigación (identificación de datos relevantes para el problema)
Bibliografía
 Transformación de datos
(preparación de los datos para su análisis)
 Minería de datos
(técnicas de extracción de patrones y medidas de interés)
 Presentación de resultados
(técnicas de visualización y de representación del conocimiento)

5
KDD (Knowledge Discovery in Databases)
Extracción de conocimiento en bases de datos
Definición
Técnicas de
Data Mining
Evaluación
de resultados
Sistemas de
Data Mining
Temas de
investigación
Bibliografía

6
Carácter multidisciplinar
Evaluación de resultados
Gestión de grandes cantidades de datos Resumen de datos
Definición
Técnicas de
Data Mining Bases de datos Estadística
Evaluación
de resultados
Sistemas de
Data Mining
Temas de
investigación Data Mining
Bibliografía

IA Visualización

Aprendizaje Presentación de resultados


Representación del conocimiento
7
Clasificación de técnicas
Definición
Técnicas de En función de su propósito general:
Data Mining
Evaluación Técnicas descriptivas
de resultados
Sistemas de
Técnicas predictivas
Data Mining
Temas de
investigación También se pueden clasificar atendiendo a
Bibliografía
 el tipo de datos que hay que analizar
 el tipo de “conocimiento” que se obtiene
 el tipo de herramienta que utiliza
 el dominio de aplicación

8
Fuentes de datos
Definición
Técnicas de  Bases de datos relacionales
Data Mining
Evaluación  Bases de datos multidimensionales (DW)
de resultados
Sistemas de
 Bases de datos transaccionales
Data Mining
Temas de
 Series temporales, secuencias y data streams
investigación  Datos estructurados (grafos, redes sociales)
Bibliografía
 Datos espaciales y espaciotemporales
 Textos e hipertextos (p.ej. Web)
 Bases de datos multimedia (p.ej. imágenes)

9
Técnicas de Data Mining
Definición
Técnicas de Caracterización o resumen
Data Mining
Evaluación Discriminación o contraste
de resultados
Sistemas de
Patrones frecuentes,
Data Mining asociaciones y correlaciones
Temas de
investigación Clasificación y predicción
Bibliografía
Detección de agrupamientos (clustering)
Detección de anomalías (outliers)
Análisis de tendencias (series temporales)

10
Evaluación de resultados
Definición
Técnicas de Un resultado es interesante si…
Data Mining
Evaluación  es comprensible (por seres humanos)
de resultados
Sistemas de
 es válido con cierto grado de certeza
Data Mining
Temas de
 es potencialmente útil
 es novedoso o sirve para validar una hipótesis
investigación
Bibliografía

El interés de los resultados se puede evaluar


 objetivamente (criterios estadísticos)
 subjetivamente (perspectiva del usuario)

11
Sistemas de Data Mining
Una tarea de minería de datos
Definición
Técnicas de
puede describirse en términos de…
 Datos relevantes
Data Mining
Evaluación
de resultados (lo que hay que analizar)
Sistemas de
Data Mining
 Tipo de conocimiento
Temas de (lo que se desea obtener)
investigación
Bibliografía  Conocimiento previo
(background knowledge, para guiar el proceso)
 Medidas de interés
(para evaluar los resultados obtenidos)
 Técnicas de representación
(para representar los resultados obtenidos)

12
Sistemas de Data Mining
Arquitectura
Definición Interfaz de usuario típica
Técnicas de
Data Mining
Evaluación
de resultados
Evaluación de patrones
Sistemas de
Data Mining Base de
Temas de Motor de minería de datos conocimiento
investigación
Bibliografía
Base de datos o
Data Warehouse

Limpieza, integración, selección y transformación de datos

DB DW WWW …
13
Temas de investigación
Definición  Técnicas eficientes de minería de datos
Técnicas de  Escalabilidad
Data Mining
Evaluación  Técnicas incrementales
de resultados
 Algoritmos paralelos
Sistemas de
Data Mining
Temas de
 Incorporación de conocimiento previo
investigación
Bibliografía  Evaluación de resultados (interés)
 Interacción con el usuario
 Técnicas interactivas (a distintos niveles de abstracción)
 Técnicas de presentación y visualización de resultados
 Análisis de “nuevos” tipos de datos
 Estructuras complejas (grafos, redes sociales)
14
 Bases de datos heterogéneas…
Bibliografía: Libros de texto
Definición
Técnicas de
Data Mining
Evaluación
de resultados
Sistemas de
Data Mining
Temas de
investigación
Bibliografía

Jiawei Han & Micheline Kamber:


“Data Mining: Concepts and Techniques”
Morgan Kaufmann, 2006, ISBN 1558609016

Pang-Ning Tan, Michael Steinbach & Vipin Kumar:


“Introduction to Data Mining”
15
Addison-Wesley, 2006, ISBN 0321321367
Bibliografía: Investigación
REVISTAS
Definición
• ACM Transactions on KDD
Técnicas de
Data Mining • IEEE Transactions on Knowledge and Data Engineering
Evaluación • Data Mining and Knowledge Discovery (DMKD)
de resultados • ACM SIGKDD Explorations
Sistemas de
Data Mining
• Data & Knowledge Engineering (DKE)
Temas de
investigación CONGRESOS
Bibliografía
• KDD (ACM SIGKDD International Conference on KDD)
• ICDM (IEEE International Conference on Data Mining)
• SDM (SIAM Data Mining Conference)
• PKDD (Principles and Practices of KDD)
• SIGMOD (Management of Data)
• CIKM (Information and Knowledge Management)

WEB: http://www.kdnuggets.com/ 16

También podría gustarte