Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Introducción al
Data Mining
Fernando Berzal
fberzal@decsai.ugr.es
1
¿Qué es la minería de datos?
Definición
Técnicas de Extracción de patrones (“conocimiento”)
Data Mining
Evaluación
en grandes cantidades de datos
de resultados
Sistemas de
Data Mining
Temas de
Requisitos
investigación No trivial
Bibliografía
Implícito
Previamente desconocido
Potencialmente útil
2
¿Qué es la minería de datos?
Definición
Técnicas de
Data Mining
Evaluación
de resultados
Sistemas de
Data Mining
Temas de
investigación
Bibliografía
3
KDD (Knowledge Discovery in Databases)
Extracción de conocimiento en bases de datos
Definición
Técnicas de
Data Mining
Evaluación
de resultados
Sistemas de
Data Mining
Temas de
investigación
Bibliografía
4
KDD (Knowledge Discovery in Databases)
Extracción de conocimiento en bases de datos
Definición
Técnicas de Limpieza de datos
Data Mining (eliminación de ruido e inconsistencias)
Evaluación
de resultados Integración de datos
Sistemas de (combinación de múltiples fuentes de datos)
Data Mining
Temas de
Reducción/Selección de datos
investigación (identificación de datos relevantes para el problema)
Bibliografía
Transformación de datos
(preparación de los datos para su análisis)
Minería de datos
(técnicas de extracción de patrones y medidas de interés)
Presentación de resultados
(técnicas de visualización y de representación del conocimiento)
5
KDD (Knowledge Discovery in Databases)
Extracción de conocimiento en bases de datos
Definición
Técnicas de
Data Mining
Evaluación
de resultados
Sistemas de
Data Mining
Temas de
investigación
Bibliografía
6
Carácter multidisciplinar
Evaluación de resultados
Gestión de grandes cantidades de datos Resumen de datos
Definición
Técnicas de
Data Mining Bases de datos Estadística
Evaluación
de resultados
Sistemas de
Data Mining
Temas de
investigación Data Mining
Bibliografía
IA Visualización
8
Fuentes de datos
Definición
Técnicas de Bases de datos relacionales
Data Mining
Evaluación Bases de datos multidimensionales (DW)
de resultados
Sistemas de
Bases de datos transaccionales
Data Mining
Temas de
Series temporales, secuencias y data streams
investigación Datos estructurados (grafos, redes sociales)
Bibliografía
Datos espaciales y espaciotemporales
Textos e hipertextos (p.ej. Web)
Bases de datos multimedia (p.ej. imágenes)
9
Técnicas de Data Mining
Definición
Técnicas de Caracterización o resumen
Data Mining
Evaluación Discriminación o contraste
de resultados
Sistemas de
Patrones frecuentes,
Data Mining asociaciones y correlaciones
Temas de
investigación Clasificación y predicción
Bibliografía
Detección de agrupamientos (clustering)
Detección de anomalías (outliers)
Análisis de tendencias (series temporales)
10
Evaluación de resultados
Definición
Técnicas de Un resultado es interesante si…
Data Mining
Evaluación es comprensible (por seres humanos)
de resultados
Sistemas de
es válido con cierto grado de certeza
Data Mining
Temas de
es potencialmente útil
es novedoso o sirve para validar una hipótesis
investigación
Bibliografía
11
Sistemas de Data Mining
Una tarea de minería de datos
Definición
Técnicas de
puede describirse en términos de…
Datos relevantes
Data Mining
Evaluación
de resultados (lo que hay que analizar)
Sistemas de
Data Mining
Tipo de conocimiento
Temas de (lo que se desea obtener)
investigación
Bibliografía Conocimiento previo
(background knowledge, para guiar el proceso)
Medidas de interés
(para evaluar los resultados obtenidos)
Técnicas de representación
(para representar los resultados obtenidos)
12
Sistemas de Data Mining
Arquitectura
Definición Interfaz de usuario típica
Técnicas de
Data Mining
Evaluación
de resultados
Evaluación de patrones
Sistemas de
Data Mining Base de
Temas de Motor de minería de datos conocimiento
investigación
Bibliografía
Base de datos o
Data Warehouse
DB DW WWW …
13
Temas de investigación
Definición Técnicas eficientes de minería de datos
Técnicas de Escalabilidad
Data Mining
Evaluación Técnicas incrementales
de resultados
Algoritmos paralelos
Sistemas de
Data Mining
Temas de
Incorporación de conocimiento previo
investigación
Bibliografía Evaluación de resultados (interés)
Interacción con el usuario
Técnicas interactivas (a distintos niveles de abstracción)
Técnicas de presentación y visualización de resultados
Análisis de “nuevos” tipos de datos
Estructuras complejas (grafos, redes sociales)
14
Bases de datos heterogéneas…
Bibliografía: Libros de texto
Definición
Técnicas de
Data Mining
Evaluación
de resultados
Sistemas de
Data Mining
Temas de
investigación
Bibliografía
WEB: http://www.kdnuggets.com/ 16