Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Prepro PDF
Prepro PDF
Francisco Herrera
Grupo de Investigación SCI2S
Dpto. Ciencias de la Computación e I.A.
Universidad de Granada
Sumario
9 Introducción
9 Importancia de la Preparación de Datos
9 ¿Qué incluye la Preparación de Datos?
9 Reducción de Datos
9 Selección de Instancias
9 Selección de Características
Preprocesamiento de Datos
Introducción
Dorian Pyle
Data Preparation for Data Mining
Morgan Kaufmann Publishers, 1999
Preprocesamiento de Datos
Data Mining
Data Preparation
Data Collecting
Data cleaning
Data Transformation
Data Reduction
Preprocesamiento de Datos
Bibliografía:
S. Zhang, C. Zhang, Q. Yang. Data preparation for data mining.
Applied Artificial Intelligence 17:5-6, 375-381, 2003.
Bibliografía
específica para Bibliografía:
cada aplicación. V. Detours, J. E. Dumont, H. Bersini and C. Maenhaut. Integration
and cross-validation of high-throughout gene expression data:
Ejemplo en el ámbito comparing heterogeneous data sets, FEBS Letters 546:1, 2003,
de la Bioinformática 98-102.
Preprocesamiento de Datos
Data cleaning
Bibliografía:
W. Kim, B. Choi, E-K. Hong, S-K. Kim. A Taxonomy of Dirty Data.
Data Mining and Knowledge Discovery 7, 81-99, 2003.
Preprocesamiento de Datos
Data transformation
Data reduction
Reducción
de Datos
Selección de Discretización
Características
Selección de Apretujamiento de
Instancias Instancias
Data Squashing
Preprocesamiento de Datos
Reducción de Datos
Reducción
de Datos
Selección de Discretización
Características
Selección de Apretujamiento de
Instancias Instancias
Data Squashing
Bibliografía:
H. Liu, H. Motoda. Feature Selection for Knowledge Discovery
and Data Mining. Kluwer Academic, 1998.
H. Liu, H. Motoda (Eds.) Feature Extraction, Construction, and
Selection: A Data Mining Perspective, Kluwer Ac., 1998.
Preprocesamiento de Datos
Reducción de Datos
Reducción
de Datos
Selección de Discretización
Características
Selección de Apretujamiento de
Instancias Instancias
Data Squashing
Bibliografía:
H. Liu, F. Hussain, C.L. Tan, M. Dash. Discretization: An Enabling
Technique. Data mining and Knowledge Discovery 6, 393-423,
2002.
Preprocesamiento de Datos
Reducción de Datos
Reducción
de Datos
Selección de Discretización
Características
Selección de Apretujamiento de
Instancias Instancias
Data Squashing
Bibliografía:
A. Owen, Data Squashing by Empirical Likelihood.
Data Mining and Knowledge Discovery 7, 101-113, 2003.
Preprocesamiento de Datos
Reducción de Datos
Reducción
de Datos
Selección de Discretización
Características
Selección de Apretujamiento de
Instancias Instancias
Data Squashing
Bibliografía:
T. Reinartz. A Unifying View on Instance Selection.
Data Mining and Knowledge Discovery 6, 191-210, 2002.
Preprocesamiento de Datos
Selección de Instancias
Selección de
Instancias
Selección de Instancias
Selección de Sampling
Prototipos
Selección de Instancias
Estrategia de Selección de Prototipos
Preprocesamiento de Datos
Selección de Instancias
Estrategia de Selección de Conjuntos de Entrenamiento
Data Mining
Algorithm
Preprocesamiento de Datos
Selección de Instancias
J.R. Cano, F. Herrera, M. Lozano. Using Evolutionary
Algorithms as Instance Selection for Data Reduction in KDD: An
Experimental Study.
IEEE Trans. on Evolutionary Computation 7:6, 561-575, 2003.
Algunos Resultados
Selección de Instancias
%Ac. test 1-
%Reducción NN
(%Ac. 1-NN+%Rd.)/2
CHC PBIL CHC
Ib2 Ib3 Ennsr
Drop1 CHC Drop3
Classification con Cnn Ennrs Rmhc
reduction rate > Drop3 Cnn Drop2
70%. Rnn Rmhc Cnn
Rmhc Drop2 Drop1
Selección de
Prototipos Icf Ib2 Ib3
Drop2 Drop3 Ib2
Ennrs Rnn PBIL
Ib3 Drop1 Icf
PBIL Icf Rnn
Preprocesamiento de Datos
Selección de Instancias
%Reduction %Ac. test C4.5 (%Ac. C4.5+%Rd.)/2
Selección de Instancias
Selección de Instancias
Data Set
T1 T2 T3 Tt
IS IS IS IS
Estrategia de Estratificación
Preprocesamiento de Datos
Selección de Instancias
Conjuntos de datos:
Adult 30132 14 2
Kdd Cup’99 494022 41 23
Preprocesamiento de Datos
Selección de Instancias
Adult. Número de estratos: 10
C4.5
Execution Rules %
Time(sec) Number Reduction %Ac. Trn %Ac. Test
Selección de Instancias
Kdd Cup’99. Número de estratos: 100
Selección de Instancias
ADULT: Algunos datos a destacar: Partición 1
No. No. Confidencia de
No. Variables/
Instan- Varia- No. Reglas las Reglas
regla
cias - N bles N(Cond,Clas)/N
IS-CHC/ IS-CHC/ C4.5 IS-CHC/
C4.5 C4.5
Adult 30132 14 C4.5 C4.5 C4.5
359 5 14 3 0.003 0.167
La selección de instancias nos permite obtener conjuntos de reglas
más interpretables y con aporte de mayor información.
Dos líneas de actuación futura:
z Sistema de Clasificación más preciso: Avanzar en la combinación de la
estratificación y técnicas evolutivas para mejorar la precisión.
z Subgroup Discovery: La obtención de reglas de calidad que aporten
información.
N. Lavrac, B. Kavsek, P. Flach, L. Todorowski. Subgroup Discovery with CN2-SD.
Journal of Machine Learning Research 5 (2004) 153-188.
Preprocesamiento de Datos
Selección de Instancias
Selección de Instancias
Selección de Instancias
S. Papadimitriou, S. Mavroudi, L. Vladutu, A.Bezerianos. Generalized
radial basis function neural networks trained with instance based
learning for data mining of symbolic data. Applied Intelligence 16
(2002) 223-234.
K.W. Lau, Q.H. Wu. Online training of support vector classifier. Pattern
Recognition 36 (2003) 1913-1920.
Selección de Instancias
Conclusiones
9 Introducción
9Proceso general para la SA
9Esquemas/Framework
9Catalogación de algoritmos existentes
9Distintas Clasificaciones
9Tendencias
Preprocesamiento de Datos
Selección de Características
Introducción
La SA pretende elegir atributos que sean relevantes
para una aplicación y lograr el máximo rendimiento con
el mínimo esfuerzo. El resultado de la SA sería:
Menos datos Æ los algoritmos pueden aprender más rápidos
Mayor exactitud Æ el clasificador generaliza mejor
Resultados más simples Æ más fácil de entender
Menos atributos Æ evitar obtenerlos posteriormente
Selección de Características
Proceso para la SA
La SA se puede considerar como en problema de búsqueda
{}
(GS) Subconjunto (CE)
Datos Generación Criterio
originales {1} {2} {3} {4}
Subconjuntos atributos Evaluation
{1,2,3,4}
no Criterio si Subconjunto
Parada Seleccionado
Preprocesamiento de Datos
Selección de Características
Estudios realizados
filter Supervisados
wrapper No supervisado
Lista = {}
Para cada Atributo xi, i ∈ {1,...,N}
vi = calcular(xi,U)
situar xi dentro de Lista conforme vi
Subconjunto = {}
Repetir
Sk = generarSubconjunto(x)
si existeMejora(S, Sk,U)
Subconjunto = Sk
Hasta CriterioParada()
*note : "classifier error rate" not included (ie. Depend on specify classifier).
Preprocesamiento de Datos
Selección de Características
M. Kudo and J. Sklansky (2000). Comparison Clasifica según objetivo: A, B y C
Sistemas de SA of Algorithms that Select Features for
Pattern Classifiers, Elsevier Science.
según tamaño BD: small, medium, L,VL
Según criterio: Monotono, aprox. y no
Preprocesamiento de Datos
Selección de Características
Incremento de los datos
E.P. Xing, M.I. Jordan and R.M. Karp (2001). Feature Selection for
High-Dimensional Genomic Microarray Data, ICML, p. 601-608.
Morgan Kaufmann Publishers.
BDs % Acc.
Training File
(E 90%)
Classifier Size
Nº Att´s
Selectors Reduce
Reduced % Acc.
Training Classifier Size
File (E’) Nº Att´s
Preprocesamiento de Datos
Selección de Características
Validaciones
Selectors
BDs
BDs Reduced
Classifier Classifier
% Acc. % Acc.
Size Size
Nº Att´s Nº Att´s
Selección de Características
Validación algoritmos ranking
Atributos A1 A2 A3 A4 A5 A6 A7 A8 A9
Ranking A5 A7 A4 A3 A1 A8 A6 A2 A9
80 82 81 83 83 85 84 83 84
Mejor
Subconjunto
A5 A7 A4 A3 A1 A8 (6 atributos)
Preprocesamiento de Datos
Glass2-C4.5
Segment-NB
Sonar-C4.5
Preprocesamiento de Datos
Selección de Características
Conclusiones
Conclusiones