Documentos de Académico
Documentos de Profesional
Documentos de Cultura
El origen
1 Introducción a WEKA
Interfaces
2 Selección de atributos
2
Selección de atributos
3
¿Por qué selección de atributos?
Problemas: información
irrelevante, ruidosa.
4
¿Por qué selección de atributos?
Selección manual:
profundo conocimiento
del problema y los
atributos.
5
¿Por qué selección de atributos?
Reducción de las
necesidades de
almacenamiento
Visualización y
comprensión de los datos
7
Selección de atributos: objetivo
8
Selección de atributos: cuatro pasos
Conjunto
original Generación de Evaluación de
sub-conjuntos sub-conjuntos
Sub-
conjunto
Medida de bondad
del sub-conjunto
Criterio Si Validación
No
de
de
paro
resultados
9
1. Generación de sub-conjuntos: búsqueda
Cada estado en el espacio define un sub-conjunto candidato.
10
Dirección de la búsqueda: forward y backward
1. Generación de sub-conjuntos: búsqueda
Otros esquemas:
Best-first, beam search
11
12
2. Evaluación de sub-conjuntos
Cada candidato es evaluado y comparado
con el mejor de acuerdo a cierto criterio de
evaluación.
Filtro:
● Independiente como el C4.5
● Características de los Envoltura:
datos ● Dependiente del
algoritmo.
● Se usa la evaluación del
● algoritmo de aprendizaje.
● Costo computacional alto
13
Filtros: rankeo
Medidas de distancia, de información. Ejemplos:
Ganancia de información.
a b c d f g cons a b c d f g cons
a b c d f e cons a b c d f e vocal
Irrelevante, se decrementa Relevante, se incrementa
su score. su score.
14
Se seleccionan los atributos con pesos positivos
Filtros: sub-conjuntos
Medidas de dependencia y de consistencia. Ejemplos:
Correlación
Consistencia
15
16
17
3. Criterio de paro
Se selecciona un Búsqueda
sub-conjunto bueno completa
18
Introducción a WEKA
19
¿Qué es WEKA?
20
¿Qué es WEKA?
W aikato
E nvironment for
K nowledge
A nalysis
22
Origen
● Inicio del proyecto – Universidad de Waikato.
1993 ● Primer versión en C y TCL/TK.
● Algoritmos de distintas fuentes.
● Reimplementación en Java.
1997 ● Cambio de nombre a JAWS (Java WEKA
System).
1998
● Incluía clasificadores, reglas de asociación,
filtros y evaluación.
Pre-proceso de datos:
Clustering:
K-means, jerárquicos.
24
¿Qué se puede hacer con WEKA?
Selección de atributos:
Diversos criterios de selección y métodos
de búsqueda.
Visualización:
Gráficas de atributos con respecto a la
clase y a otros atributos.
Visualización:
Árboles, redes bayesianas y dendogramas
para clustering jerárquico. 25
¿Cómo puede usarse?
26
¿Cómo puede usarse?
27
Interfaces
Exploración de datos,
filtrado, clasificación,
clustering y visualización.
Experimentos que
involucren clasificación y
regresión. Permite
comparación de
desempeño.
Exploración,
procesamiento y
visualización. El usuario
determina los pasos y
28
puede repetirse.
Explorer: preprocess
29
Práctica
30
4. Validación de resultados
31
Actividades 1
Aplica la selección de atributos usando CfsSubsetEval.
Datos: car, adult y mushroom
1. Selecciona atributos usando CfsSubsetEval y
búsqueda GreedyStepwise. Evalúa con 'use full
training set' y con 'cross-validation'.
4.Repite pero ahora haz el proceso con J48. ¿Son los mismos
atributos? ¿Con cuál conjunto es mejor la evaluación?
33
Referencias
[Bouckaert et al., 2010] Bouckaert, R. R., Frank, E., Hall, M. A., Holmes, G.,
Pfahringer, B., Reutemann, P., andWitten, I. H. (2010). WEKA–experiences with
a java open-source project. Journal of Machine Learning Research, 11:2533–
2541.
[Hall et al., 2009] Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P.,
and Witten, I. H. (2009). The WEKA data mining software: an update. SIGKDD
Explorations Newsletter, 11:10–18.
[Witten et al., 2011] Witten, I., Frank, E., and Hall, M. (2011). Data Mining: Practical
Machine Learning Tools and Techniques. Morgan Kaufmann series in data
management systems. Elsevier Science & Technology
34
Referencias
[Hall and Holmes, 2003] Hall, M. A. and Holmes, G. (2003). Benchmarking attribute
selection techniques for discrete class data mining. IEEE Transactions on
Knowledge and Data Engineering, 15(6):1437–1447.
[Liu and Yu, 2005] Liu, H. and Yu, L. (2005). Toward integrating feature selection
algorithms for classification and clustering. IEEE Transactions on Knowledge and
Data Engineering, 17:491–502
35
Imágenes
36