Selatrib

Introducción a selección de
atributos usando WEKA
Blanca A. Vargas Govea

blanca.vargas@cenidet.edu.mx
Reconocimiento de patrones
cenidet
Octubre 1, 2012
Contenido
El origen
1 Introducción a WEKA
Interfaces
2 Selección de atributos
2
Selección de atributos
3
¿Por qué selección de atributos?
 Calidad de los datos –

éxito algoritmos.
 Problemas: información
irrelevante, ruidosa.
 Procesos lentos debido

exceso de información
poco significativa.
4
 Problemas aún con

algoritmos como C4.5.
 Selección manual:
profundo conocimiento
del problema y los
atributos.
5
 Técnica muy usada - 1970
 Elimina datos redundantes,

irrelevantes, ruidosos.
 Reconocimiento de patrones,
aprendizaje automático,
Selección de minería de datos.
atributos
 Categorización de textos,
recuperación de imágenes,
detección de intrusos y
análisis del genoma.
6
Beneficios
¡Qué bueno que saqué  Mejora del desempeño
todo lo que había predictivo
guardado en el auto!
 Reducción del tiempo de
entrenamiento/proceso
 Reducción de las
necesidades de
almacenamiento
 Visualización y
comprensión de los datos
7
Selección de atributos: objetivo
Seleccionar el sub-conjunto más pequeño de

atributos tal que no se afecte significativamente el
porcentaje de clasificación y que la distribución
resultante sea lo más parecida a la original.
8
Selección de atributos: cuatro pasos
Conjunto
original Generación de Evaluación de
sub-conjuntos sub-conjuntos
Sub-
conjunto
Medida de bondad
del sub-conjunto
Criterio Si Validación
No
de
de
paro
resultados
9
1. Generación de sub-conjuntos: búsqueda
Cada estado en el espacio define un sub-conjunto candidato.
10
Dirección de la búsqueda: forward y backward
1. Generación de sub-conjuntos: búsqueda
Búsqueda exhaustiva - impráctica
Búsqueda greedy haciendo un

cambio en cada estado
(agregando o borrando un
atributo http://en.wikipedia.org/wiki/Greedy_algorithm
Otros esquemas:
Best-first, beam search
11
12
2. Evaluación de sub-conjuntos
Cada candidato es evaluado y comparado
con el mejor de acuerdo a cierto criterio de
evaluación.
Filtro:
● Independiente como el C4.5
● Características de los Envoltura:
datos ● Dependiente del
algoritmo.
● Se usa la evaluación del
● algoritmo de aprendizaje.
● Costo computacional alto
13
Filtros: rankeo
Medidas de distancia, de información. Ejemplos:
Ganancia de información.
Basado en instancias. Se muestrea aleatoriamente una

instancia, se ubica a los vecinos cercanos (misma clase
y opuesta).
a b c d f g cons a b c d f g cons
a b c d f e cons a b c d f e vocal
Irrelevante, se decrementa Relevante, se incrementa
su score. su score.
14
Se seleccionan los atributos con pesos positivos
Filtros: sub-conjuntos
Medidas de dependencia y de consistencia. Ejemplos:
Correlación
Consistencia
15
16
17
3. Criterio de paro
Determina cuándo el proceso de selección debe parar.
No hay mejora Límite:

al agregar o No. de atributos
eliminar un atributo No. iteraciones
Se selecciona un Búsqueda
sub-conjunto bueno completa
18
Introducción a WEKA
19
¿Qué es WEKA?
20
¿Qué es WEKA?
W aikato
E nvironment for
K nowledge
A nalysis
Plataforma de prueba para

aprendizaje automático
21
Nueva
Zelanda
22
Origen
● Inicio del proyecto – Universidad de Waikato.
1993 ● Primer versión en C y TCL/TK.
● Algoritmos de distintas fuentes.
● Reimplementación en Java.
1997 ● Cambio de nombre a JAWS (Java WEKA
System).
1998
● Incluía clasificadores, reglas de asociación,
filtros y evaluación.
● Se le agregó selección de atributos.

1999
● Se le regresó el nombre WEKA. 23
¿Qué se puede hacer con WEKA?
Pre-proceso de datos:
Soporte de distintos formatos,

conectividad a base de datos y filtrado.
Clasificación:
Más de 100 métodos.
Clustering:
K-means, jerárquicos.
24
¿Qué se puede hacer con WEKA?
Selección de atributos:
Diversos criterios de selección y métodos
de búsqueda.
Visualización:
Gráficas de atributos con respecto a la
clase y a otros atributos.
Visualización:
Árboles, redes bayesianas y dendogramas
para clustering jerárquico. 25
¿Cómo puede usarse?
● Aplicar un método de aprendizaje a un conjunto

de datos y analizar la salida para aprender más
sobre los datos.
● Usar métodos aprendidos para generar

predicciones sobre nuevas instancias.
26
¿Cómo puede usarse?
● Aplicar diferentes técnicas y comparar su

desempeño para elegir uno.
● Preprocesamiento y selección de atributos:

transformación de atributos continuos a
nominales, eliminación de atributos irrelevantes
o redundantes.
27
Interfaces
Exploración de datos,
filtrado, clasificación,
clustering y visualización.
Experimentos que
involucren clasificación y
regresión. Permite
comparación de
desempeño.
Exploración,
procesamiento y
visualización. El usuario
determina los pasos y
28
puede repetirse.
Explorer: preprocess
29
Práctica
1.Con los datos del archivo rtoy.html, construye un archivo de tipo

CSV.
2.Construye los sub-árboles para cada atributo.
3.Con base en 2, ¿cuál crees que sería el mejor atributo?
4.Obtén la ganancia de información para el atributo que crees sería el

mejor.
5. Obtén el árbol en WEKA e interpreta los resultados del árbol. ¿Fué

el mejor atributo el que tu creíste? ¿qué indica en términos del
usuario el árbol obtenido?
30
4. Validación de resultados
Probar con los datos/algoritmos

de la aplicación de tu interés
31
Actividades 1
Aplica la selección de atributos usando CfsSubsetEval.
Datos: car, adult y mushroom
1. Selecciona atributos usando CfsSubsetEval y
búsqueda GreedyStepwise. Evalúa con 'use full
training set' y con 'cross-validation'.
2. Interpreta los resultados: ¿son los mismos atributos

significativos?¿Por qué?
3. Selecciona atributos usando Relief.
4. Interpreta los resultados. ¿Cuál es la diferencia en la

salida con respecto a CfsSubsetEval?
32
Actividades 2
Aplica la selección de atributos usando WrapperSubsetEval
Datos:
1.Selecciona atributos con WrapperSubsetEval, J48 y
GreedyStepwise. Evalúa con el conjunto completo y cross-
validation.
2.Interpreta los resultados. Compara con los resultados del

ejercicio anterior.
3.Selecciona atributos con un filtro para atributos individuales,

elimina los atributos. Corre un árbol J48 con el archivo
resultante.
4.Repite pero ahora haz el proceso con J48. ¿Son los mismos
atributos? ¿Con cuál conjunto es mejor la evaluación?
33
Referencias
[Bouckaert et al., 2010] Bouckaert, R. R., Frank, E., Hall, M. A., Holmes, G.,
Pfahringer, B., Reutemann, P., andWitten, I. H. (2010). WEKA–experiences with
a java open-source project. Journal of Machine Learning Research, 11:2533–
2541.
[Hall et al., 2009] Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P.,
and Witten, I. H. (2009). The WEKA data mining software: an update. SIGKDD
Explorations Newsletter, 11:10–18.
[Witten et al., 2011] Witten, I., Frank, E., and Hall, M. (2011). Data Mining: Practical
Machine Learning Tools and Techniques. Morgan Kaufmann series in data
management systems. Elsevier Science & Technology
34
Referencias
[Hall and Holmes, 2003] Hall, M. A. and Holmes, G. (2003). Benchmarking attribute
selection techniques for discrete class data mining. IEEE Transactions on
Knowledge and Data Engineering, 15(6):1437–1447.
[Liu and Yu, 2005] Liu, H. and Yu, L. (2005). Toward integrating feature selection
algorithms for classification and clustering. IEEE Transactions on Knowledge and
Data Engineering, 17:491–502
[Guyon and ElisseeU, 2003] Guyon, I. and ElisseeU, A. (2003). An introduction to

variable and feature selection. Journal of Machine Learning Research, 3:1157–
1182..
35
Imágenes
Mapa Nueva Zelanda

http://www.flickr.com/photos/duncan/478984969/in/photostream/
Wekas
http://www.flickr.com/photos/61897811@N00/367600536/
Acumulado
Botellas
Expertos
Carrera
Ollas
36

Selatrib

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Selatrib

Cargado por

Copyright:

Formatos disponibles

Introducción a selección de

atributos usando WEKA

Blanca A. Vargas Govea

 Calidad de los datos –

 Procesos lentos debido

 Problemas aún con

 Técnica muy usada - 1970

 Elimina datos redundantes,

Seleccionar el sub-conjunto más pequeño de

Búsqueda exhaustiva - impráctica

Búsqueda greedy haciendo un

Basado en instancias. Se muestrea aleatoriamente una

Determina cuándo el proceso de selección debe parar.

No hay mejora Límite:

Plataforma de prueba para

● Se le agregó selección de atributos.

Soporte de distintos formatos,

Más de 100 métodos.

● Aplicar un método de aprendizaje a un conjunto

● Usar métodos aprendidos para generar

● Aplicar diferentes técnicas y comparar su

● Preprocesamiento y selección de atributos:

1.Con los datos del archivo rtoy.html, construye un archivo de tipo

2.Construye los sub-árboles para cada atributo.

3.Con base en 2, ¿cuál crees que sería el mejor atributo?

4.Obtén la ganancia de información para el atributo que crees sería el

5. Obtén el árbol en WEKA e interpreta los resultados del árbol. ¿Fué

Probar con los datos/algoritmos

2. Interpreta los resultados: ¿son los mismos atributos

3. Selecciona atributos usando Relief.

4. Interpreta los resultados. ¿Cuál es la diferencia en la

2.Interpreta los resultados. Compara con los resultados del

3.Selecciona atributos con un filtro para atributos individuales,

[Guyon and ElisseeU, 2003] Guyon, I. and ElisseeU, A. (2003). An introduction to

Mapa Nueva Zelanda

También podría gustarte