Documentos de Académico
Documentos de Profesional
Documentos de Cultura
tutorialWEKA PDF
tutorialWEKA PDF
Captulo 1. Tcnicas de
Anlisis de Datos en WEKA
CAPTULO 1. TCNICAS DE ANLISIS DE DATOS EN WEKA
1.1. Introduccin
3
3
4
7
8
9
10
14
1.5. Visualizacin
1.5.1. Representacin 2D de los datos
1.5.2. Filtrado grfico de los datos
15
15
19
1.6. Asociacin
20
1.7. Agrupamiento
1.7.1. Agrupamiento numrico
1.7.2. Agrupamiento simblico
25
26
31
1.8. Clasificacin
1.8.1. Modos de evaluacin del clasificador
1.8.2. Seleccin y configuracin de clasificadores
1.8.3. Prediccin numrica
1.8.4. Aprendizaje del modelo y aplicacin a nuevos datos.
33
34
37
45
51
53
1.1. Introduccin
En este captulo se presenta de forma concisa y prctica la herramienta de
minera de datos WEKA. WEKA, acrnimo de Waikato Environment for
Knowledge Analysis, es un entorno para experimentacin de anlisis de datos
que permite aplicar, analizar y evaluar las tcnicas ms relevantes de anlisis
de datos, principalmente las provenientes del aprendizaje automtico, sobre
cualquier conjunto de datos del usuario. Para ello nicamente se requiere que
los datos a analizar se almacenen con un cierto formato, conocido como ARFF
(Attribute-Relation File Format).
WEKA se distribuye como software de libre distribucin desarrollado en Java.
Est constituido por una serie de paquetes de cdigo abierto con diferentes
tcnicas de preprocesado, clasificacin, agrupamiento, asociacin, y
visualizacin, as como facilidades para su aplicacin y anlisis de prestaciones
cuando son aplicadas a los datos de entrada seleccionados. Estos paquetes
pueden ser integrados en cualquier proyecto de anlisis de datos, e incluso
pueden extenderse con contribuciones de los usuarios que desarrollen nuevos
algoritmos. Con objeto de facilitar su uso por un mayor nmero de usuarios,
WEKA adems incluye una interfaz grfica de usuario para acceder y
configurar las diferentes herramientas integradas.
Este captulo tiene un enfoque prctico y funcional, pretendiendo servir de gua
de utilizacin de esta herramienta desde su interfaz grfica, como material
complementario a la escasa documentacin disponible. Para ello se obviarn
los detalles tcnicos y especficos de los diferentes algoritmos, que se
presentan en un captulo aparte, y se centrar en su aplicacin, configuracin y
anlisis dentro de la herramienta. Por tanto, se remite al lector al captulo con
los detalles de los algoritmos para conocer sus caractersticas, parmetros de
configuracin, etc. Aqu se han seleccionado algunas de las tcnicas
disponibles para aplicarlas a ejemplos concretos, siguiendo el acceso desde la
herramienta al resto de tcnicas implementadas, una mecnica totalmente
anloga a la presentada a modo ilustrativo.
Para reforzar el carcter prctico de este captulo, adems se adoptar un
formato de tipo tutorial, con un conjunto de datos disponibles sobre el que se
irn aplicando las diferentes facilidades de WEKA. Se sugiere que el lector
aplique los pasos indicados y realice los anlisis sugeridos para cada tcnica
con objeto de familiarizarse y mejorar su comprensin.
Los ejemplos
seleccionados son contienen datos provenientes del campo de la enseanza,
correspondientes a alumnos que realizaron las pruebas de selectividad en los
aos 1993-2003 procedentes de diferentes centros de enseanza secundaria
de la comunidad de Madrid. Por tanto, esta gua ilustra la aplicacin y anlisis
de tcnicas de extraccin de conocimiento sobre datos del campo de la
enseanza, aunque sera directa su traslacin a cualquier otra disciplina.
@data
DATOS
por tanto, los atributos pueden ser principalmente de dos tipos: numricos de
tipo real o entero (indicado con las palabra real o integer tras el nombre del
atributo), y simblicos, en cuyo caso se especifican los valores posibles que
puede tomar entre llaves.
@attribute
@attribute
@attribute
@attribute
@attribute
@attribute
@attribute
@attribute
@attribute
@attribute
@attribute
@attribute
@attribute
@attribute
@attribute
@data
...
opcion1 {1,2,3,4,5}
nota_Lengua real
nota_Historia real
nota_Idioma real
des_Idioma {INGLES, FRANCES, ALEMAN}
des_asig1 {BIOLOGIA, DIB.ARTISTICO_II,... }
calif_asig1 real
des_asig2 {BIOLOGIA, C.TIERRA, ...}
calif_asig2 real
des_asig3 {BIOLOGIA, C.TIERRA, ...}
calif_asig3 real
cal_prueba real
nota_bachi real
cal_final real
Presentado {SI, NO}
no
conocidos
de
antemano,
con
Una vez invocada, aparece la ventana de entrada a la interfaz grfica (GUIChooser), que nos ofrece cuatro opciones posibles de trabajo:
Simple CLI: la interfaz "Command-Line
Interfaz" es simplemente una ventana de
comandos java para ejecutar las clases de
WEKA. La primera distribucin de WEKA no
dispona de interfaz grfica y las clases de sus
5
Seleccin y
aplicacin de
filtros
Propiedades
del atributo
seleccionado
Atributos en
la relacin
actual
Como se indic anteriormente, hay tres posibilidades para obtener los datos: un
fichero de texto, una direccin URL o una base de datos, dadas por las
opciones: Open file, Open URL y Open DB. En nuestro caso utilizaremos
siempre los datos almacenados en un fichero, que es lo ms rpido y cmodo
de utilizar. La preparacin del fichero de datos en formato ARFF ya se describi
en la seccin 1.2.
Puede verse que los filtros de esta opcin son de tipo no supervisado
(unsupervised): son operaciones independientes del algoritmo anlisis
posterior, a diferencia de los filtros supervisados que se vern en la seccin 1.9
de seleccin de atributos, que operan en conjuncin con algoritmos de
clasificacin para analizar su efecto. Estn agrupados segn modifiquen los
atributos resultantes o seleccionen un subconjunto de instancias (los filtros de
atributos pueden verse como filtros "verticales" sobre la tabla de datos, y los
filtros de instancias como filtros "horizontales"). Como puede verse, hay ms de
30 posibilidades, de las que destacaremos nicamente algunas de las ms
frecuentes.
10
Filtros de discretizacin
Estos filtros son muy tiles cuando se trabaja con atributos numricos, puesto
que muchas herramientas de anlisis requieren datos simblicos, y por tanto se
necesita aplicar esta transformacin antes. Tambin son necesarios cuando
queremos hacer una clasificacin sobre un atributo numrico, por ejemplo
clasificar los alumnos aprobados y suspensos. Este filtrado transforma los
atributos numricos seleccionados en atributos simblicos, con una serie de
etiquetas resultantes de dividir la amplitud total del atributo en intervalos, con
diferentes opciones para seleccionar los lmites. Por defecto, se divide la
amplitud del intervalo en tantas "cajas" como se indique en bins (por defecto
10), todas ellas de la misma amplitud.
11
observe el resultado despus de aplicar el filtro y los lmites elegidos para cada
atributo. En este caso se ha aplicado a todos los atributos numricos con la
misma configuracin (los atributos seleccionados son first-last, no considerando
los atributos que antes del filtrado no eran numricos). Observe que la relacin
de trabajo ahora (current relation) ahora es el resultado de aplicar en
secuencia el filtro anterior y el actual.
A veces es ms til no fijar todas las cajas de la misma anchura sino forzar a
una distribucin uniforme de instancias por categora, con la opcin
useEqualFrequency. La opcin findNumBins permite opimizar el nmero de
cajas (de la misma amplitud), con un criterio de clasificacin de mnimo error en
funcin de las etiquetas.
Haga una nueva discretizacin de la relacin (eliminando el efecto del filtro
anterior y dejando la relacin original con el botn Undo) que divida las
calificaciones en 4 intervalos de la misma frecuencia, lo que permite determinar
los cuatro cuartiles (intervalos al 25%) de la calificacin en la prueba: los
intervalos delimitados por los valores {4, 4.8, 5.76}
12
podemos ver que el 75% alcanza la nota de compensacin (4). El 50% est
entre 4 y 5.755, y el 25% restante a partir de 5.755.
13
14
A modo de ejemplo, utilice tres filtros de este tipo para seleccionar los alumnos
de Getafe y Legans con una calificacin de la prueba entre 6.0 y 8.0.
Compruebe el efecto de filtrado visualizando los histogramas de los atributos
correspondientes (localidad y calificacin en la prueba), tal y como se indica en
la figura siguiente:
1.5. Visualizacin
Una de las primeras etapas del anlisis de datos puede ser el mero anlisis
visual de stos, en ocasiones de gran utilidad para desvelar relaciones de
inters utilizando nuestra capacidad para comprender imgenes. La
herramienta de visualizacin de WEKA permite presentar grficas 2D que
relacionen pares de atributos, con la opcin de utilizar adems los colores para
aadir informacin de un tercer atributo. Adems, tiene incorporada una
facilidad interactiva para seleccionar instancias con el ratn.
15
17
puede verse una marcada relacin entre las asignaturas opcionales, de manera
que este grfico ilustra qu tipo de asignaturas engloba cada una de las cinco
posibles opciones cursadas.
Se sugiere preparar el siguiente grfico, que relaciona la calificacin obtenida
en la prueba con la localidad de origen y la nota de bachillerato, estando las
calificaciones discretizadas en intervalos de amplitud 2
18
19
1.6. Asociacin
Los algoritmos de asociacin permiten la bsqueda automtica de reglas que
relacionan conjuntos de atributos entre s. Son algoritmos no supervisados, en
el sentido de que no existen relaciones conocidas a priori con las que
contrastar la validez de los resultados, sino que se evala si esas reglas son
estadsticamente significativas. La ventana de Asociacin (Associate en el
Explorer), tiene los siguiente elementos:
20
Resultados
(en texto)
Visualizacin
de resultados y
almacenamient
o
21
las reglas que aparecen aportan poca informacin. Aparecen en primer lugar
las relaciones triviales entre asignaturas y opciones, as como las que
relacionan suspensos en la prueba y en la calificacin final. En cuanto a las que
relacionan alumnos presentados con idioma seleccionado son debidas a la
fuerte descompensacin en el idioma seleccionado. Lla abrumadora mayora
de los presentados a la prueba de idioma seleccionaron el ingls, como indica
la figura siguiente:
22
estas reglas aportan informacin no tan trivial: el 99% de alumnos con nota
superior a 8 se presentan a la convocatoria de Junio, as el 95% de los
alumnos con calificacin en la prueba entre 5.772 y 7.
con el ltimo discretizado en dos grupos iguales (hasta 5.85 y 5.85 hasta 10),
tenemos que de nuevo las reglas ms significativas relacionan convocatoria
con calificacin, pero ahora entran en juego opciones y localidades, si bien
bajando la precisin de las reglas:
1. opcion1=1 cal_final='(5.685-inf)' 2810 ==>
convocatoria=J 2615
conf:(0.93)
2. localidad=LEGANES cal_final='(5.685-inf)' 2514 ==>
convocatoria=J 2315
conf:(0.92)
3. Ao_acadmico='(1998.4-2000.2]' cal_final='(5.685-inf)' 3175 ==>
convocatoria=J 2890
conf:(0.91)
4. cal_final='(5.685-inf)' 9397 ==>
convocatoria=J 8549
conf:(0.91)
5. opcion1=4 cal_final='(5.685-inf)' 2594 ==>
convocatoria=J 2358
conf:(0.91)
6. Ao_acadmico='(2000.2-inf)' cal_final='(5.685-inf)' 3726 ==>
23
conf:(0.57)
conf:(0.55)
conf:(0.53)
Por tanto, forzando los trminos, tenemos que los estudiantes de las 2 primeras
opciones tienen mayor probabilidad de aprobar la prueba, as como los
estudiantes de la localidad de Legans. Los estudiantes de Getafe tienen una
probabilidad superior de obtener una calificacin inferior. Hay que destacar que
estas reglas rozan el umbral del 50%, pero han sido seleccionadas como las
ms significativas de todas las posibles. Tambin hay que considerar que si
aparecen estas dos localidades en primer lugar es simplemente por su mayor
volumen de datos, lo que otorga una significatividad superior en las relaciones
encontradas. Si se consulta la bibliografa, el primer criterio de seleccin de
reglas del algoritmo "A priori" es la precisin o confianza, dada por el
porcentaje de veces que instancias que cumplen el antecedente cumplen el
consecuente, pero el segundo es el soporte, dado por el nmero de instancias
24
sobre las que es aplicable la regla. En todo caso, son reglas de muy baja
precisin y que habra que considerar simplemente como ciertas tendencias.
1.7. Agrupamiento
La opcin Cluster del Experimenter nos permite aplicar algoritmos de
agrupamiento de instancias a nuestros datos. Estos algoritmos buscan grupos
de instancias con caractersticas "similares", segn un criterio de comparacin
entre valores de atributos de las instancias definidos en los algoritmos.
El mecanismo de seleccin, configuracin y ejecucin es similar a otros
elementos: primero se selecciona el algoritmo con Choose, se ajustan sus
parmetros seleccionando sobre el rea donde aparece, y se despus se
ejecuta. El rea de agrupamiento del Explorer presenta los siguientes
elementos de configuracin:
Seleccin y configuracin del algoritmo
Evaluacin
del resultado
de cluster
Clusters en
texto
Visualizacin
de resultados
Ignorar atributos
La opcin Ignoring Attributes permite sacar fuera atributos que no interesa
considerar para el agrupamiento, de manera que el anlisis de parecido entre
instancias no considera los atributos seleccionados. Al accionar esta opcin
aparecen todos los atributos disponibles. Se pueden seleccionar con el botn
izquierdo sobre un atributo especfico, o seleccionar grupos usando SHIFT para
un grupo de atributos contiguos y CONTROL para grupos de atributos sueltos.
Evaluacin
La opcin Cluster Mode permite elegir como evaluar los resultados del
agrupamiento. Lo ms simple es utilizar el propio conjunto de entrenamiento,
Use tranining set, que indica que porcentaje de instancias se van a cada
grupo. El resto de opciones realizan un entrenamiento con un conjunto, sobre
el que construyen los clusters y a continuacin aplican estos clusters para
clasificar un conjunto independiente que puede proporcionarse aparte
(Supplied test), o ser un porcentaje del conjunto de entrada (Percentage
split). Existe tambin la opcin de comparar los clusters con un atributo de
clasificacin (Classes to clusters evaluation) que no se considera en la
construiccin de los clusters. Nosotros nos centraremos nicamente en la
primera opcin, dejando el resto de opciones de evaluacin para ms adelante,
cuando lleguemos a los algoritmos de clasificacin.
Finalmente, el cuadro opcional de almacenamiento de instancias, Store
clusters for visualization, es muy til para despus analizar los resultados
grficamente.
26
27
28
29
30
Por tanto podra concluirse que para este segundo algoritmo de agrupamiento
por criterios estadsticos y no de distancias entre vectores de atributos,
predomina el agrupamiento de los alumnos bsicamente por tramos de
calificaciones, independientemente de la opcin, mientras que en el anterior
pesaba ms el perfil de asignaturas cursado que las calificaciones.
Esta disparidad sirve para ilustrar la problemtica de la decisin del criterio de
parecido entre instancias para realizar el agrupamiento.
31
32
por tanto, vemos que de nuevo vuelve a pesar la opcin como criterio de
agrupamiento. Los nodos hoja 1, 3, 4 y 5 se corresponden con las opciones
cursadas 2, 3, 1 y 4 respectivamente. En un primer nivel hay tres grupos, uno
para la opcin 2, otro para la opcin 4 y otro que une las opciones 1 y 3. Este
ltimo se subdivide en dos grupos que se corresponden con ambas opciones.
1.8. Clasificacin
Finalmente, en esta seccin abordamos el problema de la clasificacin, que es
el ms frecuente en la prctica. En ocasiones, el problema de clasificacin se
formula como un refinamiento en el anlisis, una vez que se han aplicado
algoritmos no supervisados de agrupamiento y asociacin para describir
relaciones de inters en los datos.
Se pretende construir un modelo que permita predecir la categora de las
instancias en funcin de una serie de atributos de entrada. En el caso de
WEKA, la clase es simplemente uno de los atributos simblicos disponibles,
que se convierte en la variable objetivo a predecir. Por defecto, es el ltimo
atributo (ltima columna) a no ser que se indique otro explcitamente. La
configuracin de la clasificacin se efecta con la ventana siguiente:
33
Modo de
evaluacin del
clasificador
Atributo
seleccionado
como clase
Modelo y
evaluacin
(en texto)
Visualizacin
de resultados
Use training set: esta opcin evala el clasificador sobre el mismo conjunto
sobre el que se construye el modelo predictivo para determinar el error, que
en este caso se denomina "error de resustitucin". Por tanto, esta opcin
puede proporcionar una estimacin demasiado optimista del
comportamiento del clasificador, al evaluarlo sobre el mismo conjunto sobre
el que se hizo el modelo.
34
Percentage split : esta opcin divide los datos en dos grupos, de acuerdo
con el porcentaje indicado (%). El valor indicado es el porcentaje de
instancias para construir el modelo, que a continuacin es evaluado sobre
las que se han dejado aparte. Cuando el nmero de instancias es
suficientemente elevado, esta opcin es suficiente para estimar con
precisin las prestaciones del clasificador en el dominio.
Output model: permite visualizar (en modo texto y, con algunos algoritmos, en
modo grfico) el modelo construido por el clasificador (rbol, reglas, etc.)
Output per-class stats: obtiene estadsticas de los errores de clasificacin por
cada uno de los valores que toma el atributo de clase
Output entropy evaluation measures: generara tambin medidas de
evaluacin de entropa
Store predictions for visualization: permite analizar los errores de
clasificacin en una ventana de visualizacin
Cost-sensitive evaluation: con esta opcin se puede especificar una funcin
con costes relativos de los diferentes errores, que se rellena con el botn Set
en nuestro ejemplo utilizaremos los valores por defecto de estas ltimas
opciones.
35
2
3
Se obtiene a partir de los datos esta relacin trivial, salvo dos nicos casos de
error: los presentados son los que tienen una calificacin superior a 0. Con
referencia al informe de evaluacin del clasificador, podemos destacar tres
elementos:
Precisin detallada por clase: para cada uno de los valores que puede
tomar el atributo de clase: el porcentaje de instancias con ese valor que son
correctamente predichas (TP: true positives), y el porcentaje de instancias
con otros valores que son incorrectamente predichas a ese valor aunque
tenan otro (FP: false positives). Las otras columnas, precision, recall, Fmeasure, se relacionan con estas dos anteriores.
b
<-- classified as
0 |
a = SI
153 |
b = NO
por tanto, los valores en la diagonal son los aciertos, y el resto de valores
son los errores. De los 18647 alumnos presentados, todos son
correctamente clasificados, mientras que de los 155 no presentados, hay
153 correctamente clasificados y 2 con error.
Lista de resultados
Al igual que con otras opciones de anlisis, la ventana izquierda de la lista de
resultados contiene el resumen de todas las aplicaciones de clasificadores
sobre conjuntos de datos en la sesin del Explorer. Puede accederse a esta
36
Salvar y cargar modelos: Load model, Save model. Estos modelos pueden
recuperarse de fichero para posteriormente aplicarlos a nuevos conjuntos
de datos
37
Clasificador OneR
Este es uno de los clasificadores ms sencillos y rpidos, aunque en ocasiones
sus resultados son sorprendentemente buenos en comparacin con algoritmos
mucho ms complejos. Simplemente selecciona el atributo que mejor explica
la clase de salida. Si hay atributos numricos, busca los umbrales para hacer
reglas con mejor tasa de aciertos. Lo aplicaremos al problema de prediccin de
aprobados en la prueba a partir de los atributos de entrada, para llegar al
resultado siguiente:
por tanto, el algoritmo llega a la conclusin que la mejor prediccin posible con
un solo atributo es la nota del bachillerato, fijando el umbral que determina el
xito en la prueba en 6.55. La tasa de aciertos sobre el propio conjunto de
entrenamiento es del 72.5%. Comprese este resultado con el obtenido
mediante ejecucin sobre instancias independientes.
38
significativa para no podar. El valor por defecto de este factor es del 25%, y
conforme va bajando se permiten ms operaciones de poda y por tanto llegar a
rboles cada vez ms pequeos. Otra forma de variar el tamao del rbol es a
travs de un parmetro que especifica el mnimo nmero de instancias por
nodo, si bien es menos elegante puesto que depende del nmero absoluto de
instancias en el conjunto de partida.
Construiremos el rbol de decisin con los parmetros por defecto del
algoritmo J48: se llega a un clasificador con ms de 250 nodos, con una
probabilidad de acierto ligeramente superior al del clasificador OneR. Modifique
ahora la configuracin del algoritmo para llegar a un rbol ms manejable,
como el que se presenta a continuacin
Obsrvese que este modelo es un refinamiento del generado con OneR, que
supone una mejorar moderada en las prestaciones. De nuevo los atributos ms
importantes son la calificacin de bachillerato, la convocatoria, y despus el
ao, antes que la localidad o las opciones. Analice las diferencias con
evaluacin independiente y validacin cruzada, y comprelas con las del rbol
ms complejo con menos poda.
Podra ser de inters analizar el efecto de las opciones y asignaturas
seleccionadas sobre el xito en la prueba, para lo cual quitaremos el atributo
ms importante, nota de bachillerato. Llegamos a un rbol como el siguiente,
en el que lo ms importante es la primera asignatura optativa, en diferentes
combinaciones con el ao y segunda asignatura optativa:
39
oneR
J48
40
La precisin alcanzada es tan slo del 60%, indicando que hay bastante
incertidumbre una vez generada la prediccin con los modelos anteriores.
Prediccin de la opcin
Si dejamos todos los atributos en la muestra y aplicamos el clasificador a la
opcin cursado, se desvela una relacin trivial entre opcin y asignaturas en las
opciones que predice con prcticamente el 100% de los casos.
los atributos ms significativos para separar las opciones son precisamente las
calificaciones en las asignaturas optativas, pero apenas predice correctamente
un 40% de los casos. Por tanto, vemos que no hay una relacin directa entre
opciones y calificaciones en la prueba, al menos relaciones que se puedan
modelar con los algoritmos de clasificacin disponibles. Si nos fijamos en
detalle en las calificaciones en funcin de las opciones, podramos determinar
que apenas aparecen diferencias aparecen en los ltimos percentiles, a la vista
de las grficas siguientes:
41
nota historia
nota idioma
nota lengua
nota final
nota asig 1
nota asig 2
42
nota asig3
Vemos que las diferencias no son significativas, salvo quiz en los ltimos
percentiles.
Prediccin de localidad y opcin
La clasificacin se puede realizar sobre cualquier atributo disponible. Con el
nmero de atributos reducido a tres, localidad, opcin y calificacin (aprobados
y suspensos), vamos a buscar modelos de clasificacin, para cada uno de los
atributos:
prediccin de localidad
prediccin de opcin
43
Mejora en la prueba
Un problema de clasificacin interesante puede ser determinar qu alumnos
tienen ms "xito" en la prueba, en el sentido de mejorar su calificacin de
bachillerato con la calificacin en la prueba. Para ello utilizaremos el atributo
"mejora", introducido en la seccin 1.4.2.3, y lo discretizamos en dos valores de
la misma frecuencia (obtenemos una mediana de -1.75, de manera que
dividimos los alumnos en dos grupos: los que obtienen una diferencia menor a
este valor y superior a este valor, para diferenciar los alumnos segn el
resultado se atenga ms o menos a sus expectativas. Evidentemente, para
evitar construir modelos triviales, tenemos que eliminar los atributos
relacionados con las calificaciones en la prueba, para no llegar a la relacin
que acabamos de construir entre la variable calculada y las originales. Vamos a
preparar el problema de clasificacin con los siguientes atributros:
Attributes: 7
Ao_acadmico
convocatoria
localidad
opcion1
nota_bachi
Presentado
mejora
44
45
llegamos a 40 instancias:
46
47
de 1999 en adelante
hasta 1998
48
Prediccin de la calificacin
Vamos a aplicar ahora este modelo para intentar construir un modelo aplicacin
ms interesante, o, al menos, analizar tendencias de inters. Se trata de
intentar predecir la calificacin final a partir de los atributos de entrada, los
mismos que utilizamos para el problema de clasificar los alumnos que
aprueban la prueba. Si aplicamos el algoritmo sobre el conjunto completo
llegamos al siguiente modelo:
49
modelo extenso
modelo simplificado
alumnos opcin 1
alumnos opcin 4
podemos concluir que para estas dos opciones el grado de relacin entre las
variables s es significativamente diferente, los alumnos que cursan la opcin 1
tienen una relacin ms "lineal" entre ambas calificaciones que los procedentes
de la opcin 4
51
52
De los mtodos de evaluacin, podemos distinguir dos tipos: los mtodos que
directamente utilizan un clasificador especfico para medir la calidad del
subconjunto de atributos a travs de la tasa de error del clasificador, y los que
no. Los primeros, denominados mtodos "wrapper", porque "envuelven" al
clasificador para explorar la mejor seleccin de atributos que optimiza sus
prestaciones, son muy costosos porque necesitan un proceso completo de
entrenamiento y evaluacin en cada paso de bsqueda. Entre los segundos
podemos destacar el mtodo "CfsSubsetEval", que calcula la correlacin de la
53
clase con cada atributo, y eliminan atributos que tienen una correlacin muy
alta como atributos redundantes.
En cuanto el mtodo de bsqueda, vamos a mencionar por su rapidez el
"ForwardSelection", que es un mtodo de bsqueda subptima en escalada,
donde elije primero el mejor atributo, despus aade el siguiente atributo que
ms aporta y continua as hasta llegar a la situacin en la que aadir un nuevo
atributo empeora la situacin. Otro mtodo a destacar sera el "BestSearch",
que permite buscar interacciones entre atributos ms complejas que el anlisis
incremental anterior. Este mtodo va analizando lo que mejora y empeora un
grupo de atributos al aadir elementos, con la posibilidad de hacer retrocesos
para explorar con ms detalle. El mtodo "ExhaustiveSearch" simplemente
enumera todas las posibilidades y las evala para seleccionar la mejor
Por otro lado, en la configuracin del problema debemos seleccionar qu
atributo objetivo se utiliza para la seleccin supervisada, en la ventana de
seleccin, y determinar si la evaluacin se realizar con todas las instancias
disponibles, o mediante validacin cruzada.
Los elementos por tanto a configurar en esta seccin se resumen en la figura
siguiente:
Algoritmo
evaluador
Algoritmo de
bsqueda
Evaluacin de
la seleccin
supervisada
atributo de
clase
Resultados
( en texto)
Visualizacin
de resultados
54
Por tanto, hemos llegado a los atributos que mejor explican ambos (la
calificacin en la prueba depende directamente de las parciales, y la opcin se
explica con la 1 asignatura), si bien son relaciones bastante triviales. A
continaucin preparamos los datos para buscar relaciones no conocidas,
quitando los atributos referentes a cada prueba parcial. Dejando como atributos
de la relacin:
Attributes:
7
Ao_acadmico
convocatoria
localidad
opcion1
cal_prueba
nota_bachi
Presentado
y para la opcin 2:
Selected attributes: 3,5,6 : 3
localidad
cal_prueba
nota_bachi
55