GuiaWeka Explorer

Guía Básica de Weka
RGGH
Para poder trabajar con volúmenes medianos de datos es necesario modificar la cantidad de memoria que java
dedica para trabajar con los datos. Con una cuenta de administrador edite (con notepad) el archivo Runweka.ini
y modifique el valor del parámetro maxheap. Póngalo en 640 para no tener problema con los archivos de datos
de esta demostración.
Invocando Weka.
Ejecutar el ícono de weka o bien por medio del menú de inicio. Weka responde con la pantalla de selección de
modalidad de trabajo:
Guía básica del Explorer de WEKA. Por RGGH. Enero de 2012. Pág. 1 / 22
Seleccionamos el botón de la opción de Explorer.
Métodos de clasificación.
Se muestra el Cart j48 y la regresión logística para los casos de las Flores de Fisher, caso clásico (archivo
iris.arff en los datos de ejemplo de weka,)
C:\Program Files\Weka-3-6\data
Para ello, estando en la pestaña de Preprocess aplicamos la opción Open File, elegimos la ruta indicada y
seleccionamos el archivo iris.arff. El formato de este archivo especifica el tipo de dato de cada atributo y
asimismo indica cuál es la variable objetivo, en este clase Class.
Al incorporarse los datos en al ambiente de trabajo weka nos permite visualizar la concurrencia entre cada uno
de los atributos (el que seleccionemos en el panel de atributos) y la clase de flor de que se trate. Asimismo e el
panel de la derecha nos entrega un resumen de las estadísticas básicas del atributo seleccionado. En la pestaña
de Visualize nos muestra la correspondencia entre los diferentes atributos.
En la pestaña de Classify llevaremos a cabo los modelos de clasificación por medio de las herramientas para tal
fin. Primeramente usaremos el constructor de árboles de clasificación j48, el cual es el C4.5 en java y para
weka. Para ello elegimos en el botón Choose y seleccionamos en trees la alernativa j48.
Al aplicar el botón Start weka ejecuta la opción elegida y construye el árbol. La siguiente pantalla uestra la
salida y el listado que aparece a continuación contiene los resultados textuales entregados.
--------------------------- COPIA DE LA SALIDA ----------------------------------------
=== Run information ===
Scheme: weka.classifiers.trees.J48 -C 0.25 -M 2

Relation: iris
Instances: 150
Attributes: 5
sepallength
sepalwidth
petallength
petalwidth
class
Test mode: 10-fold cross-validation
=== Classifier model (full training set) ===
J48 pruned tree

------------------
petalwidth <= 0.6: Iris-setosa (50.0)

petalwidth > 0.6
| petalwidth <= 1.7
| | petallength <= 4.9: Iris-versicolor (48.0/1.0)
| | petallength > 4.9
| | | petalwidth <= 1.5: Iris-virginica (3.0)
| | | petalwidth > 1.5: Iris-versicolor (3.0/1.0)
| petalwidth > 1.7: Iris-virginica (46.0/1.0)
Number of Leaves : 5
Size of the tree : 9
Time taken to build model: 0.02 seconds
=== Stratified cross-validation ===

=== Summary ===
Correctly Classified Instances 144 96 %

Incorrectly Classified Instances 6 4 %
Kappa statistic 0.94
Mean absolute error 0.035
Root mean squared error 0.1586
Relative absolute error 7.8705 %
Root relative squared error 33.6353 %
Total Number of Instances 150
=== Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure ROC Area Class

0.98 0 1 0.98 0.99 0.99 Iris-setosa
0.94 0.03 0.94 0.94 0.94 0.952 Iris-versicolor
0.96 0.03 0.941 0.96 0.95 0.961 Iris-virginica
Weighted Avg. 0.96 0.02 0.96 0.96 0.96 0.968
=== Confusion Matrix ===
a b c <-- classified as
49 1 0 | a = Iris-setosa
0 47 3 | b = Iris-versicolor
0 2 48 | c = Iris-virginica
------------------------------------------------ FIN DE LA SALIDA ------------------------------
Weka puede arrojar asimismo otras salidas. Una muy importante es la “proabilidad” que calcula de que un caso
sea de cada una de las tres clases de flores.observe que los valores entregados suman la unidad.
Y este es el árbol encontrado.
Otra gráfica importante es la Curva de ROC, donde en el eje Y muestra la poporción de unos reconocidos y en
el eje vertical la proporción de los otros casos interpretados como unos, en términos de ordenar los casos de
acuerdo a las proabilidades asignadas.
Guía básica del Explorer de WEKA. Por RGGH. Enero de 2012. Pág. 10 /
22
Ahora se realizará el ismo trabajo por medio de una regresión logística.
22
Obteniéndose la siguiente curva de ROC.
22
Caso Insurance:
Para ver en acción la herramienta con un caso un poco más complejo, utilizaremos Weka para clasificar los
cliente que compran un seguro (Caso Insurance) a partir de los datos que tiene un banco. (Ver descripción del
caso Insurance). Este es un caso en el cual, si procedemos al azar, la campaña de ventas nos hace perder
dinero. Si procedemos utiliando las herramientas de minería podemos hacer rentable nuestra campaña. Los
datos están en un archivo Insurance_10619.csv (son 10619 casos).
Posteriormente a la lectura de los datos debemos convertir los datos de la variable INS de Numéricos a
Nominales. Esto lo hacemos por medio de un “filtro” Filter – unsupervised-attribute - numericToNominal.
Para realizar esta tarea hace falta definir qué variables vamos a convertir. Por omisión supone todas. La damos
un click derecho en el letrero Numeric to Nominal –R first-last y tecleando el número que le corresponde a la
varable INS (en el caso mostrado es 46). Click en Ok. Esto cerrará la ventana de diálogo. Debemos ahora
aplicar el filtro de conversión dando un click en el botón Apply.
Con esto ya tenemos la variable que utilizaremos como clase (INS=1 corresponde alos casos que copraron en
seguro, INS=0 corresponde a los que no lo adquirieron). Ahora lo que hay que hacer es definirle a weka cuál es
la variable objetivo, esto lo hacemos seleccionado la variable INS en la lista de selección de Class.
NOTA: al cambiarse a la pestaña de Classify debemos de volver a seleccionar el atributo objetivo. El resto
de la interacción queda conforme a lo que se trabajó en el caso de las flores. Obsérvese que para el caso
Insurance la curva de ROC ya no queda tan bonita (cuadrada) sino que en función de la herramienta
seleccionada las áreas de la curva de ROC van manifestando un mejor o peor ajuste.
22
22
22
22
22
Seleccionando el atributo objetivo antes de aplicar el entrenamiento del modelo de clasificación. Se meustra el
caso de la Regresión Logística.
22
22
22
Modelo para INS con j48:
22
22

GuiaWeka Explorer

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

GuiaWeka Explorer

Cargado por

Copyright:

Formatos disponibles

Guía Básica de Weka

=== Run information ===

Scheme: weka.classifiers.trees.J48 -C 0.25 -M 2

=== Classifier model (full training set) ===

J48 pruned tree

petalwidth <= 0.6: Iris-setosa (50.0)

Size of the tree : 9

Time taken to build model: 0.02 seconds

=== Stratified cross-validation ===

Correctly Classified Instances 144 96 %

=== Detailed Accuracy By Class ===

TP Rate FP Rate Precision Recall F-Measure ROC Area Class

=== Confusion Matrix ===

------------------------------------------------ FIN DE LA SALIDA ------------------------------

También podría gustarte