JARG - Taller 6 - Weka

TALLER No 6 – WEKA
JOHNY ALEJANDRO ROJAS GONZALEZ

COD. 201321022601
Paso No. 1 – Buscar la aplicación de Weka 3.8.4
Paso No. 2 – Luego de abrir la aplicación damos clic en el botón Explorer

Paso No. 3 – Se visualiza la siguiente pantalla y damos clic en el botón Open file…
Paso No. 4 – Luego de darle clic al botón del paso No. 3, procedemos a buscar el archivo titanic2.arff
con el cual vamos a realizar la práctica. Luego de seleccionar el archivo damos clic al botón abrir
ubicado en la parte inferior. Adicional a esto se puede observar que existen 6 sub-entornos de
ejecución:
• Preprocess: Incluye las herramientas y filtros para cargar y manipular los datos
• Classification: Acceso a las técnicas de clasificación y regresión.
• Cluster: Integra varios métodos de agrupamiento.
• Associate: Incluye unas pocas técnicas de reglas de asociación.
• Select Attributes: Permite aplicar diversas técnicas para la reducción del número de atributos.
• Visualize: Podemos estudiar el comportamiento de los datos mediante técnicas de visualización.
Paso No. 5 – Se comienzan a visualizar los datos contenidos en el archivo (titanic2.arff).
1. Se visualizan datos principales contenidos en el archivo como lo son:
a. Relation: relation
b. Instances: 2201
c. Attributes: 4
d. Sum of weights: 2201
2. Muestra los atributos principales del archivo

a. Class
b. Age
c. Sex
d. Survived
3. De acuerdo con la clase seleccionada en el punto 2, se visualizan los datos correspondientes a

esta categoría.
a. Class
i. 1st
ii. 2nd
iii. 3rd
iv. Crew
4. Muestra gráficamente los datos visualizados en el punto 3, estos datos cambian de acuerdo con
el atributo seleccionado en el paso 2.
Paso No. 6 – En la siguiente pestaña “Classify” se construyen los clasificadores de datos, para el
taller se utilizará el un clasificador de árbol, para ello pulsamos sobre el botón Choose para buscar el
clasificador mencionado.
Paso No. 7 – Seleccionamos la subcarpeta trees y escogemos el clasificador J48.

Paso No. 8 – Presionamos el botón Start para que se genere toda la información correspondiente al
clasificador de árbol seleccionado.
Paso No. 9 – Cuando la aplicación termine de realizar el proceso, en el cuadro “Classifier output”,
tendremos recopilada la información correspondiente al clasificado de árbol utilizado.
=== Run information ===
Scheme: weka.classifiers.trees.J48 -C 0.25 -M 2

Relation: relation
Instances: 2201
Attributes: 4
class
age
sex
survived
Test mode: 10-fold cross-validation
=== Classifier model (full training set) ===
J48 pruned tree

------------------
sex = male
| class = 1st
| | age = adult: no (175.0/57.0)
| | age = child: yes (5.0)
| class = 2nd
| | age = adult: no (168.0/14.0)
| | age = child: yes (11.0)
| class = 3rd: no (510.0/88.0)
| class = crew: no (862.0/192.0)
sex = female
| class = 1st: yes (145.0/4.0)
| class = 2nd: yes (106.0/13.0)
| class = 3rd: no (196.0/90.0)
| class = crew: yes (23.0/3.0)
Number of Leaves : 10
Size of the tree : 15
Time taken to build model: 0.03 seconds
=== Stratified cross-validation ===

=== Summary ===
Correctly Classified Instances 1737 78.9187 %

Incorrectly Classified Instances 464 21.0813 %
Kappa statistic 0.429
Mean absolute error 0.312
Root mean squared error 0.3959
Relative absolute error 71.3177 %
Root relative squared error 84.6545 %
Total Number of Instances 2201
=== Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure MCC ROC Area PRC Area Class
0,376 0,013 0,930 0,376 0,535 0,503 0,746 0,680 yes
0,987 0,624 0,768 0,987 0,864 0,503 0,746 0,822 no
Weighted Avg. 0,789 0,427 0,820 0,789 0,758 0,503 0,746 0,777
=== Confusion Matrix ===
a b <-- classified as
267 444 | a = yes
20 1470 | b = no
Paso No. 10 – Luego de analizar la información podemos visualizar gráficamente el árbol
correspondiente de esta información, para ellos vamos a dar clic derecho sobre el resultado y
seleccionamos la opción visualize tree.
Paso No. 11 – Se abre una nueva ventana, la cual se debe maximizar y para visualizar correctamente
el árbol, hacemos clic derecho sobre la imagen y seleccionamos la opción Fit to Screen.
Paso No. 12 – En la siguiente pestaña “Cluster”, el funcionamiento es muy similar al de clasificación:
se elige un método de clustering, se selecciona las opciones pertinentes y con el botón Start comienza
el funcionamiento.
Paso No. 13 - Cuando la aplicación termine de realizar el proceso, en el cuadro “Clusterer output”,
tendremos recopilada la información correspondiente al clustering seleccionado
.
Scheme: weka.clusterers.EM -I 100 -N -1 -X 10 -max -1 -ll-cv 1.0E-6 -ll-iter 1.0E-6 -M 1.0E-6 -K 10 -num-
slots 1 -S 100
Relation: relation
Instances: 2201
Attributes: 4
class
age
sex
survived
Test mode: evaluate on training data
=== Clustering model (full training set) ===
EM
==
Number of clusters selected by cross validation: 5

Number of iterations performed: 100
Cluster
Attribute 0 1 2 3 4
(0.18) (0.11) (0.45) (0.1) (0.17)
==============================================================
class
1st 5.0846 31.9188 100.7543 20.9428 171.2995
2nd 10.9854 2.653 61.9528 100.9853 113.4236
3rd 377.6077 15.0733 167.0836 75.942 75.2934
crew 3.5847 186.7781 675.2968 16.5627 7.7777
[total] 397.2624 236.4232 1005.0875 214.4328 367.7941
age
adult 323.925 233.0408 1001.8627 210.7996 327.3718
child 71.3374 1.3824 1.2247 1.6332 38.4223
[total] 395.2624 234.4232 1003.0875 212.4328 365.7941
sex
male 263.1889 214.048 1000.0095 193.3044 65.4493
female 132.0735 20.3753 3.0779 19.1285 300.3449
[total] 395.2624 234.4232 1003.0875 212.4328 365.7941
survived
yes 88.5679 213.0054 49.8502 4.634 359.9425
no 306.6944 21.4178 953.2373 207.7988 5.8517
[total] 395.2624 234.4232 1003.0875 212.4328 365.7941
Time taken to build model (full training data) : 8.71 seconds
=== Model and evaluation on training set ===
Clustered Instances
0 616 ( 28%)
1 212 ( 10%)
2 791 ( 36%)
3 167 ( 8%)
4 415 ( 19%)
Log likelihood: -2.35553

Paso No. 14 – La pestaña “Associate” nos permite aplicar métodos orientados a buscar asociaciones
entre los datos. Es importante señalar que estos métodos sólo funcionan con datos nominales. Es sin
el sub-entorno más sencillo más simple de manejar.
Paso No. 15 - Cuando se termine de realizar el paso anterior, en el cuadro “Associator output”,
tendremos recopilada la información correspondiente a los datos asociados encontrados.
Scheme: weka.associations.Apriori -N 10 -T 0 -C 0.9 -D 0.05 -U 1.0 -M 0.1 -S -1.0 -c -1

Relation: relation
Instances: 2201
Attributes: 4
class
age
sex
survived
=== Associator model (full training set) ===
Apriori
=======
Minimum support: 0.35 (770 instances)

Minimum metric <confidence>: 0.9
Number of cycles performed: 13
Generated sets of large itemsets:

Size of set of large itemsets L(1): 4
Best rules found:
1. class=crew 885 ==> age=adult 885 <conf:(1)> lift:(1.05) lev:(0.02) [43] conv:(43.83)
2. class=crew sex=male 862 ==> age=adult 862 <conf:(1)> lift:(1.05) lev:(0.02) [42] conv:(42.69)
3. sex=male survived=no 1364 ==> age=adult 1329 <conf:(0.97)> lift:(1.03) lev:(0.01) [32] conv:(1.88)
4. class=crew 885 ==> sex=male 862 <conf:(0.97)> lift:(1.24) lev:(0.08) [165] conv:(7.87)
5. class=crew age=adult 885 ==> sex=male 862 <conf:(0.97)> lift:(1.24) lev:(0.08) [165] conv:(7.87)
6. class=crew 885 ==> age=adult sex=male 862 <conf:(0.97)> lift:(1.29) lev:(0.09) [191] conv:(8.95)
7. survived=no 1490 ==> age=adult 1438 <conf:(0.97)> lift:(1.02) lev:(0.01) [21] conv:(1.39)
8. sex=male 1731 ==> age=adult 1667 <conf:(0.96)> lift:(1.01) lev:(0.01) [21] conv:(1.32)
9. age=adult survived=no 1438 ==> sex=male 1329 <conf:(0.92)> lift:(1.18) lev:(0.09) [198] conv:(2.79)
10. survived=no 1490 ==> sex=male 1364 <conf:(0.92)> lift:(1.16) lev:(0.09) [192] conv:(2.51)
Paso No. 16 – Esta pestaña nos permite acceder al área de selección de atributos. El objetivo de estos
métodos es identificar, mediante un conjunto de datos que poseen ciertos atributos, aquellos atributos
tiene más peso a la hora de determinar si los datos son de una clase u otra.
Paso No. 17 – Cuando se termine de realizar el paso anterior, en el cuadro “Attribute Selection
output”, tendremos recopilada la información correspondiente a los atributos utilizados.

Evaluator: weka.attributeSelection.CfsSubsetEval -P 1 -E 1
Search: weka.attributeSelection.BestFirst -D 1 -N 5
Relation: relation
Instances: 2201
Attributes: 4
class
age
sex
survived
Evaluation mode: evaluate on all training data
=== Attribute Selection on all input data ===
Search Method:
Best first.
Start set: no attributes
Search direction: forward
Stale search after 5 node expansions
Total number of subsets evaluated: 6
Merit of best subset found: 0.172
Attribute Subset Evaluator (supervised, Class (nominal): 4 survived):

CFS Subset Evaluator
Including locally predictive attributes
Selected attributes: 3 : 1
sex
Paso No. 18 – Esta pestaña “” muestra gráficamente la distribución de todos los atributos mostrando
graficas en dos dimensiones, en las cuales se va representando en los ejes todos los posibles pares
de combinaciones de los atributos, también nos permite ver correlaciones y asociaciones entre los
atributos de una forma gráfica.

JARG - Taller 6 - Weka

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

JARG - Taller 6 - Weka

Cargado por

Copyright:

Formatos disponibles

TALLER No 6 – WEKA

JOHNY ALEJANDRO ROJAS GONZALEZ

Paso No. 1 – Buscar la aplicación de Weka 3.8.4

Paso No. 2 – Luego de abrir la aplicación damos clic en el botón Explorer

2. Muestra los atributos principales del archivo

3. De acuerdo con la clase seleccionada en el punto 2, se visualizan los datos correspondientes a

Paso No. 7 – Seleccionamos la subcarpeta trees y escogemos el clasificador J48.

=== Run information ===

Scheme: weka.classifiers.trees.J48 -C 0.25 -M 2

=== Classifier model (full training set) ===

J48 pruned tree

Size of the tree : 15

Time taken to build model: 0.03 seconds

=== Stratified cross-validation ===

Correctly Classified Instances 1737 78.9187 %

=== Detailed Accuracy By Class ===

=== Confusion Matrix ===

=== Clustering model (full training set) ===

Number of clusters selected by cross validation: 5

Time taken to build model (full training data) : 8.71 seconds

=== Model and evaluation on training set ===

Log likelihood: -2.35553

=== Run information ===

Scheme: weka.associations.Apriori -N 10 -T 0 -C 0.9 -D 0.05 -U 1.0 -M 0.1 -S -1.0 -c -1

Minimum support: 0.35 (770 instances)

Generated sets of large itemsets:

Size of set of large itemsets L(2): 5

Size of set of large itemsets L(3): 2

Best rules found:

=== Run information ===

=== Attribute Selection on all input data ===

Attribute Subset Evaluator (supervised, Class (nominal): 4 survived):

También podría gustarte