Está en la página 1de 7

Asignatura

Datos del alumno

Fecha

Técnicas de

Apellidos: Galarza Astudillo

 

Inteligencia

 

17-junio-2019

Artificial

Nombre: Alex Fernando

Actividades

Trabajo: Construcción de un árbol de decisión mediante Weka y análisis del modelo

Esta actividad tiene como objetivo tomar un primer contacto con la herramienta Weka aplicando técnicas de árbol de decisión sobre un conjunto de datos, y comprendiendo la visualización en árbol mostrada por Weka.

Los pasos a seguir son los siguientes:

1. Descárgate e instala Weka en tu ordenador. El software está disponible en la sección de descargas de la página oficial de Weka:

2. Weka trae consigo una serie de datasets o conjuntos de datos por defecto. Estos están disponibles en la carpeta /data incluida en el directorio raíz de Weka creado en la instalación del software. Abre el fichero iris.arff que se encuentra en dicha carpeta con un editor de texto.

3. Una vez abierto el fichero con un editor de texto podrás ver en comentarios quién es el creador de ese conjunto de datos, publicaciones en las que ha sido utilizado y otra información relevante.

4. A continuación ejecuta el Explorer de Weka y abre el fichero iris.arff.

5. Trata de ejecutar el algoritmo ID3 (desde la pestaña Classify).// no

6. Ejecuta el algoritmo C4.5 (algoritmo denominado J48 en Weka) con las opciones por defecto: factor de confianza igual a 0.25, validación cruzada de 10 iteraciones y un mínimo número de instancias requerido en una hoja igual a 2.

Asignatura

Datos del alumno

Fecha

Técnicas de

Apellidos: Galarza Astudillo

 

Inteligencia

 

17-junio-2019

Artificial

Nombre: Alex Fernando

  17-junio-2019 Artificial Nombre: Alex Fernando 7. Copia la salida obtenida tras la ejecución del algoritmo

7. Copia la salida obtenida tras la ejecución del algoritmo en el paso previo y pégala antes del informe que incluye tus respuestas a esta actividad.

En esta actividad debes entregar un informe que incluya la salida obtenida al ejecutar el algoritmo C4.5 y que responda a las preguntas 1 a 7 expuestas a continuación

El informe, sin contar con la salida proporcionada por Weka, tendrá una extensión máxima de 2 páginas (Georgia 11, interlineado, 1,5). === Run information ===

Asignatura

Datos del alumno

Fecha

Técnicas de

Apellidos: Galarza Astudillo

 

Inteligencia

 

17-junio-2019

Artificial

Nombre: Alex Fernando

Scheme:

weka.classifiers.trees.J48 -C 0.25 -M 2

Relation:

iris

Instances:

150

Attributes:

5

sepallength

sepalwidth

petallength

petalwidth

class

Test mode:

10-fold cross-validation

=== Classifier model (full training set) ===

J48 pruned tree

------------------

petalwidth <= 0.6: Iris-setosa (50.0) petalwidth > 0.6

| petalwidth <= 1.7

| | petallength <= 4.9: Iris-versicolor (48.0/1.0)

| | petallength > 4.9

| | | petalwidth <= 1.5: Iris-virginica (3.0)

| | | petalwidth > 1.5: Iris-versicolor (3.0/1.0)

| petalwidth > 1.7: Iris-virginica (46.0/1.0)

Number of Leaves :

5

Size of the tree :

9

Time taken to build model: 0.06 seconds

=== Stratified cross-validation === === Summary ===

Asignatura

Datos del alumno

Fecha

Técnicas de

Apellidos: Galarza Astudillo

 

Inteligencia

 

17-junio-2019

Artificial

Nombre: Alex Fernando

Correctly Classified Instances

144

96

%

Incorrectly Classified Instances

6

4

%

Kappa statistic Mean absolute error Root mean squared error Relative absolute error Root relative squared error Total Number of Instances

Mean absolute error Root mean squared error Relative absolute error Root relative squared error Total Number
Mean absolute error Root mean squared error Relative absolute error Root relative squared error Total Number
Mean absolute error Root mean squared error Relative absolute error Root relative squared error Total Number
Mean absolute error Root mean squared error Relative absolute error Root relative squared error Total Number
Mean absolute error Root mean squared error Relative absolute error Root relative squared error Total Number

0.94

0.035

0.1586

7.8705 %

33.6353 %

150

=== Detailed Accuracy By Class ===

TP Rate FP Rate Precision Recall

F-Measure MCC

ROC Area PRC Area

Class

0,980

0,000

1,000

0,980

0,990

0,985

0,990

0,987

Iris-

setosa

0,940

0,030

0,940

0,940

0,940

0,910

0,952

0,880

Iris-

versicolor

0,960

0,030

0,941

0,960

0,950

0,925

0,961

0,905

Iris-

virginica

Weighted Avg.

0,960

0,020

0,960

0,960

0,960

0,940

0,968

0,924

=== Confusion Matrix ===

a

b

c

<-- classified as

49

1

0 | a = Iris-setosa

0 47 3 | b = Iris-versicolor

0 2 48 | c = Iris-virginica

Pregunta 1: Describe los datos del problema indicando:

Pregunta 1: Describe los datos del problema indicando: Número de clases indicando que representan dichas clases

Número de clases indicando que representan dichas clases y el tipo de valor que toman.

Asignatura

Datos del alumno

Fecha

Técnicas de

Apellidos: Galarza Astudillo

 

Inteligencia

 

17-junio-2019

Artificial

Nombre: Alex Fernando

  17-junio-2019 Artificial Nombre: Alex Fernando Número de instancias en total. Número de instancias

Número de instancias en total.  17-junio-2019 Artificial Nombre: Alex Fernando Número de instancias pertenecientes a cada clase. Número

Nombre: Alex Fernando Número de instancias en total. Número de instancias pertenecientes a cada clase. Número

Número de instancias pertenecientes a cada clase.Nombre: Alex Fernando Número de instancias en total. Número de atributos de entrada, su significado y

en total. Número de instancias pertenecientes a cada clase. Número de atributos de entrada, su significado

Número de atributos de entrada, su significado y tipo.en total. Número de instancias pertenecientes a cada clase. ENTRADA SIGNIFICADO TIPO sepallength Longitud

ENTRADA

SIGNIFICADO

TIPO

sepallength

Longitud del sépalo

Numérico

sepalwidth

Ancho del sépalo

Numérico

petallength

Longitud del pétalo

Numérico

petalwidth

Ancho de pétalo

Numérico

class

clase

Nominal

¿Hay algún valor de atributo desconocido?Ancho de pétalo Numérico class clase Nominal Pregunta 2: ¿Por qué crees que no se puede

Pregunta 2: ¿Por qué crees que no se puede seleccionar el clasificador ID3?

Asignatura

Datos del alumno

Fecha

Técnicas de

Apellidos: Galarza Astudillo

 

Inteligencia

 

17-junio-2019

Artificial

Nombre: Alex Fernando

Pregunta 3: Dibuja el árbol resultante de ejecutar el algoritmo C4.5 con Weka en el paso 6.

de ejecutar el algoritmo C4.5 con Weka en el paso 6. Pregunta 4 : Una instancia

Pregunta 4: Una instancia nueva con los siguientes valores de atributos, según el árbol de decisión generado, ¿en qué clase se clasificaría?

Petalwidth= 1.6 cm Petallength= 4 cm Sepalwidth= 3.4 cm Sepallength= 6 cm Se clasifica en iris-versicolor.

Pregunta 5: ¿Qué significan los números que Weka muestra entre paréntesis junto a los nombres de las clases en las hojas del árbol generado? Los números que se presentan junto al nombre de las clases de las hojas el primer número es el valor de aciertos para esa clase y el segundo es el número de desaciertos que existen. Pregunta 6: De acuerdo al resumen de resultados de la validación cruzada con 10 iteraciones, que es una medida de los errores que se esperarían si se aplicara un conjunto de datos de prueba independiente, ¿se puede considerar que el árbol generado en el paso 6 (utilizando el conjunto completo de datos de entrenamiento) es optimista respecto a la precisión en la predicción? Al realizar el ejercicio se esperaba obtener 10 errores, pero se obtuvieron únicamente 6.

Asignatura

Datos del alumno

Fecha

Técnicas de

Apellidos: Galarza Astudillo

 

Inteligencia

 

17-junio-2019

Artificial

Nombre: Alex Fernando

Pregunta 7: De acuerdo a la matriz de confusión obtenida, de las instancias que pertenecen a la clase Iris-setosa, ¿cuántas de ellas son clasificadas correctamente como de esa clase? ¿Cuántas son incorrectamente clasificadas y en qué clase son incorrectamente clasificadas? En iris-setosa se clasifican como verdaderos positivos 49 y un falso negativo en Iris- versicolor.