Practica5 MD

BENEMERITA UNIVERSIDAD AUTONOMA DE PUEBLA
FACULTAD DE CIENCIAS DE LA COMPUTACIÓN.
MINERÍA DE DATOS
PROFESOR: LUIS YAEL MENDEZ SANCHEZ
ALUMNO: ADA AZALIA ORTIZ MEZA
MATRICULA: 201941240
OTOÑO 2023
INSTRUCCIONES: De acuerdo a los dos datasets que se
adjuntan en esta tarea (hepatitis.arff y autos.arff) mediante WEKA
aplicar el algoritmo J48 para ver como se comportan cada uno de los
dataset y que porcentaje de clasificación arrojan:
J48: Identificar los atributos que se necesiten transformar a

nominales, elegir el atributo de clase, evaluar el resultado del facto y
si lo consideran necesario probar mejorarlo con un factor de poda, el
objetivo es que ustedes realicen las pruebas necesarias.
KNN (K-Nearest Neighbors Algorithm): Aplicar de igual forma el
algoritmo de los Vecinos más cercanos a los dos datasets y realizar
las pruebas, la grabación de la última clase contiene la explicación
del algoritmo.
Reportar sus resultados en un archivo Word o PDF con su hoja de
presentación, la implementación debe ir bien explicado en base a
cada dataset y los resultados de cada algoritmo, saludos.
INTRODUCCION.
El modelo es un clasificador de árbol de decisión construido utilizando el algoritmo J48
con ciertos parámetros (-C 0,25 -M 2). Aquí hay una descripción general de la
información proporcionada:
Información del conjunto de datos :
El conjunto de datos se llama "hepatitis".
Contiene 155 instancias con 20 atributos.
Los atributos incluyen EDAD, SEXO, ESTEROIDES, ANTIVIRALES, FATIGA,
MALESTAR, ANOREXIA, HÍGADO GRANDE, HÍGADO FIRME, BAZO PALPABLE,
ARAÑAS, ASCITAS, VÁRICES, BILIRUBINA, FOSFATO ALK, SGOT, ALBÚMINA,
PROTIMA, HISTOLOGÍA y Clase.
La tarea de clasificación es predecir la "Clase".
Modelo clasificador :
El modelo clasificador es un árbol de decisión J48 podado.

El árbol consta de múltiples nodos y hojas.
El árbol comienza con el atributo "ASCITAS".
Toma decisiones basadas en varios atributos, incluidos "ARAÑAS", "SEXO",
"HÍGADO_FIRM", "EDAD", "SGOT", "HÍGADO_BIG" y "ALBÚMINA", para clasificar las
instancias como "VIVAS" o "MUERTAS".
Evaluación de desempeño :
El rendimiento del modelo se evalúa mediante una validación cruzada de 10 veces.

La precisión del modelo es aproximadamente del 83,87%, con 130 instancias
clasificadas correctamente y 25 instancias clasificadas incorrectamente.
El estadístico Kappa es 0,436 y el error cuadrático medio es 0,363.
El rendimiento del modelo varía para las diferentes clases, con mayor precisión para
las instancias "LIVE" en comparación con las instancias "DIE".
Matriz de confusión :
La matriz de confusión muestra el número de instancias clasificadas como "DIE" y

"LIVE".
Indica que 14 casos de "DIE" se clasificaron correctamente como "DIE" y 18 casos de
"DIE" se clasificaron incorrectamente como "LIVE".
De manera similar, 116 instancias de "LIVE" se clasificaron correctamente como "LIVE"
y 7 instancias de "LIVE" se clasificaron incorrectamente como "DIE".
En general, el modelo de árbol de decisión J48 ha logrado una precisión razonable al
predecir si es probable que los pacientes "VIVAN" o "MUERTAN" en función de los
atributos dados. Sin embargo, hay margen de mejora, especialmente en la
identificación correcta de instancias "DIE". Un mayor ajuste o exploración de diferentes
algoritmos podría mejorar el rendimiento del modelo.
AUTOS
El modelo es un clasificador de árbol de decisión construido utilizando el algoritmo J48

con ciertos parámetros (-C 0,25 -M 2). Aquí hay una descripción general de la
información proporcionada:
Información del conjunto de datos :
El conjunto de datos se llama "autos".
Contiene 205 instancias con 26 atributos.
Los atributos incluyen "pérdidas normalizadas", "marca", "tipo de combustible",
"aspiración", "número de puertas", "estilo de carrocería", "ruedas motrices", "ubicación
del motor", " distancia entre ejes", "largo", "ancho", "alto", "peso en vacío", "tipo de
motor", "número de cilindros", "tamaño del motor", "sistema de combustible", "
diámetro", "carrera", "relación de compresión", "caballos de fuerza", "rpm máximas",
"mpg en ciudad", "mpg en carretera", "precio" y "símbolos".
La tarea de clasificación parece ser predecir una clase, posiblemente relacionada con
tipos de vehículos u otros criterios.
Modelo clasificador :
El modelo clasificador es un árbol de decisión J48 podado.
El árbol consta de múltiples nodos y hojas.
El árbol toma decisiones basándose en varios atributos, como "número de puertas",
"distancia entre ejes", "altura", "peso en vacío", "caballos de fuerza", "precio", "pérdidas
normalizadas", " make" y "engine-type", para clasificar instancias en diferentes clases,
indicadas por números (-3, -2, -1, 0, 1, 2, 3).
Evaluación de desempeño :
El rendimiento del modelo se evalúa mediante una validación cruzada de 10 veces.
La precisión del modelo es aproximadamente del 81,95%, con 168 instancias
clasificadas correctamente y 37 instancias clasificadas incorrectamente.
La estadística Kappa es 0,7669, lo que indica un acuerdo sustancial.
El error absoluto medio es 0,0596 y el error cuadrático medio es 0,2046.
El rendimiento del modelo varía para diferentes clases, con diferentes valores de
precisión, recuperación, medida F, MCC, área ROC y área PRC para cada clase.
Matriz de confusión :
La matriz de confusión muestra el número de instancias clasificadas en diferentes
clases (-3, -2, -1, 0, 1, 2, 3).
Indica cuántas instancias se clasificaron correcta o incorrectamente en estas clases.
En general, el modelo de árbol de decisión J48 ha logrado una precisión
razonablemente buena al clasificar instancias según los atributos proporcionados. Las
métricas de evaluación sugieren que el modelo está funcionando bien, pero la
interpretación específica de las clases y atributos utilizados para la clasificación
dependería del contexto del conjunto de datos "autos".
Conjunto de datos sobre hepatitis :
El modelo de árbol de decisión en el conjunto de datos "hepatitis" tiene un rendimiento
razonable, con una precisión global del 83,87% en la clasificación de pacientes como
"LIVE" o "DIE" en función de varias características médicas.
Aunque el modelo es capaz de distinguir con precisión entre pacientes "LIVE" en la
mayoría de los casos, su capacidad para predecir pacientes "DIE" es menos efectiva,
con una tasa de verdaderos positivos más baja.
Para mejorar el modelo, podrían explorarse técnicas de selección de atributos, ajuste
de hiperparámetros o el uso de otros algoritmos de clasificación.
Conjunto de datos de automóviles :
El modelo de árbol de decisión en el conjunto de datos "autos" tiene un rendimiento
sólido, con una precisión global del 81.95% en la clasificación de instancias en clases
numéricas (-3, -2, -1, 0, 1, 2, 3) basado en características relacionadas con
automóviles.
El modelo es capaz de hacer decisiones basadas en una variedad de atributos, como la
cantidad de puertas, la potencia del motor, el precio y otros, para clasificar los
automóviles en diferentes categorías.
La evaluación del modelo muestra que se desempeña mejor en algunas categorías que
en otras, lo que puede ser útil para aplicaciones específicas en la industria automotriz.
En ambos casos, los modelos de árbol de decisión demuestran la capacidad de utilizar
características relevantes para tomar decisiones de clasificación. Sin embargo, siempre
es importante considerar la calidad de los datos y realizar ajustes en el modelo para
optimizar el rendimiento y la precisión, especialmente si se desea utilizar el modelo en
aplicaciones del mundo real.

Practica5 MD

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Practica5 MD

Cargado por

Copyright:

Formatos disponibles

BENEMERITA UNIVERSIDAD AUTONOMA DE PUEBLA

FACULTAD DE CIENCIAS DE LA COMPUTACIÓN.

ALUMNO: ADA AZALIA ORTIZ MEZA

J48: Identificar los atributos que se necesiten transformar a

El modelo clasificador es un árbol de decisión J48 podado.

El rendimiento del modelo se evalúa mediante una validación cruzada de 10 veces.

La matriz de confusión muestra el número de instancias clasificadas como "DIE" y

El modelo es un clasificador de árbol de decisión construido utilizando el algoritmo J48

También podría gustarte