Está en la página 1de 4

Asignatura Datos del alumno Fecha

Técnicas de Apellidos: Chiari Almengor


15 de dic. 2023
inteligencia Artificial Nombre: Moisés David

Descripción del problema a resolver: El conjunto de datos a trabajar trata sobre


evaluación de algunas de las características en un automóvil, tales como: seguridad,
capacidad de pasajero, costo de mantenimiento, puertas, capacidad de vehículo y
capacidad del maletero. Dicha evaluación tendrá como resultado final un valor de: muy
bueno, bueno, aceptable e inaceptable dependiendo de sus características ya
mencionadas. Se realizará un entrenamiento equilibrado con dos algoritmos de inteligencia
artificial para comprender la precisión, ver comparaciones entre ambos algoritmos y optar
por el más preciso para este tipo de conjunto.
Este conjunto de datos tiene como variables de entrada a: buying, Maintenance, doors,
person, lug_boot, safety y variable objetivo a: class que contiene la evaluación final según
las características de entrada.
Descripción de los datos
unacc Tipo de valor nominal Representa no aceptado.
acc Tipo de valor nominal Aceptado.
good Tipo de valor nominal Bueno
Vgood Tipo de valor nominal Muy bueno
Total de instancias: El conjunto de dato tiene un total de instancia de 1750.
Instancias pertenecientes a cada clase

Clases No. instancias


unacc 1215
acc 390
good 75
Vgood 70
Atributos de entrada, significado y tipo de variable
Atributo Tipo Significado
Buying Ordinal Precio de compra
Mantenimiento Ordinal Costo de mantenimiento
Doors Ordinarl Cantidad de puertas
Person Ordinal Capacidad de pasajeros
Asignatura Datos del alumno Fecha
Técnicas de Apellidos: Chiari Almengor
15 de dic. 2023
inteligencia Artificial Nombre: Moisés David

Lug_boot Ordinal Capacidad del maletero


Safety Ordinal Seguridad del auto
Valor desconocido ¿Hay? En el análisis exploratorio no se encontró ningún valor
desconocido.
Análisis exploratorio numérico del conjunto de datos: Con la librería pandas en Python
podemos realizar vistazos del conjunto de datos como cantidad de instancias y columnas:
(1750, 7). También
podremos obtener un
resumen estadístico de
cada atributo por el total
Figura 1: resumen estadístico
de instancia, cabe
mencionar que sus valores son categóricos. En la figura 1, se puede obtener valores como
frecuencia, valores unico, totales en cada atributo de entrada como el objetivo también.
Análisis exploratorio gráfico del
conjunto de datos: Debido a la
naturaleza del conjunto de datos, por ser
variables categóricas no se puede
graficar de manera cuantitativa sin antes
realizar un conteo, para verificar las
ocurrencias de la variable objetivo
podemos utilizar la librería seaborn para
graficar la cantidad de estas:
Preprocesamiento:a naturaleza de este conjunto de datos es categorico, para poder
realizar entrenamientos se debe transformar a valores números, por lo cuál se utiliza la
codificación one hot para transformar los valores en true o false y así realizar la medición.
Algoritmo de árbol de decisión (Modelo 1) : El conjunto de datos se segmentó de forma
80-20, es decir, para el entrenamiento se utilizó un 20% del conjunto y un 80% prueba. Se
utilizó librerías para el entrenamiento del conjunto.
El resultado de la precisión con el entrenamiento por una iteración fue de 0.9686 y una
precisión ponderada de 0.9689.
Asignatura Datos del alumno Fecha
Técnicas de Apellidos: Chiari Almengor
15 de dic. 2023
inteligencia Artificial Nombre: Moisés David

Algoritmo de random forest(Modelo 2): Utilizando la misma división de datos, se utiliza


el algoritmo de random forest para el entrenamiento y prueba del conjunto. Dio resultados
en la precisión de 0.9514 y una precisión ponderada de 0.9551.
Resultados: Ambos resultados generaron valores altos. Los dos algoritmos se entrenaron
con métricas equilibradas para que su interpretabilidad no fuese afectada.
Modelo 1:
1. Instancias clasificadas Matriz de confusión
correctamente: 339
2. Instancias clasificadas
incorrectamente: 11
3. Tasa de Verdaderos Positivos (TP
rate): 0.8889
4. Tasa de Falsos Positivos (FP rate):
0.0411

Modelo 2
1. Instancias clasificadas Matriz de confusión
correctamente (Random
Forest): 333
2. Instancias clasificadas
incorrectamente (Random
Forest): 17
3. Tasa de Verdaderos Positivos
(TP rate) (Random Forest):
0.8125
4. Tasa de Falsos Positivos (FP
rate) (Random Forest): 0.0267

Comparación
Asignatura Datos del alumno Fecha
Técnicas de Apellidos: Chiari Almengor
15 de dic. 2023
inteligencia Artificial Nombre: Moisés David

Con los resultados podemos verificar


que de los dos algoritmos utiliados, el es
más eficiente en este caso es el árbol de
decisión. En cuanto sus instancias
clasificadas correctamente fueron 339 vs
333 del random forest. Una conclusión
de esta comparación inicial, podemos
ver que el algoritmo de árbol de decisión
obtuvo mejor resultado que algoritmo de random forest, a razón de que el árbol de
clasificación trabaja mejor con conjuntos de datos pequeños y el random forest necesita
mejores datos o dicho de otra forma, su conjunto de datos debe ser mayor para un resultado
más robusto.
Ventajas y desventajas:
Ventajas árbol de decisión: Ventajas random forest:
• Pocos datos para • Mejor estabilidad.
entrenamiento. • Mejor resultado en conjuntos de
• Mejores resultados por la datos grandes.
naturaleza del conjunto. • Utiliza varios árboles para su
• Fácil comprensión. entrenamiento.
Desventajas árbol de decisión: Desventajas random forest:
• Sobre entrenamiento. • Requiere más tiempo de
• Desequilibrio en el resultado por entrenamiento.
pequeños cambios. • Menor eficiencia en datos
pequeños.

También podría gustarte