Actividad 1 Moises Chiari

Asignatura Datos del alumno Fecha
Técnicas de Apellidos: Chiari Almengor

15 de dic. 2023
inteligencia Artificial Nombre: Moisés David
Descripción del problema a resolver: El conjunto de datos a trabajar trata sobre

evaluación de algunas de las características en un automóvil, tales como: seguridad,
capacidad de pasajero, costo de mantenimiento, puertas, capacidad de vehículo y
capacidad del maletero. Dicha evaluación tendrá como resultado final un valor de: muy
bueno, bueno, aceptable e inaceptable dependiendo de sus características ya
mencionadas. Se realizará un entrenamiento equilibrado con dos algoritmos de inteligencia
artificial para comprender la precisión, ver comparaciones entre ambos algoritmos y optar
por el más preciso para este tipo de conjunto.
Este conjunto de datos tiene como variables de entrada a: buying, Maintenance, doors,
person, lug_boot, safety y variable objetivo a: class que contiene la evaluación final según
las características de entrada.
Descripción de los datos
unacc Tipo de valor nominal Representa no aceptado.
acc Tipo de valor nominal Aceptado.
good Tipo de valor nominal Bueno
Vgood Tipo de valor nominal Muy bueno
Total de instancias: El conjunto de dato tiene un total de instancia de 1750.
Instancias pertenecientes a cada clase
Clases No. instancias

unacc 1215
acc 390
good 75
Vgood 70
Atributos de entrada, significado y tipo de variable
Atributo Tipo Significado
Buying Ordinal Precio de compra
Mantenimiento Ordinal Costo de mantenimiento
Doors Ordinarl Cantidad de puertas
Person Ordinal Capacidad de pasajeros
15 de dic. 2023
Lug_boot Ordinal Capacidad del maletero

Safety Ordinal Seguridad del auto
Valor desconocido ¿Hay? En el análisis exploratorio no se encontró ningún valor
desconocido.
Análisis exploratorio numérico del conjunto de datos: Con la librería pandas en Python
podemos realizar vistazos del conjunto de datos como cantidad de instancias y columnas:
(1750, 7). También
podremos obtener un
resumen estadístico de
cada atributo por el total
Figura 1: resumen estadístico
de instancia, cabe
mencionar que sus valores son categóricos. En la figura 1, se puede obtener valores como
frecuencia, valores unico, totales en cada atributo de entrada como el objetivo también.
Análisis exploratorio gráfico del
conjunto de datos: Debido a la
naturaleza del conjunto de datos, por ser
variables categóricas no se puede
graficar de manera cuantitativa sin antes
realizar un conteo, para verificar las
ocurrencias de la variable objetivo
podemos utilizar la librería seaborn para
graficar la cantidad de estas:
Preprocesamiento:a naturaleza de este conjunto de datos es categorico, para poder
realizar entrenamientos se debe transformar a valores números, por lo cuál se utiliza la
codificación one hot para transformar los valores en true o false y así realizar la medición.
Algoritmo de árbol de decisión (Modelo 1) : El conjunto de datos se segmentó de forma
80-20, es decir, para el entrenamiento se utilizó un 20% del conjunto y un 80% prueba. Se
utilizó librerías para el entrenamiento del conjunto.
El resultado de la precisión con el entrenamiento por una iteración fue de 0.9686 y una
precisión ponderada de 0.9689.
15 de dic. 2023
Algoritmo de random forest(Modelo 2): Utilizando la misma división de datos, se utiliza

el algoritmo de random forest para el entrenamiento y prueba del conjunto. Dio resultados
en la precisión de 0.9514 y una precisión ponderada de 0.9551.
Resultados: Ambos resultados generaron valores altos. Los dos algoritmos se entrenaron
con métricas equilibradas para que su interpretabilidad no fuese afectada.
Modelo 1:
1. Instancias clasificadas Matriz de confusión
correctamente: 339
2. Instancias clasificadas
incorrectamente: 11
3. Tasa de Verdaderos Positivos (TP
rate): 0.8889
4. Tasa de Falsos Positivos (FP rate):
0.0411
Modelo 2
1. Instancias clasificadas Matriz de confusión
correctamente (Random
Forest): 333
2. Instancias clasificadas
incorrectamente (Random
Forest): 17
3. Tasa de Verdaderos Positivos
(TP rate) (Random Forest):
0.8125
4. Tasa de Falsos Positivos (FP
rate) (Random Forest): 0.0267
Comparación
15 de dic. 2023
Con los resultados podemos verificar

que de los dos algoritmos utiliados, el es
más eficiente en este caso es el árbol de
decisión. En cuanto sus instancias
clasificadas correctamente fueron 339 vs
333 del random forest. Una conclusión
de esta comparación inicial, podemos
ver que el algoritmo de árbol de decisión
obtuvo mejor resultado que algoritmo de random forest, a razón de que el árbol de
clasificación trabaja mejor con conjuntos de datos pequeños y el random forest necesita
mejores datos o dicho de otra forma, su conjunto de datos debe ser mayor para un resultado
más robusto.
Ventajas y desventajas:
Ventajas árbol de decisión: Ventajas random forest:
• Pocos datos para • Mejor estabilidad.
entrenamiento. • Mejor resultado en conjuntos de
• Mejores resultados por la datos grandes.
naturaleza del conjunto. • Utiliza varios árboles para su
• Fácil comprensión. entrenamiento.
Desventajas árbol de decisión: Desventajas random forest:
• Sobre entrenamiento. • Requiere más tiempo de
• Desequilibrio en el resultado por entrenamiento.
pequeños cambios. • Menor eficiencia en datos
pequeños.

Actividad 1 Moises Chiari

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Actividad 1 Moises Chiari

Cargado por

Copyright:

Formatos disponibles

Asignatura Datos del alumno Fecha

Técnicas de Apellidos: Chiari Almengor

Descripción del problema a resolver: El conjunto de datos a trabajar trata sobre

Clases No. instancias

Lug_boot Ordinal Capacidad del maletero

Algoritmo de random forest(Modelo 2): Utilizando la misma división de datos, se utiliza

Con los resultados podemos verificar

También podría gustarte