Bare JRNL Compsoc

1
Trabajo Final de Inteligencia Articial

Rommel Chocho,
Escuela de Informtica, Facultad de Ingeniera, Universidad de Cuenca,
Cuenca, Azuay, Ecuador,
rommel_2211@hotmail.com
ResumenEste proyecto realiza un estudio de las diferentes tcnicas de minera de datos como son la clasicacin,
prediccin y clusterizacin de datos. Para ellos hemos obtenido un data set con informacin de vehculos y sus
caractersticas y hemos ocupado el programa weka 6.0.11 para realizar la comparacin de diferentes algoritmos y mostrar
sus resultados. Esta herramienta nos ha facilitado el trabajo pues posee una gran cantidad de algoritmos y funciones que
nos permitieron trabajar de una manera ms fcil sobre dichos datos para obtener los resultados. Adems se realiz una
aplicacin en java para probar los modelos con un conjunto de datos introducidos un usuario y permitindonos comprobar
los resultados.
KeywordsWEKA, algoritmo, clster, prediccin, clasicacin.
!
1 INTRODUCCIN
La Inteligencia Articial comenz como el resultado
de la investigacin en psicologa cognitiva y lgica
matemtica. Se ha enfocado sobre la explicacin del
trabajo mental y construccin de algoritmos de solucin
a problemas de propsito general.
Weka (Waikato Environment for Knowledge Analysis
- Entorno para Anlisis del Conocimiento de la Univer-
sidad de Waikato) es una plataforma de software para
aprendizaje automtico y minera de datos escrito en Java
y desarrollado en la Universidad de Waikato. Weka es un
software libre distribuido bajo licencia GNU-GPL.
2 DESCRIPCIN DEL PROBLEMA
Para este problema hemos utilizado un dataset que
contiene informacin sobre la descripcin de 205 au-
tomviles y sus principales caractersticas. Se pretende
utilizar este dataset para resolver tres tipos de problemas:
prediccin, clasicacin y clusterizacin. Para ello se
utilizarn dos algoritmos diferentes para cada caso y
se realizar una comparacin para identicar cual es el
mejor mtodo que resuelve dicho problema. Los datos
originalmente estuvieron ubicados en un archivo .csv
para luego migrarlos hacia una base de datos mysql.
2.1. Atributos de Informacin
A continuacin presentamos los diferentes atributos
con los valores reales en el dataset:
symboling: -3, -2, -1, 0, 1, 2, 3.
Marca: alfa-romero, audi, bmw, chevrolet, dodge,
honda, isuzu, jaguar, Mazda, Mercedes-Benz, el
mercurio, mitsubishi, nissan, Peugeot, plymouth,
porsche, renault, saab, subaru, toyota, volkswagen,
volvo
Tipo de combustible: disel, gas.
Num de puertas: cuatro, dos.
Estilo de la carrocera: techo duro, carro, sedn,
hatchback, convertible.
Ruedas motrices: 4wd, fwd, rwd.
Ubicacin del motor: delantero, trasero.
Distancia entre ejes: continuo 86,6 - 120,9.
Longitud: continua 141,1 - 208,1.
Anchura: continua 60,3 - 72,3.
Altura: continua 47,8 - 59,8.
Peso: continua 1488 - 4066.
Tipo de motor: DOHC, dohcv, l, OHC, tamaos
grandes, ohcv, rotor.
Num de cilindros: ocho, cinco, cuatro, seis, tres,
doce, dos.
Tamao del motor: continua 61 - 326.
Sistema de Combustible: 1BBL, 2bbl, 4bbl, idi,
m, mp, SPDI, ISPS.
Caballos de fuerza: continua 48 - 288.
rpm pico: continua 4150 - 6600.
mpg autopista: continua 16 - 54.
Precio: continua 5118 - 45400.
2.2. Herramientas y software
Para este propsito se utilizar una herrmienta
llamada weka 3.6.11 que tiene implementados
2
diferentes algoritmos de datamining y que nos
permitir realizar las pruebas deseadas.
La base de datos ser Mysql y para lo cual debe-
mos ubicar su conector en la carpeta de instalacin
de weka.
Y como plataforma de programacin tenemos Net-
beans 6.9 para la implementacin nal del pro-
blema de clasicacin, prediccin y clusterizacin.
Para ello se desarrollar una aplicacin para probar
los modelos con diferentes conjuntos de datos
ingresados por el usuario.
3 CLASIFICACIN
3.1. Atributo para clasicacin
Para este problema necesitamos clasicar el atributo
symbolic que representa una categorizacin de que tan
bueno o no es asegurar a cada vehculo. Este atributo es
escogido ya que es importante para un comprador saber
si podra asegurarlo o no.
3.2. Preparacin de los datos
Lo primero que hacemos es corregir aquellos campos
nulos, vacos o con errores que podran interferir con
la precisin de los resultados que deseamos obtener.
Luego para poder clasicar el atributo symbolic lo que
hacemos es discretizarlo de la siguiente forma: 3 Muy
bueno 2 Bueno 1 Normal 0 Regular -1 Malo -2 Muy
Malo A continuacin realizamos un ltro para saber
que atributos no son relevantes para esta clasicacin.
Para ello utilizamos la opcin

Select attributes
de la
herramienta weka. Los resultados nos muestran que todos
los atributos son relevantes para la clasicacin.
Para el training y test hemos escogido el mtodo
crossvalidation y nos presenta los siguientes resultados.
3.3. Algoritmo PART
Basados en Reglas: PART No cambiamos ningn
parmetro en las conguraciones de este algoritmo.
Figura 1. Resultados algoritmo PART
En esta parte nos damos cuenta que este algoritmo tiene
una efectividad del 76.5854 % y que tiene un error del
0.0893. Dichos resultados nos permiten apreciar que este
algoritmo no es del todo bueno.
Figura 2. Clasicacin PART
Mtodos Probabilsticos: BayesNet
Figura 3. Resultados algoritmo BayesNet
La interpretacin de los resultados sera que este
algoritmo tiene una efectividad del 68.2927 % y que
tiene un error del 0.1122 que no parece ser la mejor por
su baja efectividad.
Figura 4. Clasicacin BayesNet
Comparacin entre los algoritmos.
3
Algoritmo Efectividad Error Tiempo
PART 76.5854 % 0.0893 0.19
BayesNet 68.2927 % 0.1122 0.05
Nos podemos dar cuenta que el mtodo ms efectivo
y ms rpido es el PART ya que obtenemos mejores
resultados. Tenemos mayor efectividad y menor error.
3.4. Prediccin
Para este problema necesitamos predecir la clase
precio de un vehculo dadas algunas caractersticas.
Para el training y test hemos escogido el mtodo
crossvalidation y nos presenta los siguientes resultados.
Redes Neuronales: MultiLayerPerceptron. Primero
utilizamos los valores por defecto en las conguraciones.
Figura 5. Resultados MultilayerPerceptron
Estos resultados nos muestran que el coeciente de
correlacin es 0.8418 es decir que la efectividad es del
84 % , adems que el error mximo es 2342.0942 en
el precio del vehculo. Los resultados son buenos sin
embargo el tiempo de aprendizaje es bastante superior
al de otros algoritmos.
Figura 6. Perdiccin MultilayerPerceptron
Al cambiar el nmero de capas ocultas del algoritmo
tenemos que el coeciente de correlacin es 0.8346 es
Figura 7. Resultados MultilayerPerceptron 10 capas
decir que la efectividad es del 83 % , adems que el
error mximo es 2679.8109 en el precio del vehculo,
por lo que nos quedamos con la primera conguracin
ya que tiene mejores resultados.
SVM: LinearRegresion: No cambiamos ningn
parmetro de conguracin de este algoritmo.
Figura 8. Resultados LinearRegresion
El coeciente de correlacin es de 0.8261 y el error
mximo es 2372.259 en el precio de un vehculo. Estos
resultados son bastante buenos ya que tiene una alta
efectividad y el error es menor
Figura 9. Prediccin LinearRegresion
4
Comparacin entre los algoritmos.
Algoritmo Correlacin Error Tiempo
MultilayerPerceptron1 0.8418 2342.0942 34.17
MultilayerPerceptron2 0.8346 2679.8109 10.25
LinearRegresion 0.8261 2372.259 0.33
Nos podemos dar cuenta que el mtodo ms efectivo
y ms rpido es el Linear regresin ya que obtenemos
mejores resultados. Adems el tiempo de aprendizaje es
mucho menor q los otros algoritmos.
3.5. Clusterizacin
El algoritmo utilizado es el k-means para 5 clsters.
Adems utilizamos el mtodo dela distancia euclideana.
Para este caso lo que hacemos es ignorar todos los
valores que son numricos y dejamos solo los atributos
nominales.
Figura 10. Centroides y atributos Kmeans
Vamos a interpretar estos resultados. La gura nos
muestra cada uno de los atributos y cual se repite ms
en cada clster, es decir nos muestran los centroides
en cada clster. Nos podemos dar cuenta que en todos
los grupos creados prevalece la gasolina como tipo de
combustible y que el tipo de motor es ohc en casi todos
excepto uno.
Figura 11. Clster Kmeans
4 CONCLUSIN
En este trabajo se ha podido demostrar la gran utilidad
que tiene la minera de datos al aplicarla a un caso real.
Hemos experimentado lo sencillo que es mediante
WEKA el anlisis y estudio estos datos, y su posterior
interpretacin.
Hemos decidido utilizar todas las posibilidades que
nos ofrece esta herramienta para hacer un estudio ms
completo.
REFERENCIAS
[1] Introduccin a la Minera de Datos.- Jos Hernndez Orallo,
Ramrez Quintana, M
a
Jos, Ferri Ramrez, Csar.- Madrid
Pearson (Prentice Hall), 2005 .- DL-TO: 0438-2005 .- ISBN:
8420540919
Minera de datos. Tcnicas y Herramientas.- Prez Lpez,
Csar, Santn Gonzlez, Daniel .- Madrid: Thomson, 2007.-
DL-M: 7886-2007
Explotacin de Datos del Web Mining.- Gimena
Moreno [Consultada: 20-02-2009]. Disponible en Internet
http://gamoreno.wordpress.com/2007/08/24/explotacion-de-
datos-del-web-mining

Bare JRNL Compsoc

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Bare JRNL Compsoc

Cargado por

Copyright:

Formatos disponibles

1

Trabajo Final de Inteligencia Articial

También podría gustarte