Está en la página 1de 13

Weka como herramienta de data mining

Lic. Aldave Rojas Isaac Alberto


Instituto Tecnol´ogico Superior de Ciudad Serd´an

Abstract

El presente trabajo muestra un ejemplo introductorio a la herramienta de


Data mining Weka, la cual es de gran ayuda para el an´alisis de
patrones de informaci´on que nos permitan realizar una toma de
decisiones basada en algoritmos de machine learning, los cuales pueden
ser utilizados para mu´ltiples a´reas del conocimiento humano.
Keywords:

1. introduccio´n

En la actualidad, debido a la gran cantidad de informaci´on que


gener- amos y almacenamos d´ıa a d´ıa, el proceso de extracci´on de
informaci´on u´til requiere la aplicaci´on de t´ecnicas de an´alisis de datos
autom´aticas que sean capaces de procesar grandes volu´menes de
informaci´on.

Para ello debemos apoyarnos en herramientas tales como la miner´ıa


de datos la cual se define como el proceso de aplicar metodolog´ıas
basadas en algoritmos computacionales, conceptos estad´ısticos y de
administraci´on para extraer conocimiento u´til de grandes volu´menes de
informaci´on.

Preprint submitted to WEB del Instituto Tecnol´ogico Superior de Ciudad Serd´anJune 12, 2013
En la actualidad se cuenta con software que ayudan a este proceso y
que facilitan el proceso de extracci´on de informaci´on que es importante,
tal como WEKA que es una herramienta Gratuita que adem´as al estar
escrita en java se puede incrementar en cuanto a sus capacidades de
procesamiento. Esta
herramienta se distribuye gratuitamente en http://www.cs.waikato.ac.nz/ml/weka/

2. Historia y descripcio´n

La herramienta Weka fue desarrollada en 1993 en la Universidad de


Waikato de Nueva Zelanda utilizando TCL/TK y C. y en el an˜o de
1997 se reescribi´o su c´odigo al lenguaje Java incluyendo
implementaciones de al- goritmos de modelado [1].

El paquete Weka contiene una colecci´on de herramientas de visualizaci


´on y algoritmos para an´alisis de datos y modelado predictivo, unidos a
una in- terfaz gr´afica de usuario para acceder f´acilmente a sus
funcionalidades. La versi´on original de Weka fue un front-end en TCL/TK
para modelar algorit- mos implementados en otros lenguajes de programaci
´on, m´as unas utilidades para preprocesamiento de datos desarrolladas en
C para hacer experimentos de aprendizaje autom´atico. Esta versi´on
original se disen˜´o inicialmente como herramienta para analizar datos
procedentes del dominio de la agricultura,[2]
[3] pero la versi´on m´as reciente basada en Java (WEKA 3), que
empez´o a desarrollarse en 1997, se utiliza en muchas y muy diferentes a
´reas, en partic- ular con finalidades docentes y de investigaci´on.
2
Los puntos fuertes de Weka son:

• Est´a disponible libremente bajo la licencia pu´blica general de GNU.

• Es muy portable porque est´a completamente implementado en Java


y puede correr en casi cualquier plataforma.

• Contiene una extensa colecci´on de t´ecnicas para


preprocesamiento de datos y modelado.

• Es f´acil de utilizar por un principiante gracias a su interfaz gr´afica


de usuario.

Weka soporta varias tareas est´andar de miner´ıa de datos,


especialmente, preprocesamiento de datos, clustering, clasificaci´on, regresi
´on, visualizaci´on, y selecci´on. Todas las t´ecnicas de Weka se
fundamentan en la presunci´on de que los datos est´an disponibles en
un archivo plano (flat file, archivo de texto sin formato) o una relaci´on,
en la que cada registro de datos est´a de- scrito por un nu´mero fijo de
atributos (normalmente num´ericos o nominales, aunque tambi´en se
soportan otros tipos). Weka tambi´en proporciona acceso a bases de datos
v´ıa SQL gracias a la conexi´on JDBC (Java Database Con- nectivity) y
puede procesar el resultado devuelto por una consulta hecha a la base de
datos. No puede realizar miner´ıa de datos multi-relacional, pero ex- isten
aplicaciones que pueden convertir una colecci´on de tablas relacionadas de
una base de datos en una u´nica tabla que ya puede ser procesada con Weka.

Esta herramienta se ha vuelto tan importante en la actualidad que se


le dedica una parte completa del libro Data Mining: Practical Machine
3
Learning Tools and Techniques por Ian Witten y Eibe Frank y cuya
tercera edici´on tiene ISBN: 978-0-12-374856-0. (esta secci´on en la
3edici´on incluye los cap´ıtulos del 10 al 17).

3. Ejemplo de su utilizacio´n

Existen mu´ltiples tutoriales en espan˜ol para dar los primeros pasos


en esta herramienta utilizando como ejemplo el dataset irisdata el cual
contiene 4 caracter´ısticas de distintas flores y las clasifica en 3 grandes
grupos, sin embargo para este articulo emplearemos el dataset breast-
cancer el cual se encuentra incluido en la carpeta data de la aplicaci´on.

Desde la ventana principal de weka elegimos la opci´on Explorer, esta


ven- tana la podemos observar en la figura 1

Figure 1: Ventana principal de WEKA

Una vez seleccionada esta opci´on nos mostrara la ventana que observamos

4
en la figura 2

Figure 2: Ventana principal de Explorer

En esta ventana elegiremos el data set que queremos analizar y una


vez hecho esto nos muestra la pantalla que observamos en la figura 3.

Uno de los primeros pasos es visualizar la informaci´on de tal forma


que verifiquemos si existe algu´n atributo discriminante, esto se realiza
con la opci´on visualice all mostr´andonos la informaci´on contenida en la
fugura 4

En esta figura 4 podemos observar que ninguna de las caracter´ısticas


prin- cipales separa a la perfecci´on los datos a excepci´on hecha de class sin
embargo este es un atributo artificial que se coloca como atributo de
5
entrenamiento

6
Figure 3: Ventana de explorer con los datos cargados

donde los resultados se conocen de facto y que sirven como base de entre-
namiento para nuevos datos.

Para proseguir con el an´alisis de la informaci´on en la ventana de


Explorer vamos a la pestan˜a Classify obteniendo como resultado la
pantalla que se observa en la figura 5

En el bot´on choose elegimos el algoritmo con el cual deseamos


realizar el proceso de clasificaci´on y comprobar que tan eficiente es la
discriminaci´on de este en los resultados desplegados en el editbox
denominado Classifier output, la forma m´as comu´n de realizar el an
´alisis es con Cross-Validation y es el que utilizaremos para este ejemplo,
y seleccionaremos el algoritmo J48
7
Figure 4: Clasificaci´on de todos los atributos.

8
Figure 5: Pestan˜a classify

perteneciente a la clasificaci´on de ´arboles de decisi´on. Una vez


seleccionado damos click en el bot´on start y el resultado lo vemos en la
figura 6.

Como se puede observar este algoritmo clasifica los datos de


entrenamiento con una precisi´on del 75.5245% el cual parece ser un rango
aceptable de clasi- ficaci´on, pero como se observa en la parte final
denominada Confusion Matrix nos desglosa las caracter´ısticas de los datos
teniendo que este clasificador nos arroja 8 falsos positivos en la detecci´on
del c´ancer con estas caracter´ısticas lo cual no es un resultado grave pero
en la parte inferior se observa tambi´en que arroja 62 falsos negativos de
una poblaci´on de 85 individuos con c´ancer es decir un porcentaje de no
detecci´on del c´ancer de un 72.94% en pacientes que si lo padecen, con lo

9
cual podemos dilucidar que este algoritmo no es

10
Figure 6: resultados con el algoritmo J48

una buena opci´on para el pron´ostico con este conjunto de datos del c
´ancer pese a su 75
En la figura 7 observamos los mismos datos analizados con otro
algoritmo denominado perceptron multicapas, que lo que crea es una red
neuronal, para la toma de decisiones obteniendo los siguientes resultados en
su clasificaci´on. Observamos en primer lugar que el porcentaje de datos
correctamente clasificados es de 96.5035% lo cual es por mucho superior
al resultado ante- rior y en la matriz de confusi´on observamos que
tenemos solamente 4 falsos positivos y 6 falsos negativos, lo cual es un
resultado mucho mejor, pudiendo entonces construir esta red neuronal
en una aplicaci´on para que el experto medico cuente con una
herramienta que le predice con mucha eficacia la aparici´on de c´ancer de
pecho. Conclusiones Weka es una herramienta para el

11
Figure 7: resultado con perceptrones multicapa

procesamiento de mu´ltiples cantidades de datos y poder construir


herramien- tas que nos ayuden en la toma de decisiones al proporcionarnos
mu´ltiples al- goritmos y una interfaz sencilla permite que la comparaci´on
de los resultados sea intuitiva y permita planificar entonces la construcci´on
de la aplicaci´on de machinne learning que apoye la tona de desiciones en
este caso, Weka es una herramienta m´as completa todav´ıa al tener un
conjunto extra de funciones que permiten an´alisis mayores pero eso es
motivo de un curso.

References

[1] Ian H. Witten; Eibe Frank, Len Trigg, Mark Hall, Geoffrey Holmes,
and Sally Jo Cunningham (1999). Weka: Practical Machine Learning
Tools and Techniques with Java Implementations. Proceedings of the
12
ICONIP/ANZIIS/ANNES’99 Workshop on Emerging Knowledge Engi-
neering and Connectionist-Based Information Systems p´ags. 192 —196.

[2] S.R. Garner; S.J. Cunningham, G. Holmes, C.G. Nevill-Manning, and


I.H. Witten (1995). Applying a machine learning workbench: Experi-
ence with agricultural databases. Proc Machine Learning in Practice
Workshop, Machine Learning Conference, Tahoe City, CA, USA p
´ags. 14 —21.

[3] P. Reutemann; B. Pfahringer and E. Frank (2004). Proper: A Tool-


box for Learning from Relational Data with Propositional and Multi-
Instance Learners. 17th Australian Joint Conference on Artificial
Intel- ligence (AI2004). Springer-Verlag.

13

También podría gustarte