Está en la página 1de 4

SOFTWARE WEKA

Weka (Waikato Environment for Knowledge Analysis, en espaol entorno para anlisis
del conocimiento de la Universidad de Waikato) es una plataforma de software para
el aprendizaje automtico y laminera de datos escrito en Java y desarrollado en
la Universidad de Waikato. Weka es software libre distribuido bajo la licencia GNUGPL.
BREVE HISTORIA

En 1993, la Universidad de Waikato de Nueva Zelanda inici el desarrollo de la


versin original de Weka (en TCL/TK y C).

En 1997, se decidi reescribir el cdigo en Java incluyendo implementaciones


de algoritmos de modelado.1

En 2005, Weka recibe de SIGKDD2 3 (Special Interest Group on Knowledge


Discovery and Data Mining) el galardn "Data Mining and Knowledge Discovery
Service".

En 2006, Pentaho Corporation adquiri una licencia exclusiva para usar Weka
para Inteligencia de negocio (Business Intelligence), dando lugar al componente de
minera de datos y anlisis predictivo del paquete de software Pentaho Business
Intelligence.

DESCRIPCIN
El paquete Weka4 contiene una coleccin de herramientas de visualizacin
y algoritmos para anlisis de datos y modelado predictivo, unidos a una interfaz grfica
de usuario para acceder fcilmente a sus funcionalidades. La versin original de Weka
fue un front-end en TCL/TK para modelar algoritmos implementados en otros lenguajes
de programacin, ms unas utilidades para preprocesamiento de datos desarrolladas en
C para hacer experimentos de aprendizaje automtico. Esta versin original se dise

inicialmente como herramienta para analizar datos procedentes del dominio de


la agricultura,5 6pero la versin ms reciente basada en Java (WEKA 3), que empez a
desarrollarse en 1997, se utiliza en muchas y muy diferentes reas, en particular con
finalidades docentes y de investigacin.
Razones a favor de Weka
Los puntos fuertes de Weka son:

Est disponible libremente bajo la licencia pblica general de GNU.

Es muy portable porque est completamente implementado en Java y puede


correr en casi cualquier plataforma.

Contiene una extensa coleccin de tcnicas para preprocesamiento de datos y


modelado.

Es fcil de utilizar por un principiante gracias a su interfaz grfica de usuario.

Weka soporta varias tareas estndar de minera de datos, especialmente,


preprocesamiento de datos, clustering,clasificacin, regresin, visualizacin, y
seleccin. Todas las tcnicas de Weka se fundamentan en la asuncin de que los datos
estn disponibles en un fichero plano (flat file) o una relacin, en la que cada registro de
datos est descrito por un nmero fijo de atributos (normalmente numricos o
nominales, aunque tambin se soportan otros tipos). Weka tambin proporciona acceso
a bases de datos va SQL gracias a la conexin JDBC (Java Database Connectivity) y
puede procesar el resultado devuelto por una consulta hecha a la base de datos. No
puede realizar minera de datos multi-relacional, pero existen aplicaciones que pueden
convertir una coleccin de tablas relacionadas de una base de datos en una nica tabla
que ya puede ser procesada con Weka.7
Carencias de Weka
Un rea importante que actualmente no cubren los algoritmos incluidos en Weka es
el modelado de secuencias.
LA INTERFAZ DE USUARIO
Al ejecutar la aplicacin nos aparece el selector de interfaz de Weka (Weka GUI
Chooser) que da la opcin de seleccionar entre cuatro posibles interfaces de usuario
para acceder a las funcionalidades del programa, stas son "Simple CLI", "Explorer",
"Experimenter" y "Knowledge Flow".

Simple CLI[editar]
Simple CLI es la abreviatura de Simple CommandLine Interface (interfaz simple de lnea de
comandos). Se trata de una consola que permite
acceder a todas las opciones de Weka desde lnea de
comandos.
Explorer[editar]
La interfaz Explorer (Explorador) dispone de varios
paneles que dan acceso a los componentes principales
del banco de trabajo:

El panel "Preprocess" dispone de opciones


para importar datos de una base de datos,
de un fichero CSV, etc., y para
preprocesar estos datos utilizando los
denominados algoritmos de filtrado. Estos
filtros se pueden utilizar para transformar
los datos (por ejemplo convirtiendo datos
numricos en valores discretos) y para
eliminar registros o atributos segn ciertos criterios previamente
especificados.

El panel "Classify" permite al usuario aplicar algoritmos


de clasificacin estadstica y anlisis de regresin a los conjuntos de datos
resultantes.
Tambin
permite
estimar
la exactitud del modelo
predictivo resultante, mediantecurvas ROC, etc. Finalmente, tiene utilidades
para visualizar el propio modelo, en aquellos casos en que esto sea posible,
como por ejemplo un rbol de decisin.

El panel "Associate" proporciona acceso a las reglas


de
asociacin aprendidas que intentan identificar todas las interrelaciones
importantes entre los atributos de los datos.

El panel "Cluster" da acceso a las tcnicas de clustering o agrupamiento de


Weka como por ejemplo el algoritmo K-means. Este es slo una
implementacin del algoritmo expectacin-maximizacin para aprender una
mezcla dedistribuciones normales.

El panel "Selected attributes" proporciona algoritmos para identificar los


atributos ms predictivos en un conjunto de datos.

El panel "Visualize" muestra una matriz de puntos dispersos (scatterplot)


donde cada punto individual puede seleccionarse y agrandarse para ser
analizados en detalle usando varios operadores de seleccin.
Experimenter[editar]
La interfaz Experimenter (experimentador) permite la
comparacin sistemtica de una ejecucin de los algoritmos
predictivos de Weka sobre una coleccin de conjuntos de datos.
Knowledge Flow[editar]
Knowledge Flow (flujo de conocimiento) es una interfaz que
en esencia implementa las mismas funciones que Explorer, y
adems permite "arrastrar y soltar". Tambin puede ofrecer
aprendizaje incremental.

También podría gustarte