Está en la página 1de 26

UNIVERSIDAD AUTÓNOMA DEL ESTADO DE MÉXICO

CENTRO UNIVERSITARIO UAEM VALLE DE TEOTIHUACÁN

INGENIERÍA EN COMPUTACIÓN

MINERÍA DE DATOS

ALUMNA:
MEDINA GUERRA YURITZI

DOCENTE:
M en C.C. BUSTAMANTE ALMARAZ ADRIANA

PRODUCTO:
PRACTICA 1. ENTORNO DE WEKA

DECIMO SEMESTRE

Santo Domingo Aztacameca, Axapusco, Edo. Méx, Febrero 2018


Contenido
1. Objetivo........................................................................................................................ 3
1.1. Requerimientos en Hardware.................................................................................3
1.2. Requerimientos en Software..................................................................................3
2. Marco Teórico.............................................................................................................. 4
2.1. Minería de datos (Datamining)...............................................................................4
2.2. Técnicas de minería de datos................................................................................4
2.3. Herramientas de minería de datos.........................................................................5
2.4. ¿Qué es Weka?.....................................................................................................6
2.5. Archivos .arf........................................................................................................... 8
3. Desarrollo de la práctica.............................................................................................9
3.1. Ventana de inicio de Weka.....................................................................................9
3.2. Explorador............................................................................................................ 11
3.2.1. Preprocesado de datos (Preprocess)........................................................12
3.2.2. Classify........................................................................................................ 15
3.2.3. Cluster..........................................................................................................16
3.2.4. Associate.....................................................................................................17
3.2.5. Select Atributtes..........................................................................................18
3.2.6. Visualize.......................................................................................................19
3.3. Experimentación (Experimenter)..........................................................................20
3.4. Flujo de conocimientos.........................................................................................23
3.4.1. Características del KnowledgeFlow:.........................................................24
3.5. Workbench...........................................................................................................24
3.6. Interfaz de comando simple.................................................................................25
4. Conclusión................................................................................................................. 26
5. Referencias................................................................................................................27
1. Objetivo

Presentar una introducción al software de minería de datos WEKA,


investigando y documentando todo lo relacionado a este, con la finalidad de
conocer su interfaz, herramientas, entorno, datos e instrumentos que se
encuentran en éste, logrando así una familiarización con dicho programa para
lograr un óptimo y efectivo uso del mismo en futuras prácticas.

Materiales y Software

Para el correcto funcionamiento de la herramienta Weka, el sistema de contar


con al menos las siguientes características en cuanto hardware y software.
1.1. Requerimientos en Hardware

 Procesador Pentium IV 1 GHz o superior.


 Disco duro con al menos 132,5 Mb libres.
 Memoria RAM de 512 Mb o superior.
 Tarjeta gráfica compatible con Open GL con resolución 800x600 o superior.
 Ratón y teclado.
1.2. Requerimientos en Software

 Windows 98SE, Me, NT, 2000, XP, Vista, Windows 7 o Windows 8.


(Arquitectura Windows x86, x64)
 Mac OS X
 Linux
 JRE (Java Runtime Environment): de acuerdo con la version de Weka, es
recommendable la version de JRE, a continuación en la Figura 1, se
describe esto:

Figura 1. Versiones de JRE y Weka correspondientes.


2. Marco Teórico
2.1. Minería de datos (Datamining)

En la actualidad el termino minería de datos se ha extendido a las distintas


áreas especialmente al comercio y marketing dado que han jugado un papel
trascendental al momento de la toma de decisiones de grandes campañas para
las empresas, retomando la importancia de convertir las grandes masas de datos
que se almacenan en las BD de un departamento en verdadera información útil no
solo para la empresa también se ha vuelto una necesidad del consumidor ya que
facilita la creación de perfiles de consumo que hacen más fácil la búsqueda y
adquisición de productos, expandiendo el mercado de acción de las grandes
corporaciones en otras palabras que “la minería de datos es un proceso de
identificación de información relevante extraída de grandes volúmenes de datos,
con el objetivo de descubrir patrones y tendencias estructurando la información
obtenida de un modo comprensible para su posterior utilización” [ CITATION
Gue15 \l 2058 ].

La minería de datos es el conjunto de técnicas y tecnologías que permiten


explorar grandes bases de datos, de manera automática o semiautomática, con el
objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el
comportamiento de los datos en un determinado contexto. Surge para intentar
ayudar a comprender el contenido de una base de datos. Con este fin, hace uso
de prácticas estadísticas y, en algunos casos, de algoritmos de búsqueda
próximos a la Inteligencia Artificial y a las redes neuronales [ CITATION Zen15 \l 2058
].

Tal y como menciona Latino BI (2016), la mineria de datos, también es


conocido como datamining, y estpipula que este es el conjunto de técnicas y
tecnologías que permiten explorar grandes bases de datos, de manera automática
o semiautomática, con el objetivo de encontrar patrones repetitivos, tendencias o
reglas que expliquen el comportamiento de los datos en un determinado contexto.
Básicamente, el datamining surge para intentar ayudar a comprender el contenido
de un repositorio de datos. Con este fin, hace uso de prácticas estadísticas y, en
algunos casos, de algoritmos de búsqueda próximos a la Inteligencia Artificial y a
las redes neuronales.
2.2. Técnicas de minería de datos

La minería de datos, se basa en el uso de técnicas que provienen de la


inteligencia artificial y de la estadística. Dichas técnicas, no son más que
algoritmos, más o menos sofisticados que se aplican sobre un conjunto de datos
para obtener unos resultados, las más representativas son[ CITATION Lat16 \l
2058 ]:

 Redes neuronales. Son un paradigma de aprendizaje y procesamiento


automático inspirado en la forma en que funciona el sistema nervioso de los
animales. Se trata de un sistema de interconexión de neuronas en una red que
colabora para producir un estímulo de salida. Algunos ejemplos de red neuronal
son:
o El perceptrón.
o El perceptrón multicapa.
o Los mapas auto-organizados, también conocidos como redes de
Kohonen.
 Regresión lineal. Es la más utilizada para formar relaciones entre datos. Rápida
y eficaz pero insuficiente en espacios multidimensionales donde puedan
relacionarse más de dos variables.
 Árboles de decisión. Un árbol de decisión es un modelo de predicción utilizado
en el ámbito de la inteligencia artificial. Dada una base de datos se construyen
estos diagramas de construcciones lógicas, muy similares a los sistemas de
predicción basados en reglas que logran representar y categorizar una serie de
condiciones que se suceden, para la posterior resolución de un problema.
 Modelos estadísticos. Es una expresión simbólica en forma de igualdad o
ecuación que se emplea en todos los diseños experimentales y en la regresión
para indicar los diferentes factores que modifican la variable de respuesta.
 Agrupamiento o Clustering. Es un procedimiento de agrupación de una serie de
vectores según criterios habitualmente de distancia; se tratará de disponer los
vectores de entrada de forma que estén más cercanos aquellos que tengan
características comunes. Ejemplos:
o Algoritmo K-means.
o Algoritmo K-medoids.
 Reglas de asociación. Se utilizan para descubrir hechos que ocurren en común
dentro de un determinado conjunto de datos.
2.3. Herramientas de minería de datos

A continuación se muestran las cinco principales herramientas para minería de


datos.

 Orange: es una suite de software para minería de base de datos y aprendizaje


automático basado en componentes que cuenta con un fácil, potente, rápido y versátil
front-end de programación visual para el análisis exploratorio de datos y visualización.
Procesamiento de datos, característica de puntuación y filtrado, modelado, evaluación
del modelo, y técnicas de exploración. Está escrito en C++ y Python, y su interfaz
gráfica de usuario se basa en la plataforma cruzada del framework Qt.
 RapidMiner: es un ambiente de experimentos permite a los experimentos componerse
de un gran número de operadores arbitrariamente, que se detallan en archivos XML y
se hacen con la interfaz gráfica de usuario de RapidMiner, ofrece más de 500
operadores para todos los principales procedimientos de máquina de aprendizaje y
también combina esquemas de aprendizaje y evaluadores de atributos del entorno de
aprendizaje Weka.
 jHepWork : es un framework para análisis de datos libre y de código abierto que fue
creado como un intento de hacer un entorno de análisis de datos usando paquetes de
código abierto con una interfaz de usuario comprensible y para crear una herramienta
competitiva a los programas comerciales, se basa en Jython un lenguaje de
programación de alto nivel, pero codificación en Java.
 KNIME (Konstanz Information Miner): es una plataforma de código abierto de fácil
uso y comprensible para integración de datos, procesamiento, análisis, y exploración.
Ofrece a los usuarios la capacidad de crear de forma visual flujos o tuberías de datos,
ejecutar selectivamente algunos o todos los pasos de análisis, y luego estudiar los
resultados, modelos y vistas interactivas. KNIME está escrito en Java y está basado en
Eclipse y hace uso de sus métodos de extensión para soportar plugins proporcionando
así una funcionalidad adicional.
 Weka (Entorno Waikato para el Análisis del Conocimiento): es una conocida suite
de software para máquinas de aprendizaje que soporta varias tareas típicas de minería
de datos, especialmente pre procesamiento de datos, agrupamiento, clasificación,
regresión, visualización y características de selección. WEKA proporciona acceso a
bases de datos SQL utilizando conectividad de bases de datos Java y puede procesar
el resultado devuelto como una consulta de base de datos. Su interfaz de usuario
principal es el Explorer.
2.4. ¿Qué es Weka?

Como se hizo mención en el apartado anterior uno de los principales software


de minería de datos es Weka a continuación, se profundiza más respecto a éste.

García (2004), describe que la Weka (Gallirallus australis) es un ave endémica


de Nueva Zelanda. Esta Gallinácea en peligro de extinción es famosa por su
curiosidad y agresividad. De aspecto pardo y tamaño similar a una gallina, las
wekas se alimentan fundamentalmente de insectos y frutos.

Esta ave da nombre a una extensa colección de algoritmos de Máquinas de


conocimiento desarrollados por la universidad de Waikato (Nueva Zelanda)
implementados en Java; útiles para ser aplicados sobre datos mediante los
interfaces que ofrece o para embeberlos dentro de cualquier aplicación. Además,
Weka contiene las herramientas necesarias para realizar transformaciones sobre
los datos, tareas de clasificación, regresión, clustering, asociación y visualización.
Weka está diseñado como una herramienta orientada a la extensibilidad por lo que
añadir nuevas funcionalidades es una tarea sencilla.

Sin embargo, y pese a todas las cualidades que Weka posee, tiene un gran
defecto y éste es la escasa documentación orientada al usuario que tiene junto a
una usabilidad bastante pobre, lo que la hace una herramienta difícil de
comprender y manejar sin información adicional. Este manual tiene por objetivo
explicar el funcionamiento básico de este programa y sentar unas bases para que
el lector pueda ser autodidacta. La licencia de Weka es GPL, lo que significa que
este programa es de libre distribución y difusión. Además, ya que Weka está
programado en Java, es independiente de la arquitectura, ya que funciona en
cualquier plataforma sobre la que haya una máquina virtual Java disponible.

Figura 2. Logo de Weka.

De igual forma Rodríguez y Díaz (2009), estipulan que Weka soporta varias
tareas estándar de minería de datos, especialmente, reprocesamiento de datos,
clustering, clasi"cación, regresión, visualización, y selección. Todas las técnicas de
Weka se fundamentan en la asunción de que los datos están disponibles en un
"chero plano o una relación, en la que cada registro de datos está descrito por un
número de atributos (normalmente numéricos o nominales, aunque también se
soportan otros tipos). Weka también proporciona acceso a bases de datos vía
SQL gracias a la conexión JDBC (Java Database Connectivity) y puede procesar
el resultado devuelto por una consulta hecha a la base de datos. No puede
realizar minería de datos multi-relacional, pero existen aplicaciones que pueden
convertir una colección de tablas relacionadas de una base de datos en una única
tabla que ya puede ser procesada con Weka.
Es decir, las principales ventajas de la herramienta son (Robles y Sotolongo,
2013):

 Es multiplataforma.
 Contiene una extensa colección de técnicas para preprocesamiento y
modelado de datos.
 Es fácil de usar, gracias a su interfaz gráfica.
 Soporta varias tareas de minería de datos, especialmente
preprocesamiento, agrupamiento, clasificación, regresión, visualización y
selección.
 Permite combinar varios algoritmos basados en técnicas de minería de
datos, para obtener mejores resultados en el descubrimiento de
conocimiento.
 Es capaz de mostrar los datos en varios tipos de gráficos con el objetivo
de proporcionar una mejor comprensión y un mejor análisis.
2.5. Archivos .arf

Nativamente Weka trabaja con un formato denominado arff, acrónimo de


Attribute-Relation File Format. Este formato está compuesto por una estructura
claramente diferenciada en tres partes [ CITATION Gar04 \l 2058 ]:

1. Cabecera. Se define el nombre de la relación. Su formato es el siguiente:


@relation <nombre-de-la-relación>
Donde <nombre-de-la-relación> es de tipo String*. Si dicho nombre contiene
algún espacio será necesario expresarlo entrecomillado.

2. Declaraciones de atributos. En esta sección se declaran los atributos que


compondrán nuestro archivo junto a su tipo. La sintaxis es la siguiente:
@attribute <nombre-del-atributo> <tipo>
Donde <nombre-del-atributo> es de tipo String teniendo las mismas
restricciones que el caso anterior. Weka acepta diversos tipos, estos son:
a. NUMERIC Expresa números reales*.
b. INTEGER Expresa números enteros.
c. DATE Expresa fechas, para ello este tipo debe ir precedido de
una etiqueta de formato entrecomillada. La etiqueta de formato
está compuesta por caracteres separadores (guiones y/o
espacios) y unidades de tiempo:
o dd Día.
o MM Mes.
o yyyy Año.
o HH Horas.
o mm Minutos.
o ss Segundos.
d. STRING Expresa cadenas de texto, con las restricciones del tipo
String comentadas anteriormente.
a. ENUMERADO El identificador de este tipo consiste en expresar
entre llaves y separados por comas los posibles valores
(caracteres o cadenas de caracteres) que puede tomar el atributo.
Por ejemplo, si tenemos un atributo que indica el tiempo podría
definirse:
@attribute tiempo {soleado,lluvioso,nublado}

3. Sección de datos. Declaramos los datos que componen la relación


separando entre comas los atributos y con saltos de línea las relaciones.
@data
4,3.2

Aunque éste es el modo “completo" es posible definir los datos de una forma
abreviada (sparse data). Si tenemos una muestra en la que hay muchos
datos que sean 0 podemos expresar los datos prescindiendo de los
elementos que son nulos, rodeando cada una de las filas entre llaves y
situando delante de cada uno de los datos el número de atributo**.

Un ejemplo de esto es el siguiente


@data
{1 4, 3 3}
En este caso hemos prescindido de los atributos 0 y 2 (como mínimo) y
asignamos al atributo 1 el valor 4 y al atributo 3 el valor 3.
En el caso de que algún dato sea desconocido se expresará con un
símbolo de cerrar interrogación (“?").
Es posible añadir comentarios con el símbolo “ %”, que indicará que desde
ese símbolo hasta el final de la línea es todo un comentario. Los comentarios
pueden situarse en cualquier lugar del archivo.
3. Desarrollo de la práctica
3.1. Ventana de inicio de Weka

Toda vez revisado el marco teórico que envuelve al software Weka, así como
sus requisitos de preinstalación del programa, se prosiguió a ejecutar el programa,
en primera instancia, éste abrirá una pequeña tal y como la que se muestra en la
Captura 1.

Captura 1. Ventana inicial de Weka.

En dicha ventana se puede visualizar en la parte superior de la misma el menú


para observar la información técnica del programa, bases de datos y algoritmos de
minería de datos. Así mismo, del lado izquierdo de ésta, se muestra la ficha del
programa, conteniendo el nombre del mismo, la versión y la universidad en donde
fue creado. Por último, en el lado lateral derecho, es posible notar cuatro botones,
los cuales son la sección más importante, pues al elegirlos se podrá comenzar a
trabajar con el software a través de las cinco diferentes subherramientas, las
cuales son:
 Explorar (Explorer). Entorno visual que ofrece una interfaz gráfica para el
uso de los paquetes.
 Experimentar (Experimenter). Entorno centrado en la automatización de
tareas de manera que se facilite la realización de experimentos a gran
escala.
 Flujo de conocimientos (KnowledgeFlow). Permite generar proyectos de
minería de datos mediante la generación de flujos de información.
 Workbench. Recién incorporada al software, este apartado admite y facilita
una gama de actividades de aprendizaje automático que reduce o elimina la
necesidad de múltiples herramientas.
 Interfaz de comando simple (Simple CLI). Entorno consola para invocar
directamente con java a los paquetes de Weka.
3.2. Explorador

El modo explorador es el modo más usado y más descriptivo. Éste permite


realizar operaciones sobre un sólo archivo de datos. La ventana principal es la
mostrada en la Captura 2.

Captura 2. Ventana del apartado explorador.

Tal y como se puede observar en la captura, en la parte superior se aprecian


diversas pestañas, las cuales tienen una función en específico, las tareas
permitidas son de:
1. Preprocesado de los datos y aplicación de filtros (Preprocess). incluye
las herramientas y filtros para cargar y manipular los datos
2. Clasificación (Classify). acceso a las técnicas de clasificación y regresión.
3. Clustering (Cluster). Integra varios métodos de agrupamiento.
4. Búsqueda de Asociaciones (Associate). incluye algunas pocas técnicas
de reglas de asociación.
5. Selección de atributos (Select attributes). permite aplicar diversas
técnicas para la reducción del número de atributos.
6. Visualización de datos (Visualize). en este apartado podemos estudiar el
comportamiento de los datos mediante técnicas de visualización.
3.2.1. Preprocesado de datos (Preprocess)

El primer paso para comenzar a trabajar con el explorador es definir el origen


de los datos. Weka soporta diferentes fuentes que coinciden con los botones que
están debajo de las pestañas superiores del modo explorador, tal y como se
refleja en la Captura 3.

Captura 3. Apartados dentro del explorador.

Las diferentes posibilidades son las siguientes:

 Open File: Al pulsar sobre este botón aparecerá una ventana de selección
de archivo. Aunque el formato por defecto de Weka es el arff eso no
significa que sea el único que admita, para ello tiene interpretadores de
otros formatos (Captura 4). Éstos son:
o CSV Archivos separados por comas o tabuladores. La primera línea
contiene los atributos.
o C4.5 Archivos codificados según el formato C4.5. Unos datos
codificados según este formato estarían agrupados de tal manera que
en un archivo .names estarían los nombres de los atributos y en un
archivo .data estarían los datos en sí. Weka cuando lee archivos
codificados según el formato C4.5 asume que ambos archivos (el de
definición de atributos y el de datos) están en el mismo directorio, por
lo que sólo es necesario especificar uno de los dos.
o Instancias Serializadas Weka internamente almacena cada muestra
de los datos como una instancia de la clase instance. Esta clase es
serializable* por lo que estos objetos pueden ser volcados
directamente sobre un archivo y también cargados de uno. Para
cargar un archivo arff simplemente debemos buscar la ruta donde se
encuentra el archivo y seleccionarlo. Si dicho archivo no tiene
extensión arff, al abrirlo Weka intentará interpretarlo, si no lo consigue
aparecerá un mensaje de error como el de la figura 5. Pulsando en
Use converter nos dará la opción de usar un interpretador de archivos
de los tipos ya expuestos.

Captura 4. Ventana para abrir nuevo archivo.

Para cargar un archivo arff simplemente se debe buscar la ruta donde se


encuentra el archivo y seleccionarlo. Si dicho archivo no tiene extensión arff, al
abrirlo Weka intentará interpretarlo, si no lo consigue aparecerá un mensaje de
error como el que se muestra en la Captura 5.
Captura 5. Error al cargar archivos.

 Open Url: Con este botón se abrirá una ventana que permite introducir una
dirección en la que definir dónde se encuentra nuestro archivo. El
tratamiento de los archivos es el mismo que el apartado anterior.

Captura 6. Carga de una URL a Weka.

 Open DB: este botón da la posibilidad de obtener los datos de una base de datos.
Para configurarla lo primero es definir la url por la cual es accesible la base de
datos, la contraseña para acceder, el nombre de usuario, la consulta que queremos
realizar y si queremos o no usar el modo de datos abreviado.
Captura 7. Abrir base de datos en Weka.

Una vez seleccionado el origen de los datos podremos aplicar algún filtro sobre él
o bien pasar a las siguientes secciones y realizar otras tareas. En el cuadrante
inferior derecho aparece una representación gráfica del atributo seleccionado
(Captura 8).

Captura 8. Datos cargados en Weka.


3.2.2. Classify

Dentro del explorador, al pulsar en la segunda pestaña (zona superior) del


explorador entramos en el modo clasificación (Captura 9). En este modo
podremos clasificar por varios métodos los datos ya cargados.

Captura 9. Pestaña de clasificación.

Si se quiere realizar una clasificación lo primero será elegir un clasificador y


configurarlo, para ello pulsaremos sobre el botón Choose dentro del área
Classifier. Una vez pulsado se desplegará un árbol que nos permitirá seleccionar
el clasificador deseado. Una vez seleccionado aparecerá, en la etiqueta contigua
al botón Choose, el filtro seleccionado y los argumentos con los que se ejecutará.
Esta información es muy útil si queremos utilizar el interfaz de consola ya que
podremos configurar nuestro filtro con la interfaz y luego obtener el resultado apto
para línea de mandato.
3.2.3. Cluster

Pulsando la tercera pestaña, llamada Cluster, en la parte superior de la


ventana accedemos a la sección dedicada al clustering (Captura 10). El
funcionamiento es muy similar al de clasificación: se elije un método de clustering,
se selecciona las opciones pertinentes y con el botón Start empieza el
funcionamiento.
Captura 10. Clustering en Weka.

Una opción propia de este apartado es la posibilidad de ver de una forma


gráfica la asignación de las muestras en clusters. Esto se puede conseguir
activando la opción Store cluster for evaluation, ejecutando el experimento y
seguidamente, en la lista de resultados, pulsando el botón secundario sobre el
experimento en cuestión y marcando la opción Visualize cluster assignments con
esto se obtendrá una ventana similar a las del modo explorador para mostrar
gráficas en el que nos mostrará el clustering realizado.
3.2.4. Associate

La cuarta pestaña, muestra la ventana (Captura 11) que permite aplicar


métodos orientados a buscar asociaciones entre datos. Es importante reseñar que
estos métodos sólo funcionan con datos nominales. Éste es sin duda el apartado
más sencillo y más simple de manejar, carente de apenas opciones, basta con
seleccionar un método, configurarlo y verlo funcionar.
Captura 11. Pestaña de asociación en Weka.

3.2.5. Select Atributtes

Esta pestaña permite acceder al área de selección atributos. El objetivo de


estos métodos es identificar, mediante un conjunto de datos que poseen unos
ciertos atributos, aquellos atributos que tienen más peso a la hora de determinar si
los datos son de una clase u otra.
Para empezar un método de selección de atributos lo primero es seleccionar el
método de evaluación de atributos (Attribute evaluator). Este método será el
encargado de evaluar cada uno de los casos a los que se le enfrente y dotar a
cada atributo de un peso específico. El funcionamiento para seleccionar este
método es el mismo que con otros métodos en Weka, se selecciona el método con
el botón Choose situado dentro del cuadro Attribute evaluator. Una vez
seleccionado podemos acceder a las propiedades del mismo pulsando sobre el
nombre de la etiqueta que muestra el nombre del método seleccionado.
El siguiente paso será elegir el método de búsqueda que será el encargado de
generar el espacio de pruebas. El funcionamiento es el mismo al caso anterior.
Una vez seleccionado el método de evaluación y el de generación del espacio de
pruebas sólo falta elegir el método de prueba, el atributo que representa la
clasificación conocida y pulsar Start. Una vez acabado el experimento pulsando el
botón secundario sobre la etiqueta del experimento en la lista de experimentos
realizados se tiene la opción de Visualize Reduced Data, que nos mostrará los
datos habiendo tomado los mejores atributos en una ventana como la del modo
Visualización (visualize), que se explicará en el siguiente punto.

Captura 12. Selección de atributos en Weka.

3.2.6. Visualize

El modo visualización (Captura 13) es un modo que muestra gráficamente la


distribución de todos los atributos mostrando gráficas en dos dimensiones, en las
que va representando en los ejes todos los posibles pares de combinaciones de los
atributos. Este modo permite ver correlaciones y asociaciones entre los atributos
de una forma gráfica.
9

Captura 13. Modo visual en Weka.

3.3. Experimentación (Experimenter)

El Experimenter sirve para aplicar varios algoritmos de aprendizaje automático


sobre distintos conjuntos de datos y determinar de manera estadística cual se
comporta mejor. Es decir, el Experimenter dirá si las diferencias aparentes en
porcentajes de aciertos de distintos algoritmos son estadísticamente significativas,
o son debidas al azar (Aler, 2009).
Captura 14. Sección de experimentación en Weka.

Esta opción permite definir experimentos más complejos, con objeto de


ejecutar uno o varios algoritmos sobre uno o varios conjuntos de datos de entrada,
y comparar estadísticamente los resultados Las fases de uso de Experimenter
son:

1. Setup (configura).
2. Run (ejecuta).
3. Analyse (análisis estadístico).
Estas mismas, se pueden ver en las pestañas superiores del Experimenter, y
justo de ahí se tiene dos opciones:

 Simple: definiendo un archivo de configuración que contendrá todos los ajustes,


archivos involucrados, notas, etc, pertenecientes a un experimento (Captura 15).
Captura 15. Modo simple.

 Advanced: orientado a realizar tareas específicas más concretas que un


experimento normal, y una cierta funcionalidad existente en el modo simple se ha
traslado al modo avanzado, mostrándola más concreta y explícita al usuario.

Captura 16. Modo avanzado.


3.4. Flujo de conocimientos

Esta opción permite llevar a cabo las mismas acciones del "Explorer", con una
configuración totalmente gráfica, para seleccionar componentes y conectarlos en
un proyecto de minería de datos, desde que se cargan los datos, se aplican
algoritmos de tratamiento y análisis, hasta el tipo de evaluación deseada (Captura
17).

Captura 17. Modo de conocimientos en Weka.

El KnowledgeFlow presenta una interfaz inspirada en "flujo de datos" para


Weka. El usuario puede seleccionar componentes de una barra de herramientas,
colocarlos en un lienzo de diseño y conectarlos juntos para formar un "flujo de
conocimiento" para procesar y analizar datos. En la actualidad, todos los
clasificadores y filtros de Weka están disponibles en KnowledgeFlow junto con
algunas herramientas adicionales.
El KnowledgeFlow puede manejar los datos de forma incremental o por
lotes (el Explorador sólo gestiona los datos del lote). Por supuesto, aprender de los
datos de forma incremental requiere un clasificador que se puede actualizar sobre
una base instancia por instancia.
3.4.1. Características del KnowledgeFlow:

 Diseño intuitivo del estilo de flujo de datos.


 Procesa los datos en lotes o incrementalmente.
 Procesa lotes múltiples o corrientes en paralelo (cada flujo separado se
ejecuta en su propio hilo).
 Filtros de cadena juntos.
3.5. Workbench

Estas es la última novedad dentro de Weka en su versión 3.8.2, la cual integra


un “banco de trabajo” (Workbench), esta herramienta es un entorno que admite y
facilita una gama de actividades que Weka ofrece en los apartados anteriores,
reduciendo la necesidad de múltiples herramientas (Captura 18).

Captura 18. Herramienta Workbench.

Si se observa todo el panel superior de esta ventana integra todas las


herramientas que trae en su ventana principal el programa de Weka (Captura 19).
Además, de que, se anexan de igual forma todas las actividades que se llevan a
cabo dentro de la parte de Exploración.

Captura 19. Integración de herramientas en Workbench.

3.6. Interfaz de comando simple

La interfaz "Command-Line Interfaz" es simplemente una ventana de


comandos java para ejecutar las clases de WEKA. La primera distribución de
WEKA no disponía de interfaz gráfica y las clases de sus paquetes se podían
ejecutar desde la línea de comandos pasando los argumentos adecuados.
A pesar de ser en apariencia muy simple es extremadamente potente porque
permite realizar cualquier operación soportada por Weka de forma directa; no
obstante, es muy complicada de manejar ya que es necesario un conocimiento
completo de la aplicación. Su utilidad es pequeña desde que se fue recubriendo
Weka con interfaces. Actualmente ya prácticamente sólo es útil como una
herramienta de ayuda a la fase de pruebas. (García Morate).
Su utilidad es pequeña desde que se fue recubriendo Weka con interfaces.
Actualmente ya prácticamente sólo es útil como una herramienta de ayuda a la
fase de pruebas.

Captura 20. Simple CLI.

4. Conclusión

Toda vez concluida la práctica se aprendió acerca del entorno del software de
minería de datos Weka, efectuando una familiarización con el esquema de
desarrollo y análisis de este programa, a la par de lo cual, se pudo tener una
visión global de las ventajas y desventajas que significaría el uso de este sistema.
Una de las ventajas indiscutibles de Weka es su disponibilidad de trabajo, ya
que al ser un software libre, no se tiene problema alguno con licenciamiento,
además de su rapidez y facilidad de instalación, también presenta una amplia
gama de colección de técnicas de pre procesamiento, procesamiento y análisis de
datos. Por otro lado, una de las desventajas que más pesa es la interfaz de
usuario robusta que tiene y la escaza documentación respecto a este programa,
agregando un grado cierto rango de dificultad a las tareas de minería de datos.
Por último, cabe señalar que, a pesar de las desventajas encontradas, y con
base en la teoría, así como con la investigación realizada de manera
teórico/practica, este programa resulta ser uno de los mejores en cuanto a minería
de datos, sobrepasando por mucho a otros que también son creados con este fin,
aminorando la búsqueda de conocimiento dentro de los cada vez más extensos
datos digitales generados cada día.

5. Referencias

García , M. D. (2004). Manual de Weka.


Guerca. (26 de julio de 2015). Herramientas Kaizen: Big Data y Data Mining.
Recuperado el 16 de febrero de 2018, de
https://manuelguerrerocano.wordpress.com/2015/07/26/herramientas-
kaizen-big-data-y-data-mining/
Latino BI. (2016). El datamining (minería de datos), es el conjunto de técnicas y
tecnologías que permiten explorar grandes bases de datos, de manera
automática o semiautomática, con el objetivo de encontrar patrones
repetitivos, tendencias o reglas que expliquen el comport. Recuperado el 16
de febrero de 2018, de http://www.latino-bi.com/espanol/fundamentos-
bi/mineria-de-datos.php
Riquelme, J., Ruiz, R., & Golbert, K. (2006). Minería de datos: Conceptos y
Tendencias. Revista Iberoamericana, 11-18.
Robles, A. Y., & Sotolongo. (2013). Integración de los algoritmos de minería de
datos. JISTEM:, 389-406.
Rodríguez , S. Y. (2009). Herramientas de Minería de Datos. . Revista Cubana de
Ciencias Informáticas, 73-80.
Zenith. (27 de Marzo de 2015). ¿Qué es y cómo funciona el datamining? .
Recuperado el 16 de Febrero de 2018, de
https://blogginzenith.zenithmedia.es/que-es-y-como-funciona-el-datamining-
diczionario/

También podría gustarte