Documentos de Académico
Documentos de Profesional
Documentos de Cultura
INGENIERÍA EN COMPUTACIÓN
MINERÍA DE DATOS
ALUMNA:
MEDINA GUERRA YURITZI
DOCENTE:
M en C.C. BUSTAMANTE ALMARAZ ADRIANA
PRODUCTO:
PRACTICA 1. ENTORNO DE WEKA
DECIMO SEMESTRE
Materiales y Software
Sin embargo, y pese a todas las cualidades que Weka posee, tiene un gran
defecto y éste es la escasa documentación orientada al usuario que tiene junto a
una usabilidad bastante pobre, lo que la hace una herramienta difícil de
comprender y manejar sin información adicional. Este manual tiene por objetivo
explicar el funcionamiento básico de este programa y sentar unas bases para que
el lector pueda ser autodidacta. La licencia de Weka es GPL, lo que significa que
este programa es de libre distribución y difusión. Además, ya que Weka está
programado en Java, es independiente de la arquitectura, ya que funciona en
cualquier plataforma sobre la que haya una máquina virtual Java disponible.
De igual forma Rodríguez y Díaz (2009), estipulan que Weka soporta varias
tareas estándar de minería de datos, especialmente, reprocesamiento de datos,
clustering, clasi"cación, regresión, visualización, y selección. Todas las técnicas de
Weka se fundamentan en la asunción de que los datos están disponibles en un
"chero plano o una relación, en la que cada registro de datos está descrito por un
número de atributos (normalmente numéricos o nominales, aunque también se
soportan otros tipos). Weka también proporciona acceso a bases de datos vía
SQL gracias a la conexión JDBC (Java Database Connectivity) y puede procesar
el resultado devuelto por una consulta hecha a la base de datos. No puede
realizar minería de datos multi-relacional, pero existen aplicaciones que pueden
convertir una colección de tablas relacionadas de una base de datos en una única
tabla que ya puede ser procesada con Weka.
Es decir, las principales ventajas de la herramienta son (Robles y Sotolongo,
2013):
Es multiplataforma.
Contiene una extensa colección de técnicas para preprocesamiento y
modelado de datos.
Es fácil de usar, gracias a su interfaz gráfica.
Soporta varias tareas de minería de datos, especialmente
preprocesamiento, agrupamiento, clasificación, regresión, visualización y
selección.
Permite combinar varios algoritmos basados en técnicas de minería de
datos, para obtener mejores resultados en el descubrimiento de
conocimiento.
Es capaz de mostrar los datos en varios tipos de gráficos con el objetivo
de proporcionar una mejor comprensión y un mejor análisis.
2.5. Archivos .arf
Aunque éste es el modo “completo" es posible definir los datos de una forma
abreviada (sparse data). Si tenemos una muestra en la que hay muchos
datos que sean 0 podemos expresar los datos prescindiendo de los
elementos que son nulos, rodeando cada una de las filas entre llaves y
situando delante de cada uno de los datos el número de atributo**.
Toda vez revisado el marco teórico que envuelve al software Weka, así como
sus requisitos de preinstalación del programa, se prosiguió a ejecutar el programa,
en primera instancia, éste abrirá una pequeña tal y como la que se muestra en la
Captura 1.
Open File: Al pulsar sobre este botón aparecerá una ventana de selección
de archivo. Aunque el formato por defecto de Weka es el arff eso no
significa que sea el único que admita, para ello tiene interpretadores de
otros formatos (Captura 4). Éstos son:
o CSV Archivos separados por comas o tabuladores. La primera línea
contiene los atributos.
o C4.5 Archivos codificados según el formato C4.5. Unos datos
codificados según este formato estarían agrupados de tal manera que
en un archivo .names estarían los nombres de los atributos y en un
archivo .data estarían los datos en sí. Weka cuando lee archivos
codificados según el formato C4.5 asume que ambos archivos (el de
definición de atributos y el de datos) están en el mismo directorio, por
lo que sólo es necesario especificar uno de los dos.
o Instancias Serializadas Weka internamente almacena cada muestra
de los datos como una instancia de la clase instance. Esta clase es
serializable* por lo que estos objetos pueden ser volcados
directamente sobre un archivo y también cargados de uno. Para
cargar un archivo arff simplemente debemos buscar la ruta donde se
encuentra el archivo y seleccionarlo. Si dicho archivo no tiene
extensión arff, al abrirlo Weka intentará interpretarlo, si no lo consigue
aparecerá un mensaje de error como el de la figura 5. Pulsando en
Use converter nos dará la opción de usar un interpretador de archivos
de los tipos ya expuestos.
Open Url: Con este botón se abrirá una ventana que permite introducir una
dirección en la que definir dónde se encuentra nuestro archivo. El
tratamiento de los archivos es el mismo que el apartado anterior.
Open DB: este botón da la posibilidad de obtener los datos de una base de datos.
Para configurarla lo primero es definir la url por la cual es accesible la base de
datos, la contraseña para acceder, el nombre de usuario, la consulta que queremos
realizar y si queremos o no usar el modo de datos abreviado.
Captura 7. Abrir base de datos en Weka.
Una vez seleccionado el origen de los datos podremos aplicar algún filtro sobre él
o bien pasar a las siguientes secciones y realizar otras tareas. En el cuadrante
inferior derecho aparece una representación gráfica del atributo seleccionado
(Captura 8).
3.2.6. Visualize
1. Setup (configura).
2. Run (ejecuta).
3. Analyse (análisis estadístico).
Estas mismas, se pueden ver en las pestañas superiores del Experimenter, y
justo de ahí se tiene dos opciones:
Esta opción permite llevar a cabo las mismas acciones del "Explorer", con una
configuración totalmente gráfica, para seleccionar componentes y conectarlos en
un proyecto de minería de datos, desde que se cargan los datos, se aplican
algoritmos de tratamiento y análisis, hasta el tipo de evaluación deseada (Captura
17).
4. Conclusión
Toda vez concluida la práctica se aprendió acerca del entorno del software de
minería de datos Weka, efectuando una familiarización con el esquema de
desarrollo y análisis de este programa, a la par de lo cual, se pudo tener una
visión global de las ventajas y desventajas que significaría el uso de este sistema.
Una de las ventajas indiscutibles de Weka es su disponibilidad de trabajo, ya
que al ser un software libre, no se tiene problema alguno con licenciamiento,
además de su rapidez y facilidad de instalación, también presenta una amplia
gama de colección de técnicas de pre procesamiento, procesamiento y análisis de
datos. Por otro lado, una de las desventajas que más pesa es la interfaz de
usuario robusta que tiene y la escaza documentación respecto a este programa,
agregando un grado cierto rango de dificultad a las tareas de minería de datos.
Por último, cabe señalar que, a pesar de las desventajas encontradas, y con
base en la teoría, así como con la investigación realizada de manera
teórico/practica, este programa resulta ser uno de los mejores en cuanto a minería
de datos, sobrepasando por mucho a otros que también son creados con este fin,
aminorando la búsqueda de conocimiento dentro de los cada vez más extensos
datos digitales generados cada día.
5. Referencias