Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Práctica No.: 7
Grupo: 4
Integrantes:
• Samantha Vilaña
• Sebastián Sánchez
• Edison Sánchez
• Miguel Pilamunga
Objetivos:
• Conocer características de preprocesamiento de datos en Weka.
• Explorar datos de un dataset mediante Weka.
Marco teórico:
La exploración de datos es una fase crucial en el proceso de análisis de datos que implica la
búsqueda, comprensión y visualización de patrones, tendencias o información relevante
dentro de conjuntos de datos. WEKA, que significa "Waikato Environment for Knowledge
Analysis," es una herramienta de software de minería de datos y aprendizaje automático de
código abierto que facilita la exploración de datos y la construcción de modelos predictivos.
WEKA proporciona una interfaz gráfica de usuario (GUI) intuitiva que permite a los usuarios
realizar tareas como la visualización de estadísticas descriptivas, la identificación de valores
atípicos, la manipulación de atributos y la exploración de relaciones entre variables. Además,
WEKA ofrece herramientas para la selección de atributos, lo que ayuda a identificar las
características más relevantes para el análisis y la construcción de modelos.
Desarrollo de la práctica:
b) Cuántos atributos
El archivo tiene 5 atributos
e) Para los diferentes valores de Outlook, cuantas instancias existen en el archivo con
cada uno de los valores.
Ahora que ya ha sido seleccionado el filtro Remove, nada más queda marcar la casilla de
“temperature” y abajo se activará el botón “Remove”, con lo que se eliminará el atributo
seleccionado.
b) Eliminar los datos con valor de Humidity High usando el archivo weather (Usar el filtro
Remove with values en Filter>Unsupervised>Instance>Remove with values, click
derecho y escoger el número del valor a eliminarse).
Ahora si damos click en el nombre del filtro indicado, nos aparecerá una ventana para
configurar la parte de los índices, donde ingresaremos los ya identificados como se ve a
continuación.
ESCUELA POLITÉCNICA NACIONAL
FACULTAD DE INGENIERÍA DE SISTEMAS
INGENIERÍA EN SOFTWARE
Una vez terminada la configuración daremos click en OK y seguido aplicaremos el filtro con el
botón Apply, a continuación, podemos ver que no existe conteo para el atributo humidity con
condiciones “high”.
ESCUELA POLITÉCNICA NACIONAL
FACULTAD DE INGENIERÍA DE SISTEMAS
INGENIERÍA EN SOFTWARE
https://www.youtube.com/watch?v=aDMzPC5IO4c
a) Utilizar el Filtro Discretize de Weka para discretizar valores de los atributos del archivo:
ionosphere.arff.
Para discretizar los valores numéricos del conjunto de datos ionosphere.arff en Weka, se
puede utilizar el filtro Discretize Fig .
ESCUELA POLITÉCNICA NACIONAL
FACULTAD DE INGENIERÍA DE SISTEMAS
INGENIERÍA EN SOFTWARE
Para generar valores que nos ayudaron a la agrupación, se indica los índices, rango de
precisión y la cantidad bins que se generan Figura 11.
Una vez se establecen los parámetros para generar valores, se despliegan los datos generados
En esta grafico se observa con se agrupan los valores por rango. Figura 13.
La edad de las personas casadas se ha dividido en 10 grupos de edades. El rango con mayor
cantidad de casos es de 30.5 a 33.5 años. Representar la edad en rangos genera un gráfico de
barras más claro y ordenado. Además, los algoritmos de aprendizaje funcionan mejor al
procesar datos categóricos en lugar de valores numéricos individuales. La discretización
incrementa así la eficiencia de los modelos.
Se calcula la diferencia entre el valor máximo y mínimo del atributo numérico y se divide en N
partes para determinar el ancho de cada intervalo. Luego se definen los límites inferior y
superior de cada intervalo de modo que abarquen todo el rango de valores de forma
equidistante
Cada valor del atributo original es mapeado al intervalo que contiene dicho valor,
reemplazando el valor numérico por el identificador del intervalo correspondiente. De esta
forma el atributo numérico se transforma a un atributo nominal categorizado en N valores.
Ventajas
• Puede dar como resultado intervalos discretos con frecuencias de valores muy
diferentes entre sí. Esto se debe a que no tiene en cuenta la distribución real de los
datos.
Frecuencias iguales
En este caso no se usan amplitudes fijas, sino que se calculan puntos de corte entre intervalos
examinando la distribución de frecuencias del atributo y eligiendo los límites para lograr
equilibrar dichas frecuencias.
Ventajas
Discretización supervisada
Utiliza información de la clase objetivo para guiar la determinación de los puntos de corte
entre intervalos discretos, buscando preservar la información más relevante para predecir la
clase.
Examina la relación entre los valores del atributo numérico y la clase a predecir para
determinar una discretización óptima que maximice la dependencia entre el atributo
discretizado resultante y dicha clase.
ESCUELA POLITÉCNICA NACIONAL
FACULTAD DE INGENIERÍA DE SISTEMAS
INGENIERÍA EN SOFTWARE
Ventajas
4. Realizar los mismos ejercicios usando un conjunto de datos empresariales del portal de
datos abiertos del ecuador u otros utilizando Weka.
b) Cuántos atributos
El archivo tiene 65 atributos
e) Para los diferentes valores de Zona, cuantas instancias existen en el archivo con
cada uno de los valores.
En este caso se decidió eliminar cualquiera de los códigos, ya sea Provincia, Cantón o
Parroquia, por ejemplo, a continuación, se muestra la eliminación de Cod_Parroquia por medio
del filtro Remove, siendo 5 el índice del atributo a eliminar ajustamos las configuraciones y
ejecutamos dicho filtro.
ESCUELA POLITÉCNICA NACIONAL
FACULTAD DE INGENIERÍA DE SISTEMAS
INGENIERÍA EN SOFTWARE
Ahora para aplicar el filtro de remoción de valores, decidimos utilizar el atributo Zona, todos
los valores respectivos a la etiqueta “Zona 2”, que es la que menor cuenta presenta. Se
observa que el índice del atributo es 2 y el índice de la etiqueta a eliminar es 8, en base a esto
configuramos nuestro filtro.
Para el uso del filtro Discretize se ha elegido como atributo “Nivel_Educacion” con índice 9, en
primera instancia podemos ver su distribución de la siguiente manera.
Usando el filtro con 40 bins, se obtienen los resultados mostrados luego de la configuración.
Conclusiones y Recomendaciones:
Bibliografía:
• [1] “Weka 3 - Data Mining with Open Source Machine Learning Software in
Java,” Waikato.ac.nz, 2024. https://www.cs.waikato.ac.nz/ml/weka/ (accessed
Jan. 17, 2024).
• [2] Piperlab, “Weka - PiperLab,” PiperLab, Oct. 09, 2020.
https://piperlab.es/glosario-de-big-data/weka/ (accessed Jan. 17, 2024).
• [3] J. García Herrero, “ANÁLISIS DE DATOS.” Accessed: Jan. 17, 2024.
[Online]. Available:
https://ocw.uc3m.es/pluginfile.php/4103/mod_page/content/9/tutorial_weka.pdf