Grupo 4 Practica 7

ESCUELA POLITÉCNICA NACIONAL
FACULTAD DE INGENIERÍA DE SISTEMAS

INGENIERÍA EN SOFTWARE
Laboratorio de: Business Intelligence
Práctica No.: 7
Grupo: 4
Integrantes:
• Samantha Vilaña
• Sebastián Sánchez
• Edison Sánchez
• Miguel Pilamunga
Tema: Exploración de datos
Objetivos:
• Conocer características de preprocesamiento de datos en Weka.
• Explorar datos de un dataset mediante Weka.
Marco teórico:
La exploración de datos es una fase crucial en el proceso de análisis de datos que implica la
búsqueda, comprensión y visualización de patrones, tendencias o información relevante
dentro de conjuntos de datos. WEKA, que significa "Waikato Environment for Knowledge
Analysis," es una herramienta de software de minería de datos y aprendizaje automático de
código abierto que facilita la exploración de datos y la construcción de modelos predictivos.
En el contexto de la exploración de datos con WEKA, el proceso generalmente comienza con la

carga de datos en el entorno de trabajo. WEKA admite una variedad de formatos de archivo, lo
que permite importar conjuntos de datos desde diferentes fuentes. Una vez cargados los
datos, los usuarios pueden realizar diversas operaciones para comprender la estructura y la
distribución de la información [1].
WEKA proporciona una interfaz gráfica de usuario (GUI) intuitiva que permite a los usuarios
realizar tareas como la visualización de estadísticas descriptivas, la identificación de valores
atípicos, la manipulación de atributos y la exploración de relaciones entre variables. Además,
WEKA ofrece herramientas para la selección de atributos, lo que ayuda a identificar las
características más relevantes para el análisis y la construcción de modelos.
La exploración de datos con WEKA también incluye la capacidad de aplicar técnicas de

preprocesamiento, como la normalización de datos, la imputación de valores perdidos y la
transformación de variables, con el objetivo de mejorar la calidad y la adecuación de los datos
para el análisis subsiguiente.
Desarrollo de la práctica:
1. Utilizando el archivo weather.nominal.arff responder a las siguientes consultas usando

WEKA:
a) Cuántas instancias de datos tiene el archivo

El archivo tiene 14 instancias de datos.
b) Cuántos atributos
El archivo tiene 5 atributos
c) Cuántos valores no existen en la característica Outlook (missing values)

La característica Outlook tiene 0 missing values.
d) Cuáles son los valores que tiene el atributo Outlook

Los valores son:
• sunny
• overcast
• rainy
e) Para los diferentes valores de Outlook, cuantas instancias existen en el archivo con
cada uno de los valores.
La cantidad de instancias para cada valor es:

• sunny -> 5 instancias
• overcast - > 4 instancias
• rainy -> 5 instancias
Figura 1 Valores de instancia.
f) Qué tipo de atributo es Temperatura, nominal o numérico

El atributo temperatura es de tipo nominal.
g) Cuántos valores diferentes tiene el atributo Temperatura

El atributo temperatura tiene 3 valores diferentes.
Figura 2 Valores diferentes atributo Temperatura.
h) Cuál es el atributo que permitirá una clasificación

El atributo que permitirá una clasificación es play.
Figura 3 Valores de clasificación.
2. Remover atributos de un data set.
a) Abrir el archivo weather.numeric . Escoger la opción Filter>unsupervised>attribute

>remove.Hacer click derecho sobre Remove para ingresar el índice o rango de índices
de atributos a eliminar. Eliminar el atributo Temperatura.
Si abrimos el archivo weather, tendremos la siguiente pantalla.
Figura 4 Abrir archivo weather.arff.

Ahora que ya ha sido seleccionado el filtro Remove, nada más queda marcar la casilla de
“temperature” y abajo se activará el botón “Remove”, con lo que se eliminará el atributo
seleccionado.
Figura 5 Seleccionar atributo "temperature" a eliminar, con el botón Remove.
Como se puede observar a continuación, el atributo “temperature” ya no consta entre los

atributos del dataset.
Figura 6 Resultado de eliminar el atributo "temperatura".
b) Eliminar los datos con valor de Humidity High usando el archivo weather (Usar el filtro
Remove with values en Filter>Unsupervised>Instance>Remove with values, click
derecho y escoger el número del valor a eliminarse).
Ahora si abrimos el archivo weather.nominal, y nos colocamos en el atributo “humidity”,

veremos que existen dos clases, en este caso necesitamos conocer tanto el índice del atributo
como del valor nominal que deseamos eliminar, en este caso high, por lo que los índices serían
3 y 1 respectivamente.
Figura 7 Identificación del índice a eliminar.
Ahora si damos click en el nombre del filtro indicado, nos aparecerá una ventana para
configurar la parte de los índices, donde ingresaremos los ya identificados como se ve a
continuación.
Figura 8 Configuración del índice a eliminar.
Una vez terminada la configuración daremos click en OK y seguido aplicaremos el filtro con el
botón Apply, a continuación, podemos ver que no existe conteo para el atributo humidity con
condiciones “high”.
Figura 9 Resultado de la aplicación del filtro.
3. Transformación de valores numéricos a nominales (discretización).
https://www.youtube.com/watch?v=aDMzPC5IO4c
Si se toman en cuenta valores de clases se tiene una discretización supervisada.
a) Utilizar el Filtro Discretize de Weka para discretizar valores de los atributos del archivo:
ionosphere.arff.
Para discretizar los valores numéricos del conjunto de datos ionosphere.arff en Weka, se
puede utilizar el filtro Discretize Fig .
Figura 10 Selección de Filtro Discrete
Para generar valores que nos ayudaron a la agrupación, se indica los índices, rango de
precisión y la cantidad bins que se generan Figura 11.
Figura 11 Especificación de valores para el atributo

Una vez se establecen los parámetros para generar valores, se despliegan los datos generados
Figura 12 Valores Generados
En esta grafico se observa con se agrupan los valores por rango. Figura 13.
Figura 13 Grafico de agrupamiento
c) Indicar los valores discretizados para el atributo ar01.
Los valores del atributo se han transformado en rangos a través de un proceso de

discretización. Esto permite agrupar los datos en categorías, facilitando su análisis.
Figura 14 Transformación en rangos
La edad de las personas casadas se ha dividido en 10 grupos de edades. El rango con mayor
cantidad de casos es de 30.5 a 33.5 años. Representar la edad en rangos genera un gráfico de
barras más claro y ordenado. Además, los algoritmos de aprendizaje funcionan mejor al
procesar datos categóricos en lugar de valores numéricos individuales. La discretización
incrementa así la eficiencia de los modelos.
Figura 15 Gráfico de barras con rangos de edad.
c) Explicar 3 alternativas de discretización de atributos, sus ventajas y desventajas. (Datamining

Practical Machine Learning Tools and techniques –WEKA, pg. 296).
Anchos de intervalos iguales
Es un método de discretización no supervisado que consiste en dividir el rango de valores de

un atributo numérico en N subintervalos de igual amplitud
Se calcula la diferencia entre el valor máximo y mínimo del atributo numérico y se divide en N
partes para determinar el ancho de cada intervalo. Luego se definen los límites inferior y
superior de cada intervalo de modo que abarquen todo el rango de valores de forma
equidistante
Cada valor del atributo original es mapeado al intervalo que contiene dicho valor,
reemplazando el valor numérico por el identificador del intervalo correspondiente. De esta
forma el atributo numérico se transforma a un atributo nominal categorizado en N valores.
Ventajas
• Es muy simple y fácil de implementar, sólo requiere calcular anchos de intervals

equidistantes
Desventajas
• Puede dar como resultado intervalos discretos con frecuencias de valores muy
diferentes entre sí. Esto se debe a que no tiene en cuenta la distribución real de los
datos.
Frecuencias iguales
También llamado igual ancho de frecuencia o ecualización del histograma. Es un método no

supervisado en el que se ajustan los anchos de los intervalos discretos para lograr una
frecuencia similar de valores en cada uno.
En este caso no se usan amplitudes fijas, sino que se calculan puntos de corte entre intervalos
examinando la distribución de frecuencias del atributo y eligiendo los límites para lograr
equilibrar dichas frecuencias.
Se consigue así intervalos discretos con aproximadamente la misma cantidad de instancias en

su interior, mitigando el problema de las frecuencias dispares.
Ventajas
• Equilibra las frecuencias entre intervalos discretos resultantes.

Desventajas:
Se pierde la noción del orden y distancia original entre valores.
Discretización supervisada
Utiliza información de la clase objetivo para guiar la determinación de los puntos de corte
entre intervalos discretos, buscando preservar la información más relevante para predecir la
clase.
Examina la relación entre los valores del atributo numérico y la clase a predecir para
determinar una discretización óptima que maximice la dependencia entre el atributo
discretizado resultante y dicha clase.
Se vale de medidas como la entropía para particionar recursivamente el rango de valores y

definir los cortes entre intervalos. Logra una discretización customizada para el problema de
predicción en particular.
Ventajas
• Preserva la máxima información relevante para diferenciar clases en la predicción

Desventajas
• Complejidad computacional mucho mayor comparada con los métodos no

supervisados.
4. Realizar los mismos ejercicios usando un conjunto de datos empresariales del portal de
datos abiertos del ecuador u otros utilizando Weka.
1. Utilizando el archivo 2_MINEDUC_RegistrosAdministrativos_2020-2021Inicio responder a

las siguientes consultas usando WEKA:
a) Cuántas instancias de datos tiene el archivo

El archivo tiene 16290 instancias de datos.
b) Cuántos atributos
El archivo tiene 65 atributos
c) Cuántos valores no existen en la característica Zona (missing values)

La característica Zona tiene 0 missing values.
d) Cuáles son los valores que tiene el atributo Outlook
Los valores son:

• Zona 1
• Zona 2
• Zona 3
• Zona 4
• Zona 5
• Zona 6
• Zona 7
• Zona 8
• Zona 9
e) Para los diferentes valores de Zona, cuantas instancias existen en el archivo con
cada uno de los valores.
La cantidad de instancias para cada valor es:

• Zona 1 -> 1702 instancias

Figura 16. Valores de instancia
f) Qué tipo de atributo es Jornada, nominal o numérico

El atributo Jornada es de tipo nominal.
g) Cuántos valores diferentes tiene el atributo Jornada.

El atributo Jornada tiene 7 valores diferentes.
Figura 17. Valores atributo Jornada
h) Cuál es el atributo que permitirá una clasificación

El atributo que permitirá una clasificación es Regimen_Escolar.
Figura 18. Atributo de clasificación
2. Remover atributos de un data set
En este caso se decidió eliminar cualquiera de los códigos, ya sea Provincia, Cantón o
Parroquia, por ejemplo, a continuación, se muestra la eliminación de Cod_Parroquia por medio
del filtro Remove, siendo 5 el índice del atributo a eliminar ajustamos las configuraciones y
ejecutamos dicho filtro.
Figura 19 Configuración filtro Remove
Podemos ver el resultado de la eliminación de dicho atributo en la siguiente figura.
Figura 20 Resultado luego de la eliminación de Cod_Parroquia.

Ahora para aplicar el filtro de remoción de valores, decidimos utilizar el atributo Zona, todos
los valores respectivos a la etiqueta “Zona 2”, que es la que menor cuenta presenta. Se
observa que el índice del atributo es 2 y el índice de la etiqueta a eliminar es 8, en base a esto
configuramos nuestro filtro.
Figura 21 Visualización de la etiqueta a eliminar.

Figura 22 Configuración del filtro RemoveWithValues.
Podemos observar el resultado después de la aplicación del filtro.
Figura 23 Resultado de la aplicación del filtro.

3. Transformación de valores numéricos a nominales (discretización).
Para el uso del filtro Discretize se ha elegido como atributo “Nivel_Educacion” con índice 9, en
primera instancia podemos ver su distribución de la siguiente manera.
Figura 24 Nivel_Educación antes de aplicación del filtro discretize.
Usando el filtro con 40 bins, se obtienen los resultados mostrados luego de la configuración.
Figura 25 Configuración del filtro Discretize.

Conclusiones y Recomendaciones:
• La discretización y eliminación selectiva de atributos pueden simplificar el conjunto de

datos que se usa para realizar la exploración.
• La eliminación de instancias con valores específicos puede afectar la distribución

de los datos.
• La discretización es útil para convertir atributos numéricos en categorías, facilitando la
interpretación.
• La elección del método de discretización debe considerar la distribución de los datos y
los objetivos del análisis.
• Se recomienda realizar un análisis exploratorio detallado antes de aplicar
transformaciones para comprender la distribución y características de los datos.
• La selección cuidadosa de atributos para la clasificación es esencial para construir
modelos efectivos.
• La documentación detallada de los pasos de transformación facilita la reproducibilidad
y la comprensión del análisis.
Bibliografía:
• [1] “Weka 3 - Data Mining with Open Source Machine Learning Software in
Java,” Waikato.ac.nz, 2024. https://www.cs.waikato.ac.nz/ml/weka/ (accessed
Jan. 17, 2024).
• [2] Piperlab, “Weka - PiperLab,” PiperLab, Oct. 09, 2020.
https://piperlab.es/glosario-de-big-data/weka/ (accessed Jan. 17, 2024).
• [3] J. García Herrero, “ANÁLISIS DE DATOS.” Accessed: Jan. 17, 2024.
[Online]. Available:
https://ocw.uc3m.es/pluginfile.php/4103/mod_page/content/9/tutorial_weka.pdf

Grupo 4 Practica 7

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Grupo 4 Practica 7

Cargado por

Copyright:

Formatos disponibles

ESCUELA POLITÉCNICA NACIONAL

FACULTAD DE INGENIERÍA DE SISTEMAS

Laboratorio de: Business Intelligence

Tema: Exploración de datos

En el contexto de la exploración de datos con WEKA, el proceso generalmente comienza con la

La exploración de datos con WEKA también incluye la capacidad de aplicar técnicas de

1. Utilizando el archivo weather.nominal.arff responder a las siguientes consultas usando

a) Cuántas instancias de datos tiene el archivo

c) Cuántos valores no existen en la característica Outlook (missing values)

d) Cuáles son los valores que tiene el atributo Outlook

La cantidad de instancias para cada valor es:

Figura 1 Valores de instancia.

f) Qué tipo de atributo es Temperatura, nominal o numérico

g) Cuántos valores diferentes tiene el atributo Temperatura

Figura 2 Valores diferentes atributo Temperatura.

h) Cuál es el atributo que permitirá una clasificación

Figura 3 Valores de clasificación.

2. Remover atributos de un data set.

a) Abrir el archivo weather.numeric . Escoger la opción Filter>unsupervised>attribute

Si abrimos el archivo weather, tendremos la siguiente pantalla.

Figura 4 Abrir archivo weather.arff.

Figura 5 Seleccionar atributo "temperature" a eliminar, con el botón Remove.

Como se puede observar a continuación, el atributo “temperature” ya no consta entre los

Figura 6 Resultado de eliminar el atributo "temperatura".

Ahora si abrimos el archivo weather.nominal, y nos colocamos en el atributo “humidity”,

Figura 7 Identificación del índice a eliminar.

Figura 8 Configuración del índice a eliminar.

Figura 9 Resultado de la aplicación del filtro.

3. Transformación de valores numéricos a nominales (discretización).

Si se toman en cuenta valores de clases se tiene una discretización supervisada.

Figura 10 Selección de Filtro Discrete

Figura 11 Especificación de valores para el atributo

Figura 12 Valores Generados

Figura 13 Grafico de agrupamiento

c) Indicar los valores discretizados para el atributo ar01.

Los valores del atributo se han transformado en rangos a través de un proceso de

Figura 14 Transformación en rangos

Figura 15 Gráfico de barras con rangos de edad.

c) Explicar 3 alternativas de discretización de atributos, sus ventajas y desventajas. (Datamining

Anchos de intervalos iguales

Es un método de discretización no supervisado que consiste en dividir el rango de valores de

• Es muy simple y fácil de implementar, sólo requiere calcular anchos de intervals

También llamado igual ancho de frecuencia o ecualización del histograma. Es un método no

Se consigue así intervalos discretos con aproximadamente la misma cantidad de instancias en

• Equilibra las frecuencias entre intervalos discretos resultantes.

Se pierde la noción del orden y distancia original entre valores.

Se vale de medidas como la entropía para particionar recursivamente el rango de valores y

• Preserva la máxima información relevante para diferenciar clases en la predicción

• Complejidad computacional mucho mayor comparada con los métodos no

1. Utilizando el archivo 2_MINEDUC_RegistrosAdministrativos_2020-2021Inicio responder a

a) Cuántas instancias de datos tiene el archivo

c) Cuántos valores no existen en la característica Zona (missing values)

d) Cuáles son los valores que tiene el atributo Outlook

Los valores son:

La cantidad de instancias para cada valor es:

• Zona 2 -> 1025 instancias

Figura 16. Valores de instancia

f) Qué tipo de atributo es Jornada, nominal o numérico

g) Cuántos valores diferentes tiene el atributo Jornada.

Figura 17. Valores atributo Jornada

h) Cuál es el atributo que permitirá una clasificación

Figura 18. Atributo de clasificación

2. Remover atributos de un data set

Figura 19 Configuración filtro Remove