Está en la página 1de 21

ESCUELA POLITÉCNICA NACIONAL

FACULTAD DE INGENIERÍA DE SISTEMAS


INGENIERÍA EN SOFTWARE

Laboratorio de: Business Intelligence

Práctica No.: 7

Grupo: 4

Integrantes:

• Samantha Vilaña
• Sebastián Sánchez
• Edison Sánchez
• Miguel Pilamunga

Tema: Exploración de datos

Objetivos:
• Conocer características de preprocesamiento de datos en Weka.
• Explorar datos de un dataset mediante Weka.

Marco teórico:

La exploración de datos es una fase crucial en el proceso de análisis de datos que implica la
búsqueda, comprensión y visualización de patrones, tendencias o información relevante
dentro de conjuntos de datos. WEKA, que significa "Waikato Environment for Knowledge
Analysis," es una herramienta de software de minería de datos y aprendizaje automático de
código abierto que facilita la exploración de datos y la construcción de modelos predictivos.

En el contexto de la exploración de datos con WEKA, el proceso generalmente comienza con la


carga de datos en el entorno de trabajo. WEKA admite una variedad de formatos de archivo, lo
que permite importar conjuntos de datos desde diferentes fuentes. Una vez cargados los
datos, los usuarios pueden realizar diversas operaciones para comprender la estructura y la
distribución de la información [1].

WEKA proporciona una interfaz gráfica de usuario (GUI) intuitiva que permite a los usuarios
realizar tareas como la visualización de estadísticas descriptivas, la identificación de valores
atípicos, la manipulación de atributos y la exploración de relaciones entre variables. Además,
WEKA ofrece herramientas para la selección de atributos, lo que ayuda a identificar las
características más relevantes para el análisis y la construcción de modelos.

La exploración de datos con WEKA también incluye la capacidad de aplicar técnicas de


preprocesamiento, como la normalización de datos, la imputación de valores perdidos y la
transformación de variables, con el objetivo de mejorar la calidad y la adecuación de los datos
para el análisis subsiguiente.
ESCUELA POLITÉCNICA NACIONAL
FACULTAD DE INGENIERÍA DE SISTEMAS
INGENIERÍA EN SOFTWARE

Desarrollo de la práctica:

1. Utilizando el archivo weather.nominal.arff responder a las siguientes consultas usando


WEKA:

a) Cuántas instancias de datos tiene el archivo


El archivo tiene 14 instancias de datos.

b) Cuántos atributos
El archivo tiene 5 atributos

c) Cuántos valores no existen en la característica Outlook (missing values)


La característica Outlook tiene 0 missing values.

d) Cuáles son los valores que tiene el atributo Outlook


Los valores son:
• sunny
• overcast
• rainy

e) Para los diferentes valores de Outlook, cuantas instancias existen en el archivo con
cada uno de los valores.

La cantidad de instancias para cada valor es:


• sunny -> 5 instancias
• overcast - > 4 instancias
• rainy -> 5 instancias
ESCUELA POLITÉCNICA NACIONAL
FACULTAD DE INGENIERÍA DE SISTEMAS
INGENIERÍA EN SOFTWARE

Figura 1 Valores de instancia.

f) Qué tipo de atributo es Temperatura, nominal o numérico


El atributo temperatura es de tipo nominal.

g) Cuántos valores diferentes tiene el atributo Temperatura


El atributo temperatura tiene 3 valores diferentes.

Figura 2 Valores diferentes atributo Temperatura.

h) Cuál es el atributo que permitirá una clasificación


El atributo que permitirá una clasificación es play.
ESCUELA POLITÉCNICA NACIONAL
FACULTAD DE INGENIERÍA DE SISTEMAS
INGENIERÍA EN SOFTWARE

Figura 3 Valores de clasificación.

2. Remover atributos de un data set.

a) Abrir el archivo weather.numeric . Escoger la opción Filter>unsupervised>attribute


>remove.Hacer click derecho sobre Remove para ingresar el índice o rango de índices
de atributos a eliminar. Eliminar el atributo Temperatura.

Si abrimos el archivo weather, tendremos la siguiente pantalla.

Figura 4 Abrir archivo weather.arff.


ESCUELA POLITÉCNICA NACIONAL
FACULTAD DE INGENIERÍA DE SISTEMAS
INGENIERÍA EN SOFTWARE

Ahora que ya ha sido seleccionado el filtro Remove, nada más queda marcar la casilla de
“temperature” y abajo se activará el botón “Remove”, con lo que se eliminará el atributo
seleccionado.

Figura 5 Seleccionar atributo "temperature" a eliminar, con el botón Remove.

Como se puede observar a continuación, el atributo “temperature” ya no consta entre los


atributos del dataset.
ESCUELA POLITÉCNICA NACIONAL
FACULTAD DE INGENIERÍA DE SISTEMAS
INGENIERÍA EN SOFTWARE

Figura 6 Resultado de eliminar el atributo "temperatura".

b) Eliminar los datos con valor de Humidity High usando el archivo weather (Usar el filtro
Remove with values en Filter>Unsupervised>Instance>Remove with values, click
derecho y escoger el número del valor a eliminarse).

Ahora si abrimos el archivo weather.nominal, y nos colocamos en el atributo “humidity”,


veremos que existen dos clases, en este caso necesitamos conocer tanto el índice del atributo
como del valor nominal que deseamos eliminar, en este caso high, por lo que los índices serían
3 y 1 respectivamente.
ESCUELA POLITÉCNICA NACIONAL
FACULTAD DE INGENIERÍA DE SISTEMAS
INGENIERÍA EN SOFTWARE

Figura 7 Identificación del índice a eliminar.

Ahora si damos click en el nombre del filtro indicado, nos aparecerá una ventana para
configurar la parte de los índices, donde ingresaremos los ya identificados como se ve a
continuación.
ESCUELA POLITÉCNICA NACIONAL
FACULTAD DE INGENIERÍA DE SISTEMAS
INGENIERÍA EN SOFTWARE

Figura 8 Configuración del índice a eliminar.

Una vez terminada la configuración daremos click en OK y seguido aplicaremos el filtro con el
botón Apply, a continuación, podemos ver que no existe conteo para el atributo humidity con
condiciones “high”.
ESCUELA POLITÉCNICA NACIONAL
FACULTAD DE INGENIERÍA DE SISTEMAS
INGENIERÍA EN SOFTWARE

Figura 9 Resultado de la aplicación del filtro.

3. Transformación de valores numéricos a nominales (discretización).

https://www.youtube.com/watch?v=aDMzPC5IO4c

Si se toman en cuenta valores de clases se tiene una discretización supervisada.

a) Utilizar el Filtro Discretize de Weka para discretizar valores de los atributos del archivo:
ionosphere.arff.

Para discretizar los valores numéricos del conjunto de datos ionosphere.arff en Weka, se
puede utilizar el filtro Discretize Fig .
ESCUELA POLITÉCNICA NACIONAL
FACULTAD DE INGENIERÍA DE SISTEMAS
INGENIERÍA EN SOFTWARE

Figura 10 Selección de Filtro Discrete

Para generar valores que nos ayudaron a la agrupación, se indica los índices, rango de
precisión y la cantidad bins que se generan Figura 11.

Figura 11 Especificación de valores para el atributo


ESCUELA POLITÉCNICA NACIONAL
FACULTAD DE INGENIERÍA DE SISTEMAS
INGENIERÍA EN SOFTWARE

Una vez se establecen los parámetros para generar valores, se despliegan los datos generados

Figura 12 Valores Generados

En esta grafico se observa con se agrupan los valores por rango. Figura 13.

Figura 13 Grafico de agrupamiento

c) Indicar los valores discretizados para el atributo ar01.

Los valores del atributo se han transformado en rangos a través de un proceso de


discretización. Esto permite agrupar los datos en categorías, facilitando su análisis.
ESCUELA POLITÉCNICA NACIONAL
FACULTAD DE INGENIERÍA DE SISTEMAS
INGENIERÍA EN SOFTWARE

Figura 14 Transformación en rangos

La edad de las personas casadas se ha dividido en 10 grupos de edades. El rango con mayor
cantidad de casos es de 30.5 a 33.5 años. Representar la edad en rangos genera un gráfico de
barras más claro y ordenado. Además, los algoritmos de aprendizaje funcionan mejor al
procesar datos categóricos en lugar de valores numéricos individuales. La discretización
incrementa así la eficiencia de los modelos.

Figura 15 Gráfico de barras con rangos de edad.

c) Explicar 3 alternativas de discretización de atributos, sus ventajas y desventajas. (Datamining


Practical Machine Learning Tools and techniques –WEKA, pg. 296).

Anchos de intervalos iguales

Es un método de discretización no supervisado que consiste en dividir el rango de valores de


un atributo numérico en N subintervalos de igual amplitud
ESCUELA POLITÉCNICA NACIONAL
FACULTAD DE INGENIERÍA DE SISTEMAS
INGENIERÍA EN SOFTWARE

Se calcula la diferencia entre el valor máximo y mínimo del atributo numérico y se divide en N
partes para determinar el ancho de cada intervalo. Luego se definen los límites inferior y
superior de cada intervalo de modo que abarquen todo el rango de valores de forma
equidistante

Cada valor del atributo original es mapeado al intervalo que contiene dicho valor,
reemplazando el valor numérico por el identificador del intervalo correspondiente. De esta
forma el atributo numérico se transforma a un atributo nominal categorizado en N valores.
Ventajas

• Es muy simple y fácil de implementar, sólo requiere calcular anchos de intervals


equidistantes
Desventajas

• Puede dar como resultado intervalos discretos con frecuencias de valores muy
diferentes entre sí. Esto se debe a que no tiene en cuenta la distribución real de los
datos.
Frecuencias iguales

También llamado igual ancho de frecuencia o ecualización del histograma. Es un método no


supervisado en el que se ajustan los anchos de los intervalos discretos para lograr una
frecuencia similar de valores en cada uno.

En este caso no se usan amplitudes fijas, sino que se calculan puntos de corte entre intervalos
examinando la distribución de frecuencias del atributo y eligiendo los límites para lograr
equilibrar dichas frecuencias.

Se consigue así intervalos discretos con aproximadamente la misma cantidad de instancias en


su interior, mitigando el problema de las frecuencias dispares.

Ventajas

• Equilibra las frecuencias entre intervalos discretos resultantes.


Desventajas:

Se pierde la noción del orden y distancia original entre valores.

Discretización supervisada

Utiliza información de la clase objetivo para guiar la determinación de los puntos de corte
entre intervalos discretos, buscando preservar la información más relevante para predecir la
clase.

Examina la relación entre los valores del atributo numérico y la clase a predecir para
determinar una discretización óptima que maximice la dependencia entre el atributo
discretizado resultante y dicha clase.
ESCUELA POLITÉCNICA NACIONAL
FACULTAD DE INGENIERÍA DE SISTEMAS
INGENIERÍA EN SOFTWARE

Se vale de medidas como la entropía para particionar recursivamente el rango de valores y


definir los cortes entre intervalos. Logra una discretización customizada para el problema de
predicción en particular.

Ventajas

• Preserva la máxima información relevante para diferenciar clases en la predicción


Desventajas

• Complejidad computacional mucho mayor comparada con los métodos no


supervisados.

4. Realizar los mismos ejercicios usando un conjunto de datos empresariales del portal de
datos abiertos del ecuador u otros utilizando Weka.

1. Utilizando el archivo 2_MINEDUC_RegistrosAdministrativos_2020-2021Inicio responder a


las siguientes consultas usando WEKA:

a) Cuántas instancias de datos tiene el archivo


El archivo tiene 16290 instancias de datos.

b) Cuántos atributos
El archivo tiene 65 atributos

c) Cuántos valores no existen en la característica Zona (missing values)


La característica Zona tiene 0 missing values.

d) Cuáles son los valores que tiene el atributo Outlook

Los valores son:


• Zona 1
• Zona 2
• Zona 3
• Zona 4
• Zona 5
• Zona 6
• Zona 7
• Zona 8
• Zona 9

e) Para los diferentes valores de Zona, cuantas instancias existen en el archivo con
cada uno de los valores.

La cantidad de instancias para cada valor es:


• Zona 1 -> 1702 instancias
ESCUELA POLITÉCNICA NACIONAL
FACULTAD DE INGENIERÍA DE SISTEMAS
INGENIERÍA EN SOFTWARE

• Zona 2 -> 1025 instancias


• Zona 3 -> 1575 instancias
• Zona 4 -> 2560 instancias
• Zona 5 -> 2591 instancias
• Zona 6 -> 1809 instancias
• Zona 7 -> 2005 instancias
• Zona 8 -> 1585 instancias
• Zona 9 -> 1438 instancias

Figura 16. Valores de instancia

f) Qué tipo de atributo es Jornada, nominal o numérico


El atributo Jornada es de tipo nominal.

g) Cuántos valores diferentes tiene el atributo Jornada.


El atributo Jornada tiene 7 valores diferentes.
ESCUELA POLITÉCNICA NACIONAL
FACULTAD DE INGENIERÍA DE SISTEMAS
INGENIERÍA EN SOFTWARE

Figura 17. Valores atributo Jornada

h) Cuál es el atributo que permitirá una clasificación


El atributo que permitirá una clasificación es Regimen_Escolar.

Figura 18. Atributo de clasificación

2. Remover atributos de un data set

En este caso se decidió eliminar cualquiera de los códigos, ya sea Provincia, Cantón o
Parroquia, por ejemplo, a continuación, se muestra la eliminación de Cod_Parroquia por medio
del filtro Remove, siendo 5 el índice del atributo a eliminar ajustamos las configuraciones y
ejecutamos dicho filtro.
ESCUELA POLITÉCNICA NACIONAL
FACULTAD DE INGENIERÍA DE SISTEMAS
INGENIERÍA EN SOFTWARE

Figura 19 Configuración filtro Remove

Podemos ver el resultado de la eliminación de dicho atributo en la siguiente figura.

Figura 20 Resultado luego de la eliminación de Cod_Parroquia.


ESCUELA POLITÉCNICA NACIONAL
FACULTAD DE INGENIERÍA DE SISTEMAS
INGENIERÍA EN SOFTWARE

Ahora para aplicar el filtro de remoción de valores, decidimos utilizar el atributo Zona, todos
los valores respectivos a la etiqueta “Zona 2”, que es la que menor cuenta presenta. Se
observa que el índice del atributo es 2 y el índice de la etiqueta a eliminar es 8, en base a esto
configuramos nuestro filtro.

Figura 21 Visualización de la etiqueta a eliminar.


ESCUELA POLITÉCNICA NACIONAL
FACULTAD DE INGENIERÍA DE SISTEMAS
INGENIERÍA EN SOFTWARE

Figura 22 Configuración del filtro RemoveWithValues.

Podemos observar el resultado después de la aplicación del filtro.

Figura 23 Resultado de la aplicación del filtro.


ESCUELA POLITÉCNICA NACIONAL
FACULTAD DE INGENIERÍA DE SISTEMAS
INGENIERÍA EN SOFTWARE

3. Transformación de valores numéricos a nominales (discretización).

Para el uso del filtro Discretize se ha elegido como atributo “Nivel_Educacion” con índice 9, en
primera instancia podemos ver su distribución de la siguiente manera.

Figura 24 Nivel_Educación antes de aplicación del filtro discretize.

Usando el filtro con 40 bins, se obtienen los resultados mostrados luego de la configuración.

Figura 25 Configuración del filtro Discretize.


ESCUELA POLITÉCNICA NACIONAL
FACULTAD DE INGENIERÍA DE SISTEMAS
INGENIERÍA EN SOFTWARE

Conclusiones y Recomendaciones:

• La discretización y eliminación selectiva de atributos pueden simplificar el conjunto de


datos que se usa para realizar la exploración.

• La eliminación de instancias con valores específicos puede afectar la distribución


de los datos.
• La discretización es útil para convertir atributos numéricos en categorías, facilitando la
interpretación.
• La elección del método de discretización debe considerar la distribución de los datos y
los objetivos del análisis.
• Se recomienda realizar un análisis exploratorio detallado antes de aplicar
transformaciones para comprender la distribución y características de los datos.
• La selección cuidadosa de atributos para la clasificación es esencial para construir
modelos efectivos.
• La documentación detallada de los pasos de transformación facilita la reproducibilidad
y la comprensión del análisis.

Bibliografía:

• [1] “Weka 3 - Data Mining with Open Source Machine Learning Software in
Java,” Waikato.ac.nz, 2024. https://www.cs.waikato.ac.nz/ml/weka/ (accessed
Jan. 17, 2024).
• [2] Piperlab, “Weka - PiperLab,” PiperLab, Oct. 09, 2020.
https://piperlab.es/glosario-de-big-data/weka/ (accessed Jan. 17, 2024).
• [3] J. García Herrero, “ANÁLISIS DE DATOS.” Accessed: Jan. 17, 2024.
[Online]. Available:
https://ocw.uc3m.es/pluginfile.php/4103/mod_page/content/9/tutorial_weka.pdf

También podría gustarte