Weka Segundo Producto

UNIVERSIDAD TÉCNICA DE COTOPAXI
FACULTAD DE CIENCIAS DE LA INGENIERÍA Y APLICADAS
CARRERA DE INGENIERÍA EN INFORMÁTICA Y SISTEMAS

COMPUTACIONALES
TEMA:
APRENDIZAJE AUTOMÁTICO
INTEGRANTES:
CHAUCA ALEX
CHARCO PAUL
GREFA CARLA
QUINGA JULIO
GUASHPA NELLY
TOSCANO WILSON
CICLO: NOVENO
PARALELO: “A”
LATACUNGA-ECUADOR
1. Introducción
El aprendizaje automático o el Machine Learning es un tema de inteligencia artificial; si bien esto pueda parecer
complicado, la inteligencia artificial y el Machine Learning se aplican a todos, sin embargo, a veces las personas
hacen que parezca más complicado de lo que realmente es. Si alguna vez ha leído sobre este tema,
probablemente haya escuchado uno de estos mitos los algoritmos aprenden de los datos para poder hacer
predicciones dentro del aprendizaje automático nos encontramos distintos métodos como las reglas de
asociación que estas se usan para aportar conocimiento que ayude a la toma de decisiones, un ejemplos en los
que este tipo de métodos resulta útil es para conocer las tendencias de compra de los clientes, otra aplicación es
en tareas de predicción, cómo deducir los estudios de una persona en función de su salario; la minería de textos
para asociar la presencia de términos en documentos etc. Como hemos visto en otras entradas, el algoritmo de
agrupamiento tiene como objetivo agrupar los objetos en un conjunto de datos en función de su similitud, de
modo que los objetos de un grupo (clúster) sean más similares que los objetos que pertenecen a grupos
diferentes. Por otro lado, entre las tareas clásicas de MD más utilizadas se encuentra el agrupamiento o
clustering y la obtención de Reglas de Asociación, es por eso que extender su aplicación a múltiples fuentes de
datos, ha resultado de particular interés por muchos autores.
2. Método
Reglas de asociación
Las reglas de esta metodología que se integra la minería de datos se expresar los patrones de comportamiento
entre datos con funciones que combina dos o más atributos diferentes, los atributos que forman cada uno de los
registros dependen del campo de aplicación.
(Fernández, Aguilera, Taladriz, Alcaide, Artigas, 2016) Afirma. “Las reglas de asociación han sido el objetivo
de muchos trabajos de investigación desde que Agrawal propusiera el algoritmo de aprendizaje A priori.” Este
algoritmo es de gran utilidad en grandes bases de datos, la regla de asociación son algoritmos no supervisados,
ya que no existen relaciones conocidas a priori con las que contrastar la validez de los resultados, sino que se
evalúa si esas reglas son estadísticamente significativas (Jiménez & Sierra, 2010).
Características
 Los datos se presentan o pueden interpretarse como un conjunto de transacciones, donde una
transacción es un subconjunto no vacío, de un conjunto de objetos llamados ítems.
 Apoya en medidas de confianza y soporte, considerando cualquier conjunto de atributos con cualquier
otro subconjunto de atributos.
 Constituyen un mecanismo de representación del conocimiento simple y útil para caracterizar las
regularidades.
Esta técnica dirigida a la generación de reglas de asociación hace uso de su notación, con la cual podemos
definir una asociación como una implicación de la forma X-->Y, donde X se denomina antecedente e Y
consecuente. X, Y están formados por conjuntos de elementos pertenecientes a la tabla de transacciones que
consta de un número indeterminado de registros que contienen diferentes secuencias de valores de los atributos
que definen un registro.
Según (Lucas, 2010). Los conceptos y técnicas empleados en dicho algoritmo están presentes en casi todos los
algoritmos que se aplican actualmente, los cuales, en su mayoría, son extensiones de Apriori.
El cual solo busca reglas entre atributos simbólicos, por lo cual todos los atributos numéricos deberían ser
discretizados previamente. A modo de ejemplo vamos a discretizar todos los atributos numéricos en 4 intervalos
de igual frecuencia. Si aplicamos el algoritmo de asociación con los parámetros por defecto, nos aparecen una
serie de reglas que relacionan las asignaturas y las opciones, suspensos en la prueba y en la calificación final, etc
(Jiménez & Sierra, 2010).
El algoritmo A priori
El funcionamiento del algoritmo Apriori empieza con la obtención de los llamados “conjuntos de ítems
frecuentes”, los cuales son aquellos conjuntos cuyos ítems superan un umbral que define un valor mínimo para
la medida de soporte. Debido al amplio uso del algoritmo Apriori, desde que se formalizó la inducción de reglas
de asociación, la obtención de los conjuntos de ítems frecuentes es una tarea común en dichos algoritmos
(Lucas, 2010).
Reglas de Clustering
Es un conjunto de técnicas para encontrar patrones en datos no etiquetados de alta dimensión. Según (Xian-Da
Zhang, 2017) Es un enfoque de descubrimiento de patrones no supervisado en el que los datos se agrupan en
función de alguna medida de similitud. Está considerado como un aprendizaje no supervisado dentro de la
minería de datos.
Características
El Clustering es el proceso de agrupar datos en clases o clusters. Según (García & Gómez, 2019)
 Escalabilidad: normalmente corren con pocos datos.

 Clusters de formas arbitrarias: basados en distancias numéricas tienden a encontrar clúster esférico.
 Capacidad de manejar diferentes tipos de atributos: numéricos (lo más común), binarios, nominales,
ordinales, etc.
 Capacidad de añadir restricciones.
 Manejo de ruido: muchos son sensibles a datos erróneos.
 Poder funcionar eficientemente con alta dimensionalidad.
 Requerimientos mínimos para especificar parámetros, como el número de clusters.
 Independientes del orden de los datos.
 Que los clusters sean interpretables y utilizables
En esta sección vamos a explicar brevemente algunos algoritmos de clustering.
K-means
Según (García & Gómez, 2019).El nombre de K-means viene porque representa cada uno de los clusters por la
media (o media ponderada) de sus puntos, es decir, por su centroide. La representación mediante centroide tiene
la ventaja de que tiene un significado gráfico y estadístico inmediato. Este algoritmo particiona los N objetos en
K particiones (K siendo un valor arbitrario) en donde un objeto irá al clúster con la media más cercana. El
algoritmo asigna K centros aleatoriamente, luego asigna los objetos al centro más cercano. El centro se recalcula
como la media de los puntos que tiene asignado, una vez actualizado se vuelven a reasignar los objetos al más
cercano y así hasta tener convergencia.
Figura 1. Ejemplo iteraciones del algoritmo K-means

K-nearest neighbors
Según(Naik & Samant, 2016).Es un algoritmo simple que almacena todos los casos disponibles y clasifica los
casos nuevos basándose en una medida de similitud (por ejemplo, funciones de distancia). En este algoritmo se
decide la membresía de un objeto teniendo en cuenta sus vecinos. Se decide a que clúster pertenece mirando a
que clúster pertenece la mayoría de sus vecinos K más cercanos a él. Se trata de unos de los algoritmos más
simples de aprendizaje automático.
Figura 2. Ejemplo de K-nearest neighbors
El círculo verde debería ser clasificado con los azules o rojos según el número K de vecinos que escojamos. Si
k=3 será asignado al rojo ya que de sus 3 vecinos más cercanos dos son rojos. Si k=5 irá al azul al tener tres
vecinos azules y dos rojos.
El DBSCAN
Es el primer algoritmo que se basa en la densidad para realizar la clasificación. Hay que fijar un radio E en el
cual queremos encontrar puntos y un número mínimo de puntos P que se ha de encontrar dentro del radio.
3. Análisis de resultados
Mediante el método de tipo de aprendizaje no supervisado se aplica dos algoritmos:
Algoritmo de las reglas de asociación (Apriori )
 Seleccionamos la base de datos con el nombre soybean.arff

Figura 3. soybean.arff
Cargamos la base de datos
Figura 4. Ejecutamos el algoritmo Apriori y genera los resultados
● Algoritmo de clustering (SimpleKMeans)

Con ayuda de una base de datos Absenteeism_at_work.arff con datos que definen el ausentismo en el
trabajo.
Primero cargamos la base de datos Absenteeism_at_work.arff a WEKA
Figura 5. Se presenta la información de la base de datos que se cargó al software WEKA
Figura 6. Ejecutamos SimpleKMeans

Figura 7. Visualizamos los resultados
Mediante la aplicación del algoritmo SimpleKMeans podemos agrupar individuos con las mismas características
en este caso agrupamos mediante dos clústeres para agrupar personas con un mismo tiempo de ausencia al
trabajo.
4. Conclusiones
 En conclusión, el algoritmo A priori es utilizado para grandes bases de datos ya que no cuenta con los
algoritmos no supervisados, sino que evalúa si las reglas estadísticas son significativas.
 Dentro de las reglas de clustering se han descubierto patrones no supervisados en que los datos se
agrupan en funciones de alguna medida de similitud y no tanto a las estadísticas.
 En la actualidad se aplican diferentes tipos de algoritmos, pero no son más que extensiones de los
algoritmos A priori.
 Al aplicar el algoritmo SimpleKMeans permitió agrupamos al personal con las mismas cantidades de
ausencias laborales.
Bibliografía
● Daymi Morales Vega, D. M. (2011). Integración de modelos de agrupamiento y reglas de asociación

obtenidos de múltiples fuentes de datos. cuba: Instituto Superior Politécnico “José Antonio
Echeverría”.
● Sanz, E.-J. B.-H. (Enero 2016). Algoritmos de clustering y aprendizaje automático aplicados a Twitter.
● Fernández, C., Aguilera, G., Taladriz, C., Alcaide, G., Artigas, G. (2016). Extracción de reglas de
asociación en una base de datos clínicos .Obtenido de https://core.ac.uk/download/pdf/148662389.pdf
● Jiménez, M. G., & Sierra, A. Á. (2010). Análisis de Datos en WEKA – Pruebas de Selectividad .
Obtenido de http://www.it.uc3m.es/jvillena/irc/practicas/06-07/28.pdf
● Lucas, J. P. (2010). MÉTODOS DE CLASIFICACIÓN BASADOS EN ASOCIACIÓN APLICADOS A
SISTEMAS DE RECOMENDACIÓN. Obtenido de
https://gredos.usal.es/bitstream/handle/10366/83342/DIA_PinhoLucasJ_M%E9todosdeclasificaci
%F3n.pdf;jsessionid=2559065DD30B7F74D594D1462E8BC11D?sequence=1
● García, C., & Gómez, I. (2019). Algoritmos de aprendizaje: knn & kmeans. Universidad Carlos III de
Madrid, 2, 8. Retrieved from http://www.it.uc3m.es/jvillena/irc/practicas/08-09/06.pdf
● Naik, A., & Samant, L. (2016). Correlation Review of Classification Algorithm Using Data Mining
Tool: WEKA, Rapidminer, Tanagra, Orange and Knime. Sciencedirect Procedia Computer Science,
85(Cms), 662–668. https://doi.org/10.1016/j.procs.2016.05.251
● Xian-Da Zhang. (2017). Machine learning. Machine Learning, 45(13), 40–48. Retrieved from
https://books.google.ca/books?
id=EoYBngEACAAJ&dq=mitchell+machine+learning+1997&hl=en&sa=X&ved=0ahUKEwiomdqfj8
TkAhWGslkKHRCbAtoQ6AEIKjAA

Weka Segundo Producto

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Weka Segundo Producto

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD TÉCNICA DE COTOPAXI

FACULTAD DE CIENCIAS DE LA INGENIERÍA Y APLICADAS

CARRERA DE INGENIERÍA EN INFORMÁTICA Y SISTEMAS

 Escalabilidad: normalmente corren con pocos datos.

En esta sección vamos a explicar brevemente algunos algoritmos de clustering.

Figura 1. Ejemplo iteraciones del algoritmo K-means

Figura 2. Ejemplo de K-nearest neighbors

Mediante el método de tipo de aprendizaje no supervisado se aplica dos algoritmos:

Algoritmo de las reglas de asociación (Apriori )

 Seleccionamos la base de datos con el nombre soybean.arff

Cargamos la base de datos

Figura 4. Ejecutamos el algoritmo Apriori y genera los resultados

● Algoritmo de clustering (SimpleKMeans)

Figura 5. Se presenta la información de la base de datos que se cargó al software WEKA

Figura 6. Ejecutamos SimpleKMeans

● Daymi Morales Vega, D. M. (2011). Integración de modelos de agrupamiento y reglas de asociación

También podría gustarte