Está en la página 1de 9

Universidad Estatal

del Sur de Manabí


FACULTAD DE CIENCIAS TÉCNICAS
CARRERA:

TECNOLOGÍA DE LA INFORMACIÓN Y

COMUNICACIÓN

MATERIA: Minería de Datos

DOCENTE: Ing. Adriana Castillo Merino

NIVEL: 7mo “B” Matutino

INTEGRANTES:

Cagua Quijije Maria Fernanda

Cedeño Holguín Suggeidy Ashley

Delgado Delgado Jose Enrique

Pascuaza Mosquera Jinson Jose

Salcedo Bailón Bryan Elías

PERIODO ACADÉMICO:

Segundo Periodo Académico 2023 (PII)

TEMA:
Regla de Asociación
Redes Neuronales
Algoritmos Genéticos
JIPIJAPA- MANABÍ- ECUADOR
REGLA DE ASOCIACIÓN

Las reglas de asociación son declaraciones de “if-then”, que ayudan a mostrar la


probabilidad de las relaciones entre los elementos de datos, dentro de grandes conjuntos de
datos en diversos tipos de bases de datos. La minería de reglas de asociación tiene varias
aplicaciones y se utiliza ampliamente para ayudar a descubrir correlaciones de ventas en
datos de transacciones o en conjuntos de datos médicos.

Las reglas no extraen la preferencia de un individuo, sino que encuentran relaciones


entre un conjunto de elementos de cada transacción distinta. Esto es lo que las hace diferentes
del filtrado colaborativo. (Mendez, 2021)

Como funciona las reglas de asociación

Las reglas de asociación, a un nivel básico, implica el uso de modelos de Machine


Learning para analizar los datos en busca de patrones, o coocurrencias, en una base de datos.
Identifica las asociaciones frecuentes, que a su vez son las reglas de asociación.

Una regla de asociación tiene dos partes:

 un antecedente (si) y
 un consecuente (entonces)

Un antecedente es un elemento que se encuentra dentro de los datos. Un consecuente


es un elemento que se encuentra en combinación con el antecedente.

Las reglas de asociación se crean buscando en los datos patrones frecuentes de “if-
then” y utilizando los criterios de apoyo y confianza para identificar las relaciones más
importantes. El apoyo es una indicación de la frecuencia con que los elementos aparecen en
los datos. La confianza indica el número de veces que las afirmaciones del tipo “if-then” se
consideran verdaderas. Se puede utilizar una tercera métrica, llamada fit para comparar la
confianza con la confianza esperada, o cuántas veces se espera que una afirmación del tipo
“if-then” se considera cierta.

La Minería de Reglas de Asociación es una técnica importante en la Minería de Datos


y consiste en encontrar las asociaciones interesantes en forma de relaciones de implicación
entre los valores de los atributos de los objetos de un conjunto de datos.
Las reglas de asociación se calculan a partir de conjuntos de elementos, que se
componen de dos o más elementos. Si las reglas se construyen a partir del análisis de todos
los conjuntos de elementos posibles, podría haber tantas reglas que éstas tendrían poco
significado. Con eso, las reglas de asociación se crean típicamente a partir de reglas bien
representadas en los datos.

Las reglas de asociación es una técnica de inteligencia artificial ampliamente utilizada


en Data Mining.

La realización de base de datos se ha vuelto una acción fundamental para las empresas,
pero a consecuencia de la generación masiva de estos, nos encontramos frente a un problema,
la infoxicación, disponemos de tanta información, que a veces es imposible organizarla con
efectividad. Por ello, la clave está en descubrir patrones o algoritmos para sacarle el máximo
partido, y aquí es donde entra en juego el Data Mining o minería de datos. (Baoss, 2020)

Association Rules

Búsqueda de patrones frecuentes, asociaciones, correlaciones o estructuras causales entre


conjuntos de elementos u objetos en bases de datos de transacciones, bases de datos
relacionales y otros repositorios de información disponibles.

Aplicaciones

 Análisis de datos de la banca.


 Cross-marketing (poner la crema batida junto a las fresas).
 Diseño de catálogos.

Dado un conjunto de transacciones, encontrar reglas que predigan la ocurrencia de un artículo


según las ocurrencias de otros artículos en la transacción.

Ejemplos

 La gente que comprara pan, comprara también leche.


 La gente que comprara soda, comprara también papas de funda.
 La gente que comprara pan, comprara también mermelada.
Algoritmos de reglas de asociación

 Algoritmo Apriori

La regla de asociación más conocida es la regla de asociación Apriori, que se basa en


la frecuencia de ocurrencia de conjuntos de elementos en un conjunto de datos. El proceso
del algoritmo Apriori empieza con la obtención de los llamados conjuntos de ítems
frecuentes, los cuales son aquellos conjuntos formados por los ítems cuyo soporte obtenido
de la base de datos es superior al soporte mínimo solicitado por el usuario

Los conjuntos de elementos candidatos se generan usando solo los grandes conjuntos
de elementos de la pasada anterior. El conjunto de ítems grandes de la pasada anterior se une
a sí mismo para generar todos los conjuntos de ítems con un tamaño que es mayor por uno.
Cada conjunto de ítems generado con un subconjunto que no es grande es entonces
eliminado. El resto de los conjuntos de elementos son candidatos.

El algoritmo de Apriori aprovecha el hecho de que cualquier subconjunto de un


conjunto de ítems frecuente es también un conjunto de ítems frecuente. Por lo tanto, el
algoritmo puede reducir el número de candidatos que se están considerando explorando solo
los conjuntos de elementos cuyo número de apoyos es mayor que el número mínimo de
apoyos. Todos los conjuntos de elementos infrecuentes pueden ser podados si tienen un
subconjunto infrecuente.

Algunas cosas a considerar:

 Tiene gran importancia en la minería de datos.


 Las reglas resultantes son intuitivas y fáciles de comunicar a un usuario final.
 Es fácil de implementar.
 No requiere de datos etiquetados ya que está totalmente desprovisto de supervisión.
 Si el conjunto de datos es pequeño puede encontrar muchas asociaciones falsas que
ocurren por casualidad.
 Requiere muchos escaneos de la base de datos.
 Algoritmo Eclat

El algoritmo explora el conjunto de datos y encuentra conjuntos de elementos que se


producen con mayor frecuencia en la transacción que un umbral determinado.

La mayor diferencia con el algoritmo de Apriori es que utiliza la búsqueda de


profundidad, primero, en lugar de la búsqueda de amplitud. En el algoritmo de Apriori, se
utiliza el elemento basado en el producto, pero en le algoritmo Eclat, la transacción es
transmitida por los elementos.

Eclat mejora Apriori en el paso de extraer conjuntos de elementos frecuentes, Apriori


tiene que escanear los datos varias veces, pero Eclat no lo necesita.

Algunas cosas a considerar:

 Apriori usa grandes conjuntos de datos mientras que Eclat usa un conjunto de datos
pequeño y mediano.
 Apriori es más lento que Eclat.

 Algoritmo AIS

Con el algoritmo AIS, se generan y cuentan conjuntos de elementos a medida que


escanea los datos. En los datos de transacción, el algoritmo AIS determina qué grandes
conjuntos de elementos contenías una transacción, y se crean nuevos conjuntos de elementos
candidatos ampliando los grandes conjuntos de elementos con otros elementos de los datos
de transacción.

La desventaja del algoritmo AIS es que genera y cuenta innecesariamente demasiados


conjuntos de elementos candidatos que resultan ser pequeños.

 Algoritmo SETM

El algoritmo SETM también genera conjuntos de elementos candidatos a medida que


explora una base de datos, pero este algoritmo da cuenta de los conjuntos de elementos al
final de su exploración. Los nuevos conjuntos de elementos candidatos se generan de la
misma manera que con el algoritmo AIS, pero el ID de la transacción generada se guarda con
el conjunto de elementos candidatos en una estructura de datos secuencial. Al final de la
pasada, el recuento de soporte de los ítems candidatos se crea agregando la estructura
secuencial.

El inconveniente del algoritmo SETM es que puede generar y contar muchos


pequeños conjuntos de elementos candidatos.

Los principales parámetros de calidad de las reglas de asociación son el Soporte y la


Confianza, la descripción de cada uno de ellos es la siguiente.

 Soporte: El soporte de un item es la frecuencia con la cual este ítem se encuentra en


las transacciones dividido entre el número de transacciones.

 Confianza: La medida de confianza de una regla de decisión () es la división entre el


soporte de la regla de decisión entre el soporte del antecedente de la regla de decisión,
esto está representado por la siguiente ecuación:

REGLA NEURONALES

Las redes neuronales son una herramienta poderosa en minería de datos y aprendizaje
automático. Se utilizan para modelar y analizar patrones complejos en conjuntos de datos,
realizar predicciones y clasificar información. Aquí hay algunos aspectos clave de cómo se
aplican las redes neuronales en minería de datos:

Aprendizaje Supervisado: En minería de datos, las redes neuronales se utilizan


principalmente en escenarios de aprendizaje supervisado, donde el modelo se entrena
con un conjunto de datos etiquetado que contiene ejemplos de entrada y sus
correspondientes salidas deseadas.

Por ejemplo, en un problema de clasificación, una red neuronal puede aprender a


asignar entradas a categorías específicas basándose en ejemplos previos.
Aprendizaje No Supervisado: También se aplican en el aprendizaje no supervisado,
donde las redes neuronales pueden descubrir patrones y estructuras en datos sin
etiquetas.

Por ejemplo, en la reducción de dimensionalidad, las redes neuronales pueden


aprender representaciones más compactas y significativas de los datos.

Arquitecturas de Red: Las redes neuronales pueden tener diversas arquitecturas,


desde simples perceptrones multicapa hasta arquitecturas más complejas como redes
neuronales convolucionales (CNN) para datos de imágenes o redes neuronales
recurrentes (RNN) para datos secuenciales.

La elección de la arquitectura depende del tipo de datos y del problema específico que
se esté abordando.

Preprocesamiento de Datos: El preprocesamiento de datos es esencial antes de


entrenar una red neuronal. Esto puede incluir la normalización de datos, la
codificación de variables categóricas, la gestión de valores atípicos y la división
adecuada del conjunto de datos en conjuntos de entrenamiento, validación y prueba.
Optimización de Parámetros: Ajustar los hiperparámetros de una red neuronal es
crucial para lograr un rendimiento óptimo. Esto implica seleccionar el número de
capas, el número de neuronas por capa, la tasa de aprendizaje, entre otros.
Evaluación del Modelo: Después de entrenar la red neuronal, se evalúa su
rendimiento utilizando métricas relevantes para el problema, como precisión,
sensibilidad, especificidad, etc.
Problemas Comunes: Las redes neuronales pueden enfrentar desafíos como el
sobreajuste (overfitting), donde el modelo se ajusta demasiado a los datos de
entrenamiento y tiene dificultades para generalizar con datos nuevos.
Aplicaciones Prácticas: Las redes neuronales se aplican en una variedad de
aplicaciones prácticas, como reconocimiento de patrones, procesamiento de lenguaje
natural, visión por computadora, análisis de series temporales, entre otros. (Perez,
2021)
ALGORITMOS GENÉTICOS

Los algoritmos genéticos en minería de datos son técnicas de optimización inspiradas


en la evolución biológica que utilizan operadores genéticos, como la selección, la cruza y la
mutación, para encontrar soluciones óptimas a problemas complejos de análisis y extracción
de datos.

En minería de datos, los algoritmos genéticos pueden ser aplicados para tareas como
la selección de características, optimización de parámetros de modelos, descubrimiento de
reglas y otras tareas de optimización. La flexibilidad y capacidad de explorar grandes
espacios de búsqueda hacen que los algoritmos genéticos sean útiles en problemas complejos
y no lineales.

Los algoritmos genéticos (AG) son técnicas de optimización y búsqueda inspiradas


en la evolución biológica y la teoría de la selección natural. Estos algoritmos forman parte
de la familia de algoritmos evolutivos y se utilizan para encontrar soluciones aproximadas a
problemas de optimización y búsqueda en espacios de soluciones grandes y complejos. En el
contexto de minería de datos, los algoritmos genéticos pueden aplicarse para encontrar
patrones, optimizar modelos y realizar selección de características, entre otras tareas.

Los algoritmos genéticos son un método de solución de problemas de optimización,


inspirado en el funcionamiento de la reproducción y la selección natural. El método fue
desarrollado por John H. Holland y sus colaboradores en 1975 y su idea principal es generar
una gran cantidad de individuos a los que se les denomina “generación” (que en general es
un conjunto de soluciones codificadas de un problema) y evaluarla para determinar cuáles de
ellos se adaptan mejor (solucionan mejor el problema) para permitirles multiplicarse y
cruzarse con el objetivo de producir una generación que estadísticamente debe estar mejor
“adaptada”. Esto se repite cientos de veces hasta se acepte alguna de las soluciones.

Elementos de un algoritmo genético

En los algoritmos genéticos comúnmente interactúan los siguientes elementos [K0004]:

 Cromosoma: es la codificación de una solución al problema.


 Gen: es cada una de las partes constituyentes de un cromosoma.
 Población: grupo de cromosomas en una iteración particular del algoritmo.
 Función de evaluación: es una función que determina que tan bien un cromosoma
resuelve el problema considerado.
 Función de adaptación: es una función que determina la posibilidad de reproducción
que tiene un cromosoma.
 Mecanismo de selección: estrategia que se utiliza para decidir que cromosomas se
seleccionan para pasar a la siguiente generación.
 Operadores genéticos: funciones que modifican los cromosomas para intentar
producir nuevos individuos. Los operadores genéticos tradicionales son el cruce y la
mutación.
 Criterio de Parada: Condición que se evalúa para determinar si el algoritmo continuo.

El Genetic Miner deriva su nombre de la biología y funciona de forma similar a la


selección natural. Utiliza un algoritmo genético para buscar en un espacio de posibles
modelos de procesos e identificar el más probable. El minero genético puede considerarse un
enfoque evolutivo que consiste en mutar y combinar modelos de procesos para buscar los
mejores.

Cómo funciona el minero genético en minería de procesos

El algoritmo Genetic Miner evalúa cada modelo de proceso y utiliza operaciones de


selección, cruce y mutación para generar nuevos modelos de proceso. Los modelos de
proceso se evalúan y el modelo más apto se elige como modelo de proceso final. Genetic
Miner es capaz de identificar modelos de proceso con múltiples variantes y de detectar
estructuras de proceso complejas, como bucles y concurrencia. (Carrillo, 2019)

Bibliografía
Baoss. (10 de 2020).

Carrillo, D. O. (10 de 12 de 2019). Universidad de Los Andes. Obtenido de


https://repositorio.uniandes.edu.co/server/api/core/bitstreams/3c1096d1-670c-405b-
8538-f2c08d7404e9/content

Mendez, C. (23 de 11 de 2021). AprendeIa.

Perez, D. C. (2021). CEUPE. Obtenido de https://ccc.inaoep.mx/portalfiles/file/CCC-09-001.pdf

También podría gustarte