Está en la página 1de 3

Minería de texto usando reglas de asociación difusas

Las reglas de asociación difusa se usan en un marco de texto. Las transacciones de


texto se definen en base al concepto de reglas de asociación difusas considerando cada
atributo como un término de una colección. El propósito del uso de las tecnologías de
minería de texto presentadas en este documento es ayudar a los usuarios a encontrar
información relevante. El sistema ayuda al usuario a formular consultas al incluir
términos relacionados con la consulta utilizando reglas de asociación difusas. La lista
de posibles términos candidatos extraídos de las reglas se puede agregar
automáticamente a la consulta original o se puede mostrar al usuario que selecciona los
más relevantes para sus preferencias en un proceso semiautomático.
Introducción
Los datos en Internet no están organizados de manera consistente debido a la falta de
una autoridad que supervise la adición de datos a la web. Incluso dentro de cada sitio
web, hay una falta de estructura en los documentos. Aunque el uso de hipertexto nos
ayudaría a dar una estructura homogénea a los documentos en la web y, por lo tanto, a
usar técnicas de minería de datos para datos de estructura, como sucede en las bases
de datos relacionales, la realidad es que nadie sigue un formato único para escribir
documentos para la web. Esto representa una desventaja cuando se aplican técnicas
como la minería de datos. Esto nos lleva a utilizar técnicas específicas para texto, como
si no estuviéramos tratando con documentos web, sino con texto en general, ya que
todos ellos tienen una forma no estructurada. Esta falta de homogeneidad en la web
hace que el proceso de búsqueda de información en la web al realizar consultas no sea
tan exitoso como los navegadores esperan. Este hecho se debe a dos razones básicas:
en primer lugar, porque el usuario no puede representarla, sus necesidades en términos
de consulta y, en segundo lugar, porque el conjunto de documentos de respuesta es tan
grande que el usuario se siente abrumado. En este trabajo, abordamos el primer
problema de la especificación de consulta.
Las técnicas de minería de datos se han aplicado ampliamente al texto, generando lo
que se llama minería de texto. A veces, las aplicaciones de minería de datos requieren
que el usuario sepa cómo administrar la herramienta. En este documento, las reglas
extraídas de los textos no se muestran específicamente al usuario. Las reglas
generadas se aplican para ayudar al usuario a refinar la consulta, pero el usuario solo
ve, considerando un proceso no automático por completo, una lista de términos
candidatos para agregar a la consulta.
Cuando un usuario intenta expresar sus necesidades en una consulta, los términos que
finalmente aparecen en la consulta generalmente no son muy específicos debido a la
falta de conocimiento del usuario sobre el tema o simplemente porque en el momento
de la consulta, los términos no le vengan a la mente del usuario. Para ayudar al usuario
con la construcción de la consulta, se pueden agregar términos relacionados con las
palabras de una primera consulta. Desde un primer conjunto de documentos
recuperados, se aplican técnicas de minería de datos para encontrar reglas de
asociación entre los términos del conjunto. Las reglas más precisas que incluyen las
palabras de consulta originales en el antecedente I consecuente de la regla, se utilizan
para modificar la consulta agregando automáticamente estos términos a la consulta o,
mostrándole al usuario los términos relacionados en esas reglas, por lo que la
modificación de la consulta depende de la decisión del usuario. Se producirá una
generalización o especificación de la consulta cuando los términos utilizados para
reformular la consulta aparezcan en el antecedente I de la regla, respectivamente. Esta
sugerencia de términos ayuda al usuario a reducir el conjunto de documentos, llevando
la búsqueda a la dirección deseada.
Este documento está organizado de la siguiente manera: en la sección 2, se incluye un
resumen de la literatura con el mismo propósito de este trabajo. De la sección 3 a la
sección 6, se presentan teorías generales sobre la minería de datos y nuevas
propuestas en el marco difuso. Concretamente, en las secciones 3 y 4, se presentan los
conceptos de reglas de asociación, reglas de asociación difusas y transacciones difusas.
En la sección 5, se proponen nuevas medidas para la importancia y precisión de las
reglas de asociación. En la sección 6 se presenta un algoritmo para generar reglas de
asociación difusas. Se propone una aplicación de esta teoría al marco de texto en las
secciones 7 y 8. La definición de transacciones de texto se da en la sección 7, mientras
que las reglas de asociación de texto extraídas se aplican a la consulta reformulación
en un marco de recuperación de información en la sección 8. Finalmente, las
observaciones finales y las tendencias futuras se dan en la sección 9.

Las reglas de asociación difusa usan la lógica difusa para convertir los atributos
numéricos en atributos difusos, como ldquoIncome = Highrdquo, manteniendo así la
integridad de la información transmitida por dichos atributos numéricos. Por otro
lado, las reglas de asociación nítidas utilizan particiones nítidas para transformar
atributos numéricos en binarios como ldquoIncome = [100 K y superiores] rdquo, y
pueden potencialmente introducir pérdida de información debido a estos rangos
agudos. Fuzzy Apriori y sus diferentes variaciones son los únicos algoritmos
populares de minería de reglas de asociación difusa (ARM) disponibles en la
actualidad. Al igual que la versión nítida de Apriori, Apriori difuso es un algoritmo
muy lento e ineficiente para conjuntos de datos muy grandes (del orden de millones
de transacciones). Por lo tanto, hemos creado un nuevo algoritmo ARM difuso
destinado a un rendimiento rápido y eficiente en conjuntos de datos muy grandes. En
comparación con Apriori difuso, nuestro algoritmo es 8-19 veces más rápido para el
conjunto de datos de la vida real estándar muy grande que hemos utilizado para
probar con varias cargas de trabajo de minería, tanto típicas como extremas. Una
combinación novedosa de características como el procesamiento estilo tidlist de
particiones múltiples en dos fases, la representación de vector de bytes de las listas
de tid y la rápida compresión de las listas de tid contribuyen en gran medida a la
eficiencia en el rendimiento. Además, a diferencia de la mayoría de los algoritmos
ARM de dos fases, la segunda fase es totalmente diferente de la primera en el
método de procesamiento (procesamiento de conjuntos de elementos individuales
en oposición al procesamiento de conjuntos de elementos simultáneos en cada nivel
k), y también es muchas veces más rápida. Nuestro algoritmo también incluye una
técnica de preprocesamiento efectiva para convertir un conjunto de datos nítido en
un conjunto de datos difuso. nuestro algoritmo es 8-19 veces más rápido para el
gran conjunto de datos estándar de la vida real que hemos utilizado para probar con
varias cargas de trabajo de minería, tanto típicas como extremas. Una combinación
novedosa de características como el procesamiento estilo tidlist de particiones
múltiples en dos fases, la representación de vector de bytes de las listas de tid y la
rápida compresión de las listas de tid contribuyen en gran medida a la eficiencia en
el rendimiento. Además, a diferencia de la mayoría de los algoritmos ARM de dos
fases, la segunda fase es totalmente diferente de la primera en el método de
procesamiento (procesamiento de conjuntos de elementos individuales en oposición
al procesamiento de conjuntos de elementos simultáneos en cada nivel k), y también
es muchas veces más rápida. Nuestro algoritmo también incluye una técnica de
preprocesamiento efectiva para convertir un conjunto de datos nítido en un conjunto
de datos difuso. nuestro algoritmo es 8-19 veces más rápido para el gran conjunto
de datos estándar de la vida real que hemos utilizado para probar con varias cargas
de trabajo de minería, tanto típicas como extremas. Una combinación novedosa de
características como el procesamiento estilo tidlist de particiones múltiples en dos
fases, la representación de vector de bytes de las listas de tid y la rápida compresión
de las listas de tid contribuyen en gran medida a la eficiencia en el
rendimiento. Además, a diferencia de la mayoría de los algoritmos ARM de dos
fases, la segunda fase es totalmente diferente de la primera en el método de
procesamiento (procesamiento de conjuntos de elementos individuales en oposición
al procesamiento de conjuntos de elementos simultáneos en cada nivel k), y también
es muchas veces más rápida. Nuestro algoritmo también incluye una técnica de
preprocesamiento efectiva para convertir un conjunto de datos nítido en un conjunto
de datos difuso. tanto típicos como extremos. Una combinación novedosa de
características como el procesamiento estilo tidlist de particiones múltiples en dos
fases, la representación de vector de bytes de las listas de tid y la rápida compresión
de las listas de tid contribuyen en gran medida a la eficiencia en el
rendimiento. Además, a diferencia de la mayoría de los algoritmos ARM de dos
fases, la segunda fase es totalmente diferente de la primera en el método de
procesamiento (procesamiento de conjuntos de elementos individuales en oposición
al procesamiento de conjuntos de elementos simultáneos en cada nivel k), y también
es muchas veces más rápida. Nuestro algoritmo también incluye una técnica de
preprocesamiento efectiva para convertir un conjunto de datos nítido en un conjunto
de datos difuso. tanto típicos como extremos. Una combinación novedosa de
características como el procesamiento estilo tidlist de particiones múltiples en dos
fases, la representación de vector de bytes de las listas de tid y la rápida compresión
de las listas de tid contribuyen en gran medida a la eficiencia en el
rendimiento. Además, a diferencia de la mayoría de los algoritmos ARM de dos
fases, la segunda fase es totalmente diferente de la primera en el método de
procesamiento (procesamiento de conjuntos de elementos individuales en oposición
al procesamiento de conjuntos de elementos simultáneos en cada nivel k), y también
es muchas veces más rápida. Nuestro algoritmo también incluye una técnica de
preprocesamiento efectiva para convertir un conjunto de datos nítido en un conjunto
de datos difuso. y la rápida compresión de las listas de tid contribuye mucho a la
eficiencia en el rendimiento. Además, a diferencia de la mayoría de los algoritmos
ARM de dos fases, la segunda fase es totalmente diferente de la primera en el
método de procesamiento (procesamiento de conjuntos de elementos individuales
en oposición al procesamiento de conjuntos de elementos simultáneos en cada nivel
k), y también es muchas veces más rápida. Nuestro algoritmo también incluye una
técnica de preprocesamiento efectiva para convertir un conjunto de datos nítido en
un conjunto de datos difuso. y la rápida compresión de las listas de tid contribuye
mucho a la eficiencia en el rendimiento. Además, a diferencia de la mayoría de los
algoritmos ARM de dos fases, la segunda fase es totalmente diferente de la primera
en el método de procesamiento (procesamiento de conjuntos de elementos
individuales en oposición al procesamiento de conjuntos de elementos simultáneos
en cada nivel k), y también es muchas veces más rápida. Nuestro algoritmo también
incluye una técnica de preprocesamiento efectiva para convertir un conjunto de
datos nítido en un conjunto de datos difuso.