Está en la página 1de 11

Volumen 1, número 1, febrero 2019

Enfoque basado en data mining para la interpretación de búsquedas


en lenguaje natural orientado a web semántica.
Approach based on data mining for the interpretation of searches in
natural language oriented to semantic web.

Bohórquez Quinga Gabriela1, Casacilla Domínguez Andrés2

RESUMEN
El presente trabajo muestra una investigación sobre la aplicación de diferentes técnicas
de data mining (Redes Neuronales, KNN) en la interpretación de búsquedas del
lenguaje natural (lenguaje humano) realizadas por el usuario, basándonos en web
semántica e inteligencia artificial. Además del registro de la experimentación que se
realizará mediante algoritmos orientados al análisis de datos. Por ello emplearemos el
software Python donde se aplicarán las diferentes técnicas.
Palabras claves: Lenguaje natural, Web semántica, Inteligencia artificial, técnicas.

ABSTRACT:
The present work shows a research on the application of different data mining
techniques (Neural Networks, KNN) in the interpretation of searches of the natural
language (human language) made by the user, based on semantic web and artificial
intelligence. In addition to the record of the experimentation that will be carried out by
means of algorithms oriented to the analysis of data. For this reason we will use the
Python software where the different techniques will be applied.
Keywords: Natural language, Semantic Web, Artificial intelligence, techniques.

1. INTRODUCCIÓN
Con cada vez más información disponible para los usuarios finales, los motores de
búsqueda tienen a convertirse en la herramienta más poderosa para obtener información
útil dispersa en la Web. Sin embargo, es muy común que incluso los motores de
búsqueda más reconocidos devuelven conjuntos de resultados. Con páginas no tan útiles
para el usuario. La investigación sobre búsqueda semántica tiene como objetivo mejorar
los métodos tradicionales de búsqueda y recuperación de información donde los

1
Universidad Técnica de Cotopaxi, Latacunga, Cotopaxi, Ecuador, juan.casacilla6260@utc.edu.ec
2
Universidad Técnica de Cotopaxi, Latacunga, Cotopaxi, Ecuador, ana.bobohorquez7026@utc.edu.ec

1
Volumen 1, número 1, febrero 2019

criterios de relevancia básicos se basan principalmente en la presencia de palabras clave


de consulta dentro de las páginas devueltas. [1]
En particular, existen muchos desafíos en la adopción de tecnologías de Web Semántica
para datos web: los desafíos únicos. Los estándares actuales de la Web Semántica pasan
por alto en gran medida a la Web, en términos de escala, falta de fiabilidad,
inconsistencia y ruido.[2]
El presente trabajo trata sobre la aplicación de diferentes técnicas de data mining basado
en web semántica e inteligencia artificial en el tratamiento del análisis del lenguaje
natural. Es decir, probaremos mediante experimentación de varias técnicas ya utilizadas
en trabajos similares para interpretar las búsquedas que realizan los usuarios web en
lenguaje natural. Para el desarrollo de este trabajo se empleará técnicas de data mining
que no se han utilizado en trabajos anteriores. Con el desarrollo de este proyecto se
permitirá mejorar la eficiencia de búsqueda de determinada información de interés para
el usuario.

2. ANALISIS TEORICO
Data mining
La minería de datos es un tema práctico e implica el aprendizaje en un sentido práctico,
no teórico. Nos interesan las técnicas para encontrar patrones en datos, patrones que
proporcionan información o permiten una toma de decisiones rápida y precisa.
Los datos tomarán la forma de un conjunto de ejemplos: ejemplos de clientes que han
cambiado de lealtad, por ejemplo, o situaciones en las que se pueden prescribir ciertos
tipos de lentes de contacto. La salida toma la forma de predicciones sobre nuevos
ejemplos: una predicción de si un cliente en particular cambiará o una predicción de qué
tipo de lente se prescribirá en determinadas circunstancias. La gente con frecuencia use
la minería de datos para obtener conocimiento, no solo predicciones. [3]
La minería de datos, la extracción de características ocultas útiles de grandes bases de
datos, es una innovación nueva y efectiva con un potencial increíble para ayudar a las
organizaciones a enfocarse en el desarrollo de estrategias empresariales. Las
herramientas, desarrolladas para datos de minería, anticipan patrones y prácticas futuras,
permitiendo a las organizaciones tomar decisiones proactivas e impulsadas por el
aprendizaje. Muchas herramientas de minería de datos pueden abordar los desafíos
empresariales de manera más efectiva que las herramientas tradicionales de consulta o
basadas en informes.[4]

2
Volumen 1, número 1, febrero 2019

A criterio de los investigadores la minería de datos es la extracción de múltiples


características que están alojadas en grandes bases de datos, esta práctica se basa en un
sentido práctico donde dicha extracción de información permite tomar algún tipo de
decisión, dicha acción no siempre se la hace para predicciones sino también para
adquirir conocimiento.
Algoritmos en data mining
Los algoritmos de minería de datos son mecanismos para crear modelos de minería de
datos. Para crear un modelo, el algoritmo primero analiza un conjunto de datos y busca
patrones y tendencias específicas. El algoritmo utiliza los resultados de este análisis
para definir los parámetros del modelo de minería. Estos parámetros se aplican a todo el
conjunto de datos para extraer patrones factibles e información estadística detallada.
La minería de datos está estrechamente relacionada con el descubrimiento ahora. El
descubrimiento de conocimiento se refiere a todo el proceso de descubrimiento de
conocimiento útil de bases de datos. Incluye selección de datos, preprocesamiento,
transformación de datos, extracción de datos, interpretación de esquemas y evaluación
de conocimientos. La minería de datos es un paso clave en el proceso de descubrimiento
de conocimiento.[5]
A concepto de los investigadores los algoritmos de minería de datos permiten crear
parámetros de un modelo donde primeramente se analiza la información y se extraen
una determinada información. Además, la minería de datos está relacionada con el
descubrimiento de información de una base de datos.
Algoritmos de data mining (Redes Neuronales, KNN)
Redes Neuronales
El algoritmo de red neuronal utiliza una red de perceptrón multicapa que consta de tres
capas de neuronas (perceptrón), que también se denomina red de reglas delta de
propagación hacia atrás. Estas capas son la capa de entrada, la capa oculta opcional y la
capa de salida. En una red de perceptrones multicapa, cada neurona recibe una o más
entradas y produce una o más de las mismas salidas. Cada salida es una función no
lineal simple de la suma de entradas a la neurona. El valor de entrada se pasa del nodo
en la capa de entrada al nodo en la capa oculta y finalmente a la capa de salida. No hay
conexión entre las neuronas en la misma capa. Un modelo de minería de datos
construido mediante un algoritmo de red neuronal puede contener múltiples redes,
dependiendo del número de columnas utilizadas para la entrada y la predicción, o según
el número de columnas que se usan solo para la predicción. El número de redes contiene

3
Volumen 1, número 1, febrero 2019

un modelo de minería de datos que depende de la cantidad de estados en los que el


modelo de minería utiliza la columna de entrada y la columna predicha. Las neuronas de
entrada proporcionan valores de atributos de entrada para modelos de minería de datos.
Para los atributos de entrada discretos, la neurona de entrada generalmente representa
un estado único de la propiedad de entrada, incluido el valor faltante. Por ejemplo, una
propiedad de entrada binaria genera un nodo de entrada que indica el estado faltante o
existente e indica si la propiedad tiene un valor. El valor booleano, que se utiliza como
el atributo de entrada, genera 3 neuronas de entrada: una neurona para valor verdadero,
una neurona para el valor falso y una neurona para los estados faltantes o existentes.
Una propiedad de entrada discreta con más de dos posiciones puede generar una
neurona de entrada para cada estado y generar una neurona de entrada para el estado
faltante o existente. Un atributo de entrada continuo puede generar dos neuronas de
entrada. La neurona de salida representa el valor de propiedad predecible del modelo de
minería de datos. Para los atributos de entrada discreta, la salida de salida generalmente
representa un estado de predicción único de propiedades predecibles, incluidos los
valores perdidos. [6]
A opinión de los investigadores las redes neuronales trabajan por una red multicapas o
también llamada red de reglas delta con propagación hacia atrás. Donde dichas capas se
dividen en tres de entrada, la capa oculta opcional y la capa de salida. En la red de
perceptrones se propone que cada neurona recibe varias entradas por ende se producirán
las mismas salidas, en cada entrada se determina un valor y se realiza un proceso el cual
consiste en pasar por el nodo de entrada, nodo en la capa oculta y no de la capa de
salida.
KNN
El algoritmo K-NN (Near-Nearest Neighbor) es uno de los métodos más simples para
resolver problemas de clasificación; a menudo produce resultados competitivos y tiene
ventajas significativas sobre varios otros métodos de extracción de datos. [6]
Se utiliza un clasificador estándar basado en el vecino más cercano (kNN) para
determinar
la membresía de clase. En todos los experimentos, los conteos de las diferentes clases.
Las etiquetas dentro de k muestras se normalizaron para tener en cuenta la distribución
desigual. Para los investigadores el algoritmo KNN es un método muy simple que
permite resolver problemas simples de clasificación. [6]
Lenguaje natural

4
Volumen 1, número 1, febrero 2019

Normalmente, el término Interfaces de lenguaje natural (NLI) se usa cuando se puede


acceder a un sistema usando un lenguaje natural (escrito). Dicho sistema funciona
principalmente con información estructurada y, dada la cuestión del lenguaje natural,
trata de encontrar la respuesta correcta. La familia de sistemas NLI se puede dividir en
varias subclases. Un sistema de Interfaces de lenguaje natural a bases de datos (NLIDB)
contiene información en una base de datos relacional. Los principios de NLIDB se han
adaptado a la Web semántica resultante en las interfaces de lenguaje natural a las bases
de conocimiento (NLIKB). En este caso de NLI, la información se almacena en forma
de ontología, que desempeña el papel fundamental en la Web semántica. [7]
Los investigadores pueden definir que el lenguaje natural es simplemente el que utilizan
los seres humanos para poder comunicarse entre si y el que se maneja en la búsqueda de
información en el internet.
Procesamiento del lenguaje natural
El procesamiento del lenguaje natural (PNL) es un área de investigación y aplicación
que explora cómo las computadoras se pueden utilizar para comprender y manipular el
texto o el habla en lenguaje natural para hacer cosas útiles. Los investigadores de la
PNL pretenden reunir conocimientos sobre cómo los seres humanos entienden y usan el
lenguaje para que puedan desarrollarse herramientas y técnicas apropiadas para que los
sistemas informáticos entiendan y manipulen los lenguajes naturales para realizar las
tareas deseadas. Las innovaciones de la PNL se encuentran en varias disciplinas, a
saber, informática y ciencias de la información, lingüística, matemáticas, ingeniería
eléctrica y electrónica, inteligencia artificial y robótica, y psicología. Las aplicaciones
de la PNL incluyen varios campos de estudio, como traducción automática,
procesamiento y resumen de texto en lenguaje natural, interfaces de usuario,
recuperación de información multilingüe y multilingüe (CLIR), reconocimiento de voz,
inteligencia artificial y sistemas expertos. [8]
La manipulación de textos para extracción de conocimiento, para indexación y resumen
automáticos, o para producir texto en un formato deseado, ha sido reconocida como un
área importante de investigación en PNL. Esto se clasifica en términos generales como
el área del procesamiento de texto en lenguaje natural que permite estructurar grandes
cuerpos de información textual con el fin de recuperar información particular o derivar
estructuras de conocimiento que se pueden usar para un propósito específico. Sistemas
automáticos de procesamiento de texto en general, toma alguna forma de entrada de
texto y transformarla en una salida de una forma diferente. La tarea central de los

5
Volumen 1, número 1, febrero 2019

sistemas de procesamiento de texto en lenguaje natural es la traducción de consultas y


textos en lenguaje natural potencialmente ambiguos a representaciones internas
inequívocas en las que se puede realizar la comparación y la búsqueda (Liddy, 1998).
Se requieren pasos de pre-procesamiento y extracción de características. Pasos comunes
para procesar el texto son:
Eliminación de minúsculas y puntuación: este paso transforma el texto en minúsculas,
lo que reduce la variación de la misma palabra, por ejemplo, después de transformación
"Empleado" y "empleado" se tratan como la misma palabra. Las puntuaciones aumentan
el tamaño de los datos de entrenamiento y usualmente lo hacen no contribuyen mucho al
análisis de texto, por lo tanto, se eliminan.[9]
En referente al concepto anterior los investigadores pueden definir que para el
procesamiento del lenguaje natural se debe utilizar ciertos parámetros como eliminación
de minúsculas ya que cuando se procesa no contribuye en el análisis por lo tanto se
elimina.
Web semántica
La web semántica es un área pujante en la influencia de la Inteligencia Artificial y las
tecnologías Web que propone introducir expresiones explicitas sobre el significado de
los recursos, para permitir que las propias maquinas tengan un nivel de percepción de la
Web suficiente como para hacerse cargo de una parte, la más costosa, rutinaria, o
físicamente inabarcable, del trabajo que realizan manualmente los usuarios que navegan
e interactúan con la web. [10]
Para los investigadores web semántica es un área muy importante de Inteligencia
Artificial donde se basa en introducir determinadas expresiones para que las maquinas
interpreten la dicha información la cual es realizada manualmente por el usuario para
interactuar con el internet.
Herramientas de web semántica
Las tecnologías de la web semántica se basan en un conjunto estándar de lenguajes,
modelos y herramientas que se adaptan a la representación del conocimiento.
La pila de tecnología web semántica, que incluye el lenguaje de marcado extendido
(XML), la descripción de recursos amework (RDF) y el esquema (RDFS), el lenguaje
de ontología web (OWL), el lenguaje de consulta (SPARQL), y otros. RDF puede
describir instancias de ontologías. RDFS amplía RDF y proporciona primitivas como
Class, subClassOf y subPropertyOf. Las tecnologías de la web semántica se crearon
para ampliar la Internet actual al permitir combinaciones de metadatos, estructura y

6
Volumen 1, número 1, febrero 2019

diversas tecnologías que permiten a las máquinas derivar el significado de la


información, ayudando y reduciendo la intervención humana.[11]
En base a concepto anterior los investigadores pueden determinar que cada una de las
herramientas utilizadas en web semántica
3. METODOLOGIA
Los proyectos de Data Mining tienen por objetivo extraer información útil a partir de
grandes cantidades de datos y se aplican a todos los sectores y en todos los campos. Así
existen proyectos de este tipo en sectores tan dispares como el comercio electrónico, la
banca, las empresas industriales o la exploración petrolífera. La extracción de esta
información útil es un proceso complejo, que requiere la aplicación de una metodología
estructurada para la utilización ordenada y eficiente de las técnicas y herramientas
disponibles.[12]
METODOLOGÍA SEMMA
SAS Institute desarrollador de esta metodología, la define como el proceso de selección,
exploración y modelado de grandes cantidades de datos para descubrir patrones de
negocio desconocidos. El nombre de esta terminología es el acrónimo correspondiente a
las cinco fases básicas del proceso (Figura 1).

º
Figura 1: Fases de la metodología SEMMA
Fuente: [12]
En la figura 1 se puede evidenciar las fases de la metodología SEMMA. El proceso se
inicia con la extracción de la población muestral sobre la que se va a aplicar el análisis.
El objetivo de esta fase consiste en seleccionar una muestra representativa del problema
en estudio. La representatividad de la muestra es indispensable ya que de no cumplirse
invalida todo el modelo y los resultados dejan de ser admisibles. La forma más común
de obtener una muestra es la selección al azar, es decir, cada uno de los individuos de
una población tiene la misma posibilidad de ser elegido. Este método de muestreo se
denomina muestreo aleatorio simple. La metodología SEMMA establece que para cada
muestra considerada para el análisis del proceso se debe asociar el nivel de confianza de
la muestra. Una vez determinada una muestra o conjunto de muestras representativas de
la población en estudio, la metodología SEMMA indica que se debe proceder a una
exploración de la información disponible con el fin de simplificar en lo posible el

7
Volumen 1, número 1, febrero 2019

problema con el fin de optimizar la eficiencia del modelo. Para lograr este objetivo se
propone la utilización de herramientas de visualización o de técnicas estadísticas que
ayuden a poner de manifiesto relaciones entre variables. De esta forma se pretende
determinar cuáles son las variables explicativas que van a servir como entradas al
modelo. La tercera fase de la metodología consiste en la manipulación de los datos, en
base a la exploración realizada, de forma que se definan y tengan el formato adecuado
los datos que serán introducidos en el modelo. Una vez que se han definido las entradas
del modelo, con el formato adecuado para la aplicación de la técnica de modelado, se
procede al análisis y modelado de los datos. El objetivo de esta fase consiste en
establecer una relación entre las variables explicativas y las variables objeto del estudio,
que posibiliten inferir el valor de las mismas con un 260 nivel de confianza
determinado. Las técnicas utilizadas para el modelado de los datos incluyen métodos
estadísticos tradicionales (tales como análisis discriminante, métodos de agrupamiento,
y análisis de regresión), así como técnicas basadas en datos tales como redes
neuronales, técnicas adaptativas, lógica fuzzy, árboles de decisión, reglas de asociación
y computación evolutiva. Finalmente, la última fase del proceso consiste en la
valoración de los resultados mediante el análisis de bondad del modelo o modelos,
contrastado con otros métodos estadísticos o con nuevas poblaciones muestrales.
4. RESULTADOS
Como se menciono con anterioridad para demostrar el trabajo realizado se aplicaron
diferentes líneas de programación utilizando el software Python para ello utilizamos la
librería NLTK (Natural Language Toolkit) la cual permite construir programas para el
análisis de texto.

Figura 2: Librería y función interpretación lenguaje natural


Fuente: Los investigadores

8
Volumen 1, número 1, febrero 2019

En la figura 2 se puede mostrar la librería NLTK y la función tokenize que permiten el


análisis te textos y subdivisión de palabras.

Figura 3: Librería y función interpretación lenguaje natural


Fuente: Los investigadores
Como se puede ver en la figura 3 la programación utiliza la función tokenize la cual
interpretara la frase ingresada en una sola idea.

Figura 4: Resultado del código


Fuente: Los investigadores

9
Volumen 1, número 1, febrero 2019

La figura 4 muestra primeramente la frase completa como se la ingreso en una sola idea,
la segunda fila muestra la frase ingresada ya separada en palabra, reconoce los signos
especiales y finalmente se muestra la frase ingresada dividida palabra por palabra.
print (sent_tokenize(example_text)) muestra una sola idea
print (word_tokenize(example_text)) muestra la frase completa, identifica signos
especiales.
for i in word_tokenize(example_text)
print (i) este código permite dividir la frase ingresada palabra por palabra incluido los
signos especiales.
5. CONCLUSIONES
 Se puede concluir que en muchas ocasiones la interpretación del lenguaje natural
no es entendido de forma correcta por los exploradores por lo que los resultados
esperados por el usuario no son los correctos lo que produce perdida de
fiabilidad en ellos.
 De la misma manera se concluye que para la interpretación del lenguaje natural
se utilizo programación en el software Python utilizando librerías y funciones
que permiten interpretar frases ingresadas por el usuario.
 Finalmente se puede concluir que mediante la investigación realizada se pudo
aplicar las técnicas mencionadas y que a traves de ellas se interpretó el lenguaje
natural es decir se englobo una sola idea y se lo dividió para una mejor
interpretación la orden de humano a máquina, se dio una instrucción y máquina
la ejecuto.
6. REFERENCIAS
[1] V. Jindal, S. Bawa, and S. Batra, “A review of ranking approaches for semantic
search on Web,” Inf. Process. Manag., vol. 50, no. 2, pp. 416–425, Mar. 2014.
[2] A. Hogan, A. Harth, J. Umbrich, S. Kinsella, A. Polleres, and S. Decker,
“Searching and browsing Linked Data with SWSE: The Semantic Web Search
Engine,” J. Web Semant., vol. 9, no. 4, pp. 365–401, Dec. 2011.
[3] I. H. Witten, E. Frank, M. A. Hall, and C. J. Pal, “What’s it all about?,” in Data
Mining, Elsevier, 2017, pp. 3–41.
[4] D. Lakshmipadmaja and B. Vishnuvardhan, “Classification Performance
Improvement Using Random Subset Feature Selection Algorithm for Data Mining,”
Big Data Res., vol. 12, no. February, pp. 1–12, 2018.
[5] J. Zhang, S. O. Williams, and H. Wang, “Intelligent computing system based on
pattern recognition and data mining algorithms,” Sustain. Comput. Informatics Syst.,
vol. 20, pp. 192–202, Dec. 2018.

10
Volumen 1, número 1, febrero 2019

[6] D. A. Adeniyi, Z. Wei, and Y. Yongquan, “Automated web usage data mining
and recommendation system using K-Nearest Neighbor (KNN) classification
method,” Appl. Comput. Informatics, vol. 12, no. 1, pp. 90–108, Jan. 2016.
[7] I. Habernal and M. Konopík, “SWSNL: Semantic web search using natural
language,” Expert Syst. Appl., vol. 40, no. 9, pp. 3649–3664, 2013.
[8] G. G. Chowdhury, “Natural language processing,” Annu. Rev. Inf. Sci. Technol.,
vol. 37, no. 1, pp. 51–89, Jan. 2005.
[9] F. Zhang, H. Fleyeh, X. Wang, and M. Lu, “Construction site accident analysis
using text mining and natural language processing techniques,” Autom. Constr., vol.
99, pp. 238–248, Mar. 2019.
[10] C. Bravo Santos and M. A. Redondo Duque, Sistemas interactivos y
colaborativos en la web. Ediciones de la Universidad de Castilla-La Mancha, 2005.
[11] M. R. Blackburn and P. O. Denno, “Using Semantic Web Technologies
for Integrating Domain Specific Modeling and Analytical Tools,” Procedia
Comput. Sci., vol. 61, pp. 141–146, 2015.
[12] R. Montequín et al., “DATA MINING,” pp. 257–265.

11

También podría gustarte