Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Articulo WFinal
Articulo WFinal
RESUMEN
El presente trabajo muestra una investigación sobre la aplicación de diferentes técnicas
de data mining (Redes Neuronales, KNN) en la interpretación de búsquedas del
lenguaje natural (lenguaje humano) realizadas por el usuario, basándonos en web
semántica e inteligencia artificial. Además del registro de la experimentación que se
realizará mediante algoritmos orientados al análisis de datos. Por ello emplearemos el
software Python donde se aplicarán las diferentes técnicas.
Palabras claves: Lenguaje natural, Web semántica, Inteligencia artificial, técnicas.
ABSTRACT:
The present work shows a research on the application of different data mining
techniques (Neural Networks, KNN) in the interpretation of searches of the natural
language (human language) made by the user, based on semantic web and artificial
intelligence. In addition to the record of the experimentation that will be carried out by
means of algorithms oriented to the analysis of data. For this reason we will use the
Python software where the different techniques will be applied.
Keywords: Natural language, Semantic Web, Artificial intelligence, techniques.
1. INTRODUCCIÓN
Con cada vez más información disponible para los usuarios finales, los motores de
búsqueda tienen a convertirse en la herramienta más poderosa para obtener información
útil dispersa en la Web. Sin embargo, es muy común que incluso los motores de
búsqueda más reconocidos devuelven conjuntos de resultados. Con páginas no tan útiles
para el usuario. La investigación sobre búsqueda semántica tiene como objetivo mejorar
los métodos tradicionales de búsqueda y recuperación de información donde los
1
Universidad Técnica de Cotopaxi, Latacunga, Cotopaxi, Ecuador, juan.casacilla6260@utc.edu.ec
2
Universidad Técnica de Cotopaxi, Latacunga, Cotopaxi, Ecuador, ana.bobohorquez7026@utc.edu.ec
1
Volumen 1, número 1, febrero 2019
2. ANALISIS TEORICO
Data mining
La minería de datos es un tema práctico e implica el aprendizaje en un sentido práctico,
no teórico. Nos interesan las técnicas para encontrar patrones en datos, patrones que
proporcionan información o permiten una toma de decisiones rápida y precisa.
Los datos tomarán la forma de un conjunto de ejemplos: ejemplos de clientes que han
cambiado de lealtad, por ejemplo, o situaciones en las que se pueden prescribir ciertos
tipos de lentes de contacto. La salida toma la forma de predicciones sobre nuevos
ejemplos: una predicción de si un cliente en particular cambiará o una predicción de qué
tipo de lente se prescribirá en determinadas circunstancias. La gente con frecuencia use
la minería de datos para obtener conocimiento, no solo predicciones. [3]
La minería de datos, la extracción de características ocultas útiles de grandes bases de
datos, es una innovación nueva y efectiva con un potencial increíble para ayudar a las
organizaciones a enfocarse en el desarrollo de estrategias empresariales. Las
herramientas, desarrolladas para datos de minería, anticipan patrones y prácticas futuras,
permitiendo a las organizaciones tomar decisiones proactivas e impulsadas por el
aprendizaje. Muchas herramientas de minería de datos pueden abordar los desafíos
empresariales de manera más efectiva que las herramientas tradicionales de consulta o
basadas en informes.[4]
2
Volumen 1, número 1, febrero 2019
3
Volumen 1, número 1, febrero 2019
4
Volumen 1, número 1, febrero 2019
5
Volumen 1, número 1, febrero 2019
6
Volumen 1, número 1, febrero 2019
º
Figura 1: Fases de la metodología SEMMA
Fuente: [12]
En la figura 1 se puede evidenciar las fases de la metodología SEMMA. El proceso se
inicia con la extracción de la población muestral sobre la que se va a aplicar el análisis.
El objetivo de esta fase consiste en seleccionar una muestra representativa del problema
en estudio. La representatividad de la muestra es indispensable ya que de no cumplirse
invalida todo el modelo y los resultados dejan de ser admisibles. La forma más común
de obtener una muestra es la selección al azar, es decir, cada uno de los individuos de
una población tiene la misma posibilidad de ser elegido. Este método de muestreo se
denomina muestreo aleatorio simple. La metodología SEMMA establece que para cada
muestra considerada para el análisis del proceso se debe asociar el nivel de confianza de
la muestra. Una vez determinada una muestra o conjunto de muestras representativas de
la población en estudio, la metodología SEMMA indica que se debe proceder a una
exploración de la información disponible con el fin de simplificar en lo posible el
7
Volumen 1, número 1, febrero 2019
problema con el fin de optimizar la eficiencia del modelo. Para lograr este objetivo se
propone la utilización de herramientas de visualización o de técnicas estadísticas que
ayuden a poner de manifiesto relaciones entre variables. De esta forma se pretende
determinar cuáles son las variables explicativas que van a servir como entradas al
modelo. La tercera fase de la metodología consiste en la manipulación de los datos, en
base a la exploración realizada, de forma que se definan y tengan el formato adecuado
los datos que serán introducidos en el modelo. Una vez que se han definido las entradas
del modelo, con el formato adecuado para la aplicación de la técnica de modelado, se
procede al análisis y modelado de los datos. El objetivo de esta fase consiste en
establecer una relación entre las variables explicativas y las variables objeto del estudio,
que posibiliten inferir el valor de las mismas con un 260 nivel de confianza
determinado. Las técnicas utilizadas para el modelado de los datos incluyen métodos
estadísticos tradicionales (tales como análisis discriminante, métodos de agrupamiento,
y análisis de regresión), así como técnicas basadas en datos tales como redes
neuronales, técnicas adaptativas, lógica fuzzy, árboles de decisión, reglas de asociación
y computación evolutiva. Finalmente, la última fase del proceso consiste en la
valoración de los resultados mediante el análisis de bondad del modelo o modelos,
contrastado con otros métodos estadísticos o con nuevas poblaciones muestrales.
4. RESULTADOS
Como se menciono con anterioridad para demostrar el trabajo realizado se aplicaron
diferentes líneas de programación utilizando el software Python para ello utilizamos la
librería NLTK (Natural Language Toolkit) la cual permite construir programas para el
análisis de texto.
8
Volumen 1, número 1, febrero 2019
9
Volumen 1, número 1, febrero 2019
La figura 4 muestra primeramente la frase completa como se la ingreso en una sola idea,
la segunda fila muestra la frase ingresada ya separada en palabra, reconoce los signos
especiales y finalmente se muestra la frase ingresada dividida palabra por palabra.
print (sent_tokenize(example_text)) muestra una sola idea
print (word_tokenize(example_text)) muestra la frase completa, identifica signos
especiales.
for i in word_tokenize(example_text)
print (i) este código permite dividir la frase ingresada palabra por palabra incluido los
signos especiales.
5. CONCLUSIONES
Se puede concluir que en muchas ocasiones la interpretación del lenguaje natural
no es entendido de forma correcta por los exploradores por lo que los resultados
esperados por el usuario no son los correctos lo que produce perdida de
fiabilidad en ellos.
De la misma manera se concluye que para la interpretación del lenguaje natural
se utilizo programación en el software Python utilizando librerías y funciones
que permiten interpretar frases ingresadas por el usuario.
Finalmente se puede concluir que mediante la investigación realizada se pudo
aplicar las técnicas mencionadas y que a traves de ellas se interpretó el lenguaje
natural es decir se englobo una sola idea y se lo dividió para una mejor
interpretación la orden de humano a máquina, se dio una instrucción y máquina
la ejecuto.
6. REFERENCIAS
[1] V. Jindal, S. Bawa, and S. Batra, “A review of ranking approaches for semantic
search on Web,” Inf. Process. Manag., vol. 50, no. 2, pp. 416–425, Mar. 2014.
[2] A. Hogan, A. Harth, J. Umbrich, S. Kinsella, A. Polleres, and S. Decker,
“Searching and browsing Linked Data with SWSE: The Semantic Web Search
Engine,” J. Web Semant., vol. 9, no. 4, pp. 365–401, Dec. 2011.
[3] I. H. Witten, E. Frank, M. A. Hall, and C. J. Pal, “What’s it all about?,” in Data
Mining, Elsevier, 2017, pp. 3–41.
[4] D. Lakshmipadmaja and B. Vishnuvardhan, “Classification Performance
Improvement Using Random Subset Feature Selection Algorithm for Data Mining,”
Big Data Res., vol. 12, no. February, pp. 1–12, 2018.
[5] J. Zhang, S. O. Williams, and H. Wang, “Intelligent computing system based on
pattern recognition and data mining algorithms,” Sustain. Comput. Informatics Syst.,
vol. 20, pp. 192–202, Dec. 2018.
10
Volumen 1, número 1, febrero 2019
[6] D. A. Adeniyi, Z. Wei, and Y. Yongquan, “Automated web usage data mining
and recommendation system using K-Nearest Neighbor (KNN) classification
method,” Appl. Comput. Informatics, vol. 12, no. 1, pp. 90–108, Jan. 2016.
[7] I. Habernal and M. Konopík, “SWSNL: Semantic web search using natural
language,” Expert Syst. Appl., vol. 40, no. 9, pp. 3649–3664, 2013.
[8] G. G. Chowdhury, “Natural language processing,” Annu. Rev. Inf. Sci. Technol.,
vol. 37, no. 1, pp. 51–89, Jan. 2005.
[9] F. Zhang, H. Fleyeh, X. Wang, and M. Lu, “Construction site accident analysis
using text mining and natural language processing techniques,” Autom. Constr., vol.
99, pp. 238–248, Mar. 2019.
[10] C. Bravo Santos and M. A. Redondo Duque, Sistemas interactivos y
colaborativos en la web. Ediciones de la Universidad de Castilla-La Mancha, 2005.
[11] M. R. Blackburn and P. O. Denno, “Using Semantic Web Technologies
for Integrating Domain Specific Modeling and Analytical Tools,” Procedia
Comput. Sci., vol. 61, pp. 141–146, 2015.
[12] R. Montequín et al., “DATA MINING,” pp. 257–265.
11