Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Proyecto de Tesis
Autor
Palomino Carhuallanqui, Jean Carlos
Asesor
Valcárcel Asencios, Sergio Paulo
Lima 2020
RESUMEN
PLANTEAMIENTO METODOLÓGICO 4
Antecedentes del problema 4
Definición del problema 5
Objetivos del estudio 6
Objetivos Principal 6
Objetivos Secundarios 6
Importancia del Problema 6
Propuesta 6
MARCO TEÓRICO 7
¿Qué Es La Búsqueda Semántica? 7
¿Qué Significa Semántica? 8
Y Entonces… ¿Qué Es La Búsqueda Semántica? 8
Ejemplos De Búsquedas Semánticas 8
¿Cómo Funciona? 10
¿Por Qué La Búsqueda Semántica Es Importante? 13
IMPLEMENTACIÓN 19
Diagramas 19
Diagrama conceptual 19
Diagrama Tecnológico 20
Diagrama de Actividades 25
Propuesta 26
REFERENCIAS BIBLIOGRÁFICAS 30
1. PLANTEAMIENTO METODOLÓGICO
1.1. Antecedentes del problema
una de las formas de comunicación que surgió en la historia del hombre fue la
forma escrita, es una de las formas de comunicación que perdura hasta la
actualidad, Con el tiempo la cantidad de información de este tipo fue
aumentando.
1.5. Propuesta
2. MARCO TEÓRICO
Figura 1
Esto es la búsqueda semántica en su nivel más básico, usando datos del usuario y de
sus búsquedas previas, su ubicación, la hora del día, el dispositivo que está usando
para hacer la búsqueda, etc. Google usa todos estos datos y los compara con las
búsquedas de otros usuarios en las mismas condiciones o con perfiles parecidos para
entregarnos la mejor información.
Tomen otro ejemplo donde podemos ver la búsqueda semántica en acción. Buscamos
uno de nuestros festivales favoritos en España, el Bilbao BBK Live:
figura2
En este caso, Google intenta predecir la búsqueda que queremos hacer y nos muestra
resultados incluso antes de terminar de escribir los términos. En el ejemplo de arriba,
a pena terminamos de teclear las palabras “bbk live” y Google nos indica que tiene
resultados para comprar entradas de la presente edición del festival o consultar sus
horarios.
Google está usando todos estos datos de búsqueda para desarrollar su base de
conocimiento (o “knowledge base”) – ¿habréis escuchado alguna vez del Knowledge
Graph de Google? Es su sistema de organización y difusión de información sobre
millones de asuntos populares como las celebridades, lugares del mundo,
organizaciones, etc.
figura3
2.6. ¿Por Qué La Búsqueda Semántica Es Importante?
La tecnología usada se aplica para todos los tipos de búsquedas y es muy significante
en el trabajo de SEO que realizamos para posicionarnos en la primera página de
Google. Hoy en día, no es tan fácil como optimizar su web para una sola palabra
clave. Tomemos el ejemplo de un negocio e-commerce que quiere vender hummus en
su tienda online. Miremos los resultados que obtenemos para una búsqueda sobre el
“hummus”.
figura4
Con más de 39.700.000 resultados, hay mucha competición para un negocio que
quiere posicionarse con el término “hummus” en Google. Difícil de posicionarse…
pero hay maneras de llegar a su público! Abajo en la página de resultados, Google nos
da indicaciones sobre las búsquedas relacionadas al hummus que realizan los
internautas:
figura5
Vemos las oportunidades que se presentan a nuestra tienda de hummus para ramificar
su estrategia de contenidos y publicar respuestas a las búsquedas relacionadas de sus
clientes potenciales. Los marketers SEO del 2017 aprovechan este fantástico recurso
para generar tráfico desde Google.
La búsqueda semántica está aquí para quedarse, pero igual que con cada nuevo
desarrollo o nueva actualización del algoritmo de Google, nadie sabe realmente el
lugar que va a tener dentro de cinco años. Con la llegada de la búsqueda por voz, es
posible que una vez más tengamos que adaptar nuestra estrategia de contenidos. Lo
que sabemos es que hoy en día la búsqueda semántica forma parte integral del
marketing SEO. Si quiere posicionar su negocio en la primera página de resultados de
Google, contacte con nuestro equipo de especialistas de posicionamiento SEO en
España y en el extranjero.
En el Año 2016, (Daniela Iglesias Solano*, Omar Mejía Escorcia*, Julio Nieto
Durán*, Steven Sánchez Franco* & Silvia Moreno
Trillos**) en su tesis, titulada “Construcción de un buscador ontológico para las
búsquedas semánticas de proyectos de maestría y doctorado” propone resolver el
problema de la las búsquedas ontológica para búsquedas semánticas en proyectos de
maestría y doctorado.
el problema de la lectura es importante debido a al realizar las búsquedas avanzadas la
información se encuentra dispersa y se pueden encontrar múltiples fuentes de las
cuales algunas podrían no ser confiables o simplemente la investigación o el artículo
que muestra no tiene nada que ver.
se llegó a una la conclusión de la construcción de un buscador ontológico que
implemente búsquedas semánticas es una excelente opción para hacer búsquedas
avanzadas ya que son más exactas en sus resultados gracias a que están basados en
algoritmos que representan comprensión o entendimiento con lo cual reconocen el
contexto correcto de las palabras o frases de búsqueda realizando filtros “inteligentes”
sin necesidad de que el usuario intervenga.
En el Año 2019, (Shanshan Jiang, Thomas F. Hagelien, Marit Natvig, Jingyue
Li) en su tesis, titulada “Ontology-based Semantic Search For Open Government
Data Del” propone resolver el problema de que los catálogos de datos abiertos
actuales proporcionan principalmente búsquedas basadas en palabras clave sin la
capacidad de comprender la intención del usuario y el significado contextual de los
conjuntos de datos.
el problema de la lectura es importante debido a que es lento y difícil descubrir
conjuntos de datos relevante.
se llegó a una la conclusión de que la implementación de de método propuesto indican
que este es simple pero efectivo para mejorar la calidad de la búsqueda, especialmente
cuando las descripciones del conjunto de datos son incompletas o poco precisas.
4. IMPLEMENTACIÓN
4.1. Diagramas
4.1.1. Diagrama conceptual
Figura 6
● Scrapping:
El web scraping es una técnica que sirve para extraer información de páginas
web de forma automatizada. Si traducimos del inglés su significado vendría a
significar algo así como “escarbar una web”.
El scraping de datos (también llamado web scraping) es el proceso de extraer
información de sitios web. El scraping de datos se enfoca en transformar el
contenido no estructurado de un sitio web (usualmente HTML) en datos
estructurados los cuales pueden ser almacenados en una base datos o en una
hoja de cálculo.
● Tesseract:
Tesseract es un motor de OCR con soporte para Unicode y la capacidad de
reconocer más de 100 idiomas de fábrica. Puede ser entrenado para reconocer
otros idiomas.
● Vectorización:
Tesseract convierte el contenido de los documentos pdf en vectores, vectores
que serán tratados con ocr más adelante para obtener el texto en el .
● OCR:
Un OCR (Optical Character Recognition) es un sistema computarizado de
análisis que permite escanear un documento de texto en un fichero
automatizado electrónicamente, que se puede editar con un procesador de
textos en el ordenador.
El Reconocimiento Óptico de Caracteres (OCR) es el reconocimiento de la
máquina de caracteres de texto impreso.
Figura 8
Al escanear un documento de texto (por ejemplo, una factura o una página de
un libro), éste se convierte en un mapa de bits (también conocido como un
cuadro de texto).
● Spacy:
Es una librería de reconocimiento de entidades nombradas, que cuyo objetivo
es localizar y clasificar en categorías predefinidas (personas, organizaciones,
lugares, expresiones de tiempo y candidades, etc.) las entidades encontradas
en un texto
● Base de Datos:
Una base de datos es un “almacén” que nos permite guardar grandes
cantidades de información de forma organizada para que luego podamos
encontrar y utilizar fácilmente. Una base de datos se puede definir como un
conjunto de información relacionada que se encuentra agrupada ó
estructurada.
Cada base de datos se compone de una o más tablas que guarda un conjunto de
datos. Cada tabla tiene una o más columnas y filas. Las columnas guardan una
parte de la información sobre cada elemento que queramos guardar en la tabla,
cada fila de la tabla conforma un registro.
● LogStash:
Logstash es una herramienta para la administración de logs. Esta herramienta
se puede utilizar para recolectar, analizar y guardar los logs para futuras
búsquedas. La aplicación se encuentra basada en jRuby y requiere de Java
Virtual Machine para ejecutarse.
Es la parte de preprocesamiento antes de guardar la información en
Elasticsearch que hemos comentado, donde recogemos un input, una entrada,
trabajamos los eventos y los sacamos por una salida, antes de almacenarlos en
las bases de datos.
● ElasticSearch:
Es una base de datos distribuida . Distribuye toda la información en todos los
nodos, por tanto es tolerante a fallos y tiene alta disponibilidad. Al igual que
distribuye la información, distribuye el procesamiento . Cuando se realiza una
consulta o búsqueda y esa información se encuentra distribuida, será cada
nodo el que procese dicha información y devuelva los resultados. Por tanto,
podemos obtener mejores rendimientos.
● Kibana:
Es el más visual, dónde vamos a generar las visualizaciones sobre la
información y dónde vamos a generar los dashboards .
Figura 9
4.2. Propuesta
Das, N. N., Chowdhary, M., Luthra, R., Maisera, M., & Garg, S. (2019). Semantic Big
Data Searching in Cloud Storage. Proceedings of the International Conference on
Machine Learning, Big Data, Cloud and Parallel Computing: Trends, Prespectives
and Prospects, COMITCon 2019, 351–355.
https://doi.org/10.1109/COMITCon.2019.8862188
En, D., Dominio, E. L., Lingüística, D. E. L. A., Andrés, D., & Valverde, M. (2017).
Pontificia universidad católica del perú.
Hardy, C. A., & Williams, S. P. (2017). Managing information risks and protecting
information assets in a web 2.0 era. 23rd Bled EConference ETrust: Implications
for the Individual, Enterprises and Society - Proceedings, 2006, 234–247.
Hong, K. J., & Kim, H. J. (2016). A semantic search technique with Wikipedia-based
text representation model. 2016 International Conference on Big Data and Smart
Computing, BigComp 2016, 177–182.
https://doi.org/10.1109/BIGCOMP.2016.7425818
Jiang, S., Hagelien, T. F., Natvig, M., & Li, J. (2019). Ontology-Based Semantic Search
for Open Government Data. Proceedings - 13th IEEE International Conference on
Semantic Computing, ICSC 2019, 7–15.
https://doi.org/10.1109/ICOSC.2019.8665522
Ruidías, H. J., Eckert, K. B., Lezcano, J. M., & Rosas, C. V. (2018). Tecnologías de la
Web Semántica aplicadas al tratamiento de documentos jurídicos electrónicos.
290–294.
Sanchez, D. M. (2019). Universidad Nacional Mayor de San Marcos Facultad de
Ingeniería de Sistemas e Informática Escuela Profesional de Ingeniería de
Software DoLaw : buscador semántico especializado para la legislación peruana
de tecnologías de información TESIS Para optar el .
Solano, D. I., Escorcia, O. M., Durán, J. N., Franco, S. S., & Moreno, S. (n.d.). D E P R
O Y E C T O S D E M A E S T R Í A Y D O C T O R A D O *. 7–13.
Taibi, D., Gentile, M., Seta, L., & Sеta, L. (2015). A Semantic Search Engine for
Learning Resources. Recent Research Developments in Learning Technologies
(2015), 15, 889–893.
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.134.3929&rep=rep1&typ
e=pdf
Hernandez, G. H., Sosa, S., Perez B., Lagunes P. & Paredes R. (2015).
CLASIFICACIÓN Y BÚSQUEDA DE DOCUMENTOS EN REDES P2P
CON UN ENFOQUE SEMÁNTICO.
Schmidt, S., Schnitzer, S., & Rensing, C. (2016). Text classification based filters for a
domain specific search engine. Computers in Industry, 70-79.
Hanauer, D., Mei, Q., Law, J., Khanna, R., & Zheng, K. (2015). Supporting information
retrieval from electronic health records: A report of University of Michigan’s
nine-year experience in developing and using the Electronic Medical Record
Search Engine (EMERSE). Journal of Biomedical Informatics, 290-300..