Está en la página 1de 32

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS

(Universidad del Perú, DECANA DE AMÉRICA)

FACULTAD DE INGENIERÍA DE SISTEMAS E INFORMÁTICA

Proyecto de Tesis

Tema: Aplicación Web para la recuperación de información en documentos utilizando


búsqueda semántica en la Fiscalía de la Nación

Autor
Palomino Carhuallanqui, Jean Carlos
Asesor
Valcárcel Asencios, Sergio Paulo
Lima 2020
RESUMEN

El presente trabajo de investigación tiene por objetivo el desarrollo de un programa


especializado en la búsqueda semántica de documentos en los casos fiscales llevados a cabo
en la Fiscalía de la Nación sede lima-sur, a través de la interpretación semántica de las
palabras que el fiscal introduce. La Finalidad es realizar una búsqueda completa en el
contenido de los mencionados documentos, con elementos funcionales personalizados para
los casos fiscales, diseñados para facilitar la búsqueda al brindar funcionalidades adicionales
específicas para dichos documentos.
durante el proyecto se definen distintos procesos: análisis de las consultas del usuario,
análisis de contenido de los documentos, indexación, generación de consultas ponderadas por
prioridad, ordenamiento de resultados obtenidos, entre otros, con la finalidad de satisfacer las
necesidades de los usuarios que realizan el uso del sistema sin afectar la precisión y
exhaustividad de los resultados.

Palabras Clave​: Buscar, Documentos, ontologia, Búsqueda semántica, interpretación,


precisión, exhaustividad.
Índice

PLANTEAMIENTO METODOLÓGICO 4
Antecedentes del problema 4
Definición del problema 5
Objetivos del estudio 6
Objetivos Principal 6
Objetivos Secundarios 6
Importancia del Problema 6
Propuesta 6

MARCO TEÓRICO 7
¿Qué Es La Búsqueda Semántica? 7
¿Qué Significa Semántica? 8
Y Entonces… ¿Qué Es La Búsqueda Semántica? 8
Ejemplos De Búsquedas Semánticas 8
¿Cómo Funciona? 10
¿Por Qué La Búsqueda Semántica Es Importante? 13

ESTADO DEL ARTE METODOLÓGICO 14

IMPLEMENTACIÓN 19
Diagramas 19
Diagrama conceptual 19
Diagrama Tecnológico 20
Diagrama de Actividades 25
Propuesta 26

REFERENCIAS BIBLIOGRÁFICAS 30
1. PLANTEAMIENTO METODOLÓGICO
1.1. Antecedentes del problema

una de las formas de comunicación que surgió en la historia del hombre fue la
forma escrita, es una de las formas de comunicación que perdura hasta la
actualidad, Con el tiempo la cantidad de información de este tipo fue
aumentando.

Hoy se vive en la sociedad de la información, donde queremos aprender mas y


mas, es por eso que la información en el contexto actual ha crecido en una
proporción abismal, con a ​la aparición de la computadora y la llegada de
internet, la cantidad de información aumentó de manera abrumadora, ​En 2007
se generaron 281 exabytes de información (Hardy y Williams, 2017). y debido
ante tanta información es común encontrarse con información distractora o
contenido que contiene desinformación o falsedad.

debido a lo mencionado anteriormente, nos preguntamos ¿ cómo recuperamos


la información que nos interesa? debido al problema evidente de como
recuperar informacion que nos interesa en una gran cantidad de documentos,
se crearon los buscadores de documentos, los cuales son la forma dominante
de acceder a información (Manning, Raghavan, & Schütze, 2018). estos
buscadores leen la palabra clave ingresada y realizan la búsqueda exacta
dentro de los documentos donde realizará la recuperación de la información o
también, en posteriores avances se basan en el nombre del archivo o el conteo
de ciertas palabras claves dentro del documento (Hernandez , Sosa , Perez ,
Lagunes y Paredes, 2015).
en cuanto a estos buscadores genéricos existen buscadores que funcionan
correctamente, se cargan los documentos en una carpeta y se realiza la
búsqueda de la palabra clave ingresas en los documentos contenidos en dicha
carpeta, ente todo esto, entonces ¿porque realizar un sistema de recuperación
de documentos, si ya existen buscadores que hacen ese trabajo? porque
necesitamos realizar un buscador especializado para el contexto de casos
legales, no podemos limitarnos a solo buscar coincidencias exactas en el
contenido, debido a que ocurren situaciones donde el usuario puede ingresar
mal el texto a buscar, o la la consulta tiene errores ortográficos, o que el
contenido tiene errores de ortografía, también inclusive el texto del documento
donde se realiza la búsqueda puede tener lo que se está buscando, pero
expresado de otra manera, por ejemplo con sinónimos, Las búsquedas basadas
en palabras clave presentan varios problemas relacionados con el significado
de la palabra clave utilizada en la consulta de búsqueda(Taibi, Gentile y Seta
2015). y en consecuencia ​Esto puede conducir a la entrega incorrecta de
información a los usuarios​(Nripendra, Mohit, Rahul, Maisera y Saurabh,
2019). es por eso que se necesita una búsqueda semántica, ya que mejora la
precisión de la búsqueda al comprender claramente la intención de búsqueda
de los usuarios(Ki-Joo y Han-Joon, 2016) y además agregar un dominio,
porque los buscadores de dominio específico agregan valor al explotar los
conocimientos de sus respectivos dominios (Schmidt, Schnitzer, y Rensing,
2016).

Actualmente, existen muchas áreas que no cuentan con un buscador


personalizado (Hanauer, Mei, Law, Khanna, y Zheng, 2015). Se eligió a la
fiscalía de nación sede Lima Sur para la implementación del sistema de
recuperación de información.

1.2. Definición del problema

El problema de investigación es la recuperación eficiente de información en


los casos fiscales que se llevan a cabo en la fiscalía de la nación sede Lima
Sur.
1.3. Objetivos del estudio
1.3.1. Objetivos Principal

El objetivo es realizar un buscador de información en los casos que se


realizan en la fiscalía de la nación, este buscador realizará un búsqueda
semántica con la finalidad de recuperar información relevante.

1.3.2. Objetivos Secundarios

para el desarrollo del buscador habrá necesidad de herramientas como


conocimientos, algoritmos, librerias, tecnicas, etc. que aporten a la
consecución del objetivo principal.
en consecuencia, para llegar al objetivo principal se desarrollaran los
siguientes objetivos secundarios:
● OS1: disminuir la pérdida de información de los documentos en
el ministerio público
● OS2: reducir el tiempo de búsqueda en los documentos del
ministerio público
● OS3:optimizar el consumo de materiales del ministerio
público.

1.4. Importancia del Problema

En la fiscalía de la nación de se llevan a cabo el proceso de miles de casos,


estos casos están compuestas por tomos, donde cada tomo cuenta con 200
páginas; pero en casos grandes el número de tomos llega normalmente a 10,
osea serian un caso de 2000 páginas en promedio, para que un fiscal realice la
búsqueda del contenido que necesita dentro de ese caso requiere de un tiempo
significativo.

1.5. Propuesta

Proponemos realizar la implementación de una buscador semántico para los


casos que se realizan en la fiscalía de la nación, un buscador que no solo
realice un búsqueda estructurada, sino también una búsqueda que entienda el
sentido o contexto de lo que se quiere buscar.
De esta manera nos proponemos agilizar el trabajo de un fiscal que trabaja en
sus casos, ahorrandole tiempo y esfuerzo.

Para ello se debe desarrollar un solución que se encargue de analizar e


interpretar lo que quiere decir el texto ingresado(búsqueda semántica), y en
base a eso realizar una búsqueda que retorna un resultado con sentido y
contexto.

2. MARCO TEÓRICO

2.1. ¿Qué Es La Búsqueda Semántica?

El año es 2013. Google lanza su algoritmo Hummingbird, la mayor


actualización del motor de búsqueda desde el año 2009. La empresa
estadounidense introduce el concepto de la búsqueda semántica a millones de
usuarios por el mundo. Mientras que los marketers SEO se preparan para lo
peor con el posicionamiento de las webs de sus clientes – recordad que las
previas actualizaciones Panda y Penguin fueron diseñadas para penalizar las
malas prácticas de los marketers «black hat» – Google afirma que la nueva
actualización de Hummingbird presenta una oportunidad más que una medida
punitiva. Está diseñada para ofrecer resultados más precisos a los internautas.
En el 2017, el tema sigue siendo de actualidad. Descubramos qué es la
búsqueda semántica y cómo podemos aprovecharla para el posicionamiento de
su negocio online.
2.2. ¿Qué Significa Semántica?

Empecemos por definir el significado de “semántica”. La semántica es una de


las ramas más importantes de la lingüística. Se dedica a la interpretación y al
significado de las expresiones lingüísticas: la interpretación de las palabras, de
los símbolos y de las estructuras de las frases que formamos. Es la
interpretación de la relación entre palabras contiguas que nos permite aclarar
el sentido de la frase que recibimos. En breve, la semántica determina cómo
entendemos a los demás y nos ayuda a averiguar el sentido exacto de lo que
nos comunican. Por ejemplo, cuando alguien nos dice “Haz clic con el ratón”
entendemos que se trata del ratón del ordenador, no del animal. Es sentido
común y contexto, y lo usamos todos los días sin darnos cuenta.

2.3. Y Entonces… ¿Qué Es La Búsqueda Semántica?

Los motores de búsqueda como Google o Bing llevan muchos años


perfeccionando sus algoritmos para entender mejor lo que buscan sus usuarios
y para ofrecerles información mucho más relevante. Antiguamente, los
motores simplemente daban información correspondiente a los términos
exactos de nuestras búsquedas. No tenían en cuenta el contexto de la búsqueda
ni el perfil del buscador. Hoy en día, los algoritmos están mucho más
avanzados y la búsqueda semántica permite a Google entender la intención de
un buscador a través del significado contextual de su búsqueda. Algunos
factores importantes: el historial de búsquedas del usuario, su ubicación, su
dispositivo, la hora del día, las búsquedas de otros usuarios, etc.

2.4. Ejemplos De Búsquedas Semánticas

Vamos a ilustrar lo que es la búsqueda semántica de la forma más fácil – con


un ejemplo. Antes de que llegara la búsqueda semántica, los términos “AC
DC” nos hubieran dado resultados mixtos. Basándose 100% en los términos
“AC DC”, Google nos hubiera mostrado resultados sobre la banda legendaria
de rock y posiblemente la corriente eléctrica “Alternating Current (AC) vs.
Direct Current (DC)”. Sin embargo, hoy en día con las búsquedas semánticas,
basado en nuestro historial personal de búsquedas en nuestra agencia MKG20,
Google nos sirve en primera página resultados relevantes a la banda de rock y
su música.

Figura 1
Esto es la búsqueda semántica en su nivel más básico, usando datos del usuario y de
sus búsquedas previas, su ubicación, la hora del día, el dispositivo que está usando
para hacer la búsqueda, etc. Google usa todos estos datos y los compara con las
búsquedas de otros usuarios en las mismas condiciones o con perfiles parecidos para
entregarnos la mejor información.

Tomen otro ejemplo donde podemos ver la búsqueda semántica en acción. Buscamos
uno de nuestros festivales favoritos en España, el Bilbao BBK Live:

figura2
En este caso, Google intenta predecir la búsqueda que queremos hacer y nos muestra
resultados incluso antes de terminar de escribir los términos. En el ejemplo de arriba,
a pena terminamos de teclear las palabras “bbk live” y Google nos indica que tiene
resultados para comprar entradas de la presente edición del festival o consultar sus
horarios.

2.5. ¿Cómo Funciona?

En el 2013, Google lanzó el algoritmo Hummingbird (o “colibrí”). Era la mayor


actualización de su motor de búsqueda desde el año 2009, y permitió al gigante
americano analizar más rápidamente preguntas completas, más que analizar una
palabra a la vez como lo hacía anteriormente. El resultado: unas respuestas más
precisas a las preguntas que le hacemos. Desde el lanzamiento del algoritmo
Hummingbird, Google tiene la capacidad de interpretar múltiples significados para
una misma palabra clave. Otra mejora: la capacidad de predecir las preguntas que le
queremos hacer… ¿os acordáis el ejemplo de predicción de arriba?

Google está usando todos estos datos de búsqueda para desarrollar su base de
conocimiento (o “knowledge base”) – ¿habréis escuchado alguna vez del Knowledge
Graph de Google? Es su sistema de organización y difusión de información sobre
millones de asuntos populares como las celebridades, lugares del mundo,
organizaciones, etc.
figura3
2.6. ¿Por Qué La Búsqueda Semántica Es Importante?

La tecnología usada se aplica para todos los tipos de búsquedas y es muy significante
en el trabajo de SEO que realizamos para posicionarnos en la primera página de
Google. Hoy en día, no es tan fácil como optimizar su web para una sola palabra
clave. Tomemos el ejemplo de un negocio e-commerce que quiere vender hummus en
su tienda online. Miremos los resultados que obtenemos para una búsqueda sobre el
“hummus”.

figura4

Con más de 39.700.000 resultados, hay mucha competición para un negocio que
quiere posicionarse con el término “hummus” en Google. Difícil de posicionarse…
pero hay maneras de llegar a su público! Abajo en la página de resultados, Google nos
da indicaciones sobre las búsquedas relacionadas al hummus que realizan los
internautas:
figura5
Vemos las oportunidades que se presentan a nuestra tienda de hummus para ramificar
su estrategia de contenidos y publicar respuestas a las búsquedas relacionadas de sus
clientes potenciales. Los marketers SEO del 2017 aprovechan este fantástico recurso
para generar tráfico desde Google.

La búsqueda semántica está aquí para quedarse, pero igual que con cada nuevo
desarrollo o nueva actualización del algoritmo de Google, nadie sabe realmente el
lugar que va a tener dentro de cinco años. Con la llegada de la búsqueda por voz, es
posible que una vez más tengamos que adaptar nuestra estrategia de contenidos. Lo
que sabemos es que hoy en día la búsqueda semántica forma parte integral del
marketing SEO. Si quiere posicionar su negocio en la primera página de resultados de
Google, contacte con nuestro equipo de especialistas de posicionamiento SEO en
España y en el extranjero.

3. ESTADO DEL ARTE METODOLÓGICO

En el Año 2019, (Diego Otoya) en su tesis, titulada “DoLaw: buscador semántico


especializado para la legislación peruana de tecnologías de información” propone
resolver el problema de la búsqueda y ubicación de legislaciones peruanas de TI entre
el año 2000 y el año 2018.
los buscadores de legislación peruana se encuentran en este estado de insuficientes
capacidades, e inclusive no existe ningún buscador de legislación peruana
especializado en un solo tema, tal como se plantea hacer (con la legislación de TI).
Se desarrolló con éxito un buscador especializado de legislación peruana de TI que
cumplió con las necesidades que tiene el mercado al solucionar la problemática
existente, incluyendo funcionalidades de dominio específico y mejorando los
resultados obtenidos.

En el Año 2017, (Diego Andrés Malpartida Valverde) en su tesis, titulada “


IMPLEMENTACIÓN DE UN BUSCADOR SEMÁNTICO DE DOCUMENTOS
EN EL DOMINIO DE LA LINGÜÍSTICA” propone resolver el problema de la
dificultad para obtener información relevante de documentos en el dominio de la
lingüística.
el problema de la lectura es importante debido a que hay un adificu altas para obtener
relevante de documentos en el dominio de la lingüística.
se llegó a una la conclusión de que un buscador semántico hace uso de las tecnologías
que ofrece la Web Semántica para encontrar documentos basándose en el
procesamiento del significado de la información. De esta manera, luego de esta
revisión, se comprende cómo es que funciona un buscador semántico.

En el Año 2018, (Pilar López-Úbeda, Manuel Carlos Dı́az-Galiano,


Arturo Montejo-Ráez, Fernando Martı́nez-Santiago,
Alberto Andreu-Marı́n, M. Teresa Martı́n-Valdivia, L. Alfonso Ureña López) en
su tesis, titulada “Buscador Semántico Biomédico” propone resolver el problema
de la identificación de terminologı́a médica, la recuperación de literatura especializada
y la exploración semántica del contenido.
el problema de la lectura es importante debido a que hay un adificu altas para obtener
relevante de documentos de terminología médica.
se llegó a una la conclusión de demostrar permitir tanto al experto de medicina como
a un usuario no experto, acceso a conocimiento adicional y potencialmente útil a parte
de un texto biomédico.

En el Año 2016, (Daniela Iglesias Solano*, Omar Mejía Escorcia*, Julio Nieto
Durán*, Steven Sánchez Franco* & Silvia Moreno
Trillos**) en su tesis, titulada “Construcción de un buscador ontológico para las
búsquedas semánticas de proyectos de maestría y doctorado” propone resolver el
problema de la las búsquedas ontológica para búsquedas semánticas en proyectos de
maestría y doctorado.
el problema de la lectura es importante debido a al realizar las búsquedas avanzadas la
información se encuentra dispersa y se pueden encontrar múltiples fuentes de las
cuales algunas podrían no ser confiables o simplemente la investigación o el artículo
que muestra no tiene nada que ver.
se llegó a una la conclusión de la construcción de un buscador ontológico que
implemente búsquedas semánticas es una excelente opción para hacer búsquedas
avanzadas ya que son más exactas en sus resultados gracias a que están basados en
algoritmos que representan comprensión o entendimiento con lo cual reconocen el
contexto correcto de las palabras o frases de búsqueda realizando filtros “inteligentes”
sin necesidad de que el usuario intervenga.

En el Año 2018, (Héctor J. Ruidías 1a , Karina B. Eckert 1b , Juan M. Lezcano


2c , Carolina V. Rosas 2d) en su tesis, titulada “Tecnologías de la Web Semántica
aplicadas al tratamiento de documentos jurídicos electrónicos” propone resolver
el problema de la falta de infraestructura orientada a la búsqueda de información
jurídica en documentos electrónicos legales a partir de la integración de tecnologías
semánticas.
el problema de la lectura es importante debido a que se quiere realizar un búsqueda de
documentos con un deontología relacionada únicamente al ámbito jurídico se llegó a
una la conclusión de una necesidad de ofrecer una forma de tratamiento documental
que ponga atención a la semántica de los textos.
En el Año 2019, (Nripendra Narayan Das, Mohit Chowdhary, Rahul Luthra,
Maisera, Saurabh Garg) en su tesis, titulada “Semantic Big Data Searching In
Cloud Storage” propone resolver el problema de la las personas que desean buscar
información sobre un tema en particular están muy conmocionadas porque les resulta
muy difícil moverse por la página web y buscar la información exacta.
el problema de la lectura es importante debido a las decisiones se toman sobre la base
de una comprensión incompleta y deficiente por parte de las organizaciones debido a
una búsqueda ineficiente.
se llegó a una la conclusión de que un motor de búsqueda semántico en l a nube es
una forma de recibir los datos que requerimos o deseamos con la ayuda de varias
palabras clave proporcionadas por el usuario de acuerdo a su búsqueda

En el Año 2018, (Dhomas Hatta Fudholi, Lalu Mutawalli) en su tesis, titulada “A


Lightweight Semantic-based Medical Document Retrieval” propone resolver el
problema de satisfacer la falta de un marco de recuperación de documentos médicos
ligeros basados en la semántica Bahasa Indonesia.
el problema de la lectura es importante debido a la recuperación de información
basada en ontología respalda la recuperación de dicha información con un resultado
semánticamente mejor.
se llegó a una la conclusión de que la evaluación de este marco muestra que el marco
ligero propuesto es efectivo para filtrar el resultado de la búsqueda y entregas
documentos relevantes a la comunidad.

En el Año 2018, (Ki-Joo Hong, Han-Joon Kim) en su tesis, titulada “A Semantic


Search Technique with Wikipedia-based Text Representation Model” propone
resolver el problema de la construir una ontología particular y metadatos semánticos
destinados a grandes cantidades de datos es una tarea muy costosa y que requiere
mucho tiempo.
el problema de la lectura es importante debido a que hay una enorme cantidad de
datos en la internet y se necesita un métodos para mejorar la satisfacción de búsqueda
de los usuarios.
se llegó a una la conclusión de que la implementación de de método propuesto mejora
la satisfacción de búsqueda de los usuario de manera razonable.

​En el Año 2019, (Shanshan Jiang, Thomas F. Hagelien, Marit Natvig, Jingyue
Li) en su tesis, titulada “Ontology-based Semantic Search For Open Government
Data Del” ​propone resolver el problema de que los catálogos de datos abiertos
actuales proporcionan principalmente búsquedas basadas en palabras clave sin la
capacidad de comprender la intención del usuario y el significado contextual de los
conjuntos de datos.
el problema de la lectura es importante debido a que es lento y difícil descubrir
conjuntos de datos relevante.
se llegó a una la conclusión de que la implementación de de método propuesto indican
que este es simple pero efectivo para mejorar la calidad de la búsqueda, especialmente
cuando las descripciones del conjunto de datos son incompletas o poco precisas.

En el Año 2019, (Awny Sayed a, Amal Al Muqri Shi b) en su tesis, titulada


“IBRI-CASONTO: Ontology-based semantic search engine” propone resolver el
problema de un sistema de búsqueda semántica en árabe todavía está en pañales, y la
razón se remonta a la complejidad del idioma árabe.
el problema de la lectura es importante debido a que para un extraccion de
informacion correcta y precisa se busca comprender la intención del investigador y el
significado contextual de los términos.
se llegó a una la conclusión de que la implementación del enfoque propuesto ha sido
capaz de eliminar con éxito el problema de los resultados irrelevantes, que es uno de
los principales problemas que encuentran los usuarios de un motor de búsqueda
normal.

En el año 2019, (Nripendra Narayan Das, Mohit Chowdhary, Rahul Luthra,


Maisera, Saurabh Garg) en su conferencia “Semantic Big Data Searching In
Cloud Storage”
El almacenamiento en la nube es una campana utilizada por toda la comunidad en los
últimos años, ya que proporciona varios beneficios sobre el almacenamiento
tradicional. El almacenamiento en la nube brinda muchos beneficios a los usuarios,
pero al mismo tiempo, surgen muchos problemas de seguridad en el almacenamiento
en la nube, lo que impide que las organizaciones migren sus datos al almacenamiento
en la nube. La gran cantidad de datos disponibles en el período actual de Internet, las
personas que desean buscar información sobre un tema en particular, están muy
conmocionadas porque les resulta muy difícil moverse por la web.
página y busque la información exacta. Esto implica que las decisiones se toman
sobre la base de una comprensión incompleta y deficiente por parte de las
organizaciones. La mayoría de los motores de búsqueda que el usuario usa hoy en día
confía completamente en
Palabras clave coincidentes. Debido a esto, un usuario recibe un gran volumen de
datos inapropiados después de pasar el tiempo máximo navegando por los resultados.
A veces se enmarcan consultas más complicadas para mejorar el resultado de la
búsqueda. Para superar esta restricción, los investigadores están trabajando en la
nueva técnica llamada solución semántica También a veces, parece que la
información almacenada en estas nubes funciona en un plan que no es comprensible
para todos. Estos grandes datos que se almacenan en estas nubes se procesan
automáticamente incluso antes de que se presenten a los usuarios. En este documento,
se propone un algoritmo general que implementa un motor de búsqueda semántico en
la base de datos en la nube que utiliza tecnologías semánticas para extraer los datos
relevantes para el usuario. También nos gustaría explicar el funcionamiento de la
búsqueda semántica con la correlación de Big Data y el procesamiento por el que
pasa.

4. IMPLEMENTACIÓN

4.1. Diagramas
4.1.1. Diagrama conceptual

se muestra un diagrama general del sistema, donde unas bases de datos de


casos fiscales y periódico alimentan la base de datos de del sistema de
búsqueda, en esta última el fiscal puede realizar la búsqueda que requiera. se
muestra en la figura 6

Figura 6

● Datos: Documentos que son fuente de información de dónde se extraen


los datos a analizar
● Reconocimiento de entidades nombradas: reconocimiento de entidades
nombradas, dónde se extraen las entidades
● Sistema de busqueda: sistema de búsqueda de información relevante

4.1.2. Diagrama Tecnológico

se muestra un diagram tecnológico donde se muestra las diferentes tecnologías


usadas y la forma en que se relacionan o conectan todo de tal forma que
conforman el sistema, como se muestra en la figura 8
Figura 7
Se extraerán datos desde los documentos de casos fiscales mediante Tesseract,
este es un Ocr que vectoriza los documentos para posteriormente convertirlos
en texto.
también se extraerán información de los periódicos mediante la técnica
llamada scrapping.
Ambas serán a analizadas por un reconocimiento de entidades nombradas,
para reconocer entidades como personas y organizaciones, después del análisis
irán sus respectivas bases de datos, las cuales servirán de fuente para una
posterior extracción y procesamiento de datos mediante logstash.
Logstash enviara esos datos a la Base de Datos de Elasticsearch, la cual la
almacenará e indexa para poder realizar las consultas, kibana es una interfaz
por donde se consulta y muestra información de ElasticSearch.
Esta información será mostrada en una interfaz amigable para el usuario donde
podrá ver todos los resultados relevantes de su búsqueda

● Scrapping:
El web scraping es una técnica que sirve para extraer información de páginas
web de forma automatizada. Si traducimos del inglés su significado vendría a
significar algo así como “escarbar una web”.
El scraping de datos (también llamado web scraping) es el proceso de extraer
información de sitios web. El scraping de datos se enfoca en transformar el
contenido no estructurado de un sitio web (usualmente HTML) en datos
estructurados los cuales pueden ser almacenados en una base datos o en una
hoja de cálculo.

La forma en que los datos son extraídos de un sitio web es similar a la


utilizada por los bots de búsqueda - la navegación web humana es simulada
utilizando programas (bots) los cuales extraen (scrape) los datos de un sitio
web.
Desafortunadamente, no hay manera eficiente de proteger completamente tu
sitio web de la extracción de datos. Esto se debe a que los programas de
extracción de datos (también llamados data scrapers o web scrapers) obtienen
la misma información que tus visitantes regulares de la web.

Incluso si bloqueas la dirección IP del data scraper, esto no evitará que


accedan a tu sitio web. La mayoría de los bots de scraping de datos utilizan
grupos extensos de direcciones IP y automáticamente cambian la dirección IP
en caso de que una IP se bloquee. Aparte, si bloqueas muchas direcciones IP,
probablemente bloquearas a muchos de tus visitantes legítimos.

Una de las mejores maneras de proteger globalmente los datos accesibles en


un sitio web es a través de la protección copyright. De esta forma puedes
legalmente proteger la propiedad intelectual de tu sitio web.

Otro modo de proteger el contenido de tu sitio es protegiéndolo con


contraseña. De este modo los datos de tu sitio web solamente estarán
disponibles para aquellos que puedan autenticarse con el usuario y contraseña
correctos.

● Tesseract:
Tesseract es un motor de OCR con soporte para Unicode y la capacidad de
reconocer más de 100 idiomas de fábrica. Puede ser entrenado para reconocer
otros idiomas.

● Vectorización:
Tesseract convierte el contenido de los documentos pdf en vectores, vectores
que serán tratados con ocr más adelante para obtener el texto en el .

● OCR:
Un OCR (Optical Character Recognition) es un sistema computarizado de
análisis que permite escanear un documento de texto en un fichero
automatizado electrónicamente, que se puede editar con un procesador de
textos en el ordenador.
El Reconocimiento Óptico de Caracteres (OCR) es el reconocimiento de la
máquina de caracteres de texto impreso.

Los sistemas de reconocimiento óptico de caracteres (OCR) son capaces de


reconocer numerosos tipos de fuentes de texto y caracteres de imprenta de
máquinas de escribir y computadoras.

Algunos sistemas de reconocimiento óptico de caracteres avanzados pueden


incluso identificar escritura a mano.

Figura 8
Al escanear un documento de texto (por ejemplo, una factura o una página de
un libro), éste se convierte en un mapa de bits (también conocido como un
cuadro de texto).

En un sistema de reconocimiento óptico de caracteres se comparan los


aspectos de luz y la oscuridad de este mapa de bits para determinar los
caracteres alfanuméricos. A medida que el OCR reconoce cada carácter, que
los convierte en texto ASCII (texto sin formato que se pueden editar en un
procesador de textos).

A continuación, puede, por ejemplo, editar, buscar o copiar el texto rápida y


fácilmente como lo haría con un documento en el bloc de notas de Windows.

● Spacy:
Es una librería de reconocimiento de entidades nombradas, que cuyo objetivo
es localizar y clasificar en categorías predefinidas (personas, organizaciones,
lugares, expresiones de tiempo y candidades, etc.) las entidades encontradas
en un texto
● Base de Datos:
Una base de datos es un “almacén” que nos permite guardar grandes
cantidades de información de forma organizada para que luego podamos
encontrar y utilizar fácilmente. Una base de datos se puede definir como un
conjunto de información relacionada que se encuentra agrupada ó
estructurada.

Desde el punto de vista informático, la base de datos es un sistema formado


por un conjunto de datos almacenados en discos que permiten el acceso
directo a ellos y un conjunto de programas que manipulen ese conjunto de
datos.

Cada base de datos se compone de una o más tablas que guarda un conjunto de
datos. Cada tabla tiene una o más columnas y filas. Las columnas guardan una
parte de la información sobre cada elemento que queramos guardar en la tabla,
cada fila de la tabla conforma un registro.

● LogStash:
Logstash es una herramienta para la administración de logs. Esta herramienta
se puede utilizar para recolectar, analizar y guardar los logs para futuras
búsquedas.​ La aplicación se encuentra basada en jRuby y requiere de Java
Virtual Machine para ejecutarse.
Es la parte de preprocesamiento antes de guardar la información en
Elasticsearch que hemos comentado, donde recogemos un input, una entrada,
trabajamos los eventos y los sacamos por una salida, antes de almacenarlos en
las bases de datos.

● ElasticSearch:
Es una base de datos distribuida . Distribuye toda la información en todos los
nodos, por tanto es tolerante a fallos y tiene alta disponibilidad. Al igual que
distribuye la información, distribuye el procesamiento . Cuando se realiza una
consulta o búsqueda y esa información se encuentra distribuida, será cada
nodo el que procese dicha información y devuelva los resultados. Por tanto,
podemos obtener mejores rendimientos.

● Kibana:
Es el más visual, dónde vamos a generar las visualizaciones sobre la
información y dónde vamos a generar los dashboards .

Figura 9

4.1.3. Diagrama de Actividades


Figura 10

4.2. Propuesta

a continuación se presenta el prototipo de la propuesta de solución


el sistema podrá buscar la palabra y buscará no solo texto exacto, si no que
también interpretará contenido que tiene errores ortográficos y los mostrará

también si el usuario ingresa un texto con errores de ortografía, el sistema


interpretar lo que quiso decir y mostrará los resultados
Tambien hara una busqueda por sinonimia

cuando se quiera ir a la fuente de la noticia, se podrá realizar haciendo un link en “ir


a noticia” y redirecciona a la fuente de la noticia
REFERENCIAS BIBLIOGRÁFICAS

Das, N. N., Chowdhary, M., Luthra, R., Maisera, M., & Garg, S. (2019). Semantic Big
Data Searching in Cloud Storage. ​Proceedings of the International Conference on
Machine Learning, Big Data, Cloud and Parallel Computing: Trends, Prespectives
and Prospects, COMITCon 2019,​ 351–355.
https://doi.org/10.1109/COMITCon.2019.8862188

En, D., Dominio, E. L., Lingüística, D. E. L. A., Andrés, D., & Valverde, M. (2017).
Pontificia universidad católica del perú​.

Fudholi, D. H., & Mutawalli, L. (2018). A lightweight semantic-based medical


document retrieval. ​2018 6th International Conference on Information and
Communication Technology, ICoICT 2018​, ​0​(c), 147–151.
https://doi.org/10.1109/ICoICT.2018.8528781

Hardy, C. A., & Williams, S. P. (2017). Managing information risks and protecting
information assets in a web 2.0 era. ​23rd Bled EConference ETrust: Implications
for the Individual, Enterprises and Society - Proceedings​, ​2006​, 234–247.

Hong, K. J., & Kim, H. J. (2016). A semantic search technique with Wikipedia-based
text representation model. ​2016 International Conference on Big Data and Smart
Computing, BigComp 2016​, 177–182.
https://doi.org/10.1109/BIGCOMP.2016.7425818

Jiang, S., Hagelien, T. F., Natvig, M., & Li, J. (2019). Ontology-Based Semantic Search
for Open Government Data. ​Proceedings - 13th IEEE International Conference on
Semantic Computing, ICSC 2019,​ 7–15.
https://doi.org/10.1109/ICOSC.2019.8665522

Ruidías, H. J., Eckert, K. B., Lezcano, J. M., & Rosas, C. V. (2018). ​Tecnologías de la
Web Semántica aplicadas al tratamiento de documentos jurídicos electrónicos​.
290–294.
Sanchez, D. M. (2019). ​Universidad Nacional Mayor de San Marcos Facultad de
Ingeniería de Sistemas e Informática Escuela Profesional de Ingeniería de
Software DoLaw : buscador semántico especializado para la legislación peruana
de tecnologías de información TESIS Para optar el .​

Sayed, A., & Al Muqrishi, A. (2017). IBRI-CASONTO: Ontology-based semantic


search engine. ​Egyptian Informatics Journal​, ​18​(3), 181–192.
https://doi.org/10.1016/j.eij.2017.01.001

Solano, D. I., Escorcia, O. M., Durán, J. N., Franco, S. S., & Moreno, S. (n.d.). ​D E P R
O Y E C T O S D E M A E S T R Í A Y D O C T O R A D O *.​ 7–13.

Taibi, D., Gentile, M., Seta, L., & Sеta, L. (2015). A Semantic Search Engine for
Learning Resources. ​Recent Research Developments in Learning Technologies
(2015),​ ​15,​ 889–893.
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.134.3929&rep=rep1&typ
e=pdf

Catherine, A. H. & Susan, P. W. (2015). Managing Information Risks and Protecting


Information Assets in a Web 2.0 era.

Manning, C. D., Raghavan, P., & Schütze, H. (2018). Introduction to Information


Retrieval. Cambridge University Press.

Hernandez, G. H., Sosa, S., Perez B., Lagunes P. & Paredes R. (2015).
CLASIFICACIÓN Y BÚSQUEDA DE DOCUMENTOS EN REDES P2P
CON UN ENFOQUE SEMÁNTICO.

Schmidt, S., Schnitzer, S., & Rensing, C. (2016). Text classification based filters for a
domain specific search engine. Computers in Industry, 70-79.

Hanauer, D., Mei, Q., Law, J., Khanna, R., & Zheng, K. (2015). Supporting information
retrieval from electronic health records: A report of University of Michigan’s
nine-year experience in developing and using the Electronic Medical Record
Search Engine (EMERSE). Journal of Biomedical Informatics, 290-300..

También podría gustarte