MT - Proyecto HK 2018 2020

MINISTERIO DE EDUCACION Y DEPORTE
Universidad Nacional de Misiones

Secretaría General de Ciencia y Tecnología
DESCRIPCIÓN TÉCNICA del PROYECTO de INVESTIGACIÓN
Código de Identificación del Proyecto
Nombre del Investigador Responsable Kuna, Horacio Daniel
TÍTULO DE PROYECTO
Diseño y Construcción de Procesos de Explotación de Información para el Área de Ciencias de

la Computación
PLANTEO Y RELEVANCIA DEL PROBLEMA

El relevamiento en la web de la producción científico-tecnológica constituye probablemente
uno de los desafíos actuales más importantes de la actividad científica. En particular, este
problema se debe al gran volumen de datos que generan estas producciones, como así
también a la diversidad de fuentes sobre las cuales podemos realizar búsquedas de
contenido. Por lo general, el relevamiento de la producción científico-tecnológica suele
valerse de distintas alternativas que permiten a los usuarios acceder a estos contenidos, o
bien a su información relacionada, entre las que se incluyen las herramientas de búsqueda
en la web y los repositorios digitales.
En lo que refiere a herramientas de búsqueda de producciones científico-tecnológicas en el
área de las Ciencias de la Computación, existen varias organizaciones que implementan
servicios de búsqueda de algún tipo (Falagas, Pitsouni, Malietzis, & Pappas, 2007; Guz &
Rushchitsky, 2009; Ley, 2002), por ejemplo: ACM, IEEE, Elsevier, Springer, Scopus, ArXiv, DBLP,
y DOAJ, entre otros. Los motores de búsqueda de contenidos académicos (Ortega & Aguillo,
2014), tales como Google Scholar y Microsoft Academics, utilizan la infraestructura y los
recursos de sus motores de búsqueda de propósito general para proveer acceso a numerosos
documentos de producciones científico-tecnológicas. Por otra parte, en la última década
podemos observar un interés creciente en el desarrollo de los llamados repositorios digitales
de documentos científicos (De Volder, 2008; Li, Li, Councill, Lee, & Giles, 2006; Tang & Jie,
2016), los cuales concentran datos primarios de la producción científico-tecnológica.
En Argentina, a partir de la Ley 26899 (Sistema Nacional de Repositorios Digitales &
Ministerio de Ciencia, n.d.) se crea el Sistema Nacional de Repositorios Digitales (SNRD). El
SNRD incluye 23 repositorios con más de 100.000 documentos (Sistema Nacional de
Repositorios Digitales & Ministerio de Ciencia, n.d.) entre los que se incluyen: artículos, libros
y partes de libros, documentos de conferencias, tesis doctorales, de maestría y de grado,
patentes, revisiones y reseñas, documentos de trabajo, informes técnicos, conjuntos de
datos, proyectos de investigación, entre otros.
En este contexto de gran cantidad de datos y diversidad de herramientas de búsqueda y
fuentes de información, es que se evidencia la necesidad de enfoques integradores para el
relevamiento de las producciones científico-tecnológicas, implementados en los llamados
procesos de recuperación de información. Los procesos de recuperación de información de
producciones científico-tecnológicas para el área de las Ciencias de la Computación,
1
requieren la implementación de funcionalidades dirigidas a satisfacer las necesidades

específicas de sus usuarios.
En este sentido, se requiere el desarrollo de procesos de explotación de información que
permitan implementar funcionalidades, como la integración de resultados, la determinación
del orden de relevancia de acuerdo a las consultas, la recomendación de contenido asociado
a los resultados, su clasificación temática, la visualización de redes de colaboración de
autores, y la identificación unívoca de los contenidos, entre otros. Hasta el momento, no
hemos identificado un conjunto de procesos de explotación de información dirigido
específicamente a la recuperación de información de producción científico-tecnológica en el
área de las Ciencias de la Computación.
La elección de las Ciencias de la Computación como área para el desarrollo de los procesos
de explotación de información de este proyecto se sustenta en su naturaleza dinámica, su
expansión sostenida (Ministerio de Ciencia, 2012), y la experiencia del grupo de desarrollo en
relación a la misma. En este sentido, se espera que el conocimiento adquirido durante el
desarrollo de este proyecto permita su transferencia a otras áreas disciplinares.
OBJETIVOS GENERALES e IMPACTO

La búsqueda de producción científico-tecnológica en la web es una tarea compleja de
alcance global que demanda habilidades específicas en los investigadores, a menudo
desarrolladas durante el período de su formación. Sin embargo, a pesar de las habilidades
desarrolladas, la gran cantidad de producciones científico-tecnológicas hace de la búsqueda
en sí misma, un problema particularmente complejo y desafiante.
En la actualidad, existen varias herramientas que ayudan a resolver el problema de la
búsqueda de producción científica, como la implementación de motores de búsqueda
especializados en producción científica (por ej: Google Scholar, Microsoft Academics), y los
denominados índices de publicaciones digitales (por ej: DBLP, PubMed, DOAJ, Biblioteca del
MINCyT, BDU2), y las aplicaciones de redes sociales especializadas en comunidades de
científicos (por ej: ResearchGate).
Adicionalmente a las herramientas de búsqueda en la web, existen los denominados
repositorios digitales, los cuales brindan acceso a las producciones científicas que ciertas
organizaciones e instituciones, mantienen en sus bases de datos. La expansión de los
repositorios digitales de contenido científico, se debe en particular gracias al esfuerzo de
organizaciones como COAR a nivel global y LA Referencia a nivel latinoamericano. En la
República Argentina, los organismos e instituciones públicas que componen el Sistema
Nacional de Ciencia, Tecnología e Innovación (SNCTI) se encuentran obligados a desarrollar
repositorios digitales institucionales de acceso abierto. En este contexto, el MINCyT crea el
Sistema Nacional de Repositorios Digitales (SNRD) el cual mantiene una red de repositorios
digitales de ciencia y tecnología con un modelo de Acceso Abierto (Open Access).
A pesar de las herramientas disponibles para la búsqueda de producción científica, tanto en
la web como en los repositorios digitales, nos encontramos con nuevos desafíos en relación
al procesamiento de los datos generados por estas herramientas como, por ejemplo: la
integración de los resultados, identificación de duplicados, y la determinación del orden de
2
relevancia, entre otros. Como consecuencia a estas problemáticas, surgen los sistemas
recuperación de información (metabuscadores) que utilizan los resultados arrojados por los
servicios de búsqueda, junto con otros datos para generar sus propios resultados.
La búsqueda de producciones científicas es un problema que traspasa las disciplinas, sin
embargo, en este proyecto tomamos como ámbito de estudio, el área de las Ciencias de la
Computación.
En este contexto, se plantea el siguiente objetivo general para el proyecto:
• Desarrollar procesos de explotación de información para su implementación en un
sistema de recuperación de información de producciones científicas del área de las
Ciencias de la Computación
OBJETIVOS ESPECÍFICOS E HIPÓTESIS DE TRABAJO

El desarrollo de procesos de explotación de información, propuestos para su implementación
en un sistema de recuperación de información de producciones científicas del área de las
Ciencias de la Computación, incluye los siguientes objetivos específicos:
• Realizar una revisión de la literatura en relación a procesos de explotación de
información en entornos de sistemas de recuperación de información de contenidos
científicos.
• Analizar y evaluar la factibilidad de implementación de técnicas de inteligencia
artificial en el sistema de recuperación de información para el área de las Ciencias de
la Computación, incluyendo: modelado de tópicos, aprendizaje de máquina, lógica
difusa, y análisis de redes sociales.
• Diseñar y desarrollar métodos de tratamiento de consultas que incluyan la aplicación
de técnicas de procesamiento de lenguaje natural, para optimizar la recuperación de
datos que realiza el meta-buscador sobre fuentes externas.
• Diseñar y desarrollar métodos de recomendación de contenido, principalmente
publicaciones científicas y sus autores para ser integrados en el meta-buscador,
utilizando en este apartado técnicas que automaticen los procesos involucrados y
analicen las redes de colaboración de autores.
• Diseñar y desarrollar procesos para el tratamiento y la gestión de los datos
almacenados por el meta-buscador, incluyendo tareas de desambigüación, detección
de outliers e inliers, y la definición de una taxonomía propia tanto para las entidades
almacenadas como para otros conjuntos de datos.
• Analizar la factibilidad de aplicar métodos basados en sistemas inteligentes para
determinar la relevancia de los resultados del metabuscador utilizando información
de los artículos científicos, sus autores, o las relaciones que se establecen entre estas
y otras entidades.
• Diseñar y desarrollar componentes que permitan optimizar el rendimiento general
del metabuscador y brindar una mejor experiencia a sus usuarios mediante:
3
generación de perfiles de usuario, optimización de los métodos de almacenamiento

de datos, y mejoras en la interacción con fuentes de datos externas.
• Evaluar las mejoras introducidas en el meta-buscador a partir del estudio
experimental.
• Evaluar el desempeño del meta-buscador en relación con soluciones de recuperación
de información que operen sobre contextos similares.
• Difundir los resultados de la investigación en eventos y publicaciones de la disciplina.
A partir de lo planteado, se define la siguiente hipótesis de trabajo:

• La aplicación de procesos de explotación de información permite mejorar el
desempeño de sistemas de recuperación de información asociados a la producción
científico-tecnológica del área de las Ciencias de la Computación.
ANTECEDENTES DEL PROYECTO
Explotación de información
El término explotación de información surge a partir de unificar bajo un concepto global a las
actividades de minería de datos, de imágenes, de texto, de flujos de información, de páginas
o contenido web, entre otras (Martins, Pesado & Garcia-Martinez, 2014). Sin embargo, se
mantiene la ligadura del término con las bases de datos y con la definición de algoritmos
cuyo objetivo sea la búsqueda de patrones en grandes bases de datos (Fayyad, Piatetsky-
Shapiro & Smith, 2996). De la misma manera, la explotación de información puede
relacionarse con la inteligencia de negocios, al constituir una herramienta para la
transformación de información en conocimiento, previamente desconocido y de potencial
utilidad para los procesos de toma de decisiones (Srivastava, Cooley, Deshpande & Tan,
2000).
Recuperación de Información
La recuperación de información (RI) consiste en la búsqueda de materiales, generalmente

documentos, que son de naturaleza desestructurada puesto que no son claros,
semánticamente abiertos o de una estructura simple para un computador (Manning,
Prabhakar & Hinrich, 2008).
El campo de la recuperación de información cubre necesidades de los usuarios desde la
navegación hasta el filtrado de un conjunto de documentos, como también el procesamiento
de documentos de un conjunto recuperado. Estos materiales se encuentran almacenados en
computadores, con lo cual es posible su tratamiento mediante distintas técnicas
desarrolladas en el campo de las ciencias de la computación.
4
Sistema de Recuperación de Información
Un SRI (Sistema de Recuperación de Información) es un proceso capaz de almacenar,

recuperar y mantener información (Kowalski, 1997). La estructura básica de un SRI se
compone de 4 elementos fundamentales: Los documentos, las consultas del usuario, la
manera en que se representan estos elementos y una función de evaluación. Los modelos de
SRI más difundidos y que más se extienden sobre Internet son los directorios, los buscadores
y los meta-buscadores (Olivas, 2011).
Procesamiento de lenguaje natural
Los sistemas que realizan procesamiento de lenguaje natural son aquellos que analizan,
intentan entender y/o generar contenido en uno o más lenguajes. Entre sus tareas se pueden
mencionar: la traducción a otros lenguajes, la comprensión y representación del contenido
del texto en algún formato, la generación automática de resúmenes o bases de
conocimiento, brindar soporte al diálogo en sistemas del tipo pregunta-respuesta, formar
parte de soluciones de recuperación de información, entre otros (Allen, 2003).
Deep Learning
En los últimos tiempos, se ha hablado con mayor frecuencia del deep learning, entendiendo
al mismo como un modelo computacional que utiliza múltiples capas para procesar, analizar
y aprender representaciones de datos con múltiples niveles de abstracción. En estos
métodos se utilizan en forma conjunta reconocimiento de lenguaje natural, reconocimiento
visual de objetos, entre otras soluciones para descubrir la estructura interna de grandes
conjuntos de datos y así poder adaptar el sistema para lograr su aprendizaje (LeCun, Bengio
& Hinton, 2015).
Su utilización en sistemas de recomendación se ha incrementado gracias al éxito que han
mostrado las implementaciones de este tipo para tareas complejas de aprendizaje
automático como son: visión por computador y reconocimiento del habla (Schmidhuber,
2015).
Sistemas de Recomendación
Los Sistemas de Recomendación (SR) son técnicas y herramientas software que sugieren
ítems que podrían ser relevantes para un usuario particular. Existen tres categorías generales
para los métodos que son utilizados en la actualidad, clasificados de acuerdo a la forma en
que son obtenidas las recomendaciones (Adomavicius & Tuzhilin, 2005):
• Basados en contenido: Este método funciona con las similitudes que puede tener un
ítem a con respecto a un ítem b, por lo que si un usuario valora al item a, la
valoración podrá extrapolarse al item b y usarse para una recomendación (Pazzani &
Billsus, 1997).
• Colaborativos: intentan obtener una medida de utilidad o relevancia de un ítem para
un determinado usuario basado en las valoraciones de otro usuario con
características similares al primero (Rich, 1989).
5
• Híbridos: Este enfoque es utilizado para superar algunas de las limitaciones de cada
uno de los métodos anteriores combinándolos. En algunos casos se ha optado por
implementar ambos métodos y combinar las predicciones finales para generar un
listado de recomendaciones unificado. Otros incorporan características propias de los
métodos basados en contenido a predicciones realizadas a partir de métodos
colaborativos, esto es posible empleando el filtrado colaborativo en la predicción de
contenido, y además utilizando perfiles de sus usuarios para determinar la similaridad
entre sus usuarios (Adomavicius & Tuzhilin, 2005).
Desambigüación de autores
La publicación de una obra literaria puede generar que un lector desee identificar al
individuo que es autor de la misma, y en algunos casos, identificar otras obras del mismo
autor (Smalheiser & Torvik, 2009). Con el crecimiento de la información en Internet dicha
búsqueda se vuelve cada vez más compleja por lo que su ejecución en forma manual se debe
descartar y se requiere contar con herramientas que brinden soporte a estas actividades.
En este contexto, se presenta la desambiguación de autores, como un proceso orientado a la
identificación unívoca de autores en una base documental. Los problemas que deben
solucionar este tipo de métodos se pueden resumir en los siguientes (Smalheiser & Torvik,
2009):
• Un autor puede firmar sus publicaciones de diferente manera, dando lugar a que se
considere que son personas diferentes.
• Más de un autor puede tener el mismo nombre, o las mismas iniciales, dando lugar a
confusiones que se implican el análisis de meta-datos para diferenciar uno de otro.
• El uso de meta-datos también conlleva sus problemas a partir de inconsistencias,
datos faltantes o cuestiones derivadas de las normativas de publicación de
determinadas entidades que implican formatos diferentes para la registración de
estos meta-datos.
Se han desarrollado diversos métodos para tratar esta dificultad (Ferreira, Gonçalves &
Laender, 2012), entre ellos se pueden mencionar: generación de grupos en forma
automática, implementación de métodos de clasificación, entre otros. Los métodos
empleados se pueden utilizar según la evidencia que se utiliza para hacer la desambiguación,
existiendo los que utilizan los datos de citas, los que utilizan los datos de contenido
disponible en la web y los que se extraen a partir de las publicaciones disponibles del autor.
RESULTADOS PRELIMINARES Y APORTES DEL GRUPO DE TRABAJO AL ESTUDIO DEL

PROBLEMA EN CUESTIÓN
El grupo desarrolla y mantiene un sistema de recuperación de información (SRI) dirigido a la
búsqueda de producciones científicas en el área de las Ciencias de la Computación, el cual ha
experimentado varias modificaciones desde sus etapas tempranas de desarrollo en 2014 (H.
D. Kuna et al., 2016; Martín Rey et al., 2015).
Las mejoras desarrolladas para el metabuscador incluyen la implementación de un algoritmo
de ranking basado en la evaluación de características de las publicaciones recuperadas (H
Kuna, Martini, & Rey, 2015; H Kuna, Rey, Cortés, Martini, & Solonezen, 2014). Asimismo, el
metabuscador incluye una característica de expansión de consultas basado en ontologías, el
6
cual le permite al usuario completar los términos de búsqueda de acuerdo a la estructura de

los términos pertenecientes a la ontología (M Rey et al., 2014).
En la actualidad, nuestro objetivo se centra en el desarrollo de nuevas características
relacionadas con la gestión de los datos. El desarrollo de mejoras en la gestión de los datos
está dirigido a mejorar la experiencia del usuario del metabuscador, así como del desempeño
del mismo (H Kuna et al., 2017).
Por otra parte, hemos contribuido en áreas como el descubrimiento de expertos y relaciones
entre expertos, mediante la aplicación de técnicas de Inteligencia Artificial y Análisis de
Redes Sociales (Zamudio, Berdún, & Amandi, 2013, 2014, 2016).
Descripción del Sistema de Recuperación de Información (Metabuscador) actual

Entre los componentes del metabuscador se pueden mencionar:
Módulo para la gestión de consultas: su función es el procesamiento de las consultas
introducidas por el usuario final al meta-buscador, dividiendo esta tarea en 3 sub-procesos:
1. Detección del idioma de la consulta ingresada por el usuario, acotando las opciones a
los idiomas castellano e inglés. Su objetivo es estimar el idioma de la consulta para poder
efectuar una traducción de la misma y permitir al meta-buscador ejecutar búsquedas en
las fuentes que no utilizan o no procesan el lenguaje base del usuario (M Rey et al., 2014).
Esta funcionalidad se implementó a partir de un método de análisis de n-gramas (Acosta,
Labrada Sedeno, & Godales Cruz, 2008), que aplica una transformación sobre el texto y
una vez representado en formato vectorial (Olivas Varela, 2011) lo compara con
fragmentos de texto de referencia por cada idioma. Finalmente, se calcula una medida de
similitud con respecto a ellos, determinando así el idioma de la consulta. La traducción de
la consulta es realizada en el proceso de expansión de consultas que se describe a
continuación.
2. Expansión de consultas, cuyo objetivo es agregar a la consulta original términos
relacionados con la temática a buscar a fin de obtener resultados de mayor especificidad.
El método utilizado se implementó a partir de una ontología de un dominio en particular
dentro de las ciencias de la computación (Kuna, Rey, Podkowa, Martini, & Solonezen,
2014), sirviendo la misma como base de conocimiento para poder realizar las expansiones
de la consulta ingresada por el usuario (M Rey et al., 2014). Para implementar la
traducción de consultas y sus expansiones, se replicó la ontología en idioma inglés,
agregando en cada concepto de ambas ontologías una propiedad que define la traducción
de ese término al idioma opuesto al original. De esta manera, una vez detectado el idioma
de la consulta la expansión se realiza con una u otra ontología, generando el mismo
conjunto de expansiones tanto en castellano como en inglés (M Rey et al., 2014).
3. Adaptación de las consultas a los requerimientos de formato que de las diferentes
fuentes de datos a consultar por el SRI. En este caso se aplican diferentes
transformaciones de formato para todo el conjunto de consultas, variando según a qué
base de documentos integrada en el meta-buscador se vaya a enviar.
Módulo para la gestión de búsquedas: su función consiste en la ejecución de consultas

sobre fuentes de datos específicas, integradas al meta-buscador, a fin de recuperar
documentos científicos que guarden estrecha relación con la consulta originalmente
ingresada por el usuario. Para efectuar esta operación se han definido interfaces con cada
una de las fuentes integradas, estos componentes no hacen más que simular una consulta
7
sobre el sitio web de la fuente y una vez que el mismo presenta los resultados, iniciar un
proceso de lectura del código HTML del sitio y separación de los bloques de contenido
correspondientes a los resultados de la búsqueda. Cada una de las interfaces cuenta con la
funcionalidad necesaria para poder realizar este proceso con las particularidades de cada
fuente. Finalmente el módulo realiza la captura de los resultados de la consulta ejecutada
para su posterior tratamiento por parte del próximo módulo. Las fuentes a las que se hace
referencia en este módulo son buscadores académicos o de librerías digitales, al momento
del inicio del presente proyecto, las fuentes integradas al SRI eran: Google Scholar, ACM
Digital Library e IEEE Xplore Digital Library (ACM, n.d.; Google, n.d.; IEEE, n.d.).
Módulo para la gestión de resultados: se trata del componente que evalúa la relevancia de
cada resultado obtenido de las búsquedas ejecutadas con respecto a la consulta original del
usuario. El elemento central de este módulo es el algoritmo de ranking implementado (H
Kuna et al., 2014), que por cada resultado aplica un conjunto de métricas para evaluar tres
propiedades: la calidad de la fuente de publicación, la calidad de los autores del documento
y la calidad de la publicación en sí. El conjunto de mediciones disponibles por propiedad
genera un valor para cada una de ellas, estos valores son ponderados y sumados para
obtener un único valor como resultado de la evaluación de la calidad de cada documento
recuperado (H Kuna, E Martini, et al., 2015). Posteriormente, utilizando esta valoración, se
ordena el listado de resultados a ser presentado al usuario final del SRI.
Técnicas y métodos integrados en el metabuscador
Conforme se desarrollaban los mencionados módulos, se emplearon métodos específicos

para optimizar o complementar algún aspecto de su funcionamiento. A continuación se
describen las características principales de los métodos generados:
Expansión de consultas a través de ontologías

El tratamiento que se realiza sobre las consultas que ingresa el usuario es una de las
operaciones a adaptar al contexto de un SRI (Alsaffar, Deogun, Raghavan, & Sever, 2000;
Ruiz-Morilla, Serrano-Guerrero, Olivas, & Viñas, 2010). Una de las opciones con mayor grado
de personalización posible es la expansión de consultas, que permite la incorporación de
diversos términos a la consulta original para mejorar la recuperación de documentos de
mayor relación con el pedido del usuario. Como resultado de este proceso, se obtiene un
nuevo conjunto de consultas con términos adicionales, denominadas expansiones (Chang,
Ounis, & Kim, 2006; De La Villa, García Pérez, & Maña, 2011).
El componente principal del método de expansión de consultas implementado es una
ontología desarrollada en forma particular y sobre un dominio acotado como son los
términos clave de la disciplina de Inteligencia Artificial (H Kuna et al., 2014; M Rey et al.,
2014). Constituye una herramienta que permite el tratamiento y análisis del conocimiento
que representa en forma automática, a través del sentido que brindan las relaciones,
propiedades y reglas que se definen entre las clases e instancias que simbolizan los
conceptos del área de conocimiento a representar (Lopez, 2007).
Algoritmo de ranking para documentos científicos en el área de ciencias de la computación

La evaluación de la relevancia de cada documento recuperado por el SRI es una actividad
crucial, ya que determina el orden en el que los resultados serán presentados al usuario. En
8
el caso particular del metabuscador, la evaluación debió ser adaptada para considerar los
elementos recuperados, documentos científicos, por lo tanto se debió desarrollar un
algoritmo de ranking específico para valorar la calidad de cada resultado obtenido (H Kuna et
al., 2014).
El algoritmo utiliza diversas métricas para cuantificar la calidad o impacto de una publicación
científica, inicialmente se definieron las propiedades evaluables para la aplicación del
algoritmo, asignando posteriormente a cada una diversas métricas para su cálculo, siendo
seleccionadas (Kuna, Martini, et al., 2015):
• La calidad de la fuente (o lugar) de publicación. Métricas utilizadas: IF (Impact Factor)
(Garfield, 1972), SJR (SCImago Journal Rank) (Gonzalez-Pereira, Guerrero-Bote, &
Moya-Anegon, 2009), SNIP (Source Normalized Impact per Paper), RIP (Raw Impact
per Paper) (Moed, 2009), EI (Eigenfactor) y AI (Article Influence) (Bergstrom, 2007).
• La calidad de los autores del documento. Métricas utilizadas: el índice H (Hirsch,
2005) y variantes del mismo: índices G (Egghe, 2006), E (Zhang, Daniel, Daniel, &
Egghe, 2009) y W (Wu, 2008).
• La calidad de la publicación en sí. Métricas utilizadas: citas recibidas e índice como el
AR (Jin, Liang, Rousseau, & Egghe, 2007) adaptado.
Uso de perfiles de entidades para el procesamiento de datos en un SRI:

A fin de generar la estructura para la gestión interna de los datos científicos se decidió tomar
como punto de partida la definición de las entidades cuyos perfiles se deseaba administrar,
como en otras soluciones similares. Se procedió a examinar un conjunto de fuentes como
buscadores y repositorios científicos, de cada una de ellas se obtuvo un listado de los
metadatos que utilizan para la registración de las diferentes entidades con las que operan.
Sobre ese relevamiento inicial, se prosiguió con la revisión de los atributos utilizados por
cada fuente, a fin de identificar cuáles definen a cada entidad.
A partir del análisis de los meta-datos de cada fuente se prosiguió con la caracterización de
cada entidad y con el establecimiento de las relaciones entre las mismas, a fin de representar
las conexiones lógicas que existen entre las entidades a registrar.
Como resultado de estas acciones, se obtuvieron los perfiles de meta-datos (ver figura 1) con
los cuales operaría el meta-buscador, de las siguientes entidades (Rey et al., 2016, Kuna et al,
2017): artículos, autores, fuentes de publicación, áreas temáticas y centros de investigación.
9
Fig. 1. Modelo conceptual de los perfiles generados para las entidades del SRI.
JUSTIFICACIÓN GENERAL DE LA METODOLOGÍA DE TRABAJO

Este trabajo plantea un relevamiento exhaustivo de las técnicas de explotación de
información para su implementación en sistemas de recuperación de información de
producciones científico-tecnológicas.
Posteriormente, se realizará el análisis y evaluación de la factibilidad de implementación de
las técnicas relevadas para su aplicación en un sistema de recuperación de información
actual. Como consecuencia, se desarrollarán procesos de explotación de información junto
con las funcionalidades adecuadas para su implementación en sistema de recuperación de
información actual.
Se realizarán evaluaciones experimentales del impacto de la aplicación de procesos
propuestos de explotación de información en el contexto del sistema de recuperación de
información ya desarrollado. La experimentación estará dirigida a contrastar la hipótesis de
trabajo mediante el análisis de desempeño del sistema de recuperación de información
mediante la utilización de métricas del área de Recuperación de Información.
Finalmente, se elaborarán informes parciales de los resultados obtenidos durante el proceso
de desarrollo del proyecto, los cuales serán incluidos en un informe final de proyecto.
10
RESULTADOS ESPERADOS
Entre los resultados esperados a partir de la ejecución del proyecto se pueden mencionar:
• Obtener procesos de tratamiento de datos que integren métodos de inteligencia
artificial para la extracción de conocimiento de utilidad para el metabuscador en sus
módulos o funcionalidades como podría ser: mejorar la selección de resultados a
presentar al usuario final en base a la relevancia de cada documento.
• Obtener métodos de tratamiento de las consultas del metabuscador con base en
técnicas de procesamiento de lenguaje natural a fin de optimizar las búsquedas sobre
fuentes externas.
• Obtener métodos de recomendación de datos científicos que analicen diversas
cuestiones como ser las redes de colaboración que se producen entre autores y las
redes de citaciones entre artículos de diferentes fuentes de publicación.
• Obtener procesos de tratamiento de datos que desarrollen tareas como la
desambigüación, la identificación de datos anómalos o la extracción y generación de
una clasificación de los datos de las entidades con las que opera el metabuscador.
• Optimizar el rendimiento general del metabuscador a través de la integración de
nuevas funcionalidades y cuestiones relacionadas al almacenamiento y
procesamiento de los datos involucrados en su operatoria.
• Desarrollar evaluaciones sistemáticas de los métodos o procesos desarrollados con
base en métricas y estrategias de validación acordes a los componentes a validar
considerando los estándares disponibles.
• Presentar resultados parciales o globales con respecto a las soluciones desarrolladas
en eventos o revistas científicas de la disciplina.
MECANISMOS DE DIVULGACIÓN y TRANSFERENCIA

Los resultados a los que se arribe podrán ser enviados para su publicación a diferentes
revistas y medios de publicación científica de la especialidad.
Se realizarán documentos a partir de los resultados obtenidos para su presentación en
congresos, reuniones de difusión científica y/o revistas científicas de la disciplina,
contemplando opciones dentro del ámbito de la unidad académica como fuera de la misma.
Como mecanismo adicional de difusión se proponen el sitio web institucional y la
presentación de avances determinados en cátedras de las carreras de informática de la
FCEQyN.
11
METODOLOGÍA Y PLAN DE TRABAJO

En la construcción del conocimiento asociado al presente proyecto de investigación, se
utilizará un enfoque de investigación clásico (Creswell, 2012; Riveros & Rosas, 1990) con
énfasis en la producción de tecnologías (Sabato, Mackenzie, & Instituto Latinoamericano de
Estudios Transnacionales., 1982).
A continuación se describen las actividades y los métodos necesarios para desarrollar el
proyecto:
Actividades
1. RELEVAMIENTO BIBLIOGRÁFICO
1. Realizar una investigación documental exploratoria buscando identificar técnicas
de explotación de información, con énfasis en técnicas de Inteligencia Artificial,
aplicadas a la gestión documental de contenido científico.
2. Realizar una investigación documental exploratoria sobre métricas de evaluación
de las técnicas de explotación de información y herramientas para su medición.
3. Realizar una investigación documental exploratoria sobre las posibles fuentes de
datos y las características de las producciones científico-tecnológicas de diversas
disciplinas y en particular de las Ciencias de la Computación.
2. ANÁLISIS DE MATERIALES Y RECOLECCIÓN DE DATOS
1. Analizar las técnicas relevadas a efectos de obtener una taxonomía de las mismas.
2. Definir las dimensiones del análisis que serán tenidas en cuenta para llevar a cabo
la evaluación de las características generales de las producciones científico-
tecnológicas.
3. Determinar aquellas propiedades que serán prioritarias de las fuentes de datos a
utilizar.
4. Realizar la selección de las fuentes de datos a ser utilizadas para la
implementación de las técnicas seleccionadas.
5. Seleccionar las técnicas de explotación de información que serán implementadas ,
considerando las características de los datos relevados.
3. GESTIÓN DE CONFIGURACIÓN DE LA INFRAESTRUCTURA INFORMÁTICA
1. Instalación de los equipos informáticos para la implementación de la
infraestructura, incluidos el hardware y el software
2. Configuración de los servicios de software necesarios para ejecutar los servicios
del sistema de recuperación de información.
3. Evaluación y validación del correcto funcionamiento de la infraestructura
informática implementada.
4. DESARROLLO DE MÉTODOS EN EL SISTEMA DE RECUPERACIÓN DE INFORMACIÓN
1. Desarrollar los métodos de acceso y extracción de los datos de las fuentes
seleccionadas, para su uso en el proceso de evaluación
12
2. Desarrollar mediante la metodología de prototipado evolutivo, métodos para el

tratamiento de consultas aplicando técnicas de procesamiento de lenguaje
natural.
3. Desarrollar mediante la metodología de prototipado evolutivo, métodos de
recomendación de contenido de las producciones científico-tecnológicas y
autores
4. Desarrollar mediante la metodología de prototipado evolutivo, métodos de
desambigüación de datos asociados a las producciones científico-tecnológicas,
incluyendo títulos, autores, e instituciones.
5. Desarrollar mediante la metodología de prototipado evolutivo, métodos para la
detección de inliers y outliers en la utilización del sistema de recuperación de
información.
6. Desarrollar mediante la metodología de prototipado evolutivo, métodos que
permitan generar automáticamente una taxonomía de las producciones científico
tecnológicas recuperadas por el sistema de recuperación de información.
7. Desarrollar mediante la metodología de prototipado evolutivo, métodos que
permitan determinar las relaciones entre las entidades asociadas a las
producciones científico-tecnológicas.
5. EVALUACIÓN EXPERIMENTAL DE LOS DESARROLLOS
1. Identificar casos de estudio y casos de validación que abarquen diversos
escenarios de utilización del sistema de recuperación de información.
2. Realizar pruebas de concepto en los casos de estudio y casos de validación
identificados que corroboren el funcionamiento y la efectividad del sistema de
recuperación de información y los métodos desarrollados de explotación de
información.
3. Desarrollar y ejecutar casos de prueba para la validación de la correctitud de los
resultados arrojados por el sistema de recuperación de información.
4. Determinar casos de estudio y de validación sobre los cuales llevar a cabo
pruebas que permitan determinar la validez de las técnicas de explotación de
información implementadas en el sistema de recuperación de información.
6. ANÁLISIS DE LOS RESULTADOS
1. Realizar un análisis estadístico de los resultados obtenidos del proceso de
validación de los procesos de exploración de información implementados en el
sistema de recuperación de información.
2. Analizar los resultados de la aplicación de métricas de recuperación de
información en el sistema de recuperación de información.
3. Realizar un análisis con expertos en la temática de los resultados obtenidos del
proceso de validación.
13
7. PRESENTACIÓN DE LOS RESULTADOS

1. Redacción de presentaciones a congresos y jornadas científicas de la disciplina.
2. Redacción de informes para su presentación en revistas de divulgación científica.
3. Redacción del informe final del Proyecto..
Métodos y Materiales
Métodos
• Revisiones Sistemáticas:
Las revisiones sistemáticas (Argimon Pallás & Jiménez Villa, 2004) de artículos científicos
siguen un método explícito para procesar la información sobre determinado tema. Se
diferencia de las revisiones narrativas en que provienen de una pregunta estructurada y de
un protocolo previamente realizado.
• Prototipado Evolutivo Experimental (Método de la Ingeniería):
El prototipado evolutivo experimental (Rombach, Basili, & Selby, 1993) consiste en
desarrollar una solución inicial para un determinado problema, refinando la misma
evolutivamente a partir de la prueba de aplicación de la misma a casos de estudio
(problemáticas) de complejidad incremental. El proceso de refinamiento concluye al
estabilizarse el prototipo en evolución.
Materiales
Para el desarrollo de los formalismos y procesos propuestos se utilizarán:
• Métricas para la evaluación de producción científica que serán analizadas y tomadas
como base o modificadas para la definición del modelo de evaluación propuesto
(Andalia & Font, 2011; Bollen, Van de Sompel, Hagberg, Chute, & Chute, 2009; Torres
Salinas & Jiménez Contreras, 2010).
• Fuentes a partir de las cuales se podrán obtener los datos y/o meta-datos necesarios
para el cálculo del indicador a generar como resultado de la aplicación del modelo de
evaluación propuesto (Falagas et al., 2007; Jacso, n.d.; Sicilia, Sánchez-Alonso, &
García-Barriocanal, 2011)
• Modelos de Proceso usuales en Ingeniería de Software (IEEE, 1992, 2008; Oktaba et
al., 2007).
14
CRONOGRAMA DE TRABAJO
Año 1 Año 2 Año 3
Actividades
Q1 Q2 Q3 Q4 Q1 Q2 Q3 Q4 Q1 Q2 Q3 Q4
1. RELEVAMIENTO BIBLIOGRÁFICO
1. Realizar una investigación documental exploratoria buscan
2. Realizar una investigación documental exploratoria sobr
3. Realizar una investigación documental exploratoria sobre
2. ANÁLISIS DE MATERIALES Y RECOLECCIÓN DE DATOS

1. Analizar las técnicas relevadas a efectos de obtener u
2. Definir las dimensiones del análisis que serán tenidas e
3. Determinar aquellas propiedades que serán prioritarias de
4. Realizar la selección de las fuentes de datos a ser util
5. Seleccionar las técnicas de explotación de información
3. GESTIÓN DE CONFIGURACIÓN DE LA INFRAESTRUCTU

1. Instalación de los equipos informáticos para la implement
2. Configuración de los servicios de software necesarios pa
3. Evaluación y validación del correcto funcionamiento de l
4. DESARROLLO DE MÉTODOS EN EL SISTEMA DE RECU

1. Desarrollar los métodos de acceso y extracción de los d
2. Desarrollar mediante la metodología de prototipado evol
4. Desarrollar mediante la metodología de prototipado evolu
5. Desarrollar mediante la metodología de prototipado evolut
6. Desarrollar mediante la metodología de prototipado evo
5. EVALUACIÓN EXPERIMENTAL DE LOS DESARROLLOS

1. Identificar casos de estudio y casos de validación que
2. Realizar pruebas de concepto en los casos de estudio y
3. Desarrollar y ejecutar casos de prueba para la validación
4. Determinar casos de estudio y de validación sobre los c
6. ANÁLISIS DE LOS RESULTADOS

1. Realizar un análisis estadístico de los resultados obte
2. Analizar los resultados de la aplicación de métricas de
3. Realizar un análisis con expertos en la temática de los
7. PRESENTACIÓN DE LOS RESULTADOS

1. Redacción de presentaciones a congresos y jornadas cient
2. Redacción de informes para su presentación en revistas d
3. Redacción del informe final del Proyecto
15
BIBLIOGRAFÍA (máximo 3 pag.)
ACM. (n.d.). ACM Digital Library. http://dl.acm.org/

Acosta, M. V., Labrada Sedeno, R. O., & Godales Cruz, M. Y. (2008). Detección automática del idioma de un texto
mediante el uso de unigramas y 2-gramas. Serie Científica de La Universidad de Las Ciencias Informáticas, 1(3).
Adomavicius, G. & Tuzhilin, A. (2005). Toward the next generation of recommender systems: a survey of the
state-of-the-art and possible extensions. IEEE Trans. Knowl. Data Eng., vol. 17, núm. 6, pp. 734–749.
Allen, J. F. (2003). Natural Language Processing. Encyclopedia of Computer Science , pp: 1218-1222. John Wiley
and Sons Ltd. Chichester, UK.
Alsaffar, A. H., Deogun, J. S., Raghavan, V. V., & Sever, H. (2000). Enhancing Concept-Based Retrieval Based on
Minimal Term Sets. Journal of Intelligent Information Systems, 14(2/3), 155–173.
Andalia, R. C., & Font, J. C. (2011). Nuevos indicadores métricos para la evaluación de las publicaciones seriadas
científicas y académicas. Revista Cubana de Información En Ciencias de La Salud, 23(1), 84–92.
Argimon Pallás, J. M., & Jiménez Villa, J. (2004). Métodos de investigación clínica y epidemiológica. Elsevier.
Bergstrom, C. T. (2007). Eigenfactor: Measuring the value and prestige of scholarly journals. College & Research
Libraries News, 68, 314–316.
Bollen, J., Van de Sompel, H., Hagberg, A., Chute, R., & Chute, R. (2009). A Principal Component Analysis of 39
Scientific Impact Measures. PLoS ONE, 4(6), e6022.
Chang, Y., Ounis, I., & Kim, M. (2006). Query reformulation using automatically generated query concepts from
a document space. Information Processing & Management, 42(2), 453–468.
Creswell, J. W. (2012). Educational research : planning, conducting, and evaluating quantitative and qualitative
research. Pearson.
De La Villa, M., García Pérez, S., & Maña, M. J. (2011). ¿De verdad sabes lo que quieres buscar? Expansión
guiada visualmente de la cadena de búsqueda usando ontologías y grafos de conceptos. Procesamiento de
Lenguaje Natural, 47, 21–29.
De Volder, C. (2008). Los repositorios de acceso abierto en la Argentina situación actual. Informacion, Cultura Y
Sociedad, 19(19), 79–98.
Egghe, L. (2006). Theory and practise of the g-index. Scientometrics, 69(1), 131–152.
Falagas, M. E., Pitsouni, E. I., Malietzis, G. A., & Pappas, G. (2007). Comparison of PubMed, Scopus, Web of
Science, and Google Scholar: strengths and weaknesses. The FASEB Journal, 22(2), 338–342.
Fayyad, U., Piatetsky-Shapiro, G., Smyth, P. (1996). From data mining to knowledge discovery in databases. AI
Magazine, 17(3): 37-54.
Ferreira, A.A., Gonçalves, M.A., Laender, A.H.F. (2012). A Brief Survey of Automatic Methods for Author Name
Disambiguation. SIGMOD Rec. 41, 15–26.
Gonzalez-Pereira, B., Guerrero-Bote, V., & Moya-Anegon, F. (2009). The SJR indicator: A new indicator of
journals’ scientific prestige.
Google. (n.d.). Google Académico. https://scholar.google.com/
Guz, A. N., & Rushchitsky, J. J. (2009). Scopus: A system for the evaluation of scientific journals. International
Applied Mechanics, 45(4), 351–362.
Hirsch, J. E. (2005). An index to quantify an individual’s scientific research output. Proceedings of the National
Academy of Sciences of the United States of America, 102(46), 16569–72.
IEEE. (n.d.). IEEE Xplore Digital Library. http://ieeexplore.ieee.org/Xplore/home.jsp
IEEE. (1992). IEEE Standard for developing software life cycle processes. Institute of Electrical and Electronics
Engineers.
IEEE. (2008). IEEE standard for software and system test documentation. Institute for Electrical and Electronics
Engineers.
Jacso, P. (n.d.). As we may search – Comparison of major features of the Web of Science, Scopus, and Google
Scholar citation-based and citation-enhanced databases.
Jin, B., Liang, L., Rousseau, R., & Egghe, L. (2007). The R- and AR-indices: Complementing the h-index. Chinese
Science Bulletin, 52(6), 855–863.
16
Kowalski, G. (2007). Information Retrieval Systems: Theory and Implementation, 1st ed. Norwell, MA, USA:
Kluwer Academic Publishers.
Kuna, H. D., Rey, M., Martini, E., Canteros, A., Rambo, A. R., Biale, C. O., & Zamudio, E. (2016). Avances en la
construcción de un Sistema de Recuperación de Información para información científica en Ciencias de la
Computación. In XVIII Workshop de Investigadores en Ciencias de la Computación (WICC 2016). Entre Ríos: Red
de Universidades con Carreras en Informática.
Kuna, H., Martini, E., & Rey, M. (2015). Evolution of a Ranking Algorithm for Scientific Documents in the
Computer Science Area. In G. E. Feierherd, P. M. Pesado, & M. O. Spositto (Eds.), Computer Science and
Technology Series: XX Argentine Congress of Computer Science. Selected papers (pp. 145–155). La plata,
Buenos Aires, Argentina: Editorial de la Universidad de La Plata (Edulp).
Kuna, H., Rey, M., Cortés, J., Martini, E., & Solonezen, L. (2014). Generating a Ranking Algorithm for Scientific
Documents in the Computing Science Area. In J. R. Finochietto & P. M. Pesado (Eds.), Computer Science and
Technology Series: XIX Argentine Congress of Computer Science. Selected Papers (1st ed., pp. 185–195). La
plata, Buenos Aires, Argentina: Editorial de la Universidad de La Plata (Edulp).
Kuna, H., Rey, M., Martini, E., Rambo, A., & Podkowa, L. (2015). Avances en el Desarrollo de un Sistema de
Recuperación de Información para Publicaciones Científicas del Área de Ciencias de la Computación. Revista
Latinoamericana de Ingeniería de Software, 3(1), 47–55.
Kuna, H., Rey, M., Podkowa, L., Martini, E., & Solonezen, L. (2014). Expansión de consultas basada en ontologías
para un sistema de recuperación de información. XVI Workshop de Investigadores En Ciencias de La
Computación, 500–504.
Kuna, H., Rey, M., Zamudio, E., Olivas, J. A., Rambo, A., Cantero, A., … Biale, C. (2017). An entity profile schema
for data integration in an academic metasearch engine. In H. R. Arabnia, D. de la Fuente, E. B. Kozerenko, J. A.
Olivas, & F. G. Tinetti (Eds.), Proceedings of the 2017 International Conference on Artificial Intelligence (ICAI’17).
Las Vegas, United States of America: CSREA Press.
LeCun, Y., Bengio, J., Hinton, G. (2015). Deep Learning, Nature, 521, pp. 436 – 444.
Ley, M. (2002). The DBLP Computer Science Bibliography: Evolution, Research Issues, Perspectives (pp. 1–10).
Springer, Berlin, Heidelberg.
Li, H., Li, H., Councill, I., Lee, W., & Giles, C. L. (2006). CiteSeerX: an Architecture and Web Service Design for an
Academic Document Search Engine. INTERNATIONAL WORLD WIDE WEB CONFERENCE, 883--884.
doi=10.1.1.80.1086
Lopez, S. E. S. (2007). Modelo de indexacion de formas en sistemas VIR basado en ontologias.
Manning, C. D., Prabhakar, R., & Hinrich, S. (2008). Introduction to Information Retrieval. New York, NY, USA:
Cambridge University Press.
Martins, S, Pesado, P., Garcia-Martinez, R. (2014). Propuesta de Modelo de Procesos para una Ingeniería de
Explotación de Información: MoProPEI. Revista Latinoamericana de Ingeniería de Software, 2(5): 313.332. ISSN
2314-2642.
Ministerio de Ciencia, T. e I. P. (2012). MEDICIÓN DE ÁREAS PRIORITARIAS - Producción científica y tecnológica
en TIC -. http://www.mincyt.gob.ar/informes/produccion-cientifica-y-tecnologica-en-tic-8095
Moed, H. F. (2009). Measuring contextual citation impact of scientific journals. Retrieved from
http://arxiv.org/abs/0911.2632
Oktaba, H., Piattini Velthuis, M. G., Pino, F. J., García Rubio, F., Martínez Ruiz, T., Alquicira Esquivel, C., & Ruiz
González, F. (2007). Competisoft: mejora de procesos software para pequeñas organizaciones. Fábricas de
Software: Experiencias, Tecnologías Y Organización, 2007, ISBN 978-84-7497-809-0, Págs. 257-287, 257–287.
Olivas Varela, J. A. (2011). Búsqueda eficaz de información en la Web.
Ortega, J. L., & Aguillo, I. F. (2014). Microsoft academic search and Google scholar citations: Comparative
analysis of author profiles. Journal of the Association for Information Science and Technology, 65(6), 1149–
1156.
Pazzani, M. & Billsus, D. (1997). Learning and Revising User Profiles: The Identification of Interesting Web Sites.
Mach. Learn., vol. 27, núm. 3, pp. 313–331.
17
Rey, M., Kuna, H. D., Martini, E., Canteros, A., Cantero, A., Rambo, A., & Biale, C. O. (2016). Propuesta de
esquemas de perfiles para la recuperación de datos científicos para un sistema de recuperación de información
del área de Ciencias de la Computación.
Rey, M., Kuna, H. D., Martini, E., Rambo, A., Biale, C. O., Zamudio, E., & Canteros, A. (2015). Modelos de
evaluación de producción científica para el área de Ciencias de la Computación. Retrieved from
http://sedici.unlp.edu.ar/handle/10915/45837
Rey, M., Kuna, H., Martini, E., Podkowa, L., Pautsch, G., & Zamudio, E. (2014). Generación de un Método de
Expansión de Consultas Basado en Ontologías para un Sistema de Recuperación de Información.
Rich, E. (1989). Stereotypes and User Modeling. User Models in Dialog Systems, A. Kobsa y W. Wahlster, Eds.
Springer Berlin Heidelberg, 1989, pp. 35–51.
Riveros, H. G., & Rosas, L. (1990). El método científico aplicado a las ciencias experimentales. Trillas.
Rombach, H. D., Basili, V. R., & Selby, R. W. (1993). Experimental software engineering issues : critical
assessment and future directions : international workshop, Dagstuhl Castle, Germany, September 14-18, 1992 :
proceedings. Proceedings of the International Workshop on Experimental Software Engineering Issues: Critical
Assessment and Future Directions. Springer-Verlag.
Ruiz-Morilla, J., Serrano-Guerrero, J., Olivas, J. A., & Viñas, E. F. (2010). Representación Múltiple de Consultas:
Una alternativa a la Expansión de Consultas en Sistemas de Recuperación de Información.
Sabato, J. A., Mackenzie, M., & Instituto Latinoamericano de Estudios Transnacionales. (1982). La producción de
tecnología : autónoma o transnacional. Instituto Latinoamericano de Estudios Transnacionales.
Schmidhuber, J. (2015). Deep learning in neural networks: An overview, Neural Networks, vol. 61, pp. 85-117.
Sicilia, M.-A., Sánchez-Alonso, S., & García-Barriocanal, E. (2011). Comparing impact factors from two different
citation databases: The case of Computer Science. Journal of Informetrics, 5(4), 698–704.
Sistema Nacional de Repositorios Digitales, & Ministerio de Ciencia, T. e I. P. (n.d.). Portal de Datos.
http://repositoriosdigitales.mincyt.gob.ar/dnet-web-generic/
Smalheiser, N.R., Torvik, V.I. (2009). Author name disambiguation. Ann. Rev. Info. Sci. Tech. 43, 1–43.
Srivastava, J., Cooley, R., Deshpande, M., Tan, P. (2000). Web Usage Mining: Discovery and Applications of Usage
Patterns from Web Data. SIGKDD Explorations, 12: 12-23.
Tang, J., & Jie. (2016). AMiner. In Proceedings of the 25th International Conference Companion on World Wide
Web - WWW ’16 Companion (pp. 373–373). New York, New York, USA: ACM Press.
Torres Salinas, D., & Jiménez Contreras, E. (2010). Introducción y estudio comparativo de los nuevos indicadores
de citación sobre revistas científicas en Journal Citation Reports y Scopus. El Profesional de La Información,
19(2), 201–208.
Wu, Q. (2008). The w-index: A significant improvement of the h-index.
Zamudio, E., Berdún, L. S., & Amandi, A. (2013). Un algoritmo genético para la conformación de grupos de
individuos distantes en redes sociales. In Argentine Symposium on Artificial Intelligence, 42 JAIIO. Córdoba,
Argentina.
Zamudio, E., Berdún, L. S., & Amandi, A. (2014). An approach to the creation of commissions of independent
individuals using social networks and genetic algorithms. Revista Iberoamericana de Inteligencia Artificial,
17(53), 24–34.
Zamudio, E., Berdún, L. S., & Amandi, A. A. (2016). Social networks and genetic algorithms to choose
committees with independent members. Expert Systems with Applications, 43, 261–270.
Zhang, C.-T., Daniel, H., Daniel, H., & Egghe, L. (2009). The e-Index, Complementing the h-Index for Excess
Citations. PLoS ONE, 4(5), e5429.
18

MT - Proyecto HK 2018 2020

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

MT - Proyecto HK 2018 2020

Cargado por

Copyright:

Formatos disponibles

MINISTERIO DE EDUCACION Y DEPORTE

Universidad Nacional de Misiones

DESCRIPCIÓN TÉCNICA del PROYECTO de INVESTIGACIÓN

Código de Identificación del Proyecto

Nombre del Investigador Responsable Kuna, Horacio Daniel

Diseño y Construcción de Procesos de Explotación de Información para el Área de Ciencias de

PLANTEO Y RELEVANCIA DEL PROBLEMA

requieren la implementación de funcionalidades dirigidas a satisfacer las necesidades

OBJETIVOS GENERALES e IMPACTO

OBJETIVOS ESPECÍFICOS E HIPÓTESIS DE TRABAJO

generación de perfiles de usuario, optimización de los métodos de almacenamiento

A partir de lo planteado, se define la siguiente hipótesis de trabajo:

ANTECEDENTES DEL PROYECTO

La recuperación de información (RI) consiste en la búsqueda de materiales, generalmente

Sistema de Recuperación de Información

Un SRI (Sistema de Recuperación de Información) es un proceso capaz de almacenar,

Procesamiento de lenguaje natural

RESULTADOS PRELIMINARES Y APORTES DEL GRUPO DE TRABAJO AL ESTUDIO DEL

cual le permite al usuario completar los términos de búsqueda de acuerdo a la estructura de

Descripción del Sistema de Recuperación de Información (Metabuscador) actual

Módulo para la gestión de búsquedas: su función consiste en la ejecución de consultas

Técnicas y métodos integrados en el metabuscador

Conforme se desarrollaban los mencionados módulos, se emplearon métodos específicos

Expansión de consultas a través de ontologías

Algoritmo de ranking para documentos científicos en el área de ciencias de la computación

Uso de perfiles de entidades para el procesamiento de datos en un SRI:

JUSTIFICACIÓN GENERAL DE LA METODOLOGÍA DE TRABAJO

MECANISMOS DE DIVULGACIÓN y TRANSFERENCIA

METODOLOGÍA Y PLAN DE TRABAJO

2. Desarrollar mediante la metodología de prototipado evolutivo, métodos para el

7. PRESENTACIÓN DE LOS RESULTADOS

2. ANÁLISIS DE MATERIALES Y RECOLECCIÓN DE DATOS

3. GESTIÓN DE CONFIGURACIÓN DE LA INFRAESTRUCTU

4. DESARROLLO DE MÉTODOS EN EL SISTEMA DE RECU

5. EVALUACIÓN EXPERIMENTAL DE LOS DESARROLLOS

6. ANÁLISIS DE LOS RESULTADOS

7. PRESENTACIÓN DE LOS RESULTADOS

BIBLIOGRAFÍA (máximo 3 pag.)

ACM. (n.d.). ACM Digital Library. http://dl.acm.org/

También podría gustarte