Documentos de Académico
Documentos de Profesional
Documentos de Cultura
TÍTULO DE PROYECTO
1
MINISTERIO DE EDUCACION Y DEPORTE
Universidad Nacional de Misiones
Secretaría General de Ciencia y Tecnología
2
MINISTERIO DE EDUCACION Y DEPORTE
Universidad Nacional de Misiones
Secretaría General de Ciencia y Tecnología
relevancia, entre otros. Como consecuencia a estas problemáticas, surgen los sistemas
recuperación de información (metabuscadores) que utilizan los resultados arrojados por los
servicios de búsqueda, junto con otros datos para generar sus propios resultados.
La búsqueda de producciones científicas es un problema que traspasa las disciplinas, sin
embargo, en este proyecto tomamos como ámbito de estudio, el área de las Ciencias de la
Computación.
En este contexto, se plantea el siguiente objetivo general para el proyecto:
• Desarrollar procesos de explotación de información para su implementación en un
sistema de recuperación de información de producciones científicas del área de las
Ciencias de la Computación
3
MINISTERIO DE EDUCACION Y DEPORTE
Universidad Nacional de Misiones
Secretaría General de Ciencia y Tecnología
Explotación de información
El término explotación de información surge a partir de unificar bajo un concepto global a las
actividades de minería de datos, de imágenes, de texto, de flujos de información, de páginas
o contenido web, entre otras (Martins, Pesado & Garcia-Martinez, 2014). Sin embargo, se
mantiene la ligadura del término con las bases de datos y con la definición de algoritmos
cuyo objetivo sea la búsqueda de patrones en grandes bases de datos (Fayyad, Piatetsky-
Shapiro & Smith, 2996). De la misma manera, la explotación de información puede
relacionarse con la inteligencia de negocios, al constituir una herramienta para la
transformación de información en conocimiento, previamente desconocido y de potencial
utilidad para los procesos de toma de decisiones (Srivastava, Cooley, Deshpande & Tan,
2000).
Recuperación de Información
4
MINISTERIO DE EDUCACION Y DEPORTE
Universidad Nacional de Misiones
Secretaría General de Ciencia y Tecnología
Los sistemas que realizan procesamiento de lenguaje natural son aquellos que analizan,
intentan entender y/o generar contenido en uno o más lenguajes. Entre sus tareas se pueden
mencionar: la traducción a otros lenguajes, la comprensión y representación del contenido
del texto en algún formato, la generación automática de resúmenes o bases de
conocimiento, brindar soporte al diálogo en sistemas del tipo pregunta-respuesta, formar
parte de soluciones de recuperación de información, entre otros (Allen, 2003).
Deep Learning
En los últimos tiempos, se ha hablado con mayor frecuencia del deep learning, entendiendo
al mismo como un modelo computacional que utiliza múltiples capas para procesar, analizar
y aprender representaciones de datos con múltiples niveles de abstracción. En estos
métodos se utilizan en forma conjunta reconocimiento de lenguaje natural, reconocimiento
visual de objetos, entre otras soluciones para descubrir la estructura interna de grandes
conjuntos de datos y así poder adaptar el sistema para lograr su aprendizaje (LeCun, Bengio
& Hinton, 2015).
Su utilización en sistemas de recomendación se ha incrementado gracias al éxito que han
mostrado las implementaciones de este tipo para tareas complejas de aprendizaje
automático como son: visión por computador y reconocimiento del habla (Schmidhuber,
2015).
Sistemas de Recomendación
Los Sistemas de Recomendación (SR) son técnicas y herramientas software que sugieren
ítems que podrían ser relevantes para un usuario particular. Existen tres categorías generales
para los métodos que son utilizados en la actualidad, clasificados de acuerdo a la forma en
que son obtenidas las recomendaciones (Adomavicius & Tuzhilin, 2005):
• Basados en contenido: Este método funciona con las similitudes que puede tener un
ítem a con respecto a un ítem b, por lo que si un usuario valora al item a, la
valoración podrá extrapolarse al item b y usarse para una recomendación (Pazzani &
Billsus, 1997).
• Colaborativos: intentan obtener una medida de utilidad o relevancia de un ítem para
un determinado usuario basado en las valoraciones de otro usuario con
características similares al primero (Rich, 1989).
5
MINISTERIO DE EDUCACION Y DEPORTE
Universidad Nacional de Misiones
Secretaría General de Ciencia y Tecnología
• Híbridos: Este enfoque es utilizado para superar algunas de las limitaciones de cada
uno de los métodos anteriores combinándolos. En algunos casos se ha optado por
implementar ambos métodos y combinar las predicciones finales para generar un
listado de recomendaciones unificado. Otros incorporan características propias de los
métodos basados en contenido a predicciones realizadas a partir de métodos
colaborativos, esto es posible empleando el filtrado colaborativo en la predicción de
contenido, y además utilizando perfiles de sus usuarios para determinar la similaridad
entre sus usuarios (Adomavicius & Tuzhilin, 2005).
Desambigüación de autores
La publicación de una obra literaria puede generar que un lector desee identificar al
individuo que es autor de la misma, y en algunos casos, identificar otras obras del mismo
autor (Smalheiser & Torvik, 2009). Con el crecimiento de la información en Internet dicha
búsqueda se vuelve cada vez más compleja por lo que su ejecución en forma manual se debe
descartar y se requiere contar con herramientas que brinden soporte a estas actividades.
En este contexto, se presenta la desambiguación de autores, como un proceso orientado a la
identificación unívoca de autores en una base documental. Los problemas que deben
solucionar este tipo de métodos se pueden resumir en los siguientes (Smalheiser & Torvik,
2009):
• Un autor puede firmar sus publicaciones de diferente manera, dando lugar a que se
considere que son personas diferentes.
• Más de un autor puede tener el mismo nombre, o las mismas iniciales, dando lugar a
confusiones que se implican el análisis de meta-datos para diferenciar uno de otro.
• El uso de meta-datos también conlleva sus problemas a partir de inconsistencias,
datos faltantes o cuestiones derivadas de las normativas de publicación de
determinadas entidades que implican formatos diferentes para la registración de
estos meta-datos.
Se han desarrollado diversos métodos para tratar esta dificultad (Ferreira, Gonçalves &
Laender, 2012), entre ellos se pueden mencionar: generación de grupos en forma
automática, implementación de métodos de clasificación, entre otros. Los métodos
empleados se pueden utilizar según la evidencia que se utiliza para hacer la desambiguación,
existiendo los que utilizan los datos de citas, los que utilizan los datos de contenido
disponible en la web y los que se extraen a partir de las publicaciones disponibles del autor.
6
MINISTERIO DE EDUCACION Y DEPORTE
Universidad Nacional de Misiones
Secretaría General de Ciencia y Tecnología
7
MINISTERIO DE EDUCACION Y DEPORTE
Universidad Nacional de Misiones
Secretaría General de Ciencia y Tecnología
sobre el sitio web de la fuente y una vez que el mismo presenta los resultados, iniciar un
proceso de lectura del código HTML del sitio y separación de los bloques de contenido
correspondientes a los resultados de la búsqueda. Cada una de las interfaces cuenta con la
funcionalidad necesaria para poder realizar este proceso con las particularidades de cada
fuente. Finalmente el módulo realiza la captura de los resultados de la consulta ejecutada
para su posterior tratamiento por parte del próximo módulo. Las fuentes a las que se hace
referencia en este módulo son buscadores académicos o de librerías digitales, al momento
del inicio del presente proyecto, las fuentes integradas al SRI eran: Google Scholar, ACM
Digital Library e IEEE Xplore Digital Library (ACM, n.d.; Google, n.d.; IEEE, n.d.).
Módulo para la gestión de resultados: se trata del componente que evalúa la relevancia de
cada resultado obtenido de las búsquedas ejecutadas con respecto a la consulta original del
usuario. El elemento central de este módulo es el algoritmo de ranking implementado (H
Kuna et al., 2014), que por cada resultado aplica un conjunto de métricas para evaluar tres
propiedades: la calidad de la fuente de publicación, la calidad de los autores del documento
y la calidad de la publicación en sí. El conjunto de mediciones disponibles por propiedad
genera un valor para cada una de ellas, estos valores son ponderados y sumados para
obtener un único valor como resultado de la evaluación de la calidad de cada documento
recuperado (H Kuna, E Martini, et al., 2015). Posteriormente, utilizando esta valoración, se
ordena el listado de resultados a ser presentado al usuario final del SRI.
el caso particular del metabuscador, la evaluación debió ser adaptada para considerar los
elementos recuperados, documentos científicos, por lo tanto se debió desarrollar un
algoritmo de ranking específico para valorar la calidad de cada resultado obtenido (H Kuna et
al., 2014).
El algoritmo utiliza diversas métricas para cuantificar la calidad o impacto de una publicación
científica, inicialmente se definieron las propiedades evaluables para la aplicación del
algoritmo, asignando posteriormente a cada una diversas métricas para su cálculo, siendo
seleccionadas (Kuna, Martini, et al., 2015):
• La calidad de la fuente (o lugar) de publicación. Métricas utilizadas: IF (Impact Factor)
(Garfield, 1972), SJR (SCImago Journal Rank) (Gonzalez-Pereira, Guerrero-Bote, &
Moya-Anegon, 2009), SNIP (Source Normalized Impact per Paper), RIP (Raw Impact
per Paper) (Moed, 2009), EI (Eigenfactor) y AI (Article Influence) (Bergstrom, 2007).
• La calidad de los autores del documento. Métricas utilizadas: el índice H (Hirsch,
2005) y variantes del mismo: índices G (Egghe, 2006), E (Zhang, Daniel, Daniel, &
Egghe, 2009) y W (Wu, 2008).
• La calidad de la publicación en sí. Métricas utilizadas: citas recibidas e índice como el
AR (Jin, Liang, Rousseau, & Egghe, 2007) adaptado.
9
MINISTERIO DE EDUCACION Y DEPORTE
Universidad Nacional de Misiones
Secretaría General de Ciencia y Tecnología
Fig. 1. Modelo conceptual de los perfiles generados para las entidades del SRI.
10
MINISTERIO DE EDUCACION Y DEPORTE
Universidad Nacional de Misiones
Secretaría General de Ciencia y Tecnología
RESULTADOS ESPERADOS
Entre los resultados esperados a partir de la ejecución del proyecto se pueden mencionar:
• Obtener procesos de tratamiento de datos que integren métodos de inteligencia
artificial para la extracción de conocimiento de utilidad para el metabuscador en sus
módulos o funcionalidades como podría ser: mejorar la selección de resultados a
presentar al usuario final en base a la relevancia de cada documento.
• Obtener métodos de tratamiento de las consultas del metabuscador con base en
técnicas de procesamiento de lenguaje natural a fin de optimizar las búsquedas sobre
fuentes externas.
• Obtener métodos de recomendación de datos científicos que analicen diversas
cuestiones como ser las redes de colaboración que se producen entre autores y las
redes de citaciones entre artículos de diferentes fuentes de publicación.
• Obtener procesos de tratamiento de datos que desarrollen tareas como la
desambigüación, la identificación de datos anómalos o la extracción y generación de
una clasificación de los datos de las entidades con las que opera el metabuscador.
• Optimizar el rendimiento general del metabuscador a través de la integración de
nuevas funcionalidades y cuestiones relacionadas al almacenamiento y
procesamiento de los datos involucrados en su operatoria.
• Desarrollar evaluaciones sistemáticas de los métodos o procesos desarrollados con
base en métricas y estrategias de validación acordes a los componentes a validar
considerando los estándares disponibles.
• Presentar resultados parciales o globales con respecto a las soluciones desarrolladas
en eventos o revistas científicas de la disciplina.
11
MINISTERIO DE EDUCACION Y DEPORTE
Universidad Nacional de Misiones
Secretaría General de Ciencia y Tecnología
13
MINISTERIO DE EDUCACION Y DEPORTE
Universidad Nacional de Misiones
Secretaría General de Ciencia y Tecnología
Métodos y Materiales
Métodos
• Revisiones Sistemáticas:
Las revisiones sistemáticas (Argimon Pallás & Jiménez Villa, 2004) de artículos científicos
siguen un método explícito para procesar la información sobre determinado tema. Se
diferencia de las revisiones narrativas en que provienen de una pregunta estructurada y de
un protocolo previamente realizado.
• Prototipado Evolutivo Experimental (Método de la Ingeniería):
El prototipado evolutivo experimental (Rombach, Basili, & Selby, 1993) consiste en
desarrollar una solución inicial para un determinado problema, refinando la misma
evolutivamente a partir de la prueba de aplicación de la misma a casos de estudio
(problemáticas) de complejidad incremental. El proceso de refinamiento concluye al
estabilizarse el prototipo en evolución.
Materiales
Para el desarrollo de los formalismos y procesos propuestos se utilizarán:
• Métricas para la evaluación de producción científica que serán analizadas y tomadas
como base o modificadas para la definición del modelo de evaluación propuesto
(Andalia & Font, 2011; Bollen, Van de Sompel, Hagberg, Chute, & Chute, 2009; Torres
Salinas & Jiménez Contreras, 2010).
• Fuentes a partir de las cuales se podrán obtener los datos y/o meta-datos necesarios
para el cálculo del indicador a generar como resultado de la aplicación del modelo de
evaluación propuesto (Falagas et al., 2007; Jacso, n.d.; Sicilia, Sánchez-Alonso, &
García-Barriocanal, 2011)
• Modelos de Proceso usuales en Ingeniería de Software (IEEE, 1992, 2008; Oktaba et
al., 2007).
14
MINISTERIO DE EDUCACION Y DEPORTE
Universidad Nacional de Misiones
Secretaría General de Ciencia y Tecnología
CRONOGRAMA DE TRABAJO
Año 1 Año 2 Año 3
Actividades
Q1 Q2 Q3 Q4 Q1 Q2 Q3 Q4 Q1 Q2 Q3 Q4
1. RELEVAMIENTO BIBLIOGRÁFICO
1. Realizar una investigación documental exploratoria buscan
2. Realizar una investigación documental exploratoria sobr
3. Realizar una investigación documental exploratoria sobre
15
MINISTERIO DE EDUCACION Y DEPORTE
Universidad Nacional de Misiones
Secretaría General de Ciencia y Tecnología
16
MINISTERIO DE EDUCACION Y DEPORTE
Universidad Nacional de Misiones
Secretaría General de Ciencia y Tecnología
Kowalski, G. (2007). Information Retrieval Systems: Theory and Implementation, 1st ed. Norwell, MA, USA:
Kluwer Academic Publishers.
Kuna, H. D., Rey, M., Martini, E., Canteros, A., Rambo, A. R., Biale, C. O., & Zamudio, E. (2016). Avances en la
construcción de un Sistema de Recuperación de Información para información científica en Ciencias de la
Computación. In XVIII Workshop de Investigadores en Ciencias de la Computación (WICC 2016). Entre Ríos: Red
de Universidades con Carreras en Informática.
Kuna, H., Martini, E., & Rey, M. (2015). Evolution of a Ranking Algorithm for Scientific Documents in the
Computer Science Area. In G. E. Feierherd, P. M. Pesado, & M. O. Spositto (Eds.), Computer Science and
Technology Series: XX Argentine Congress of Computer Science. Selected papers (pp. 145–155). La plata,
Buenos Aires, Argentina: Editorial de la Universidad de La Plata (Edulp).
Kuna, H., Rey, M., Cortés, J., Martini, E., & Solonezen, L. (2014). Generating a Ranking Algorithm for Scientific
Documents in the Computing Science Area. In J. R. Finochietto & P. M. Pesado (Eds.), Computer Science and
Technology Series: XIX Argentine Congress of Computer Science. Selected Papers (1st ed., pp. 185–195). La
plata, Buenos Aires, Argentina: Editorial de la Universidad de La Plata (Edulp).
Kuna, H., Rey, M., Martini, E., Rambo, A., & Podkowa, L. (2015). Avances en el Desarrollo de un Sistema de
Recuperación de Información para Publicaciones Científicas del Área de Ciencias de la Computación. Revista
Latinoamericana de Ingeniería de Software, 3(1), 47–55.
Kuna, H., Rey, M., Podkowa, L., Martini, E., & Solonezen, L. (2014). Expansión de consultas basada en ontologías
para un sistema de recuperación de información. XVI Workshop de Investigadores En Ciencias de La
Computación, 500–504.
Kuna, H., Rey, M., Zamudio, E., Olivas, J. A., Rambo, A., Cantero, A., … Biale, C. (2017). An entity profile schema
for data integration in an academic metasearch engine. In H. R. Arabnia, D. de la Fuente, E. B. Kozerenko, J. A.
Olivas, & F. G. Tinetti (Eds.), Proceedings of the 2017 International Conference on Artificial Intelligence (ICAI’17).
Las Vegas, United States of America: CSREA Press.
LeCun, Y., Bengio, J., Hinton, G. (2015). Deep Learning, Nature, 521, pp. 436 – 444.
Ley, M. (2002). The DBLP Computer Science Bibliography: Evolution, Research Issues, Perspectives (pp. 1–10).
Springer, Berlin, Heidelberg.
Li, H., Li, H., Councill, I., Lee, W., & Giles, C. L. (2006). CiteSeerX: an Architecture and Web Service Design for an
Academic Document Search Engine. INTERNATIONAL WORLD WIDE WEB CONFERENCE, 883--884.
doi=10.1.1.80.1086
Lopez, S. E. S. (2007). Modelo de indexacion de formas en sistemas VIR basado en ontologias.
Manning, C. D., Prabhakar, R., & Hinrich, S. (2008). Introduction to Information Retrieval. New York, NY, USA:
Cambridge University Press.
Martins, S, Pesado, P., Garcia-Martinez, R. (2014). Propuesta de Modelo de Procesos para una Ingeniería de
Explotación de Información: MoProPEI. Revista Latinoamericana de Ingeniería de Software, 2(5): 313.332. ISSN
2314-2642.
Ministerio de Ciencia, T. e I. P. (2012). MEDICIÓN DE ÁREAS PRIORITARIAS - Producción científica y tecnológica
en TIC -. http://www.mincyt.gob.ar/informes/produccion-cientifica-y-tecnologica-en-tic-8095
Moed, H. F. (2009). Measuring contextual citation impact of scientific journals. Retrieved from
http://arxiv.org/abs/0911.2632
Oktaba, H., Piattini Velthuis, M. G., Pino, F. J., García Rubio, F., Martínez Ruiz, T., Alquicira Esquivel, C., & Ruiz
González, F. (2007). Competisoft: mejora de procesos software para pequeñas organizaciones. Fábricas de
Software: Experiencias, Tecnologías Y Organización, 2007, ISBN 978-84-7497-809-0, Págs. 257-287, 257–287.
Olivas Varela, J. A. (2011). Búsqueda eficaz de información en la Web.
Ortega, J. L., & Aguillo, I. F. (2014). Microsoft academic search and Google scholar citations: Comparative
analysis of author profiles. Journal of the Association for Information Science and Technology, 65(6), 1149–
1156.
Pazzani, M. & Billsus, D. (1997). Learning and Revising User Profiles: The Identification of Interesting Web Sites.
Mach. Learn., vol. 27, núm. 3, pp. 313–331.
17
MINISTERIO DE EDUCACION Y DEPORTE
Universidad Nacional de Misiones
Secretaría General de Ciencia y Tecnología
Rey, M., Kuna, H. D., Martini, E., Canteros, A., Cantero, A., Rambo, A., & Biale, C. O. (2016). Propuesta de
esquemas de perfiles para la recuperación de datos científicos para un sistema de recuperación de información
del área de Ciencias de la Computación.
Rey, M., Kuna, H. D., Martini, E., Rambo, A., Biale, C. O., Zamudio, E., & Canteros, A. (2015). Modelos de
evaluación de producción científica para el área de Ciencias de la Computación. Retrieved from
http://sedici.unlp.edu.ar/handle/10915/45837
Rey, M., Kuna, H., Martini, E., Podkowa, L., Pautsch, G., & Zamudio, E. (2014). Generación de un Método de
Expansión de Consultas Basado en Ontologías para un Sistema de Recuperación de Información.
Rich, E. (1989). Stereotypes and User Modeling. User Models in Dialog Systems, A. Kobsa y W. Wahlster, Eds.
Springer Berlin Heidelberg, 1989, pp. 35–51.
Riveros, H. G., & Rosas, L. (1990). El método científico aplicado a las ciencias experimentales. Trillas.
Rombach, H. D., Basili, V. R., & Selby, R. W. (1993). Experimental software engineering issues : critical
assessment and future directions : international workshop, Dagstuhl Castle, Germany, September 14-18, 1992 :
proceedings. Proceedings of the International Workshop on Experimental Software Engineering Issues: Critical
Assessment and Future Directions. Springer-Verlag.
Ruiz-Morilla, J., Serrano-Guerrero, J., Olivas, J. A., & Viñas, E. F. (2010). Representación Múltiple de Consultas:
Una alternativa a la Expansión de Consultas en Sistemas de Recuperación de Información.
Sabato, J. A., Mackenzie, M., & Instituto Latinoamericano de Estudios Transnacionales. (1982). La producción de
tecnología : autónoma o transnacional. Instituto Latinoamericano de Estudios Transnacionales.
Schmidhuber, J. (2015). Deep learning in neural networks: An overview, Neural Networks, vol. 61, pp. 85-117.
Sicilia, M.-A., Sánchez-Alonso, S., & García-Barriocanal, E. (2011). Comparing impact factors from two different
citation databases: The case of Computer Science. Journal of Informetrics, 5(4), 698–704.
Sistema Nacional de Repositorios Digitales, & Ministerio de Ciencia, T. e I. P. (n.d.). Portal de Datos.
http://repositoriosdigitales.mincyt.gob.ar/dnet-web-generic/
Smalheiser, N.R., Torvik, V.I. (2009). Author name disambiguation. Ann. Rev. Info. Sci. Tech. 43, 1–43.
Srivastava, J., Cooley, R., Deshpande, M., Tan, P. (2000). Web Usage Mining: Discovery and Applications of Usage
Patterns from Web Data. SIGKDD Explorations, 12: 12-23.
Tang, J., & Jie. (2016). AMiner. In Proceedings of the 25th International Conference Companion on World Wide
Web - WWW ’16 Companion (pp. 373–373). New York, New York, USA: ACM Press.
Torres Salinas, D., & Jiménez Contreras, E. (2010). Introducción y estudio comparativo de los nuevos indicadores
de citación sobre revistas científicas en Journal Citation Reports y Scopus. El Profesional de La Información,
19(2), 201–208.
Wu, Q. (2008). The w-index: A significant improvement of the h-index.
Zamudio, E., Berdún, L. S., & Amandi, A. (2013). Un algoritmo genético para la conformación de grupos de
individuos distantes en redes sociales. In Argentine Symposium on Artificial Intelligence, 42 JAIIO. Córdoba,
Argentina.
Zamudio, E., Berdún, L. S., & Amandi, A. (2014). An approach to the creation of commissions of independent
individuals using social networks and genetic algorithms. Revista Iberoamericana de Inteligencia Artificial,
17(53), 24–34.
Zamudio, E., Berdún, L. S., & Amandi, A. A. (2016). Social networks and genetic algorithms to choose
committees with independent members. Expert Systems with Applications, 43, 261–270.
Zhang, C.-T., Daniel, H., Daniel, H., & Egghe, L. (2009). The e-Index, Complementing the h-Index for Excess
Citations. PLoS ONE, 4(5), e5429.
18