Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1
Departamento de Ciencias Básicas, Universidad Nacional de Luján
2
Departamento de Computación, FCEyN, Universidad de Buenos Aires
3
Facoltà di Scienze Informatiche, Università della Svizzera Italiana
cuperación2 sobre una porción del espacio web que Lı́neas de I+D
han recorrido y procesado [2].
El tamaño y complejidad de la web3 genera nue- Este proyecto sigue con las lı́neas de I+D del
vas necesidades de almacenamiento, procesamiento grupo, las cuales se dividen en dos grupos principa-
y búsquedas, expandiendo los lı́mites del trabajo en les, aunque con temas en la intersección de ambos.
una sola máquina y unos pocos algoritmos. Se re- En el primer caso, se trata de mejorar la eficiencia
quiere hoy de procesamiento distribuido, paralelo en la recuperación de información de gran escala,
y altamente eficiente. Las consultas deben ser res- rediseñando los algoritmos internos y las estructu-
pondidas en pequeñas fracciones de tiempo (mili- ras de datos usadas. En el segundo, se proponen
segundos) y deben ofrecer resultados relevantes so- y evalúan arquitecturas de procesamiento de gran-
bre un escenario altamente heterogéneo, en el cual des datos para problemas diversos. En ambos casos,
aparecen oportunidades únicas para avances cientı́fi- existen oportunidades de investigación en temas po-
co/tecnológicos en áreas como algoritmos, estructu- co explorados por la comunidad cientı́fica. En par-
ras de datos, sistemas distribuidos y procesamiento ticular, las lı́neas de I+D principales son:
de datos a gran escala [5].
Como parte también de esta realidad, uno de los a. Estructuras de Datos y Algoritmos
conceptos que ha ganado espacio en los últimos años para Búsquedas
es el de “Big Data”. En términos generales, repre-
Los sistemas de búsqueda en texto utilizan co-
senta la idea de la masividad de datos, su veloci-
mo estructura de datos básica el ı́ndice invertido,
dad de aparición y variedad de fuentes (estructura-
formado por un vocabulario (V ) con todos los posi-
dos, semi-estructurados y no estructurados) que se
bles términos y un conjunto de posting lists (L) con
generan y requieren ser procesados para diferentes
información acerca de los documentos donde apare-
tareas. En particular, no son viables para el almace-
ce cada término junto con información usada para
namiento en sistemas de gestión de bases de datos
el ranking (por ejemplo, la frecuencia de aparición
tradicionales y, menos aún, en un único equipo de
de un término ti en un documento dj ).
cómputo. Por lo tanto, esta idea aplica a cúmulos de
1. Caching: Una de la técnicas más utilizadas
datos que no pueden ser procesados y/o analizados
para aumentar la performance en los sistemas de
de forma eficaz y eficiente utilizando técnicas y he-
búsqueda a gran escala es el caching, que se basa en
rramientas tradicionales [19], por lo que se requieren
la idea fundamental de almacenar en una memoria
nuevos enfoques. En la actualidad, muchas aplica-
de rápido acceso los ı́tems que volverán a aparecer
ciones importantes requieren de estrategias deriva-
en un futuro cercano. En un motor de búsquedas
das del concepto de Big Data para el procesamiento
esto se realiza en varios niveles, por ejemplo: resul-
de sus datos. Por ejemplo, las redes sociales [20],
tados [23], posting lists [33], intersecciones [18, 14]
los servicios de streaming [34], la genómica [24], la
y documentos [27].
meteorologı́a [16], entre otros.
Actualmente, nuestro grupo se enfoca principal-
Para el análisis de grandes volúmenes de datos,
mente en el problema de caching de resultados, pos-
consumidos por millones de usuarios en casi todos
ting lists e intersecciones. En el primero de los casos,
los ámbitos de la actividad humana se emplean, en-
se está trabajando con polı́ticas de admisión para
tre otras, técnicas del área de machine learning co-
cachés de resultados utilizando aproximaciones ba-
mo reconocimiento de patrones en textos, análisis
sadas en streaming, ya que las consultas arriban en
estadı́stico, visualización, agrupamientos, redes neu-
flujo y a altas tasas. La polı́tica de admisión se mo-
ronales, etc. [25], las cuales permiten convertir datos
dela como un problema de clasificación y se lo abor-
en información útil. En algunos casos, los problemas
da usando árboles de decisión dinámicos (Hoefding
aumentan su complejidad ya que en sus procesos in-
Adaptive Trees [3]) que permiten adaptarse a los
gestan grandes volúmenes de datos de fuentes diver-
patrones de consultas que evolucionan en el tiempo.
sas en tiempo real [26].
Complementariamente, se está estudiando el alma-
2
En sentido amplio, ya que se trata de múltiples fases de cenamiento de cantidades variables de resultados en
procesamiento como búsquedas y ranking, entre otras. caché, de acuerdo a la consulta.
3
Por ejemplo, Google indexa unos 45.000 millones de do-
Por otro lado, en cuanto al problema del caching
cumentos de acuerdo a http://www.worldwidewebsize.com
de intersecciones, se está trabajando en el diseño
temente en los problemas antes mencionados, prin- mientas y/o arquitecturas para abordar algunas de
cipalmente bajo restricción de recursos (commodity las problemáticas relacionadas con las búsquedas a
hardware) [8]. gran escala y el procesamiento de grandes datos.
Un caso puntual, es la construcción de ı́ndices Se estudian problemas relacionados con estruc-
mediante procesos distribuidos en un cluster, que turas de datos y algoritmos, combinándolas con
suele ser un requerimiento para las máquinas de técnicas de aprendizaje automático y optimización
búsqueda. Esto se debe a que los documentos pue- para aplicaciones de búsqueda. Se proponen mejoras
den ser procesados en paralelo por diferentes nodos que apuntan a la eficiencia en una tarea. En parti-
y realizarse posteriormente un proceso de integra- cular, se espera alcanzar los siguientes objetivos:
ción de los datos para la construcción del ı́ndice in-
vertido final, el cual puede estar particionado o no. Definir y evaluar estructuras de datos hı́bridas
Por otro lado, aparecen estructuras de datos para que permitan ahorrar espacio mientras man-
ı́ndices que ofrecen un mejor rendimiento para la tienen la performace del sistema, amortiguan-
recuperación (bajo ciertas condiciones) como es el do el impacto del crecimiento en la cantidad
caso de Block-Max [9] y que son de interés cuando de información que se debe manejar.
se requiere soportar búsquedas a escala masiva.
Mejorar técnicas de caching especı́ficas en mo-
Otro caso abordado es el procesamiento de flu-
tores de búsqueda, tanto polı́ticas de reempla-
jos de streams de vı́deo provenientes de cámaras de
zo como de admisión (tema que no ha tenido
vigilancia. Se trabaja en estudiar la escalabilidad y
suficiente desarrollo aún). En especial, se in-
eficiencia de un cluster Spark [32] para el proble-
corpora el análisis del flujo de consultas en
ma de monitoreo en tiempo real y la detección de
streaming y se utilizan algoritmos apropiados.
figuras humanas en las secuencias de imágenes (fra-
mes). Esto último se modela como un problema de Diseñar y evaluar versiones optimizadas de
clasificación. La carga de trabajo se distribuye en- algoritmos de procsamientos de queries, que
tre los nodos bajo diferentes arquitecturas y se ana- permitan mejorar las prestaciones de los ser-
lizan los requerimientos de hardware para cumplir vicios de búsqueda.
con las restricciones temporales. Resultados prelimi-
nares muestran que los requerimientos para procesar Diseñar arquitecturas para aplicaciones es-
el video en tiempo real utilizando las técnicas men- pecı́ficas del área de Big Data, orientadas, por
cionadas son altos y se requiere de la optimización un lado, a la indexación masiva distribuida y,
tanto del cluster (selección de parámetros, lo que por el otro, al procesamiento de flujos de da-
no es trivial con este tipo de herramientas [17]) y de tos en streaming (como los flujos de video en
las piezas de software. También se trabaja con es- tiempo real).
quemas de muestreo para evitar procesar todos los
frames del video, pero manteniendo las prestacio-
Formación de Recursos Humanos
nes.
En esta lı́nea de investigación se utilizan pla- Este proyecto brinda un marco para que docen-
taformas y técnicas del ámbito de Grandes Datos tes auxiliares y estudiantes lleven a cabo tareas de
(Por ejemplo, Hadoop/MapReduce) para estudiar, investigación y se desarrollen en el ámbito académi-
diseñar y evaluar algoritmos para diferentes proble- co. Recientemente, se ha finalizado una tesis de la
mas como los mencionados y tratar de establecer los maestrı́a en “Exploración de Datos y Descubrimien-
parámetros que determinan la eficiencia del proce- to de Conocimiento”, DC, FCEyN, UBA y tres de
so, tales como propiedades de los datos de entrada Licenciatura en Sistemas de Información (UNLu).
o las caracterı́sticas de un cluster particular. Actualmente, se están dirigiendo tres trabajos
finales de la Lic. en Sistemas de Información (UN-
Resultados y objetivos Lu), hay dos pasantes alumnos y un becario CIN
(Beca Estı́mulo a las Vocaciones Cientı́ficas). Se es-
El objetivo principal del proyecto es estudiar, pera dirigir al menos dos estudiantes más por año y
desarrollar, aplicar, validar y transferir modelos, al- presentar dos candidatos a becas de investigación.
goritmos y técnicas que permitan construir herra-
[9] S. Ding and T. Suel. Faster top-k document [19] S. Madden. From databases to big data. IEEE
retrieval using block-max indexes. In Proc. of Internet Computing, 16(3):4–6, 2012.
the 34th International ACM SIGIR Conference
[20] J. Magnusson. Social network analysis utilizing
on Research and Development in Information
big data technology, 2012.
Retrieval, SIGIR ’11. ACM, 2011.
[21] A. Ntoulas and J. Cho. Pruning policies for [31] M. Zaharia, M. Chowdhury, M. J. Franklin,
two-tiered inverted index with correctness gua- S. Shenker, and I. Stoica. Spark : Cluster Com-
rantee. In Proc. of the 30th Annual Internatio- puting with Working Sets. HotCloud’10 Proc.
nal ACM SIGIR Conference on Research and of the 2nd USENIX conference on Hot topics
Development in Information Retrieval, 2007. in cloud computing, page 10, 2010.