Está en la página 1de 5

Comportamiento de Bases de Datos No Relacionales

en Entornos Distribuidos

Ana La Carabio1, Marcelo G. Benedetto1, Marcelo A. Falappa2


1
Facultad de Ciencias de la Administracin - Universidad Nacional de Entre Ros
Monseor Tavella 1424 Concordia, Entre Ros (3200) - Tel.: +54(0345)4231406
{anacar, marben}@fcad.uner.edu.ar
2
Departamento de Ciencias e Ingeniera de la Computacin - Universidad Nacional del Sur
Avenida Alem 1253 - Baha Blanca (B8000CPB) - Tel.: +54(0291)4595135
mfalappa@cs.uns.edu.ar

Resumen relacional, y el comportamiento de la red


de comunicaciones, con el fin de evaluar
La estructura de un sistema de el rendimiento a medida que se actualiza
informacin tpico actual consta, en la informacin en un entorno distribuido.
general, de programas de aplicacin
distribuidos, un Sistema de Gestin de Palabras clave: Bases de Datos,
Base de Datos (SGBD) y una red que Sistemas Distribuidos, Redes de
permite entregar la informacin desde y Comunicacin, Medidas de Performance.
hacia los distintos usuarios.
Dentro de los SGBD actuales han surgido
Contexto
las bases de datos NOSQL (Not Only Este trabajo se desarrolla dentro del
SQL) y los Sistemas de Almacenamiento Proyecto de Investigacin y Desarrollo
de Datos Masivos (Big Data Storage PID 7042 Estudio Comparativo y
Systems), que almacenan la informacin Anlisis de Rendimiento de los Lenguajes
en forma distribuida y permiten una de Manipulacin de Datos en Bases de
mayor escalabilidad. Datos Orientadas a Objetos y Bases de
El tiempo utilizado en la comunicacin Datos Objeto-Relacionales[1], cuyo
entre los distintos nodos afecta la perodo de ejecucin ser desde
performance de la base de datos y, por noviembre de 2014 a noviembre de 2017,
consiguiente, el tiempo de respuesta al en el marco de un Acuerdo de
usuario, poniendo en evidencia la Colaboracin Acadmico-Cientfico entre
importancia del comportamiento de la red la Facultad de Ciencias de la
en el rendimiento de un sistema de Administracin de la Universidad
informacin. Nacional de Entre Ros (UNER) y el
En este trabajo de investigacin se Instituto de Ciencias e Ingeniera de la
buscar analizar el comportamiento de Computacin (ICIC) del Departamento de
una base de datos no puramente Ciencias e Ingeniera de la Computacin

338
(DCIC) de la Universidad Nacional del a Objetos (SGBDOO) [2]. Tambin han
Sur (UNS). surgido las bases de datos NOSQL (Not
Uno de los objetivos del proyecto apunta Only SQL) [2], las cuales permiten mayor
a establecer comparaciones en el escalabilidad que los sistemas
rendimiento de sistemas desarrollados en tradicionales [3], y los Sistemas de
lenguajes orientados a objetos que Almacenamiento de Datos Masivos (Big
interactan con diversos modelos de Data Storage Systems). Estos sistemas
bases de datos. han emergido en compaas y
Adems, este proyecto prioriza la organizaciones que almacenan grandes
formacin de recursos humanos para cantidades de informacin en forma
investigacin en la Facultad de Ciencias distribuida, entre las cuales podemos citar
de la Administracin de la UNER, Google, Yahoo, Amazon, Facebook, etc.
especializados en la lnea de investigacin En cuanto a la tecnologa de redes de
denominada Ingeniera de Software y computadoras, la misma promueve una
Lenguajes de Programacin establecida forma de trabajo que procura, en general,
por Res. 25/11 del Consejo Directivo. evitar la centralizacin; mientras que uno
de los objetivos del uso de las bases de
Introduccin datos es la necesidad de integrar los datos
y proveer mecanismos que controlen el
Las redes de computadoras y las bases de
correcto acceso a los mismos [4].
datos son utilizadas masivamente por las
En los sistemas distribuidos los datos se
aplicaciones de hoy en da, dado que la
encuentran almacenados en varios
disponibilidad y acceso a la informacin
servidores, y los clientes pueden acceder
se ha convertido en una herramienta
a ellos por medio de una red de
indispensable para la toma de decisiones.
comunicacin [5, 6]. Cuando el SGBD
La estructura de un sistema de
y/o los datos se encuentran alojados en
informacin tpico actual consta, en
sitios remotos, las consultas a la base de
general, de programas de aplicacin
datos pueden generar que la informacin
distribuidos, un SGBD y una red que
atraviese varias redes y/o dispositivos
permite entregar la informacin desde y
(nodos) hasta llegar a destino, lo que
hacia los distintos usuarios.
incide directamente en el rendimiento.
Dentro de los SGBD, el modelo
Independientemente de la red utilizada, la
relacional ha sido el ms utilizado, a
transferencia de informacin a travs de
pesar de ciertas limitaciones. En la
cualquier canal de comunicacin requiere
actualidad, existen extensiones de estos
de un tiempo que depender del ancho de
sistemas que incorporan los conceptos de
banda del canal, de la longitud y
tipos complejos y orientacin a objetos
sobrecarga del enlace, de la velocidad y
conformando los SGBDOR Sistemas de
eficiencia de la red, del nmero de nodos,
Gestin de Base de Datos Objeto-
entre otros [6, 7]. El tiempo utilizado en
Relacionales (SGBDOR) y los Sistemas
la comunicacin constituye un retardo
de Gestin de Base de Datos Orientados
que afecta la performance de la base de

339
datos y, por consiguiente, el tiempo de simple que la de las bases de datos
respuesta al usuario [8]. relacionales, utilizando principalmente
Las bases de datos relacionales y objeto- dos tcnicas (replicacin y sharding), de
relacionales fueron concebidas, las que derivan otros modelos de
inicialmente, para instalaciones distribucin. La replicacin duplica los
centralizadas, aunque conceptualmente datos en mltiples nodos, utilizando el
pueden implementarse de manera modelo maestro-esclavo o el modelo
distribuida [8]. Cuando las aplicaciones peer-to-peer, mientras que sharding
se ejecutan en un entorno distribuido, divide (fragmenta) la informacin en
tanto el programador de aplicacin como varios nodos. Estas tcnicas, con sus
el usuario del sistema deberan ventajas y desventajas, tambin pueden
independizarse de aspectos fsicos tales combinarse entre s, generando un
como: cantidad de nodos de la red, esquema ms complejo [11].
topologa de la misma, rplicas de los
datos, y/o fragmentacin de las Lneas de Investigacin,
relaciones. No obstante, si nos abstraemos Desarrollo e Innovacin
totalmente de la red y no consideramos
En la actualidad han cobrado importancia
que los recursos estn fsicamente
las bases de datos no puramente
ubicados en varias computadoras [4], se
relacionales, caracterizadas,
corre el riesgo de caer en los famosos
principalmente, por su almacenamiento
supuestos de la computacin distribuida,
distribuido y su fcil escalabilidad. En
que terminan siendo falsos y generan
esta lnea, se buscar analizar el
grandes problemas a largo plazo: la red es
comportamiento de bases de datos no
confiable, la latencia es cero, el ancho de
relacionales del tipo NOSQL con
banda es infinito, la red es segura, la
distintos esquemas de distribucin, con la
topologa no cambia, existe un solo
finalidad de evaluar su rendimiento a
administrador, el costo de transporte es
medida que se actualiza la distribucin de
cero y la red es homognea [9].
la informacin.
El rendimiento de un SGBD distribuido
A su vez, la distribucin de informacin
se ve afectado por el nmero de sitios en
calificada, como pueden ser los datos
los que dicho sistema est distribuido, as
multimediales, se encuentra con ciertos
como tambin por el grado de replicacin
obstculos que presentan las redes de
de los datos, entre otros parmetros
comunicaciones para soportar este tipo de
[8,10,12]. Por ejemplo, en una base de
datos. En particular, la transmisin de
datos relacional tradicional, las relaciones
ciertos datos requiere un ancho de banda
se pueden fragmentar horizontalmente
determinado y no deberan perder
(por tuplas), verticalmente (a travs de la
continuidad. Por ejemplo, cuando se
descomposicin en subesquemas), y
transfiere audio y/o video mediante
combinado.
streaming, es necesario que la
En particular, las bases de datos NOSQL
informacin tenga continuidad de
permiten una replicacin entre nodos ms

340
reproduccin. En este sentido, se intentar Finalmente, se estudiarn los protocolos
formular y/o adaptar protocolos de distribuidos existentes y, si fuera
comunicacin que permitan garantizar necesario, se reformularn y/o generarn
que la informacin transferida a travs de nuevos protocolos con el fin de lograr un
la red tenga la fluidez esperada. mejor comportamiento.
Los resultados de esta investigacin
Resultados y Objetivos dependern de: las variables de medicin
contempladas, los datos manipulados por
Dada la incidencia que indudablemente
las bases de datos no relacionales, la
tiene el comportamiento de la red sobre el
cantidad de lecturas y escrituras
rendimiento global de un sistema de
realizadas en la misma, y la cantidad de
informacin y de una base de datos
mensajes de control transferidos a travs
distribuida no puramente relacional en
de la red.
particular, se hace necesario evaluar el
desempeo de la red y posteriormente Formacin de Recursos Humanos
determinar la incidencia de dicho
comportamiento sobre el rendimiento de Como parte del actual proyecto de
la base de datos. Para ello se prev: investigacin se espera que uno de los
Seleccionar e instalar distintas bases de docentes investigadores, y que es autor de
datos del tipo NOSQL, con distintos este artculo, complete su Tesis de
modelos de distribucin, sobre una red Magister en Redes de Datos en la
con al menos dos o tres computadoras Facultad de Informtica de la Universidad
personales con procesadores de varios Nacional de La Plata. A su vez, se
ncleos, y un nmero incremental de buscar formar nuevas sublneas de
mquinas virtuales. investigacin relacionadas a este
Evaluar el desempeo de la red en proyecto, as como tambin la formacin
distintas instancias de trabajo, de nuevos alumnos en los posgrados
utilizando como indicadores, dictados en el mbito de la UNER y de la
inicialmente, la tasa de transferencia UNS.
(throughput), el retardo y la prdida de
paquetes. En caso que la investigacin Referencias
as lo requiera, se estimar la [1] Benedetto, Marcelo G., Carabio, Ana
incorporacin de otras variables de La R., Alvez, Carlos E., Fernndez,
medicin, y/o determinar preferencias Miguel, Etchart, Graciela, Cabrera, Sergio
entre las variables ya medidas. A., Bentez, Horacio D., Falappa,
Evaluar el comportamiento de las Marcelo A, Martnez, Diego C. & Cobo,
distintas bases de datos NOSQL M. Laura (2015). Seleccin de lenguajes
instaladas y determinar la incidencia orientados a objetos para un estudio
del comportamiento de la red sobre el comparativo y anlisis de rendimiento.
rendimiento de dichas bases de datos. En XVII Workshop de Investigadores

341
en Ciencias de la Computacin, [9] Rotem-Gal-Oz, Arnon. (2006).
WICC2015. Fallacies of distributed computing
explained. http://www.rgoarchitects.com/
[2] Elmasri, Ramez, & Navathe, Files/fallacies. pdf.
Shamkant B. (2015). Fundamentals of
Database Systems. 7th. Edition. Addison [10] Maabreh, Khaled S. (2011). An
Wesley. Analyzing Study of the Distributed
Database System Parameters. Technical
[3] Cattell, Rick (2011). Scalable SQL Report. Faculty of Science and
and NoSQL data stores. ACM SIGMOD Information technology. Zarqa
Record, 39(4), 12-27. University. Jordan, Al Zarqa.

[4] zsu, M. Tamer, & Valduriez, Patrick [11] Prez Blanco, Carlos. (2013).
(2011). Principles of Distributed NoSQL databases in cross-platform
Database Systems. Third Edition. development.
Springer Science & Business Media.
[12] Garcia-Molina, Hector, Ullman,
[5] Kurose, James F. & Ross, Keith W. Jeffrey D. & Widom, Jennifer (2008).
(2012). Computer Networking: A Top- Database Systems: The Complete Book.
Down Approach. Sixth Edition. Pearson. Second Edition. Pearson.

[6] Sahu, Amir. K., & Hemrajani, Naveen


(2012). An Analysis of Distributed
Computer Network Administration.
International Journal of Computer
Technology and Applications, 3(2):
660-667.

[7] Gmiz Caro, Juan, & Martnez Garca,


Herminio (2008). El retardo del mensaje
en sistemas de control distribuidos a
travs de Ethernet estndar. In la Quinta
Conferencia Internacional de la
Facultad de Ingeniera Elctrica: 1-7.

[8] Silbertschatz, Abraham. & Korth,


Henry. Sixth Edition (2010). Database
System Concepts. McGraw-Hill
Education.

342

También podría gustarte