Documentos de Académico
Documentos de Profesional
Documentos de Cultura
pa
* jburbanob@est.ups.edu.ec *hortegae@est.ups.edu.ec
RESUMEN– En el presente artículo se realizar una reducción significativa en los datos que se almacenan en los servidores encargados de
almacenar datos, sin recurrir a eliminar datos; para de esta manera administrar los datos almacenados y tener una base de datos eficiente y óptima
que sea capaz de almacenar una extensa cantidad de datos encriptados sin afectar la calidad de la información. Para lo que se realizara un algoritmo
que me permita la encriptación más óptima de acuerdo al tipo de datos a ser almacenados, de acuerdo a los datos medidos en una red eléctrica
inteligente, para la correcta elaboración del algoritmo se lo realiza en el programa Matlab,; los datos almacenados deben estar disponibles para una
correcta administración, para de esta manera poder tener una base de datos ideal, que permita poder hacer una proyección de la demanda sin la
necesidad de tener servidores con capacidades enormes de memoria; además se realiza una comparación entre las velocidades de procesamiento de
datos.
ABSTRACT– This article will make a significant reduction in the data stored on the servers responsible for storing data, without resorting to
deleting data; in order to manage the stored data and have an efficient and optimal database that is capable of storing a large amount of encrypted
data without affecting the quality of the information. For what an algorithm will be made that allo ws me the most optimal encryption according to
the type of data to be stored, according to the data measured in an intelligent electrical network, for the correct elaboration of the algorithm it is
done in the Matlab program, ; the stored data must be available for proper administration, in order to have an ideal database, which allows projection
of the demand without the need for servers with huge memory capacities; In addition, a comparison is made between data processing speeds.
Keywords– Apache Hadoop; BigData; Data Modeling, demand response.
Citación: Primera_letra_nombre. Apellido, “Titulo_artículo”, Revista de I+D Tecnológico, vol. 15, no. 1, pp. (no_modificar), 2019.
Tipo de artículo: No_modificar. Recibido: No_modificar. Recibido con correcciones: No_modificar. Aceptado: No_modificar.
DOI.
Copyright: 2019 Primera_letra_nombre. Apellido. This is an open access article under the CC BY-NC-SA 4.0 license (https://creativecommons.org/licenses/by-nc-
sa/4.0/).
de datos fue de aproximadamente 45.000 millones de
kWh/año y más de 120.000 millones de kWh/año en todo
el mundo. Actualmente el centro de datos más grande del 2. Compresión de datos sin perdida.
mundo está ubicado en Washington y le pertenece a
Microsoft el cual ocupa 47.000 metros cuadrados y
funciona con 47 MW, lo que le cuesta más de 18 millones Se denomina algoritmo de compresión sin pérdida a
de dólares al año en energía eléctrica [4]–[6]. cualquier procedimiento de codificación que tenga como
El tratamiento de una gran cantidad de datos o objetivo representar cierta cantidad de información
BigData está dirigido a sofisticados algoritmos y utilizando u ocupando una fracción menor en unidad de
sistemas informáticos, esenciales para el adecuado uso de almacenamiento de datos establecida, siendo posible una
cantidades masivas de datos; existen cuatro atributos reconstrucción exacta de los datos originales.
claves para el tratamiento de BigData: volumen, La compresión sin perdidas es una técnica que consiste
velocidad, variedad y veracidad [7]–[9]. en la garantía de generar un duplicado exacto del flujo de
Volumen. - Es común mente utilizado como un datos de entrada después de un ciclo de compresión /
sinónimo de BigData ya que es uno de los aspectos más expansión. Es generalmente implementada usando uno o
representativos de este, pero no el único; debido a la dos diferentes tipos de modelos: estático o basado en
proliferación de los sistemas de información e diccionario.
inteligencia el volumen de los datos ha crecido hasta
alcanzar los rangos de pentabytes [10], por lo que el Dentro de las técnicas de compresión de datos, y
tratamiento de datos es difícil de manejar a esas atendiendo a la reversibilidad de la información original,
cantidades de datos, por lo que las soluciones más hay dos grandes familias:
comunes son la implementación de bases de datos para Técnicas de compresión "lowless" o sin perdida (para
escalar verticalmente. Sin duda la cantidad de datos datos en los que es imprescindible que no se pierda nada
seguirá creciendo superando fácilmente los volúmenes de información, como por ejemplo registros de bases de
de información que mantienen las empresas actualmente datos, ficheros ejecutables, hojas de cálculo...etc).
[11]. Velocidad. - La creciente generación de Técnicas de compresión "lossy" o con perdida (para
información se asocia con la necesidad de utilizar estos datos en los que se permite cierta pérdida de información
datos más rápidamente; GPS, teléfonos móviles, "sin que se note demasiado", como por ejemplo en
medidores inteligentes generan datos en cada fracción de ficheros en MP3, imágenes en JPEG, PNG...etc. Aquí
segundo para varias métricas diferentes y así se genera una pequeña disminución en la calidad final no se nota
un flujo constante de información que tiene que ser demasiado, pero influye muy positivamente en la
tratada con el tiempo, teniendo en cuenta que si estos reducción del peso del fichero). Estos últimos no entran
datos no se convierten en información útil carecen de dentro del presente trabajo.
valor [12]–[15].
El modelo estático lee y codifica mientras utiliza la
probabilidad de aparición de un carácter. Su forma más
simple usa una tabla estática de probabilidades, en el
inicio generar un árbol de Huffman tenía costos
significantes por tanto no siempre era generado, en su
lugar se analizaban bloques representativos de datos,
dando una tabla de frecuencia característica. Entonces los
árboles de Huffman se generaban y los programas tenían
acceso a este modelo estático. Pero utilizar un modelo
estático tiene sus limitaciones. Si un flujo de entrada no
concuerda bien con la previamente estadística
acumulada, la relación de compresión se degradaría,
Fig. 1 Tratamiento de datos de una infraestructura de posiblemente hasta el punto de que el flujo de datos
medición inteligente. saliente fuese tan largo como el entrante. Por tanto, la
siguiente mejora obvia fue construir una tabla estática a Este trabajo está enfocado al tratamiento de BigData
cada flujo de entrada único. antes de su almacenamiento, con el objetivo de reducir
significativamente la cantidad de información a ser
El modelo basado en diccionario usa un código simple almacenada, para lo cual se toman en cuenta los atributos
para reemplazar cadenas de símbolos, los modelos que presenta un BigData generado por AMI; se lo
estáticos generalmente codifican un símbolo a la vez. El implementara por medio de un algoritmo que me permita
esquema de compresión basada en diccionario utiliza un la reducción de datos adecuada de acuerdo al tipo de
concepto diferente. Lee una entrada de datos y observa variable a ser almacenada, sin eliminar datos pero si
por grupos de símbolos que aparecen en el diccionario. tomando en cuenta la redundancia de los mismos, para
Si una cadena concuerda, un indicador o índice en el posteriormente establecer una codificación de mi
diccionario puede salir en lugar del código del símbolo información y así reducir aún más el volumen de
información a ser almacenada. Lo cual me permitirá
Algunos algoritmos de compresión sin pérdidas son los almacenar una mayor cantidad de datos almacenada en
algoritmos Lempel-Ziv que incluyen LZ77, LZ78 y LZ- los mismos servidores permitiéndome de esta manera
W. tener una base de datos más extensa para poder realizar
una proyección a la demanda más confiable, sin la
Este sistema de compresión se usa en compresores de
necesidad de invertir en nuevos servidores.
archivo (RAR, Gzip, Bzip, zip, 7z, ARJ, LHA) y de
disco, también en imágenes (PNG, RLE) y en algún
Actualmente vivimos en un mundo rodeado de
formato de audio (FLAC, Monkey's Audio), en video es
generación de información que nos rodea sin que en
menos común, pueden ser usados para su captura y
muchas ocasiones nos demos cuenta de ello; en la figura
edición, pero no comercializada para reproducción
1 tenemos una infraestructura de medición inteligente
doméstica.
que envía constantemente datos a los respectivos
concentradores de información, para de esta manera
3. Algoritmo de Hufman. transmitirla hacia los servidores de almacenamiento de
información, en donde previamente se implementa el
El algoritmo para la compresión de datos sin pérdida tratamiento de datos propuesto.
de datos desarrollado por David Huffman en el Instituto
Tecnológico de Massachusetts en 1952, se basa en la 4. Normas para la recepción de los artículos
frecuencia de ocurrencia de los caracteres presentes en el
archivo a comprimir [25]. El algoritmo Huffman está En una infraestructura de medición inteligente los
basado en codificación estadística, lo que significa que la datos obtenidos son miles de millones al día, por lo que
probabilidad de un símbolo tiene una directa relación con se propone una solución antes de su almacenamiento para
el tamaño de su representación, es decir, a mayor de esta manera disminuir la cantidad de datos a ser
probabilidad de ocurrencia de un símbolo, menor será el almacenados y así aumentar la capacidad de nuestros
tamaño de su representación en bits [28]. Para realizar la equipos de almacenamiento sin tener que compra nuevos
codificación Huffman, se debe realizar primero un equipos de una mejor capacidad.
ordenamiento de los símbolos en orden creciente según
sus probabilidades. Los dos símbolos menos probables se Para lo cual se realiza una clasificación de los datos
agrupan en un pseudosímbolo cuya probabilidad es la por medio del algoritmo de Huffman el cual consisten en
suma de las probabilidades de los símbolos fusionados tener en un conjunto de datos S, y clasificarlos en un
[26]. Los restantes símbolos son nuevamente ordenados conjunto W de acuerdo a las características eléctricas del
en función de sus probabilidades, combinando los dos mismo, para finalmente almacenarlos en relación a la
menos probables y sumando sus probabilidades en uno frecuencia de cada uno de los datos y finalmente
nuevo reiteradamente. El proceso se repite hasta que todo almacenar el camino que lleva a cada uno datos
el árbol generado se reduce a un símbolo con ahorrando caracteres en el almacenamiento.
probabilidad igual a la unidad.
S={a1,a2,……,an} [1]
W={w1,w2,……,wn} [2]
En la ecuación 2 se crean los rangos de las frecuencias
de un dato para posteriormente almacenar la frecuencia
del mismo.
7. Agradecimientos