Está en la página 1de 7

Portal de revistas: http://revistas.utp.ac.

pa

Algoritmo Compresión Para Reconstrucción de la Curva de Carga de


Consumo Eléctrico a Partir de Big Data con Datos en AMI
Portal
Compression Algorithm de revistas: http://revistas.utp.ac.pa
for Reconstruction of the Load Curve of Electric Consumption
from Big Data with Data in AMI

Johao Burbano 1*, Hassan Ortega 2*, Esteban Inga 3*


1,2,3 Universidad Politécnica Salesiana, Ecuador

* jburbanob@est.ups.edu.ec *hortegae@est.ups.edu.ec

RESUMEN– En el presente artículo se realizar una reducción significativa en los datos que se almacenan en los servidores encargados de
almacenar datos, sin recurrir a eliminar datos; para de esta manera administrar los datos almacenados y tener una base de datos eficiente y óptima
que sea capaz de almacenar una extensa cantidad de datos encriptados sin afectar la calidad de la información. Para lo que se realizara un algoritmo
que me permita la encriptación más óptima de acuerdo al tipo de datos a ser almacenados, de acuerdo a los datos medidos en una red eléctrica
inteligente, para la correcta elaboración del algoritmo se lo realiza en el programa Matlab,; los datos almacenados deben estar disponibles para una
correcta administración, para de esta manera poder tener una base de datos ideal, que permita poder hacer una proyección de la demanda sin la
necesidad de tener servidores con capacidades enormes de memoria; además se realiza una comparación entre las velocidades de procesamiento de
datos.

Palabras clave–: Big Data, Modelado de datos, respuesta de demanda

ABSTRACT– This article will make a significant reduction in the data stored on the servers responsible for storing data, without resorting to
deleting data; in order to manage the stored data and have an efficient and optimal database that is capable of storing a large amount of encrypted
data without affecting the quality of the information. For what an algorithm will be made that allo ws me the most optimal encryption according to
the type of data to be stored, according to the data measured in an intelligent electrical network, for the correct elaboration of the algorithm it is
done in the Matlab program, ; the stored data must be available for proper administration, in order to have an ideal database, which allows projection
of the demand without the need for servers with huge memory capacities; In addition, a comparison is made between data processing speeds.
Keywords– Apache Hadoop; BigData; Data Modeling, demand response.

1. Introducción proyección a la demanda acorde a las características que


La información sigue creciendo día a día conforme presente cada sector [2]; pero la constante medición de
la tecnología avanza; y aún más teniendo en cuenta el datos de consumo de energía eléctrica crea cantidades
despliegue de AMI (Advanced Metering Infraestucture), enormes de datos es por eso que es necesario
permitiendo establecer una comunicación bidireccional herramientas poderosas para el almacenamiento y
entre las empresas eléctricas y los usuarios finales de las tratamiento de este BigData [3]. [1]–[28]
mismas [1]. El incremento de la infraestructura de El procesamiento de BigData tiene un costo
medidores inteligentes permite a las empresas eléctricas económico y ambiental alto, es tan grande que en Estados
un manejo eficiente de las demandas máximas de energía Unidos entre los años 2000 y 2005, el consumo total de
eléctrica, para de esta manera poder determinar una electricidad relacionado a los motores de procesamiento

Citación: Primera_letra_nombre. Apellido, “Titulo_artículo”, Revista de I+D Tecnológico, vol. 15, no. 1, pp. (no_modificar), 2019.
Tipo de artículo: No_modificar. Recibido: No_modificar. Recibido con correcciones: No_modificar. Aceptado: No_modificar.
DOI.
Copyright: 2019 Primera_letra_nombre. Apellido. This is an open access article under the CC BY-NC-SA 4.0 license (https://creativecommons.org/licenses/by-nc-
sa/4.0/).
de datos fue de aproximadamente 45.000 millones de
kWh/año y más de 120.000 millones de kWh/año en todo
el mundo. Actualmente el centro de datos más grande del 2. Compresión de datos sin perdida.
mundo está ubicado en Washington y le pertenece a
Microsoft el cual ocupa 47.000 metros cuadrados y
funciona con 47 MW, lo que le cuesta más de 18 millones Se denomina algoritmo de compresión sin pérdida a
de dólares al año en energía eléctrica [4]–[6]. cualquier procedimiento de codificación que tenga como
El tratamiento de una gran cantidad de datos o objetivo representar cierta cantidad de información
BigData está dirigido a sofisticados algoritmos y utilizando u ocupando una fracción menor en unidad de
sistemas informáticos, esenciales para el adecuado uso de almacenamiento de datos establecida, siendo posible una
cantidades masivas de datos; existen cuatro atributos reconstrucción exacta de los datos originales.
claves para el tratamiento de BigData: volumen, La compresión sin perdidas es una técnica que consiste
velocidad, variedad y veracidad [7]–[9]. en la garantía de generar un duplicado exacto del flujo de
Volumen. - Es común mente utilizado como un datos de entrada después de un ciclo de compresión /
sinónimo de BigData ya que es uno de los aspectos más expansión. Es generalmente implementada usando uno o
representativos de este, pero no el único; debido a la dos diferentes tipos de modelos: estático o basado en
proliferación de los sistemas de información e diccionario.
inteligencia el volumen de los datos ha crecido hasta
alcanzar los rangos de pentabytes [10], por lo que el Dentro de las técnicas de compresión de datos, y
tratamiento de datos es difícil de manejar a esas atendiendo a la reversibilidad de la información original,
cantidades de datos, por lo que las soluciones más hay dos grandes familias:
comunes son la implementación de bases de datos para Técnicas de compresión "lowless" o sin perdida (para
escalar verticalmente. Sin duda la cantidad de datos datos en los que es imprescindible que no se pierda nada
seguirá creciendo superando fácilmente los volúmenes de información, como por ejemplo registros de bases de
de información que mantienen las empresas actualmente datos, ficheros ejecutables, hojas de cálculo...etc).
[11]. Velocidad. - La creciente generación de Técnicas de compresión "lossy" o con perdida (para
información se asocia con la necesidad de utilizar estos datos en los que se permite cierta pérdida de información
datos más rápidamente; GPS, teléfonos móviles, "sin que se note demasiado", como por ejemplo en
medidores inteligentes generan datos en cada fracción de ficheros en MP3, imágenes en JPEG, PNG...etc. Aquí
segundo para varias métricas diferentes y así se genera una pequeña disminución en la calidad final no se nota
un flujo constante de información que tiene que ser demasiado, pero influye muy positivamente en la
tratada con el tiempo, teniendo en cuenta que si estos reducción del peso del fichero). Estos últimos no entran
datos no se convierten en información útil carecen de dentro del presente trabajo.
valor [12]–[15].
El modelo estático lee y codifica mientras utiliza la
probabilidad de aparición de un carácter. Su forma más
simple usa una tabla estática de probabilidades, en el
inicio generar un árbol de Huffman tenía costos
significantes por tanto no siempre era generado, en su
lugar se analizaban bloques representativos de datos,
dando una tabla de frecuencia característica. Entonces los
árboles de Huffman se generaban y los programas tenían
acceso a este modelo estático. Pero utilizar un modelo
estático tiene sus limitaciones. Si un flujo de entrada no
concuerda bien con la previamente estadística
acumulada, la relación de compresión se degradaría,
Fig. 1 Tratamiento de datos de una infraestructura de posiblemente hasta el punto de que el flujo de datos
medición inteligente. saliente fuese tan largo como el entrante. Por tanto, la
siguiente mejora obvia fue construir una tabla estática a Este trabajo está enfocado al tratamiento de BigData
cada flujo de entrada único. antes de su almacenamiento, con el objetivo de reducir
significativamente la cantidad de información a ser
El modelo basado en diccionario usa un código simple almacenada, para lo cual se toman en cuenta los atributos
para reemplazar cadenas de símbolos, los modelos que presenta un BigData generado por AMI; se lo
estáticos generalmente codifican un símbolo a la vez. El implementara por medio de un algoritmo que me permita
esquema de compresión basada en diccionario utiliza un la reducción de datos adecuada de acuerdo al tipo de
concepto diferente. Lee una entrada de datos y observa variable a ser almacenada, sin eliminar datos pero si
por grupos de símbolos que aparecen en el diccionario. tomando en cuenta la redundancia de los mismos, para
Si una cadena concuerda, un indicador o índice en el posteriormente establecer una codificación de mi
diccionario puede salir en lugar del código del símbolo información y así reducir aún más el volumen de
información a ser almacenada. Lo cual me permitirá
Algunos algoritmos de compresión sin pérdidas son los almacenar una mayor cantidad de datos almacenada en
algoritmos Lempel-Ziv que incluyen LZ77, LZ78 y LZ- los mismos servidores permitiéndome de esta manera
W. tener una base de datos más extensa para poder realizar
una proyección a la demanda más confiable, sin la
Este sistema de compresión se usa en compresores de
necesidad de invertir en nuevos servidores.
archivo (RAR, Gzip, Bzip, zip, 7z, ARJ, LHA) y de
disco, también en imágenes (PNG, RLE) y en algún
Actualmente vivimos en un mundo rodeado de
formato de audio (FLAC, Monkey's Audio), en video es
generación de información que nos rodea sin que en
menos común, pueden ser usados para su captura y
muchas ocasiones nos demos cuenta de ello; en la figura
edición, pero no comercializada para reproducción
1 tenemos una infraestructura de medición inteligente
doméstica.
que envía constantemente datos a los respectivos
concentradores de información, para de esta manera
3. Algoritmo de Hufman. transmitirla hacia los servidores de almacenamiento de
información, en donde previamente se implementa el
El algoritmo para la compresión de datos sin pérdida tratamiento de datos propuesto.
de datos desarrollado por David Huffman en el Instituto
Tecnológico de Massachusetts en 1952, se basa en la 4. Normas para la recepción de los artículos
frecuencia de ocurrencia de los caracteres presentes en el
archivo a comprimir [25]. El algoritmo Huffman está En una infraestructura de medición inteligente los
basado en codificación estadística, lo que significa que la datos obtenidos son miles de millones al día, por lo que
probabilidad de un símbolo tiene una directa relación con se propone una solución antes de su almacenamiento para
el tamaño de su representación, es decir, a mayor de esta manera disminuir la cantidad de datos a ser
probabilidad de ocurrencia de un símbolo, menor será el almacenados y así aumentar la capacidad de nuestros
tamaño de su representación en bits [28]. Para realizar la equipos de almacenamiento sin tener que compra nuevos
codificación Huffman, se debe realizar primero un equipos de una mejor capacidad.
ordenamiento de los símbolos en orden creciente según
sus probabilidades. Los dos símbolos menos probables se Para lo cual se realiza una clasificación de los datos
agrupan en un pseudosímbolo cuya probabilidad es la por medio del algoritmo de Huffman el cual consisten en
suma de las probabilidades de los símbolos fusionados tener en un conjunto de datos S, y clasificarlos en un
[26]. Los restantes símbolos son nuevamente ordenados conjunto W de acuerdo a las características eléctricas del
en función de sus probabilidades, combinando los dos mismo, para finalmente almacenarlos en relación a la
menos probables y sumando sus probabilidades en uno frecuencia de cada uno de los datos y finalmente
nuevo reiteradamente. El proceso se repite hasta que todo almacenar el camino que lleva a cada uno datos
el árbol generado se reduce a un símbolo con ahorrando caracteres en el almacenamiento.
probabilidad igual a la unidad.
S={a1,a2,……,an} [1]

En la ecuación 1 se realiza la creación de los datos a


ser tratados.

W={w1,w2,……,wn} [2]
En la ecuación 2 se crean los rangos de las frecuencias
de un dato para posteriormente almacenar la frecuencia
del mismo.

Si an≤wn y an<wn+1 [3]

Posteriormente en la ecuación 3 se realiza la


comparación de rangos de frecuencias de los datos a ser Fig. 2 Procesamiento de datos antes de la compactación.
procesados
Como se observar en la figura 2 el tiempo no se ve
fn=0 [4] afectado cuando tenemos poca cantidad de datos;
podemos observar que el tiempo que toma procesar los
En la ecuación 4 se hace una inicialización del datos es insignificante en los en el primer millón de datos,
contador de datos con una determinada frecuencia. pero aumenta y se mantiene en los dos, tres y cuatro
millones de datos, y finalmente aumenta drásticamente
fn=fn+1 [5] en los 5 millones de datos en comparación a un millón de
datos.
En la ecuación 5 tenemos un contador de datos.
El caso que se está analizando es de niveles de voltaje, a
F={f1,f2,……,fn} [6] nivel residencial por lo que en la mayoría de tiempo se
mantendrá valores de 120 V; cómo podemos observar en
Finalmente almacenamos nuestros datos en un la figura 3, tenemos una frecuencia de datos entre 119V
conjunto F como lo muestra la ecuación 6, para y 120 V, lo que me permite una reducción más
posteriormente solo almacenar su ruta mediante el árbol significativa de tiempos de procesamiento de
de Huffman. información. Debido a que entre mayor sea la cantidad
de datos que se repiten mayor es la compactación de
Este es un algoritmo que es útil para la codificación datos que se puede realizar.
de datos si se requiere tener un ahorro de memoria. Se
puede notar como aumenta la eficiencia, y como los bits
disminuyeron mucho, en comparación a los que se
usarían realmente si consideramos a cada char como un
byte.

5. Evaluación y aceptación de artículos

Para el análisis de resultados se ha tomado en cuenta


diferentes cantidades de datos, a las cuales se les ha
realizado la compactación anteriormente propuesta.
serán constantes o se mantendrán en rango por un largo
periodo de tiempo, lo que hace que la frecuencia de un
dato sea alta favoreciendo a la compactación de datos; y
es fácil darse cuenta que es mejor almacenar un dato con
su respectiva frecuencia que almacenar el mismo dato un
sin número de veces.
Fig. 3 Frecuencia de datos de uno, dos, tres, cuatro y Para el presente caso de estudio solo se tomó en cuenta
cinco millones de datos. una variable de medición de un medidor inteligente el
Una vez realizada la compactación de datos por medio cual fuel el voltaje y además fue de un solo medidor
del algoritmo propuesto, tenemos una reducción de inteligente; obteniendo resultados notorios en frecuencia
tiempos de procesamiento de datos significativa; como se de datos y en tiempos de procesamiento de datos; por lo
observa en la figura 4; cuando tenemos un millón de que si entre mayor es la cantidad de datos a ser procesado
datos los tiempos de procesamiento son básicamente los por el algoritmo propuesto, el algoritmo será muy
mismos, pero si aumenta la cantidad de datos a ser efectivo ante un sistema de red inteligente completo en
procesado los tiempos de procesamiento disminuyen con donde se procesaran más variables y fácilmente un millón
tan solo tener tres, cuatro y cinco millones de datos y de veces más datos que los propuestos; obteniendo
disminuye significativamente cuando tenemos cinco resultados muy favorables y ahorrándonos dinero en
millones de datos, por lo que entre mayor sea la cantidad inversiones de nuevos servidores de almacenamiento de
de datos mis tiempos de respuesta disminuirán más. datos.
Si se realizara una compactación de datos en cada
concentrador que tenemos en una infraestructura de
medición inteligente, no solo se reducirían los tiempos de
almacenamiento de dato, sino que también los tiempos de
envió de información.

7. Agradecimientos

Los autores agradecen la colaboración prestada al Doctor


Esteban Inga por la revisión de este documento.
Fig. 4 Tiempos de procesamiento de datos de una
8. Referencias
infraestructura de medición inteligente.
[1] S. A. Aly, M. Hill, and A. N. Model, “Raptor
6. Conclusiones Codes Based Distributed Storage Algorithms
for Wireless Sensor Networks,” pp. 2051–2055,
Cuando compactamos una cantidad pequeña de datos por
2008.
medio de nuestro algoritmo los tiempos de
[2] A. G. Andreou et al., “Bio-inspired System
procesamiento de datos no disminuyen casi nada o su
Architecture,” pp. 1–6, 2016.
disminución no es significativa, pero entre mayor sea la
[3] F. Carvalho and A. Cartaxo, “Study on
cantidad de datos compactados por nuestro algoritmo, los
ElectricalPower Distribution Among Coexisting
tiempos de proceso disminuyen drásticamente; esto se
OFDM-Based Wired- Wireless Signals Along
debe a que entre mayor sea la cantidad de datos a ser
Long-Reach Passive Optical Networks,” vol. 5,
procesador mayor es la frecuencia de los mismos, por lo
no. 7, pp. 813–824, 2013.
que la compactación se realiza de una forma más notoria;
[4] C. Chelmis, J. Kolte, and V. K. Prasanna, “Big
sin afectar la información.
data analytics for demand response: Clustering
En una infraestructura de medición inteligente se pueden
over space and time,” 2015 IEEE Int. Conf. Big
compactar muy fácilmente los datos, y obtener resultados
Data (Big Data), pp. 2223– 2232, 2015.
más notorios; esto se debe a que los niveles de voltaje
[5] S. Das and S. K. Das, “Leveraging Network D. Doverspike, “Performability Analysis of a
Structure in Centrality Evaluation of Large Scale Metropolitan Area Cellular Network,” pp. 141–
Networks,” pp. 579– 148, 2015.
586, 2015. [19] H. Packard and K. Sinha, “Energy-Efficient
[6] [R. Dutta, “Improved Self-Healing Key Communication : Understanding the Distribution
Distribution with Revocation in Wireless Sensor of Runs in Binary Strings,” 2012.
Network,” pp. 2965–2970,2007. [20] G. Pandurangan,“A Universal Online Caching
[7] C. Feng, W. N. Roberto, F. R. Kschischang, D. Algorithm Based on Pattern Matching,” no. 1,
Silva, and Y. A. X. Bz, “Communication over pp. 1–5.
Finite-Ring Matrix Channels,” pp. 2890–2894, [21] F. Pong, N. Tzeng, and S. Member, “SUSE :
2013. Superior Storage-Efficiency for Routing Tables
[8] C. Gómez-quiles, S. Member, and A. Through Prefix Transformation,” vol. 18, no. 1,
Gómez- exposito, “State Estimation for Smart pp. 81–94, 2010.
Distribution Substations,” vol. 3, no. 2, pp. 986– [22] Y. Pradhananga, S. Karande, and C. Karande,
995, 2012. “CBA: Cloud-based bigdata analytics,” Proc. -
[9] P. Grover and R. Johari, “BCD: BigData, 1st Int. Conf. Comput. Commun. Control Autom.
cloud computing and distributed computing,” ICCUBEA 2015, pp. 47–51, 2015. [23] S.
Glob. Conf. Commun. Technol. GCCT 2015, no. Russell, I. Gorton, and K. Burston, “Distribution
Gcct, pp. 772–776, 2015. + Persistence = Global Virtual Memory A
[10] L. Harn and C. Hsu, “Predistribution Scheme Position Paper,” pp. 96–99, 1992.
for Establishing Group Keys in Wireless Sensor [24] L. Samarakoon and K. C. Sim, “Factorized
Networks,” vol. 15, no. 9, pp. 5103–5108, 2015. Hidden Layer Adaptation for Deep Neural
[11] H. Hashem and D. Ranc, “A review of Network Based Acoustic Modeling,” vol. 24, no.
modeling toolbox for BigData,” 2016 Int. Conf. 12, pp. 2241–2250, 2016.
Mil. Commun. Inf. Syst., no. May, pp. 1–6, 2016. [25] J. Tan, L. Li, and Y. Zhang, “Asymptotic
[12] K. Huang, S. Member, M. Kountouris, S. Mandelbrot Law for Some Evolving Networks
Member, and V. O. K. Li, “Renewable Powered *,” vol. 17, no. 3, pp. 310–312, 2012.
Cellular Networks : Energy Field Modeling and [26] A. Thomasian and Y. Tang, “Performance,
Network Coverage,” vol. 14, no. Reliability , and Performability Aspects of
8, pp. 4234–4247, 2015. Hierarchical RAID,” no. 1, 2011.
[13] L. Junzhi, “Design of a dual channel high- [27] A. Vlachou and C. Doulkeridis, “Efficient
speed wideband synchronous data acquisition Routing of Subspace Skyline Queries over
system,” pp. 295–299, 2015. Highly Distributed Data,” vol. 22, no. 12, pp.
[14] A. Lunai and P. Rodriguezi, “Identification and 1694–1708, 2010.
Maximum Power Point Tracking of Photovoltaic [28] “The Loop Coverage Comparison Between TCM
Generation by a Local Neuro-Fuzzy Model,” pp. and Echo Canceller Under Various Noise,” no.
1019–1024, 2012. 8610844, pp. 1058–1067, 1986.
[15] P. J. W. Mark and D. Ph, “Adaptive predictive
run- length encoding for analogue sources,” vol.
123, no. 11, pp.1189–1196, 1976.
[16] G. Matsliach and O. Shmueli, “A Combined
Method for Maintaining Large Indices in
Multiprocessor Multidisk Environments,” vol.
6, no. 3, 1994.
[17] H. Mi and X. Wang, “4000 usd to 8000,” p. 7.
[18] K. N. Oikonomou, R. K. Sinha, B. Kim, and R.

También podría gustarte