Documentos de Académico
Documentos de Profesional
Documentos de Cultura
2403
Resumen: En el presente artículo se realizó una revisión processing of large volumes of data, of different types of
sobre la actualidad e importancia del Big data a través de data and at a high speed, solving the problems that arose
las herramientas Hadoop y Spark. En un principio se before when many data were going to be worked on.
contextualiza el concepto Big Data desde diferentes
autores y haciendo referencia a su importancia en las Finally, a reflection is made on the importance of Big Data
diferentes organizaciones, teniendo como premisa las tres in the decision-making of an organization, taking into
V que deben estar presentes a la hora de implementar Big account that decision-making allows an organization to be
Data (Volumen, Variedad y Velocidad). competitive and to last over time.
Luego se analizan las herramientas Hadoop y Spark, Key Words: Big Data, Open Data, Volume, Variety,
identificando su capacidad de hacer más eficiente el Speed, Hadoop, Spark, Map Reduce, HDFS, Data Mining.
procesamiento de grandes volúmenes de datos, de
diferentes tipos de datos y a gran velocidad dando
solución a los problemas que se presentaban antes 1. INTRODUCCIÓN
cuando se iba a trabajar sobre muchos datos.
En la actualidad los datos se están generando
Por último se hace una reflexión sobre la importancia del
Big Data en la toma de decisiones de una organización, exponencialmente, de una forma que no se
teniendo en cuenta que la toma de decisiones permite que imaginaba antes, hoy por hoy se dispone de
una organización sea competitiva y pueda perdurar en el dispositivos tecnológicos como celulares, portátiles,
tiempo. Smart TV, Smart Watch, Tablet entre otros; los
cuales hacen parte de la vida cotidiana y gran parte
Palabras Claves: Big Data, Open Data, Volumen, de la población mundial [1]. Por lo que en la
Variedad, Velocidad, Hadoop, Spark, Map Reduce, HDFS,
Minería de datos.
actualidad, hay una gran inquietud sobre el manejo
y uso de grandes volúmenes de datos, es allí donde
Abstract: In the present article, a review was made on the nacen diferentes disciplinas y tecnologías como la
relevance and importance of Big Data through the Hadoop Big Data que requiere sacar un beneficio para las
and Spark tools. First the Big Data concept is diferentes organizaciones y para toda la sociedad
contextualized from different authors and making [2].
reference to its importance in the different organizations,
having as a premise, the three V that must be present Durante el siglo XXI comenzó una convergencia de
when implementing Big Data (Volume, Variety and diferentes elementos como tecnologías, redes
Speed). sociales, dispositivos móviles, banda ancha, internet
Then, the Hadoop and Spark tools are analyzed, de las cosas, que hicieron posible que en el año
identifying their capacity to make more efficient the 2011 y 2012 se comenzara a usar la Big Data como
MsC. Lina Montoya Suarez
68 Gustavo Andrés Gil Restrepo
DOI: http://dx.doi.org/10.21501/21454086.2403
un elemento primordial para la competitividad de las software han evolucionado, pues el volumen de
organizaciones [3]. Debido a este surgimiento en la datos en la humanidad ha crecido
actualidad han llevado a que estas se preocupen exponencialmente, es por eso que a la par del
por la gestión de la información y así replantear sus hardware de alta capacidad también es necesario
estrategias en cuanto el manejo, tratamiento y uso técnicas con algoritmos de alto rendimiento para el
de la información, estas estrategias pueden influir procesamiento de datos masivos [7].
en gran medida en la capacidad de mantenerse
competitiva en el mercado local y mundial para Algunos de las técnicas más utilizadas en minería
perdurar en el tiempo [4]. de datos son:
Otro aspecto se puede observar en las entidades Las Redes Neuronales: son un modelo compuesto
gubernamentales ya que son un actor muy por nodos organizados en capas e
importante en el tema de Big Data, pues cuentan interconectados entre sí. Los nodos y sus valores
con un gran volumen de información, generada por se ordenan siempre buscando el funcionamiento
un municipio o nación, es allí donde aparece el más óptimo, buscando resolver problemas de
término “open data” o “datos abiertos”, visto también predicción y clasificación.
como un movimiento que exige el acceso a los datos Los arboles de decisiones: son estructuras de
almacenados por las diferentes organizaciones del nodos organizados jerárquicamente, siendo su
estado, para que haya transparencia en sus principal aplicación la clasificación de los datos y
procesos y utilización de los datos en búsquedas de la toma de decisiones de acuerdo a dicha
beneficios para todos [5]. clasificación.
Los Algoritmos Genéticos: se basan en gran
El fin de este trabajo de investigación en primera medida en la teoría Darwinista que plantea que los
instancia fue realizar una reflexión sobre Big Data, individuos más adaptados son los que
teniendo presente sus técnicas y herramienta por permanecen. Así mismo los Algoritmos Genéticos
consiguiente se analizaron los resultados buscan la mejor solución, estableciendo reglas
encontrados, y al final se dan la discusión y las que descartan diferentes soluciones hasta hallar la
conclusiones a las cuales se llegó. mejor por lo cual la búsqueda es optimizada al
máximo posible.
Los Vecinos más Cercanos: es una técnica que se
2. ESTADO DEL ARTE encarga de agrupar los nodos de acuerdo a su
grado de similitud para que el procesamiento de
2.1 Big Data grandes volúmenes de datos sea más eficiente y
en el menor tiempo posible.
El Big Data es una herramienta llamada a la La Reglas de Inducción son una técnica que se
creación de conocimiento, es por eso que la ciencia encarga de determina reglas o patrones en un
se puede apoyar mucho de esta herramienta desde conjunto de datos a partir de condiciones “si -
una cultura de colaboración científica, de allí nace entonces” [8].
un movimiento llamado “Open Science” que va de la
mano con el “Open Data” [6].
El Big Data hace referencia al gran volumen de 2.2.1 HADOOP
datos generados por la humanidad a traves de La herramienta Hadoop es un entorno de desarrollo
diferentes dispositivos, el procesamiento y analisis que permite almacenar, procesar y analizar grandes
de estos datos son de gran valor para la toma de cantidades de datos. Fue creada con el propósito de
decisiones de una organización. responder a las necesidades de implementación de
Para que se pueda considerar que se esta Big Data. Unas de sus principales características es
implementado Big Data, los datos deben cumplir que es un software de código abierto. Es escalable,
con tres caracteristicas: que sea un gran volumen de tolerable a los fallos y es distribuido [9].
datos, que sea una gran variedad de datos y que Su característica de ser un software distribuido es
sean procesados a gran velocidad, al cumplir con debido a que en su ejecución, Hadoop trabaja con
estas caracteristicas se puede garantizar unos un conjunto de computadores interconectados entre
resultados adecuados del Big Data. sí a través de una red, siendo el propio software el
2.2 Técnicas Big Data que toma la decisión de la forma en que se
distribuye la información entre ordenadores
El procesamiento de datos ha cambiado a través del permitiendo el acceso y manipulación de dicha
tiempo, a medida que la capacidad del hardware y el información desde cualquier computador.
Actualmente Map Reduce en Hadoop se encarga acontecen día a día, también cómo se va a filtrar lo
de reducir los datos en fragmentos más pequeños realmente relevante para la organización y por
con el fin de que su procesamiento sea mejor y en último cual es la gestión o cuales son las acciones
menos tiempo. La función Map se encarga de hacer que se van a emplear para que esta información
un mapeo creando un paralelo con cada dato de realmente cobre valor [19]. Por lo tanto en la minería
entrada, creando así una lista de datos pares, de datos se buscan los datos que realmente tienen
mientras la función Reduce llama la lista de datos valor para la organización, pues el volumen de datos
pares buscando el resultado deseado y permitiendo con los que trabaja el Big data es demasiado
trabajar en paralelo [13]. grande, por lo tanto lo importante es encontrar
patrones que ayuden a entender el comportamiento
2.2.2 Spark del sistema circundante [20].
En la Universidad de Berkeley California se El Big Data es un gran insumo para la generación de
desarrolló el Framework Spark con tres principales conocimiento en las organizaciones, pues brinda
características: capacidad en analítica, fácil en su información oportuna para la toma de decisiones,
manipulación y que desarrolla procesos a altas que se traducen en acciones que al final se
velocidades. transforman en conocimiento, siendo la gestión de
Se puede decir que Apache Spark es una versión este conocimiento la que posibilita anticiparse a los
mejorada de Map Meduce, pues aprovecha el cambios del entorno [21].
procesamiento simultaneo de grandes volúmenes
de datos y aparte, proporciona el Grafo Acíclico
Dirigido (DAG), el cual divide el proceso en 3 ANÁLISIS DE LOS RESULTADOS
diferentes tareas que se ejecutan en un cluster y
que brindan más velocidad y la posibilidad de Al revisar la literatura se encontró; en la actualidad
ejecutar volúmenes de datos más grandes [14]. el Big Data es una herramienta que está siendo
utilizada cada vez más al interior de las
El Framework Spark fue donado de Universidad de organizaciones tanto a nivel nacional como
California a la fundación Apache como una iniciativa internacional para dar respuesta a los diversos
de código abierto y cuenta con una interfaz que problemas é incógnitas que surgen en la
permite programar diferentes cluster completos de operatividad del día a día. Es fundamental reconocer
forma paralela y evitando la complejidad ciclomática el crecimiento exponencial de la generación de
lo cual lo hace tolerante a fallos y de mayor datos, lo que ha hecho necesario el cumplimiento de
rendimiento en procesamiento de grandes requerimientos tanto en software y como de
volúmenes de datos [15]. hardware los cuales son necesarios al momento de
manipular grandes volúmenes de datos.
En el 2009 fue creado por Matei Zaharia en el AMP
LAB en la Universidad de Berkeley. En el 2010 De esta forma se identificó que la Fundación Apache
pasó a ser un software de código abierto, en 2013 lo ha sido una organización que ha hecho grandes
recibió la Fundación Apache y lo tomó con un aportes en cuanto a desarrollos de software que
proyecto de alta importancia, de tal forma que para ayudan a implementar el Big Data en las
el 2015 ya contaba con 1000 contribuyentes [16]. organizaciones, así pues, Apache participó en el
desarrollo del Framework Hadoop, el cual en la
2.3 Beneficios Big Data actualidad es el más utilizado y el que ha permitido
Todas estas tecnologías aplicadas al Big Data avanzar en el procesamiento de grandes volúmenes
buscan aportar competitividad a las diferentes de datos, a través de sus componentes HDFS (que
organizaciones, sean públicas o privadas, pues es la permite la réplica de los datos) y Map Reduce (qu
competitividad la que permite que perduren en el permite el procesamiento en paralelo de los datos).
tiempo y puedan alcanzar sus objetivos [17]. Otro punto que se identificó como un gran desarrollo
La información ha tomado gran relevancia al interior para Big data, es la tecnología SPARK la cual
de las organizaciones, tanto así que la simbolizan permite trabajar en conjunto con Hadoop y que es
como el petróleo de actualidad, pues su valor puede mucho más rápida y eficiente pues trabaja utilizando
ser retribuido monetariamente si es bien utilizada la memoria y no el disco duro. En la Tabla 1 se
[18]. observan la comparación de características entre
Map Reduce y Spark.
Al interior de toda organización se debe tener muy
claro dónde está el origen de la información que se
requiere para dar respuesta a los problemas que
[2] J. Serrano-Cobos, “Big data y analítica web. Estudiar [17] K. Esser, W. Hillebrand, D. Messner, J. Meyer-
las corrientes y pescar en un océano de datos,” El Stamer, and others, “Competitividad sistémica: nuevo
Prof. la Inf., vol. 23, no. 6, pp. 561–565, 2014. desafío para las empresas y la política,” Rev. la
CEPAL, vol. 59, no. 8, pp. 39–52, 1996.
[3] L. J. Aguilar, Big Data, Análisis de grandes volúmenes
de datos en organizaciones. Alfaomega Grupo Editor, [18] D. Cohen Karen, E. Asin Lares, D. G. Lankenau
Caballero, and D. Alanis Davila, “Sistemas de [20] H. Orallo, J. RAMIREZ, C. R. QUINTANA, M. Josej.
informacion para los negocios: Un enfoque para la H. Orallo, M. J. R. Quintana, and C. F. Ramírez,
toma de decisiones.,” 2005. Introducción a la Minería de Datos. Pearson Prentice
Hall, 2004.
[19] G. Ponjuán Dante, “Gestión de información en las
organizaciones: principios, conceptos y aplicaciones,” [21] A. Blázquez Manzano, “La información y
1998. comunicación, claves para la gestión del
conocimiento empresarial,” 2013.