Está en la página 1de 6

DOI: http://dx.doi.org/10.21501/21454086.

2403

Licencia Creative Commons Reconocimiento-No Comercial-4.0 Internacional (CC BY-NC 4.0)


Lámpsakos | No.19 | pp. 67-72 | enero-junio | 2018 | ISSN: 2145-4086 | Medellín–Colombia

Actualidad e importancia de la implementación de Big Data


utilizando las herramientas Hadoop y Spark
Present and importance of the implementation of Big Data using the Hadoop and Spark
tools

MsC. Lina Montoya Suarez Gustavo Andrés Gil Restrepo


Universidad Católica Luis Amigó Universidad Católica Luis Amigó
lina.montoyasu@amigo.edu.co gustavo.gilre@amigo.edu.co

(Recibido el 06-22-2017, Aprobado el 01-18-2018, Publicado el 27-12-2018)

Estilo de Citación de Artículo:


L. M. Montoya, G.A. Gil, “Actualidad e importancia de la implementación de Big Data utilizando las herramientas Hadoop y Spark”,
Lámpsakos, no. 19, pp 67-72, 2018
DOI: http://dx.doi.org/10.21501/21454086.2403

Resumen: En el presente artículo se realizó una revisión processing of large volumes of data, of different types of
sobre la actualidad e importancia del Big data a través de data and at a high speed, solving the problems that arose
las herramientas Hadoop y Spark. En un principio se before when many data were going to be worked on.
contextualiza el concepto Big Data desde diferentes
autores y haciendo referencia a su importancia en las Finally, a reflection is made on the importance of Big Data
diferentes organizaciones, teniendo como premisa las tres in the decision-making of an organization, taking into
V que deben estar presentes a la hora de implementar Big account that decision-making allows an organization to be
Data (Volumen, Variedad y Velocidad). competitive and to last over time.

Luego se analizan las herramientas Hadoop y Spark, Key Words: Big Data, Open Data, Volume, Variety,
identificando su capacidad de hacer más eficiente el Speed, Hadoop, Spark, Map Reduce, HDFS, Data Mining.
procesamiento de grandes volúmenes de datos, de
diferentes tipos de datos y a gran velocidad dando
solución a los problemas que se presentaban antes 1. INTRODUCCIÓN
cuando se iba a trabajar sobre muchos datos.
En la actualidad los datos se están generando
Por último se hace una reflexión sobre la importancia del
Big Data en la toma de decisiones de una organización, exponencialmente, de una forma que no se
teniendo en cuenta que la toma de decisiones permite que imaginaba antes, hoy por hoy se dispone de
una organización sea competitiva y pueda perdurar en el dispositivos tecnológicos como celulares, portátiles,
tiempo. Smart TV, Smart Watch, Tablet entre otros; los
cuales hacen parte de la vida cotidiana y gran parte
Palabras Claves: Big Data, Open Data, Volumen, de la población mundial [1]. Por lo que en la
Variedad, Velocidad, Hadoop, Spark, Map Reduce, HDFS,
Minería de datos.
actualidad, hay una gran inquietud sobre el manejo
y uso de grandes volúmenes de datos, es allí donde
Abstract: In the present article, a review was made on the nacen diferentes disciplinas y tecnologías como la
relevance and importance of Big Data through the Hadoop Big Data que requiere sacar un beneficio para las
and Spark tools. First the Big Data concept is diferentes organizaciones y para toda la sociedad
contextualized from different authors and making [2].
reference to its importance in the different organizations,
having as a premise, the three V that must be present Durante el siglo XXI comenzó una convergencia de
when implementing Big Data (Volume, Variety and diferentes elementos como tecnologías, redes
Speed). sociales, dispositivos móviles, banda ancha, internet
Then, the Hadoop and Spark tools are analyzed, de las cosas, que hicieron posible que en el año
identifying their capacity to make more efficient the 2011 y 2012 se comenzara a usar la Big Data como
MsC. Lina Montoya Suarez
68 Gustavo Andrés Gil Restrepo
DOI: http://dx.doi.org/10.21501/21454086.2403

un elemento primordial para la competitividad de las software han evolucionado, pues el volumen de
organizaciones [3]. Debido a este surgimiento en la datos en la humanidad ha crecido
actualidad han llevado a que estas se preocupen exponencialmente, es por eso que a la par del
por la gestión de la información y así replantear sus hardware de alta capacidad también es necesario
estrategias en cuanto el manejo, tratamiento y uso técnicas con algoritmos de alto rendimiento para el
de la información, estas estrategias pueden influir procesamiento de datos masivos [7].
en gran medida en la capacidad de mantenerse
competitiva en el mercado local y mundial para Algunos de las técnicas más utilizadas en minería
perdurar en el tiempo [4]. de datos son:

Otro aspecto se puede observar en las entidades  Las Redes Neuronales: son un modelo compuesto
gubernamentales ya que son un actor muy por nodos organizados en capas e
importante en el tema de Big Data, pues cuentan interconectados entre sí. Los nodos y sus valores
con un gran volumen de información, generada por se ordenan siempre buscando el funcionamiento
un municipio o nación, es allí donde aparece el más óptimo, buscando resolver problemas de
término “open data” o “datos abiertos”, visto también predicción y clasificación.
como un movimiento que exige el acceso a los datos  Los arboles de decisiones: son estructuras de
almacenados por las diferentes organizaciones del nodos organizados jerárquicamente, siendo su
estado, para que haya transparencia en sus principal aplicación la clasificación de los datos y
procesos y utilización de los datos en búsquedas de la toma de decisiones de acuerdo a dicha
beneficios para todos [5]. clasificación.
 Los Algoritmos Genéticos: se basan en gran
El fin de este trabajo de investigación en primera medida en la teoría Darwinista que plantea que los
instancia fue realizar una reflexión sobre Big Data, individuos más adaptados son los que
teniendo presente sus técnicas y herramienta por permanecen. Así mismo los Algoritmos Genéticos
consiguiente se analizaron los resultados buscan la mejor solución, estableciendo reglas
encontrados, y al final se dan la discusión y las que descartan diferentes soluciones hasta hallar la
conclusiones a las cuales se llegó. mejor por lo cual la búsqueda es optimizada al
máximo posible.
 Los Vecinos más Cercanos: es una técnica que se
2. ESTADO DEL ARTE encarga de agrupar los nodos de acuerdo a su
grado de similitud para que el procesamiento de
2.1 Big Data grandes volúmenes de datos sea más eficiente y
en el menor tiempo posible.
El Big Data es una herramienta llamada a la  La Reglas de Inducción son una técnica que se
creación de conocimiento, es por eso que la ciencia encarga de determina reglas o patrones en un
se puede apoyar mucho de esta herramienta desde conjunto de datos a partir de condiciones “si -
una cultura de colaboración científica, de allí nace entonces” [8].
un movimiento llamado “Open Science” que va de la
mano con el “Open Data” [6].
El Big Data hace referencia al gran volumen de 2.2.1 HADOOP
datos generados por la humanidad a traves de La herramienta Hadoop es un entorno de desarrollo
diferentes dispositivos, el procesamiento y analisis que permite almacenar, procesar y analizar grandes
de estos datos son de gran valor para la toma de cantidades de datos. Fue creada con el propósito de
decisiones de una organización. responder a las necesidades de implementación de
Para que se pueda considerar que se esta Big Data. Unas de sus principales características es
implementado Big Data, los datos deben cumplir que es un software de código abierto. Es escalable,
con tres caracteristicas: que sea un gran volumen de tolerable a los fallos y es distribuido [9].
datos, que sea una gran variedad de datos y que Su característica de ser un software distribuido es
sean procesados a gran velocidad, al cumplir con debido a que en su ejecución, Hadoop trabaja con
estas caracteristicas se puede garantizar unos un conjunto de computadores interconectados entre
resultados adecuados del Big Data. sí a través de una red, siendo el propio software el
2.2 Técnicas Big Data que toma la decisión de la forma en que se
distribuye la información entre ordenadores
El procesamiento de datos ha cambiado a través del permitiendo el acceso y manipulación de dicha
tiempo, a medida que la capacidad del hardware y el información desde cualquier computador.

Lámpsakos | N°. 19 | enero-junio 2018


Actualidad e importancia de la implementación de Big Data utilizando las herramientas Hadoop y Spark
Present and importance of the implementation of Big Data using the Hadoop and Spark tools
DOI: http://dx.doi.org/10.21501/21454086.2403 69

La característica de ser un software escalable hace


referencia a la posibilidad de que esta tecnología
permite aumentar la capacidad sin límite del cluster
de ordenadores, de acuerdo a la cantidad de
computadores y de hardware que se añadan a la
red. Otras tecnologías sí tienen límite de capacidad.
La característica de ser una herramienta tolerable a
fallos es debido a que todo software distribuido
tiende a fallar eventualmente, sin embargo, en estos
casos Hadoop permite que cuando un nodo falle, el
sistema siga funcionando sin problemas ya que el
nodo maestro transfiere las funciones a otro nodo
que esté funcionando sin problemas. Fig. 2. Procesamiento de datos con HADOOP

La característica de ser un software open-source o


de código abierto, permite que sea de acceso
público, que se pueda descargar de forma gratuita, Componentes
que pueda ser modificado de acuerdo a las
Hadoop Distributed File System, HDFS: es uno de
necesidades y que pueda ser distribuido si se
los principales componentes de Hadoop ya que
desea.
permite crear diferentes sistemas de ficheros lo que
En los sistemas informáticos tradicionales, una sola permite tener replicas, mayor capacidad y
base de datos alimenta los diferentes ordenadores rendimiento. A su vez brinda la posibilidad de que
conectados a una red para sus propios. Esto hace los datos estén disponibles en cada ordenador para
que cada computador tenga que esperar a que otro la ejecución rápida y paralela de procesos [10].
computador finalice sus procesos, para poder
Map Reduce: El paradigma Map Reduce es un
comenzar con los propios, generando así un cuello
modelo de programación que permite el
de botella en la ejecución de procesos con grandes
procesamiento de grandes volúmenes de datos en
volúmenes de datos.
forma paralela, facilitando el manejo tolerable de
errores en la manipulación de datos masivos lo que
a su vez también permite de la forma más sencilla
que diferentes procesos trabajen simultáneamente e
interactúen entre sí [11].
Hadoop creado por Apache y desarrollado en el
lenguaje Java, es un Framework que permite
trabajar con miles de nodos y volúmenes de datos
expresados en peta bytes. Uno de sus principales
componente es el HDFS (Hadoop Distributed File
System), que permite manipular grandes volúmenes
de datos a través de un sistema distribuido de
Fig. 1. Procesamiento de datos antes de HADOOP archivos. Su aplicación ha sido principalmente en el
Big Data, llegando a ser la herramienta más usada
en esta área.
Los sistemas distribuidos que implementan Hadoop El HDFS funciona a través de dos tipos de nodos, el
en la gestión de sus datos, cuentan con una réplica nodo maestro o Namenode y los nodos esclavos o
de la base de datos para cada ordenador lo que Datanodes. El nodo maestro se encarga de manejar
hace posible que cada uno realice sus procesos en los punteros, de ordenar los nodos y de almacenar
paralelo a los otros ordenadores de la red, haciendo su ubicación, mientras los nodos esclavos solo se
posible el procesamiento de un mayor volumen de encargan de almacenar archivos a través de
datos, con más eficiencia y en menor tiempo. bloques [12].
El componente Map Reduce, tuvo sus inicios en
Google cuando los empleados Sanjay Ghemanwat y
Jeffrey Dean hicieron un desarrollo que permitía
realizar tareas de forma simultánea.

Lámpsakos | N°. 19 | enero-junio 2018


MsC. Lina Montoya Suarez
70 Gustavo Andrés Gil Restrepo
DOI: http://dx.doi.org/10.21501/21454086.2403

Actualmente Map Reduce en Hadoop se encarga acontecen día a día, también cómo se va a filtrar lo
de reducir los datos en fragmentos más pequeños realmente relevante para la organización y por
con el fin de que su procesamiento sea mejor y en último cual es la gestión o cuales son las acciones
menos tiempo. La función Map se encarga de hacer que se van a emplear para que esta información
un mapeo creando un paralelo con cada dato de realmente cobre valor [19]. Por lo tanto en la minería
entrada, creando así una lista de datos pares, de datos se buscan los datos que realmente tienen
mientras la función Reduce llama la lista de datos valor para la organización, pues el volumen de datos
pares buscando el resultado deseado y permitiendo con los que trabaja el Big data es demasiado
trabajar en paralelo [13]. grande, por lo tanto lo importante es encontrar
patrones que ayuden a entender el comportamiento
2.2.2 Spark del sistema circundante [20].
En la Universidad de Berkeley California se El Big Data es un gran insumo para la generación de
desarrolló el Framework Spark con tres principales conocimiento en las organizaciones, pues brinda
características: capacidad en analítica, fácil en su información oportuna para la toma de decisiones,
manipulación y que desarrolla procesos a altas que se traducen en acciones que al final se
velocidades. transforman en conocimiento, siendo la gestión de
Se puede decir que Apache Spark es una versión este conocimiento la que posibilita anticiparse a los
mejorada de Map Meduce, pues aprovecha el cambios del entorno [21].
procesamiento simultaneo de grandes volúmenes
de datos y aparte, proporciona el Grafo Acíclico
Dirigido (DAG), el cual divide el proceso en 3 ANÁLISIS DE LOS RESULTADOS
diferentes tareas que se ejecutan en un cluster y
que brindan más velocidad y la posibilidad de Al revisar la literatura se encontró; en la actualidad
ejecutar volúmenes de datos más grandes [14]. el Big Data es una herramienta que está siendo
utilizada cada vez más al interior de las
El Framework Spark fue donado de Universidad de organizaciones tanto a nivel nacional como
California a la fundación Apache como una iniciativa internacional para dar respuesta a los diversos
de código abierto y cuenta con una interfaz que problemas é incógnitas que surgen en la
permite programar diferentes cluster completos de operatividad del día a día. Es fundamental reconocer
forma paralela y evitando la complejidad ciclomática el crecimiento exponencial de la generación de
lo cual lo hace tolerante a fallos y de mayor datos, lo que ha hecho necesario el cumplimiento de
rendimiento en procesamiento de grandes requerimientos tanto en software y como de
volúmenes de datos [15]. hardware los cuales son necesarios al momento de
manipular grandes volúmenes de datos.
En el 2009 fue creado por Matei Zaharia en el AMP
LAB en la Universidad de Berkeley. En el 2010 De esta forma se identificó que la Fundación Apache
pasó a ser un software de código abierto, en 2013 lo ha sido una organización que ha hecho grandes
recibió la Fundación Apache y lo tomó con un aportes en cuanto a desarrollos de software que
proyecto de alta importancia, de tal forma que para ayudan a implementar el Big Data en las
el 2015 ya contaba con 1000 contribuyentes [16]. organizaciones, así pues, Apache participó en el
desarrollo del Framework Hadoop, el cual en la
2.3 Beneficios Big Data actualidad es el más utilizado y el que ha permitido
Todas estas tecnologías aplicadas al Big Data avanzar en el procesamiento de grandes volúmenes
buscan aportar competitividad a las diferentes de datos, a través de sus componentes HDFS (que
organizaciones, sean públicas o privadas, pues es la permite la réplica de los datos) y Map Reduce (qu
competitividad la que permite que perduren en el permite el procesamiento en paralelo de los datos).
tiempo y puedan alcanzar sus objetivos [17]. Otro punto que se identificó como un gran desarrollo
La información ha tomado gran relevancia al interior para Big data, es la tecnología SPARK la cual
de las organizaciones, tanto así que la simbolizan permite trabajar en conjunto con Hadoop y que es
como el petróleo de actualidad, pues su valor puede mucho más rápida y eficiente pues trabaja utilizando
ser retribuido monetariamente si es bien utilizada la memoria y no el disco duro. En la Tabla 1 se
[18]. observan la comparación de características entre
Map Reduce y Spark.
Al interior de toda organización se debe tener muy
claro dónde está el origen de la información que se
requiere para dar respuesta a los problemas que

Lámpsakos | N°. 19 | enero-junio 2018


Actualidad e importancia de la implementación de Big Data utilizando las herramientas Hadoop y Spark
Present and importance of the implementation of Big Data using the Hadoop and Spark tools
DOI: http://dx.doi.org/10.21501/21454086.2403 71

Tabla 1. Características Map Reduce y Spark 2016.


Características Map Reduce Spark
Universidad [4] J. G. Cantero, “Nuevas estrategias de gestión de la
Desarrollado por Google información,” Big Data, vol. 95, p. 51, 2013.
de Berkeley
Procesar
Procesar en [5] A. Ferrer-Sapena and E. Sánchez-Pérez, “Open data,
Diseñado para segmento de
tiempo real big data:?` hacia dónde nos dirigimos?,” Anu.
datos
ThinkEPI 2013, vol. 7, pp. 150–156, 2013.
Lenguaje de
Java Scala
desarrollo [6] A. López Borrull and A. Canals, “La colaboración
Soporte de proceso científica en el marco de nuevas propuestas
Si No
en memoria científicas: Open Science, e-Science y Big Data,” La
Resultados son Colab. científica una aproximación Multidiscip. Val.
Disco duro Memoria
almacenados en Nau Llibres, pp. 91–100, 2013.
Tener replica Registro de
Tolerable a fallos por [7] M. A. Murazzo, N. R. Rodriguez, M. J. Guevara, and
de datos transformación
Acceso a disco Gran consumo F. G. Tinetti, “Identificación de algoritmos de cómputo
Cuello de botella Intensivo para big data y su implementación en
frecuente de memoria
Capacidad de datos 102.5 Tb 100 Tb clouds,” in XVIII Workshop de Investigadores en
Tiempo de proceso 72 min 23 min Ciencias de la Computación (WICC 2016, Entre Ríos,
Cantidad de nodos 2100 206 Argentina), 2016.

[8] M. Coto-Jiménez, “Minería de datos: concepto y


aplicaciones,” Una ojeada a Clasif. del suelo Globos
4 CONCLUSIONES Cantolla II vuelo Vert. Arduino uno para prototipado
rápido Gener. números aleatorios El bosón Higgs, la
partícula divina, p. 60, 2014.
Después de investigar sobre el ámbito que rodea al
Big Data se concluye que es una herramienta que [9] A. C. C. Herráez, “Big data con Hadoop-I,” 2015.
tiene la capacidad de influir positivamente en el
futuro de una organización, pues da la posibilidad de [10] B. Sarmiento, M. Hernández, and X. Gómez,
“Herramientas y antecedentes Big Data,” Rev.
tomar mejores decisiones y de identificar de una
Investig. y Desarro. en TIC, vol. 5, no. 2, 2017.
forma muy aproximada la realidad del entorno que
nos rodea. Es por esto que cada vez más [11] A. Hernández Dominguez and A. Hernández Yeja,
organizaciones a nivel mundial están adoptando el “Acerca de la aplicación de MapReduce+ Hadoop en
Big Data como una de sus principales herramientas el tratamiento de Big Data,” Rev. Cuba. Ciencias
para la toma de decisiones y así mismo están Informáticas, vol. 9, no. 3, pp. 49–62, 2015.
implementando diferentes tecnologías como Hadoop [12] L. F. Vásquez Rugel, L. A. Caviedes Ruiz, and others,
y Spark que les ayuda a obtener respuestas casi “Sistema de archivos por capas en Hadoop HDFS,”
que en tiempo real, algo que era imposible en el Espol, 2017.
pasado.
[13] J. L. Larroque, “Indexado de Wikipedia a través de
También se concluye que es momento de que las una arquitectura Map Reduce,” Facultad de
organizaciones en Colombia comiencen a Informática, 2017.
implementar Big Data, para direccionar sus
[14] A. Fenna Víchez, “Captura y gestión de open data en
estrategias y de esta forma se logrará tener una entornos de smart city,” 2017.
economía más competitiva y actualizada con las
Tecnologías de la información vigentes. [15] M. Niño and A. Illarramendi, “ENTENDIENDO EL BIG
DATA: ANTECEDENTES, ORIGEN Y DESARROLLO
POSTERIOR,” DYNA New Technol., vol. 2, no. 1, pp.
1–8, 2015.
5 REFERENCIAS
[16] S. A. Valenzuela, C. L. Vidal, J. D. Morales, and L. P.
López, “Ejemplos de Aplicabilidad de Giraph y
[1] V. M. Schönberger and K. Cukier, Big data: la Hadoop para el Procesamiento de Grandes Grafos,”
revolución de los datos masivos. Turner, 2013. Inf. tecnológica, vol. 27, no. 5, pp. 171–180, 2016.

[2] J. Serrano-Cobos, “Big data y analítica web. Estudiar [17] K. Esser, W. Hillebrand, D. Messner, J. Meyer-
las corrientes y pescar en un océano de datos,” El Stamer, and others, “Competitividad sistémica: nuevo
Prof. la Inf., vol. 23, no. 6, pp. 561–565, 2014. desafío para las empresas y la política,” Rev. la
CEPAL, vol. 59, no. 8, pp. 39–52, 1996.
[3] L. J. Aguilar, Big Data, Análisis de grandes volúmenes
de datos en organizaciones. Alfaomega Grupo Editor, [18] D. Cohen Karen, E. Asin Lares, D. G. Lankenau

Lámpsakos | N°. 19 | enero-junio 2018


MsC. Lina Montoya Suarez
72 Gustavo Andrés Gil Restrepo
DOI: http://dx.doi.org/10.21501/21454086.2403

Caballero, and D. Alanis Davila, “Sistemas de [20] H. Orallo, J. RAMIREZ, C. R. QUINTANA, M. Josej.
informacion para los negocios: Un enfoque para la H. Orallo, M. J. R. Quintana, and C. F. Ramírez,
toma de decisiones.,” 2005. Introducción a la Minería de Datos. Pearson Prentice
Hall, 2004.
[19] G. Ponjuán Dante, “Gestión de información en las
organizaciones: principios, conceptos y aplicaciones,” [21] A. Blázquez Manzano, “La información y
1998. comunicación, claves para la gestión del
conocimiento empresarial,” 2013.

Lámpsakos | N°. 19 | enero-junio 2018

También podría gustarte