Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ISSN 0121-1129
eISSN 2357-5328
Resumen
Teniendo en cuenta la importancia que ha adquirido el trmino Big Data, la presente investigacin busc estudiar
y analizar de manera exhaustiva el estado del arte del Big Data; adems, y como segundo objetivo, analiz las
caractersticas, las herramientas, las tecnologas, los modelos y los estndares relacionados con Big Data, y por
ltimo busc identificar las caractersticas ms relevantes en la gestin de Big Data, para que con ello se pueda
conocer todo lo concerniente al tema central de la investigacin.
La metodologa utilizada incluy revisar el estado del arte de Big Data y ensear su situacin actual; conocer las
tecnologas de Big Data; presentar algunas de las bases de datos NoSQL, que son las que permiten procesar datos
con formatos no estructurados, y mostrar los modelos de datos y las tecnologas de anlisis de ellos, para terminar
con algunos beneficios de Big Data.
El diseo metodolgico usado para la investigacin fue no experimental, pues no se manipulan variables, y de tipo
exploratorio, debido a que con esta investigacin se empieza a conocer el ambiente del Big Data.
Palabras clave: Big Data, Hadoop, MapReduce, NoSQL, Anlisis de datos, Modelo de datos.
Abstract
Given the importance acquired by the term Big Data, the present investigation aims to study and analyze thoroughly
the Big Data state of art. Moreover, a second objective is to study the features, tools, technologies, models and
Revista Facultad de Ingeniera (Fac. Ing.), Enero-Abril 2015, Vol. 24. No. 38. pp. 63-77 63
. pp. 63-77
Conociendo Big Data
standards related to Big Data. And finally it seeks to identify the most relevant features that manage Big Data, so
it can be known everything about the focus of the investigation.
Regarding the methodology used in the development of the research, included to review the state of the art of Big
Data, and show what is its current situation, to know the Big Data technologies, to present some of the NoSQL
databases, which are those that allow to process unstructured data formats. Also display data models and the
analysis technologies they offer, to end with some benefits from Big Data.
The methodology desing used in this investigation, was not experimental, because no variables are manipulated,
neither exploratory ones, because with the present investigation, only begins to know the Big Data evirioment.
Keywords: Big Data, Hadoop, MapReduce, NoSQL, Data Analysis, Data Model
Resumo
Tendo em conta a importncia adquirida pelo termo Big Data, a presente pesquisa buscou estudar e analisar de
maneira exaustiva o estado da arte do Big Data; alm disso, e como segundo objetivo, analisou as caractersticas, as
ferramentas, as tecnologias, os modelos e os standards relacionados com Big Data, e por ltimo buscou identificar
as caractersticas mais relevantes na gesto de Big Data, para que com ele possa conhecer-se todo o concernente
ao tema central da pesquisa.
A metodologia utilizada incluiu revisar o estado da arte de Big Data e ensinar sua situao atual; conhecer as
tecnologias de Big Data; apresentar algumas das bases de dados NOSQL, que permitem processar dados com
formatos no estruturados, e mostrar os modelos de dados e as tecnologias de anlise deles, para terminar com
alguns benefcios de Big Data.
O desenho metodolgico usado para a pesquisa foi no experimental, pois no se manipulam variveis, e sim de
tipo exploratrio, devido a que com esta pesquisa se comea a conhecer o ambiente do Big Data.
Palavras chave: Big Data, Hadoop, MapReduce, NoSQL, Anlise de dados, Modelo de dados.
64 Revista Facultad de Ingeniera (Fac. Ing.), Enero-Abril 2015, Vol. 24, No. 38
Juan Jos Camargo-Vega - Jonathan Felipe Camargo-Ortega - Luis Joyanes-Aguilar
Revista Facultad de Ingeniera (Fac. Ing.), Enero-Abril 2015, Vol. 24, No. 38 65
Conociendo Big Data
un terabyte de datos; eso indica que el volumen de ao, es decir, las empresas estn inundadas de datos
datos en el mundo est aumentando a un ritmo casi [13].
incomprensible.
2) Variedad: Se puede mencionar que va muy de la
Seala Beyer de Gartner y otros expertos que: los mano con el volumen, pues de acuerdo con ste y con
grandes volmenes de datos, o Big Data, requieren el desarrollo de la tecnologa, existen muchas formas
grandes cambios en el servidor, la infraestructura de de representar los datos; es el caso de datos estruc-
almacenamiento y la arquitectura de administracin turados y no estructurados; estos ltimos son los que
de la informacin en la mayora de las empresas [11]. se generan desde pginas web, archivos de bsquedas,
redes sociales, foros, correos electrnicos o producto
En [11], McKinsey dice que es necesario prepararse de sensores en diferentes actividades de las personas;
para contratar o reciclar personal, pues las empresas un ejemplo [14] es el convertir 350 mil millones de
u organizaciones carecen de personas capacitadas en lecturas de los medidores por ao para predecir el con-
Big Data. Adems, proyecta que para el 2018, solo sumo de energa.
en Estados Unidos, se necesitarn entre 140 mil y
3) Velocidad: Se refiere a la velocidad con que se
190 mil nuevos expertos en mtodos estadsticos
crean los datos, que es la medida en que aumentan los
y tecnologas de anlisis de datos, incluyendo el
productos de desarrollos de software (pginas web,
ampliamente publicitado papel de cientfico de datos.
archivos de bsquedas, redes sociales, foros, correos
Seala Williams de Catalina, en [11], que La gente
electrnicos, entre otros).
que construy las bases de datos del pasado no son
necesariamente las personas que van a construir las Las tres caractersticas tienen coherencia entre s; por
bases de datos del futuro. ejemplo [13], analizar 500 millones de registros de lla-
madas al da en tiempo real para predecir la prdida
Segn el estudio de Worldwide Big DataTechnology de clientes.
and Services 2013-2017 de IDC, La tecnologa y
servicios de Big Data crecer con una tasa anual de C. Anlisis de Big Data
crecimiento compuesto del 27% hasta llegar a los
32.400 millones de dlares en 2017, unas seis veces la El Big Data crece diariamente, como ya se mencion,y
tasa de crecimiento del mercado general de tecnologas una de las justificaciones es que los datos provienen de
de la informacin y comunicaciones [12]. gran variedad de fuentes, tales como la Web, bases de
datos, rastros de clics, redes sociales, Call Center, datos
B. Dimensiones de Big Data geoespaciales, datos semiestructurados (XML, RSS),
provenientes de audio y video, los datos generados por
Existen tres caractersticas o dimensiones: Volumen, los termmetros, datos de navegacin de sitios web
Velocidad y Variedad. durante cierto tiempo, las RFID (Radio Frequency
Identification - identificacin por radiofrecuencia)
1) Volumen: Cada da, las empresas registran un au- [15].
mento significativo de sus datos (terabytes, petabytes
y exabytes), creados por personas y mquinas. En el Existen algunos beneficios del anlisis de Big Data
ao 2000 se generaron 800.000 petabytes (PB), de para las organizaciones, tal como se observ en el rea
datos almacenados y se espera que esta cifra alcance de marketing, demostrados en la encuesta realizada
los 35 zettabytes (ZB) en el 2020. Las redes sociales por TDWI (The Data Warehousing Institute), cuando
tambin generan datos, es el caso de Twitter, que por s pregunt: Cul de los siguientes beneficios se
sola genera ms de 7 terabytes (TB) diariamente, y de producira si la organizacin implementa alguna
Facebook, 10 TB de datos cada da. Algunas empresas forma de anlisis de Big Data?. El 61% respondi
generan terabytes de datos cada hora de cada da del que influye de manera social; el 45%, que habr
ms puntos de vista de negocio; el 37% se inclin
por las decisiones automatizadas en los procesos en
tiempo real; el 29% mencion que se mejorara la
66 Revista Facultad de Ingeniera (Fac. Ing.), Enero-Abril 2015, Vol. 24, No. 38
Juan Jos Camargo-Vega - Jonathan Felipe Camargo-Ortega - Luis Joyanes-Aguilar
El anlisis de datos se realiza con tecnologas de bases Es robusto, pues ante un mal funcionamiento
de datos como NoSQL, Hadoop y MapReduce, las del hardware puede superar tales situaciones sin
cuales soportan el procesamiento del Big Data. mayor inconveniente.
Tiene la ventaja de poder ser escalable, lo que
III. Tecnologas de big data indica que permite crecer o agregar nodos al
clster con relativa facilidad; por ejemplo,
Para el manejo de datos es necesario tener dos ante la forma vertiginosa como crecen las
componentes bsicos, tanto el hardware como el redes sociales, permite agregar ms nodos con
software; respecto al primero, se tienen tecnologas facilidad.
tales como arquitecturas de Procesamiento Paralelo Es simple, por lo que permite a los usuarios
Masivo (MPP), que ayudan de forma rpida a escribir cdigo con eficiencia, para software
su procesamiento. Para el manejo de datos no distribuido.
estructurados o semiestructurados es necesario acudir
a otras tecnologas; es aqu donde aparecen nuevas Hadoop tiene sus inicios como un subproyecto de
tcnicas y tecnologas, como MapReduce o Hadoop, Nutch, que era a su vez un subproyecto de Apache
diseado para el manejo de informacin estructurada, Lucene; es una indexacin de texto y de bsqueda
no estructurada o semiestructurada. bibliogrfica, es decir, permite realizar bsquedas
dentro de documentos. Nutch es un proyecto ms
ambicioso que Apache Lucene, lo que se busca es
disear un motor de bsqueda para la web, el cual
Revista Facultad de Ingeniera (Fac. Ing.), Enero-Abril 2015, Vol. 24, No. 38 67
Conociendo Big Data
contiene analizador para HTML, un rastreador web, que se pueda presentar sin afectar demasiado el proce-
una base de datos de link-grfica y otros componentes so [20,21].
adicionales necesarios.
Cuando se cre HDFS se propusieron tres objetivos
Hoy en da, Hadoop muestra ventajas significativas [21]:
frente a bases de datos SQL (Structured Query
Language), que se presentan como un diseo para el Permitir procesar archivos con tamaos de
manejo de informacin estructurada, donde los datos gigabytes (GB) hasta petabytes (PB).
residen en tablas relacionales que tienen una estructura
Poder leer datos a grandes velocidades.
definida, pues fue diseado para informacin no
estructurada o semiestructurada, como documentos de Capacidad para ser ejecutado en una mquina,
texto, imgenes y archivos XML. sin solicitar hardware especial.
La arquitectura de HDFS est compuesta por un
Hadoop puede manejar todos los tipos de datos de nodo principal (NameNode) y varios nodos esclavos
sistemas dispares: estructurado, no estructurado, los (DataNodes).
archivos de registro, imgenes, archivos de audio,
archivos de correo electrnico, las comunicaciones,
El nodo principal es el servidor maestro, dedicado
casi cualquier cosa que se pueda imaginar, sin importar
a gestionar el espacio del nombre de los archivos
su formato nativo [21].
y controlar el acceso de los diferentes archivos de
usuarios; adems, el nodo maestro se encarga de
Segn [20], Hadoop es un framework usado para gestionar las operaciones de abrir, cerrar, mover,
escribir y ejecutar aplicaciones distribuidas que permite nombrar y renombrar archivos y directorios.
procesar grandes cantidades de datos. Hadoop est
compuesto por dos mdulos [19]: Hadoop Distributed
Los nodos esclavos (DataNodes), como su nombre
File System (HDFS), y HadoopMapReduce.
lo indica, representan los esclavos de la arquitectura
HDFS. En un HDFS pueden existir miles de nodos
1) Hadoop Distributed File System (HDFS: Sistema esclavos y decenas de miles de clientes HDFS por
de archivos distribuido Hadoop): Es un sistema de clster; esto se debe a que cada nodo esclavo puede
archivos altamente tolerante a fallos, escalable y con ejecutar mltiples tareas de aplicaciones de forma
una arquitectura distribuida; puede llegar a almacenar simultnea. La funcin del nodo esclavo es la de
100 TB en un solo archivo, lo cual no es tan fcil en gestionar tanto la lectura como la escritura de los
otros tipos de sistemas de archivos. Adems, brinda la archivos de los usuarios, y realizar la replicacin
apariencia de estar trabajando en un solo archivo, pero de acuerdo a como lo indique el nodo maestro
realmente lo que se tiene es que estn distribuidos en (NameNode) [21].
varias mquinas para su procesamiento.
Lam menciona [20] que HDFS se dise para el pro- 2) Hadoop MapReduce: Segn [19],Es un sistema
cesamiento por lotes, en lugar de uso interactivo por basado en hilados para el procesamiento paralelo de
los usuarios; pero realmente se dise para resolver grandes conjuntos de datos. Hadoop MapReduce
dos problemas importantes que se presentan en el pro- es un marco de software creado con el fin de hacer
cesamiento de datos a gran escala: el primero es la ca- aplicaciones que puedan procesar grandes cantidades
pacidad de descomponer los archivos en varias partes de datos de forma paralela, en un mismo hardware.
y procesar cada una independientemente de las dems, Cuando los datos entran para ser procesados se divi-
y al final consolidar todas las divisiones del archivo den de manera independiente, para su procesamiento,
en uno solo; el segundo problema era la tolerancia a es decir, de manera distribuida en diferente hardware
fallos, tanto en el nivel de procesamiento de archivos que exista. MapReduce est compuesto de un maes-
como de forma general del software, al momento de tro, llamado JobTracker, y un esclavo, TaskTracker,
realizar el procesamiento de datos distribuidos; lo que por cada nodo. El primero se encarga de programar las
se busca es que el sistema pueda recuperarse de la falla
68 Revista Facultad de Ingeniera (Fac. Ing.), Enero-Abril 2015, Vol. 24, No. 38
Juan Jos Camargo-Vega - Jonathan Felipe Camargo-Ortega - Luis Joyanes-Aguilar
Revista Facultad de Ingeniera (Fac. Ing.), Enero-Abril 2015, Vol. 24, No. 38 69
Conociendo Big Data
Otras caractersticas importantes de Cassandra es que los datos lo hace a su manera, y al leerlos funciona
es descentralizada, lo que significa que cada nodo es de igual forma. Trabaja con los tres tipos de datos:
idntico, y, adems, que no existe ningn punto nico no estructurados, semiestructurados y estructurados,
de fallo; que es escalable, es decir, que el software siempre y cuando no sean tan grandes. HBase no
puede atender un nmero mayor de solicitudes de los permite consultas SQL y, adems, est diseada para
usuarios sin que se note algn tipo de degradacin en ejecutarse en un clster de equipos, lo que indica que
su rendimiento, y que es tolerante a fallos, es decir, no puede trabajar en un solo servidor. En la medida
que puede reemplazar nodos que fallen en el clster que se aumenten ms servidores, HBase no presenta
sin perder tiempo. inconvenientes en ese sentido, y, tambin, cuando uno
de ellos presenta algn tipo de inconveniente se puede
sustituir por otro sin mayor problema [26, 27].
C. Voldemort
Voldemort fue creada por LinkedIn, con el fin de F. Riak
solucionar los problemas de escalabilidad que tenan
las bases de datos relacionales; los datos los almacena Riak es una base de datos que almacena la informacin
en forma de clave-valor; es de ambiente distribuido, en forma de clave-valor y es de ambiente distribuido,
los datos se replican automticamente en los diferentes presenta la caracterstica de que es tolerante a fallos,
nodos o servidores, donde cada nodo es independiente lo que indica que puede eliminar errores y sus efectos
de los dems; permite con cierta facilidad la expansin antes de que ocurra una falla, buscando de esta manera
del clster, sin necesidad de reequilibrar todos los maximizar la fiabilidad del sistema. Utiliza JSON
datos. El cdigo fuente est disponible bajo la licencia (JavaScript Object Notation - Notacin de Objetos
Apache 2.0 [42]. de JavaScript), que es un formato para el intercambio
de datos. Adems, Riak tiene mayor ventaja a la hora
D. Google BigTable de trabajar en la Web, en la familia de bases de datos
de su especie, medida en las peticiones de muchos
BigTable fue creado por Google en el ao 2004, con usuarios simultneamente [28, 29].
la idea inicial de que fuera distribuido para varias
mquinas, por lo que necesitaban que fuese altamente G. CouchDB
eficiente. El sistema divide la informacin en columnas,
y para almacenarla utiliza tablas multidimensionales CouchDB es el acrnimo en ingls de Clusterof
compuestas por celdas [25]. El sistema de archivos UnreliableCommodity Hardware; fue creado en
usado por BigTable es GFS (Google File System) es el ao 2005, por Damien Katz. En el 2011 se hace
de tipo distribuido, del mismo propietario Google, y se el lanzamiento al pblico de la versin 1.1.1. Se
desarroll con el objetivo de almacenar informacin en considera que CouchDB es un servidor de base de
sistemas de archivos distribuidos con cierta velocidad. datos documental, lo cual indica que los datos no los
Puede almacenar hasta tres copias de la informacin. almacena en tablas, sino que la base de datos est
Maneja dos servidores diferentes: uno llamado Master, compuesta por documentos, que a su vez trabajan
que se encarga de guardar la direccin donde se alojan como objetos. Hace uso de JSON, que es un formato
los archivos, y otro llamado Chunk Server, que es para el intercambio de datos, usado cuando los datos
donde almacena los datos. Para terminar, GFS no son de gran volumen; por eso, para las consultas hace
depende de un sistema operativo especfico, es decir, uso de JavaScript; debido a lo anterior, es muy usado
funciona en cualquier plataforma. por empresas como Yahoo y Google [28, 30].
70 Revista Facultad de Ingeniera (Fac. Ing.), Enero-Abril 2015, Vol. 24, No. 38
Juan Jos Camargo-Vega - Jonathan Felipe Camargo-Ortega - Luis Joyanes-Aguilar
un servidor. Tambin es muy flexible para estructurar caracterstica importante que permite escalar y, adems,
y distribuir datos. Otra caracterstica importante es la que es de alto rendimiento. Su arquitectura es cliente/
facilidad con la que permite hacer replicaciones. servidor, permitiendo realizar lecturas y escrituras de
datos de manera simultnea. Cumple con el estndar,
Una desventaja consiste en que no permite consultas ACID (acrnimo de Atomicity, Consistency, Isolation
dinmicas, pues las realiza de manera esttica; por and Durability-Atomicidad, Consistencia, Aislamiento
ejemplo, para buscar un libro por el nombre de autor, y Durabilidad). Soporta grandes documentos en XML,
primero crea un ndice con todos los nombres de JSON y formatos binarios. BaseX est desarrollado
autores para todos los documentos. bajo Java y XQuery [35].
Revista Facultad de Ingeniera (Fac. Ing.), Enero-Abril 2015, Vol. 24, No. 38 71
Conociendo Big Data
Tabla 2
Datos semiestructurados
Nombre Telfono Sexo Correo
Pedro Prez 2127409 M pedroperez@gmail.com
Tabla 3
Datos semiestructurados
Nombre Apellido Telfono Correo
Mario Rodrguez 0987526221 mario@gmail
Tabla 4
Datos semiestructurados
Primer apellido Segundo apellido Nombres Correo Telfono
Martnez Arvalo Julio aremar@gmail.com 24356712
En este tipo de datos semiestructurados se pueden presentar datos incompletos, es el caso del ejemplo que
se observa en las Tablas 5 y 6.
Tabla 5
Datos semiestructurados
Nombre Telfono Sexo Correo
Martnez 2127409 pedroperez@gmail.com
Tabla 6
Datos semiestructurados
Nombre Apellido Telfono Correo
Mario Rodrguez 0987526221 mario@gmail
Los componentes de este tipo de datos, pueden cambiar de tipo (ver Tabla 7).
Tabla 7
Datos semiestructurados
Primer apellido Segundo apellido Nombres Correo Telfono
Martnez Arvalo Julio aremar@gmail.com 24356712
Otra caracterstica de los datos observar las Tablas 7 y 8: la primera presenta cinco
semiestructurados es que pueden aparecer datos campos, y la segunda, seis, y los dos registros dentro
nuevos cuya estructura nada tiene que ver con la ya del mismo archivo de datos.
existente, es decir, para seguir el ejemplo, se puede
72 Revista Facultad de Ingeniera (Fac. Ing.), Enero-Abril 2015, Vol. 24, No. 38
Juan Jos Camargo-Vega - Jonathan Felipe Camargo-Ortega - Luis Joyanes-Aguilar
Tabla 8
Datos semiestructurados
Primer Segundo Primer Segundo Telfono Correo
apellido apellido nombre nombre
Vargas Castro Nstor Julio 25678349 neva@gmail.com
Algunas de las anteriores caractersticas se presentan Lo que s se puede respecto a los datos no estructurados
debido a que cada quien publica sus datos a su manera, es hacer uso de los metadatos, es decir, usar datos
y esto se presenta en internet; al observar cualquier que puedan describir otros datos. Por ejemplo, en
pgina web se puede visualizar tal situacin, es una biblioteca se tiene en fichas o en un sistema de
decir, no existe un formato o estructura definida para informacin datos de los libros como: autor, ttulo,
presentar los datos. editorial, ISBN y tema, entre otros. Lo anterior con el
fin de hallar con facilidad un determinado libro; esta
Es de aclarar que los ejemplos anteriores, expuestos es la forma como los metadatos ayudan a buscar datos.
en las Tablas 2 a 8, son parte de un archivo con
datos semiestructurados, donde sera difcil realizar VI. Tecnologas de anlisis de datos
cualquier gestin o procesamiento con este tipo de
datos, pues el primer motivo es la diferencia de tamao
en los campos de cada registro. A. BigQuery
Revista Facultad de Ingeniera (Fac. Ing.), Enero-Abril 2015, Vol. 24, No. 38 73
Conociendo Big Data
El sistema PureData es una herramienta de IBM; Es un software desarrollado por la empresa Oracle,
permite realizar anlisis de Big Data en menos tiempo que combina hardware con software optimizado,
que otras herramientas de anlisis; la velocidad de ofreciendo una solucin completa y fcil de
lectura de datos promedia los 128 gigabytes por implementar para la organizacin de Big Data. En la
segundo; fue diseado para manejar ms de 1000 parte de hardware, est compuesto por un rack de 18
consultas simultneamente; se puede decir que las servidores; cada servidor tiene 64 GB de memoria,
consultas son tres veces ms rpidas que la versin es decir, el rack tiene 1,152 GB de capacidad total
anterior de InfoSphereWarehouse software; permite de memoria. Adems, cada servidor tiene dos CPU,
el anlisis de datos tanto estructurados como no y cada uno con ocho ncleos, es decir, que en su
estructurados. SystemPureData permite cargar cinco totalidad posee 288 ncleos el rack [50].
terabytes en una hora [47].
I. HDinsight
F. Infosphere Information Server
Es un producto Microsoft, basado en Hadoop, permite
Es una plataforma de integracin de datos, producto gestionar datos estructurados y no estructurados de
desarrollado por IBM; permite limpiar y transformar cualquier tamao, que se pueden llegar a combinar
datos, para luego entregar informacin confiable a la perfectamente con herramientas de Inteligencia de
empresa o negocio. Esta herramienta permite trabajar Negocios de Microsoft, fortaleciendo de esta forma
inteligencia de negocios, facilitando la mejor toma de los servicios a usuarios y pblico en general con ayuda
decisiones; ayuda en el almacenamiento de los datos; de software como Office y SharePoint [24].
reduce costos de operacin, al permitir fcilmente la
relacin entre los sistemas, de manera que proporciona J. Textalytics
informacin a otras aplicaciones y a procesos de
negocios, lo cual trae consigo mayor agilidad en el Textalytics es un software desarrollado por Daedalus
negocio de la empresa, es decir, lo que sucede es una (Data Decisions and Language S. A.), dedicado al
transformacin del negocio en la empresa [46, 47, 45]. anlisis de texto; extrae con facilidad significado
de lo escrito en medios sociales y todo tipo de
documentos. Dichos datos se transforman en modelos
estructurados para poder ser procesados y gestionados
con facilidad. Textalytics, permite realizar tareas
74 Revista Facultad de Ingeniera (Fac. Ing.), Enero-Abril 2015, Vol. 24, No. 38
Juan Jos Camargo-Vega - Jonathan Felipe Camargo-Ortega - Luis Joyanes-Aguilar
tales como extraccin de conceptos, relacin entre se puede solucionar realizando investigacin e
conceptos, correccin ortogrfica, correccin inversin en este tipo de tecnologa.
gramatical, correccin de estilo, entre otras funciones,
Es importante mantener el objetivo de Big Data
es Multiidioma, pues acepta contenidos en espaol,
en mente; esto porque el proceso es pesado
ingls, francs y otros idiomas [51].
y porque no es tedioso, mxime cuando los
mtodos y herramientas que usan Big Data
VII. Beneficios del Big Data para el anlisis de datos an pueden presentar
problemas, y la idea es que se mantenga en
Las empresas que saben sacar provecho del Big Data mente la meta final del proyecto sin desanimarse
pueden mejorar su estrategia y as permanecer en pronto.
el mercado posicionadas, pues har uso de nuevos
conocimientos, con el gran volumen de datos o VIII. Conclusiones
informacin que maneja a diario, que inicialmente no
se les dio la suficiente importancia, por no tener una Dentro del estado del arte se encuentran desde diversas
herramienta tecnolgica que permitiera procesarla. definiciones del trmino Big Data por parte de varios
Con la tecnologa de Big Data, las empresas pueden investigadores hasta las tecnologas existentes para
ofrecer mejores productos, desarrollar excelentes iniciar un proyecto en una institucin de cualquier
relaciones con sus clientes, adems, se transforman en ramo productivo, comercial o educativo.
ms giles y competitivas [17].
Se estudiaron y analizaron las herramientas
Es importante tener en cuenta algunos pasos para la tecnolgicas que se pueden usar a la hora de desarrollar
implementacin de Big Data, como se menciona en un proyecto de Big Data. Es as como se pudieron
[52]. observar empresas desarrolladoras de software que
presentan herramientas para enfrentar proyectos de
Entender el negocio y los datos. Este primer
Big Data, con sus caractersticas.
paso pide un anlisis detallado con las personas
que hoy laboran y entienden los procesos y los
Se pudieron identificar las caractersticas ms
datos que la empresa maneja.
importantes en la gestin de Big Data, desde los
El segundo paso consiste en determinar los diferentes formatos de datos que hoy existen o se
problemas y cmo los datos pueden ayudar. manejan por los usuarios, hasta conocer las tecnologas
Al momento de conocer los procesos es muy necesarias para convertir datos no estructurados en
posible que se encuentren los problemas de la informacin y conocimiento que beneficie tanto a
empresa o del negocio. personas como a empresas en la toma de decisiones.
Dicha herramienta para tal labor es Hadoop, que, como
Establecer expectativas razonables, es decir, se mencion anteriormente, permite convertir datos
definir metas alcanzables; esto se puede lograr poco tiles en informacin estructurada, ayudando de
si al implementar la solucin de un problema esta forma a los tomadores de decisiones.
ste no presenta alguna mejora, y se debe buscar
otra solucin.
Parte de la investigacin arroj que hoy existe un
Existe una recomendacin especial, y es que sinnmero de herramientas tecnolgicas para realizar
cuando se inicia un proyecto de Big Data es anlisis de datos, la gran mayora basadas en Hadoop,
necesario trabajar en paralelo con el sistema que algunas en ambiente web y otras para escritorio, y
hoy est funcionando. algunas en ambiente de la nube. Se nota el esfuerzo
que han realizado varias empresas desarrolladoras de
Al tratar de implementar un proyecto de Big software, al servicio de los usuarios.
Data se debe ser flexible con la metodologa
y las herramientas; esto se debe a que las dos Tambin se pudo conocer una metodologa para
anteriores son recientes y pueden llegar a implementar un proyecto de Big Data, de forma que
presentar problemas al implementarlas. Esto pueda servir de gua a quienes deseen sacarle un mayor
Revista Facultad de Ingeniera (Fac. Ing.), Enero-Abril 2015, Vol. 24, No. 38 75
Conociendo Big Data
usufructo a los datos y convertirlos en conocimiento, [14] ibm.com, Qu es Big Data? Disponible en:
que les sea til a las empresas u organizaciones, http://www.ibm.com/developerworks/ssa/local/
buscando mayor beneficio en estrategias empresariales. im/que-es-big-data/index.html, 2012.
[15] es.wikipedia.org, RFID. Disponible en: http://
Referencias es.wikipedia.org/wiki/RFID, 2010.
[16] E. Redmond, & J. Wilson, Seven Databases
in Seven Weeks, USA: OReilly Media, Inc.,
[1] ZDNet.com, CBS Interactive,What is Big
Pragmatic Programmers, LLC.2012.
Data?. Disponible en: http://www.zdnet.com/
[17] Emc.com, Big Data transforms Business.
topic-big-data/, 2013.
Disponible en: http://www.emc.com/microsites/
[2] thinkupapp.com,(2012). Disponible en:http://
ebook/index.htm#/slide-intro, 2012.
thinkupapp.com/, 2012.
[18] T. Olavsrud, Big Data Causes Concern
[3] E. Dans. Disponible en:http://www.enriquedans.
and Big Confusion.Disponible en:http://
c o m / 2 0 11 / 1 0 / b i g - d a t a - u n a - p e q u e n a -
w w w. c i o . c o m / a r t i c l e / 7 0 0 8 0 4 / B i g _
introduccion.html, 2011.
Data_Causes_Concern_and_Big_
[4] E. Plugge, P. Membrey & T. Hawkins, The
Confusion?page=2&taxonomyId=3002, 2012.
Definitive Guide to MongoDB: The NoSQL
[19] hadoop.apache.org, Disponible en: http://
Database for Cloud and Desktop Computing,
hadoop.apache.org/, 2013.
Published Apress Media LLC, New York, 2010.
[20] Chuck Lam, Hadoop in Action, Publisher:
[5] B. Hopkins, Beyond the Hype of Big
Manning Publications Co., Stamford, 2011.
Data. Disponible en: http://www.cio.com/
[21] Cloudera.com, Cloudera, Inc. Disponible en:
article/692724/Beyond_the_Hype_of_Big_
http://www.cloudera.com/content/cloudera/en/
Data, 2011.
why-cloudera/hadoop-and-big-data.html, 2013.
[6] Business Software, Disponible en: http://www.
[22] P. Zikopoulos, C. Eaton, D. DeRoos, T. Deutsch,
businessoftware.net/que-es-big-data/, 2013.
&G. Lapis, Understanding Big Data, USA:
[7] Zdnet.com, Big Data. Disponible en: http://
McGraw-Hill Books, 2012.
www.zdnet.com/search?q=big+data, 2010.
[23] Universidad Simn Bolvar, Laboratorio
[8] M. Salgado, Oracle apuesta por Big Data
Docente de Computacin. Disponible en: http://
con tecnologa y proyectos. Disponible en:
ldc.usb.ve/~ruckhaus/materias/ci7453/clase3.
http://www.computerworld.es/big-data/
pdf.
oracle-apuesta-por-big-data-con-tecnologia-y-
[24] Microsoft, SharePoint. Disponible en: http://
proyectos, 2014.
office.microsoft.com/es-es/sharepoint/
[9] P. Russom, Big Data Analytics, TDWI (The
informacion-general-de-sharepoint-2013-
Data Warehousing Institute), 2012.
caracteristicas-del-software-de-colaboracion-
[10] S. Montoro, Server and Cloud Platform.
FX103789323.asp, 2014.
Disponible en: http://lapastillaroja.net/2012/02/
[25] S. Montoro, Disponible en: http://www.
nosql-for-non-programmers/, 2012.
versioncero.com/articulo/596/almacenamiento-
[11] searchstorage.techtarget.com, Examining
distribuido-no-relacional, 2009.
HDFS and NameNode in Hadoop architecture.
[26] N. Dimiduk, & A. Khurana, HBase in Action,
Disponible en: http://searchstorage.techtarget.
USA: Manning Publications Co, 2013.
com/video/Examining-HDFS-and-NameNode-
[27] textalytics.com, El motor de anlisis de texto
in-Hadoop-architecture, 2012.
msfcilde usar. Disponible en: https://
[12] computerworld.es, Disponible en: http://www.
textalytics.com/inicio, 2013.
computerworld.es/sociedad-de-la-informacion/
[28] C. Preimesberger, eWeek.Disponiblen: http://
el-mercado-del-big-data-crecera-hasta-los-
search.proquest.com/view/885430073/
32400-millones-de-dolares-en-2017, 2013.
1366B171EE72EDB474F/1?accountid=43790,
[13] -01.ibm.com, IBM Big Data and analytics
2011.
platform.Disponible en: http://www-01.ibm.
[29] Basho Technologies, Inc., Disponible en: http://
com/software/data/bigdata, 2012.
docs.basho.com/riak/latest/, 2011-2014.
76 Revista Facultad de Ingeniera (Fac. Ing.), Enero-Abril 2015, Vol. 24, No. 38
Juan Jos Camargo-Vega - Jonathan Felipe Camargo-Ortega - Luis Joyanes-Aguilar
[30] T. Juravich, CouchDB and PHP Web [44] -03.ibm.com, InfoSphere Streams. Disponible
Development Beginners Guide, Birmingham en: http://www-03.ibm.com/software/products/
Mumbai: Packt Publishing Ltd., 2012. en/infosphere-streams, 2013.
[31] L. Joyanes, Big Data: Anlisis de grandes [45] project-voldemort, Voldemort is a distributed
volmenes de datos en organizaciones, Editorial key-value storage system. Disponible en: http://
Alfaomega, 2013. www.project-voldemort.com/voldemort/, 2014.
[32] networkworld.com, 9 Open Source Big Data [46] IBM International Business Machines
Technologies to Watch. Disponible en: http:// Corporation, IBM InfoSphere Information
www.networkworld.com/slideshow/51090/, Server. Disponible en: http://www-01.ibm.com/
2012. software/data/integration/info_server/, 2012.
[33] K. Chodorow, MongoDB: The Definitive Guide, [47] IBM Corporation Software Group Route 100
Second Edition, USA: OReilly Media, Inc., Somers, IBM PureData System for Operational
2013. Analytics. NY 10589. Disponible en: http://
[34] S. Francia, MongoDB and PHP, USA:OReilly public.dhe.ibm.com/common/ssi/ecm/en/
Media, Inc.,2012. wad12351usen/WAD12351USEN.PDF, 2012.
[35] BaseXTeam, Disponible en: http://basex.org/ [48] Mario E., Business Software, In-Memory:
products/download/all-downloads/, 2013. edificacin de una empresa que opera en
[36] P. Karl, Moving Media Storage Technologies: tiempo real. Disponible en: http://www.
Applications &Workflows for Video and Media americaeconomia.com/analisis-opinion/
Server Platforms, USA: Elsevier, Inc, 2011. memory-edificacion-de-una-empresa-que-opera-
[37] Adelman Sid, Moss Larissa T., & Abai Majid, en-tiempo-real, 2011.
Data Strategy, USA: Prentice Hall, 2005. [49] itelligence AG, SAP In-Memory Computing.
[38] Developers.google.com, Google BigQuery. Disponible en: http://www.itelligence.es/14878.
Disponible en: https://developers.google.com/ php, 2013.
bigquery/, 2012. [50] J. P. Dijcks, Oracle: Big Data for the
[39] effectandaffect.es,ThinkUp, un motor de Enterprise. Disponible en: http://www.oracle.
anlisis de datos.Disponible en:http://www. com/technetwork/database/bigdata-appliance/
effectandaffect.es/blog/thinkup-motor-analisis- overview/wp-bigdatawithoracle-1453236.
datos/, 2012. pdf?ssSourceSiteId=ocomes, 2013.
[40] T. White, Hadoop: The Definitive Guide, USA: [51] StackpoleBeth, Disponible en: http://www.cio.
OReilly, Media, Inc, 2009. com.mx/Articulo.aspx?id=13527, 2011.
[41] T. Rodrguez, Amazon lanza DynamoDB, una [52] F. Carrasco, Los 6 pasos que su organizacin
base de datos NoSQL desarrollada internamente. debe seguir para confiar en Big Data.
Disponible en: http://www.genbetadev. Amrica Latina. Disponible en: http://www.
com/programacion-en-la-nube/amazon- cioal.com/2013/07/31/los-6-pasos-que-su-
lanza-dynamodb-una-base-de-datos-nosql- organizacion-debe-seguir-para-confiar-en-big-
desarrollada-integramente-por-ellos, 2012. data/, 2013.
[42] The Apache Software Foundation, Welcome [53] P. Zikopoulos, D. deRoos, K. Parasuraman, T.
to Apache Cassandra. Disponible en: http:// Deutsch, D. Corrigan, &J. Giles, Harness the
cassandra.apache.org/, 2009. Power of Big Data, McGraw-Hill Companies,
[43] The Apache Software Foundation, ApacheHBase. 2013.
Disponible en: http://hbase.apache.org/, 2014.
Revista Facultad de Ingeniera (Fac. Ing.), Enero-Abril 2015, Vol. 24, No. 38 77