Conociendo Big Data PDF

Juan Jos Camargo-Vega - Jonathan Felipe Camargo-Ortega - Luis Joyanes-Aguilar
ISSN 0121-1129
eISSN 2357-5328
Conociendo Big Data
Knowing the Big Data

Conhecendo Big Data
Fecha de Recepcin: 1 de Octubre de 2014 Juan Jos Camargo-Vega

Fecha de Aceptacin: 1 de Diciembre de 2014 Jonathan Felipe Camargo-Ortega
Luis Joyanes-Aguilar
Resumen
Teniendo en cuenta la importancia que ha adquirido el trmino Big Data, la presente investigacin busc estudiar
y analizar de manera exhaustiva el estado del arte del Big Data; adems, y como segundo objetivo, analiz las
caractersticas, las herramientas, las tecnologas, los modelos y los estndares relacionados con Big Data, y por
ltimo busc identificar las caractersticas ms relevantes en la gestin de Big Data, para que con ello se pueda
conocer todo lo concerniente al tema central de la investigacin.
La metodologa utilizada incluy revisar el estado del arte de Big Data y ensear su situacin actual; conocer las
tecnologas de Big Data; presentar algunas de las bases de datos NoSQL, que son las que permiten procesar datos
con formatos no estructurados, y mostrar los modelos de datos y las tecnologas de anlisis de ellos, para terminar
con algunos beneficios de Big Data.
El diseo metodolgico usado para la investigacin fue no experimental, pues no se manipulan variables, y de tipo
exploratorio, debido a que con esta investigacin se empieza a conocer el ambiente del Big Data.
Palabras clave: Big Data, Hadoop, MapReduce, NoSQL, Anlisis de datos, Modelo de datos.
Abstract
Given the importance acquired by the term Big Data, the present investigation aims to study and analyze thoroughly
the Big Data state of art. Moreover, a second objective is to study the features, tools, technologies, models and
* D.E.A. - M. Sc. Universidad Pedaggica y Tecnolgica de Colombia (Tunja-Boyac, Colombia). jjcamargovega@uptc.edu.co

** Universidad El Bosque (Bogot-Cundinamarca, Colombia). jfcamargo@unbosque.edu.co
*** Ph. D. Universidad Pontificia de Salamanca (Madrid, Espaa). luis.joyanes@upsam.es
Revista Facultad de Ingeniera (Fac. Ing.), Enero-Abril 2015, Vol. 24. No. 38. pp. 63-77 63
. pp. 63-77
Conociendo Big Data
standards related to Big Data. And finally it seeks to identify the most relevant features that manage Big Data, so
it can be known everything about the focus of the investigation.
Regarding the methodology used in the development of the research, included to review the state of the art of Big
Data, and show what is its current situation, to know the Big Data technologies, to present some of the NoSQL
databases, which are those that allow to process unstructured data formats. Also display data models and the
analysis technologies they offer, to end with some benefits from Big Data.
The methodology desing used in this investigation, was not experimental, because no variables are manipulated,
neither exploratory ones, because with the present investigation, only begins to know the Big Data evirioment.
Keywords: Big Data, Hadoop, MapReduce, NoSQL, Data Analysis, Data Model
Resumo
Tendo em conta a importncia adquirida pelo termo Big Data, a presente pesquisa buscou estudar e analisar de
maneira exaustiva o estado da arte do Big Data; alm disso, e como segundo objetivo, analisou as caractersticas, as
ferramentas, as tecnologias, os modelos e os standards relacionados com Big Data, e por ltimo buscou identificar
as caractersticas mais relevantes na gesto de Big Data, para que com ele possa conhecer-se todo o concernente
ao tema central da pesquisa.
A metodologia utilizada incluiu revisar o estado da arte de Big Data e ensinar sua situao atual; conhecer as
tecnologias de Big Data; apresentar algumas das bases de dados NOSQL, que permitem processar dados com
formatos no estruturados, e mostrar os modelos de dados e as tecnologias de anlise deles, para terminar com
alguns benefcios de Big Data.
O desenho metodolgico usado para a pesquisa foi no experimental, pois no se manipulam variveis, e sim de
tipo exploratrio, devido a que com esta pesquisa se comea a conhecer o ambiente do Big Data.
Palavras chave: Big Data, Hadoop, MapReduce, NoSQL, Anlise de dados, Modelo de dados.
64 Revista Facultad de Ingeniera (Fac. Ing.), Enero-Abril 2015, Vol. 24, No. 38
I. Introduccin que permitan a una organizacin crear, manipular y

administrar grandes conjuntos de datos e instalaciones
El sector empresarial presenta gran desconocimiento de almacenamiento.
sobre lo que significa Big Data; hoy las compaas
no saben qu hacer con el gran volumen de datos e En [5],Forrester define Big Data como las tcnicas y
informacin almacenada en diferentes medios o bases tecnologas que hacen que sea econmico hacer frente
de datos, los cuales pueden ser de gran importancia, a los datos a una escala extrema. Big Data trata de tres
principalmente en la toma de decisiones. Es por ello cosas: 1) Las tcnicas y la tecnologa, lo que significa
que la presente investigacin se orient a evidenciar la que la empresa tenga personal, el cual tenga gran
importancia de la Big Data y a mostrar que los datos se representacin y anlisis de datos para tener un valor
generan con cierta velocidad y variedad, ocasionando agregado con informacin que no ha sido manejada.
el crecimiento en volumen. 2) Escala extrema de datos que supera a la tecnologa
actual debido a su volumen, velocidad y variedad. 3)
Como un problema de Big Data se puede contemplar El valor econmico, haciendo que las soluciones sean
la forma como hoy crecen los datos en volumen, asequibles y ayuden a la inversin de los negocios.
velocidad y variedad; esto es debido al gran avance y
uso de las tecnologas de informacin, y al uso diario Segn [7], Big Data se refiere a las herramientas,
que las personas hacen de ellas. los procesos y procedimientos que permitan a una
organizacin crear, manipular y gestionar conjuntos
La presente investigacin es til para las personas que de datos muy grandes y las instalaciones de
no tienen mayor conocimiento sobre lo que significa almacenamiento.
Big Data, sobre sus alcances, sus tecnologas y su
aprovechamiento. De la misma forma, a las empresas, Gartner [8] define el Big Data como un gran volumen,
independientemente su tamao, siempre y cuando velocidad o variedad de informacin que demanda
desconozcan el uso de Big Data, de forma que puedan formas costeables e innovadoras de procesamiento
gestionar datos y convertirlos en conocimiento til en de informacin que permitan ideas extendidas, toma
sus labores diarias. de decisiones y automatizacin del proceso. Y [9]
indica que Big Data consiste en consolidar toda la
informacin de una organizacin y ponerla al servicio
II. Estado del arte de Big Data del negocio.
Para iniciar, se presentan algunas definiciones sobre

A. Estado actual de Big Data
el trmino Big Data, del cual existen innumerables
definiciones, entre ellas se tienen:
Las investigaciones en Big Data son bastantes en la
actualidad; aqu se presentan algunas de ellas:
Segn [1], el trmino aplica a la informacin que no
puede ser procesada o analizada mediante procesos
Una encuesta realizada por LogLogic encuentra
tradicionales. Para [2], Big Data son cantidades
que el 49% de las organizaciones estn algo o muy
masivas de datos que se acumulan con el tiempo
preocupados por la gestin de Big Data, pero que el
que son difciles de analizar y manejar utilizando
38% no entiende lo que es, y el 27% dice que tiene
herramientas comunes de gestin de bases de
una comprensin parcial [10]; adems, la encuesta
datos, y para [3], Big Data se refiere al tratamiento
encontr que 59% de las organizaciones carecen de las
y anlisis de enormes repositorios de datos, tan
herramientas necesarias para gestionar los datos de sus
desproporcionadamente grandes que resulta imposible
sistemas de TI [10]. Khera explic que: Big Data se
tratarlos con las herramientas de bases de datos y
trata de muchos terabytes de datos no estructurados,
analticas convencionales.
donde La informacin es poder, y Big Data, si se
gestiona correctamente, puede proporcionar una
Por su parte, el analista Dan Kusnetzky, del Grupo
cantidad de conocimiento [10]. Segn la encuesta,
Kusnetzky [4], seala que La frase Big Data se
el 62% mencion que ya haba gestionado ms de
refiere a las herramientas, procesos y procedimientos
Revista Facultad de Ingeniera (Fac. Ing.), Enero-Abril 2015, Vol. 24, No. 38 65
Conociendo Big Data
un terabyte de datos; eso indica que el volumen de ao, es decir, las empresas estn inundadas de datos
datos en el mundo est aumentando a un ritmo casi [13].
incomprensible.
2) Variedad: Se puede mencionar que va muy de la
Seala Beyer de Gartner y otros expertos que: los mano con el volumen, pues de acuerdo con ste y con
grandes volmenes de datos, o Big Data, requieren el desarrollo de la tecnologa, existen muchas formas
grandes cambios en el servidor, la infraestructura de de representar los datos; es el caso de datos estruc-
almacenamiento y la arquitectura de administracin turados y no estructurados; estos ltimos son los que
de la informacin en la mayora de las empresas [11]. se generan desde pginas web, archivos de bsquedas,
redes sociales, foros, correos electrnicos o producto
En [11], McKinsey dice que es necesario prepararse de sensores en diferentes actividades de las personas;
para contratar o reciclar personal, pues las empresas un ejemplo [14] es el convertir 350 mil millones de
u organizaciones carecen de personas capacitadas en lecturas de los medidores por ao para predecir el con-
Big Data. Adems, proyecta que para el 2018, solo sumo de energa.
en Estados Unidos, se necesitarn entre 140 mil y
3) Velocidad: Se refiere a la velocidad con que se
190 mil nuevos expertos en mtodos estadsticos
crean los datos, que es la medida en que aumentan los
y tecnologas de anlisis de datos, incluyendo el
productos de desarrollos de software (pginas web,
ampliamente publicitado papel de cientfico de datos.
archivos de bsquedas, redes sociales, foros, correos
Seala Williams de Catalina, en [11], que La gente
electrnicos, entre otros).
que construy las bases de datos del pasado no son
necesariamente las personas que van a construir las Las tres caractersticas tienen coherencia entre s; por
bases de datos del futuro. ejemplo [13], analizar 500 millones de registros de lla-
madas al da en tiempo real para predecir la prdida
Segn el estudio de Worldwide Big DataTechnology de clientes.
and Services 2013-2017 de IDC, La tecnologa y
servicios de Big Data crecer con una tasa anual de C. Anlisis de Big Data
crecimiento compuesto del 27% hasta llegar a los
32.400 millones de dlares en 2017, unas seis veces la El Big Data crece diariamente, como ya se mencion,y
tasa de crecimiento del mercado general de tecnologas una de las justificaciones es que los datos provienen de
de la informacin y comunicaciones [12]. gran variedad de fuentes, tales como la Web, bases de
datos, rastros de clics, redes sociales, Call Center, datos
B. Dimensiones de Big Data geoespaciales, datos semiestructurados (XML, RSS),
provenientes de audio y video, los datos generados por
Existen tres caractersticas o dimensiones: Volumen, los termmetros, datos de navegacin de sitios web
Velocidad y Variedad. durante cierto tiempo, las RFID (Radio Frequency
Identification - identificacin por radiofrecuencia)
1) Volumen: Cada da, las empresas registran un au- [15].
mento significativo de sus datos (terabytes, petabytes
y exabytes), creados por personas y mquinas. En el Existen algunos beneficios del anlisis de Big Data
ao 2000 se generaron 800.000 petabytes (PB), de para las organizaciones, tal como se observ en el rea
datos almacenados y se espera que esta cifra alcance de marketing, demostrados en la encuesta realizada
los 35 zettabytes (ZB) en el 2020. Las redes sociales por TDWI (The Data Warehousing Institute), cuando
tambin generan datos, es el caso de Twitter, que por s pregunt: Cul de los siguientes beneficios se
sola genera ms de 7 terabytes (TB) diariamente, y de producira si la organizacin implementa alguna
Facebook, 10 TB de datos cada da. Algunas empresas forma de anlisis de Big Data?. El 61% respondi
generan terabytes de datos cada hora de cada da del que influye de manera social; el 45%, que habr
ms puntos de vista de negocio; el 37% se inclin
por las decisiones automatizadas en los procesos en
tiempo real; el 29% mencion que se mejorara la
planificacin y la previsin, y el 27%, que se entendera A. Apache Hadoop

el comportamiento del consumidor [16].
Segn [18],Apache Hadoopes un marco de software
Segn la misma encuesta, se encontraron ciertos de cdigo abierto para aplicaciones intensivas de datos
inconvenientes del anlisis del Big Data, entre ellos: la distribuidos originalmente creado por Doug Cutting
falta de personal y de habilidades del recurso humano para apoyar su trabajo en Nutch, una Web de cdigo
(46%), la dificultad en la arquitectura de un sistema abierto motor de bsqueda. Hadoop es ahora una de
de anlisis de Big Data (33%), problemas con el Big las tecnologas ms populares para el almacenamiento
Data utilizable para los usuarios finales (22%), la falta de los datos estructurados, semi-estructurados y no
de patrocinio empresarial (38%) y la deficiencia de un estructurados que forman Big Data. Hadoop est
argumento empresarial convincente (28%), la carencia disponible bajo la licencia Apache 2.0.
de anlisis de bases de datos (32%), problemas de
escalabilidad de Big Data (23%), rapidez en las Segn [19], es una biblioteca de software que permite
consultas (22%) y dificultad para cargar los datos lo el procesamiento distribuido de grandes conjuntos de
suficientemente rpido (21%), entre otros [16]. datos a travs de grupos de ordenadores que utilizan
modelos sencillos de programacin. Est diseado
Ante la pregunta sobre cada cunto realizan anlisis de para pasar de los servidores individuales a miles
Big Data, se hall que anualmente, el 15%; mensual, el de mquinas, cada oferta local de computacin y
35%; semanal, el 14%; diario, 24%; cada pocas horas, almacenamiento.
5%; cada hora, 4%; en tiempo real, 4%. Lo anterior
fue el resultado de 96 entrevistados [16]. Segn [20], Hadoop es un framework de cdigo
abierto, el cual permite escribir y ejecutar aplicaciones
El objetivo del anlisis de datos es examinar grandes distribuidas que procesan grandes cantidades de datos.
cantidades de datos con una variedad de clases, con el Tiene algunas caractersticas importantes:
fin de descubrir informacin que sea relevante y til
para la empresa, de manera que le permita tomar las Fue diseado para ejecutarse en grupos
mejores decisiones y obtener ventajas competitivas en relativamente grandes de hardware, es decir, en
comparacin con otras de su clase. clster robustos.
El anlisis de datos se realiza con tecnologas de bases Es robusto, pues ante un mal funcionamiento
de datos como NoSQL, Hadoop y MapReduce, las del hardware puede superar tales situaciones sin
cuales soportan el procesamiento del Big Data. mayor inconveniente.
Tiene la ventaja de poder ser escalable, lo que
III. Tecnologas de big data indica que permite crecer o agregar nodos al
clster con relativa facilidad; por ejemplo,
Para el manejo de datos es necesario tener dos ante la forma vertiginosa como crecen las
componentes bsicos, tanto el hardware como el redes sociales, permite agregar ms nodos con
software; respecto al primero, se tienen tecnologas facilidad.
tales como arquitecturas de Procesamiento Paralelo Es simple, por lo que permite a los usuarios
Masivo (MPP), que ayudan de forma rpida a escribir cdigo con eficiencia, para software
su procesamiento. Para el manejo de datos no distribuido.
estructurados o semiestructurados es necesario acudir
a otras tecnologas; es aqu donde aparecen nuevas Hadoop tiene sus inicios como un subproyecto de
tcnicas y tecnologas, como MapReduce o Hadoop, Nutch, que era a su vez un subproyecto de Apache
diseado para el manejo de informacin estructurada, Lucene; es una indexacin de texto y de bsqueda
no estructurada o semiestructurada. bibliogrfica, es decir, permite realizar bsquedas
dentro de documentos. Nutch es un proyecto ms
ambicioso que Apache Lucene, lo que se busca es
disear un motor de bsqueda para la web, el cual
Conociendo Big Data
contiene analizador para HTML, un rastreador web, que se pueda presentar sin afectar demasiado el proce-
una base de datos de link-grfica y otros componentes so [20,21].
adicionales necesarios.
Cuando se cre HDFS se propusieron tres objetivos
Hoy en da, Hadoop muestra ventajas significativas [21]:
frente a bases de datos SQL (Structured Query
Language), que se presentan como un diseo para el Permitir procesar archivos con tamaos de
manejo de informacin estructurada, donde los datos gigabytes (GB) hasta petabytes (PB).
residen en tablas relacionales que tienen una estructura
Poder leer datos a grandes velocidades.
definida, pues fue diseado para informacin no
estructurada o semiestructurada, como documentos de Capacidad para ser ejecutado en una mquina,
texto, imgenes y archivos XML. sin solicitar hardware especial.
La arquitectura de HDFS est compuesta por un
Hadoop puede manejar todos los tipos de datos de nodo principal (NameNode) y varios nodos esclavos
sistemas dispares: estructurado, no estructurado, los (DataNodes).
archivos de registro, imgenes, archivos de audio,
archivos de correo electrnico, las comunicaciones,
El nodo principal es el servidor maestro, dedicado
casi cualquier cosa que se pueda imaginar, sin importar
a gestionar el espacio del nombre de los archivos
su formato nativo [21].
y controlar el acceso de los diferentes archivos de
usuarios; adems, el nodo maestro se encarga de
Segn [20], Hadoop es un framework usado para gestionar las operaciones de abrir, cerrar, mover,
escribir y ejecutar aplicaciones distribuidas que permite nombrar y renombrar archivos y directorios.
procesar grandes cantidades de datos. Hadoop est
compuesto por dos mdulos [19]: Hadoop Distributed
Los nodos esclavos (DataNodes), como su nombre
File System (HDFS), y HadoopMapReduce.
lo indica, representan los esclavos de la arquitectura
HDFS. En un HDFS pueden existir miles de nodos
1) Hadoop Distributed File System (HDFS: Sistema esclavos y decenas de miles de clientes HDFS por
de archivos distribuido Hadoop): Es un sistema de clster; esto se debe a que cada nodo esclavo puede
archivos altamente tolerante a fallos, escalable y con ejecutar mltiples tareas de aplicaciones de forma
una arquitectura distribuida; puede llegar a almacenar simultnea. La funcin del nodo esclavo es la de
100 TB en un solo archivo, lo cual no es tan fcil en gestionar tanto la lectura como la escritura de los
otros tipos de sistemas de archivos. Adems, brinda la archivos de los usuarios, y realizar la replicacin
apariencia de estar trabajando en un solo archivo, pero de acuerdo a como lo indique el nodo maestro
realmente lo que se tiene es que estn distribuidos en (NameNode) [21].
varias mquinas para su procesamiento.
Lam menciona [20] que HDFS se dise para el pro- 2) Hadoop MapReduce: Segn [19],Es un sistema
cesamiento por lotes, en lugar de uso interactivo por basado en hilados para el procesamiento paralelo de
los usuarios; pero realmente se dise para resolver grandes conjuntos de datos. Hadoop MapReduce
dos problemas importantes que se presentan en el pro- es un marco de software creado con el fin de hacer
cesamiento de datos a gran escala: el primero es la ca- aplicaciones que puedan procesar grandes cantidades
pacidad de descomponer los archivos en varias partes de datos de forma paralela, en un mismo hardware.
y procesar cada una independientemente de las dems, Cuando los datos entran para ser procesados se divi-
y al final consolidar todas las divisiones del archivo den de manera independiente, para su procesamiento,
en uno solo; el segundo problema era la tolerancia a es decir, de manera distribuida en diferente hardware
fallos, tanto en el nivel de procesamiento de archivos que exista. MapReduce est compuesto de un maes-
como de forma general del software, al momento de tro, llamado JobTracker, y un esclavo, TaskTracker,
realizar el procesamiento de datos distribuidos; lo que por cada nodo. El primero se encarga de programar las
se busca es que el sistema pueda recuperarse de la falla
tareas, los componentes que manejan el esclavo, y ste Tabla 1

ejecuta las tareas segn las indicaciones del maestro. Ejemplo de Base de Datos NoSQL
MapReduce es usado en soluciones donde se pueda Clave-Valor
procesar de forma paralela y, adems, con grandes
cantidades de informacin, es decir, con volmenes Clave Valor
de petabytes, de lo contrario no sera una solucin 1 Nombre: Julio; Apellidos: Ros; Nacionalidad:
adecuada. Otra condicin es que se puede usar
espaola
MapReduce en procesos que se puedan disgregar en
2 Nombre: Mara; Apellidos: Gutirrez Castro;
operaciones map () y reduce (), las cuales se definen
en funcin de datos estructurados [19]. MapReduce Nacionalidad: colombiana; Edad: 30
se dise como un modelo de programacin, para que 3 Nombre: Petra; Nacionalidad: italiana
se pudiera realizar procesamiento de datos de gran
tamao, y, de la misma forma, para que resolviera el Existen varias clases de bases de datos NoSQL,
problema existente de escalabilidad. MapReduce es dependiendo de su forma de almacenar los datos,
un modelo de programacin para el procesamiento tales como: almacenamiento Clave-Valor, orientadas
de datos. Puede ser ejecutado en varios lenguajes de a columnas y las orientadas a documentos. A
programacin, como Java, Ruby, Python, and C++ continuacin se presentan algunas Bases de Datos
[22]. NoSQL:
IV. Bases de datos NoSQL A. DynamoDB
DynamoDB fue desarrollada y probada de

En 1998 aparece el trmino NoSQL, que significa no manera interna en Amazon; guarda muy fcil y
solo SQL. El nombre fue creado por Carlo Strozzi, econmicamente cualquier cantidad de informacin.
para denominar su base de datos que no ofreca SQL. Los datos son almacenados en unidades de estado
Las NoSQL no presentan el modelo de las bases de slido SSD (Solid State Drive), las cuales permiten
datos relacionales; estas no tienen esquemas, no usan mayor velocidad a la hora de encontrar la informacin,
SQL, tampoco permiten joins (unin), no almacenan pues estas unidades funcionan de manera diferente a
datos en tablas de filas y columnas de manera unifor- como lo hace el disco duro del computador [40]. Con
me, presentan escalabilidad de forma horizontal, para el uso de SSD se tiene un excelente rendimiento,
su labor usan la memoria principal del computador; su mayor fiabilidad y un alto grado de seguridad de los
objetivo es gestionar grandes volmenes de informa- datos.
cin. Las bases de datos NoSQL tienen como carac-
terstica principal que su estructura es distribuida, es B. Cassandra
decir, los datos se hallan distribuidos en varias mqui-
nas [21, 24, 25]. Las bases de datos NoSQL permiten Proyecto iniciado por Facebook; es del tipo cdigo
obtener los datos con mayor velocidad que en otras abierto (Open Source). Se puede decir que despus de
con modelo relacional. la implementacin de Cassandra, las redes sociales se
En la Tabla 1 se presenta un ejemplo de una clase dispararon en popularidad [41]. Es una base de datos
de bases de datos NoSQL, con las caractersticas distribuida, y almacena los datos en forma de clave-
mencionadas anteriormente. valor; fue desarrollada en java, adems, hoy en da es
usada en la red social Twitter.
Conociendo Big Data
Otras caractersticas importantes de Cassandra es que los datos lo hace a su manera, y al leerlos funciona
es descentralizada, lo que significa que cada nodo es de igual forma. Trabaja con los tres tipos de datos:
idntico, y, adems, que no existe ningn punto nico no estructurados, semiestructurados y estructurados,
de fallo; que es escalable, es decir, que el software siempre y cuando no sean tan grandes. HBase no
puede atender un nmero mayor de solicitudes de los permite consultas SQL y, adems, est diseada para
usuarios sin que se note algn tipo de degradacin en ejecutarse en un clster de equipos, lo que indica que
su rendimiento, y que es tolerante a fallos, es decir, no puede trabajar en un solo servidor. En la medida
que puede reemplazar nodos que fallen en el clster que se aumenten ms servidores, HBase no presenta
sin perder tiempo. inconvenientes en ese sentido, y, tambin, cuando uno
de ellos presenta algn tipo de inconveniente se puede
sustituir por otro sin mayor problema [26, 27].
C. Voldemort
Voldemort fue creada por LinkedIn, con el fin de F. Riak
solucionar los problemas de escalabilidad que tenan
las bases de datos relacionales; los datos los almacena Riak es una base de datos que almacena la informacin
en forma de clave-valor; es de ambiente distribuido, en forma de clave-valor y es de ambiente distribuido,
los datos se replican automticamente en los diferentes presenta la caracterstica de que es tolerante a fallos,
nodos o servidores, donde cada nodo es independiente lo que indica que puede eliminar errores y sus efectos
de los dems; permite con cierta facilidad la expansin antes de que ocurra una falla, buscando de esta manera
del clster, sin necesidad de reequilibrar todos los maximizar la fiabilidad del sistema. Utiliza JSON
datos. El cdigo fuente est disponible bajo la licencia (JavaScript Object Notation - Notacin de Objetos
Apache 2.0 [42]. de JavaScript), que es un formato para el intercambio
de datos. Adems, Riak tiene mayor ventaja a la hora
D. Google BigTable de trabajar en la Web, en la familia de bases de datos
de su especie, medida en las peticiones de muchos
BigTable fue creado por Google en el ao 2004, con usuarios simultneamente [28, 29].
la idea inicial de que fuera distribuido para varias
mquinas, por lo que necesitaban que fuese altamente G. CouchDB
eficiente. El sistema divide la informacin en columnas,
y para almacenarla utiliza tablas multidimensionales CouchDB es el acrnimo en ingls de Clusterof
compuestas por celdas [25]. El sistema de archivos UnreliableCommodity Hardware; fue creado en
usado por BigTable es GFS (Google File System) es el ao 2005, por Damien Katz. En el 2011 se hace
de tipo distribuido, del mismo propietario Google, y se el lanzamiento al pblico de la versin 1.1.1. Se
desarroll con el objetivo de almacenar informacin en considera que CouchDB es un servidor de base de
sistemas de archivos distribuidos con cierta velocidad. datos documental, lo cual indica que los datos no los
Puede almacenar hasta tres copias de la informacin. almacena en tablas, sino que la base de datos est
Maneja dos servidores diferentes: uno llamado Master, compuesta por documentos, que a su vez trabajan
que se encarga de guardar la direccin donde se alojan como objetos. Hace uso de JSON, que es un formato
los archivos, y otro llamado Chunk Server, que es para el intercambio de datos, usado cuando los datos
donde almacena los datos. Para terminar, GFS no son de gran volumen; por eso, para las consultas hace
depende de un sistema operativo especfico, es decir, uso de JavaScript; debido a lo anterior, es muy usado
funciona en cualquier plataforma. por empresas como Yahoo y Google [28, 30].
E. HBase CouchDB presenta una caracterstica importante:

se puede instalar desde un datacenter hasta un
HBase es una base de datos de tipo cdigo abierto Smartphone, y se puede ejecutar en un celular Android,
(Open Source); almacena los datos de forma clave- en un MacBook o en un datacenter, lo que quiere
valor; tambin almacena y recupera los datos de decir que se pueden almacenar datos pequeos en un
forma aleatoria, es decir, que al momento de escribir celular, como tambin grandes volmenes de datos en
un servidor. Tambin es muy flexible para estructurar caracterstica importante que permite escalar y, adems,
y distribuir datos. Otra caracterstica importante es la que es de alto rendimiento. Su arquitectura es cliente/
facilidad con la que permite hacer replicaciones. servidor, permitiendo realizar lecturas y escrituras de
datos de manera simultnea. Cumple con el estndar,
Una desventaja consiste en que no permite consultas ACID (acrnimo de Atomicity, Consistency, Isolation
dinmicas, pues las realiza de manera esttica; por and Durability-Atomicidad, Consistencia, Aislamiento
ejemplo, para buscar un libro por el nombre de autor, y Durabilidad). Soporta grandes documentos en XML,
primero crea un ndice con todos los nombres de JSON y formatos binarios. BaseX est desarrollado
autores para todos los documentos. bajo Java y XQuery [35].
Una ventaja desde el punto de vista de seguridad que V. Modelo de datos

maneja CouchDB es que cada vez que un documento
se almacena nunca se sobrescribe el original, se crea
Los datos se clasifican en estructurados, no
uno nuevo con las modificaciones sucedidas de los
estructurados y semiestructurados.
datos; lo anterior indica que CouchDB guarda una
copia de seguridad de los documentos viejos [28, 31].
A. Datos estructurados
H. MongoDB
Este tipo de datos se dividen en estticos (array,
cadena de caracteres y registros) y dinmicos (listas,
MongoDB es una base de datos con el perfil NoSQL
pilas, colas, rboles, archivos). Se puede definir
orientada a documentos, bajo la filosofa de cdigo
que los datos estructurados son aquellos de mayor
abierto. La importancia de MongoDBradica en su
facilidad para acceder, pues tienen una estructura bien
versatilidad, su potencia y su facilidad de uso, al igual
especificada [31, 36]. Un array es una coleccin finita
que en su capacidad para manejar tanto grandes como
de elementos en formatos definidos del mismo tipo,
pequeos volmenes de datos. Es una base de datos
es decir, son homogneos, y ordenados por un ndice;
que no tiene concepto de tablas, esquemas, SQL,
con estos formatos se facilita la administracin de los
columnas o filas. No cumple con las caractersticas
datos; ejemplo de ellos, un campo que contiene una
ACID, que es el acrnimo de Atomicity, Consistency,
fecha DD, MM, AA, que contiene seis caracteres, o un
Isolation and Durability (Atomicidad, Consistencia,
formato con la direccin de la persona, que puede ser
Aislamiento y Durabilidad, en espaol).
alfanumrico, con tamao de 40 caracteres.
MongoDB permite las operaciones CRUD, que es
el acrnimo de Create, Read, Update and Delete B. Datos semiestructurados
(Crear, Obtener, Actualizar y Borrar); para almacenar
y recuperar los datos hace uso de JSON, pero utiliza Estos datos no tienen un formato definido, lo que
BSON, que es una forma binaria de JSON, el cual tienen son etiquetas que facilitan separar un dato de
ocupa menos espacio al almacenar los datos. Adems, otro. Un dato de estos se lee con un conjunto de reglas
BSON es ms eficiente y rpida para convertir a un de cierto nivel de complejidad [36].
formato de datos de un lenguaje de programacin.
Otra caracterstica de MongoDB es que realiza Los datos semiestructurados presentan las siguientes
consultas dinmicas, es decir, puede realizar consultas caractersticas [23]:
sin demasiada planificacin. MongoDB se desarroll
en C++ [28, 32, 33, 34]. Son datos irregulares, que pueden no tener un
esquema en particular, es el caso del ejemplo que se
I. BaseX presenta en las Tablas 2, 3, y 4.
Es una base de datos de tipo documental, la cual permite

almacenar, recuperar y gestionar datos de documentos;
es de la clase de bases de datos NoSQL; tiene como
Conociendo Big Data
Tabla 2
Datos semiestructurados
Nombre Telfono Sexo Correo
Pedro Prez 2127409 M pedroperez@gmail.com
Tabla 3
Nombre Apellido Telfono Correo
Mario Rodrguez 0987526221 mario@gmail
Tabla 4
Primer apellido Segundo apellido Nombres Correo Telfono
Martnez Arvalo Julio aremar@gmail.com 24356712
En este tipo de datos semiestructurados se pueden presentar datos incompletos, es el caso del ejemplo que
se observa en las Tablas 5 y 6.
Tabla 5
Nombre Telfono Sexo Correo
Martnez 2127409 pedroperez@gmail.com
Tabla 6
Nombre Apellido Telfono Correo
Mario Rodrguez 0987526221 mario@gmail
Los componentes de este tipo de datos, pueden cambiar de tipo (ver Tabla 7).
Tabla 7
Primer apellido Segundo apellido Nombres Correo Telfono
Martnez Arvalo Julio aremar@gmail.com 24356712
Otra caracterstica de los datos observar las Tablas 7 y 8: la primera presenta cinco
semiestructurados es que pueden aparecer datos campos, y la segunda, seis, y los dos registros dentro
nuevos cuya estructura nada tiene que ver con la ya del mismo archivo de datos.
existente, es decir, para seguir el ejemplo, se puede
Tabla 8
Primer Segundo Primer Segundo Telfono Correo
apellido apellido nombre nombre
Vargas Castro Nstor Julio 25678349 neva@gmail.com
Algunas de las anteriores caractersticas se presentan Lo que s se puede respecto a los datos no estructurados
debido a que cada quien publica sus datos a su manera, es hacer uso de los metadatos, es decir, usar datos
y esto se presenta en internet; al observar cualquier que puedan describir otros datos. Por ejemplo, en
pgina web se puede visualizar tal situacin, es una biblioteca se tiene en fichas o en un sistema de
decir, no existe un formato o estructura definida para informacin datos de los libros como: autor, ttulo,
presentar los datos. editorial, ISBN y tema, entre otros. Lo anterior con el
fin de hallar con facilidad un determinado libro; esta
Es de aclarar que los ejemplos anteriores, expuestos es la forma como los metadatos ayudan a buscar datos.
en las Tablas 2 a 8, son parte de un archivo con
datos semiestructurados, donde sera difcil realizar VI. Tecnologas de anlisis de datos
cualquier gestin o procesamiento con este tipo de
datos, pues el primer motivo es la diferencia de tamao
en los campos de cada registro. A. BigQuery
Google BigQuery es un servicio web que permite

C. Datos no estructurados
hacer un anlisis interactivo de enormes conjuntos
de datos hasta miles de millones de filas.Escalable y
Son aquellos que no pueden ser normalizados, no
fcil de usar, permite a los desarrolladores BigQuery y
tienen tipos definidos ni estn organizados bajo
las empresas aprovechar los anlisis de datos de gran
algn patrn; tampoco son almacenados de manera
alcance en la demanda [38]. BigQuery es un servicio
relacional, o con base jerrquica de datos, debido a que
que presta Google con el fin de almacenar y consultar
no son un tipo de dato predefinido; es decir, no tienen
grandes datos no estructurados.
un formato normalizado determinado. Sin embargo,
los datos deben poder ser organizados, clasificados,
almacenados, eliminados, buscados de alguna forma. B. ThinkUp
Estos datos se pueden observar a diario en correos
electrnicos, archivos de texto, un documento de Segn [39], ThinkUp es un potente motor de anlisis
algn procesador de palabra, hojas electrnicas, una de datos que permite extraer informacin de Twitter,
imagen, un objeto, archivos de audio, blogs, mensajes Facebook y Google+. Para la instalacin es necesario
de correo de voz, mensajes instantneos, contenidos un servidor con PHP y una base de datos en MySQL.
Web y archivos de video, entre otros [31, 37]. ThinkUp se desarroll bajo licencia GPL y su gran
potencial es la extraccin de datos; es una aplicacin
En este caso de datos no estructurados, no tienen web gratuita, de cdigo abierto, puede almacenar
un identificador definido, no se puede reconocer su actividades sociales en una base de datos con el control
estado fsico ni lgico; tampoco se puede identificar de cada persona [43].
su tipo o clase; su tamao no se puede encajar en una
tabla predefinida, es el caso de los datos contenidos en C. Infosphere Streams
una pgina web. Se puede tener el siguiente ejemplo:
Pedro naci el da 24 de noviembre de 1978, y el 20 de Es una plataforma desarrollada por IBM, que permite
septiembre se gradu Julio en la universidad. Como el anlisis de datos en milisegundos [44]. Streams
se puede observar, no es tan fcil la administracin de analiza y transforma datos en memoria y en tiempo
este tipo de informacin, no estructurada. real, no como sucede con otras aplicaciones, que
Conociendo Big Data
primero gestionan, almacenan y por ltimo analizan G. Sap Hana

los datos. Con Streams, los datos se analizan
directamente, es decir, en tiempo real, lo cual permite Sap Hana (System Applications Products High-
obtener resultados ms rpidamente [45, 53]. Un Performance Analytic Appliance) es una herramienta
Stream es una secuencia continua de elementos, que para el anlisis de Big Data, la cual se compone
para este caso son datos; permite manejar altas tasas de hardware y software, con gran velocidad de
de transferencia de datos hasta millones de eventos o procesamiento de datos y en los tiempos de respuesta
mensajes por segundo. cuando de consultas se trata; lo anterior debido a
que para el procesamiento de datos usa tecnologa
in-memory [6]. Esta tecnologa permite realizar
D. Biginsights Infosphere
procesamiento de grandes cantidades de datos en la
Es una plataforma desarrollada por IBM para Hadoop, memoria principal del servidor, lo cual trae consigo
buscando suplir las necesidades de las empresas [45, ofrecer resultados con mayor prontitud, comparados
53], lo cual se puede lograr facilitando el trabajo de con datos almacenados en el disco del servidor.
los analistas de sistemas, sin volverlos programadores La tecnologa in-memory promete un desempeo
en una herramienta de difcil manejo. Otra forma es entre diez y veinte veces ms veloz que los modelos
facilitar la consulta de los datos almacenados. tradicionales basados en disco [48, 49].
E. System PureData H. Oracle Big Data Appliance
El sistema PureData es una herramienta de IBM; Es un software desarrollado por la empresa Oracle,
permite realizar anlisis de Big Data en menos tiempo que combina hardware con software optimizado,
que otras herramientas de anlisis; la velocidad de ofreciendo una solucin completa y fcil de
lectura de datos promedia los 128 gigabytes por implementar para la organizacin de Big Data. En la
segundo; fue diseado para manejar ms de 1000 parte de hardware, est compuesto por un rack de 18
consultas simultneamente; se puede decir que las servidores; cada servidor tiene 64 GB de memoria,
consultas son tres veces ms rpidas que la versin es decir, el rack tiene 1,152 GB de capacidad total
anterior de InfoSphereWarehouse software; permite de memoria. Adems, cada servidor tiene dos CPU,
el anlisis de datos tanto estructurados como no y cada uno con ocho ncleos, es decir, que en su
estructurados. SystemPureData permite cargar cinco totalidad posee 288 ncleos el rack [50].
terabytes en una hora [47].
I. HDinsight
F. Infosphere Information Server
Es un producto Microsoft, basado en Hadoop, permite
Es una plataforma de integracin de datos, producto gestionar datos estructurados y no estructurados de
desarrollado por IBM; permite limpiar y transformar cualquier tamao, que se pueden llegar a combinar
datos, para luego entregar informacin confiable a la perfectamente con herramientas de Inteligencia de
empresa o negocio. Esta herramienta permite trabajar Negocios de Microsoft, fortaleciendo de esta forma
inteligencia de negocios, facilitando la mejor toma de los servicios a usuarios y pblico en general con ayuda
decisiones; ayuda en el almacenamiento de los datos; de software como Office y SharePoint [24].
reduce costos de operacin, al permitir fcilmente la
relacin entre los sistemas, de manera que proporciona J. Textalytics
informacin a otras aplicaciones y a procesos de
negocios, lo cual trae consigo mayor agilidad en el Textalytics es un software desarrollado por Daedalus
negocio de la empresa, es decir, lo que sucede es una (Data Decisions and Language S. A.), dedicado al
transformacin del negocio en la empresa [46, 47, 45]. anlisis de texto; extrae con facilidad significado
de lo escrito en medios sociales y todo tipo de
documentos. Dichos datos se transforman en modelos
estructurados para poder ser procesados y gestionados
con facilidad. Textalytics, permite realizar tareas
tales como extraccin de conceptos, relacin entre se puede solucionar realizando investigacin e
conceptos, correccin ortogrfica, correccin inversin en este tipo de tecnologa.
gramatical, correccin de estilo, entre otras funciones,
Es importante mantener el objetivo de Big Data
es Multiidioma, pues acepta contenidos en espaol,
en mente; esto porque el proceso es pesado
ingls, francs y otros idiomas [51].
y porque no es tedioso, mxime cuando los
mtodos y herramientas que usan Big Data
VII. Beneficios del Big Data para el anlisis de datos an pueden presentar
problemas, y la idea es que se mantenga en
Las empresas que saben sacar provecho del Big Data mente la meta final del proyecto sin desanimarse
pueden mejorar su estrategia y as permanecer en pronto.
el mercado posicionadas, pues har uso de nuevos
conocimientos, con el gran volumen de datos o VIII. Conclusiones
informacin que maneja a diario, que inicialmente no
se les dio la suficiente importancia, por no tener una Dentro del estado del arte se encuentran desde diversas
herramienta tecnolgica que permitiera procesarla. definiciones del trmino Big Data por parte de varios
Con la tecnologa de Big Data, las empresas pueden investigadores hasta las tecnologas existentes para
ofrecer mejores productos, desarrollar excelentes iniciar un proyecto en una institucin de cualquier
relaciones con sus clientes, adems, se transforman en ramo productivo, comercial o educativo.
ms giles y competitivas [17].
Se estudiaron y analizaron las herramientas
Es importante tener en cuenta algunos pasos para la tecnolgicas que se pueden usar a la hora de desarrollar
implementacin de Big Data, como se menciona en un proyecto de Big Data. Es as como se pudieron
[52]. observar empresas desarrolladoras de software que
presentan herramientas para enfrentar proyectos de
Entender el negocio y los datos. Este primer
Big Data, con sus caractersticas.
paso pide un anlisis detallado con las personas
que hoy laboran y entienden los procesos y los
Se pudieron identificar las caractersticas ms
datos que la empresa maneja.
importantes en la gestin de Big Data, desde los
El segundo paso consiste en determinar los diferentes formatos de datos que hoy existen o se
problemas y cmo los datos pueden ayudar. manejan por los usuarios, hasta conocer las tecnologas
Al momento de conocer los procesos es muy necesarias para convertir datos no estructurados en
posible que se encuentren los problemas de la informacin y conocimiento que beneficie tanto a
empresa o del negocio. personas como a empresas en la toma de decisiones.
Dicha herramienta para tal labor es Hadoop, que, como
Establecer expectativas razonables, es decir, se mencion anteriormente, permite convertir datos
definir metas alcanzables; esto se puede lograr poco tiles en informacin estructurada, ayudando de
si al implementar la solucin de un problema esta forma a los tomadores de decisiones.
ste no presenta alguna mejora, y se debe buscar
otra solucin.
Parte de la investigacin arroj que hoy existe un
Existe una recomendacin especial, y es que sinnmero de herramientas tecnolgicas para realizar
cuando se inicia un proyecto de Big Data es anlisis de datos, la gran mayora basadas en Hadoop,
necesario trabajar en paralelo con el sistema que algunas en ambiente web y otras para escritorio, y
hoy est funcionando. algunas en ambiente de la nube. Se nota el esfuerzo
que han realizado varias empresas desarrolladoras de
Al tratar de implementar un proyecto de Big software, al servicio de los usuarios.
Data se debe ser flexible con la metodologa
y las herramientas; esto se debe a que las dos Tambin se pudo conocer una metodologa para
anteriores son recientes y pueden llegar a implementar un proyecto de Big Data, de forma que
presentar problemas al implementarlas. Esto pueda servir de gua a quienes deseen sacarle un mayor
Conociendo Big Data
usufructo a los datos y convertirlos en conocimiento, [14] ibm.com, Qu es Big Data? Disponible en:
que les sea til a las empresas u organizaciones, http://www.ibm.com/developerworks/ssa/local/
buscando mayor beneficio en estrategias empresariales. im/que-es-big-data/index.html, 2012.
[15] es.wikipedia.org, RFID. Disponible en: http://
Referencias es.wikipedia.org/wiki/RFID, 2010.
[16] E. Redmond, & J. Wilson, Seven Databases
in Seven Weeks, USA: OReilly Media, Inc.,
[1] ZDNet.com, CBS Interactive,What is Big
Pragmatic Programmers, LLC.2012.
Data?. Disponible en: http://www.zdnet.com/
[17] Emc.com, Big Data transforms Business.
topic-big-data/, 2013.
Disponible en: http://www.emc.com/microsites/
[2] thinkupapp.com,(2012). Disponible en:http://
ebook/index.htm#/slide-intro, 2012.
thinkupapp.com/, 2012.
[18] T. Olavsrud, Big Data Causes Concern
[3] E. Dans. Disponible en:http://www.enriquedans.
and Big Confusion.Disponible en:http://
c o m / 2 0 11 / 1 0 / b i g - d a t a - u n a - p e q u e n a -
w w w. c i o . c o m / a r t i c l e / 7 0 0 8 0 4 / B i g _
introduccion.html, 2011.
Data_Causes_Concern_and_Big_
[4] E. Plugge, P. Membrey & T. Hawkins, The
Confusion?page=2&taxonomyId=3002, 2012.
Definitive Guide to MongoDB: The NoSQL
[19] hadoop.apache.org, Disponible en: http://
Database for Cloud and Desktop Computing,
hadoop.apache.org/, 2013.
Published Apress Media LLC, New York, 2010.
[20] Chuck Lam, Hadoop in Action, Publisher:
[5] B. Hopkins, Beyond the Hype of Big
Manning Publications Co., Stamford, 2011.
Data. Disponible en: http://www.cio.com/
[21] Cloudera.com, Cloudera, Inc. Disponible en:
article/692724/Beyond_the_Hype_of_Big_
http://www.cloudera.com/content/cloudera/en/
Data, 2011.
why-cloudera/hadoop-and-big-data.html, 2013.
[6] Business Software, Disponible en: http://www.
[22] P. Zikopoulos, C. Eaton, D. DeRoos, T. Deutsch,
businessoftware.net/que-es-big-data/, 2013.
&G. Lapis, Understanding Big Data, USA:
[7] Zdnet.com, Big Data. Disponible en: http://
McGraw-Hill Books, 2012.
www.zdnet.com/search?q=big+data, 2010.
[23] Universidad Simn Bolvar, Laboratorio
[8] M. Salgado, Oracle apuesta por Big Data
Docente de Computacin. Disponible en: http://
con tecnologa y proyectos. Disponible en:
ldc.usb.ve/~ruckhaus/materias/ci7453/clase3.
http://www.computerworld.es/big-data/
pdf.
oracle-apuesta-por-big-data-con-tecnologia-y-
[24] Microsoft, SharePoint. Disponible en: http://
proyectos, 2014.
office.microsoft.com/es-es/sharepoint/
[9] P. Russom, Big Data Analytics, TDWI (The
informacion-general-de-sharepoint-2013-
Data Warehousing Institute), 2012.
caracteristicas-del-software-de-colaboracion-
[10] S. Montoro, Server and Cloud Platform.
FX103789323.asp, 2014.
Disponible en: http://lapastillaroja.net/2012/02/
[25] S. Montoro, Disponible en: http://www.
nosql-for-non-programmers/, 2012.
versioncero.com/articulo/596/almacenamiento-
[11] searchstorage.techtarget.com, Examining
distribuido-no-relacional, 2009.
HDFS and NameNode in Hadoop architecture.
[26] N. Dimiduk, & A. Khurana, HBase in Action,
Disponible en: http://searchstorage.techtarget.
USA: Manning Publications Co, 2013.
com/video/Examining-HDFS-and-NameNode-
[27] textalytics.com, El motor de anlisis de texto
in-Hadoop-architecture, 2012.
msfcilde usar. Disponible en: https://
[12] computerworld.es, Disponible en: http://www.
textalytics.com/inicio, 2013.
computerworld.es/sociedad-de-la-informacion/
[28] C. Preimesberger, eWeek.Disponiblen: http://
el-mercado-del-big-data-crecera-hasta-los-
search.proquest.com/view/885430073/
32400-millones-de-dolares-en-2017, 2013.
1366B171EE72EDB474F/1?accountid=43790,
[13] -01.ibm.com, IBM Big Data and analytics
2011.
platform.Disponible en: http://www-01.ibm.
[29] Basho Technologies, Inc., Disponible en: http://
com/software/data/bigdata, 2012.
docs.basho.com/riak/latest/, 2011-2014.
[30] T. Juravich, CouchDB and PHP Web [44] -03.ibm.com, InfoSphere Streams. Disponible
Development Beginners Guide, Birmingham en: http://www-03.ibm.com/software/products/
Mumbai: Packt Publishing Ltd., 2012. en/infosphere-streams, 2013.
[31] L. Joyanes, Big Data: Anlisis de grandes [45] project-voldemort, Voldemort is a distributed
volmenes de datos en organizaciones, Editorial key-value storage system. Disponible en: http://
Alfaomega, 2013. www.project-voldemort.com/voldemort/, 2014.
[32] networkworld.com, 9 Open Source Big Data [46] IBM International Business Machines
Technologies to Watch. Disponible en: http:// Corporation, IBM InfoSphere Information
www.networkworld.com/slideshow/51090/, Server. Disponible en: http://www-01.ibm.com/
2012. software/data/integration/info_server/, 2012.
[33] K. Chodorow, MongoDB: The Definitive Guide, [47] IBM Corporation Software Group Route 100
Second Edition, USA: OReilly Media, Inc., Somers, IBM PureData System for Operational
2013. Analytics. NY 10589. Disponible en: http://
[34] S. Francia, MongoDB and PHP, USA:OReilly public.dhe.ibm.com/common/ssi/ecm/en/
Media, Inc.,2012. wad12351usen/WAD12351USEN.PDF, 2012.
[35] BaseXTeam, Disponible en: http://basex.org/ [48] Mario E., Business Software, In-Memory:
products/download/all-downloads/, 2013. edificacin de una empresa que opera en
[36] P. Karl, Moving Media Storage Technologies: tiempo real. Disponible en: http://www.
Applications &Workflows for Video and Media americaeconomia.com/analisis-opinion/
Server Platforms, USA: Elsevier, Inc, 2011. memory-edificacion-de-una-empresa-que-opera-
[37] Adelman Sid, Moss Larissa T., & Abai Majid, en-tiempo-real, 2011.
Data Strategy, USA: Prentice Hall, 2005. [49] itelligence AG, SAP In-Memory Computing.
[38] Developers.google.com, Google BigQuery. Disponible en: http://www.itelligence.es/14878.
Disponible en: https://developers.google.com/ php, 2013.
bigquery/, 2012. [50] J. P. Dijcks, Oracle: Big Data for the
[39] effectandaffect.es,ThinkUp, un motor de Enterprise. Disponible en: http://www.oracle.
anlisis de datos.Disponible en:http://www. com/technetwork/database/bigdata-appliance/
effectandaffect.es/blog/thinkup-motor-analisis- overview/wp-bigdatawithoracle-1453236.
datos/, 2012. pdf?ssSourceSiteId=ocomes, 2013.
[40] T. White, Hadoop: The Definitive Guide, USA: [51] StackpoleBeth, Disponible en: http://www.cio.
OReilly, Media, Inc, 2009. com.mx/Articulo.aspx?id=13527, 2011.
[41] T. Rodrguez, Amazon lanza DynamoDB, una [52] F. Carrasco, Los 6 pasos que su organizacin
base de datos NoSQL desarrollada internamente. debe seguir para confiar en Big Data.
Disponible en: http://www.genbetadev. Amrica Latina. Disponible en: http://www.
com/programacion-en-la-nube/amazon- cioal.com/2013/07/31/los-6-pasos-que-su-
lanza-dynamodb-una-base-de-datos-nosql- organizacion-debe-seguir-para-confiar-en-big-
desarrollada-integramente-por-ellos, 2012. data/, 2013.
[42] The Apache Software Foundation, Welcome [53] P. Zikopoulos, D. deRoos, K. Parasuraman, T.
to Apache Cassandra. Disponible en: http:// Deutsch, D. Corrigan, &J. Giles, Harness the
cassandra.apache.org/, 2009. Power of Big Data, McGraw-Hill Companies,
[43] The Apache Software Foundation, ApacheHBase. 2013.
Disponible en: http://hbase.apache.org/, 2014.

Conociendo Big Data PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Conociendo Big Data PDF

Cargado por

Copyright:

Formatos disponibles

Juan Jos Camargo-Vega - Jonathan Felipe Camargo-Ortega - Luis Joyanes-Aguilar

Conociendo Big Data

Knowing the Big Data

Fecha de Recepcin: 1 de Octubre de 2014 Juan Jos Camargo-Vega

* D.E.A. - M. Sc. Universidad Pedaggica y Tecnolgica de Colombia (Tunja-Boyac, Colombia). jjcamargovega@uptc.edu.co

I. Introduccin que permitan a una organizacin crear, manipular y

Para iniciar, se presentan algunas definiciones sobre

planificacin y la previsin, y el 27%, que se entendera A. Apache Hadoop

tareas, los componentes que manejan el esclavo, y ste Tabla 1

IV. Bases de datos NoSQL A. DynamoDB

DynamoDB fue desarrollada y probada de

E. HBase CouchDB presenta una caracterstica importante:

Una ventaja desde el punto de vista de seguridad que V. Modelo de datos

Es una base de datos de tipo documental, la cual permite

Google BigQuery es un servicio web que permite

primero gestionan, almacenan y por ltimo analizan G. Sap Hana

E. System PureData H. Oracle Big Data Appliance

También podría gustarte