Documentos de Académico
Documentos de Profesional
Documentos de Cultura
BigData Exploración PDF
BigData Exploración PDF
ISSN 0123-7799
ISSN-e 2256-5337
Vol. 20, No. 39
Mayo - agosto de 2017
Emilcy J. Hernández-Leal1,
Néstor D. Duque-Méndez2 y Julián Moreno-Cadavid3
Resumen
Big Data se ha convertido en una tendencia a nivel mundial y aunque aún no
cuenta con un concepto científico o académico consensuado, se augura cada día
mayor crecimiento del mercado que lo envuelve y de las áreas de investigación
asociadas. En este artículo se reporta una exploración de literatura sobre Big
Data, que comprende un estado del arte de las técnicas y tecnologías asociadas a
Big Data, las cuales abarcan captura, procesamiento, análisis y visualización de
datos. Se exploran también las características, fortalezas, debilidades y
oportunidades de algunas aplicaciones y modelos que incluyen Big Data,
principalmente para el soporte al modelado de datos, análisis y minería de datos.
Asimismo, se introducen algunas de las tendencias futuras para el desarrollo de
Big Data por medio de la definición de aspectos básicos, alcance e importancia de
cada una. La metodología empleada para la exploración incluye la aplicación de
dos estrategias, una primera corresponde a un análisis cienciométrico; y la
segunda, una categorización de documentos por medio de una herramienta web
de apoyo a los procesos de revisión literaria. Como resultados se obtiene una
síntesis y conclusiones en torno a la temática y se plantean posibles escenarios
para trabajos investigativos en el campo de dominio.
Palabras clave
Big Data, análisis de datos, ciencia de los datos, minería de datos, análisis
Big Data.
Abstract
Big Data has become a worldwide trend and although still lacks a scientific or
academic consensual concept, every day it portends greater market growth that
surrounds and the associated research areas. This paper reports a systematic
review of the literature on Big Data considering a state of the art about
techniques and technologies associated with Big Data, which include capture,
processing, analysis and data visualization. The characteristics, strengths,
weaknesses and opportunities for some applications and Big Data models that
include support mainly for modeling, analysis, and data mining are explored.
Likewise, some of the future trends for the development of Big Data are
introduced by basic aspects, scope, and importance of each one. The methodology
used for exploration involves the application of two strategies, the first
corresponds to a scientometric analysis and the second corresponds to a
categorization of documents through a web tool to support the process of
literature review. As results, a summary and conclusions about the subject are
generated and possible scenarios arise for research work in the field.
Keywords
Big data, data analysis, data science, data mining, big data analysis.
TecnoLógicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploración de investigaciones, tecnologías y casos de aplicación
TecnoLógicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploración de investigaciones, tecnologías y casos de aplicación
Lo que resta del artículo se organiza de los resultados obtenidos a partir de una
la siguiente forma: en la siguiente Sección ecuación de búsqueda, con ello se puede
se presenta la metodología y principales extraer información relevante de la temáti-
hallazgos de esta exploración. En la Sec- ca de interés que se esté abordando. Para
ción 3 se muestran las tecnologías y técni- este acercamiento se utilizó como ecuación
cas para el tratamiento de Big Data. Por su de búsqueda “big data” y a continuación se
parte, en la Sección 4 se muestran algunas presentan algunos aspectos relevantes que
tendencias y retos en el campo, y se finali- se extrajeron de los resultados en
za en la Sección 5, con las conclusiones que SCOPUS. Se decidió utilizar esta ecuación
parten del análisis del contexto presentado de búsqueda poco delimitada, porque se
en las secciones previas. pretende presentar un estado general de
presencia y tratamiento de la temática.
El total de recursos encontrados fue de
2. METODOLOGÍA 16.902. En la Fig. 1 se presenta el número
de documentos publicados por año. Se
El desarrollo de esta exploración se aprecia que los estudios del tema llevan
realizó siguiendo dos estrategias. Como poco más de un lustro, se puede ver que en
primera estrategia, se hizo un acercamien- el año 2012 es cuando realmente toma
to cienciométrico por medio de la herra- fuerza y viene teniendo un crecimiento
mienta bibliográfica SCOPUS, un índice significativo, pasando de 646 resultados en
bibliográfico que contiene una colección 2012 a 7508 resultados en 2015. Para el
representativa, completa y multidisciplinar 2016 se presentan los resultados corres-
a nivel mundial. La segunda estrategia pondientes a los cuatro primeros meses del
comprende el análisis de algunos trabajos año.
particulares referentes al soporte y estruc- Como se aprecia en la Fig. 2, si se revi-
tura conceptual de la temática abordada. sa según el tipo de recurso, se ve una mar-
Estos fueron seleccionados y clasificados cada tendencia hacia los artículos de confe-
por medio de la herramienta ToS (Tree of rencia, con un total de 9.493 resultados.
Science), desarrollada en la Universidad Los artículos científicos muestran 4.824
Nacional de Colombia. A continuación, se resultados, mientras que los capítulos de
detallarán cada una de las estrategias y se libro y los libros solo despliegan 388 y 88
mostrarán los resultados obtenidos. resultados respectivamente, lo anterior
ratifica la etapa naciente en que se encuen-
2.1 Primera estrategia de exploración tra este campo de estudio, puesto que sus
bases teóricas apenas se están consolidan-
SCOPUS es una de las más grandes ba- do.
ses de datos de resúmenes y citas de litera- Revisando los resultados agrupados por
tura revisadas por pares, contienen artícu- país de publicación, se puede ver una con-
los de revistas científicas, libros y artículos centración en Estados Unidos y China
de congresos, posibilitando tener una vi- como se aprecia en la Fig. 3. En los países
sión global de la producción académica e europeos se encuentra un número también
investigativa en campos de la ciencia, tec- significativo de trabajos, mientras que en
nología, medicina, artes y humanidades Sur América, Oceanía y África, el desarro-
[6]. Además, esta herramienta permite llo de investigaciones en el campo es aún
clasificar, refinar y analizar de forma ágil incipiente.
TecnoLógicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploración de investigaciones, tecnologías y casos de aplicación
Fig. 1. Número de artículos publicados por año, periodo 2010 – 2016. Fuente: Autores.
TecnoLógicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploración de investigaciones, tecnologías y casos de aplicación
2.2 Segunda estrategia de exploración Para el caso particular, se usaron los si-
guientes parámetros para la búsqueda:
Como segunda estrategia se hizo un
análisis detallado de algunos documentos, - Palabras de búsqueda: “Big Data”
utilizando para su selección y clasificación - Restricción de años: 2010-2016
una herramienta desarrollada desde el - Categoría de Web of Science: computer
Grupo de Investigación en Ambientes Inte- science information systems
ligentes Adaptativos – GAIA – y como par- - Tipo de documento: documentos científi-
te de una tesis doctoral en la Universidad cos
Nacional de Colombia – Sede Manizales.
La herramienta llamada ToS (Tree of Se hizo la búsqueda en el índice biblio-
Science) [7], funciona en la web y se puede gráfico Web of Science (índice con el cual
acceder a ella a través del enlace trabaja la herramienta ToS) y se obtuvo un
http://tos.manizales.unal.edu.co/. total de ciento setenta y cuatro (174) ar-
Los resultados que brinda la herra- tículos para los parámetros de búsqueda. A
mienta son construidos a partir de la utili- partir del análisis de este grupo de artícu-
zación de una serie de algoritmos de redes los y de las referencias citadas en los mis-
complejas, los cuales optimizan los resul- mos, la herramienta ToS hizo el respectivo
tados de la búsqueda y selección de docu- refinamiento y retornó diez artículos con-
mentos científicos publicados. Esta herra- siderados raíz, en el tronco se clasificaron
mienta clasifica los documentos en “raíz”, otros diez y setenta artículos fueron ubica-
“tronco” y “ramas” a partir de la lista de dos en las ramas, como se aprecia en la
trabajos encontrados. Los documentos raíz Fig. 4. Cabe aclarar que en este documento
hacen referencia a las investigaciones que no se reportará la totalidad de los artículos
dan soporte al enfoque o temática abarca- arrojados por la herramienta, se ha reali-
da, los documentos tronco son aquellos que zado una selección de los documentos que
dan estructura al tema y los documentos cubren la temática, permitiendo tener una
rama son las perspectivas y tendencias. visión general del estado del arte y de las
tendencias y campos de trabajo.
TecnoLógicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploración de investigaciones, tecnologías y casos de aplicación
TecnoLógicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploración de investigaciones, tecnologías y casos de aplicación
dos, así como también cuando se requiere videocámaras, monitores de tráfico, má-
de procesos de descubrimiento de datos quinas de resonancia magnética, sensores
[10]. químicos y biológicos y sensores de monito-
Partiendo de la necesidad de almace- reo ambiental, se han generado nuevos
namiento y análisis de los datos se desarro- flujos de datos digitales. Así mismo, las
lla el ecosistema Hadoop, los sistemas de personas a través de sus teléfonos celula-
archivos distribuidos, el desarrollo de apli- res, computadores personales, sitios web y
caciones con MapReduce, el lenguaje de otro tipo de dispositivos digitales generan
consultas Hive y otras herramientas como grandes flujos de datos personales. Lo
HBase, ZooKeeper y Sqoop. En [11] se anterior deja ver que Big Data presenta
presenta una guía completa, tanto de for- oportunidades incalculables para la formu-
ma conceptual como con ejemplos de apli- lación de investigación científica, acelera la
cación de Hadoop y de varias herramientas innovación y puede ayudar a mejorar ám-
asociadas a este. Uno de los casos estudia- bitos que van desde la salud hasta el Go-
dos es el de Hadoop y Hive para Facebook. bierno. También se abren nuevas oportu-
Facebook inicialmente usaba data wa- nidades de negocio porque surgen meca-
rehousing sobre una instancia Oracle, sin nismos que permiten entender las dinámi-
embargo, con su crecimiento se tuvo que cas de negocio en tiempo real, como el
pensar en nuevas alternativas, Hadoop fue comportamiento de los consumidores, las
atractiva porque ya se usaba en Yahoo actividades de vida nocturna, los mercados,
para procesamientos internos y usaba el entre otros. Cabe anotar que Big Data
modelo MapReduce popularizado por Goo- presenta también retos y peligros, ya que
gle. las tecnologías de datos son cada vez más
El crecimiento de los datos, como la ex- penetrantes, intrusivas y difíciles de en-
plosión de las redes móviles, la compu- tender.
tación en la nube y las nuevas tecnologías A manera de resumen de los principales
son descritas en [12]. Esto ha dado un documentos considerados raíz, en la Tabla
aumento al incomprensible mundo de la 1 se presenta una síntesis de estos.
información, que se suele describir como Los documentos ubicados en el tronco,
Big Data. Este informe captura los puntos son aquellos que dan estructura a la temá-
de vista recogidos durante un evento de tica o campo de estudio, hacen referencia a
exploración de temas de Big Data e infe- estudios de revisión frente a los avances,
rencia de software. Las compañías que han desafíos y perspectivas de Big Data y tec-
sido pioneras en el uso de analíticas pro- nologías asociadas, estos son presentados a
fundas sobre grandes bases de datos han continuación. En este caso también se optó
sido las que operan sobre internet, como por presentar los cinco documentos que
son los motores de búsqueda, los sitios de después de la revisión por parte de los
redes sociales y los sitios de comercio en autores son considerados los más relevan-
línea. Sin embargo, el desarrollo de nuevos tes.
tipos de sensores remotos como telescopios,
TecnoLógicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploración de investigaciones, tecnologías y casos de aplicación
Dimensión,
Autores - Tipo de campo o
Título Síntesis del documento
Año documento herramienta
analizado
Map Reduce es uno de los enfoques que se mues-
Dean, J. tra como base sólida de las soluciones Big Data, ya
MapReduce: simpli- Artículo en que desde el paradigma de distribución de proce-
Ghemawat,
fied data processing revista MapReduce
S. samiento se pueden afrontar problemas de trata-
on large clusters científica
2008 miento de grandes volúmenes de datos que las
herramientas tradicionales no soportan.
Cloud computing, o computación en la nube es una
tendencia que logró virtualizar procesos que
Armbrust, Artículo en requerían de grandes inversiones en hardware, las
A view of cloud Cloud Compu-
M. et al. revista cuales no siempre podían ser afrontadas por las
computing ting
2010 científica organizaciones. Con ello se ha permitido también,
que el crecimiento de los datos y su procesamiento
se pueda escalar.
Tomando dos perspectivas, la empresarial y la
tecnológica se analiza Big Data y se concluye que
Understanding Big se debe realizar un análisis previo a la implemen-
Perspectivas tación de soluciones desde este enfoque, puesto
Zikopoulos, Data: Analytics for
Big Data:
P. et al. Enterprise Class Libro que según el tipo de datos que se manejen, las
Empresarial,
2011 Hadoop and Stream- soluciones tradicionales pueden seguir siendo más
tecnológica
ing Data eficientes respecto a las que implementan Hadoop
o procesamiento distribuido, en otras ocasiones lo
indicado es tener una solución mixta.
Se presenta todo el ecosistema Hadoop, tecnolo-
gías de almacenamiento, procesamiento y análisis
White, T. Hadoop: The Defini- Ecosistema de datos adaptadas a diferentes tipos de datos.
Libro
2011 tive Guide Hadoop Desde esta guía se presentan casos de éxito de
soluciones Big Data desde lo conceptual y aplica-
das a casos de estudio.
El mundo presenta una tendencia cada vez más
marcada hacia la generación de datos. Ya sea
desde la interacción de las personas con las nue-
Bollier, D. The Promise and Analíticas Big vas tecnologías, las mediciones de variables del
Informe
2010 Peril of Big Data Data entorno o los flujos de datos personales. Todas
estas fuentes de datos se convierten en posibilida-
des de investigación científica e innovación em-
presarial.
En [13] se presenta Big Data, sus apli- rentes campos científicos, como la astro-
caciones, las oportunidades y desafíos de nomía, la meteorología, la bioinformática y
estas tecnologías, así como también técni- la biología computacional. Dichos campos
cas de última generación que se han adop- basan gran parte de su descubrimiento
tado para hacer frente a los problemas de científico en el análisis de grandes volúme-
Big Data. Se discuten algunas metodolo- nes de datos. Otro de los aportes significa-
gías utilizadas para tratar cantidades con- tivos, es la descripción de los principios
siderables de datos como es la computación para el diseño de sistemas Big Data. Estos
granular, la computación en la nube, la son: (1) Buenas arquitecturas y frame-
computación bio-inspirada y la compu- works son necesarios y de alta prioridad.
tación cuántica. Destacan el papel que han (2) Soportar una variedad de métodos ana-
jugado los datos como promotores de dife- líticos. (3) No hay un tamaño definido para
TecnoLógicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploración de investigaciones, tecnologías y casos de aplicación
todo. (4) Conducir el análisis de los datos. ponen las siguientes: contenidos generados
(5) El procesamiento debe ser distribuido. por usuarios, estos vienen de aplicaciones
(6) El almacenamiento de los datos debe que cuentan con usuarios masivos, por
ser distribuido. (7) Es necesaria una coor- ejemplo tweets o blogs; datos transacciona-
dinación entre las unidades de procesa- les, son generados por sistemas masivos
miento y de datos. que procesan transacciones y operaciones
En [4] se revisan algunas de las tecno- como por ejemplo lectores de radio frecuen-
logías relacionadas a Big Data como cia, transacciones empresariales, entre
computación en la nube, Internet de las otras; datos científicos, estos son produci-
cosas, centros de datos y Hadoop. También dos por aplicaciones o experimentos de
se mencionan las fases de la cadena de datos-intensivos, por ejemplo datos del
valor de Big Data y finalmente se exami- genoma o datos de asistencia sanitaria;
nan algunos casos de aplicación como ges- datos web, provienen de los procesos que
tión empresarial, internet de las cosas, soportan aplicaciones web como búsquedas
redes sociales, aplicaciones médicas, inteli- y minería, también de los billones de pági-
gencia colectiva y redes eléctricas inteli- nas web que existen; Grafos de datos, co-
gentes. En cuanto a las fases de Big Data, rresponden a un enorme número de nodos
se definen cuatro principales: generación, de información y las relaciones entre estos
adquisición, almacenamiento y análisis de nodos. Adicionalmente, se habla de la
datos. Los autores afirman que, sin tratar reducción de Big Data, entendida como la
de predecir el futuro, el panorama de Big reducción de las cantidades exorbitantes a
Data se concentrará en: datos con escalas y los segmentos significativos, se presentan
diversidad cada vez mayores y estructuras técnicas como machine learning y el proce-
mucho más complejas, la necesidad de samiento paralelo masivo para este fin.
rendimiento de los recursos de datos, Big Es importante también, tener en cuenta
Data promoverá la fusión transversal de la cómo en el área de la industria y los nego-
ciencia, tendrá grandes retos de visualiza- cios se ha presentado una explosión en el
ción de datos y una orientación a los datos número de datos, causada principalmente
cada vez más marcada. A su vez, se pre- por el rápido desarrollo del internet, nue-
sentan los desafíos de Big Data, estos re- vos conceptos como el internet de las cosas
quieren de un esfuerzo investigativo y son y la computación en la nube. Big data se ha
agrupados en las siguientes categorías: constituido como un “tópico caliente” que
investigación teórica, desarrollo tecnológi- atrae la atención no solo de la industria,
co, implicaciones prácticas y seguridad de sino también de la academia y del Go-
datos. bierno. Los autores presentan desde dife-
Desde una perspectiva de la adminis- rentes perspectivas el significado y las
tración de los datos, en [14] se presenta oportunidades que nos brinda el ecosiste-
una discusión acerca de la diversidad de ma Big Data y dan una serie de condicio-
Big Data, las necesidades de integración y nes necesarias para que un proyecto de Big
limpieza, las consultas e indexación y fi- Data sea exitoso. En primer lugar, se de-
nalmente la minería y análisis sobre Big ben tener claros los requerimientos inde-
Data. El inicio de Big Data va directamen- pendientemente de si son técnicos, sociales
te relacionado con el crecimiento de los o económicos. En segundo lugar, para tra-
datos generados por la sociedad. Estos bajar de forma eficiente con Big Data se
datos suelen caracterizarse por su hetero- requiere explorar y encontrar la estructura
geneidad y por la variedad de fuentes des- central o el kernel de los datos a ser proce-
de las cuales provienen, sin embargo, se sados, ya que al tener esto se puede carac-
pueden clasificar estas fuentes de acuerdo terizar el comportamiento y las propieda-
con donde son generadas. Los autores pro- des subyacentes a Big Data. En tercer
TecnoLógicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploración de investigaciones, tecnologías y casos de aplicación
lugar, se debe adoptar un modelo de admi- en una estructura de tres niveles. La parte
nistración top-down, se puede considerar central, la "plataforma de minería de Big
también un modelo bottom-up, sin embar- Data" (nivel I), que se enfoca en el acceso a
go, solo serviría cuando se trata de proble- los datos de bajo nivel y computación. Los
mas específicos, y luego tratar de unirlos desafíos en el intercambio de información y
para formar una solución completa es com- la privacidad, los dominios de aplicación de
plejo. Por último, los autores exponen la Big Data y el conocimiento forman el nivel
necesidad de abordar desde los proyectos II, que se concentra en la semántica de alto
Big Data soluciones integradas, no con nivel, las aplicaciones de dominio de cono-
esfuerzos aislados [15]. cimiento y los problemas de privacidad del
Los retos que se desprenden del consu- usuario. Ya en el nivel III se presentan los
mo y creación de información a través de la desafíos en los actuales algoritmos de mi-
red incluyen necesidades de captura, ma- nería.
nejo y procesamiento de grandes volúme- Cabe resaltar, que los documentos con-
nes de datos. En [16] los autores proponen siderados tronco, para este caso, corres-
un teorema llamado “HACE” (Heteroge- ponden a revisiones del estado del arte en
neous, Autonomous, Complex y Evolving), Big Data. En la Tabla 2 se presenta una
con el cual buscan describir las caracterís- síntesis de los mismos.
ticas de la revolución de Big Data. El teo- En la exploración se encontró que el
rema plantea la existencia de un gran termino Big Data ha tenido gran acogida
volumen de datos heterogéneos y prove- en la comunidad, representado esto en el
nientes de fuentes autónomas con control surgimiento de tecnologías, técnicas y en-
distribuido y descentralizado, y que trata foques.
de explorar relaciones complejas y cam- Sin embargo, se presenta aún una mar-
biantes entre los datos. Los autores plan- cada tendencia hacia los aportes de tipo
tean que hay un gran desafío para descu- conceptual, son pocos los resultados y ha-
brir conocimiento útil desde Big Data. La llazgos que permitan realmente vislumbrar
heterogeneidad se refiere a los diferentes de forma tangible sus beneficios frente a
tipos de representaciones para los mismos otras tendencias o tecnologías tradiciona-
individuos, y la diversidad de característi- les. Los trabajos se concentran, en su gran
cas se refiere a la variedad a la hora de mayoría, en asociar Big Data a grandes
representar cada observación particular. volúmenes de datos o a la distribución de
Las fuentes de datos autónomas con con- procesamiento. En el primer caso, no es
trol distribuido y descentralizado son, se- claro cuál es la cantidad de datos que per-
gún los autores, la principal característica mite esta calificación; y para el segundo, no
de las aplicaciones de Big Data. Al ser hay coincidencia en determinar para qué
autónomas, cada fuente de datos tiene la tipo de datos el procesamiento distribuido
capacidad de generar y recopilar informa- consigue mejores resultados. La volatilidad
ción sin la participación de un ente de con- y variabilidad aún no reciben la atención
trol centralizado. Se plantea, además, que necesaria. Con lo anterior, se ratifica que
un marco de trabajo para el procesamiento existen numerosos vacíos conceptuales y
de Big Data presenta ciertos desafíos de tecnológicos en los cuales se pueden plan-
investigación, los cuales se pueden reunir tear trabajos investigativos y prácticos.
TecnoLógicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploración de investigaciones, tecnologías y casos de aplicación
TecnoLógicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploración de investigaciones, tecnologías y casos de aplicación
tecnologías de Big Data que se revisarán duce, framework que permite al desarro-
en este documento. Se decide presentar llador aislarse de la programación parale-
estas tecnologías ya que son software de la, permite ejecutar programas escritos en
libre uso y que permite la generación de lenguajes de programación conocidos (p.e
soluciones de Big Data de acuerdo con las Java) en el clúster de Haddop. El HDFS
necesidades particulares de un dominio de cuenta con tres pilares básicos. Namenode,
datos u organización. Cabe aclarar que se ocupa del control de acceso y tiene la
existen un mayor número de tecnologías información sobre la distribución de datos
que soportan Big Data, tanto libres como en el resto de nodos. Datanodes, son los
propietarias, pero para efectos de este encargados de ejecutar el cómputo, es de-
documento se ha acotado de acuerdo con lo cir, las funciones Map y Reduce, sobre los
anteriormente expuesto y tomando las datos almacenados de manera local en
tecnologías que dieron las bases iniciales al cada uno de dichos nodos. Jobtracker, este
ecosistema Big Data. nodo se encarga de las tareas y ejerce el
control sobre la ejecución del proceso de
Hadoop MapReduce. Además, el HDFS cuenta con
las siguientes características fundamenta-
Hadoop es una librería de Apache defi- les:
nida como un framework que permite ha-
cer procesamiento de datos distribuido - Tolerancia a fallos
sobre volúmenes de datos de considerable - Acceso a datos en streaming
tamaño sobre clúster. Está diseñado pen- - Facilidad para el trabajo
sando en brindar poder de escalamiento - Modelo sencillo de coherencia
desde un par de servidores hasta cientos de - Portabilidad de convivencia
máquinas o nodos, las cuales manejan
almacenamiento y procesamiento local Varios trabajos donde se ha tomado
[17]. Hadoop como base y se ha potencializado
Hadoop cuenta con dos componentes algunas de sus características o se ha fu-
principales, el HDFS, sistema de archivos sionado con otra herramienta o tecnología.
distribuidos que permite distribuir los Ejemplos de esto se pueden encontrar en
ficheros en distintas máquinas y MapRe- [18]–[20].
TecnoLógicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploración de investigaciones, tecnologías y casos de aplicación
TecnoLógicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploración de investigaciones, tecnologías y casos de aplicación
TecnoLógicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploración de investigaciones, tecnologías y casos de aplicación
TecnoLógicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploración de investigaciones, tecnologías y casos de aplicación
TecnoLógicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploración de investigaciones, tecnologías y casos de aplicación
tes esenciales de los algoritmos genéticos enfoques NoSQL (Not Only SQL). En el
los siguientes: trabajo se considera la necesidad de que
estos sistemas sigan garantizando caracte-
- Estrategia de codificación que rísticas como: escalabilidad, fiabilidad,
determina la forma en que se durabilidad, tiempos de respuesta, interfa-
representará la solución en forma de ces de consulta, esquemas de particiona-
cromosomas miento y estructura o carencia de esta. Se
- Población de cromosomas o individuos describen los modelos de almacenamiento
- Mecanismo para la evaluación de cada NoSQL: depósitos llave-valor, basado en
cromosoma documentos, tabular y orientados a grafos.
- Procedimiento de selección/reproducción Los autores afirman que los sistemas
- Operadores genéticos: cruce, mutación NoSQL se adecuan a casos en los que se
- Probabilidades para los operadores necesita atender a muchos usuarios sin
genéticos perder rendimiento, como puede pasar en
- Un criterio de finalización el caso de las redes sociales. Por su parte,
recomiendan los sistemas de bases de da-
Aprendizaje de reglas de asociación tos relacionales cuando se trata de garan-
tizar integridad referencial, se requiere el
El aprendizaje de reglas de asociación uso de conexiones entre servidores y clien-
(Association rule learning), es un método tes, consultas arbitrarias, estandarización,
para encontrar las relaciones entre varia- herramientas de análisis y pruebas de
bles en grandes bases de datos, su objetivo rendimiento.
es identificar reglas usando algunas medi- En [52] presentan la revisión de varios
das de relación de intereses, por ejemplo, aspectos relacionados con Big Data, tales
en el caso de las redes sociales, se trataría como contenido, alcance, métodos, venta-
de revisar las personas que posiblemente le jas, desafíos, ejemplos y privacidad de los
interesarían seguir a otras dependiendo de datos. La revisión realizada por los autores
sus amistades o seguidores. En el caso de muestra que incluso con las herramientas
tiendas de productos, podría ser la revisión y técnicas disponibles en la actualidad y la
de los productos que se compran juntos con literatura al respecto, existen muchos pun-
frecuencia para sugerirlos a un cliente que tos a ser considerados, desarrollados, mejo-
adquiera uno de los productos relaciona- rados y analizados. Es claro que la canti-
dos. Algunas aplicaciones del aprendizaje dad de datos ha ido en aumento, lo cual
de reglas de asociación se encuentran en exige que también las técnicas de análisis y
[48]–[50]. tratamiento de datos se hagan más compe-
titivas, el reto no es solo para recoger y
gestionar el gran volumen y diferentes
4. TENDENCIAS Y RETOS EN BIG DATA
tipos de datos, sino también para extraer
En esta sección se presenta la explora- valor significativo de estos. Se presentan
ción de algunos trabajos que presentan una como las principales barreras para la im-
visión general de las tendencias y enfoques plementación de analíticas de Big Data: la
en el desarrollo de investigaciones en el carencia de expertos en el tema de Big
campo de Big Data. Data, el costo, el manejo de la privacidad
En [51] se muestra una revisión del es- en la manipulación de los datos, la dificul-
tado del arte en cuanto a sistemas de al- tad en el diseño de sistemas de análisis, la
macenamiento para grandes volúmenes de falta de software que soporte grandes ba-
datos, incluyendo un comparativo entre los ses de datos permitiendo análisis con tiem-
Sistemas de Administración de Bases de pos de procesamiento rápido, los problemas
Datos (DBMS) tradicionales y los nuevos de escalabilidad, la incapacidad de hacer
TecnoLógicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploración de investigaciones, tecnologías y casos de aplicación
que Big Data sea utilizable por usuarios naturaleza de algunos de los algoritmos de
finales, la falta de rapidez en la carga de machine-learning son difícilmente usados
datos con los sistemas de gestión de bases en ambientes como MapReduce, por lo cual
de datos actuales y la ausencia de un mo- se requiere de su adaptación. En segundo
delo de negocio convincente y rentable en lugar, Big Data trae consigo datos “sucios”,
torno al tema. con errores potenciales, incompletos o de
En [4] los autores analizan algunas diferente precisión, la IA puede ser usada
tecnologías relacionadas con Big Data co- para identificar y limpiar estos datos su-
mo computación en la nube, internet de las cios. En tercer lugar, la visualización de los
cosas, centros de datos y Hadoop. También datos, con la IA se puede lograr incluir la
se enfocan en la discusión de los desafíos captura de capacidades de visualización de
técnicos y adelantos en cada una de las conocimiento para facilitar el análisis de
fases de Big Data: generación, adquisición, datos, un enfoque es crear aplicaciones
almacenamiento y análisis de datos. El inteligentes de visualización para determi-
análisis de Big Data tiene que afrontar nados tipos de datos. En cuarto lugar, ya
muchos desafíos, se requieren considera- que las tecnologías de almacenamiento
bles esfuerzos investigativos, los cuales se evolucionan, es cada vez más factible pro-
pueden agrupar en los problemas abiertos porcionar a los usuarios, casi en tiempo
presentados en la Fig. 7. real, análisis de bases de datos más gran-
En [53] se hace énfasis en la utilización des, lo que acelera las capacidades de toma
de técnicas de Inteligencia Artificial (IA) de decisiones.
para facilitar la captura y estructuración En [54] presentan una descripción con-
de grandes volúmenes de datos y también solidada del concepto de Big Data, partien-
cómo se han implementado para el análisis do de las definiciones dadas por profesiona-
de estos. Se presentan algunas preocupa- les y académicos del campo, como se ve en
ciones respecto a la integración de IA con la Fig. 8. Sin embargo, el artículo se con-
Big Data, que no se resuelven solo con centra en revisar los métodos de análisis
pensar en la distribución y paralelización, usados para Big Data. Se destaca que Big
sino que requieren otros análisis. Las téc- Data no tiene un verdadero sentido si solo
nicas de IA para el tratamiento de Big se trata de un gran cúmulo de datos, su
Data permiten la delegación de tareas valor potencial se desbloquea solo cuando
complejas de reconocimiento de patrones, estos datos son aprovechados para impul-
aprendizaje y otras tareas basadas en en- sar la toma de decisiones. Para ello es ne-
foques computacionales, la IA contribuye a cesario mover y dar significado a los datos,
la velocidad en la manipulación de los da- esto se puede hacer por medio de dos sub-
tos, facilitando la toma de decisiones rápi- procesos principales: la gestión y análisis
das. Por ejemplo, muchas operaciones de la de datos. La gestión de datos implica pro-
bolsa son hechas por sistemas basados en cesos y tecnologías de apoyo para adquirir,
IA en lugar de personas, la velocidad de las almacenar, preparar y recuperar los datos
operaciones puede aumentar y una para su análisis. El análisis, por su parte,
transacción puede conducir a otras. Exis- se refiere a las técnicas utilizadas para
ten varios problemas emergentes asociados adquirir inteligencia a partir de Big Data.
a la IA y Big Data, en primer lugar, la
TecnoLógicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploración de investigaciones, tecnologías y casos de aplicación
TecnoLógicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploración de investigaciones, tecnologías y casos de aplicación
Fig. 8. Definiciones de Big Data basadas en una encuesta en línea realizada a profesionales y académicos del campo.
Fuente: Adaptado de [54].
TecnoLógicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploración de investigaciones, tecnologías y casos de aplicación
TecnoLógicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploración de investigaciones, tecnologías y casos de aplicación
TecnoLógicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploración de investigaciones, tecnologías y casos de aplicación
[38] P. Domingos, “A few useful things to know [47] U. Maulik, S. Bandyopadhyay, and A.
about machine learning,” Commun. ACM, Mukhopadhyay, Multiobjective Genetic
vol. 55, no. 10, p. 78, Oct. 2012. Algorithms for Clustering: Applications in
[39] I. Portugal, P. Alencar, and D. Cowan, “The Data Mining and Bioinformatics. Springer
Use of Machine Learning Algorithms in Science & Business Media, 2011.
Recommender Systems: A Systematic [48] A. E. Doub, M. L. Small, A. Levin, K.
Review,” arXiv, vol. 4, pp. 1–16, Nov. 2015. LeVangie, and T. R. Brick, “Identifying users
[40] M. Crawford, T. M. Khoshgoftaar, J. D. of traditional and Internet-based resources
Prusa, A. N. Richter, and H. Al Najada, for meal ideas: An association rule learning
“Survey of review spam detection using approach,” Appetite, vol. 103, pp. 128–136,
machine learning techniques,” J. Big Data, Aug. 2016.
vol. 2, no. 1, p. 23, Dec. 2015. [49] H. Sundell, R. Konig, and U. Johansson,
[41] Wei-Yang Lin, Ya-Han Hu, and Chih-Fong “Pragmatic Approach to Association Rule
Tsai, “Machine Learning in Financial Crisis Learning in Real-World Scenarios,” in 2015
Prediction: A Survey,” IEEE Trans. Syst. International Conference on Computational
Man, Cybern. Part C (Applications Rev., vol. Science and Computational Intelligence
42, no. 4, pp. 421–436, Jul. 2012. (CSCI), 2015, pp. 356–361.
[42] R. Dash and P. K. Dash, “A hybrid stock [50] R. Sarno, R. D. Dewandono, T. Ahmad, M. F.
trading framework integrating technical Naufal, and F. Sinaga, “Hybrid association
analysis with machine learning techniques,” rule learning and process mining for fraud
J. Financ. Data Sci., vol. 2, no. 1, pp. 42–57, detection,” IAENG Int. J. Comput. Sci., vol.
Mar. 2016. 42, no. 2, pp. 1–14, 2015.
[43] J. Patel, S. Shah, P. Thakkar, and K. [51] S. Jaramillo Valbuena and J. M. Londoño,
Kotecha, “Predicting stock and stock price “Sistemas para almacenar grandes
index movement using Trend Deterministic volúmenes de datos,” Rev. Gerenc.
Data Preparation and machine learning Tecnológica Informática, vol. 13, no. 37, pp.
techniques,” Expert Syst. Appl., vol. 42, no. 1, 17–28, 2015.
pp. 259–268, Jan. 2015. [52] S. Sagiroglu and D. Sinanc, “Big data: A
[44] E. Cuevas, D. Zaldívar, and M. Perez- review,” in 2013 International Conference on
Cisneros, Applications of Evolutionary Collaboration Technologies and Systems
Computation in Image Processing and (CTS), 2013, pp. 42–47.
Pattern Recognition, 1st ed., vol. 100. Cham: [53] D. E. O’Leary, “Artificial Intelligence and Big
Springer International Publishing, 2016. Data,” IEEE Intell. Syst., vol. 28, no. 2, pp.
[45] K.-F. Man, K. S. TANG, and S. Kwong, 96–99, Mar. 2013.
Genetic Algorithms: Concepts and Designs. [54] A. Gandomi and M. Haider, “Beyond the
Springer Science & Business Media, 2012. hype: Big data concepts, methods, and
[46] G. Luque and E. Alba, Parallel Genetic analytics,” Int. J. Inf. Manage., vol. 35, no. 2,
Algorithms: Theory and Real World pp. 137–144, Apr. 2015.
Applications, vol. 367. Springer, 2011.
TecnoLógicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017