Está en la página 1de 24

TecnoLógicas

ISSN 0123-7799
ISSN-e 2256-5337
Vol. 20, No. 39
Mayo - agosto de 2017

Big Data: una exploración de


investigaciones, tecnologías y casos
de aplicación

Big Data: an exploration of research,


technologies and application cases

Emilcy J. Hernández-Leal1,
Néstor D. Duque-Méndez2 y Julián Moreno-Cadavid3

Recibido: 28 de mayo de 2016,


Aceptado: 15 de marzo de 2017

Cómo citar / How to cite


E.J. Hernández-Leal, N.D. Duque-Méndez y J. Moreno-Cadavid, “Big
Data: una exploración de investigaciones, tecnologías y casos de aplica-
ción”, TecnoLógicas, vol. 20, no. 39, mayo - agosto, 2017.

1 Esp. en Gerencia Estratégica de Proyectos, Estudiante de Maestría


en Ingeniería Administrativa, Administradora de sistemas informá-
ticos, Departamento de Ingeniería de la Organización, Facultad de
Minas, Universidad Nacional de Colombia, Medellín-Colombia,
ejhernandezle@unal.edu.co
2 PhD. en Ingeniería, MSc. en Ingeniería de Sistemas, Especialista en
Sistemas, Ingeniero Mecánico, Facultad de Administración, Depar-
© Copyright 2015 por tamento de Informática y Computación, Universidad Nacional de
autores y Tecno Lógicas
Este trabajo está licenciado bajo una Colombia, Manizales-Colombia, ndduqueme@unal.edu.co
Licencia Internacional Creative 3 PhD. en Ingeniería – Sistemas, MSc. en Ingeniería de Sistemas,
Commons Atribución (CC BY) Ingeniero de Sistemas e Informática, Departamento de Ciencias de
la Computación y de la Decisión, Facultad de Minas, Universidad
Nacional de Colombia, Medellín-Colombia, jmoreno1@unal.edu.co
Big Data: una exploración de investigaciones, tecnologías y casos de aplicación

Resumen
Big Data se ha convertido en una tendencia a nivel mundial y aunque aún no
cuenta con un concepto científico o académico consensuado, se augura cada día
mayor crecimiento del mercado que lo envuelve y de las áreas de investigación
asociadas. En este artículo se reporta una exploración de literatura sobre Big
Data, que comprende un estado del arte de las técnicas y tecnologías asociadas a
Big Data, las cuales abarcan captura, procesamiento, análisis y visualización de
datos. Se exploran también las características, fortalezas, debilidades y
oportunidades de algunas aplicaciones y modelos que incluyen Big Data,
principalmente para el soporte al modelado de datos, análisis y minería de datos.
Asimismo, se introducen algunas de las tendencias futuras para el desarrollo de
Big Data por medio de la definición de aspectos básicos, alcance e importancia de
cada una. La metodología empleada para la exploración incluye la aplicación de
dos estrategias, una primera corresponde a un análisis cienciométrico; y la
segunda, una categorización de documentos por medio de una herramienta web
de apoyo a los procesos de revisión literaria. Como resultados se obtiene una
síntesis y conclusiones en torno a la temática y se plantean posibles escenarios
para trabajos investigativos en el campo de dominio.

Palabras clave
Big Data, análisis de datos, ciencia de los datos, minería de datos, análisis
Big Data.

Abstract
Big Data has become a worldwide trend and although still lacks a scientific or
academic consensual concept, every day it portends greater market growth that
surrounds and the associated research areas. This paper reports a systematic
review of the literature on Big Data considering a state of the art about
techniques and technologies associated with Big Data, which include capture,
processing, analysis and data visualization. The characteristics, strengths,
weaknesses and opportunities for some applications and Big Data models that
include support mainly for modeling, analysis, and data mining are explored.
Likewise, some of the future trends for the development of Big Data are
introduced by basic aspects, scope, and importance of each one. The methodology
used for exploration involves the application of two strategies, the first
corresponds to a scientometric analysis and the second corresponds to a
categorization of documents through a web tool to support the process of
literature review. As results, a summary and conclusions about the subject are
generated and possible scenarios arise for research work in the field.

Keywords
Big data, data analysis, data science, data mining, big data analysis.

TecnoLógicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploración de investigaciones, tecnologías y casos de aplicación

1. INTRODUCCIÓN de diversas actividades de la sociedad, en


estas se genera una cantidad inmensa de
El crecimiento en el volumen de datos datos, que, según su naturaleza, puede
generados por diferentes sistemas y activi- estar almacenada y estructurada o puede
dades cotidianas en la sociedad ha forjado corresponder a datos sin ninguna estructu-
la necesidad de modificar, optimizar y ra, pero con características de gran valor.
generar métodos y modelos de almacena- En la segunda fase, se incluye la colección
miento y tratamiento de datos que suplan de todos estos datos generados en la vida
las falencias que presentan las bases de diaria, la trasmisión y pre-procesamiento
datos y los sistemas de gestión de datos de los mismos es de gran importancia, ya
tradicionales. Respondiendo a esto aparece que muchos conjuntos de datos presentan
Big Data, término que incluye diferentes redundancia o datos inútiles y si no se
tecnologías asociadas a la administración tratan pueden incrementar el espacio de
de grandes volúmenes de datos provenien- almacenamiento innecesariamente y afec-
tes de diferentes fuentes y que se generan tar los resultados de una fase de análisis.
con rapidez [1]. La fase de almacenamiento de Big Data ha
A pesar de que el término Big Data se generado la necesidad de generar estudios
asocia principalmente con cantidades de y propuestas de nuevas estrategias que
datos exorbitantes, se debe dejar de lado permitan afrontar los tipos de datos que no
esta percepción, pues Big Data no va diri- se pueden gestionar con un sistema de
gido solo a gran tamaño, sino que abarca gestión de bases de datos relacionales.
tanto volumen como variedad de datos y Surgen entonces, tecnologías de almace-
velocidad de acceso y procesamiento. En la namiento de datos masivos como almace-
actualidad se ha pasado de la transacción a namiento con conexión directa y el almace-
la interacción, con el propósito de obtener namiento en red, también diferentes moto-
el mejor provecho de la información que se res NoSQL. Finalmente, la fase de análisis
genera minuto a minuto [2]. debe atender a la necesidad de extraer
Con el auge del Big Data se ha dado ca- rápidamente información desde los datos
bida también a un nuevo concepto, Data masivos para poder generar valor en las
Science o Ciencia de los Datos, que se usa organizaciones y facilitar procesos de toma
de forma genérica para hacer referencia a de decisiones, se requiere de tecnologías
la serie de técnicas necesarias para el tra- que faciliten incluso el análisis en tiempo
tamiento y manipulación de información real.
masiva desde un enfoque estadístico e Siguiendo los lineamientos para la
informático. Incluyendo también el surgi- construcción de artículos de revisión [5],
miento de un nuevo perfil profesional, el este artículo tiene como objetivo presentar
“Data Scientist” [3], las personas capacita- una visión general acerca de Big Data
das en este perfil deben saber del negocio, incluyendo un análisis cienciométrico de
de las herramientas computacionales y de las publicaciones en este campo y haciendo
análisis e interpretación estadística. una exploración cuidadosa de una serie de
Ahora bien, al revisar Big Data, pen- trabajos en el tema, que contemplan apli-
sando en la creación de soluciones que caciones, oportunidades, desafíos y retos de
incluyan problemas enmarcados en este Big Data. A su vez, se hace una breve in-
enfoque, se pueden encontrar cuatro fases troducción de algunas tecnologías y técni-
donde se agrupan o clasifican las diferen- cas adoptadas para la implementación de
tes tecnologías de soporte, estas son: gene- soluciones a problemas de Big Data. Esta
ración, adquisición, almacenamiento y exploración concluye con la presentación de
análisis de datos. En [4] se define la prime- puntos clave y principales aportes encon-
ra fase, generación, como un proceso propio trados.

TecnoLógicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploración de investigaciones, tecnologías y casos de aplicación

Lo que resta del artículo se organiza de los resultados obtenidos a partir de una
la siguiente forma: en la siguiente Sección ecuación de búsqueda, con ello se puede
se presenta la metodología y principales extraer información relevante de la temáti-
hallazgos de esta exploración. En la Sec- ca de interés que se esté abordando. Para
ción 3 se muestran las tecnologías y técni- este acercamiento se utilizó como ecuación
cas para el tratamiento de Big Data. Por su de búsqueda “big data” y a continuación se
parte, en la Sección 4 se muestran algunas presentan algunos aspectos relevantes que
tendencias y retos en el campo, y se finali- se extrajeron de los resultados en
za en la Sección 5, con las conclusiones que SCOPUS. Se decidió utilizar esta ecuación
parten del análisis del contexto presentado de búsqueda poco delimitada, porque se
en las secciones previas. pretende presentar un estado general de
presencia y tratamiento de la temática.
El total de recursos encontrados fue de
2. METODOLOGÍA 16.902. En la Fig. 1 se presenta el número
de documentos publicados por año. Se
El desarrollo de esta exploración se aprecia que los estudios del tema llevan
realizó siguiendo dos estrategias. Como poco más de un lustro, se puede ver que en
primera estrategia, se hizo un acercamien- el año 2012 es cuando realmente toma
to cienciométrico por medio de la herra- fuerza y viene teniendo un crecimiento
mienta bibliográfica SCOPUS, un índice significativo, pasando de 646 resultados en
bibliográfico que contiene una colección 2012 a 7508 resultados en 2015. Para el
representativa, completa y multidisciplinar 2016 se presentan los resultados corres-
a nivel mundial. La segunda estrategia pondientes a los cuatro primeros meses del
comprende el análisis de algunos trabajos año.
particulares referentes al soporte y estruc- Como se aprecia en la Fig. 2, si se revi-
tura conceptual de la temática abordada. sa según el tipo de recurso, se ve una mar-
Estos fueron seleccionados y clasificados cada tendencia hacia los artículos de confe-
por medio de la herramienta ToS (Tree of rencia, con un total de 9.493 resultados.
Science), desarrollada en la Universidad Los artículos científicos muestran 4.824
Nacional de Colombia. A continuación, se resultados, mientras que los capítulos de
detallarán cada una de las estrategias y se libro y los libros solo despliegan 388 y 88
mostrarán los resultados obtenidos. resultados respectivamente, lo anterior
ratifica la etapa naciente en que se encuen-
2.1 Primera estrategia de exploración tra este campo de estudio, puesto que sus
bases teóricas apenas se están consolidan-
SCOPUS es una de las más grandes ba- do.
ses de datos de resúmenes y citas de litera- Revisando los resultados agrupados por
tura revisadas por pares, contienen artícu- país de publicación, se puede ver una con-
los de revistas científicas, libros y artículos centración en Estados Unidos y China
de congresos, posibilitando tener una vi- como se aprecia en la Fig. 3. En los países
sión global de la producción académica e europeos se encuentra un número también
investigativa en campos de la ciencia, tec- significativo de trabajos, mientras que en
nología, medicina, artes y humanidades Sur América, Oceanía y África, el desarro-
[6]. Además, esta herramienta permite llo de investigaciones en el campo es aún
clasificar, refinar y analizar de forma ágil incipiente.

TecnoLógicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploración de investigaciones, tecnologías y casos de aplicación

Fig. 1. Número de artículos publicados por año, periodo 2010 – 2016. Fuente: Autores.

Fig. 2. Número de documentos según el tipo de recurso Fuente: Autores.

Fig. 3. Número de documentos según el país de publicación. Fuente: Autores.

TecnoLógicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploración de investigaciones, tecnologías y casos de aplicación

2.2 Segunda estrategia de exploración Para el caso particular, se usaron los si-
guientes parámetros para la búsqueda:
Como segunda estrategia se hizo un
análisis detallado de algunos documentos, - Palabras de búsqueda: “Big Data”
utilizando para su selección y clasificación - Restricción de años: 2010-2016
una herramienta desarrollada desde el - Categoría de Web of Science: computer
Grupo de Investigación en Ambientes Inte- science information systems
ligentes Adaptativos – GAIA – y como par- - Tipo de documento: documentos científi-
te de una tesis doctoral en la Universidad cos
Nacional de Colombia – Sede Manizales.
La herramienta llamada ToS (Tree of Se hizo la búsqueda en el índice biblio-
Science) [7], funciona en la web y se puede gráfico Web of Science (índice con el cual
acceder a ella a través del enlace trabaja la herramienta ToS) y se obtuvo un
http://tos.manizales.unal.edu.co/. total de ciento setenta y cuatro (174) ar-
Los resultados que brinda la herra- tículos para los parámetros de búsqueda. A
mienta son construidos a partir de la utili- partir del análisis de este grupo de artícu-
zación de una serie de algoritmos de redes los y de las referencias citadas en los mis-
complejas, los cuales optimizan los resul- mos, la herramienta ToS hizo el respectivo
tados de la búsqueda y selección de docu- refinamiento y retornó diez artículos con-
mentos científicos publicados. Esta herra- siderados raíz, en el tronco se clasificaron
mienta clasifica los documentos en “raíz”, otros diez y setenta artículos fueron ubica-
“tronco” y “ramas” a partir de la lista de dos en las ramas, como se aprecia en la
trabajos encontrados. Los documentos raíz Fig. 4. Cabe aclarar que en este documento
hacen referencia a las investigaciones que no se reportará la totalidad de los artículos
dan soporte al enfoque o temática abarca- arrojados por la herramienta, se ha reali-
da, los documentos tronco son aquellos que zado una selección de los documentos que
dan estructura al tema y los documentos cubren la temática, permitiendo tener una
rama son las perspectivas y tendencias. visión general del estado del arte y de las
tendencias y campos de trabajo.

Fig. 4. Estructura del árbol de la ciencia generado por la herramienta ToS.


Fuente: Generado en http://tos.manizales.unal.edu.co/

TecnoLógicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploración de investigaciones, tecnologías y casos de aplicación

Seguidamente, se presenta un recuento ye el impacto de las máquinas lentas, pér-


de cinco de los documentos clasificados dida de datos y fallos de máquina.
como raíz del enfoque, la selección de los Otra de las bases de Big Data es la
documentos presentados en este escrito se computación en la nube o cloud computing
hace después del análisis por parte de los logrando que los desarrolladores ya no
autores de la totalidad de los documentos requieran de grandes inversiones en hard-
raíz e identificando los más relevantes. ware, la elasticidad de recursos sin necesi-
Retomando lo anteriormente menciona- dad de pagar por servicios Premium de
do, los documentos raíz corresponden a gran escala es un hito fundamental en la
investigaciones o aportes que dan soporte a historia de las tecnologías de la informa-
la temática. Dos de los artículos correspon- ción. Cloud computing se convirtió en un
den a revisiones acerca de tecnologías que tema popular y objeto de artículos, works-
permitieron y dieron pie al nacimiento de hops, conferencias y revistas. Se auguró el
la tendencia Big Data: la computación en crecimiento de cloud computing indepen-
la nube y el paradigma de programación dientemente de si los servicios adquiridos
Map Reduce. Los dos documentos siguien- son a bajo o alto nivel de abstracción. Se
tes corresponden a dos libros, el primero afirma que el almacenamiento, cómputo y
concebido por la empresa IBM, en el que se las redes deben concentrarse en la escala-
analiza Big Data desde una perspectiva bilidad horizontal de los recursos virtuali-
empresarial y una perspectiva tecnológica, zados en lugar del rendimiento de un solo
cabe señalar que IBM es una de las com- nodo. Se planteó la necesidad de que las
pañías que provee soluciones Big Data a aplicaciones de software tuviesen una rá-
nivel empresarial. El segundo es una Guía pida escalabilidad y que los sistemas de
de Hadoop, donde se describen los concep- hardware fuesen diseñados a escala de
tos asociados a este paradigma, se habla contenedor [9].
del modelo MapReduce, de otras herra- Big Data surge como una nueva era en
mientas Big Data y se presentan algunos la exploración y utilización de datos. Desde
casos de estudio donde se ha aplicado Ha- la perspectiva empresarial Big Data no
doop. Finalmente, se toma un informe representa solo grandes volúmenes de
producto de los puntos de vista recogidos datos, se deben considerar los patrones
por el autor en un evento de exploración de extraídos a partir de los datos y que pue-
Big Data e inferencia de software. den generar procesos de innovación. Desde
Map Reduce [8] es un modelo de pro- la perspectiva tecnológica se presenta Ha-
gramación asociado a las implementacio- doop como la principal herramienta desa-
nes que requieren procesamiento y genera- rrollada para el tratamiento de Big Data,
ción de grandes bases de datos. Los cómpu- incluyendo el manejo de sistemas de archi-
tos se hacen en términos de una función de vos distribuidos y el paradigma de progra-
mapeo y otra de reducción y el cálculo se mación Map Reduce. En la primera parte,
hace de forma paralelizada. Los autores correspondiente a la perspectiva empresa-
muestran Map Reduce como un modelo que rial, se presenta una comparación entre las
facilita el trabajo con sistemas paralelos y soluciones Big Data y las soluciones tradi-
distribuidos, ya que oculta detalles de pa- cionales de Datawarehouse. Sin querer
ralelización, tolerancia a fallos, optimiza- buscar una ganadora, se expone la ventaja
ción y balance de carga. Es necesario opti- de usar Datawarehouse cuando se trata de
mizar los recursos de red cuando se trabaja analizar datos estructurados que vienen de
con Map Reduce, por ello es bueno leer los varios sistemas y de mediciones relativa-
datos desde discos locales y reducir la can- mente estables. Respecto a las plataformas
tidad de datos enviados a través de la red. basadas en Hadoop, funcionan bien con
También la ejecución redundante disminu- datos semiestructurados y desestructura-

TecnoLógicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploración de investigaciones, tecnologías y casos de aplicación

dos, así como también cuando se requiere videocámaras, monitores de tráfico, má-
de procesos de descubrimiento de datos quinas de resonancia magnética, sensores
[10]. químicos y biológicos y sensores de monito-
Partiendo de la necesidad de almace- reo ambiental, se han generado nuevos
namiento y análisis de los datos se desarro- flujos de datos digitales. Así mismo, las
lla el ecosistema Hadoop, los sistemas de personas a través de sus teléfonos celula-
archivos distribuidos, el desarrollo de apli- res, computadores personales, sitios web y
caciones con MapReduce, el lenguaje de otro tipo de dispositivos digitales generan
consultas Hive y otras herramientas como grandes flujos de datos personales. Lo
HBase, ZooKeeper y Sqoop. En [11] se anterior deja ver que Big Data presenta
presenta una guía completa, tanto de for- oportunidades incalculables para la formu-
ma conceptual como con ejemplos de apli- lación de investigación científica, acelera la
cación de Hadoop y de varias herramientas innovación y puede ayudar a mejorar ám-
asociadas a este. Uno de los casos estudia- bitos que van desde la salud hasta el Go-
dos es el de Hadoop y Hive para Facebook. bierno. También se abren nuevas oportu-
Facebook inicialmente usaba data wa- nidades de negocio porque surgen meca-
rehousing sobre una instancia Oracle, sin nismos que permiten entender las dinámi-
embargo, con su crecimiento se tuvo que cas de negocio en tiempo real, como el
pensar en nuevas alternativas, Hadoop fue comportamiento de los consumidores, las
atractiva porque ya se usaba en Yahoo actividades de vida nocturna, los mercados,
para procesamientos internos y usaba el entre otros. Cabe anotar que Big Data
modelo MapReduce popularizado por Goo- presenta también retos y peligros, ya que
gle. las tecnologías de datos son cada vez más
El crecimiento de los datos, como la ex- penetrantes, intrusivas y difíciles de en-
plosión de las redes móviles, la compu- tender.
tación en la nube y las nuevas tecnologías A manera de resumen de los principales
son descritas en [12]. Esto ha dado un documentos considerados raíz, en la Tabla
aumento al incomprensible mundo de la 1 se presenta una síntesis de estos.
información, que se suele describir como Los documentos ubicados en el tronco,
Big Data. Este informe captura los puntos son aquellos que dan estructura a la temá-
de vista recogidos durante un evento de tica o campo de estudio, hacen referencia a
exploración de temas de Big Data e infe- estudios de revisión frente a los avances,
rencia de software. Las compañías que han desafíos y perspectivas de Big Data y tec-
sido pioneras en el uso de analíticas pro- nologías asociadas, estos son presentados a
fundas sobre grandes bases de datos han continuación. En este caso también se optó
sido las que operan sobre internet, como por presentar los cinco documentos que
son los motores de búsqueda, los sitios de después de la revisión por parte de los
redes sociales y los sitios de comercio en autores son considerados los más relevan-
línea. Sin embargo, el desarrollo de nuevos tes.
tipos de sensores remotos como telescopios,

TecnoLógicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploración de investigaciones, tecnologías y casos de aplicación

Tabla 1. Síntesis de los principales documentos raíz. Fuente: Autores.

Dimensión,
Autores - Tipo de campo o
Título Síntesis del documento
Año documento herramienta
analizado
Map Reduce es uno de los enfoques que se mues-
Dean, J. tra como base sólida de las soluciones Big Data, ya
MapReduce: simpli- Artículo en que desde el paradigma de distribución de proce-
Ghemawat,
fied data processing revista MapReduce
S. samiento se pueden afrontar problemas de trata-
on large clusters científica
2008 miento de grandes volúmenes de datos que las
herramientas tradicionales no soportan.
Cloud computing, o computación en la nube es una
tendencia que logró virtualizar procesos que
Armbrust, Artículo en requerían de grandes inversiones en hardware, las
A view of cloud Cloud Compu-
M. et al. revista cuales no siempre podían ser afrontadas por las
computing ting
2010 científica organizaciones. Con ello se ha permitido también,
que el crecimiento de los datos y su procesamiento
se pueda escalar.
Tomando dos perspectivas, la empresarial y la
tecnológica se analiza Big Data y se concluye que
Understanding Big se debe realizar un análisis previo a la implemen-
Perspectivas tación de soluciones desde este enfoque, puesto
Zikopoulos, Data: Analytics for
Big Data:
P. et al. Enterprise Class Libro que según el tipo de datos que se manejen, las
Empresarial,
2011 Hadoop and Stream- soluciones tradicionales pueden seguir siendo más
tecnológica
ing Data eficientes respecto a las que implementan Hadoop
o procesamiento distribuido, en otras ocasiones lo
indicado es tener una solución mixta.
Se presenta todo el ecosistema Hadoop, tecnolo-
gías de almacenamiento, procesamiento y análisis
White, T. Hadoop: The Defini- Ecosistema de datos adaptadas a diferentes tipos de datos.
Libro
2011 tive Guide Hadoop Desde esta guía se presentan casos de éxito de
soluciones Big Data desde lo conceptual y aplica-
das a casos de estudio.
El mundo presenta una tendencia cada vez más
marcada hacia la generación de datos. Ya sea
desde la interacción de las personas con las nue-
Bollier, D. The Promise and Analíticas Big vas tecnologías, las mediciones de variables del
Informe
2010 Peril of Big Data Data entorno o los flujos de datos personales. Todas
estas fuentes de datos se convierten en posibilida-
des de investigación científica e innovación em-
presarial.

En [13] se presenta Big Data, sus apli- rentes campos científicos, como la astro-
caciones, las oportunidades y desafíos de nomía, la meteorología, la bioinformática y
estas tecnologías, así como también técni- la biología computacional. Dichos campos
cas de última generación que se han adop- basan gran parte de su descubrimiento
tado para hacer frente a los problemas de científico en el análisis de grandes volúme-
Big Data. Se discuten algunas metodolo- nes de datos. Otro de los aportes significa-
gías utilizadas para tratar cantidades con- tivos, es la descripción de los principios
siderables de datos como es la computación para el diseño de sistemas Big Data. Estos
granular, la computación en la nube, la son: (1) Buenas arquitecturas y frame-
computación bio-inspirada y la compu- works son necesarios y de alta prioridad.
tación cuántica. Destacan el papel que han (2) Soportar una variedad de métodos ana-
jugado los datos como promotores de dife- líticos. (3) No hay un tamaño definido para

TecnoLógicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploración de investigaciones, tecnologías y casos de aplicación

todo. (4) Conducir el análisis de los datos. ponen las siguientes: contenidos generados
(5) El procesamiento debe ser distribuido. por usuarios, estos vienen de aplicaciones
(6) El almacenamiento de los datos debe que cuentan con usuarios masivos, por
ser distribuido. (7) Es necesaria una coor- ejemplo tweets o blogs; datos transacciona-
dinación entre las unidades de procesa- les, son generados por sistemas masivos
miento y de datos. que procesan transacciones y operaciones
En [4] se revisan algunas de las tecno- como por ejemplo lectores de radio frecuen-
logías relacionadas a Big Data como cia, transacciones empresariales, entre
computación en la nube, Internet de las otras; datos científicos, estos son produci-
cosas, centros de datos y Hadoop. También dos por aplicaciones o experimentos de
se mencionan las fases de la cadena de datos-intensivos, por ejemplo datos del
valor de Big Data y finalmente se exami- genoma o datos de asistencia sanitaria;
nan algunos casos de aplicación como ges- datos web, provienen de los procesos que
tión empresarial, internet de las cosas, soportan aplicaciones web como búsquedas
redes sociales, aplicaciones médicas, inteli- y minería, también de los billones de pági-
gencia colectiva y redes eléctricas inteli- nas web que existen; Grafos de datos, co-
gentes. En cuanto a las fases de Big Data, rresponden a un enorme número de nodos
se definen cuatro principales: generación, de información y las relaciones entre estos
adquisición, almacenamiento y análisis de nodos. Adicionalmente, se habla de la
datos. Los autores afirman que, sin tratar reducción de Big Data, entendida como la
de predecir el futuro, el panorama de Big reducción de las cantidades exorbitantes a
Data se concentrará en: datos con escalas y los segmentos significativos, se presentan
diversidad cada vez mayores y estructuras técnicas como machine learning y el proce-
mucho más complejas, la necesidad de samiento paralelo masivo para este fin.
rendimiento de los recursos de datos, Big Es importante también, tener en cuenta
Data promoverá la fusión transversal de la cómo en el área de la industria y los nego-
ciencia, tendrá grandes retos de visualiza- cios se ha presentado una explosión en el
ción de datos y una orientación a los datos número de datos, causada principalmente
cada vez más marcada. A su vez, se pre- por el rápido desarrollo del internet, nue-
sentan los desafíos de Big Data, estos re- vos conceptos como el internet de las cosas
quieren de un esfuerzo investigativo y son y la computación en la nube. Big data se ha
agrupados en las siguientes categorías: constituido como un “tópico caliente” que
investigación teórica, desarrollo tecnológi- atrae la atención no solo de la industria,
co, implicaciones prácticas y seguridad de sino también de la academia y del Go-
datos. bierno. Los autores presentan desde dife-
Desde una perspectiva de la adminis- rentes perspectivas el significado y las
tración de los datos, en [14] se presenta oportunidades que nos brinda el ecosiste-
una discusión acerca de la diversidad de ma Big Data y dan una serie de condicio-
Big Data, las necesidades de integración y nes necesarias para que un proyecto de Big
limpieza, las consultas e indexación y fi- Data sea exitoso. En primer lugar, se de-
nalmente la minería y análisis sobre Big ben tener claros los requerimientos inde-
Data. El inicio de Big Data va directamen- pendientemente de si son técnicos, sociales
te relacionado con el crecimiento de los o económicos. En segundo lugar, para tra-
datos generados por la sociedad. Estos bajar de forma eficiente con Big Data se
datos suelen caracterizarse por su hetero- requiere explorar y encontrar la estructura
geneidad y por la variedad de fuentes des- central o el kernel de los datos a ser proce-
de las cuales provienen, sin embargo, se sados, ya que al tener esto se puede carac-
pueden clasificar estas fuentes de acuerdo terizar el comportamiento y las propieda-
con donde son generadas. Los autores pro- des subyacentes a Big Data. En tercer

TecnoLógicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploración de investigaciones, tecnologías y casos de aplicación

lugar, se debe adoptar un modelo de admi- en una estructura de tres niveles. La parte
nistración top-down, se puede considerar central, la "plataforma de minería de Big
también un modelo bottom-up, sin embar- Data" (nivel I), que se enfoca en el acceso a
go, solo serviría cuando se trata de proble- los datos de bajo nivel y computación. Los
mas específicos, y luego tratar de unirlos desafíos en el intercambio de información y
para formar una solución completa es com- la privacidad, los dominios de aplicación de
plejo. Por último, los autores exponen la Big Data y el conocimiento forman el nivel
necesidad de abordar desde los proyectos II, que se concentra en la semántica de alto
Big Data soluciones integradas, no con nivel, las aplicaciones de dominio de cono-
esfuerzos aislados [15]. cimiento y los problemas de privacidad del
Los retos que se desprenden del consu- usuario. Ya en el nivel III se presentan los
mo y creación de información a través de la desafíos en los actuales algoritmos de mi-
red incluyen necesidades de captura, ma- nería.
nejo y procesamiento de grandes volúme- Cabe resaltar, que los documentos con-
nes de datos. En [16] los autores proponen siderados tronco, para este caso, corres-
un teorema llamado “HACE” (Heteroge- ponden a revisiones del estado del arte en
neous, Autonomous, Complex y Evolving), Big Data. En la Tabla 2 se presenta una
con el cual buscan describir las caracterís- síntesis de los mismos.
ticas de la revolución de Big Data. El teo- En la exploración se encontró que el
rema plantea la existencia de un gran termino Big Data ha tenido gran acogida
volumen de datos heterogéneos y prove- en la comunidad, representado esto en el
nientes de fuentes autónomas con control surgimiento de tecnologías, técnicas y en-
distribuido y descentralizado, y que trata foques.
de explorar relaciones complejas y cam- Sin embargo, se presenta aún una mar-
biantes entre los datos. Los autores plan- cada tendencia hacia los aportes de tipo
tean que hay un gran desafío para descu- conceptual, son pocos los resultados y ha-
brir conocimiento útil desde Big Data. La llazgos que permitan realmente vislumbrar
heterogeneidad se refiere a los diferentes de forma tangible sus beneficios frente a
tipos de representaciones para los mismos otras tendencias o tecnologías tradiciona-
individuos, y la diversidad de característi- les. Los trabajos se concentran, en su gran
cas se refiere a la variedad a la hora de mayoría, en asociar Big Data a grandes
representar cada observación particular. volúmenes de datos o a la distribución de
Las fuentes de datos autónomas con con- procesamiento. En el primer caso, no es
trol distribuido y descentralizado son, se- claro cuál es la cantidad de datos que per-
gún los autores, la principal característica mite esta calificación; y para el segundo, no
de las aplicaciones de Big Data. Al ser hay coincidencia en determinar para qué
autónomas, cada fuente de datos tiene la tipo de datos el procesamiento distribuido
capacidad de generar y recopilar informa- consigue mejores resultados. La volatilidad
ción sin la participación de un ente de con- y variabilidad aún no reciben la atención
trol centralizado. Se plantea, además, que necesaria. Con lo anterior, se ratifica que
un marco de trabajo para el procesamiento existen numerosos vacíos conceptuales y
de Big Data presenta ciertos desafíos de tecnológicos en los cuales se pueden plan-
investigación, los cuales se pueden reunir tear trabajos investigativos y prácticos.

TecnoLógicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploración de investigaciones, tecnologías y casos de aplicación

Tabla 2. Síntesis de los documentos tronco. Fuente: Autores


Autores Tipo de Referencias
Título Síntesis del documento
- Año documento revisadas
Presentan Big Data como el inicio de una era de inno-
Chen, P. Data-intensive applica- vación, competitividad, productividad y revolución
Zhang, tions, challenges, Artículo en científica. El principal aporte del documento se encuen-
C. techniques and technol- revista 207
tra en el detalle que realizan de diferentes herramien-
2014 ogies: A survey on Big científica
Data tas y técnicas potenciales para resolver los problemas
de Big Data desde cada una de sus fases
La revisión se concentra en las cuatro fases de valor de
Chen, Big Data: generación, adquisición, almacenamiento y
M. Artículo en análisis de datos. Introduciendo en cada fase una
Mao, S. Big Data: A Survey revista 156 exploración general, técnicas y últimos avances. Tam-
Liu, Y. científica bién se presentan a aplicaciones de Big Data en campos
2014 como el empresarial, salud y medicina, internet de las
cosas (IoT) y redes sociales
Se hace una revisión corta enfocada a los cuatro pasos,
que según los autores y según una perspectiva de
administración de datos, se deben considerar en Big
Chen, J. Big data challenge: a Artículo en Data, estos pasos son: integración, reducción, consulta e
et al data management revista 36
indexación y análisis y minería. Se clasifican las fuen-
2013 perspective científica
tes de datos en: contenidos generados por usuarios,
datos transaccionales, datos científicos, datos web y
grafos de datos
Se hace una breve revisión de las oportunidades e
importancia de Big data, pero se enfatiza en cómo hacer
un proyecto de Big Data exitoso. Para ello, se da una
Jin, X. Significance and Chal- Artículo en serie de recomendaciones, como tener claridad en los
et al lenges of Big Data revista 21
requerimientos, encontrar el centro de los datos a
2015 Research científica
procesar, caracterizar el comportamiento y propiedades
del problema, ya que cada dominio de datos es específi-
co
Consideran Big Data como una tendencia emergente y
la minería de datos sobre Big Data como una necesidad
Wu, X. Artículo en en todos los campos de la ciencia y la ingeniería. Los
Data Mining with Big
et al revista 57 autores consideran que las tecnologías de Big Data
Data
2014 científica pueden permitir la detección de información más
relevante y precisa para entender la sociedad en tiempo
real

3. TRATAMIENTO DE BIG DATA hacen parte de la búsqueda inicial en Sco-


pus y otros son fuentes adicionales consul-
Como se ha venido comentando, el tra-
tadas por los autores para ampliar el tema
tamiento de Big Data ha exigido el desa-
y cubrir el objetivo de brindar una visión
rrollo de soluciones computacionales que
del estado del arte referente a la temática
permitan afrontar las necesidades y retos
abordada.
que traen consigo los grandes volúmenes
de datos, su variedad de fuentes y la velo-
3.1 Tecnologías Big Data
cidad con que se generan.
A continuación, se da una breve des- Como tecnologías de Big Data se clasifi-
cripción de algunas tecnologías y técnicas can aquellas que dan soporte a la captura,
de Big Data, los artículos referenciados en transformación, procesamiento y análisis
esta sección comprenden algunos de los de los datos, ya sean estructurados, semi-
documentos “ramas” encontrados en la estructurados o no estructurados. Segui-
exploración con la herramienta ToS, otros damente, en la Fig. 5, se muestran las

TecnoLógicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploración de investigaciones, tecnologías y casos de aplicación

tecnologías de Big Data que se revisarán duce, framework que permite al desarro-
en este documento. Se decide presentar llador aislarse de la programación parale-
estas tecnologías ya que son software de la, permite ejecutar programas escritos en
libre uso y que permite la generación de lenguajes de programación conocidos (p.e
soluciones de Big Data de acuerdo con las Java) en el clúster de Haddop. El HDFS
necesidades particulares de un dominio de cuenta con tres pilares básicos. Namenode,
datos u organización. Cabe aclarar que se ocupa del control de acceso y tiene la
existen un mayor número de tecnologías información sobre la distribución de datos
que soportan Big Data, tanto libres como en el resto de nodos. Datanodes, son los
propietarias, pero para efectos de este encargados de ejecutar el cómputo, es de-
documento se ha acotado de acuerdo con lo cir, las funciones Map y Reduce, sobre los
anteriormente expuesto y tomando las datos almacenados de manera local en
tecnologías que dieron las bases iniciales al cada uno de dichos nodos. Jobtracker, este
ecosistema Big Data. nodo se encarga de las tareas y ejerce el
control sobre la ejecución del proceso de
Hadoop MapReduce. Además, el HDFS cuenta con
las siguientes características fundamenta-
Hadoop es una librería de Apache defi- les:
nida como un framework que permite ha-
cer procesamiento de datos distribuido - Tolerancia a fallos
sobre volúmenes de datos de considerable - Acceso a datos en streaming
tamaño sobre clúster. Está diseñado pen- - Facilidad para el trabajo
sando en brindar poder de escalamiento - Modelo sencillo de coherencia
desde un par de servidores hasta cientos de - Portabilidad de convivencia
máquinas o nodos, las cuales manejan
almacenamiento y procesamiento local Varios trabajos donde se ha tomado
[17]. Hadoop como base y se ha potencializado
Hadoop cuenta con dos componentes algunas de sus características o se ha fu-
principales, el HDFS, sistema de archivos sionado con otra herramienta o tecnología.
distribuidos que permite distribuir los Ejemplos de esto se pueden encontrar en
ficheros en distintas máquinas y MapRe- [18]–[20].

Fig. 5. Tecnologías Big Data. Fuente: Autores.

TecnoLógicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploración de investigaciones, tecnologías y casos de aplicación

MapReduce - Localización de los datos


- Herramientas de monitorización
MapReduce es un modelo de programa-
ción que se ha asociado también a la im- Este paradigma ha sido implementado
plementación de estrategias de procesa- en numerosas aplicaciones, algunos ejem-
miento de grandes conjuntos de datos que plos se pueden encontrar en los siguientes
puede ser aplicado a una gran variedad de documentos, todos se caracterizan por el
tareas del mundo real [8]. Este modelo de uso de MapReduce como base de su imple-
programación fue utilizado inicialmente mentación. En [22] se presenta una he-
por Google para resolver el problema de rramienta para el análisis de producción
ranking de páginas (“Page Rank”). El mo- mediante simulaciones a gran escala, en
delo se basa en los siguientes conceptos: [23] se introduce una estrategia para la
iteraciones sobre los datos de entrada, extracción de patrones significativos a
construcción de los pares clave-valor a partir de textos de fecha y hora, por su
partir de cada pieza de entrada, agrupa- parte en [24] se muestra la implementa-
ción de los valores intermedios de acuerdo ción paralela de redes neuronales multica-
con las claves, iteración sobre los grupos pa sobre cloud computing clusters, en [25]
resultantes y reducción de cada grupo [21]. se evalúa MapReduce para la realización
En la Fig. 6 se presenta el esquema de un de minería de texto en información biomé-
proceso MapReduce y seguidamente, se dica y en [26] se reporta la utilización del
hace una descripción de cada una de fases paradigma para la construcción de un sis-
que involucra. tema de recomendación de artículos consi-
Mapeo: se aplica en paralelo para cada derado como un problema dentro del alcan-
uno de los ítems en la entrada de datos. ce de las soluciones de Big Data. Como se
Por medio de la tarea de mapeo (Map) a puede apreciar, son variados los campos de
cada llamada se asignará una lista de pa- dominio y problemáticas que pueden ser
res clave-valor (key-value). Por cada clave abordadas mediante la adopción de
generada se crea un grupo, el framework MapReduce para la simplificación de com-
agrupa todos los pares con la misma clave plejos.
extraídos de todas las listas tratadas.
Reducción: se aplica en paralelo para el HBase
grupo asociado a una clave. El resultado es
la producción de una colección de valores Es una base de datos Hadoop, distri-
para cada dominio. buida y escalable. HBase ha sido desarro-
Distribución y ordenamiento: tiene dos llada por Apache y se recomienda su uso
misiones, por una parte, se encarga de cuando se necesita acceso a lectura y escri-
ordenar por clave todos los resultados emi- tura de datos en tiempo real sobre Big
tidos por los mapper y por otra parte reco- Data. El objetivo de HBase es el almace-
ge todos los valores intermedios pertene- namiento de tablas de gran tamaño, con
cientes a una clave para combinarlos en billones de filas por millones de columnas
una lista asociada a ella. [27]. Esta base de datos no relacional fue
Las características de MapReduce se modelada después de Bigtable de Google
resumen a continuación: [28], es open source, distribuida y versio-
nada. HBase provee capacidades similares
- Distribución y paralelización a Bigtable sobre Hadoop y HDFS. Algunas
automáticas de sus principales características son:
- Tolerancia a fallos y a redundancias
- Transparencia
- Escalabilidad horizontal

TecnoLógicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploración de investigaciones, tecnologías y casos de aplicación

- Escalabilidad modular y linear dra ofrece un modelo de datos que cuenta


- Estricta consistencia de lectura y con comodidad para la indexación de co-
escritura lumnas, soporte a la desnormalización y
- Facilidad de uso de la API de Java para materialización a las vistas y un poderoso
el acceso de clientes almacenamiento en caché integrado. Es un
- Bloqueo de la caché para consultas en sistema de almacenamiento distribuido con
tiempo real un modelo de datos que soporta un control
- Soporte de para exportar métricas a dinámico sobre el diseño y el formato de los
través del subsistema de métricas de datos [30]. Algunos de los principales atri-
Hadoop butos de Cassandra son:

Cassandra - Tolerancia a fallos, por medio de la


replicación automática de los datos en
La base de datos Cassandra, propiedad múltiples nodos
de Apache, brinda escalabilidad y alta - Descentralización, uso de muchos nodos
disponibilidad sin comprometer el rendi- idénticos, sin cuellos de botella en la res
miento. Se considera una plataforma ideal - Durable, diseñada para evitar la
para tratar problemas de datos críticos, pérdida de datos
puesto que cuenta con escalabilidad lineal - Elasticidad, capacidad de añadir nuevas
y la tolerancia a fallos en el hardware o en máquinas para aumentar el
la infraestructura en la nube [29]. Cassan- rendimiento de lectura y escritura

Fig. 6. Esquema general de los procesos MapReduce. Fuente: Autores

TecnoLógicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploración de investigaciones, tecnologías y casos de aplicación

Mahout mentados en Mahout, resumiéndolos en la


Tabla 3, la cual se presenta a continuación.
Mahout es un proyecto de Apache que
tiene como objetivo ofrecer un ambiente Técnicas Big Data
para la creación rápida de aplicaciones de
aprendizaje máquina escalables y eficien- En cuanto a técnicas de Big Data, se
tes [31]. Mahout ofrece una suite de algo- dará una breve introducción, cabe aclarar
ritmos para clustering, categorización, que existen diferentes clasificaciones y que
filtrado colaborativo, clasificación y pro- muchas de estas técnicas se aplican tanto
gramación evolutiva. Algunas de sus prin- en soluciones Big Data como en otros enfo-
cipales aplicaciones prácticas se enmarcan ques. En [34] se presenta una clasificación
en la realización de clúster de documentos, de las técnicas de Big data en técnicas
recomendaciones y organización de conte- estadísticas, métodos de optimización,
nidos [32]. El machine learning o aprendi- minería de datos, técnicas de machine
zaje máquina es el trasfondo principal de learning (aprendizaje máquina), técnicas
Mahout y corresponde a un subcampo de la de clasificación y Clustering y técnicas de
inteligencia artificial que se centra en el análisis y regresión. Para efectos de este
mejoramiento de procesamientos compu- documento se describen, sin entrar en
tacionales a partir del análisis de experien- detalle, la minería de datos, el aprendizaje
cias previas. Mahout desde su aparición ha máquina, el reconocimiento de patrones,
seguido siendo un proyecto en desarrollo, los algoritmos genéticos y las reglas de
crecimiento y expansión. Grant Ingersoll asociación.
en [33] presenta una descripción de algu-
nos de los más recientes algoritmos imple-

Tabla 3. Algunos algoritmos en Mahout. Fuente: Tomado y adaptado de [33].


Algoritmo Descripción breve Aplicaciones
Regresión logística, resuelta Clasificador brillante, rápido, simple y secuencial, capaz Recomendación de publicidad,
por gradiente estocástico de aprendizaje on-line en entornos exigentes clasificación de textos
descendiente (SGD)
Implementaciones secuenciales y paralelas del algoritmo Etiquetado de texto, reconoci-
Modelos ocultos de Markov clásico de clasificación diseñado para modelar procesos miento del discurso
(HMM) del mundo real cuando el proceso de generación subya-
cente es desconocido
Diseñado para reducir el ruido en matrices grandes, Clasificación para realizar selec-
Descomposición de valor
haciendo con esto que sean más pequeñas y que sea más ción de recursos automáticamen-
singular (SVD)
fácil trabajar con ellas te
Enfoque de almacenamiento en clúster basado en mode- Almacenamiento en clúster para
Almacenamiento en clúster
lo, que determina la propiedad con base en si los datos se datos con sobreposición o jerar-
Dirichlet
ajustan al modelo subyacente quía
Es una familia de enfoques similares que usa un enfoque Almacenamiento en clúster para
Almacenamiento en clúster
basado en gráficas para determinar la membresía a conjuntos de datos grandes y no
espectral
clúster vistos
Almacenamiento en clúster Utiliza una estrategia de hash para agrupar elementos Clúster
Minhash similares, produciendo así clústeres
Co-ocurrencia distribuida, SVD, mínimos cuadrados Recomendaciones en sitios de
Numerosas mejoras de
alternantes citas, e-commerce, recomendacio-
recomendador
nes de películas o de libros
Implementación de colocación reducida por correlacio- Encontrando frases estadística-
Colocaciones
namiento mente interesantes en texto

TecnoLógicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploración de investigaciones, tecnologías y casos de aplicación

Minería de Datos Los algoritmos de aprendizaje máquina se


clasifican en supervisados y no supervisa-
La minería de datos (data mining - DM) dos.
se puede definir como el proceso de extrac-
ción de conocimiento a partir de cúmulos Reconocimiento de patrones
de datos. Se suele utilizar el término mine-
ría de datos como sinónimo de descubri- El reconocimiento de patrones (Pattern
miento de conocimiento, pero realmente no Recognition) es una técnica que se aplica
son sinónimos, la minería de datos es solo principalmente en procesos de ingeniería,
un paso en el proceso de descubrimiento de computación y matemáticas que tiene como
conocimiento [35]. La minería de datos objetivo extraer información, a partir de un
nace de la necesidad de conocer informa- cúmulo de datos, que brinde la posibilidad
ción útil a partir de los bases de datos o de establecer propiedades o relaciones
Datawarehouse, con el crecimiento de los entre estos datos. En el procesamiento de
datos disponibles, la inteligencia de nego- patrones generalmente se usan algoritmos
cios tuvo que dar paso a la aplicación de la de optimización, puesto que su intención es
minería de datos en soluciones empresaria- hallar una mejor solución respecto a un
les y comerciales, puesto que de esta ma- criterio definido, teniendo en cuenta que
nera se permite el descubrimiento automá- un proceso de optimización es una situa-
tico o semiautomático de información rele- ción que requiere elegir desde un conjunto
vante a partir de estos cúmulos de datos. de alternativas, la que lleve al fin requeri-
En las ciencias y la ingeniería existe un do con el costo mínimo [44].
amplio rango de problemas y dominios de
aplicación para la minería de datos [36]. Algoritmos genéticos
Se encuentran soluciones a partir de mine-
ría de datos para problemas de los campos Los algoritmos genéticos (genetic algo-
de mercadeo, comercio, salud, predicción, rithms - GA) son una técnica aplicada en la
transporte, meteorología, entre otros. ingeniería computacional, pero que parte
de la concepción biológica de la genética.
Machine learning Estos algoritmos comprenden un enfoque
que busca dar solución a diversos proble-
Aprendizaje máquina es un área de in- mas matemáticos intangibles que no han
vestigación bastante reconocida en las podido tener solución desde otros enfoques
ciencias de la computación, principalmente matemáticos tradicionales [45]. Los algo-
comprende el descubrimiento de modelos, ritmos genéticos utilizan también opera-
patrones y regularidades en los datos [37]. ciones genéticas como la mutación, recom-
El aprendizaje máquina puede ser visto binación y cruce. En [46] se definen los
desde dos enfoques, los simbólicos y los algoritmos genéticos como métodos de
estadísticos. Los primeros trabajan apren- búsqueda estocásticos diseñados para ex-
dizaje inductivo de descripciones simbóli- plorar problemas complejos, con el fin de
cas, mientras que los segundos se centran encontrar una solución óptima, general-
en los métodos de reconocimiento de patro- mente usando información propia del pro-
nes o en la estadística. En los últimos años, blema como guía de la búsqueda. Los algo-
el uso del aprendizaje máquina se ha ex- ritmos genéticos se enmarcan dentro de los
tendido con rapidez [38], se ven aplicacio- Algoritmos Evolutivos (Evolutionay Algo-
nes en dominios como detección de fraudes, rithms – EA) siendo uno de los componen-
sistemas de recomendación [39], detección tes más importantes, junto con la progra-
de spam [40], predicciones financieras [41], mación genética y las estrategias evoluti-
comercio y mercadeo [42], [43], entre otros. vas. En [47] se presentan como componen-

TecnoLógicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploración de investigaciones, tecnologías y casos de aplicación

tes esenciales de los algoritmos genéticos enfoques NoSQL (Not Only SQL). En el
los siguientes: trabajo se considera la necesidad de que
estos sistemas sigan garantizando caracte-
- Estrategia de codificación que rísticas como: escalabilidad, fiabilidad,
determina la forma en que se durabilidad, tiempos de respuesta, interfa-
representará la solución en forma de ces de consulta, esquemas de particiona-
cromosomas miento y estructura o carencia de esta. Se
- Población de cromosomas o individuos describen los modelos de almacenamiento
- Mecanismo para la evaluación de cada NoSQL: depósitos llave-valor, basado en
cromosoma documentos, tabular y orientados a grafos.
- Procedimiento de selección/reproducción Los autores afirman que los sistemas
- Operadores genéticos: cruce, mutación NoSQL se adecuan a casos en los que se
- Probabilidades para los operadores necesita atender a muchos usuarios sin
genéticos perder rendimiento, como puede pasar en
- Un criterio de finalización el caso de las redes sociales. Por su parte,
recomiendan los sistemas de bases de da-
Aprendizaje de reglas de asociación tos relacionales cuando se trata de garan-
tizar integridad referencial, se requiere el
El aprendizaje de reglas de asociación uso de conexiones entre servidores y clien-
(Association rule learning), es un método tes, consultas arbitrarias, estandarización,
para encontrar las relaciones entre varia- herramientas de análisis y pruebas de
bles en grandes bases de datos, su objetivo rendimiento.
es identificar reglas usando algunas medi- En [52] presentan la revisión de varios
das de relación de intereses, por ejemplo, aspectos relacionados con Big Data, tales
en el caso de las redes sociales, se trataría como contenido, alcance, métodos, venta-
de revisar las personas que posiblemente le jas, desafíos, ejemplos y privacidad de los
interesarían seguir a otras dependiendo de datos. La revisión realizada por los autores
sus amistades o seguidores. En el caso de muestra que incluso con las herramientas
tiendas de productos, podría ser la revisión y técnicas disponibles en la actualidad y la
de los productos que se compran juntos con literatura al respecto, existen muchos pun-
frecuencia para sugerirlos a un cliente que tos a ser considerados, desarrollados, mejo-
adquiera uno de los productos relaciona- rados y analizados. Es claro que la canti-
dos. Algunas aplicaciones del aprendizaje dad de datos ha ido en aumento, lo cual
de reglas de asociación se encuentran en exige que también las técnicas de análisis y
[48]–[50]. tratamiento de datos se hagan más compe-
titivas, el reto no es solo para recoger y
gestionar el gran volumen y diferentes
4. TENDENCIAS Y RETOS EN BIG DATA
tipos de datos, sino también para extraer
En esta sección se presenta la explora- valor significativo de estos. Se presentan
ción de algunos trabajos que presentan una como las principales barreras para la im-
visión general de las tendencias y enfoques plementación de analíticas de Big Data: la
en el desarrollo de investigaciones en el carencia de expertos en el tema de Big
campo de Big Data. Data, el costo, el manejo de la privacidad
En [51] se muestra una revisión del es- en la manipulación de los datos, la dificul-
tado del arte en cuanto a sistemas de al- tad en el diseño de sistemas de análisis, la
macenamiento para grandes volúmenes de falta de software que soporte grandes ba-
datos, incluyendo un comparativo entre los ses de datos permitiendo análisis con tiem-
Sistemas de Administración de Bases de pos de procesamiento rápido, los problemas
Datos (DBMS) tradicionales y los nuevos de escalabilidad, la incapacidad de hacer

TecnoLógicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploración de investigaciones, tecnologías y casos de aplicación

que Big Data sea utilizable por usuarios naturaleza de algunos de los algoritmos de
finales, la falta de rapidez en la carga de machine-learning son difícilmente usados
datos con los sistemas de gestión de bases en ambientes como MapReduce, por lo cual
de datos actuales y la ausencia de un mo- se requiere de su adaptación. En segundo
delo de negocio convincente y rentable en lugar, Big Data trae consigo datos “sucios”,
torno al tema. con errores potenciales, incompletos o de
En [4] los autores analizan algunas diferente precisión, la IA puede ser usada
tecnologías relacionadas con Big Data co- para identificar y limpiar estos datos su-
mo computación en la nube, internet de las cios. En tercer lugar, la visualización de los
cosas, centros de datos y Hadoop. También datos, con la IA se puede lograr incluir la
se enfocan en la discusión de los desafíos captura de capacidades de visualización de
técnicos y adelantos en cada una de las conocimiento para facilitar el análisis de
fases de Big Data: generación, adquisición, datos, un enfoque es crear aplicaciones
almacenamiento y análisis de datos. El inteligentes de visualización para determi-
análisis de Big Data tiene que afrontar nados tipos de datos. En cuarto lugar, ya
muchos desafíos, se requieren considera- que las tecnologías de almacenamiento
bles esfuerzos investigativos, los cuales se evolucionan, es cada vez más factible pro-
pueden agrupar en los problemas abiertos porcionar a los usuarios, casi en tiempo
presentados en la Fig. 7. real, análisis de bases de datos más gran-
En [53] se hace énfasis en la utilización des, lo que acelera las capacidades de toma
de técnicas de Inteligencia Artificial (IA) de decisiones.
para facilitar la captura y estructuración En [54] presentan una descripción con-
de grandes volúmenes de datos y también solidada del concepto de Big Data, partien-
cómo se han implementado para el análisis do de las definiciones dadas por profesiona-
de estos. Se presentan algunas preocupa- les y académicos del campo, como se ve en
ciones respecto a la integración de IA con la Fig. 8. Sin embargo, el artículo se con-
Big Data, que no se resuelven solo con centra en revisar los métodos de análisis
pensar en la distribución y paralelización, usados para Big Data. Se destaca que Big
sino que requieren otros análisis. Las téc- Data no tiene un verdadero sentido si solo
nicas de IA para el tratamiento de Big se trata de un gran cúmulo de datos, su
Data permiten la delegación de tareas valor potencial se desbloquea solo cuando
complejas de reconocimiento de patrones, estos datos son aprovechados para impul-
aprendizaje y otras tareas basadas en en- sar la toma de decisiones. Para ello es ne-
foques computacionales, la IA contribuye a cesario mover y dar significado a los datos,
la velocidad en la manipulación de los da- esto se puede hacer por medio de dos sub-
tos, facilitando la toma de decisiones rápi- procesos principales: la gestión y análisis
das. Por ejemplo, muchas operaciones de la de datos. La gestión de datos implica pro-
bolsa son hechas por sistemas basados en cesos y tecnologías de apoyo para adquirir,
IA en lugar de personas, la velocidad de las almacenar, preparar y recuperar los datos
operaciones puede aumentar y una para su análisis. El análisis, por su parte,
transacción puede conducir a otras. Exis- se refiere a las técnicas utilizadas para
ten varios problemas emergentes asociados adquirir inteligencia a partir de Big Data.
a la IA y Big Data, en primer lugar, la

TecnoLógicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploración de investigaciones, tecnologías y casos de aplicación

Investigación Desarrollo Implicaciones Seguridad de


teórica tecnológico prácticas datos
•Problemas •Formato de •Administración: •Privacidad de
fundamentales: conversión: la se requieren datos: esto incluye
Big Data no está heterogeneidad de muchos esfuerzos la protección de los
formal ni los datos es una para la generación datos personales
estructuralmente característica de de nuevos modelos durante la
definido y los Big Data por ello al de adquisición y
modelos existentes contar con un almacenamiento, durante el
no se verifican en formato de integración de almacenamiento,
sentido estricto. conversión más datos con múltiples trasmisión y uso;
eficiente se podrá estructuras y se requiere de
•Estandarización extraer más valor gestión de datos mayor claridad y
: se requiere un •Transferencia: distribuidos reglamentación en
sistema de este aspecto en Big •Búsqueda, este aspecto
evaluación de la Data suele ser muy minería y •Calidad de
calidad de los costoso pero análisis: es datos: la baja
datos, un estándar inevitable e necesario contar calidad de los datos
de pre- involucra la con algoritmos se ve reflejada en
procesamiento, generación, para búsqueda una pobre
simplificación y adquisición, distribuida, usabilidad de los
detección. trasmisión, sistemas de mismos. La calidad
almacenamiento y recomendación de los datos se
otras masiva, minería de refleja en la
•Evolución de los
transformaciones datos en tiempo precisión,
modos de
de los datos real, minería de integridad,
computación: la
•Rendimiento en imágenes y de redundancia y
transferencia de
tiempo real: texto, entre otros consistencia
datos se ha
convertido en un definir un ciclo de •Integración y •Mecanismos de
cuello de botella, vida y computar la procedencia: es seguridad: se
esto exige el tasa de un desafío ya que deben desarrollar
desarrollo de depreciación de los se tienen múltiples métodos de
nuevos algoritmos datos y construir patrones de datos y encriptación
de computación un modelo de un gran número de capaces de abordar
intensiva para computación en datos redundantes, la diversidad y
afrontar los datos tiempo real así como también gran escala de Big
intensivos. influirán en los los datos proceden Data
resultados de de varios datasets •Seguridad de la
análisis de Big •Aplicaciones: el información en
Data. estudio de Big las aplicaciones
•Procesamiento: Data está en una de Big Data: se
se involucran etapa inicial, por lo presentan
problemas como re- cual la necesidad oportunidades para
utilización de los de aplicaciones en el desarrollo de
datos, re- diferentes ciencias nuevos
organización y el y campos es mecanismos de
fenómeno del “data inminente. seguridad
exhaust” que trae informática, en
consigo muchos sistemas de
datos erróneos en detección de
la adquisición. intrusos, entre
otros.

Fig. 7. Problemas abiertos en Big Data. Fuente: Elaborado a partir de [4].

TecnoLógicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploración de investigaciones, tecnologías y casos de aplicación

Fig. 8. Definiciones de Big Data basadas en una encuesta en línea realizada a profesionales y académicos del campo.
Fuente: Adaptado de [54].

Los métodos de análisis de Big Data a torno a este, incluyendo el planteamiento


los que hacen referencia los autores se de varios campos de investigación que se
enfocan en los tipos de datos tratados, por encuentran abiertos, principalmente rela-
lo que se describen analíticas de texto, cionados con la optimización de los siste-
analíticas de audio, analíticas de social mas de almacenamiento para grandes
media y analíticas predictivas. Estas últi- volúmenes de datos, los cuales todavía
mas, las predictivas, se basan principal- presentan falencias en cuanto al trata-
mente en los métodos estadísticos, sin miento de distintos tipos de datos a la vez,
embargo, hay algunos factores que requie- la optimización de consultas complejas y
ren el desarrollo de nuevos métodos esta- operaciones sobre los datos.
dísticos para Big Data. En primer lugar, También se ve la diversidad de plan-
los métodos estadísticos convencionales se teamientos que presentan los autores en
concentran en una pequeña muestra de la cuanto al concepto de Big Data y las carac-
población y los resultados se generalizan a terísticas que este debe atender. Es claro
toda la población, pero para el caso de Big que el tema ha tomado un carácter de mo-
Data, las muestras son enormes y repre- da mundial y que se ha dejado de asociar
sentan la mayoría o la totalidad de la po- solo a la característica de gran tamaño. Se
blación. En segundo lugar, en términos de ven también posibilidades de explorar la
eficiencia de cómputo muchos métodos aplicación de Big Data a nuevos dominios
convencionales para muestras pequeñas no de datos, ya que actualmente se han con-
se logran escalar hasta Big Data. El tercer centrado en social media, medicina, bioin-
factor corresponde a algunos de los rasgos formática y seguridad, principalmente.
distintivos de Big Data: la heterogeneidad,
la acumulación de ruido, las falsas correla-
ciones y la endogeneidad incidental. 5. CONCLUSIONES
Los trabajos revisados en esta sección
muestran el estado actual del enfoque Big Teniendo en cuenta los objetivos plan-
Data y de las tendencias que giran en teados para la realización de esta explora-

TecnoLógicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploración de investigaciones, tecnologías y casos de aplicación

ción, el principal aporte logrado con el plean en la construcción de soluciones


artículo es la caracterización en un solo particularizadas a problemas de entornos
documento de trabajos, enfoques y herra- de investigación y producción reales.
mientas recientes relacionadas con el tér-
mino en boga Big Data, que puede servir
como referente para trabajos posteriores y 6. AGRADECIMIENTOS
para la consulta de investigadores que
deseen adelantar trabajos en el marco de Este trabajo está en el marco del pro-
los campos de estudio abiertos que se dejan yecto titulado: "Consolidación de las líneas
ver tras la exploración presentada. de investigación del Grupo de Investiga-
Este artículo se trazó como objetivo ción en Ambientes Inteligentes Adaptati-
mostrar algunos trabajos desarrollados vos GAIA" con código 32059, en el marco de
entorno a la temática y describir tecnolo- la convocatoria interna de investigación de
gías y técnicas de Big Data, notándose que la Facultad de Administración 2015, para
siguen siendo materia de investigación y la formulación y ejecución de proyectos de
discusión, generando la posibilidad de consolidación y/o fortalecimiento de los
proponer alternativas y modelos basados grupos de investigación de la Universidad
en la táctica de divide y vencerás. Nacional de Colombia, sede Manizales.
Las tecnologías asociadas al enfoque de
Big Data ya han comenzado a tomar ma-
durez y se vislumbran grandes oportuni- 7. REFERENCIAS
dades y retos en su utilización, optimiza-
ción y adaptación a diferentes dominios de [1] K.C. Li, H. Jiang, L. T. Yang, and A.
datos. Sin embargo, ya se encuentran re- Cuzzocrea, Big Data: Algorithms, Analytics,
and Applications, Chapman &. CRC Press,
sultados que muestran sus beneficios en 2015.
aspectos como la reducción de tiempos, [2] H. Mohanty, P. Bhuyan, and D. Chenthati,
optimización de recursos y mayor flexibili- Big Data: A Primer, vol. 11. Springer, 2015.
dad. Existe una estrecha relación entre [3] W. M. P. van der Aalst, “Data Scientist: The
Engineer of the Future,” in Enterprise
diferentes métodos y tecnologías para la Interoperability VI, no. 7, K. Mertins, F.
construcción de soluciones que integren las Bénaben, R. Poler, and J.-P. Bourrières, Eds.
capacidades de cada uno de estos y las Springer International Publishing, 2014, pp.
potencien en nuevas propuestas. 13–26.
Big Data no trata solo de grandes vo- [4] M. Chen, S. Mao, and Y. Liu, “Big Data: A
Survey,” Mob. Networks Appl., vol. 19, no. 2,
lúmenes de datos, sino que incluye otras pp. 171–209, Apr. 2014.
dimensiones significativas en el tratamien- [5] L. A. Montenegro Mora, “¿Cómo elaborar un
to de datos, como son la variedad, veloci- artículo de revisión?,” San Juan de Pasto,
dad y veracidad. No obstante, una imple- Nariño, Colombia, 2013.
[6] Elsevier, “Scopus The largest database of
mentación de Big Data requiere altos cos-
peer-reviewed literature,” Scopus Elsevier.
tos en expertos, mayor tiempo de adapta- 2016. [Online]. Available:
ción tecnológica, dificultad para implemen- https://www.elsevier.com/solutions/scopus.
tar nuevos análisis y percepción limitada. [7] S. Robledo Giraldo, G. Osorio Zuluaga, and
Big Data no busca sustituir a los sistemas C. López Espinosa, “Networking en pequeña
empresa: una revisión bibliográfica
tradicionales, sino construir una nueva
utilizando la teoría de grafos,” Rev. Vínculos,
tendencia donde se construyan arquitectu- vol. 11, no. 2, pp. 6–16, 2014.
ras de sistemas que permitan manejar [8] J. Dean and S. Ghemawat, “MapReduce,”
todas las peticiones. Y ya ha logrado incen- Commun. ACM, vol. 51, no. 1, p. 107, Jan.
tivar en la comunidad académica y comer- 2008.
[9] M. Armbrust, I. Stoica, M. Zaharia, A. Fox,
cial el desarrollo de tecnologías de apoyo R. Griffith, A. D. Joseph, R. Katz, A.
que toman los paradigmas base y los em- Konwinski, G. Lee, D. Patterson, and A.

TecnoLógicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploración de investigaciones, tecnologías y casos de aplicación

Rabkin, “A view of cloud computing,” [24] H. Zhang and N. Xiao, “Parallel


Commun. ACM, vol. 53, no. 4, p. 50, Apr. implementation of multilayered neural
2010. networks based on Map-Reduce on cloud
[10] P. Zikopoulos and C. Eaton, Understanding computing clusters,” Soft Comput., vol. 20,
Big Data: Analytics for Enterprise Class no. 4, pp. 1471–1483, Apr. 2016.
Hadoop and Streaming Data, 1st ed. [25] Y. Ji, Y. Tian, F. Shen, and J. Tran,
McGraw-Hill Osborne Media, 2011. “Experimental Evaluations of MapReduce in
[11] T. White, Hadoop: The Definitive Guide, 2nd Biomedical Text Mining,” in Information
ed. United States of America: O’Reilly Media, Technology: New Generations, Springer,
Inc, 2010. 2016, pp. 665–675.
[12] D. Bollier, “The Promise and Peril of Big [26] S. Singh and N. Ahuja, “Article
Data,” Washington, DC, 2010. recommendation system based on keyword
[13] C. L. P. Chen and C.-Y. Zhang, “Data- using map-reduce,” in 2015 Third
intensive applications, challenges, International Conference on Image
techniques and technologies: A survey on Big Information Processing (ICIIP), 2015, pp.
Data,” Inf. Sci. (Ny)., vol. 275, pp. 314–347, 548–550.
2014. [27] T. A. S. Foundation, “Apache HBase,”
[14] J. Chen, Y. Chen, X. Du, C. Li, J. Lu, S. Apache HBase. 2016. [Online]. Available:
Zhao, and X. Zhou, “Big data challenge: a http://hbase.apache.org/
data management perspective,” Front. [28] G. C. Deka, “A Survey of Cloud Database
Comput. Sci., vol. 7, no. 2, pp. 157–164, Apr. Systems,” IT Prof., vol. 16, no. 2, pp. 50–57,
2013. Mar. 2014.
[15] X. Jin, B. W. Wah, X. Cheng, and Y. Wang, [29] T. A. S. Foundation, “The Apache Cassandra
“Significance and Challenges of Big Data Project,” Apache Cassandra. 2015.
Research,” Big Data Res., vol. 2, no. 2, pp. [30] E. Dede, B. Sendir, P. Kuzlu, J. Hartog, and
59–64, Jun. 2015. M. Govindaraju, “An Evaluation of
[16] Xindong Wu, Xingquan Zhu, Gong-Qing Wu, Cassandra for Hadoop,” in 2013 IEEE Sixth
and Wei Ding, “Data mining with big data,” International Conference on Cloud
IEEE Trans. Knowl. Data Eng., vol. 26, no. Computing, 2013, vol. 2013, pp. 494–501.
1, pp. 97–107, Jan. 2014. [31] T. A. S. Foundation, “Apache Mahout:
[17] T. A. S. Foundation, “Welcome to ApacheTM Scalable machine learning and data mining,”
Hadoop®!,” hadoop. 2016. [Online]. Availa- Apache Mahout. 2016.
ble: http://hadoop.apache.org/ [32] G. Ingersoll, “Introducing Apache Mahout,”
[18] M. Klein, R. Sharma, C. H. Bohrer, C. M. IBM developerWorks. 2009. [Online]. Availa-
Avelis, and E. Roberts, “Biospark: scalable ble:
analysis of large numerical datasets from http://www.ibm.com/developerworks/java/libr
biological simulations and experiments using ary/j-mahout/
Hadoop and Spark,” Bioinformatics, vol. 33, [33] G. Ingersoll, “Apache Mahout: Aprendizaje
no. 2, pp. 303–305, Jan. 2017. escalable con máquina para todos,” IBM
[19] A. Aji, F. Wang, H. Vo, R. Lee, Q. Liu, X. developerWorks. 2012. [Online]. Available:
Zhang, and J. Saltz, “Hadoop GIS: a high http://www.ibm.com/developerworks/ssa/libr
performance spatial data warehousing ary/j-mahout-scaling/
system over mapreduce,” Proc. VLDB [34] S. M. D. MUJEEB and L. K. NAIDU, “A
Endow., vol. 6, no. 11, pp. 1009–1020, 2013. Relative Study on Big Data Applications and
[20] A. M. Aly, H. Elmeleegy, Y. Qi, and W. Aref, Techniques,” Int. J. Eng. Innov. Technol.,
“Kangaroo,” in Proceedings of the Ninth ACM vol. 4, no. 10, pp. 133–138, 2015.
International Conference on Web Search and [35] J. Han, J. Pei, and M. Kamber, “Data
Data Mining - WSDM ’16, 2016, pp. 397–406. mining: concepts and techniques,” 3rd ed., E.
[21] R. Lämmel, “Google’s MapReduce Inc., Ed. Morgan Kaufmann Publishers,
programming model — Revisited,” Sci. 2011, p. 703.
Comput. Program., vol. 70, no. 1, pp. 1–30, [36] R. L. Grossman, C. Kamath, P. Kegelmeyer,
Jan. 2008. V. Kumar, and R. Namburu, Data Mining for
[22] K. Lee, K. Jung, J. Park, and D. Kwon, Scientific and Engineering Applications, vol.
“ARLS: A MapReduce-based output analysis 2. Boston, MA: Springer US, 2013.
tool for large-scale simulations,” Adv. Eng. [37] R. S. Michalski, J. G. Carbonell, and T. M.
Softw., vol. 95, pp. 28–37, May 2016. Mitchell, Machine learning: An artificial
[23] J.-D. Wang, “Extracting significant pattern intelligence approach. Springer Science &
histories from timestamped texts using Business Media, 2013.
MapReduce,” J. Supercomput., vol. 72, no. 8,
pp. 3236–3260, Aug. 2016.

TecnoLógicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploración de investigaciones, tecnologías y casos de aplicación

[38] P. Domingos, “A few useful things to know [47] U. Maulik, S. Bandyopadhyay, and A.
about machine learning,” Commun. ACM, Mukhopadhyay, Multiobjective Genetic
vol. 55, no. 10, p. 78, Oct. 2012. Algorithms for Clustering: Applications in
[39] I. Portugal, P. Alencar, and D. Cowan, “The Data Mining and Bioinformatics. Springer
Use of Machine Learning Algorithms in Science & Business Media, 2011.
Recommender Systems: A Systematic [48] A. E. Doub, M. L. Small, A. Levin, K.
Review,” arXiv, vol. 4, pp. 1–16, Nov. 2015. LeVangie, and T. R. Brick, “Identifying users
[40] M. Crawford, T. M. Khoshgoftaar, J. D. of traditional and Internet-based resources
Prusa, A. N. Richter, and H. Al Najada, for meal ideas: An association rule learning
“Survey of review spam detection using approach,” Appetite, vol. 103, pp. 128–136,
machine learning techniques,” J. Big Data, Aug. 2016.
vol. 2, no. 1, p. 23, Dec. 2015. [49] H. Sundell, R. Konig, and U. Johansson,
[41] Wei-Yang Lin, Ya-Han Hu, and Chih-Fong “Pragmatic Approach to Association Rule
Tsai, “Machine Learning in Financial Crisis Learning in Real-World Scenarios,” in 2015
Prediction: A Survey,” IEEE Trans. Syst. International Conference on Computational
Man, Cybern. Part C (Applications Rev., vol. Science and Computational Intelligence
42, no. 4, pp. 421–436, Jul. 2012. (CSCI), 2015, pp. 356–361.
[42] R. Dash and P. K. Dash, “A hybrid stock [50] R. Sarno, R. D. Dewandono, T. Ahmad, M. F.
trading framework integrating technical Naufal, and F. Sinaga, “Hybrid association
analysis with machine learning techniques,” rule learning and process mining for fraud
J. Financ. Data Sci., vol. 2, no. 1, pp. 42–57, detection,” IAENG Int. J. Comput. Sci., vol.
Mar. 2016. 42, no. 2, pp. 1–14, 2015.
[43] J. Patel, S. Shah, P. Thakkar, and K. [51] S. Jaramillo Valbuena and J. M. Londoño,
Kotecha, “Predicting stock and stock price “Sistemas para almacenar grandes
index movement using Trend Deterministic volúmenes de datos,” Rev. Gerenc.
Data Preparation and machine learning Tecnológica Informática, vol. 13, no. 37, pp.
techniques,” Expert Syst. Appl., vol. 42, no. 1, 17–28, 2015.
pp. 259–268, Jan. 2015. [52] S. Sagiroglu and D. Sinanc, “Big data: A
[44] E. Cuevas, D. Zaldívar, and M. Perez- review,” in 2013 International Conference on
Cisneros, Applications of Evolutionary Collaboration Technologies and Systems
Computation in Image Processing and (CTS), 2013, pp. 42–47.
Pattern Recognition, 1st ed., vol. 100. Cham: [53] D. E. O’Leary, “Artificial Intelligence and Big
Springer International Publishing, 2016. Data,” IEEE Intell. Syst., vol. 28, no. 2, pp.
[45] K.-F. Man, K. S. TANG, and S. Kwong, 96–99, Mar. 2013.
Genetic Algorithms: Concepts and Designs. [54] A. Gandomi and M. Haider, “Beyond the
Springer Science & Business Media, 2012. hype: Big data concepts, methods, and
[46] G. Luque and E. Alba, Parallel Genetic analytics,” Int. J. Inf. Manage., vol. 35, no. 2,
Algorithms: Theory and Real World pp. 137–144, Apr. 2015.
Applications, vol. 367. Springer, 2011.

TecnoLógicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017

También podría gustarte