Big Data Conceptos Ilustrados

Big data.
Un nuevo paradigma
de análisis de datos
There was five exabytes of Palabras clave: cálculo distribuido, Key words: data mining, distributed
information created between the conjuntos de datos masivos, estadísti- computing, massive datasets, statistics.
dawn of civilization through ca, minería de datos.
2003, but that much information Abstract:
is now created every two days, Resumen: An unquestionable fact is the vast
and the pace is increasing.
En nuestros días, es un hecho in- amount of information that each second
Eric Schmidt, former CEO cuestionable la ingente cantidad de is now generated on our planet. This in-
of Google, 2010 información que se genera cada se- formation can be structured, semi-struc-
gundo en nuestro planeta. Dicha in- tured or unstructured. It can also bring
formación puede ser estructurada, tremendous value to any entity or may
semiestructurada o no estructurada. lead to undue consumption of human or
También puede aportar enorme valor computing resources. Intelligent analysis
a cualquier entidad o puede suponer (generally in real time) of this informa-
un consumo excesivo de recursos hu- tion is becoming absolutely undeniable
manos, informáticos, etc. for the survival of many companies and
El análisis inteligente (y la mayoría organizations. As a result demand for
de las veces en tiempo real) de este the so-called “data scientist” is growing
Carlos Maté Jiménez tipo de información está empezando exponentially and new concepts like big
Profesor Propio de la ETSI (ICAI) de la Universidad a ser un requisito innegable para la su- data, Mapreduce, Hadoop or cloud com-
Pontificia Comillas de Madrid, adscrito al Departa- pervivencia de muchas empresas y or- puting have emerged.
mento de Organización Industrial y al Instituto de ganizaciones. Como consecuencia de This article presents an informative in-
Investigación Tecnológica (IIT). Doctor en Ciencias ello han surgido en los últimos años troduction to all these terms and analy-
Matemáticas y diplomado en Ciencias Económicas términos de nuevo cuño como big zes the best known structures for the
y Empresariales por la Universidad Complutense. data, Mapreduce, Hadoop o compu- treatment of big data, as well as legal
Actualmente imparte las asignaturas de Análisis de tación en la nube. Así, la demanda de and ethical issues.
Datos, Economía y Gestión de Empresas y Estadísti- los llamados “científicos de datos” está
ca. Reconocido experto en predicción y en análisis creciendo exponencialmente.
de datos simbólicos, ha escrito varios libros sobre Este artículo plantea una introduc-
Estadística y publicado diversos artículos sobre ción divulgativa a todos estos térmi-
aplicaciones de los métodos estadísticos en pres- nos y analiza las estructuras más co-
tigiosas revistas internacionales y nacionales, tanto nocidas para el tratamiento de los big
del ámbito industrial, informático y de organización data, así como las cuestiones legales
como del económico. y éticas.
10 anales de mecánica y electricidad / noviembre-diciembre 2014

Introducción mercado de sistemas de bases de da- venido observando que las cantidades
Tradicionalmente la estructura de tos son Oracle, IBM y Microsoft. masivas de datos recogidas a lo largo
un conjunto de datos se presenta Estos sistemas se diseñaron para la del tiempo responden al concepto de
como una matriz de n filas y p co- retención de datos estructurados, en big data. Se han propuesto varias de-
lumnas, representando cada fila infor- lugar de para asimilar un crecimiento finiciones para este término, aunque
mación sobre p variables medidas en vertiginoso de los mismos y la mayoría todavía no hay una definición uni-
cada unidad (individuo, empresa, in- de las veces presentándose en forma versal al respecto (http://datascience.
mueble, calle de una gran ciudad, pro- no estructurada o semiestructurada, berkeley.edu/what-is-big-data/ recoge
cedimiento judicial, etc.). Por ejemplo, lo que hace de ellos una herramienta más de 40 definiciones). La Organiza-
la hoja de cálculo Excel 2013 puede extraordinariamente costosa si la qui- ción Mundial de Normalización (ISO)
utilizarse para mostrar 1.048.576 filas siéramos utilizar para manejar y alma- ha creado un grupo de trabajo que
por 16.384 columnas en cada hoja, cenar datos masivos. Por ejemplo, se va a redactar la norma de vocabulario
siendo los límites máximo de almace- pueden consultar las especificaciones ISO 3534-5, dedicada al mundo del big
namiento en memoria de 2 gigabytes de capacidad máxima para un servi- data y la analítica predictiva. Mientras
(GB) en un entorno de 32 bits, y los dor SQL en 2014 en la web: llega esa definición universal comenta-
límites del sistema y su memoria en un http://msdn.microsoft.com/en-us/ mos algunas de las más utilizadas.
entorno de 64 bits. library/ms143432.aspx La definición que proporciona el dic-
Recordamos que un bit es la míni- La conclusión a la que se llega es cionario de inglés de Oxford es “datos
ma cantidad de información procesada, la incapacidad de las bases de datos de tamaño muy grande, típicamente
sólo puede ser 1 o 0; mientras que un tradicionales para dar respuesta a hasta el extremo de que su gestión
byte es un conjunto de 8 bits. La Tabla 1 muchos de los datos que aparecen presenta retos logísticos significativos”.
muestra los distintos múltiplos del byte ahora en las empresas. Por ejemplo, la El estudio publicado por McKinsey
con algunos ejemplos de los ámbitos información que se genera cada día a Global Institute (MGI) en junio de 2011:
estático y dinámico de la información, través de la opinión de los clientes de http://www.mckinsey.com/insights/
tomando como base el año 2014. una marca en las redes sociales como business_technology/big_data_the_
Una solución a las limitaciones de Facebook, Twitter, etc. next_frontier_for_innovation
Excel procedió de los sistemas de iluminó el sentido de la definición
gestión de bases de datos relaciona- El término “big data”: anterior al definir big data como “con-
les (RDBMS), que utilizan lenguaje de definiciones y tipos. Internet juntos de datos cuyo tamaño va más
consultas estructurado (SQL) para de las cosas allá de la capacidad de captura, alma-
definir consultas y actualizar la base Desde hace unos años (especial- cenado, gestión y análisis de las herra-
de datos. Las empresas líderes en el mente los dos últimos años), se ha mientas de base de datos”.
Tabla 1. Unidades básicas de información y tratamiento de datos
Sistema
Nombre Símbolo Ejemplo 2014 estático Ejemplo 2014 dinámico
internacional
Byte B 100 bytes 1 B es un número de 0 a 255
Kilobyte KB 103 bytes 2 KB es aproximadamente un sector de CD-ROM

3 MB es aproximadamente una canción
Megabyte MB 106 bytes 4 MB/min en llamadas de vídeo por Skype
de 3 minutos
8/16 GB es el tamaño estándar de mercado
Gigabyte GB 109 bytes 4 GB/hora de vídeo de alta calidad
de un pen-drive
4 TB es el tamaño de un disco de 120 € que 20 TB/hora es la información generada por un
Terabyte TB 1012 bytes
almacena 800.000 fotos o canciones mp3 motor de avión en el aire
2 PB es la información almacenada en todas las
Petabyte PB 1015 bytes 24 PB/día es la información recogida por Google
bibliotecas de investigación académicas de USA
5 EB es aproximadamente todas las palabras 966 EB es aproximadamente la predicción del
Exabyte EB 1018 bytes
pronunciadas por todos los seres humanos volumen total de Internet en 2015
Se estimó que en 2012 la capacidad instalada 5 ZB/año es la cantidad de datos digitales pro-
Zettabyte ZB 1021 bytes de almacenamiento de información en el mundo medio que se van a generar en la Tierra en los
sería de 2,5 ZB. próximos 8 años
1 YB equivale a la capacidad del Data Center
Yottabyte YB 1024 bytes
inaugurado por la NASA en 2013
1 XB equivale a 1.257.000 iPad 3 de máxima
Xerabyte XB 1027 bytes
capacidad por cada habitante de la tierra
Big data. Un nuevo paradigma de análisis de datos 11

En 2012 Gartner definió big data Figura 1. Las 3 primeras “V” de big data
como “activos de información carac-
terizados por su volumen elevado, ve-
locidad elevada y alta variedad, que
demandan soluciones innovadoras y efi-
cientes de procesado para la mejora del
conocimiento y la toma de decisiones
en las organizaciones”. Esta definición
hace mención a las 3 famosas “V” de
los big data: Volumen, Velocidad y Ve-
racidad (Figura 1); cuyos detalles se
pueden consultar en el libro blanco
de Fujitsu –Mitchell et al. (2012)– y
en Zicari (2014). Adicionalmente se
han propuesto nuevas “V” como Va-
lor, Veracidad y Visualización; o incluso
Volatilidad, Validez y Viabilidad.
Los tipos de datos en las aplica-
ciones de big data se muestran en la
Tabla 2.
Fuente: http://velvetchainsaw.com/2012/07/20/three-vs-of-big-data-as-applied-conferences/
Las redes sociales como Facebook,
Twitter, Linkedin, etc., son uno de los
más reconocidos caladeros para ob- información anterior. Sin embargo, MapReduce
tener datos masivos, habiendo dado con un clúster de 1.000 nodos sólo Es un modelo de programación y
lugar a una línea de investigación im- necesitaremos 3,3 minutos. una implantación para procesar y ge-
portante, que es el análisis del senti- Una parte importante de los inicios nerar grandes conjuntos de datos que
miento. Una de sus ramificaciones es de desarrollo de plataformas informá- tiene sus orígenes en el lenguaje LISP.
la incidencia que tiene en las finanzas ticas para el tratamiento de big data se Los usuarios tienen que especificar va-
(ver, por ejemplo, Cerchiello and Giu- encuentra en dos artículos que escri- rias funciones Map (M en la Figura 2).
dici [2014]). bieron los investigadores de Google. Una función mapa (Map) procesa un
Otra fuente de generación ingente Ghemawat et al. (2003) diseñaron e par clave/valor generando un conjunto
de big data en los próximos años va implantaron el sistema de ficheros de intermedio de pares clave/valor. Es decir:
a ser el Internet de las cosas, cuyos Google (GFS) como un sistema de
detalles se pueden consultar en: ficheros distribuido y escalable para Map (clave, valor) → (clave’, valor’)
http://www.cisco.com/web/LA/ aplicaciones intensivas en datos. Dean
soluciones/executive/assets/pdf/ y Ghemawat (2008) crearon la herra- A continuación actúan varias fun-
internet-of-things-iot-ibsg.pdf mienta MapReduce y en 2004 (prime- ciones Reduce (R en la Figura 2). Una
Se trata de todos los datos que se ra versión de su artículo) solicitaron la función de reducción (Reduce) mezcla
generan entre persona y máquina o patente del sistema y método para el todos los valores intermedios (clave’,
entre máquina y máquina (Tabla 2), procesado eficiente de datos a gran valor’) asociados con la misma clave in-
que como ocurre con los datos de las escala, que fue concedida seis años termedia (clave’). Cada Reduce genera
redes sociales también suelen ser no después (Dean y Ghemawat [2010]). una salida de fichero única (o cero).
estructurados.
Distintos ejemplos de contex-
Tabla 2.Tipos de datos en el paradigma big data
tos sobre big data se muestran en
Akerkar (2014).
Datos estructurados Datos semiestructurados Datos no estructurados
Soluciones informáticas para
el tratamiento de big data Fichas de clientes Correos electrónicos Persona a persona
Fecha de nacimiento Parte estructurada: Comunicaciones en las redes
El procesar la información aso- Nombre destinatario, sociales
ciada a conjuntos de datos cuyo Dirección receptores, Persona a máquina
tamaño es del orden de 10 TB plan- Transacciones en un mes tema Dispositivos médicos
Puntos de compra Parte no estructurada: Comercio electrónico
tea utilizar sistemas distribuidos en cuerpo del mensaje Ordenadores, móviles
nodos en lugar de sistemas con un Máquina a máquina
único nodo. La razón principal es la Sensores, dispositivos GPS
Cámaras de seguridad
rapidez. Si un nodo procesa 50 MB/s
requerirá 2,3 días para procesar la

La Figura 2 muestra el marco Map- Figura 2. Marco MapReduce de Google
Reduce, cuya empresa pionera fue
Google.
EjEMPLo:
Un caso de uso frecuente es apli-
car Map y Reduce de forma sucesiva,
primero se prepara un conjunto de
datos vía Map y luego se extrae in-
formación vía Reduce. Por ejemplo, si-
guiendo la información de la siguien-
te web:
http://www.infosun.fim.uni-pas-
sau.de/cl/MapReduceFoundation/
la Figura 3 muestra una tarea de
MapReduce en la que contabiliza las
ocurrencias de cada palabra (datos
de salida a la derecha) en los datos
de entrada (izquierda).
Es decir, el ejemplo anterior nos
muestra el cálculo de la frecuencia
Fuente: Dean y Ghemawat (2008).
absoluta en términos de Estadística
Descriptiva de cada una de las mo-
dalidades presentes en los datos de Hadoop • Escalable: diseñado para es-
entrada. Lógicamente con los datos El proyecto Apache™ Hadoop® calar de servidores individuales
de salida se pueden obtener fre- (http://hadoop.apache.org/) desarrolla a miles de máquinas, cada una
cuencias relativas y aplicar procedi- software libre para el cálculo distribui- ofreciendo cálculo local y alma-
mientos gráficos como pictogramas, do, fiable y escalable. Conocido popu- cenamiento; puede llegar a pro-
diagramas de barras, etc. En el caso larmente por Hadoop y representado cesar y almacenar petabytes de
de que la información de entra- por un elefante amarillo (Figura 4), se manera fiable.
da sea numérica, una de las tareas trata de una plataforma de software • Económico: distribuye los datos
claves en la generación de gráficos que permite escribir con facilidad y y los procesa a través de clústers
de cajas y búsqueda de los cuanti- ejecutar aplicaciones que procesan de ordenadores comúnmente
les consiste en ordenar los datos de ingentes cantidades de datos. Incluye: disponibles (en miles).
entrada. • MapReduce (motor de cálculo • Eficiente: al distribuir los datos
Los programas escritos en este offline). puede procesarlos en paralelo
estilo funcional automáticamente se • HDFS (sistema de ficheros distri- sobre los nodos donde los datos
configuran en paralelo y se ejecutan buidos de Hadoop). están localizados.
sobre un gran clúster de máquinas, • HBase (acceso de datos online). • Fiable: automáticamente man-
siendo altamente escalable. Por El mayor contribuyente a los desa- tiene copias de datos y también
ejemplo, un cálculo típico de Ma- rrollos de Hadoop es por el momento de manera automática realiza de
pReduce procesa decenas de TB en Yahoo. Las características de Hadoop nuevo tareas de computación ba-
miles de máquinas. que lo hacen especialmente útil son: sadas en fallos.
Figura 3. Ejemplo de MapReduce
Fuente: http://www.infosun.fim.unipassau.de/cl/MapReduceFoundation/

EjEMPLoS: Figura 4. Esquema de Hadoop y MapReduce
• Amazon. Para construir los índi-
ces de búsqueda de producto de
Amazon dentro de su analítica se
procesan diariamente millones de
sesiones. Se emplean JAVA y API
de streaming, variando los clústers
de 1 a 100 nodos.
• Yahoo. Hadoop se ejecuta en
más de 100.000 CPU que se en-
cuentran en aproximadamente
20.000 ordenadores. El clúster
más grande es de 2.000 nodos
(cada disco tiene 4 TB y está
montado en cajas de 2 x 4 CPU).
Su uso está vinculado a búsque-
das en la web.
• Facebook. Emplea Hadoop para
almacenar copias de log internos
y fuentes de dimensión de datos. Fuente: Apache Software Foundation
Lo utiliza como fuente para gene-
rar informes de analítica y apren-
dizaje de máquina. El sistema tiene bases de datos que se diseñan para en pequeños trozos a través de varios
un clúster de 320 máquinas con manejar datos semiestructurados. No servidores. Pueden procesar consultas
2.560 núcleos y alrededor de 1,3 utilizan el lenguaje de consultas o SQL. con rapidez al enviar varias consultas
PB de almacenamiento bruto. Más detalles en Pokorny (2013). a múltiples máquinas al mismo tiem-
Más detalles en Zicari (2014). Hadoop y NoSQL son sistemas po. Debido a estas ventajas, Microsoft,
abiertos o libres, poseen alta veloci- Oracle, IBM, EMC, Teradata y otras
NoSQL y Hadoop dad y muestran un elevado grado de empresas los han incorporado en sus
El término NoSQL (Not Only SQL) tolerancia al fallo. Son eficientes en propias plataformas.
hace referencia a amplias clases de costes porque almacenan los datos
Computación en la nube
El término computación en la nube
(cloud computing) es una solución de
las tecnologías de la información (IT)
para ofrecer recursos y servicios so-
bre Internet. Según la definición del
NIST (National Institute of Standard
and Technology), el cloud computing es
un modelo tecnológico que permite
el acceso ubicuo, adaptado y bajo de-
manda en red a un conjunto de re-
cursos de computación configurables
compartidos (por ejemplo, redes, ser-
vidores, equipos de almacenamiento,
aplicaciones y servicios) que pueden
ser rápidamente aprovisionados y li-
berados con un esfuerzo de gestión
reducido o interacción mínima con el
proveedor del servicio.
La idea básica es que toda la infor-
mación se almacena de forma distri-
buida en servidores, siendo accesible
en cualquier momento por el usuario
sin que éste se preocupe de nada, el
propio sistema de “cloud” es el que
Fuente: Blog Qmee
se encarga de mantener siempre la

información disponible. En el caso de Figura 5. Estructura de cloud computing
que se esté almacenando una aplica-
ción en la nube, el propio sistema es
el que se encarga de subir la capa-
cidad de computo, memoria, etc., en
función del uso que se le está dando
a la aplicación, con lo cual en la nube
no sólo se delega la capacidad de al-
macenamiento sino que también se
distribuye en los servidores el proce-
samiento de datos. Esto hace que en
un sistema en la nube las capacidades
de cálculo y almacenamiento sean
muy elevadas.
La computación en la nube ha su-
puesto una reducción de costes, una
mayor flexibilidad y una utilización
óptima de los recursos, por lo que se
considera que es una herramienta de
ventaja competitiva de las empresas.
Entre sus usos destaca la analítica de Fuente: http://es.wikipedia.org/wiki/Computación_en_la_nube
los big data. Kambatla et al. (2014) han
indicado que una de las principales
aplicaciones de la generación futura antecedente legislativo más conocido Recientemente, Pulido (2014) en la
de sistemas distribuidos y de cálculo es la Ley Orgánica de Protección de lección inaugural del curso 2014-2015
paralelo se encuentra en la analítica Datos (LOPD), que se puede consul- en la UAM ha identificado las siguientes
de los datos enormes. Los reposito- tar en la Agencia Española de Protec- cuestiones éticas sobre los big data: pri-
rios de datos para tales aplicaciones ción de Datos (AEPD), cuya web es: vacidad, transparencia, pérdida de iden-
exceden actualmente la magnitud de https://www.agpd.es/portalweb tidad, discriminación y castigo anticipa-
exabytes y están creciendo rápida- AGPD/index-ides-idphp.php do y peligro de exclusión. Remitimos a
mente en tamaño. Los datos residen Su modificación por la influencia de los lectores a dicho documento para
en plataformas con capacidades com- los datos masivos, computación en la profundizar sobre estas cuestiones. En
putacionales y de red que varían am- nube, internet de las cosas, etc., toda- el caso del marketing se puede consul-
pliamente. Ello hace que las considera- vía no ha sido propuesta en España tar Nunan y Di Domenico (2013).
ciones de tolerancia a fallos, seguridad pero es posible que sea acometida Digamos que igual que es necesa-
y control de acceso sean críticas. en la próxima legislatura. La imperio- rio un carné de conducir para dirigir
El territorio emergente de entornos sa necesidad de esa modificación de los movimientos de una moto, coche
basados en la nube con centros de da- la LOPD vendrá de la toma de con- o camión con las consiguientes res-
tos que acogen grandes repositorios ciencia por parte de la sociedad de las ponsabilidades penales; será necesario
de datos plantea la necesidad de algo- implicaciones éticas correspondientes también un carné de conducción de
ritmos distribuidos/paralelo efectivos. que analizamos más adelante. Un do- datos para tratar y analizar los datos,
Se trata de un tema de investigación cumento actualizado de la AEPD so- también con las consiguientes respon-
en la frontera del conocimiento de bre todo ello es: sabilidades penales. Las modalidades
las técnicas de inteligencia artificial de http://www.agpd.es/portalweb de este futuro carné de datos proba-
aprendizaje de máquina como las re- AGPD/canaldocumentacion/publica- blemente dependerán de la compleji-
des neuronales, las técnicas de clasifi- ciones/common/Guias/Guia_EIPD.pdf. dad y tamaño de los datos a analizar.
cación o los diagramas en árbol. La reflexión sobre las implicacio-
Para más detalles acerca de las nes éticas de los big data suele estar Conclusiones
cuestiones relativas al tratamiento de presente en los distintos eventos que En el año 2010 el término big data
los big data a través de la computa- se organizan sobre este tema, como era prácticamente desconocido. A
ción en la nube veáse la revisión de la clausura del Año Internacional de mediados de 2011 se convertía en
Hashem et al. (2015). la Estadística en diciembre de 2013, una palabra que aparecía con frecuen-
entre otros; concluyendo que se va cia entre las últimas tendencias. Lo que
Cuestiones legales y éticas a poner a prueba el nivel ético de parecía iba a ser una palabra de moda
La obtención, tratamiento y explo- los distintos usuarios de estos datos (buzzword) y, por ende pasajera, se ha
tación de los big data plantea impor- ya sean gobiernos, organizaciones o convertido en todo un área de inte-
tantes cuestiones de índole legal. El empresas. rés enorme para las empresas, orga-

nizaciones y administraciones públicas; o no estructurados, y se presentan en Todo lo anterior nos lleva a afirmar
generando un mercado profesional cientos de billones de filas y millones con rotundidad que big data repre-
emergente, que es el de los científicos de variables. senta un nuevo paradigma dentro del
de datos, y abriendo nuevas líneas de Los sistemas de gestión de bases de Análisis de Datos.
investigación y nuevas revistas especí- datos tradicionales RDBMS basados Mención aparte merecen las cues-
ficas en el contexto académico como en SQL son incapaces de procesar tiones legales y éticas de los big data
Big Data o Big Data Research. Desde este nuevo contexto de los big data, lo que han sido someramente expuestas.
el punto de vista de la normalización, que ha hecho necesaria la aparición de Con ellas se abre un campo de inves-
ISO está desarrollando la nueva nor- nuevos paradigmas en el tratamiento tigación fascinante y multidisciplinar
ma de vocabulario ISO 3435-5, donde de datos masivos como MapReduce, donde la colaboración entre distintos
se recogerán los términos asociados a Hadoop, NoSQL o cloud computing; centros de una misma Universidad
este concepto. términos que han sido presentados podría dar unos resultados absolu-
Este artículo ha presentado la evo- de forma divulgativa en este artículo. tamente espectaculares en el medio
lución del análisis de datos clásico, La analítica de los big data no se ha plazo.
básicamente pensado para datos es- podido desarrollar por cuestión de es-
tructurados (cualitativos y/o cuanti- pacio. Sólo queda comentar que la es- Bibliografía
tativos), desde las típicas matrices de tadística de los big data tiene, como es
datos de n filas por p columnas (con lógico, sus cimientos en la Estadística Akerkar R. (Ed.). (2014). Big data computing. CRC
n no superando el millón de unidades Clásica, pero requiere un enfoque de Press.
o casos y p no superando un par de la llamada Ingeniería Estadística, don- Cerchiello P, Giudici P. (2014). How to measure the
decenas de miles de variables), hasta de las técnicas de Inteligencia Artificial quality of financial tweets (No. 069). University
el nuevo marco del análisis de los da- proporcionan una base imprescindible of Pavia, Department of Economics and Ma-
nagement.
tos enormes donde los datos pueden y crítica para el futuro analítico de los
Dean J, Ghemawat, S. (2008). MapReduce: simpli-
ser estructurados, semiestructurados datos masivos.
fied data processing on large clusters. Com-
munications of the ACM, 51(1), 107-113.
Dean J, Ghemawat S. (2010). U.S. Patent No.

7,650,331. Washington, DC: U.S. Patent and
Trademark Office.
Ghemawat S, Gobioff H, Leung ST. (2003). The

Google file system. In ACM SIGOPS Operating
Systems Review (Vol. 37, No. 5, pp. 29-43).ACM.
Hashem IAT,Yaqoob I,Anuar NB, Mokhtar S, Ga-

ni A, Khan SU. (2015).The rise of “big data” on
cloud computing: Review and open research
issues. Information Systems, 47, 98-115.
Kambatla K, Kollias G, Kumar V, Grama A. (2014).

Trends in big data analytics. Journal of Parallel
Distributed Computation, 74, 2561-2573.
McKinsey Global Institute. (2011). Big data: The

next frontier for innovation, competition, and
productivity.
Mitchell I, Locke M, Wilson M, Fuller A. (2012).

The White Book of Big Data. The definitive
guide to the revolution in business analytics.
Fujitsu. http://www.fujitsu.com/global/Images/
WhiteBookofBigData.pdf
Nunan D, Di Domenico M. (2013). Market re-

search and the ethics of big data. Internatio-
nal Journal of Market Research, 55(4), 505-520.
Pokorny J. (2013). NoSQL databases: a step to

database scalability in web environment. In-
ternational Journal of Web Information Systems,
9(1), 69-82.
Pulido E. (2014). Big data: solución o problema.

Lección inaugural curso 2014-2015 en la Uni-
versidad Autónoma de Madrid. http://arantxa.
ii.uam.es/~epulido/bigdata.pdf
Zicari RV. (2014). Big Data: Challenges and Op-

portunities. In Akerkar R. (Ed.). (2014). Big da-
ta computing. CRC Press.

Big Data Conceptos Ilustrados

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Big Data Conceptos Ilustrados

Cargado por

Copyright:

Formatos disponibles

Big data.

10 anales de mecánica y electricidad / noviembre-diciembre 2014

Tabla 1. Unidades básicas de información y tratamiento de datos

Kilobyte KB 103 bytes 2 KB es aproximadamente un sector de CD-ROM

Big data. Un nuevo paradigma de análisis de datos 11

12 anales de mecánica y electricidad / noviembre-diciembre 2014

Figura 3. Ejemplo de MapReduce

Big data. Un nuevo paradigma de análisis de datos 13

14 anales de mecánica y electricidad / noviembre-diciembre 2014

Big data. Un nuevo paradigma de análisis de datos 15

Dean J, Ghemawat S. (2010). U.S. Patent No.

Ghemawat S, Gobioff H, Leung ST. (2003). The

Hashem IAT,Yaqoob I,Anuar NB, Mokhtar S, Ga-

Kambatla K, Kollias G, Kumar V, Grama A. (2014).

McKinsey Global Institute. (2011). Big data: The

Mitchell I, Locke M, Wilson M, Fuller A. (2012).

Nunan D, Di Domenico M. (2013). Market re-

Pokorny J. (2013). NoSQL databases: a step to

Pulido E. (2014). Big data: solución o problema.

Zicari RV. (2014). Big Data: Challenges and Op-

16 anales de mecánica y electricidad / noviembre-diciembre 2014

También podría gustarte