Está en la página 1de 8

Big data

fsicos[7] y las investigaciones relacionadas con los procesos biolgicos y ambientales,[8] Las limitaciones tambin afectan a los motores de bsqueda en internet, a los
sistemas nanzas y a la informtica de negocios. Los data sets crecen en volumen debido en parte a la introduccin de informacin ubicua procedente de los sensores
inalmbricos y los dispositivos mviles (por ejemplo las
VANETs), del constante crecimiento de los histricos
de aplicaciones (por ejemplo de los logs), cmaras (sistemas de teledeteccin), micrfonos, lectores de radiofrequency identication.[9][10] La capacidad tecnolgica
per-cpita a nivel mundial para almacenar datos se dobla aproximadamente cada cuarenta meses desde los aos
ochenta.[11] Se estima que en 2012 cada da fueron creaUn sistema de representacin de datos creado por IBM muestra dos cerca de 2,5 trillones de bytes de datos (del ingls
el big data que consiste en las ediciones de Wikipedia realizadas quintillion, 2.51018 ).[12]
por el bot Pearle, mostrando su visualizacin ms racional al ser
acompaada de colores y posiciones en su representacin.

1 Denicin
El Big Data o Datos masivos es un concepto que hace
referencia a la acumulacin masiva de datos y a los procedimientos usados para identicar patrones recurrentes
dentro de esos datos. Otras denominaciones para el mismo concepto son datos masivos o datos a gran escala. En la literatura cientca en espaol con frecuencia se
usa directamente el trmino en ingls Big Data, tal como
aparece en el ensayo seminal de Viktor Schnberger Big
data: La revolucin de los datos masivos.[1]

Datos masivos es un trmino que hace referencia a una


cantidad de datos tal que supera la capacidad del software
habitual para ser capturados, gestionados y procesados en
un tiempo razonable. El volumen de los datos masivos
crece constantemente. En 2012 se estimaba su tamao de
entre una docena de terabytes hasta varios petabytes de
datos en un nico conjunto de datos. En la metodologa
MIKE2.0 dedicada a investigar temas relacionados con la
gestin de informacin, denen big data en trminos de
La disciplina dedicada a los datos masivos se enmarpermutaciones tiles, complejidad y dicultad para borrar
ca en el sector de las tecnologas de la informacin y la
registros individuales.
comunicacin. Esta disciplina se ocupa de todas las actividades relacionadas con los sistemas que manipulan En 2001, en un informe de investigacin que se funda[13]
grandes conjuntos de datos. Las dicultades ms habi- mentaba en congresos y presentaciones relacionadas,
el
analista
Doug
Laney
del
META
Group
(ahora
Gartner)
tuales vinculadas a la gestin de estas cantidades de datos
se centran en la captura, el almacenamiento,[2] bsqueda, dena el crecimiento constante de datos como una oporcomparticin, anlisis,[3] y visualizacin. La tendencia a tunidad y un reto para investigar en el volumen, la velomanipular ingentes cantidades de datos se debe a la nece- cidad y la variedad. Gartner contina usando datos ma[14]
Adems, grandes proveedores
sidad en muchos casos de incluir los datos relacionados sivos como referencia.
del
mercado
de
datos
masivos
estn desarrollando sodel anlisis en un gran conjunto de datos, como los anluciones
para
atender
las
demandas
ms crticas de clisis de negocio, publicitarios, los datos de enfermedades
mo
procesar
tal
cantidad
de
datos,
como
MapR, Cyttek
infecciosas, el espionaje y seguimiento a la poblacin o
[4]
Group
y
Cloudera.
la lucha contra el crimen organizado.
El lmite superior de procesamiento se ha ido desplazando a lo largo de los aos. De esta forma, los lmites jados en 2008 rondaban el orden de petabytes a zettabytes 2 Tecnologa
de datos.[5] Los cientcos con cierta regularidad encuentran limitaciones debido a la gran cantidad de datos en Existen muchsimas herramientas para tratar con Big
ciertas reas, tales como la meteorologa, la genmica,[6] Data. Nombres como Hadoop, NoSQL, Cassandra,
la conectmica, las complejas simulaciones de procesos Business Intelligence, Machine Learning, MapReduce
1

2 TECNOLOGA

son slo algunos de los ms conocidos. Ellos tratan con


algunos de los tres tipos de Big Data:[15]

Datos estructurados (Structured Data): Datos


que tienen bien denidos su longitud y su formato,
como las fechas, los nmeros o las cadenas de
caracteres. Se almacenan en tablas. Un ejemplo son
las bases de datos relacionales y las hojas de clculo.

Transacciones de datos: La facturacin, las llamadas o las transaccin entre cuentas generan informacin que tratada pueden ser datos relevantes. Un
ejemplo ms claro lo encontraremos en las transacciones bancarias: lo que el usuario conoce como un
ingreso de X euros, la computacin lo interpretar como una accin llevada a cabo en una fecha y
momento determinado, en un lugar concreto, entre
unos usuarios registrados, y ms metadatos.

Datos no estructurados (Unstructured Data):


Datos en el formato tal y como fueron recolectados,
carecen de un formato especco. No se pueden
almacenar dentro de una tabla ya que no se puede
desgranar su informacin a tipos bsicos de datos.
Algunos ejemplos son los PDF, documentos multimedia, e-mails o documentos de texto.

E-marketing y web: Generamos una gran cantidad


de datos cuando navegamos por internet. Con la web
2.0 se ha roto el paradigma webmaster-contenidolector y los mismos usuarios se convierten en creadores de contenido gracias a su interaccin con el
sitio. Existen muchas herramientas de tracking utilizadas en su mayora con nes de marketing y anlisis
de negocio. Los movimientos de ratn quedan grabados en mapas de calor y queda registro de cunto
pasamos en cada pgina y cundo las visitamos.

Datos semiestructurados (Semistructured Data):


Datos que no se limitan a campos determinados,
pero que contiene marcadores para separar los
diferentes elementos. Es una informacin poco
regular como para ser gestionada de una forma
estndar. Estos datos poseen sus propios metadatos
semiestructurados[16] que describen los objetos y
las relaciones entre ellos, y pueden acabar siendo
aceptados por convencin. Un ejemplo es el HTML,
el XML o el JSON.

Machine to Machine (M2M): Son las tecnologas


que comparten datos con dispositivos: medidores,
sensores de temperatura, de luz, de altura, de presin, de sonido que transforman las magnitudes
fsicas o qumicas y las convierten en datos. Existen
desde hace dcadas, pero la llegada de las comunicaciones inalmbricas (Wi-Fi, Bluetooth, RFID)
ha revolucionado el mundo de los sensores. Algunos
ejemplos son los GPS en la automocin o los sensores de signos vitales en la medicina.

2.1

Captura

De dnde provienen todos estos datos? Los fabricamos


directa e indirectamente segundo tras segundo. Un
iPhone hoy en da tiene ms capacidad de computacin
que la NASA cuando el hombre lleg a la luna[17] por lo
que la cantidad de datos generados por persona y unidad
de tiempo es inmensa. Catalogamos la procedencia de
los datos segn las siguientes categoras:[18]

Generados por las personas: Enviar correos electrnicos por e-mail o mensajes por WhatsApp,
postear en Facebook, tuitear contenidos o responder a una encuesta por la calle son algunas acciones
cuotidianas que crean nuevos datos y metadatos que
pueden ser analizados. Se estima que cada minuto
al da se envan ms de 200 millones de e-mails,
se comparten ms de 700.000 piezas de contenido en Facebook, se realizan dos millones de bsquedas en Google o se editan 48 horas de vdeo en
YouTube.[19] Por otro lado, las trazas de utilizacin
en un sistema ERP, incluir registros en una base de
datos o introducir informacin en una hoja de clculo son otras formas de generar estos datos.

Biomtrica: Son el conjunto de datos que provienen de la seguridad, defensa y servicios de


inteligencia.[20] Son cantidades de datos generados
por lectores biomtricos como escneres de retina,
escneres de huellas digitales, o lectores de cadenas
de ADN. El propsito de estos datos es proporcionar
mecanismos de seguridad y suelen estar custodiadas por los ministerios de defensa y departamentos
de inteligencia. Un ejemplo de aplicacin es el cruce de ADN entre una muestra de un crimen y una
muestra en nuestra base de datos.

2.2 Transformacin
Una vez encontradas las fuentes de los datos necesarios,
muy posiblemente dispongamos de un sinfn de tablas de
origen sin estar relacionadas. El siguiente objetivo consta
en hacer que los datos se recojan en un mismo lugar y
darles un formato.
Aqu entran en juego las plataformas ETL (Extract,
Transform and Load). Su propsito es extraer los datos de las diferentes fuentes y sistemas, para despus
hacer transformaciones (conversiones de datos, limpieza de datos sucios, cambios de formato) y nalmente cargar los datos en la base de datos o Data Warehouse especicada.[21] Un ejemplo de plataforma ETL es el

2.4

Anlisis de datos

Pentaho Data Integration, ms concretamente su aplica- de datos, agruparlos o reducirlos y cargarlos en otra cocin Spoon.
leccin, y a Hadoop que es una tecnologa de Apache diseada para almacenar y procesar grandes cantidades de
datos.

2.3

Almacenamiento NoSQL

El trmino NoSQL se reere a Not Only SQL y son


sistemas de almacenamiento que no cumplen con el
esquema entidad-relacin.[22] Proveen un sistema de
almacenamiento mucho ms exible y concurrente y
permiten manipular grandes cantidades de informacin
de manera mucho ms rpida que las bases de datos
relacionales.
Distinguimos cuatro grandes grupos de bases de datos
NoSQL:
Almacenamiento Clave-Valor (Key-Value): Los
datos se almacenan de forma similar a los maps o
diccionarios de datos, donde se accede al dato a partir de una clave nica.[23] Los valores (datos) son aislados e independientes entre ellos, y no son interpretados por el sistema. Pueden ser variables simples
como enteros o caracteres, u objetos. Por otro lado,
este sistema de almacenamiento carece de una estructura de datos clara y establecida, por lo que no
requiere un formateo de los datos muy estricto.[24]
Son tiles para operaciones simples basadas en las claves.
Un ejemplo es el aumento de velocidad de carga de un sitio web que pueden utilizar diferentes perles de usuario,
teniendo mapeados los archivos que hay que incluir segn el id de usuario y que han sido calculados con anterioridad. Cassandra es la tecnologa de almacenamiento
clave-valor ms reconocida por los usuarios.[25]

Almacenamiento en Grafo: Las bases de datos en


grafo rompen con la idea de tablas y se basan en la
teora de grafos, donde se establece que la informacin son los nodos y las relaciones entre la informacin son las aristas,[25] algo similar en el modelo
relacional. Su mayor uso se contempla en casos de
relacionar grandes cantidades de datos que pueden
ser muy variables. Por ejemplo, los nodos pueden
contener objetos, variables y atributos diferentes en
unos y los otros. Las operaciones de join se sustituyen por recorridos a travs del grafo, y se guarda una
lista de adyacencias entre los nodos.[23] Encontramos un ejemplo en las redes sociales: en Facebook
cada nodo se considera un usuario, que puede tener
aristasde amistad con otros usuarios, o aristas de publicacin con nodosde contenidos. Soluciones como
Neo4J y GraphDB[25] son las ms conocidas dentro
de las bases de datos en grafo.
Almacenamiento Orientado a Columnas: Por ltimo, el almacenamiento Column-Oriented es parecido al Documental. Su modelo de datos es denido como un mapa de datos multidimensional
poco denso, distribuido y persistente.[23] Se orienta a almacenar datos con tendencia a escalar horizontalmente, por lo que permite guardar diferentes
atributos y objetos bajo una misma Clave. A diferencia del Documental y el Key-Value, en este caso
podremos almacenar varios atributos y objetos, pero
no sern interpretables directamente por el sistema.
Permite agrupar columnas en famlias y guardar la
informacin cronolgicamente, mejorando el rendimiento. Esta tecnologa se acostuma a usar en casos
con 100 o ms atributos por clave.[25] Su precursor
es BigTable de Google, pero han aparecido nuevas
soluciones como HBase o HyperTable.

Almacenamiento Documental: Las bases de datos documentales guardan un gran parecido con las
bases de datos Clave-Valor, diferencindose en el
dato que guardan. Si en la anterior no requera una
estructura de datos concreta, en este caso guardamos
datos semiestructurados.[25] Estos datos pasan a llamarse documentos, y pueden estar formateados en 2.4 Anlisis de datos
XML, JSON, Binary JSON o el que acepte la misma
base de datos.
Teniendo los datos necesarios almacenados segn diferentes tecnologas de almacenamiento, nos daremos
Todos los documentos tienen una clave nica
cuenta que necesitaremos diferentes tcnicas de anlisis
con la que puede ser accedido e identicado
de datos como las siguientes:
explcitamente. Estos documentos no son opacos al sistema, por lo que pueden ser interpreta Asociacin: Permite encontrar relaciones entre didos y lanzar queries sobre ellos.[23] Un ejemplo
ferentes variables.[26] Bajo la premisa de causalidad,
que aclare cmo se usa lo encontramos en un
se pretende encontrar una prediccin en el comporblog: se almacena el autor, la fecha, el ttulo, el
tamiento de otras variables. Estas relaciones pueresumen y el contenido del post.
den ser los sistemas de ventas cruzadas en los eCouchDB o MongoDB[25] son quiz las ms conocidas.
Hay que hacer mencin especial a MapReduce, una tecnologa de Google inicialmente diseada para su algoritmo PageRank, que permite seleccionar un subconjunto

commerce.
Minera de datos (Data Mining): Tiene como objetivo encontrar comportamientos predictivos. Engloba el conjunto de tcnicas que combina mtodos

3 UTILIDAD
estadsticos y de machine learning con almacena- anlisis sobre nuestros datos, y son un material atractivo,
miento en bases de datos.[27] Est estrechamente re- entretenido y simplicado para audiencias masivas.[31]
lacionada con los modelos utilizados para descubrir
patrones en grandes cantidades de datos.
Agrupacin (Clustering): El anlisis de clsteres
es un tipo de minera de datos que divide grandes
grupos de individuos en grupos ms pequeos
de los cuales no conocamos su parecido antes
del anlisis.[27] El propsito es encontrar similitudes entre estos grupos, y el descubrimiento de
nuevos conociendo cules son las cualidades que
lo denen. Es una metodologa apropiada para
encontrar relaciones entre resultados y hacer una
evaluacin preliminar de la estructura de los datos
analizados. Existen diferentes tcnicas y algoritmos
de clustering.[28]
Anlisis de texto (Text Analytics): Gran parte de
los datos generados por las personas son textos, como e-mails, bsquedas web o contenidos. Esta metodologa permite extraer informacin de estos datos y
as modelar temas y asuntos o predecir palabras.[29]

2.5

Visualizacin de datos

Esto es una infografa

Tal y como el Instituto Nacional de Estadstica dice en


sus tutoriales, una imagen vale ms que mil palabras, o
que mil datos. Nuestra mente agradecer mucho ms la
visualizacin amigable de unos resultados estadsticos en
grcos o mapas que no en tablas con nmeros y conclusiones. En Big Data se llega un paso ms all: parafraseando a Edward Tufte, uno de los expertos en visualizacin
de datos ms reconocidos a nivel mundial El mundo es
complejo, dinmico, multidimensional, el papel es esttico y plano. Cmo vamos a representar la rica experiencia visual del mundo en la mera planicie?. Mondrian[30]
es una plataforma que permite visualizar la informacin
a travs de los anlisis llevados a cabo sobre los datos
que disponemos. Con esta plataforma se intenta llegar a
un pblico ms concreto, y una utilidad ms acotada como un Cuadro de Mando Integral de una organizacin.
Por otro lado, las infografas se han vuelto un fenmeno
viral, donde se recogen los resultados de los diferentes

3 Utilidad
Este conjunto de tecnologas se puede usar en una gran
variedad de mbitos, como los siguientes.

3.1 Empresarial
Redes Sociales: Cada vez ms tendemos a subir a las redes sociales toda nuestra actividad y la de nuestros conocidos. Las empresas utilizan esta informacin para cruzar los datos de los candidatos a un trabajo. Oracle ha
desarrollado una herramienta llamada Taleo Social Sourcing,[32] la cual est integrada con las APIs de Facebook,
Twitter y LinkedIn. Gracias a su uso, los departamentos
de recursos humanos pueden ver, entrando la identidad
del candidato, su perl social y profesional en cuestin
de segundos. Por otro lado, les permite crear una lista de
posibles candidatos segn el perl profesional necesario,
y as pasar a ofrecer el puesto de trabajo a un pblico
mucho ms objetivo. Por otro lado, Gate Gourmet una
compaa de catering de aerolneas,- experimentaba una
tasa de abandono del 50% de sus trabajadores asignados
al aeropuerto de Chicago, y sospecharon que el problema exista en el tiempo dedicado al viaje. Para demostrarlo, hicieron anlisis juntando varios data sets de sus
sistemas internos y de otros externos como datos demogrcos, datos de trco y datos de uso de redes sociales.
Los resultados que obtuvieron fueron patrones que relacionaban muy consistentemente la alta tasa de abandono
con la distancia del lugar de trabajo a casa y la accesibilidad al transporte pblico.[33]
Consumo: Amazon es lder en ventas cruzadas. El xito
se basa en la minera de datos masiva basando los patrones de compra de un usuario cruzados con los datos
de compra de otro, creando as anuncios personalizados
y boletines electrnicos que incluyen justo aquello que
el usuario quiere en ese instante.[34] Oine tambin nos
encontramos con casos de aplicacin Big Data. Nuestros
telfonos mviles envan peticiones de escucha WiFi a
todos los puntos de acceso con los que nos cruzamos. Algunas compaas han decidido hacer un trazo de estas peticiones con su localizacin y direccin MAC para saber
qu dispositivo hace cul ruta dentro de un recinto. No
hay que asustarse ya que con la direccin MAC no pueden invadir nuestra intimidad.[35] Las grandes supercies
aprovechan estos datos para sacar informacin como contabilizar cunto tiempo pasan los clientes en su interior,
qu rutas siguen, dnde permanecen ms tiempo (ya sea
escogiendo un producto o el tiempo de espera en caja) o
cul es la frecuencia de visita.
Big Data e intimidad: La cantidad de datos creados
anualmente es de 2,8 Zettabytes en 2012, de los cuales
el 75% son generados por los individuos segn su uso de

3.3

Investigacin

la red ya sea bajarse un archivo, conectar el GPS o enviar


un correo electrnico. Se calcula que un ocinista medio
genera 1,8 Terabytes al ao por lo que son unos 5 GB
al da de informacin.[36] Aqu entran en juego las empresas llamadas corredores de datos. Acxiom es una de
ellas, y posee unas 1.500 trazas de datos de ms de 500
millones de usuarios de internet. Todos estos datos son
transformados y cruzados para incluir a el usuario analizado en uno de los 70 segmentos de usuarios, llamado
PersonicX.[37] Descrito como un resumen de indicadores de estilo de vida, intereses y actividades, esta corredura de datos basa su clustering en los acontecimientos
vitales y es capaz de predecir ms de 3.000 reacciones
ante estmulos de estos clientes. En un primer momento
captaba la informacin de los hechos reales y no virtuales
de los usuarios.[38] En febrero de 2013, Facebook acord la cesin de la informacin personal de sus usuarios
con Acxiom y otros corredores de datos haciendo cruzar
las actividades de la vida o-line con las actividades online [30]. A nivel usuario, nos encontramos con Google
Location History: un servicio de Google que registra las
ubicaciones en las cuales ha estado un usuario que lleva el
mvil encima, y con el servicio de localizacin activado
(que por defecto lo est en los terminales con Android).
Al acceder a l muestra un mapa con las rutas que ha seguido el usuario, con la hora de llegada y salida de cada
ubicacin.[39] Gracias a esta utilidad se crean algoritmos
de recomendaciones de amigos en redes sociales y ubicaciones a visitar basados en el historial de ubicaciones del
usuario.[40] Por ltimo, Google pag 3.200 millones de
dlares por Nest, una empresa de detectores de humo.[41]
Ahora Google ha abierto Nest Labs, donde se pretende
desarrollar sensores para convertir la casa en una Smart
home. Incluir estos sensores permitir saber por ejemplo
cundo hay alguien o no en casa gracias a su interaccin
con los wearables, a qu temperatura est el ambiente o
detectar si hay algn peligro dentro como fuego.[42]

3.2

Deportes

Profesional: En un mbito donde se mueve tanto dinero,


suelen utilizar las nuevas tecnologas antes que los usuarios de base. Nos encontramos por ejemplo que el anlisis
de los partidos constituye una parte fundamental en el entrenamiento de los profesionales, y la toma de decisiones
de los entrenadores. Amisco[43] es un sistema aplicado
por los ms importantes equipos de las ligas Espaola,
Francesa, Alemana e Inglesa des del 2001. Consta de 8
cmaras y diversos ordenadores instalados en los estadios, que registran los movimientos de los jugadores a
razn de 25 registros por segundo, y luego envan los datos a una central donde hacen un anlisis masivo de los
datos. La informacin que se devuelve como resultado incluye una reproduccin del partido en dos dimensiones,
los datos tcnicos y estadsticas, y un resumen de los datos fsicos de cada jugador, permitiendo seleccionar varias dimensiones y visualizaciones diferentes de datos.[43]

5
Acionado: Aplicaciones como Runtastic, Garmin o
Nike+ proveen de resultados Big Data al usuario. Este
ltimo Nike+- va un paso ms all a nivel de organizacin, ya que fabrican un producto bsico para sus usuarios: las zapatillas. Los 7 millones de usuarios generan
una gran cantidad de datos para medir el rendimiento y
su mejora, por lo que la empresa genera unos clsteres
con los patrones de comportamiento de sus usuarios. Uno
de sus objetivos pues, es controlar el tiempo de vida de
sus zapatillas encontrando frmulas para mejorar la calidad. Por ltimo, hace picar a sus usuarios con el uso de
la gamicacin: establece que comunidades de usuarios
lleguen a metas y consigan objetivos conjuntamente con
el uso de la aplicacin, motivando e inspirando a los corredores para usar su aplicacin y a ms largo plazo, sus
productos deportivos.

3.3 Investigacin
Salud y medicina: Hacia mediados 2009, el mundo experiment una pandemia de gripe A, llamada gripe porcina o H1N1. El website Google Flu Trends fue capaz de
predecirla gracias a los resultados de las bsquedas. Flu
Trends usa los datos de las bsquedas de los usuarios que
contienen Inuenza-Like Illness Symptoms (Sntomas parecidos a la enfermedad de la gripe) y los agrega segn
ubicacin y fecha, y es capaz de predecir la actividad de
la gripe hasta con dos semanas de antelacin ms que los
sistemas tradicionales. Ms concretamente en Nueva Zelanda[44] cruzaron los datos de Google Flu Trends con datos existentes de los sistemas de salud nacionales, y comprobaron que estaban alineados. Los grcos mostraron
una correlacin con las bsquedas de ILI Symptoms y la
extensin de la pandemia en el pas. Los pases con sistemas de prediccin poco desarrollados pueden beneciarse de una prediccin able y pblica para abastecer a su
poblacin de las medidas de seguridad oportunas.
Defensa y seguridad: Para incrementar la seguridad
frente a los ataques de las propias organizaciones, ya sean
empresas en el entorno econmico o los propios ministerios de defensa en el entorno de ciberataques, se contempla la utilidad de la tecnologa Big Data en escenarios
como la vigilancia y seguridad de fronteras, lucha contra el terrorismo y crimen organizado, contra el fraude,
planes de seguridad ciudadana o planeamiento tctico de
misiones e inteligencia militar.[45]
Caso especco: Proyecto Aloja:
El Proyecto Aloja[46] ha sido iniciado por una apuesta
en comn del Barcelona Supercomputing Center (BSC)
y Microsoft Research. El objetivo de este proyecto de
Big Data quiere conseguir una optimizacin automtica
en despliegues de Hadoop en diferentes infraestructuras.
[40]
Caso especco: Sostenibilidad: Conservation International es una organizacin con el propsito de concienciar
a la sociedad de cuidar el entorno de una manera responsable y sostenible. Con la ayuda de la plataforma Vertica

REFERENCIAS

[6] Community cleverness required. Nature, 455(7209),


1. 2008. http://www.nature.com/nature/journal/v455/
n7209/full/455001a.html
[7] Sandia sees data management challenges spiral. HPC Projects. 4 August 2009. http://www.hpcprojects.com/news/
news_story.php?news_id=922
[8] Reichman,O.J., Jones, M.B., and Schildhauer, M.P. 2011.
Challenges and Opportunities of Open Data in Ecology. Science 331(6018): 703-705.DOI:10.1126/science.
1197962

Una de las mquinas del Marenostrum, Supercomputador del


BSC

[9] Hellerstein,
Joe.
Parallel
Programming
in
the Age of Big Data. Gigaom Blog. 9 Nohttp://gigaom.com/2008/11/09/
vember
2008.
mapreduce-leads-the-way-for-parallel-programming/
[10] Segaran, Toby and Hammerbacher, Je. Beautiful Data.
1st Edition. O'Reilly Media. Pg 257.

Analytics de HP, han situado 1.000 cmaras a lo largo [11] The Worlds Technological Capacity to Store, Communide 16 bosques en 4 continentes. Estas cmaras incorpocate, and Compute Information, Martin Hilbert and Prisran unos sensores, y a modo de cmara oculta graban el
cila Lpez (2011), Science (journal), 332(6025), 60-65;
comportamiento de la fauna. Con estas imgenes y los
free access to the article through here: martinhilbert.net/
datos de los sensores (precipitaciones, temperatura, huWorldInfoCapacity.html
medad, solar) consiguen informacin sobre cmo el
cambio climtico o el desgaste de la tierra afecta en su [12] http://www-01.ibm.com/software/data/bigdata/
comportamiento y desarrollo.[47]
[13] Douglas, Laney. 3D Data Management: Controlling Data

Vase tambin
Medios sociales
Internet de las cosas
Centros Multimedia
Personalizacin de contenidos
Sistema de recomendacin Sistema recomendador

Referencias

[1] http://www.eldiario.es/turing/Big-data_0_161334397.
html
[2] Kusnetzky, Dan. What is Big Data?". ZDNet. http://
blogs.zdnet.com/virtualization/?p=1708
[3] Vance, Ashley. Start-Up Goes After Big Data With
Hadoop Helper. New York Times Blog. 22 April
2010.
http://bits.blogs.nytimes.com/2010/04/22/
start-up-goes-after-big-data-with-hadoop-helper/?dbk

Volume, Velocity and Variety. Gartner. Consultado el 6


de febrero de 2001.
[14] Beyer, Mark. Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data.
Gartner. Consultado el 13 de julio de 2011.
[15] Purcell, Bernice (2013). The emergence of Big Data
technology and Analytics. Holy Family University.
[16] Lopez Garca, David (2012-2013). Analysis of the possibilities of use of Big Data in organizations. Consultado el
18 de octubre de 2014.
[17] Paniagua, Soraya (Junio - Setiembre 2013). A world of
sensors, from Data to Big Data. Revista Telos.
[18] Conceptos bsicos de Big Data, TRC Informtica SL,
2013.
[19] Paniagua, Soraya (Junio - Setiembre 2013). A world of
sensors, from Data to Big Data. Revista Telos.
[20] Kohlwey, Edmund; Sussman, Abel; Trost, Jason; Maurer,
Amber (2011). Leveraging the Cloud for Big Data Biometrics. IEEE World Congress on Services.

[4] Cukier, K. (25 February 2010). Data, data everywhere. The Economist. http://www.economist.com/
specialreports/displaystory.cfm?story_id=15557443

[21] Tomsen, Christian; Pedersen, Torben Bach (2009).


pygrametl: A Powerful Programming Framework for
ExtractTransformLoad Programmers. 1DB Technical
Report; No. 25, Department of Computer Science, Aalborg
University.

[5] Horowitz, Mark. Visualizing Big Data: Bar Charts for


Words. Wired Magazine. Vol 16 (7). 23 June 2008.
http://www.wired.com/science/discoveries/magazine/
16-07/pb_visualizing#ixzz0llT2DN5j. Volu 16(7)

[22] Martn, Adriana; Chvez, Susana; Rodrguez, Nelson R.;


Valenzuela, Adriana; Murazzo, Maria A. (2013). Bases
de datos NoSql en cloud computing. WICC. Consultado
el 18 de octubre de 2014.

[23] Hecht, Robin; Jablonski, Stefan (2011). NoSQL Evaluation, a use case oriented survey. International Conference
on Cloud and Service Computing.

[42] Olson, Parmy (24 de junio de 2014). Googles Nest Moves To Become Master Of The Smart Home, By Talking
To Other Devices. Forbes.

[24] Seeger, Marc (21 de setiembre de 2009). Key-Value stores:


a practical overview. Consultado el 1 de enero de 2015.

[43] Reilly, Thomas; Korkusuz, Feza (2009). Science and Football VI. The proceedings of the Sixth World Congress on
Science and Football. p. 209. ISBN 0-203-89368-9.

[25] Bianchi Widder, Maria Beln (Setiembre 2012). Els benecis de ls de tecnologies NoSQL. UPCommons. Consultado el 1 de enero de 2015.
[26] Vila, M Amparo; Sanchez, Daniel; Escobar, Luis (2004).
Relaciones Causales en Reglas de Asociacin. XII Congreso Espaol sobre tecnologas y lgica Fuzzy.

[44] Wilson, N; Mason, M; Tobias, M; Peacey, M; Huang, Q S;


Baker, M (Eurosurveillance Edition 2009). Interpreting
Google Flu Trends data for pandemic H1N1 inuenza:
The New Zealand Experience. Eurosurveillance Edition
2009. 14 / Issue 44 (4).

[27] Manyika, James; Chui, Michael; Brown, Brad; Bughin,


Jacques; Dobbs, Richard; Roxburgh, Charles; Byers, Angela Hung (Mayo 2011). Big data: The next frontier
for innovation, competition, and productivity. McKinsey.
Consultado el 1 de enero de 2015.

[45] Carrillo Ruiz, Jose Antonio; Marco de Lucas, Jesus E.;


Cases Vega, Fernando; Dueas Lopez, Juan Carlos; Cristino Fernandez, Jose; Gonzalez Muoz de Morales, Guillermo; Pereda Laredo, Luis Fernando (Marzo 2013).
Big Data en los entornos de Defensa y Seguridad. Instituto Espaol de Estudios Estratgicos.

[28] Jain, A.K.; Murty, M.N.; Flynn, P.J. (Setiembre 1999).


Data Clustering: A Review. ACM Computing Surveys
31 (3). Consultado el 1 de enero de 2015.

[46] El BSC y Microsoft Research Center optimizarn Big


Data con el proyecto Aloja. Computing. 31 de julio de
2014. Consultado el 1 de enero de 2015.

[29] Maltby, Dylan (9 de octubre de 2011). Big Data Analytics. ASIST 2011 (New Orleans).

[47] How Big Data Is Helping to Save the Planet.. 15 de setiembre de 2014.

[30] Theus, Martin (2003). Interactive Data Visualization


using Mondrian. Journal of Statistical Software.
[31] Albarracn, Pablo (12 de agosto de 2013). Visualizacin
avanzada de datos: La belleza del Big Data. Revista Amrica Economa Tecno. Consultado el 18 de octubre de
2014.
[32] Social Recruiting Automation with Oracle Taleo Social
Sourcing Cloud Service. 2013.
[33] Bernstein, David (2014). How Big Data is taking recruiters from I Think to I Know.".
[34] McAfee, Andrew; Brynjolfsson, Eric (October 2012).
Big Data: The Management Revolution. Harvard Business Review.
[35] Lpez Revilla, Juan Carlos (14 de noviembre de 2013).
Las compaas de WiFi tracking en tiendas quieren
que sepas lo que est pasando. Mobile World Capital.
[36] Tucker, Patric (16 de mayo de 2013). Han hecho los
grandes volmenes de datos que el anonimato sea imposible?. MIT Technology Review.
[37] PersonicX Cluster Perspectives. 2010.
[38] McManus, John (2013). Street Wiser. American Demographics.
[39] Sevilla, Fernando (27 de enero de 2013). El Historial de
Ubicaciones de Android, qu sabe Google de tu posicin?.
[40] Zheng, Yu; Zhang, Lizhu; Zhengxin, Ma; Xie, Xing;
Ma, Wei-Ying (5 de febrero de 2011). Recommending
Friends and locations based on individual location history.. ACM Transactions on the Web 5 (1).
[41] Por qu quiere Google a Nest, una empresa de detectores
de humo.. ABC. 15 de enero de 2014.

6 Enlaces externos
Big Data ofrecido por las grandes empresas (SAP,
Oracle, Microsoft y otros)
Historia cronolgica del Big Data. Una lnea del
tiempo visual con los principales hitos de la historia del almacenamiento de la informacin.

7 ORIGEN DEL TEXTO Y LAS IMGENES, COLABORADORES Y LICENCIAS

Origen del texto y las imgenes, colaboradores y licencias

7.1

Texto

Big data Fuente: https://es.wikipedia.org/wiki/Big_data?oldid=85718545 Colaboradores: Petronas, Tamorlan, Gejotape, Davius, Fixertool,
Cinevoro, Efmpacheco, Alberthoven, Pascow, UA31, Walterfarah, Arjuno3, Koko10ar, AttoBot, Xqbot, Jkbw, FrescoBot, AnselmiJuan,
PatruBOT, EmausBot, ZroBot, Grillitus, MerlIwBot, KLBot2, Invadibot, Vichock, YFdyh-bot, Addbot, CamaradelaFuente, Kadeeirene,
Jarould, Crystallizedcarbon, BenjaBot, Josedarocha, Rubesan, Totecasanovas, Mercedes Gpe Contreras, Pinilla2 y Annimos: 36

7.2

Imgenes

Archivo:Bsc-nvidia-gpu.jpg Fuente: https://upload.wikimedia.org/wikipedia/commons/f/fc/Bsc-nvidia-gpu.jpg Licencia: FAL Colaboradores: http://www.bsc.es/plantillaA.php?cat_id=44 Artista original: Barcelona Supercomputing Center
Archivo:Commons-emblem-issue.svg Fuente: https://upload.wikimedia.org/wikipedia/commons/b/bc/Commons-emblem-issue.svg
Licencia: GPL Colaboradores: File:Gnome-emblem-important.svg Artista original: GNOME icon artists and User:ViperSnake151
Archivo:Infografia_NucleoLinux.png Fuente: https://upload.wikimedia.org/wikipedia/commons/e/ec/Infografia_NucleoLinux.png Licencia: CC BY 4.0 Colaboradores: www.cidetys.org.pa Artista original: Mnica Mora
Archivo:Viegas-UserActivityonWikipedia.gif
Fuente:
https://upload.wikimedia.org/wikipedia/commons/6/69/
Viegas-UserActivityonWikipedia.gif Licencia: CC BY 2.0 Colaboradores: User activity on Wikipedia Artista original: Fernanda
B. Vigas

7.3

Licencia del contenido

Creative Commons Attribution-Share Alike 3.0

También podría gustarte