Está en la página 1de 8

Big data

límites en el análisis debido a la gran cantidad de datos en


ciertas áreas, tales como la meteorología, la genómica,[7]
la conectómica, las complejas simulaciones de procesos
físicos[8] y las investigaciones relacionadas con los pro-
cesos biológicos y ambientales,[9] Las limitaciones tam-
bién afectan a los motores de búsqueda en internet, a los
sistemas finanzas y a la informática de negocios. Los da-
ta sets crecen en volumen debido en parte a la recolec-
ción masiva de información procedente de los sensores
inalámbricos y los dispositivos móviles (por ejemplo las
VANET), del constante crecimiento de los históricos de
aplicaciones (por ejemplo de los logs), cámaras (sistemas
de teledetección), micrófonos, lectores de identificación
por radiofrecuencia.[10][11] La capacidad tecnológica per
Un sistema de representación creado por IBM que muestra ma- cápita a nivel mundial para almacenar datos se dobla
crodatos que consisten en las ediciones de Wikipedia realizadas aproximadamente cada cuarenta meses desde los años
por el bot Pearle, mostrando su visualización más racional al ser ochenta.[12] Se estima que en 2012 cada día fueron crea-
acompañada de colores y posiciones en su representación. dos cerca de 2.5 trillones de bytes de datos (del inglés
quintillion, 2.5×1018 ).[13]

Big data, macrodatos,[1] datos masivos, inteligen-


cia de datos o datos a gran escala es un con-
cepto que hace referencia a conjuntos de datos tan
grandes que aplicaciones informáticas tradicionales del
1 Definición
procesamiento de datos no son suficientes para tratar con
ellos y a los procedimientos usados para encontrar patro- Big data o macrodatos es un término que hace referencia
nes repetitivos dentro de esos datos. En los textos cien- a una cantidad de datos tal que supera la capacidad del
tíficos en español con frecuencia se usa directamente el software convencional para ser capturados, administra-
término en inglés big data, tal como aparece en el ensayo dos y procesados en un tiempo razonable. El volumen de
de Viktor Schönberger: La revolución de los datos masi- los datos masivos crece constantemente. En 2012 se es-
vos.[2] timaba su tamaño de entre una docena de terabytes hasta
varios petabytes de datos en un único conjunto de datos.
La disciplina dedicada a los datos masivos se enmarca en
el sector de las tecnologías de la información y la comu- En la metodología MIKE2.0 dedicada a investigar temas
relacionados con la gestión de información, definen big
nicación. Esta disciplina se ocupa de todas las activida-
des relacionadas con los sistemas que manipulan grandes data[14] en términos de permutaciones útiles, compleji-
dad y dificultad para borrar registros individuales.
conjuntos de datos. Las dificultades más habituales vin-
culadas a la gestión de estas cantidades de datos se cen- Se ha definido también como datos lo suficientemente
tran en la recolección y el almacenamiento,[3] búsqueda, masivos, como para poner de relieve cuestiones y preocu-
compartición, análisis,[4] y visualización. La tendencia a paciones en torno a a la efectividad del anonimato desde
manipular enormes cantidades de datos se debe a la nece- una perspectiva más práctica que teórica.[15]
sidad en muchos casos de incluir dicha información para En 2001, en un informe de investigación que se funda-
la creación de informes estadísticos y modelos predicti- mentaba en congresos y presentaciones relacionadas,[16]
vos utilizados en diversas materias, como los análisis de la META Group (ahora Gartner) definía el crecimiento
negocio, publicitarios, los datos de enfermedades infec- constante de datos como una oportunidad y un reto para
ciosas, el espionaje y seguimiento a la población o la lu- investigar en el volumen, la velocidad y la variedad. Gart-
cha contra el crimen organizado.[5] ner continúa usando datos masivos como referencia.[17]
El límite superior de procesamiento ha ido creciendo a Además, grandes proveedores del mercado de datos ma-
lo largo de los años. De esta forma, los límites fijados sivos están desarrollando soluciones para atender las de-
en 2008 rondaban el orden de petabytes a zettabytes de mandas más críticas de cómo procesar tal cantidad de da-
datos.[6] Los científicos con cierta regularidad encuentran tos, como MapR y Cloudera.

1
2 2 TECNOLOGÍA

2 Tecnología • Transacciones de datos: la facturación, las llama-


das o las transacción entre cuentas generan infor-
Existen muchísimas herramientas para tratar con big da- mación que tratada pueden ser datos relevantes. Un
ta. Algunos ejemplos incluyen Hadoop, NoSQL, Cassan- ejemplo más claro lo encontraremos en las transac-
dra, Inteligencia empresarial, Aprendizaje automático y ciones bancarias: lo que el usuario conoce como un
MapReduce. Estas herramientas tratan con algunos de los ingreso de X euros, la computación lo interpreta-
tres tipos de big data:[18] rá como una acción llevada a cabo en una fecha y
momento determinado, en un lugar concreto, entre
unos usuarios registrados, y más metadatos.
• Datos estructurados: datos que tienen bien defini-
dos su longitud y su formato, como las fechas, los • Marketing electrónico y web: se generan una gran
números o las cadenas de caracteres. Se almacenan cantidad de datos cuando se navega por internet.
en tablas. Un ejemplo son las bases de datos relacio- Con la web 2.0 se ha roto el paradigma webmaster-
nales y las hojas de cálculo. contenido-lector y los mismos usuarios se convier-
ten en creadores de contenido gracias a su interac-
• Datos no estructurados: datos en el formato tal y ción con el sitio. Existen muchas herramientas de
como fueron recolectados, carecen de un formato seguimiento utilizadas en su mayoría con fines de
específico. No se pueden almacenar dentro de una marketing y análisis de negocio. Los movimientos
tabla ya que no se puede desgranar su información de ratón quedan grabados en mapas de calor y queda
a tipos básicos de datos. Algunos ejemplos son los registro de cuánto pasamos en cada página y cuándo
PDF, documentos multimedia, correos electrónicos las visitamos.
o documentos de texto.
• Máquina a máquina (machine to machine,
• Datos semiestructurados: datos que no se limitan M2M): son las tecnologías que comparten datos con
a campos determinados, pero que contiene marca- dispositivos: medidores, sensores de temperatura,
dores para separar los diferentes elementos. Es una de luz, de altura, de presión, de sonido… que trans-
información poco regular como para ser gestionada forman las magnitudes físicas o químicas y las con-
de una forma estándar. Estos datos poseen sus pro- vierten en datos. Existen desde hace décadas, pero
pios metadatos semiestructurados[19] que describen la llegada de las comunicaciones inalámbricas (Wi-
los objetos y las relaciones entre ellos, y pueden aca- Fi, Bluetooth, RFID…) ha revolucionado el mundo
bar siendo aceptados por convención. Un ejemplo es de los sensores. Algunos ejemplos son los GPS en
el HTML, el XML o el JSON. la automoción o los sensores de signos vitales en la
medicina.

2.1 Captura • Biométrica: son el conjunto de datos que pro-


vienen de la seguridad, defensa y servicios de
¿De dónde provienen todos estos datos? Los fabrica- inteligencia.[23] Son cantidades de datos generados
mos directa e indirectamente segundo tras segundo. Un por lectores biométricos como escáneres de retina,
iPhone hoy en día tiene más capacidad de cómputo que escáneres de huellas digitales, o lectores de cadenas
la NASA cuando el hombre llegó a la luna[20] por lo que de ADN. El propósito de estos datos es proporcionar
la cantidad de datos generados por persona y en unidad mecanismos de seguridad y suelen estar custodia-
de tiempo es muy grande. Catalogamos la procedencia de das por los ministerios de defensa y departamentos
los datos según las siguientes categorías:[21] de inteligencia. Un ejemplo de aplicación es el cru-
ce de ADN entre una muestra de un crimen y una
• Generados por las personas: el hecho de enviar muestra en nuestra base de datos.
correos electrónicos o mensajes por WhatsApp, pu-
blicar un estado en Facebook, tuitear contenidos
o responder a una encuesta por la calle son cosas 2.2 Transformación
que hacemos a diario y que crean nuevos datos y
metadatos que pueden ser analizados. Se estima que Una vez encontradas las fuentes de los datos necesarios,
cada minuto al día se envían más de 200 millones muy posiblemente dispongamos de un sinfín de tablas de
de correos electrónicos, se comparten más de 700 origen sin estar relacionadas. El siguiente objetivo consta
000 piezas de contenido en Facebook, se realizan en hacer que los datos se recojan en un mismo lugar y
dos millones de búsquedas en Google o se editan 48 darles un formato.
horas de vídeo en YouTube.[22] Por otro lado, las Aquí entran en juego las plataformas extraer, transformar
trazas de utilización en un sistema ERP, incluir re- y cargar (ETL). Su propósito es extraer los datos de las
gistros en una base de datos o introducir información diferentes fuentes y sistemas, para después hacer trans-
en una hoja de cálculo son otras formas de generar formaciones (conversiones de datos, limpieza de datos su-
estos datos. cios, cambios de formato…) y finalmente cargar los datos
2.4 Análisis de datos 3

en la base de datos o almacén de datos especificada.[24] de datos, agruparlos o reducirlos y cargarlos en otra co-
Un ejemplo de plataforma ETL es el Pentaho Data Inte- lección, y a Hadoop que es una tecnología de Apache di-
gration, más concretamente su aplicación Spoon. señada para almacenar y procesar grandes cantidades de
datos.

2.3 Almacenamiento NoSQL • Almacenamiento en grafo: las bases de datos en


grafo rompen con la idea de tablas y se basan en la
El término NoSQL se refiere a Not Only SQL y son sis-
teoría de grafos, donde se establece que la informa-
temas de almacenamiento que no cumplen con el esque-
ción son los nodos y las relaciones entre la infor-
ma entidad-relación.[25] Proveen un sistema de almace-
mación son las aristas,[28] algo similar en el modelo
namiento mucho más flexible y concurrente y permiten
relacional. Su mayor uso se contempla en casos de
manipular grandes cantidades de información de manera
relacionar grandes cantidades de datos que pueden
mucho más rápida que las bases de datos relacionales.
ser muy variables. Por ejemplo, los nodos pueden
Distinguimos cuatro grandes grupos de bases de datos contener objetos, variables y atributos diferentes en
NoSQL: unos y los otros. Las operaciones de join se sustitu-
yen por recorridos a través del grafo, y se guarda una
• Almacenamiento clave-valor (key-value): los da- lista de adyacencias entre los nodos.[26] Encontra-
tos se almacenan de forma similar a los mapas o mos un ejemplo en las redes sociales: en Facebook
diccionarios de datos, donde se accede al dato a par- cada nodo se considera un usuario, que puede te-
tir de una clave única.[26] Los valores (datos) son ais- ner aristas de amistad con otros usuarios, o aristas
lados e independientes entre ellos, y no son interpre- de publicación con nodos de contenidos. Soluciones
tados por el sistema. Pueden ser variables simples como Neo4J y GraphDB[28] son las más conocidas
como enteros o caracteres, u objetos. Por otro lado, dentro de las bases de datos en grafo.
este sistema de almacenamiento carece de una es-
tructura de datos clara y establecida, por lo que no • Almacenamiento orientado a columnas: por úl-
requiere un formateo de los datos muy estricto.[27] timo, el almacenamiento Column-Oriented es pa-
recido al Documental. Su modelo de datos es de-
finido como “un mapa de datos multidimensional
Son útiles para operaciones simples basadas en las claves.
poco denso, distribuido y persistente”.[26] Se orien-
Un ejemplo es el aumento de velocidad de carga de un si-
ta a almacenar datos con tendencia a escalar hori-
tio web que pueden utilizar diferentes perfiles de usuario,
zontalmente, por lo que permite guardar diferentes
teniendo mapeados los archivos que hay que incluir se-
atributos y objetos bajo una misma clave. A dife-
gún el id de usuario y que han sido calculados con ante-
rencia del documental y el clave-valor, en este caso
rioridad. Apache Cassandra es la tecnología de almace-
se pueden almacenar varios atributos y objetos, pero
namiento clave-valor más reconocida por los usuarios.[28]
no serán interpretables directamente por el sistema.
Permite agrupar columnas en familias y guardar la
• Almacenamiento documental: las bases de datos
información cronológicamente, mejorando el rendi-
documentales guardan un gran parecido con las ba-
miento. Esta tecnología se acostumbra a usar en ca-
ses de datos Clave-Valor, diferenciándose en el da-
sos con 100 o más atributos por clave.[28] Su pre-
to que guardan. Si en la anterior no requería una
cursor es BigTable de Google, pero han aparecido
estructura de datos concreta, en este caso guarda-
nuevas soluciones como HBase o HyperTable.
mos datos semiestructurados.[28] Estos datos pasan
a llamarse documentos, y pueden estar formateados
en XML, JSON, Binary JSON o el que acepte la 2.4 Análisis de datos
misma base de datos.
Teniendo los datos necesarios almacenados según di-
Todos los documentos tienen una clave única ferentes tecnologías de almacenamiento, nos daremos
con la que puede ser accedido e identificado cuenta que necesitaremos diferentes técnicas de análisis
explícitamente. Estos documentos no son opa- de datos como las siguientes:
cos al sistema, por lo que pueden ser interpreta-
dos y lanzar queries sobre ellos.[26] Un ejemplo
• Asociación: permite encontrar relaciones entre di-
que aclare cómo se usa lo encontramos en un
ferentes variables.[29] Bajo la premisa de causalidad,
blog: se almacena el autor, la fecha, el título, el
se pretende encontrar una predicción en el compor-
resumen y el contenido del post.
tamiento de otras variables. Estas relaciones pueden
ser los sistemas de ventas cruzadas en los comercios
CouchDB o MongoDB[28] son quizá las más conocidas. electrónicos.
Hay que hacer mención especial a MapReduce, una tec-
nología de Google inicialmente diseñada para su algorit- • Minería de datos (data mining): tiene como obje-
mo PageRank, que permite seleccionar un subconjunto tivo encontrar comportamientos predictivos. Englo-
4 3 UTILIDAD

ba el conjunto de técnicas que combina métodos es- diferentes análisis sobre nuestros datos, y son un mate-
tadísticos y de aprendizaje automático con almace- rial atractivo, entretenido y simplificado para audiencias
namiento en bases de datos.[30] Está estrechamente masivas.[34]
relacionada con los modelos utilizados para descu-
brir patrones en grandes cantidades de datos.

• Agrupación (clustering): el análisis de clústeres


3 Utilidad
es un tipo de minería de datos que divide gran-
des grupos de individuos en grupos más peque- Este conjunto de tecnologías se puede usar en una gran
ños de los cuales no conocíamos su parecido an- variedad de ámbitos, como los siguientes.
tes del análisis.[30] El propósito es encontrar simi-
litudes entre estos grupos, y el descubrimiento de
nuevos conociendo cuáles son las cualidades que lo
3.1 Empresarial
definen. Es una metodología apropiada para encon-
Redes sociales
trar relaciones entre resultados y hacer una evalua-
ción preliminar de la estructura de los datos anali-Cada vez más los internautas tienden a subir a las redes so-
zados. Existen diferentes técnicas y algoritmos de ciales toda su actividad y la de sus conocidos. Las empre-
clusterización.[31] sas utilizan esta información para cruzar los datos de los
candidatos a un trabajo. Oracle ha desarrollado una he-
• Análisis de texto (text analytics): gran parte de los rramienta llamada Taleo Social Sourcing,[35] la cual está
datos generados por las personas son textos, como integrada con las API de Facebook, Twitter y LinkedIn.
e-mails, búsquedas web o contenidos. Esta metodo- Gracias a su uso, los departamentos de recursos humanos
logía permite extraer información de estos datos y pueden ver, entrando la identidad del candidato, su per-
así modelar temas y asuntos o predecir palabras.[32] fil social y profesional en cuestión de segundos. Por otro
lado, les permite crear una lista de posibles candidatos
según el perfil profesional necesario, y así pasar a ofrecer
2.5 Visualización de datos el puesto de trabajo a un público mucho más objetivo.
Por otro lado, Gate Gourmet —una compañía de cáte-
rin para aerolíneas— experimentaba una tasa de aban-
dono del 50 % de sus trabajadores asignados al aeropuerto
de Chicago, y sospecharon que el problema existía en el
tiempo dedicado al viaje. Para demostrarlo, hicieron aná-
lisis juntando varios data sets de sus sistemas internos y
de otros externos como datos demográficos, datos de trá-
fico y datos de uso de redes sociales. Los resultados que
obtuvieron fueron patrones que relacionaban muy con-
sistentemente la alta tasa de abandono con la distancia
del lugar de trabajo a casa y la accesibilidad al transporte
Esto es una infografía público.[36]
Consumo
Tal y como el Instituto Nacional de Estadística dice en Amazon es líder en ventas cruzadas. El éxito se basa en la
sus tutoriales, “una imagen vale más que mil palabras, o minería de datos masiva basando los patrones de compra
que mil datos”. Nuestra mente agradecerá mucho más la de un usuario cruzados con los datos de compra de otro,
visualización amigable de unos resultados estadísticos en creando así anuncios personalizados y boletines electróni-
gráficos o mapas que no en tablas con números y con- cos que incluyen justo aquello que el usuario quiere en ese
clusiones. En los macrodatos se llega un paso más allá: instante.[37] También hay casos sin conexión de aplicacio-
parafraseando a Edward Tufte, uno de los expertos en nes de macrodatos. Los teléfonos móviles envían peticio-
visualización de datos más reconocidos a nivel mundial nes de escucha WiFi a todos los puntos de acceso que se
“El mundo es complejo, dinámico, multidimensional, el cruzan. Algunas compañías han decidido hacer un trazo
papel es estático y plano. ¿Cómo vamos a representar la de estas peticiones con su localización y dirección MAC
rica experiencia visual del mundo en la mera planicie?”. para saber qué dispositivo hace cuál ruta dentro de un re-
Mondrian[33] es una plataforma que permite visualizar la cinto. No hay que asustarse ya que con la dirección MAC
información a través de los análisis llevados a cabo sobre no pueden invadir la intimidad.[38] Las grandes superfi-
los datos que disponemos. Con esta plataforma se inten- cies aprovechan estos datos para sacar información como
ta llegar a un público más concreto, y una utilidad más contabilizar cuánto tiempo pasan los clientes en su inte-
acotada como un Cuadro de Mando Integral de una orga- rior, qué rutas siguen, dónde permanecen más tiempo (ya
nización. Por otro lado, las infografías se han vuelto un sea escogiendo un producto o el tiempo de espera en caja)
fenómeno viral, donde se recogen los resultados de los o cuál es la frecuencia de visita.
3.3 Investigación 5

Macrodatos e intimidad ordenadores instalados en los estadios, que registran los


La cantidad de datos creados anualmente es de 2.8 movimientos de los jugadores a razón de 25 registros por
zettabytes en 2012, de los cuales el 75 % son generados segundo, y luego envían los datos a una central donde ha-
por los individuos según su uso de la red ya sea bajarse un cen un análisis masivo de los datos. La información que
archivo, conectar el GPS o enviar un correo electrónico. se devuelve como resultado incluye una reproducción del
Se calcula que un oficinista medio genera 1.8 terabytes al partido en dos dimensiones, los datos técnicos y estadís-
año por lo que son unos 5 GB al día de información.[39] ticas, y un resumen de los datos físicos de cada jugador,
permitiendo seleccionar varias dimensiones y visualiza-
Aquí entran en juego las empresas llamadas corredores de ciones diferentes de datos.[46]
datos. Acxiom es una de ellas, y posee unas 1.500 trazas Aficionado
de datos de más de 500 millones de usuarios de internet.
Todos estos datos son transformados y cruzados para in- Aplicaciones como Runtastic, Garmin o Nike+ proveen
cluir al usuario analizado en uno de los 70 segmentos de de resultados big data al usuario. Este último —Nike+—
usuarios, llamado PersonicX.[40] Descrito como un “resu- va un paso más allá a nivel de organización, ya que fa-
men de indicadores de estilo de vida, intereses y activi- brican un producto básico para sus usuarios: las zapati-
dades”, esta correduría de datos basa su clusterización en llas. Los 7 millones de usuarios generan una gran canti-
los acontecimientos vitales y es capaz de predecir más de dad de datos para medir el rendimiento y su mejora, por
3 000 reacciones ante estímulos de estos clientes. En un lo que la empresa genera unos clústeres con los patrones
primer momento captaba la información de los hechos de comportamiento de sus usuarios. Uno de sus objetivos
reales y no virtuales de los usuarios.[41] En febrero de pues, es controlar el tiempo de vida de sus zapatillas en-
2013, Facebook acordó la cesión de la información per- contrando fórmulas para mejorar la calidad. Por último,
sonal de sus usuarios con Acxiom y otros corredores de aumenta la competitividad entre sus usuarios con el uso
datos haciendo cruzar las actividades de la vida off-line de la gamificación: establece que comunidades de usua-
con las actividades en línea [30]. rios lleguen a metas y consigan objetivos conjuntamente
con el uso de la aplicación, motivando e inspirando a los
A nivel usuario, nos encontramos con Google Location corredores para usar su aplicación y a más largo plazo,
History: un servicio de Google que registra las ubicacio- sus productos deportivos.
nes en las cuales ha estado un usuario que lleva el móvil
encima, y con el servicio de localización activado (que
por defecto lo está en los terminales con Android). Al
acceder a él muestra un mapa con las rutas que ha se-
3.3 Investigación
guido el usuario, con la hora de llegada y salida de cada
ubicación.[42] Gracias a esta utilidad se crean algoritmos Salud y medicina
de recomendaciones de amigos en redes sociales y ubica- Hacia mediados 2009, el mundo experimentó una pande-
ciones a visitar basados en el historial de ubicaciones del mia de gripe A, llamada gripe porcina o H1N1. El web-
usuario.[43] site Google Flu Trends fue capaz de predecirla gracias a
Por último, Google pagó 3.200 millones de dólares por los resultados de las búsquedas. Flu Trends usa los datos
Nest, una empresa de detectores de humo.[44] Ahora de las búsquedas de los usuarios que contienen “síntomas
Google ha abierto Nest Labs, donde se pretende desarro- parecidos a la enfermedad de la gripe” (Influenza-Like Ill-
llar sensores para convertir la casa en una Smart home. ness Symptoms) y los agrupa según ubicación y fecha, y
Incluir estos sensores permitirá saber por ejemplo cuán- es capaz de predecir la actividad de la gripe hasta con dos
do hay alguien o no en casa gracias a su interacción con semanas de antelación más que los sistemas tradicionales.
los wearables, a qué temperatura está el ambiente o de- Más concretamente en Nueva Zelanda[47] cruzaron los
tectar si hay algún peligro dentro como fuego.[45] datos de las tendencias de gripe de Google con datos exis-
tentes de los sistemas de salud nacionales, y comproba-
ron que estaban alineados. Los gráficos mostraron una
3.2 Deportes correlación con las búsquedas de síntomas relacionados
con la gripe y la extensión de la pandemia en el país.
Profesional Los países con sistemas de predicción poco desarrollados
En un ámbito donde se mueve tanto dinero, suelen utili- pueden beneficiarse de una predicción fiable y pública pa-
zar las nuevas tecnologías antes que los usuarios de base. ra abastecer a su población de las medidas de seguridad
Nos encontramos por ejemplo que el análisis de los parti- oportunas.
dos constituye una parte fundamental en el entrenamiento Defensa y seguridad
de los profesionales, y la toma de decisiones de los entre- Para incrementar la seguridad frente a los ataques de las
nadores. propias organizaciones, ya sean empresas en el entorno
Amisco[46] es un sistema aplicado por los más importan- económico o los propios ministerios de defensa en el en-
tes equipos de las ligas Española, Francesa, Alemana e torno de ciberataques, se contempla la utilidad de las tec-
Inglesa desde el 2001. Consta de 8 cámaras y diversos nologías de big data en escenarios como la vigilancia y se-
6 5 REFERENCIAS

guridad de fronteras, lucha contra el terrorismo y crimen [2] «"Los datos masivos (o big data) son el nuevo oro"». el-
organizado, contra el fraude, planes de seguridad ciuda- diario.es. Consultado el 2017-05-23.
dana o planeamiento táctico de misiones e inteligencia
[3] Kusnetzky, Dan. What is “Big Data?". ZDNet. http://
militar.[48]
blogs.zdnet.com/virtualization/?p=1708
Caso específico del proyecto Aloja
[4] Vance, Ashley. Start-Up Goes After Big Data With
Hadoop Helper. New York Times Blog. 22 de abril
de 2010. http://bits.blogs.nytimes.com/2010/04/22/
start-up-goes-after-big-data-with-hadoop-helper/?dbk

[5] Cukier, K. (25 February 2010). Data, data everyw-


here. The Economist. http://www.economist.com/
specialreports/displaystory.cfm?story_id=15557443

[6] Horowitz, Mark. Visualizing Big Data: Bar Charts for


Words. Wired Magazine. Vol 16 (7). 23 June 2008.
http://www.wired.com/science/discoveries/magazine/
16-07/pb_visualizing#ixzz0llT2DN5j. Volu 16(7)

[7] Community cleverness required. Nature, 455(7209),


1. 2008. http://www.nature.com/nature/journal/v455/
n7209/full/455001a.html

Una de las máquinas del Marenostrum, Supercomputador del [8] Sandia sees data management challenges spiral. HPC Pro-
BSC jects. 4 August 2009. http://www.hpcprojects.com/news/
news_story.php?news_id=922
El proyecto Aloja[49] ha sido iniciado por una apuesta
[9] Reichman,O.J., Jones, M.B., and Schildhauer, M.P. 2011.
en común del Barcelona Supercomputing Center (BSC)
Challenges and Opportunities of Open Data in Eco-
y Microsoft Research. El objetivo de este proyecto de logy. Science 331(6018): 703-705.DOI:10.1126/science.
big data quiere “conseguir una optimización automática 1197962
en despliegues de Hadoop en diferentes infraestructuras”.
[40] [10] Hellerstein, Joe. Parallel Programming in
the Age of Big Data. Gigaom Blog. 9 No-
Caso específico de sostenibilidad vember 2008. http://gigaom.com/2008/11/09/
Conservation International es una organización con el mapreduce-leads-the-way-for-parallel-programming/
propósito de concienciar a la sociedad de cuidar el en-
[11] Segaran, Toby and Hammerbacher, Jeff. Beautiful Data.
torno de una manera responsable y sostenible. Con la ayu- 1st Edition. O'Reilly Media. Pg 257.
da de la plataforma Vertica Analytics de HP, han situado
1.000 cámaras a lo largo de 16 bosques en 4 continentes. [12] “The World’s Technological Capacity to Store, Communi-
Estas cámaras incorporan unos sensores, y a modo de cá- cate, and Compute Information”, Martin Hilbert and Pris-
mara oculta graban el comportamiento de la fauna. Con cila López (2011), Science (journal), 332(6025), 60-65;
estas imágenes y los datos de los sensores (precipitacio- free access to the article through here: martinhilbert.net/
nes, temperatura, humedad, solar…) consiguen informa- WorldInfoCapacity.html
ción sobre cómo el cambio climático o el desgaste de la [13] http://www-01.ibm.com/software/data/bigdata/
tierra afecta en su comportamiento y desarrollo.[50]
[14] Big Data Definition

[15] > Douglas Patterson (2012), Big Ethics for Big Data
4 Véase también
[16] Douglas, Laney. «3D Data Management: Controlling Data
Volume, Velocity and Variety». Gartner. Consultado el 6
• ciencias de la computación
de febrero de 2001.
• Medios sociales [17] Beyer, Mark. «Gartner Says Solving 'Big Data' Challen-
ge Involves More Than Just Managing Volumes of Data».
• Internet de las cosas
Gartner. Consultado el 13 de julio de 2011.

[18] Purcell, Bernice (2013). «The emergence of Big Data


5 Referencias technology and Analytics». Holy Family University.

[19] Lopez García, David (2012-2013). Analysis of the possi-


[1] «macrodatos e inteligencia de datos, alternativas a big da- bilities of use of Big Data in organizations. Consultado el
ta». Consultado el 11 de abril de 2017. 18 de octubre de 2014.
7

[20] Paniagua, Soraya (Junio - septiembre 2013). «A world of [37] McAfee, Andrew; Brynjolfsson, Eric (October 2012).
sensors, from Data to Big Data». Revista Telos. «Big Data: The Management Revolution». Harvard Bu-
siness Review.
[21] “Conceptos básicos de Big Data”, TRC Informática SL,
2013. [38] López Revilla, Juan Carlos (14 de noviembre de 2013).
«Las compañías de «WiFi tracking» en tiendas quieren
[22] Paniagua, Soraya (junio-septiembre 2013). «A world of que sepas lo que está pasando». Mobile World Capital.
sensors, from Data to Big Data». Revista Telos.
[39] Tucker, Patric (16 de mayo de 2013). «¿Han hecho los
[23] Kohlwey, Edmund; Sussman, Abel; Trost, Jason; Maurer, grandes volúmenes de datos que el anonimato sea impo-
Amber (2011). «Leveraging the Cloud for Big Data Bio- sible?». MIT Technology Review.
metrics». IEEE World Congress on Services. [40] PersonicX Cluster Perspectives. 2010.
[24] Tomsen, Christian; Pedersen, Torben Bach (2009). [41] McManus, John (2013). «Street Wiser». American Demo-
«pygrametl: A Powerful Programming Framework for graphics.
Extract–Transform–Load Programmers». 1DB Technical
Report; No. 25, Department of Computer Science, Aalborg [42] Sevilla, Fernando (27 de enero de 2013). El Historial de
University. Ubicaciones de Android, ¿qué sabe Google de tu posición?.

[25] Martín, Adriana; Chávez, Susana; Rodríguez, Nelson R.; [43] Zheng, Yu; Zhang, Lizhu; Zhengxin, Ma; Xie, Xing;
Valenzuela, Adriana; Murazzo, Maria A. (2013). «Bases Ma, Wei-Ying (5 de febrero de 2011). «Recommending
de datos NoSql en cloud computing». WICC. Consultado Friends and locations based on individual location his-
el 18 de octubre de 2014. tory.». ACM Transactions on the Web 5 (1).

[44] «Por qué quiere Google a Nest, una empresa de detectores


[26] Hecht, Robin; Jablonski, Stefan (2011). «NoSQL Evalua- de humo.». ABC. 15 de enero de 2014.
tion, a use case oriented survey». International Conference
on Cloud and Service Computing. [45] Olson, Parmy (24 de junio de 2014). «Google’s Nest Mo-
ves To Become Master Of The Smart Home, By Talking
[27] Seeger, Marc (21 de septiembre de 2009). Key-Value sto- To Other Devices». Forbes.
res: a practical overview. Consultado el 1 de enero de
2015. [46] Reilly, Thomas; Korkusuz, Feza (2009). Science and Foot-
ball VI. The proceedings of the Sixth World Congress on
[28] Bianchi Widder, Maria Belén (septiembre de 2012). «Els Science and Football. p. 209. ISBN 0-203-89368-9.
beneficis de l’ús de tecnologies NoSQL». UPCommons.
Consultado el 1 de enero de 2015. [47] Wilson, N; Mason, M; Tobias, M; Peacey, M; Huang, Q S;
Baker, M (Eurosurveillance Edition 2009). «Interpreting
[29] Vila, M Amparo; Sanchez, Daniel; Escobar, Luis (2004). “Google Flu Trends” data for pandemic H1N1 influenza:
«Relaciones Causales en Reglas de Asociación». XII Con- The New Zealand Experience». Eurosurveillance Edition
greso Español sobre tecnologías y lógica Fuzzy. 2009. 14 / Issue 44 (4).

[48] Carrillo Ruiz, Jose Antonio; Marco de Lucas, Jesus E.;


[30] Manyika, James; Chui, Michael; Brown, Brad; Bughin,
Cases Vega, Fernando; Dueñas Lopez, Juan Carlos; Cris-
Jacques; Dobbs, Richard; Roxburgh, Charles; Byers, An-
tino Fernandez, Jose; Gonzalez Muñoz de Morales, Gui-
gela Hung (Mayo de 2011). «Big data: The next frontier
llermo; Pereda Laredo, Luis Fernando (Marzo de 2013).
for innovation, competition, and productivity». McKinsey.
«Big Data en los entornos de Defensa y Seguridad». Ins-
Consultado el 1 de enero de 2015.
tituto Español de Estudios Estratégicos.
[31] Jain, A.K.; Murty, M.N.; Flynn, P.J. (septiembre de [49] «El BSC y Microsoft Research Center optimizarán Big
1999). «Data Clustering: A Review». ACM Computing Data con el proyecto Aloja». Computing. 31 de julio de
Surveys 31 (3). Consultado el 1 de enero de 2015. 2014. Consultado el 1 de enero de 2015.
[32] Maltby, Dylan (9 de octubre de 2011). «Big Data Analy- [50] How Big Data Is Helping to Save the Planet.. 15 de sep-
tics». ASIST 2011 (New Orleans). tiembre de 2014.

[33] Theus, Martin (2003). «Interactive Data Visualization


using Mondrian». Journal of Statistical Software.
6 Enlaces externos
[34] Albarracín, Pablo (12 de agosto de 2013). «Visualización
avanzada de datos: La belleza del Big Data». Revista Amé- • Big Data ofrecido por las grandes empresas (SAP,
rica Economía Tecno. Archivado desde el original el 26 de Oracle, Microsoft y otros)
noviembre de 2015. Consultado el 18 de octubre de 2014.
• Las principales aplicaciones del Big Data
[35] Social Recruiting Automation with Oracle Taleo Social
Sourcing Cloud Service. 2013. • Historia cronológica del Big Data. Una línea del
tiempo visual con los principales hitos de la histo-
[36] Bernstein, David (2014). «How Big Data is taking recrui- ria del almacenamiento de la información.
ters from “I Think” to “I Know."».
8 7 ORIGEN DEL TEXTO Y LAS IMÁGENES, COLABORADORES Y LICENCIAS

7 Origen del texto y las imágenes, colaboradores y licencias


7.1 Texto
• Big data Fuente: https://es.wikipedia.org/wiki/Big_data?oldid=99394203 Colaboradores: Sabbut, Geom, RichardWeiss, Petronas, Jesu-
ja, Tamorlan, CEM-bot, Gejotape, Davius, Fixertool, Cinevoro, Technopat, Efmpacheco, Alberthoven, Pascow, UA31, Walterfarah, Ar-
juno3, Koko10ar, AttoBot, Stm17, Xqbot, Jkbw, Dan6hell66, FrescoBot, AnselmiJuan, Aguzanotti, PatruBOT, EmausBot, ZéroBot, Grilli-
tus, Khiari, MerlIwBot, KLBot2, Jaluj, Invadibot, Kyuutukanao, Vichock, Elvisor, YFdyh-bot, Rauletemunoz, Addbot, CamaradelaFuen-
te, Tininmartinez, Kadeeirene, Jarould, Crystallizedcarbon, BenjaBot, Josedarocha, Rubesan, Totecasanovas, Ablazquezg, Mercedes Gpe
Contreras, Pinilla2, Gabriel.valencia33, MasterFantasy, Melkart4k, Lectorenespañol, Egtgomez, Paquito123456789, MomijiRoBot, Julia
Lecha, Gjavier, Andrea.castanar y Anónimos: 78

7.2 Imágenes
• Archivo:Bsc-nvidia-gpu.jpg Fuente: https://upload.wikimedia.org/wikipedia/commons/f/fc/Bsc-nvidia-gpu.jpg Licencia: FAL Colabo-
radores: http://www.bsc.es/plantillaA.php?cat_id=44 Artista original: Barcelona Supercomputing Center
• Archivo:Commons-emblem-issue.svg Fuente: https://upload.wikimedia.org/wikipedia/commons/b/bc/Commons-emblem-issue.svg
Licencia: GPL Colaboradores: File:Gnome-emblem-important.svg Artista original: GNOME icon artists and User:ViperSnake151
• Archivo:Infografia_NucleoLinux.png Fuente: https://upload.wikimedia.org/wikipedia/commons/e/ec/Infografia_NucleoLinux.png Li-
cencia: CC BY 4.0 Colaboradores: www.cidetys.org.pa Artista original: Mónica Mora
• Archivo:Viegas-UserActivityonWikipedia.gif Fuente: https://upload.wikimedia.org/wikipedia/commons/6/69/
Viegas-UserActivityonWikipedia.gif Licencia: CC BY 2.0 Colaboradores: User activity on Wikipedia Artista original: Fernanda
B. Viégas

7.3 Licencia del contenido


• Creative Commons Attribution-Share Alike 3.0

También podría gustarte