Está en la página 1de 26

Macrodatos

Ir a la navegaci�nIr a la b�squeda

Un sistema de representaci�n creado por IBM que muestra macrodatos que consisten en
las ediciones de Wikipedia realizadas por el bot Pearle. Su visualizaci�n m�s
racional aparece acompa�ada de colores y posiciones en su representaci�n.
Los macrodatos,1? tambi�n llamados datos masivos, inteligencia de datos, datos a
gran escala o big data (terminolog�a en idioma ingl�s utilizada com�nmente) es un
t�rmino que hace referencia al concepto relativo a conjuntos de datos tan grandes y
complejos como para que hagan falta aplicaciones inform�ticas no tradicionales de
procesamiento de datos para tratarlos adecuadamente. Por ende, los procedimientos
usados para encontrar patrones repetitivos dentro de esos datos son m�s
sofisticados y requieren software especializado. En textos cient�ficos en espa�ol
con frecuencia se usa directamente el t�rmino en ingl�s big data, tal como aparece
en el ensayo de Viktor Sch�nberger La revoluci�n de los datos masivos.2?3?

El uso moderno del t�rmino "big data" tiende a referirse al an�lisis del
comportamiento del usuario, extrayendo valor de los datos almacenados, y formulando
predicciones a trav�s de los patrones observados. La disciplina dedicada a los
datos masivos se enmarca en el sector de las tecnolog�as de la informaci�n y la
comunicaci�n. Esta disciplina se ocupa de todas las actividades relacionadas con
los sistemas que manipulan grandes conjuntos de datos. Las dificultades m�s
habituales vinculadas a la gesti�n de estas cantidades de datos se centran en la
recolecci�n y el almacenamiento,4? b�squeda, compartici�n, an�lisis,5? y
visualizaci�n. La tendencia a manipular enormes cantidades de datos se debe a la
necesidad, en muchos casos, de incluir dicha informaci�n para la creaci�n de
informes estad�sticos y modelos predictivos utilizados en diversas materias, como
los an�lisis de negocio, publicitarios, los datos de enfermedades infecciosas, el
espionaje y seguimiento a la poblaci�n o la lucha contra el crimen organizado.6?

El l�mite superior de procesamiento ha ido creciendo a lo largo de los a�os.7? Se


estima que el mundo almacen� unos 5 zettabytes en 2014. Si se pone esta informaci�n
en libros, convirtiendo las im�genes y todo eso a su equivalente en letras, se
podr�a hacer 4500 pilas de libros que lleguen hasta el sol.8? Los cient�ficos con
cierta regularidad encuentran l�mites en el an�lisis debido a la gran cantidad de
datos en ciertas �reas, tales como la meteorolog�a, la gen�mica,9? la conect�mica,
las complejas simulaciones de procesos f�sicos10? y las investigaciones
relacionadas con los procesos biol�gicos y ambientales.11? Las limitaciones tambi�n
afectan a los motores de b�squeda en internet, a los sistemas de finanzas y a la
inform�tica de negocios. Los data sets crecen en volumen debido en parte a la
recolecci�n masiva de informaci�n procedente de los sensores inal�mbricos y los
dispositivos m�viles (por ejemplo las VANET), el constante crecimiento de los
hist�ricos de aplicaciones (por ejemplo de los registros), c�maras (sistemas de
teledetecci�n), micr�fonos, lectores de identificaci�n por radiofrecuencia.12?13?
La capacidad tecnol�gica per c�pita a nivel mundial para almacenar datos se dobla
aproximadamente cada cuarenta meses desde los a�os 1980.14? Se estima que en 2012
cada d�a fueron creados cerca de 2.5 trillones de bytes de datos.15?

Los sistemas de gesti�n de bases de datos relacionales y los paquetes de software


utilizados para visualizar datos, a menudo tienen dificultades para manejar big
data. Este trabajo puede requerir "un software masivamente paralelo que se ejecute
en decenas, cientos o incluso miles de servidores"16?. Lo que califica como "big
data" var�a seg�n las capacidades de los usuarios y sus herramientas, y las
capacidades de expansi�n hacen que big data sea un objetivo en movimiento. "Para
algunas organizaciones, enfrentar cientos de gigabytes de datos por primera vez
puede provocar la necesidad de reconsiderar las opciones de administraci�n de
datos. Para otros, puede tomar decenas o cientos de terabytes antes de que el
tama�o de los datos se convierta en una consideraci�n importante".17?
�ndice
1 Definici�n
2 Caracter�sticas
3 Arquitectura
4 Tecnolog�a
4.1 Captura
4.2 Transformaci�n
4.3 Almacenamiento NoSQL
4.4 An�lisis de datos
4.5 Visualizaci�n de datos
5 Aplicaciones
5.1 Gobierno
5.2 Desarrollo internacional
5.3 Industria
5.4 Medios
5.5 Seguros
5.6 Deportes
5.7 Finanzas
5.8 Marketing y ventas
6 Investigaci�n
6.1 Muestreo de big data
6.2 Salud y medicina
6.3 Defensa y seguridad
6.4 Caso espec�fico del proyecto Aloja
7 Cr�ticas
7.1 Cr�ticas al paradigma de los grandes datos
7.2 Cr�ticas del modelo 'V'
7.3 Cr�tica de la novedad
7.4 Cr�ticas de la ejecuci�n de big data
8 Requisitos de seguridad
9 Virtualizaci�n de big data
10 V�ase tambi�n
11 Referencias
12 Enlaces externos
Definici�n
El t�rmino ha estado en uso desde la d�cada de 1990, y algunos otorgan cr�dito a
John Mashey18? por popularizarlo. Big data o macrodatos es un t�rmino que hace
referencia a una cantidad de datos tal que supera la capacidad del software
convencional para ser capturados, administrados y procesados en un tiempo
razonable. El volumen de los datos masivos crece constantemente. En el 2012, se
estimaba su tama�o de entre una docena de terabytes hasta varios petabyte de datos
en un �nico conjunto de datos. En la metodolog�a MIKE2.0, dedicada a investigar
temas relacionados con la gesti�n de informaci�n, definen big data19? en t�rminos
de permutaciones �tiles, complejidad y dificultad para borrar registros
individuales.

Se ha definido tambi�n como datos lo suficientemente masivos como para poner de


relieve cuestiones y preocupaciones en torno a la efectividad del anonimato desde
una perspectiva m�s pr�ctica que te�rica.20?

En el 2001, en un informe de investigaci�n que se fundamentaba en congresos y


presentaciones relacionadas,21? la META Group (ahora Gartner) defin�a el
crecimiento constante de datos como una oportunidad y un reto para investigar en el
volumen, la velocidad y la variedad. Gartner' contin�a usando datos masivos como
referencia.22? Adem�s, grandes proveedores del mercado de datos masivos est�n
desarrollando soluciones para atender las demandas m�s cr�ticas sobre c�mo procesar
tal cantidad de datos, como MapR y Cloudera.
Una definici�n de 2016 establece que "Big data representa los activos de
informaci�n caracterizados por un volumen, velocidad y variedad tan altos que
requieren una tecnolog�a espec�fica y m�todos anal�ticos para su transformaci�n en
valor".23? Adem�s, algunas organizaciones agregan una nueva V, veracidad para
describirlo,24? revisionismo cuestionado por algunas autoridades de la
industria.25? Las tres V (volumen, variedad y velocidad) se han ampliado a otras
caracter�sticas complementarias del big data:

aprendizaje autom�tico: los grandes datos a menudo no preguntan por qu� y


simplemente detectan los patrones26?
huella digital: el big data es a menudo un subproducto libre de costo de la
interacci�n digital
Una definici�n de 2018 establece que "Big Data es donde se necesitan herramientas
inform�ticas paralelas para manejar los datos", y se�ala: "Esto representa un
cambio distinto y claramente definido en la inform�tica utilizada a trav�s de
teor�as de programaci�n paralelas y p�rdidas de algunas de las garant�as y
capacidades hechas por el modelo relacional de Codd ".27?

La creciente madurez del concepto describe de manera m�s n�tida la diferencia entre
"big data" y "business intelligence":

La business intelligence usa estad�sticas descriptivas con datos con alta densidad
de informaci�n para medir cosas, detectar tendencias, etc.
big data usa estad�sticas inductivas y conceptos de identificaci�n de sistemas no
lineales28? para inferir leyes (regresiones, relaciones no lineales y efectos
causales) a partir de grandes conjuntos de datos con baja densidad de informaci�n
para revelar relaciones y dependencias, o para realizar predicciones de resultados
y comportamientos.29?
Caracter�sticas
Los macrodatos se pueden describir por las siguientes caracter�sticas:30?

Volumen: la cantidad de datos generados y guardados.


Variedad: el tipo y naturaleza de los datos para ayudar a las personas a analizar
los datos y usar los resultados de forma eficaz. Los macrodatos usan textos,
im�genes, audio y v�deo. Tambi�n completan pedazos �Que pedazos? pedidos a trav�s
de la fusi�n de datos.
Velocidad: en este contexto, la velocidad a la cual se generan y procesan los datos
para cumplir las exigencias y desaf�os de su an�lisis.
Veracidad: la calidad de los datos capturados puede variar mucho y as� afectar a
los resultados del an�lisis.
Valor: los datos generados deben ser �tiles, accionables y tener valor.31?
Arquitectura
Los repositorios de big data han existido en muchas formas, a menudo creadas por
corporaciones con una necesidad especial. Hist�ricamente, los proveedores
comerciales ofrec�an sistemas de administraci�n de bases de datos paralelos para
big data a partir de la d�cada de 1990. Durante muchos a�os, WinterCorp public� un
informe de base de datos m�s grande.32?

Teradata Corporation en 1984, comercializ� el sistema de procesamiento paralelo DBC


1012. Los sistemas Teradata fueron los primeros en almacenar y analizar 1 terabyte
de datos en 1992. Los discos duros eran de 2,5 GB en 1991, por lo que la definici�n
de big data evoluciona continuamente seg�n la Ley de Kryder. Teradata instal� el
primer sistema basado en RDBMS de clase petabyte en 2007. A partir de 2017, hay
unas pocas docenas de bases de datos relacionales de Teradata de clase Petabyte
instaladas, la mayor de las cuales excede de 50 PB. Los sistemas hasta 2008 eran
datos relacionales estructurados al 100%. Desde entonces, Teradata ha agregado
tipos de datos no estructurados, incluidos XML, JSON y Avro.
En 2000, Seisint Inc. (ahora LexisNexis Group) desarroll� un marco de intercambio
de archivos distribuido basado en C++ para el almacenamiento y consultas de datos.
El sistema almacena y distribuye datos estructurados, semiestructurados y no
estructurados en varios servidores. Los usuarios pueden crear consultas en un
dialecto de C++ llamado ECL. ECL utiliza un m�todo de "aplicar esquema en lectura"
para inferir la estructura de los datos almacenados cuando se consulta, en lugar de
cuando se almacena. En 2004, LexisNexis adquiri� Seisint Inc.33? y en 2008 adquiri�
ChoicePoint, Inc.34?y su plataforma de procesamiento paralelo de alta velocidad.
Las dos plataformas se fusionaron en sistemas HPCC (o cluster de computaci�n de
alto rendimiento) y en 2011, HPCC fue de c�digo abierto bajo la licencia Apache
v2.0. Quantcast File System estuvo disponible aproximadamente al mismo tiempo.35?

El CERN y otros experimentos de f�sica han recopilado grandes conjuntos de datos


durante muchas d�cadas, generalmente analizados a trav�s de computadoras de alto
rendimiento (supercomputadores) en lugar de las arquitecturas de mapas reducidos de
productos, que generalmente se refieren al movimiento actual de "big data".

En 2004, Google public� un documento sobre un proceso llamado MapReduce que utiliza
una arquitectura similar. El concepto MapReduce proporciona un modelo de
procesamiento en paralelo, y se lanz� una implementaci�n asociada para procesar
grandes cantidades de datos. Con MapReduce, las consultas se dividen y distribuyen
a trav�s de nodos paralelos y se procesan en paralelo (el paso del Mapa). Los
resultados se recopilan y se entregan (el paso Reducir). El marco fue muy exitoso,
por lo que otros quisieron replicar el algoritmo. Por lo tanto, una implementaci�n
del marco MapReduce fue adoptada por un proyecto de c�digo abierto Apache llamado
Hadoop.36?Apache Spark se desarroll� en 2012 en respuesta a las limitaciones del
paradigma MapReduce, ya que agrega la capacidad de configurar muchas operaciones
(no solo el mapa seguido de la reducci�n).

MIKE2.0 es un enfoque abierto para la administraci�n de la informaci�n que reconoce


la necesidad de revisiones debido a las implicaciones de big data identificadas en
un art�culo titulado "Oferta de soluciones de Big Data".37?La metodolog�a aborda el
manejo de big data en t�rminos de permutaciones �tiles de fuentes de datos,
complejidad en interrelaciones y dificultad para eliminar (o modificar) registros
individuales.38?

Los estudios de 2012 mostraron que una arquitectura de capas m�ltiples es una
opci�n para abordar los problemas que presenta el big data. Una arquitectura
paralela distribuida distribuye datos entre m�ltiples servidores; estos entornos de
ejecuci�n paralela pueden mejorar dr�sticamente las velocidades de procesamiento de
datos. Este tipo de arquitectura inserta datos en un DBMS paralelo, que implementa
el uso de los marcos MapReduce y Hadoop. Este tipo de marco busca hacer que el
poder de procesamiento sea transparente para el usuario final mediante el uso de un
servidor de aplicaciones para el usuario.39?

El an�lisis de big data para aplicaciones de fabricaci�n se comercializa como una


arquitectura 5C (conexi�n, conversi�n, cibern�tica, cognici�n y configuraci�n).40?

El lago de datos permite que una organizaci�n cambie su enfoque del control
centralizado a un modelo compartido para responder a la din�mica cambiante de la
administraci�n de la informaci�n. Esto permite una segregaci�n r�pida de datos en
el lago de datos, lo que reduce el tiempo de sobrecarga.41?42?

Tecnolog�a
Existen much�simas herramientas para el manejo de big data. Algunos ejemplos
incluyen Hadoop, NoSQL, Cassandra, inteligencia empresarial, aprendizaje autom�tico
y MapReduce. Estas herramientas tratan con algunos de los tres tipos de big
data:43?
Datos estructurados: datos que tienen bien definidos su longitud y su formato, como
las fechas, los n�meros o las cadenas de caracteres. Se almacenan en tablas. Un
ejemplo son las bases de datos relacionales y los almacenes de datos.
Datos no estructurados: datos en el formato tal y como fueron recolectados, carecen
de un formato espec�fico. No se pueden almacenar dentro de una tabla ya que no se
puede desgranar su informaci�n a tipos b�sicos de datos. Algunos ejemplos son los
PDF, documentos multimedia, correos electr�nicos o documentos de texto.
Datos semiestructurados: datos que no se limitan a campos determinados, pero que
contiene marcadores para separar los diferentes elementos. Es una informaci�n poco
regular como para ser gestionada de una forma est�ndar. Estos datos poseen sus
propios metadatos semiestructurados44? que describen los objetos y las relaciones
entre ellos, y pueden acabar siendo aceptados por convenci�n. Como ejemplos tenemos
los archivos tipo hojas de c�lculo, HTML, XML o JSON.
Un informe de 2011 del McKinsey Global Institute caracteriza los componentes
principales y el ecosistema de big data de la siguiente manera:45?

T�cnicas para analizar datos, como pruebas A / B, aprendizaje autom�tico y


procesamiento del lenguaje natural
Grandes tecnolog�as de datos, como inteligencia de negocios, computaci�n en la nube
y bases de datos
Visualizaci�n, como tablas, gr�ficos y otras visualizaciones de los datos
Los big data multidimensionales tambi�n se pueden representar como cubos de datos
o, matem�ticamente, tensores. Los sistemas de bases de datos Array se han propuesto
proporcionar almacenamiento y soporte de consultas de alto nivel en este tipo de
datos. Las tecnolog�as adicionales que se aplican a big data incluyen un c�lculo
basado en tensor eficiente,46? como el aprendizaje de subespacio multilineal,47?
bases de datos de procesamiento paralelo masivo (MPP), aplicaciones basadas en
b�squeda, extracci�n de datos,48? sistemas de archivos distribuidos, bases de datos
distribuidas, nube e infraestructura basada en HPC(aplicaciones, almacenamiento y
recursos inform�ticos)49? e Internet. A pesar de que se han desarrollado muchos
enfoques y tecnolog�as, sigue siendo dif�cil llevar a cabo el aprendizaje
autom�tico con grandes datos.50?

Algunas bases de datos relacionales de MPP tienen la capacidad de almacenar y


administrar petabytes de datos. Impl�cita es la capacidad de cargar, supervisar,
realizar copias de seguridad y optimizar el uso de las tablas de datos de gran
tama�o en el RDBMS.51?

El programa de An�lisis Topol�gico de Datos de DARPA busca la estructura


fundamental de los conjuntos de datos masivos y en 2008 la tecnolog�a se hizo
p�blica con el lanzamiento de una compa��a llamada Ayasdi.52?

Los profesionales de los procesos de an�lisis de big data generalmente son hostiles
al almacenamiento compartido m�s lento,53? prefieren el almacenamiento de conexi�n
directa (DAS) en sus diversas formas, desde unidad de estado s�lido (SSD) hasta
disco SATA de gran capacidad enterrado dentro de nodos de procesamiento paralelo.
La percepci�n de las arquitecturas de almacenamiento compartidas, la red de �rea de
almacenamiento (SAN) y el almacenamiento conectado a la red (NAS), es que son
relativamente lentas, complejas y costosas. Estas cualidades no son consistentes
con los sistemas de an�lisis de datos grandes que prosperan en el rendimiento del
sistema, infraestructura de productos b�sicos y bajo costo.

La entrega de informaci�n real o casi en tiempo real es una de las caracter�sticas


definitorias del an�lisis de big data. Por lo tanto, se evita la latencia siempre
que sea posible. Los datos en la memoria son buenos; los datos en el disco
giratorio en el otro extremo de una conexi�n FC SAN no lo son. El costo de una SAN
en la escala necesaria para las aplicaciones anal�ticas es mucho mayor que otras
t�cnicas de almacenamiento.
Hay ventajas y desventajas para el almacenamiento compartido en el an�lisis de big
data, pero los practicantes de an�lisis de big data a partir de 2011 no lo
favorecieron.

Captura
�De d�nde provienen todos estos datos? Los fabricamos directa e indirectamente
segundo tras segundo. Un iPhone hoy en d�a tiene m�s capacidad de c�mputo que la
NASA cuando el ser humano lleg� a la Luna,54? por lo que la cantidad de datos
generados por persona y en unidad de tiempo es muy grande. Catalogamos la
procedencia de los datos seg�n las siguientes categor�as:55?

Generados por las propias personas. El hecho de enviar correos electr�nicos o


mensajes por WhatsApp, publicar un estado en Facebook, publicar relaciones
laborales en Linkedin, tuitear contenidos o responder a una encuesta por la calle
son cosas que hacemos a diario y que crean nuevos datos y metadatos que pueden ser
analizados. Se estima que cada minuto al d�a se env�an m�s de 200 millones de
correos electr�nicos, se comparten m�s de 700 000 piezas de contenido en Facebook,
se realizan dos millones de b�squedas en Google o se editan 48 horas de v�deo en
YouTube.56? Por otro lado, las trazas de utilizaci�n en un sistema ERP, incluir
registros en una base de datos o introducir informaci�n en una hoja de c�lculo son
otras formas de generar estos datos.
Obtenidas a partir de transacciones. La facturaci�n, tarjetas de fidelizaci�n, las
llamadas telef�nicas, las conexiones torres de telefon�a, los accesos a wifis
p�blicas, el pago con tarjetas de cr�dito o las transacciones entre cuentas
bancarias generan informaci�n que tratada puede ser datos relevantes. Por ejemplo
transacciones bancarias: Lo que el usuario conoce como un ingreso de X euros, el
sistema lo capturar� como una acci�n llevada a cabo en una fecha y momento
determinado, en un lugar concreto, entre unos usuarios registrados, y con ciertos
metadatos.
Mercadotecnia electr�nica y web. Se genera una gran cantidad de datos cuando se
navega por internet. Con la web 2.0 se ha roto el paradigma webmaster-contenido-
lector y los mismos usuarios se convierten en creadores de contenido gracias a su
interacci�n con el sitio. Existen muchas herramientas de seguimiento utilizadas en
su mayor�a con fines de mercadotecnia y an�lisis de negocio. Los movimientos de
rat�n quedan grabados en mapas de calor y queda registro de cu�nto pasamos en cada
p�gina y cu�ndo las visitamos.
Obtenidos a partir de las interacciones m�quina a m�quina (M2M). Son datos
obtenidos a partir de la recogida de m�tricas obtenidas desde dispositivos
(medidores, sensores de temperatura, de luz, de altura, de presi�n, de sonido�) que
transforman las magnitudes f�sicas o qu�micas y las convierten en datos. Existen
desde hace d�cadas, pero la llegada de las comunicaciones inal�mbricas (wifi,
Bluetooth, RFID, etc.) ha revolucionado el mundo de los sensores. Algunos ejemplos
son los GPS en la automoci�n, los sensores de signos vitales (muy �til para seguros
de vida), pulseras en los festivales57?, monitorizadores del funcionamiento y
conducci�n de auto?oviles (se obtiene informaci�n muy �til para la
aseguradoras)58?, los smartphone (son sensores de localizaci�n).
Datos biom�tricos recolectados. En general provienen de servicios de seguridad,
defensa y servicios de inteligencia.59? Son cantidades de datos generados por
lectores biom�tricos como esc�neres de retina, esc�neres de huellas digitales, o
lectores de cadenas de ADN. El prop�sito de estos datos es proporcionar mecanismos
de seguridad y suelen estar custodiados por los ministerios de defensa y
departamentos de inteligencia. Un ejemplo de aplicaci�n es el cruce de ADN entre
una muestra de un crimen y una muestra en nuestra base de datos.
Transformaci�n
Una vez encontradas las fuentes de los datos necesarios, muy posiblemente
dispongamos de un sinf�n de tablas de origen que no estar�n relacionadas. El
siguiente objetivo es hacer que los datos se recojan en un mismo lugar y darles un
formato adecuado.
Aqu� entran en juego las plataformas extraer, transformar y cargar (ETL). Su
prop�sito es extraer los datos de las diferentes fuentes y sistemas, para despu�s
hacer transformaciones (conversiones de datos, limpieza de datos sucios, cambios de
formato, etc.) y finalmente cargar los datos en la base de datos o almac�n de datos
especificada.60? Un ejemplo de plataforma ETL es el Pentaho Data Integration, m�s
concretamente su aplicaci�n Spoon.

Almacenamiento NoSQL
El t�rmino NoSQL se refiere a Not Only SQL (no solo SQL) y son sistemas de
almacenamiento que no cumplen con el esquema entidad-relaci�n.61? Proveen un
sistema de almacenamiento mucho m�s flexible y concurrente y permiten manipular
grandes cantidades de informaci�n de manera mucho m�s r�pida que las bases de datos
relacionales.

Distinguimos cuatro grandes grupos de bases de datos NoSQL:

Almacenamiento clave-valor (key-value): los datos se almacenan de forma similar a


los mapas o diccionarios de datos, donde se accede al dato a partir de una clave
�nica.62? Los valores (datos) son aislados e independientes entre ellos, y no son
interpretados por el sistema. Pueden ser variables simples como enteros o
caracteres, u objetos. Por otro lado, este sistema de almacenamiento carece de una
estructura de datos clara y establecida, por lo que no requiere un formateo de los
datos muy estricto.63?
Son �tiles para operaciones simples basadas en las claves. Un ejemplo es el aumento
de velocidad de carga de un sitio web que puede utilizar diferentes perfiles de
usuario, teniendo mapeados los archivos que hay que incluir seg�n el id de usuario
y que han sido calculados con anterioridad. Apache Cassandra es la tecnolog�a de
almacenamiento clave-valor m�s reconocida por los usuarios.64?

Almacenamiento documental: las bases de datos documentales guardan un gran parecido


con las bases de datos Clave-Valor, diferenci�ndose en el dato que guardan. Si en
el anterior no se requer�a una estructura de datos concreta, en este caso guardamos
datos semiestructurados.64? Estos datos pasan a llamarse documentos, y pueden estar
formateados en XML, JSON, Binary JSON o el que acepte la misma base de datos.
Todos los documentos tienen una clave �nica con la que pueden ser accedidos e
identificados expl�citamente. Estos documentos no son opacos al sistema, por lo que
pueden ser interpretados y lanzar queries sobre ellos.62? Un ejemplo que aclare
c�mo se usa lo encontramos en un blog: se almacena el autor, la fecha, el t�tulo,
el resumen y el contenido del post.
CouchDB o MongoDB64? son quiz� las m�s conocidas. Hay que hacer menci�n especial a
MapReduce, una tecnolog�a de Google inicialmente dise�ada para su algoritmo
PageRank, que permite seleccionar un subconjunto de datos, agruparlos o reducirlos
y cargarlos en otra colecci�n, y a Hadoop que es una tecnolog�a de Apache dise�ada
para almacenar y procesar grandes cantidades de datos.

Almacenamiento en grafo: las bases de datos en grafo rompen con la idea de tablas y
se basan en la teor�a de grafos, donde se establece que la informaci�n son los
nodos y las relaciones entre la informaci�n son las aristas,64? algo similar al
modelo relacional. Su mayor uso se contempla en casos de relacionar grandes
cantidades de datos que pueden ser muy variables. Por ejemplo, los nodos pueden
contener objetos, variables y atributos diferentes en unos y otros. Las operaciones
de join se sustituyen por recorridos a trav�s del grafo, y se guarda una lista de
adyacencias entre los nodos.62? Encontramos un ejemplo en las redes sociales: en
Facebook cada nodo se considera un usuario, que puede tener aristas de amistad con
otros usuarios, o aristas de publicaci�n con nodos de contenidos. Soluciones como
Neo4J y GraphDB64? son las m�s conocidas dentro de las bases de datos en grafo.
Almacenamiento orientado a columnas: por �ltimo, este almacenamiento es parecido al
documental. Su modelo de datos es definido como �un mapa de datos multidimensional
poco denso, distribuido y persistente�.62? Se orienta a almacenar datos con
tendencia a escalar horizontalmente, por lo que permite guardar diferentes
atributos y objetos bajo una misma clave. A diferencia del documental y el clave-
valor, en este caso se pueden almacenar varios atributos y objetos, pero no ser�n
interpretables directamente por el sistema. Permite agrupar columnas en familias y
guardar la informaci�n cronol�gicamente, mejorando el rendimiento. Esta tecnolog�a
se acostumbra a usar en casos con 100 o m�s atributos por clave.64? Su precursor es
BigTable de Google, pero han aparecido nuevas soluciones como HBase o HyperTable.
An�lisis de datos
El an�lisis permite mirar los datos y explicar lo que esta pasando. Teniendo los
datos necesarios almacenados seg�n diferentes tecnolog�as de almacenamiento, nos
daremos cuenta que necesitaremos diferentes t�cnicas de an�lisis de datos como las
siguientes:

Asociaci�n: permite encontrar relaciones entre diferentes variables.65? Bajo la


premisa de causalidad, se pretende encontrar una predicci�n en el comportamiento de
otras variables. Estas relaciones pueden ser los sistemas de ventas cruzadas en los
comercios electr�nicos.
Miner�a de datos (data mining): tiene como objetivo encontrar comportamientos
predictivos. Engloba el conjunto de t�cnicas que combina m�todos estad�sticos y de
aprendizaje autom�tico con almacenamiento en bases de datos.66? Est� estrechamente
relacionada con los modelos utilizados para descubrir patrones en grandes
cantidades de datos.
Agrupaci�n (clustering): el an�lisis de cl�steres es un tipo de miner�a de datos
que divide grandes grupos de individuos en grupos m�s peque�os de los cuales no
conoc�amos su parecido antes del an�lisis.66? El prop�sito es encontrar similitudes
entre estos grupos, y el descubrimiento de nuevos, conociendo cu�les son las
cualidades que lo definen. Es una metodolog�a apropiada para encontrar relaciones
entre resultados y hacer una evaluaci�n preliminar de la estructura de los datos
analizados. Existen diferentes t�cnicas y algoritmos de clusterizaci�n.67?
An�lisis de texto (text analytics): gran parte de los datos generados por las
personas son textos, como correos, b�squedas web o contenidos. Esta metodolog�a
permite extraer informaci�n de estos datos y as� modelar temas y asuntos o predecir
palabras.68?
Visualizaci�n de datos

Esto es una infograf�a.


Tal y como el Instituto Nacional de Estad�stica dice en sus tutoriales, �una imagen
vale m�s que mil palabras o que mil datos�. La mente agradece mucho m�s una
presentaci�n bien estructurada de resultados estad�sticos en gr�ficos o mapas en
vez de en tablas con n�meros y conclusiones. En los macrodatos se llega un paso m�s
all�: parafraseando a Edward Tufte, uno de los expertos en visualizaci�n de datos
m�s reconocidos a nivel mundial �el mundo es complejo, din�mico, multidimensional,
el papel es est�tico y plano. �C�mo vamos a representar la rica experiencia visual
del mundo en la mera planicie?�.

Mondrian69? es una plataforma que permite visualizar la informaci�n a trav�s de los


an�lisis llevados a cabo sobre los datos que disponemos. Con esta plataforma se
intenta llegar a un p�blico m�s concreto, y una utilidad m�s acotada como un cuadro
de mando integral de una organizaci�n. En los �ltimos a�os se han generalizado
otras plataformas como Tableau, Power BI y Qlik70?.

Por otro lado, las infograf�as se han vuelto un fen�meno viral, donde se recogen
los resultados de los diferentes an�lisis sobre nuestros datos, y son un material
atractivo, entretenido y simplificado para audiencias masivas.71?

Aplicaciones
El uso de big data ha sido utilizado por la industria de los medios, las empresas y
los gobiernos para dirigirse con mayor precisi�n a su p�blico y aumentar la
eficiencia de sus mensajes.
El big data ha aumentado la demanda de especialistas en administraci�n de la
informaci�n tanto que Software AG, Oracle Corporation, IBM, Microsoft, SAP, EMC, HP
y Dell han gastado m�s de $ 15 mil millones en firmas de software especializadas en
administraci�n y an�lisis de datos. En 2010, esta industria val�a m�s de $ 100 mil
millones y crec�a a casi un 10 por ciento anual: aproximadamente el doble de r�pido
que el negocio del software en general.72?

Las econom�as desarrolladas usan cada vez m�s tecnolog�as intensivas en datos. Hay
4.600 millones de suscripciones de tel�fonos m�viles en todo el mundo, y entre
1.000 y 2.000 millones de personas que acceden a Internet. Entre 1990 y 2005, m�s
de mil millones de personas en todo el mundo ingresaron a la clase media, lo que
significa que m�s personas se volvieron m�s alfabetizadas, lo que a su vez llev� al
crecimiento de la informaci�n. La capacidad efectiva mundial para intercambiar
informaci�n a trav�s de redes de telecomunicaciones era de 281 petabytes en 1986,
471 petabytes en 1993, 2.2 exabytes en 2000, 65 exabytes en 200773? y las
predicciones cifran el tr�fico de internet en 667 exabytes anualmente para 2014.
Seg�n una estimaci�n, un tercio de la informaci�n almacenada en todo el mundo est�
en forma de texto alfanum�rico e im�genes fijas,74? que es el formato m�s �til para
la mayor�a de las aplicaciones de big data. Esto tambi�n muestra el potencial de
los datos a�n no utilizados (es decir, en forma de contenido de video y audio).

Si bien muchos proveedores ofrecen soluciones est�ndar para big data, los expertos
recomiendan el desarrollo de soluciones internas personalizadas para resolver el
problema de la compa��a si la empresa cuenta con capacidades t�cnicas
suficientes.75?

Gobierno
El uso y la adopci�n de big data dentro de los procesos gubernamentales permite
eficiencias en t�rminos de costo, productividad e innovaci�n, pero no viene sin sus
defectos76?. El an�lisis de datos a menudo requiere que varias partes del gobierno
(central y local) trabajen en colaboraci�n y creen procesos nuevos para lograr el
resultado deseado.

Los datos masivos se usan habitualmente para influenciar el proceso democr�tico.


Los representantes del pueblo pueden ver todo lo que hacen los ciudadanos, y los
ciudadanos pueden dictar la vida p�blica de los representantes mediante tuits y
otros m�todos de extender ideas en la sociedad. Las campa�as presidenciales de
Obama y Trump los usaron de manera generalizada77? y hay expertos que advierten de
que hay que �reinventar la democracia representativa. Si no, es posible que se
convierta en una dictadura de la informaci�n�78?.

El Banco Interamericano de Desarrollo (BID) ha desarrollado estudios en Am�rica


Latina en los que presenta distintos casos del uso de Macrodatos en el dise�o e
implementaci�n de pol�ticas p�blicas. Destacando intervenciones en temas de
movilidad urbana, ciudades intelgientes y seguridad, entre otras tem�ticas. Las
recomendacione de los mismos han girado en torno a c�mo construir instituciones
p�blicas que logren, mediante el uso de datos masivos, a ser m�s transparentes y
ayuden a tomar mejores decisiones.79?

Desarrollo internacional
La investigaci�n sobre el uso efectivo de las tecnolog�as de informaci�n y
comunicaci�n para el desarrollo (tambi�n conocido como ICT4D) sugiere que la
tecnolog�a de big data puede hacer contribuciones importantes pero tambi�n
presentar desaf�os �nicos para el desarrollo internacional.80?81? Los avances en el
an�lisis de big data ofrecen oportunidades rentables para mejorar la toma de
decisiones en �reas de desarrollo cr�ticas como la atenci�n m�dica, el empleo, la
productividad econ�mica, la delincuencia, la seguridad y el manejo de recursos y
desastres naturales.82? Adem�s, los datos generados por el usuario ofrecen nuevas
oportunidades para ofrecer una voz inaudita. Sin embargo, los desaf�os de larga
data para las regiones en desarrollo, como la infraestructura tecnol�gica
inadecuada y la escasez de recursos econ�micos y humanos exacerban las
preocupaciones existentes con los grandes datos, como la privacidad, la metodolog�a
imperfecta y los problemas de interoperabilidad.82?

Industria
El big data proporciona una infraestructura para la transparencia en la industria
manufacturera, que es la capacidad de desentra�ar incertidumbres como el
rendimiento y la disponibilidad de componentes inconsistentes. La fabricaci�n
predictiva como un enfoque aplicable para el tiempo de inactividad y la
transparencia cercanos a cero requiere una gran cantidad de datos y herramientas de
predicci�n avanzadas para un proceso sistem�tico de datos en informaci�n �til.83?
Un marco conceptual de fabricaci�n predictiva comienza con la adquisici�n de datos
donde se encuentran disponibles diferentes tipos de datos sensoriales, tales como
ac�stica, vibraci�n, presi�n, corriente, voltaje y datos de controlador. Una gran
cantidad de datos sensoriales, adem�s de los datos hist�ricos, construyen los
grandes datos en la fabricaci�n. Los big data generados act�an como la entrada en
herramientas predictivas y estrategias preventivas como Pron�sticos y Gesti�n de
Salud (PHM).84?

Medios
Los profesionales en medios y publicidad abordan los grandes datos como muchos
puntos de informaci�n procesables sobre millones de personas. La industria parece
alejarse del enfoque tradicional de utilizar entornos de medios espec�ficos, como
peri�dicos, revistas o programas de televisi�n, y en su lugar aprovecha a los
consumidores con tecnolog�as que llegan a las personas objetivo en momentos �ptimos
en ubicaciones �ptimas. El objetivo final es servir o transmitir, un mensaje o
contenido que (estad�sticamente hablando) est� en l�nea con la mentalidad del
consumidor. Por ejemplo, los entornos de publicaci�n adaptan cada vez m�s los
mensajes (anuncios publicitarios) y el contenido (art�culos) para atraer a los
consumidores que han sido recolectados exclusivamente a trav�s de diversas
actividades de extracci�n de datos.85?

Orientaci�n de los consumidores (para publicidad de los vendedores)86?


Miner�a de datos
Periodismo de datos: los editores y los periodistas usan herramientas de Big Data
para proporcionar informaci�n e infograf�as �nicas e innovadoras.
Seguros
Los proveedores de seguro m�dico recopilan datos sobre "determinantes sociales",
como el consumo de alimentos y televisi�n, el estado civil, el tama�o de la
vestimenta y los h�bitos de compra, desde los cuales hacen predicciones sobre los
costos de salud para detectar problemas de salud en sus clientes. Es controvertido
si estas predicciones se est�n utilizando actualmente para fijar precios.87?

Deportes
En un �mbito donde se mueve tanto dinero, suelen utilizar las nuevas tecnolog�as
antes que los usuarios de base. Nos encontramos por ejemplo que el an�lisis de los
partidos constituye una parte fundamental en el entrenamiento de los profesionales,
y la toma de decisiones de los entrenadores.

Amisco88? es un sistema aplicado por los m�s importantes equipos de las ligas
Espa�ola, Francesa, Alemana e Inglesa desde el 2001. Consta de 8 c�maras y diversos
ordenadores instalados en los estadios, que registran los movimientos de los
jugadores a raz�n de 25 registros por segundo, y luego env�an los datos a una
central donde hacen un an�lisis masivo de los datos. La informaci�n que se devuelve
como resultado incluye una reproducci�n del partido en dos dimensiones, los datos
t�cnicos y estad�sticas, y un resumen de los datos f�sicos de cada jugador,
permitiendo seleccionar varias dimensiones y visualizaciones diferentes de
datos.88?

Finanzas
El crecimiento de datos en el mundo financiero obliga al uso del big data para el
procesamiento r�pido de datos, gesti�n de la omnicanalidad, segmentaci�n avanzada
de clientes, creaci�n de estrategias de precios din�micos, gesti�n de riesgos,
prevenci�n de fraudes, apoyo en la toma de decisiones, detectar tendencias de
consumo, definir nuevas formas de hacer mejor las cosas, detectar alertas y otro
tipo de eventos complejos, hacer un seguimiento avanzado de la competencia.89?

Marketing y ventas
El big data cada vez se utiliza m�s para segmentaci�n avanzada de los consumidores,
automatizar la personalizaci�n de los productos, adaptar las comunicaciones al
momento del ciclo de venta, captar nuevas oportunidades de venta, apoyo en la toma
de decisiones a tiempo real, gesti�n de crisis.90?91?

Investigaci�n
La b�squeda encriptada y la formaci�n de cl�ster en big data se demostraron en
marzo de 2014 en la Sociedad Estadounidense de Educaci�n en Ingenier�a. Gautam
Siwach particip� en abordar los desaf�os de Big Data por el Laboratorio de Ciencias
de la Computaci�n e Inteligencia Artificial del MIT y Amir Esmailpour, en el Grupo
de Investigaci�n de UNH, investig� las caracter�sticas clave de Big Data como la
formaci�n de clusters y sus interconexiones. Se centraron en la seguridad de los
macrodatos y la orientaci�n del t�rmino hacia la presencia de diferentes tipos de
datos en forma cifrada en la interfaz de la nube al proporcionar las definiciones
sin procesar y los ejemplos de tiempo real dentro de la tecnolog�a. Adem�s,
propusieron un enfoque para identificar la t�cnica de codificaci�n para avanzar
hacia una b�squeda acelerada sobre texto encriptado que conduzca a las mejoras de
seguridad en big data.92?

En marzo de 2012, la Casa Blanca anunci� una "Iniciativa de Big Data" nacional que
consist�a en seis departamentos y agencias federales comprometiendo m�s de $ 200
millones para proyectos de investigaci�n de big data.

La iniciativa incluy� una subvenci�n de la National Science Foundation "Expeditions


in Computing" de $ 10 millones durante 5 a�os para el AMPLab93? en la Universidad
de California, Berkeley.94? El AMPLab tambi�n recibi� fondos de DARPA, y m�s de una
docena de patrocinadores industriales y utiliza big data para atacar una amplia
gama de problemas, desde predecir la congesti�n del tr�fico95? hasta combatir el
c�ncer.96?

La Iniciativa Big Data de la Casa Blanca tambi�n incluy� un compromiso del


Departamento de Energ�a de proporcionar $ 25 millones en financiamiento durante 5
a�os para establecer el Instituto de Administraci�n, An�lisis y Visualizaci�n de
Datos Escalables (SDAV),97? dirigido por Lawrence Berkeley National Laboratory del
Departamento de Energ�a. Laboratorio. El Instituto SDAV tiene como objetivo reunir
la experiencia de seis laboratorios nacionales y siete universidades para
desarrollar nuevas herramientas que ayuden a los cient�ficos a gestionar y
visualizar datos en las supercomputadoras del Departamento.

El estado de Massachusetts anunci� la Iniciativa Big Data de Massachusetts en mayo


de 2012, que proporciona fondos del gobierno estatal y de empresas privadas a una
variedad de instituciones de investigaci�n. El Instituto de Tecnolog�a de
Massachusetts alberga el Centro de Ciencia y Tecnolog�a de Intel para Big Data en
el Laboratorio de Ciencias de la Computaci�n e Inteligencia Artificial del MIT, que
combina fondos y esfuerzos de investigaci�n gubernamentales, corporativos e
institucionales.98?

La Comisi�n Europea est� financiando el Foro p�blico privado de Big Data, que dur�
dos a�os, a trav�s de su S�ptimo Programa de Framework para involucrar a empresas,
acad�micos y otras partes interesadas en la discusi�n de problemas de big data. El
proyecto tiene como objetivo definir una estrategia en t�rminos de investigaci�n e
innovaci�n para guiar las acciones de apoyo de la Comisi�n Europea en la
implementaci�n exitosa de la econom�a de big data. Los resultados de este proyecto
se utilizar�n como aportaci�n para Horizonte 2020, su pr�ximo programa.

El gobierno brit�nico anunci� en marzo de 2014 la fundaci�n del Instituto Alan


Turing, que lleva el nombre del pionero de la inform�tica y el descifrador de
c�digos, que se centrar� en nuevas formas de recopilar y analizar grandes conjuntos
de datos.99?

En el D�a de la Inspiraci�n del Canadian Open Data Experience (CODE) de la


Universidad de Waterloo Stratford Campus, los participantes demostraron c�mo el uso
de la visualizaci�n de datos puede aumentar la comprensi�n y el atractivo de los
grandes conjuntos de datos y comunicar su historia al mundo.100?

Para que la fabricaci�n sea m�s competitiva en los Estados Unidos (y en el mundo),
es necesario integrar m�s ingenio e innovaci�n estadounidenses en la fabricaci�n;
Por lo tanto, la National Science Foundation ha otorgado al centro de investigaci�n
cooperativa Industry Industry para Intelligent Maintenance Systems (IMS) en la
Universidad de Cincinnati para que se concentre en el desarrollo de herramientas y
t�cnicas predictivas avanzadas aplicables en un entorno de big data.101? En mayo de
2013, el IMS Center celebr� una reuni�n de la junta asesora de la industria
centrada en big data, donde presentadores de varias compa��as industriales
discutieron sus preocupaciones, problemas y objetivos futuros en el entorno de big
data.

Ciencias sociales computacionales: cualquier persona puede usar Interfaces de


programaci�n de aplicaciones (API) proporcionadas por grandes titulares de datos,
como Google y Twitter, para realizar investigaciones en las ciencias sociales y del
comportamiento.102? A menudo, estas API se proporcionan de forma gratuita. Tobias
Preis us� los datos de Tendencias de Google para demostrar que los usuarios de
Internet de pa�ses con un producto interno bruto (PIB) per c�pita m�s alto tienen
m�s probabilidades de buscar informaci�n sobre el futuro que la informaci�n sobre
el pasado. Los hallazgos sugieren que puede haber un v�nculo entre el
comportamiento en l�nea y los indicadores econ�micos del mundo real.103?104?105?
Los autores del estudio examinaron los registros de consultas de Google realizados
por la relaci�n del volumen de b�squedas para el a�o siguiente ('2011') con el
volumen de b�squedas del a�o anterior ('2009'), al que denominaron '�ndice de
orientaci�n futura'.106? Compararon el �ndice de orientaci�n futura con el PIB per
c�pita de cada pa�s y encontraron una fuerte tendencia en los pa�ses donde los
usuarios de Google informan m�s sobre el futuro para tener un PIB m�s alto. Los
resultados sugieren que potencialmente puede haber una relaci�n entre el �xito
econ�mico de un pa�s y el comportamiento de b�squeda de informaci�n de sus
ciudadanos capturado en Big Data.

Tobias Preis y sus colegas Helen Susannah Moat y H. Eugene Stanley introdujeron un
m�todo para identificar los precursores en l�nea de los movimientos burs�tiles,
utilizando estrategias de negociaci�n basadas en los datos del volumen de b�squedas
provistos por Google Trends.107? Su an�lisis del volumen de b�squeda de Google para
98 t�rminos de relevancia financiera variable, publicado en Scientific Reports,108?
sugiere que los aumentos en el volumen de b�squeda para t�rminos de b�squeda
relevantes financieramente tienden a preceder grandes p�rdidas en los mercados
financieros.109?110?111?112?113?114?

Los grandes conjuntos de datos vienen con desaf�os algor�tmicos que anteriormente
no exist�an. Por lo tanto, existe una necesidad de cambiar fundamentalmente las
formas de procesamiento.
Los talleres sobre algoritmos para conjuntos de datos masivos modernos (MMDS)
re�nen a cient�ficos inform�ticos, estad�sticos, matem�ticos y profesionales del
an�lisis de datos para analizar los desaf�os algor�tmicos del big data.115?

Muestreo de big data


Una pregunta de investigaci�n importante que se puede hacer sobre los conjuntos de
datos grandes es si necesita ver los datos completos para sacar ciertas
conclusiones sobre las propiedades de los datos o si una muestra es lo
suficientemente buena. El nombre big data contiene un t�rmino relacionado con el
tama�o, y esta es una caracter�stica importante de big data. Pero el muestreo
(estad�sticas) permite la selecci�n de puntos de datos correctos dentro del
conjunto de datos m�s grande para estimar las caracter�sticas de toda la poblaci�n.
Por ejemplo, hay alrededor de 600 millones de tweets producidos todos los d�as. �Es
necesario mirarlos a todos para determinar los temas que se discuten durante el
d�a? �Es necesario mirar todos los tweets para determinar el sentimiento sobre cada
uno de los temas? En la fabricaci�n de diferentes tipos de datos sensoriales, como
ac�stica, vibraci�n, presi�n, corriente, voltaje y datos del controlador est�n
disponibles en intervalos de tiempo cortos. Para predecir el tiempo de inactividad,
puede que no sea necesario examinar todos los datos, pero una muestra puede ser
suficiente. Big data se puede desglosar por varias categor�as de puntos de datos,
como datos demogr�ficos, psicogr�ficos, de comportamiento y transaccionales. Con
grandes conjuntos de puntos de datos, los especialistas en marketing pueden crear y
utilizar segmentos de consumidores m�s personalizados para una orientaci�n m�s
estrat�gica.

Se han realizado algunos trabajos en algoritmos de muestreo para big data. Se ha


desarrollado una formulaci�n te�rica para el muestreo de datos de Twitter.116?

Salud y medicina
Hacia mediados del 2009, el mundo experiment� una pandemia de gripe A, llamada
gripe porcina o H1N1. La web Google Flu Trends117? intent� predecirla a partir de
los resultados de las b�squedas. Google Flu Trends usaba los datos de las b�squedas
de los usuarios que conten�an s�ntomas parecidos a la enfermedad de la gripe y los
agrup� seg�n ubicaci�n y fecha, y pretend�a predecir la actividad de la gripe hasta
con dos semanas de antelaci�n m�s que los sistemas tradicionales. Sin embargo, en
el 2013 se descubri� que predijo el doble de visitas al m�dico de las que hubo en
realidad. Sus creadores cometieron dos errores: a) la nueva herramienta hab�a
generado much�simo inter�s en el p�blico, que la consultaba m�s por curiosidad que
por necesidad, lo que gener� ruido en la informaci�n, y b) los algoritmos de
predicci�n de los buscadores. En un art�culo en la revista Science en el 2014, se
analizaron los errores cometidos por Google Flu Trends: "querer sustituir con
t�cnicas de datos masivos los m�todos m�s tradicionales y probados de recolecci�n y
an�lisis de datos, en vez de s�lo aplicar dichas t�cnicas como complemento, como
hizo Brittany Wenger con Cloud4cancer." Google Flu Trends dej� de funcionar.118?

M�s concretamente, en Nueva Zelanda119? cruzaron los datos de las tendencias de


gripe de Google con datos existentes de los sistemas de salud nacionales, y
comprobaron que estaban alineados. Los gr�ficos mostraron una correlaci�n con las
b�squedas de s�ntomas relacionados con la gripe y la extensi�n de la pandemia en el
pa�s. Los pa�ses con sistemas de predicci�n poco desarrollados pueden beneficiarse
de una predicci�n fiable y p�blica para abastecer a su poblaci�n de las medidas de
seguridad oportunas.

Entre 1853 y 1854, en Londres, una epidemia de c�lera mat� a miles de personas. El
m�dico John Snow estudi� los registros de defunciones, y descubri� que la mayor
parte de los casos se presentaron en un barrio espec�fico: las personas hab�an
bebido agua de un mismo pozo. Cuando lo clausuraron, el n�mero de casos comenz� a
disminuir.120?
En el 2012, en la Feria de Ciencias de Google, Brittany Wenger, estudiante de 18
a�os, present� el proyecto de dise�o de un software para ayudar al diagn�stico
temprano del c�ncer de mama. Denomin� a la plataforma Cloud4cancer, que utiliza una
red de inteligencia artificial y las bases de datos de los hospitales para
diferenciar una muestra de un tejido benigno de una de un tumor maligno. El sistema
inteligente dise�ado por Wenger distingue en segundos los dos tipo de tumores,
ingresando a la plataforma las caracter�sticas observadas. Es posible que este
sistema se aplique m�s adelante a otros padecimientos, como la leucemia.121?

Defensa y seguridad
Para incrementar la seguridad frente a los ataques de las propias organizaciones,
ya sean empresas en el entorno econ�mico o los propios ministerios de defensa en el
entorno de ciberataques, se contempla la utilidad de las tecnolog�as de big data en
escenarios como la vigilancia y seguridad de fronteras, lucha contra el terrorismo
y crimen organizado, contra el fraude, planes de seguridad ciudadana o planeamiento
t�ctico de misiones e inteligencia militar.122?

Caso espec�fico del proyecto Aloja

Una de las m�quinas del Marenostrum, Supercomputador del BSC


El proyecto Aloja123? ha sido iniciado por una apuesta en com�n del Barcelona
Supercomputing Center (BSC) y Microsoft Research. El objetivo de este proyecto de
big data quiere �conseguir una optimizaci�n autom�tica en despliegues de Hadoop en
diferentes infraestructuras�. [40]

Caso espec�fico de sostenibilidad

Conservation International es una organizaci�n con el prop�sito de concienciar a la


sociedad de cuidar el entorno de una manera responsable y sostenible. Con la ayuda
de la plataforma Vertica Analytics de HP, han situado 1000 c�maras a lo largo de
diecis�is bosques en cuatro continentes. Estas c�maras incorporan unos sensores, y
a modo de c�mara oculta graban el comportamiento de la fauna. Con estas im�genes y
los datos de los sensores (precipitaciones, temperatura, humedad, solar�) consiguen
informaci�n sobre c�mo el cambio clim�tico o el desgaste de la tierra afecta en su
comportamiento y desarrollo.124?

Cr�ticas
Las cr�ticas al paradigma del big data vienen en dos formas, aquellas que
cuestionan las implicaciones del enfoque en s� mismo, y las que cuestionan la forma
en que se realiza actualmente.125? Un enfoque de esta cr�tica es el campo de los
estudios de datos cr�ticos.

Cr�ticas al paradigma de los grandes datos


"Un problema crucial es que no sabemos mucho sobre los microprocesos emp�ricos
subyacentes que conducen a la aparici�n de las [se] caracter�sticas de red t�picas
de Big Data".126? En su cr�tica, Snijders, Matzat y Reips se�alan que a menudo se
hacen suposiciones muy fuertes sobre las propiedades matem�ticas que pueden no
reflejar en absoluto lo que realmente est� sucediendo a nivel de los microprocesos.
Mark Graham ha criticado ampliamente la afirmaci�n de Chris Anderson de que los
macrodatos marcar�n el final de la teor�a:127? centr�ndose en particular en la
noci�n de que los macrodatos siempre deben contextualizarse en sus contextos
sociales, econ�micos y pol�ticos.128? Incluso cuando las empresas invierten sumas
de ocho y nueve cifras para obtener informaci�n de la transmisi�n de informaci�n de
proveedores y clientes, menos del 40% de los empleados tienen procesos y
habilidades suficientemente maduros para hacerlo. Para superar este d�ficit de
perspicacia, los grandes datos, sin importar cu�n exhaustivos o bien analizados, se
complementen con un "gran juicio", seg�n un art�culo de Harvard Business
Review.129?
En la misma l�nea, se ha se�alado que las decisiones basadas en el an�lisis de big
data inevitablemente "est�n informadas por el mundo como lo fueron en el pasado o,
en el mejor de los casos, como lo es actualmente". Alimentados por una gran
cantidad de datos sobre experiencias pasadas, los algoritmos pueden predecir el
desarrollo futuro si el futuro es similar al pasado.130? Si la din�mica de sistemas
del futuro cambia (si no es un proceso estacionario), el pasado puede decir poco
sobre el futuro. Para hacer predicciones en entornos cambiantes, ser�a necesario
tener un conocimiento profundo de la din�mica de los sistemas, que requiere teor�a.
Como respuesta a esta cr�tica, Alemany Oliver y Vayre sugirieron usar el
"razonamiento abductivo como un primer paso en el proceso de investigaci�n para
traer contexto a las huellas digitales de los consumidores y hacer que emerjan
nuevas teor�as".131? Adem�s, se ha sugerido combinar enfoques de big data con
simulaciones por computadora, tales como modelos basados ??en agentes y Sistemas
Complejos. Los modelos basados ??en agentes son cada vez mejores para predecir el
resultado de las complejidades sociales de escenarios futuros incluso desconocidos
a trav�s de simulaciones por computadora que se basan en una colecci�n de
algoritmos mutuamente interdependientes.132?133? Finalmente, el uso de m�todos
multivariantes que exploran la estructura latente de los datos, como el an�lisis
factorial y el an�lisis de conglomerados, han demostrado ser �tiles como enfoques
anal�ticos que van m�s all� de los enfoques bi-variados (tablas cruzadas)
t�picamente empleados con conjuntos de datos m�s peque�os.

En salud y biolog�a, los enfoques cient�ficos convencionales se basan en la


experimentaci�n. Para estos enfoques, el factor limitante es la informaci�n
relevante que puede confirmar o refutar la hip�tesis inicial.134? Ahora se acepta
un nuevo postulado en ciencias biol�gicas: la informaci�n provista por los datos en
grandes vol�menes (�micas) sin hip�tesis previas es complementaria y a veces
necesaria para los enfoques convencionales basados ??en la experimentaci�n.135? En
los enfoques masivos, la formulaci�n de una hip�tesis relevante para explicar los
datos es el factor limitante.136? La l�gica de b�squeda se invierte y se deben
considerar los l�mites de la inducci�n ("Gloria de la ciencia y el esc�ndalo de la
filosof�a", C. D. Broad, 1926).

Los defensores de la privacidad est�n preocupados por la amenaza a la privacidad


que representa el aumento del almacenamiento y la integraci�n de la informaci�n de
identificaci�n personal; los paneles de expertos han publicado varias
recomendaciones de pol�ticas para adaptar la pr�ctica a las expectativas de
privacidad.137?138?139? El uso indebido de Big Data en varios casos por los medios,
las empresas e incluso el gobierno ha permitido la abolici�n de la confianza en
casi todas las instituciones fundamentales que sostienen a la sociedad.140?

Nayef Al-Rodhan sostiene que se necesitar� un nuevo tipo de contrato social para
proteger las libertades individuales en un contexto de Big Data y corporaciones
gigantes que poseen grandes cantidades de informaci�n. El uso de Big Data deber�a
supervisarse y regularse mejor a nivel nacional e internacional.141? Barocas y
Nissenbaum argumentan que una forma de proteger a los usuarios individuales es
informando sobre los tipos de informaci�n que se recopila, con qui�n se comparte,
bajo qu� limitaciones y con qu� fines.142?

Cr�ticas del modelo 'V'


El modelo 'V' de Big Data es concertante ya que se centra en la escalabilidad
computacional y carece de una p�rdida en torno a la perceptibilidad y la
comprensibilidad de la informaci�n. Esto llev� al marco de Cognitive Big Data, que
caracteriza la aplicaci�n Big Data de acuerdo con:143?

Completar los datos: comprensi�n de lo no obvio de los datos;


Correlaci�n de datos, causalidad y predictibilidad: la causalidad como requisito no
esencial para lograr la previsibilidad;
Explicaci�n e interpretaci�n: los seres humanos desean comprender y aceptar lo que
entienden, donde los algoritmos no lo resuelven;
Nivel de toma de decisiones automatizada: algoritmos que respaldan la toma de
decisiones automatizada y el autoaprendizaje algor�tmico;
Cr�tica de la novedad
Grandes conjuntos de datos han sido analizados por m�quinas de computaci�n durante
m�s de un siglo, incluida la anal�tica del censo estadounidense realizada en 1890
por las m�quinas de tarjetas perforadas de IBM que computaron estad�sticas que
inclu�an medias y variaciones de poblaciones en todo el continente. En d�cadas m�s
recientes, experimentos cient�ficos como el CERN han producido datos en escalas
similares a los "grandes datos" comerciales actuales. Sin embargo, los experimentos
cient�ficos han tendido a analizar sus datos utilizando clusters y grids
especializados de computaci�n de alto rendimiento (supercomputaci�n), en lugar de
nubes de computadoras b�sicas baratas como en la ola comercial actual, lo que
implica una diferencia en la cultura y la tecnolog�a.

Cr�ticas de la ejecuci�n de big data


Ulf-Dietrich Reips y Uwe Matzat escribieron en 2014 que el big data se hab�a
convertido en una "moda" en la investigaci�n cient�fica. La investigadora danah
boyd ha expresado su preocupaci�n sobre el uso de big data en la ciencia,
descuidando principios como elegir una muestra representativa por estar demasiado
preocupado por manejar grandes cantidades de datos.144? Este enfoque puede generar
sesgos en los resultados de una forma u otra. La integraci�n a trav�s de recursos
de datos heterog�neos -algunos que pueden considerarse grandes datos y otros no-
presenta desaf�os log�sticos y anal�ticos formidables, pero muchos investigadores
sostienen que tales integraciones probablemente representen las nuevas fronteras
m�s prometedoras en la ciencia.145? En el provocativo art�culo "Preguntas cr�ticas
para Big Data"146?, los autores titulan big data como parte de la mitolog�a: "los
grandes conjuntos de datos ofrecen una forma superior de inteligencia y
conocimiento [...], con el aura de la verdad, la objetividad y precisi�n ". Los
usuarios de big data a menudo "se pierden en el gran volumen de n�meros", y
"trabajar con Big Data sigue siendo subjetivo, y lo que cuantifica no
necesariamente tiene un reclamo m�s cercano sobre la verdad objetiva". Los
desarrollos recientes en el dominio de BI, como los informes proactivos, apuntan
especialmente a mejoras en la usabilidad de big data, a trav�s del filtrado
automatizado de datos y correlaciones no �tiles.147?

El an�lisis de big data suele ser poco profundo en comparaci�n con el an�lisis de
conjuntos de datos m�s peque�os. [194] En muchos proyectos de big data, no hay
grandes an�lisis de datos, pero el desaf�o es extraer, transformar y cargar parte
del preprocesamiento de datos.148?

Big data es una palabra de moda y un "t�rmino vago",149?150? pero al mismo tiempo
una "obsesi�n" con empresarios, consultores, cient�ficos y medios de comunicaci�n.
Las muestras de datos grandes como Google Flu Trends no generaron buenas
predicciones en los �ltimos a�os, lo que exager� los brotes de gripe en un factor
de dos. Del mismo modo, los premios de la Academia y las predicciones electorales
basadas �nicamente en Twitter fueron m�s a menudo fuera del objetivo. Los grandes
datos a menudo presentan los mismos desaf�os que los datos peque�os; agregar m�s
datos no resuelve los problemas de sesgo, pero puede enfatizar otros problemas. En
particular, las fuentes de datos como Twitter no son representativas de la
poblaci�n en general, y los resultados extra�dos de dichas fuentes pueden dar lugar
a conclusiones err�neas. Google Translate, que se basa en el an�lisis estad�stico
de big data de textos, hace un buen trabajo al traducir p�ginas web. Sin embargo,
los resultados de dominios especializados pueden ser dram�ticamente sesgados. Por
otro lado, los macrodatos tambi�n pueden introducir nuevos problemas, como el
problema de las comparaciones m�ltiples: la prueba simult�nea de un gran conjunto
de hip�tesis probablemente produzca muchos resultados falsos que err�neamente
parecen significativos. Ioannidis argument� que "la mayor�a de los resultados de
investigaci�n publicados son falsos"151? debido esencialmente al mismo efecto:
cuando muchos equipos cient�ficos e investigadores realizan cada uno experimentos
(es decir, procesan una gran cantidad de datos cient�ficos, aunque no con big
data), la probabilidad de que un resultado "significativo" sea falso crece
r�pidamente, incluso m�s cuando se publican resultados positivos. Adem�s, los
resultados del an�lisis de big data son tan buenos como el modelo en el que se
basan. En un ejemplo, Big Data particip� en el intento de predecir los resultados
de las elecciones presidenciales de EE. UU. 2016152? con diversos grados de �xito.
Forbes predijo: "Si usted cree en el an�lisis de Big Data, es hora de comenzar a
planificar para la presidencia de Hillary Clinton y todo lo que eso implica".153?

Requisitos de seguridad
A la hora de construir una Big Data, se debe tener en cuenta algunos requisitos de
seguridad como lo es:

1. El acceso y autorizaci�n granular a los datos

La granulaci�n quiere decir que los datos, a los cuales se tendr� acceso y
autorizaci�n, son de alto nivel, o sea, al estar ya agrupados, otorgar�n una
funci�n m�s precisa y oportuna para el que los utilizar�, que cuando se tienen
datos separados. En este punto tambi�n va incluido la gobernabilidad de datos que
se debe tener, a saber, gobernabilidad de datos se refiere a que los datos deben
estar autorizados, organizados y con los permisos de usuario necesarios en una base
de datos, con el menor n�mero posible de errores, manteniendo al mismo tiempo la
privacidad y la seguridad. Para tener un efectivo gobierno de datos, deber�n
existir controles granulares, que se pueden lograr a trav�s de las expresiones de
control de acceso; estas expresiones usan agrupaci�n y l�gica booleana para
controlar el acceso y autorizaci�n de datos flexibles, con permisos basados en
roles y configuraci�n de visibilidad. Se pueden tener diferentes niveles de acceso,
para dar una seguridad m�s integrada.

2. Seguridad perimetral, protecci�n de datos y autenticaci�n integrada.

La seguridad perimetral se define como aquellos elementos y sistemas que permiten


proteger unos per�metros en instalaciones sensibles de ser atacados los sistemas
inform�ticos por intrusos. Se trata de una primera l�nea de defensa que reduce
much�simo el riesgo de que se roben los datos o incluso desaparezcan.

La seguridad perimetral que protege los sistemas debe cumplir cuatro funciones
b�sicas:

Resistir a los ataques externos.


Identificar los ataques sufridos y alertar de ellos.
Aislar y segmentar los distintos servicios y sistemas en funci�n de su exposici�n a
ataques.
Filtrar y bloquear el tr�fico, permitiendo �nicamente aquel que sea absolutamente
necesario.

Firewall
Algunas herramientas que se pueden utilizar para la seguridad perimetral son: los
Firewalls, pues definen, mediante una pol�tica de acceso, qu� tipo de tr�fico se
permite o se deniega en la red; los sistemas de detecci�n y prevenci�n de intrusos,
que son dispositivos que monitorizan y generan alarmas cuando hay alertas de
seguridad; los Honeypots, que se trata de una trampa para atraer y analizar ataques
de bots y hackers; y los antispam, que filtran el contenido malicioso que entra a
nuestra red. La gobernabilidad no ocurre sin una seguridad en el punto final de la
cadena. Es importante construir un buen per�metro y colocar un cortafuego alrededor
de los datos, integrados con los sistemas y est�ndares de autenticaci�n existentes.
Cuando se trata de autenticaci�n, es importante que las empresas se sincronicen con
sistemas probados. Con la autenticaci�n, se trata de ver c�mo integrarse con LDAP
[Lightweight Directory Access Protocol], Active Directory y otros servicios de
directorio. Tambi�n se puede dar soporte a herramientas como Kerberos para soporte
de autenticaci�n. Pero lo importante es no crear una infraestructura separada, sino
integrarla en la estructura existente.

3. Encriptaci�n de Datos

El siguiente paso despu�s de proteger el per�metro y autenticar todo el acceso


granular de datos que se est� otorgando, es asegurarse de que los archivos y la
informaci�n personalmente identificable est�n encriptados de extremo a extremo. Es
necesario encriptar esos datos de forma que, independientemente de qui�n tenga
acceso a �l, puedan ejecutar los an�lisis que necesiten sin exponer ninguno de esos
datos. La encriptaci�n es un procedimiento mediante el cual los archivos, o
cualquier otro tipo de documento, se vuelve completamente ilegibles gracias a un
algoritmo que desordena sus componentes. As�, cualquier persona que no disponga de
las claves correctas no podr� acceder a la informaci�n que contiene.

4. Constante Auditor�a y An�lisis

La auditor�a es un proceso implementado por los auditores de sistemas con el fin de


auditar los accesos a los datos, por lo general, siguiendo bien una metodolog�a
basada en una lista que contempla los puntos que quieren comprobar o mediante la
evaluaci�n de riesgos potenciales. En concreto, se realiza un examen de los accesos
a los datos almacenados en las bases de datos con el fin de poder medir, monitorear
y tener constancia de los accesos a la informaci�n almacenada en las mismas. Ese
nivel de visibilidad y responsabilidad en cada paso del proceso es lo que permite
�gobernar" los datos en lugar de simplemente establecer pol�ticas y controles de
acceso y esperar lo mejor. Tambi�n es c�mo las empresas pueden mantener sus
estrategias actualizadas en un entorno en el que la forma en que vemos los datos y
las tecnolog�as que utilizamos para administrarlos y analizarlos est�n cambiando
cada d�a.

El fin que persigue, de uno u otro modo, es la seguridad corporativa. Una auditor�a
de base de datos, por lo tanto, facilita herramientas eficaces para conocer de
forma exacta cu�l es la relaci�n de los usuarios a la hora de acceder a las bases
de datos, incluyendo las actuaciones que deriven en una generaci�n, modificaci�n o
eliminaci�n de datos.

Virtualizaci�n de big data


La virtualizaci�n de big data es una forma de recopilar informaci�n de m�ltiples
fuentes en el mismo lugar. El ensamblaje es virtual: a diferencia de otros m�todos,
la mayor�a de los datos permanecen en su lugar y se toman bajo demanda directamente
desde el sistema de origen.154?

V�ase tambi�n
ciencias de la computaci�n
Comisi�n Federal para la Protecci�n de Riesgos Sanitarios (Cofepris)
data�smo
epidemiolog�a digital
farmacovigilancia
Google Flu Trends (dej� de funcionar para pronosticar la influenza y el dengue)
hashtag
Internet de las cosas
medios sociales
Referencias
�Macrodatos e inteligencia de datos, alternativas a big data�. Consultado el 11 de
abril de 2017.
�"Los datos masivos (o big data) son el nuevo oro"�. eldiario.es. Consultado el 23
de mayo de 2017.
Hern�ndez Garc�a, Claudia (diciembre del 2018). [www.comoves.unam.mx �Big data: o
c�mo los datos masivos est�n cambiando el mundo�] |url= incorrecta (ayuda). �C�mo
ves? (Ciudad de M�xico: Direcci�n General de Divulgaci�n de la Ciencia (UNAM)) 21
(241): 8-13. Consultado el 2 de diciembre de 2018.
Kusnetzky, Dan. What is "Big Data?". ZDNet.
http://blogs.zdnet.com/virtualization/?p=1708
Vance, Ashley. Start-Up Goes After Big Data With Hadoop Helper. New York Times
Blog. 22 de abril de 2010. http://bits.blogs.nytimes.com/2010/04/22/start-up-goes-
after-big-data-with-hadoop-helper/?dbk
Cukier, K. (25 February 2010). �Data, data everywhere�. The Economist.
http://www.economist.com/specialreports/displaystory.cfm?story_id=15557443
M�laga Hoy. �El imparable crecimiento del uso del Big Data�.
https://www.malagahoy.es. Consultado el 23 de octubre de 2018.
Martin Hilbert, experto en redes digitales: �Obama y Trump usaron el Big Data para
lavar cerebros� http://www.theclinic.cl/2017/01/19/martin-hilbert-experto-redes-
digitales-obama-trump-usaron-big-data-lavar-cerebros/
Community cleverness required. Nature, 455(7209), 1. 2008.
http://www.nature.com/nature/journal/v455/n7209/full/455001a.html
Sandia sees data management challenges spiral. HPC Projects. 4 August 2009. �Copia
archivada�. Archivado desde el original el 11 de mayo de 2011. Consultado el 22 de
abril de 2011.
Reichman,O.J., Jones, M.B., and Schildhauer, M.P. 2011. Challenges and
Opportunities of Open Data in Ecology. Science 331(6018): 703-
705.DOI:10.1126/science.1197962
Hellerstein, Joe. Parallel Programming in the Age of Big Data. Gigaom Blog. 9
November 2008. http://gigaom.com/2008/11/09/mapreduce-leads-the-way-for-parallel-
programming/
Segaran, Toby and Hammerbacher, Jeff. Beautiful Data. 1st Edition. O'Reilly Media.
Pg 257.
�The World�s Technological Capacity to Store, Communicate, and Compute
Information.� Martin Hilbert y Priscila L�pez (2011), Science, 332(6025), 60-65;
free access to the article through here: martinhilbert.net/WorldInfoCapacity.html
[1]
Jacobs, A. (6 Julio, 2009). �"The Pathologies of Big Data"�. ACMQueue.
Magoulas, Roger, Lorica, Ben (Febrero, 2009). �"Introduction to Big Data"�.
Release 2.0 (en ingl�s). Sebastopol CA: O'Reilly Media.
Mashey, John R. (1998). Big Data ... and the Next Wave of InfraStress (en ingl�s).
Usenix.
Big Data Definition
Douglas Patterson (2012), Big Ethics for Big Data
Douglas, Laney. �3D Data Management: Controlling Data Volume, Velocity and
Variety�. Gartner. Consultado el 6 de febrero de 2001.
Beyer, Mark. �Gartner Says Solving 'Big Data' Challenge Involves More Than Just
Managing Volumes of Data�. Gartner. Consultado el 13 de julio de 2011.
De Mauro, Greco, Grimaldi, Andrea, Marco, Michele (2016). A Formal definition of
Big Data based on its essential Features (en ingl�s). Emerald Group Publishing.
�What is Big Data?�. Villanova University.
InformationWeek (ed.). �Big Data: Avoid 'Wanna V' Confusion�.
Mayer-Sch�nberger, Cukier, Viktor, Kenneth (2013). Houghton Mifflin Harcourt, ed.
Big Data: A Revolution that Will Transform how We Live, Work, and Think.
Fox, Charles (2018). Data Science for Transport. Springer International
Publishing. ISBN 978-3-319-72952-7.
Billings, Stephen A. (2013). Nonlinear System Identification: NARMAX Methods in
the Time, Frequency, and Spatio-Temporal Domains. John Wiley & Sons. ISBN
9781118535554.
Pierre Delort (3 de abril de 2013). Les Echos, ed. �Big Data car Low-Density
Data ? La faible densit� en information comme facteur discriminant� (en franc�s).
Big Data's Fourth V
�Las cinco V�s del Big Data - datahack, especialistas en Big Data, m�s que una
escuela y un m�ster�. www.datahack.es. Consultado el 16 de octubre de 2018.
Matthew Hicks (8 de noviembre de 2003). �Survey: Biggest Databases Approach 30
Terabytes�.
O'Harrow Jr., Robert (15 de julio de 2004). �LexisNexis To Buy Seisint For $775
Million�. Washington Post.
Nakashima, O'Harrow Jr., Ellen, Robert (22 de febrero de 2008). �LexisNexis Parent
Set to Buy ChoicePoint�. Washington Post.
Nicole Hemsoth. �Quantcast Opens Exabyte-Ready File System�.
Dean, Ghemawat, Jeffrey, Sanjay (2004). �MapReduce: Simplified Data Processing on
Large Clusters�. Search Storage.
�Big Data Solution Offering�. MIKE 2.0.
�Big Data Definition�. MIKE 2.0.
Boja, Pocovnicu, Batagan, Catalin, Adrian, Lorena (2012). �Distributed Parallel
Architecture for "Big Data"�. Informatica Economica (vol. 16, no. 2).
�5C Architecture, Introduced by IMS Center for Cyber-Physical Systems in
Manufacturing�. Imscenter.net.
Wills, John (2014). Solving key business challenges with a Big Data Lake. HCL.
Marynowski, Santin, Pimentel, Joa ~o Eugenio, Altair Olivo, Andrey Ricardo (14 de
febrero de 2015). �Method for Testing the Fault Tolerance of MapReduce Frameworks�.
Computer Networks.
Purcell, Bernice (2013). �The emergence of Big Data technology and Analytics�.
Holy Family University.
Lopez Garc�a, David (2012-2013). Analysis of the possibilities of use of Big Data
in organizations. Archivado desde el original el 1 de enero de 2015. Consultado el
18 de octubre de 2014.
James Manyika, Michael Chui, Brad Brown, Jacques Bughin, Richard Dobbs, Charles
Roxburgh, and Angela Hung Byers (2011). �Big data: The next frontier for
innovation, competition, and productivity�. McKinsey&Company.
�"Future Directions in Tensor-Based Computation and Modeling"�. 2009.
Haiping Lu, K. N. Plataniotis, A. N. Venetsanopoulos (2011). �A Survey of
Multilinear Subspace Learning for Tensor Data�. Pattern Recognition.
Pllana, Sabri; Janciak, Ivan; Brezany, Peter; W�hrer, Alexander (2011). �A Survey
of the State of the Art in Data Mining and Integration Query Languages�.
International Conference on Network-Based Information Systems (NBIS 2011). Computer
Society.
Yandong Wang ; Robin Goldstone ; Weikuan Yu ; Teng Wang (2014). �Characterization
and Optimization of Memory-Resident MapReduce on HPC Systems�. IEEE.
L�Heureux, A.; Grolinger, K.; Elyamany, H. F.; Capretz, M. A. M. (2017). �Machine
Learning With Big Data: Challenges and Approaches - IEEE Journals & Magazine�.
ieeexplore.ieee.org (en ingl�s estadounidense).
Monash, Curt (2009). �eBay's two enormous data warehouses | DBMS 2 : DataBase
Management System Services�. www.dbms2.com.
�"Resources on how Topological Data Analysis is used to analyze big data"�. Ayasdi
(en ingl�s estadounidense).
John Webster (1 de abril de 2011). �Storage area networks need not apply�. CNET
(en ingl�s).
Paniagua, Soraya (Junio - septiembre 2013). �A world of sensors, from Data to Big
Data�. Revista Telos.
�Conceptos b�sicos de Big Data�, TRC Inform�tica SL, 2013.
Paniagua, Soraya (junio-septiembre 2013). �A world of sensors, from Data to Big
Data�. Revista Telos.
Big Data en los Festivales de M�sica. The Box Populi. 8 de Marzo 2018
Tecnolog�a IoT y big data: el futuro del sector asegurador. 15 de febrero de 2018
Kohlwey, Edmund; Sussman, Abel; Trost, Jason; Maurer, Amber (2011). �Leveraging
the Cloud for Big Data Biometrics�. IEEE World Congress on Services.
Tomsen, Christian; Pedersen, Torben Bach (2009). �pygrametl: A Powerful
Programming Framework for Extract�Transform�Load Programmers�. 1DB Technical
Report; No. 25, Department of Computer Science, Aalborg University.
Mart�n, Adriana; Ch�vez, Susana; Rodr�guez, Nelson R.; Valenzuela, Adriana;
Murazzo, Maria A. (2013). �Bases de datos NoSql en cloud computing�. WICC.
Consultado el 18 de octubre de 2014.
Hecht, Robin; Jablonski, Stefan (2011). �NoSQL Evaluation, a use case oriented
survey�. International Conference on Cloud and Service Computing.
Seeger, Marc (21 de septiembre de 2009). Key-Value stores: a practical overview.
Consultado el 1 de enero de 2015.
Bianchi Widder, Maria Bel�n (septiembre de 2012). �Els beneficis de l��s de
tecnologies NoSQL�. UPCommons. Consultado el 1 de enero de 2015.
Vila, M Amparo; Sanchez, Daniel; Escobar, Luis (2004). �Relaciones Causales en
Reglas de Asociaci�n�. XII Congreso Espa�ol sobre tecnolog�as y l�gica Fuzzy.
Manyika, James; Chui, Michael; Brown, Brad; Bughin, Jacques; Dobbs, Richard;
Roxburgh, Charles; Byers, Angela Hung (Mayo de 2011). �Big data: The next frontier
for innovation, competition, and productivity�. McKinsey. Consultado el 1 de enero
de 2015.
Jain, A.K.; Murty, M.N.; Flynn, P.J. (septiembre de 1999). �Data Clustering: A
Review�. ACM Computing Surveys 31 (3). Consultado el 1 de enero de 2015.
Maltby, Dylan (9 de octubre de 2011). �Big Data Analytics�. ASIST 2011 (New
Orleans).
Theus, Martin (2003). �Interactive Data Visualization using Mondrian�. Journal of
Statistical Software.
�Tableau vs Qlikview | Tableau vs Power BI | Power BI vs Qlikview - 2018�.
SelectHub (en ingl�s estadounidense). 27 de agosto de 2018. Consultado el 16 de
octubre de 2018.
Albarrac�n, Pablo (12 de agosto de 2013). �Visualizaci�n avanzada de datos: La
belleza del Big Data�. Revista Am�rica Econom�a Tecno. Archivado desde el original
el 1 de enero de 2015. Consultado el 18 de octubre de 2014.
�Data, data everywhere�. The Economist (en ingl�s). 25 de febrero de 2010.
Hilbert, Martin; L�pez, Priscila. �The World�s Technological Capacity to Store,
Communicate, and Compute Information�. MartinHilbert.net (en ingl�s
estadounidense).
Hilbert, Martin (2014-03). �What Is the Content of the World's Technologically
Mediated Information and Communication Capacity: How Much Text, Image, Audio, and
Video?�. The Information Society (en ingl�s) 30 (2): 127-143. ISSN 0197-2243.
doi:10.1080/01972243.2013.873748.
Rajpurohit, Anmol (11 de julio de 2014). �Interview: Amy Gershkoff, Director of
Customer Analytics & Insights, eBay on How to Design Custom In-House BI Tools�.
www.kdnuggets.com (en ingl�s estadounidense).
Davis, Aaron. �The government and big data: Use, problems and potential�.
Computerworld (en ingl�s). Consultado el 27 de agosto de 2018.
Martin Hilbert, experto en redes digitales: �Obama y Trump usaron el Big Data para
lavar cerebros� http://www.theclinic.cl/2017/01/19/martin-hilbert-experto-redes-
digitales-obama-trump-usaron-big-data-lavar-cerebros/
Lissardy, Gerardo (6 de abril de 2017). �Martin Hilbert, gur� del Big Data: "La
democracia no est� preparada para la era digital y est� siendo destruida"�. BBC
News Mundo (en ingl�s brit�nico). Consultado el 27 de agosto de 2018.
Rodr�guez. Patricio / Palomino. Norma/ Moncada. Javier (Julio de 2017). �El uso de
datos masivos y sus t�cnicas anal�ticas para el dise�o e implementaci�n de
pol�ticas p�blicas en Latinoam�rica y el Caribe (2017)�. BID (en espa�ol).
Consultado el 29 de noviembre de 2018.
�White Paper: Big Data for Development: Opportunities & Challenges (2012) | United
Nations Global Pulse�. www.unglobalpulse.org (en ingl�s). Consultado el 27 de
agosto de 2018.
�Big Data, Big Impact: New Possibilities for International Development�. World
Economic Forum. Consultado el 27 de agosto de 2018.
Hilbert, Martin (2013). �Big Data for Development: From Information - to Knowledge
Societies�. SSRN Electronic Journal (en ingl�s). ISSN 1556-5068.
doi:10.2139/ssrn.2205145. Consultado el 27 de agosto de 2018.
�Prognostics and health management design for rotary machinery systems�Reviews,
methodology and applications�. Mechanical Systems and Signal Processing (en ingl�s)
42 (1-2): 314-334. 1 de enero de 2014. ISSN 0888-3270.
doi:10.1016/j.ymssp.2013.06.004. Consultado el 27 de agosto de 2018.
�Prognostic and Health Management Technology for MOCVD Equipment�. Industrial
Technology Research Institute (en ingl�s). Consultado el 27 de agosto de 2018.
Nick, Couldry, (2014). �Advertising, big data and the clearance of the public
realm: marketers' new approaches to the content subsidy�. eprints.lse.ac.uk (en
ingl�s). Consultado el 27 de agosto de 2018.
�Why Digital Advertising Agencies Suck at Acquisition and are in Dire Need of an
AI Assisted Upgrade�. Insincerely Yours (en ingl�s estadounidense). 15 de abril de
2018. Consultado el 27 de agosto de 2018.
Allen, Marshall (17 de julio de 2018). �Health Insurers Are Vacuuming Up Details
About You � And It Could Raise Your Rates � ProPublica�. ProPublica (en ingl�s
estadounidense). Consultado el 27 de agosto de 2018.
Reilly, Thomas; Korkusuz, Feza (2009). Science and Football VI. The proceedings of
the Sixth World Congress on Science and Football. p. 209. ISBN 0-203-89368-9.
Archivado desde el original el 1 de enero de 2015.
�Big Data y finanzas - datahack, especialistas en Big Data, m�s que una escuela y
un m�ster�. www.datahack.es. Consultado el 16 de octubre de 2018.
�Por qu� mezclar Big Data, Marketing y Ventas es una buena idea - datahack,
especialistas en Big Data, m�s que una escuela y un m�ster�. www.datahack.es.
Consultado el 16 de octubre de 2018.
Europa Press. �Big Data, una formaci�n en crecimiento�. Consultado el 26 de
febrero de 2019.
Siwach, Gautam; Esmailpour, Amir (2014). �Encrypted Search & Cluster Formation in
Big Data�. Department of Electrical and Computer Engineering The University of New
Haven (West Haven, CT, USA).
�AMPLab - UC Berkeley�. AMPLab - UC Berkeley (en ingl�s estadounidense).
Consultado el 29 de septiembre de 2018.
�NSF Leads Federal Efforts In Big Data | NSF - National Science Foundation�.
www.nsf.gov (en ingl�s). 2012.
Timothy Hunter, Teodor Moldovan, Matei Zaharia, Justin Ma, Michael Franklin,
Pieter Abbeel, Alexandre Bayen (2011). �Scaling the Mobile Millennium System in the
Cloud�. AMPLab - UC Berkeley (en ingl�s estadounidense).
David Patterson (5 de diciembre de 2011). �David Patterson: Enlist Computer
Scientists in Cancer Fight�. The New York Times (en ingl�s).
�Secretary Chu Announces New Institute to Help Scientists Improve Massive Data Set
Research on DOE Supercomputers�. Energy.gov (en ingl�s).
�Welcome to Big Data at CSAIL | bigdata CSAIL�. bigdata.csail.mit.edu (en ingl�s).
�Welcome to Big Data at CSAIL | bigdata CSAIL�. bigdata.csail.mit.edu (en ingl�s).
19 de marzo de 2014.
�Inspiration day at University of Waterloo, Stratford Campus�. BetaKit (en ingl�s
canadiense). 28 de febrero de 2014.
JayLee, Edzel Lapira, Behrad Bagheri, Hung-an Kao (1 de octubre de 2013). �Recent
advances and trends in predictive manufacturing systems in big data environment�.
Manufacturing Letters (en ingl�s) 1 (1): 38-41. ISSN 2213-8463.
doi:10.1016/j.mfglet.2013.09.005.
�International Journal of Internet Science, Volume 9, Issue 1�. www.ijis.net.
Preis, Tobias; Moat, Helen Susannah; Stanley, H. Eugene; Bishop, Steven R. (5 de
abril de 2012). �Quantifying the Advantage of Looking Forward�. Scientific Reports
2. ISSN 2045-2322. PMC PMC3320057 |pmc= incorrecto (ayuda). PMID 22482034.
doi:10.1038/srep00350. Consultado el 29 de septiembre de 2018.
Marks, Paul (5 de abril de 2012). �Online searches for future linked to economic
success�. New Scientist (en ingl�s estadounidense). Consultado el 29 de septiembre
de 2018.
Johnston, Casey (6 de abril de 2012). �Google Trends reveals clues about the
mentality of richer nations�. Ars Technica (en ingl�s estadounidense). Consultado
el 29 de septiembre de 2018.
Tobias Preis (24 Mayo, 2012). �Supplementary Information: The Future Orientation
Index is available for download�.
Ball, Philip (26 de abril de 2013). �Counting Google searches predicts market
movements�. Nature (en ingl�s). ISSN 1476-4687. doi:10.1038/nature.2013.12879.
Consultado el 29 de septiembre de 2018.
Preis, Tobias; Moat, Helen Susannah; Stanley, H. Eugene (25 de abril de 2013).
�Quantifying Trading Behavior in Financial Markets Using Google Trends�. Scientific
Reports 3. ISSN 2045-2322. PMC PMC3635219 |pmc= incorrecto (ayuda). PMID 23619126.
doi:10.1038/srep01684. Consultado el 29 de septiembre de 2018.
Bilton, Nick. �Google Search Terms Can Predict Stock Market, Study Finds�. Bits
Blog (en ingl�s). Consultado el 29 de septiembre de 2018.
Matthews, Christopher. �Trouble With Your Investment Portfolio? Google It!�. Time
(en ingl�s estadounidense). ISSN 0040-781X. Consultado el 29 de septiembre de 2018.
Ball, Philip (26 de abril de 2013). �Counting Google searches predicts market
movements�. Nature (en ingl�s). ISSN 1476-4687. doi:10.1038/nature.2013.12879.
Consultado el 29 de septiembre de 2018.
Bernhard Warner (25 de marzo de 2013). �"'Big Data' Researchers Turn to Google to
Beat the Markets"�. www.bloomberg.com. Consultado el 29 de septiembre de 2018.
�Hamish McRae: Need a valuable handle on investor sentiment? Google it�. The
Independent (en ingl�s brit�nico). Consultado el 29 de septiembre de 2018.
Richard Waters (25 de abril de 2013). �Subscribe to read�. Financial Times (en
ingl�s brit�nico). Consultado el 29 de septiembre de 2018.
�Workshop on Algorithms for Modern Massive Data Sets (MMDS)�. web.stanford.edu.
Consultado el 29 de septiembre de 2018.
Deepan Palguna; Vikas Joshi; Venkatesan Chakaravarthy; Ravi Kothari & L. V.
Subramaniam (2015). Analysis of Sampling Algorithms for Twitter. International
Joint Conference on Artificial Intelligence.
[2]
Rodr�guez Manzano, Anayansi (diciembre del 2018). �El uso de los datos masivos
para salvar vidas�. �C�mo ves? (Ciudad de M�xico: Direcci�n General de Divulgaci�n
de la Ciencia (UNAM)) 21 (241): 16-19.
Wilson, N; Mason, M; Tobias, M; Peacey, M; Huang, Q S; Baker, M (Eurosurveillance
Edition 2009). �Interpreting �Google Flu Trends� data for pandemic H1N1 influenza:
The New Zealand Experience�. Eurosurveillance Edition 2009. 14 / Issue 44 (4).
Rodr�guez Manzano, Anayansi (diciembre del 2018). �El uso de los datos masivos
para salvar vidas�. �C�mo ves? (Ciudad de M�xico: Direcci�n General de Divulgaci�n
de la Ciencia (UNAM)) 21 (241): 16-19.
Rodr�guez Manzano, Anayansi (diciembre del 2018). �El uso de los datos masivos
para salvar vidas�. �C�mo ves? (Ciudad de M�xico: Direcci�n General de Divulgaci�n
de la Ciencia (UNAM)) 21 (241): 16-19.
Carrillo Ruiz, Jose Antonio; Marco de Lucas, Jesus E.; Cases Vega, Fernando;
Due�as Lopez, Juan Carlos; Cristino Fernandez, Jose; Gonzalez Mu�oz de Morales,
Guillermo; Pereda Laredo, Luis Fernando (Marzo de 2013). �Big Data en los entornos
de Defensa y Seguridad�. Instituto Espa�ol de Estudios Estrat�gicos.
�El BSC y Microsoft Research Center optimizar�n Big Data con el proyecto Aloja�.
Computing. 31 de julio de 2014. Consultado el 1 de enero de 2015.
How Big Data Is Helping to Save the Planet.. 15 de septiembre de 2014.
Kimble, C.; Milolidakis, G. (2015). "Big Data and Business Intelligence: Debunking
the Myths". Global Business and Organizational Excellence. 35 (1): 23�34.
arXiv:1511.03085. doi:10.1002/joe.21642.
Snijders, C.; Matzat, U.; Reips, U.-D. (2012). "'Big Data': Big gaps of knowledge
in the field of Internet". International Journal of Internet Science. 7: 1�5.
Anderson, Chris (23 de junio de 2008). �The End of Theory: The Data Deluge Makes
the Scientific Method Obsolete�. WIRED (en ingl�s estadounidense). Consultado el 29
de septiembre de 2018.
Graham, Mark (9 de marzo de 2012). �Big data and the end of theory?�. the Guardian
(en ingl�s). Consultado el 29 de septiembre de 2018.
�Good Data Won�t Guarantee Good Decisions�. Harvard Business Review. 1 de abril de
2012. Consultado el 29 de septiembre de 2018.
TEDx Talks (13 de enero de 2015), Big data requires big visions for big change |
Martin Hilbert | TEDxUCL, consultado el 29 de septiembre de 2018
Alemany Oliver, Mathieu; Vayre, Jean- S�bastien (2015-03). �Big data and the
future of knowledge production in marketing research: Ethics, digital traces, and
abductive reasoning�. Journal of Marketing Analytics (en ingl�s) 3 (1): 5-13. ISSN
2050-3318. doi:10.1057/jma.2015.1. Consultado el 29 de septiembre de 2018.
Rauch, Jonathan (1 de abril de 2002). �Seeing Around Corners�. The Atlantic (en
ingl�s estadounidense). Consultado el 29 de septiembre de 2018.
Epstein, J. M., & Axtell, R. L. (1996). Growing Artificial Societies: Social
Science from the Bottom Up. A Bradford Book.
�Accueil - Big Data Paris 2019�. Big Data Paris 2019 (en fr-FR). Consultado el 29
de septiembre de 2018.
Tambe, Sanjeev (29 de octubre de 2015). BIG DATA IN BIOSCIENCES.
doi:10.13140/RG.2.1.3685.0645. Consultado el 29 de septiembre de 2018.
Harford, Tim (28 de marzo de 2014). �Big data: are we making a big mistake?�.
Financial Times (en ingl�s brit�nico). Consultado el 29 de septiembre de 2018.
�Don�t Build a Database of Ruin�. Harvard Business Review. 23 de agosto de 2012.
Consultado el 29 de septiembre de 2018.
Bond-Graham, Darwin (3 de diciembre de 2013). �Iron Cagebook�.
www.counterpunch.org (en ingl�s estadounidense). Consultado el 29 de septiembre de
2018.
Bond-Graham, Darwin (11 de septiembre de 2013). �Inside the Tech industry�s
Startup Conference�. www.counterpunch.org (en ingl�s estadounidense). Consultado el
29 de septiembre de 2018.
Goldring, Kira. �Is Big Data being used for good?�. theperspective.com/.
Consultado el 29 de septiembre de 2018.
Al-Rodhan, Nayef (16 de septiembre de 2014). �The Social Contract 2.0: Big Data
and the Need to Guarantee Privacy and Civil Liberties | Harvard International
Review�. hir.harvard.edu (en ingl�s estadounidense). Consultado el 29 de septiembre
de 2018.
Barocas, Solon; Nissenbaum, Helen; Lane, Julia; Stodden, Victoria; Bender, Stefan;
Nissenbaum, Helen (2014/06). Privacy, Big Data, and the Public Good (en ingl�s).
Cambridge University Press. pp. 44-75. ISBN 9781107590205.
doi:10.1017/cbo9781107590205.004. Consultado el 29 de septiembre de 2018.
Lugmayr, Artur; Stockleben, Bjoern; Scheib, Christoph; Mailaparampil, Mathew;
Mesia, Noora; Ranta, Hannu (1 de junio de 2016). A COMPREHENSIVE SURVEY ON BIG-DATA
RESEARCH AND ITS IMPLICATIONS � WHAT IS REALLY 'NEW' IN BIG DATA? -IT'S COGNITIVE
BIG DATA!. Consultado el 29 de septiembre de 2018.
�"Privacy and Publicity in the Context of Big Data"�. www.danah.org. Consultado el
29 de septiembre de 2018.
Jones, MB; Schildhauer, MP; Reichman, OJ; Bowers, S (2006). "The New
Bioinformatics: Integrating Ecological Data from the Gene to the Biosphere". Annual
Review of Ecology, Evolution, and Systematics. 37 (1)
Boyd, D.; Crawford, K. (2012). "Critical Questions for Big Data". Information,
Communication & Society. 15 (5): 662�679.
Failure to Launch: From Big Data to Big Decisions, Forte Wares.
�Interview: Michael Berthold, KNIME Founder, on Research, Creativity, Big Data,
and Privacy, Part 2�. www.kdnuggets.com (en ingl�s estadounidense). Consultado el
29 de septiembre de 2018.
�"Big Data" is an overused buzzword and this Twitter bot proves it -
SiliconANGLE�. SiliconANGLE (en ingl�s estadounidense). 26 de octubre de 2015.
Consultado el 29 de septiembre de 2018.
Harford, Tim (28 de marzo de 2014). �Big data: are we making a big mistake?�.
Financial Times (en ingl�s brit�nico). Consultado el 29 de septiembre de 2018.
Ioannidis, John P. A. (2005-8). �Why Most Published Research Findings Are False�.
PLoS Medicine 2 (8). ISSN 1549-1277. PMC PMC1182327 |pmc= incorrecto (ayuda). PMID
16060722. doi:10.1371/journal.pmed.0020124. Consultado el 29 de septiembre de 2018.
Lohr, Steve; Singer, Natasha (10 de noviembre de 2016). �How Data Failed Us in
Calling an Election� (en ingl�s). Consultado el 29 de septiembre de 2018.
Markman, Jon. �Big Data And The 2016 Election�. Forbes (en ingl�s). Consultado el
29 de septiembre de 2018.
�What Is Data Virtualization?�. www.datawerks.com (en ingl�s estadounidense).
Consultado el 14 de mayo de 2018.
Enlaces externos
Big Data ofrecido por las grandes empresas (SAP, Oracle, Microsoft y otros)
Historia cronol�gica del Big Data. Una l�nea del tiempo visual con los principales
hitos de la historia del almacenamiento de la informaci�n.
IBM crea una universidad de Big Data para aprender gratis
Real Time Data Access and Total Data Integration
Categor�as: Sistemas de gesti�n de bases de datosPalabras y frases en ingl�s
Men� de navegaci�n
No has accedidoDiscusi�nContribucionesCrear una
cuentaAccederArt�culoDiscusi�nLeerEditarVer historialBuscar
Buscar en Wikipedia
Portada
Portal de la comunidad
Actualidad
Cambios recientes
P�ginas nuevas
P�gina aleatoria
Ayuda
Donaciones
Notificar un error
En otros proyectos
Wikimedia Commons
Imprimir/exportar
Crear un libro
Descargar como PDF
Versi�n para imprimir
Herramientas
Lo que enlaza aqu�
Cambios en enlazadas
Subir archivo
P�ginas especiales
Enlace permanente
Informaci�n de la p�gina
Elemento de Wikidata
Citar esta p�gina

En otros idiomas
???????
Catal�
English
Euskara
??????
Bahasa Indonesia
???????
????
??
39 m�s
Editar enlaces
Esta p�gina se edit� por �ltima vez el 22 may 2019 a las 16:39.
El texto est� disponible bajo la Licencia Creative Commons Atribuci�n Compartir
Igual 3.0; pueden aplicarse cl�usulas adicionales. Al usar este sitio, usted acepta
nuestros t�rminos de uso y nuestra pol�tica de privacidad.
Wikipedia� es una marca registrada de la Fundaci�n Wikimedia, Inc., una
organizaci�n sin �nimo de lucro.
Pol�tica de privacidadAcerca de WikipediaLimitaci�n de
responsabilidadDesarrolladoresDeclaraci�n de cookiesVersi�n para m�vilesWikimedia
Foundation Powered by MediaWiki

También podría gustarte