Macrodatos PDF

Macrodatos
Los macrodatos,1 también llamados datos masivos, inteligencia de datos,

datos a gran escala o big data (terminología en idioma inglés utilizada
comúnmente) es un término que hace referencia al concepto de a conjuntos de
datos tan grandes y complejos como para que hagan falta aplicaciones
informáticas no tradicionales de procesamiento de datos para tratarlos
adecuadamente. Por ende, los procedimientos usados para encontrar patrones
repetitivos dentro de esos datos son más sofisticados y requieren software
especializado. En textos científicos en español con frecuencia se usa
directamente el término en inglés big data, tal como aparece en el ensayo de
Un sistema de representación
Viktor Schönberger La revolución de los datos masivos.2 3
creado por IBM que muestra
macrodatos que consisten en las
El uso moderno del término "big data" tiende a referirse al análisis del
ediciones de Wikipedia realizadas
comportamiento del usuario, extrayendo valor de los datos almacenados, y
por el bot Pearle. Su visualización
formulando predicciones a través de los patrones observados. La disciplina más racional aparece acompañada
dedicada a los datos masivos se enmarca en el sector de las tecnologías de la de colores y posiciones en su
información y la comunicación. Esta disciplina se ocupa de todas las actividades representación.
relacionadas con los sistemas que manipulan grandes conjuntos de datos. Las
dificultades más habituales vinculadas a la gestión de estas cantidades de datos
se centran en la recolección y el almacenamiento,4 búsqueda, compartición, análisis,5 y visualización. La tendencia a manipular
enormes cantidades de datos se debe a la necesidad, en muchos casos, de incluir dicha información para la creación de informes
estadísticos y modelos predictivos utilizados en diversas materias, como los análisis de negocio, publicitarios, los datos de
enfermedades infecciosas, el espionaje y seguimiento a la población o la lucha contra el crimen organizado.6
El límite superior de procesamiento ha ido creciendo a lo largo de los años.7 Se estima que el mundo almacenó unos 5 zettabytes
en 2014. Si se pone esta información en libros, convirtiendo las imágenes y todo eso a su equivalente en letras, se podría hacer
4500 pilas de libros que lleguen hasta el sol.8 Los científicos con cierta regularidad encuentran límites en el análisis debido a la
gran cantidad de datos en ciertas áreas, tales como la meteorología, la genómica,9 la conectómica, las complejas simulaciones de
procesos físicos10 y las investigaciones relacionadas con los procesos biológicos y ambientales.11 Las limitaciones también
afectan a los motores de búsqueda en internet, a los sistemas de finanzas y a la informática de negocios. Los data sets crecen en
volumen debido en parte a la recolección masiva de información procedente de los sensores inalámbricos y los dispositivos
móviles (por ejemplo las VANET), el constante crecimiento de los históricos de aplicaciones (por ejemplo de los registros),
cámaras (sistemas de teledetección), micrófonos, lectores de identificación por radiofrecuencia.12 13 La capacidad tecnológica
per cápita a nivel mundial para almacenar datos se dobla aproximadamente cada cuarenta meses desde los años 1980.14 Se
estima que en 2012 cada día fueron creados cerca de 2.5 trillones de bytes de datos.15
Los sistemas de gestión de bases de datos relacionales y los paquetes de software utilizados para visualizar datos, a menudo
tienen dificultades para manejar big data. Este trabajo puede requerir "un software masivamente paralelo que se ejecute en
decenas, cientos o incluso miles de servidores"16 . Lo que califica como "big data" varía según las capacidades de los usuarios y
sus herramientas, y las capacidades de expansión hacen que big data sea un objetivo en movimiento. "Para algunas
organizaciones, enfrentar cientos de gigabytes de datos por primera vez puede provocar la necesidad de reconsiderar las opciones
de administración de datos. Para otros, puede tomar decenas o cientos de terabytes antes de que el tamaño de los datos se
convierta en una consideración importante".17
Índice
Definición
Características
Arquitectura
Tecnología
Captura
Transformación
Almacenamiento NoSQL
Análisis de datos
Visualización de datos
Aplicaciones
Gobierno
Desarrollo internacional
Industria
Medios
Seguros
Deportes
Finanzas
Marketing y ventas
Investigación
Muestreo de big data
Salud y medicina
Defensa y seguridad
Caso específico del proyecto Aloja
Críticas
Críticas al paradigma de los grandes datos
Críticas del modelo 'V'
Crítica de la novedad
Críticas de la ejecución de big data
Requisitos de seguridad
Virtualización de big data
Véase también
Referencias
Enlaces externos
Definición
El término ha estado en uso desde la década de 1990, y algunos otorgan crédito a John Mashey18 por popularizarlo. Big data o
macrodatos es un término que hace referencia a una cantidad de datos tal que supera la capacidad del software convencional para
ser capturados, administrados y procesados en un tiempo razonable. El volumen de los datos masivos crece constantemente. En el
2012, se estimaba su tamaño de entre una docena de terabytes hasta varios petabyte de datos en un único conjunto de datos. En la
metodología MIKE2.0, dedicada a investigar temas relacionados con la gestión de información, definen big data19 en términos
de permutaciones útiles, complejidad y dificultad para borrar registros individuales.
Se ha definido también como datos lo suficientemente masivos como para poner de relieve cuestiones y preocupaciones en torno
a la efectividad del anonimato desde una perspectiva más práctica que teórica.20
En el 2001, en un informe de investigación que se fundamentaba en congresos y presentaciones relacionadas,21 la META Group
(ahora Gartner) definía el crecimiento constante de datos como una oportunidad y un reto para investigar en el volumen, la
velocidad y la variedad. Gartner' continúa usando datos masivos como referencia.22 Además, grandes proveedores del mercado
de datos masivos están desarrollando soluciones para atender las demandas más críticas sobre cómo procesar tal cantidad de
datos, como MapR y Cloudera.
Una definición de 2016 establece que "Big data representa los activos de información caracterizados por un volumen, velocidad y
variedad tan altos que requieren una tecnología específica y métodos analíticos para su transformación en valor".23 Además,
algunas organizaciones agregan una nueva V, veracidad para describirlo,24 revisionismo cuestionado por algunas autoridades de
la industria.25 Las tres V (volumen, variedad y velocidad) se han ampliado a otras características complementarias del big data:
aprendizaje automático: los grandes datos a menudo no preguntan por qué y simplemente detectan los
patrones26
huella digital: el big data es a menudo un subproducto libre de costo de la interacción digital
Una definición de 2018 establece que "Big Data es donde se necesitan herramientas informáticas paralelas para manejar los
datos", y señala: "Esto representa un cambio distinto y claramente definido en la informática utilizada a través de teorías de
programación paralelas y pérdidas de algunas de las garantías y capacidades hechas por el modelo relacional de Codd ".27
La creciente madurez del concepto describe de manera más nítida la diferencia entre "big data" y "business intelligence":
La business intelligence usa estadísticas descriptivas con datos con alta densidad de información para medir
cosas, detectar tendencias, etc.
big data usa estadísticas inductivas y conceptos de identificación de sistemas no lineales28 para inferir leyes
(regresiones, relaciones no lineales y efectos causales) a partir de grandes conjuntos de datos con baja
densidad de información para revelar relaciones y dependencias, o para realizar predicciones de resultados y
comportamientos.29
Características
Los macrodatos se pueden describir por las siguientes características:30
Volumen: la cantidad de datos generados y guardados.

Variedad: el tipo y naturaleza de los datos para ayudar a las personas a analizar los datos y usar los resultados
de forma eficaz. Los macrodatos usan textos, imágenes, audio y vídeo. También completan pedazos ¿Que
pedazos? pedidos a través de la fusión de datos.
Velocidad: en este contexto, la velocidad a la cual se generan y procesan los datos para cumplir las exigencias y
desafíos de su análisis.
Veracidad: la calidad de los datos capturados puede variar mucho y así afectar a los resultados del análisis.
Valor: los datos generados deben ser útiles, accionables y tener valor.31
Arquitectura
Los repositorios de big data han existido en muchas formas, a menudo creadas por corporaciones con una necesidad especial.
Históricamente, los proveedores comerciales ofrecían sistemas de administración de bases de datos paralelos para big data a partir
de la década de 1990. Durante muchos años, WinterCorp publicó un informe de base de datos más grande.32
Teradata Corporation en 1984, comercializó el sistema de procesamiento paralelo DBC 1012. Los sistemas Teradata fueron los
primeros en almacenar y analizar 1 terabyte de datos en 1992. Los discos duros eran de 2,5 GB en 1991, por lo que la definición
de big data evoluciona continuamente según la Ley de Kryder. Teradata instaló el primer sistema basado en RDBMS de clase
petabyte en 2007. A partir de 2017, hay unas pocas docenas de bases de datos relacionales de Teradata de clase Petabyte
instaladas, la mayor de las cuales excede de 50 PB. Los sistemas hasta 2008 eran datos relacionales estructurados al 100%. Desde
entonces, Teradata ha agregado tipos de datos no estructurados, incluidos XML, JSON y Avro.
En 2000, Seisint Inc. (ahora LexisNexis Group) desarrolló un marco de intercambio de archivos distribuido basado en C++ para
el almacenamiento y consultas de datos. El sistema almacena y distribuye datos estructurados, semiestructurados y no
estructurados en varios servidores. Los usuarios pueden crear consultas en un dialecto de C++ llamado ECL. ECL utiliza un
método de "aplicar esquema en lectura" para inferir la estructura de los datos almacenados cuando se consulta, en lugar de cuando
se almacena. En 2004, LexisNexis adquirió Seisint Inc.33 y en 2008 adquirió ChoicePoint, Inc.34 y su plataforma de
procesamiento paralelo de alta velocidad. Las dos plataformas se fusionaron en sistemas HPCC (o cluster de computación de alto
rendimiento) y en 2011, HPCC fue de código abierto bajo la licencia Apache v2.0. Quantcast File System estuvo disponible
aproximadamente al mismo tiempo.35
El CERN y otros experimentos de física han recopilado grandes conjuntos de datos durante muchas décadas, generalmente
analizados a través de computadoras de alto rendimiento (supercomputadores) en lugar de las arquitecturas de mapas reducidos
de productos, que generalmente se refieren al movimiento actual de "big data".
En 2004, Google publicó un documento sobre un proceso llamado MapReduce que utiliza una arquitectura similar. El concepto
MapReduce proporciona un modelo de procesamiento en paralelo, y se lanzó una implementación asociada para procesar grandes
cantidades de datos. Con MapReduce, las consultas se dividen y distribuyen a través de nodos paralelos y se procesan en paralelo
(el paso del Mapa). Los resultados se recopilan y se entregan (el paso Reducir). El marco fue muy exitoso, por lo que otros
quisieron replicar el algoritmo. Por lo tanto, una implementación del marco MapReduce fue adoptada por un proyecto de código
abierto Apache llamado Hadoop.36 Apache Spark se desarrolló en 2012 en respuesta a las limitaciones del paradigma
MapReduce, ya que agrega la capacidad de configurar muchas operaciones (no solo el mapa seguido de la reducción).
MIKE2.0 es un enfoque abierto para la administración de la información que reconoce la necesidad de revisiones debido a las
implicaciones de big data identificadas en un artículo titulado "Oferta de soluciones de Big Data".37 La metodología aborda el
manejo de big data en términos de permutaciones útiles de fuentes de datos, complejidad en interrelaciones y dificultad para
eliminar (o modificar) registros individuales.38
Los estudios de 2012 mostraron que una arquitectura de capas múltiples es una opción para abordar los problemas que presenta el
big data. Una arquitectura paralela distribuida distribuye datos entre múltiples servidores; estos entornos de ejecución paralela
pueden mejorar drásticamente las velocidades de procesamiento de datos. Este tipo de arquitectura inserta datos en un DBMS
paralelo, que implementa el uso de los marcos MapReduce y Hadoop. Este tipo de marco busca hacer que el poder de
procesamiento sea transparente para el usuario final mediante el uso de un servidor de aplicaciones para el usuario.39
El análisis de big data para aplicaciones de fabricación se comercializa como una arquitectura 5C (conexión, conversión,
cibernética, cognición y configuración).40
El lago de datos permite que una organización cambie su enfoque del control centralizado a un modelo compartido para
responder a la dinámica cambiante de la administración de la información. Esto permite una segregación rápida de datos en el
lago de datos, lo que reduce el tiempo de sobrecarga.41 42
Tecnología
Existen muchísimas herramientas para el manejo de big data. Algunos ejemplos incluyen Hadoop, NoSQL, Cassandra,
inteligencia empresarial, aprendizaje automático y MapReduce. Estas herramientas tratan con algunos de los tres tipos de big
data:43
Datos estructurados: datos que tienen bien definidos su longitud y su formato, como las fechas, los números o
las cadenas de caracteres. Se almacenan en tablas. Un ejemplo son las bases de datos relacionales y los
almacenes de datos.
Datos no estructurados: datos en el formato tal y como fueron recolectados, carecen de un formato específico.
No se pueden almacenar dentro de una tabla ya que no se puede desgranar su información a tipos básicos de
datos. Algunos ejemplos son los PDF, documentos multimedia, correos electrónicos o documentos de texto.
Datos semiestructurados: datos que no se limitan a campos determinados, pero que contiene marcadores para
separar los diferentes elementos. Es una información poco regular como para ser gestionada de una forma
estándar. Estos datos poseen sus propios metadatos semiestructurados44 que describen los objetos y las
relaciones entre ellos, y pueden acabar siendo aceptados por convención. Como ejemplos tenemos los archivos
tipo hojas de cálculo, HTML, XML o JSON.
Un informe de 2011 del McKinsey Global Institute caracteriza los componentes principales y el ecosistema de big data de la
siguiente manera:45
Técnicas para analizar datos, como pruebas A / B, aprendizaje automático y procesamiento del lenguaje natural
Grandes tecnologías de datos, como inteligencia de negocios, computación en la nube y bases de datos
Visualización, como tablas, gráficos y otras visualizaciones de los datos
Los big data multidimensionales también se pueden representar como cubos de datos o, matemáticamente, tensores. Los sistemas
de bases de datos Array se han propuesto proporcionar almacenamiento y soporte de consultas de alto nivel en este tipo de datos.
Las tecnologías adicionales que se aplican a big data incluyen un cálculo basado en tensor eficiente,46 como el aprendizaje de
subespacio multilineal,47 bases de datos de procesamiento paralelo masivo (MPP), aplicaciones basadas en búsqueda, extracción
de datos,48 sistemas de archivos distribuidos, bases de datos distribuidas, nube e infraestructura basada en HPC(aplicaciones,
almacenamiento y recursos informáticos)49 e Internet. A pesar de que se han desarrollado muchos enfoques y tecnologías, sigue
siendo difícil llevar a cabo el aprendizaje automático con grandes datos.50
Algunas bases de datos relacionales de MPP tienen la capacidad de almacenar y administrar petabytes de datos. Implícita es la
capacidad de cargar, supervisar, realizar copias de seguridad y optimizar el uso de las tablas de datos de gran tamaño en el
RDBMS.51
El programa de Análisis Topológico de Datos de DARPA busca la estructura fundamental de los conjuntos de datos masivos y en
2008 la tecnología se hizo pública con el lanzamiento de una compañía llamada Ayasdi.52
Los profesionales de los procesos de análisis de big data generalmente son hostiles al almacenamiento compartido más lento,53
prefieren el almacenamiento de conexión directa (DAS) en sus diversas formas, desde unidad de estado sólido (SSD) hasta disco
SATA de gran capacidad enterrado dentro de nodos de procesamiento paralelo. La percepción de las arquitecturas de
almacenamiento compartidas, la red de área de almacenamiento (SAN) y el almacenamiento conectado a la red (NAS), es que son
relativamente lentas, complejas y costosas. Estas cualidades no son consistentes con los sistemas de análisis de datos grandes que
prosperan en el rendimiento del sistema, infraestructura de productos básicos y bajo costo.
La entrega de información real o casi en tiempo real es una de las características definitorias del análisis de big data. Por lo tanto,
se evita la latencia siempre que sea posible. Los datos en la memoria son buenos; los datos en el disco giratorio en el otro extremo
de una conexión FC SAN no lo son. El costo de una SAN en la escala necesaria para las aplicaciones analíticas es mucho mayor
que otras técnicas de almacenamiento.
Hay ventajas y desventajas para el almacenamiento compartido en el análisis de big data, pero los practicantes de análisis de big
data a partir de 2011 no lo favorecieron.
Captura
¿De dónde provienen todos estos datos? Los fabricamos directa e indirectamente segundo tras segundo. Un iPhone hoy en día
tiene más capacidad de cómputo que la NASA cuando el ser humano llegó a la Luna,54 por lo que la cantidad de datos generados
por persona y en unidad de tiempo es muy grande. Catalogamos la procedencia de los datos según las siguientes categorías:55
Generados por las propias personas. El hecho de enviar correos electrónicos o mensajes por WhatsApp,
publicar un estado en Facebook, publicar relaciones laborales en Linkedin, tuitear contenidos o responder a una
encuesta por la calle son cosas que hacemos a diario y que crean nuevos datos y metadatos que pueden ser
analizados. Se estima que cada minuto al día se envían más de 200 millones de correos electrónicos, se
comparten más de 700 000 piezas de contenido en Facebook, se realizan dos millones de búsquedas en Google
o se editan 48 horas de vídeo en YouTube.56 Por otro lado, las trazas de utilización en un sistema ERP, incluir
registros en una base de datos o introducir información en una hoja de cálculo son otras formas de generar
estos datos.
Obtenidas a partir de transacciones. La facturación, tarjetas de fidelización, las llamadas telefónicas, las
conexiones torres de telefonía, los accesos a wifis públicas, el pago con tarjetas de crédito o las transacciones
entre cuentas bancarias generan información que tratada puede ser datos relevantes. Por ejemplo transacciones
bancarias: Lo que el usuario conoce como un ingreso de X euros, el sistema lo capturará como una acción
llevada a cabo en una fecha y momento determinado, en un lugar concreto, entre unos usuarios registrados, y
con ciertos metadatos.
Mercadotecnia electrónica y web. Se genera una gran cantidad de datos cuando se navega por internet. Con la
web 2.0 se ha roto el paradigma webmaster-contenido-lector y los mismos usuarios se convierten en creadores
de contenido gracias a su interacción con el sitio. Existen muchas herramientas de seguimiento utilizadas en su
mayoría con fines de mercadotecnia y análisis de negocio. Los movimientos de ratón quedan grabados en
mapas de calor y queda registro de cuánto pasamos en cada página y cuándo las visitamos.
Obtenidos a partir de las interacciones máquina a máquina (M2M). Son datos obtenidos a partir de la recogida
de métricas obtenidas desde dispositivos (medidores, sensores de temperatura, de luz, de altura, de presión, de
sonido…) que transforman las magnitudes físicas o químicas y las convierten en datos. Existen desde hace
décadas, pero la llegada de las comunicaciones inalámbricas (wifi, Bluetooth, RFID, etc.) ha revolucionado el
mundo de los sensores. Algunos ejemplos son los GPS en la automoción, los sensores de signos vitales (muy
útil para seguros de vida), pulseras en los festivales57 , monitorizadores del funcionamiento y conducción de
autoḿoviles (se obtiene información muy útil para la aseguradoras)58 , los smartphone (son sensores de
localización).
Datos biométricos recolectados. En general provienen de servicios de seguridad, defensa y servicios de
inteligencia.59 Son cantidades de datos generados por lectores biométricos como escáneres de retina,
escáneres de huellas digitales, o lectores de cadenas de ADN. El propósito de estos datos es proporcionar
mecanismos de seguridad y suelen estar custodiados por los ministerios de defensa y departamentos de
inteligencia. Un ejemplo de aplicación es el cruce de ADN entre una muestra de un crimen y una muestra en
nuestra base de datos.
Transformación
Una vez encontradas las fuentes de los datos necesarios, muy posiblemente dispongamos de un sinfín de tablas de origen que no
estarán relacionadas. El siguiente objetivo es hacer que los datos se recojan en un mismo lugar y darles un formato adecuado.
Aquí entran en juego las plataformas extraer, transformar y cargar (ETL). Su propósito es extraer los datos de las diferentes
fuentes y sistemas, para después hacer transformaciones (conversiones de datos, limpieza de datos sucios, cambios de formato,
etc.) y finalmente cargar los datos en la base de datos o almacén de datos especificada.60 Un ejemplo de plataforma ETL es el
Pentaho Data Integration, más concretamente su aplicación Spoon.
Almacenamiento NoSQL
El término NoSQL se refiere a Not Only SQL (no solo SQL) y son sistemas de almacenamiento que no cumplen con el esquema
entidad-relación.61 Proveen un sistema de almacenamiento mucho más flexible y concurrente y permiten manipular grandes
cantidades de información de manera mucho más rápida que las bases de datos relacionales.
Distinguimos cuatro grandes grupos de bases de datos NoSQL:
Almacenamiento clave-valor (key-value): los datos se almacenan de forma similar a los mapas o diccionarios de
datos, donde se accede al dato a partir de una clave única.62 Los valores (datos) son aislados e independientes
entre ellos, y no son interpretados por el sistema. Pueden ser variables simples como enteros o caracteres, u
objetos. Por otro lado, este sistema de almacenamiento carece de una estructura de datos clara y establecida,
por lo que no requiere un formateo de los datos muy estricto.63
Son útiles para operaciones simples basadas en las claves. Un ejemplo es el aumento de velocidad de carga de un sitio web que
puede utilizar diferentes perfiles de usuario, teniendo mapeados los archivos que hay que incluir según el id de usuario y que han
sido calculados con anterioridad. Apache Cassandra es la tecnología de almacenamiento clave-valor más reconocida por los
usuarios.64
Almacenamiento documental: las bases de datos documentales guardan un gran parecido con las bases de
datos Clave-Valor, diferenciándose en el dato que guardan. Si en el anterior no se requería una estructura de
datos concreta, en este caso guardamos datos semiestructurados.64 Estos datos pasan a llamarse
documentos, y pueden estar formateados en XML, JSON, Binary JSON o el que acepte la misma base de datos.
Todos los documentos tienen una clave única con la que pueden ser accedidos e
identificados explícitamente. Estos documentos no son opacos al sistema, por lo que
pueden ser interpretados y lanzar queries sobre ellos.62 Un ejemplo que aclare cómo se
usa lo encontramos en un blog: se almacena el autor, la fecha, el título, el resumen y el
contenido del post.
CouchDB o MongoDB64 son quizá las más conocidas. Hay que hacer mención especial a MapReduce, una tecnología de Google
inicialmente diseñada para su algoritmo PageRank, que permite seleccionar un subconjunto de datos, agruparlos o reducirlos y
cargarlos en otra colección, y a Hadoop que es una tecnología de Apache diseñada para almacenar y procesar grandes cantidades
de datos.
Almacenamiento en grafo: las bases de datos en grafo rompen con la idea de tablas y se basan en la teoría de
grafos, donde se establece que la información son los nodos y las relaciones entre la información son las
aristas,64 algo similar al modelo relacional. Su mayor uso se contempla en casos de relacionar grandes
cantidades de datos que pueden ser muy variables. Por ejemplo, los nodos pueden contener objetos, variables y
atributos diferentes en unos y otros. Las operaciones de join se sustituyen por recorridos a través del grafo, y se
guarda una lista de adyacencias entre los nodos.62 Encontramos un ejemplo en las redes sociales: en
Facebook cada nodo se considera un usuario, que puede tener aristas de amistad con otros usuarios, o aristas
de publicación con nodos de contenidos. Soluciones como Neo4J y GraphDB64 son las más conocidas dentro
de las bases de datos en grafo.
Almacenamiento orientado a columnas: por último, este almacenamiento es parecido al documental. Su modelo
de datos es definido como «un mapa de datos multidimensional poco denso, distribuido y persistente».62 Se
orienta a almacenar datos con tendencia a escalar horizontalmente, por lo que permite guardar diferentes
atributos y objetos bajo una misma clave. A diferencia del documental y el clave-valor, en este caso se pueden
almacenar varios atributos y objetos, pero no serán interpretables directamente por el sistema. Permite agrupar
columnas en familias y guardar la información cronológicamente, mejorando el rendimiento. Esta tecnología se
acostumbra a usar en casos con 100 o más atributos por clave.64 Su precursor es BigTable de Google, pero
han aparecido nuevas soluciones como HBase o HyperTable.
Análisis de datos
El análisis permite mirar los datos y explicar lo que esta pasando. Teniendo los datos necesarios almacenados según diferentes
tecnologías de almacenamiento, nos daremos cuenta que necesitaremos diferentes técnicas de análisis de datos como las
siguientes:
Asociación: permite encontrar relaciones entre diferentes variables.65 Bajo la premisa de causalidad, se
pretende encontrar una predicción en el comportamiento de otras variables. Estas relaciones pueden ser los
sistemas de ventas cruzadas en los comercios electrónicos.
Minería de datos (data mining): tiene como objetivo encontrar comportamientos predictivos. Engloba el conjunto
de técnicas que combina métodos estadísticos y de aprendizaje automático con almacenamiento en bases de
datos.66 Está estrechamente relacionada con los modelos utilizados para descubrir patrones en grandes
cantidades de datos.
Agrupación (clustering): el análisis de clústeres es un tipo de minería de datos que divide grandes grupos de
individuos en grupos más pequeños de los cuales no conocíamos su parecido antes del análisis.66 El propósito
es encontrar similitudes entre estos grupos, y el descubrimiento de nuevos, conociendo cuáles son las
cualidades que lo definen. Es una metodología apropiada para encontrar relaciones entre resultados y hacer una
evaluación preliminar de la estructura de los datos analizados. Existen diferentes técnicas y algoritmos de
clusterización.67
Análisis de texto (text analytics): gran parte de los datos generados por las personas son textos, como correos,
búsquedas web o contenidos. Esta metodología permite extraer información de estos datos y así modelar temas
y asuntos o predecir palabras.68
Visualización de datos
Tal y como el Instituto Nacional de Estadística dice en sus
tutoriales, «una imagen vale más que mil palabras o que mil
datos». La mente agradece mucho más una presentación bien
estructurada de resultados estadísticos en gráficos o mapas en vez
de en tablas con números y conclusiones. En los macrodatos se
llega un paso más allá: parafraseando a Edward Tufte, uno de los
expertos en visualización de datos más reconocidos a nivel
mundial «el mundo es complejo, dinámico, multidimensional, el
papel es estático y plano. ¿Cómo vamos a representar la rica Esto es una infografía.
experiencia visual del mundo en la mera planicie?».
Mondrian69 es una plataforma que permite visualizar la información a través de los análisis llevados a cabo sobre los datos que
disponemos. Con esta plataforma se intenta llegar a un público más concreto, y una utilidad más acotada como un cuadro de
mando integral de una organización. En los últimos años se han generalizado otras plataformas como Tableau, Power BI y Qlik70
.
Por otro lado, las infografías se han vuelto un fenómeno viral, donde se recogen los resultados de los diferentes análisis sobre
nuestros datos, y son un material atractivo, entretenido y simplificado para audiencias masivas.71
Aplicaciones
El uso de big data ha sido utilizado por la industria de los medios, las empresas y los gobiernos para dirigirse con mayor precisión
a su público y aumentar la eficiencia de sus mensajes.
El big data ha aumentado la demanda de especialistas en administración de la información tanto que Software AG, Oracle
Corporation, IBM, Microsoft, SAP, EMC, HP y Dell han gastado más de $ 15 mil millones en firmas de software especializadas
en administración y análisis de datos. En 2010, esta industria valía más de $ 100 mil millones y crecía a casi un 10 por ciento
anual: aproximadamente el doble de rápido que el negocio del software en general.72
Las economías desarrolladas usan cada vez más tecnologías intensivas en datos. Hay 4.600 millones de suscripciones de teléfonos
móviles en todo el mundo, y entre 1.000 y 2.000 millones de personas que acceden a Internet. Entre 1990 y 2005, más de mil
millones de personas en todo el mundo ingresaron a la clase media, lo que significa que más personas se volvieron más
alfabetizadas, lo que a su vez llevó al crecimiento de la información. La capacidad efectiva mundial para intercambiar
información a través de redes de telecomunicaciones era de 281 petabytes en 1986, 471 petabytes en 1993, 2.2 exabytes en 2000,
65 exabytes en 200773 y las predicciones cifran el tráfico de internet en 667 exabytes anualmente para 2014. Según una
estimación, un tercio de la información almacenada en todo el mundo está en forma de texto alfanumérico e imágenes fijas,74
que es el formato más útil para la mayoría de las aplicaciones de big data. Esto también muestra el potencial de los datos aún no
utilizados (es decir, en forma de contenido de video y audio).
Si bien muchos proveedores ofrecen soluciones estándar para big data, los expertos recomiendan el desarrollo de soluciones
internas personalizadas para resolver el problema de la compañía si la empresa cuenta con capacidades técnicas suficientes.75
Gobierno
El uso y la adopción de big data dentro de los procesos gubernamentales permite eficiencias en términos de costo, productividad e
innovación, pero no viene sin sus defectos76 . El análisis de datos a menudo requiere que varias partes del gobierno (central y
local) trabajen en colaboración y creen procesos nuevos para lograr el resultado deseado.
Los datos masivos se usan habitualmente para influenciar el proceso democrático. Los representantes del pueblo pueden ver todo
lo que hacen los ciudadanos, y los ciudadanos pueden dictar la vida pública de los representantes mediante tuits y otros métodos
de extender ideas en la sociedad. Las campañas presidenciales de Obama y Trump los usaron de manera generalizada77 y hay
expertos que advierten de que hay que «reinventar la democracia representativa. Si no, es posible que se convierta en una
dictadura de la información»78 .
El Banco Interamericano de Desarrollo (BID) ha desarrollado estudios en América Latina en los que presenta distintos casos del
uso de Macrodatos en el diseño e implementación de políticas públicas. Destacando intervenciones en temas de movilidad
urbana, ciudades inteligentes y seguridad, entre otras temáticas. Las recomendaciones de los mismos han girado en torno a cómo
construir instituciones públicas que logren, mediante el uso de datos masivos, a ser más transparentes y ayuden a tomar mejores
decisiones.79
Desarrollo internacional
La investigación sobre el uso efectivo de las tecnologías de información y comunicación para el desarrollo (también conocido
como ICT4D) sugiere que la tecnología de big data puede hacer contribuciones importantes pero también presentar desafíos
únicos para el desarrollo internacional.80 81 Los avances en el análisis de big data ofrecen oportunidades rentables para mejorar
la toma de decisiones en áreas de desarrollo críticas como la atención médica, el empleo, la productividad económica, la
delincuencia, la seguridad y el manejo de recursos y desastres naturales.82 Además, los datos generados por el usuario ofrecen
nuevas oportunidades para ofrecer una voz inaudita. Sin embargo, los desafíos de larga data para las regiones en desarrollo, como
la infraestructura tecnológica inadecuada y la escasez de recursos económicos y humanos exacerban las preocupaciones
existentes con los grandes datos, como la privacidad, la metodología imperfecta y los problemas de interoperabilidad.82
Industria
El big data proporciona una infraestructura para la transparencia en la industria manufacturera, que es la capacidad de desentrañar
incertidumbres como el rendimiento y la disponibilidad de componentes inconsistentes. La fabricación predictiva como un
enfoque aplicable para el tiempo de inactividad y la transparencia cercanos a cero requiere una gran cantidad de datos y
herramientas de predicción avanzadas para un proceso sistemático de datos en información útil.83 Un marco conceptual de
fabricación predictiva comienza con la adquisición de datos donde se encuentran disponibles diferentes tipos de datos sensoriales,
tales como acústica, vibración, presión, corriente, voltaje y datos de controlador. Una gran cantidad de datos sensoriales, además
de los datos históricos, construyen los grandes datos en la fabricación. Los big data generados actúan como la entrada en
herramientas predictivas y estrategias preventivas como Pronósticos y Gestión de Salud (PHM).84
Medios
Los profesionales en medios y publicidad abordan los grandes datos como muchos puntos de información procesables sobre
millones de personas. La industria parece alejarse del enfoque tradicional de utilizar entornos de medios específicos, como
periódicos, revistas o programas de televisión, y en su lugar aprovecha a los consumidores con tecnologías que llegan a las
personas objetivo en momentos óptimos en ubicaciones óptimas. El objetivo final es servir o transmitir, un mensaje o contenido
que (estadísticamente hablando) esté en línea con la mentalidad del consumidor. Por ejemplo, los entornos de publicación adaptan
cada vez más los mensajes (anuncios publicitarios) y el contenido (artículos) para atraer a los consumidores que han sido
recolectados exclusivamente a través de diversas actividades de extracción de datos.85
Orientación de los consumidores (para publicidad de los vendedores)86

Minería de datos
Periodismo de datos: los editores y los periodistas usan herramientas de Big Data para proporcionar información
e infografías únicas e innovadoras.
Seguros
Los proveedores de seguro médico recopilan datos sobre "determinantes sociales", como el consumo de alimentos y televisión, el
estado civil, el tamaño de la vestimenta y los hábitos de compra, desde los cuales hacen predicciones sobre los costos de salud
para detectar problemas de salud en sus clientes. Es controvertido si estas predicciones se están utilizando actualmente para fijar
precios.87
Deportes
En un ámbito donde se mueve tanto dinero, suelen utilizar las nuevas tecnologías antes que los usuarios de base. Nos
encontramos por ejemplo que el análisis de los partidos constituye una parte fundamental en el entrenamiento de los
profesionales, y la toma de decisiones de los entrenadores.
Amisco88 de la empresa Sports Data Company (https://www.stats.com/) es un sistema aplicado por los más importantes equipos
de las ligas Española, Francesa, Alemana e Inglesa desde el 2001. Consta de 8 cámaras y diversos ordenadores instalados en los
estadios, que registran los movimientos de los jugadores a razón de 25 registros por segundo, y luego envían los datos a una
central donde hacen un análisis masivo de los datos. La información que se devuelve como resultado incluye una reproducción
del partido en dos dimensiones, los datos técnicos y estadísticas, y un resumen de los datos físicos de cada jugador, permitiendo
seleccionar varias dimensiones y visualizaciones diferentes de datos.88
Finanzas
El crecimiento de datos en el mundo financiero obliga al uso del big data para el procesamiento rápido de datos, gestión de la
omnicanalidad, segmentación avanzada de clientes, creación de estrategias de precios dinámicos, gestión de riesgos, prevención
de fraudes, apoyo en la toma de decisiones, detectar tendencias de consumo, definir nuevas formas de hacer mejor las cosas,
detectar alertas y otro tipo de eventos complejos, hacer un seguimiento avanzado de la competencia.89
Marketing y ventas
El big data cada vez se utiliza más para segmentación avanzada de los consumidores, automatizar la personalización de los
productos, adaptar las comunicaciones al momento del ciclo de venta, captar nuevas oportunidades de venta, apoyo en la toma de
decisiones a tiempo real, gestión de crisis.90 91
Investigación
La búsqueda encriptada y la formación de clúster en big data se demostraron en marzo de 2014 en la Sociedad Estadounidense de
Educación en Ingeniería. Gautam Siwach participó en abordar los desafíos de Big Data por el Laboratorio de Ciencias de la
Computación e Inteligencia Artificial del MIT y Amir Esmailpour, en el Grupo de Investigación de UNH, investigó las
características clave de Big Data como la formación de clusters y sus interconexiones. Se centraron en la seguridad de los
macrodatos y la orientación del término hacia la presencia de diferentes tipos de datos en forma cifrada en la interfaz de la nube al
proporcionar las definiciones sin procesar y los ejemplos de tiempo real dentro de la tecnología. Además, propusieron un enfoque
para identificar la técnica de codificación para avanzar hacia una búsqueda acelerada sobre texto encriptado que conduzca a las
mejoras de seguridad en big data.92
En marzo de 2012, la Casa Blanca anunció una "Iniciativa de Big Data" nacional que consistía en seis departamentos y agencias
federales comprometiendo más de $ 200 millones para proyectos de investigación de big data.
La iniciativa incluyó una subvención de la National Science Foundation "Expeditions in Computing" de $ 10 millones durante 5
años para el AMPLab93 en la Universidad de California, Berkeley.94 El AMPLab también recibió fondos de DARPA, y más de
una docena de patrocinadores industriales y utiliza big data para atacar una amplia gama de problemas, desde predecir la
congestión del tráfico95 hasta combatir el cáncer.96
La Iniciativa Big Data de la Casa Blanca también incluyó un compromiso del Departamento de Energía de proporcionar $ 25
millones en financiamiento durante 5 años para establecer el Instituto de Administración, Análisis y Visualización de Datos
Escalables (SDAV),97 dirigido por Lawrence Berkeley National Laboratory del Departamento de Energía. Laboratorio. El
Instituto SDAV tiene como objetivo reunir la experiencia de seis laboratorios nacionales y siete universidades para desarrollar
nuevas herramientas que ayuden a los científicos a gestionar y visualizar datos en las supercomputadoras del Departamento.
El estado de Massachusetts anunció la Iniciativa Big Data de Massachusetts en mayo de 2012, que proporciona fondos del
gobierno estatal y de empresas privadas a una variedad de instituciones de investigación. El Instituto de Tecnología de
Massachusetts alberga el Centro de Ciencia y Tecnología de Intel para Big Data en el Laboratorio de Ciencias de la Computación
e Inteligencia Artificial del MIT, que combina fondos y esfuerzos de investigación gubernamentales, corporativos e
institucionales.98
La Comisión Europea está financiando el Foro público privado de Big Data, que duró dos años, a través de su Séptimo Programa
de Framework para involucrar a empresas, académicos y otras partes interesadas en la discusión de problemas de big data. El
proyecto tiene como objetivo definir una estrategia en términos de investigación e innovación para guiar las acciones de apoyo de
la Comisión Europea en la implementación exitosa de la economía de big data. Los resultados de este proyecto se utilizarán como
aportación para Horizonte 2020, su próximo programa.
El gobierno británico anunció en marzo de 2014 la fundación del Instituto Alan Turing, que lleva el nombre del pionero de la
informática y el descifrador de códigos, que se centrará en nuevas formas de recopilar y analizar grandes conjuntos de datos.99
En el Día de la Inspiración del Canadian Open Data Experience (CODE) de la Universidad de Waterloo Stratford Campus, los
participantes demostraron cómo el uso de la visualización de datos puede aumentar la comprensión y el atractivo de los grandes
conjuntos de datos y comunicar su historia al mundo.100
Para que la fabricación sea más competitiva en los Estados Unidos (y en el mundo), es necesario integrar más ingenio e
innovación estadounidenses en la fabricación; Por lo tanto, la National Science Foundation ha otorgado al centro de investigación
cooperativa Industry Industry para Intelligent Maintenance Systems (IMS) en la Universidad de Cincinnati para que se concentre
en el desarrollo de herramientas y técnicas predictivas avanzadas aplicables en un entorno de big data.101 En mayo de 2013, el
IMS Center celebró una reunión de la junta asesora de la industria centrada en big data, donde presentadores de varias compañías
industriales discutieron sus preocupaciones, problemas y objetivos futuros en el entorno de big data.
Ciencias sociales computacionales: cualquier persona puede usar Interfaces de programación de aplicaciones (API)
proporcionadas por grandes titulares de datos, como Google y Twitter, para realizar investigaciones en las ciencias sociales y del
comportamiento.102 A menudo, estas API se proporcionan de forma gratuita. Tobias Preis usó los datos de Tendencias de Google
para demostrar que los usuarios de Internet de países con un producto interno bruto (PIB) per cápita más alto tienen más
probabilidades de buscar información sobre el futuro que la información sobre el pasado. Los hallazgos sugieren que puede haber
un vínculo entre el comportamiento en línea y los indicadores económicos del mundo real.103 104 105 Los autores del estudio
examinaron los registros de consultas de Google realizados por la relación del volumen de búsquedas para el año siguiente
('2011') con el volumen de búsquedas del año anterior ('2009'), al que denominaron 'índice de orientación futura'.106 Compararon
el índice de orientación futura con el PIB per cápita de cada país y encontraron una fuerte tendencia en los países donde los
usuarios de Google informan más sobre el futuro para tener un PIB más alto. Los resultados sugieren que potencialmente puede
haber una relación entre el éxito económico de un país y el comportamiento de búsqueda de información de sus ciudadanos
capturado en Big Data.
Tobias Preis y sus colegas Helen Susannah Moat y H. Eugene Stanley introdujeron un método para identificar los precursores en
línea de los movimientos bursátiles, utilizando estrategias de negociación basadas en los datos del volumen de búsquedas
provistos por Google Trends.107 Su análisis del volumen de búsqueda de Google para 98 términos de relevancia financiera
variable, publicado en Scientific Reports,108 sugiere que los aumentos en el volumen de búsqueda para términos de búsqueda
relevantes financieramente tienden a preceder grandes pérdidas en los mercados financieros.109 110 111 112 113 114
Los grandes conjuntos de datos vienen con desafíos algorítmicos que anteriormente no existían. Por lo tanto, existe una necesidad
de cambiar fundamentalmente las formas de procesamiento.
Los talleres sobre algoritmos para conjuntos de datos masivos modernos (MMDS) reúnen a científicos informáticos, estadísticos,
matemáticos y profesionales del análisis de datos para analizar los desafíos algorítmicos del big data.115
Muestreo de big data

Una pregunta de investigación importante que se puede hacer sobre los conjuntos de datos grandes es si necesita ver los datos
completos para sacar ciertas conclusiones sobre las propiedades de los datos o si una muestra es lo suficientemente buena. El
nombre big data contiene un término relacionado con el tamaño, y esta es una característica importante de big data. Pero el
muestreo (estadísticas) permite la selección de puntos de datos correctos dentro del conjunto de datos más grande para estimar las
características de toda la población. Por ejemplo, hay alrededor de 600 millones de tweets producidos todos los días. ¿Es
necesario mirarlos a todos para determinar los temas que se discuten durante el día? ¿Es necesario mirar todos los tweets para
determinar el sentimiento sobre cada uno de los temas? En la fabricación de diferentes tipos de datos sensoriales, como acústica,
vibración, presión, corriente, voltaje y datos del controlador están disponibles en intervalos de tiempo cortos. Para predecir el
tiempo de inactividad, puede que no sea necesario examinar todos los datos, pero una muestra puede ser suficiente. Big data se
puede desglosar por varias categorías de puntos de datos, como datos demográficos, psicográficos, de comportamiento y
transaccionales. Con grandes conjuntos de puntos de datos, los especialistas en marketing pueden crear y utilizar segmentos de
consumidores más personalizados para una orientación más estratégica.
Se han realizado algunos trabajos en algoritmos de muestreo para big data. Se ha desarrollado una formulación teórica para el
muestreo de datos de Twitter.116
Salud y medicina
Hacia mediados del 2009, el mundo experimentó una pandemia de gripe A, llamada gripe porcina o H1N1. La web Google Flu
Trends117 intentó predecirla a partir de los resultados de las búsquedas. Google Flu Trends usaba los datos de las búsquedas de
los usuarios que contenían síntomas parecidos a la enfermedad de la gripe y los agrupó según ubicación y fecha, y pretendía
predecir la actividad de la gripe hasta con dos semanas de antelación más que los sistemas tradicionales. Sin embargo, en el 2013
se descubrió que predijo el doble de visitas al médico de las que hubo en realidad. Sus creadores cometieron dos errores: a) la
nueva herramienta había generado muchísimo interés en el público, que la consultaba más por curiosidad que por necesidad, lo
que generó ruido en la información, y b) los algoritmos de predicción de los buscadores. En un artículo en la revista Science en el
2014, se analizaron los errores cometidos por Google Flu Trends: "querer sustituir con técnicas de datos masivos los métodos más
tradicionales y probados de recolección y análisis de datos, en vez de sólo aplicar dichas técnicas como complemento, como hizo
Brittany Wenger con Cloud4cancer." Google Flu Trends dejó de funcionar.118
Más concretamente, en Nueva Zelanda119 cruzaron los datos de las tendencias de gripe de Google con datos existentes de los
sistemas de salud nacionales, y comprobaron que estaban alineados. Los gráficos mostraron una correlación con las búsquedas de
síntomas relacionados con la gripe y la extensión de la pandemia en el país. Los países con sistemas de predicción poco
desarrollados pueden beneficiarse de una predicción fiable y pública para abastecer a su población de las medidas de seguridad
oportunas.
Entre 1853 y 1854, en Londres, una epidemia de cólera mató a miles de personas. El médico John Snow estudió los registros de
defunciones, y descubrió que la mayor parte de los casos se presentaron en un barrio específico: las personas habían bebido agua
de un mismo pozo. Cuando lo clausuraron, el número de casos comenzó a disminuir.120
En el 2012, en la Feria de Ciencias de Google, Brittany Wenger, estudiante de 18 años, presentó el proyecto de diseño de un
software para ayudar al diagnóstico temprano del cáncer de mama. Denominó a la plataforma Cloud4cancer, que utiliza una red
de inteligencia artificial y las bases de datos de los hospitales para diferenciar una muestra de un tejido benigno de una de un
tumor maligno. El sistema inteligente diseñado por Wenger distingue en segundos los dos tipo de tumores, ingresando a la
plataforma las características observadas. Es posible que este sistema se aplique más adelante a otros padecimientos, como la
leucemia.121
Defensa y seguridad
Para incrementar la seguridad frente a los ataques de las propias organizaciones, ya sean empresas en el entorno económico o los
propios ministerios de defensa en el entorno de ciberataques, se contempla la utilidad de las tecnologías de big data en escenarios
como la vigilancia y seguridad de fronteras, lucha contra el terrorismo y crimen organizado, contra el fraude, planes de seguridad
ciudadana o planeamiento táctico de misiones e inteligencia militar.122
Caso específico del proyecto Aloja

El proyecto Aloja123 ha sido iniciado por una apuesta en común del
Barcelona Supercomputing Center (BSC) y Microsoft Research. El
objetivo de este proyecto de big data quiere «conseguir una optimización
automática en despliegues de Hadoop en diferentes infraestructuras». [40]
Caso específico de sostenibilidad
Conservation International es una organización con el propósito de

concienciar a la sociedad de cuidar el entorno de una manera responsable y
sostenible. Con la ayuda de la plataforma Vertica Analytics de HP, han
situado 1000 cámaras a lo largo de dieciséis bosques en cuatro continentes.
Una de las máquinas del Marenostrum,
Estas cámaras incorporan unos sensores, y a modo de cámara oculta
Supercomputador del BSC
graban el comportamiento de la fauna. Con estas imágenes y los datos de
los sensores (precipitaciones, temperatura, humedad, solar…) consiguen
información sobre cómo el cambio climático o el desgaste de la tierra afecta en su comportamiento y desarrollo.124
Críticas
Las críticas al paradigma del big data vienen en dos formas, aquellas que cuestionan las implicaciones del enfoque en sí mismo, y
las que cuestionan la forma en que se realiza actualmente.125 Un enfoque de esta crítica es el campo de los estudios de datos
críticos.
Críticas al paradigma de los grandes datos

"Un problema crucial es que no sabemos mucho sobre los microprocesos empíricos subyacentes que conducen a la aparición de
las [se] características de red típicas de Big Data".126 En su crítica, Snijders, Matzat y Reips señalan que a menudo se hacen
suposiciones muy fuertes sobre las propiedades matemáticas que pueden no reflejar en absoluto lo que realmente está sucediendo
a nivel de los microprocesos. Mark Graham ha criticado ampliamente la afirmación de Chris Anderson de que los macrodatos
marcarán el final de la teoría:127 centrándose en particular en la noción de que los macrodatos siempre deben contextualizarse en
sus contextos sociales, económicos y políticos.128 Incluso cuando las empresas invierten sumas de ocho y nueve cifras para
obtener información de la transmisión de información de proveedores y clientes, menos del 40% de los empleados tienen
procesos y habilidades suficientemente maduros para hacerlo. Para superar este déficit de perspicacia, los grandes datos, sin
importar cuán exhaustivos o bien analizados, se complementen con un "gran juicio", según un artículo de Harvard Business
Review.129
En la misma línea, se ha señalado que las decisiones basadas en el análisis de big data inevitablemente "están informadas por el
mundo como lo fueron en el pasado o, en el mejor de los casos, como lo es actualmente". Alimentados por una gran cantidad de
datos sobre experiencias pasadas, los algoritmos pueden predecir el desarrollo futuro si el futuro es similar al pasado.130 Si la
dinámica de sistemas del futuro cambia (si no es un proceso estacionario), el pasado puede decir poco sobre el futuro. Para hacer
predicciones en entornos cambiantes, sería necesario tener un conocimiento profundo de la dinámica de los sistemas, que requiere
teoría. Como respuesta a esta crítica, Alemany Oliver y Vayre sugirieron usar el "razonamiento abductivo como un primer paso
en el proceso de investigación para traer contexto a las huellas digitales de los consumidores y hacer que emerjan nuevas
teorías".131 Además, se ha sugerido combinar enfoques de big data con simulaciones por computadora, tales como modelos
basados en agentes y Sistemas Complejos. Los modelos basados en agentes son cada vez mejores para predecir el resultado de las
complejidades sociales de escenarios futuros incluso desconocidos a través de simulaciones por computadora que se basan en una
colección de algoritmos mutuamente interdependientes.132 133 Finalmente, el uso de métodos multivariantes que exploran la
estructura latente de los datos, como el análisis factorial y el análisis de conglomerados, han demostrado ser útiles como enfoques
analíticos que van más allá de los enfoques bi-variados (tablas cruzadas) típicamente empleados con conjuntos de datos más
pequeños.
En salud y biología, los enfoques científicos convencionales se basan en la experimentación. Para estos enfoques, el factor
limitante es la información relevante que puede confirmar o refutar la hipótesis inicial.134 Ahora se acepta un nuevo postulado en
ciencias biológicas: la información provista por los datos en grandes volúmenes (ómicas) sin hipótesis previas es complementaria
y a veces necesaria para los enfoques convencionales basados en la experimentación.135 En los enfoques masivos, la
formulación de una hipótesis relevante para explicar los datos es el factor limitante.136 La lógica de búsqueda se invierte y se
deben considerar los límites de la inducción ("Gloria de la ciencia y el escándalo de la filosofía", C. D. Broad, 1926).
Los defensores de la privacidad están preocupados por la amenaza a la privacidad que representa el aumento del almacenamiento
y la integración de la información de identificación personal; los paneles de expertos han publicado varias recomendaciones de
políticas para adaptar la práctica a las expectativas de privacidad.137 138 139 El uso indebido de Big Data en varios casos por los
medios, las empresas e incluso el gobierno ha permitido la abolición de la confianza en casi todas las instituciones fundamentales
que sostienen a la sociedad.140
Nayef Al-Rodhan sostiene que se necesitará un nuevo tipo de contrato social para proteger las libertades individuales en un
contexto de Big Data y corporaciones gigantes que poseen grandes cantidades de información. El uso de Big Data debería
supervisarse y regularse mejor a nivel nacional e internacional.141 Barocas y Nissenbaum argumentan que una forma de proteger
a los usuarios individuales es informando sobre los tipos de información que se recopila, con quién se comparte, bajo qué
limitaciones y con qué fines.142
Críticas del modelo 'V'

El modelo 'V' de Big Data es concertante ya que se centra en la escalabilidad computacional y carece de una pérdida en torno a la
perceptibilidad y la comprensibilidad de la información. Esto llevó al marco de Cognitive Big Data, que caracteriza la aplicación
Big Data de acuerdo con:143
Completar los datos: comprensión de lo no obvio de los datos;

Correlación de datos, causalidad y predictibilidad: la causalidad como requisito no esencial para lograr la
previsibilidad;
Explicación e interpretación: los seres humanos desean comprender y aceptar lo que entienden, donde los
algoritmos no lo resuelven;
Nivel de toma de decisiones automatizada: algoritmos que respaldan la toma de decisiones automatizada y el
autoaprendizaje algorítmico;
Crítica de la novedad
Grandes conjuntos de datos han sido analizados por máquinas de computación durante más de un siglo, incluida la analítica del
censo estadounidense realizada en 1890 por las máquinas de tarjetas perforadas de IBM que computaron estadísticas que incluían
medias y variaciones de poblaciones en todo el continente. En décadas más recientes, experimentos científicos como el CERN
han producido datos en escalas similares a los "grandes datos" comerciales actuales. Sin embargo, los experimentos científicos
han tendido a analizar sus datos utilizando clusters y grids especializados de computación de alto rendimiento
(supercomputación), en lugar de nubes de computadoras básicas baratas como en la ola comercial actual, lo que implica una
diferencia en la cultura y la tecnología.
Críticas de la ejecución de big data

Ulf-Dietrich Reips y Uwe Matzat escribieron en 2014 que el big data se había convertido en una "moda" en la investigación
científica. La investigadora danah boyd ha expresado su preocupación sobre el uso de big data en la ciencia, descuidando
principios como elegir una muestra representativa por estar demasiado preocupado por manejar grandes cantidades de datos.144
Este enfoque puede generar sesgos en los resultados de una forma u otra. La integración a través de recursos de datos
heterogéneos -algunos que pueden considerarse grandes datos y otros no- presenta desafíos logísticos y analíticos formidables,
pero muchos investigadores sostienen que tales integraciones probablemente representen las nuevas fronteras más prometedoras
en la ciencia.145 En el provocativo artículo "Preguntas críticas para Big Data"146 , los autores titulan big data como parte de la
mitología: "los grandes conjuntos de datos ofrecen una forma superior de inteligencia y conocimiento [...], con el aura de la
verdad, la objetividad y precisión ". Los usuarios de big data a menudo "se pierden en el gran volumen de números", y "trabajar
con Big Data sigue siendo subjetivo, y lo que cuantifica no necesariamente tiene un reclamo más cercano sobre la verdad
objetiva". Los desarrollos recientes en el dominio de BI, como los informes proactivos, apuntan especialmente a mejoras en la
usabilidad de big data, a través del filtrado automatizado de datos y correlaciones no útiles.147
El análisis de big data suele ser poco profundo en comparación con el análisis de conjuntos de datos más pequeños. [194] En
muchos proyectos de big data, no hay grandes análisis de datos, pero el desafío es extraer, transformar y cargar parte del
preprocesamiento de datos.148
Big data es una palabra de moda y un "término vago",149 150 pero al mismo tiempo una "obsesión" con empresarios, consultores,
científicos y medios de comunicación. Las muestras de datos grandes como Google Flu Trends no generaron buenas predicciones
en los últimos años, lo que exageró los brotes de gripe en un factor de dos. Del mismo modo, los premios de la Academia y las
predicciones electorales basadas únicamente en Twitter fueron más a menudo fuera del objetivo. Los grandes datos a menudo
presentan los mismos desafíos que los datos pequeños; agregar más datos no resuelve los problemas de sesgo, pero puede
enfatizar otros problemas. En particular, las fuentes de datos como Twitter no son representativas de la población en general, y los
resultados extraídos de dichas fuentes pueden dar lugar a conclusiones erróneas. Google Translate, que se basa en el análisis
estadístico de big data de textos, hace un buen trabajo al traducir páginas web. Sin embargo, los resultados de dominios
especializados pueden ser dramáticamente sesgados. Por otro lado, los macrodatos también pueden introducir nuevos problemas,
como el problema de las comparaciones múltiples: la prueba simultánea de un gran conjunto de hipótesis probablemente
produzca muchos resultados falsos que erróneamente parecen significativos. Ioannidis argumentó que "la mayoría de los
resultados de investigación publicados son falsos"151 debido esencialmente al mismo efecto: cuando muchos equipos científicos
e investigadores realizan cada uno experimentos (es decir, procesan una gran cantidad de datos científicos, aunque no con big
data), la probabilidad de que un resultado "significativo" sea falso crece rápidamente, incluso más cuando se publican resultados
positivos. Además, los resultados del análisis de big data son tan buenos como el modelo en el que se basan. En un ejemplo, Big
Data participó en el intento de predecir los resultados de las elecciones presidenciales de EE. UU. 2016152 con diversos grados
de éxito. Forbes predijo: "Si usted cree en el análisis de Big Data, es hora de comenzar a planificar para la presidencia de Hillary
Clinton y todo lo que eso implica".153
Requisitos de seguridad
A la hora de construir una Big Data, se debe tener en cuenta algunos requisitos de seguridad como lo es:
1. El acceso y autorización granular a los datos
La granulación quiere decir que los datos, a los cuales se tendrá acceso y autorización, son de alto nivel, o sea, al estar ya
agrupados, otorgarán una función más precisa y oportuna para el que los utilizará, que cuando se tienen datos separados. En este
punto también va incluido la gobernabilidad de datos que se debe tener, a saber, gobernabilidad de datos se refiere a que los datos
deben estar autorizados, organizados y con los permisos de usuario necesarios en una base de datos, con el menor número posible
de errores, manteniendo al mismo tiempo la privacidad y la seguridad. Para tener un efectivo gobierno de datos, deberán existir
controles granulares, que se pueden lograr a través de las expresiones de control de acceso; estas expresiones usan agrupación y
lógica booleana para controlar el acceso y autorización de datos flexibles, con permisos basados en roles y configuración de
visibilidad. Se pueden tener diferentes niveles de acceso, para dar una seguridad más integrada.
2. Seguridad perimetral, protección de datos y autenticación integrada.
La seguridad perimetral se define como aquellos elementos y sistemas que permiten proteger unos perímetros en instalaciones
sensibles de ser atacados los sistemas informáticos por intrusos. Se trata de una primera línea de defensa que reduce muchísimo el
riesgo de que se roben los datos o incluso desaparezcan.
La seguridad perimetral que protege los sistemas debe cumplir cuatro funciones básicas:
1. Resistir a los ataques externos.

2. Identificar los ataques sufridos y alertar de ellos.
3. Aislar y segmentar los distintos servicios y sistemas en función de su exposición a ataques.
4. Filtrar y bloquear el tráfico, permitiendo únicamente aquel que sea absolutamente necesario.
Algunas herramientas que se pueden utilizar para la seguridad perimetral
son: los Firewalls, pues definen, mediante una política de acceso, qué tipo
de tráfico se permite o se deniega en la red; los sistemas de detección y
prevención de intrusos, que son dispositivos que monitorizan y generan
alarmas cuando hay alertas de seguridad; los Honeypots, que se trata de
una trampa para atraer y analizar ataques de bots y hackers; y los antispam,
que filtran el contenido malicioso que entra a nuestra red. La
gobernabilidad no ocurre sin una seguridad en el punto final de la cadena.
Es importante construir un buen perímetro y colocar un cortafuego
Firewall
alrededor de los datos, integrados con los sistemas y estándares de
autenticación existentes. Cuando se trata de autenticación, es importante
que las empresas se sincronicen con sistemas probados. Con la autenticación, se trata de ver cómo integrarse con LDAP
[Lightweight Directory Access Protocol], Active Directory y otros servicios de directorio. También se puede dar soporte a
herramientas como Kerberos para soporte de autenticación. Pero lo importante es no crear una infraestructura separada, sino
integrarla en la estructura existente.
3. Encriptación de Datos
El siguiente paso después de proteger el perímetro y autenticar todo el acceso granular de datos que se está otorgando, es
asegurarse de que los archivos y la información personalmente identificable estén encriptados de extremo a extremo. Es necesario
encriptar esos datos de forma que, independientemente de quién tenga acceso a él, puedan ejecutar los análisis que necesiten sin
exponer ninguno de esos datos. La encriptación es un procedimiento mediante el cual los archivos, o cualquier otro tipo de
documento, se vuelve completamente ilegibles gracias a un algoritmo que desordena sus componentes. Así, cualquier persona que
no disponga de las claves correctas no podrá acceder a la información que contiene.
4. Constante Auditoría y Análisis
La auditoría es un proceso implementado por los auditores de sistemas con el fin de auditar los accesos a los datos, por lo general,
siguiendo bien una metodología basada en una lista que contempla los puntos que quieren comprobar o mediante la evaluación de
riesgos potenciales. En concreto, se realiza un examen de los accesos a los datos almacenados en las bases de datos con el fin de
poder medir, monitorear y tener constancia de los accesos a la información almacenada en las mismas. Ese nivel de visibilidad y
responsabilidad en cada paso del proceso es lo que permite “gobernar" los datos en lugar de simplemente establecer políticas y
controles de acceso y esperar lo mejor. También es cómo las empresas pueden mantener sus estrategias actualizadas en un entorno
en el que la forma en que vemos los datos y las tecnologías que utilizamos para administrarlos y analizarlos están cambiando cada
día.
El fin que persigue, de uno u otro modo, es la seguridad corporativa. Una auditoría de base de datos, por lo tanto, facilita
herramientas eficaces para conocer de forma exacta cuál es la relación de los usuarios a la hora de acceder a las bases de datos,
incluyendo las actuaciones que deriven en una generación, modificación o eliminación de datos.
Virtualización de big data

La virtualización de big data es una forma de recopilar información de múltiples fuentes en el mismo lugar. El ensamblaje es
virtual: a diferencia de otros métodos, la mayoría de los datos permanecen en su lugar y se toman bajo demanda directamente
desde el sistema de origen.154
Véase también
ciencias de la computación
Comisión Federal para la Protección de Riesgos Sanitarios (Cofepris)
dataísmo
epidemiología digital
farmacovigilancia
Google Flu Trends (dejó de funcionar para pronosticar la influenza y el dengue)
hashtag
Internet de las cosas
medios sociales
Referencias
masivos están cambiando el mundo»] |url=
1. «Macrodatos e inteligencia de datos, alternativas a incorrecta (ayuda). ¿Cómo ves? (Ciudad de México:
big data» (http://www.fundeu.es/recomendacion/macr Dirección General de Divulgación de la Ciencia
odatosalternativa-abig-data-1582/). Consultado el 11 (UNAM)) 21 (241): 8-13. Consultado el 2 de
de abril de 2017. diciembre de 2018.
2. « "Los datos masivos (o big data) son el nuevo oro" » 4. Kusnetzky, Dan. What is "Big Data?". ZDNet.
(http://www.eldiario.es/turing/Big-data_0_161334397. http://blogs.zdnet.com/virtualization/?p=1708
html). eldiario.es. Consultado el 23 de mayo de 2017.
5. Vance, Ashley. Start-Up Goes After Big Data With
3. Hernández García, Claudia (diciembre del 2018). Hadoop Helper. New York Times Blog. 22 de abril de
[www.comoves.unam.mx «Big data: o cómo los datos
2010. http://bits.blogs.nytimes.com/2010/04/22/start- 22. Beyer, Mark. «Gartner Says Solving 'Big Data'
up-goes-after-big-data-with-hadoop-helper/?dbk Challenge Involves More Than Just Managing
6. Cukier, K. (25 February 2010). «Data, data Volumes of Data» (http://www.gartner.com/it/page.js
everywhere». The Economist. p?id=1731916). Gartner. Consultado el 13 de julio de
http://www.economist.com/specialreports/displaystory.cfm? 2011.
story_id=15557443 23. De Mauro, Greco, Grimaldi, Andrea, Marco, Michele
7. Málaga Hoy. «El imparable crecimiento del uso del (2016). A Formal definition of Big Data based on its
Big Data» (https://www.malagahoy.es/malaga/crecimi essential Features (https://www.emeraldinsight.com/d
ento-Big-Data_0_1285671918.html). oi/abs/10.1108/LR-06-2015-0061) (en inglés).
https://www.malagahoy.es. Consultado el 23 de Emerald Group Publishing.
octubre de 2018. 24. «What is Big Data?» (https://www.villanovau.com/res
8. Martin Hilbert, experto en redes digitales: “Obama y ources/bi/what-is-big-data/#.W6-02y_SFpg).
Trump usaron el Big Data para lavar cerebros” Villanova University.
http://www.theclinic.cl/2017/01/19/martin-hilbert- 25. InformationWeek (ed.). «Big Data: Avoid 'Wanna V'
experto-redes-digitales-obama-trump-usaron-big- Confusion» (https://www.informationweek.com/big-da
data-lavar-cerebros/ ta/big-data-analytics/big-data-avoid-wanna-v-confusi
9. Community cleverness required. Nature, 455(7209), on/d/d-id/1111077).
1. 2008. 26. Mayer-Schönberger, Cukier, Viktor, Kenneth (2013).
http://www.nature.com/nature/journal/v455/n7209/full/455001a.html
Houghton Mifflin Harcourt, ed. Big Data: A Revolution
10. Sandia sees data management challenges spiral. that Will Transform how We Live, Work, and Think (ht
HPC Projects. 4 August 2009. «Copia archivada» (htt tps://books.google.com.ar/books?id=HpHcGAkFEjkC
ps://web.archive.org/web/20110511011635/http://ww &hl=es).
w.hpcprojects.com/news/news_story.php?news_id=9 27. Fox, Charles (2018). Data Science for Transport (http
22). Archivado desde el original (http://www.hpcproje s://www.springer.com/us/book/9783319729527).
cts.com/news/news_story.php?news_id=922) el 11 Springer International Publishing. ISBN 978-3-319-
de mayo de 2011. Consultado el 22 de abril de 2011. 72952-7.
11. Reichman,O.J., Jones, M.B., and Schildhauer, M.P. 28. Billings, Stephen A. (2013). Nonlinear System
2011. Challenges and Opportunities of Open Data in Identification: NARMAX Methods in the Time,
Ecology. Science 331(6018): 703- Frequency, and Spatio-Temporal Domains (https://bo
705.DOI:10.1126/science.1197962 oks.google.com.ar/books/about/Nonlinear_System_I
12. Hellerstein, Joe. Parallel Programming in the Age of dentification.html?id=SaQ2AAAAQBAJ&source=kp_c
Big Data. Gigaom Blog. 9 November 2008. over&redir_esc=y). John Wiley & Sons.
http://gigaom.com/2008/11/09/mapreduce-leads-the- ISBN 9781118535554.
way-for-parallel-programming/ 29. Pierre Delort (3 de abril de 2013). Les Echos, ed.
13. Segaran, Toby and Hammerbacher, Jeff. Beautiful «Big Data car Low-Density Data ? La faible densité
Data. 1st Edition. O'Reilly Media. Pg 257. en information comme facteur discriminant» (http://ar
14. «The World’s Technological Capacity to Store, chives.lesechos.fr/archives/cercle/2013/04/03/cercle_
Communicate, and Compute Information.» (http://ww 69222.htm) (en francés).
w.sciencemag.org/content/332/6025/60) Martin 30. Big Data's Fourth V (https://web.archive.org/web/201
Hilbert y Priscila López (2011), Science, 332(6025), 80731105912/https://spotlessdata.com/blog/big-data
60-65; free access to the article through here: s-fourth-v)
martinhilbert.net/WorldInfoCapacity.html 31. «Las cinco V’s del Big Data - datahack, especialistas
15. [1] (http://www-01.ibm.com/software/data/bigdata/) en Big Data, más que una escuela y un máster» (http
16. Jacobs, A. (6 Julio, 2009). « "The Pathologies of Big s://www.datahack.es/cinco-v-big-data/).
Data" » (https://queue.acm.org/detail.cfm?id=156387 www.datahack.es. Consultado el 16 de octubre de
4). ACMQueue. 2018.
17. Magoulas, Roger, Lorica, Ben (Febrero, 2009). 32. Matthew Hicks (8 de noviembre de 2003). «Survey:
« "Introduction to Big Data" » (http://assets.en.oreilly.c Biggest Databases Approach 30 Terabytes» (http://w
om/1/event/54/mdw_online_bigdata_radar_pdf.pdf). ww.eweek.com/database/survey-biggest-databases-
Release 2.0 (en inglés). Sebastopol CA: O'Reilly approach-30-terabytes).
Media. 33. O'Harrow Jr., Robert (15 de julio de 2004).
18. Mashey, John R. (1998). Big Data ... and the Next «LexisNexis To Buy Seisint For $775 Million» (http://
Wave of InfraStress (http://static.usenix.org/event/us www.washingtonpost.com/wp-dyn/articles/A50577-20
enix99/invited_talks/mashey.pdf) (en inglés). Usenix. 04Jul14.html?noredirect=on). Washington Post.
19. Big Data Definition (http://mike2.openmethodology.or 34. Nakashima, O'Harrow Jr., Ellen, Robert (22 de
g/wiki/Big_Data_Definition) febrero de 2008). «LexisNexis Parent Set to Buy
ChoicePoint» (http://www.washingtonpost.com/wp-dy
20. Douglas Patterson (2012), Big Ethics for Big Data n/content/article/2008/02/21/AR2008022100809.htm
21. Douglas, Laney. «3D Data Management: Controlling l). Washington Post.
Data Volume, Velocity and Variety» (http://blogs.gartn 35. Nicole Hemsoth. «Quantcast Opens Exabyte-Ready
er.com/doug-laney/files/2012/01/ad949-3D-Data-Man File System» (https://www.datanami.com/2012/10/01/
agement-Controlling-Data-Volume-Velocity-and-Varie quantcast_opens_exabyte_ready_file_system/).
ty.pdf). Gartner. Consultado el 6 de febrero de 2001.
36. Dean, Ghemawat, Jeffrey, Sanjay (2004). on Network-Based Information Systems (NBIS 2011).
«MapReduce: Simplified Data Processing on Large Computer Society.
Clusters» (http://static.googleusercontent.com/media/ 49. Yandong Wang ; Robin Goldstone ; Weikuan Yu ;
research.google.com/es//archive/mapreduce-osdi04. Teng Wang (2014). «Characterization and
pdf). Search Storage. Optimization of Memory-Resident MapReduce on
37. «Big Data Solution Offering» (http://mike2.openmeth HPC Systems» (https://ieeexplore.ieee.org/documen
odology.org/wiki/Big_Data_Solution_Offering). MIKE t/6877311). IEEE.
2.0. 50. L’Heureux, A.; Grolinger, K.; Elyamany, H. F.;
38. «Big Data Definition» (http://mike2.openmethodology. Capretz, M. A. M. (2017). «Machine Learning With
org/wiki/Big_Data_Definition). MIKE 2.0. Big Data: Challenges and Approaches - IEEE
39. Boja, Pocovnicu, Bătăgan, Catalin, Adrian, Lorena Journals & Magazine» (https://ieeexplore.ieee.org/do
(2012). «Distributed Parallel Architecture for "Big cument/7906512). ieeexplore.ieee.org (en inglés
Data" » (http://revistaie.ase.ro/content/62/12%20-%2 estadounidense).
0Boja.pdf). Informatica Economică (vol. 16, no. 2). 51. Monash, Curt (2009). «eBay's two enormous data
40. «5C Architecture, Introduced by IMS Center for warehouses | DBMS 2 : DataBase Management
Cyber-Physical Systems in Manufacturing» (https://w System Services» (http://www.dbms2.com/2009/04/3
eb.archive.org/web/20160527175337/http://www.ims 0/ebays-two-enormous-data-warehouses/).
center.net/cyber-physical-platform). Imscenter.net. www.dbms2.com.
Archivado desde el original (http://www.imscenter.ne 52. « "Resources on how Topological Data Analysis is
t/cyber-physical-platform) el 27 de mayo de 2016. used to analyze big data" » (https://www.ayasdi.com/r
Consultado el 29 de septiembre de 2018. esources/). Ayasdi (en inglés estadounidense).
41. Wills, John (2014). Solving key business challenges 53. John Webster (1 de abril de 2011). «Storage area
with a Big Data Lake (https://www.hcltech.com/sites/d networks need not apply» (https://www.cnet.com/new
efault/files/solving_key_businesschallenges_with_big s/storage-area-networks-need-not-apply/). CNET (en
_data_lake_0.pdf). HCL. inglés).
42. Marynowski, Santin, Pimentel, Joa ̃o Eugenio, Altair 54. Paniagua, Soraya (Junio - septiembre 2013). «A
Olivo, Andrey Ricardo (14 de febrero de 2015). world of sensors, from Data to Big Data». Revista
«Method for Testing the Fault Tolerance of Telos.
MapReduce Frameworks» (https://secplab.ppgia.puc 55. “Conceptos básicos de Big Data”, TRC Informática
pr.br/files/papers/2015-0.pdf). Computer Networks. SL, 2013.
43. Purcell, Bernice (2013). «The emergence of Big Data 56. Paniagua, Soraya (junio-septiembre 2013). «A world
technology and Analytics». Holy Family University. of sensors, from Data to Big Data». Revista Telos.
44. Lopez García, David (2012-2013). Analysis of the 57. Big Data en los Festivales de Música (http://www.the
possibilities of use of Big Data in organizations (http boxpopuli.com/blog/big-data-festivales-musica/). The
s://web.archive.org/web/20150101213425/http://bucs Box Populi. 8 de Marzo 2018
erver01.unican.es/xmlui/bitstream/handle/10902/452 58. Tecnología IoT y big data: el futuro del sector
8/TFM%20-%20David%20L%C3%B3pez%20Garc% asegurador (http://blog.segurostv.es/tecnologia-iot-bi
C3%ADaS.pdf?sequence=1). Archivado desde el g-data-futuro-del-sector-asegurador/). 15 de febrero
original (http://bucserver01.unican.es/xmlui/bitstream/ de 2018
handle/10902/4528/TFM%20-%20David%20L%C3%
B3pez%20Garc%C3%ADaS.pdf?sequence=1) el 1 59. Kohlwey, Edmund; Sussman, Abel; Trost, Jason;
de enero de 2015. Consultado el 18 de octubre de Maurer, Amber (2011). «Leveraging the Cloud for Big
2014. Data Biometrics». IEEE World Congress on Services.
45. James Manyika, Michael Chui, Brad Brown, Jacques 60. Tomsen, Christian; Pedersen, Torben Bach (2009).
Bughin, Richard Dobbs, Charles Roxburgh, and «pygrametl: A Powerful Programming Framework for
Angela Hung Byers (2011). «Big data: The next Extract–Transform–Load Programmers» (http://vbn.a
frontier for innovation, competition, and productivity» au.dk/files/18915819/dbtr-25.pdf). 1DB Technical
(https://www.mckinsey.com/business-functions/digital Report; No. 25, Department of Computer Science,
-mckinsey/our-insights/big-data-the-next-frontier-for-i Aalborg University.
nnovation). McKinsey&Company. 61. Martín, Adriana; Chávez, Susana; Rodríguez, Nelson
46. « "Future Directions in Tensor-Based Computation R.; Valenzuela, Adriana; Murazzo, Maria A. (2013).
and Modeling" » (http://www.cs.cornell.edu/cv/tenwor «Bases de datos NoSql en cloud computing» (http://s
k/finalreport.pdf). 2009. edici.unlp.edu.ar/handle/10915/27121). WICC.
Consultado el 18 de octubre de 2014.
47. Haiping Lu, K. N. Plataniotis, A. N. Venetsanopoulos
(2011). «A Survey of Multilinear Subspace Learning 62. Hecht, Robin; Jablonski, Stefan (2011). «NoSQL
for Tensor Data» (http://www.dsp.utoronto.ca/~haipin Evaluation, a use case oriented survey» (http://rogerk
g/Publication/SurveyMSL_PR2011.pdf). Pattern ing.me/wp-content/uploads/2012/03/DatabaseSyste
Recognition. msPaper.pdf). International Conference on Cloud and
Service Computing.
48. Pllana, Sabri; Janciak, Ivan; Brezany, Peter; Wöhrer,
Alexander (2011). «A Survey of the State of the Art in 63. Seeger, Marc (21 de septiembre de 2009). Key-Value
Data Mining and Integration Query Languages» (http stores: a practical overview (http://d2tyy2n2j2cu1h.cl
s://ieeexplore.ieee.org/document/6041580/?reload=tr oudfront.net/assets/papers/Ultra_Large_Sites_SS09-
ue&arnumber=6041580). International Conference
Seeger_Key_Value_Stores.pdf). Consultado el 1 de 75. Rajpurohit, Anmol (11 de julio de 2014). «Interview:
enero de 2015. Amy Gershkoff, Director of Customer Analytics &
64. Bianchi Widder, Maria Belén (septiembre de 2012). Insights, eBay on How to Design Custom In-House
«Els beneficis de l’ús de tecnologies NoSQL» (http:// BI Tools» (https://www.kdnuggets.com/2014/07/interv
upcommons.upc.edu/pfc/bitstream/2099.1/16122/1/8 iew-amy-gershkoff-ebay-in-house-BI-tools.html).
5121.pdf). UPCommons. Consultado el 1 de enero www.kdnuggets.com (en inglés estadounidense).
de 2015. 76. Davis, Aaron. «The government and big data: Use,
65. Vila, M Amparo; Sanchez, Daniel; Escobar, Luis problems and potential» (https://www.computerworld.
(2004). «Relaciones Causales en Reglas de com/article/2472667/government-it/the-government-a
Asociación» (http://decsai.ugr.es/~castro/docto-csi/L nd-big-data--use--problems-and-potential.html).
ER/p44.pdf). XII Congreso Español sobre Computerworld (en inglés). Consultado el 27 de
tecnologías y lógica Fuzzy. agosto de 2018.
66. Manyika, James; Chui, Michael; Brown, Brad; 77. Martin Hilbert, experto en redes digitales: “Obama y
Bughin, Jacques; Dobbs, Richard; Roxburgh, Trump usaron el Big Data para lavar cerebros”
Charles; Byers, Angela Hung (Mayo de 2011). «Big http://www.theclinic.cl/2017/01/19/martin-hilbert-
data: The next frontier for innovation, competition, experto-redes-digitales-obama-trump-usaron-big-
and productivity» (http://www.mckinsey.com/insights/ data-lavar-cerebros/
business_technology/big_data_the_next_frontier_for 78. Lissardy, Gerardo (6 de abril de 2017). «Martin
_innovation). McKinsey. Consultado el 1 de enero de Hilbert, gurú del Big Data: "La democracia no está
2015. preparada para la era digital y está siendo
67. Jain, A.K.; Murty, M.N.; Flynn, P.J. (septiembre de destruida" » (https://www.bbc.co.uk/mundo/noticias-in
1999). «Data Clustering: A Review» (https://ai.vub.a ternacional-39511606). BBC News Mundo (en inglés
c.be/sites/default/files/dataclustering.pdf). ACM británico). Consultado el 27 de agosto de 2018.
Computing Surveys 31 (3). Consultado el 1 de enero 79. Rodríguez. Patricio / Palomino. Norma/ Moncada.
de 2015. Javier (Julio de 2017). «El uso de datos masivos y
68. Maltby, Dylan (9 de octubre de 2011). «Big Data sus técnicas analíticas para el diseño e
Analytics» (https://www.ischool.utexas.edu/~dmaltby/ implementación de políticas públicas en
Big_Data_Analytics.pdf). ASIST 2011 (New Orleans). Latinoamérica y el Caribe (2017)» (https://publication
69. Theus, Martin (2003). «Interactive Data Visualization s.iadb.org/handle/11319/8485). BID (en español).
using Mondrian». Journal of Statistical Software. Consultado el 29 de noviembre de 2018.
70. «Tableau vs Qlikview | Tableau vs Power BI | Power 80. «White Paper: Big Data for Development:
BI vs Qlikview - 2018» (https://selecthub.com/busines Opportunities & Challenges (2012) | United Nations
s-intelligence/tableau-vs-qlikview-vs-microsoft-power- Global Pulse» (https://www.unglobalpulse.org/project
bi/). SelectHub (en inglés estadounidense). 27 de s/BigDataforDevelopment). www.unglobalpulse.org
agosto de 2018. Consultado el 16 de octubre de (en inglés). Consultado el 27 de agosto de 2018.
2018. 81. «Big Data, Big Impact: New Possibilities for
71. Albarracín, Pablo (12 de agosto de 2013). International Development» (https://www.weforum.or
«Visualización avanzada de datos: La belleza del Big g/reports/big-data-big-impact-new-possibilities-intern
Data» (https://web.archive.org/web/2015010122495 ational-development). World Economic Forum.
5/http://tecno.americaeconomia.com/noticias/visualiz Consultado el 27 de agosto de 2018.
acion-avanzada-de-datos-la-belleza-del-big-data). 82. Hilbert, Martin (2013). «Big Data for Development:
Revista América Economía Tecno. Archivado desde From Information - to Knowledge Societies» (https://p
el original (http://tecno.americaeconomia.com/noticia apers.ssrn.com/sol3/papers.cfm?abstract_id=220514
s/visualizacion-avanzada-de-datos-la-belleza-del-big- 5). SSRN Electronic Journal (en inglés). ISSN 1556-
data) el 1 de enero de 2015. Consultado el 18 de 5068 (https://www.worldcat.org/issn/1556-5068).
octubre de 2014. doi:10.2139/ssrn.2205145 (http://dx.doi.org/10.2139%2Fssrn.2
205145). Consultado el 27 de agosto de 2018.
72. «Data, data everywhere» (https://www.economist.co
m/special-report/2010/02/25/data-data-everywhere). 83. «Prognostics and health management design for
The Economist (en inglés). 25 de febrero de 2010. rotary machinery systems—Reviews, methodology
73. Hilbert, Martin; López, Priscila. «The World’s and applications» (https://www.sciencedirect.com/sci
Technological Capacity to Store, Communicate, and ence/article/pii/S0888327013002860). Mechanical
Compute Information» (http://www.martinhilbert.net/ Systems and Signal Processing (en inglés) 42 (1-2):
WorldInfoCapacity.html/). MartinHilbert.net (en inglés 314-334. 1 de enero de 2014. ISSN 0888-3270 (https://w
ww.worldcat.org/issn/0888-3270).
estadounidense).
doi:10.1016/j.ymssp.2013.06.004 (http://dx.doi.org/10.1016%2
74. Hilbert, Martin (2014-03). «What Is the Content of the Fj.ymssp.2013.06.004). Consultado el 27 de agosto de
World's Technologically Mediated Information and 2018.
Communication Capacity: How Much Text, Image,
Audio, and Video?» (https://www.tandfonline.com/doi/ 84. «Prognostic and Health Management Technology for
abs/10.1080/01972243.2013.873748). The MOCVD Equipment» (https://www.itri.org.tw/eng/Con
Information Society (en inglés) 30 (2): 127-143. tent/MSGPic01/contents.aspx?&SiteID=1&MmmID=6
ISSN 0197-2243 (https://www.worldcat.org/issn/0197-2243).
20651706136357202&CatID=620653256103620163
doi:10.1080/01972243.2013.873748 (http://dx.doi.org/10.108
&MSID=654532365564567545). Industrial
0%2F01972243.2013.873748).
Technology Research Institute (en inglés).
Consultado el 27 de agosto de 2018.
85. Nick, Couldry, (2014). «Advertising, big data and the 96. David Patterson (5 de diciembre de 2011). «David
clearance of the public realm: marketers' new Patterson: Enlist Computer Scientists in Cancer
approaches to the content subsidy» (http://eprints.ls Fight» (https://www.nytimes.com/2011/12/06/science/
e.ac.uk/57944/). eprints.lse.ac.uk (en inglés). david-patterson-enlist-computer-scientists-in-cancer-f
Consultado el 27 de agosto de 2018. ight.html?_r=0). The New York Times (en inglés).
86. «Why Digital Advertising Agencies Suck at 97. «Secretary Chu Announces New Institute to Help
Acquisition and are in Dire Need of an AI Assisted Scientists Improve Massive Data Set Research on
Upgrade» (https://ishti.org/2018/04/15/why-digital-ad DOE Supercomputers» (https://www.energy.gov/articl
vertising-agencies-suck-at-acquisition-and-are-in-dire es/secretary-chu-announces-new-institute-help-scien
-need-of-an-ai-assisted-upgrade/). Insincerely Yours tists-improve-massive-data-set-research-doe).
(en inglés estadounidense). 15 de abril de 2018. Energy.gov (en inglés).
Consultado el 27 de agosto de 2018. 98. «Welcome to Big Data at CSAIL | bigdata CSAIL» (ht
87. Allen, Marshall (17 de julio de 2018). «Health tp://bigdata.csail.mit.edu). bigdata.csail.mit.edu (en
Insurers Are Vacuuming Up Details About You — inglés).
And It Could Raise Your Rates — ProPublica» (http 99. «Welcome to Big Data at CSAIL | bigdata CSAIL» (ht
s://www.propublica.org/article/health-insurers-are-vac tp://bigdata.csail.mit.edu). bigdata.csail.mit.edu (en
uuming-up-details-about-you-and-it-could-raise-your- inglés). 19 de marzo de 2014.
rates). ProPublica (en inglés estadounidense).
Consultado el 27 de agosto de 2018. 100. «Inspiration day at University of Waterloo, Stratford
Campus» (https://betakit.com/event/inspiration-day-at
88. Reilly, Thomas; Korkusuz, Feza (2009). Science and -university-of-waterloo-stratford-campus/). BetaKit
Football VI. The proceedings of the Sixth World (en inglés canadiense). 28 de febrero de 2014.
Congress on Science and Football (https://web.archiv
e.org/web/20150101224330/http://wata.cc/up/2012/0 101. JayLee, Edzel Lapira, Behrad Bagheri, Hung-an Kao
7/files/w-b6c9afb540.pdf#page=209). p. 209. ISBN 0- (1 de octubre de 2013). «Recent advances and
203-89368-9. Archivado desde el original (http://wata.c trends in predictive manufacturing systems in big
c/up/2012/07/files/w-b6c9afb540.pdf#page=209) el 1 data environment» (https://www.sciencedirect.com/sc
de enero de 2015. ience/article/pii/S2213846313000114). Manufacturing
Letters (en inglés) 1 (1): 38-41. ISSN 2213-8463 (https://
89. «Big Data y finanzas - datahack, especialistas en Big www.worldcat.org/issn/2213-8463).
Data, más que una escuela y un máster» (https://ww doi:10.1016/j.mfglet.2013.09.005 (http://dx.doi.org/10.1016%2F
w.datahack.es/big-data-finanzas/). www.datahack.es. j.mfglet.2013.09.005).
Consultado el 16 de octubre de 2018.
102. «International Journal of Internet Science, Volume 9,
90. «Por qué mezclar Big Data, Marketing y Ventas es Issue 1» (http://www.ijis.net/ijis9_1/ijis9_1_editorial_p
una buena idea - datahack, especialistas en Big re.html). www.ijis.net.
Data, más que una escuela y un máster» (https://ww
w.datahack.es/big-data-marketing-ventas/). 103. Preis, Tobias; Moat, Helen Susannah; Stanley, H.
www.datahack.es. Consultado el 16 de octubre de Eugene; Bishop, Steven R. (5 de abril de 2012).
2018. «Quantifying the Advantage of Looking Forward» (htt
ps://www.ncbi.nlm.nih.gov/pmc/articles/PMC332005
91. Europa Press. «Big Data, una formación en 7/). Scientific Reports 2. ISSN 2045-2322 (https://www.wor
crecimiento» (https://www.europapress.es/comunicad ldcat.org/issn/2045-2322). PMC PMC3320057 (https://www.nc
os/empresas-00908/noticia-comunicado-euroinnova- bi.nlm.nih.gov/pmc/articles/PMCPMC3320057) |pmc=
presenta-nueva-formacion-sector-pleno-crecimiento-
incorrecto (ayuda). PMID 22482034 (https://www.ncbi.nlm.n
20190226180857.html). Consultado el 26 de febrero
ih.gov/pubmed/22482034). doi:10.1038/srep00350 (http://dx.d
de 2019.
oi.org/10.1038%2Fsrep00350). Consultado el 29 de
92. Siwach, Gautam; Esmailpour, Amir (2014). septiembre de 2018.
«Encrypted Search & Cluster Formation in Big Data»
104. Marks, Paul (5 de abril de 2012). «Online searches
(http://asee-ne.org/proceedings/2014/Student%20Pa
for future linked to economic success» (https://www.n
pers/210.pdf). Department of Electrical and
ewscientist.com/article/dn21678). New Scientist (en
Computer Engineering The University of New Haven
inglés estadounidense). Consultado el 29 de
(West Haven, CT, USA).
septiembre de 2018.
93. «AMPLab - UC Berkeley» (https://amplab.cs.berkele
105. Johnston, Casey (6 de abril de 2012). «Google
y.edu). AMPLab - UC Berkeley (en inglés
Trends reveals clues about the mentality of richer
estadounidense). Consultado el 29 de septiembre de
nations» (https://arstechnica.com/gadgets/2012/04/g
2018.
oogle-trends-reveals-clues-about-the-mentality-of-ric
94. «NSF Leads Federal Efforts In Big Data | NSF - her-nations/). Ars Technica (en inglés
National Science Foundation» (https://www.nsf.gov/n estadounidense). Consultado el 29 de septiembre de
ews/news_summ.jsp?cntn_id=123607&org=NSF&fro 2018.
m=news). www.nsf.gov (en inglés). 2012.
106. Tobias Preis (24 Mayo, 2012). «Supplementary
95. Timothy Hunter, Teodor Moldovan, Matei Zaharia, Information: The Future Orientation Index is available
Justin Ma, Michael Franklin, Pieter Abbeel, for download» (http://tobiaspreis.de/bigdata/future_ori
Alexandre Bayen (2011). «Scaling the Mobile entation_index.pdf).
Millennium System in the Cloud» (https://amplab.cs.b
107. Ball, Philip (26 de abril de 2013). «Counting Google
erkeley.edu/publication/scaling-the-mobile-millennium
searches predicts market movements» (https://www.
-system-in-the-cloud-2/). AMPLab - UC Berkeley (en
nature.com/news/counting-google-searches-predicts-
inglés estadounidense).
market-movements-1.12879). Nature (en inglés). ¿Cómo ves? (Ciudad de México: Dirección General
ISSN 1476-4687 (https://www.worldcat.org/issn/1476-4687). de Divulgación de la Ciencia (UNAM)) 21 (241): 16-
doi:10.1038/nature.2013.12879 (http://dx.doi.org/10.1038%2Fn 19.
ature.2013.12879). Consultado el 29 de septiembre de 119. Wilson, N; Mason, M; Tobias, M; Peacey, M; Huang,
2018. Q S; Baker, M (Eurosurveillance Edition 2009).
108. Preis, Tobias; Moat, Helen Susannah; Stanley, H. «Interpreting “Google Flu Trends” data for pandemic
Eugene (25 de abril de 2013). «Quantifying Trading H1N1 influenza: The New Zealand Experience» (htt
Behavior in Financial Markets Using Google Trends» p://www.eurosurveillance.org/ViewArticle.aspx?Article
(https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3635 Id=19386). Eurosurveillance Edition 2009. 14 / Issue
219/). Scientific Reports 3. ISSN 2045-2322 (https://www. 44 (4).
worldcat.org/issn/2045-2322). PMC PMC3635219 (https://ww 120. Rodríguez Manzano, Anayansi (diciembre del 2018).
w.ncbi.nlm.nih.gov/pmc/articles/PMCPMC3635219) |pmc= «El uso de los datos masivos para salvar vidas».
incorrecto (ayuda). PMID 23619126 (https://www.ncbi.nlm.n ¿Cómo ves? (Ciudad de México: Dirección General
ih.gov/pubmed/23619126). doi:10.1038/srep01684 (http://dx.d de Divulgación de la Ciencia (UNAM)) 21 (241): 16-
oi.org/10.1038%2Fsrep01684). Consultado el 29 de 19.
septiembre de 2018.
121. Rodríguez Manzano, Anayansi (diciembre del 2018).
109. Bilton, Nick. «Google Search Terms Can Predict «El uso de los datos masivos para salvar vidas».
Stock Market, Study Finds» (https://bits.blogs.nytime ¿Cómo ves? (Ciudad de México: Dirección General
s.com/2013/04/26/google-search-terms-can-predict-s de Divulgación de la Ciencia (UNAM)) 21 (241): 16-
tock-market-study-finds/). Bits Blog (en inglés). 19.
Consultado el 29 de septiembre de 2018.
122. Carrillo Ruiz, Jose Antonio; Marco de Lucas, Jesus
110. Matthews, Christopher. «Trouble With Your E.; Cases Vega, Fernando; Dueñas Lopez, Juan
Investment Portfolio? Google It!» (http://business.tim Carlos; Cristino Fernandez, Jose; Gonzalez Muñoz
e.com/2013/04/26/trouble-with-your-investment-portf de Morales, Guillermo; Pereda Laredo, Luis
olio-google-it/). Time (en inglés estadounidense). Fernando (Marzo de 2013). «Big Data en los
ISSN 0040-781X (https://www.worldcat.org/issn/0040-781X). entornos de Defensa y Seguridad» (http://www.ieee.e
Consultado el 29 de septiembre de 2018. s/Galerias/fichero/docs_investig/DIEEEINV03-2013_
111. Ball, Philip (26 de abril de 2013). «Counting Google Big_Data_Entornos_DefensaSeguridad_CarrilloRuiz.
searches predicts market movements» (https://www. pdf). Instituto Español de Estudios Estratégicos.
nature.com/news/counting-google-searches-predicts- 123. «El BSC y Microsoft Research Center optimizarán
market-movements-1.12879). Nature (en inglés). Big Data con el proyecto Aloja» (http://www.computin
ISSN 1476-4687 (https://www.worldcat.org/issn/1476-4687). g.es/infraestructuras/noticias/1075853001801/bsc-mi
doi:10.1038/nature.2013.12879 (http://dx.doi.org/10.1038%2Fn crosoft-research-center-optimizaran.1.html).
ature.2013.12879). Consultado el 29 de septiembre de Computing. 31 de julio de 2014. Consultado el 1 de
2018. enero de 2015.
112. Bernhard Warner (25 de marzo de 2013). «"'Big Data' 124. How Big Data Is Helping to Save the Planet. (http://w
Researchers Turn to Google to Beat the Markets" » ww.cio.com/article/2683133/big-data/how-big-data-is-
(https://www.bloomberg.com/news/articles/2013-04-2 helping-to-save-the-planet.html?source=CIONLE_nlt
5/big-data-researchers-turn-to-google-to-beat-the-ma _insider_2014-09-16#tk.rss_dataanalytics). 15 de
rkets). www.bloomberg.com. Consultado el 29 de septiembre de 2014.
septiembre de 2018.
125. Kimble, C.; Milolidakis, G. (2015). "Big Data and
113. «Hamish McRae: Need a valuable handle on investor Business Intelligence: Debunking the Myths". Global
sentiment? Google it» (https://www.independent.co.u Business and Organizational Excellence. 35 (1): 23–
k/news/business/comment/hamish-mcrae/hamish-mc 34. arXiv:1511.03085. doi:10.1002/joe.21642.
rae-need-a-valuable-handle-on-investor-sentiment-go
126. Snijders, C.; Matzat, U.; Reips, U.-D. (2012). "'Big
ogle-it-8590991.html). The Independent (en inglés
Data': Big gaps of knowledge in the field of Internet (h
británico). Consultado el 29 de septiembre de 2018.
ttp://www.ijis.net/ijis7_1/ijis7_1_editorial.pdf)".
114. Richard Waters (25 de abril de 2013). «Subscribe to International Journal of Internet Science. 7: 1–5.
read» (https://www.ft.com/content/e5d959b8-acf2-11
127. Anderson, Chris (23 de junio de 2008). «The End of
e2-b27f-00144feabdc0). Financial Times (en inglés
Theory: The Data Deluge Makes the Scientific
británico). Consultado el 29 de septiembre de 2018.
Method Obsolete» (https://www.wired.com/2008/06/p
115. «Workshop on Algorithms for Modern Massive Data b-theory/). WIRED (en inglés estadounidense).
Sets (MMDS)» (http://web.stanford.edu/group/mmd Consultado el 29 de septiembre de 2018.
s/). web.stanford.edu. Consultado el 29 de
128. Graham, Mark (9 de marzo de 2012). «Big data and
septiembre de 2018.
the end of theory?» (https://www.theguardian.com/ne
116. Deepan Palguna; Vikas Joshi; Venkatesan ws/datablog/2012/mar/09/big-data-theory). the
Chakaravarthy; Ravi Kothari & L. V. Subramaniam Guardian (en inglés). Consultado el 29 de
(2015). Analysis of Sampling Algorithms for Twitter. septiembre de 2018.
International Joint Conference on Artificial
129. «Good Data Won’t Guarantee Good Decisions» (http
Intelligence.
s://hbr.org/2012/04/good-data-wont-guarantee-good-
117. [2] (https://www.google.org/flutrends/es) decisions). Harvard Business Review. 1 de abril de
118. Rodríguez Manzano, Anayansi (diciembre del 2018). 2012. Consultado el 29 de septiembre de 2018.
«El uso de los datos masivos para salvar vidas».
130. TEDx Talks (13 de enero de 2015), Big data requires ir.harvard.edu/the-social-contract-2-0-big-data-and-th
big visions for big change | Martin Hilbert | TEDxUCL e-need-to-guarantee-privacy-and-civil-liberties/) el 13
(https://www.youtube.com/watch?v=UXef6yfJZAI), de abril de 2017. Consultado el 29 de septiembre de
consultado el 29 de septiembre de 2018 2018.
131. Alemany Oliver, Mathieu; Vayre, Jean- Sébastien 142. Barocas, Solon; Nissenbaum, Helen; Lane, Julia;
(2015-03). «Big data and the future of knowledge Stodden, Victoria; Bender, Stefan; Nissenbaum,
production in marketing research: Ethics, digital Helen (2014/06). Privacy, Big Data, and the Public
traces, and abductive reasoning» (https://link.springe Good (https://dx.doi.org/10.1017/CBO978110759020
r.com/article/10.1057/jma.2015.1). Journal of 5.004) (en inglés). Cambridge University Press.
Marketing Analytics (en inglés) 3 (1): 5-13. ISSN 2050- pp. 44-75. ISBN 9781107590205.
3318 (https://www.worldcat.org/issn/2050-3318). doi:10.1017/cbo9781107590205.004 (http://dx.doi.org/10.101
doi:10.1057/jma.2015.1 (http://dx.doi.org/10.1057%2Fjma.201 7%2Fcbo9781107590205.004). Consultado el 29 de
5.1). Consultado el 29 de septiembre de 2018. septiembre de 2018.
132. Rauch, Jonathan (1 de abril de 2002). «Seeing 143. Lugmayr, Artur; Stockleben, Bjoern; Scheib,
Around Corners» (https://www.theatlantic.com/magaz Christoph; Mailaparampil, Mathew; Mesia, Noora;
ine/archive/2002/04/seeing-around-corners/302471/). Ranta, Hannu (1 de junio de 2016). A
The Atlantic (en inglés estadounidense). Consultado COMPREHENSIVE SURVEY ON BIG-DATA
el 29 de septiembre de 2018. RESEARCH AND ITS IMPLICATIONS – WHAT IS
133. Epstein, J. M., & Axtell, R. L. (1996). Growing REALLY 'NEW' IN BIG DATA? -IT'S COGNITIVE BIG
Artificial Societies: Social Science from the Bottom DATA! (https://www.researchgate.net/publication/304
Up. A Bradford Book. 784955_A_COMPREHENSIVE_SURVEY_ON_BIG-
DATA_RESEARCH_AND_ITS_IMPLICATIONS_-_W
134. «Accueil - Big Data Paris 2019» (https://www.bigdata HAT_IS_REALLY_'NEW'_IN_BIG_DATA_-IT'S_COG
paris.com/documents/Pierre-Delort-INSERM.pd). Big NITIVE_BIG_DATA). Consultado el 29 de septiembre
Data Paris 2019 (en fr-FR). Consultado el 29 de de 2018.
septiembre de 2018.
144. « "Privacy and Publicity in the Context of Big Data" »
135. Tambe, Sanjeev (29 de octubre de 2015). BIG DATA (http://www.danah.org/papers/talks/2010/WWW2010.
IN BIOSCIENCES (https://www.researchgate.net/pub html). www.danah.org. Consultado el 29 de
lication/283298499_BIG_DATA_IN_BIOSCIENCES). septiembre de 2018.
doi:10.13140/RG.2.1.3685.0645 (http://dx.doi.org/10.13140%2
FRG.2.1.3685.0645). Consultado el 29 de septiembre
145. Jones, MB; Schildhauer, MP; Reichman, OJ; Bowers,
de 2018. S (2006). "The New Bioinformatics: Integrating
Ecological Data from the Gene to the Biosphere" (htt
136. Harford, Tim (28 de marzo de 2014). «Big data: are p://www.pnamp.org/sites/default/files/Jones2006_AR
we making a big mistake?» (https://www.ft.com/conte EES.pdf). Annual Review of Ecology, Evolution, and
nt/21a6e7d8-b479-11e3-a09a-00144feabdc0). Systematics. 37 (1)
Financial Times (en inglés británico). Consultado el
29 de septiembre de 2018. 146. Boyd, D.; Crawford, K. (2012). "Critical Questions for
Big Data". Information, Communication & Society. 15
137. «Don’t Build a Database of Ruin» (http://blogs.hbr.or (5): 662–679.
g/cs/2012/08/dont_build_a_database_of_ruin.html).
Harvard Business Review. 23 de agosto de 2012. 147. Failure to Launch: From Big Data to Big Decisions (ht
Consultado el 29 de septiembre de 2018. tp://www.fortewares.com/Administrator/userfiles/Bann
er/forte-wares--pro-active-reporting_EN.pdf)
138. Bond-Graham, Darwin (3 de diciembre de 2013).
«Iron Cagebook» (http://www.counterpunch.org/201 Archivado (https://web.archive.org/web/20161206
3/12/03/iron-cagebook/). www.counterpunch.org (en 145026/http://www.fortewares.com/Administrator/
inglés estadounidense). Consultado el 29 de userfiles/Banner/forte-wares--pro-active-reporting
septiembre de 2018. _EN.pdf) el 6 de diciembre de 2016 en la
139. Bond-Graham, Darwin (11 de septiembre de 2013). Wayback Machine., Forte Wares.
«Inside the Tech industry’s Startup Conference» (htt 148. «Interview: Michael Berthold, KNIME Founder, on
p://www.counterpunch.org/2013/09/11/inside-the-tech Research, Creativity, Big Data, and Privacy, Part 2»
-industrys-startup-conference/). (http://www.kdnuggets.com/2014/08/interview-michae
www.counterpunch.org (en inglés estadounidense). l-berthold-knime-research-big-data-privacy-part2.htm
Consultado el 29 de septiembre de 2018. l). www.kdnuggets.com (en inglés estadounidense).
140. Goldring, Kira. «Is Big Data being used for good?» (h Consultado el 29 de septiembre de 2018.
ttps://www.theperspective.com/debates/the-perspecti 149. « "Big Data" is an overused buzzword and this Twitter
ve-on-big-data/). theperspective.com/. Consultado el bot proves it - SiliconANGLE» (http://siliconangle.co
29 de septiembre de 2018. m/blog/2015/10/26/big-data-is-an-over-used-buzzwor
141. Al-Rodhan, Nayef (16 de septiembre de 2014). «The d-and-this-twitter-bot-proves-it/). SiliconANGLE (en
Social Contract 2.0: Big Data and the Need to inglés estadounidense). 26 de octubre de 2015.
Guarantee Privacy and Civil Liberties | Harvard Consultado el 29 de septiembre de 2018.
International Review» (https://web.archive.org/web/2 150. Harford, Tim (28 de marzo de 2014). «Big data: are
0170413090835/http://hir.harvard.edu/the-social-cont we making a big mistake?» (https://www.ft.com/conte
ract-2-0-big-data-and-the-need-to-guarantee-privacy- nt/21a6e7d8-b479-11e3-a09a-00144feabdc0).
and-civil-liberties/). hir.harvard.edu (en inglés Financial Times (en inglés británico). Consultado el
estadounidense). Archivado desde el original (http://h 29 de septiembre de 2018.
151. Ioannidis, John P. A. (2005-8). «Why Most Published believed-it.html) (en inglés). Consultado el 29 de
Research Findings Are False» (https://www.ncbi.nlm. septiembre de 2018.
nih.gov/pmc/articles/PMC1182327/). PLoS Medicine 153. Markman, Jon. «Big Data And The 2016 Election» (ht
2 (8). ISSN 1549-1277 (https://www.worldcat.org/issn/1549-12 tps://www.forbes.com/sites/jonmarkman/2016/08/08/
77). PMC PMC1182327 (https://www.ncbi.nlm.nih.gov/pmc/arti big-data-and-the-2016-election/#4802f20846d7).
cles/PMCPMC1182327) |pmc= incorrecto (ayuda). Forbes (en inglés). Consultado el 29 de septiembre
PMID 16060722 (https://www.ncbi.nlm.nih.gov/pubmed/160607 de 2018.
22). doi:10.1371/journal.pmed.0020124 (http://dx.doi.org/10.13 154. «What Is Data Virtualization?» (https://web.archive.or
71%2Fjournal.pmed.0020124). Consultado el 29 de g/web/20180410201808/https://www.datawerks.com/
septiembre de 2018. data-virtualization/). www.datawerks.com (en inglés
152. Lohr, Steve; Singer, Natasha (10 de noviembre de estadounidense). Archivado desde el original (https://
2016). «How Data Failed Us in Calling an Election» www.datawerks.com/data-virtualization/) el 10 de
(https://www.nytimes.com/2016/11/10/technology/the abril de 2018. Consultado el 14 de mayo de 2018.
-data-said-clinton-would-win-why-you-shouldnt-have-
Enlaces externos
Big Data ofrecido por las grandes empresas (SAP, Oracle, Microsoft y otros) (http://www.businessoftware.net/que
-es-big-data/)
Historia cronológica del Big Data (http://www.winshuttle.es/big-data-historia-cronologica/). Una línea del tiempo
visual con los principales hitos de la historia del almacenamiento de la información.
IBM crea una universidad de Big Data para aprender gratis (http://www.lomasnuevo.net/cloud/ibm-crea-una-univ
ersidad-gratuita-de-big-data/)
Real Time Data Access and Total Data Integration (https://web.archive.org/web/20180304054738/https://www.dat
awerks.com/big-data-solution/)
Obtenido de «https://es.wikipedia.org/w/index.php?title=Macrodatos&oldid=120846334»
Esta página se editó por última vez el 29 oct 2019 a las 07:08.
El texto está disponible bajo la Licencia Creative Commons Atribución Compartir Igual 3.0; pueden aplicarse
cláusulas adicionales. Al usar este sitio, usted acepta nuestros términos de uso y nuestra política de privacidad.
Wikipedia® es una marca registrada de la Fundación Wikimedia, Inc., una organización sin ánimo de lucro.

Macrodatos PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Macrodatos PDF

Cargado por

Copyright:

Formatos disponibles

Macrodatos

Los macrodatos,1 también llamados datos masivos, inteligencia de datos,

Volumen: la cantidad de datos generados y guardados.

Distinguimos cuatro grandes grupos de bases de datos NoSQL:

Orientación de los consumidores (para publicidad de los vendedores)86

Muestreo de big data

Caso específico del proyecto Aloja

Caso específico de sostenibilidad

Conservation International es una organización con el propósito de

Críticas al paradigma de los grandes datos

Críticas del modelo 'V'

Completar los datos: comprensión de lo no obvio de los datos;

Críticas de la ejecución de big data

1. El acceso y autorización granular a los datos

2. Seguridad perimetral, protección de datos y autenticación integrada.

1. Resistir a los ataques externos.

4. Constante Auditoría y Análisis

Virtualización de big data

También podría gustarte