Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Big Data
Big Data
Vitruvio, 5
28006 Madrid
España REVISTA DE CIENCIAS
www.fundacionareces.es Y HUMANIDADES
www.fundacionareces.tv
R E V I S TA D E C I E N C I A S Y H U M A N I DA D E S D E L A F U N DAC I Ó N R A M Ó N A R E C E S
BIG DATA
Impulsando el conocimiento Núm. 14
Compartimos el Conocimiento
Más
Má
M ás de
ás de 22.
2.000000
0
00 00 co
00 conf
c
conferencias
onf
onfe
on
o nfe
n
nfffer
fe
erre
erenc
ere
e renc
enc
en
e nc ciia
cia
c ias
ias
as ma
magist
magis
m
magistrales
agist
agis
a
aggist
gi
gis
g isst
isstrales
str
trrale
trales
ttra
ral
ra
ales
ale
a les
les
es dede e expert
exp
expertos
xpe
xp
xpe
pertos
p
per
ertos
erto
er rtos
rt
tto
os e
os en
nSSalud
Sa
Sal
Salu
alud
al
alu
lud,
ud,
ud
IInnovación,
In
nnovación,
n
nn nov
n
no
ova
ovac
o
ov vac
v
vaac
ción
c
ci
ció
iión,
ón,
ó
ón n, Nu
n, Nue
Nueva
Nuev
N
Nuevas
uev
ueva
ue
uev
eva
vas
v
va as Te
as Tec
T
Tecnologías,
ecn
ec cnolo
cno
c nolo
noolo
olo
ol
llog
ogía
ogías,
o
og
gías,
gí
gías
gía
g íía
as,
as,
as s, N Nano
Nanoc
Nan
Na
Nanociencias
Nanociencias,
an
ano
nocie
n
no
noc
ocienc
oci
oc
ocie
ciencia
ien
encias,
e
enc
ncias,
ncia
ncias
cia
iias
ias,
as,
a s, A
s, Astronomí
As
Astro
Astr
Ast
Astron
Astronomía
stron
ttron
tronomía,
ro
onomía
onom
no
nom
omía,
mía ía
a,,
Biotecnología,
Bi
B
Bio
iio
ottte
o tecn
ecno
ecn
ec
cno
cnnolo
noologí
ol
olog
o llo
logí
ogía
o
oggía
gí
g íía
a, Ciencias
a, Cien
Cienc
Ci
C
Cieieenci
encias
en
enc
ncias
nc
ncicias
ci
cia
iias
ia
ass del
dell Mar,
de Mar
Mar,
Ma arrr,, Energía,
Energía
Energ
En
E
Ene
ner
ergía,
erg
rgía,
rgí
gía,
gíía,
ía
a,, Cambio
C
Cam
Ca
Camb
ambio
ambmbio
bio
bi o Climáti
Climático
Climático,
Climátic
Cli
Cl
Clim
C
Climámático
mátic
máti
áti
ático,
ático
i o,
Big
B
Biig
ig Data
Data,
Dat
D
Da
ata,
at
ata
atatta,
a, Ec
a, Eco
Econ
E
Economía,
Economía
cono
conomí
co
onom
on nom
no
omía
om mía,
mí
m
míaía
ía,
a,, Eco
Econ
Econo
E
Ec
Economí
Economía
co
con
onom
on
ononomí
no
nom
omía
ommíía de
m
mía de lala Edu
Educació
E
Ed
Educa
Educación,
Educación
duca
duca
ucación
cación,
c
caci
cac ción,
ci
ción
ón
ón,n, Cam
C
Cambio
Cambi
ambio
ambi
mbio
mbioio
Demográfi
Demográfico
D
Deemo
em
e
emográfico,
mog
mogr
mográfico
m
mo ográ
o
oggráfi
grá
gr
g ráfi
rá
áfifico,
ficc
co o, Bioeconomía,
o, Bioe
Bi
B
Bio
Bioeconomía
ioeco
ioe
iooecon
oec
oeecono
eco
ec conom
con
co
onom
ono
on nomía
nom
no
omía,
ommía,
m
mía ía,
a, Historia
Hi
Hist
H
His
Histo
storia
sto
tori
oria
oriria
ia
a Económica…
Económic
Ec
Econ
Eco
Económ
E
Económica
Económi
con
onómica…
onó
nómómica…
ómic
ómimica
mica…
ica
a
a…
y síguenos en
Comp
Com
Compartimos
C
Co
om
ompa
mpar
mpa
mp
parti
artim
artimos
a
art
arrtim
timos
tim
imo
mo
mos
oss el
el co
conoci
con
cono
c
conocimient
conocimiento
conocimien
onocimi
onoc
ono
nocimien
noci
ocim
cimiento
cimi
cim
imie
miento
mient
mien
ient
ento
nto
o
ÍNDICE
Impresión
V.A. Impresores
110 BIG DATA Y CAMBIO CLIMÁTICO
Big Data para el estudio del cambio climático y la calidad del aire,
Queda prohibida la reproducción total
o parcial de las informaciones de esta por Francisco J. Doblas-Reyes, Francesco Benincasa y Pierre-Antoine
publicación, cualquiera que sea el medio de Bretonnière
reproducción a utilizar, sin autorización previa
o expresa de Fundación Ramón Areces.
La Revista no se hace, necesariamente, Big Data y servicios climáticos: un caso de estudio, por Fernando
responsable de las opiniones de sus
colaboradores. Belda
Síguenos en
La creciente utilización de bases de datos cada vez más grandes y heterogéneas hace
del estudio de las técnicas aplicadas al Big Data una de las disciplinas más innovadoras y
atractivas de los desarrollos científicos recientes así como de su aplicación empresarial.
Durante los últimos siglos la Ciencia, que fue eminentemente empírica con an-
terioridad, comenzó a adentrarse en la modelización y la formulación matemática en
búsqueda de la generalización. En las últimas décadas los datos han vuelto a tomar la
iniciativa en forma de Ciencia computacional relacionada con la simulación de procesos
complejos y la utilización de datos masivos para la predicción de acontecimientos
difíciles de prever. Los datos masivos que recogemos automáticamente por sensores
digitales están transformando nuestra sociedad permitiendo mejores decisiones in-
dividuales y colectivas.
El conjunto de los textos aquí recogidos, del que son autores relevantes expertos en
la materia, aportarán, sin duda, luz y mayor comprensión sobre el BIG DATA y todas sus
aplicaciones. A todos ellos deseo expresarles mi mayor agradecimiento.
La Computación Cloud (la Nube) y el Big Data son dos de los princi-
pales campos de innovación actuales asociados a las tecnologías de la
Información y Comunicación (TIC). Su irrupción ha implicado la apari-
ción de nuevos desarrollos tecnológicos que están transformando pro-
fundamente nuestro entorno económico, empresarial, social y, por supuesto, también el
científico. A pesar de su corta edad –-la primera mención al Big Data en un documento
científico no llega a los 20 años (1)–, su conocimiento se ha popularizado en muy poco
tiempo y, dado su carácter transversal, la Nube y el Big Data se han hecho omnipresen-
tes en muy diversos campos de la actividad humana. De las redes sociales a las ciudades
inteligentes, de los nuevos servicios de ocio en la Nube al periodismo de datos, de la
creación de contenidos a la monitorización del cambio climático.
DE LA CIENCIA A LA SOCIEDAD
Pero la Ciencia de los Datos representa también una nueva realidad para la sociedad
en su conjunto, en distintos ámbitos y disciplinas. Y un área donde el impacto está siendo
especialmente significativo es el mundo económico y empresarial.
Como hemos visto, las tecnologías Big Data no solo ayudan a recopilar grandes can-
tidades de datos, sino que además permiten su almacenamiento, organización y recu-
peración para aprovechar todo su valor. Y con el objetivo puesto en que su uso permita
optimizar la toma de decisiones.
El Big Data es al mismo tiempo un reto y una oportunidad tanto para las empresas
como para las Administraciones públicas; las primeras, para mejorar su competitividad
y adaptarse al nuevo escenario de la economía global y digital, en el que nuevos agentes
están revolucionando las diferentes industrias con nuevos modelos de negocio y pro-
puestas de valor; las Administraciones, para mejorar la calidad de los servicios públicos
y ahorrar costes. Según el informe “Open Data in Europe”, realizado por la Fundación
DemosEuropa, el Big Data generará 4,4 millones de empleos en todo el mundo en los
próximos cinco años. El comercio, la industria, la salud, la información, las comunicacio-
nes, la banca, los seguros y la Administración pública son los sectores donde el aumento
de la inversión será más relevante.
FUNDACIÓN RAMÓN ARECES / NÚM. 14
En las empresas, el Big Data está generando la aparición de un gran número de apli-
caciones en diferentes ámbitos de la gestión, como la minería de datos de redes sociales
10
No resulta exagerado afirmar, por tanto, que el Big Data está cambiando nuestro
mundo.
NOTAS
(1) Michael Cox y David Ellsworth, científicos del Centro de Investigación Ames de la NASA,
publican un artículo en el que, por primera vez, se hace referencia al problema del Big
Data: “Visualization provides an interesting challenge for computer systems: data sets
are generally quite large, taxing the capacities of main memory, local disk, and even
remote disk. We call this the problem of Big Data.”
(2) Chris Anderson. “The End of Theory: The Data Deluge Makes the Scientific Method
Obsolete”. Revista Wired. Julio 2008.
(3) Ignacio Blanquer. “Un balance de la e-Investigación en España”. Conferencia dentro de la
Jornada “El impacto de la Nube y el Big Data en la Ciencia”. Fundación Ramón Areces.
Marzo 2013.
(4) Gartner Symposium/ITxpo 2014 Barcelona.
11
12
INTRODUCCIÓN GENERAL
L
a Fundación Ramón Areces dedicó en marzo de 2013 una jornada a analizar el
impacto de la Nube y el Big Data y sus beneficios para el mundo de la Ciencia
y de la investigación científica. Por primera vez en España, una jornada reunió
a científicos españoles y europeos para explicar y analizar los fundamentos de estas dos
disciplinas y cómo pueden contribuir a la innovación y al impulso de la investigación
científica. Para la Ciencia, los servicios de computación en la “Nube” y el Big Data –fe-
nómeno asociado a la gestión de gigantescos volúmenes de datos, cuyo tratamiento no
puede realizarse con las herramientas y analíticas convencionales– representan una opor-
tunidad de impulso a la investigación, principalmente a través del acceso a plataformas
de computación y de análisis de datos hasta ahora vedadas a pequeños grupos o proyectos
de investigación.
13
greso. Y aunque hasta ahora, debido a los como el “MareNostrum” del Barcelona Su-
costes de crear y mantener las grandes in- percomputing Center, con una capacidad
fraestructuras de este tipo, la potencia de la de 48.000 cores –es decir que cuenta con
supercomputación no ha estado al alcance la misma capacidad de computación que
de todo el mundo, reduciéndose a un con- 48.000 ordenadores personales–, así como
junto limitado de grupos de investigación, las dificultades de gestión de estas potentísi-
la llegada de lo que se conoce como Cloud mas instalaciones.
Computing ya está permitiendo que muchos Un centro de computación es una insta-
otros ámbitos de la Ciencia que hasta aho- lación destinada a la producción de infor-
ra no podían beneficiarse de esta tecnolo- mación, que alberga miles de máquinas en
gía puedan hacerlo. Pero el hecho de que un recinto de enormes dimensiones y de las
los datos disponibles para poder realizar los que existen varias docenas en todo el mun-
cálculos han adquirido dimensiones de gran do. Uno de los ejemplos es el Data center
magnitud –lo que se conoce por Big Data–, de Facebook (que ocupa una superficie de
los sistemas de computación actuales pre- 28.000 m2, similar a 4 campos de fútbol)
sentan nuevos retos que la propia Ciencia y que consume 40 megawattios de energía
informática ha empezado a abordar. al año.
La presentación repasó las características La idea en la que se basa el Cloud
y funcionalidades de estas nuevas herra- Computing es la de eliminar los recursos
mientas que son los supercomputadores, propios y contar con una conexión que fa-
FUNDACIÓN RAMÓN ARECES / NÚM. 14
14
cilite el acceso remoto y virtual a recursos ten en la Nube, la infraestructura como ser-
externos de cálculo para el mismo fin. No vicio es la que más se ajusta a la realidad de
es un concepto nuevo, ya ocurrió con la los centros de computación. La gran baza
electricidad cuando hace más de un siglo las para los equipos de investigación es el pre-
industrias fueron abandonando su produc- cio del servicio: 10 céntimos de euro por
ción y se engancharon a la red. Dejaron esa hora de cálculo. Es una oportunidad que
actividad a un agente especializado que, por tienen ante sí los grupos de investigación y
economía de escala, podía prestar el servi- las empresas en general.
cio a un precio más barato. Y es la misma Por otra parte, el volumen de genera-
filosofía que rige para la Computación en ción de datos ha crecido enormemente –el
la Nube. Estos grandes centros de computa- CERN produce 1 petabyte de información
ción, por economía de escala y por la com- cada segundo (1 petabyte son 1 millón de
plejidad intrínseca de su gestión, generan gigas)– y el Big Data se ha convertido en
el mismo producto: “mi computación y mi un gran reto. No solo por el volumen y por-
almacenamiento de datos” más barato. que los datos exceden los sistemas de alma-
La tecnología –la informática– pasa a ser cenamiento de que disponemos ahora, que
un servicio que se paga por uso, como la hacen imposible almacenar todos los datos
electricidad. (Figura 1) “Si yo dimensiono producidos, sino también por la velocidad
mi centro en casa, si no lo he hecho bien, en la que estos se generan. Realidades ac-
puedo estar gastando innecesariamente por tuales como el Internet de las cosas o las
unos recursos que normalmente no utilizo Smart Cities (ciudades inteligentes) llevan
o puedo haberme quedado corto en el di- en paralelo un proceso de sensorización ma-
seño y no puedo ofrecer el servicio porque siva de dispositivos y el envío constante de
no tengo suficiente capacidad”, explicaba el información que han modificado también
profesor Torres. el concepto de las bases de datos porque el
De las diferentes modalidades que exis- modelo tradicional de bases de datos estruc-
15
Petaflop
Capability Data Supercomputers
computing PRACE
Grid of
Data Supercomputers
DEISA
Grid of dedicated
Data clusters & computers
Capacity EGI
computing
Data Desktop Grids
Desktop resources
EDGES
16
17
18
19
mundo trata de averiguar cómo esa tecno- del uso. Como modelo de uso, con la Nube
logía se adapta a nuestros procesos. Pero la solo nos preocupamos de los resultados y
fase más importante es la que da comienzo no de su implementación; como modelo
cuando somos capaces de modificar los pro- de acceso, la aplicación puede usarse desde
cesos para sacar el máximo provecho de las cualquier dispositivo y lugar; como modelo
nuevas tecnologías. de infraestructura, la capacidad es elástica y
El Cloud es un modelo de provisión de como modelo de costes, solo se paga por el
recursos (aplicaciones, plataformas e infraes- uso realizado, eliminando costes fijos.
tructuras) como servicio, bajo demanda, y Al tratarse de una tecnología disruptiva,
de forma elástica y dinámica. Y dentro de el Cloud Computing aporta numerosos bene-
los diferentes servicios, el de las infraestruc- ficios: 1) Ahorro de costes, al pagar solo por
turas es el más disruptivo. Además, existe el el uso del software y de la infraestructura. 2)
de plataforma, orientado al desarrollador, Flexibilidad y tiempo de despliegue. Capaci-
y el software como servicio. Todos somos dad elástica e instantánea y rápido despliegue
usuarios del software como servicio. Twitter del servicio. 3) Comodidad, por la externali-
o Gmail son algunos ejemplos. Es la capa zación de la configuración y gestión de la in-
que está más en contacto con el usuario, por fraestructura. 4) Calidad y reproducibilidad,
debajo de ella está la capa de la plataforma y, calidad de los resultados de la investigación y
debajo de todo, la capa de las infraestructu- reproducibilidad. 5) Eficiencia y productivi-
ras. Y la innovación se desarrolla ahí aunque dad. Inversión de tiempo en la investigación
no lo veamos. y no en la infraestructura. Simplicidad. 6)
El concepto no es nuevo. En los años Aplicaciones actualizadas, colaborativas y
60 algunos científicos ya concibieron la accesibles desde clientes ligeros. 7) Colabo-
computación como un servicio de acce- ración a partir de la compartición de datos y
so bajo demanda, que pasaba por conver- aplicaciones y 8) Acceso asequible a recursos
tir la IT en una “commodity”. El modelo a quienes no tienen sistemas locales, como
de provisión del servicio ha evolucionado pymes y países en desarrollo. (Figura 3).
desde entonces. El modelo inicial fue el de De igual forma, la adopción de un mo-
“mainframe”, un sistema muy centralizado, delo Cloud entraña también algunos riesgos,
caro, difícil de gestionar, al que se accedía siendo el principal la falta de control por el
por terminales sencillos y con barreras de desconocimiento de la gestión interna del
entrada muy altas. De ahí se evolucionó al proveedor. Junto a este se encuentra la de-
modelo cliente/servidor, basado en el uso pendencia del proveedor (lock-in), muy im-
de ordenadores personales y servidores para portante hoy ya que, a pesar de los esfuerzos
computación y almacenamiento distribui- de estandarización, realmente sigue siendo
dos; un modelo optimizado para obtener la difícil migrar de uno a otro proveedor. La
máxima agilidad debido a su bajo coste. Y el disponibilidad o los cortes de servicio, las
FUNDACIÓN RAMÓN ARECES / NÚM. 14
20
Cost savings on
hardware/software/information... 63.0%
Fig. 3 / ¿Qué ofrece el Cloud a la investigación científica? Fuente: Cloud End User Survey, The 451 Group, 2011.
21
22
CERN
HLT Term Computer Storage Tape
Tier 0
BNL TR/UMF
Tier 1
Tier 2
Fig. 4 /
la hora de transportar datos de un sensor a no deseados a los que debemos aplicar la ley
un almacenamiento o entre distintos alma- de protección de datos o la dificultad de la
cenamiento. Existe la necesidad de proce- anonimización de los datos.
sarlos rápidamente, para lo cual se utilizan Como ejemplos de esta nueva realidad
esquemas similares a los que se ofrecen en basada en la fuerza de los datos, citó el caso
multimedia con el uso de GPUs y el proce- de “House of cards”, la primera serie de te-
sado en streamming. levisión en la que los guionistas tienen in-
La visualización es un componente vi- formación sobre cómo vemos la serie (du-
tal de todo análisis. Representa la parte ración, horario, paradas), de tal forma que
artística del análisis y es un nicho de gran pueden escribir los guiones de los siguientes
futuro, que requiere de profesionales con capítulos valorando el comportamiento ob-
perfiles diferentes a los que desarrollan la servado de los usuarios, cerrando así el bucle.
investigación. También destacó que, tras la Actuamos sobre un sistema en función de los
irrupción de fenómenos como el Internet datos que nos aporta el propio sistema.
de las cosas y el Social Media, que generan Para terminar, hizo un repaso de los len-
un enorme volumen de datos aportados por guajes disponibles –R, Julia y NumPy– y
una abundancia de sensores, al igual que mencionó los problemas en el procesado de
ocurre con las Smart Cities, el escenario se grafos y la dificultad de acceder a datasets
ha complicado. Ello implica problemas de interesantes, resaltando que para que la cien-
almacenamiento que se han de resolver con cia avance es necesario contar con enfoques
el procesado distribuido. abiertos y colaborativos.
Como un problema práctico en el ámbi- La segunda sesión de la jornada se cen-
to de la privacidad de los datos, el profesor traba en la descripción de diversas experien-
Salvachúa señaló el de sintetizar atributos cias de “nubes científicas” y su aplicación en
23
diferentes disciplinas científicas, como la Fí- zar los datos que genera el LCH y cada ex-
sica de partículas, la Medicina, la Biología o perimento es muy voluminoso en términos
la Astrofísica, con ejemplos prácticos y rea- de información. A día de hoy existen 140
les de proyectos o centros de investigación petabytes almacenados.
que han encontrado en la Nube y el Big Para el almacenamiento y procesamien-
Data respuesta a las necesidades de compu- to de datos, los modelos computacionales
tación y tratamiento de datos que requieren de los experimentos del LHC se diseñaron
sus investigaciones. en torno al concepto de “grid computing”
Fernando Barreiro, responsable del pro- y, desde el inicio de la toma de datos, este
yecto Grid y recursos Cloud en el CERN, modelo ha demostrado ser muy exitoso.
trató de La iniciativa Helix Nebula y el El modelo computacional del LHC es el
impacto del Cloud Computing en los experi- Worldwide LHC Computing Grid (WLCG),
mentos del LHC. Empezó explicando que el (Figura 4) con una carga de computación
CERN, donde está ubicado el LCH, es el que representa entre 80.000 y 100.000 tra-
laboratorio de Física más grande del mun- bajos simultáneos. El funcionamiento es el
do, en el que participan 20 estados y más siguiente: una colección de “granjas” elige
de 10.000 usuarios en todo el mundo. las colisiones que recoge el detector ATLAS.
El objetivo último del CERN es enten- Estos eventos significativos pasan al CERN
der el origen del universo y el Big Bang, y se almacenan, los datos se distribuyen a
ocurrido hace miles de millones de años y diversos centros de datos, con una disponi-
que comenzó cuando toda la materia estaba bilidad cercana al 100%, en discos y cintas.
concentrada en un solo punto. Para com- Además, hay otros centros de computación
prender cómo el universo ha evolucionado más pequeños que desarrollan su labor en
desde ese primer momento hasta lo que es ámbitos más locales.
hoy, en el CERN se construyó el Gran Coli-
sionador de Hadrones (Large Hadron Colli- Modelo de integración básico entre grid
der, LHC), que es el aparato científico más y cloud. The grid of clouds
grande del mundo. Es un túnel de 27 km Los nuevos paradigmas de la informática,
de circunferencia, a 100 metros bajo tierra, como son la virtualización y la computación
entre Suiza y Francia, en el que hay cuatro en la Nube (cloud computing), ofrecen ca-
puntos donde colisionan las partículas, ha- racterísticas atractivas para mejorar las ope-
ces de protones que vienen de direcciones raciones y la elasticidad de la computación
contrarias. El principal desafío del análisis científica distribuida. Si bien no es posible
FUNDACIÓN RAMÓN ARECES / NÚM. 14
24
25
26
Fig. 5 /
27
28
Cloud Computing
y Big Data,
la próxima frontera de la innovación
Mateo Valero suele exponer mular y crear escenarios que sin la super-
una presentación en la que computación serían imposibles. Escenarios
cuenta brevemente cómo caros, peligrosos e imposibles. Primero fue
comenzó la Ciencia. Empe- la teoría, luego fue la simulación que nos
zó en el momento en que la ha permitido llegar hasta aquí y que se basa
Matemática, la teoría, permitió describir la en muchas fórmulas, mucha matemática, y
experiencia. Éste fue un paso fundamental, muchos cálculos. ¿Dónde se realizan estos
pero ¿cuál es el siguiente paso fundamen- cálculos? En este caso se hacen en Barce-
tal? El siguiente paso es, o ha sido hasta lona pero hay una red en España, la Red
ahora, la simulación. La simulación hecha Española de Supercomputación, en la que
por la supercomputación nos permite si- los científicos españoles de diferentes áreas
29
Experimentación
Teoría Simulación
La simulación hecha por la supercomputación permite crear escenarios que sin su intervención serían imposibles. Escenarios caros,
peligrosos e imposibles.
Fuente: Prof. Mateo Valero, BSC-CNS 2010.
puede ser utilizado por muchos grupos es- ahora solo podían ofrecer ciertos centros
pañoles de investigación. Para ello existe un muy especializados con unos costes muy
comité de expertos en diferentes materias elevados. Crear un centro de supercompu-
que recibe propuestas de proyectos y que or- tación es muy caro y hasta ahora los recur-
dena y asigna los proyectos. Pero ¿qué pasa sos tenían financiación pública, pero ya se
30
31
es un reto muy grande que tenemos todos. otra de las áreas de investigación más rele-
Podemos definir el Big Data como aquellos vantes, y aparece la posibilidad de añadir a
problemas en los que los datos exceden los su volumen de información factores como
sistemas de almacenamiento que tenemos la contaminación, los recorridos de los au-
32
El “enorme” volumen de los datos es una de las variables que definen el fenómeno Big Data. El acelerador de partículas LHC produce 1
PetaByte (1 millón de GigaByte) de datos por segundo.
tobuses, los semáforos, para dar prioridad a para poder aportar toda esta nueva tecno-
los autobuses y que el tráfico sea más fluido. logía que se llama Big Data al resto de gru-
Estos datos no pueden ser procesados por pos de investigación: almacenar, gestionar,
modelos tradicionales de bases de datos es- procesar y analizar los datos. Todavía hay
tructuradas como hemos hecho hasta ahora. mucho por hacer, a pesar de las expectativas
Y finalmente, el último paso, y quizás optimistas de mucha gente.
el más importante, es cómo cambiamos la
manera de analizar estos datos. Aplicamos Los retos
algoritmos de minería de datos, de aprendi- Por ejemplo, ¿el almacenamiento de da-
zaje, etc., para extraer valor y conocimien- tos es viable económicamente? Claro que sí.
to de los datos y muchos sistemas utilizan Podemos conectarnos a Amazon y contra-
estos algoritmos para predecir escenarios a tar dos terabytes por 82€, y esta capacidad
partir de los cuales nosotros podamos tomar de almacenamiento puede ser suficiente
decisiones. No obstante, estos algoritmos para muchas empresas que pueden almace-
funcionan muy bien para miles de regis- nar el movimiento de una parte importante
tros, miles de datos, pero no para millones de su día. Es un gasto asumible, aunque hay
de datos en tiempo real. La mayoría de los que tener en cuenta que actualmente po-
datos de la Internet of things no pueden ser demos leer discos a una velocidad de 100
almacenados, aunque los utilicemos en un Mb/s, por lo que necesitaríamos 5 horas
momento dado. Bastante trabajo hay ya con para poder leer dos terabytes. Sin embar-
los nuevos datos como para dedicar tiem- go, esto es un problema porque muchas
po a los antiguos, con lo que el análisis se empresas necesitan tomar decisiones em-
vuelve fundamental. En resumen, el mundo presariales con rapidez. ¿Qué hace Google?
científico tiene cuatro retos fundamentales En mi opinión, nos ha hecho un flaco favor
33
pacidad de disco y con el tiempo esto tendrá de procesado, etc. La Nube es una oportu-
un precio razonable. Este tipo de memoria nidad para acercar la supercomputación a
es más económica en consumo porque no es todos aquellos grupos que hasta ahora no
un disco mecánico, sino que está compuesta podían contar con ella.
34
Un universo de datos
El fenómeno Big Data y la Ciencia
35
36
La relación entre los sistemas de Big Data y Cloud Computing es una oportunidad y una respuesta para los pequeños grupos de
investigación, permitiéndoles acceder a herramientas que hasta ahora no estaban a su alcance.
y podemos, de alguna forma, utilizar para procesar y guardar todos los datos, lo que su-
llegar a diversas conclusiones. Muchas ve- pone un problema muy distinto al de las ba-
ces el interés radica en el procesamiento de ses de datos tradicionales porque aquí se rea-
estos datos en tiempo real o casi real, esto liza una sola escritura y luego múltiples tipos
depende del problema que tengamos y de de lectura para procesarlos lo mejor que se
lo que se tenga que analizar. Tendremos una pueda dentro de las capacidades que se tie-
mayor cantidad de datos que, en muchos nen. Este fenómeno ha llevado a algunos a
de los casos, serán muy variados. A diferen- pensar que podemos estar ante la muerte del
cia de los sistemas que ofrecían datos más método científico, y es ahora mismo uno de
o menos procesados (como una operadora los grandes problemas a los que se enfren-
de telecomunicaciones que da una serie de ta el mundo científico. Es decir, estos datos
datos ya agregados para interpretarlos de son relativamente sencillos de procesar, se
una forma más o menos sencilla), ahora hay pueden ajustar con una serie de polinomios
muchos datos que incluso pueden estar re- y extraer unas fórmulas que sirven para un
petidos o tomados desde puntos distintos y artículo científico de un campo concreto,
con distinta relevancia, o que pueden estar pero realmente no se está extrayendo cono-
falseados por el propio sistema de medición. cimiento nuevo. Los grandes descubrimien-
Podemos tener datos de cuya veracidad no tos científicos se hicieron cuando se llegó a
podemos fiarnos demasiado. Por ejemplo, fórmulas analíticas que analizan realmente
los datos de un GPS dependen de dónde lo que estamos observando y aportan infor-
estemos, la información que proporciona mación adicional que nos permite predecir o
un GPS va cambiando dinámicamente y no diseñar nuevos comportamientos, como las
siempre tiene el mismo radio de precisión. ecuaciones de Maxwell o cualquier otro gran
Ahora contamos con la posibilidad de avance científico.
37
38
39
40
La generación de datos está creciendo de forma exponencial. La sensorización asociada al Internet de las cosas (IoT Internet of things) y
las ciudades inteligentes (Smart Cities) es una de sus principales fuentes de crecimiento.
41
nimizar totalmente los datos. Es famoso el sentido, los lenguajes que ahora mismo es-
caso de Netflix, que organizó un concurso tán más en boga son, por ejemplo, “R”, que
en el que proporcionaba ciertos datos y, de es el que tiene mayor extensión, comunidad
repente, una persona se dedicó a “desano- y flexibilidad, aunque va un poco lento;
42
43
44
INTRODUCCIÓN GENERAL
L
a segunda jornada organizada por la Fundación Ramón Areces en torno al mun-
do del Big Data y del Cloud Computing tuvo lugar el 3 de julio de 2014. La
jornada, coordinada por el profesor José García Montalvo y el consultor en
TIC Julio Cerezo, fue continuación de la realizada el año anterior, titulada El impacto
de la Nube y el Big Data en la Ciencia. La iniciativa se encuadraba dentro del interés de
la Fundación por el análisis del impacto en la sociedad de las nuevas tecnologías de la
información y la comunicación surgidas desde el ámbito científico, y de las implicaciones
que representan su implantación y uso.
Si en la primera jornada las materias ana- impacto de las nuevas tecnologías está tenien-
lizadas se centraban en el ámbito de las Cien- do consecuencias disruptivas y generando
cias de la Naturaleza y de qué forma la Nube una auténtica revolución en los modelos de
y el Big Data están modificando la forma de negocio de diferentes industrias y economías.
investigar en Medicina, Física o Astronomía, Según el informe “Open Data in Euro-
en esta ocasión el foco estuvo dirigido a estu- pe”, realizado por la Fundación DemosEU-
diar los retos y oportunidades del “Big Data” ROPA, en 2015 la inversión total prevista en
en las Ciencias Sociales y, específicamente, en Big Data alcanzará los 132.000 millones de
la Economía y la gestión empresarial. dólares. El comercio, la industria, la salud, la
El Big Data es uno de los fenómenos ac- información, las comunicaciones, la banca,
tuales de mayor transcendencia en el ámbito los seguros y la Administración pública son
del desarrollo científico y tecnológico. Aso- los sectores donde el aumento de la inversión
ciado a la gestión de gigantescos volúmenes será más relevante. Además, generará 4,4 mi-
de datos, de muy diversa naturaleza y cuyo llones de empleos en todo el mundo y au-
tratamiento no se puede realizar con las he- mentará la riqueza de la Unión Europea con
rramientas y analíticas convencionales, la un 1,9% adicional en el PIB para 2020.
Ciencia de los Datos representa una nueva Las tecnologías Big Data no solo ayudan a
realidad para la sociedad en su conjunto, en recopilar grandes cantidades de datos, sino que
distintos campos y disciplinas. Y ha sido en el además permiten su almacenamiento, organi-
mundo de la Economía y la empresa donde el zación y recuperación para aprovechar todo su
45
46
47
real de una campaña publicitaria, para com- presión de la opinión pública (“adversativa”),
probar si está funcionando y modificarla so- destacando también las dificultades y proble-
bre la marcha. Sin embargo, intentar predecir mas existentes para que los modelos cumplan
algo en Big Data sin contar con científicos correctamente con su función predictiva.
48
49
50
mundo diseñando con IBM el cuarto super- computación, de manera que tenemos com-
computador del mundo, el primero que uti- putadores conectados por la red en varios
lizó Linux (ahora todos utilizan Linux), con lugares de España, de manera que puedan ser
procesadores iguales a los que llevan los Apple. utilizados fácilmente.
Desmitificamos aquello de que para hacer un Publicar en algunas revistas y congresos
supercomputador había que utilizar tecno- siempre es fundamental, pero la buena in-
logía muy cara: utilizamos tecnología que ya vestigación es mucho más importante. Y la
se utilizaba para otras cosas. A nivel mundial buena investigación debe generar riqueza.
somos pioneros, somos los únicos que han No solo la que se publica en los mejores si-
propuesto utilizar, en vez de esos chips con tios, que tiene su valor, pero si las ideas no
los que se construyen los supercomputadores se llevan a la práctica, no sirven para nada.
que consumen muchísimo y son costosísimos, Ni Bill Gates, ni los fundadores de Face-
utilizar los chips de teléfonos y tabletas, que book y Google escribieron ningún artículo,
son muy baratos y consumen poco. pero generan muchísima riqueza y tienen
Como consecuencia de esto, los patronos muchísima influencia en el mundo. Hemos
de este centro (el Ministerio de Educación, colaborado con muchas empresas. Tenemos
la Generalitat de Cataluña y la Universidad alianzas estratégicas con empresas generado-
Politécnica de Cataluña) decidieron crear el ras del mejor hardware y software para com-
BSC. El BSC tiene dos objetivos: Dar servi- putadores, no solamente supercomputadores,
cio a todos los investigadores españoles e in- sino de computadores de altas prestaciones. Y
vestigar. La investigación del centro se divide luego, a nivel español, tenemos una alianza
en cuatro departamentos diferentes: Ciencias muy valiosa con Repsol. También hemos em-
de la Tierra, Ciencias de la Vida, Ciencias pezado con Iberdrola y pronto empezaremos
Informáticas y Aplicaciones Informáticas. a colaborar también con un banco español no
También creamos la Red Española de Super- rescatado.
51
hace en un día y la parte fundamental cues- modelos de programación son los mismos,
ta menos de 1.000 USD. A partir de ahí se y los problemas de energía son los mismos, a
pueden llevar a cabo muchas investigaciones. diferente escala pero todo es igual.
Tenemos a toda la comunidad científica espa- Colaboramos con IBM, Microsoft,
52
La tecnología ha avanzado mucho durante los últimos años y cada año se multiplica por cuatro la velocidad del proceso de obtención del
genoma de una persona. Ahora se hace en un día y la parte fundamental cuesta menos de 1.000 USD.
Nvidia, Intel, etc. Por ejemplo, con IBM he- zar que el computador va a dar una solución
mos tenido hasta 40 personas trabajando en y controlar aquello que controla en tiempo
redes de interconexión, modelos de progra- real (aviación, en frenos de coches, etc.).
mación, aplicaciones, etc. Microsoft nos lla-
mó en 2005, convirtiéndonos en el primer Aplicaciones de ingeniería
centro del mundo que trabajó con Microsoft Es un departamento muy multidisci-
en el diseño de hardware. Nuestros investi- plinar de unas 35 personas, que desarrolla
gadores publican en las mejores revistas y software para computación de alto rendi-
congresos del área pero si solamente publi- miento (High Performance Computing o
camos en las mejores revistas y congresos y HPC en inglés) para proyectos de mecánica
no hacemos nada más, nos convertiremos de fluidos computacional (Computational
en centros de investigación gratuitos para las Fluid Dynamics o CFD en inglés), mecánica
multinacionales que van a copiar lo que ha- de sólidos, electromagnetismo, etc.
cemos y explotarlo económicamente. Los modelos de colaboración de este de-
Probablemente el BSC es el número uno partamento con empresas incluyen la opti-
a nivel mundial en modelos de programa- mización de aplicaciones externas (Airbus)
ción y herramientas para ver el comporta- o software a medida, como el que hemos de-
miento de programas. También, a nivel eu- sarrollado para Repsol, que le ha permitido
ropeo, nuestro centro, que colabora con la ahorrar millones de euros gracias a que he-
Agencia Europea Espacial y Airbus, es quizás mos aumentado en un 25%-30% las proba-
de lo mejor que hay en diseño de procesa- bilidades de éxito de sus sondeos, que pueden
dores, donde lo importante no es que sean costar 100 millones de euros cada uno. Tam-
muy rápidos, sino que lleguen a tiempo. bién colaboramos con Iberdrola para optimi-
Ante ciertas circunstancias hay que garanti- zar el funcionamiento de los aerogeneradores,
53
Volume Variety
Scale of data Different forms
of data
The
FOUR V’s
of
Big Data
Velocity Veracity
Analysis of Uncertainty
streaming data of data
Las variables que definen los retos del Big Data: volumen, velocidad, variedad y veracidad.
Fuente: htpp://www-01.ibm.com/software/data/bigdata/.
y con Aerolíneas Argentinas para ayudarles a básicamente para dos cosas: para llevar a
redirigir aviones de manera optimizada en cabo operaciones antes de operar de ver-
función del estado de la atmósfera, especial- dad, ya que es posible hacer modelos elec-
mente en casos de erupciones de volcanes. En trónicos de cada corazón; y para observar la
definitiva, ayudamos a las empresas a ahorrar influencia de muchos fármacos en tiempo
muchísimo dinero con tecnología que difí- real cuando hay una patología.
cilmente podrán tener, aunque sean grandes En definitiva, en España nos queda mu-
empresas. Desarrollamos tecnologías globales cho camino por recorrer pero estamos orgu-
que, debidamente modificadas, pueden uti- llosos y contentos con lo que hemos hecho
lizarse para diferentes aplicaciones. Por des- hasta ahora, con nuestras colaboraciones con
gracia, la crisis afecta a empresas españolas las mejores multinacionales y empresas del
muy importantes que se han quedado hasta país, y con la educación. La buena investiga-
sin departamentos de investigación. En estas ción es la que produce riqueza en tu entorno.
circunstancias es muy complicado transferir De nada sirve saber la influencia del botijo
la tecnología a la empresa. en la invasión de los bárbaros. Igual es un
Otro proyecto es una simulación en 3D tema muy interesante pero no va a generar
y de 3GB del funcionamiento del corazón. riqueza. Si hubiésemos patentado nuestras
¿Dónde se genera el impulso eléctrico en investigaciones de los últimos años, seríamos
el corazón? Nadie lo sabe. Pero sí se sabe millonarios. Pero los centros de investigación
que los iones tienen un papel en ello, que tenemos que dedicarnos a la investigación
dependiendo de dónde se genere puede puntera y tener buenas ideas. Y las ideas de-
FUNDACIÓN RAMÓN ARECES / NÚM. 14
dar problemas, y que los fármacos pueden ben ser convertidas en riqueza por los em-
cambiar el punto en el que se genera dicho presarios. No creo que sea nuestra labor y, de
impulso. Por tanto, las aplicaciones de este hecho, muchos profesores que tienen buenas
corazón son enormes y queremos, cuando ideas no están preparados para llevar esa idea
lo mejoremos, que los médicos lo utilicen al mercado, tienen que ser las empresas.
54
Datos y empresa:
el auge de las máquinas
¿Por qué nos interesa el gran ha cambiado pero todo lo demás sigue igual.
fenómeno del Big Data en En el siglo XX ocurrió un fenómeno fan-
este momento de la historia? tástico. De repente, la clase media emergió
Existen cinco factores prin- y el número de personas que podía comprar
cipales: las empresas y cómo cosas se disparó: era una sociedad de ma-
han cambiado en los últimos 300 años, las sas de consumo de masas. Hoy casi todo el
máquinas y cómo han ido cambiando desde mundo tiene acceso a un teléfono móvil o
hace 175 años, los materiales y cómo en- a una red local de telecomunicaciones; de
tendemos el esfuerzo humano en términos hecho, estudios contrastados muestran que
materiales, la innovación y cómo está cam- incluso las personas pobres de los suburbios
biando y el futuro y cómo éste será. en India escogen tener un teléfono móvil.
En el siglo XIX, con una nueva clase me- A día de hoy, en una nueva sociedad de
dia y un modelo de consumo de principios individuos, el reto del siglo XXI es cómo
de la época Moderna, comprar un producto conseguir que las personas se sientan ani-
requería ir a una persona y encargarlo para madas y felices al comprar. Así, en vez de
que esta persona pudiese fabricarlo. Podía vender productos, comenzamos a vender
ser un carro de caballos, una peluca, un reloj servicios que tienen que ser individualiza-
o un libro, pero todos ellos eran productos dos. El desafío de las empresas es cómo pro-
hechos a mano. A día de hoy la tecnología porcionar relaciones de servicios, y cómo
55
involucrarse en una relación emocional con der a escuchar y conseguir que el cliente se
el cliente. Para los clientes es como casarse suba a bordo. Tienen que escuchar porque
con las empresas. Un buen ejemplo de ello necesitan automatizar la relación entre el
es Apple, o lo que hizo cuando vendió el cliente y el servicio con tecnología informá-
primer iPhone: Apple ofreció a sus usuarios tica y crear muchos datos que necesitan ser
una experiencia que no tenían con un telé- ajustados constantemente. Además, tienen
fono Nokia normal que, por otro lado, era que involucrar a los clientes para que ellos
finés y aburrido. mismos hagan el trabajo: ellos compran el
No obstante, la única y principal diferen- teléfono en la tienda online, lo actualizan y
cia entre un mundo que vende productos y descargan las aplicaciones.
uno que vende servicios es que el propieta- Facebook, por ejemplo, es el segundo
rio del servicio es el prestador del mismo. país más grande del mundo, solo superado
Esto significa que los clientes y las empresas por China en apenas 400.000 personas, y
comienzan una relación que, como todas podría desaparecer de la noche a la mañana
las relaciones, necesita de actualizaciones si los usuarios dejaran de utilizarlo. Somos
constantes porque las preferencias cambian nosotros los que mantenemos Facebook
con el tiempo y se mueven constantemente, vivo, aunque solo seamos esclavos de una
y esos movimientos exigen cambios, adap- gran maquinaria.
taciones y reconfiguraciones. Además, las No obstante, en cualquier tipo de rela-
empresas tienen que conseguir que esta in- ción, se necesita confianza y, tras los políti-
teracción mutua, este mutuo compromiso cos, las empresas comerciales son las entida-
con el cliente esté automatizado. des en las que menos se confía en el mundo.
Con el fin de embarcarse en este nuevo Esto ocurre, en parte, porque en las grandes
paradigma de relaciones individuales y au- empresas es imposible controlar las plantillas
tomatizadas, las empresas tienen que apren- y los procesos, y también porque son muy
rápidos a la hora de vender cualquier cosa
pero muy lentos cuando hay que resolver un
problema con el servicio que se ha compra-
do. Además, también es un problema tener
que proporcionar información personal a las
empresas para que actualicen sus datos.
Máquinas
Una de las cosas que nos diferencia de los
primates es que construimos herramientas,
y a lo largo de nuestra historia, hemos pasa-
do por tres diferentes eras relacionadas con
FUNDACIÓN RAMÓN ARECES / NÚM. 14
56
Mass Consumption
Product
transactions 20th Century Mass Society
Products and Services
En la nueva sociedad de individuos del siglo XXI, los servicios han reemplazado a los productos.
57
A lo largo de nuestra historia hemos pasado por tres diferentes eras relacionadas con las máquinas: la era de la máquina mecánica, la
era de la máquina inteligente y la era de la máquina generativa.
58
Por otro lado, existen puntos de vista la robótica formando parte del día a día de
como el de Erik Brynjolfsson y Andrew la industria está acaparando cada vez más
McAfee, del MIT, que han escrito un libro miradas y depende de nosotros decidir qué
que ha influenciado mucho el debate pú- combinaciones son buenas y cuáles no lo
blico: La segunda era de las máquinas. En son. Las empresas no necesitan analizar el
él argumentan que la innovación es inhe- Big Data para eso.
rentemente recombinante y que ahora esta- Una consecuencia natural de lo expuesto
mos mejor equipados para recombinar de es que las máquinas generativas se utiliza-
lo que hemos estado nunca: “la innovación rán cada vez más para permitirnos trabajar
recombinante permite la abundancia com- para las empresas con las que estamos aso-
putacional a través de la distribución global ciados. Ahora el cliente prefiere comprar y
y el aumento de recombinaciones beneficio- pasar por una caja automática o ir al cajero
sas”, aunque, como Ray Kurzweil también en vez de ir al banco, buenos ejemplos de la
señaló, la recombinación se está volviendo distribución del poder: en la era de la má-
demasiado compleja como para entenderla quina inteligente, el ordenador nos servía a
de manera intuitiva. nosotros; ahora, en la era de la máquina ge-
Existen varios ejemplos recientes de nerativa, nosotros servimos al computador.
innovación a partir de la recombinación, Hemos pasado de la era de la máquina
como el mapeo 3D de Google, que inclu- inteligente, que trataba de encuentros, a la
so será integrado en teléfonos móviles, o la era de la máquina generativa, que trata sobre
impresión 3D, que permitirá una enorme relaciones. El siglo XX se definió para gran
generación de innovación y distribución de parte del mundo occidental por permitir la
fabricaciones de cuyas consecuencias totales compra de productos de lujo por casi nada,
no somos todavía conscientes. Esta idea de entonces, la informática apoyaba a las per-
59
Con Google tenemos un modelo que está y no al contrario, y nuestros trabajos serán
roto porque está centralizado y necesitamos diferentes, serán más intensos pero más
descentralizarlo previamente en su diseño, flexibles, y habrá una gran polarización de
pasando de una Gestión de Relaciones con habilidades y trabajos para la que tenemos
Clientes (CRM) a una Gestión de Rela- que prepararnos.
60
Big Data,
economía y organizaciones
61
las decisiones que tomamos. Aunque ac- el otro lo inculpa, éste saldrá libre y el pri-
tualmente a esta disciplina se la denomina mero recibirá 20 años de cárcel; si los dos se
“Data Science”, centros de investigación re- mantienen callados, ambos estarían sólo un
conocidos como Harvard, Yale o Microsoft, año en la cárcel. La mejor opción para am-
están empezando a acuñar el término “Algo- bos sería cooperar y no confesar para reducir
rithmic Economics”, atendiendo a esa parte la pena al mínimo, pero siendo egoístas, la
de la generación de algoritmos que está muy mejor situación siempre es intentar salir li-
centrada en la Economía. bre directamente, asumiendo que el otro va
El método científico se basa principal- a ser pro-social contigo y no va a confesar.
mente en la formulación de una serie de Fehr y Gächter descubrieron un gran resul-
preguntas sobre las que se realiza una inves- tado a nivel científico: que si se añaden va-
tigación y se construye una hipótesis para rias rondas a este juego y se permite que los
después llevar a cabo experimentos para sujetos se castiguen entre ellos, la posibilidad
probar esta hipótesis, analizar los resultados de que se produzca ese castigo aumenta la
y extraer conclusiones, y, finalmente, redac- cooperación media. De hecho, este artículo
tar un informe de los resultados, y volver a ha generado un gran impacto científico y ha
empezar. Cualquier investigación científica generado muchas otras investigaciones de
es cíclica, siempre produce más preguntas gran interés en este mismo campo.
científicas que van abriendo el camino al Los economistas experimentales se sirven
conocimiento. de unos mandamientos que deben cumplir-
Por ejemplo, en 2001 Fehr y Gächter, dos se en todos sus experimentos para poder ser
economistas experimentales, publicaron en publicados: tiene que haber dos tipos de
Nature un artículo titulado “Altruistic pu- incentivos económicos para los sujetos que
nishment in humans” (El castigo altruista en participan en el experimento, tanto por asis-
humanos). Básicamente, su hipótesis es que tir como por la calidad de la participación,
el castigo altruista, que se da cuando un su- porque dependiendo de cómo participes,
jeto gasta recursos para castigar a otro sujeto
cuando no hace bien las cosas, hace que la
sociedad se sostenga en un entorno donde
no hay una regulación central. Muchos eco-
nomistas conocen el dilema del prisionero,
un dilema en el que hay dos sujetos sepa-
rados en salas distintas que no se pueden
comunicar entre ellos. A los dos se les acu-
sa de haber robado y tienen que decidir si
confesar, y traicionar a su compañero, o no
FUNDACIÓN RAMÓN ARECES / NÚM. 14
confesar. Esta situación produce cuatro posi- Estudio realizado por BBVA en el que se analiza el uso de
bles escenarios: si los dos se inculpan el uno las tarjetas de crédito en España durante la Semana Santa
de 2011 en cuatro sectores: mercados y alimentos, bares y
al otro, los dos estarán condenados a cinco restaurantes, moda y gasolineras.
años de cárcel; si uno se mantiene callado y
62
63
64
65
de la plataforma experimental para cumplir la privacidad de los sujetos y que las personas
con todos los requisitos científicos, y ade- que trabajamos con Big Data seamos ética-
más ofrecen una visión limitada y posible- mente conscientes de todo lo que puede ge-
mente desviada de la realidad. Por otro lado, nerar si esto no se cumple.
66
Big Data
y análisis predictivo
Cuando la gente habla del no teníamos antes, como son los weblogs o
Big Data, uno siempre se las plataformas de ecommerce, pero en los
pregunta de qué tipo de Big últimos años han aparecido todos los trata-
Data estarán hablando por- mientos de estos datos no estructurados para
que, por ejemplo, la gente los millones de vídeos que se suben todos los
que trabaja finanzas y en bolsa lleva utilizan- días a YouTube sobre diferentes temas, pero
do Big Data desde hace decenas de años y también, por ejemplo, para la predicción del
hoy, cuando las operaciones se reproducen tiempo.
con ingeniería algorítmica casi en milisegun- En un minuto se habrán publicado en
dos, todavía más. Pero el Big Data no solo Twitter aproximadamente 300.000 tweets, lo
está definido por el volumen, sino también que supone más de 64.000 líneas de Excel,
por las variables y la velocidad del dato. pero el ritmo al cual se están publicando, el
Hace ya mucho tiempo que las empresas uti- hecho de que sea un dato no estructural, o
lizan programas de ERP (Enterprise Resour- que haya que convertir mediante un proce-
ce Planning) y CRM (Customer relationship sador de lenguaje natural, a una opinión, a
management), que manejan grandes cantida- una queja, a un sentimiento, hace que ese
des de datos. Quizás, con la web 2.0, ahora tipo de datos se conviertan en Big Data por
tenemos un acceso a otro tipo de datos que su volumen. Por ejemplo, cada vez que pa-
67
samos una tarjeta de crédito por una TPV, ejemplo, algoritmos, sino también saben de
en el tiempo que transcurre entre que uno hardware o de software.
escribe el pin y se acepta la operación, hay
una empresa que se conecta a una base de El flujo del valor
datos de 4.500 millones de transacciones, Lo más interesante del Big Data es el
de millones de clientes, y que indica que esa flujo de valor. Por ejemplo, en una empresa
transacción no es fraudulenta y que la ope- existen desde hace muchísimos años transac-
ración está aceptada. El volumen de datos es ciones operacionales, pero se utilizaban solo
de apenas gigabytes, pero la velocidad a la en un departamento, hasta que se dieron
cual hay que realizarlo conlleva la utilización cuenta de que en otro departamento esos
de una serie de tecnologías, una serie de al- mismos datos podían tener otra aplicación
goritmos que constituyen para nosotros un y un valor, incluso podían ofrecer servicios a
problema de Big Data. Por tanto, para mí terceros para que otras empresas utilicen los
el problema del Big Data no es solamente datos en sus procesos. En España tenemos
un problema de volumen, sino sobre todo la suerte, por ejemplo, de contar con dos
de velocidad y de variedad. grandes empresas que son pioneras en esto,
¿Por qué se habla ahora de Big Data? Telefónica y BBVA, que han creado este tipo
Quizás, no solamente porque cada vez ten- de servicios para que otros accedan a esos ti-
gamos más datos, que también, sino porque pos de datos. Pero además, las empresas se
han confluido una serie de factores que han han dado cuenta de que existen otras fuentes
hecho que haya este interés por la analítica de datos abiertos, como las redes sociales o
de datos. En primer lugar, han surgido una los servicios de meteorología, que pueden
serie de tecnologías que permiten guardar integrarse en los procesos de las empresas.
todo ese tipo de datos y acceder a este gran Este contexto permite que, además, surjan
volumen de datos en unos tiempos accesi- nuevas fuentes de datos, nuevos sensores que
bles desde el punto de vista de la aplicación. generan datos sobre todo lo que está pasan-
Incluso en las aplicaciones en memoria, uno do. Empezamos a tener muchísimos datos
puede acceder casi en milisegundos. Por de otro tipo, que influyen muchísimo en la
otro lado, están las herramientas de análisis. gestión de campañas de marketing o en los
Hoy en día, a la vez que uno puede guardar motores de recomendación.
los datos, existe también la posibilidad de Pero lo principal de esta nueva realidad
tener herramientas que permiten el análisis es que han aparecido tres tipos de datos que
casi en tiempo real. También existen pro- no existían antes y que, además, son preci-
veedores como SAS, Revolution Analytics, samente los que condicionan todas nuestras
SPA, Storm, S4 o Massive Learning que acciones. El 70% de nosotros pregunta a
permiten todo este tipo de análisis. No otras personas cuando va a comprarse un
obstante, lo más importante es que desde producto electrónico. Es decir, los humanos
hace unos años hay gente que lo sabe hacer somos virales y tendemos a comunicar en
y ahora hay muchísimos sitios donde uno nuestras redes sociales, tendemos a pregun-
FUNDACIÓN RAMÓN ARECES / NÚM. 14
puede aprender a ser lo que actualmente se tar. El otro condicionante, de los más gran-
denomina como Data Scientist. Son perso- des que hay en nuestras acciones, en nuestro
nas que tienen capacidades transversales, comportamiento, es la movilidad geográfica.
que no solamente tienen formación en, por Somos animales de costumbres, nos move-
68
No todos los sectores empresariales se ven afectados de la misma forma por el Big Data. Los relacionados con la información, la venta mino-
rista o las finanzas, incluso la Administración pública, están más predispuestos a que el Big Data pueda cambiar muchos de sus procesos.
mos siempre por los mismos sitios y la ma- nanzas, incluso la Administración pública,
yoría de nosotros, a lo largo de un mes, solo están más predispuestos a que el Big Data
va a diez tiendas diferentes. Esto es así por- pueda cambiar muchos de sus procesos. Sin
que nuestra vida tiene ciertos condicionan- embargo, hay otros, como la construcción,
tes que limitan nuestros comportamientos a donde no se da tal predisposición.
lo largo del día. Y este tipo de datos empieza Básicamente la cuestión no es cómo de
a estar disponible. Por tanto, la revolución grande o cómo de veloz es un dato, sino
del Big Data tiene una de sus bases en la vi- qué valor tiene y qué valor puede crear en
sión que tenemos desde que existen este tipo una organización. Desde el punto de vista
de comportamientos, de patrones, cuando general, dentro de una organización, adop-
utilizamos Facebook, Twitter o nuestros te- tar una analítica basada en datos y en una
léfonos móviles. La transfusión de esos tres visión analítica de los procesos que ocurren
tipos de datos –los que nos llegan desde las en la compañía puede crear transparencia y
redes sociales, los datos de comportamiento, reducir ineficiencias, porque a veces pode-
y de movilidad geográfica– es lo que ha lle- mos tener un dato que nos puede ayudar a
vado al boom de las aplicaciones que tienen detectar que algo no se está haciendo bien,
que ver con el análisis de este tipo de datos pero sobre todo puede permitir la experi-
y del Big Data. mentación. Teniendo este gran volumen de
No todos los sectores empresariales están datos, uno puede introducir, por ejemplo,
igualmente afectados por este fenómeno. la variabilidad y el rendimiento de ciertos
Por ejemplo, aquellos relacionados con la procesos en una plataforma de ecommerce.
información, la venta minorista o las fi- Esto es muy importante porque el análisis
69
Acción
Decisión
Conoci-
miento
Información
Datos
La cuestión no es cómo de grande o de veloz es un dato, sino qué valor tiene y qué valor puede crear en una organización. Y definir el
proceso que permita transformar los datos en la toma de decisiones empresariales.
que se haga de los datos puede ayudar a los su naturaleza manejan muchísimos datos de
expertos o incluso se puede prescindir de todos nosotros y empieza a haber muchas po-
ellos (como en el caso de las últimas campa- sibilidades para utilizar sus aplicaciones. Por
ñas de Obama). otro lado, la Ciencia lleva muchos años traba-
Muchas empresas como Netflix y Pandora jando con Big Data, especialmente en el área
se basan en modelos de recomendación que de la Física de partículas. De hecho, muchas
luego venden a otros proveedores de servi- de las tecnologías que hoy utilizamos, como
cios o a empresas que utilizan otro tipo de la Web o la Nube, nacieron en el CERN (el
servicios. Realmente, el valor de estos datos Laboratorio Suizo de Física de Partículas)
reside en poder llegar a generar predicciones. porque el nivel de producción, de consumo
Cuando uno puede predecir algo, puede to- y de análisis de datos en el CERN es brutal.
mar decisiones, y es entonces cuando el dato El LHC genera muchísimos más datos que
se vuelve accionable y uno puede adelantarse Facebook, Twitter y todas los demás plata-
a lo que va a pasar en el futuro y tomar deci- formas sociales juntas por día. También, cada
siones antes de que suceda. O también pue- vez va a haber más interés en la analítica de
de utilizar el nowcasting para predecir lo que datos de la Biología.
está pasando ahora sin tener datos de lo que
está pasando en este preciso momento. Los El dato en sí no es valor
modelos predictivos se aplican en la gestión Pero el dato en sí no es valor, ni siquie-
y detección de fraude, en la gestión del ries- ra es información, por lo que es necesario
FUNDACIÓN RAMÓN ARECES / NÚM. 14
go, para mejorar campañas de marketing, en convertir ese dato en valor, en información.
salud, en el mundo del deporte y las apuestas. Luego hay que transformar esa información
También el Big Data se utiliza cada vez más en conocimiento a través de series de algorit-
en las Administraciones públicas, ya que por mos que nos permitan conocer información
70
71
72
BIG DATA
EN LA EMPRESA
INTRODUCCIÓN GENERAL
L
a tercera cita con el Big Data contó en esta ocasión con la colaboración del Club
Última Hora del Grupo Serra y la Universitat de les Illes Balears (UIB), junto
a la Fundación Ramón Areces organizaron en noviembre de 2014 una jornada
divulgativa sobre El impacto del Big Data en la empresa, que se celebró en el campus de
la UIB. El acto fue inaugurado por el rector de la UIB, Llorenç Huguet; el consejero
delegado del Grupo Serra, Pedro Rullán; el director de la Fundación Ramón Areces,
Raimundo Pérez-Hernández y Torra; y el director general d’Educació del Govern
Balear, Miquel Deyá.
La jornada, que siguió un esquema simi- ción Ramón Areces, fue el encargado de
lar a la celebrada en Madrid en el mes de abrir la jornada con la ponencia El esta-
julio, se enfocó hacia el estudio de algunos do del arte del Big Data & Data Science y
de los principales elementos que integran el aplicaciones al sector financiero. Para García
Big Data en la Economía y la gestión em- Montalvo, la generalización del Big Data y
presarial. En la presentación, se destacó que las nuevas técnicas asociadas al tratamien-
el Big Data afectará a prácticamente todas to y análisis de grandes bases de datos está
las industrias y hará que muchos negocios revolucionando tanto el trabajo científico
cambien de modelo. Por ejemplo, permitirá como la gestión empresarial. Aplicaciones
que los servicios de una ciudad sean dimen- como las recomendaciones personalizadas
sionados en función de su demanda real; de Amazon han supuesto una mejora muy
ayudará a mejorar las predicciones empre- significativa de la experiencia de compra de
sariales en todos los órdenes y procesos de los consumidores. Analizó las posibilidades
negocio y ya está transformando áreas como del Big Data para mejorar los servicios fi-
el marketing, la publicidad y el comercio nancieros y la experiencia de los clientes.
electrónico. La utilización de técnicas de Big Data, in-
José García Montalvo, catedrático de cluidos indicadores de reputación y capital
la Universidad Pompeu Fabra y vocal del social online –recordó– se ha extendido a la
Consejo de Ciencias Sociales de la Funda- calificación crediticia de los solicitantes de
73
–al igual que lo hizo en la Jornada de Ma- de cómo lo aborda el periodismo actual y
drid–sobre Los datos, la nueva materia prima también de la “larguísima historia” que la
del marketing. Méndez defendió que el fu- visualización de datos ha tenido en los me-
turo pasa por el análisis de millones de da- dios de comunicación desde su nacimiento.
74
Big Data,
y la toma de decisiones en la empresa
75
tiones importantes, pero quizás hay otra siquiera sabía que desconocía; está guiando
característica que no se comenta tanto y su búsqueda y eso es muy importante. Por
que desde Accenture tratamos de entender. tanto, esa es una gran diferencia, el poner
¿Cuál es el hecho sustantivo y diferencial del el foco en todo aquello que desconocemos
Big Data? Creemos que la gran diferencia, que no conocemos. Y esto tiene otra forma
cuando hablamos de grandes datos, tiene de expresarse en términos más tangibles y
que ver con el hecho de que las organizacio- que tiene que ver exactamente con los da-
nes se mueven en una situación en la cual tos. Cuando hablamos de estos entornos
tienen un cierto conocimiento de su en- más tradicionales del análisis, lo que sucedía
torno, de su negocio, de las decisiones que es que los datos que había a nuestra dispo-
puede tomar, del impacto que pueden te- sición estaban en un ambiente muy contro-
ner; hay cosas que saben, pero realmente lo lado, teníamos nuestros almacenes de datos,
que saben es poco. Hay muchas más cosas teníamos estructuras donde la información
que desconocemos. De esas cosas que des- estaba bien estructurada, bien definida,
conocemos, hay algunas que sabemos que bien delimitada, y donde el perímetro de
desconocemos: “No sé exactamente cuál es información era claro. Dicho de otra mane-
el cliente al que tengo que ofrecer este pro- ra, el continente dentro del cual se deposita-
ducto en concreto”. Entonces tratamos de ban los datos era bien conocido, era estable
desarrollar un modelo predictivo que iden- y limitado. Ahora bien, estamos abriendo
tifique cuáles son los patrones, los perfiles nuestros sentidos, desde el punto de vista
detrás de este comportamiento para, a partir empresarial, hacia un entorno que está cam-
de ahí, optimizar, maximizar el rendimiento biando dinámicamente, donde obtenemos
de nuestras campañas. “Sé que no conozco información de Internet, a partir de los te-
a priori y con certeza cuál es ese perfil, sé léfonos móviles, de dispositivos y sensores
que lo desconozco”. La Ciencia analítica, la que pueden tener en cuenta los biorritmos
inteligencia analítica, y la minería de datos, o ciertas características de nuestros clientes,
con todas las denominaciones que pueda cualquier tipo de información. Entonces,
haber habido en los últimos 20 años, se ha la situación cambia drásticamente porque
fundamentado o se ha centrado fundamen- ahora el continente ya no es fijo, pasa de
talmente en ese aspecto, en tratar de poner una situación de ser un ente rígido, un ente
luz sobre aquellos elementos que sabíamos sólido, a un ente que es gaseoso, variable y
que desconocíamos. muy dinámico. Y esa situación cambia, o
hace cambiar radicalmente, el enfoque ana-
“Lo que no sabemos que desconocemos” lítico o metodológico que necesitamos para
No obstante, lo que marca realmente la poder obtener valor de ese contexto.
diferencia es conocer aquello que ni siquiera ¿Qué es lo relevante, por ejemplo, para
sabemos que es relevante para nuestro nego- identificar un fraude? En una situación
FUNDACIÓN RAMÓN ARECES / NÚM. 14
cio. Por ejemplo, cuando hablábamos de los convencional, tendríamos cierta informa-
sistemas de recomendación, cuando Ama- ción de cuáles son los hábitos, los compor-
zon hace una recomendación está ayudando tamientos, las transacciones que se están
al usuario a conocer cosas que, a priori, ni produciendo, por ejemplo, en el uso de una
76
77
mismo, incorporamos también la perspec- igual que hay que optimizar la manera en la
tiva social. Nos interesa mucho encontrar que se puede llegar a determinar esas varia-
relaciones entre entidades, relaciones entre bles. En este sentido, el grado de automati-
productos, relaciones entre personas, rela- zación puede ser muy grande, permitiéndo-
78
79
cio determinado. Al mismo tiempo, otros este mundo, lo cual puede ser una magní-
sistemas automáticos, con otro inventario fica oportunidad para ir reduciendo ese gap
publicitario distinto, porque tiene acuerdo y crear oportunidades, tanto profesionales
con otras marcas, hacen su cálculo y tam- como de empresa para todos.
80
Los datos,
la nueva materia prima del marketing
81
diata sobre el impacto de las campañas, lo tipo de empresas, como Spotify, Facebook
que lleva a la necesidad de usar tecnologías o Amazon, son claros ejemplos de que los
que puedan procesar toda esa información datos tienen un valor que cotiza en bolsa,
rápidamente. y además de que pueda ser porque sus fun-
dadores sean unos visionarios y unos gurús,
Big Data y creación de valor lo cierto es que hacen un uso cada vez más
Sin embargo, la penetración del Big Data inteligente y más maduro de los datos. No-
en España es muy baja, estimándose que sotros recomendamos a las empresas que ha-
apenas un 3% de las empresas realmente lo gan un estudio de la madurez de su uso de
utilizan. En Europa también se utiliza muy datos y analicen si los están utilizando bien y
poco. En realidad lo que se está haciendo en qué porcentaje los están utilizando.
son “pruebas de concepto” y muchos pilotos, ¿Por qué son tan importantes los datos
mientras que la producción real y los pro- para el marketing? Entre otros motivos, por-
yectos están relegados a algunos casos muy que Internet ya no es única, hay tantas In-
concretos y a 3 ó 4 empresas en España. No- ternets como personas que lo utilizan. Los
sotros organizamos “Big Data Spain”, que es anuncios de Amazon o los posts de Facebook
una de las mayores asociaciones en España están personalizados al igual que los busca-
actualmente. También hemos creado “Big dores como Google personalizan nuestras
Data Hispano”, que es la organización de Big búsquedas, una realidad que se extiende a
Data más importante de España y Latino- todos los medios que hacen un buen uso
américa. No se está utilizando de verdad el de Internet. Nosotros colaboramos con
Big Data por dos motivos: primero, porque “The Guardian”, que es uno de los perió-
se habla de Big Data en términos de tecnolo- dicos más sofisticados en este tema y que
gía y no en términos de negocio, y eso es un ha determinado que aquello de “una página
error. Hay que hablar en términos de nego- online, para todos la misma, porque tengo
cio y encontrar casos de uso en los que aporte una línea editorial y la línea editorial la ten-
valor, como en marketing, por ejemplo. go que mantener” es prehistórico. Es decir,
El segundo gran problema, en términos hay que generar una página online por cada
de tecnología, es poner los datos en valor.
Es decir, convertir los datos en valor eco- Social networks tracking and geolocalization
nómico, porque los datos tienen un gran
valor monetario. Solo hay que ver las coti-
zaciones de empresas que hacen un uso in-
creíble de los datos para ser consciente de
ello. Por ejemplo, la empresa sueca Spotify
vale mucho porque tiene muchísimos datos
sobre sus usuarios y sus gustos, y además
FUNDACIÓN RAMÓN ARECES / NÚM. 14
82
persona que se conecta, y esto es el marke- 400 millones de dólares. El paso siguiente,
ting conocido como “one to one”. El límite una vez se almacenan los datos, es el cruce
de los segmentos socio-demográficos hoy en de los datos de múltiples canales (omnichan-
día no es la tecnología de Big Data ni la de nel), no solo las búsquedas y la navegación
los algoritmos, que avanzan cada vez más, en Internet, sino también el uso del email o
sino la capacidad que tienen las máquinas el móvil. Hay muchas posibilidades y es ne-
de generar tantas páginas o contenido como cesario alejarnos de los paradigmas antiguos
usuarios. Ese es el límite. Por eso los motores para descubrirlas. La primera limitación so-
de “behavioral customization” que hacemos mos nosotros mismos.
se limitan a 100, 200, 300 segmentos. Otro tema importante relacionado con
El primer paso para el marketing es en- el Big Data y el marketing son las visualiza-
tonces la recolección de datos (dark Data), ciones. Esta cantidad de datos, su aplicación
y más específicamente, de los datos de na- de algoritmos y correspondiente conversión
vegación. Por ejemplo, Yahoo fue uno de los en valor no siempre se puede ver si no se
primeros en hacer un uso inteligente de los cuenta con un mecanismo de visualización
datos y aplicar las tecnologías de Big Data. apropiado. De ahí que hayan surgido y estén
Lo primero que hizo fue almacenar todos los surgiendo los mecanismos de visualización.
datos de navegación de sus millones de usua- Al fin y al cabo, en marketing, la difusión de
rios. Para ello invirtieron decenas de millo- información es algo esencial y los medios an-
nes de euros en tecnología para conseguir tiguos ya no sirven. Hoy en día hay que uti-
búsquedas mucho más personalizadas que se lizar redes sociales y canales online de mar-
convertían en un mayor acceso a sus enlaces, keting digital. Para ello es muy importante
una ventaja de un 2% respecto a sus compe- entender cómo se “viraliza” la información
tidores, que le produjo un retorno de 300 o en las redes sociales y en Internet. Twitter es
83
La combinación de datos del pasado, presente y futuro es un elemento clave para el éxito del Big Data dentro de la empresa.
la red social más rápida, pero si uno quiere sociales, siempre y cuando se haga un buen
que algo llegue muy rápido a otras personas uso de ellas, porque todo aquello del cliente
en Twitter, no solo hay que generar conte- 360º tan de moda, que utiliza los datos del
nido interesante, sino que este contenido cliente internos, públicos, no estructurados,
tiene que llegar a un difusor (influencer) con call centers, voz pasada a texto, etc., y las re-
mucho alcance. Y para entender todo esto, des sociales, no aporta casi nada, no suele
los mecanismos de visualización son impor- aportar casi nada porque cruzar los datos es
tantísimos. muy difícil. Sin embargo, una empresa sí
Igualmente, la semántica es otro aspecto que puede sacar partido a Facebook y hacer
muy importante del marketing digital. Por un buen seguimiento de sus campañas.
ejemplo, en foros como Forocoches o EnFe- Por otro lado, también está el marketing
menino, donde no sólo se habla de coches o offline, que es aquel marketing para el que
temas femeninos, el mejor anuncio no tie- no tengo que estar “conectado” para que me
ne que ser uno de coches o de un producto llegue: newsletters, correos electrónicos, etc.
femenino, sino que la publicidad tiene que En este tipo de marketing también se pueden
estar orientada al tema sobre el que estén personalizar las newsletters cruzando datos
hablando en ese momento los usuarios. Para públicos con datos privados en lo que sí se-
ello se utilizan motores semánticos, aunque ría un genuino ejemplo de cliente 360º que
a día de hoy todavía tienen más fallos que funciona. Por ejemplo, NH recolectó todos
la comunicación humana, es decir, no en- los comentarios de Tripadvisor, Booking, y
tienden bien entre un 30% y un 40% de demás sitios relevantes de hoteles y los cruzó
FUNDACIÓN RAMÓN ARECES / NÚM. 14
los comentarios. Por ello, nosotros no reco- para él y para su competencia, los analizó
mendamos hacer clipping cuando se utilizan con motores semánticos y los introdujo en
motores semánticos en publicidad. un sistema de Big Data para poder com-
Otro tema sería el seguimiento de redes parar diferentes factores de cualquiera de
84
85
Ética y privacidad
de los datos
86
87
acto de libre disposición y, además, cuando mos un patrón a una persona identificada
anonimización presente la menor inconsis- o identificable estamos sin duda realizando
tencia cuando mediante técnicas de inferen- un tratamiento y debemos aplicar todas las
cia, de relación con otros paquetes de datos, garantías legales.
88
89
e Internet de las cosas, pueden aportar in- el escenario que deriva de la predictibilidad.
formación relevante susceptible de ser usada
con fines discriminatorios. Y también con Libre elección v. libre autodeterminación
fines de control social y policial. Paul Schwartz, en su artículo “Internet
90
91
Data Science:
el futuro ha comenzado
92
menos relevantes. Por ejemplo, cuando el portancia del Big Data se refleja en la deman-
algoritmo item by item de recomendación da de graduados universitarios. El reciente
de Amazon nos recomienda un libro, que estudio del Ministerio de Educación (2014)
otra persona que compró una bicicleta an-
teriormente también lo compró, la cuestión
no es cómo explicar la causa de la relación
entre la bicicleta y el libro sino la correla- “Without data you are just
ción observada con anterioridad entre estos one more person with an
dos productos. opinion”
(anónimo)
Mitos sobre el Big Data
Respecto al Big Data existen algunos
mitos que vale la pena desterrar. En primer “In God we trust; all other
lugar, cuando alguien habla de Big Data nor- must bring data”
malmente está pensando en datos produci- (Edward Deming)
dos por Internet (Facebook, Google, etc.,)
o la NSA (National Security Agency de los
Estados Unidos). Sin embargo, los mayores “We are drowning in
generadores de datos son las grandes infraes- information but starved
tructuras científicas. El Large Hadron Colli- for knowledge”
der del CERN produce 600 TB/sec con sus (John Naisbitt)
15 millones de sensores. Incluso después de
filtrar la información se necesita almacena-
miento para 25 PB/año. Y esto nos lleva al
segundo punto: en la actualidad las mayores sobre las salidas profesionales de los universi-
restricciones para la realización de proyectos tarios muestra con claridad la influencia del
de Data Science no están relacionadas con la Big Data: cuatro años después de salir de la
capacidad de computación de los ordenado- universidad el mayor porcentaje de afiliación
res sino con la capacidad de almacenamiento a la Seguridad Social se encuentra entre los
de información y la gran cantidad de energía graduados de Informática (78%) y Mate-
que produce el tránsito de la información máticas y Estadística (72,2%). Estas son
entre los dispositivos de almacenamiento y precisamente las disciplinas más vinculadas
los procesadores. En tercer lugar, el Big Data al desarrollo de la Ciencia de los Datos. Es-
requiere una visión centrada en la computa- tos datos contrastan con los resultados de los
ción masiva en paralelo y memoria persisten- titulados 15 años antes, donde la tasa de de-
te, en lugar de pensar en un modelo centrado sempleo de los titulados en Matemáticas era
en torno a un único ordenador. Es preciso significativamente superior a la tasa media de
moverse a una visión de computación distri- desempleo de los universitarios y la tasa de
buida (escalable y computación en paralelo) desempleo de los licenciados en Informática
y pensar en nuevos instrumentos para traba- era 5 veces inferior a la tasa de los matemáti-
jar con bases de datos no relacionales. cos y la mitad que los titulados en Estadística
Un aspecto interesante de la creciente im- (García-Montalvo 2001).
93
El desarrollo del Big Data y las técnicas de tiendas en Internet en decenas de países
asociadas al mismo están cambiando la for- para obtener un índice de precios online que
ma de realizar investigación científica e in- se actualiza en tiempo real2. Esta tecnología
cluso la forma en la que se enseñan discipli- utiliza la estabilidad o cambio de los com-
nas ya consolidadas. Un ejemplo claro es la ponentes entre tags del lenguaje HTML uti-
enseñanza y la aplicación de la econometría1. lizado para construir las páginas web para
Normalmente en econometría se trabaja en determinar los cambios en precios de los
el contexto de técnicas de regresión. Sin em- productos en el tiempo. Un programa pue-
bargo, las técnicas de machine learning, muy de, utilizando estos principios, identificar la
ligadas a las metodologías del Data Science, información relevante sobre un producto y
incluyen la regresión como una técnica más su precio. El URL de la página donde están
en el denominado supervised learning jun- indexados estos productos puede servir para
to con métodos de clasificación, árboles de clasificarlos por categorías. Una de las utili-
decisión y redes neuronales. En nuestras dades del proyecto es comparar la evolución
clases de econometría solíamos explicar que de la inflación oficial y la obtenida a partir
cuando hay más variables que observaciones de capturas de información sobre precios
no se puede realizar una regresión. En los de tiendas online. Los resultados muestran
proyectos de Big Data sucede muy frecuen- que mientras en Brasil, Chile, Colombia o
temente que existen más variables que ob- Venezuela la evolución de la inflación oficial
servaciones, lo que se resuelve mediante téc- y la obtenida a partir de los precios online
nicas de shrinkage que hacía mucho tiempo siguen patrones similares, en Argentina las
ya no explicábamos en las clases. El software diferencias son muy significativas. En media
también es muy diferente. Mientras en eco- la inflación en Argentina entre 2007 y 2011
nometría solíamos trabajar con Stata, Mata, definida por el índice de precios online fue
Gauss o Matlab los proyectos de Big Data del 20,14% frente a la inflación oficial que
usan frecuentemente Hadoop, MapReduce, era tan solo del 8,38%. Esto implica una
Pig, Hive, ZooKeeper, Hive y R. Por tanto, diferencia acumulada del 65% en marzo de
la extensión del Big Data está transformando 2011.
también las técnicas y los programas utiliza- Algunos investigadores utilizan Google
dos en el análisis de datos más tradicional. Trends para mejorar la capacidad predictiva
de modelos sobre indicadores económicos
Aplicaciones profesionales y comerciales obtenidos con muy alta frecuencia. La idea
Las aplicaciones del Data Science se ex- consiste en complementar la información del
tienden desde los campos científicos hasta las pasado de una serie con las búsquedas pre-
aplicaciones más profesionales o comerciales. sentes en algunas categorías. Por ejemplo, el
En el campo de las Ciencias Sociales y, más Departamento de Trabajo de Estados Unidos
en concreto, en la Economía, existen multi- anuncia cada jueves el número de personas
FUNDACIÓN RAMÓN ARECES / NÚM. 14
tud de ejemplos. El llamado “Billion Prices que han solicitado subsidios por desempleo.
Project” del MIT utiliza millones de precios Añadiendo a un modelo AR(1) de datos his-
1
La econometría es la asignatura que he estado impartiendo los últimos 20 años en la universidad.
2
Se almacenan 5 millones de precios de 300 tiendas en Internet en 70 países del mundo.
94
95
3
Linden et al. (2003). Este algoritmo en lugar de utilizar emparejamientos con clientes similares, empareja los ítems de las
compras de los clientes a otros ítems similares para combinarlos luego en un listado de recomendaciones. En el proceso se
determina el emparejamiento más similar para un determinado ítem utilizando un algoritmo que construye una lista de ítems
similares que el usuario tiende a comprar juntos.
96
Big Data,
Ciencia y Estadística
Desde que los británicos de medida más precisos que nuestros sen-
John Locke (1632-1704) y tidos. Los experimentos científicos han sido
David Hume (1711-1776) el motor del avance en el conocimiento em-
establecieron el empirismo, pírico en el siglo XX, especialmente desde
los datos se han ido convir- que R. A. Fisher, uno de los creadores de la
tiendo en la materia prima de conocimien- Estadística, estableciera en 1935 los princi-
to. Las ciencias experimentales han avanza- pios para diseñarlos.
do aprendiendo de las mediciones recogidas En el siglo XXI se ha producido un cam-
mediante observación y experimentación. bio trascendental en cómo generamos datos.
La observación es un proceso lento, porque La digitalización de la información permite
depende de la información que pueden cap- hacerlo automáticamente, y casi sin coste,
tar nuestros sentidos. La experimentación es mediante sensores que captan información
más eficaz, porque permite: (1) generar si- visual, auditiva y táctil, con una precisión
tuaciones que ocurrirían con poca frecuen- mucho mayor que la del ojo humano, el
cia de manera espontánea y (2) planificar la oído o la piel. Los avances espectaculares
recogida de datos utilizando instrumentos en la velocidad de transmisión de señales, la
97
posibilidad de comunicarse sin cables, me- sobre este concepto. Su método tuvo un éxi-
diante wifi o telefonía móvil, y la integra- to inmediato y sus vídeos docentes han sido
ción de sensores en todos los dispositivos di- utilizados desde entonces por estudiantes de
gitales, están generando masas de datos, los todo el mundo. Una de las claves de su éxito
llamados Big Data, que van a proporcionar fue sustituir escuchar una clase magistral du-
cambios de gran calado en la forma en que rante una hora por sesiones interactivas de
aprendemos, trabajamos, cuidamos nuestra pocos minutos, donde el estudiante invierte
salud, nos comunicamos y disfrutamos de la mayor parte del tiempo de forma activa
nuestro ocio. En el siglo XX la inmensa ma- respondiendo a cuestiones y ejercicios.
yoría de los datos disponibles habían sido El éxito de este enfoque impulsó las pla-
creados por organizaciones, empresas o ins- taformas de aprendizaje gratuito y masivo
tituciones sociales y científicas. Actualmen- (los llamados MOOCs, cursos online ma-
te, la gran mayoría (80%) se crean por la sivos y abiertos), donde los estudiantes al
actividad diaria de las personas. mismo tiempo que aprenden proporcionan
Consideremos, como ejemplo, los cam- información detallada sobre su proceso de
bios que están apareciendo en la educación. aprendizaje: tiempo dedicado a cada con-
La enseñanza online de finales del siglo XX cepto, ejercicios resueltos, partes del vídeo
se basaba en la grabación de clases y se con- revisados para responder un ejercicio, etc.
virtió en una alternativa más barata que la Estos datos permiten entender con gran de-
enseñanza presencial, aunque con las venta- talle cómo aprende cada estudiante.
jas indudables de eliminar las distancias, las El análisis de la información proporciona-
zonas horarias y las clases a horas definidas. da por los millones de usuarios de estos cur-
Sin embargo, no se modificó el proceso de sos va a transformar los métodos docentes.
aprendizaje, que siguió basándose en escu- Una revolución similar se ha producido en
char clases magistrales, ahora grabadas en la enseñanza de los idiomas con la aparición
vídeo. El germen de un cambio pedagógico de Duolingo, creada por otro gran innova-
aparece a principios del siglo XXI, cuando dor, el guatemalteco Luis von Ahn, inventor
en 2004 Salman Khan, un joven ingeniero de los códigos que aparecen en las páginas
del MIT, comenzó a colgar en Youtube ví- web para diferenciar una persona de una
deos cortos donde explicaba matemáticas a máquina. Esta plataforma gratuita es utiliza-
sus primos en New Orleans. Khan tuvo la da por más de siete millones de personas en
intuición genial de grabar lo que vería un EE.UU. para aprender idiomas, comparado
estudiante cuando un profesor sentado a su con el millón y medio que asiste a clases de
lado explica un concepto matemático en una idiomas en el sistema de educación pública.
hoja de papel, en lugar de mostrar el busto El éxito de Duolingo, según su creador, es
parlante habitual de los vídeos docentes pre- aprovechar la ingente cantidad de datos so-
vios. Su objetivo era hacer comprensible en bre el aprendizaje que se recogen a través de
FUNDACIÓN RAMÓN ARECES / NÚM. 14
pocos minutos un concepto, y hacer tam- un dispositivo digital (móvil o tableta prin-
bién al estudiante consciente de su apren- cipalmente) para mejorar continuamente el
dizaje poniéndolo a prueba resolviendo aprendizaje de un idioma concreto por los
ejercicios y respondiendo a preguntas breves nativos de otra lengua. Es conocido que para
98
99
Los servidores actuales se mueven en sarios con bases de millones de datos como
petabytes (PB = 10¹5 bytes) y muy pronto las actuales.
tendremos unidades de almacenamiento en El cálculo en paralelo consiste en eje-
exabytes (EB = 1018 bytes). Por ejemplo, la cutar conjuntos de instrucciones simultá-
100
101
102
103
visar brevemente algunos de los riesgos que da, pero no a todos, que es cancerígeno. Si
pueden aparecer en un análisis no reflexivo no entendemos la cadena causal, que solo
de datos masivos. podemos deducir mediante una bien pla-
nificada experimentación, las correlaciones
Confundir asociación con causalidad y, encontradas pueden ser engañosas, como ex-
por ello, generar malas previsiones plicó hace casi 50 años con gran maestría el
Todo científico bien informado conoce la genial estadístico George Box (1966).
diferencia entre una asociación positiva entre Sin embargo, el olvido de estos principios
dos variables, es decir, que los valores altos estadísticos básicos ha llevado recientemen-
en una se presentan en general con valores te a uno de los fracasos más conocidos en
altos de la otra y viceversa, y la causalidad el análisis de Big Data: las predicciones de
entre ellas, que implica que si una aumenta Google de los contagios de gripe (https://
producirá en la otra también un aumento, en en.wikipedia.org/wiki/Google_Flu_Trends).
promedio. Por ejemplo, el número de ma- Una estimación inicial realizada al detectar
trimonios en un mes y su temperatura están una asociación entre el número de contagios
asociados en España, porque los matrimo- de la gripe y el número de consultas reali-
nios en verano son los más frecuentes, pero zadas en el buscador sobre esta enfermedad,
no existe causalidad: una ola de calor en julio condujo a un gran éxito inicial en la predic-
no hará aumentar el número de matrimo- ción de la gripe, seguida de predicciones de-
nios en ese mes. Sin embargo, con frecuencia sastrosas en los años siguientes. Véase Lazer,
recibimos mensajes de correlaciones entre Kennedy, King and Vespignani (2014) para
variables ligadas a nuestra salud que parten un análisis de las causas de este fracaso. Estos
de una asociación para hacer previsiones que autores concluyen que el análisis automáti-
suponen una relación causal. Por ejemplo, de co de Big Data puede complementar, pero
una correlación observada entre el consumo nunca reemplazar, los métodos estadísticos
intenso de carne procesada y la frecuencia de tradicionales de recoger datos y analizarlos.
cáncer no podemos deducir que comiendo
más (o menos) carne aumente (disminuya) Encontrar relaciones inexistentes entre
nuestro riesgo de cáncer. La asociación en- variables independientes
contrada puede ser debida a que las personas Supongamos que tenemos una base de da-
FUNDACIÓN RAMÓN ARECES / NÚM. 14
con consumo intenso de carne tienen otros tos con 1.000 variables que en realidad son
hábitos de vida que son los responsables del independientes. Para buscar relaciones se cal-
aumento en el riesgo de cáncer, o a un aditi- culan los ([1.000]/2) = 499.500 coeficientes
vo añadido a ciertos tipos de carne procesa- de correlación por parejas y se consideran ver-
104
daderas las correlaciones que son significati- una población más amplia los resultados de
vas al 99%, es decir, que solo una vez de cada analizar mensajes de las redes sociales pero si
mil aparecerán como ciertas cuando no exis- los usuarios de Twitter o Facebook difieren
ten. Entonces, el número esperado de relacio- en aspectos importantes de la población ge-
nes falsas encontradas será 0,001 x 499.500 neral, lo encontrado puede no ser aplicable a
= 499,5 por lo que podemos estar seguros la población española. Las técnicas de mues-
de que, con muchas variables, con seguridad treo y de diseño de experimentos pueden
encontraremos muchas relaciones inexisten- ayudar a investigar si una muestra, grande o
tes. En los últimos años se ha desarrollado la pequeña, tiene sesgos sistemáticos respecto al
teoría de falsos descubrimientos (False Disco- conjunto de la población.
very Rate), para modelar y comprender estas Es importante recordar que si los datos
situaciones. Podemos concluir que cuando no se han obtenido por procedimientos alea-
existen muchas variables y se hacen en con- torios sino por suministro de los usuarios,
secuencia muchas comparaciones hay que ser como en las redes sociales, un tamaño de
extremadamente cauto y riguroso para evitar datos grande no asegura una buena represen-
que concluyamos con muchas falsas relacio- tatividad. Por ejemplo, una correlación en-
nes entre las variables. tre dos variables con 100.000 observaciones
puede ser creada por un solo dato, que puede
Olvidarnos de los sesgos presentes además ser un error de observación. Es im-
y generar malas predicciones portante, por tanto, no olvidar los controles
Si un banco tiene datos abundantes so- estadísticos necesario para generalizar de los
bre los gastos con tarjetas de crédito de una datos a una población.
parte de sus clientes es tentador utilizar esta
información para predecir los gastos futuros Ignorar la heterogénidad puede llevar
de todos. Sin embargo, si los usuarios de las a falsas conclusiones
tarjetas no son representativos del total, las Ilustraremos este importante resultado
conclusiones pueden ser muy equivocadas. primero con variables cualitativas. La Tabla 1
Hay una tendencia creciente a generalizar a muestra los resultados agregados de admi-
105
-0,3. De nuevo, vemos como una relación Hastie, T., Tibshirani, R. and Friedman, J. (2011).
que se manifiesta en un conjunto de grupos The Elements of Statistical Learning: Data Mining,
Inference, and Prediction, 2th edition. Springer
heterogéneos puede cambiar de dirección en
Series in Statistics.
los datos agregados.
106
Big Data significa cosas va- mación que no puede ser procesada o ana-
riopintas para distintas per- lizada utilizando sistemas y herramientas
sonas. Convengamos que informáticas tradicionales. Para el comercio
con el término Big Data nos minorista, Retail en el anglicismo más ex-
referimos a la tendencia en tendido, su rápido desarrollo supondrá la
el avance de la tecnología y en la reducción transformación completa de su industria.
drástica de sus costes, que ha abierto las El comercio minorista es intensivo en el
puertas hacia un nuevo enfoque de com- uso de la información. Su explotación para
prensión de la información y de toma de extraer conocimiento de clientes y mercan-
decisiones mediante el uso intensivo de la cía siempre ha sido un hecho diferenciador.
estadística y de la investigación operativa, Desde los años sesenta del siglo pasado los
que es utilizada para describir enormes can- retailers hemos utilizado modelos de análisis
tidades de datos que llevaría demasiado es- multivariante para segmentar a los clientes,
fuerzo cargar para su análisis en una base de evaluar el riesgo de las operaciones o evitar
datos relacional. De esta manera, el término el fraude, modelos para prever los flujos de
Big Data se aplica para toda aquella infor- tesorería o aquellos encaminados a opti-
107
mizar las operaciones. Ya a finales del siglo explotar analíticamente su Big Data.
pasado la aplicación de redes neuronales y La velocidad que exige la economía glo-
de otras técnicas propias de la inteligencia bal y la rapidez del cambio demográfico y
artificial para resolver problemas cotidianos social que experimentamos, hacen que el
del negocio había dejado de ser exclusiva entorno del Retail sea muy sensible al tiem-
de centros de investigación para difundirse, po. De ello se deriva la necesidad de esta in-
entre otras, a la industria del Retail. dustria de analizar, comprender y predecir
Conforme avanza la digitalización de la tendencias o comportamientos en tiempo
economía, la adopción masiva de tecnología real. Sin duda este hecho diferenciará a unos
por parte del consumidor y las experiencias retailers de otros. Para las tecnologías de la
de compra multicanal se han convertido en información y las comunicaciones (TIC)
norma y han disparado exponencialmente el supone una diferencia sustancial en el so-
volumen de información y la velocidad con porte que venían haciendo de los métodos y
la que ésta se genera. Los datos se han con- modelos estadísticos y de investigación ope-
vertido en un elemento crítico para compe- rativa durante los últimos cincuenta años:
tir. Son como el petróleo, la materia prima hemos pasado de describir, inferir y predecir
de nuestro tiempo imprescindible para sos- resultados sobre conjuntos de datos de ma-
tener el negocio de los retailers, que depende nera diferida a tener la necesidad de hacerlo
ahora de la capacidad de cada uno de éstos instantáneamente.
para gestionar, integrar, analizar y compren- El tiempo se ha convertido en factor crí-
der el gran volumen de información que tico a lo largo de toda la cadena de valor
genera tanto su actividad comercial como del Retail. El análisis de la demanda, la de-
sus clientes y el resto de consumidores en finición de la oferta, la compra de la mer-
el desempeño de su vida privada y profesio- cancía, los planes de surtido, la gestión del
nal. La sostenibilidad del negocio depende, inventario, la logística y la distribución, la
pues, de la capacidad de cada retailer para determinación del precio, el marketing, la
promoción, las ventas, el servicio al cliente,
los pagos, las devoluciones, las finanzas, los
empleados y otras muchas actividades re-
quieren decisiones cada vez más próximas al
tiempo real. Todas ellas deben ser ejecutadas
inmediatamente, buscando la satisfacción
del cliente y la minimización del coste para
incrementar el beneficio.
Según el estudio “Analytics: The real-
world use of Big Data”, del IBM Institute
for Business Value y la Said Business School
de la Universidad de Oxford, el 100% de
FUNDACIÓN RAMÓN ARECES / NÚM. 14
108
109
110
Más que nunca en la historia de las ciencias sociedad pueda reducir su vulnerabilidad a la
en general, y de las Ciencias de la Tierra en variabilidad del clima y el cambio de origen
particular, los investigadores se enfrentan antropogénico, explotando al mismo tiem-
al problema de tratar con rápida dispo- po las oportunidades técnico-científicas que
nibilidad de cantidades ingentes de datos puedan surgir. Este es un ejemplo perfecto
heterogéneos que crecen continuamente a de las famosas tres “Vs” que determinan un
un ritmo que hace de su procesamiento y problema de Big Data: volumen, velocidad
diseminación con métodos convencionales y variedad.
todo un reto. Por ejemplo, Overpeck et al. El volumen principal de los datos climá-
(2011) muestra que mientras que los datos ticos y meteorológicos se crea con modelos
de modelos, satélites u observaciones in situ basados en procesos del sistema terrestre o
a nivel global podrían alcanzar los 50 PB en procede de imágenes satelitales. Las mejoras
2015, la proyección para 2030 es alrededor en los modelos incluyen un número crecien-
de siete veces superior. Los datos proceden te de fenómenos físicos, que crean al mismo
de fuentes muy diferentes y distribuidas, tiempo modelos que requieren ordenadores
comprendiendo desde plataformas satelita- más grandes y complejos, así como un ma-
les hasta sensores de todo tipo, pasando por yor número de variables que analizar y dise-
simulaciones con modelos con capacidades minar. Al mismo tiempo, estos modelos au-
muy distintas o reanálisis del pasado. Estos mentan regularmente su resolución espacial
autores afirman que, por ejemplo, los datos para incorporar mejor en la simulación la
climáticos están creciendo de forma dramá- influencia de fenómenos que ocurren a esca-
tica tanto en volumen como en compleji- las más pequeñas o con frecuencias tempo-
dad, de la misma forma en que sus usuarios rales más altas. Esto implica que incluso si la
aumentan en número y diversidad. Sugieren complejidad de los modelos no aumentara,
un nuevo paradigma de acceso a los datos el volumen de los datos generados aumenta-
meteorológicos y climáticos más rápido y ría con el tiempo, convirtiéndose en un pro-
sencillo para los usuarios, de manera que la blema mayor de lo que es en la actualidad.
111
112
T255/ORCA1
Resolución estándar 60km/100km
26 GB
T511/ORCA025
Alta resolución 40km/25km
120 GB
T1279/ORCA012
Muy alta resolución 25km/12km
1 TB
Tabla 1. Tamaño de las salidas de diferentes configuraciones del modelo global de clima EC-Earth.
Tabla 2. Tamaño de las salidas de diferentes configuraciones del modelo de calidad del aire NMMB/BSC-CTM.
perordenador. En este caso el énfasis se pone a compartir las mismas soluciones hardware
en la extracción de los datos de la simulación y software a pesar de que las necesidades son a
del superordenador lo suficientemente rápido menudo diferentes, lo que implica que hace
pero usando estructuras de datos a la hora de falta llegar a compromisos para poder satis-
almacenarlos que permitan su descubrimien- facer a todos los usuarios, que es necesario
to a posteriori cuando se vaya a realizar su explorar tecnologías y soluciones diferentes
análisis y diseminación. y que hay que implicar perfiles técnicos de
Estos ejemplos sencillos ilustran algunos amplio espectro. Este último aspecto ilustra
de los retos relacionados con el Big Data la dificultad para atraer y retener suficien-
en una pequeña parte de las Ciencias de la tes recursos humanos con la experiencia
Tierra, una parte en la que las predicciones apropiada, aunque una descripción de este
climáticas y de la calidad del aire tienen que problema está más allá del objetivo de esta
abordar múltiples problemas con prioridades contribución.
distintas en una misma plataforma de com- Las predicciones de la calidad del aire pue-
putación. Los conjuntos de datos meteoroló- den usarse para ilustrar otros retos con los
gicos, climáticos y de calidad del aire tienden que se enfrentan la comunidad de meteoro-
113
Uno de estos sistemas es CALIOPE (http:// centro regional que proporciona de manera
www.bsc.es/caliope), el cual proporciona rutinaria predicciones de polvo mineral at-
predicciones de calidad del aire para Euro- mosférico para el norte de África, Oriente
pa y, a mayor resolución, España (Figura 1). Medio y Europa (Figura 3). El sistema uti-
114
liza las predicciones del modelo NMMB/ Barcelona Dust Forecast Center - http://dust.aemet.es/
NMMB/BSC-Dust Res: 0.10x0.10 Dust Surface Conc. (μg/m3)
BSC-Dust que se desarrolla y ejecuta con una Run: 12h 11 NOV 2015 Valid: 06h 12 NOV 2015 (H+18)
resolución de 0.1º x 0.1º (aproximadamente
10 km) en el BSC-CNS y proporciona pre-
dicciones cada tres horas con un horizonte
temporal de 72 horas para seis variables di-
ferentes.
Debido al gran alcance regional de las pre-
dicciones del BDFC, los gestores del sistema
necesitan obtener información sobre su uso
para asegurar su utilidad. Google Analytics
ofrece una solución preliminar a este pro-
blema (Figura 4). Sin embargo, este servicio Fig. 3. Predicción de la concentración de polvo en superficie
ofrece información limitada ya que no está realizada por el Barcelona Dust Forecast Center para el 11 de
noviembre de 2015.
construido específicamente para este proble-
ma. Se necesitan otras soluciones que permi-
tan captar una información cualitativa de los nuevos conceptos asociados pueden sin nin-
usuarios que pueda ser analizada por científi- gún tipo de duda ofrecer el apoyo necesario
cos sociales para mejorar la utilidad del servi- para un servicio más eficaz.
cio de acuerdo a las necesidades de un gran Uno de los problemas más complejos para
número de países con culturas diferentes. la aplicación de las soluciones de Big Data en
Los dos sistemas de predicción de calidad el campo de la meteorología, la climatología
del aire operativos descritos, CALIOPE and y la calidad del aire lo ilustra el Coupled Mo-
BDFC, ilustran el rango de los retos asocia- del Intercomparison Project (CMIP; Meeh et
dos con la credibilidad y el alto nivel de ser- al., 2014). El objetivo de CMIP es el desa-
vicio que se espera de este tipo de sistemas. rrollo del mejor sistema de información so-
Las tecnologías de Big Data existentes y los bre el cambio climático para el pasado y el
115
116
Número de
1 2 12 110
experimentos3
Centros participantes 16 18 15 24
Número de modelos 19 24 21 45
diferentes
Núm. de simulaciones
(modelos x expts) 19 4 211 841
Tabla 3. Algunas características de las simulaciones realizadas en las distintas fases del Coupled Model Intercomparison Project (CMIP).
Las estimaciones de CMIP6 aún no están disponibles, pero se espera que sean un orden de magnitud superior a las de CMIP5.
dirigidas por los usuarios, así como visualiza- tadística y la computación y está muy adapta-
ción avanzada, de manera que ellos mismos da a la definición y el uso de estándares. Estas
puedan extraer un mensaje útil de los datos. características únicas hacen de ella un objeti-
En el fondo, la extracción de un mensa- vo interesante a la hora de probar algunos de
je significativo y orientado a la acción de la los desarrollos recientes que se realizan sobre
masa de datos heterogéneos que tenemos y Big Data en otras comunidades (Bourne et
seguimos produciendo es el interés principal al., 2015).
del paradigma del Big Data. La meteorología,
climatología y calidad del aire ofrece retos
específicos como la naturaleza operativa de Bibliografía
muchas de sus actividades, que implica reu- Bourne, P.E, J.R. Lorsch y E.D. Green (2015).
nir y compartir información con calendarios Sustaining the big-data ecosystem. Nature, 527,
muy estrictos, o la necesidad de extraer in- S16-S17, doi: 10.1038/527S16a.
formación de conjuntos de datos inmensos Meehl, G. A., R. Moss, K. E. Taylor, V. Eyring, R.
J. Stouffer, S. Bony y B. Stevens (2014). Climate
por parte de usuarios que seguramente no Model Intercomparison: Preparing for the next
son conscientes de las limitaciones de esos phase. Eos, Trans. AGU, 95, 77.
datos. En un contexto revolucionario como Overpeck, J.T., G.A. Meehl, S. Bony y D.R.
el que vivimos es importante tener en cuenta Easterling (2011). Climate data challenges in the
que esta comunidad tiene la particularidad de 21st Century. Science, 331, 700-702, oi:10.1126/
science.1197869.
estar muy estructurada alrededor del mundo,
tener una larga experiencia en el uso de la es-
3
Se entiende por experimento el estudio de un proceso físico, escala temporal o técnica numérica. Un experimento puede
incluir varios modelos y simulaciones.
117
118
119
Evaluación de Patrones
y Presentación
de Conocimiento
Minería de Datos
Selección y
Transformación
de Datos
Limpieza e OLAP-Mining
Integración de
Datos
BD Ficheros
Repositorio de Datos
A partir de los datos climatológicos se ge- do debe ser introducido gradualmente con
neran grids mensuales de precipitación, tem- mínimos cambios.
peratura y SPI a diferentes escalas (García- Es de vital importancia la correcta y óp-
Haro et al. 2008). Se utilizan entre 2.000 y tima parametrización de la base de datos. La
120
Herramientas
de Análisis
Servidor Almacén
Almacén Datos de Datos
Fuentes de Datos
Fig. 2. Arquitectura de 3-niveles del almacén de datos. (3-tier architecture in a data warehouse.)
Cuantificación Meteorológica/Climatológica
SEQUÍA Monitorización
Base de Datos
TOMA DE Índices climatológicos
DECISIONES Climatología sinóptica
Teledetección
Data Mining Diferentes escalas
temporales y espaciales
Modelos numéricos
(Humedad del suelo,
temperatura, radiación...)
técnica será mucho más eficiente si los datos a la circulación general de la atmósfera, así
son de una alta fiabilidad y de una máxi- como incorporar reanálisis del ECMWF.
ma precisión. Este modelo de datos mul- De esta forma podremos encontrar, por
tidimensional nos permitirá de una forma ejemplo, períodos de sequía precedidos por
eficiente y sencilla introducir parámetros determinados valores del SOI, MEI, PNA,
oceánicos, más estacionarios, que afecten NAO.
121
techniques”, 8th Annual Meetings of the EMS/7th WMO. (1975): “Drought and Agriculture”.
ECAC. Abstracts. A-00319. Technical Note. Nº 138. WMO – Nº 392.
García-Haro, F. J., Belda, F., Gilabert Navarro, Young, K.C. (1992): “A three-Way Model for
M.A, Meliá, J., Moreno, A., Poquet, D., Pérez- Interpolating for Monthly Precipitation Values”.
Hoyos, A., Segarra, S. (2008b), “Monitoring Monthly Weather Review, 120, 2561-2569.
122
Compartimos el Conocimiento
Más
Má
M ás de
ás de 22.
2.000000
0
00 00 co
00 conf
c
conferencias
onf
onfe
on
o nfe
n
nfffer
fe
erre
erenc
ere
e renc
enc
en
e nc ciia
cia
c ias
ias
as ma
magist
magis
m
magistrales
agist
agis
a
aggist
gi
gis
g isst
isstrales
str
trrale
trales
ttra
ral
ra
ales
ale
a les
les
es dede e expert
exp
expertos
xpe
xp
xpe
pertos
p
per
ertos
erto
er rtos
rt
tto
os e
os en
nSSalud
Sa
Sal
Salu
alud
al
alu
lud,
ud,
ud
IInnovación,
In
nnovación,
n
nn nov
n
no
ova
ovac
o
ov vac
v
vaac
ción
c
ci
ció
iión,
ón,
ó
ón n, Nu
n, Nue
Nueva
Nuev
N
Nuevas
uev
ueva
ue
uev
eva
vas
v
va as Te
as Tec
T
Tecnologías,
ecn
ec cnolo
cno
c nolo
noolo
olo
ol
llog
ogía
ogías,
o
og
gías,
gí
gías
gía
g íía
as,
as,
as s, N Nano
Nanoc
Nan
Na
Nanociencias
Nanociencias,
an
ano
nocie
n
no
noc
ocienc
oci
oc
ocie
ciencia
ien
encias,
e
enc
ncias,
ncia
ncias
cia
iias
ias,
as,
a s, A
s, Astronomí
As
Astro
Astr
Ast
Astron
Astronomía
stron
ttron
tronomía,
ro
onomía
onom
no
nom
omía,
mía ía
a,,
Biotecnología,
Bi
B
Bio
iio
ottte
o tecn
ecno
ecn
ec
cno
cnnolo
noologí
ol
olog
o llo
logí
ogía
o
oggía
gí
g íía
a, Ciencias
a, Cien
Cienc
Ci
C
Cieieenci
encias
en
enc
ncias
nc
ncicias
ci
cia
iias
ia
ass del
dell Mar,
de Mar
Mar,
Ma arrr,, Energía,
Energía
Energ
En
E
Ene
ner
ergía,
erg
rgía,
rgí
gía,
gíía,
ía
a,, Cambio
C
Cam
Ca
Camb
ambio
ambmbio
bio
bi o Climáti
Climático
Climático,
Climátic
Cli
Cl
Clim
C
Climámático
mátic
máti
áti
ático,
ático
i o,
Big
B
Biig
ig Data
Data,
Dat
D
Da
ata,
at
ata
atatta,
a, Ec
a, Eco
Econ
E
Economía,
Economía
cono
conomí
co
onom
on nom
no
omía
om mía,
mí
m
míaía
ía,
a,, Eco
Econ
Econo
E
Ec
Economí
Economía
co
con
onom
on
ononomí
no
nom
omía
ommíía de
m
mía de lala Edu
Educació
E
Ed
Educa
Educación,
Educación
duca
duca
ucación
cación,
c
caci
cac ción,
ci
ción
ón
ón,n, Cam
C
Cambio
Cambi
ambio
ambi
mbio
mbioio
Demográfi
Demográfico
D
Deemo
em
e
emográfico,
mog
mogr
mográfico
m
mo ográ
o
oggráfi
grá
gr
g ráfi
rá
áfifico,
ficc
co o, Bioeconomía,
o, Bioe
Bi
B
Bio
Bioeconomía
ioeco
ioe
iooecon
oec
oeecono
eco
ec conom
con
co
onom
ono
on nomía
nom
no
omía,
ommía,
m
mía ía,
a, Historia
Hi
Hist
H
His
Histo
storia
sto
tori
oria
oriria
ia
a Económica…
Económic
Ec
Econ
Eco
Económ
E
Económica
Económi
con
onómica…
onó
nómómica…
ómic
ómimica
mica…
ica
a
a…
y síguenos en
Comp
Com
Compartimos
C
Co
om
ompa
mpar
mpa
mp
parti
artim
artimos
a
art
arrtim
timos
tim
imo
mo
mos
oss el
el co
conoci
con
cono
c
conocimient
conocimiento
conocimien
onocimi
onoc
ono
nocimien
noci
ocim
cimiento
cimi
cim
imie
miento
mient
mien
ient
ento
nto
o
R E V I S TA D E C I E N C I A S Y H U M A N I DA D E S D E L A F U N DAC I Ó N R A M Ó N A R E C E S
BIG DATA
Impulsando el conocimiento Núm. 14