Big Data

Diciembre 2015
Vitruvio, 5
28006 Madrid
España REVISTA DE CIENCIAS
www.fundacionareces.es Y HUMANIDADES
www.fundacionareces.tv
R E V I S TA D E C I E N C I A S Y H U M A N I DA D E S D E L A F U N DAC I Ó N R A M Ó N A R E C E S
BIG DATA
Impulsando el conocimiento Núm. 14
AF_Cubiertas_BigData.indd 1 04/12/15 16:11

fundacionareces
fu
ffundacionareces.tv
un
un
ndacionareces
ndacionareces.tv
ndda
d ac
a ciio
ci on
o nareces
nareces.tv
na
n arre
a rec
ece
ces
es
s.t
s...tv
.t
tv
tv
Compartimos el Conocimiento
Más
Má
M ás de
ás de 22.
2.000000
0
00 00 co
00 conf
c
conferencias
onf
onfe
on
o nfe
n
nfffer
fe
erre
erenc
ere
e renc
enc
en
e nc ciia
cia
c ias
ias
as ma
magist
magis
m
magistrales
agist
agis
a
aggist
gi
gis
g isst
isstrales
str
trrale
trales
ttra
ral
ra
ales
ale
a les
les
es dede e expert
exp
expertos
xpe
xp
xpe
pertos
p
per
ertos
erto
er rtos
rt
tto
os e
os en
nSSalud
Sa
Sal
Salu
alud
al
alu
lud,
ud,
ud
IInnovación,
In
nnovación,
n
nn nov
n
no
ova
ovac
o
ov vac
v
vaac
ción
c
ci
ció
iión,
ón,
ó
ón n, Nu
n, Nue
Nueva
Nuev
N
Nuevas
uev
ueva
ue
uev
eva
vas
v
va as Te
as Tec
T
Tecnologías,
ecn
ec cnolo
cno
c nolo
noolo
olo
ol
llog
ogía
ogías,
o
og
gías,
gí
gías
gía
g íía
as,
as,
as s, N Nano
Nanoc
Nan
Na
Nanociencias
Nanociencias,
an
ano
nocie
n
no
noc
ocienc
oci
oc
ocie
ciencia
ien
encias,
e
enc
ncias,
ncia
ncias
cia
iias
ias,
as,
a s, A
s, Astronomí
As
Astro
Astr
Ast
Astron
Astronomía
stron
ttron
tronomía,
ro
onomía
onom
no
nom
omía,
mía ía
a,,
Biotecnología,
Bi
B
Bio
iio
ottte
o tecn
ecno
ecn
ec
cno
cnnolo
noologí
ol
olog
o llo
logí
ogía
o
oggía
gí
g íía
a, Ciencias
a, Cien
Cienc
Ci
C
Cieieenci
encias
en
enc
ncias
nc
ncicias
ci
cia
iias
ia
ass del
dell Mar,
de Mar
Mar,
Ma arrr,, Energía,
Energía
Energ
En
E
Ene
ner
ergía,
erg
rgía,
rgí
gía,
gíía,
ía
a,, Cambio
C
Cam
Ca
Camb
ambio
ambmbio
bio
bi o Climáti
Climático
Climático,
Climátic
Cli
Cl
Clim
C
Climámático
mátic
máti
áti
ático,
ático
i o,
Big
B
Biig
ig Data
Data,
Dat
D
Da
ata,
at
ata
atatta,
a, Ec
a, Eco
Econ
E
Economía,
Economía
cono
conomí
co
onom
on nom
no
omía
om mía,
mí
m
míaía
ía,
a,, Eco
Econ
Econo
E
Ec
Economí
Economía
co
con
onom
on
ononomí
no
nom
omía
ommíía de
m
mía de lala Edu
Educació
E
Ed
Educa
Educación,
Educación
duca
duca
ucación
cación,
c
caci
cac ción,
ci
ción
ón
ón,n, Cam
C
Cambio
Cambi
ambio
ambi
mbio
mbioio
Demográfi
Demográfico
D
Deemo
em
e
emográfico,
mog
mogr
mográfico
m
mo ográ
o
oggráfi
grá
gr
g ráfi
rá
áfifico,
ficc
co o, Bioeconomía,
o, Bioe
Bi
B
Bio
Bioeconomía
ioeco
ioe
iooecon
oec
oeecono
eco
ec conom
con
co
onom
ono
on nomía
nom
no
omía,
ommía,
m
mía ía,
a, Historia
Hi
Hist
H
His
Histo
storia
sto
tori
oria
oriria
ia
a Económica…
Económic
Ec
Econ
Eco
Económ
E
Económica
Económi
con
onómica…
onó
nómómica…
ómic
ómimica
mica…
ica
a
a…
Visítanos en fundacionareces.es o en fundacionareces.tv
y síguenos en
Comp
Com
Compartimos
C
Co
om
ompa
mpar
mpa
mp
parti
artim
artimos
a
art
arrtim
timos
tim
imo
mo
mos
oss el
el co
conoci
con
cono
c
conocimient
conocimiento
conocimien
onocimi
onoc
ono
nocimien
noci
ocim
cimiento
cimi
cim
imie
miento
mient
mien
ient
ento
nto
o

REVISTA DE CIENCIAS Y HUMANIDADES DE LA FUNDACIÓN RAMÓN ARECES E S P E C I A L B I G D ATA
ÍNDICE
4 EL FENÓMENO BIG DATA EN LA FUNDACIÓN RAMÓN ARECES,

por Raimundo Pérez-Hernández y Torra
DICIEMBRE ‘15
6 INTRODUCCIÓN
Edita Big Data, la nueva ciencia del siglo XXI,
Fundación Ramón Areces por Julio Cerezo Gilarranz
Director
Raimundo Pérez-Hernández y Torra
12 LA NUBE, EL BIG DATA Y LA CIENCIA
Consejo Asesor Cloud Computing y Big Data, la próxima frontera de la innovación,
Federico Mayor Zaragoza, Jaime Terceiro
Lomba, Julio R. Villanueva, Juan Velarde por Jordi Torres
Fuertes, Avelino Corma Canós, Alfonso
Novales Cinca, Juan González-Palomino Un universo de datos. El fenómeno Big Data y la Ciencia,
Jiménez
por Joaquín Salvachúa
Director
Manuel Azcona
44 BIG DATA: DE LA INVESTIGACIÓN CIENTÍFICA A LA GESTIÓN EMPRESARIAL
Servicio de Publicaciones El estado del arte del Big Data & Data Science. La revolución
Consuelo Moreno Hervás
de los datos, por Mateo Valero
Diseño y maquetación
Omnívoros. Brand Design & Business
Communication
Datos y empresa: el auge de las máquinas, por Carsten Sørensen
Administración y redacción
Big Data, economía y organizaciones, por Daniel Villatoro
Calle Vitruvio, 5. 28006 Madrid.
Teléfono: 91 515 89 80. Fax: 91 564 52 43
Big Data y análisis predictivo, por Esteban Moro
Coordinador del Especial Big Data
Julio Cerezo Gilarranz 72 EL IMPACTO DEL BIG DATA EN LA EMPRESA
Web
Big Data y la toma de decisiones en la empresa, por José Luis Flórez
www.fundacionareces.es
Los datos, la nueva materia prima del marketing, por Óscar Méndez
Web TV
www.fundacionareces.tv Ética y privacidad de los datos, por Ricard Martínez
Blog Ágora Data Science: el futuro ha comenzado, por José García Montalvo
www.agorafundacionareces.es
Big Data, Ciencia y Estadística, por Daniel Peña
Ilustraciones
Roberto Díez (Portada) y Carlos Pan Big Data en el Retail: Ciencia y tecnología al servicio del
Fotomecánica consumidor, por Juan Andrés Pro Dios
Gamacolor S.G.I.
Impresión
V.A. Impresores
110 BIG DATA Y CAMBIO CLIMÁTICO
Big Data para el estudio del cambio climático y la calidad del aire,
Queda prohibida la reproducción total
o parcial de las informaciones de esta por Francisco J. Doblas-Reyes, Francesco Benincasa y Pierre-Antoine
publicación, cualquiera que sea el medio de Bretonnière
reproducción a utilizar, sin autorización previa
o expresa de Fundación Ramón Areces.
La Revista no se hace, necesariamente, Big Data y servicios climáticos: un caso de estudio, por Fernando
responsable de las opiniones de sus
colaboradores. Belda
Depósito Legal: M-51664-2009
© 2015 Fundación Ramón Areces
Síguenos en
Conferencia disponible en fundacionareces.tv
AF_Especial_Num14.indd 3 07/12/15 16:25

FUNDACIÓN RAMÓN ARECES / NÚM. 14

EL FENÓMENO BIG DATA
EN LA FUNDACIÓN RAMÓN ARECES
Raimundo Pérez-Hernández y Torra

Director de la Fundación Ramón Areces
La Fundación Ramón Areces, siempre atenta a los desarrollos de vanguardia, ha hecho

de la Ciencia de los Datos (Data Science o Big Data) uno de los campos científicos
prioritarios en su labor de mecenazgo, promoción y difusión del conocimiento en las
Ciencias Sociales. Dentro de esta línea de actuaciones, que comenzaron a principios de
2013 con la primera jornada dedicada al impacto de la Nube y el Big Data en la Ciencia,
se encuadran los dos seminarios programados para 2016 en Madrid y Barcelona.
La creciente utilización de bases de datos cada vez más grandes y heterogéneas hace
del estudio de las técnicas aplicadas al Big Data una de las disciplinas más innovadoras y
atractivas de los desarrollos científicos recientes así como de su aplicación empresarial.
Durante los últimos siglos la Ciencia, que fue eminentemente empírica con an-
terioridad, comenzó a adentrarse en la modelización y la formulación matemática en
búsqueda de la generalización. En las últimas décadas los datos han vuelto a tomar la
iniciativa en forma de Ciencia computacional relacionada con la simulación de procesos
complejos y la utilización de datos masivos para la predicción de acontecimientos
difíciles de prever. Los datos masivos que recogemos automáticamente por sensores
digitales están transformando nuestra sociedad permitiendo mejores decisiones in-
dividuales y colectivas.
Este número monográfico de nuestra revista incluye artículos y presentaciones

relacionadas con las Jornadas que la Fundación Ramón Areces ha dedicado a analizar
las posibilidades y limitaciones del Cloud Computing y del Big Data, su impacto y
contribución tanto en los procesos de investigación científica como en la gestión
económica y empresarial así como en el estudio del cambio climático.
El conjunto de los textos aquí recogidos, del que son autores relevantes expertos en
la materia, aportarán, sin duda, luz y mayor comprensión sobre el BIG DATA y todas sus
aplicaciones. A todos ellos deseo expresarles mi mayor agradecimiento.


BIG DATA,
LA NUEVA CIENCIA DEL SIGLO XXI
Por Julio Cerezo Gilarranz

Coordinador de las Jornadas sobre Nube y Big Data
celebradas en la Fundación Ramón Areces
La Computación Cloud (la Nube) y el Big Data son dos de los princi-
pales campos de innovación actuales asociados a las tecnologías de la
Información y Comunicación (TIC). Su irrupción ha implicado la apari-
ción de nuevos desarrollos tecnológicos que están transformando pro-
fundamente nuestro entorno económico, empresarial, social y, por supuesto, también el
científico. A pesar de su corta edad –-la primera mención al Big Data en un documento
científico no llega a los 20 años (1)–, su conocimiento se ha popularizado en muy poco
tiempo y, dado su carácter transversal, la Nube y el Big Data se han hecho omnipresen-
tes en muy diversos campos de la actividad humana. De las redes sociales a las ciudades
inteligentes, de los nuevos servicios de ocio en la Nube al periodismo de datos, de la
creación de contenidos a la monitorización del cambio climático.
Y, por supuesto, también han impactado notablemente en el mundo de la Ciencia, no

solo porque hayan sido científicos –ingenieros, matemáticos, físicos–, trabajando mayori-
tariamente en universidades y centros de investigación, quienes han definido y caracte-
rizado estos nuevos sistemas y quienes están haciendo posible la evolución de las nuevas
herramientas tecnológicas. La Ciencia también ha encontrado en las funcionalidades y
posibilidades que ofrecen la Nube y el Big Data unos nuevos aliados para mejorar la
efectividad de sus propios sistemas y medios de investigación. Y, además, han permitido
ampliar las fronteras mismas de la Ciencia, situando a su alcance retos o fenómenos ina-
barcables o inaccesibles hasta ahora.
LA CIENCIA DE LOS DATOS

Una contribución de tal envergadura hasta el punto de transformar también la propia
esencia de la investigación científica.
La Ciencia en sus inicios fue empírica, vinculada a la experiencia, y se centraba en

describir los fenómenos naturales. Hace unos 400 años la Ciencia se abrió a la aproxima-
ción teórica: la formulación de teorías. Se generalizó el uso de modelos y fórmulas. Hace

unas décadas apareció la computación –Ciencia computacional– que permitió abordar la
simulación de fenómenos complejos. Actualmente, la aparición de los datos masivos ha
llevado a algunos autores a hablar de “la muerte del método científico” (2). Aunque esta
afirmación resulte exagerada, lo cierto es que “la Ciencia actual está enfocada hacia la
exploración del Big Data, que representa la unificación de la teoría, la experimentación
y la simulación”, como señalaba hace más de 10 años el matemático y científico en com-
putación ya desparecido Jim Gray, quien habló por primera vez de la Ciencia de los Datos
como el “cuarto paradigma” científico.
BIG DATA Y CLOUD, AL SERVICIO DE LA CIENCIA

En múltiples disciplinas –de la Astrofísica a la Medicina; de la Economía a la Biolo-
gía– y en innumerables proyectos, los equipos de investigadores pueden acceder ahora
a instrumentos y herramientas que hasta hace muy poco tiempo –por su tamaño, coste
o accesibilidad física– no estaban a su alcance, del mismo modo que tampoco lo estaban,
en muchos casos, los objetivos mismos de sus proyectos de estudio.
El Big Data y la computación en la Nube no solamente ayudan a mejorar y optimizar

los resultados de los trabajos académicos sino que hoy día hacen posible el objeto mismo
de muchas nuevas investigaciones.
Analizar esta nueva realidad presente en el campo de la Ciencia fue el objetivo de la

primera jornada organizada por la Fundación Ramón Areces en la primavera de 2013; la

primera vez en España que expertos de diferentes disciplinas científicas: astrónomos,
físicos, médicos, biólogos, compartían sus experiencias y reflexiones en torno a la con-
tribución e influencia de la Nube y el Big Data en sus propios campos de investigación

científica. Y también para hablar de los problemas y dificultades a resolver, no hay que
olvidar que se trata de sistemas experimentales, en desarrollo, que tienen que hacer
frente a enormes desafíos tecnológicos. De hecho, alguna definición del fenómeno Big
Data que hace referencia precisamente a esta característica de desafío, lo caracteriza
como “conjuntos de datos tan grandes que desafían el uso de herramientas de análisis de
datos y elaboración tradicionales”.
El volumen de los datos generados –junto a la velocidad, la variedad de su naturale-

za y la veracidad– es una de las señas de identidad del fenómeno Big Data, señas que
también identifican los principales retos y problemas que ha de afrontar en su desarrollo.
Desde la llegada de Internet, los científicos de computación han trabajado para aumen-
tar considerablemente el poder de procesamiento de las máquinas. “Durante las tres
últimas décadas, cada diez años la velocidad de procesamiento de los ordenadores se ha
multiplicado por mil. En 30 años, se ha multiplicado por mil millones. Esto ha supuesto
que el supercomputador más rápido del mundo hace 12 años quepa hoy día en un chip”
recuerda Mateo Valero, director del Barcelona Supercomputing Center (BSC), uno de
los centros de computación más prestigiosos del mundo y pionero en las investigaciones
de Big Data.
Junto a otros factores, a lo que se enfrenta hoy la Ciencia es a las consecuencias de
ese aumento exponencial de los órdenes de magnitud.
Para entender de lo que estamos hablando, un ejemplo: el acelerador de partículas

LHC (Large Hadron Collider) genera 1 PetaByte (1 millón de GigaByte) de datos por
segundo. Esta gigantesca cantidad de datos producidos en un solo segundo es similar al
volumen de información que ocupan 10.000 millones de fotografías o 13 años de televi-

sión de alta definición. Además, el Colisionador de Hadrones, que forma parte del Centro
de Datos del CERN (Organización Europea para la Investigación Nuclear), comparte la
información con 170 centros colaboradores de 36 países en todo el mundo que están co-
nectados con el CERN. Esta red de centros pone en funcionamiento centenares de miles
de ordenadores que proporcionan los recursos necesarios para almacenar, distribuir y
procesar toda la información generada. El poder combinado de esta red en un solo día es
el equivalente al trabajo continuado de un ordenador durante más de 600 años.
El acceso a las infraestructuras y servicios de computación y la gestión de datos se

han convertido, por tanto, en elementos fundamentales para la investigación científica,
especialmente para aquellas disciplinas donde estas facultades son más necesarias y re-
levantes, como por ejemplo la Astronomía, la Genética, la Ciencia del clima o la Biología
molecular. Y son necesarias iniciativas institucionales y colectivas que respondan a esta
nueva necesidad y hagan accesible estos nuevos medios a la comunidad científica. En
España, la denominada “e-investigación” se articula a través de la Red Española de
e-Ciencia, creada en 2007 y que ha llegado a movilizar 101 grupos de investigación de 76
instituciones diferentes y más de 1.000 investigadores españoles suscritos (3).
DE LA CIENCIA A LA SOCIEDAD
Pero la Ciencia de los Datos representa también una nueva realidad para la sociedad
en su conjunto, en distintos ámbitos y disciplinas. Y un área donde el impacto está siendo
especialmente significativo es el mundo económico y empresarial.
Como hemos visto, las tecnologías Big Data no solo ayudan a recopilar grandes can-
tidades de datos, sino que además permiten su almacenamiento, organización y recu-
peración para aprovechar todo su valor. Y con el objetivo puesto en que su uso permita
optimizar la toma de decisiones.
El Big Data es al mismo tiempo un reto y una oportunidad tanto para las empresas
como para las Administraciones públicas; las primeras, para mejorar su competitividad
y adaptarse al nuevo escenario de la economía global y digital, en el que nuevos agentes
están revolucionando las diferentes industrias con nuevos modelos de negocio y pro-
puestas de valor; las Administraciones, para mejorar la calidad de los servicios públicos
y ahorrar costes. Según el informe “Open Data in Europe”, realizado por la Fundación
DemosEuropa, el Big Data generará 4,4 millones de empleos en todo el mundo en los
próximos cinco años. El comercio, la industria, la salud, la información, las comunicacio-
nes, la banca, los seguros y la Administración pública son los sectores donde el aumento
de la inversión será más relevante.
En las empresas, el Big Data está generando la aparición de un gran número de apli-
caciones en diferentes ámbitos de la gestión, como la minería de datos de redes sociales
10

para explotación en el área del Marke-
ting, la inteligencia y procesos de nego-
cio, el comercio electrónico o la detección
del fraude.
Internet, las redes sociales y la movili-

dad son los factores que explican la eclo-
sión de los datos masivos en la sociedad
de inicios del siglo XXI, con 5.000 millones
de dispositivos de todo tipo conectados
a Internet. Una cifra que en 2020 habrá
alcanzado los 25.000 millones, debido al
impacto de la Internet de las cosas y las
ciudades inteligentes (4).
“El 90 por ciento de toda la informa-

ción disponible actualmente se ha creado
en los últimos dos años y el 80 por ciento
es información no estructurada, proce-
dente de vídeos, imágenes digitales, co-
rreos electrónicos, comentarios en las redes sociales y otros textos”, señalaba un informe
de IBM de 2013, que pone de relevancia otra de las características fundamentales del Big
Data: la variedad de la naturaleza de los datos.
No resulta exagerado afirmar, por tanto, que el Big Data está cambiando nuestro
mundo.
NOTAS
(1) Michael Cox y David Ellsworth, científicos del Centro de Investigación Ames de la NASA,
publican un artículo en el que, por primera vez, se hace referencia al problema del Big
Data: “Visualization provides an interesting challenge for computer systems: data sets
are generally quite large, taxing the capacities of main memory, local disk, and even
remote disk. We call this the problem of Big Data.”
(2) Chris Anderson. “The End of Theory: The Data Deluge Makes the Scientific Method
Obsolete”. Revista Wired. Julio 2008.
(3) Ignacio Blanquer. “Un balance de la e-Investigación en España”. Conferencia dentro de la
Jornada “El impacto de la Nube y el Big Data en la Ciencia”. Fundación Ramón Areces.
Marzo 2013.
(4) Gartner Symposium/ITxpo 2014 Barcelona.
11

LA NUBE
EL BIG DATA
Y LA CIENCIA
12

LA NUBE,
EL BIG DATA Y LA CIENCIA
INTRODUCCIÓN GENERAL
L
a Fundación Ramón Areces dedicó en marzo de 2013 una jornada a analizar el
impacto de la Nube y el Big Data y sus beneficios para el mundo de la Ciencia
y de la investigación científica. Por primera vez en España, una jornada reunió
a científicos españoles y europeos para explicar y analizar los fundamentos de estas dos
disciplinas y cómo pueden contribuir a la innovación y al impulso de la investigación
científica. Para la Ciencia, los servicios de computación en la “Nube” y el Big Data –fe-
nómeno asociado a la gestión de gigantescos volúmenes de datos, cuyo tratamiento no
puede realizarse con las herramientas y analíticas convencionales– representan una opor-
tunidad de impulso a la investigación, principalmente a través del acceso a plataformas
de computación y de análisis de datos hasta ahora vedadas a pequeños grupos o proyectos
de investigación.
La jornada se estructuró en dos sesiones. Supercomputing Center) presentó e intro-

La de la mañana, dirigida a explicar en produjo el fenómeno de la Computación en
fundidad la naturaleza y características prin- la Nube. Para el profesor, del mismo modo
cipales de ambos fenómenos, mientras que que hace siglos se produjo un gran avance
la sesión de la tarde se orientaba a presentar de la Ciencia cuando la teoría matemática
algunos de los proyectos de investigación permitió formalizar la experimentación, la
más relevantes en diversas disciplinas –Me- aparición de los computadores representó
dicina, Astronomía, Física o Biología– en otro paso fundamental para el avance de la
las que la Nube y el Big Data juegan un ciencia, gracias a lo cual hoy en día dispo-
papel relevante para la consecución de los nemos de potentes supercomputadores que
objetivos científicos definidos. por medio de simulaciones nos permiten
En la primera intervención, titulada crear escenarios caros, peligrosos o incluso
Cloud Computing y Big Data, la próxima imposibles de reproducir en la vida real.
frontera de la innovación, el profesor Jordi La supercomputación ha representado
Torres (UPC Barcelona Tech. Barcelona un destacado avance para la ciencia y el pro-
13

El profesor Blanquer asegura que España se encuentra
excelentemente posicionada en la e-Ciencia a nivel internacional tanto
en infraestructuras como en aplicaciones
greso. Y aunque hasta ahora, debido a los como el “MareNostrum” del Barcelona Su-
costes de crear y mantener las grandes in- percomputing Center, con una capacidad
fraestructuras de este tipo, la potencia de la de 48.000 cores –es decir que cuenta con
supercomputación no ha estado al alcance la misma capacidad de computación que
de todo el mundo, reduciéndose a un con- 48.000 ordenadores personales–, así como
junto limitado de grupos de investigación, las dificultades de gestión de estas potentísi-
la llegada de lo que se conoce como Cloud mas instalaciones.
Computing ya está permitiendo que muchos Un centro de computación es una insta-
otros ámbitos de la Ciencia que hasta aho- lación destinada a la producción de infor-
ra no podían beneficiarse de esta tecnolo- mación, que alberga miles de máquinas en
gía puedan hacerlo. Pero el hecho de que un recinto de enormes dimensiones y de las
los datos disponibles para poder realizar los que existen varias docenas en todo el mun-
cálculos han adquirido dimensiones de gran do. Uno de los ejemplos es el Data center
magnitud –lo que se conoce por Big Data–, de Facebook (que ocupa una superficie de
los sistemas de computación actuales pre- 28.000 m2, similar a 4 campos de fútbol)
sentan nuevos retos que la propia Ciencia y que consume 40 megawattios de energía
informática ha empezado a abordar. al año.
La presentación repasó las características La idea en la que se basa el Cloud
y funcionalidades de estas nuevas herra- Computing es la de eliminar los recursos
mientas que son los supercomputadores, propios y contar con una conexión que fa-
14

Cloud Computing: IT as a service
On-demand self-service Pay per use
Rapid elasticity Ubiquitous access
Fig. 1 / Source: http://www.telegrapgh.co.uk/technology/reviews/9241719/Power-Ethernet-Sockets-review.html.
cilite el acceso remoto y virtual a recursos ten en la Nube, la infraestructura como ser-
externos de cálculo para el mismo fin. No vicio es la que más se ajusta a la realidad de
es un concepto nuevo, ya ocurrió con la los centros de computación. La gran baza
electricidad cuando hace más de un siglo las para los equipos de investigación es el pre-
industrias fueron abandonando su produc- cio del servicio: 10 céntimos de euro por
ción y se engancharon a la red. Dejaron esa hora de cálculo. Es una oportunidad que
actividad a un agente especializado que, por tienen ante sí los grupos de investigación y
economía de escala, podía prestar el servi- las empresas en general.
cio a un precio más barato. Y es la misma Por otra parte, el volumen de genera-
filosofía que rige para la Computación en ción de datos ha crecido enormemente –el
la Nube. Estos grandes centros de computa- CERN produce 1 petabyte de información
ción, por economía de escala y por la com- cada segundo (1 petabyte son 1 millón de
plejidad intrínseca de su gestión, generan gigas)– y el Big Data se ha convertido en
el mismo producto: “mi computación y mi un gran reto. No solo por el volumen y por-
almacenamiento de datos” más barato. que los datos exceden los sistemas de alma-
La tecnología –la informática– pasa a ser cenamiento de que disponemos ahora, que
un servicio que se paga por uso, como la hacen imposible almacenar todos los datos
electricidad. (Figura 1) “Si yo dimensiono producidos, sino también por la velocidad
mi centro en casa, si no lo he hecho bien, en la que estos se generan. Realidades ac-
puedo estar gastando innecesariamente por tuales como el Internet de las cosas o las
unos recursos que normalmente no utilizo Smart Cities (ciudades inteligentes) llevan
o puedo haberme quedado corto en el di- en paralelo un proceso de sensorización ma-
seño y no puedo ofrecer el servicio porque siva de dispositivos y el envío constante de
no tengo suficiente capacidad”, explicaba el información que han modificado también
profesor Torres. el concepto de las bases de datos porque el
De las diferentes modalidades que exis- modelo tradicional de bases de datos estruc-
15

Diferenciación de infraestructuras en e-Ciencia
Petaflop
Capability Data Supercomputers
computing PRACE
Grid of
Data Supercomputers
DEISA
Grid of dedicated
Data clusters & computers
Capacity EGI
computing
Data Desktop Grids
Desktop resources
EDGES
Fig. 2 / Las e-infraestructuras. Conceptos asociados.
turadas no da respuesta a las necesidades Tomando la definición acuñada en 1999

actuales del Big Data. por John Taylor, la e-Ciencia o e-investiga-
Pero el reto más importante al que res- ción se traduce como la actividad científica
ponder es la forma de analizar los datos. Se mejorada (enhanced-science) mediante el uso
puede disponer de muchos datos pero de de infraestructuras que integran recursos
escasa utilidad; la información es relevan- avanzados sobre Internet.
te pero lo importante es el conocimiento Blanquer aportó diversas visiones com-
“accionable”, algo que permita tomar una plementarias del concepto de e-Ciencia, de-
acción. Y no es un hecho trivial, porque los teniéndose en la que hace referencia a la evo-
sistemas actuales no son válidos para millo- lución de la Ciencia desde su nacimiento, en
nes de datos, del mismo modo que extraer el milenio pasado, como disciplina empírica
valor de esos datos tampoco lo es. Hoy se dedicada a la descripción de fenómenos na-
aplican algoritmos de minería de datos para turales; su etapa posterior, de aproximación
extraer la información, pero la magnitud teórica, con el uso de modelos, fórmulas y
del problema es enorme. Queda aún mucho generalizaciones; la aparición en las últimas
recorrido y la actual coyuntura de crisis y décadas de la rama computacional, destina-
recortes implican más dificultades para la da a la simulación de fenómenos complejos
solución de algunos de estos retos. y para acabar, en la actualidad, centrada en la
exploración de los datos, con la unificación
Un balance de la e-investigación en España de teoría, experimentación y simulación,
La segunda presentación de la jornada gracias a la captura masiva de datos me-
corrió a cargo de Ignacio Blanquer, Depar- diante instrumentos o generada mediante

tamento de Sistemas Informáticos. Univer- simulación y procesada por computador.
sidad Politécnica de Valencia, quien realizó La e-Ciencia se convierte así en una nueva
Un balance de la e-investigación en España. visión de la Ciencia, fundamentada en una
16

colaboración global en áreas de la Ciencia y Los principales conceptos asociados
las infraestructuras que la dan soporte. a las e-infraestructuras los integran el
Bajo este concepto nacen programas middleware, entendido como el conjunto
de e-Ciencia como el NeSC en el Reino de aplicaciones y servicios que permiten
Unido, Open Science Grid en EE.UU., utilizar de forma coordinada y eficiente las
NAREGI en Japón y en España la Inicia- e-infraestructuras (gestiona aspectos tales
tiva Nacional de Grid (ES-NGI ), la Red como el acceso, los permisos, el estado de
Española de Supercomputación (RES ), los los recursos, la distribución de la carga entre
centros autonómicos de supercomputación los diferentes sistemas, la indexación de los
y la Red Española de e-Ciencia. datos); los sciencegateways (pasarelas cien-
La base para la e-Ciencia es la e-infraes- tíficas), que facilitan el acceso y uso de las
tructura (Figura 2). De acuerdo con la de- e-infraestructuras automatizando procesos y
finición del grupo de trabajo de e-infraes- ofreciendo interfaces amigables. Y por enci-
tructuras de la Comisión Europea, estas son ma de estos dos conceptos se encuentran los
el entorno de investigación en el que los usuarios. La forma en que los investigado-
investigadores tienen acceso compartido a res se organizan en la e-Ciencia es también
una serie de recursos únicos o distribuidos, importante porque favorece la colaboración
que incluyen datos, computación, almace- y al mismo tiempo permite administrar de
namiento, instrumentos… Si bien la defi- forma efectiva los recursos. Cuando se trata
nición de e-infrastructuras engloba un con- de cientos de miles de cores distribuidos en
junto mayor de recursos (como instrumen- cientos de instituciones, la forma de estable-
tación avanzada o bases de datos) accesibles cer rápidamente una política de acceso no es
de forma ubicua, se asocia principalmente trivial. De aquí nace el concepto de organi-
este término a las infraestructuras informá- zación virtual, entendida como una asocia-
ticas que integran recursos de cómputo y ción encargada de gestionar el acceso a los
almacenamiento de datos accesibles desde recursos a todo el conjunto de usuarios de
Internet. diferentes organizaciones reales que colabo-
ran en ella. Así, en vez de gestionar el acceso
de miles de usuarios personales se ordena la
participación de unas pocas organizaciones.
La Comisión Europea en sus últimas di-
rectrices y estudios ha definido una serie de
principios para la mejora de la investigación
en Europa. Europa quiere ser el líder mun-
dial de la e-Ciencia y para ello apuesta por el
desarrollo de las infraestructuras. Y no sola-
mente en el ámbito de la investigación, sino
también para la innovación y el empleo.
Entre las principales iniciativas en mar-
cha destaca la Iniciativa Europea de Grid
(EGI). Se trata de un proyecto en el que
participan 332 organizaciones de 58 países,
orientada principalmente a la resolución de
grandes problemas en las áreas de Física de
altas energías, Biocomputación, Geofísica
y Astrofísica. Cuenta con 20.000 usuarios
que han desarrollado más de 1,7 millones
17

Según Martín Llorente, la computación cloud mejorará la competitividad
y productividad, reduciendo y eliminando barreras de entrada en
determinados campos de investigación y generando nuevas líneas de
investigación científica
de trabajos, gracias a la disponibilidad de tadores, nubes y computación voluntaria.

unos 320.000 cores con una capacidad de No hay una única solución sino un conjunto
152 PBytes. España participa a través de la de soluciones que buscan la interoperabili-
Iniciativa nacional de Grid. dad. Y en cuanto al futuro, en el horizonte
El proyecto PRACE (Partnership for de 2020, el plan apuesta por los datos y por
Advanced Computing in Europe) es una la colaboración con la industria, con espe-
iniciativa dirigida a fortalecer el uso de in- cial énfasis en servicios innovadores, “digital
fraestructuras de supercomputación para curation”, acceso abierto, interoperabilidad y
permitir alcanzar un impacto importante en un mayor enfoque centrado en el usuario.
la investigación básica y aplicada. Participan El profesor Blanquer destacó que España
25 países miembros que aportan conjunta- se encuentra excelentemente posicionada
mente una potencia sostenida de más de en la e-Ciencia a nivel internacional tanto
11,5 Pflops y casi 1 millón de cores. en infraestructuras como en aplicaciones y
En el ámbito de las redes, GÉANT es la señaló que el acceso a las infraestructuras
red de investigación y educación paneuropea internacionales es una oportunidad para el
que conecta las redes nacionales europeas de desarrollo y la innovación, especialmente
investigación y educación (NRENs). Une en la situación actual de crisis económica.
más de 40 millones de investigadores y es- Repasó las diferentes iniciativas y proyectos
tudiantes en Europa y permite el acceso de vinculados con las infraestructuras grid, la
banda ancha a diferentes recursos singulares Red Española de Supercomputación (RES)
para Física de altas energías, Radio Astrono- y los centros autonómicos, la participación
mía, Biomedicina, Cambio climático, Ob- española en proyectos de e-infraestructuras
servación de la Tierra, Arte, etc. y la Red Española de e-Ciencia.
Respecto del Cloud Computing, el pro- La iniciativa ES-NGI, en estrecha co-
fesor Blanquer destacó dos ejemplos de laboración con la iniciativa Portuguesa
“nubes científicas” europeas: Helix Nebula (INGRID), engloba 17.690 cores de 28 cen-
y Venus C. El primero de ellos, enfocado a tros y más de 100 usuarios, habiendo propor-
la “gran Ciencia” y en fase de definición, se cionado en el año 2012, 175.000 millones de
estructura como un consorcio entre grandes horas de CPU normalizadas a la comunidad
actores científicos y grandes empresas para científica española. Igualmente, la Red Espa-
avanzar en la provisión sostenible de recur- ñola de Supercomputación (RES), liderada
sos de computación en la Nube, con tres por el Barcelona Supercomputing Center,
casos de uso: Física de altas energías, Genó- ha proporcionado en 2012 aproximadamen-
mica y Observación de la Tierra. Venus Ces, te 90 millones de horas de cálculo a más de
por su parte, una experiencia piloto en el 200 grupos científicos, al igual que los cen-
desarrollo de un stock de componentes para tros autonómicos de supercomputación,
aplicaciones científicas en infraestructuras entre los que destaca el gallego CESGA. La
cloud públicas o privadas. RES ha renovado recientemente sus recursos

De esta forma, Europa defiende un eco- en la mayor parte de sus centros, realizando
sistema de múltiples soluciones de infraes- también una recolocación de los recursos del
tructuras, formadas por grids, supercompu- MareNostrum II entre varios de sus centros.
18

Tanto ES-NGI como la RES tienen una
importantísima proyección internacional,
con una destacada participación en la inicia-
tiva de Grid Europea (participando tanto en
el PMB como en el Council) y en PRACE
(siendo uno de los cuatro ‘hostingmembers’).
La visión en las e-infraestructuras se com-
pleta con la participación española en pro-
yectos e iniciativas destacadas como el Large
Hadron Collider (LHC) Computing Grid o
MAGIC. La participación de entidades es-
pañolas en proyectos europeos del séptimo
programa marco en el ámbito de infraes-
tructuras de investigación es destacada, con
presencia en 19 proyectos y un presupuesto
total superior a los 250 millones de euros.
En este contexto, la Red Española de
e-Ciencia se crea en 2007 con el objetivo
de dinamizar el diálogo entre los diferentes
grupos que participan en este escenario. La
Red Española de e-Ciencia llega a movili-
zar 101 grupos de 76 instituciones y más
de 1.000 investigadores españoles suscritos
que se organizaron en 2 áreas temáticas: in-
fraestructuras (ES-NGI, RES y Red IRIS)
y usuarios científicos. La Red Española de fue impartida por Ignacio Martín Llorente
e-Ciencia logró durante sus cuatro años de (Open Nebula Project, C12G Labs. DSA
existencia realizar seis reuniones plenarias, Research Group, Universidad Complutense
identificar 60 aplicaciones y dinamizar 11 de Madrid), quien se centró en analizar el
proyectos piloto. papel clave que la computación cloud está
Finalmente, en los últimos años mere- llamada a jugar en los procesos actuales de
ce especial atención el esfuerzo que se ha investigación científica, mejorando la com-
dirigido hacia el uso de infraestructuras petitividad y productividad, reduciendo y
científicas en la nube, en la que el proyecto eliminando barreras de entrada en determi-
VENUS-C ha desarrollado un conjunto de nados campos de investigación y generando
utilidades de plataforma que han permitido nuevas líneas de investigación.
la adaptación y despliegue de 27 aplicacio- El objetivo de la presentación fue el de
nes científicas, 5 de ellas españolas. Estas describir las posibilidades y limitaciones
aplicaciones han demostrado la idoneidad del Cloud Computing, así como el impacto
de este tipo de infraestructuras, más ade- potencial de su adopción como plataforma
cuadas para grupos pequeños y pymes inno- de investigación. Es necesario redefinir los
vadoras, en el desarrollo de la investigación. conceptos, los beneficios y los riesgos que
aporta la Nube y tener claro que no va a
Los beneficios y los riesgos resolver todos los problemas.
del Cloud Computing Hay un mensaje disruptivo y transfor-
La tercera conferencia de la jornada, ¿Qué mador del Cloud. Cuando aparece una tec-
ofrece la Nube a la investigación científica?, nología nueva, en una primera fase todo el
19

El profesor Salvachúa afirma que las recetas que se trasladan del
“bussines inteligence” al Big Data no funcionan porque colapsan por
problemas computacionales o de los algoritmos. Las soluciones pasan por
diversos enfoques de sistemas distribuidos
mundo trata de averiguar cómo esa tecno- del uso. Como modelo de uso, con la Nube
logía se adapta a nuestros procesos. Pero la solo nos preocupamos de los resultados y
fase más importante es la que da comienzo no de su implementación; como modelo
cuando somos capaces de modificar los pro- de acceso, la aplicación puede usarse desde
cesos para sacar el máximo provecho de las cualquier dispositivo y lugar; como modelo
nuevas tecnologías. de infraestructura, la capacidad es elástica y
El Cloud es un modelo de provisión de como modelo de costes, solo se paga por el
recursos (aplicaciones, plataformas e infraes- uso realizado, eliminando costes fijos.
tructuras) como servicio, bajo demanda, y Al tratarse de una tecnología disruptiva,
de forma elástica y dinámica. Y dentro de el Cloud Computing aporta numerosos bene-
los diferentes servicios, el de las infraestruc- ficios: 1) Ahorro de costes, al pagar solo por
turas es el más disruptivo. Además, existe el el uso del software y de la infraestructura. 2)
de plataforma, orientado al desarrollador, Flexibilidad y tiempo de despliegue. Capaci-
y el software como servicio. Todos somos dad elástica e instantánea y rápido despliegue
usuarios del software como servicio. Twitter del servicio. 3) Comodidad, por la externali-
o Gmail son algunos ejemplos. Es la capa zación de la configuración y gestión de la in-
que está más en contacto con el usuario, por fraestructura. 4) Calidad y reproducibilidad,
debajo de ella está la capa de la plataforma y, calidad de los resultados de la investigación y
debajo de todo, la capa de las infraestructu- reproducibilidad. 5) Eficiencia y productivi-
ras. Y la innovación se desarrolla ahí aunque dad. Inversión de tiempo en la investigación
no lo veamos. y no en la infraestructura. Simplicidad. 6)
El concepto no es nuevo. En los años Aplicaciones actualizadas, colaborativas y
60 algunos científicos ya concibieron la accesibles desde clientes ligeros. 7) Colabo-
computación como un servicio de acce- ración a partir de la compartición de datos y
so bajo demanda, que pasaba por conver- aplicaciones y 8) Acceso asequible a recursos
tir la IT en una “commodity”. El modelo a quienes no tienen sistemas locales, como
de provisión del servicio ha evolucionado pymes y países en desarrollo. (Figura 3).
desde entonces. El modelo inicial fue el de De igual forma, la adopción de un mo-
“mainframe”, un sistema muy centralizado, delo Cloud entraña también algunos riesgos,
caro, difícil de gestionar, al que se accedía siendo el principal la falta de control por el
por terminales sencillos y con barreras de desconocimiento de la gestión interna del
entrada muy altas. De ahí se evolucionó al proveedor. Junto a este se encuentra la de-
modelo cliente/servidor, basado en el uso pendencia del proveedor (lock-in), muy im-
de ordenadores personales y servidores para portante hoy ya que, a pesar de los esfuerzos
computación y almacenamiento distribui- de estandarización, realmente sigue siendo
dos; un modelo optimizado para obtener la difícil migrar de uno a otro proveedor. La
máxima agilidad debido a su bajo coste. Y el disponibilidad o los cortes de servicio, las
tercer estadio de evolución, que representa variaciones de rendimiento o los cuellos de

la Nube, con grandes centros de datos con botella en la transmisión de datos represen-
componentes con capacidad para escalar tan otro conjunto de riesgos significativos.
y donde el coste se determina en función Por último, los modelos de licencias y la se-
20

Beneficios de la adpoción del modelo Cloud
Cost savings on
hardware/software/information... 63.0%
Flexibility in scaling IT up and down 58.7%
Quicker time to market 43.5%
Cost savings on IT staffing/admin. 23.9%
Improved productivity 21.7%

Disaster recovery/
business continuity 17.4%
Self service IT delivery 17.4%

0,0% 20,0% 40,0% 60,0% 80,0%
percentage of respondents
Fig. 3 / ¿Qué ofrece el Cloud a la investigación científica? Fuente: Cloud End User Survey, The 451 Group, 2011.
guridad y privacidad de los datos terminan 3. Selección del proveedor. Para

de dibujar el cuadro de riesgos que repre- ello hay que evaluar factores como las
senta la adopción del modelo Cloud. medidas de seguridad y protección de
Existen 4 razones para migrar al modelo datos, la ubicación del centro, las ga-
Cloud: optimizar costes, reforzar la calidad, rantías en la continuidad del servicio,
entrar en líneas de investigación ya existen- compensaciones, servicios alternativos,
tes, eliminando barreras de entrada, o crear etc.
nuevas líneas de investigación. Y tres son las Por último, la presentación abordó los
fases en el proceso de adopción de la Nube diferentes tipos de Cloud en función de la
como soporte a la innovación: propiedad de las infraestructuras: privados,
1. Priorización de servicios. Migra- cuando la infraestructura es propiedad de
ción gradual de aplicaciones y priori- una organización y disponible solo para esa
zación en función del beneficio y de la organización; públicos, cuando la infraes-
afinidad. tructura está disponible para otras organiza-
2. Orientación a servicios. Cam- ciones a través de Internet o redes virtuales;
biar la mentalidad y no pensar en las e híbridos, cuando la infraestructura es una
infraestructuras. El usuario no quiere composición de dos o más clouds.
hablar de teras, cores, de datos. Quie- La última ponencia de la mañana, titu-
re hablar de necesidades y resultados. lada Un universo de datos. El fenómeno Big
Es muy importante y difícil definir las Data y la Ciencia, corrió a cargo de Joaquín
aplicaciones en términos de calidad de Salvachúa (Departamento de Ingeniería de
servicio, y que el proveedor de infraes- Sistemas Telemáticos [DIT]. Universidad
tructuras lo traduzca en número de re- Politécnica de Madrid). Para explicar lo que
cursos físicos necesarios. representa el Big Data, el profesor Salvachúa
21

utilizó como metáfora el movimiento brow- diferente según los casos. Hay varias caracte-
niano (movimiento aleatorio de las partí- rísticas que acotan esta heterogeneidad: vo-
culas en un medio fluido). Hasta ahora si lumen, variedad en la naturaleza, velocidad
teníamos partículas de polen flotando en un en la generación de los datos y veracidad.
fluido solo podíamos seguir el movimien- En cuanto al volumen, hay que tener en
to de estas partículas por el fluido. Ahora cuenta, en primer lugar, que escalar solucio-
podemos tener el movimiento de todas las nes aparentemente sencillas puede llevar al
moléculas de agua que están moviendo las colapso. Para ilustrar esta realidad, el profe-
partículas de polen. Es el significado de Big sor Salvachúa utilizó el ejemplo de una hi-
Data. De repente se ha abierto la puerta potética hormiga de cuatro metros de altura,
no solo de tener cierta cantidad de datos, que no sería viable simplemente aumentan-
sino todos los datos, lo que representa un do la escala porque implicaría que su exoes-
cambio completo del discurso, que conlleva queleto tuviera un grosor imposible. Por
nuevos problemas y dificultades porque nos esta razón, para animales de ese tamaño las
encontramos en el límite de la tecnología. respuestas son diferentes y se requiere el es-
Un ejemplo de esta realidad la encontra- queleto de un elefante o de un dinosaurio de
mos hoy en el movimiento browniano social, una naturaleza y estructura completamente
donde ya podemos disponer de toda la in- diferentes a la de la hormiga. De análoga for-
formación de lo que hace una persona, de ma, las recetas que se trasladan del “bussines
sus movimientos (Smart City, Smart Car), e inteligence” al Big Data no funcionan por-
incluso lo que piensa, siente o desea (Face- que colapsan por problemas computaciona-
book, Twitter, etc.). Para el investigador en les o de los algoritmos. De esta forma, para
Ciencias Sociales se abre un mundo fascinan- resolver los problemas de almacenamiento y
te donde todo se convierte en una gigantesca procesado de grandes cantidades de datos,
fuente de datos. Estos datos, que pueden ser las soluciones pasan por diversos enfoques
analizados casi en tiempo real, son de todo de sistemas distribuidos.
tipo, relevancia y veracidad.Y todos ellos Así, repasó las diferentes alternativas,
pueden ser almacenados, procesados y guar- recordando los primeros sistemas imple-
dados. Esta posibilidad ha llevado a algunos mentados por Google y que ahora han sido
a asegurar la muerte del método científico. imitados por Hadoop (HDFS), basados en
La revista Wired publicó hace 4 años un nú- el diseño de una gigantesca base de datos no
mero especial sobre la muerte de la Ciencia. estructurada; los sistemas P2P, autorregula-
Uno de los grandes problemas con los dos y autoconfigurados, basados en DHT
que se enfrenta la investigación científica es (Distributed Hash Tables) y sobre bases de
generar conocimiento nuevo. Los grandes datos NoSQL; o el sistema MapReduce, un
descubrimientos llegaron cuando se consi- sistema de procesado distribuido. La idea
guieron fórmulas analíticas que nos apor- clave es la flexibilidad, dado que la com-
taban conocimiento extra que nos permitía putación puede ser llevada a cabo por un
predecir comportamientos nuevos. Ahora, número variable de ordenadores.
con los datos, es posible que la investigación Sobre la variedad de los datos, destacó el
se oriente hacia materias o temas donde dis- hecho de tratar con datos no estructurados,
pongamos de datos, generando agujeros en ni agregados implica la necesidad de “coci-
otras áreas de la Ciencia donde no se dé esta narlos” previamente. La variedad también
circunstancia. se da en la multiplicidad de fuentes no dis-

Por la heterogeneidad de aplicaciones o juntas e implica la búsqueda de soluciones
soluciones no hay una única definición de “artesanales” adecuadas a cada proyecto.
Big Data, ya que la naturaleza de los datos es La velocidad representa un problema a
22

Modelo MONARC (1998)
Arquitectura jerárquica fundamento del Worldwide LHC Computing Grid
CERN
HLT Term Computer Storage Tape
Tier 0
BNL TR/UMF
Computer Storage Tape Computer Storage Tape
Tier 1
ANL SLAC UVic UToronto
Computer Storage Computer Storage Computer Storage Computer Storage
Tier 2
EGI-InSPIRE RI-261323 www.egi.eu
Fig. 4 /
la hora de transportar datos de un sensor a no deseados a los que debemos aplicar la ley
un almacenamiento o entre distintos alma- de protección de datos o la dificultad de la
cenamiento. Existe la necesidad de proce- anonimización de los datos.
sarlos rápidamente, para lo cual se utilizan Como ejemplos de esta nueva realidad
esquemas similares a los que se ofrecen en basada en la fuerza de los datos, citó el caso
multimedia con el uso de GPUs y el procede “House of cards”, la primera serie de te-
sado en streamming. levisión en la que los guionistas tienen in-
La visualización es un componente vi- formación sobre cómo vemos la serie (du-
tal de todo análisis. Representa la parte ración, horario, paradas), de tal forma que
artística del análisis y es un nicho de gran pueden escribir los guiones de los siguientes
futuro, que requiere de profesionales con capítulos valorando el comportamiento ob-
perfiles diferentes a los que desarrollan la servado de los usuarios, cerrando así el bucle.
investigación. También destacó que, tras la Actuamos sobre un sistema en función de los
irrupción de fenómenos como el Internet datos que nos aporta el propio sistema.
de las cosas y el Social Media, que generan Para terminar, hizo un repaso de los len-
un enorme volumen de datos aportados por guajes disponibles –R, Julia y NumPy– y
una abundancia de sensores, al igual que mencionó los problemas en el procesado de
ocurre con las Smart Cities, el escenario se grafos y la dificultad de acceder a datasets
ha complicado. Ello implica problemas de interesantes, resaltando que para que la cien-
almacenamiento que se han de resolver con cia avance es necesario contar con enfoques
el procesado distribuido. abiertos y colaborativos.
Como un problema práctico en el ámbi- La segunda sesión de la jornada se cen-
to de la privacidad de los datos, el profesor traba en la descripción de diversas experien-
Salvachúa señaló el de sintetizar atributos cias de “nubes científicas” y su aplicación en
23

Según Guillermo Antiñolo, el proyecto Medical Genoma Project
pretende estudiar y validar la forma en la que se procesan los datos,
resolver los problemas de almacenamiento, decidir cómo se devuelve
esta información en una forma clínicamente útil, ver cómo se integra
con los actuales sistemas de información clínicos y hacer un análisis
de validez analítica y de coste-eficiencia de NGS vs el análisis genético
convencional
diferentes disciplinas científicas, como la Fí- zar los datos que genera el LCH y cada ex-
sica de partículas, la Medicina, la Biología o perimento es muy voluminoso en términos
la Astrofísica, con ejemplos prácticos y rea- de información. A día de hoy existen 140
les de proyectos o centros de investigación petabytes almacenados.
que han encontrado en la Nube y el Big Para el almacenamiento y procesamien-
Data respuesta a las necesidades de compu- to de datos, los modelos computacionales
tación y tratamiento de datos que requieren de los experimentos del LHC se diseñaron
sus investigaciones. en torno al concepto de “grid computing”
Fernando Barreiro, responsable del pro- y, desde el inicio de la toma de datos, este
yecto Grid y recursos Cloud en el CERN, modelo ha demostrado ser muy exitoso.
trató de La iniciativa Helix Nebula y el El modelo computacional del LHC es el
impacto del Cloud Computing en los experi- Worldwide LHC Computing Grid (WLCG),
mentos del LHC. Empezó explicando que el (Figura 4) con una carga de computación
CERN, donde está ubicado el LCH, es el que representa entre 80.000 y 100.000 tra-
laboratorio de Física más grande del mun- bajos simultáneos. El funcionamiento es el
do, en el que participan 20 estados y más siguiente: una colección de “granjas” elige
de 10.000 usuarios en todo el mundo. las colisiones que recoge el detector ATLAS.
El objetivo último del CERN es enten- Estos eventos significativos pasan al CERN
der el origen del universo y el Big Bang, y se almacenan, los datos se distribuyen a
ocurrido hace miles de millones de años y diversos centros de datos, con una disponi-
que comenzó cuando toda la materia estaba bilidad cercana al 100%, en discos y cintas.
concentrada en un solo punto. Para com- Además, hay otros centros de computación
prender cómo el universo ha evolucionado más pequeños que desarrollan su labor en
desde ese primer momento hasta lo que es ámbitos más locales.
hoy, en el CERN se construyó el Gran Coli-
sionador de Hadrones (Large Hadron Colli- Modelo de integración básico entre grid
der, LHC), que es el aparato científico más y cloud. The grid of clouds
grande del mundo. Es un túnel de 27 km Los nuevos paradigmas de la informática,
de circunferencia, a 100 metros bajo tierra, como son la virtualización y la computación
entre Suiza y Francia, en el que hay cuatro en la Nube (cloud computing), ofrecen ca-
puntos donde colisionan las partículas, ha- racterísticas atractivas para mejorar las ope-
ces de protones que vienen de direcciones raciones y la elasticidad de la computación
contrarias. El principal desafío del análisis científica distribuida. Si bien no es posible
de datos es su volumen y la necesidad de sustituir el grid por la Nube, hay maneras

compartir los datos a través de la colabo- de integrar recursos de la Nube en la infraes-
ración del LHC, ya que hay unos 10.000 tructura grid existente. Un proyecto de cola-
físicos en todo el mundo que quieren anali- boración con la industria europea que ha re-
24

sultado exitoso es Helix Nebula –the Science El modelado estocástico –sistemas regi-
Cloud o Nube Científica– que consiste en dos por la aleatoriedad– de los sistemas bio-
un esfuerzo de colaboración de varias orga- lógicos, unido a los modelos de simulación
nizaciones europeas, entre ellas el CERN, Monte Carlo, es una técnica cada vez más
ESA y EMBL, para establecer alianzas públi- popular en Bioinformática. Para ser efecti-
co-privadas y la construcción de una infraes- va, las simulaciones estocásticas deben ser
tructura cloud europea capaz de soportar las soportadas por herramientas poderosas de
misiones de estas organizaciones. análisis estadístico. El flujo de procesos de
Entre las conclusiones de la experiencia análisis-simulación puede resultar costoso
en el CERN en torno a la computación y computacionalmente al reducir la interacti-
los datos, la computación grid y la Nube es- vidad necesaria en el ajuste del modelo.
tán vistas como tecnologías complementa- Para hacer frente a estos desafíos, se abo-
rias que van a convivir en diferentes niveles ga por el diseño de software de alto nivel
de abstracción. En cuanto a la simulación para la construcción de simuladores para-
y procesado de datos, el modelo para eje- lelos eficientes y portátiles para la Nube.
cutar los trabajos en nubes externas es útil, En particular, el grupo ha desarrollado el
pudiendo mejorar la automatización y mo- simulador de sistemas biológicos Calculus
nitorización, pero las necesidades actuales of Wrapped Components (CWC), que se di-
están cubiertas. seña según el enfoque basado en el patrón
En lo referido a las cuestiones pendien- de FastFlow, un software desarrollado por el
tes, Barreiro destacó la poca experiencia en grupo. Gracias al marco de FastFlow, el si-
el almacenamiento de datos en la Nube, la mulador CWC está diseñado como un flujo
falta de adopción de estándares, tanto en las de trabajo de alto nivel que puede simular
interfaces como en los servicios ofrecidos modelos, combinar los resultados de la si-
por los diferentes proveedores, así como la mulación y analizarlos estadísticamente en
identificación de modelos de negocio para un único flujo de procesos en paralelo en
la colaboración con proveedores europeos. la Nube. Para mejorar la interactividad, las
La segunda presentación de la sesión de- fases se implementan sucesivamente de tal
dicada a experiencias científicas en torno a manera que comienzan a generarse resul-
la Nube y el Big Data correspondió a Marco tados del análisis inmediatamente después
Aldinucci (Computer Science Department. de arrancar la simulación así como realizar
Universidad de Turín) y la ponencia titulada distintos análisis simultáneamente.
Transformando el Big Data en conocimiento: Guillermo Antiñolo, director científi-
gotas de sistemas biológicos en la Nube. co del Medical Genoma Project presentó el
La presentación se centró básicamente Medical Genoma Project, con la biomedici-
en explicar los usos que se hacen del Cloud na como protagonista. El proyecto Medical
en el dominio de los sistemas biológicos y Genome Project (MGP) es un proyecto sin-
en la biología en general, así como las fa- gular donde los principales objetivos son el
cilidades que aporta y las limitaciones que descubrimiento de nuevos genes responsa-
tiene en diferentes órdenes. La Biología re- bles de enfermedades de base genética y la
quiere de la producción de aplicaciones que caracterización de la variabilidad genética
sean eficientes en la Nube y que sean útiles de individuos sanos fenotipados, median-
para extraer datos, pero usando las técnicas te la secuenciación del genoma humano,
utilizadas en Biología. En este sentido, la usando las nuevas tecnologías de NGS.
modelización es un referente. Y uno de los (NGS de sus siglas inglesas next generation
ejemplos más característicos es el de la mo- sequencing).
delación estocástica. El proyecto de secuenciación del geno-
25

Carlos Allende explica que el análisis de las observaciones ha sufrido una
revolución gracias a los progresos en computación. Los simples modelos
analíticos son reemplazados por sofisticadas simulaciones numéricas.
Las estrellas, que solían ser bolas con simetría esférica, pasan a ser
objetos cuadri-dimensionales con planetas en órbita, y las galaxias se
transforman de estructuras axisimétricas aisladas en amasijos irregulares
de gas, estrellas y materia oscura que interaccionan y evolucionan a la
vez que el universo se expande
ma humano, que arranca en la década de los genómica y ha permitido a los investigado-

años 80, está basado en el concepto de “pen- res llevar a cabo experimentos a nivel del
sar genéticamente para actuar en la Medi- genoma completo que anteriormente no
cina localmente”. El descubrimiento de la eran viables o asequibles. De esta manera
reacción en cadena de la polimerasa (PCR), NGS se ha empezado a aplicar ya con un
una técnica para amplificar fragmentos de gran éxito en el descubrimiento de genes
ADN, hizo posible alcanzar los objetivos de enfermedades mendelianas y en cáncer,
del proyecto Genoma Humano y modificar y es la herramienta ideal para hacer realidad
la forma de aproximación a las secuencias las promesas de la Medicina personalizada.
de ADN. Estos avances permitieron que en Las tecnologías que constituyen este nuevo
2005 se publicara la primera secuenciación paradigma continúan evolucionando de
del genoma humano. Un cambio de para- forma muy rápida, de forma que las mejo-
digma y un cambio de actitud, se pasaba de ras previsibles en la robustez tecnológica y
analizar un gen concreto a analizar un exo- el aumento de la eficiencia de los procesos
ma, una proporción de 1 a 3.000. allanarán el camino de la traslación del co-
Este cambio de paradigma representa nocimiento generado al diagnóstico clínico.
también un desafío en cuanto al volumen Empezamos a tener herramientas para que
de información y datos a analizar, donde la esta tecnología NGS nos ayude a determi-
tecnología NGS no es más que el inicio; el nar la existencia de enfermedades.
almacenamiento y la gestión del análisis de El proyecto Medical Genoma Project
la información es el verdadero problema. El pretende estudiar y validar la forma en la
cambio del volumen de datos a gestionar que se procesan los datos, resolver los pro-
es muy importante, multiplicándose por blemas de almacenamiento, decidir cómo
varios órdenes de magnitud (x 1.000). El se devuelve esta información en una forma
análisis y procesamiento de datos tienen el clínicamente útil, ver como se integra con
riesgo de convertirse en un “cuello de bote- los actuales sistemas de información clíni-
N
lla” conforme vaya incrementándose el vo- cos, y hacer un análisis de validez analítica
. lumen de datos disponible en los procesos y de coste-eficiencia de NGS vs el análisis
de secuenciación. En este nuevo escenario, genético convencional.
las soluciones tradicionales de computa- De esta forma, para llevar a cabo el pro-
ción y bases de datos no son suficientes y se yecto MGP se utiliza un entorno de compu-
han de implementar nuevas respuestas de tación de alta capacidad junto con una in-
la mano del Big Data y de la computación fraestructura de almacenamiento distribui-

Cloud. do para poder procesar el gran volumen de
En el corto periodo de tiempo desde datos que se generan (figura 5). Además del
2005, NGS ha modificado la investigación procesamiento de datos, la interpretación
26

Bioinformatics Units at MGP/GBPA
24 High Performance Computing nodes – 72-192Gb RAM

2 Control nodes – 24Gb RAM
• 2 x Quad core CPU
• 16 threads
• 2 x 10Gb Network interface
Execution of 400 jobs in parallel
Storage 540 Tb total
Fig. 5 /
de los resultados de secuenciación requiere oportunidades del Big Data en la Astronomía

de grandes bases de datos que alberguen una moderna, fue impartida por Carlos Allende
completa caracterización de las variaciones (Instituto de Astrofísica de Canarias). Los
nucleotídicas presente en los genomas. Todo métodos tradicionales de análisis en la As-
ello pone en un primer plano la relevancia tronomía observacional han cambiado en
de las infraestructuras de computación y al- la última década. Se ha pasado de proyectos
macenamiento a la hora de poder manejar, relativamente modestos, realizados por una
procesar y transformar en información útil sola persona o un pequeño grupo de inves-
el gran volumen de datos producido por las tigación y con unas pocas noches de obser-
nuevas tecnologías de nueva secuenciación. vación seguidas por una reducción de datos
El objetivo es reducir la enorme distancia y un análisis artesanales, a proyectos mucho
que aún existe entre los resultados de las más ambiciosos, que utilizan instrumentos
investigaciones y su aplicación cotidiana altamente optimizados en operación conti-
a los enfermos y uno de los caminos es la nua y durante años. En Astronomía solo se
construcción de una base de datos para la puede observar y tratar de entender lo que
identificación de terapias y medidas preven- ocurre. La mayor parte de la información
tivas que permita obtener información para que disponemos proviene de la luz, de la
el correcto diagnóstico de enfermedades, energía fotoeléctrica, que se observa en di-
como en el caso de la distrofia hereditaria ferentes puntos del universo. El 99,9 de los
de retina, donde los resultados del proyec- estudios en Astronomía responden a esta
to han permitido encontrar, después de seis realidad, a través de dos tipos de observacio-
meses de trabajo, las mutaciones responsa- nes: imágenes y espectros.
bles causantes de la enfermedad en seis de El astrónomo va directamente a la mon-
las siete familias de genes estudiados. taña; apunta el telescopio (detector) y obtie-
La última presentación de la jornada, Las ne datos (fotografías). Después viene la fase
27

de extracción de la información, analizando blicó la imagen más grande del mundo, de
la densidad en las placas fotográficas para 26 gigapixeles.
ver la cantidad de luz en cada punto en fun- Misión Espacial Gaia. Gaia es una de las
ción del ángulo. A continuación vienen la principales misiones de la ESA. Después de
fase de mapeo o calibración, la reducción y una década de trabajos, se espera su lanza-
el análisis de datos. miento en octubre de 2013. Es un instru-
Hasta hace unos años, todo el proce- mento, situado en un satélite, para escanear
so era bastante artesanal, cada proyecto de el cielo repetidamente y estudiar las posicio-
observación contaba con su propio software nes, las velocidades, los colores de las estrellas
adaptado a sus necesidades particulares; este de nuestra galaxia. Gaia va a dar información
modelo implicaba varios problemas: lenti- tridimensional para 1.000 millones de estre-
tud en los procesos, repetición de esfuerzos llas en la Vía Láctea. Uno de los problemas
y falta de homogeneidad en la operación de que tiene la misión es conseguir transmitir
los instrumentos, la calibración, etc. El mo- la información desde el satélite a la Tierra.
delo alternativo, que ya está en marcha en El ritmo de transmisión es de unos 4 órde-
algunos proyectos, consiste en la utilización nes de magnitud menor que el que genera el
de instrumentación y sotfware no genérico, propio instrumento, de varios gigabits por
que pueda ser útil para diferentes proyectos segundo. Para resolverlo, se hace una reduc-
con el objetivo de mejorar el rendimiento ción de datos a bordo muy significativa en
y garantizar la homogeneidad de resultados base a cálculos de supercomputación.
en diferentes estudios. Proyecto APOGEE. Es un proyecto desde
El análisis de las observaciones ha sufri- tierra y complementario de Gaia dirigido
do una revolución gracias a los progresos en a obtener más información de los espec-
computación. Los simples modelos analíti- tros –abundancias químicas–. Opera con
cos son reemplazados por sofisticadas simu- luz infrarroja y puede llegar a distancias de
laciones numéricas. Las estrellas, que solían 20.000 años luz. También resalta su preci-
ser bolas con simetría esférica, pasan a ser sión con una resolución espectral mucho
objetos cuadri-dimensionales con planetas mayor. El Instituto de Astrofísica de Cana-
en órbita, y las galaxias se transforman de rias está muy involucrado en este proyecto,
estructuras axisimétricas aisladas en amasi- que tiene como objetivo construir un mapa
jos irregulares de gas, estrellas y materia os- químico de las galaxias en 3D.
cura que interaccionan y evolucionan a la Telescopio Big Boss. Es muy parecido a
vez que el universo se expande. Sloan, pero mejorado y más grande (4 me-
El recorrido por los más ambiciosos tros de diámetro). Dispone de un robot que
programas proyectados o en marcha de la posiciona 5.000 fibras. El único modelo
Astronomía observacional incluye los si- basado en la Nube es el telescopio Hetdex,
guientes: orientado a elaborar un censo completo
Sloan Digital Sky Survey. Lleva más de 10 de lo que hay en el Universo. Dispone de
años funcionando. Se basa en un único te- 30.000 fibras ópticas.
lescopio pequeño (2,5 metros de diámetro), Hay un gran esfuerzo en desarrollo para
diseñado para tener un campo de visión de poder tratar con los volúmenes ingentes de
enorme calidad y conseguir imágenes del información que aportan los nuevos ins-
cielo. La innovación de la cámara radica trumentos de observación e interpretar las
en que los dispositivos de carga acoplada observaciones con la Física tradicional, de

(CCD) rotan al igual que el cielo, permi- la mano de la computación del siglo XXI,
tiendo la observación simultánea de cientos los algoritmos avanzados, y las redes de alta
de objetos celestes. Con esta cámara se pu- velocidad.
28

LA NUBE, EL BIG DATA Y LA CIENCIA
Cloud Computing
y Big Data,
la próxima frontera de la innovación
Por Jordi Torres

UPC Barcelona Tech. Barcelona Supercomputing Center
Mateo Valero suele exponer mular y crear escenarios que sin la super-
una presentación en la que computación serían imposibles. Escenarios
cuenta brevemente cómo caros, peligrosos e imposibles. Primero fue
comenzó la Ciencia. Empe- la teoría, luego fue la simulación que nos
zó en el momento en que la ha permitido llegar hasta aquí y que se basa
Matemática, la teoría, permitió describir la en muchas fórmulas, mucha matemática, y
experiencia. Éste fue un paso fundamental, muchos cálculos. ¿Dónde se realizan estos
pero ¿cuál es el siguiente paso fundamen- cálculos? En este caso se hacen en Barce-
tal? El siguiente paso es, o ha sido hasta lona pero hay una red en España, la Red
ahora, la simulación. La simulación hecha Española de Supercomputación, en la que
por la supercomputación nos permite si- los científicos españoles de diferentes áreas
29

¿Cómo avanza la Ciencia hoy?
Experimentación
Teoría Simulación
Simulación = Calcular las fórmulas de la teoría
Caro Peligroso Imposible
La simulación hecha por la supercomputación permite crear escenarios que sin su intervención serían imposibles. Escenarios caros,
peligrosos e imposibles.
Fuente: Prof. Mateo Valero, BSC-CNS 2010.
de investigación, no ingenieros informáti- con el resto de grupos que no tienen acceso

cos sino precisamente de otras disciplinas, a un supercomputador? Por ejemplo, para
tienen una herramienta para desarrollar sus ciertas empresas no es fácil entrar en esta red
experimentos, escenarios caros, peligrosos o española de supercomputación, tienen que
imposibles de crear. hacerlo a través de grupos de investigación,
Un supercomputador es una máquina de pero la investigación, por suerte, también se
unas dimensiones y de unas características realiza en empresas. Por suerte también, a
no normales para la mayoría de nosotros. día de hoy el resto del mundo tiene el cloud.
En este caso, el MareNostrum, la máquina Amazon anunciaba hace un año que iba a
que tenemos en Barcelona y el nodo princi- contar con un supercomputador similar a
pal de esta red española de siete nodos, tiene los que tenemos en la red, que en su mo-
48.000 cores. Estas características implican mento alcanzó el número 46 de una lista de
unas dificultades importantes de gestión. Por 500 supercomputadores en el mundo.
ejemplo, existe un problema importante de
infraestructura para disipar el calor, especial- La importancia del Cloud Computing
mente en latitudes como las nuestras, por- para la Ciencia
que en Finlandia no tienen tantos problemas El Cloud Computing, o computación
de refrigeración, y por tanto no tienen que en la Nube, es importante para la Ciencia
asumir esos costes. Este supercomputador porque, como servicio, ofrece lo que hasta
puede ser utilizado por muchos grupos es- ahora solo podían ofrecer ciertos centros
pañoles de investigación. Para ello existe un muy especializados con unos costes muy
comité de expertos en diferentes materias elevados. Crear un centro de supercompu-
que recibe propuestas de proyectos y que or- tación es muy caro y hasta ahora los recur-
dena y asigna los proyectos. Pero ¿qué pasa sos tenían financiación pública, pero ya se
30

sabe cómo está la situación ahora mismo.
Con lo cual, el Cloud Computing es algo que
ya está aquí. WIRED, una revista técnica,
publicaba hace un año un artículo titulado:
“Amazon builds world´s fastest non existent
supercomputer” (Amazon construye el su-
percomputador, no existente, más rápido
del mundo). Ahora todos tenemos acceso
y capacidad para usar un supercomputador.
Cloud Computing es, en el fondo, un gran
número de máquinas en algún lugar del
mundo, porque al final la computación y el
almacenado sí existen, que se ubican en data
centers (centros de datos) de los que, a día de
hoy, hay decenas en el mundo. El de Ama-
zon ocupa una superficie de 28.000 metros
cuadrados, es decir, como cuatro campos de
fútbol. El de Microsoft, por ejemplo, ocupa
un 40% más, aunque su capacidad aumen-
tó un 60%. La tecnología va avanzando.
Éstas son grandes factorías de informa-
ción, grandes centrales de producción de
información similares a las grandes centra-
les de producción eléctrica cuya existencia
damos por descontado. Y sin embargo, algo utilizar puntas de energía si las necesito. Se
similar pasó hace un siglo cuando las em- elimina la posibilidad de un gasto innecesa-
presas dejaron de generar su propia electri- rio, unas máquinas infrautilizadas o de un
cidad y se conectaron a la red porque era servicio insuficiente por no contar con su-
más barato y les permitía centrarse en su ficientes máquinas. La idea es delegar la in-
negocio, dejando la producción de electri- fraestructura y las necesidades de un super-
cidad, que ya no era un elemento competi- computador en un tercero. Por supuesto, no
tivo, a un profesional que, por economía de toda la Ciencia necesita supercomputación.
escala entre otras cosas, producía el mismo La supercomputación es una parte de la
servicio más barato. Ahora está ocurriendo computación que tiene unas características
lo mismo en el ámbito de la computación y especiales, en lo que a tipo de hardware y de
de los datos. Estos grandes centros de datos, almacenado se refiere, que puede realizar un
por economía de escala y otros factores, ge- trabajo por partes y en paralelo. Es decir, si
neran el mismo producto, mi computación una empresa necesita 120 horas de compu-
y mi almacenado, más barato. Así de sim- tación para realizar una tarea, puede dividir
ple. Y, además, se puede ubicar en Helsinki, la tarea por partes y utilizar un supercom-
donde el sistema de refrigeración es un 44% putador para hacer todo el trabajo en una
más eficiente que en Madrid, por ejemplo. hora, porque es como si estuviese utilizando
La idea es sencilla. La informática se con- 120 máquinas. Y si lo hace en la Nube no
vierte en un servicio. Un servicio que se paga necesita montar 120 máquinas con el coste
por uso como la electricidad que pagamos que eso supone, además de los costes rela-
en nuestras casas, donde si gastamos más, cionados con el espacio, la refrigeración, la
pagamos más, y viceversa, y donde puedo administración, los empleados, etc.
31

Para mí, éste es el cloud de verdad, el ahora. De hecho, una de las cuestiones es:
auténtico, el que supone la infraestructura ¿tenemos que almacenarlo todo o no? Y
como un servicio, una gran base para mu- ¿cómo procesamos tanta información? La
chos grupos de investigación que necesitan idea es que todo aquello que los sistemas
hacer una simulación en un momento dado convencionales hasta ahora existentes no so-
y pueden contratar este servicio. Una hora portan se denomina Big Data. Si el problema
en Amazon cuesta 10 céntimos de euro. Es es asumible y tratable ahora, no es Big Data.
una oportunidad muy grande que tenemos Porque ¿qué es lo que hace que no podamos
todos los grupos de investigación y las em- almacenar, gestionar estas cantidades de da-
presas en general. Es algo muy simple, gran- tos? No es solo una cuestión de volumen,
des centros de cálculo que son simples má- sino también de la velocidad con la que se
quinas como las que vemos en casa, agrupa- generan los datos que salen de sensores. Es-
das, gestionadas por alguien y con acceso a tamos ya en el mundo de la Internet of things
través de Internet. Un centro de datos que (Internet de las cosas). Todo está o empieza
no está en el piso -2 sino que está al otro a estar sensorizado y es una información de
lado del mundo y accesible por cables de fi- mucho valor que se debe usar, sobre todo
bra óptica en los que la latencia, el tiempo en el mundo de la salud, que es uno de los
de acceso, puede ser pequeñísima si la red es temas más importantes de investigación. Es
del ancho de banda que requerimos. un streaming que va generando información
En relación a los datos, el supercompu- constantemente. ¿Qué se hace con tanta in-
tador produce un petabyte de información formación a esa velocidad? De repente llega
cada segundo. El Big Data, en sí mismo, el mundo sensorizado de las Smart Cities,
es un reto muy grande que tenemos todos. otra de las áreas de investigación más rele-
Podemos definir el Big Data como aquellos vantes, y aparece la posibilidad de añadir a
problemas en los que los datos exceden los su volumen de información factores como
sistemas de almacenamiento que tenemos la contaminación, los recorridos de los au-
32

...”The LHC produces 1PetaByte of data every second,
big data and lack of computing resources were
becoming the European Organization for Nuclear
Research’s biggest IT challenges...”
El “enorme” volumen de los datos es una de las variables que definen el fenómeno Big Data. El acelerador de partículas LHC produce 1
PetaByte (1 millón de GigaByte) de datos por segundo.
tobuses, los semáforos, para dar prioridad a para poder aportar toda esta nueva tecno-
los autobuses y que el tráfico sea más fluido. logía que se llama Big Data al resto de gru-
Estos datos no pueden ser procesados por pos de investigación: almacenar, gestionar,
modelos tradicionales de bases de datos es- procesar y analizar los datos. Todavía hay
tructuradas como hemos hecho hasta ahora. mucho por hacer, a pesar de las expectativas
Y finalmente, el último paso, y quizás optimistas de mucha gente.
el más importante, es cómo cambiamos la
manera de analizar estos datos. Aplicamos Los retos
algoritmos de minería de datos, de aprendi- Por ejemplo, ¿el almacenamiento de da-
zaje, etc., para extraer valor y conocimientos es viable económicamente? Claro que sí.
to de los datos y muchos sistemas utilizan Podemos conectarnos a Amazon y contra-
estos algoritmos para predecir escenarios a tar dos terabytes por 82€, y esta capacidad
partir de los cuales nosotros podamos tomar de almacenamiento puede ser suficiente
decisiones. No obstante, estos algoritmos para muchas empresas que pueden almace-
funcionan muy bien para miles de regis- nar el movimiento de una parte importante
tros, miles de datos, pero no para millones de su día. Es un gasto asumible, aunque hay
de datos en tiempo real. La mayoría de los que tener en cuenta que actualmente po-
datos de la Internet of things no pueden ser demos leer discos a una velocidad de 100
almacenados, aunque los utilicemos en un Mb/s, por lo que necesitaríamos 5 horas
momento dado. Bastante trabajo hay ya con para poder leer dos terabytes. Sin embar-
los nuevos datos como para dedicar tiem- go, esto es un problema porque muchas
po a los antiguos, con lo que el análisis se empresas necesitan tomar decisiones em-
vuelve fundamental. En resumen, el mundo presariales con rapidez. ¿Qué hace Google?
científico tiene cuatro retos fundamentales En mi opinión, nos ha hecho un flaco favor
33

La Nube es una oportunidad para acercar la supercomputación
a todos aquellos grupos de investigación que hasta ahora no
podían contar con ella
porque estamos acostumbrados a ir teclean- de circuitos y, por tanto, consume menos

do y que nos dé sugerencias de búsqueda energía, que es otra cuestión muy impor-
relacionadas con búsquedas anteriores, ya tante que debe tenerse en cuenta.
que Google ha dotado a su buscador de Las bases de datos relacionales que hasta
una función de aprendizaje. Pero Google ahora todos conocíamos y nos han explica-
cuenta con 20.000 discos que, en paralelo, do en las facultades ya no nos sirven para
leen dos terabytes en un segundo. Lo mis- resolver grandes problemas. Están surgien-
mo que se hace en computación, se hace do nuevas propuestas de sistemas como los
también en almacenamiento. Aunque el denominados “NO SQL”. Podemos tener
primer reto implica cambiar el modelo de muchos datos, pero no sirven de nada por-
procesado. Existen iniciativas como Redu- que no es información. Pero es que incluso
ce, Storm o S4, pero el problema no ha sido la información no es conocimiento, y lo
resuelto todavía. Sobre todo en lo referen- importante es lo que se denomina conoci-
te al tiempo real, como las decisiones que miento accionable: algo que nos permite
deben tomarse en una Smart City (ciudad llevar a cabo una acción. Por ejemplo, no
inteligente), en donde hay situaciones que sirve que una aplicación nos informe del es-
requieren encontrar una solución en menos tado del tráfico en nuestro camino al trabajo
de un segundo. porque el tráfico va cambiando en el tiempo
El almacenamiento es otro de los re- que nosotros empleamos en desplazarnos:
tos. Hasta ahora se utilizaba la RAM para necesitamos una aplicación que haga una
aquello que se utilizaba mucho en nuestros predicción a partir de datos actuales e his-
cálculos y el disco para el resto de la infor- tóricos del tráfico, el tiempo, la hora etc.,
mación. La memoria es mil veces más rápi- y que nos vaya indicando en tiempo real el
da que el disco, pero también es cien veces camino para tardar el mínimo tiempo posi-
más cara. En la actualidad, técnicamente, ble en llegar a nuestro destino. Los datos en
tampoco podemos contar con mucha me- sí no nos sirven. Necesitamos que generen
moria, lo que supone otro problema, y lo conocimiento y esto no es trivial porque
que se está desarrollando muy rápidamente las técnicas de machine learning y de data
es el denominado storage class memory. Hoy mining sirven para miles de registros, pero
en día utilizamos en nuestros ordenadores no para millones, por el momento. Estamos
discos sólidos, que son memorias que se han trabajando en ello, pero actualmente no lo
colocado donde antes había un disco. Son tenemos. Esto mismo es aplicable a otras
más rápidos, aunque más caros, y lo que ciencias y tenemos la suerte de contar con
se está investigando es el state storage class un centro multidisciplinar en el que colabo-
memory, que es colocar la memoria en su ramos, por ejemplo, con investigadores de
lugar. Cuando la comunidad científica haya Ciencias de la Vida. Valorizar sus datos no
solucionado este problema tendremos una es nada banal: tenemos problemas a todos
capacidad de memoria equivalente a la ca- los niveles, de almacenamiento, de gestión,
pacidad de disco y con el tiempo esto tendrá de procesado, etc. La Nube es una oportu-
un precio razonable. Este tipo de memoria nidad para acercar la supercomputación a
es más económica en consumo porque no es todos aquellos grupos que hasta ahora no
un disco mecánico, sino que está compuesta podían contar con ella.
34

LA NUBE, EL BIG DATA Y LA CIENCIA
Un universo de datos
El fenómeno Big Data y la Ciencia
Por Joaquín Salvachúa

Departamento de Ingeniería de Sistemas Telemáticos.
Universidad Politécnica de Madrid
Como ingeniero, mi enfo- browniano, en el cual tenemos unas partí-

que es menos creativo y más culas, por ejemplo de polen, flotando en
orientado a que las cosas un fluido y generando una serie de movi-
funcionen, aunque no siem- mientos. Hasta hace cierto tiempo, única-
pre desde un punto de vista mente podíamos seguir el movimiento de
totalmente científico de este tipo de cosas. estas partículas de polen flotantes, teníamos
¿Cómo se enfrenta uno a un proyecto de el resultado de una serie de movimientos
Big Data para intentar generar algún tipo característicos. Ahora es como si pudiése-
de conocimiento nuevo o de aplicaciones o mos tener los datos de todas las moléculas
servicios nuevos a partir de los datos que se de agua que están moviendo cada una de
tienen? Los cambios en el mundo del Big esas partículas. De repente se ha abierto una
Data pueden compararse al movimiento puerta, no solo a tener una cierta cantidad
35

Una de las características típicas que se muestran del Big Data
es el volumen. Son sistemas con un gigantesco volumen de datos que
no están perfectamente controlados, que se generan a una
gran velocidad, en muchos casos a mayor velocidad de la que somos
capaces de procesar
de datos, sino también a tener “todos” los hay que utilizar tecnologías o incluso inven-
datos posibles que están proporcionando altar soluciones nuevas que sean capaces de
gunos de los sistemas de medición. Eviden- resolver este tipo de problema. Por lo tanto,
temente existen algunas dificultades teóricas en muchos de estos casos las expectativas
para tener absolutamente todos los datos, que tenemos son bastante desastrosas. No
pero, al menos desde el punto de vista com- siempre es posible contar con toda la infor-
putacional, somos capaces de leer, intentar mación, aunque en la televisión parezca que
procesar y, en muchos de los casos, alma- sí, como en algunas series en las que a partir
cenarlos para su posterior utilización. Esto de una fotografía con cierta resolución se
cambia totalmente el universo de discurso obtiene información que antes no existía, y
al que nos estamos enfrentando. En lugar que por tanto es inventada.
de tener una serie de datos agregados que Efectivamente, se están realizando mu-
eran más o menos fácil procesar y dar una chos avances. Ahora mismo tenemos el mo-
serie de resultados, ahora tenemos todos los vimiento browniano social, en el que antes
datos. Esto crea una serie de problemas nue- podíamos únicamente ver ciertas cosas de
vos a los que tenemos que enfrentarnos con las características de una persona, y ahora
nuevas tecnologías. tenemos todo lo que hay que saber de una
Esto está realmente en el límite de la tec- persona: podemos saber su ubicación, pero
nología. Es decir, actualmente muchos de es que además nos cuenta lo que piensa,
estos sistemas son artesanales, se constru- lo que siente…, puede tener incluso algún
yen específicamente para un problema, y si tipo de sensor médico, con lo cual sabemos
tenemos un problema ligeramente distinto su presión, si realmente se emociona o no
se emociona; en Smart Cities te puede decir
dónde se mueve, el coche puede ir dándote
indicaciones de a dónde vas, y hay aplicacio-
nes, como Wise, que según arrancas el coche
ya te pregunta si vas a trabajar. Realmente,
este tipo de aplicaciones pueden llegar a sa-
ber todo tipo de información de una forma
muy complicada y las leyes que se aplican
en cada paso dependen de la situación geo-
gráfica de la empresa. En muchos de los
casos, utilizamos aplicaciones sin tener con-
ciencia de lo que está ocurriendo con todos
nuestros datos.
En cualquier caso, es un mundo fas-
cinante para muchas investigaciones de

tipo social o de otros tipos, en los cuales el
mundo se está convirtiendo en una gigan-
tesca fuente de datos que podemos analizar
36

Relación con Cloud Computing
• Despliegue de Hadoop en la Nube

• Pagas por lo que gastas
• Soporte en los distintos proveedores
• Engarce con sistemas de almacenamiento
y de procesado de valores
La relación entre los sistemas de Big Data y Cloud Computing es una oportunidad y una respuesta para los pequeños grupos de
investigación, permitiéndoles acceder a herramientas que hasta ahora no estaban a su alcance.
y podemos, de alguna forma, utilizar para procesar y guardar todos los datos, lo que su-
llegar a diversas conclusiones. Muchas ve- pone un problema muy distinto al de las ba-
ces el interés radica en el procesamiento de ses de datos tradicionales porque aquí se rea-
estos datos en tiempo real o casi real, esto liza una sola escritura y luego múltiples tipos
depende del problema que tengamos y de de lectura para procesarlos lo mejor que se
lo que se tenga que analizar. Tendremos una pueda dentro de las capacidades que se tie-
mayor cantidad de datos que, en muchos nen. Este fenómeno ha llevado a algunos a
de los casos, serán muy variados. A diferen- pensar que podemos estar ante la muerte del
cia de los sistemas que ofrecían datos más método científico, y es ahora mismo uno de
o menos procesados (como una operadora los grandes problemas a los que se enfren-
de telecomunicaciones que da una serie de ta el mundo científico. Es decir, estos datos
datos ya agregados para interpretarlos de son relativamente sencillos de procesar, se
una forma más o menos sencilla), ahora hay pueden ajustar con una serie de polinomios
muchos datos que incluso pueden estar re- y extraer unas fórmulas que sirven para un
petidos o tomados desde puntos distintos y artículo científico de un campo concreto,
con distinta relevancia, o que pueden estar pero realmente no se está extrayendo cono-
falseados por el propio sistema de medición. cimiento nuevo. Los grandes descubrimien-
Podemos tener datos de cuya veracidad no tos científicos se hicieron cuando se llegó a
podemos fiarnos demasiado. Por ejemplo, fórmulas analíticas que analizan realmente
los datos de un GPS dependen de dónde lo que estamos observando y aportan infor-
estemos, la información que proporciona mación adicional que nos permite predecir o
un GPS va cambiando dinámicamente y no diseñar nuevos comportamientos, como las
siempre tiene el mismo radio de precisión. ecuaciones de Maxwell o cualquier otro gran
Ahora contamos con la posibilidad de avance científico.
37

Es un problema porque es una ciencia ces de almacenar y procesar. En este senti-
guiada por los datos en la que los científicos do, hasta ahora todas las soluciones van si-
investigan sobre aquellos que son más fáciles guiendo el camino que ha marcado Google,
de procesar para llegar a ciertas conclusio- que ha creado un sistema distribuido para
nes. Y puede ser que, como en las series de analizar la web que es libre de escala y, por
datos hay partes que no son tan buenas o no lo tanto, el algoritmo que se planteó era el
hay tantos datos, empecemos a tener aguje- más adecuado. El sistema de Google tiene la
ros en la Ciencia. Es por ello que el Big Data ventaja de ser robusto y sobrevivir aunque
tiene una serie de riesgos posibles bastante falle cualquier tipo de los componentes.
grandes. De hecho, esto está pasando ahora Los sistemas de contenido peer-to-peer
mismo con Google y su experimento para son más sólidos en muchos casos que algu-
predecir las olas de gripe en Estados Unidos nos de los servicios de pago: muchos orde-
en función de las búsquedas. La predicción nadores colaborando, dando algunas partes
les ha fallado en el último año, bien porque de sus datos con un sistema perfectamente
la gente se ha adaptado a los sistemas sociales coordinado, nos puede proporcionar en
o por otros motivos. Esto significa que el Big muchos casos un tipo de servicio bastante
Data es una herramienta más, pero no pode- más interesante que el que podamos tener
mos convertirlo en el centro de la Ciencia. en otro tipo de sistemas. Esto representa un
Evidentemente, es muy interesante y en mu- cambio de mentalidad en los sistemas de al-
chos campos va a ser absolutamente relevan- macenamiento que surgió de lo publicado
te y nos va a permitir tener muchos nuevos por Google en 2006 en una serie de artículos
avances, pero tenemos que tener en cuenta científicos en los que describían su infraes-
que es muy peligroso y que algunos de los tructura y que han permitido crear el resto.
análisis nos pueden dar enfoques que no son El proyecto más importante que hay aho-
adecuados o incluso hasta engañarnos. ra mismo en este sentido, Hadoop, replica lo
Una de las características típicas que se que realizó Google inicialmente para avan-
muestran del Big Data es el volumen. Son zar a partir de ahí, aunque hay ya algunas
sistemas con un gigantesco volumen de da- voces que claman la búsqueda de un nuevo
tos que no están perfectamente controlados, paradigma. Hadoop diseñó una gigantesca
que se generan a una gran velocidad, en mu- base de datos sin estructura, al contrario de
chos casos a mayor velocidad de la que solo que ocurre con las bases de datos SQL,
mos capaces de procesar, lo que nos llevará a que permite tener múltiples discos, baratos
disponer de diversos heurísticos y datos que y fungibles, y al menos tres réplicas de cada
pueden no ser totalmente veraces, o bien elemento para evitar que, por cuestiones es-
porque la captura tenga un cierto proble- tadísticas, esta información se pierda.
ma o porque provengan de fuentes que por Por dentro, todos utilizan los mismos
alguna cuestión no sean totalmente fiables. sistemas que los peer-to-peer en BitTorrent
Respecto al volumen no se pueden apli- o Emule y sistemas de algoritmos denomi-
car las mismas soluciones que en Business nados Distributed Hash Tables que permiten
Intelligence porque colapsan debido a ciertos acceder a contenidos en función de unas
problemas computacionales y a los propios claves que se generan. En lugar de ir a una
algoritmos que estamos utilizando, que al parte de la memoria, va a otro ordenador
estar creados para otro tipo de datos pueden que está en alguna parte del mundo. Todos
afectar negativamente a nuestros resultados estos algoritmos son fundamentales para el

e impedir que sean los que realmente pode- avance de esta cuestión. Son la base de las
mos llegar a tener. bases de datos no-SQL. Cada base de datos
Necesitamos enfoques que seamos capa- no-SQL resuelve una serie de problemas y
38

necesitamos ajustarlas de una manera más o reas y vayan avanzando. Son sistemas auto-
menos sencilla. Tenemos los datos, se genera rregulados y auto-configurados, por lo que
un hash o un código a partir de ellos y distri- nadie puede equivocarse al configurarlos y
buimos esa clave por el mundo. Si tenemos se adaptan muy bien a los distintos cambios
suficientes participantes, esto nos proporcio- y problemas que podamos tener.
na una estructura de datos que es muy resis- Hadoop es un proyecto de software libre,
tente tanto a fallos como a pérdidas. iniciado en el proyecto Apache, que está es-
¿Cómo se computa esto? Google publicó crito en Java y que dispone de diversas ca-
un artículo en 2004 que explicaba cómo lo pas que permiten un uso más sencillo. Aun
hacían inicialmente con MapReduce, un mo- así, sigue teniendo una cierta complejidad.
delo de programación que presupone que el Programar en el paradigma de MapReduce
ordenador no va a ser capaz de realizar por sí requiere un cambio notable de mentalidad
solo toda la computación y se sirve, por tan- porque son computaciones en las que se van
to, de un número variable de ordenadores dejando elementos temporales en los discos
disponibles, con lo cual no se necesita calcu- y se cuenta con una serie de fases en las cua-
lar ni preparar el programa para el tamaño les vamos agrupando los datos para poder
que quiera tener, por lo que podrá hacerse paralelizarlos. La ventaja que tiene es que
de una manera absolutamente flexible. Esto no necesitamos programar específicamente
permite que la computación avance más o este tipo de paralelismo sabiendo números
menos rápida en función de los ordenado- ni máquinas concretas, sino que se va auto-
res que estén disponibles en cada momento. configurando en función de lo que tenga-
Si tengo, por ejemplo, un sistema de Cloud mos en cada momento. Evidentemente, esto
Computing, puedo aprovechar los valles de tiene una relación total con el Cloud Com-
la demanda para que realicen este tipo de ta- puting. Los operadores que ofrecen cloud
39

ofrecen ya el servicio de MapReduce sobre es una de las partes más críticas para cual-
cloud, permitiendo el acceso a estas funcio- quier proyecto de Big Data.
nalidades. La velocidad es otro de los grandes pro-
Un problema muy grave es que los da- blemas del Big Data ya sea en relación a la
tos son muy variados. Muchos de los casos generación, el almacenamiento, el movi-
van a ser no estructurados, lo que quiere miento y el procesado.
decir que no van a seguir una estructura, Muchos de los protocolos que se utiliza-
que en algunos casos pueden tener más o ban, o se siguen utilizando para multimedia,
menos campos dependiendo de que cier- para proporcionar flujo de datos, pueden
tos sensores funcionen o no, ni van a estar utilizarse para todo este tipo de cosas. De he-
agregados. El que los datos no estén agre- cho, muchos de estos esquemas están inten-
gados quiere decir que aunque no se haya tando utilizar las GPU. El problema es que
perdido información, al manejar una gran los GPU son unos sistemas bastante difíciles
cantidad de datos se necesita, en general, un de programar para uso general. La ventaja
precocinado anterior que debe ser manual. que tienen es que nos procesan una pantalla
Además, como los datos pueden provenir de entera en un solo ciclo de reloj, es decir, muy
múltiples fuentes no disjuntas, podemos te- rápidamente. Si conseguimos que nuestro
ner redundancia de datos, lo que puede lle- problema case con las arquitecturas de una
var a que unos algoritmos engañen. Como GPU, sí que podemos llegar a tener procesa-
resultado, tenemos que sobrepasar manual- do en streaming: Vamos a poder procesar los
mente la fracasada idea de la web semántica. datos que nos llegan desde los distintos sen-
La promesa de que en la web semántica el sores o desde los distintos sitios. De hecho,
proceso iba a ser automático no se ha hecho ya algunos proveedores de cloud empiezan

realidad, por lo que para cada caso concre- a tener proveedores, no solo de CPUs sino
to alguien tiene que hacer un curado y una también de GPUs, con los que podemos ha-
unión de todos los datos que tenemos. Ésta cer este tipo de procesados en la Nube.
40

IoT & Smart Cities
• Fuente de datos en crudo

• Abundancia de sensores: nuevos API
• Problemas de almacenamiento:
procesado distribuido
• Ciudades inteligentes:
propiedad emergente de sistemas
analizados con Big Data
La generación de datos está creciendo de forma exponencial. La sensorización asociada al Internet de las cosas (IoT Internet of things) y
las ciudades inteligentes (Smart Cities) es una de sus principales fuentes de crecimiento.
Otra parte muy importante es la visuali- nuevas técnicas de programación utilizan

zación. Mark Twain dijo que había tres ti- un lenguaje de programación orientado a
pos de mentiras: las mentiras, las malditas objetos, denominado duck typing, que se
mentiras y las estadísticas. La visualización basa en el principio de que si algo grazna
es esto último, pero es un componente vital como un pato, anda como un pato y se
de todo análisis. Una visualización debe ser mueve como un pato, lo consideramos un
atractiva para que sea publicada y normal- pato. En Internet da igual que no sepa tu
mente es llevada a cabo por personas que no nombre, pero tengo tu perfil entero. Eso
se han dedicado a los datos. Alguien tiene quiere decir que ahora mismo gran canti-
que ser capaz de procesar los datos, alguien dad de los sistemas que están conectados
tiene que entender de computación distri- a Internet son capaces de conocer cómo
buida para que esto funcione y otro distinto, nos comportamos, y esto nos puede llevar
con un perfil artístico, tiene que ser capaz de a muchos resultados. Nuestros datos están
hacer la visualización bonita, que es lo que, en una gran cantidad de sitios. En la obra
al final, la gente va a ver de una investiga- de Orwell “1984” se planteaba ya la exis-
ción. Éste es un nicho con mucho futuro en tencia de televisiones que eran capaces de
el cual todavía queda bastante por hacer. grabar a los usuarios. Ahora, una Smart TV
Otro punto esencial de la problemática tiene HTML 5 y W3C, es capaz de grabar
en torno al Big Data es la privacidad. A día y de enviar la información. Ahora mismo,
de hoy existe un cambio de esquema radical el Gran Hermano es posible con una Smart
en todo este asunto y, de hecho, las nuevas TV, el Internet de las cosas, las redes sociales
generaciones tienen una perspectiva distinta y el teléfono móvil. Es un escenario bastante
de la privacidad a la de las anteriores. Las complicado.
41

nimizarlos” y hundió el concurso, que tuvo
que ser cancelado. Por nuestra parte, esta-
mos trabajando ahora mismo en un esque-
ma de federación de búsqueda de resulta-
dos que manejen siempre datos agregados
y eviten la posibilidad de acceder a datos
concretos.
Por otro lado, también Netflix ha produ-
cido una serie, “House of Cards”, que es la
primera serie cuyo ritmo está producido por
Big Data. Netflix y Amazon son los prime-
ros proveedores que no solo saben qué pelí-
culas vemos, sino que saben cómo maneja-
mos el stop, el pause y el rebobinado; saben
cómo vemos las series, a qué ritmo la ve-
mos, y a qué horas. Toda esa información ha
sido procesada con algoritmos de Big Data
y se ha enviado a los guionistas, por lo que
“House of Cards” es la primera serie en la
Actualmente se generan tantísimos datos que los guionistas obtienen realimentación
que es necesario que los propios nodos de sobre cómo son los patrones de las personas
la Internet de las cosas no solo sean capaces que consumen este tipo de series. La han es-
de transmitir información, sino que sean trenado hace relativamente poco y no han
capaz de producirlos. Para esto tenemos que terminado de cerrar el bucle, pero estamos
diseñar nuevos algoritmos distribuidos que empezando a disponer de un sistema en el
aún no son capaces de hacer todo este tipo que las series se producen en función de los
de cosas, pero en el futuro las ciudades in- resultados que tomamos de Big Data, y que
teligentes serán propiedades emergentes de a su vez producirá más Big Data y empezará
estos sistemas analizados con Big Data. a tener un efecto, no se sabe si positivo o
Otro problema es que en algunos de los negativo, sobre diversos campos diferentes a
casos es posible sintetizar información que la Ciencia, como el periodismo.
está protegida por la Ley de Protección de La importancia de ser capaces de gestio-
Datos de forma no intencionada. Por ejem- nar datos no solo se aplica a científicos, sino
plo, si las tarjetas de crédito no se utilizan también a cualquier periodista. Es decir, hay
los sábados en absoluto se puede inferir mucha información que parece muy inte-
que sus dueños son judíos, o si no se utili- resante y muy importante para la sociedad
zan para comer durante el día, que profesa que está disponible en iniciativas de open
la religión mahometana. Es decir, nadie te data, y que colectivos que hasta ahora no se
da esos datos, pero a partir de sus datos los suponía que tenían que manejar Big Data
puedes inferir, por lo que debe aplicarse la van a tener que hacerlo, y eso nos lleva a
Ley de Protección de Datos y proteger nues- necesitar entornos muy sencillos para que
tras bases de datos según esta ley. usuarios no especializados sean capaces de
Ocurre lo mismo cuando se quiere ano- extraer este tipo de información. En este
nimizar totalmente los datos. Es famoso el sentido, los lenguajes que ahora mismo es-
caso de Netflix, que organizó un concurso tán más en boga son, por ejemplo, “R”, que
en el que proporcionaba ciertos datos y, de es el que tiene mayor extensión, comunidad
repente, una persona se dedicó a “desano- y flexibilidad, aunque va un poco lento;
42

Julia, que es una versión con un enfoque las grandes guerras en Internet son sobre
ligeramente distinto que va bastante más quién tiene el grafo social para poder ana-
rápido; y NumPy, que es una extensión nu- lizarlo con la ciencia de redes. Sin embargo,
mérica a Python que ha sido seleccionada se necesita todavía bastantes avances teóri-
precisamente por el DARPA para todos sus cos y existen también bastantes problemas
proyectos de Big Data. para procesar grafos. MapReduce y las ba-
Otro tipo de problemas ya existían an- ses de datos SQL no pueden procesarlo y
tes. La extrapolación, situaciones como la aunque Google ha publicado una respuesta,
protagonizada por Marissa Mayer, prove- esta vez no ha acertado y la gente no lo está
niente de Google y directora de Yahoo!, que siguiendo. El problema de los grafos es que
ha eliminado el teletrabajo porque había no tenemos un sistema adecuado para ver
analizado con Big Data los datos de las co- toda la información que se está producien-
nexiones a las redes privadas virtuales y su do en las redes sociales.
conclusión fue que la mitad de la gente no Por último, otro problema es el acceso.
trabaja. ¿Cuál es la justificación? Que lo ha Hay mucha gente que dice que los datos son
dicho el Big Data. Esto puede dar lugar a el nuevo petróleo, pero como no se sabe qué
casos horribles en muchas empresas porque hacer con todos esos datos, de momento se
el procesamiento de Big Data y sus extra- tienen bajo veinte llaves. Creo que para que
polaciones y conclusiones pueden ser total- la Ciencia avance, en muchos de los casos
mente falsas. Esto supone un riesgo muy van a ser necesarios enfoques abiertos y co-
grande que realmente podremos encontrar laborativos que permitan que las personas
en múltiples aspectos de nuestra vida. compartan sus datos. Pueden ser datos an-
Actualmente también existen grandes tiguos, pero se necesitan datos para que las
problemas en redes sociales. Aquí el para- personas que inventan algoritmos y sistemas
digma ha cambiado radicalmente con la los puedan probar y puedan seguir avanzan-
ciencia de redes y es extrapolable a otros do y superando limitaciones teóricas, ya que
campos. Ahora mismo el grafo social es un el acceso a los data sets es bastante compli-
tesoro que nadie quiere soltar, de hecho hoy cado.
43

BIG DATA:
DE LA INVESTIGACIÓN
CIENTÍFICA A LA GESTIÓN
EMPRESARIAL
44

BIG DATA:
DE LA INVESTIGACIÓN CIENTÍFICA
A LA GESTIÓN EMPRESARIAL
L
a segunda jornada organizada por la Fundación Ramón Areces en torno al mun-
do del Big Data y del Cloud Computing tuvo lugar el 3 de julio de 2014. La
jornada, coordinada por el profesor José García Montalvo y el consultor en
TIC Julio Cerezo, fue continuación de la realizada el año anterior, titulada El impacto
de la Nube y el Big Data en la Ciencia. La iniciativa se encuadraba dentro del interés de
la Fundación por el análisis del impacto en la sociedad de las nuevas tecnologías de la
información y la comunicación surgidas desde el ámbito científico, y de las implicaciones
que representan su implantación y uso.
Si en la primera jornada las materias ana- impacto de las nuevas tecnologías está tenien-
lizadas se centraban en el ámbito de las Cien- do consecuencias disruptivas y generando
cias de la Naturaleza y de qué forma la Nube una auténtica revolución en los modelos de
y el Big Data están modificando la forma de negocio de diferentes industrias y economías.
investigar en Medicina, Física o Astronomía, Según el informe “Open Data in Euro-
en esta ocasión el foco estuvo dirigido a estu- pe”, realizado por la Fundación DemosEU-
diar los retos y oportunidades del “Big Data” ROPA, en 2015 la inversión total prevista en
en las Ciencias Sociales y, específicamente, en Big Data alcanzará los 132.000 millones de
la Economía y la gestión empresarial. dólares. El comercio, la industria, la salud, la
El Big Data es uno de los fenómenos ac- información, las comunicaciones, la banca,
tuales de mayor transcendencia en el ámbito los seguros y la Administración pública son
del desarrollo científico y tecnológico. Aso- los sectores donde el aumento de la inversión
ciado a la gestión de gigantescos volúmenes será más relevante. Además, generará 4,4 mi-
de datos, de muy diversa naturaleza y cuyo llones de empleos en todo el mundo y au-
tratamiento no se puede realizar con las he- mentará la riqueza de la Unión Europea con
rramientas y analíticas convencionales, la un 1,9% adicional en el PIB para 2020.
Ciencia de los Datos representa una nueva Las tecnologías Big Data no solo ayudan a
realidad para la sociedad en su conjunto, en recopilar grandes cantidades de datos, sino que
distintos campos y disciplinas. Y ha sido en el además permiten su almacenamiento, organi-
mundo de la Economía y la empresa donde el zación y recuperación para aprovechar todo su
45

valor. Y con el objetivo puesto en que su uso percomputadores es lo que permite avanzar la
permita optimizar la toma de decisiones. Ciencia. Sin esa simulación no se avanzaría”,
El objetivo de la jornada era mostrar –a afirmó. Y destacó cómo el hardware ha llega-
partir del Big Data y la Computación en la do a un nivel de desarrollo en el que es capaz
Nube– el recorrido que existe entre la inves- de discriminar de toda esa información que
tigación científica y el mundo empresarial y va almacenando “cuál va a ser realmente útil
económico. Y dar cuenta de ese camino y de para un determinado estudio”. El director
los diferentes elementos –Universidad, em- del Centro Nacional de Supercomputación
presa, tecnología, ciudadanos– que intervie- subrayó que las predicciones son peligrosas,
nen en el proceso. que se hacen para fallarlas, y recordó que cada
La jornada tuvo un marcado carácter mul- 10 años se multiplica por mil la velocidad de
tidisciplinar, reflejo de la complejidad e inter- procesamiento de datos. También advirtió
relación que se da en la realidad. Expertos que “la tecnología va muy por delante de las
de diferentes instituciones, universidades y leyes y esto es muy peligroso”.
compañías privadas explicaron el pasado, el A continuación intervino Daniel Villato-
presente y el futuro de unas herramientas tec- ro, perteneciente a BBVA Data & Analitycs,
nológicas que en muy poco tiempo han pa- con su exposición sobre Big Data, economía
sado de la investigación científica al mundo y organizaciones. Villatoro, cuya experiencia
de la empresa. en investigación se centra en tres áreas cien-
La jornada mantuvo la misma estructura tíficas –la Ciencia cognitiva, que es cómo los
que la primera de las celebradas. Dividida en humanos tomamos decisiones; la Economía
dos sesiones, en la sesión de la mañana se experimental, o cómo los individuos toman
analizaron los temas transversales que afec- decisiones que afectan a sí mismos y a otros;
tan en su conjunto a los diferentes ámbitos y y las redes sociales enfocadas al nivel de in-
sectores. En la sesión de la tarde, la atención teracción y cómo el entorno y las relaciones
se centró en el análisis de aspectos específi- afectan a las decisiones que tomamos–, des-
cos, para ayudar a visualizar, con ejemplos tacó que el objetivo de su trabajo se centraba
concretos y experiencias reales, el alcance del en tratar de responder a las grandes preguntas
fenómeno Big Data y cómo está abriendo que esconde el Big Data desde un punto de
las puertas a un nuevo enfoque de entendi- vista científico: “¿Cómo tomamos decisiones
miento de la realidad para la toma de deci- los humanos?, ¿por qué? y ¿cómo estas de-
siones en el ámbito empresarial. cisiones podrían afectar eventualmente a la
eficiencia de nuestro negocio como banco,
El papel de los superordenadores cómo ahorrar costes o dar un mejor servicio?”
Mateo Valero, director del Centro Nacio- Datos para entender el comportamiento de
nal de Supercomputación del CSIC, con sede las personas, en este caso, relativo al consumo
en Barcelona, fue el encargado de abrir la jor- de productos y servicios.
nada con su ponencia El estado del arte del
Big Data & Data Science. La revolución de los Uso de datos y privacidad
datos. Valero dedicó su tiempo a hablar de la Dentro de los elementos transversales del
computación, los superordenadores y cómo Big Data, la ética y la privacidad de los datos
estos se encuentran en el centro de la inno- ocupan un lugar destacado. Para hablar so-
vación científica y son responsables de ade-
bre esta cuestión intervino Ricard Martínez,

lantos científicos como la secuenciación del Data Protection Officer de la Universitat de
genoma, la evolución de células cancerígenas Valencia y presidente de la Asociación Profe-
o la identificación del bosón de Higgs en el sional Española de la Privacidad. “Cualquier
CERN... “La simulación que ofrecen los su- persona tiene derecho a proteger la informa-
46

ción sobre ella y los problemas van mucho tervención de Carsten Sørensen, de la Lon-
más allá de la política de protección de da- don School of Economics, Datos y empresa:
tos”, aseguró. El auge de las máquinas. Sørensen se centró
Martínez explicó cómo gran parte del mo- en profundizar en el incipiente fenómeno
delo de negocio en Big Data se basa en que el del Internet de las cosas y en las diferentes
titular de los datos ha consentido ese uso. “El formas de comunicación con las máquinas.
usuario no suele ser consciente de que está “Las empresas buscan que nos casemos con
dando todos esos permisos. Sociólogos nor- ellas, ya no nos ofrecen productos en sí, sino
teamericanos han calculado que necesitaría- emociones”, señaló. “Las TIC se van a utilizar
mos 100 días para leer y entender todos los cada vez más para permitirme hacer el trabajo
contratos de consentimiento que aceptamos que tendrían que hacer las empresas por mí,
por usar apps, redes sociales.” El presidente como pagar yo solo sin que nadie me atien-
de la Asociación Profesional Española de la da... Ahora somos nosotros los que servimos
Privacidad se refirió también a los riesgos que a las máquinas, seremos sus esclavos”, añadió.
implica el uso masivo de datos: “El análisis Sørensen reconoció que lleva estudiando
masivo de datos va a permitir muchos avances Internet desde 1993 y que desde entonces
en Medicina, también en marketing o consu- nunca ha sido capaz de predecir lo que iba
mo –como cuando Amazon nos recomienda a suceder en un horizonte más allá de dos
libros que nos interesan– pero hay que ofre- años. Sin embargo, sobre el futuro de la
cer un marco seguro, equilibrar las posiciones computación y el empleo, advirtió que la
y no basarlo todo en un consentimiento que sociedad camina hacia una polarización del
es falaz, evitar situaciones de cuasimonopolio mercado de trabajo: “A un 10% de la pobla-
y fomentar la transparencia”, indicó. ción le lloverán las ofertas y al resto no lo
querrá contratar nadie, por lo que habrá una
Esclavos de las máquinas tremenda polarización”.
La sesión de la mañana finalizó con la in- La segunda sesión de la jornada se orien-
47

tó hacia temas más específicos del Big Data, de datos es como tener el mejor avión sin pi-
como la gestión de los datos en la empre- loto”, insistió durante su intervención en la
sa, el Big Data y los servicios financieros, el Fundación Ramón Areces.
análisis predictivo de las redes sociales o la Las dos últimas ponencias de la jornada
relación entre opinión pública y los merca- se centraron en analizar un fenómeno de
dos. nuestro tiempo y muy ligado al Big Data: las
Manuel Machado, socio director de redes sociales, que aportan un flujo incesan-
Deloitte, comenzó con la ponencia sobre Big te de datos que ofrece enormes oportunida-
Data y servicios financieros, en la que analizaba des de negocio, tanto en términos de cono-
las posibilidades del Big Data para la mejora cimiento de los clientes como de apertura de
de los servicios financieros y la experiencia del nuevos canales de mercado. Las redes sociales
cliente, así como para aumentar la eficiencia se han generalizado y la adopción por parte
de las corporaciones en un contexto de prede los usuarios se ha universalizado. Esteban
sión sobre la rentabilidad de las entidades Moro, profesor de la Universidad Carlos III
financieras. La utilización de técnicas de Big de Madrid, centró su intervención sobre Big
Data, recordó, “se ha extendido a la califica- Data y análisis predictivo en caracterizar esta
ción crediticia de los solicitantes de créditos o realidad donde cada minuto en Internet se
hipotecas, la detección del fraude en tarjetas, envían más de 200 millones de emails, se
la microsegmentación o los servicios de infor- realizan 2 millones de búsquedas en Google
mación a los clientes”. o se generan 350 Gb de datos en Facebook.
Por su parte, Óscar Méndez, CEO de Para Moro, el tratamiento y estudio correcto
Stratio, una compañía con sede en Palo Alto de toda esta información es lo que posibilita
(California) y que ha participado en proyec- el análisis predictivo, la capacidad de anti-
tos de Big Data con muchas de las empresas cipar comportamientos o respuestas a partir
incluidas en el Ibex 35, en su intervención, de los datos previos. Entre los ámbitos don-
bajo el título Los datos, la nueva materia pri- de se aplican los modelos predictivos, citó la
ma del marketing, destacó que “las compañías detección de fraude y la gestión de riesgos en
más valoradas del mundo son las que mejor el sector financiero y en seguros; la adopción
usan los datos: Google, Apple, Facebook”. de nuevos productos y los servicios de reco-
Asimismo, recomendó a aquellas empresas mendación en marketing, o los deportes. Por
que quieran empezar a trabajar con estas tec- último, Moro señaló los riesgos que existen
nologías que realicen un estudio de la madu- para los modelos predictivos, como el hecho
rez de uso de los datos que manejan. de confundir causalidad con correlación:
Méndez aclaró que a las empresas hay que “Aunque ciertas variables muestren poder
hablarles de resultados económicos y que el predictivo, eso no significa que hayamos
Big Data va en esa dirección, ofreciendo in- encontrado un mecanismo que explica lo
finitas posibilidades en el área de marketing. sucedido”.
A partir del análisis a gran velocidad de los Por último, Daniel Gayo-Avello, profesor
datos ya almacenados de lo que ocurrió en de la Universidad de Oviedo, habló de Big
el pasado y de lo que está pasando ahora se Data, Twitter, opinión pública y mercados. Su
pueden predecir los comportamientos de los ponencia se centraba en el análisis de esta red
clientes en el futuro. “Por ejemplo, es muy social que, por sus características, es idónea
útil para realizar un seguimiento en tiempo para su estudio y análisis como canal de ex-
real de una campaña publicitaria, para com- presión de la opinión pública (“adversativa”),
probar si está funcionando y modificarla so- destacando también las dificultades y proble-
bre la marcha. Sin embargo, intentar predecir mas existentes para que los modelos cumplan
algo en Big Data sin contar con científicos correctamente con su función predictiva.
48

BIG DATA: DE LA INVESTIGACIÓN CIENTÍFICA
El estado del arte del Big Data & Data Science.

La revolución de los datos
Por Mateo Valero

Director del Centro Nacional de Supercomputación
Un país avanzado tiene que de los que se originan en un principio, un

generar ideas e introducir país no tiene futuro. Es un trabajo de todos
esas ideas en productos com- y las administraciones deberían dar recursos
petitivos. Pero para generar que sean suficientes y constantes. Además, es-
esas ideas se necesita un eco- tos recursos deben gestionarse correctamente
sistema que funcione muy bien. Este eco- porque a veces los recursos que se dedican son
sistema está compuesto por universidades y más o menos razonables pero la gestión es ho-
centros de investigación, las administraciones rrorosa y se terminan desperdiciando muchos
y las empresas. Y si unimos esfuerzos, segura- de ellos. Ante todo, debería haber un Pacto
mente España pueda llegar a ser un país muy de Estado por la Ciencia, un país que no ten-
competitivo. Es de conocimiento común que ga un pacto para la Ciencia no puede avanzar.
los países más ricos hoy en día son los que En cuanto al papel de las empresas, se ha he-
más dinero han dedicado a la investigación cho muchísimo pero hay que seguir avanzan-
en los últimos años, y España, desgraciada- do y una de las obligaciones de la universidad
mente, no es uno de ellos. Si no dedicamos es producir ideas, investigar en temas pun-
suficientes recursos para generar ideas que, a teros y hacer que esas ideas, en colaboración
su vez, produzcan más recursos, muchos más con las empresas, produzcan riqueza.
49

Para aplicar la teoría, además de los tradicionales laboratorios, a día
de hoy necesitamos ordenadores que ejecuten programas y obtengan
resultados muy rápido. Los supercomputadores son los aceleradores
de la teoría
Supercomputación computación (o BSC, por Barcelona Super-

Los supercomputadores son los ordenado- computing Center) se originó en el depar-
res más rápidos del mundo y son el tercer pilar tamento de investigación de la Universidad
para la Ciencia y la ingeniería. Sin teoría, sin Politécnica de Cataluña de arquitectura de
Matemática, sin Física no se va a ningún lado. computadores y computadores paralelos, un
Pero para aplicar la teoría, además de los tradi- departamento pionero en Europa y de los me-
cionales laboratorios, a día de hoy necesitamos jores del mundo. Creamos el Centro Europeo
ordenadores que ejecuten programas y obten- de Paralelismo de Barcelona y en el año 1984
gan resultados muy rápido también para que ya trabajábamos con computadores paralelos.
los expertos de cualquier ciencia o ingeniería IBM se interesó por las investigaciones lleva-
puedan comprobar sus teorías y les ayuden a das a cabo en el centro y lo financió durante
avanzar. Todo para que, en definitiva, se den cuatro años para crear el CEPBA-IBM Re-
aplicaciones prácticas, modifiquen la experi- search Institute (CIRI). Enseguida contacta-
mentación y modifiquen la teoría. Los super- mos con las empresas líderes en informática
computadores son los aceleradores de la teoría. para establecer centros de investigación con
Necesitamos que el conocimiento avance, ellos. Si en la universidad española creamos
pero sobre todo y aunque los supercomputa- buenos centros de investigación, sobre cual-
dores ya han avanzado muchísimo, necesita- quier tema, la financiación llega, aunque no
mos máquinas mucho más rápidas. Durante sea de Madrid o de Barcelona, porque las em-
los últimos 30 años, cada 10 años, la veloci- presas se interesan y colaboran.
dad de procesamiento se ha multiplicado por Desde los años 80 ya sabíamos que que-
mil. En 30 años se ha multiplicado por mil ríamos ser un grupo multidisciplinar: un
millones. Esto supone que el supercomputa- grupo que fuese experto tanto en software
dor más rápido del mundo hace 12 años hoy (sistemas operativos, compiladores, runtime,
en día quepa en un chip. Los supercompu- etc.) como en hardware. Y desde entonces
tadores son máquinas que teóricamente nos diseñamos computadores y fuimos ganando
permiten soñar, si las utilizamos adecuada- una gran experiencia en el uso de computa-
mente, porque nos permiten simular cosas dores paralelos, hasta que más tarde llegó el
que sería imposible simular de otra manera; MareNostrum al BSC.
nos permiten abarcar nuevos retos que sin esa La entrada de España a la Unión Euro-
potencia de cálculo son imposibles. Por otro pea fue muy buena para aquellos grupos que
lado, hay que tener en cuenta la energía que podíamos competir y colaborar a nivel euro-
utilizan estas máquinas, además de la de re- peo. Desde el año 1986, en el CEPBA hemos
frigeración. Un computador de 15 a 16 me- conseguido más de 30 millones de euros para
gavatios tiene un coste de 15 a 16 millones empresas y grupos de investigación españoles.
de euros al año y genera emisiones de CO2 Muchos proyectos para grandes marcas nos
equivalentes a las de 400 coches circulando a
dieron una visibilidad muy grande y utilizába-

100 km/h constantemente. mos el dinero que nos sobraba de la colabora-
ción europea para dedicarlo a la investigación
Centro Nacional de Supercomputación básica y a la formación de nuestros doctoran-
El origen del Centro Nacional de Super- dos, creciendo poco a poco. Sorprendimos al
50

Evolution over time of the research paradigm
• In the last millenium, science was empirical
• Description of natural phenomena
• A few centuries ago opens the theoretical approach

• Using models, formulas and generalizations
• In the recent decades appears computational science

• Simulation of complex phenomena
• Now focuses on the exploration of Big Data (eScience)

• Unification of theory, experiment and simulation
• Capture massive data using instruments of generated through
simulation and processed by computer
• Knowledge and simulation stored in computers
• Scientist analyse databases and files on data infrastructures
Jim Gray, National Resarch Council, http://sitesnationalacademies.org/NRC/Index.htm; Computer Science and
Telecommunications Board, http://sitesnationalacademies.org/cstb/Index.htm
Big Data, la última etapa en la evolución del paradigma de la investigación científica.
mundo diseñando con IBM el cuarto super- computación, de manera que tenemos com-
computador del mundo, el primero que uti- putadores conectados por la red en varios
lizó Linux (ahora todos utilizan Linux), con lugares de España, de manera que puedan ser
procesadores iguales a los que llevan los Apple. utilizados fácilmente.
Desmitificamos aquello de que para hacer un Publicar en algunas revistas y congresos
supercomputador había que utilizar tecno- siempre es fundamental, pero la buena in-
logía muy cara: utilizamos tecnología que ya vestigación es mucho más importante. Y la
se utilizaba para otras cosas. A nivel mundial buena investigación debe generar riqueza.
somos pioneros, somos los únicos que han No solo la que se publica en los mejores si-
propuesto utilizar, en vez de esos chips con tios, que tiene su valor, pero si las ideas no
los que se construyen los supercomputadores se llevan a la práctica, no sirven para nada.
que consumen muchísimo y son costosísimos, Ni Bill Gates, ni los fundadores de Face-
utilizar los chips de teléfonos y tabletas, que book y Google escribieron ningún artículo,
son muy baratos y consumen poco. pero generan muchísima riqueza y tienen
Como consecuencia de esto, los patronos muchísima influencia en el mundo. Hemos
de este centro (el Ministerio de Educación, colaborado con muchas empresas. Tenemos
la Generalitat de Cataluña y la Universidad alianzas estratégicas con empresas generado-
Politécnica de Cataluña) decidieron crear el ras del mejor hardware y software para com-
BSC. El BSC tiene dos objetivos: Dar servi- putadores, no solamente supercomputadores,
cio a todos los investigadores españoles e in- sino de computadores de altas prestaciones. Y
vestigar. La investigación del centro se divide luego, a nivel español, tenemos una alianza
en cuatro departamentos diferentes: Ciencias muy valiosa con Repsol. También hemos em-
de la Tierra, Ciencias de la Vida, Ciencias pezado con Iberdrola y pronto empezaremos
Informáticas y Aplicaciones Informáticas. a colaborar también con un banco español no
También creamos la Red Española de Super- rescatado.
51

Los centros de investigación que tie- ñola alrededor del MareNostrum, del alma-
nen un cierto nivel y quieren colaborar con cenamiento de esos datos y de la creación de
empresas necesitan dinero europeo. Pero la los mejores programas para trabajar en fun-
financiación depende de la calidad. En to- ción de esos datos.
tal hemos cobrado ya, hasta diciembre del Uno de los ejemplos también publicado
2011, casi 60 millones confirmados, unos en Nature es el trabajo sobre medicina perso-
30 más que vamos cobrando y desde luego nalizada que están llevando a cabo desde dife-
los resultados son muy impresionantes. Por rentes instituciones los doctores Carlos López
cada euro que nos han dado, hemos obte- Utín, Elías Campo, y los profesores Modesto
nido prácticamente seis de fuera de España Orozco y David Torrents. Por primera vez
para investigar: el 40% de estas fuentes de se ha podido proporcionar al médico infor-
investigación proviene de la colaboración mación en tiempo real para mejorar el tra-
con empresas, el 35% proviene de proyectos tamiento del paciente y ver cómo evolucio-
europeos, y menos del 20% proviene de los na. Esto abre unas posibilidades tremendas.
presupuestos del Estado. Dentro de dos o tres años, gracias al avance de
Y ahora voy a describir el trabajo que de- la tecnología (por ejemplo, Nvidia, una em-
sarrolla cada una de las áreas de investigación presa que diseña procesadores gráficos muy
del Centro. potentes, ha creado un procesador de 6 cm2
de silicio con 1,5 teraflops), cualquier investi-
Ciencias de la Tierra gador que necesite potencia de cálculo tendrá
Equipo de unas 20 personas que investi- encima de su mesa la potencia que tenía Ma-
gan temas como el cambio climático, realizan reNostrum hace menos de diez años, lo cual
predicciones de la calidad del aire en tiempo permite hacer cosas impresionantes como
real, etc. El software utilizado para esto últi- esta, no solo en hospitales, sino también en
mo ha sido utilizado por muchas empresas empresas, centros de investigación, etc. Res-
para ver la influencia de, por ejemplo, cons- pecto a los fármacos, hemos desarrollado la
truir una central térmica. base molecular de proteínas más grande de
Europa, abarcando también la proteína en
Ciencias de la Vida movimiento, lo que permite generar nuevos
Departamento de unas 100 personas, que modelos físicos y matemáticos que permiten
utilizan la supercomputación para investigar crear nuevos fármacos más rápidamente. Este
genes, proteínas, medicamentos, etc. El equi- departamento tiene alianzas muy fuertes con
po del departamento ya ha sido portada de la empresas a nivel español, europeo y mundial,
revista Nature y han investigado, por ejem- como Schrödinger o Danone. También está
plo, el genoma del tomate, o cómo los genes generando startups en temas muy concretos.
que hay en el estómago indican qué enferme-
dades puede tener un cuerpo. Este es un cam- Ciencia de los computadores
po realmente muy importante en el que, por Es el departamento más grande, está ori-
ejemplo, podemos secuenciar un genoma. La ginado en la UPC y trabaja en el desarrollo
tecnología ha avanzado mucho durante los de hardware y software, desde en móviles
últimos años y cada año se multiplica por hasta en supercomputadores, y pasando por
cuatro la velocidad del proceso de obtención centros de datos, ordenadores personales,
del genoma de una persona. A día de hoy se etc., ya que la tecnología es la misma, los
hace en un día y la parte fundamental cues- modelos de programación son los mismos,
ta menos de 1.000 USD. A partir de ahí se y los problemas de energía son los mismos, a
pueden llevar a cabo muchas investigaciones. diferente escala pero todo es igual.
Tenemos a toda la comunidad científica espa- Colaboramos con IBM, Microsoft,
52

Sequencing costs
Source: National Human Genome Resarch Institute (NHGRI)

http://www.genome.gov/sequencingcosts/
(1) “Cost per Megabase of DNA Sequence” – The cost of determining one megabase (Mb; a million bases) of
DNA sequence of a specified quality
(2) “Cost per Genome” – The cost of sequencing a human-size genome. For each, a graph is provided showing
the data since 2001.
In both graphs, the data from 2001 through october 2007 represent the cost of generating DNA sequence using
Sanger-based chemistries and capillary-based instruments (‘first-generation’ sequencing platforms). Beginning
in january 2008, the data represent the cost of generating DNA sequence using ‘second-generation’ (or ‘next-
generation’) sequencing platforms. The change in instruments represents the rapid evolution of DNA sequencing
technologies that has ocurred in recent years.
La tecnología ha avanzado mucho durante los últimos años y cada año se multiplica por cuatro la velocidad del proceso de obtención del
genoma de una persona. Ahora se hace en un día y la parte fundamental cuesta menos de 1.000 USD.
Nvidia, Intel, etc. Por ejemplo, con IBM he- zar que el computador va a dar una solución
mos tenido hasta 40 personas trabajando en y controlar aquello que controla en tiempo
redes de interconexión, modelos de progra- real (aviación, en frenos de coches, etc.).
mación, aplicaciones, etc. Microsoft nos lla-
mó en 2005, convirtiéndonos en el primer Aplicaciones de ingeniería
centro del mundo que trabajó con Microsoft Es un departamento muy multidisci-
en el diseño de hardware. Nuestros investi- plinar de unas 35 personas, que desarrolla
gadores publican en las mejores revistas y software para computación de alto rendi-
congresos del área pero si solamente publi- miento (High Performance Computing o
camos en las mejores revistas y congresos y HPC en inglés) para proyectos de mecánica
no hacemos nada más, nos convertiremos de fluidos computacional (Computational
en centros de investigación gratuitos para las Fluid Dynamics o CFD en inglés), mecánica
multinacionales que van a copiar lo que ha- de sólidos, electromagnetismo, etc.
cemos y explotarlo económicamente. Los modelos de colaboración de este de-
Probablemente el BSC es el número uno partamento con empresas incluyen la opti-
a nivel mundial en modelos de programa- mización de aplicaciones externas (Airbus)
ción y herramientas para ver el comporta- o software a medida, como el que hemos de-
miento de programas. También, a nivel eu- sarrollado para Repsol, que le ha permitido
ropeo, nuestro centro, que colabora con la ahorrar millones de euros gracias a que he-
Agencia Europea Espacial y Airbus, es quizás mos aumentado en un 25%-30% las proba-
de lo mejor que hay en diseño de procesa- bilidades de éxito de sus sondeos, que pueden
dores, donde lo importante no es que sean costar 100 millones de euros cada uno. Tam-
muy rápidos, sino que lleguen a tiempo. bién colaboramos con Iberdrola para optimi-
Ante ciertas circunstancias hay que garantizar el funcionamiento de los aerogeneradores,
53

Challenges of data generation
Volume Variety
Scale of data Different forms
of data
The
FOUR V’s
of
Big Data
Velocity Veracity
Analysis of Uncertainty
streaming data of data
Las variables que definen los retos del Big Data: volumen, velocidad, variedad y veracidad.
Fuente: htpp://www-01.ibm.com/software/data/bigdata/.
y con Aerolíneas Argentinas para ayudarles a básicamente para dos cosas: para llevar a
redirigir aviones de manera optimizada en cabo operaciones antes de operar de ver-
función del estado de la atmósfera, especial- dad, ya que es posible hacer modelos elec-
mente en casos de erupciones de volcanes. En trónicos de cada corazón; y para observar la
definitiva, ayudamos a las empresas a ahorrar influencia de muchos fármacos en tiempo
muchísimo dinero con tecnología que difí- real cuando hay una patología.
cilmente podrán tener, aunque sean grandes En definitiva, en España nos queda mu-
empresas. Desarrollamos tecnologías globales cho camino por recorrer pero estamos orgu-
que, debidamente modificadas, pueden uti- llosos y contentos con lo que hemos hecho
lizarse para diferentes aplicaciones. Por des- hasta ahora, con nuestras colaboraciones con
gracia, la crisis afecta a empresas españolas las mejores multinacionales y empresas del
muy importantes que se han quedado hasta país, y con la educación. La buena investiga-
sin departamentos de investigación. En estas ción es la que produce riqueza en tu entorno.
circunstancias es muy complicado transferir De nada sirve saber la influencia del botijo
la tecnología a la empresa. en la invasión de los bárbaros. Igual es un
Otro proyecto es una simulación en 3D tema muy interesante pero no va a generar
y de 3GB del funcionamiento del corazón. riqueza. Si hubiésemos patentado nuestras
¿Dónde se genera el impulso eléctrico en investigaciones de los últimos años, seríamos
el corazón? Nadie lo sabe. Pero sí se sabe millonarios. Pero los centros de investigación
que los iones tienen un papel en ello, que tenemos que dedicarnos a la investigación
dependiendo de dónde se genere puede puntera y tener buenas ideas. Y las ideas de-
dar problemas, y que los fármacos pueden ben ser convertidas en riqueza por los em-
cambiar el punto en el que se genera dicho presarios. No creo que sea nuestra labor y, de
impulso. Por tanto, las aplicaciones de este hecho, muchos profesores que tienen buenas
corazón son enormes y queremos, cuando ideas no están preparados para llevar esa idea
lo mejoremos, que los médicos lo utilicen al mercado, tienen que ser las empresas.
54

Datos y empresa:
el auge de las máquinas
Por Carsten Sørensen

London School of Economics
¿Por qué nos interesa el gran ha cambiado pero todo lo demás sigue igual.
fenómeno del Big Data en En el siglo XX ocurrió un fenómeno fan-
este momento de la historia? tástico. De repente, la clase media emergió
Existen cinco factores prin- y el número de personas que podía comprar
cipales: las empresas y cómo cosas se disparó: era una sociedad de ma-
han cambiado en los últimos 300 años, las sas de consumo de masas. Hoy casi todo el
máquinas y cómo han ido cambiando desde mundo tiene acceso a un teléfono móvil o
hace 175 años, los materiales y cómo en- a una red local de telecomunicaciones; de
tendemos el esfuerzo humano en términos hecho, estudios contrastados muestran que
materiales, la innovación y cómo está cam- incluso las personas pobres de los suburbios
biando y el futuro y cómo éste será. en India escogen tener un teléfono móvil.
En el siglo XIX, con una nueva clase me- A día de hoy, en una nueva sociedad de
dia y un modelo de consumo de principios individuos, el reto del siglo XXI es cómo
de la época Moderna, comprar un producto conseguir que las personas se sientan ani-
requería ir a una persona y encargarlo para madas y felices al comprar. Así, en vez de
que esta persona pudiese fabricarlo. Podía vender productos, comenzamos a vender
ser un carro de caballos, una peluca, un reloj servicios que tienen que ser individualiza-
o un libro, pero todos ellos eran productos dos. El desafío de las empresas es cómo pro-
hechos a mano. A día de hoy la tecnología porcionar relaciones de servicios, y cómo
55

Hemos pasado de la era de la máquina inteligente, que trataba
de encuentros, a la era de la máquina generativa, que trata sobre
relaciones
involucrarse en una relación emocional con der a escuchar y conseguir que el cliente se
el cliente. Para los clientes es como casarse suba a bordo. Tienen que escuchar porque
con las empresas. Un buen ejemplo de ello necesitan automatizar la relación entre el
es Apple, o lo que hizo cuando vendió el cliente y el servicio con tecnología informá-
primer iPhone: Apple ofreció a sus usuarios tica y crear muchos datos que necesitan ser
una experiencia que no tenían con un telé- ajustados constantemente. Además, tienen
fono Nokia normal que, por otro lado, era que involucrar a los clientes para que ellos
finés y aburrido. mismos hagan el trabajo: ellos compran el
No obstante, la única y principal diferen- teléfono en la tienda online, lo actualizan y
cia entre un mundo que vende productos y descargan las aplicaciones.
uno que vende servicios es que el propieta- Facebook, por ejemplo, es el segundo
rio del servicio es el prestador del mismo. país más grande del mundo, solo superado
Esto significa que los clientes y las empresas por China en apenas 400.000 personas, y
comienzan una relación que, como todas podría desaparecer de la noche a la mañana
las relaciones, necesita de actualizaciones si los usuarios dejaran de utilizarlo. Somos
constantes porque las preferencias cambian nosotros los que mantenemos Facebook
con el tiempo y se mueven constantemente, vivo, aunque solo seamos esclavos de una
y esos movimientos exigen cambios, adap- gran maquinaria.
taciones y reconfiguraciones. Además, las No obstante, en cualquier tipo de rela-
empresas tienen que conseguir que esta in- ción, se necesita confianza y, tras los políti-
teracción mutua, este mutuo compromiso cos, las empresas comerciales son las entida-
con el cliente esté automatizado. des en las que menos se confía en el mundo.
Con el fin de embarcarse en este nuevo Esto ocurre, en parte, porque en las grandes
paradigma de relaciones individuales y au- empresas es imposible controlar las plantillas
tomatizadas, las empresas tienen que apren- y los procesos, y también porque son muy
rápidos a la hora de vender cualquier cosa
pero muy lentos cuando hay que resolver un
problema con el servicio que se ha compra-
do. Además, también es un problema tener
que proporcionar información personal a las
empresas para que actualicen sus datos.
Máquinas
Una de las cosas que nos diferencia de los
primates es que construimos herramientas,
y a lo largo de nuestra historia, hemos pasa-
do por tres diferentes eras relacionadas con
las máquinas: la era de la máquina mecáni-

ca, la era de la máquina inteligente y la era
de la máquina generativa.
En la era de la máquina mecánica em-
56

Business innovation
Hand-crafted Early Modern Consumption

engagement 19 th Century New Middle Class Products
Mass Consumption
Product
transactions 20th Century Mass Society
Products and Services
New Society of Individuals

Service Individuated Consumption
relationships 21th Century Support/Honest Relationships
Excitement / Experiences
Dr. Carsten Sørensen
En la nueva sociedad de individuos del siglo XXI, los servicios han reemplazado a los productos.
pleamos el potencial generativo del fuego la virtualización y, finalmente, a las redes de

para crear un desequilibrio de mercado a valor globales.
través de la automatización, que llevó a la En el proceso de gestionar la informa-
Revolución Industrial. En aquel tiempo, la ción sucedió la digitalización. Tuvo conse-
intensidad del capital creó mercados de ca- cuencias muy relevantes en las tecnologías
pital y una integración vertical que aseguró de almacenamiento, procesamiento y dis-
una utilización máxima. Las máquinas tam- tribución de información, que llevaron a
bién permitían y requerían la diversificación la destrucción de productos e industrias. Y
que aseguraba la utilidad de una inversión. condujo a la era de la maquina generativa,
Esto fue un gran éxito. una edad basada en el fenómeno de la má-
Durante la década de los años 50 y 60 quina de “lo que sea”, el nuevo fuego. Esta
entramos en la era de la máquina inteli- máquina de “lo que sea” es reprogramable y
gente. El nuevo fuego era la información, sus usos no vienen anticipados por sus in-
así que la capacidad de acceder a la infor- ventores, como las aplicaciones no fueron
mación y gestionarla mejor que los com- anticipadas por Steve Jobs o el inventor de
pañeros o la competencia ofrecía una ven- Android. La máquina de “lo que sea” per-
taja competitiva y creaba un desequilibrio mite la separación de la forma y la función,
de mercado. Con el fin de lidiar con ello y y de los contenidos y los medios, mientras
gestionar la complejidad de tal sobrecarga que al mismo tiempo contribuye a una in-
de información, la estrategia a seguir fue la novación de distribución global.
modularización, dividirlo todo en módulos
para distribuirlo globalmente de una ma- Materiales
nera coordinada que, finalmente, llevó a la Los grandes momentos del desarrollo de
aparición de las jerarquías, la tercerización, la humanidad pueden asociarse con un ma-
57

Age of the generative machine
• The Turing/von Neumann Anything Machine (text your smartphone)
• Flexibilty reprogrammable machine is the new fire
• Digital technology intensively interconnected
• From looking at the interface to residing “within the machine”
• Procrastinated binding and generativity (Apps and services even
Steve Jobs could not have imagined)
• Separation of form and function of reprogrammable universal machine
• Separation of contents and media
• Globally distributed contribution of innovation
• Deconstruction of products and industries (Tower Records and
Blockbusters anyone?)
Dr. Carsten Sørensen
A lo largo de nuestra historia hemos pasado por tres diferentes eras relacionadas con las máquinas: la era de la máquina mecánica, la
era de la máquina inteligente y la era de la máquina generativa.
terial particular: la Edad de Piedra, la Edad volumen, velocidad, variedad y veracidad, y

de Hierro, y la Edad de Bronce. Reciente- es siempre grande si no se puede procesar.
mente hemos superado la edad del plástico, Sin embargo, el Big Data no es nada sin el
un material barato que puede tomar casi big code, y uno de los mayores problemas
cualquier forma y puede ser distribuido de- en las discusiones sobre Big Data es que el
mocráticamente para cualquier propósito big code no se menciona, porque las grandes
para el que sea necesario. No obstante, desde empresas como Google o Microsoft se ba-
que podemos digitalizar las cosas, el plásti- san en un modelo de negocio centralizado
co parece piedra. Los ceros y los unos son mientras que el big code se basa en la des-
tan flexibles que no llegamos a entenderlos centralización.
del todo. Como declaró una vez: Donald
Rumsfeld, secretario de Defensa de Estados Innovación
Unidos, “existe aquello que conocemos y Existe un gran debate entre dos grupos
que sabemos que conocemos, aquello que diferentes con dos diferentes puntos de vis-
desconocemos y sabemos que desconoce- ta. Por un lado están los que dicen que es-
mos; pero también está aquello que no sabe- tamos al final del camino. Tylor Cowen ya
mos y que ignoramos que desconocemos”. ha declarado que “el crecimiento de Estados
En la era digital, la clave de la máquina Unidos está formado por los frutos madu-
generativa es que no sabemos lo que no sa- ros de personas jóvenes y energéticas que
bemos: después de estudiar la Internet desde emigran a un nuevo continente y a indus-

1993, nunca he sido capaz de predecir más de trias con una gran dependencia en nuevas
un par de años y, aun así, me he equivocado. tecnologías”. Pero este ya no es el caso, la
En la era del material digital, el Big Data tecnología cada vez está más distribuida a lo
es grande porque es grande en términos de largo del planeta.
58

Information Technology will Impact on Work
• Big Data • Machine-to-Machine

• Mobile Technologies Technologies Human
Interaction Social Media
• Ubiquitous Computing
• Collective Intelligence
• Wearable Computing
• Task-& Click Working
• Cloud Computing
• Gamification
• Self-Service Platforms
• Internet of things
Tecnologías de la información que impactan en el trabajo y la empresa.
Por otro lado, existen puntos de vista la robótica formando parte del día a día de
como el de Erik Brynjolfsson y Andrew la industria está acaparando cada vez más
McAfee, del MIT, que han escrito un libro miradas y depende de nosotros decidir qué
que ha influenciado mucho el debate pú- combinaciones son buenas y cuáles no lo
blico: La segunda era de las máquinas. En son. Las empresas no necesitan analizar el
él argumentan que la innovación es inhe- Big Data para eso.
rentemente recombinante y que ahora esta- Una consecuencia natural de lo expuesto
mos mejor equipados para recombinar de es que las máquinas generativas se utiliza-
lo que hemos estado nunca: “la innovación rán cada vez más para permitirnos trabajar
recombinante permite la abundancia com- para las empresas con las que estamos aso-
putacional a través de la distribución global ciados. Ahora el cliente prefiere comprar y
y el aumento de recombinaciones beneficio- pasar por una caja automática o ir al cajero
sas”, aunque, como Ray Kurzweil también en vez de ir al banco, buenos ejemplos de la
señaló, la recombinación se está volviendo distribución del poder: en la era de la má-
demasiado compleja como para entenderla quina inteligente, el ordenador nos servía a
de manera intuitiva. nosotros; ahora, en la era de la máquina ge-
Existen varios ejemplos recientes de nerativa, nosotros servimos al computador.
innovación a partir de la recombinación, Hemos pasado de la era de la máquina
como el mapeo 3D de Google, que inclu- inteligente, que trataba de encuentros, a la
so será integrado en teléfonos móviles, o la era de la máquina generativa, que trata sobre
impresión 3D, que permitirá una enorme relaciones. El siglo XX se definió para gran
generación de innovación y distribución de parte del mundo occidental por permitir la
fabricaciones de cuyas consecuencias totales compra de productos de lujo por casi nada,
no somos todavía conscientes. Esta idea de entonces, la informática apoyaba a las per-
59

sonas: había producciones optimizadas, re- ciones con Vendedores (VRM) controlada
laciones a través de las transacciones, intimi- por el cliente. No tenemos ni idea de cómo
dad a través de conexiones anónimas remo- hacerlo, pero ocurrirá. Y si no, no innova-
tas, y la gestión científica del trabajo obrero. remos.
También tenemos que aprender a olvi-
Futuro dar, saber cómo gestionar una producción
El siglo XXI trata de servicios de alta ca- distribuida muy orgánica de códigos y da-
lidad individualizados por casi nada, en los tos, y mantener un middleware abierto y
que el cliente se involucra para conseguir re- estándares de infraestructuras para las pla-
laciones automatizadas codificadas con una taformas propietarias y las plataformas de
tecnología que permite una obligación apla- colaboración distribuidas y generativas.
zada y una actitud de auto-servicio. Ahora A una escala mayor, ¿cómo creamos ser-
las personas apoyan a la informática y, en vicios atractivos? Contamos con tecnolo-
el futuro, solo habrá dos tipos de trabajos: gía que supuestamente nos ayuda a hacer
los trabajos en los que inventamos nuevas las cosas, pero también tiene que ofrecer
relaciones automatizadas, y los trabajos en emociones y diversión, y ayudarnos a crecer
los que ayudamos a otras personas cuando como personas: un gran reto que la televi-
estas primeras fallan, porque fallarán mu- sión ha intentado durante años.
chas veces. Una de las cosas que seguro que va a ocu-
La innovación tiene muchos desafíos rrir es que aparecerán muchos nuevos traba-
por delante, y la privacidad es uno de ellos. jos. Aprenderemos a ayudar a las máquinas,
Con Google tenemos un modelo que está y no al contrario, y nuestros trabajos serán
roto porque está centralizado y necesitamos diferentes, serán más intensos pero más
descentralizarlo previamente en su diseño, flexibles, y habrá una gran polarización de
pasando de una Gestión de Relaciones con habilidades y trabajos para la que tenemos
Clientes (CRM) a una Gestión de Rela- que prepararnos.
60

Big Data,
economía y organizaciones
Por Daniel Villatoro

BBVA Data & Analitycs
En 2007 el editor de la re- las cuestiones científicas. Es útil saber a qué

vista WIRED, una de las clientes dirigirse pero nosotros queremos
publicaciones más conoci- entender mejor al cliente. Las preguntas
das en el campo de la tec- científicas que nos hacemos como científi-
nología, dijo entonces que cos son: ¿Cómo tomamos decisiones los hu-
el Big Data anunciaba el final de la teoría manos?, ¿por qué? y ¿cómo estas decisiones
científica; teoría que años más tarde tuvie- podrían afectar eventualmente a la eficien-
ron que salir a defender científicos como cia de nuestro negocio como banco, cómo
Massimo Pigliucci, profesor de Ética y Filo- ahorrar costes o dar un mejor servicio?
sofía de datos en la Universidad de la Ciu- Mi experiencia en investigación se centra
dad de Nueva York (CUNY), para indicar en tres áreas científicas: la Ciencia cognitiva,
que la Ciencia, a diferencia de la publicidad, que es cómo los humanos tomamos decisio-
no trata de encontrar patrones, sino de en- nes; la Economía experimental, o cómo los
contrar las explicaciones que producen esos individuos toman decisiones que afectan a
patrones. En el Data Analytics BBVA no es- sí mismos y a otros; y las redes sociales enfo-
tamos solo preocupados en el Big Data, sino cadas al nivel de interacción –no Facebook
en las grandes preguntas que esconde el Big ni Twitter sino redes sociales teóricas– y
Data y queremos centrarnos realmente en cómo el entorno y las relaciones afectan a
61

¿Es el Big Data el final de la teoría científica? Definitivamente no.
Necesitamos gente preparada para que, aunque tengan las herramientas
de Big Data que responden todas las preguntas, realmente sepan hacer
las preguntas adecuadas y las sepan resolver de manera válida
las decisiones que tomamos. Aunque ac- el otro lo inculpa, éste saldrá libre y el pri-
tualmente a esta disciplina se la denomina mero recibirá 20 años de cárcel; si los dos se
“Data Science”, centros de investigación re- mantienen callados, ambos estarían sólo un
conocidos como Harvard, Yale o Microsoft, año en la cárcel. La mejor opción para am-
están empezando a acuñar el término “Algo- bos sería cooperar y no confesar para reducir
rithmic Economics”, atendiendo a esa parte la pena al mínimo, pero siendo egoístas, la
de la generación de algoritmos que está muy mejor situación siempre es intentar salir li-
centrada en la Economía. bre directamente, asumiendo que el otro va
El método científico se basa principal- a ser pro-social contigo y no va a confesar.
mente en la formulación de una serie de Fehr y Gächter descubrieron un gran resul-
preguntas sobre las que se realiza una inves- tado a nivel científico: que si se añaden va-
tigación y se construye una hipótesis para rias rondas a este juego y se permite que los
después llevar a cabo experimentos para sujetos se castiguen entre ellos, la posibilidad
probar esta hipótesis, analizar los resultados de que se produzca ese castigo aumenta la
y extraer conclusiones, y, finalmente, redac- cooperación media. De hecho, este artículo
tar un informe de los resultados, y volver a ha generado un gran impacto científico y ha
empezar. Cualquier investigación científica generado muchas otras investigaciones de
es cíclica, siempre produce más preguntas gran interés en este mismo campo.
científicas que van abriendo el camino al Los economistas experimentales se sirven
conocimiento. de unos mandamientos que deben cumplir-
Por ejemplo, en 2001 Fehr y Gächter, dos se en todos sus experimentos para poder ser
economistas experimentales, publicaron en publicados: tiene que haber dos tipos de
Nature un artículo titulado “Altruistic pu- incentivos económicos para los sujetos que
nishment in humans” (El castigo altruista en participan en el experimento, tanto por asis-
humanos). Básicamente, su hipótesis es que tir como por la calidad de la participación,
el castigo altruista, que se da cuando un su- porque dependiendo de cómo participes,
jeto gasta recursos para castigar a otro sujeto
cuando no hace bien las cosas, hace que la
sociedad se sostenga en un entorno donde
no hay una regulación central. Muchos eco-
nomistas conocen el dilema del prisionero,
un dilema en el que hay dos sujetos sepa-
rados en salas distintas que no se pueden
comunicar entre ellos. A los dos se les acu-
sa de haber robado y tienen que decidir si
confesar, y traicionar a su compañero, o no
confesar. Esta situación produce cuatro posi- Estudio realizado por BBVA en el que se analiza el uso de
bles escenarios: si los dos se inculpan el uno las tarjetas de crédito en España durante la Semana Santa
de 2011 en cuatro sectores: mercados y alimentos, bares y
al otro, los dos estarán condenados a cinco restaurantes, moda y gasolineras.
años de cárcel; si uno se mantiene callado y
62

uno se lleva más o menos dinero; no se pue-
de engañar a los sujetos y todas las condi-
ciones experimentales y todas las posibles
situaciones tienen que estar perfectamente
descritas, no puede haber actores en el expe-
rimento, tiene que ser anónimo, y tenemos
que garantizar que el sujeto que asiste al ex-
perimento no vive de asistir a experimentos
y no se conoce ya todas las reglas y todos los
trucos posibles.
En el experimento de Fehr y Gächter
contaron solo con 240 estudiantes, todos de
las universidades de Zúrich y de la Escuela
Politécnica de Zúrich, con un porcentaje de
mujeres del 31%, y analizaron 2.800 inte-
racciones durante 10 sesiones, con 24 suje-
tos por experimento. Aunque el conjunto
de datos era pequeño, aseguraron una gran
significancia estadística en un entorno alta-
mente controlado, como son estas salas de
experimentos donde los sujetos se sientan y
no pueden ver las decisiones de los demás y
saben que, además, están siendo observados.
Obviamente, esto no es la representación
de la naturaleza humana y no supone una tamiento humano, siguiendo un protocolo
selección de una muestra que sea represen- muy estricto que asegura que no haya exter-
tativa de la humanidad para poder hacer nalidades y que realmente estamos proban-
este tipo de afirmaciones, porque el mundo do ese comportamiento. Las preguntas que
no son 240 estudiantes de un país con un se hace cualquier economista experimental
alto nivel económico y una cultura pro-so- son, por ejemplo: ¿cómo se recluta el su-
cial altamente definida, y donde el 31% de jeto?, ¿cómo participa en el experimento?,
los sujetos son mujeres. Sin embargo, el ex- ¿cómo son las decisiones experimentales y
perimento está muy bien defendido a nivel cómo afectan a la decisión real?, ¿cómo se
científico gracias a los mecanismos de Peer incentiva a un sujeto de la manera adecuada
Review, en los que un comité de sabios se- para que se comporte de una manera fide-
leccionado por la revista en la que se quiere digna con respecto al comportamiento real
publicar evalúa la validez del trabajo antes que queremos observar?, etc. No obstante,
de publicarlo. Sin embargo, un ejemplo de nosotros en BBVA tenemos una aproxi-
la mala influencia del Peer Review es un ar- mación diferente a la captura de datos. Te-
tículo publicado en Nature en el que revela nemos un mundo lleno de interacciones.
que en 47 de 53 artículos específicos de un Nuestro mundo es muy rico e incontrolado,
área de investigación concreta los resultados no tenemos una sala experimental donde
no se pueden reproducir, lo que en el mun- podamos ver cómo se comportan los suje-
do científico es una aberración. tos. Nosotros ya tenemos sujetos que actúan
Y aquí viene nuestra aproximación a Big a diario y hacen miles de transacciones a
Data. Básicamente, los datos se capturan distintos niveles de agregación, con distin-
para probar una hipótesis sobre el compor- tos tipos de interacción, etc.
63

Un ejemplo de esto sería el vídeo ner agua en Uganda. Decir que te gusta Bon
“SPRING SPREE –Spending patterns in Jovi puede ser un comportamiento que solo
Spain during easter 2011”, disponible en se produce por la presión social de tu grupo,
YouTube, que, aunque sea solo un simple porque queda bien decirlo. En nuestro caso,
ejemplo de visualización, da una idea de la no. En nuestro caso, si te gastas 20€ en un
amplitud de nuestros datos. En él se pueden disco de Bon Jovi o 10€ en una donación
observar todas las transacciones que se rea- de agua a Uganda, sabemos que realmente
lizaron en España, con tarjetas o TPV del estás interesado.
BBVA, durante la Semana Santa de 2011. Esto lleva al famoso experimento de
En él se puede ver claramente qué días eran Facebook que últimamente está recibiendo
festivos en Cataluña pero no en el resto de muchas críticas y que se basa, principalmen-
España y viceversa, cómo la gente sale a te, en observar si los usuarios que han reci-
cenar a bares y restaurantes por la noche, bido comentarios negativos de sus amigos,
o las transacciones en gasolineras, que nos también publicaban mensajes negativos; y lo
revelan los patrones de comportamiento de mismo con mensajes positivos. Esto es ob-
la gente y hacia donde se dirigían –en este vio. Naturalmente, si uno entra en Facebook
caso, especialmente a la costa–. y ve que un amigo suyo ha anunciado el fa-
Muchos han hablado de Big Data cen- llecimiento de un familiar, ese día uno no
trándose en el volumen de los datos. Es el pone una foto de “qué buena ha estado la
caso de empresas como Google, Facebook, paella que me he comido a mediodía”, por
o Ebay, o el propio CERN, que manejan respeto, porque probablemente no lo consi-
grandes volúmenes de datos; otros se cen- dere como una norma de buena educación.
tran en la variedad del dato, pero nosotros, El resultado pasa a tener un alto grado de va-
además de fijarnos en el volumen y la varie- lidez estadística porque la variación que han
dad, contamos con datos muy ricos, grandes observado es mínima, siendo que el efecto
y “largos” (long data). Tenemos más de 26 que tiene sobre los usuarios es de 1/20. Es
millones de transacciones al día con distin- decir, una palabra negativa afecta que uno
tos tipos de interacción, desde transacciones tenga 1/20 de probabilidades de escribir una
con tarjeta de crédito, transacciones de en- palabra negativa. Por lo tanto, el resultado
víos de dinero de un sitio a otro, o extrac- es importante, pero no tanto. Sin embargo,
ciones de dinero en cajeros. Y a diferencia otro experimento de Facebook más signifi-
de los experimentos que hacen en Zúrich, cativo es el que realizó en las últimas elec-
encerrados en una sala donde el sujeto está ciones estadounidenses, donde consiguieron
observado, lo nuestro es el comportamiento movilizar a 61 millones de personas. Logra-
real. Si uno se gasta 20€ en un determina- ron observar si la presión social provocaba
do negocio es porque realmente uno quiere que la gente fuera más a votar o no. Es decir,
hacerlo, es la vida real y uno no se preocupa preguntaban si ese día habías ido a votar. Los
de si está siendo observado o no. participantes estaban incluidos en dos gru-
Esto lleva siempre al clásico discurso de pos de control: en el primero, te mostraba si
“muy bien, lo estáis observando porque la tus amigos habían ido a votar; en el segundo,
gente se gasta dinero, pero en Facebook esta información no se enseñaba. El resulta-
también podemos ver lo que a la gente le do fue que en los Estados donde incentiva-
gusta y lo que no”. Y nuestra posición ante ron el experimento, aumentaron el grado de
esto es siempre la misma: en Facebook la votación en medio punto.

gente solo habla de intenciones. Decir que En BBVA, la aproximación científica
quieres que llegue agua a Uganda no quiere que utilizamos es el método científico clá-
decir que te estés jugando el pellejo por po- sico, pero siempre centrándonos en el dato.
64

riesgos que nos indique cómo de bien o de
mal va cada negocio en cada zona de Espa-
ña y construir un mapa de riesgo para saber
cuáles son las zonas más o menos arriesgadas
de toda España, siempre basándonos en da-
tos anónimos y agregados, y de los comer-
cios. A nivel local podemos observar cómo,
por ejemplo, consumen los ciudadanos de
Sant Cugat y descubrir que las personas de
Sant Cugat consumen poco en bares y res-
taurantes dentro de la ciudad, pero sí que lo
hacen fuera, y deducir a partir de este indica-
dor que hay que abrir un bar en Sant Cugat.
Si además podemos observar cuál es el
ritmo medio de las transacciones, lo que
denominamos “el pulso de la ciudad”, po-
demos observar realmente cómo se compor-
tan los ciudadanos en semanas normales o
en semana en las que hay eventos. Esto nos
lleva a una nueva herramienta que estamos
desarrollando de detección de eventos. El
año pasado publicamos un informe sobre
Tenemos que ser conscientes del dato que los patrones de consumo de los turistas en
tenemos y hacernos preguntas en base a este Madrid y Barcelona usando Big Data, y uno
dato e investigar en relación al mismo; es- de los resultados era que en Madrid lugares
tudiamos cómo han aproximado el proble- como, por ejemplo, el Museo Reina Sofía o
ma otros científicos; construimos hipótesis, el Mercado de San Antón son más intere-
pero siempre pensando en el dato; proba- santes para los visitantes que para los ciuda-
mos y hacemos experimentos, porque ya danos locales. Podemos llegar al extremo de
tenemos el dato capturado; analizamos los saber realmente cómo impacta económica-
resultados y extraemos conclusiones sobre mente un evento dentro de la ciudad. Por
nuestro dato; finalmente, hacemos un in- ejemplo, hasta hace no mucho nadie sabía
forme de los resultados de los datos que he- cuánto dinero llegaba a la ciudad de Madrid
mos analizado. Como banco, nuestro nego- por la Fiesta del Orgullo. Todo eran datos
cio está en la reputación. Obviamente nos aproximados porque realmente nadie tenía
preocupamos mucho sobre la privacidad de acceso a toda la información, pero nosotros
los datos y en mantener el anonimato de los hicimos un experimento con nuestra red de
datos personales privados a los que tenemos sensores distribuida (TPV) y pudimos en-
acceso como proveedores de un servicio. tender un poco mejor cómo afecta el evento
En BBVA sabemos las transacciones que a las zonas convocadas y los alrededores cer-
se realizan con tarjetas y sabemos dónde se canos, observar el consumo en distintos ni-
han realizado, por lo que podemos compa- veles de profundidad, y comparar de mane-
rar el funcionamiento de ese negocio con ra cuantificable el impacto económico de la
respecto a otros negocios equivalentes en Fiesta del Orgullo de 2011 con la de 2012.
las proximidades, y evaluar la fidelidad del La aplicación sobre eventos con la que
cliente y otros factores. Usando estos indica- gané el Innova Challenge de BBVA, un
dores podemos construir una evaluación de concurso en el que el banco liberó diferen-
65

tes tipos de datos reales para que los desa- actualmente es muy costoso entender todas
rrolladores creásemos aplicaciones, se desa- las tecnologías y aplicaciones del Big Data,
rrolló en el Centro Tecnológico Barcelona y hay pocas personas que lo hagan. El dato
Digital. BBVA liberó una serie de datos con de por sí tiene fallos y está desviado. En los
una serie de requisitos que si no se cumplían estudios con Big Data también hay que te-
impedían la publicación de ese dato concre- ner en cuenta la “paradoja de Simpson”, que
to. Nosotros decidimos hacer correlaciones básicamente dice que si dentro de un gran
con información de Twitter, utilizando un conjunto de datos solo observamos una va-
algoritmo de detección de anomalías, del riable, puede que estemos perdiendo otra
diferencial de gasto de una semana normal variable dentro de ese propio dato, generan-
con respecto a la semana de un evento de- do relaciones espurias o conclusiones erró-
terminado –como puede ser un partido del neas. Hay ejemplos clásicos como el de que
Barça o el día de Sant Jordi–, para evaluar el la introducción de Internet Explorer dismi-
impacto económico que tiene dicho evento nuyó el tráfico de piratas marítimos en el
en la ciudad. mundo. Asimismo, en ambos casos existe el
Todos estos datos son muy interesantes y problema del p-hacking, del que la comuni-
se pueden hacer muchos análisis con ellos, dad científica no suele ser muy consciente,
pero además tenemos que poder comerciali- pero que es muy importante porque implica
zarlos, y un punto clave de información que que hay gente que cambia las condiciones
tenemos es el punto de venta. Cada negocio experimentales durante el experimento para
puede saber mucho sobre sus clientes, su poder tener una validez estadística que sea
zona y su sector; pero nosotros conocemos representativa y aceptada por la comunidad
una parte del total, y esto nos lleva a poder científica, y poder publicar, ya que los cien-
dar respuestas a otros niveles en cuestiones tíficos cada vez viven más de las publicacio-
como, por ejemplo, servicios de diversifi- nes. A día de hoy, incluso algunas revistas
cación, venta cruzada (cross selling), nuevos quieren que se publique el data set junto a
productos, nuevos patrones de horarios, ex- los análisis científicos y el código, pero eso
pansión de objetivos comerciales, o estudios es algo que entidades como BBVA no pue-
de la lealtad de los clientes. Por ejemplo, de hacer, porque compartir los datos de los
sabemos cuál es la distancia media recorri- clientes es inviable.
da por los clientes de un cierto negocio en ¿Es el Big Data el final de la teoría cientí-
Madrid para realizar una compra. Además fica? Definitivamente no. Necesitamos gente
también podemos entender cuál es el wallet preparada para que, aunque tengan las he-
share (la cantidad que un cliente se gasta en rramientas de Big Data que responden todas
negocios de una cadena por cada 100€ que las preguntas, realmente sepan hacer las pre-
gasta el cliente en un determinado negocio guntas adecuadas y las sepan resolver de ma-
de esa misma cadena) para poder observar la nera válida. También necesitamos científicos
fidelidad de ese cliente. que practique la p-diligence y no falseen sus
En definitiva, tanto los experimentos con experimentos: en BBVA aplicamos un TDD
Small data como aquellos con Big Data pre- (Test Driven Development) en el que antes de
sentan sus problemas. Los primeros, como comenzar el experimento planteamos cuáles
se veía en el experimento de Fehr y Gächter, son las condiciones de aceptación o rechazo
son muy caros y requieren un buen diseño del mismo. Por último, es esencial asegurar
de la plataforma experimental para cumplir la privacidad de los sujetos y que las personas
con todos los requisitos científicos, y ade- que trabajamos con Big Data seamos ética-
más ofrecen una visión limitada y posible- mente conscientes de todo lo que puede ge-
mente desviada de la realidad. Por otro lado, nerar si esto no se cumple.
66

Big Data
y análisis predictivo
Por Esteban Moro

Universidad Carlos III de Madrid
Cuando la gente habla del no teníamos antes, como son los weblogs o
Big Data, uno siempre se las plataformas de ecommerce, pero en los
pregunta de qué tipo de Big últimos años han aparecido todos los trata-
Data estarán hablando por- mientos de estos datos no estructurados para
que, por ejemplo, la gente los millones de vídeos que se suben todos los
que trabaja finanzas y en bolsa lleva utilizan- días a YouTube sobre diferentes temas, pero
do Big Data desde hace decenas de años y también, por ejemplo, para la predicción del
hoy, cuando las operaciones se reproducen tiempo.
con ingeniería algorítmica casi en milisegun- En un minuto se habrán publicado en
dos, todavía más. Pero el Big Data no solo Twitter aproximadamente 300.000 tweets, lo
está definido por el volumen, sino también que supone más de 64.000 líneas de Excel,
por las variables y la velocidad del dato. pero el ritmo al cual se están publicando, el
Hace ya mucho tiempo que las empresas uti- hecho de que sea un dato no estructural, o
lizan programas de ERP (Enterprise Resour- que haya que convertir mediante un proce-
ce Planning) y CRM (Customer relationship sador de lenguaje natural, a una opinión, a
management), que manejan grandes cantida- una queja, a un sentimiento, hace que ese
des de datos. Quizás, con la web 2.0, ahora tipo de datos se conviertan en Big Data por
tenemos un acceso a otro tipo de datos que su volumen. Por ejemplo, cada vez que pa-
67

Predecir no es decir lo que va a suceder con más probabilidad, sino
identificar cuál es el riesgo de que sucedan cada uno de los elementos
samos una tarjeta de crédito por una TPV, ejemplo, algoritmos, sino también saben de
en el tiempo que transcurre entre que uno hardware o de software.
escribe el pin y se acepta la operación, hay
una empresa que se conecta a una base de El flujo del valor
datos de 4.500 millones de transacciones, Lo más interesante del Big Data es el
de millones de clientes, y que indica que esa flujo de valor. Por ejemplo, en una empresa
transacción no es fraudulenta y que la ope- existen desde hace muchísimos años transac-
ración está aceptada. El volumen de datos es ciones operacionales, pero se utilizaban solo
de apenas gigabytes, pero la velocidad a la en un departamento, hasta que se dieron
cual hay que realizarlo conlleva la utilización cuenta de que en otro departamento esos
de una serie de tecnologías, una serie de al- mismos datos podían tener otra aplicación
goritmos que constituyen para nosotros un y un valor, incluso podían ofrecer servicios a
problema de Big Data. Por tanto, para mí terceros para que otras empresas utilicen los
el problema del Big Data no es solamente datos en sus procesos. En España tenemos
un problema de volumen, sino sobre todo la suerte, por ejemplo, de contar con dos
de velocidad y de variedad. grandes empresas que son pioneras en esto,
¿Por qué se habla ahora de Big Data? Telefónica y BBVA, que han creado este tipo
Quizás, no solamente porque cada vez ten- de servicios para que otros accedan a esos ti-
gamos más datos, que también, sino porque pos de datos. Pero además, las empresas se
han confluido una serie de factores que han han dado cuenta de que existen otras fuentes
hecho que haya este interés por la analítica de datos abiertos, como las redes sociales o
de datos. En primer lugar, han surgido una los servicios de meteorología, que pueden
serie de tecnologías que permiten guardar integrarse en los procesos de las empresas.
todo ese tipo de datos y acceder a este gran Este contexto permite que, además, surjan
volumen de datos en unos tiempos accesi- nuevas fuentes de datos, nuevos sensores que
bles desde el punto de vista de la aplicación. generan datos sobre todo lo que está pasan-
Incluso en las aplicaciones en memoria, uno do. Empezamos a tener muchísimos datos
puede acceder casi en milisegundos. Por de otro tipo, que influyen muchísimo en la
otro lado, están las herramientas de análisis. gestión de campañas de marketing o en los
Hoy en día, a la vez que uno puede guardar motores de recomendación.
los datos, existe también la posibilidad de Pero lo principal de esta nueva realidad
tener herramientas que permiten el análisis es que han aparecido tres tipos de datos que
casi en tiempo real. También existen pro- no existían antes y que, además, son preci-
veedores como SAS, Revolution Analytics, samente los que condicionan todas nuestras
SPA, Storm, S4 o Massive Learning que acciones. El 70% de nosotros pregunta a
permiten todo este tipo de análisis. No otras personas cuando va a comprarse un
obstante, lo más importante es que desde producto electrónico. Es decir, los humanos
hace unos años hay gente que lo sabe hacer somos virales y tendemos a comunicar en
y ahora hay muchísimos sitios donde uno nuestras redes sociales, tendemos a pregun-
puede aprender a ser lo que actualmente se tar. El otro condicionante, de los más gran-
denomina como Data Scientist. Son perso- des que hay en nuestras acciones, en nuestro
nas que tienen capacidades transversales, comportamiento, es la movilidad geográfica.
que no solamente tienen formación en, por Somos animales de costumbres, nos move-
68

Some sector are positioned for greater gains
from the use of Big Data
24.0
23.5
23.0
22.5 Computer and electronic products
Information
9.0
3.5 Administration, support and Wholesale trade
3.0 waste management Manufacturing
2.5 Transportation and warehousing
2.0 Finance and insurance
Professional services Real estate and rental
1.5
1.0 Utilities Health care providers
0.5 Retail trade
0
Government
Acommodation and food Natural resources
-0.5
Arts and entertainment
-1.0
-1.5 Management of companies
-2.0
Other services Educational services
-2.5
-3.0 Construction
-3.5
Low High
Big data value potential index1
Cluster A Cluster B Cluster C Cluster D Cluster E Bubble sizes denote relative sizes of GDP
McKinsey Global Institute Big Data Report 2011. http://www.mckinsey.com/insights/business_technology/big_data_the_next_frontier_for_innovation
No todos los sectores empresariales se ven afectados de la misma forma por el Big Data. Los relacionados con la información, la venta mino-
rista o las finanzas, incluso la Administración pública, están más predispuestos a que el Big Data pueda cambiar muchos de sus procesos.
mos siempre por los mismos sitios y la ma- nanzas, incluso la Administración pública,
yoría de nosotros, a lo largo de un mes, solo están más predispuestos a que el Big Data
va a diez tiendas diferentes. Esto es así por- pueda cambiar muchos de sus procesos. Sin
que nuestra vida tiene ciertos condicionan- embargo, hay otros, como la construcción,
tes que limitan nuestros comportamientos a donde no se da tal predisposición.
lo largo del día. Y este tipo de datos empieza Básicamente la cuestión no es cómo de
a estar disponible. Por tanto, la revolución grande o cómo de veloz es un dato, sino
del Big Data tiene una de sus bases en la vi- qué valor tiene y qué valor puede crear en
sión que tenemos desde que existen este tipo una organización. Desde el punto de vista
de comportamientos, de patrones, cuando general, dentro de una organización, adop-
utilizamos Facebook, Twitter o nuestros te- tar una analítica basada en datos y en una
léfonos móviles. La transfusión de esos tres visión analítica de los procesos que ocurren
tipos de datos –los que nos llegan desde las en la compañía puede crear transparencia y
redes sociales, los datos de comportamiento, reducir ineficiencias, porque a veces pode-
y de movilidad geográfica– es lo que ha lle- mos tener un dato que nos puede ayudar a
vado al boom de las aplicaciones que tienen detectar que algo no se está haciendo bien,
que ver con el análisis de este tipo de datos pero sobre todo puede permitir la experi-
y del Big Data. mentación. Teniendo este gran volumen de
No todos los sectores empresariales están datos, uno puede introducir, por ejemplo,
igualmente afectados por este fenómeno. la variabilidad y el rendimiento de ciertos
Por ejemplo, aquellos relacionados con la procesos en una plataforma de ecommerce.
información, la venta minorista o las fi- Esto es muy importante porque el análisis
69

Lo importante es el valor
Acción
Decisión
Conoci-
miento
Información
Datos
Datos =/ Información =/ Valor
La cuestión no es cómo de grande o de veloz es un dato, sino qué valor tiene y qué valor puede crear en una organización. Y definir el
proceso que permita transformar los datos en la toma de decisiones empresariales.
que se haga de los datos puede ayudar a los su naturaleza manejan muchísimos datos de
expertos o incluso se puede prescindir de todos nosotros y empieza a haber muchas po-
ellos (como en el caso de las últimas campa- sibilidades para utilizar sus aplicaciones. Por
ñas de Obama). otro lado, la Ciencia lleva muchos años traba-
Muchas empresas como Netflix y Pandora jando con Big Data, especialmente en el área
se basan en modelos de recomendación que de la Física de partículas. De hecho, muchas
luego venden a otros proveedores de servi- de las tecnologías que hoy utilizamos, como
cios o a empresas que utilizan otro tipo de la Web o la Nube, nacieron en el CERN (el
servicios. Realmente, el valor de estos datos Laboratorio Suizo de Física de Partículas)
reside en poder llegar a generar predicciones. porque el nivel de producción, de consumo
Cuando uno puede predecir algo, puede to- y de análisis de datos en el CERN es brutal.
mar decisiones, y es entonces cuando el dato El LHC genera muchísimos más datos que
se vuelve accionable y uno puede adelantarse Facebook, Twitter y todas los demás plata-
a lo que va a pasar en el futuro y tomar deci- formas sociales juntas por día. También, cada
siones antes de que suceda. O también pue- vez va a haber más interés en la analítica de
de utilizar el nowcasting para predecir lo que datos de la Biología.
está pasando ahora sin tener datos de lo que
está pasando en este preciso momento. Los El dato en sí no es valor
modelos predictivos se aplican en la gestión Pero el dato en sí no es valor, ni siquie-
y detección de fraude, en la gestión del ries- ra es información, por lo que es necesario
go, para mejorar campañas de marketing, en convertir ese dato en valor, en información.
salud, en el mundo del deporte y las apuestas. Luego hay que transformar esa información
También el Big Data se utiliza cada vez más en conocimiento a través de series de algorit-
en las Administraciones públicas, ya que por mos que nos permitan conocer información
70

que puede ser útil para mejorar campañas cir no es decir lo que va a suceder con más
de marketing, predecir el gasto en una zona probabilidad (es como predecir que en Abu
o en un sector comercial, identificar grupos Dabi no va a llover nunca y acertar con un
de personas según el consumo que hagan de 98% de probabilidad), sino cuál es el riesgo
la información en Internet, o realizar análisis de que sucedan cada uno de los elementos.
de sentimientos. Por ejemplo, nosotros con- Otra cuestión respecto a los modelos
tamos con un motor de análisis lingüístico, predictivos es que actualmente estamos
hecho por lingüistas computacionales y para construyendo nuestros modelos con datos
el que se crean diccionarios específicos para de Twitter y Facebook. Mañana no habrá
cada tema, que puede servir a los anuncian- Twitter probablemente, en seis meses habrá
tes para saber exactamente dónde poner su cambiado la API, habrá cambiado la manera
publicidad. de gestionar la información, y los modelos
Uno de los proyectos del laboratorio tra- que valen hoy no valdrán mañana. También
ta sobre cómo predecir el Twitter del futuro, hay que tener en cuenta que, por ejemplo,
averiguar si uno puede adelantarse en saber Twitter está muy sesgado demográficamente;
cuáles van a ser los contenidos más difun- y hay que comprobar las hipótesis creando
didos dentro de la siguiente hora. Esto es modelos nulos, por ejemplo, para descartar
posible. Para ello hemos creado una serie de factores. Asimismo, hay que hacer A/B testing
métricas que tienen que ver con la red social, para aislar algunos efectos o determinar cuá-
con las que monitorizamos los tweets para in- les son los efectos que causan lo que vemos
tentar descubrir los factores y los grupos de en los modelos. No se puede dar por válido
influencia, y poder predecir en 45 minutos algo que funciona a la primera solo porque
el alcance de un tweet. Esto no es ciencia fic- funcione. Y todo esto no es nada nuevo, al
ción: esto se basa en una serie de modelos fin y al cabo los modelos predictivos están
predictivos que tienen una serie de variables. basados en el método científico, algo que nos
En todo caso, hay una serie de peligros aso- ha funcionado durante 300 años y que ha
ciados al Big Data y a la predicción. Prede- hecho que el hombre llegue a la luna.
71

EL
IMPACTO
DEL
BIG DATA
EN LA
EMPRESA
72

E L I M PA C T O D E L
BIG DATA
EN LA EMPRESA
L
a tercera cita con el Big Data contó en esta ocasión con la colaboración del Club
Última Hora del Grupo Serra y la Universitat de les Illes Balears (UIB), junto
a la Fundación Ramón Areces organizaron en noviembre de 2014 una jornada
divulgativa sobre El impacto del Big Data en la empresa, que se celebró en el campus de
la UIB. El acto fue inaugurado por el rector de la UIB, Llorenç Huguet; el consejero
delegado del Grupo Serra, Pedro Rullán; el director de la Fundación Ramón Areces,
Raimundo Pérez-Hernández y Torra; y el director general d’Educació del Govern
Balear, Miquel Deyá.
La jornada, que siguió un esquema simi- ción Ramón Areces, fue el encargado de
lar a la celebrada en Madrid en el mes de abrir la jornada con la ponencia El esta-
julio, se enfocó hacia el estudio de algunos do del arte del Big Data & Data Science y
de los principales elementos que integran el aplicaciones al sector financiero. Para García
Big Data en la Economía y la gestión em- Montalvo, la generalización del Big Data y
presarial. En la presentación, se destacó que las nuevas técnicas asociadas al tratamien-
el Big Data afectará a prácticamente todas to y análisis de grandes bases de datos está
las industrias y hará que muchos negocios revolucionando tanto el trabajo científico
cambien de modelo. Por ejemplo, permitirá como la gestión empresarial. Aplicaciones
que los servicios de una ciudad sean dimen- como las recomendaciones personalizadas
sionados en función de su demanda real; de Amazon han supuesto una mejora muy
ayudará a mejorar las predicciones empre- significativa de la experiencia de compra de
sariales en todos los órdenes y procesos de los consumidores. Analizó las posibilidades
negocio y ya está transformando áreas como del Big Data para mejorar los servicios fi-
el marketing, la publicidad y el comercio nancieros y la experiencia de los clientes.
electrónico. La utilización de técnicas de Big Data, in-
José García Montalvo, catedrático de cluidos indicadores de reputación y capital
la Universidad Pompeu Fabra y vocal del social online –recordó– se ha extendido a la
Consejo de Ciencias Sociales de la Funda- calificación crediticia de los solicitantes de
73

tos en milisegundos y animó a las empresas
a incorporarse al Big Data: «o compites o
desaparecerás», advirtió. “El Big Data debe
entenderse como un medio, ya que como
un fin en sí mismo no aporta más que una
simple marquesina de publicidad».
A continuación intervino Ricard Martí-
nez para hablar de Ética y privacidad de los
datos, con los mismos argumentos expues-
tos en su participación anterior; al igual que
Daniel Gayo-Avello, quien también repetía
intervención: Big Data, Twitter, opinión pú-
blica y mercados.
La jornada se cerró con dos ponencias a
cargo de Antoni Bibiloni, Big Data para el
Análisis de la opinión social, y Mario Tascón,
Medios de comunicación y Datos.
Antoni Bibiloni, profesor del Departa-
mento de Ciencias Matemáticas e Infor-
mática de la Universitat de les Illes Balears,
crédito, la detección del fraude en tarjetas, expuso el proyecto que desarrolla la Cátedra
la microsegmentación, los servicios de in- Sol Meliá, una aplicación que traduce en
formación a los clientes, del cumplimiento métricas concretas las ideas, sentimientos
normativo y la prevención del blanqueo de o intenciones que los usuarios y empresas
capitales y operaciones de financiación de vierten en las redes, en este caso relaciona-
actividades terroristas, entre otras muchas das con el turismo. Bibiloni cedió parte de
actividades del sector. su tiempo a Antoni Carmona, responsable
La segunda conferencia Big Data y la de Desarrollo de Negocios de Informática
toma de decisiones en la empresa, corrió a car- El Corte Inglés, quien explicó el proyecto
go de José Luis Flórez, asesor internacional del “Escaparate turístico de Baleares”, que
de Accenture en materia de Análisis Avan- viene desarrollando para el Govern Balear.
zado de Datos y doctor por la Universidad Por último, Mario Tascón, socio direc-
Europea de Madrid. José Luis Flórez señaló tor de Prodigioso Volcán y especialista en
que si bien el cliente es importante, también medios digitales y redes sociales, habló
lo es el contexto, dado que «las fuentes de en su conferencia sobre periodismo de da-
información cambian con mucha rapidez». tos, la fusión entre el periodismo y el Big
En este aspecto, defendió que ahora es po- Data. «Con los meros datos no obtenemos
sible «anticipar las necesidades, entender las información –dijo–, ésta surge cuando es-
características de cada individuo» y que el tos se procesan, se organizan y se construye
objetivo de los modelos de Big Data es “ge- un mensaje». Tascón se centró también en
nerar nuevo conocimiento que pueda tener destacar la importancia de la visualización
impacto en el negocio”. de los datos para su correcta comprensión e
Óscar Méndez, CEO de Stratio, habló interpretación, y puso numerosos ejemplos
–al igual que lo hizo en la Jornada de Ma- de cómo lo aborda el periodismo actual y
drid–sobre Los datos, la nueva materia prima también de la “larguísima historia” que la
del marketing. Méndez defendió que el fu- visualización de datos ha tenido en los me-
turo pasa por el análisis de millones de da- dios de comunicación desde su nacimiento.
74

EL IMPACTO DEL BIG DATA EN LA EMPRESA
Big Data,
y la toma de decisiones en la empresa
Por José Luis Flórez

Asesor internacional de Accenture
en materia de Análisis Avanzado de Datos
Llevo trabajando desde el Aunque se trata de un concepto muy re-

año 95 en cuestiones rela- lativo, el Big Data se refiere a las cada vez
cionadas con la inteligencia mayores necesidades que tenemos de alma-
artificial y en el diseño de cenamiento y procesamiento de datos. Lo
algoritmos para la toma de que ahora consideramos grande, probable-
decisiones, fundamentalmente en el ámbito mente en dos años no lo sea, y lo que hace
empresarial. Mi labor en los últimos años ha dos años considerábamos grande, ahora
estado relacionada básicamente con tratar mismo probablemente no lo es. El volumen
de identificar qué se puede hacer con todo es un concepto que está cambiando conti-
esto que llamamos el Big Data, cómo se nuamente. Y lo más importante no son los
puede hacer, y cuál es el programa de entre- datos sino la forma de extraer de estos datos
namiento que puede hacer que un profesio- algo que sea valioso. Se habla habitualmente
nal o una persona con una cierta formación de estos conceptos vinculados al Big Data:
previa en Ingeniería, en Matemáticas, en el concepto de la velocidad, del volumen,
Economía, etc., sea una persona productiva de la volatilidad de la información, de la va-
en este ámbito. riedad de los datos. Es cierto que son cues-
75

La inteligencia analítica y la minería de datos se han centrado
fundamentalmente en tratar de poner luz sobre aquellos elementos que
sabíamos que desconocíamos
tiones importantes, pero quizás hay otra siquiera sabía que desconocía; está guiando
característica que no se comenta tanto y su búsqueda y eso es muy importante. Por
que desde Accenture tratamos de entender. tanto, esa es una gran diferencia, el poner
¿Cuál es el hecho sustantivo y diferencial del el foco en todo aquello que desconocemos
Big Data? Creemos que la gran diferencia, que no conocemos. Y esto tiene otra forma
cuando hablamos de grandes datos, tiene de expresarse en términos más tangibles y
que ver con el hecho de que las organizacio- que tiene que ver exactamente con los da-
nes se mueven en una situación en la cual tos. Cuando hablamos de estos entornos
tienen un cierto conocimiento de su en- más tradicionales del análisis, lo que sucedía
torno, de su negocio, de las decisiones que es que los datos que había a nuestra dispo-
puede tomar, del impacto que pueden te- sición estaban en un ambiente muy contro-
ner; hay cosas que saben, pero realmente lo lado, teníamos nuestros almacenes de datos,
que saben es poco. Hay muchas más cosas teníamos estructuras donde la información
que desconocemos. De esas cosas que des- estaba bien estructurada, bien definida,
conocemos, hay algunas que sabemos que bien delimitada, y donde el perímetro de
desconocemos: “No sé exactamente cuál es información era claro. Dicho de otra mane-
el cliente al que tengo que ofrecer este pro- ra, el continente dentro del cual se deposita-
ducto en concreto”. Entonces tratamos de ban los datos era bien conocido, era estable
desarrollar un modelo predictivo que iden- y limitado. Ahora bien, estamos abriendo
tifique cuáles son los patrones, los perfiles nuestros sentidos, desde el punto de vista
detrás de este comportamiento para, a partir empresarial, hacia un entorno que está cam-
de ahí, optimizar, maximizar el rendimiento biando dinámicamente, donde obtenemos
de nuestras campañas. “Sé que no conozco información de Internet, a partir de los te-
a priori y con certeza cuál es ese perfil, sé léfonos móviles, de dispositivos y sensores
que lo desconozco”. La Ciencia analítica, la que pueden tener en cuenta los biorritmos
inteligencia analítica, y la minería de datos, o ciertas características de nuestros clientes,
con todas las denominaciones que pueda cualquier tipo de información. Entonces,
haber habido en los últimos 20 años, se ha la situación cambia drásticamente porque
fundamentado o se ha centrado fundamen- ahora el continente ya no es fijo, pasa de
talmente en ese aspecto, en tratar de poner una situación de ser un ente rígido, un ente
luz sobre aquellos elementos que sabíamos sólido, a un ente que es gaseoso, variable y
que desconocíamos. muy dinámico. Y esa situación cambia, o
hace cambiar radicalmente, el enfoque ana-
“Lo que no sabemos que desconocemos” lítico o metodológico que necesitamos para
No obstante, lo que marca realmente la poder obtener valor de ese contexto.
diferencia es conocer aquello que ni siquiera ¿Qué es lo relevante, por ejemplo, para
sabemos que es relevante para nuestro nego- identificar un fraude? En una situación
cio. Por ejemplo, cuando hablábamos de los convencional, tendríamos cierta informa-
sistemas de recomendación, cuando Ama- ción de cuáles son los hábitos, los compor-
zon hace una recomendación está ayudando tamientos, las transacciones que se están
al usuario a conocer cosas que, a priori, ni produciendo, por ejemplo, en el uso de una
76

tarjeta, pero efectivamente la información,
o en este caso los patrones de fraude, pue-
den estar cambiando dinámicamente. De
hecho, los patrones cambian. En una pers-
pectiva más tradicional, uno tendría que
incorporar esos nuevos comportamientos
en forma de datos, tendría que reentrenar el
modelo para que pudiera captar este tipo de
nuevos comportamientos. Ahora mismo la
necesidad es hacerlo mucho más dinámica-
mente, es decir, se necesita que los propios
modelos sean capaces de auto-adaptarse di-
námicamente a los cambios de comporta-
miento, que sean capaces de adaptarse no
solamente al hecho de que ciertas variables
cambien su ponderación, o ciertas combi-
naciones de variables la cambien porque ha
cambiado el patrón; tiene que adaptarse a
una situación en la que los datos de entrada
pueden estar también cambiando dinámica-
mente, con nuevas fuentes de información desde la década pasada, incluso un poco an-
que surgen continuamente, lo cual consti- tes, las organizaciones han ido centrándose
tuye una gran diferencia. cada vez más en el cliente. El producto sigue
Por tanto, cuando hablamos de esa situa- siendo importante, hay que gestionarlo ade-
ción de indefinición en la que materialmen- cuadamente, evolucionarlo, tiene que ser un
te el conjunto de información que tenemos elemento vivo y evidentemente muy alinea-
de partida es casi infinito, cuando hablamos do con el mercado, pero la empresa también
de una situación en la que lo que descono- quiere entender y conocer a sus clientes,
cemos que desconocemos es lo más impor- quiere establecer diálogos con ellos. Y cuan-
tante, hay una palabra que toma un gran do se habla de Big Data, ya no solamente
peso a la hora de entender hacia dónde está es que sea importante el cliente, es muy
evolucionando este mundo analítico del importante el contexto, la situación en la
Big Data, y es el descubrimiento. Necesita- cual se produce la interacción con el clien-
mos instaurar dentro de las organizaciones te. Un cliente por la mañana no es igual,
–también como ciudadanos– procedimien- ni responde igual, ni está interesado en las
tos, personas e infraestructuras que nos per- mismas cosas que ese mismo cliente por la
mitan estar generando nuevo conocimiento tarde, o un mes o dos meses después. Todo
de una forma continua. Es lo que llamamos el elemento contextual en el que se produce
el Owe Zone, que significa tener la capaci- la comunicación es fundamental para ofre-
dad de estar continuamente aprendiendo cer el producto o el servicio adecuado en el
y generando nuevo conocimiento. Esta es momento adecuado.
la gran diferencia desde nuestro punto de El concepto de la interacción obliga a
vista. tener sistemas que sean capaces de captar
todos esos datos en tiempo real; no sola-
La orientación al cliente mente procesarlos y captarlos, sino también
Tradicionalmente las empresas se han entenderlos; poder asimilar qué es lo que ese
centrado mucho en el producto, pero ya cliente está diciendo, por qué lo está dicien-
77

do, cómo reacciona a lo que yo le digo, y ciones entre cualquier tipo de elemento que
tengo que cambiar y modular mi mensaje nos pueda conducir a la toma de una serie
de forma inmediata. Por lo tanto, pasamos de decisiones.
del producto al cliente, y del cliente a la in- Por supuesto, antes la información em-
teracción, que es el elemento clave. El con- pleada era fundamentalmente estructurada.
cepto de interacción no es necesariamente Podía tener más o menos calidad, pero esta-
una interacción entre personas, o ni siquiera ba estructurada: edad, sexo del cliente, sus
la interacción entre un sistema y una perso- ingresos, los productos, etc. Estaba perfec-
na; en muchas ocasiones estamos hablando tamente claro cuál era la información que
de interacción entre sistemas automáticos, había en cada uno de los registros. Ahora
otra cuestión muy relevante. manejamos realmente cualquier tipo de in-
El entrenamiento. ¿Cuándo se entrena formación como, por ejemplo, sistemas de
un modelo o un sistema que tiene que ser reconocimiento óptico, sistemas de reco-
sensible a las señales del entorno para to- nocimiento de imágenes, sistemas para va-
mar una decisión? No vale ya con que ese lidar el estado de infraestructuras, sistemas
entrenamiento se esté produciendo en en- térmicos o de otros tipos de sensores; siste-
tornos más tranquilos, una vez al mes, una mas de vídeo-reconocimiento de imágenes
vez al año, o cuando hay un cierto problema por satélite o reconocimiento de imágenes
identificado, sino que es necesario que esa aéreas para conocer cuál es el estado de una
actualización se esté produciendo continua- red de distribución eléctrica o de una red de
mente. Y la principal cuestión ya no es sola- gasoductos, etc. También existen otras apli-
mente la dinámica del mercado, el cambio caciones para otras áreas de actividad, como
de los patrones, etc., sino el hecho de que las la identificación de objetos cercanos a la
fuentes de información cambian con mucha Tierra, lo que se llama el Near Earth Object:
rapidez, una rapidez inusitada si lo compa- objetos, meteoritos, los satélites cercanos a
ramos con la estabilidad que teníamos hace la tierra que pudieran en un momento de-
unos años. terminado suponer un problema, etc.
Otra tendencia que es imparable en el Otra transición importante es el paso de
mundo analítico es la migración de lo in- lo manual a lo industrializado en la elabo-
dividual a lo social. Cuando tratábamos de ración de los propios modelos. Hay partes
entender el comportamiento de un cliente, muy amplias dentro del análisis de datos
anticipar sus necesidades y, a partir de ahí, avanzado, que desde algún punto de vista
hacerle propuestas de valor que le fueran podríamos decir que se han convertido en
útiles, lo que hacíamos fundamentalmente un estándar. Por ejemplo, es posible auto-
era tratar de entender cuáles eran todas las matizar en gran medida esas capacidades
características de ese individuo y tratar de de análisis. ¿Quién va a ser un buen cliente
buscar individuos que eran parecidos a él, para este producto? ¿Qué cliente puede de-
o que lo habían sido en un pasado recien- jar de serlo? ¿Cuál es el riesgo de este cliente
te. Tratábamos de entender en ese colectivo y la probabilidad de fraude? En definitiva,
de individuos similares, con unos patrones todas estas cuestiones son problemas bas-
bastante afines, qué es lo que había funcio- tante parecidos desde un punto de vista
nado y lo que no, para definir el arquetipo técnico porque tienen siempre una serie de
o el paradigma del enfoque analítico. Ahora variables objetivo que hay que predecir, al
mismo, incorporamos también la perspec- igual que hay que optimizar la manera en la
tiva social. Nos interesa mucho encontrar que se puede llegar a determinar esas varia-
relaciones entre entidades, relaciones entre bles. En este sentido, el grado de automati-
productos, relaciones entre personas, rela- zación puede ser muy grande, permitiéndo-
78

nos ahorrar cantidades enormes de tiempo.
Los nuevos modelos analíticos

Cuando hablamos de análisis desde una
perspectiva histórica, en los años 60 Willam
Fair y Earl Isaac, un ingeniero y un mate-
mático, empezaban a crear por entonces los
primeros modelos de scoring. Si avanzamos
hasta la primera década de 2000, encontra-
mos que el modelo tradicional analítico se
corresponde a un modelo en el cual tene-
mos una serie de datos, denominados fac-
tores e insights, más o menos estructurados,
conocidos, almacenados en ciertos reposito-
rios de información, sobre los que aplica-
mos ciertos modelos de análisis que hemos
denominado de forma genérica Machine
Learning y que nos permiten determinar
efectivamente qué sistemas pueden fallar,
qué personas pueden delinquir, qué perso-
nas pueden estar interesadas en un produc- tratar de condensar la información, buscar
to, qué productos pueden interesar a estas un criterio de medida de distancia que per-
personas, etc. mita conocer cuáles son las valoraciones de
Después se genera la simulación, es decir, ciertos productos por parte de personas rela-
llevamos al mercado diferentes decisiones y tivamente cercanas a uno o que tenga gustos
en función de cuál sea el criterio de toma parecidos a los de uno en el pasado. Esto es lo
de decisión, el impacto económico será uno que ofrece la recomendación. No obstante,
u otro. Para ello es muy interesante contar después entramos en la fase en la que tene-
con un entorno de laboratorio, un entorno mos que controlar el proceso. Entonces ahí
controlado donde pueda determinar qué sí que introducimos, dentro de lo que es la
va pasando. Luego, se toma una decisión metodología de Data Discovery, un elemen-
conforme a estas simulaciones y se ejecuta. to causal, porque es verdad que en analítica
Y después vuelve a iniciarse el ciclo, con las capacidades computacionales que tene-
nuevos datos del impacto en el negocio y mos, al igual que dan mucha capacidad para
la decisión tomada. Al final, si las cosas han analizar a gran nivel de detalle y recomendar,
funcionado bien se mantienen, y si no han predecir, clasificar, etc., también ofrecen una
funcionado, se modifican. buena capacidad para identificar causas, lo
Luego está el elemento causal. Varios pro- que siempre es un factor relevante para una
fesores de la Universidad de Princeton han organización empresarial.
declarado que con el Big Data la causalidad Cuando tenemos un diagnóstico hi-
muere y el modelo aristotélico ya no está tan potético de causas podemos testarlas para
vigente. Esto es cierto parcialmente, es decir, contrastar las diferentes hipótesis que uno
cuando hablamos por ejemplo de sistemas pueda tener. Es decir, tienes los datos, los
de recomendación, como los de Netflix o filtras, generas una señal, identificas una
Amazon, lo que interesa es tomar una matriz serie de patrones, puedes tener ciertos can-
muy dispersa donde efectivamente el K sea didatos con altas correlaciones al explicar el
mucho mayor que N, factorizar la matriz, fenómeno, pero como la diferencia entre
79

correlación y causalidad muchas veces es bién pujan. El ganador termina por mostrar
muy tenue o muy difícil de explicar y puede su anuncio después de analizar todos los
conducir a muchos errores, es por lo que se factores anteriores y tomar una decisión en
requiere una fase de testeo y de generación cuestión de milisegundos. La velocidad, evi-
de hipótesis. dentemente, tiene un impacto económico
brutal. En Estados Unidos este sistema ya es
La velocidad de los datos, la escala la primera forma de compra de anuncios a
y el componente social través de la web.
En referencia a la velocidad, hay un El segundo punto es la escala. Actual-
ejemplo muy ilustrativo de Big Data del mente las organizaciones tienen que diseñar
que todos somos usuarios cotidianamente sus productos específicamente para las ne-
aunque no nos demos cuenta: el Real Time cesidades de un cliente muy concreto en sus
Bidding, las pujas en tiempo real, en este circunstancias particulares. Hay que modi-
caso en el mercado publicitario. Cuando ficar las condiciones de acuerdo a lo que el
entramos en una página web, vemos con- cliente dice y las empresas tienen que tener
tenido y también información publicitaria, capacidades dinámicas de negociación, de
como banners, que podrá ser más o menos fijación de precios, etc., y todos estos ele-
interesante. Entre el momento en el que mentos, cada vez más orientados a la inte-
uno accede a la página web y la visualiza racción, producen una explosión de mode-
pasan muchas cosas: una serie de empresas los que solo se puede atender si se consiguen
recibe información de ese usuario, informa- reducir los tiempos de análisis automatizan-
ción que aunque probablemente no permite do los procesos. Esa inteligencia automática
identificar en muchos casos al usuario, si se es fundamental.
trata de una cookie pueden conocerse has- Y el tercer punto es el componente social.
ta cierto punto las páginas por las que ha Para identificar el componente social real-
pasado esta persona y es posible determinar mente se necesitan varios pasos: primero,
cuáles son sus gustos, aficiones o inclinacio- definir qué es una relación entre dos entida-
nes. Al mismo tiempo, lo que hacemos es des; una vez que tenemos esa relación entre
identificar cuál es la página a la que se está dos entidades, podemos iterar, y encontrar
dirigiendo, y antes de que entre, la empresa estructuras e identificar las denominadas co-
analiza esa página, es decir, determina las munidades (las comunidades son muy im-
palabras claves en esa página, los temas de portantes desde el punto de vista del marke-
los que se trata, el tono que tiene, la estruc- ting, del fraude, del control de riesgos, etc.).
tura de la página, si hay mucho o poco con- En referencia a la formación, el data
tenido en imágenes, los banners y anuncios scientist es el profesional del Big Data; tie-
que aparecen, etc. Y con esta información se ne que saber de negocios, de tecnología, de
crean métricas para saber hasta qué punto matemáticas, de modelos cualitativos; es un
un anuncio es interesante para el usuario y perfil muy complicado de obtener. Nosotros
para la página que visita. Finalmente, mez- creemos más en un perfil de especialización
clando esos dos elementos, el comporta- y equipos mixtos. Pero dicho esto, sí que es
miento del usuario y la información de la cierto que hay un gap importante, una se-
página, la empresa realiza una puja por una paración entre la formación académica que
cantidad de dinero para mostrar un anun- recibimos y la necesaria para enfrentarse a
cio determinado. Al mismo tiempo, otros este mundo, lo cual puede ser una magní-
sistemas automáticos, con otro inventario fica oportunidad para ir reduciendo ese gap
publicitario distinto, porque tiene acuerdo y crear oportunidades, tanto profesionales
con otras marcas, hacen su cálculo y tam- como de empresa para todos.
80

Los datos,
la nueva materia prima del marketing
Por Óscar Méndez

CEO de Stratio
El Big Data es simplemente ya almacenados en el sistema, los datos del

una tecnología que te permi- tiempo presente son aquellos que están en-
te obtener un valor adicional trando en nuestro sistema en ese momento
a partir de ciertos datos. Es y están relacionados con el mundo opera-
una nueva manera de utili- cional, las aplicaciones, etc. El tiempo fu-
zar los datos, que combina las tecnologías turo es el mundo del análisis predictivo, de
anteriores de tratamiento de datos. los algoritmos, de los científicos de datos; es
El Big Data se aplica al marketing por- el tiempo más importante para todo tipo de
que las campañas de marketing tienen que campañas.
gestionar todos los datos de los clientes y Otro concepto importante relacionado
del mercado, lo que supone la gestión de con el Big Data es la velocidad, ya que en
muchísimos datos que además son muy va- marketing se necesita analizar y relacionar
riados. Esta variedad no solo se refiere a la los datos a grandísimas velocidades para ver,
naturaleza, estructurada o no estructurada, por ejemplo, cómo están funcionando esas
sino también a sus tiempos: el tiempo pasa- campañas en tiempo real y actuar acorde a
do, el tiempo presente y el tiempo futuro. ello. En este sentido, Internet y el mundo
Los datos del tiempo pasado son aquellos digital permiten obtener información inme-
81

El límite de los segmentos socio-demográficos hoy en día no es la
tecnología de Big Data ni la de los algoritmos, que avanzan cada vez
más, sino la capacidad que tienen las máquinas de generar tantas
páginas o contenido como usuarios
diata sobre el impacto de las campañas, lo tipo de empresas, como Spotify, Facebook
que lleva a la necesidad de usar tecnologías o Amazon, son claros ejemplos de que los
que puedan procesar toda esa información datos tienen un valor que cotiza en bolsa,
rápidamente. y además de que pueda ser porque sus fun-
dadores sean unos visionarios y unos gurús,
Big Data y creación de valor lo cierto es que hacen un uso cada vez más
Sin embargo, la penetración del Big Data inteligente y más maduro de los datos. No-
en España es muy baja, estimándose que sotros recomendamos a las empresas que ha-
apenas un 3% de las empresas realmente lo gan un estudio de la madurez de su uso de
utilizan. En Europa también se utiliza muy datos y analicen si los están utilizando bien y
poco. En realidad lo que se está haciendo en qué porcentaje los están utilizando.
son “pruebas de concepto” y muchos pilotos, ¿Por qué son tan importantes los datos
mientras que la producción real y los pro- para el marketing? Entre otros motivos, por-
yectos están relegados a algunos casos muy que Internet ya no es única, hay tantas In-
concretos y a 3 ó 4 empresas en España. No- ternets como personas que lo utilizan. Los
sotros organizamos “Big Data Spain”, que es anuncios de Amazon o los posts de Facebook
una de las mayores asociaciones en España están personalizados al igual que los busca-
actualmente. También hemos creado “Big dores como Google personalizan nuestras
Data Hispano”, que es la organización de Big búsquedas, una realidad que se extiende a
Data más importante de España y Latino- todos los medios que hacen un buen uso
américa. No se está utilizando de verdad el de Internet. Nosotros colaboramos con
Big Data por dos motivos: primero, porque “The Guardian”, que es uno de los perió-
se habla de Big Data en términos de tecnolo- dicos más sofisticados en este tema y que
gía y no en términos de negocio, y eso es un ha determinado que aquello de “una página
error. Hay que hablar en términos de nego- online, para todos la misma, porque tengo
cio y encontrar casos de uso en los que aporte una línea editorial y la línea editorial la ten-
valor, como en marketing, por ejemplo. go que mantener” es prehistórico. Es decir,
El segundo gran problema, en términos hay que generar una página online por cada
de tecnología, es poner los datos en valor.
Es decir, convertir los datos en valor eco- Social networks tracking and geolocalization
nómico, porque los datos tienen un gran
valor monetario. Solo hay que ver las coti-
zaciones de empresas que hacen un uso in-
creíble de los datos para ser consciente de
ello. Por ejemplo, la empresa sueca Spotify
vale mucho porque tiene muchísimos datos
sobre sus usuarios y sus gustos, y además
tiene un trato muy bueno de estos datos y

utiliza los motores de personalización y reco- Los sistemas de visualización son muy importantes para
conseguir la difusión de la información en redes sociales e
mendación más sofisticados del mundo, que Internet.
utilizan algoritmos complicadísimos. Este
82

Sample Big Data applications
g g l g s x L m ysis ogy ta ail y r is s

ch in nin ocia isin log dbo ET atio rea
n LP MS F ng llite rit so ys atio tern
n
ar in i rt al biol da em N B RD orti te cu sen nal
se m m s
ve nt n d st an e
RD p sa se tr at
eb ata d eve / sa
m
en lick e sum re k
a
e gis ic p
w /d a ic c ag e c r ff
em co
m
im /r sto eb tra
BI re job
w to
ad au
ac
Ejemplos de tipos diferentes de aplicaciones en Big Data.
persona que se conecta, y esto es el marke- 400 millones de dólares. El paso siguiente,
ting conocido como “one to one”. El límite una vez se almacenan los datos, es el cruce
de los segmentos socio-demográficos hoy en de los datos de múltiples canales (omnichan-
día no es la tecnología de Big Data ni la de nel), no solo las búsquedas y la navegación
los algoritmos, que avanzan cada vez más, en Internet, sino también el uso del email o
sino la capacidad que tienen las máquinas el móvil. Hay muchas posibilidades y es ne-
de generar tantas páginas o contenido como cesario alejarnos de los paradigmas antiguos
usuarios. Ese es el límite. Por eso los motores para descubrirlas. La primera limitación so-
de “behavioral customization” que hacemos mos nosotros mismos.
se limitan a 100, 200, 300 segmentos. Otro tema importante relacionado con
El primer paso para el marketing es en- el Big Data y el marketing son las visualiza-
tonces la recolección de datos (dark Data), ciones. Esta cantidad de datos, su aplicación
y más específicamente, de los datos de na- de algoritmos y correspondiente conversión
vegación. Por ejemplo, Yahoo fue uno de los en valor no siempre se puede ver si no se
primeros en hacer un uso inteligente de los cuenta con un mecanismo de visualización
datos y aplicar las tecnologías de Big Data. apropiado. De ahí que hayan surgido y estén
Lo primero que hizo fue almacenar todos los surgiendo los mecanismos de visualización.
datos de navegación de sus millones de usua- Al fin y al cabo, en marketing, la difusión de
rios. Para ello invirtieron decenas de millo- información es algo esencial y los medios an-
nes de euros en tecnología para conseguir tiguos ya no sirven. Hoy en día hay que uti-
búsquedas mucho más personalizadas que se lizar redes sociales y canales online de mar-
convertían en un mayor acceso a sus enlaces, keting digital. Para ello es muy importante
una ventaja de un 2% respecto a sus compe- entender cómo se “viraliza” la información
tidores, que le produjo un retorno de 300 o en las redes sociales y en Internet. Twitter es
83

Combine all type of data and past, present and future
“Cross data Spark” main mission is: To facilitate the use of data stored in different noSQL databases and data
containers. To allow combining stored data (past), real-time data (present), and future data (predictive)
CONSOLE ODBC JDBC
CROSS DATA SPARK
La combinación de datos del pasado, presente y futuro es un elemento clave para el éxito del Big Data dentro de la empresa.
la red social más rápida, pero si uno quiere sociales, siempre y cuando se haga un buen
que algo llegue muy rápido a otras personas uso de ellas, porque todo aquello del cliente
en Twitter, no solo hay que generar conte- 360º tan de moda, que utiliza los datos del
nido interesante, sino que este contenido cliente internos, públicos, no estructurados,
tiene que llegar a un difusor (influencer) con call centers, voz pasada a texto, etc., y las re-
mucho alcance. Y para entender todo esto, des sociales, no aporta casi nada, no suele
los mecanismos de visualización son impor- aportar casi nada porque cruzar los datos es
tantísimos. muy difícil. Sin embargo, una empresa sí
Igualmente, la semántica es otro aspecto que puede sacar partido a Facebook y hacer
muy importante del marketing digital. Por un buen seguimiento de sus campañas.
ejemplo, en foros como Forocoches o EnFe- Por otro lado, también está el marketing
menino, donde no sólo se habla de coches o offline, que es aquel marketing para el que
temas femeninos, el mejor anuncio no tie- no tengo que estar “conectado” para que me
ne que ser uno de coches o de un producto llegue: newsletters, correos electrónicos, etc.
femenino, sino que la publicidad tiene que En este tipo de marketing también se pueden
estar orientada al tema sobre el que estén personalizar las newsletters cruzando datos
hablando en ese momento los usuarios. Para públicos con datos privados en lo que sí se-
ello se utilizan motores semánticos, aunque ría un genuino ejemplo de cliente 360º que
a día de hoy todavía tienen más fallos que funciona. Por ejemplo, NH recolectó todos
la comunicación humana, es decir, no en- los comentarios de Tripadvisor, Booking, y
tienden bien entre un 30% y un 40% de demás sitios relevantes de hoteles y los cruzó
los comentarios. Por ello, nosotros no reco- para él y para su competencia, los analizó
mendamos hacer clipping cuando se utilizan con motores semánticos y los introdujo en
motores semánticos en publicidad. un sistema de Big Data para poder com-
Otro tema sería el seguimiento de redes parar diferentes factores de cualquiera de
84

sus hoteles con los de su competencia, de sistencia que cruza un dato que no existe,
tal manera que pudieran mejorar y dirigir porque es del futuro, con la probabilidad de
mejores campañas a sus clientes. De hecho, que exista. Esa serie de datos de probabi-
este proyecto fue realizado por nosotros y al lidad y de estadística, que al cruzarlos con
final cruzamos los datos privados de tal ma- datos del presente o almacenados, aportan
nera que comparábamos la opinión que hay valor y de manera muy sencilla. Entonces,
en Internet de los hoteles con los ingresos de crear los datos que todavía no existen y po-
los hoteles y los beneficios, y pudimos ver la der analizarlos es lo que más valor da. Y ésta
correlación exacta. es una manera para valorizar fácilmente los
scientific Data.
Datos del pasado, presente y futuro Asimismo, hay que intentar que el desa-
El futuro de esta tecnología es la combi- rrollo, la aplicación, el mantenimiento de
nación y la velocidad. La combinación de los sistemas de Big Data sean muy sencillos,
cualquier dato y cualquier base de datos, porque si una tecnología aporta valor pero
NOSQL y SQL, datos en ficheros, datos su utilización es una pesadilla, muy pocas
estructurados, datos no estructurados, etc. personas la utilizarán, que es lo que ocurre
Además, debemos ser capaces de combinar en España, donde como antes señalaba solo
datos en todos sus tiempos, pasado, presente un 3% de las empresas la utilizan. Por tan-
y futuro, por lo que la velocidad se convier- to, hay que simplificarla, entre otras cosas,
te en un elemento fundamental, para casos, con herramientas y aplicaciones visuales.
por ejemplo, como los de fraude en opera- Y cuando se facilite su uso, se extenderá su
ciones bancarias. uso.
Tenemos que ser capaces de combinar de Como conclusión: uno no se puede que-
manera muy fácil los datos del pasado con dar mirando. Hay que arriesgarse, hay que
los datos del presente y los datos de futuro. innovar, hay que reinventarse. Y hay que ha-
Estamos tan convencidos de eso, que hemos cerlo ahora, si no puede ser tarde y no hay
creado un nuevo sistema de tablas y de per- nada más arriesgado que no arriesgarse.
85

Ética y privacidad
de los datos
Por Ricard Martínez

Universidad de Valencia
El uso de los llamados da- La primera y obvia cuestión que se plan-

tos masivos, o Big Data, tea al hablar de Big Data la asocia a vulne-
interactúa con realidades raciones de la privacidad, a la posibilidad de
en red, es funcional al com- obtener información que afecte de modo sig-
plejo entramado en red nificativo la esfera de la personalidad e inclu-
que caracteriza no solo a las redes sociales so que sea capaz de proporcionar herramien-
en todas sus dimensiones, sino también a tas de control social. En este sentido, resulta
múltiples fenómenos de orden físico. Uno fundamental recordar aquí que el derecho
de los resultados determinantes de este tipo a la autodeterminación informativa, en su
de herramientas es que es capaz de propor- formulación germánica o a la protección
cionar patrones dinámicos. Y ello tanto de datos personales de la STC 292/2000,
para identificar tendencias, como desviacio- se asocia a la idea de control sobre nuestra
nes. Big Data no solo mira al pasado, Big información. Esta facultad de control se pro-
Data se asocia a la predictibilidad y apunta yecta sobre nuestros datos, sobre todos ellos,
al futuro. Precisamente por ello, tanto la ya que lo relevante no es su carácter público

obtención del patrón como, sobre todo, su o privado sino la información que podemos
aplicación pueden generar dudas esenciales extraer a partir de su tratamiento.
de índole ética y jurídica. La primera cuestión que debemos estable-
86

Todavía no somos capaces de evaluar cuál será el impacto
derivado del uso de los petabytes de datos que proporcionará el Internet
de las cosas
cer a la hora de definir la esfera de protección • Que en la práctica sea equivalente al de

que nos ofrece este derecho es si en realidad un borrado permanente.
existen o no datos personales. Pues bien, un El problema reside en que no existe un
dato es «cualquier información numérica, estándar comúnmente aceptado y seguro.
alfabética, gráfica, fotográfica, acústica o de Desde un punto de vista jurídico para el
cualquier otro tipo concerniente a personas GdT estamos ante un tratamiento ulterior
físicas identificadas o identificables». para el que sería necesario:
Así pues la solución para eludir la aplica- • Disponer de un fundamento que lo
ción de la normativa es bien simple: anoni- legitime, como por ejemplo el interés
mizar, disociar los datos de manera tal que legítimo.
no se nos permita la identificación de un • Verificar la relación de compatibilidad
afectado o interesado. Sin embargo, la cues- entre la finalidad para la recogida inicial
tión no es tan sencilla y en la práctica debe- y un tratamiento posterior como la ano-
mos diferenciar diferentes estadios. nimización.
• Las expectativas del titular sobre usos
Establecimiento de patrones a partir de posteriores.
datos anonimizados • El impacto en el titular de los datos.
En esta fase, el responsable del tratamien- • Las cautelas adoptadas por el responsa-
to procedería a desligar completamente los ble para salvaguardar los derechos de los
datos de sus titulares de modo que resulta- afectados.
sen imposibles de vincular. Sin embargo, el • El deber de cumplir con el principio de
Dictamen 5/2014 del Grupo de Trabajo del transparencia.
artículo 29 de la Directiva (GDT) muestra En cualquier caso anonimizar no es ne-
que esta no es una operación ni tan sencilla, cesariamente la mejor alternativa a cancelar
ni precisamente banal. los datos, pero será el camino que sin duda
En primer lugar, la anonimización cons- se seguirá y, desde el punto de vista de la
tituye un tratamiento en sí misma y como protección de datos personales, en la anoni-
tal debería ser compatible con el tratamien- mización existen riesgos:
to original y en relación con ella contar con • La persistencia de datos que permitan
un fundamento, una base legal o contrac- reidentificar.
tual que la legitime. Ciertamente el artículo • La posibilidad de reidentificar median-
4 LOPD cuando ordena la cancelación de te inferencias, o por vinculación o rela-
oficio parece sugerir la anonimización como ción (link) con otros paquetes de datos
forma de conservación1. Sin embargo, esta personales.
cuestión deberá ser profundamente revisa- • Confundir pseudonimización y anoni-
da. mización.
En esencia la anonimización desde un • Creer que la anonimización excluye el
punto de vista material exige: cumplimiento normativo sectorial.
• Que no pueda ser establecido vínculo Un ejemplo claro es el contenido por la
alguno entre el dato y su titular sin un Ley 41/2002 en relación con la investiga-
esfuerzo desproporcionado. ción con datos de salud. Si atendemos a sus
• Que sea irreversible. artículos 8 y 16 resulta que el paciente o
87

usuario tiene derecho a ser advertido sobre cuando la presencia de quasi-identificadores
la posibilidad de utilizar los procedimientos permita la menor reidentificación operarán
de pronóstico, diagnóstico y terapéuticos en bloque las garantías de la LOPD.
que se le apliquen en un proyecto docente o Pero la generación o uso de patrones
de investigación, que en ningún caso podrá puede estar también directamente some-
comportar riesgo adicional para su salud. Y tido a la Ley Orgánica 15/1999, de 13 de
en cuanto a los datos de su historia clínica, diciembre, de Protección de Datos de Ca-
el acceso a la historia clínica con fines de rácter Personal.
investigación o de docencia, se rige por lo
dispuesto en la Ley Orgánica 15/1999, de Los patrones individualizados
13 de diciembre, de Protección de Datos de El primer caso, por obvio, sería cuando
Carácter Personal, y en la Ley 14/1986, de el patrón se basa en un individuo identifica-
25 de abril, General de Sanidad, y demás do. Esto es, no ha habido anonimización y
normas de aplicación en cada caso. El acce- es a partir de un universo de datos del que
so a la historia clínica con estos fines obliga inferimos su patrón crediticio, de salud, etc.
a preservar los datos de identificación perso- y derivamos una determinada consecuencia.
nal del paciente, separados de los de carácter En este caso nunca hemos salido de la esfera
clínico-asistencial, de manera que, como re- de tutela de la LOPD.
gla general, quede asegurado el anonimato,
salvo que el propio paciente haya dado su La aplicación de patrones
consentimiento para no separarlos. Es en este ámbito donde hay un aspec-
En resumen, anonimizar datos no será un to que conviene subrayar. Cuando aplica-
acto de libre disposición y, además, cuando mos un patrón a una persona identificada
anonimización presente la menor inconsis- o identificable estamos sin duda realizando
tencia cuando mediante técnicas de inferen- un tratamiento y debemos aplicar todas las
cia, de relación con otros paquetes de datos, garantías legales.
88

¿Dónde están los problemas? búsquedas. La sentencia no se pronuncia,
Sin embargo, los problemas en mi opi- no es su objeto, sobre las condiciones de
nión no se sitúan en decidir si se aplica o explotación de los datos que proporcio-
no la LOPD al tratamiento masivo de da- nan esas búsquedas, excepto para conectar
tos, sino en cómo lo que en algún lugar he Google España con su matriz. Sin embargo
definido las costuras de la privacidad se ven la sentencia afirma con radicalidad que no
desbordadas de un modo significativo por puede confundirse el interés legítimo con el
los retos que plantea el Big Data. mero interés económico.
Al referirse a la privacidad Mayer-Schön-
berger realiza una apropiada comparación La calidad de los datos
de las leyes de privacidad como Línea Ma- En Big Data lo realmente relevante pare-
ginot. Y la comparación no es solo adecua- ce ser la suma de un cierto universo de datos
da en términos de ingeniería militar sino de modo que la certeza de los mismos se di-
también en relación con la historia. Toda luye de alguna manera. Incluso lo “borroso”
Línea Maginot tiene su Bosque de las Ar- nos ayuda en algo. Si buscamos patrones y
denas, y el genio militar de Kleist, Guderian desviaciones se nos dice que incluso que un
y Rommel capaz de embolsar y aniquilar a determinado sujeto falsee sus preferencias
su enemigo… Y como en el caso de la Se- puede aportar valor añadido al resultado.
gunda Guerra Mundial sería muy triste que Pero además se produce un efecto pecu-
la inacción del legislador diera con nuestros liar. En la recogida directa de datos persona-
huesos en las playas de Dunkerque sin más les el responsable tiene la legítima confianza
apoyo que tristes barcos pesqueros. en que el afectado le facilitará datos veraces.
Cuando hablamos de patrones y predictibi-
La falacia del consentimiento lidad debemos confiar en que el patrón sea
En primer lugar, hay que referirse a lo que fiable y nos lleve a conclusiones adecuadas,
algunos autores han definido como falacia del ya de lo contrario el principio de veracidad
consentimiento o dilema del consentimiento. de los datos peligrará.
El escenario más visible para el tratamiento
de los datos personales es el de servicios apa- La finalidad
rentemente gratuitos de Internet cuyo mode- Otro problema que suscita el Big Data
lo de negocio se basa precisamente en el de reside en que su sustrato material puede que-
data brokers y que de la mano de los trata- dar anticuado, pero no se agota con el uso.
mientos masivos de datos personales, asocia- Por tanto, es susceptible de ser reutilizado. Y
dos a análisis comportamental y predictibili- lo que resulta más peculiar, la finalidad para
dad se erigen en los nuevos gurús capaces de la que la información fue recogida si bien
predecir el comportamiento del consumidor. puede ser determinante desde un punto de
Así pues en una primera fase, se ha ob- vista no lo es en absoluto desde un punto
tenido el consentimiento para tratar una de vista práctico. “Mi algoritmo se usó para
infinita cantidad de datos. No obstante, hay estudiar patrones de consumo en un super-
otros fundamentos que legitimarían un tra- mercado y sin embargo resultó que ofrecía
tamiento. La reciente sentencia de 13 de elementos sustanciales en relación con las
mayo relativa al derecho al olvido considera proyecciones de salud de mis clientes”.
que el tratamiento de datos personales por Por tanto, el concepto de finalidad pue-
un buscador se apoya en la idea de interés de verse por completo alterado no ya du-
legítimo, entendido este interés como el rante el uso o respecto de nuestra decisión
servicio que se presta al poner a disposición respecto de este, sino ante resultados ines-
del usuario informaciones relevantes en sus perados.
89

Basta con citar dos sentencias del Tribu-
nal Europeo de Derechos Humanos, Ro-
taru y Marper, que muestran los peligros
de sociedades democráticas que conservan
registros históricos de disidencia política o
información genética, más allá del periodo
razonable o justificable. En la misma línea
el TJUE acaba de invalidar la Directiva
2006/24/CE sobre conservación de datos
de tráfico en las comunicaciones. Una de las
razones era que se indexa las comunicacio-
nes de toda la población con carácter pura-
mente preventivo.
Volvamos a imaginar un ejemplo posible
de análisis masivo de los datos, ¿sería lícito
analizar con fines policiales todas y cada una
de las expresiones sospechosas en las redes
Hacia un nuevo modo de valorar sociales? Y, en presencia de la investigación
la sensibilidad de los datos de un delito grave, ¿podríamos vincular esa
En la jerga de mi profesión se tiende a información con el terminal desde el que se
llamar datos sensibles a los datos especial- realizó? Y en tal caso, ¿sería posible obtener
mente protegidos. Estos datos, desde el todos los datos de geolocalización? Y ya lle-
Convenio 108/1981 se han sometido a un gamos al final, si lo relacionamos con mani-
régimen especial debido a su potencial uso festaciones con presencia de críticos con el
con carácter discriminatorio. Así, un ciuda- sistema, ¿podríamos generar con ello una
dano puede ser discriminado a partir de su base de datos que indexará preventivamente
ideología, religión o creencias, de su raza, a vagos, maleantes y otros sujetos caracteriza-
salud u orientación sexual. dos por su peligrosidad social? El mero hecho
Sin embargo, las herramientas de Big de que esta cuestión resulte posible tecnoló-
Data ponen en cuestión esta categorización. gicamente resulta sencillamente inquietante.
Primero, porque como hemos visto para es- Por otra parte, ese potencial discrimina-
tablecer un perfil de orientación sexual nos torio puede proyectarse a diversos sectores
basta con trazar a un sujeto en una red social como la contratación laboral o de un seguro
o estudiar su patrón de consumo televisivo sobre la base las expectativas de salud infe-
o de vídeo. También estamos en disposición ridas de encuestas indirectas sobre hábitos.
de adoptar decisiones en la contratación de Por último, todavía no somos capaces de
seguros asociados a la salud a partir de pre- evaluar cuál será el impacto derivado del uso
dicciones basadas en información no rela- de los petabytes de datos que proporcionará
cionadas con la propia salud. el Internet de las cosas.
En segundo lugar, porque hay datos Dicho de otro forma, el modo tradicio-
como la geolocalización, las interacciones nal de entender la sensibilidad de los datos
en redes sociales, el análisis semántico de ex- debe abarcar ya no solo la naturaleza del
presiones emocionales, los hábitos sociales dato, o la finalidad del fichero, debe incluir
e Internet de las cosas, pueden aportar in- el escenario que deriva de la predictibilidad.
formación relevante susceptible de ser usada
con fines discriminatorios. Y también con Libre elección v. libre autodeterminación
fines de control social y policial. Paul Schwartz, en su artículo “Internet
90

privacy and the State”, subraya en qué medi- ble en términos meramente económicos.
da el manejo de información privada puede La cuestión es que si los datos de mi con-
facilitar capacidad de influencia en el mane- sumo eléctrico son susceptibles de explota-
jo de las preferencias sociales e individuales. ción económica adicional, y también los de
En el momento de redactar estas líneas Da- la telefonía, o los movimientos de mi tarjeta
niel J. Solove ha publicado un post titulado de crédito, ¿cómo es que ello no repercute
«Facebook’s Psych Experiment: Consent, en mi cuenta de resultados?
Privacy and Manipulation». Al parecer el En resumen, y como conclusión. Las tec-
pasado fin de semana la compañía realizó un nologías como el Big Data abren un universo
experimento que afectó a 689.000 personas. de posibilidades altamente positivas en todos
El servicio de noticias indexadas con RSS se los ámbitos. Como comprenderán yo quiero
manipuló para inducir estados de ánimo. A que el análisis masivo de datos revolucione la
partir del análisis semántico se descubrió que Medicina, deseo fervientemente contar con
allí donde las noticias eran positivas los posts sistemas de apoyo decisional no solo para
de la gente eran más positivos, de idéntico mejorar la eficiencia de las organizaciones
modo, allí donde las noticias eran negativas, públicas o privadas también en mi vida per-
los comentarios también. sonal. Y, debo confesarlo, me encanta que mi
Estos hechos, aparte de confirmar mis proveedor me recomiende buenos libros.
apreciaciones sobre el valor del consenti- Sin embargo, los juristas a pesar de que
miento nos conducen a otro territorio: el de disponemos hoy de un sólido armazón de
la manipulación. ¿Puedo usar los patrones principios, se requiere del apoyo de una re-
que me proporciona mi análisis de Big Data gulación que descienda al detalle. Las nor-
para manipular las preferencias del usuario? mas de privacidad deben orientarse cada vez
Creo que la respuesta se responde por sí sola. más al tratamiento, garantizar la anonimi-
zación y definir las condiciones que justifi-
El valor de los datos quen los usos secundarios. Urge por último
Antes me referí a las compañías que tratan regular el mercado de la privacidad y de los
enormes cantidades de datos personales. En databrokers y arrinconar el consentimiento
breve no nos vamos a tener que situar única- a un ámbito residual. Ello es fundamental
mente frente al dilema de la privacidad, sino para equilibrar las facultades y poderes de
también al de principios básicos que hasta negociación del individuo. Es esencial, ade-
hoy habían regido el tráfico económico. Con- más, que la transparencia afecte a los proce-
trolar el flujo de datos equivaldrá a disponer sos de Big Data. Y parece aconsejable que
de una posición dominante en el mercado. los operadores en el mercado jueguen con
¿Merece esta cuestión ser tenida en cuenta? las mismas reglas y capacidades, y se eviten
Pero, ¿cuál es el valor de los datos del situaciones de quasi-monopolio.
propio usuario? Bien, la respuesta práctica es Se presenta ante nosotros un mundo apa-
cero. Si ustedes creían que el ser peor tratado sionante en el que todo está por hacer, pero
del mundo es el agricultor que vende sus be- en el que la tierra de leche y miel que nos
renjenas a cinco céntimos y las compra a un ofrece el Big Data debe ser un país donde la
euro, se equivocaban. En el mundo del Big libertad y la autodeterminación individual
Data, sus datos, mis datos, nuestros datos no se sacrifiquen en el altar de los intereses
valen 0. Curiosamente antes de la capitali- económicos o estatales.
zación bursátil de Facebook, Garner estimó
que el valor medio de un usuario era de 100 1
«No serán conservados en forma que permita la iden-
tificación del interesado durante un período superior al
dólares. Así que ya sabe usted cuanto le cues- necesario para los fines en base a los cuales hubieran sido
ta usar Facebook y parece un precio razona- recabados o registrados».
91

Data Science:
el futuro ha comenzado
Por José García Montalvo

Vocal del Consejo de Ciencias Sociales, Fundación Ramón Areces
La llamada Ciencia de los bases de datos. Otra característica muy im-

Datos se caracteriza por la portante, al menos en algunas disciplinas
utilización de bases de datos y proyectos, es la reutilización de los datos
masivas, lo que se suele re- que fueron originalmente creados para una
sumir en una simple frase: la finalidad diferente a la que fundamenta la
muestra es la población. Interesa tener toda investigación final que se realiza. En cuarto
información que potencialmente puede ser lugar, y dadas las consideraciones anteriores,
relevante aunque su contenido informativo los datos considerados de esta forma tienen
pueda parecer pequeño. Una segunda carac- una proporción señal/ruido muy elevada.
terística asociada al Big Data es la heteroge- Finalmente, gran parte de los proyectos de
neidad de estos datos. Las fuentes de gene- Big Data tienen como finalidad predecir y
ración de esta información pueden ser sen- no explicar.
sores, localizaciones CPS, logs de servidores, La causalidad pasa a ser irrelevante susti-
correos electrónicos, imágenes, voz, etc. Por tuida por la mera correlación. En este sen-
tanto, dada esta enorme heterogeneidad tido la creciente utilización de técnicas de

de formatos resulta imposible, en muchos Big Data pone en cuestión la búsqueda de
proyectos, trabajar con bases de datos SQL diseños cada vez más sofisticados que per-
como ha sido la norma en el trabajo con mitan captar la causalidad entre dos fenó-
92

Un aspecto interesante de la reciente importancia del Big Data
se refleja en la demanda de graduados universitarios
menos relevantes. Por ejemplo, cuando el portancia del Big Data se refleja en la deman-
algoritmo item by item de recomendación da de graduados universitarios. El reciente
de Amazon nos recomienda un libro, que estudio del Ministerio de Educación (2014)
otra persona que compró una bicicleta an-
teriormente también lo compró, la cuestión
no es cómo explicar la causa de la relación
entre la bicicleta y el libro sino la correla- “Without data you are just
ción observada con anterioridad entre estos one more person with an
dos productos. opinion”
(anónimo)
Mitos sobre el Big Data
Respecto al Big Data existen algunos
mitos que vale la pena desterrar. En primer “In God we trust; all other
lugar, cuando alguien habla de Big Data nor- must bring data”
malmente está pensando en datos produci- (Edward Deming)
dos por Internet (Facebook, Google, etc.,)
o la NSA (National Security Agency de los
Estados Unidos). Sin embargo, los mayores “We are drowning in
generadores de datos son las grandes infraes- information but starved
tructuras científicas. El Large Hadron Colli- for knowledge”
der del CERN produce 600 TB/sec con sus (John Naisbitt)
15 millones de sensores. Incluso después de
filtrar la información se necesita almacena-
miento para 25 PB/año. Y esto nos lleva al
segundo punto: en la actualidad las mayores sobre las salidas profesionales de los universi-
restricciones para la realización de proyectos tarios muestra con claridad la influencia del
de Data Science no están relacionadas con la Big Data: cuatro años después de salir de la
capacidad de computación de los ordenado- universidad el mayor porcentaje de afiliación
res sino con la capacidad de almacenamiento a la Seguridad Social se encuentra entre los
de información y la gran cantidad de energía graduados de Informática (78%) y Mate-
que produce el tránsito de la información máticas y Estadística (72,2%). Estas son
entre los dispositivos de almacenamiento y precisamente las disciplinas más vinculadas
los procesadores. En tercer lugar, el Big Data al desarrollo de la Ciencia de los Datos. Es-
requiere una visión centrada en la computa- tos datos contrastan con los resultados de los
ción masiva en paralelo y memoria persisten- titulados 15 años antes, donde la tasa de de-
te, en lugar de pensar en un modelo centrado sempleo de los titulados en Matemáticas era
en torno a un único ordenador. Es preciso significativamente superior a la tasa media de
moverse a una visión de computación distri- desempleo de los universitarios y la tasa de
buida (escalable y computación en paralelo) desempleo de los licenciados en Informática
y pensar en nuevos instrumentos para traba- era 5 veces inferior a la tasa de los matemáti-
jar con bases de datos no relacionales. cos y la mitad que los titulados en Estadística
Un aspecto interesante de la creciente im- (García-Montalvo 2001).
93

El desarrollo del Big Data y las técnicas asociadas al mismo están
cambiando la forma de realizar investigación científica e incluso la
forma en la que se enseñan disciplinas ya consolidadas
El desarrollo del Big Data y las técnicas de tiendas en Internet en decenas de países
asociadas al mismo están cambiando la for- para obtener un índice de precios online que
ma de realizar investigación científica e in- se actualiza en tiempo real2. Esta tecnología
cluso la forma en la que se enseñan discipli- utiliza la estabilidad o cambio de los com-
nas ya consolidadas. Un ejemplo claro es la ponentes entre tags del lenguaje HTML uti-
enseñanza y la aplicación de la econometría1. lizado para construir las páginas web para
Normalmente en econometría se trabaja en determinar los cambios en precios de los
el contexto de técnicas de regresión. Sin em- productos en el tiempo. Un programa pue-
bargo, las técnicas de machine learning, muy de, utilizando estos principios, identificar la
ligadas a las metodologías del Data Science, información relevante sobre un producto y
incluyen la regresión como una técnica más su precio. El URL de la página donde están
en el denominado supervised learning jun- indexados estos productos puede servir para
to con métodos de clasificación, árboles de clasificarlos por categorías. Una de las utili-
decisión y redes neuronales. En nuestras dades del proyecto es comparar la evolución
clases de econometría solíamos explicar que de la inflación oficial y la obtenida a partir
cuando hay más variables que observaciones de capturas de información sobre precios
no se puede realizar una regresión. En los de tiendas online. Los resultados muestran
proyectos de Big Data sucede muy frecuen- que mientras en Brasil, Chile, Colombia o
temente que existen más variables que ob- Venezuela la evolución de la inflación oficial
servaciones, lo que se resuelve mediante téc- y la obtenida a partir de los precios online
nicas de shrinkage que hacía mucho tiempo siguen patrones similares, en Argentina las
ya no explicábamos en las clases. El software diferencias son muy significativas. En media
también es muy diferente. Mientras en eco- la inflación en Argentina entre 2007 y 2011
nometría solíamos trabajar con Stata, Mata, definida por el índice de precios online fue
Gauss o Matlab los proyectos de Big Data del 20,14% frente a la inflación oficial que
usan frecuentemente Hadoop, MapReduce, era tan solo del 8,38%. Esto implica una
Pig, Hive, ZooKeeper, Hive y R. Por tanto, diferencia acumulada del 65% en marzo de
la extensión del Big Data está transformando 2011.
también las técnicas y los programas utiliza- Algunos investigadores utilizan Google
dos en el análisis de datos más tradicional. Trends para mejorar la capacidad predictiva
de modelos sobre indicadores económicos
Aplicaciones profesionales y comerciales obtenidos con muy alta frecuencia. La idea
Las aplicaciones del Data Science se ex- consiste en complementar la información del
tienden desde los campos científicos hasta las pasado de una serie con las búsquedas pre-
aplicaciones más profesionales o comerciales. sentes en algunas categorías. Por ejemplo, el
En el campo de las Ciencias Sociales y, más Departamento de Trabajo de Estados Unidos
en concreto, en la Economía, existen multi- anuncia cada jueves el número de personas
tud de ejemplos. El llamado “Billion Prices que han solicitado subsidios por desempleo.
Project” del MIT utiliza millones de precios Añadiendo a un modelo AR(1) de datos his-
1
La econometría es la asignatura que he estado impartiendo los últimos 20 años en la universidad.
2
Se almacenan 5 millones de precios de 300 tiendas en Internet en 70 países del mundo.
94

Proporción de graduados
cotizando a la Seguridad Social cuatro años
después de finalizar sus estudios
0 10 20 30 40 50 60 70 80 90
Informática
Matemáticas y estadística
Salud
Ingeniería
Veterinaria
Educación comercial y administración
Formación de personal docente y ciencias de la…
Ciencias físicas, químicas y geológicas
Industria manufacturera y producción
Agricultura, ganadería y pesca
Ciencias sociales y del comportamiento
Servicios sociales
Periodismo e información
Ciencias de la vida
Servicios de transporte
Arquitectura y construcción
Humanidades
Derecho
Artes
Fuente: Ministerio de Educación (2014).
tóricos la información sobre búsquedas de una enorme relevancia en el mundo de la

palabras en categorías como Jobs, Welfare, empresa. Los sectores más influidos son la
Unemployment, se mejora un 6% la capa- distribución comercial, el marketing y los
cidad predictiva en general y de los cambios servicios financieros aunque su influencia se
de ciclo en particular. Utilizando el mismo extiende a casi todo el espectro de activida-
sistema para el índice de confianza del con- des empresariales.
sumidor se consigue una mejora del 9,3% en En el campo del marketing y la comer-
la capacidad predictiva. cialización existen muchos ejemplos, pero
La utilización de la información agregada quizás el caso de Amazon sea de los más in-
sobre tarjetas de crédito y TPV es otra fuente teresantes. Hasta 2001 Amazon utilizó doce-
importante de investigación económica en nas de críticos y editores para sugerir títulos
la actualidad. En una serie de artículos que que pudieran ser de interés para sus clientes.
han resultado muy influyentes, Mian y Sufi “Amazon voice” fue considerado en su tiem-
han utilizado la información sobre tarjetas de po como el crítico más influyente en Estados
crédito para realizar análisis económico sobre Unidos. A finales de los 90 Amazon puso en
las causas de la burbuja inmobiliaria y la cri- marcha un equipo para automatizar el proce-
sis financiera. dimiento de recomendaciones de libros para
Además de su influencia sobre la Ciencia sus clientes. Inicialmente se utilizaron mues-
y la enseñanza de las disciplinas científicas, tras y se buscaron similitudes entre distintos
las técnicas de Big Data están adquiriendo compradores. Hasta que Linden propuso
95

una nueva solución: el llamado filtro colabo- a su perfil de ingresos, capacidad de pago y
rativo item-by-item3. El procedimiento utili- nivel de aversión al riesgo. De esta forma se
za algunos de los principios básicos de Big permite el acceso a los servicios bancarios a
Data: se usan todos los datos (no se extraen grupos de la población que no utilizan los
muestras) y se busca capacidad predictiva y mismos o tiene problemas para el acceso así
no explicativa o causalidad. La técnica de como se reduce los costes de los servicios. Por
machine learning utilizada para realizar las ejemplo, en un país financieramente avanza-
recomendaciones no necesita saber por qué do como Estados Unidos se estima que exis-
al comprador de El Quijote le gustaría tam- ten 65 millones de personas que por no tener
bién comprar una tostadora. Solo es necesa- historial crediticio, o por su brevedad, no tie-
rio que exista capacidad predictiva. Cuando nen calificación crediticia lo que les impide
se compararon los dos procedimientos (crí- acceder a los servicios bancarios tradiciona-
ticos humanos y el algoritmo de machine les. Este grupo de población es susceptible
learning) el procedimiento automatizado de acabar suscribiendo un payday loan (prés-
resultó mucho más eficiente, lo que supuso tamo con un alto tipo de interés, plazo muy
el desmantelamiento de Amazon Voice. Hoy breve y coste entre el 20 y el 30%) o créditos
una tercera parte de las ventas de Amazon informales. García Montalvo (2014) hace un
son el resultado del sistema personalizado de recorrido por las principales aplicaciones del
recomendaciones. El sistema de Linden ha Big Data en los servicios financieros desde la
sido adoptado por muchos comercios digita- generación de calificaciones crediticias de los
les, como por ejemplo Netflix, la compañía clientes hasta el análisis y detección del frau-
de alquiler de películas. Este procedimiento de en tarjetas de crédito.
de recomendación aumenta sin duda la sa- En conclusión, las técnicas de Big Data
tisfacción de los consumidores que pueden han llegado para quedarse. Las aplicaciones
encontrar con facilidad productos que ne- tanto en los campos científicos como en los
cesitan, les interesan y que incluso no eran empresariales se multiplican rápidamente.
conscientes de que existían. Será difícil entender el futuro y plantear es-
¿Podría el futuro de los servicios bancarios trategias sin comprender los métodos asocia-
discurrir por estos mismos pasos? ¿Podrían dos a la Ciencia de los Datos.
los clientes bancarios beneficiarse de siste-
mas que acomodaran los servicios bancarios
Referencias
a sus necesidades específicas y pudieran ser
altamente personalizados? La utilización in- García Montalvo, José (2014), “Big Data y la
mejora de los servicios financieros,” Papeles de
teligente de la tecnología y el Big Data abre Economía Española.
la posibilidad de que la banca ponga en el García Montalvo, José (2001), Formación y empleo
centro de su estrategia futura las necesida- de los graduados de enseñanza superior en España
des de cada cliente de forma singularizada al y en Europa.
igual como Amazon realiza recomendaciones Linden, G., B. Smith y J. York (2003), “Amazon.
personalizadas sobre productos que pueden com recomendations: Item-to-item collaborative
filtering,” IEEE Internet Computing, 7 (1), 76-80.
ser de interés para cada uno de sus clientes.
Ministerio de Educación (2014), Inserción laboral
El objetivo debe ser mejorar la accesibilidad
de los egresados universitarios: la perspectiva
de familias de renta media-baja y baja a pro- desde la afiliación a la Seguridad Social.
ductos financieros de bajo coste adecuados
3
Linden et al. (2003). Este algoritmo en lugar de utilizar emparejamientos con clientes similares, empareja los ítems de las
compras de los clientes a otros ítems similares para combinarlos luego en un listado de recomendaciones. En el proceso se
determina el emparejamiento más similar para un determinado ítem utilizando un algoritmo que construye una lista de ítems
similares que el usuario tiende a comprar juntos.
96

Big Data,
Ciencia y Estadística
Por Daniel Peña

Instituto UC3M-BS de Financial Big Data y
Departamento de Estadística, Universidad Carlos III de Madrid
Desde que los británicos de medida más precisos que nuestros sen-
John Locke (1632-1704) y tidos. Los experimentos científicos han sido
David Hume (1711-1776) el motor del avance en el conocimiento em-
establecieron el empirismo, pírico en el siglo XX, especialmente desde
los datos se han ido convir- que R. A. Fisher, uno de los creadores de la
tiendo en la materia prima de conocimien- Estadística, estableciera en 1935 los princi-
to. Las ciencias experimentales han avanza- pios para diseñarlos.
do aprendiendo de las mediciones recogidas En el siglo XXI se ha producido un cam-
mediante observación y experimentación. bio trascendental en cómo generamos datos.
La observación es un proceso lento, porque La digitalización de la información permite
depende de la información que pueden cap- hacerlo automáticamente, y casi sin coste,
tar nuestros sentidos. La experimentación es mediante sensores que captan información
más eficaz, porque permite: (1) generar si- visual, auditiva y táctil, con una precisión
tuaciones que ocurrirían con poca frecuen- mucho mayor que la del ojo humano, el
cia de manera espontánea y (2) planificar la oído o la piel. Los avances espectaculares
recogida de datos utilizando instrumentos en la velocidad de transmisión de señales, la
97

Una tentación frecuente entre los científicos es pensar que al crecer
la dimensión de un problema, que sabemos resolver a pequeña escala,
los métodos establecidos se aplicarán con pequeños ajustes al problema
de mayor dimensión
posibilidad de comunicarse sin cables, me- sobre este concepto. Su método tuvo un éxi-
diante wifi o telefonía móvil, y la integra- to inmediato y sus vídeos docentes han sido
ción de sensores en todos los dispositivos di- utilizados desde entonces por estudiantes de
gitales, están generando masas de datos, los todo el mundo. Una de las claves de su éxito
llamados Big Data, que van a proporcionar fue sustituir escuchar una clase magistral du-
cambios de gran calado en la forma en que rante una hora por sesiones interactivas de
aprendemos, trabajamos, cuidamos nuestra pocos minutos, donde el estudiante invierte
salud, nos comunicamos y disfrutamos de la mayor parte del tiempo de forma activa
nuestro ocio. En el siglo XX la inmensa ma- respondiendo a cuestiones y ejercicios.
yoría de los datos disponibles habían sido El éxito de este enfoque impulsó las pla-
creados por organizaciones, empresas o ins- taformas de aprendizaje gratuito y masivo
tituciones sociales y científicas. Actualmen- (los llamados MOOCs, cursos online ma-
te, la gran mayoría (80%) se crean por la sivos y abiertos), donde los estudiantes al
actividad diaria de las personas. mismo tiempo que aprenden proporcionan
Consideremos, como ejemplo, los cam- información detallada sobre su proceso de
bios que están apareciendo en la educación. aprendizaje: tiempo dedicado a cada con-
La enseñanza online de finales del siglo XX cepto, ejercicios resueltos, partes del vídeo
se basaba en la grabación de clases y se con- revisados para responder un ejercicio, etc.
virtió en una alternativa más barata que la Estos datos permiten entender con gran de-
enseñanza presencial, aunque con las venta- talle cómo aprende cada estudiante.
jas indudables de eliminar las distancias, las El análisis de la información proporciona-
zonas horarias y las clases a horas definidas. da por los millones de usuarios de estos cur-
Sin embargo, no se modificó el proceso de sos va a transformar los métodos docentes.
aprendizaje, que siguió basándose en escu- Una revolución similar se ha producido en
char clases magistrales, ahora grabadas en la enseñanza de los idiomas con la aparición
vídeo. El germen de un cambio pedagógico de Duolingo, creada por otro gran innova-
aparece a principios del siglo XXI, cuando dor, el guatemalteco Luis von Ahn, inventor
en 2004 Salman Khan, un joven ingeniero de los códigos que aparecen en las páginas
del MIT, comenzó a colgar en Youtube ví- web para diferenciar una persona de una
deos cortos donde explicaba matemáticas a máquina. Esta plataforma gratuita es utiliza-
sus primos en New Orleans. Khan tuvo la da por más de siete millones de personas en
intuición genial de grabar lo que vería un EE.UU. para aprender idiomas, comparado
estudiante cuando un profesor sentado a su con el millón y medio que asiste a clases de
lado explica un concepto matemático en una idiomas en el sistema de educación pública.
hoja de papel, en lugar de mostrar el busto El éxito de Duolingo, según su creador, es
parlante habitual de los vídeos docentes pre- aprovechar la ingente cantidad de datos so-
vios. Su objetivo era hacer comprensible en bre el aprendizaje que se recogen a través de
pocos minutos un concepto, y hacer tam- un dispositivo digital (móvil o tableta prin-
bién al estudiante consciente de su apren- cipalmente) para mejorar continuamente el
dizaje poniéndolo a prueba resolviendo aprendizaje de un idioma concreto por los
ejercicios y respondiendo a preguntas breves nativos de otra lengua. Es conocido que para
98

un alemán las dificultades del inglés no son físico habitual para englobar las nuevas fuer-
las mismas que para un español, pero este zas que actúan a ese nivel. En otro contexto,
hecho no se utilizaba antes de la aparición un medicamento que puede, en pequeñas
de esta plataforma. Los datos masivos que dosis, ayudarnos a conciliar un sueño re-
generan los usuarios alemanes y españoles parador, puede en dosis elevadas produ-
sobre su aprendizaje permiten adecuar la cirnos la muerte. El proceso científico de
enseñanza del inglés a la situación de parti- Hipótesis-Modelo-Experimentación-Datos-
da de cada estudiante, facilitando su rápida Aprendizaje, que se ha usado habitualmente
progresión en el idioma. Estos dos ejemplos para aprender de los datos, debe adaptarse a
muestran como el Big Data está jugando ya nuevas situaciones donde el punto de par-
un papel fundamental en la modificación de tida es el análisis de ingentes datos masivos
los métodos de enseñanza. generados automáticamente sobre un pro-
La misma idea, aprovechar a los usua- blema. Además, los métodos estadísticos se
rios de un proceso para generar datos que crearon para analizar pequeñas muestras ho-
lo mejoren, se ha aplicado al campo de la mogéneas de una población y requieren un
salud. Los sensores de los teléfonos móviles replanteamiento para aplicarlos a las grandes
pueden recoger información para medir el masas heterogéneas de datos actuales.
ejercicio que hacemos, cómo nos alimenta- En este trabajo vamos a analizar algunas
mos, y controlar otras variables que miden de las implicaciones del estudio de datos ma-
nuestra salud. Por ejemplo, con el sensor de sivos y se organiza como sigue. En la sección
voz se puede analizar la respiración y enviar 2 comentaremos cómo han ido cambiando
información sobre el estado de los pulmo- las necesidades de almacenamiento y cálcu-
nes y pronto veremos sensores que midan lo con los grandes bancos de datos actuales.
la presión arterial y otras constantes vitales. La sección 3 analiza algunos de los cambios
De esta manera, un simple teléfono móvil previsibles en la metodología de los méto-
puede enviar a un hospital información dos estadísticos, y cómo su interacción con
masiva sobre nuestra actividad, para ser ana- la informática (Inteligencia Artificial y Data
lizada y comparada con la de otros pacientes Mining) y la ingeniería de datos (Aprendi-
y monitorizar nuestra salud. En el pasado la zaje máquina o Machine Learning) conduce
inmensa mayoría de la información útil para a nuevos métodos más eficaces para adqui-
la Medicina se generaba en los centros médi- rir conocimiento del Big Data. La sección
cos pero, en el futuro, seremos las personas 4 es una llamada de atención sobre la idea,
las que aportaremos la mayoría de los datos desgraciadamente muy extendida, de que al
relevantes para controlar la salud y prevenir disponer de datos masivos no tenemos que
la aparición de enfermedades. preocuparnos de los problemas tradicionales
Una tentación frecuente entre los cien- de sesgos, correlaciones espurias y falsos ha-
tíficos es pensar que al crecer la dimensión llazgos, estudiados en Estadística. El artículo
de un problema, que sabemos resolver a finaliza con unas breves conclusiones.
pequeña escala, los métodos establecidos se
aplicarán con pequeños ajustes al problema Los Bancos de datos actuales y su
de mayor dimensión. Sin embargo, es bien tratamiento
conocido que al aumentar la velocidad de un Analicemos brevemente el crecimiento
objeto y aproximarse a la de la luz, la Física de nuestra capacidad para almacenar datos
clásica deja de ser aplicable y tenemos que y procesarlos. Recordemos que un bit (b)
utilizar las ecuaciones de la relatividad. En es la unidad mínima de almacenamiento y
el mismo sentido, si descendemos a escala representa un objeto que puede solo estar
microscópica, hay que modificar el modelo en dos posiciones, por ejemplo una bombi-
99

lla apagada o encendida. Se representa por colección impresa de la Biblioteca del Con-
un dígito binario que toma los valores cero greso de los EE.UU. ocupa actualmente del
(apagado) o uno (encendido). Uniendo 8 orden de 15 terabytes, pero el World Data
de estos bits obtenemos un byte (B), que Centre for Climate, el WDCC (Centro
puede tomar 28= 256 valores diferentes, que Mundial de Datos para el Clima), una de
son suficientes para almacenar un carácter las bases de datos más grande del mundo,
(letra, número o símbolo). Una página es- almacena unos 400 terabytes de informa-
crita en A4 contiene unos 2.000 caracteres ción sobre el clima en el planeta. Google
y requiere, por tanto, unos 2.000 B o 2 KB recibe más de 100 millones de consultas
(1KB = 1.000 bytes). Las páginas de los li- al día y se supone que es capaz de almace-
bros impresos son más pequeñas y un libro nar cientos de terabytes de información. El
de 350 páginas puede almacenarse en unos CEO de Google, Eric Schmidt, estimó que
400 KB = 400 x 10³ bytes. Los primeros la Humanidad había creado hasta 2003 una
ordenadores personales (PC), como el XT cantidad equivalente a 5 exabytes, y se esti-
de IBM de 1981, tenían una capacidad de ma que esta cifra se genera actualmente en
almacenamiento equivalente a un libro im- 2 días.
preso, que era la capacidad aproximada de La evolución de los sistemas operativos
los discos floppy iniciales (360 KB). Pocos también ha sido muy rápida. De los pro-
años después se introdujeron en los PC los gramas para cálculo estadístico iniciales que
discos duros fijos, con una capacidad de 20 realizaban una operación concreta cada vez
MB (1 megabyte = 10 6 bytes), lo que per- (como en las versiones antiguas de BMDP
mitía almacenar unas decenas de libros. En o SPSS), se ha pasado a los programas in-
los años 90 los PC eran capaces de guardar teractivos actuales, concebidos para aplicar
varias canciones de música: una canción re- distintos tipos de análisis a un mismo con-
quiere unos pocos megabytes (MB), y una junto de datos. Además, estos programas
sinfonía unos 80 MB. En 1992 comenzaron proporcionan acceso directo a los resultados
a instalarse discos duros de 250 MB, y desde intermedios, así como capacidad de progra-
entonces la capacidad de almacenamiento se mación. Al estar orientados a objetos pue-
ha incrementado el 60% cada año. En los den manejar indistintamente funciones, va-
comienzos de este siglo un PC podía alma- riables o gráficos. La aparición de lenguaje
cenar unas pocas películas de hora y media, libre de código abierto R, en los años 90,
ya que cada una requiere alrededor de 1 gi- a partir del lenguaje S+, ha creado un es-
gabyte (GB = 10 9 bytes) y los discos duros tándar donde cientos de investigadores de
pasaron en 2002 a 40 GB. Los teléfonos todo el mundo incorporan nuevas rutinas
inteligentes, como el iPhone introducido ampliando cada día las capacidades de aná-
en 2007, incluían 32 GB. Hoy, un PC de lisis. Esta apertura ha dado a R una ventaja
sobremesa puede almacenar unos pocos te- imbatible frente a otros lenguajes cerrados,
rabytes (TB = 10¹² bytes), es decir, cientos que no se enriquecen continuamente por
de películas, miles de canciones y cientos de los nuevos programas escritos por miles de
miles de libros, y el último iPhone incluye investigadores en todo el mundo. Además,
128 GB, suficiente para guardar más libros R puede integrarse con distintas bases de
de los que el dueño podría leer en su vida o datos y está evolucionando rápidamente
canciones escuchar en un año. para incorporar cálculos en paralelo, nece-
Los servidores actuales se mueven en sarios con bases de millones de datos como
petabytes (PB = 10¹5 bytes) y muy pronto las actuales.
tendremos unidades de almacenamiento en El cálculo en paralelo consiste en eje-
exabytes (EB = 1018 bytes). Por ejemplo, la cutar conjuntos de instrucciones simultá-
100

neamente en varios procesadores distintos. tación en paralelo y distribuida permitiendo
Esto exige una programación donde, en lu- desarrollar tareas muy intensivas de com-
gar de resolver un problema secuencialmen- putación dividiéndolas en pequeñas parte y
te, se descompone en partes, que pueden distribuyéndolas en un conjunto tan grande
procesarse en paralelo con procesadores con como se quiera de máquinas. A diferencia de
varios núcleos, o con varios procesadores, las soluciones anteriores para datos estruc-
que realizan los cálculos en paralelo y se co- turados, la tecnología Hadoop introduce
munican entre sí. Este sistema muestra toda técnicas de programación nuevas y más ac-
su potencia cuando se conectan varios orde- cesibles para trabajar en almacenamientos de
nadores para que trabajen conjuntamente. datos masivos con datos tanto estructurados
Puede hacerse de forma remota, donde los como no estructurados.
ordenadores no están físicamente cerca y se En resumen, la capacidad de cálculo ha
conectan por la web, o formando un cluster seguido aumentado de acuerdo con la ley de
o grupo de ordenadores de potencia media, Moore, que predice que, aproximadamen-
pero conectados entre sí mediante un siste- te, cada dos años se duplicará el número de
ma de red de alta velocidad (gigabit de fibra transistores en un microprocesador. La capa-
óptica por lo general). Además, debe existir cidad de almacenaje también ha crecido a un
un programa que controle la distribución ritmo muy fuerte, con aumentos del 80%
de la carga de trabajo entre los equipos. Por cada año. En la actualidad, siguen apare-
lo general, este tipo de sistemas cuentan ciendo continuamente nuevos avances para
con un centro de almacenamiento de datos mejorar nuestra capacidad de almacenar y
único. procesar el Big Data.
Una infraestructura digital en código
abierto, dentro de la licencia de la Funda- Big Data y los cambios en la Estadística
ción APACHE, es Hadoop, creado por La Estadística nace como la disciplina
Doug Cutting. Hadoop combina la compu- científica que se ocupa del análisis de datos
101

en Inglaterra, a principios del siglo XX, bajo porales, pero este campo se encuentra todavía
el impulso de K. Pearson y R. A. Fisher. Ini- en sus inicios.
cialmente los datos considerados eran varia- Los datos pueden contener frecuentemen-
bles numéricas, o bien continuas, como la te valores atípicos, consecuencia de errores
medida de la temperatura, o discretas (o de de medición o cambios en las condiciones de
atributo) como el color del pelo. Estos datos observación. En los cuarenta últimos años se
se obtenían de muestras aleatorias pequeñas han introducido en Estadística los métodos
de poblaciones cuyas características descono- robustos, que proponen nuevos estimadores
cidas se deseaba estimar. Durante la mayor que se vean poco afectados por unos pocos
parte del siglo XX los modelos utilizados y valores atípicos. Es previsible que la robus-
los métodos de inferencia y optimalidad han tez tenga una importancia creciente en el
correspondido a este esquema, aunque en los desarrollo de métodos automáticos para Big
últimos años la Estadística se está transfor- Data, donde es importante asegurarse que
mando a gran velocidad para adaptarse a los las conclusiones no dependen de unos pocos
datos masivos. Por ejemplo, un tema central datos erróneos. Los datos masivos están tam-
en el trabajo de Pearson fue contrastar si los bién sujetos a problemas de heterogeneidad
datos habían sido generados siguiendo un más generales, como la presencia de distintos
modelo de distribución determinado (la dis- tipos de observaciones que forman conglo-
tribución normal o Gaussiana, por ejemplo), merados o, con datos temporales, cambios
y una propiedad fundamental de un buen de modelos en el tiempo. Existen muchos
estimador, descubierta por R. A. Fisher, es algoritmos de aprendizaje no supervisado, o
ser suficientes, en cuyo caso aprovecha toda cluster, para encontrar grupos, pero, en ge-
la información existente en la muestra. Es- neral, no están adaptados para las grandes
tos dos temas, centrales en el pasado, tienen masas de datos actuales.
poca importancia con datos masivos: cual- Un problema central para el futuro es
quier hipótesis de que unos datos reales han cómo combinar información diversa: dis-
sido generados por una distribución fija será tintas personas, países, instituciones, mo-
rechazada por los contrastes habituales y la mentos de tiempo, en datos de distinto
suficiencia pierde importancia con datos he- tipo: funciones, gráficos e imágenes. Para
terogéneos frente a otras propiedades, como ello, habrá que desarrollar nuevos métodos
la robustez. Por otro lado, los datos ya no son de Meta Análisis, que surgió precisamente
solo variables aisladas o en conjuntos (mul- para combinar información de pacientes de
tivariantes) sino también imágenes, vídeos, distintos centros. En general los métodos
textos, sonidos o funciones. Es cierto que so- Bayesianos son más flexibles para manejar
bre estos objetos pueden definirse variables: distintos tipos de información, por lo que
por ejemplo una imagen en color está for- es esperable su crecimiento, aunque como
mada por tres matrices, cada una de un co- complemento de los métodos clásicos o fre-
lor, RGB (por sus siglas en inglés: red, green, cuentistas.
blue) y los píxeles de cada matriz indican la Los métodos automáticos irán teniendo
intensidad del color en una escala que va del cada vez más peso por las necesidades de
0 al 255 (ya que se codifica con un byte, que procesar rápidamente los datos. Hasta la in-
recordemos tiene 256 valores posibles). Cada troducción del criterio de Akaike en 1973
color se define por tres números enteros entre los estadísticos han confiado en el trabajo
paréntesis, por ejemplo, el rojo es (255,0,0), artesanal de construcción de modelos como

y el amarillo (255,255,0). Los vídeos, textos la mejor forma de aprender de los datos.
o sonidos pueden también tratarse como da- Sin embargo, las necesidades de procesar
tos estructurados incluyendo variables tem- grandes masas de datos han hecho cada
102

vez más populares los métodos automáti- cambios en los métodos estadísticos tradi-
cos. Por ejemplo, el éxito de los programas cionales, cristalizan en una interdisciplina-
TRAMO y SEATS desarrollados por Gó- ria Ciencia de los datos, con contribuciones
mez y Maravall (1996) para el análisis de de estadísticos, matemáticos, ingenieros e
series temporales y la desestacionalización, informáticos. Un texto que presenta una
es una muestra de la enorme demanda en visión unificada de estos nuevos enfoques
todo el mundo por buenos métodos auto- es Hastie, Tibshirani and Friedman (2011).
máticos capaces de extraer en pocos segun- Sin embargo, se ha avanzado muy poco
dos la información de un conjunto de datos en los métodos de Big Data para variables
temporales. dinámicas. Este es un campo donde es es-
La Estadística ha ido gradualmente in- perable que se produzcan avances muy im-
corporando métodos de análisis desarrolla- portantes en los próximos años y donde los
dos en otras áreas. Por ejemplo, los métodos métodos estadísticos no tienen todavía nin-
cluster surgieron primero en las ciencias de guna alternativa eficaz desde otros campos
la computación y las redes neuronales en el alternativos para el análisis de Big Data con
campo del aprendizaje máquina o Machine dimensión temporal.
Learning, y los estadísticos han tardado en
incorporar estos avances en sus estructuras Riesgos en el análisis de datos masivos
de trabajo. Los investigadores en Data Mi- Un punto de vista frecuente entre las
ning e Inteligencia Artificial han propuesto personas que se acercan al fenómeno de Big
nuevos métodos de clasificación, como las Data es suponer que un análisis puramente
técnicas de Máquinas de vectores soporte empírico de los datos masivos será suficiente
(Support vector machines), de búsqueda de para proporcionar los conocimientos del fu-
grupos, de reducción de la dimensión y de turo. Este punto de vista puede ser peligroso
visualización de datos en muchas dimensi se olvidan algunos principios fundamen-
siones. Todos estos avances, unidos a los tales del aprendizaje estadístico. Vamos a re-
103

SOLICITUDES ADMISIONES PROPORCIÓN DE ADMISIÓN EN %
Mujeres 2.000 1.136 56,80

Hombres 2.000 955 47,75
Total 4.000 2.091 52,27
Tabla 1. Resultados agregados de admisión en una universidad.
visar brevemente algunos de los riesgos que da, pero no a todos, que es cancerígeno. Si
pueden aparecer en un análisis no reflexivo no entendemos la cadena causal, que solo
de datos masivos. podemos deducir mediante una bien pla-
nificada experimentación, las correlaciones
Confundir asociación con causalidad y, encontradas pueden ser engañosas, como ex-
por ello, generar malas previsiones plicó hace casi 50 años con gran maestría el
Todo científico bien informado conoce la genial estadístico George Box (1966).
diferencia entre una asociación positiva entre Sin embargo, el olvido de estos principios
dos variables, es decir, que los valores altos estadísticos básicos ha llevado recientemen-
en una se presentan en general con valores te a uno de los fracasos más conocidos en
altos de la otra y viceversa, y la causalidad el análisis de Big Data: las predicciones de
entre ellas, que implica que si una aumenta Google de los contagios de gripe (https://
producirá en la otra también un aumento, en en.wikipedia.org/wiki/Google_Flu_Trends).
promedio. Por ejemplo, el número de ma- Una estimación inicial realizada al detectar
trimonios en un mes y su temperatura están una asociación entre el número de contagios
asociados en España, porque los matrimo- de la gripe y el número de consultas reali-
nios en verano son los más frecuentes, pero zadas en el buscador sobre esta enfermedad,
no existe causalidad: una ola de calor en julio condujo a un gran éxito inicial en la predic-
no hará aumentar el número de matrimo- ción de la gripe, seguida de predicciones de-
nios en ese mes. Sin embargo, con frecuencia sastrosas en los años siguientes. Véase Lazer,
recibimos mensajes de correlaciones entre Kennedy, King and Vespignani (2014) para
variables ligadas a nuestra salud que parten un análisis de las causas de este fracaso. Estos
de una asociación para hacer previsiones que autores concluyen que el análisis automáti-
suponen una relación causal. Por ejemplo, de co de Big Data puede complementar, pero
una correlación observada entre el consumo nunca reemplazar, los métodos estadísticos
intenso de carne procesada y la frecuencia de tradicionales de recoger datos y analizarlos.
cáncer no podemos deducir que comiendo
más (o menos) carne aumente (disminuya) Encontrar relaciones inexistentes entre
nuestro riesgo de cáncer. La asociación en- variables independientes
contrada puede ser debida a que las personas Supongamos que tenemos una base de da-
con consumo intenso de carne tienen otros tos con 1.000 variables que en realidad son
hábitos de vida que son los responsables del independientes. Para buscar relaciones se cal-
aumento en el riesgo de cáncer, o a un aditi- culan los ([1.000]/2) = 499.500 coeficientes
vo añadido a ciertos tipos de carne procesa- de correlación por parejas y se consideran ver-
104

SOLICITUDES ADMISIONES PROPORCIÓN DE ADMISIÓN EN %
Hum-m 800 560 70

Hum-h 300 225 75
Ing-m 200 36 18
Ing-h 700 140 20
Eco-m 1.000 540 54
Eco-h 1.000 590 59
Total 4.000 2.091 52,27
Tabla 2. Resultados desagregados de admisión por centros en una universidad.
daderas las correlaciones que son significati- una población más amplia los resultados de
vas al 99%, es decir, que solo una vez de cada analizar mensajes de las redes sociales pero si
mil aparecerán como ciertas cuando no exis- los usuarios de Twitter o Facebook difieren
ten. Entonces, el número esperado de relacio- en aspectos importantes de la población ge-
nes falsas encontradas será 0,001 x 499.500 neral, lo encontrado puede no ser aplicable a
= 499,5 por lo que podemos estar seguros la población española. Las técnicas de mues-
de que, con muchas variables, con seguridad treo y de diseño de experimentos pueden
encontraremos muchas relaciones inexisten- ayudar a investigar si una muestra, grande o
tes. En los últimos años se ha desarrollado la pequeña, tiene sesgos sistemáticos respecto al
teoría de falsos descubrimientos (False Disco- conjunto de la población.
very Rate), para modelar y comprender estas Es importante recordar que si los datos
situaciones. Podemos concluir que cuando no se han obtenido por procedimientos alea-
existen muchas variables y se hacen en con- torios sino por suministro de los usuarios,
secuencia muchas comparaciones hay que ser como en las redes sociales, un tamaño de
extremadamente cauto y riguroso para evitar datos grande no asegura una buena represen-
que concluyamos con muchas falsas relacio- tatividad. Por ejemplo, una correlación en-
nes entre las variables. tre dos variables con 100.000 observaciones
puede ser creada por un solo dato, que puede
Olvidarnos de los sesgos presentes además ser un error de observación. Es im-
y generar malas predicciones portante, por tanto, no olvidar los controles
Si un banco tiene datos abundantes so- estadísticos necesario para generalizar de los
bre los gastos con tarjetas de crédito de una datos a una población.
parte de sus clientes es tentador utilizar esta
información para predecir los gastos futuros Ignorar la heterogénidad puede llevar
de todos. Sin embargo, si los usuarios de las a falsas conclusiones
tarjetas no son representativos del total, las Ilustraremos este importante resultado
conclusiones pueden ser muy equivocadas. primero con variables cualitativas. La Tabla 1
Hay una tendencia creciente a generalizar a muestra los resultados agregados de admi-
105

Conclusión
El Big Data, analizado con
los métodos adecuados, va a
proporcionarnos una gran opor-
tunidad de avanzar nuestro co-
Price €
nocimiento. Por un lado, pone

a nuestra disposición datos con
una precisión y grado de detalle
y desagregación que nunca han
Size of the appartments in squared meters existido en la historia. Por otro,
las necesidades de análisis con
Fig. 1. Two groups of different appartments in Madrid datos masivos van a requerir un
enfoque más interdisciplinario,
con la Estadística en una posi-
sión en una universidad: ingresan más mu- ción central, pero con aportaciones funda-
jeres que hombres y podemos concluir que mentales de las Ciencias de la Computación
las clases tendrán, en su mayoría, prepon- y del Aprendizaje Máquina. Además, cual-
derancia femenina. La Tabla 2 desglosa esta quier análisis debe enmarcarse en el conoci-
misma información por facultades y muestra miento ya adquirido y contrastado de la dis-
que esta conclusión es falsa: en las tres facul- ciplina concreta que estudia en cada caso los
tades se admiten más hombre que mujeres y datos analizados. En esta tarea, la creación
las clases tendrán con certeza preponderan- de institutos de investigación interdiscipli-
cia masculina. Este fenómeno se conoce en narios sobre Big Data y Data Science facili-
Estadística como la paradoja de Simpson y tará la cooperación de estos científicos y que
puede resumirse así: si mezclamos unidades las herramientas más eficaces desarrolladas
heterogéneas, las conclusiones obtenidas en en unos campos de aplicación se trasladen
el agregado pueden ser opuestas a las dedu- a otros. Es importante no caer en particu-
cidas con los datos desagregados. larismos y defensas gremiales para asegurar
Los riesgos de mezclar poblaciones hete- la unidad del método científico, que ha sido
rogéneas son todavía mayores en el caso de la mejor garantía de los avances pasados y lo
variables continúas. Por ejemplo la Figura 1 será, indudablemente, de los futuros.
muestra la relación entre el tamaño y el pre-
cio de un piso en un barrio heterogéneo de
una ciudad. En ese barrio existen aparta- Referencias
mentos nuevos de alta calidad junto con pi- Box G. E. P. (1966). Use and abuse of regression.
sos más grandes, pero en peor estado, y cuyo Technometrics, 8, 4.
precio por metro cuadrado es sustancial- Fisher, R. A. (1935). The Design of Experiments,
mente menor que en los apartamentos nue- Edinburgh: Oliver and Boyd.
vos. Dentro de cada grupo existe una rela- Gómez, V. and Maravall, A. (1996). Programas
TRAMO and SEATS. Documento de Trabajo, Banco de
ción clara y fuerte entre el precio y el tamaño España. SGAPE-97001.
del apartamento, pero al mezclar todos los Lazer, D. Kennedy, R. King, G. and Vespignani, A.
pisos, la relación que aparece entre tamaño (2014). The Parable of Google Flu: Traps in Big Data
y precio es negativa, con una correlación de Analysis Science, 343, 6176, pp. 1203-1205.
-0,3. De nuevo, vemos como una relación Hastie, T., Tibshirani, R. and Friedman, J. (2011).
que se manifiesta en un conjunto de grupos The Elements of Statistical Learning: Data Mining,
Inference, and Prediction, 2th edition. Springer
heterogéneos puede cambiar de dirección en
Series in Statistics.
los datos agregados.
106

Big Data en el Retail:

Ciencia y tecnología al servicio del consumidor
Por Juan Andrés Pro Dios

Director de Sistemas de Información del Grupo El Corte Inglés, S.A.
Big Data significa cosas va- mación que no puede ser procesada o ana-
riopintas para distintas per- lizada utilizando sistemas y herramientas
sonas. Convengamos que informáticas tradicionales. Para el comercio
con el término Big Data nos minorista, Retail en el anglicismo más ex-
referimos a la tendencia en tendido, su rápido desarrollo supondrá la
el avance de la tecnología y en la reducción transformación completa de su industria.
drástica de sus costes, que ha abierto las El comercio minorista es intensivo en el
puertas hacia un nuevo enfoque de com- uso de la información. Su explotación para
prensión de la información y de toma de extraer conocimiento de clientes y mercan-
decisiones mediante el uso intensivo de la cía siempre ha sido un hecho diferenciador.
estadística y de la investigación operativa, Desde los años sesenta del siglo pasado los
que es utilizada para describir enormes can- retailers hemos utilizado modelos de análisis
tidades de datos que llevaría demasiado es- multivariante para segmentar a los clientes,
fuerzo cargar para su análisis en una base de evaluar el riesgo de las operaciones o evitar
datos relacional. De esta manera, el término el fraude, modelos para prever los flujos de
Big Data se aplica para toda aquella infor- tesorería o aquellos encaminados a opti-
107

La velocidad que exige la economía global y la rapidez del cambio
demográfico y social que experimentamos, hacen que el entorno del
Retail sea muy sensible al tiempo
mizar las operaciones. Ya a finales del siglo explotar analíticamente su Big Data.
pasado la aplicación de redes neuronales y La velocidad que exige la economía glo-
de otras técnicas propias de la inteligencia bal y la rapidez del cambio demográfico y
artificial para resolver problemas cotidianos social que experimentamos, hacen que el
del negocio había dejado de ser exclusiva entorno del Retail sea muy sensible al tiem-
de centros de investigación para difundirse, po. De ello se deriva la necesidad de esta in-
entre otras, a la industria del Retail. dustria de analizar, comprender y predecir
Conforme avanza la digitalización de la tendencias o comportamientos en tiempo
economía, la adopción masiva de tecnología real. Sin duda este hecho diferenciará a unos
por parte del consumidor y las experiencias retailers de otros. Para las tecnologías de la
de compra multicanal se han convertido en información y las comunicaciones (TIC)
norma y han disparado exponencialmente el supone una diferencia sustancial en el so-
volumen de información y la velocidad con porte que venían haciendo de los métodos y
la que ésta se genera. Los datos se han con- modelos estadísticos y de investigación ope-
vertido en un elemento crítico para compe- rativa durante los últimos cincuenta años:
tir. Son como el petróleo, la materia prima hemos pasado de describir, inferir y predecir
de nuestro tiempo imprescindible para sos- resultados sobre conjuntos de datos de ma-
tener el negocio de los retailers, que depende nera diferida a tener la necesidad de hacerlo
ahora de la capacidad de cada uno de éstos instantáneamente.
para gestionar, integrar, analizar y compren- El tiempo se ha convertido en factor crí-
der el gran volumen de información que tico a lo largo de toda la cadena de valor
genera tanto su actividad comercial como del Retail. El análisis de la demanda, la de-
sus clientes y el resto de consumidores en finición de la oferta, la compra de la mer-
el desempeño de su vida privada y profesio- cancía, los planes de surtido, la gestión del
nal. La sostenibilidad del negocio depende, inventario, la logística y la distribución, la
pues, de la capacidad de cada retailer para determinación del precio, el marketing, la
promoción, las ventas, el servicio al cliente,
los pagos, las devoluciones, las finanzas, los
empleados y otras muchas actividades re-
quieren decisiones cada vez más próximas al
tiempo real. Todas ellas deben ser ejecutadas
inmediatamente, buscando la satisfacción
del cliente y la minimización del coste para
incrementar el beneficio.
Según el estudio “Analytics: The real-
world use of Big Data”, del IBM Institute
for Business Value y la Said Business School
de la Universidad de Oxford, el 100% de
los retailers disponen en sus Big Data de

información derivada de sus transacciones
de back-office; un 67%, de los registros que
permiten la trazabilidad completa de su
108

actividad comercial; un 57%, de la infor- tos en memoria comerciales y herramientas
mación generada por sus terminales punto ad-hoc de software libre. Pero la velocidad del
de venta, escáneres y RFID; un 43%, de cambio, la incertidumbre y la complejidad
los datos capturados en las redes sociales; que caracterizan a nuestra era son enemigos
un 40%, de los datos obtenidos a través de de los sistemas de computación analítica
sensores y el mismo porcentaje de ellos, de tradicionales, máxime cuando las primeras
los correos electrónicos y de datos prove- se manifiestan en un ambiente donde las
nientes de fuentes externas (climatología, fuentes y los formatos de información son
estadísticas oficiales, etc…). Según describe dispares, el volumen de los datos se incre-
el estudio citado, cabe destacar que un 25% menta exponencialmente y hay carencia de
de los retailers ya disponen de información profesionales expertos en el análisis estadís-
geoespacial, de audio y de vídeo incorpora- tico de los mismos. Se hace necesario enton-
da a sus Big Data. ces explorar la aplicación de la computación
El detonante de todo ello ha sido el cognitiva a las analíticas del Retail.
desarrollo de las TIC, en especial el de la Esta tecnología, hardware y software, se
telefonía móvil inteligente y el de las redes compone de sistemas que infieren, predi-
sociales, la consolidación del Cloud como cen y de alguna manera piensan, aplicando
modelo de entrega más eficiente de los ser- sobre el Big Data algoritmos de inteligencia
vicios TIC y la explosión del Internet de las artificial y machine learning. Los sistemas de
cosas. Son las fuerzas que, junto al Big Data, computación cognitiva interpretan datos es-
alentarán la transformación de la industria tructurados y no estructurados de contexto
del Retail en los próximos años. (audio e imagen) y aprenden por experien-
La mayor parte de esta industria comenzó cia de la misma manera que lo hacemos los
el uso del Big Data con un enfoque prag- seres humanos. Sus capacidades marcarán el
mático, usando métodos estadísticos tradi- futuro del Retail, una industria en la que la
cionales o bayesianos y arquitecturas tecno- Ciencia y la tecnología se aúnan al servicio
lógicas híbridas que incorporan bases de da- del consumidor.
109

BIG DATA
Y CAMBIO
CLIMÁTICO
110

BIG DATA Y CAMBIO CLIMÁTICO
Big Data para el estudio del

cambio climático y la calidad del aire
Por Francisco J. Doblas-Reyes

Institució Catalana de Recerca i Estudis Avançats (ICREA), Barcelona.
Earth Sciences Department,
Barcelona Supercomputing Center-Centro Nacional de Supercomputación
(BSC-CNS), Barcelona
Francesco Benincasa y Pierre-Antoine Bretonnière

Earth Sciences Department,
Barcelona Supercomputing Center-Centro Nacional de Supercomputación
(BSC-CNS), Barcelona
Más que nunca en la historia de las ciencias sociedad pueda reducir su vulnerabilidad a la
en general, y de las Ciencias de la Tierra en variabilidad del clima y el cambio de origen
particular, los investigadores se enfrentan antropogénico, explotando al mismo tiem-
al problema de tratar con rápida dispo- po las oportunidades técnico-científicas que
nibilidad de cantidades ingentes de datos puedan surgir. Este es un ejemplo perfecto
heterogéneos que crecen continuamente a de las famosas tres “Vs” que determinan un
un ritmo que hace de su procesamiento y problema de Big Data: volumen, velocidad
diseminación con métodos convencionales y variedad.
todo un reto. Por ejemplo, Overpeck et al. El volumen principal de los datos climá-
(2011) muestra que mientras que los datos ticos y meteorológicos se crea con modelos
de modelos, satélites u observaciones in situ basados en procesos del sistema terrestre o
a nivel global podrían alcanzar los 50 PB en procede de imágenes satelitales. Las mejoras
2015, la proyección para 2030 es alrededor en los modelos incluyen un número crecien-
de siete veces superior. Los datos proceden te de fenómenos físicos, que crean al mismo
de fuentes muy diferentes y distribuidas, tiempo modelos que requieren ordenadores
comprendiendo desde plataformas satelita- más grandes y complejos, así como un ma-
les hasta sensores de todo tipo, pasando por yor número de variables que analizar y dise-
simulaciones con modelos con capacidades minar. Al mismo tiempo, estos modelos au-
muy distintas o reanálisis del pasado. Estos mentan regularmente su resolución espacial
autores afirman que, por ejemplo, los datos para incorporar mejor en la simulación la
climáticos están creciendo de forma dramá- influencia de fenómenos que ocurren a esca-
tica tanto en volumen como en compleji- las más pequeñas o con frecuencias tempo-
dad, de la misma forma en que sus usuarios rales más altas. Esto implica que incluso si la
aumentan en número y diversidad. Sugieren complejidad de los modelos no aumentara,
un nuevo paradigma de acceso a los datos el volumen de los datos generados aumenta-
meteorológicos y climáticos más rápido y ría con el tiempo, convirtiéndose en un pro-
sencillo para los usuarios, de manera que la blema mayor de lo que es en la actualidad.
111

Además de la necesidad de tener capacidad computacional cerca de
los grandes archivos de datos climáticos, la gran cantidad de datos
que almacenar también implica tener que considerar problemas como
la compresión, la diseminación eficiente (datos y documentación), la
conservación, la energía, la replicación, la gobernanza de los metadatos
y el acceso seguro y sencillo para un espectro amplio de usuarios
Para hacer las cosas aún más complicadas, gicos típicos de las configuraciones actuales,
todos los modelos numéricos usados (ya sea así como las configuraciones esperadas para
en simulaciones en meteorología, clima o los próximos años. Las Tablas 1 y 2 mues-
calidad del aire) han adoptado la metodo- tran el tamaño de las salidas generadas de dos
logía de predicción por conjuntos, que con- modelos diferentes utilizados en el Departa-
siste en realizar simulaciones paralelas que se mento de Ciencias de la Tierra del Barcelona
distinguen solo por pequeñas perturbacio- Supercomputing Centre-Centro Nacional de
nes introducidas en las condiciones iniciales Supercomputación (BSC-CNS1) en dos con-
(con el objetivo de aprovechar la bien cono- textos diferentes. Los números de la Tabla 2
cida sensibilidad a la incertidumbre en las son más impresionantes que los de la Tabla
condiciones iniciales en estos sistemas). Los 1, aunque debe tenerse en cuenta la diferen-
superordenadores aseguran una fuente de re- cia en los tipos de experimentos realizados.
cursos de cálculo para realizar estas simula- El modelo usado para ilustrar los volúmenes
ciones, pero se han dedicado proporcional- en problemas de calidad del aire se usa en
mente menos recursos a la manera en la que un contexto operativo en el que se hace una
se gestiona el resultado de las simulaciones, predicción cada día. Las estimaciones corres-
tanto dentro del superordenador como una ponden a una operación normal, teniendo
vez que los datos generados se almacenan en cuenta que la configuración que se usa
para su análisis o diseminación. actualmente es la de resolución estándar, du-
Más allá de las salidas generadas al reali- rante un año. Este tipo de operación permite
zar una simulación meteorológica, climática que haya suficiente tiempo para “posproce-
o de calidad del aire, hay una serie de fases sar”, almacenar y diseminar las predicciones
críticas adicionales que requieren el uso de de cada día antes de tener que tratar las del
conceptos de Big Data. Entre ellas están el día siguiente. El factor crítico en este caso re-
“posprocesado”, el “data mining” o la disemi- side en poner las predicciones en manos de
nación orientada al usuario de los conjuntos los usuarios lo antes posible para que puedan
de datos complejos (multifuente, multia- tomar las decisiones relevantes antes de que
gencia) generados alrededor del mundo con las predicciones pierdan su valor. En el caso
formatos diferentes. Las descargas múltiples de la Tabla 1 se ofrecen las estimaciones para
y las transferencias redundantes ocupan gran una única simulación, que frecuentemente
parte del tiempo de la red, los servicios y los es de muchos años. Además, las simulacio-
usuarios en estas fases cuando se usan mé- nes climáticas se realizan usando el método
todos convencionales, por lo que uno de los por conjuntos, lo que implica realizar varias
objetivos obvios es la búsqueda de métodos simulaciones en paralelo con un patrón de
que permitan reducir el tráfico de datos. generación de datos (frecuencia, tamaño)
La gran cantidad de datos producidos en prácticamente idéntico, lo que requiere una

una situación típica se puede ilustrar con gestión delicada del flujo de datos en el su-
ejemplos de los volúmenes de datos genera-
dos con modelos meteorológicos y climatoló- 1
https://www.bsc.es/earth-sciences.
112

Tamaño de las salidas de un año
Resolución horizontal
de simulación, campos globales
(atmósfera/océano)
(en NetCDF, ficheros de restart no incluidos)
T255/ORCA1
Resolución estándar 60km/100km
26 GB
T511/ORCA025
Alta resolución 40km/25km
120 GB
T1279/ORCA012
Muy alta resolución 25km/12km
1 TB
Tabla 1. Tamaño de las salidas de diferentes configuraciones del modelo global de clima EC-Earth.
Tamaño de las salidas de un año

Resolución de simulación, campos globales
horizontal (incluyendo la meteorología, aerosoles y
química gaseosa)
Resolución estándar 10 km 2.3 Pb
Alta resolución 4 km 9.1 Pb
Muy alta resolución 1 km 36.5 Pb
Tabla 2. Tamaño de las salidas de diferentes configuraciones del modelo de calidad del aire NMMB/BSC-CTM.
perordenador. En este caso el énfasis se pone a compartir las mismas soluciones hardware
en la extracción de los datos de la simulación y software a pesar de que las necesidades son a
del superordenador lo suficientemente rápido menudo diferentes, lo que implica que hace
pero usando estructuras de datos a la hora de falta llegar a compromisos para poder satis-
almacenarlos que permitan su descubrimien- facer a todos los usuarios, que es necesario
to a posteriori cuando se vaya a realizar su explorar tecnologías y soluciones diferentes
análisis y diseminación. y que hay que implicar perfiles técnicos de
Estos ejemplos sencillos ilustran algunos amplio espectro. Este último aspecto ilustra
de los retos relacionados con el Big Data la dificultad para atraer y retener suficien-
en una pequeña parte de las Ciencias de la tes recursos humanos con la experiencia
Tierra, una parte en la que las predicciones apropiada, aunque una descripción de este
climáticas y de la calidad del aire tienen que problema está más allá del objetivo de esta
abordar múltiples problemas con prioridades contribución.
distintas en una misma plataforma de com- Las predicciones de la calidad del aire pue-
putación. Los conjuntos de datos meteoroló- den usarse para ilustrar otros retos con los
gicos, climáticos y de calidad del aire tienden que se enfrentan la comunidad de meteoro-
113

logía, climatología y calidad del aire. El BSC- Tradicionalmente, la mayoría de sistemas
CNS proporciona regularmente servicios operativos han diseminado sus resultados a
públicos de calidad del aire. Para la mejora través de páginas web o en forma numérica
de la credibilidad del modelo usado se lleva usando formatos estándar. Sin embargo, un
a cabo una validación en tiempo real que nuevo reto ha surgido con la necesidad de
consiste en comparar tanto cualitativa (usan- llegar mejor a los usuarios a través de plata-
do diferentes tipos de mapas y herramientas formas móviles e inteligentes (Figura 2). La
gráficas) como cuantitativamente (usando aplicación móvil de CALIOPE ofrece una
medidas de calidad) las predicciones con las mejor interacción con el usuario, propor-
mejores observaciones disponibles. Las obser- cionando predicciones de la calidad del aire
vaciones proceden de múltiples fuentes tales para Europa en general o para sitios especí-
como las estaciones AERONET, una iniciati- ficos con un horizonte temporal de dos días.
va de NASA, las observaciones satelitales de La aplicación usa la capacidad de posiciona-
la ESA o EUMETSAT, e incluso de redes de miento del dispositivo para encontrar la lo-
estaciones de medida meteorológica y de la calización del usuario y envía una petición a
contaminación operadas por municipios, cola base de datos de CALIOPE, mostrando la
munidades autónomas o entidades estatales. calidad del aire para las estaciones más cer-
Todos estos datos se reciben en el BSC-CNS canas, incluyendo una clasificación en cinco
tan pronto como se producen, momento en categorías (buena, aceptable, deficiente, mala
el que se procesan teniendo en cuenta la va- y muy mala). Esta aplicación ofrece por pri-
riedad de datos y formatos, la diferente cali- mera vez una información individual a aque-
dad y cantidad de metadatos, la falta de in- llos usuarios vulnerables al estado de la cali-
formación suficiente sobre su error asociado dad del aire por su sensibilidad a, por ejem-
y la gran cantidad de canales por los que se plo, las enfermedades cardiorrespiratorias. El
reciben. A continuación se usan en la valida- desarrollo de esta aplicación ilustra algunos
ción de las predicciones y finalmente se alma- de los retos con los que nos enfrentamos
cenan de manera que la información sobre las (que no son muy diferentes a los de otras co-
predicciones y su calidad esté disponible para munidades): el desarrollo de un workflow lo
los usuarios. Aunque este proceso es suficien- suficientemente flexible como para incluir la
temente complejo, la situación está cambian- producción de las predicciones (un problema
do con la llegada de nuevos sensores donde computacional intenso y extenso) y la dise-
datos útiles de emisión de contaminantes, minación de la información a través de un
variables meteorológicas y exposición de las dispositivo inteligente en el menor tiempo
poblaciones (sobre todo urbanas) comienzan posible, mientras que se usa el mismo dis-
a captarse a través de dispositivos móviles, en positivo para recoger la mayor cantidad de
los coches y barcos, contadores inteligentes y información medioambiental local posible.
otras muchas vías. Esta nueva generación de El segundo sistema operativo de calidad
fuentes observacionales promete crecer expo- del aire gestionado por el BSC-CNS es el
nencialmente con el paradigma del Internet Barcelona Dust Forecast Center (BDFC,
de las cosas, creando nuevas oportunidades y http://dust.aemet.es), una iniciativa conjunta
dificultades. con AEMET, la Agencia Española de Meteo-
El BSC-CNS opera en este momento dos rología, en colaboración con la Organización
sistemas de predicción de la calidad del aire. Mundial de Meteorología. Este es el primer
Uno de estos sistemas es CALIOPE (http:// centro regional que proporciona de manera
www.bsc.es/caliope), el cual proporciona rutinaria predicciones de polvo mineral at-
predicciones de calidad del aire para Euro- mosférico para el norte de África, Oriente
pa y, a mayor resolución, España (Figura 1). Medio y Europa (Figura 3). El sistema uti-
114

BSC-ES/AQF WRF v.3.5.1+CMAQv5.0.2+Hermesv2
Nitrogen Dioxide (μg/m3) 11h forecast for 11 UTC 12 Nov
2015 - Iberian Peninsula Res: 4x4 Km
Fig. 1. Predicción de la concentración de dióxido de nitrógeno

para el 12 de noviembre de 2015 realizada por el sistema de
predicción de calidad del aire CALIOPE. Sobresalen los altos Fig. 2. Predicciones de la concentración de dióxido de
valores en torno a Madrid y Barcelona que reflejan el primer nitrógeno realizadas por el sistema de predicción de calidad
pico otoñal asociado a un sistema de altas presiones sobre el del aire CALIOPE vistas a través de sus aplicación para móvil.
suroeste de Europa. Imágenes similares están disponibles en Existen aplicaciones para Android con predicciones para
la página web de CALIOPE. Europa y, a mayor resolución, para España.
liza las predicciones del modelo NMMB/ Barcelona Dust Forecast Center - http://dust.aemet.es/
NMMB/BSC-Dust Res: 0.10x0.10 Dust Surface Conc. (μg/m3)
BSC-Dust que se desarrolla y ejecuta con una Run: 12h 11 NOV 2015 Valid: 06h 12 NOV 2015 (H+18)
resolución de 0.1º x 0.1º (aproximadamente
10 km) en el BSC-CNS y proporciona pre-
dicciones cada tres horas con un horizonte
temporal de 72 horas para seis variables di-
ferentes.
Debido al gran alcance regional de las pre-
dicciones del BDFC, los gestores del sistema
necesitan obtener información sobre su uso
para asegurar su utilidad. Google Analytics
ofrece una solución preliminar a este pro-
blema (Figura 4). Sin embargo, este servicio Fig. 3. Predicción de la concentración de polvo en superficie
ofrece información limitada ya que no está realizada por el Barcelona Dust Forecast Center para el 11 de
noviembre de 2015.
construido específicamente para este proble-
ma. Se necesitan otras soluciones que permi-
tan captar una información cualitativa de los nuevos conceptos asociados pueden sin nin-
usuarios que pueda ser analizada por científi- gún tipo de duda ofrecer el apoyo necesario
cos sociales para mejorar la utilidad del servi- para un servicio más eficaz.
cio de acuerdo a las necesidades de un gran Uno de los problemas más complejos para
número de países con culturas diferentes. la aplicación de las soluciones de Big Data en
Los dos sistemas de predicción de calidad el campo de la meteorología, la climatología
del aire operativos descritos, CALIOPE and y la calidad del aire lo ilustra el Coupled Mo-
BDFC, ilustran el rango de los retos asocia- del Intercomparison Project (CMIP; Meeh et
dos con la credibilidad y el alto nivel de ser- al., 2014). El objetivo de CMIP es el desa-
vicio que se espera de este tipo de sistemas. rrollo del mejor sistema de información so-
Las tecnologías de Big Data existentes y los bre el cambio climático para el pasado y el
115

Audience Overview / Oct 12, 2015-Nov 11, 2015 los aspectos en los que CMIP ha concentra-
do sus esfuerzos es en la diseminación de los
datos. La documentación de todos los expe-
rimentos ha sido estandarizada para asegurar
una conservación apropiada. El acceso a los
datos se realiza usando una serie de portales
distribuidos alrededor del mundo y gestio-
nados por la Earth System Grid Federation
(ESGF) en el que cada productor de datos los
ofrece usando los mismos criterios. Además,
algunas instituciones clave replican la mayo-
ría de los datos facilitados por otros centros
Fig. 4. Google Analytics results for the Barcelona Dust Fore- en otros continentes para disminuir el trá-
cast Center over the period 12th October to 11th November 2015.
fico de datos a larga distancia y facilitar un
acceso más rápido y eficaz, todo ello finan-
futuro que apoye los esfuerzos de mitigación ciado por fondos públicos y abierto a cual-
y adaptación promovidos por los tratados in- quier uso que se quiera realizar. Se espera que
ternacionales. CMIP requiere la ejecución de el nivel de replicación que puede alcanzarse
una gran variedad de experimentos, muchos aún no sea suficiente para algunos usuarios,
de ellos con simulaciones de varios siglos de lo que ha abierto el debate de la importancia
duración, con modelos climáticos globales de “llevar la computación a los datos”. Esto
por parte de varias instituciones que realizan significa que los nodos de diseminación de la
investigación climática alrededor del mundo. federación deberían también ofrecer un servi-
En su primera realización (CMIP en 1996) el cio para reducir los datos de acuerdo con las
tamaño de los datos generados (1 GB) no fue necesidades de cada usuario. Los miembros
un obstáculo en el momento de compartir los de la federación podrían ofrecer plataformas
experimentos. Sin embargo, el último ejerci- con mucha memoria y una capacidad com-
cio de CMIP hasta la fecha (CMIP6, que putacional media (un problema clásico de Big
comenzará en 2016)2 debería generar petab- Data) para realizar algunos cálculos previos
ytes de datos, a menudo con altas frecuencias básicos.
temporales (cada seis horas de la simulación) Además de la necesidad de tener capaci-
y para un gran número de variables que pre- dad computacional cerca de los grandes ar-
sentan niveles de interés y prioridad diferen- chivos de datos climáticos, la gran cantidad
tes (lo que implica un número de descargas de datos que almacenar también implica te-
esperadas muy distinto según la variable) por ner que considerar problemas como la com-
parte de los usuarios (Tabla 3). presión, la diseminación eficiente (datos y
Dejando aparte el enorme reto de la re- documentación), la conservación, la energía,
ducción de los resultados de los modelos la replicación, la gobernanza de los metadatos
durante las simulaciones de CMIP6 (en las y el acceso seguro y sencillo para un espec-
que los modelizadores guardan solo aquellas tro amplio de usuarios. Otro problema en
variables o diagnósticos que se espera que común con los sistemas operativos descritos
tengan un valore real para científicos y usua- anteriormente son la conversión de volúme-
rios) para disminuir el tráfico de datos antes nes masivos de datos de procedencias muy
de que los resultados se almacenen, uno de diferentes en un producto que usuarios de

sectores distintos puedan utilizar en su toma
2
https://www.wcrp-climate.org/index.php/wgcm-cmip/ de decisiones. Una solución posible consiste
wgcm-cmip6. en incluir herramientas de análisis de datos
116

CMIP CMIP2 CMIP3 CMIP3
(1996) (1997) (2005-2006) (2010-2014)
Número de
1 2 12 110
experimentos3
Centros participantes 16 18 15 24
Número de modelos 19 24 21 45
diferentes
Núm. de simulaciones
(modelos x expts) 19 4 211 841
Tamaño total del 1 GB 36 TB

conjunto de datos 540 GB 3.3 PB
Descargas totales 1.2 PB (aún en crecimiento)
Número de artículos 595 1.015

científicos publicados 47 (aún en crecimiento)
Tabla 3. Algunas características de las simulaciones realizadas en las distintas fases del Coupled Model Intercomparison Project (CMIP).
Las estimaciones de CMIP6 aún no están disponibles, pero se espera que sean un orden de magnitud superior a las de CMIP5.
dirigidas por los usuarios, así como visualiza- tadística y la computación y está muy adapta-
ción avanzada, de manera que ellos mismos da a la definición y el uso de estándares. Estas
puedan extraer un mensaje útil de los datos. características únicas hacen de ella un objeti-
En el fondo, la extracción de un mensa- vo interesante a la hora de probar algunos de
je significativo y orientado a la acción de la los desarrollos recientes que se realizan sobre
masa de datos heterogéneos que tenemos y Big Data en otras comunidades (Bourne et
seguimos produciendo es el interés principal al., 2015).
del paradigma del Big Data. La meteorología,
climatología y calidad del aire ofrece retos
específicos como la naturaleza operativa de Bibliografía
muchas de sus actividades, que implica reu- Bourne, P.E, J.R. Lorsch y E.D. Green (2015).
nir y compartir información con calendarios Sustaining the big-data ecosystem. Nature, 527,
muy estrictos, o la necesidad de extraer in- S16-S17, doi: 10.1038/527S16a.
formación de conjuntos de datos inmensos Meehl, G. A., R. Moss, K. E. Taylor, V. Eyring, R.
J. Stouffer, S. Bony y B. Stevens (2014). Climate
por parte de usuarios que seguramente no Model Intercomparison: Preparing for the next
son conscientes de las limitaciones de esos phase. Eos, Trans. AGU, 95, 77.
datos. En un contexto revolucionario como Overpeck, J.T., G.A. Meehl, S. Bony y D.R.
el que vivimos es importante tener en cuenta Easterling (2011). Climate data challenges in the
que esta comunidad tiene la particularidad de 21st Century. Science, 331, 700-702, oi:10.1126/
science.1197869.
estar muy estructurada alrededor del mundo,
tener una larga experiencia en el uso de la es-
3
Se entiende por experimento el estudio de un proceso físico, escala temporal o técnica numérica. Un experimento puede
incluir varios modelos y simulaciones.
117

BIG DATA Y CAMBIO CLIMÁTICO
Big Data y servicios climáticos:

un caso de estudio
Por Fernando Belda

Director de Producción e Infraestructuras AEMET
Uno de los grandes retos información desde diferentes puntos de vis-

que tienen los Servicios Me- ta de una forma rápida, el diagnóstico de
teorológicos en la presente cada uno de los casos y por tanto la correcta
década es tener la capacidad construcción de modelos, son algunas de las
suficiente para dar produc- dificultades que nos encontramos cuando
tos y servicios climáticos con valor añadido abordamos gran cantidad de información.
útiles para la correcta toma de decisiones en Sistemas de información, minería de da-
tiempo “casi” real. Información meteoroló- tos o Big Data son conceptos que hacen re-
gica procedente de observaciones, modelos ferencia al manejo de grandes cantidades de
numéricos, satélites, radares, cámaras, etc., datos y a los procedimientos y herramientas
estamos hablando de la gestión de gran utilizadas para encontrar patrones repeti-
cantidad de información y el desarrollo de tivos que nos sirvan para generar modelos
herramientas eficientes para la extraccion de predictivos que faciliten la generación de

información y del conocimiento. productos requeridos por la sociedad y de
Problemas como el almacenamiento y fácil uso (plataformas web, informes, esta-
la definición de estándares, el análisis de la dísticas...).
118

Sistemas de información, minería de datos o Big Data son conceptos
que hacen referencia al manejo de grandes cantidades de datos y a
los procedimientos y herramientas utilizadas para encontrar patrones
repititivos que nos sirvan para generar modelos predictivos que faciliten
la generación de productos requeridos por la sociedad y de fácil uso
La correcta predicción y detección de los cación utilizando solamente la precipitación.
fenómenos meteorológicos adversos, la ela- En este sentido, índices basados solamente
boración de eficientes sistemas de alerta tem- en la precipitación han sido comparados con
prana conlleva el manejo de una gran canti- índices meteorológicos-climatológicos más
dad de información que debe ser analizada complejos (Oladipio, 1985). En el presente
correctamente. El presente artículo intenta caso, utilizamos el índice SPI (McKee et al.,
exponer de una forma sencilla un caso de uso 1993) que ha sido contrastado frente a índi-
para uno de los fenómenos con un impacto ces de cálculo más complejo (Lloyd-Hughes
creciente en nuestras latitudes, la sequía. and Saunders, 2002).
La sequía es un fenómeno recurrente del Para la realización del caso de estudio se
clima europeo de especial influencia en las han utilizado técnicas para la búsqueda y
regiones mediterráneas. Este fenómeno ne- extracción de información y conocimiento a
cesita la definición de un marco adecuado partir de grandes cantidades de datos alma-
para poder describirlo. La sequía afecta a una cenados. En la Figura 1 se muestran los pasos
amplia variedad de sectores, su diversidad generales del proceso de descubrimiento del
geográfica y distribución temporal, y la de- conocimiento utilizados (Penadés, 2005).
manda de agua para uso humano hacen difí- A partir de los repositorios de datos (in-
cil establecer una definición única. Es posible formación disponible) que puede estar al-
definir la sequía en términos de las condicio- macenada en cualquier formato y soporte, se
nes meteorológicas, hidrológicas, agronómi- realiza un proceso de limpieza e integración
cas y/o socio-económicas dominantes, razón de la misma, seleccionándose y transfor-
por la cual existen un gran número de índices mándose los datos si fuera necesario. Poste-
y parámetros asociados a ella (WMO, 1975). riormente se construye el almacén de datos
En este caso nos referimos al concepto como una coleccción de datos orientados a
de sequía meteorológica, a saber, condicio- temas, integrados, historiados y no volátiles
nes meteorológicas que provocan ausencia que sirven de apoyo al proceso de toma de
o reducción de la precipitación durante un decisiones (Inmon, 1996). A partir de aquí
período prolongado de tiempo (semanas, empieza la evaluación de patrones y presen-
meses, años). Desde el punto de vista meteo- tación del conocimiento, en este caso apli-
rológico es necesario el estudio de las sequías camos la tecnología OLAP-Mining. En Han
cortas (importantes para la agricultura) o (1997) se propone OLAP-Mining como un
muy prolongadas (relevantes para evaluar la mecanismo que integra técnicas propias de
disponibilidad de agua subterránea, la esco- la tecnología OLAP (Codd, 1993) con las
rrentía y los niveles de reservas de agua). de minería de datos (Fay, 1996). Esta inte-
La precipitación y la evapotranspiración gración facilita la búsqueda de patrones o
son los principales factores que controlan conocimiento interesante de forma multidi-
la aparición y persistencia de las condicio- mensional y a varios niveles de abstracción,
nes de sequía. Dificultades históricas para la puesto que las herramientas de análisis tra-
cuantificación de la evapotranspiración han bajan directamente sobre un cubo de datos
sugerido la definición de esquemas de clasifi- construido a partir del almacén de datos.
119

Conocimiento
Evaluación de Patrones
y Presentación
de Conocimiento
Minería de Datos
Selección y
Transformación
de Datos
Limpieza e OLAP-Mining
Integración de
Datos
BD Ficheros
Repositorio de Datos
Fig. 1. Pasos del proceso de descubrimiento de conocimiento. (Knowledge discovery in databases.)
La Figura 2 muestra la arquitectura de 3 5.000 (dependiendo del período) estaciones

niveles del almacén de datos que tomamos distribuidas por todo el territorio con datos
como referencia para nuestro análisis. Como desde 1950 hasta la actualidad.
puede observarse, las herramientas de con- Se van incorporando al cubo de datos in-
sulta e informes, de análisis y/o minería de formación procedente de diferentes instru-
datos, para la exploración y visualización de mentos de teledetección (MERIS, MODIS,
los datos del almacén se encuentran en el ter- SEVIRI,…). Se considera fundamental-
cer nivel. mente series de tiempo de FVC (Fraction
Con la definición del modelo y procedi- Vegetation Cover) y LAI (Leaf Area Index)
mientos el siguiente paso es aplicarlo a la mo- desde 2000 hasta 2008 (1 km, 8 días). Fi-
nitorización y cuantificación de la sequía en nalmente, se incorpora la imagen de tipos de
diferentes áreas de España. En la Figura 3 se vegetación (Figura 5).
muestran los actores del modelo a desarrollar Este es un ejemplo de un modelo de da-
y el flujo de información. tos multidimensional y su gestión automati-
Los datos climatológicos utilizados proce- zada en una arquitectura de tres niveles.
den de la red termopluviométrica de la AE- La aplicación de esta metodología en el
MET (Agencia Estatal de Meteorología). A campo de la meteorología y la climatología
partir de los datos de precipitación se calcula es incalculable, se pueden incorporar cual-
el índice SPI siguiendo el método definido quier tipo de información directa o indirecta
por McKee et al. (1993). Se consideran di- (teleconexiones). El meteorólogo puede de-
ferentes patrones sinópticos utilizando los finir las condiciones y reglas de asociación
reanálisis de los campos de 500 hPa y 850 según las características del estudio que se
hpa del NCEP/NCAR (Kistler et al., 2001) esté realizando. Debido a la incorporación
(Figura 4). de gran cantidad de información, este méto-
A partir de los datos climatológicos se ge- do debe ser introducido gradualmente con
neran grids mensuales de precipitación, tem- mínimos cambios.
peratura y SPI a diferentes escalas (García- Es de vital importancia la correcta y óp-
Haro et al. 2008). Se utilizan entre 2.000 y tima parametrización de la base de datos. La
120

Informes / Consultas Análisis Minería de Datos
Herramientas
de Análisis
Cubo de Datos Servidor

OLAP
Servidor Almacén
Almacén Datos de Datos
Fuentes de Datos
Fig. 2. Arquitectura de 3-niveles del almacén de datos. (3-tier architecture in a data warehouse.)
Cuantificación Meteorológica/Climatológica
SEQUÍA Monitorización
Base de Datos
TOMA DE Índices climatológicos
DECISIONES Climatología sinóptica
Teledetección
Data Mining Diferentes escalas
temporales y espaciales
Modelos numéricos
(Humedad del suelo,
temperatura, radiación...)
INFORMACIÓN NO Usos de suelo, mapas

DIRECTAMENTE de vegetación, MDT...
METEOROLÓGICA
Fig. 3. Modelo de procesos.
técnica será mucho más eficiente si los datos a la circulación general de la atmósfera, así
son de una alta fiabilidad y de una máxi- como incorporar reanálisis del ECMWF.
ma precisión. Este modelo de datos mul- De esta forma podremos encontrar, por
tidimensional nos permitirá de una forma ejemplo, períodos de sequía precedidos por
eficiente y sencilla introducir parámetros determinados valores del SOI, MEI, PNA,
oceánicos, más estacionarios, que afecten NAO.
121

drought conditions in the Iberian Peninsula using
moderate and coarse resolution satellite data”, In
Proc. of the ‘2nd MERIS / (A)ATSR User Workshop’,
ESA SP-666, European Space Agency, Noordwijk,
The Netherlands, ISBN 978-92-9221-230-8, 7 pp.
Fig. 4. Reanálisis NCEP/NCAR de 1.000 y 500 hgt Han, J. (1997) “OLAP-Mining: An Integration of
correspondientes a julio de 1995. OLAP with Data Mining”, In Proc. IFIP Conference
on Data Semantics, Leysin, Switzerland, 1-11.
Han, J. (2001) “Data Mining: Concepts and
Techniques”, Morgan Kaufmann Publishers.
Hayes, M., Svoboda, M., Wilhite, D.,A. and
Vanyarkho (1999): “Monitoring the 1996 drought
usuing SPI”. Bulletin of American Meteorology
Society, 80, 429-438.
Inmon, W.H. (1996) “Building the Data
WareHouse”, John Wiley & Sons.
Lloyd-Hughes, B. and Saunders, M.A. (2002): “A
drought climatology for Europe”. International
Journal of Climatology, 22, 1571-1592.
Kistler R., Kalanay, E., Collins, W., Saha, S.,
White, G., Woollen, J.,Chelliah, M., Ebisuzaki,
W., Kanamitsu, M., Kousky, V., Van den Dool, H.,
Jenne, and Fiorino, M. (2001). “The NCEP-NCAR
50 year reanalysis: Monthly means CD-Rom
and documentation”. Bulletin of the American
Meteorology Society, 82, 247-267.
Fig. 5. Tipos de vegetación.
McKee, TB., Doesken, NJ. and Kliest, J. (1993):
“The relationship of driught frecuency and
duration to time scales”. Proceedings of the 8th
Conference of Applied Climatology, 17-22 January,
Bibliografía Anaheim, CA. American Meteorological Society:
Belda, F. (1997) “Climatología y teledetección Boston, MA; 179-184.
en zonas forestales de la provincia de alicante. Oladipio, EO. (1985): “A comparative performance
Aplicación a zonas incendiadas”. Tesis Doctoral. analysis of threee meteorological drought
Servei de publicacions de la Universitat de indices”. International Journal of Climatology, 5,
Valencia. ISBN: 84-370-3206-7. 655-664.
Belda F. and M.C. Penades. (2010) “Applying Penadés, M.C. (2002) “Una Aproximación
Data-Minig techniques to study drought periods Metodológica al Desarrollo de Flujos de Trabajo”.
in Spain”. 10th Annual Meetings of the EMS/8th Tesis Doctoral. Universidad Politécnica de
ECAC. Vol. 7. EMS2010-444. Valencia. Editorial: ProQuest. Information and
Codd, E.F., Codd, S.B., Salley, C.T. (1993) “Beyond Learning España.
Decision Support”, Computer World, 27. I.S.B.N.: 0-493-82722-6, 264 pp.
Fayyand, U.M., Piatetsky-Shapiro, G., Smyth, P., Penadés, M.C. (2005) “Workflow Mining”. Minería
Uthurusamy, R. (1996) “Advances in Knowledge de Datos: Técnicas y Aplicaciones. Ediciones de la
Discovery and Data Mining”, AAAI/MIT Press. UCLM, 187-212.
García-Haro, F.J. Belda, F. and Poquet, D. (2008). Thorn, H.C.S. (1966): “Some methods of
“Estimation of climatological variables in Spain Climatological Analysis”. WMO Technical Note. nº.
during 1950-2008 period using geostatistical 81,116-22.
techniques”, 8th Annual Meetings of the EMS/7th WMO. (1975): “Drought and Agriculture”.
ECAC. Abstracts. A-00319. Technical Note. Nº 138. WMO – Nº 392.
García-Haro, F. J., Belda, F., Gilabert Navarro, Young, K.C. (1992): “A three-Way Model for
M.A, Meliá, J., Moreno, A., Poquet, D., Pérez- Interpolating for Monthly Precipitation Values”.
Hoyos, A., Segarra, S. (2008b), “Monitoring Monthly Weather Review, 120, 2561-2569.
122

fundacionareces
fu
ffundacionareces.tv
un
un
ndacionareces
ndacionareces.tv
ndda
d ac
a ciio
ci on
o nareces
nareces.tv
na
n arre
a rec
ece
ces
es
s.t
s...tv
.t
tv
tv
Compartimos el Conocimiento
Más
Má
M ás de
ás de 22.
2.000000
0
00 00 co
00 conf
c
conferencias
onf
onfe
on
o nfe
n
nfffer
fe
erre
erenc
ere
e renc
enc
en
e nc ciia
cia
c ias
ias
as ma
magist
magis
m
magistrales
agist
agis
a
aggist
gi
gis
g isst
isstrales
str
trrale
trales
ttra
ral
ra
ales
ale
a les
les
es dede e expert
exp
expertos
xpe
xp
xpe
pertos
p
per
ertos
erto
er rtos
rt
tto
os e
os en
nSSalud
Sa
Sal
Salu
alud
al
alu
lud,
ud,
ud
IInnovación,
In
nnovación,
n
nn nov
n
no
ova
ovac
o
ov vac
v
vaac
ción
c
ci
ció
iión,
ón,
ó
ón n, Nu
n, Nue
Nueva
Nuev
N
Nuevas
uev
ueva
ue
uev
eva
vas
v
va as Te
as Tec
T
Tecnologías,
ecn
ec cnolo
cno
c nolo
noolo
olo
ol
llog
ogía
ogías,
o
og
gías,
gí
gías
gía
g íía
as,
as,
as s, N Nano
Nanoc
Nan
Na
Nanociencias
Nanociencias,
an
ano
nocie
n
no
noc
ocienc
oci
oc
ocie
ciencia
ien
encias,
e
enc
ncias,
ncia
ncias
cia
iias
ias,
as,
a s, A
s, Astronomí
As
Astro
Astr
Ast
Astron
Astronomía
stron
ttron
tronomía,
ro
onomía
onom
no
nom
omía,
mía ía
a,,
Biotecnología,
Bi
B
Bio
iio
ottte
o tecn
ecno
ecn
ec
cno
cnnolo
noologí
ol
olog
o llo
logí
ogía
o
oggía
gí
g íía
a, Ciencias
a, Cien
Cienc
Ci
C
Cieieenci
encias
en
enc
ncias
nc
ncicias
ci
cia
iias
ia
ass del
dell Mar,
de Mar
Mar,
Ma arrr,, Energía,
Energía
Energ
En
E
Ene
ner
ergía,
erg
rgía,
rgí
gía,
gíía,
ía
a,, Cambio
C
Cam
Ca
Camb
ambio
ambmbio
bio
bi o Climáti
Climático
Climático,
Climátic
Cli
Cl
Clim
C
Climámático
mátic
máti
áti
ático,
ático
i o,
Big
B
Biig
ig Data
Data,
Dat
D
Da
ata,
at
ata
atatta,
a, Ec
a, Eco
Econ
E
Economía,
Economía
cono
conomí
co
onom
on nom
no
omía
om mía,
mí
m
míaía
ía,
a,, Eco
Econ
Econo
E
Ec
Economí
Economía
co
con
onom
on
ononomí
no
nom
omía
ommíía de
m
mía de lala Edu
Educació
E
Ed
Educa
Educación,
Educación
duca
duca
ucación
cación,
c
caci
cac ción,
ci
ción
ón
ón,n, Cam
C
Cambio
Cambi
ambio
ambi
mbio
mbioio
Demográfi
Demográfico
D
Deemo
em
e
emográfico,
mog
mogr
mográfico
m
mo ográ
o
oggráfi
grá
gr
g ráfi
rá
áfifico,
ficc
co o, Bioeconomía,
o, Bioe
Bi
B
Bio
Bioeconomía
ioeco
ioe
iooecon
oec
oeecono
eco
ec conom
con
co
onom
ono
on nomía
nom
no
omía,
ommía,
m
mía ía,
a, Historia
Hi
Hist
H
His
Histo
storia
sto
tori
oria
oriria
ia
a Económica…
Económic
Ec
Econ
Eco
Económ
E
Económica
Económi
con
onómica…
onó
nómómica…
ómic
ómimica
mica…
ica
a
a…
Visítanos en fundacionareces.es o en fundacionareces.tv
y síguenos en
Comp
Com
Compartimos
C
Co
om
ompa
mpar
mpa
mp
parti
artim
artimos
a
art
arrtim
timos
tim
imo
mo
mos
oss el
el co
conoci
con
cono
c
conocimient
conocimiento
conocimien
onocimi
onoc
ono
nocimien
noci
ocim
cimiento
cimi
cim
imie
miento
mient
mien
ient
ento
nto
o

Diciembre 2015
Vitruvio, 5
28006 Madrid
España REVISTA DE CIENCIAS
www.fundacionareces.es Y HUMANIDADES
www.fundacionareces.tv
R E V I S TA D E C I E N C I A S Y H U M A N I DA D E S D E L A F U N DAC I Ó N R A M Ó N A R E C E S
BIG DATA
Impulsando el conocimiento Núm. 14

Big Data

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Big Data

Cargado por

Copyright:

Formatos disponibles

Diciembre 2015

AF_Cubiertas_BigData.indd 1 04/12/15 16:11

Visítanos en fundacionareces.es o en fundacionareces.tv

AF_Cubiertas_BigData.indd 2 04/12/15 16:11

4 EL FENÓMENO BIG DATA EN LA FUNDACIÓN RAMÓN ARECES,

Depósito Legal: M-51664-2009

© 2015 Fundación Ramón Areces

Conferencia disponible en fundacionareces.tv

AF_Especial_Num14.indd 3 07/12/15 16:25

AF_Especial_Num14.indd 4 07/12/15 13:44

Raimundo Pérez-Hernández y Torra

La Fundación Ramón Areces, siempre atenta a los desarrollos de vanguardia, ha hecho

Este número monográfico de nuestra revista incluye artículos y presentaciones

AF_Especial_Num14.indd 5 07/12/15 13:44

AF_Especial_Num14.indd 6 07/12/15 13:44

Por Julio Cerezo Gilarranz

Y, por supuesto, también han impactado notablemente en el mundo de la Ciencia, no

LA CIENCIA DE LOS DATOS

La Ciencia en sus inicios fue empírica, vinculada a la experiencia, y se centraba en

AF_Especial_Num14.indd 7 07/12/15 13:44

BIG DATA Y CLOUD, AL SERVICIO DE LA CIENCIA

El Big Data y la computación en la Nube no solamente ayudan a mejorar y optimizar

Analizar esta nueva realidad presente en el campo de la Ciencia fue el objetivo de la

primera jornada organizada por la Fundación Ramón Areces en la primavera de 2013; la

AF_Especial_Num14.indd 8 07/12/15 13:44

El volumen de los datos generados –junto a la velocidad, la variedad de su naturale-

Para entender de lo que estamos hablando, un ejemplo: el acelerador de partículas

AF_Especial_Num14.indd 9 07/12/15 13:44

El acceso a las infraestructuras y servicios de computación y la gestión de datos se

AF_Especial_Num14.indd 10 07/12/15 13:44

Internet, las redes sociales y la movili-

“El 90 por ciento de toda la informa-

AF_Especial_Num14.indd 11 07/12/15 13:44

AF_Especial_Num14.indd 12 07/12/15 13:44

EL BIG DATA Y LA CIENCIA

La jornada se estructuró en dos sesiones. Supercomputing Center) presentó e intro-

AF_Especial_Num14.indd 13 07/12/15 13:44

AF_Especial_Num14.indd 14 07/12/15 13:45

On-demand self-service Pay per use

Rapid elasticity Ubiquitous access

Fig. 1 / Source: http://www.telegrapgh.co.uk/technology/reviews/9241719/Power-Ethernet-Sockets-review.html.

AF_Especial_Num14.indd 15 07/12/15 13:45

Fig. 2 / Las e-infraestructuras. Conceptos asociados.

turadas no da respuesta a las necesidades Tomando la definición acuñada en 1999

corrió a cargo de Ignacio Blanquer, Depar- diante instrumentos o generada mediante

AF_Especial_Num14.indd 16 07/12/15 13:45

AF_Especial_Num14.indd 17 07/12/15 13:45

de trabajos, gracias a la disponibilidad de tadores, nubes y computación voluntaria.

cloud públicas o privadas. RES ha renovado recientemente sus recursos

AF_Especial_Num14.indd 18 07/12/15 13:45

AF_Especial_Num14.indd 19 07/12/15 13:45

tercer estadio de evolución, que representa variaciones de rendimiento o los cuellos de

AF_Especial_Num14.indd 20 07/12/15 13:45

Flexibility in scaling IT up and down 58.7%

Quicker time to market 43.5%

Cost savings on IT staffing/admin. 23.9%

Improved productivity 21.7%

Self service IT delivery 17.4%

guridad y privacidad de los datos terminan 3. Selección del proveedor. Para

AF_Especial_Num14.indd 21 07/12/15 13:45

circunstancia. se da en la multiplicidad de fuentes no dis-

AF_Especial_Num14.indd 22 07/12/15 13:45

Computer Storage Tape Computer Storage Tape