Está en la página 1de 15

Introduccin

Lejos de toda duda, vivimos en la era de la informacin. Se estima1 que


en el ao 2012 la capacidad instalada de almacenamiento de
informacin en el mundo alcanzar los 25 zetabytes2. El incremento de
la capacidad instalada de almacenamiento crecer en un 50% anual,

lo

que llevara a alcanzar los 100 zetabytes en 2020. El almacenamiento de


la informacin en formato electrnico, adems, est comenzando a
canibalizar la almacenada en formato papel, que lleva ya ms de una
dcada decreciendo.

1
2

Ver The Big Data opportunity, Policicy Exchange, 2012


Un zetabyte es equivalente a un trilln de gigabytes

Este crecimiento exponencial del volumen de informacin electrnico


almacenado en el mundo amenaza nuestra capacidad de procesar la
misma. Las bases de datos tradicionales y el procesamiento centralizado
de la informacin se muestran como tcnicas insuficientes para a hacer
cara a este fenmeno, que ha dado lugar al concepto de Big Data,
conjuntos de datos demasiado grandes para su tratamiento con
herramientas tradicionales de gestin de base de datos3.
El reto de hacer frente a un tratamiento efectivo de esta ingente
cantidad de informacin que permita extraer todo el valor de la misma,
afecta a todas las organizaciones, incluidas las Administraciones
Pblicas. Este artculo es una primera aproximacin a los retos y
oportunidades a los que nos enfrentamos.

Acotando el concepto de Big Data

Siempre es difcil identificar como surgen los conceptos y paradigmas


en un entorno rpidamente cambiante como el de las Tecnologas de la
Informacin. Big Data no supone una excepcin a esta regla, siendo
difcil identificar si surge como consecuencia o acompaante de otros
conceptos como el Open Data. Sin embargo, la popularizacin del
trmino viene, indudablemente, ligada al documento seminal del
concepto publicado por McKinsey Global Insitute (MGI) en Junio de
20114, donde se define como conjuntos de datos cuyo tamao va ms
all de la capacidad de captura, almacenado, gestin y anlisis de las
herramientas de base de datos.
La definicin de Big Data facilitada por el MGI tiene una orientacin
claramente tecnolgica, que se refleja insuficiente en organizaciones
3

Definicin de Big Data facilitada en The Big Data opportunity, Policicy Exchange, 2012

Big Data: The next frontier for innovation, competition and opportunity, McKinsey Global Institute,
2011

que buscan la aplicacin de la tecnologa para un objetivo concreto. De


igual modo, adolece de una caracterizacin clara del problema al que
nos enfrentamos en trminos diferenciadores respecto a la situacin
previa.
Desde la presentacin del trmino por el MGI han existido diversos
intentos de acotacin del concepto. Una de las aproximaciones ms
completas, y que usaremos como punto base de este artculo es la
facilitada por Gartner5.

Big data son activos de informacin caracterizados por su alto


volumen,

velocidad

variedad,

que

demandan

soluciones

innovadoras y eficientes de procesado para la mejora del


conocimiento y toma de decisiones en las organizaciones.

Como puede apreciarse, en la definicin

facilitada se realiza una

caracterizacin de la informacin, los requerimientos tecnolgicos que


presenta y los resultados que obtendremos de superarlos. Este artculo
trata de desgranar los mismos.

Realmente hablamos de un tipo distinto de informacin?

La caracterizacin de la informacin que realiza Gartner, captura la


principal diferencia de la informacin que nuestros sistemas han de ser
capaces de procesar respecto a la que tradicionalmente se enfrentaban.
Son, sin embargo, todos ellos conceptos relativos que permiten dar
estabilidad a la definicin. Esta relativizacin es importante, ya que lo
5

The importance of Big Data: A definition, Gartner, Junio 2012

que hoy consideramos un alto volumen, gran velocidad o elevada


variedad de formatos, resultar trivial el da de maana cuando nuestros
sistemas evolucionen de acuerdo a la Ley de Moore.
El reto que presenta el Big Data no son, aun siendo importantes, tanto
las tres Vs que popularmente le caracteriza (velocidad, volumen,
variedad), sino la complejidad de tratar los mismos. Esta complejidad
viene derivada de la multiplicidad
de fuentes de informacin que
inciden
organizacin

sobre

cualquier
y

estn

caracterizadas por estas 3 V. A las


tradicionales fuentes internas, ya
complejas de combinar en las
grandes organizaciones, se suman
las provenientes del exterior en
forma de Redes Sociales, actuando
como factor multiplicador las cada vez ms ubicuas tecnologas de
movilidad. Es decir, el mayor problema no es tanto el tamao de los
conjuntos de datos, sino la complejidad derivada de la variedad de
fuentes.
En definitiva, podemos identificar cuando saltamos de un entorno
tradicional de manejo de la informacin a un entorno Big Data de
observando los siguientes parmetros

Volumen: Las capacidades de nuestros sistemas tradicionales de


almacenamiento y procesamiento se ven sobrepasadas por la
cantidad de datos a tratar

Velocidad: Parte o toda la informacin la recibimos en tiempo real,


sin poder identificar un patrn en el ritmo de recepcin de la
misma

Variedad: No podemos establecer una tipologa o estructura de la


informacin, cuyo formato y estructura desconocemos hasta el
momento de su tratamiento

Complejidad: Carencia de relacin aparente entre las fuentes de


informacin sobre la que hemos de aplicar nuevas capacidades de
anlisis, de naturaleza distribuida y proveniente de varios actores

La diferenciacin expuesta queda resumida en la siguiente tabla.


Datos tradicionales

Big Data

Gigabytes/Terabytes

Volumen

Petabytes/Exabytes

Batch

Velocidad

Streaming

Estructurada

Variabilidad

Semiestructurada/desestructurada

Modelo

de

datos

Carencia de Esquemas

estable
Centralizados
Relacin conocida

Complejidad

Distribuidos
Ausencia de relacin

Es tambin importante resaltar que la informacin Big Data no queda


eximida de que realicemos controles ms tradicionales antes de
ofrecerla a los consumidores de la informacin. La calidad de la
informacin, su caducidad, clasificacin y cumplimiento con las
legislaciones diversas aplicables ha de ser mantenida dentro del entorno
de velocidad, variedad, volumen y complejidad. Slo manteniendo estos
controles en el nuevo entorno ser posible extraer todo el valor de la
informacin para las reas de negocio.
Mantener la calidad de la informacin resulta crtico en el entorno Big
Data. Una mayor disponibilidad de informacin, tanto en cantidad como
fuentes, no supone necesariamente una mayor utilidad, que slo es
cierta si sabemos mantener el balance entre cantidad y utilidad de la
informacin. En un smil con el mundo de la transmisin de la

informacin, podemos hablar de la necesidad de aumentar la seal sin


que ello signifique el aumento del ruido.
La velocidad que caracteriza al Big Data nos presenta tambin el reto de
mantener el valor temporal de la informacin.
Finalmente, las limitaciones de la legislacin son ms difciles de
mantener en este entorno. De un lado, la necesidad de mantener las
restricciones derivadas del mantenimiento de la privacidad. El temor a
su quebranto ha llevado a algunos crticos a hablar de Big Brother en
lugar de Big Data, apareciendo ciertamente nuevos dilemas ticos a raz
del aumento de las capacidades de tratamiento de la informacin. La
utilizacin para la prevencin del crimen o la aplicacin al mbito de la
investigacin en la salud, hace aparecer nuevas consideraciones en lo
referente a cundo la privacidad de los datos personales estn o no
supeditados a su valor para la comunidad. De otro lado, la variedad de
fuentes, y en muchos casos la ausencia de capacidad de control sobre el
contenido de la informacin que nos facilitan, puede llevarnos en su
tratamiento a rupturas no deseadas de las leyes de propiedad
intelectual.

El valor para el negocio

La explotacin del valor del Big Data no resulta trivial. Esta dificultad, ha
llevado a los analistas a concluir que durante el 2015 hasta el 85% de las
organizaciones del ranking Fortune 500 no sern capaces de ello 6.
Como suele suceder ante nuevos paradigmas, ello se deber en gran
medida en un desconocimiento relativo a cul es el valor que podemos
extraer del mismo.
6

From Data to Decision: Delivering value from Big Data, Gartner, Marzo 2012

La informacin slo es valiosa en la medida en la que sirva para mejorar


el negocio. Ello, como ya se indic anteriormente, implica la necesidad
de mantener la calidad en el entorno de disponibilidad de informacin
extrema que supone el Big Data. La mejora del negocio ser tanto mayor
en cuanto ms completa sea la informacin de la que disponemos,
pudiendo en caso contrario completarla con ms informacin. De no ser
as, no obtendremos la mejora de conocimiento que nos lleve a mejorar
el proceso de toma de decisiones en la organizacin, siendo los
recursos dedicados al Big Data carentes de valor.
El resultado del tratamiento del Big Data es informacin de mayor valor
aadido. Dicha informacin slo ser valiosa en la medida en que la
organizacin confe en su correccin. Es por ello necesario presentar la
misma sin ruptura en la cadena histrica de anlisis. El modelo de
informacin resultante ha de mostrarse slido en la perspectiva
histrica (hindsight), mostrndose vlido para entender el pasado; en la
perspectiva presente (insight), siendo concluyente para comprender la
situacin actual; proyectndose hacia el futuro (foresight), facilitando
modelos predictivos crebles. En la medida que seamos capaces de
mantener la continuidad entre las tres perspectivas, mantendremos la
confianza y el valor para el negocio de los resultados de la aplicacin del
paradigma Big Data.
La aplicabilidad del anlisis realizado permite a las organizaciones
obtener el valor del Big Data profundizando en los objetivos del
tratamiento de la informacin:

Mayor personalizacin: El aumento de la granularidad de la


informacin permite desplazar el rea de conclusiones del nivel
macro al nivel micro. Ello es importante, por ejemplo, en la
prestacin de cualquier servicio final al cliente, ya que facilita una
mayor personalizacin del mismo.

Ampliacin de la capacidad de resolucin de problemas: El mayor


volumen de datos junto con nuevos algoritmos permite descubrir

patrones hasta ahora ocultos en los datos. Nuevas correlaciones


que facilitan la resolucin de problemas antes irresolubles por
falta de capacidad.

Aprendizaje:

La

especialmente
establecer

combinacin

las

nuevos

externas

de
a

indicadores

fuentes

las
de

de

informacin,

organizaciones,
rendimiento

permite
de

las

organizaciones. El seguimiento de la evolucin de los mismos


aporta ms informacin de cmo mejorar las capacidades.

El valor para el negocio del Big Data depende en gran medida de las
caractersticas del mismo. No obstante, existen reas transversales
tradicionales de amplio espectro dnde son de aplicacin:

Motores de recomendaciones basados en cantidades masivas de


informacin de clientes, tales como los utilizados en redes
sociales y profesionales o en los vendedores online

Anlisis de sentimientos, a partir de los comentarios de un tema o


marca realizados en redes sociales

Modelizacin del riesgo, que permita el diseo de acciones


basado en datos histricos de larga serie y minimizando as las
posibilidades de fracaso

Deteccin de fraude, a partir de anlisis ms profundo de


transacciones y datos contextuales de las mismas y quien las
realiza

Marketing e influencia social, incorporando informacin de


tendencias y preferencias de mayor granularidad de un conjunto
mayor de potenciales clientes

Optimizacin y seguridad de redes de telecomunicaciones,


considerando los datos de una mayor cantidad de sondas dentro
de las herramientas de anlisis de redes y deteccin de
intrusiones

Todo el valor del Big Data depender, no obstante, de que sepamos


hacer uso de las tecnologas adecuadas y, sobre todo, adquiramos para
la organizacin las capacidades necesarias.

Nuevas tecnologas y nuevas capacidades para un nuevo paradigma

Las caractersticas especficas del Big data requiere innovaciones


tecnolgicas en todos los mbitos del tratamiento de la informacin.
Consecuentemente, nuevas herramientas en lo referente a la captura,
almacenamiento, acceso, anlisis y gestin de los datos que manejamos.
Las soluciones tecnolgicas para el procesamiento del Big data se
orientan al tratamiento paralelo de la informacin. Sobre todas ellas,
destaca Apache Hadoop, una
solucin

de

software

libre

diseada para el tratamiento de


hasta exabytes de datos distribuidos en mltiples nodos. Hadoop se ha
convertido en un estndar de facto sobre el que se desarrollan
herramientas comerciales por compaas tradicionales.
La solucin Hadoop se basa en un desarrollo de Google del ao 2009
denominado MapReduce, y que actua en dos fases. La primera fase,
Map, introduce una query en en el sistema de nodos. Determinados en
que nodos estn los datos relevantes, se les hace llegar la query, y la
procesan en paralelo. En la fase Reduce, se recopilan las respuestas de
cada nodo individual para componer la respuesta final a la pregunta
inicial.

Est

respuesta

es

analizada

con

respuestas

de

anlisis

especficas.
El sistema de almacenamiento, dado el carcter no estructurado de la
informacin se apoya en bases de datos no relacionales, denominadas

tambin

bases

de

datos

NoSQL. Estn

orientadas

almacenar

informacin dee diversa tipologa, y que no encaja con el modelo de


tablas usado en las bases de datos relacionales. Adicionalmente, se
caracterizan por su capacidad de escalado horizontal, lo que les
convierte en elemento ideal para una infraestructura Big Data. Entre las
implementaciones

de

software

libre

de

bases

de

datos NoSQL

existentes, es acompaante habitual de Apache Hadoop la base de


datos Apache Cassandra.
No obstante, los expertos consideran ms problemtico que la
tecnologa necesaria para el despliegue de las soluciones Big Data la
disponibilidad de las capacidades para explotarla. Ms all del
conocimiento

especfico

de

la

tecnologa

subyacente,

siempre

problemtico cuando se produce un cambio de paradigma, las


organizaciones requieren de un nuevo perfil profesional: El analista o
cientfico de datos. El profesional del anlisis de datos debera aunar
tres caractersticas bsicas: Gestin de datos, modelado de anlisis y
anlisis de negocio. Adicionalmente, dada la diversidad de fuentes de la
que es necesario dotar a los proyectos Big Data para extraer
plenamente su valor, el perfil adecuado de este profesional debe
incorporar caractersticas propias
de los entornos de trabajo open,
tal

como

la

comunicacin,

creatividad, colaboracin y pasin.


Es

de

prever

inicialmente

una

extrema carencia de profesionales


con el perfil adecuado para ser
analista de datos. En su estudio
seminal de la disciplina Big Data7,
McKinsey estimaba que, en USA,
habra en el ao 2018 una carencia
7

Big Data: The next frontier for innovation, competition and opportunity, McKinsey Global Institute,
2011

del 50%-60% de la demanda de analistas de datos que sera necesario


cubrir. Este hueco entre oferta y demanda afectara tambin al nivel
directivo. Las decisiones basadas en datos, aunque ampliamente
valoradas hasta el punto que un 84% de los directivos reconocen haber
tomado alguna8, requieren de un nuevo tipo de perfil de mando. La
formacin a futuros directivos para evitar el cuestionamiento del trabajo
de los analistas de datos resulta crtica. Dada la automatizacin de
decisiones tcticas o estratgicas de bajo alcance que puede derivarse y
que vean los mismos como una amenaza a su posicin.

Big Data y Administracin Pblica

Las Administraciones Pblicas son unas de las reas de negocio donde


se estima que el concepto Big Data tendr mayor aplicabilidad. Tres
razones existen para ello. De un lado, las Administraciones Pblicas es
uno de los sector de negocio que ms gasta en infraestructuras de
almacenamiento a nivel mundial. Es ms, se espera que la tendencia
contine, de tal modo que en el ao 2016 las Administraciones Pblicas
sean un 20% de los 43,7 billones9 de dlares de volumen de negocio que
ser para entonces este mercado.
De otro lado, las Administraciones Pblicas son, probablemente, el
sector de negocio con mayor volumen de Dark Data. Este tipo de datos
agrupa a aquellos generados en el desempeo de la actividad habitual
de negocio, que si bien no se analizan o procesan, son almacenados por
cuestiones regulatorias o por prevencin.

Global survey: Is Big Data producing big returns?, Avanade, Junio 2012

En todo el artculo, se toma como equivalencia al billn la interpretacin anglosajona de 1.000 millones

Finalmente, existen amplias sinergias entre el concepto de Big Data y


polticas

pblicas

ya

impulsadas

en

un

gran

nmero

de

Administraciones. Tanto el impulso de la reutilizacin de la informacin


del sector pblico como cmo la promocin del gobierno abierto son
dos tendencias con puntos de contacto con el Big data.
Ejemplos potenciales de aplicacin del concepto de los grandes datos en
las Administraciones Pblicas podran ser los tres siguientes:

Gestin del rendimiento en tiempo real, facilitando a los gestores


polticos datos mltiples de acciones automatizadas y no
automatizadas que suceden en la Administracin Pblica. Un
ejemplo podra ser el desarrollo de una campaa concreta de
recepcin de escritos ciudadanos por diversos medios, como
puede ser la anual campaa del IRPF

Lucha

contra

el

fraude

fiscal,

combinado

los

datos

de

declaraciones de impuestos con datos administrativos de otra


ndole (por ejemplo, pensiones o empleo) o provenientes del
mundo privado (por ejemplo, informacin capturada en webs de
ventas de activos inmobiliarios)

Salud, realizando un anlisis conjunto de historiales mdicos


anonimizados a fin de identificar tendencias y patrones en
enfermedades y epidemias

Personalizacin de servicios, realizando a los ciudadanos una


oferta proactiva de la Administracin Electrnica a partir de los
datos

disponibles,

aunque

esto

requerira

para

su

plena

explotacin algn tipo de reforma en el marco legal de proteccin


de datos personales

El estudio seminal de McKinsey mencionado varias veces a lo largo de


este artculo, eran identificados tres grandes reas de impacto
econmico para las Administraciones Pblicas derivados de la aplicacin
del concepto Big Data. Estas reas son los ahorros derivados de una

mayor eficiencia, las reducciones en fraudes y errores, y las mejoras en


la

recoleccin

de

impuestos.

La

consultora

estimaba

en

aproximadamente entre 150 y 300 billones de Euros los beneficios


econmicos anuales para la Unin Europea.
El impacto econmico en el caso de Espaa en estos mismos mbitos lo
calculamos siguiendo dos aproximaciones. Una primera aproximacin
es estimando que el potencial impacto econmico para Espaa sera
proporcional al peso de su PIB en la Unin Europea. De acuerdo a los
datos

del

Eurostat10,

aproximadamente

un

en

2011

8,5%

del

el

PIB
PIB

nominal
de

la

de
Unin

Espaa

es

Europea.

Consecuentemente, el impacto econmico sobre la Administracin


espaola sera aproximadamente entre 12,75 billones de Euros y 25,5
billones de Euros.
Una segunda aproximacin puede realizarse aplicando los mismos
multiplicadores que aplica McKinsey en su estudio a los datos
macroeconmicos espaoles, siguiendo las pautas que han sido
seguidas en informes dentro del Reino Unido11. Ello nos lleva a una
estimacin ms modesta del potencial impacto del Big Data en la
Administracin pblica Espaola, situado entre los 6,7 billones de Euros
y los 14,8 billones de Euros.

Base para anlisis (billones)


Alcance posible
Ahorros potenciales
Total (billones)

Mejora de eficiencia
Reduccin de fraudes y
Incremento impuestos
operativa
errores
170,8
145,2
225,9
20%
25%
1%
3%
5%
10% Potencial impacto en la
15%
20%
30%
40%
10%
20% Administracin espaola
5,1
8,5
0,4
1,7
1,1
4,5
6,7
14,8
Min
Max
Min
Max
Min
Max
Min
Max

La necesidad de crear nuevas infraestructuras y de adquirir nuevas


capacidades tecnolgicas y de anlisis, hace del Big Data un objeto
10

Ver http://epp.eurostat.ec.europa.eu/portal/page/portal/national_accounts/data/main_tables

11

The Big Data opportunity, Policy Exchange, Junio 2012

natural de un Centro de Competencia especfico. Ello conllevara la


ventaja de evitar duplicidad de esfuerzo en una materia novedosa y,
adems, es necesario dado que el mayor potencial valor de un proyecto
Big data es directamente proporcional a la diversidad de las fuentes de
datos utilizadas.

Conclusiones

El paradigma Big Data es una consecuencia de nuestro tiempo, del


desarrollo de ms de una dcada de la Sociedad de la Informacin. Es
quizs el fruto que ms va a contribuir a que recojamos sus beneficios.
Nuevas capacidades y tecnologas es necesario para ello, tambin
nuevos modelos organizativos, pero no explotar su potencial sera
equivalente a no realizar el sprint final en una carrera de fondo.
Big Data nos plantea nuevos retos, especialmente en el mbito de las
Administraciones Pblicas dnde tanta informacin manejamos. Pero los
beneficios anunciados exigen que los asumamos como medio de
conseguir mejores y ms eficientes organizaciones que sean capaces de
facilitar servicios ms personalizados y efectivos.

También podría gustarte